💡AI 환각은 단순히 기술적 오류가 아닌, AI를 평가하는 우리의 방식이 낳은 결과입니다. 현재 평가 시스템은 정답에만 점수를 줘, AI가 불확실해도 일단 추측하도록 유도합니다. 맹목적 신뢰보다 중요한 것은 '잘 쓰는 능력'입니다. AI의 정보를 비판적으로 검증하고, AI가 자신의 한계를 인정할 때 오히려 신뢰할 수 있다는 것을 이해해야 합니다.
최근 OpenAI의 한 논문이 '왜 언어 모델은 환각을 일으키는가(Why Language Models Hallucinate)'라는 흥미로운 질문을 던졌습니다. 논문은 AI가 그럴듯하지만 사실과 다른 내용을 마치 진실처럼 자신 있게 말하는 현상인 '환각'을 단순한 기술적 오류가 아닌, AI를 훈련하고 평가하는 우리 방식의 문제라고 분석합니다.
핵심은 바로 '평가 방식'에 있습니다. 현재의 평가 시스템은 AI가 정답을 맞혔을 때만 점수를 주고, '모르겠다'고 답하면 불이익을 줍니다. 마치 객관식 시험에서 답을 모를 때 일단 찍는 학생처럼, AI는 정답을 '추측'하도록 유도되는 것입니다. 이는 AI가 불확실한 상황에서도 일단 답을 내놓도록 학습되는 통계적 메커니즘을 낳습니다.
논문이 제시하는 AI 환각의 원인과 해결책
논문은 AI 환각의 근본적인 원인을 두 가지로 설명합니다.
- 사전 훈련(Pretraining) 단계의 오류: 방대한 데이터로 사전 훈련을 하는 과정에서, 모델은 '유효한(valid) 답변'을 생성하는 것보다 '유효성(validity)을 분류하는 것'이 더 쉽다고 학습합니다. 훈련 데이터에 오류가 없더라도, 통계적 메커니즘이 오류를 생성하게 만든다는 것입니다.
-
후속 훈련(Post-training) 단계의 문제: 후속 훈련은 환각을 줄이는 것을 목표로 하지만 , 현재의 이진법(binary) 평가 방식이 오히려 환각을 지속시키는 주요 원인이라고 지적합니다. '정답이거나 오답'이라는 이분법적인 채점 방식이 AI에게 '기권'하는 것을 불리하게 만들기 때문입니다.
논문은 이러한 문제를 해결하기 위해 평가 방식의 변화를 제안합니다. 모델이 추측 대신 불확실성을 인정하도록 보상하는 방향으로 평가 기준을 수정해야 한다는 것입니다. 이는 정확도 향상보다 훨씬 적은 컴퓨팅 자원을 소모하면서도 더 신뢰할 수 있는 AI 시스템을 만드는 길을 열어줄 것입니다.
AI 환각에 대한 우리의 자세: '맹신'보다 '잘 쓰는 사람' 되기
이 논문은 AI의 환각이 단순히 기술적 발전만으로 완전히 해결될 수 있는 문제가 아닐 수 있음을 시사합니다. 그렇다면 우리는 어떤 자세로 AI를 활용해야 할까요?
- 교차 검증은 필수: AI가 생성한 모든 내용을 무조건적으로 신뢰해서는 안 됩니다. 특히 중요한 정보나 데이터는 반드시 다른 신뢰할 수 있는 출처를 통해 검증해야 합니다.
- 명확한 프롬프트 작성: 질문이 모호할 경우, AI가 '모른다'고 답하도록 프롬프트에 명시하는 것도 좋은 방법입니다. 예를 들어, "만약 답을 모른다면, '답변할 수 없습니다'라고 말해주세요"와 같은 지시를 추가할 수 있습니다.
- AI의 불확실성 인정: AI가 "모르겠다"고 답하는 것을 실패로 간주하지 않고, 오히려 신뢰할 수 있는 시스템의 지표로 인식해야 합니다. 이는 AI가 자신의 한계를 명확히 알고 있다는 증거이기 때문입니다.
가끔은 AI가 내놓은 정보를 검증하는 과정에서 뜻밖의 아이디어를 얻거나 새로운 관점을 발견하기도 합니다. 이는 마치 우리가 인간관계에서 다양한 사람의 의견을 경청하며 문제를 해결할 실마리를 찾고 창의적인 생각을 키우는 것과 같습니다. AI도 마찬가지입니다. AI를 그 자체로 답이라고 여기기보다, 생각의 확장을 돕는 도구로 활용할 때 진정한 가치가 빛을 발합니다.
실험 결과 및 데이터 요약
논문은 다양한 실험을 통해 현재의 평가 방식이 환각을 어떻게 부추기는지 보여줍니다. 특히, 기권에 대한 점수 부여 여부가 모델의 성능에 미치는 영향을 분석했습니다.
표 1: 주요 평가 벤치마크와 기권에 대한 점수 부여 방식
벤치마크 이름 | 채점 방식 | 이진법 채점 여부 | 기권(IDK)에 대한 점수 |
---|---|---|---|
GPQA | 객관식 정확도 | 예 | 없음 |
MMLU-Pro | 객관식 정확도 | 예 | 없음 |
IFEval | 프로그램적 지시 확인 | 예 | 없음 |
Omni-MATH | 동일성 채점 | 예 | 없음 |
WildBench | LM 채점 기준 | 아니요 | 부분적으로만 부여 |
BBH | 객관식 / 정답 일치 | 예 | 없음 |
SWE-bench | 패치 통과 여부 | 예 | 없음 |
HLE | 객관식 / 동일성 채점 | 예 | 없음 |
논문은 대부분의 벤치마크가 기권에 불이익을 주는 이진법 채점 방식을 사용한다고 강조합니다. 이로 인해 모델은 불확실한 상황에서도 일단 추측하는 쪽을 선택하게 됩니다.
표 2: GPT-4 훈련 전후의 보정 곡선 비교
모델 상태 | ECE(Expected Calibration Error) |
---|---|
사전 훈련된 모델 | 0.007 |
후속 훈련된 모델(PPO) | 0.074 |
이 데이터는 사전 훈련 단계의 모델이 비교적 잘 보정되어(well-calibrated) 있다는 것을 보여줍니다. 하지만 강화 학습(PPO)과 같은 후속 훈련을 거치면서 보정 오류가 크게 증가합니다. 이는 모델이 신뢰할 수 있는 답변을 제공하는 능력보다는, 불확실한 상황에서도 자신 있게 답변하도록 훈련되었음을 시사합니다.
결론적으로, AI의 환각은 단순히 기술만의 문제가 아닙니다. AI를 평가하고 훈련하는 인간의 방식, 그리고 불확실성을 용납하지 않는 우리의 문화가 낳은 결과일 수 있습니다. AI의 답변을 맹목적으로 믿기보다, 그 정보를 제대로 판단하고 활용하는 ‘잘 쓰는 사람’이 되는 것이 중요합니다.
플라뇌르의 질문
Q. 기권률이 높은 GPT-5는 왜 사용자 만족도가 낮아질까요? 기권률이 높아서일까요? 아니면 이는 실제 사람 간의 커뮤니케이션과 밀접한 관계가 있을까요?
이 논문에 따르면, AI의 '맹목적인 추측'은 현재의 평가 시스템이 '정확한 답'에만 점수를 주고 '모르겠다'고 답하는 기권에 불이익을 주기 때문에 발생합니다. 따라서, 기권률이 높은 AI 모델은 사용자가 원하는 답변을 제공하지 않는다고 느껴지기 때문에 사용자 만족도가 낮아질 수 있습니다. 이는 실제로 인간관계와 유사한 측면이 있습니다. 우리는 잘 알지 못하는 주제에 대해 솔직하게 '모르겠다'고 말하는 사람보다, 자신 있게 그럴듯한 '추측'을 말하는 사람에게 더 끌리는 경향이 있습니다. 비록 나중에 그 정보가 틀린 것으로 밝혀질지라도 말입니다.
*예로, GPT5 시스템 카드에서 SimpleQA 평가를 예시로 살펴보자 (출처: openai.com)
정확도 측면에서 구형 OpenAI o4-mini 모델이 약간 더 우수한 성능을 보입니다. 그러나 오류율(즉, 환각 발생률)은 현저히 높습니다. 불확실할 때 전략적으로 추측하는 것은 정확도를 높이지만 오류와 환각을 증가시킵니다.
Metric | gpt-5-thinking-mini | OpenAI o4-mini |
Abstention rate (no specific answer is given) |
52% | 1% |
Accuracy rate (right answer, higher is better) |
22% | 24% |
Error rate (wrong answer, lower is better) |
26% | 75% |
Total | 100% | 100% |
Q. 아무 말도 안 하는 것보다는 뭐라도 말하는 게 나은가?
논문의 핵심 주장 중 하나는 "기권하는 것보다 일단 추측하는 것이 예상 점수를 극대화한다"는 것입니다. 현재 대부분의 AI 평가 방식은 정답이면 1점, 오답이나 기권은 0점을 부여하는 이진법(binary) 채점 방식을 사용합니다. 이러한 환경에서는 오답을 말할 확률이 기권하는 것보다 낫기 때문에, AI는 뭐라도 말하도록 학습됩니다. 하지만, 논문은 이러한 방식이 신뢰성을 떨어뜨린다고 지적합니다. AI가 자신의 한계를 인정하고 불확실성을 표현하는 것(즉, '모르겠다'고 말하는 것)이 오히려 신뢰할 수 있는 시스템의 중요한 지표라고 강조합니다. 따라서, 장기적인 관점에서는 신뢰를 구축하기 위해 "아무 말도 안 하는" 것이 "틀린 말을 하는" 것보다 더 나을 수 있습니다.
참고논문 : Why Language Models Hallucinate