언어 모델이 환각을 일으키는 이유
TMTOpenAI에서는 AI 시스템을 더욱 유용하고 신뢰할 수 있도록 만들기 위해 열심히 노력하고 있습니다. 언어 모델의 성능이 점점 향상되고 있지만, 한 가지 문제는 여전히 완전히 해결하기 어렵습니다. 바로 환각(hallucination)입니다. 이는 모델이 자신 있게 사실이 아닌 답변을 생성하는 경우를 의미합니다. 우리의 새 연구 논문은 언어 모델이 환각을 일으키는 이유가 표준 훈련 및 평가 절차가 불확실성을 인정하기보다 추측을 보상하기 때문이라고 주장합니다.
ChatGPT 역시 환각을 일으킵니다. GPT‑5는 특히 추론 시 환각이 크게 줄었지만, 여전히 발생합니다. 환각은 모든 대형 언어 모델의 근본적인 과제이며, 우리는 이를 더욱 줄이기 위해 노력하고 있습니다.
환각이란 무엇인가요?
환각은 언어 모델이 그럴듯하지만 사실이 아닌 답변을 생성하는 현상입니다. 이는 겉보기에는 간단한 질문에서도 놀라운 방식으로 나타날 수 있습니다. 예를 들어, 널리 사용되는 챗봇에 Adam Tauman Kalai(이 논문의 저자)의 박사 논문 제목을 물었더니, 세 가지 다른 답변을 자신 있게 내놓았지만 모두 틀렸습니다. 그의 생일을 물었을 때도 세 가지 다른 날짜를 제시했지만 역시 모두 틀렸습니다.
시험에 맞춰 가르치기
환각이 지속되는 이유 중 하나는 현재의 평가 방식이 잘못된 인센티브를 제공하기 때문입니다. 평가 자체가 환각을 직접적으로 유발하지는 않지만, 대부분의 평가는 모델의 성능을 측정할 때 정직하게 불확실성을 인정하기보다 추측을 장려하는 방식으로 이루어집니다.
이를 객관식 시험에 비유해 볼 수 있습니다. 답을 모를 때 무작정 찍으면 운이 좋으면 맞출 수도 있습니다. 빈칸으로 남기면 무조건 0점입니다. 마찬가지로, 모델이 정확도(정답을 맞춘 비율)만으로 평가된다면, “모르겠다”고 답하는 것보다 추측하는 것이 더 유리합니다.
또 다른 예로, 언어 모델에게 누군가의 생일을 물었는데 모른다고 가정해 봅시다. “9월 10일”이라고 추측하면 365분의 1 확률로 맞출 수 있습니다. “모르겠다”고 답하면 무조건 0점입니다. 수천 개의 시험 문제에서 추측하는 모델은 신중하게 불확실성을 인정하는 모델보다 점수가 더 높게 나옵니다.
정답이 하나뿐인 질문에서는 세 가지 답변 유형을 생각해 볼 수 있습니다: 정확한 답변, 오류, 그리고 추측하지 않고 답변을 유보하는 경우(기권). 기권은 **겸손(humility)**의 일부이며, 이는 OpenAI의 핵심 가치 중 하나입니다. 대부분의 점수판은 정확도를 기준으로 모델을 우선순위로 두고 순위를 매기지만, 오류는 기권보다 더 나쁩니다. 우리의 Model Spec에서는 잘못된 정보를 자신 있게 제공하기보다는 불확실성을 표시하거나 추가 설명을 요청하는 것이 더 낫다고 명시합니다.
구체적인 예로 SimpleQA 평가와 GPT5 System Card의 사례를 들어보겠습니다.
| 지표 | gpt-5-thinking-mini | OpenAI o4-mini |
|---|---|---|
| 기권률 (특정 답변 없음) | 52% | 1% |
| 정확도 (정답률, 높을수록 좋음) | 22% | 24% |
| 오류율 (오답률, 낮을수록 좋음) | 26% | 75% |
| 합계 | 100% | 100% |
정확도만 보면 구형 OpenAI o4-mini 모델이 약간 더 좋습니다. 하지만 오답률(즉, 환각률)은 훨씬 더 높습니다. 불확실할 때 전략적으로 추측하면 정확도는 높아지지만, 오류와 환각도 증가합니다.
수십 개의 평가 결과를 평균 내면 대부분의 벤치마크는 정확도만을 뽑아내는데, 이는 정답과 오답만을 구분하는 잘못된 이분법을 초래합니다. SimpleQA와 같은 단순 평가에서는 일부 모델이 거의 100% 정확도를 달성해 환각을 없앨 수 있습니다. 하지만 더 어려운 평가나 실제 사용에서는 정보 부족, 소형 모델의 한계, 명확하지 않은 질문 등 다양한 이유로 정확도가 100%에 도달할 수 없습니다.
그럼에도 불구하고 정확도만을 중시하는 점수판이 리더보드와 모델 카드에서 지배적이어서, 개발자들은 추측하는 모델을 만들도록 동기부여를 받습니다. 이것이 모델이 더 발전해도 여전히 환각을 일으키는 이유 중 하나입니다. 즉, 불확실성을 인정하기보다 틀린 답을 자신 있게 내놓는 것입니다.
더 나은 평가 방식
해결책은 간단합니다. 자신감 있게 틀린 답변(오답)에 대해 불확실성을 표시한 답변보다 더 큰 페널티를 주고, 적절하게 불확실성을 표현한 경우에는 부분 점수를 주는 것입니다. 이 아이디어는 새로운 것이 아닙니다. 일부 표준화 시험에서는 이미 오답에 대해 감점하거나 빈칸에 부분 점수를 주는 방식으로 무작정 찍는 것을 방지하고 있습니다. 여러 연구 그룹도 불확실성과 보정(calibration)을 반영한 평가 방식을 연구해 왔습니다.
우리의 주장은 다릅니다. 단순히 몇 가지 불확실성 인식 평가를 추가하는 것만으로는 충분하지 않습니다. 널리 사용되는 정확도 기반 평가 자체를 추측을 억제하는 방식으로 바꿔야 합니다. 주요 점수판이 계속해서 운 좋은 추측을 보상한다면, 모델은 계속해서 추측하는 법을 배우게 됩니다. 점수판을 고치면 환각 감소 기술의 도입이 더 넓어질 수 있습니다. 이는 새로 개발된 기술뿐만 아니라 기존 연구의 기술에도 해당됩니다.
환각은 어떻게 다음 단어 예측에서 발생하는가
환각이 왜 이렇게 없애기 어려운지에 대해 이야기했지만, 이런 구체적인 사실 오류는 처음에 어떻게 생기는 걸까요? 대형 사전학습 모델은 맞춤법 오류나 괄호 불일치 같은 다른 종류의 오류는 거의 보이지 않습니다. 그 차이는 데이터에 어떤 패턴이 있는지에 달려 있습니다.
언어 모델은 먼저 _사전학습(pretraining)_을 통해 엄청난 양의 텍스트에서 다음 단어를 예측하는 과정을 거칩니다. 기존 머신러닝 문제와 달리 각 문장에 “참/거짓” 라벨이 붙어 있지 않습니다. 모델은 유창한 언어의 긍정적 예시만 보고 전체 분포를 근사해야 합니다.
유효한 문장과 무효한 문장을 구분하는 것은, 무효 예시가 전혀 없을 때 두 배로 어렵습니다. 라벨이 있더라도 일부 오류는 불가피합니다. 왜 그런지 더 단순한 비유로 설명해 보겠습니다. 이미지 인식에서 수백만 장의 고양이와 개 사진에 “고양이” 또는 “개”라고 라벨을 붙이면 알고리즘은 이를 신뢰성 있게 분류할 수 있습니다. 하지만 각 반려동물 사진에 반려동물의 생일을 라벨로 붙인다고 상상해 보세요. 생일은 본질적으로 무작위이기 때문에, 이 작업은 알고리즘이 아무리 발전해도 항상 오류가 발생합니다.
사전학습에서도 같은 원리가 적용됩니다. 맞춤법이나 괄호는 일관된 패턴을 따르므로, 규모가 커지면 오류가 사라집니다. 하지만 반려동물의 생일처럼 임의적이고 빈도가 낮은 사실은 패턴만으로 예측할 수 없으므로 환각이 발생합니다. 우리의 분석은 어떤 종류의 환각이 다음 단어 예측에서 발생하는지 설명합니다. 이상적으로는 사전학습 이후의 추가 단계에서 이를 제거해야 하지만, 앞서 설명한 이유로 완전히 성공하지는 못합니다.
결론
우리 논문에서 제시한 통계적 관점이 환각의 본질을 명확히 하고, 흔한 오해를 바로잡는 데 도움이 되기를 바랍니다:
- 주장: 정확도를 높이면 환각이 사라진다. 100% 정확한 모델은 절대 환각을 일으키지 않는다.
발견: 정확도는 절대 100%에 도달하지 않는다. 모델 크기, 검색 및 추론 능력과 관계없이, 현실 세계의 일부 질문은 본질적으로 답을 알 수 없다. - 주장: 환각은 불가피하다.
발견: 그렇지 않다. 언어 모델은 불확실할 때 답변을 유보할 수 있다. - 주장: 환각을 피하려면 더 큰 모델만이 가능한 수준의 지능이 필요하다.
발견: 작은 모델이 자신의 한계를 아는 것이 더 쉬울 수 있다. 예를 들어, 마오리어 질문에 대해 아무것도 모르는 작은 모델은 “모르겠다”고 답할 수 있지만, 일부 마오리어를 아는 모델은 자신감을 판단해야 한다. 논문에서 논의했듯이, “보정(calibration)”은 정확성보다 훨씬 적은 계산을 필요로 한다. - 주장: 환각은 현대 언어 모델의 신비한 결함이다.
발견: 우리는 환각이 어떻게 통계적 메커니즘을 통해 발생하고, 평가에서 보상받는지 이해하고 있다. - 주장: 환각을 측정하려면 좋은 환각 평가만 있으면 된다.
발견: 환각 평가가 이미 발표되었다. 하지만 좋은 환각 평가가 수백 개의 기존 정확도 기반 평가에 비해 효과가 거의 없다. 기존 평가는 겸손을 페널티로, 추측을 보상한다. 따라서 모든 주요 평가 지표를 불확실성 표현을 보상하는 방식으로 재설계해야 한다.
최신 모델은 환각률이 더 낮으며, 우리는 언어 모델이 자신감 있게 오류를 내놓는 비율을 더욱 줄이기 위해 계속 노력하고 있습니다.
Appendix - Why Language Models Hallucinate(paper)
https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf
언어 모델의 환각은 통계적 훈련 방식과 평가 방법의 불일치에서 비롯됩니다.
언어 모델이 환각을 일으키는 이유
이 논문은 언어 모델(LLM)이 불확실할 때 추측을 하도록 훈련되고 평가받기 때문에, 그럴듯하지만 잘못된 답변(환각)을 생성한다고 주장합니다. 모델이 불확실성을 인정하기보다는 추측하도록 통계적으로 유도되어 신뢰성과 유용성이 저하됩니다.
“우리는 언어 모델이 불확실성을 인정하기보다 추측하도록 훈련 및 평가 절차가 보상하기 때문에 환각이 발생한다고 주장하며, 현대 훈련 파이프라인에서 환각의 통계적 원인을 분석합니다.”
환각의 통계적 기원
- 사전 훈련(Pretraining): 훈련 데이터가 완전히 정확하더라도, 사전 훈련에서 사용하는 통계적 목표(예: 교차 엔트로피 손실) 때문에 모델은 오류를 생성하게 됩니다. 이는 이진 분류 문제로 환원하여 설명되며, 유효한 출력을 생성하는 것이 분류하는 것보다 더 어렵고, 생성 오류율은 분류 오류율과 수학적으로 연결되어 있습니다.
- 싱글턴 비율(Singleton Rate): 훈련 데이터에서 한 번만 등장하는 사실의 비율이 환각 발생의 하한선을 결정합니다. 예를 들어, 생일 정보 중 20%가 한 번만 등장한다면, 해당 쿼리의 최소 20%는 환각될 수 있습니다.
“유효한 출력을 생성하는 것은 출력의 유효성을 분류하는 것보다 더 어렵습니다. 이 환원 덕분에 생성 모델의 오류 메커니즘을 기계 학습 이론의 관점에서 이해할 수 있습니다.”
사후 훈련(Post-training) 이후에도 환각이 지속되는 이유
- 평가의 불일치: 대부분의 벤치마크와 리더보드는 이진 채점(정답/오답)을 사용하여 불확실성 표현을 페널티로 간주하고, 추측을 보상합니다. 항상 추측하는 모델이 불확실성을 인정하는 모델보다 더 높은 점수를 받으므로 환각이 지속됩니다.
- 사회-기술적 문제: 이진 평가 기준이 불확실성 표현을 페널티로 만드는 “전염병”을 일으킵니다. 이를 해결하려면 환각 평가를 추가하는 것만으로는 부족하며, 기존 주요 평가 기준에서 불확실성(예: “모르겠다” 응답)에 대한 페널티를 없애야 합니다.
“모델 B는 불확실성을 신호하고 결코 환각하지 않는 모델 A보다 0-1 채점 기준에서 더 높은 성능을 보입니다. 이는 불확실성과 기권에 페널티를 주는 ‘전염병’을 만듭니다.”
관련 연구 및 이론적 연결
- 이 논문은 감독 학습(이진 분류)과 비감독 학습(밀도 추정) 사이의 새로운 환원을 제시하며, 보정된 모델에서는 환각이 통계적으로 불가피함을 보여줍니다.
- 기존 연구는 과신, 무작위성, 노출 편향, 컨텍스트 하이재킹 등 다양한 원인을 다뤘지만, 평가 인센티브의 역할을 깊이 다루지 않았습니다.
오류 요인
- 임의 사실(Arbitrary Facts): 사실이 무작위적이고 패턴이 없을 때, 모델은 필연적으로 추측해야 하며 환각이 발생합니다.
- 모델의 한계(Poor Models): 모델의 표현력이 부족하거나 적합도가 낮으면 오류가 증가합니다.
- 기타 요인: 계산적 난이도, 분포 변화, 잘못된 데이터(GIGO) 등도 환각에 영향을 줍니다.
평가 및 환각 완화 방안
- 현재 벤치마크: 대부분의 인기 벤치마크(MMLU-Pro, GPQA, SWE-bench, HLE 등)는 이진 채점을 사용하며, 불확실성 표현이나 기권에 점수를 주지 않습니다.
- 제안된 해결책: 기존 평가에 명시적 신뢰도 기준을 도입하여, 모델이 불확실하거나 모를 때 페널티 없이 기권하거나 불확실성을 표현할 수 있도록 해야 합니다. 이렇게 하면 인센티브가 재정렬되어 환각이 줄어듭니다.
“주류 평가의 간단한 수정만으로도 불확실성 표현을 보상할 수 있으며, 환각 억제의 장벽을 제거할 수 있습니다.”
한계 및 향후 방향
- 통계적 프레임워크는 환각의 모든 뉘앙스(불확실성의 정도, 오픈엔디드 생성 등)를 포착하지 못합니다.
- 검색 기반 모델(RAG)은 환각을 줄일 수 있지만, 평가 인센티브가 여전히 중요합니다.
- 더 풍부한 화용론적 능력과 언어적 보정이 신뢰할 수 있는 AI에 필요합니다.