OpenAI와 Georgia Tech의 연구원들은 대규모 언어 모델의 환각이 완벽한 데이터에서도 사전 훈련에서 발생하는 본질적인 통계적 오류임을 입증했습니다. 그들의 분석에 따르면, 지나친 확신을 가진 거짓 정보의 지속은 주로 불확실성 표현에 불이익을 주는 현재의 평가 벤치마크에 의해 주도되며, 이는 명시적인 확신 목표를 통한 평가 개혁 제안으로 이어집니다.
목차
언어 모델의 환각 이해
언어 모델은 놀라운 능력을 달성했지만, 그럴듯하지만 틀린 진술을 계속 생성합니다. 이는 환각(hallucination)으로 알려진 현상입니다. OpenAI와 조지아 테크 연구자들이 발표한 이 논문은 이러한 오류가 발생하는 이유와 지속되는 이유를 이해하기 위한 엄격한 이론적 틀을 제공하며, 모델 개발 및 평가에 대한 기존 접근 방식에 도전합니다.

위 그림은 언어 모델이 저지르는 다양한 유형의 오류를 보여줍니다. 단순한 철자 오류부터 생일에 대한 복잡한 사실 오류에 이르기까지, 모델이 정교한 훈련에도 불구하고 다양한 영역에서 어려움을 겪는 방식을 보여줍니다.
환각의 통계적 본질
저자들은 환각을 신비로운 실패가 아닌 예측 가능한 통계적 오류로 근본적으로 재구성합니다. 그들은 비지도 학습을 지도 학습으로 전환하는 새로운 이론적 환원을 통해 사전 훈련 단계에서 환각이 자연스럽게 발생한다는 것을 입증합니다.
핵심 통찰은 "유효성 확인(Is-It-Valid, IIV)" 이진 분류 문제를 정의하는 것입니다. 여기서 언어 모델은 문자열을 참 분포에서 나온 유효한 출력 또는 오류 출력으로 분류합니다. 저자들은 핵심 관계를 증명합니다.
\text{생성 오류율} \geq 2 \cdot \text{IIV 오분류율}
$$
이 부등식은 유효한 출력을 생성하는 것이 그 유효성을 분류하는 것만큼 어렵다는 것을 보여주며, 환각을 지도 학습에서 잘 이해된 오분류 오류와 연결합니다.
사전 훈련 오류의 원인
연구는 환각을 피할 수 없게 만드는 몇 가지 근본적인 요인을 식별합니다.
임의의 사실 (인식론적 불확실성): 특정 생일이나 무작위적인 사실 연관성처럼 학습 가능한 패턴이 없는 정보의 경우, 모델은 암기에 의존해야 합니다. 저자들은 훈련 데이터에 한 번만 나타나는 사실의 비율인 "단일 항목 비율(singleton rate)"을 예상 환각률의 하한으로 제시합니다. 훈련 데이터에 특정 사실에 대한 충분한 예시가 포함되어 있지 않으면 모델은 이를 안정적으로 재현할 수 없습니다.
부실한 모델: 불충분한 모델 용량 또는 부적절한 아키텍처는 체계적인 오류를 초래합니다. 예를 들어, 단순한 n-그램 모델은 장거리 의존성을 포착할 수 없으며, 일부 언어 모델은 다른 영역에서의 정교함에도 불구하고 문자 계산과 같은 기본적인 작업에서 어려움을 겪습니다.
추가 요인: 이 프레임워크는 계산적 어려움, 훈련과 추론 간의 분포 변화, 훈련 데이터의 노이즈("Garbage In, Garbage Out")도 포함합니다.
평가 문제
중요한 발견은 광범위한 사후 훈련 및 정렬 절차 후에도 환각이 지속되는 이유를 다룹니다. 저자들은 현재의 평가 벤치마크가 부적절한 불확실성 표현보다는 무의식적으로 지나친 자신감으로 추측하는 것을 장려한다고 주장합니다.
GPQA, MMLU-Pro 및 SWE-bench를 포함한 10가지 주요 LLM 벤치마크 분석을 통해, 그들은 사실상 모든 벤치마크가 "모르겠습니다"와 같은 응답으로 불확실성을 표현하는 것에 대해 점수를 주지 않는 이진(0-1) 채점 방식을 사용한다는 것을 보여줍니다. 이러한 채점 시스템에서는 수학적으로 최적의 전략은 불확실할 때에도 항상 추측하는 것이며, 기권하는 것이 아닙니다.
저자들은 이 직관에 반하는 결과를 공식적으로 증명합니다: 이진 채점 하에서 정답에 대한 어떤 믿음이라도 기권보다 추측이 기대 점수 측면에서 엄격하게 우수하게 만듭니다. 이는 모델이 정직한 불확실성보다는 지나치게 확신하는 거짓말에 대해 보상을 받는 체계적인 유인 불일치를 만듭니다.
보정 분석


위에 제시된 보정 곡선은 중요한 패턴을 보여줍니다: 사전 훈련된 모델(하단)은 0.007에 불과한 예상 보정 오차(ECE)로 우수한 보정 성능을 보여주며, 이는 모델의 신뢰도 점수가 정답일 확률을 정확하게 반영한다는 것을 의미합니다. 그러나 후속 훈련 최적화(상단) 후에는 ECE가 0.074로 급격히 증가하는데, 이는 정렬(alignment) 절차가 다른 측정 지표를 개선하는 동시에 실제로 보정 성능을 악화시킬 수 있음을 나타냅니다.
사회-기술적 해결책
복잡한 아키텍처 변경이나 훈련 수정 사항을 제안하기보다, 저자들은 평가 개혁에 초점을 맞춘 "사회-기술적" 완화 방안을 제안합니다. 그들은 기존 벤치마크에 명시적인 신뢰도 목표와 미묘한 채점 방식을 통합할 것을 권장합니다.
예를 들어, 이진적인 정답/오답 채점 대신, 평가는 다음을 수행할 수 있습니다.
- 불확실성을 적절히 표현한 경우 부분 점수 부여
- 모델이 충분히 확신할 때만 점수를 받는 신뢰도 임계값 구현
- 불확실한 답변보다 지나치게 확신하는 오답에 더 높은 페널티 부과
이 접근 방식은 모델이 항상 답을 내놓으려고 시도하기보다는, 적절히 확신할 때만 정보를 제공하도록 학습하는 "행동적 보정"을 달성하는 것을 목표로 합니다.
시사점 및 향후 방향
이 연구는 LLM 평가 및 개발의 현재 패러다임에 근본적으로 도전합니다. 환각 현상이 부분적으로 언어 모델링 자체의 통계적 특성에서 비롯됨을 보여줌으로써, 단순히 모델을 확장하거나 데이터셋을 정제하는 것만으로는 이 문제를 완전히 제거할 수 없음을 시사합니다.
제안된 평가 개혁은 AI 개발에서 문화적 변화를 주도하여, 확신에 찬 추측에 보상하는 성능 지표보다 진실성과 적절한 불확실성 표현을 우선시하는 모델을 장려할 수 있습니다. 이는 사실적 정확성과 한계에 대한 투명성이 중요한 의료, 금융, 법률 분야의 고위험 애플리케이션에 특히 중요합니다.
이 연구는 또한 AI 시스템이 평가되는 측정 지표에 맞춰 최적화된다는 더 넓은 원칙을 강조합니다. 이러한 측정 지표가 진실성 및 겸손함과 같은 인간의 가치와 일치하지 않을 때, 아무리 정교한 훈련 절차라도 의도치 않게 바람직하지 않은 행동을 조장할 수 있습니다. 이 통찰은 환각 현상을 넘어 AI 정렬 및 안전의 다른 측면으로 확장됩니다.
엄격한 이론적 토대와 실용적인 구현 전략을 모두 제공함으로써, 이 연구는 잠재적으로 잘못된 정보를 확신 있게 제시하기보다는 불확실성을 적절히 표현할 수 있는 더욱 신뢰할 수 있는 AI 시스템을 향한 길을 제시합니다.
'AI-ML > LLM' 카테고리의 다른 글
| EntropyLong: 예측 불확실성을 통한 효과적인 장문맥 훈련 (0) | 2025.11.04 |
|---|---|
| 언어 모델은 단사적이며 따라서 가역적이다 (1) | 2025.11.04 |
| 논문 요약해서 읽어보기(feat. LLM) (0) | 2025.10.11 |
| LLM 평가의 4가지 주요 접근법 이해하기 (0) | 2025.10.06 |
| 논문 읽어보기 - Learning to Reason as Action Abstractions with Scalable Mid-Training RL (0) | 2025.10.05 |