주요 내용
- 환각은 구조적입니다: 대규모 AI 모델은 진짜 단어가 아닌 가장 가능성 있는 다음 단어를 예측합니다.
- 교육으로는 문제를 해결할 수 없습니다: 웹 규모 데이터는 불완전하고 일관성이 없으며 잘못된 경우가 많습니다. 모델은 이러한 오류를 충실하게 학습합니다.
- RLHF가 상황을 더욱 악화시킵니다: 강화 학습은 유용성과 자신감을 최적화하여 정직한 불확실성보다 그럴듯한 추측을 보상합니다.
- 완화는 제거가 아니라 감소입니다: RAG, 도구 호출 및 감지 계층은 위험을 관리하는 데 도움이 되지만 근본적인 문제를 해결할 수는 없습니다.
신뢰의 역설
2025년 12월, 법률 연구원들은 놀라운 추세를 기록했습니다. 하루에 4~5개의 새로운 법원 사건이 존재하지 않는 AI 생성 법적 판례를 인용합니다. 수년간의 경고와 여러 번의 세간의 이목을 끄는 당혹감에도 불구하고 변호사들은 판례법을 조작하여 브리핑을 계속 제출하고 있습니다. 문제는 부주의가 아닙니다. 문제는 AI가 너무 자신감 있게 들린다는 것이다.
이는 현대 인공 지능의 핵심인 환각 역설을 보여줍니다. 변호사 시험과 의료 면허 시험에 합격한 것으로 유명한 동일한 모델이 동시에 완벽한 자신감을 가지고 가짜 법원 사건을 만들어내고 있습니다. GPT-5, Claude 3.5 및 Gemini Ultra는 이전 제품보다 훨씬 더 뛰어난 성능을 발휘하지만 여전히 성능이 뛰어납니다.
왜? 환각은 패치될 버그가 아니기 때문이다. 이는 이러한 시스템이 구축되는 방식의 구조적 결과입니다.
LLM의 실제 작동 방식: 다음 토큰 머신
대규모 AI 모델은 실제로 무엇을 합니까? 핵심적으로 LLM은 다음 토큰 예측 엔진입니다. 일련의 단어(또는 토큰)가 주어지면 다음에 올 내용에 대한 확률 분포를 계산하고 가장 가능성이 높은 후보를 선택합니다.
매우 정교한 자동 완성 기능처럼 생각해보세요. “프랑스의 수도는 다음과 같습니다.”라고 입력하면 모델은 수십억 개의 문서에서 다음 토큰이 “파리”여야 함을 학습했습니다. 이는 잘 문서화된 사실에 대해 효과적으로 작동합니다.
문제는 세 가지 시나리오에서 나타납니다.
1. 모델에 불완전한 정보가 있습니다.
모호한 19세기 법적 판례나 틈새 과학 현상에 대해 질문하면 훈련 데이터에 부분적이거나 상충되는 사례가 포함되거나 관련 사례가 전혀 없을 수 있습니다. 모델은 자신이 모른다는 것을 모릅니다. 아키텍처에는 불확실성이라는 개념이 없습니다. 따라서 훈련된 대로 수행합니다. 즉, 통계적으로 가장 그럴듯한 연속을 출력합니다.
그 연속은 완벽한 형식의 가짜 사례 인용일 수 있습니다. 유창함은 진짜입니다. 사실은 그렇지 않습니다.
2. 긴 형식 생성 시 오류 캐스케이드
자동회귀 모델은 한 번에 하나의 토큰을 생성하여 각 출력을 다음 예측의 입력으로 다시 공급합니다. 이것은 깨지기 쉬운 체인을 만듭니다. 모델이 응답 초기에 하나의 잘못된 토큰(잘못된 날짜, 환각적인 이름)을 생성하는 경우 모든 후속 토큰은 이제 손상된 컨텍스트에 따라 조건이 지정됩니다.
오류가 복합적으로 발생합니다. 첫 번째 단락의 한 번의 실수로 인해 다섯 번째 단락에서 완전히 조작된 이야기가 나올 수 있습니다. 모델에는 역추적 및 검증을 위한 메커니즘이 없습니다.
3. 목표는 진실이 아닌 생산이다
근본적인 문제: LLM은 주장의 정확성이 아니라 텍스트 시퀀스의 가능성을 최대화하도록 훈련되었습니다. 손실 함수는 훈련 데이터처럼 보이는 출력을 보상합니다. 외부 현실에 대한 개념도 없고, 진실에 근거한 것도 없으며, 조작이 유창하다면 확신에 찬 조작에 대한 처벌도 없습니다.
이것이 현재 패러다임 하에서 환각이 수학적으로 불가피한 이유입니다. 모델의 목적은 항상 추측하는 것입니다. 불확실성을 표현하는 것은 말 그대로 객관적이지 않습니다.
훈련 데이터 문제
아키텍처를 넘어서 데이터 자체가 손상되었습니다. 현대 LLM은 Common Crawl, Wikipedia, Reddit, 학술 논문 및 그 사이의 모든 것을 포함한 광범위한 인터넷 자료를 교육합니다. 이 데이터는 다음과 같습니다
불완전: 롱테일 영역(모호한 법률, 틈새 과학 주제, 지역 행사)이 과소 대표됩니다. 이에 대한 타겟 질문을 받으면 모델은 보간해야 합니다.
일관되지 않음: 인터넷은 끊임없이 모순됩니다. 서로 다른 출처에서는 동일한 사건에 대해 서로 다른 사실을 주장합니다. 모델은 모든 버전을 학습하며 올바른 버전에 대한 중재자가 없습니다.
오래됨: 학습 데이터에 마감 날짜가 있습니다. 컷오프 후 이벤트에 대해 질문을 받으면 모델은 현재 정보에 액세스할 수 없습니다. 그들은 오래된 패턴에서 추론하며 종종 최근의 발전을 완전히 환각합니다.
중독: 훈련 자료에는 잘못된 정보, 잘못된 인용문, 노골적인 조작이 존재합니다. 모델은 이를 유효한 패턴으로 학습합니다. 변호사가 ChatGPT에서 생성된 가짜 사례를 인용한 유명한 Mata 대 Avianca 사건은 ChatGPT가 어떤 것이 진짜인지 배우지 않고 타당한 법적 인용이 어떤 모습인지 학습했기 때문에 발생했습니다.
RLHF: 잘못된 것을 최적화하기
인간 피드백을 통한 강화 학습(RLHF)이 도움이 될 것으로 예상되었습니다. OpenAI, Anthropic 등은 인간의 선호도 평가에 대한 모델을 훈련하여 더 유용하고 무해하며 정직한 결과를 만드는 것을 목표로 했습니다.
그러나 RLHF는 잘못된 인센티브를 도입했습니다. 인간 평가자는 위험이 있고 불확실한 답변보다 자신감 있고 완전한 답변을 선호하는 경향이 있습니다. “사용 가능한 정보에 따르면 대답은 X인 것으로 보이지만 확실성은 제한적입니다.”라고 말하는 응답은 “답은 X입니다.”라고 말하는 응답보다 점수가 낮습니다.
모델은 이것을 학습합니다. 자신감이 보상을 받기 때문에 자신감을 위해 최적화됩니다. 그 결과, 완전히 조작되었을 수도 있는 그럴듯하고 권위 있게 들리는 답변이 탄생했습니다.
이것이 훈련 인센티브 문제이다. AI를 더욱 유용하게 만들기 위해 설계된 동일한 메커니즘은 AI가 무지를 인정하기보다는 자신있게 추측하도록 적극적으로 장려합니다.
현재 완화 조치가 부족한 이유
AI 업계는 환각을 줄이기 위해 여러 가지 전략을 개발했습니다. 그들 모두가 도움이 됩니다. 그들 중 누구도 문제를 해결하지 못합니다.
검색 증강 생성(RAG)
RAG 시스템은 검색 구성 요소를 LLM에 연결합니다. 응답을 생성하기 전에 시스템은 선별된 지식 기반을 검색하고 검색된 문서의 출력을 기반으로 합니다. Thomson Reuters 및 LexisNexis와 같은 법률 AI 공급업체는 “벽으로 둘러싸인 정원” 접근 방식을 사용하여 검증된 판례법만 인용하도록 모델을 제한합니다.
이렇게 하면 환각이 극적으로 줄어들지만 완전히 사라지지는 않습니다. 모델은 검색된 문서를 잘못 해석하거나, 실제 소스 간의 연결을 착각하거나, 검색 결과가 불완전한 경우 세부 정보를 조작할 수 있습니다. RAG는 또한 새로운 실패 모드를 생성합니다. 관련 문서가 검색 색인에 없는 경우 모델은 발명으로 공백을 채울 수 있습니다.
도구 호출 및 접지
일부 시스템에서는 LLM에게 외부 도구(계산기, 데이터베이스, API)에 대한 액세스 권한을 부여하여 실시간으로 청구를 확인합니다. 이는 사실 조회에 도움이 되지만 자체 오류 표면이 발생합니다. 모델은 도구를 언제 사용할지, 어떤 도구를 사용할지 정확하게 결정해야 합니다. 도구 출력을 환각하거나 실제 출력을 잘못 해석할 수 있습니다.
환각 감지 레이어
최신 기업 전략은 환각을 감지하기 위해 보조 AI를 배포하는 것입니다. 예를 들어 Clearbrief는 “가짜 사례에 대한 맞춤법 검사”라고 스스로 홍보합니다. 이는 제출하기 전에 위조된 인용이 있는지 법적 서류를 스캔하는 검증 레이어 역할을 합니다.
이는 현실을 인정합니다. 기본 모델은 환각을 느낄 것입니다. 유일한 질문은 환각이 피해를 입히기 전에 이를 포착할 수 있는지 여부입니다. 유효한 전략이지만 구조적 상처에 반창고를 붙이는 셈이다.
신뢰성 관리의 경제학
2025년까지 기업 채택은 실용적인 프레임워크로 자리 잡았습니다. 환각은 해결해야 할 문제가 아니라 다른 품질 지표와 마찬가지로 관리해야 할 위험으로 간주됩니다.
저위험 애플리케이션(마케팅 카피, 브레인스토밍, 코드 스텁)의 경우 환각이 허용됩니다. 창의적인 추론은 버그가 아닌 기능인 경우가 많습니다. 제품 설명이 약간 과장되어 있어도 아무도 다치지 않습니다.
고위험 애플리케이션(법률 신고, 의료 진단, 정부 제출)의 경우 기업은 RAG, 도구 호출, 사람 확인, 탐지 시스템과 같은 계층화된 방어를 배포합니다. 목표는 환각 제로가 아니라 허용되는 환각 비율입니다.
이러한 계층형 접근 방식은 업계 표준이 되었습니다. Thomson Reuters와 LexisNexis는 개방형 질문에 대한 환각이 “0이 될 수 없다”고 명시적으로 고객에게 말합니다. 그들은 자신들의 시스템을 완벽하지 않은 것이 아니라 낮은 위험이라고 홍보합니다.
그 의미는 중요합니다. 신뢰와 채택은 이제 신뢰성을 입증하는 것이 아니라 비신뢰성을 관리하는 데 달려 있습니다. 기업은 AI의 한계가 수정될 때까지 기다리지 않고 AI의 한계를 중심으로 워크플로를 구축하고 있습니다.
신뢰 부족
이로 인해 신뢰 문제가 커졌습니다. 2025년 APA 조사에 따르면 AI 도구 채택이 증가함에도 불구하고 심리학자들 사이에서 AI 부정확성과 환각에 대한 우려가 2024년 약 50%에서 2025년 약 3분의 2로 증가한 것으로 나타났습니다.
패턴은 직업 전반에 걸쳐 반복됩니다. 의사, 변호사, 연구원 및 분석가는 AI를 덜 신뢰하면서 AI를 더 많이 사용하고 있습니다. 모든 환각, 모든 조작된 인용, 자신 있게 잘못된 모든 진단은 이러한 도구를 유용하게 만드는 신뢰성을 약화시킵니다.
이는 신뢰성이 없는 역량의 역설입니다. AI 시스템은 이제 전문 라이센스 시험을 통과할 수 있지만, 전문가들은 점점 더 인간의 검토가 필요한 검증되지 않은 초안으로 자신의 결과물을 취급하고 있습니다.
필드가 향하는 곳
현재 패러다임 내에서 환각을 해결할 수 없다면 다음 단계는 무엇입니까?
컨텍스트 엔지니어링 및 오케스트레이션
2025년의 지배적인 전략은 LLM을 정교한 오케스트레이션 계층으로 래핑하는 것입니다. 엔지니어들은 모델의 정확성을 요구하는 대신 모델의 자유도를 제한하는 시스템을 설계합니다. 프롬프트는 신중하게 작성되었습니다. 검색 시스템의 범위는 엄격합니다. 출력은 여러 검증 패스를 통해 검증됩니다.
이것이 “컨텍스트 엔지니어링”입니다. 즉, LLM이 애초에 환각을 느낄 가능성을 줄이도록 입력 및 작업 흐름을 구조화하는 기술입니다. 효과가 있지만 상당한 엔지니어링 투자와 도메인 전문 지식이 필요합니다.
New Architectures
환각을 근본적으로 줄일 수 있는 아키텍처에 대한 연구가 계속되고 있습니다. Some proposals include:
- 불확도 정량화: 예측과 함께 신뢰도 점수를 출력하는 모델
- 검색 기본 모델: 외부 접지가 볼트로 고정되지 않고 아키텍처에 구워지는 시스템
- 루프 내 검증: 응답하기 전에 외부 소스에 대해 자체 출력을 확인하도록 훈련된 모델
이들 중 어느 것도 생산 규모를 달성하지 못했습니다. 예측과 진실 사이의 근본적인 긴장은 아직 해결되지 않은 상태로 남아 있습니다.
Regulatory Pressure
환각으로 인한 피해(법적 과실, 의료 오류, 잘못된 정보)가 누적되면서 규제에 대한 관심이 높아지고 있습니다. 일부 관할권에서는 AI 생성 콘텐츠가 공식 문서에 사용될 때 공개를 요구하기 시작했습니다. 다른 사람들은 시스템 성능이 저하될 때 책임을 사용자에서 AI 공급업체로 옮기는 책임 프레임워크를 모색하고 있습니다.
규제는 기술적인 문제를 해결하지는 못하지만 경제적인 측면을 변화시킬 수 있습니다. 벤더가 환각으로 인한 피해에 대해 책임을 지게 되면 완화에 대한 투자가 가속화될 것입니다.
이것이 당신에게 의미하는 것
전문적인 용도로 AI 도구를 평가하는 경우 핵심 질문은 “이것이 환각을 일으키는가?”가 아닙니다. (현재의 모든 시스템이 그렇습니다) 그러나 “환각을 일으키면 어떻게 되나요?”
고위험 사용 사례: 완화 전략에 대한 투명성을 요구합니다. RAG 시스템에 어떤 지식 기반이 제공되나요? 어떤 검증 레이어가 존재합니까? 특정 사용 사례에 대해 문서화된 환각 비율은 얼마입니까? 사람의 확인 없이 AI 생성 콘텐츠를 제출하지 마세요.
일반적인 생산성을 위해: 어느 정도의 발명을 타협의 일부로 받아들입니다. AI 결과물을 최종 제품이 아닌 첫 번째 초안으로 취급합니다. 겉으로 보기에는 평범해 보이는 작업이라도 워크플로에 검증 기능을 구축하세요.
기술팀의 경우: 컨텍스트 엔지니어링에 투자하세요. 신뢰할 수 있는 AI 워크플로와 책임의 차이는 기본 모델의 기능이 아니라 시스템을 래핑하고, 제한하고, 검증하는 방식에 있는 경우가 많습니다.
불편한 진실
AI 환각은 더 나은 모델이 고칠 수 있는 일시적인 당혹감이 아닙니다. 이는 인센티브가 잘못 조정된 불완전한 데이터에 대해 훈련된 다음 토큰 예측의 구조적 결과입니다. 기능이 향상될 때마다(더 많은 매개변수, 더 많은 훈련 데이터, 더 나은 RLHF) 모델을 더 안정적으로 만들지 않고도 더 유용하게 만들었습니다.
그렇다고 AI가 쓸모없다는 뜻은 아니다. 생산성 향상은 현실입니다. 능력은 놀랍습니다. 그러나 “일반 인공지능”을 둘러싼 과대광고는 근본적인 한계를 모호하게 만듭니다. 즉, 이러한 시스템은 무엇이 진실인지 모릅니다. 그들은 가능한 것만 알고 있습니다.
누군가가 통계가 아닌 현실에 대한 예측을 기반으로 하는 아키텍처를 발명할 때까지 환각은 계속 남아 있을 것입니다. 수정해야 할 버그가 아니라 이러한 시스템이 작동하는 방식의 기능입니다.
문제는 AI가 환각을 보일지 여부가 아닙니다. 문제는 그렇게 될 때를 대비하고 있는지 여부입니다.
🦋 Discussion on Bluesky
Discuss on Bluesky