链接已复制!

为什么人工智能幻觉仍然无法解决

尽管GPT-5、Claude和Gemini取得了进展,但人工智能幻觉仍然是一个核心的结构性问题。这个问题已经融入到这些模型的构建方式中,无法通过更多的数据或更大的参数数量来解决。

🌐
机器翻译

本文由英文原文自动翻译而成。 阅读英文原文

人工智能神经网络的概念可视化,其中碎片化、故障输出代表幻觉

核心要点

  • 幻觉是结构性的:大型 AI 模型预测的是最可能的下一个词,而不是真实的下一个词
  • 训练无法解决它:网络规模的数据不完整、相互矛盾,而且常常是错误的。模型会忠实地学习这些错误
  • RLHF 让情况更糟:强化学习优化的是有用性和自信心,这会奖励看似合理的猜测,而非坦诚的不确定性
  • 缓解措施只能降低,不能消除:RAG、工具调用和检测层有助于管理风险,但无法解决根本问题

自信的悖论

2025 年 12 月,法律研究人员记录了一个令人震惊的趋势:每天有四到五起新的法庭案件引用了并不存在的、由 AI 生成的法律判例。尽管多年警告以及多起备受瞩目的尴尬事件,律师们仍在提交包含虚构判例的辩护状。问题不在于粗心。问题在于 AI 听起来太自信了。

这揭示了现代人工智能核心的幻觉悖论。那些因通过律师资格考试和医学执照考试而备受赞誉的模型,同时也能充满自信地编造虚假法庭案例。GPT-5、Claude 3.5 和 Gemini Ultra 的能力远超前辈,但它们仍然会编造内容。

为什么?因为幻觉不是可以修补的漏洞。它是这些系统构建方式的结构性后果。

LLM 究竟如何工作:下一个 token 机器

大型 AI 模型实际上做了什么?其核心是,LLM 是一个“下一个 token 预测引擎”。给定一段文字序列(或 token),它会计算接下来内容的概率分布,并选择最可能的候选。

把它想象成一个极其复杂的自动补全。当你输入“The capital of France is”时,模型已经从数十亿文档中学到,下一个 token 应该是“Paris”。对于有充分记录的事实,这非常有效。

问题在三种情况下出现:

1. 模型掌握的信息不完整

如果询问一个鲜为人知的 19 世纪法律先例,或一个冷门科学现象,训练数据可能只包含部分、相互矛盾,甚至零相关的例子。模型不知道自己不知道。它的架构里没有内置不确定性的概念。因此它做它被训练去做的事:输出统计上最合理的延续。

这种延续可能是一份格式完美的虚假判例引用。流畅度是真实的,但事实不是。

2. 长文本生成中的错误级联

自回归模型一次生成一个 token,将每个输出反馈作为下一次预测的输入。这形成了一条脆弱的链条。如果模型在回复早期生成了一个错误的 token(一个错误的日期、一个虚构的名字),之后每一个 token 都基于被污染的上下文进行条件预测。

错误会累积。第一段中的一个失误,可能在第五段催生出一个完全虚构的叙述。模型没有回溯和验证的机制。

3. 目标是生成文本,而非真相

根本问题在于:LLM 被训练来最大化文本序列的似然度,而非论断的准确性。损失函数奖励那些看起来像训练数据的输出。它没有外部现实的概念,没有扎根于真相,只要编造流畅,就不会因自信的虚构而受到惩罚。

这就是为什么在当前范式下,幻觉在数学上是不可避免的。模型的目的就是永远猜测。表达不确定性,按字面理解,就是偏离目标。

训练数据的问题

除了架构,数据本身也存在问题。现代 LLM 在庞大的互联网语料上训练:Common Crawl、Wikipedia、Reddit、学术论文,以及介于两者之间的一切。这些数据具有以下特点:

不完整:长尾领域(鲜为人知的法律、冷门科学话题、本地事件)代表性不足。当被问及这些领域的具体问题时,模型必须进行插值。

不一致:互联网 constantly 自相矛盾。不同来源对同一事件宣称不同的事实。模型学习了所有版本,却没有仲裁者来判断哪个正确。

过时:训练数据有截止日期。当被问及截止日期之后的事件时,模型无法获取当前信息。它们根据旧有模式推断,常常完全虚构近期发展。

被污染:训练语料中存在错误信息、错误归属的引用以及彻头彻尾的虚构。模型把这些当作有效模式来学习。著名的 Mata v. Avianca 案中,一名律师引用了 ChatGPT 生成的虚假案例,原因就在于 ChatGPT 学会了看似合理的法律引用长什么样,却没学会哪些是真的。

RLHF:优化错了目标

来自人类反馈的强化学习(RLHF)本应有所帮助。通过根据人类偏好评分训练模型,OpenAI、Anthropic 等公司希望让输出更有用、无害且诚实。

但 RLHF 引入了一种反常的激励。人类评分者往往更喜欢自信、完整的回答,而不是含糊、不确定的回答。一个回答如果说“根据现有信息,答案似乎是 X,但确定性有限”,得分会低于直接说“答案是 X”的回答。

模型学会了这一点。它优化自信,因为自信会得到奖励。结果是:听起来合理、权威的回复,却可能完全是编造的。

这就是训练激励问题。这个旨在让 AI 更有帮助的机制,反而积极鼓励它自信地猜测,而不是承认无知。

为何现有缓解措施仍显不足

AI 行业已经开发出几种减少幻觉的策略。它们都有帮助,但都无法解决问题。

检索增强生成(RAG)

RAG 系统为 LLM 附加一个检索组件。在生成回复之前,系统会搜索经过整理的知识库,并将输出建立在检索到的文档之上。Thomson Reuters 和 LexisNexis 等法律 AI 供应商采用“围墙花园”方法,将模型限制为只能引用已验证的判例法。

这能大幅减少幻觉,但不会消除它们。模型仍可能误解检索到的文档,在真实来源之间虚构联系,或在检索返回不完整结果时编造细节。RAG 还会带来新的故障模式:如果相关文档不在搜索索引中,模型可能会用虚构来填补空白。

工具调用与外部 grounding

一些系统让 LLM 访问外部工具(计算器、数据库、API)来实时验证论断。这有助于事实查找,但也引入了自身的错误面。模型必须正确决定何时使用工具以及使用哪个工具。它可能虚构工具输出,或误解真实的输出。

幻觉检测层

最新的企业策略是部署次级 AI 来检测幻觉。例如,Clearbrief 将自己定位为“虚构案例的拼写检查”。它作为验证层,在提交前扫描法律辩护状中的虚构引用。

这承认了现实:基础模型会产生幻觉。唯一的问题是,你是否能在幻觉造成损害之前发现它们。这是一种有效的策略,但只是对结构性伤口的创可贴。

管理不可靠性的经济学

到 2025 年,企业采用已经形成了一套务实框架。幻觉不再被当作需要解决的问题,而是被当作需要管理的风险,就像其他任何质量指标一样。

对于低风险应用(营销文案、头脑风暴、代码片段),幻觉是可以容忍的。创造性推断通常是一种特性,而不是缺陷。如果产品描述稍微有点夸张,没人会受伤。

对于高风险应用(法律文件、医疗诊断、政府提交材料),企业部署多层防御:RAG、工具调用、人工验证、检测系统。目标不是零幻觉,而是可接受的幻觉率。

这种分层方法已经成为行业标准。Thomson Reuters 和 LexisNexis 明确告诉客户,对于开放式问题,幻觉“无法降到零”。他们将系统宣传为风险更低,而非万无一失。

其意义重大:信任和采用如今取决于管理不可靠性,而不是证明可靠性。企业正在围绕 AI 的局限构建工作流程,而不是等待这些局限被修复。

信任赤字

这造成了日益严重的信任问题。2025 年 APA 的一项调查发现,心理学家对 AI 不准确和幻觉的担忧上升了:从 2024 年的约 50% 上升到 2025 年的约三分之二,尽管 AI 工具的使用率在增长。

这种模式在各个职业中重复出现。医生、律师、研究人员和分析师使用 AI 的频率更高,但信任度却更低。每一次幻觉、每一次虚构引用、每一次自信满满的错误诊断,都会侵蚀这些工具赖以发挥作用的公信力。

这就是有能力却不可靠的悖论。AI 系统现在可以通过专业执照考试,但专业人士越来越多地将其输出视为需要人工审核的未经验证初稿。

该领域的发展方向

如果在当前范式下幻觉无法解决,接下来会怎样?

上下文工程与编排

2025 年的主导策略是将 LLM 包裹在复杂的编排层中。工程师不再要求模型本身准确,而是设计系统来约束模型的自由度。提示经过精心设计,检索系统范围严格限定,输出经过多轮验证。

这就是“上下文工程”——结构化输入和工作流程的艺术,使 LLM 在一开始就不太可能产生幻觉。它有效,但需要大量的工程投入和领域专业知识。

新架构

研究仍在继续探索可能从本质上减少幻觉的架构。一些提议包括:

  • 不确定性量化(Uncertainty quantification):模型在给出预测的同时输出置信度分数
  • 原生检索模型(Retrieval-native models):将外部 grounding 内置于架构中,而非后期附加
  • 循环验证(Verification-in-the-loop):模型被训练成在回复前对照外部来源检查自身输出

这些方案都尚未达到生产规模。预测与真相之间的根本张力仍未解决。

监管压力

随着幻觉造成的损害累积(法律渎职、医疗错误、虚假信息),监管关注正在增加。一些司法管辖区开始要求,在官方文件中使用 AI 生成内容时必须披露。另一些则在探索责任框架,当系统表现不佳时,将责任从用户转移到 AI 供应商。

监管无法修复技术问题,但可能改变经济激励。如果供应商要对幻觉造成的损害承担责任,对缓解措施的投资将会加速。

这对你意味着什么

如果你正在评估用于专业场景的 AI 工具,关键问题不是“它会不会产生幻觉?”(所有现有系统都会),而是“当它产生幻觉时会发生什么?”

对于高风险用例:要求缓解策略透明化。RAG 系统由哪些知识库支撑?存在哪些验证层?针对你的具体用例,有记录的幻觉率是多少?切勿在未经验证的情况下提交 AI 生成内容。

对于日常生产力:接受一定程度的“创作”是权衡的一部分。将 AI 输出视为初稿,而非最终成品。即使对于看似普通的任务,也要将验证嵌入工作流程。

对于技术团队:投资上下文工程。一个可靠的 AI 工作流与一个潜在风险之间的区别,往往在于系统如何被封装、约束和验证——而不是基础模型的能力。

令人不安的真相

AI 幻觉不是更好的模型就能修复的暂时性尴尬。它们是在不完美数据上训练、并带有错位激励的“下一个 token 预测”的结构性后果。每一项能力上的进步(更多参数、更多训练数据、更好的 RLHF)都让模型变得更有用,却没有让它们变得更可靠

这并不意味着 AI 毫无用处。生产力提升是真实的,能力也是非凡的。但围绕“通用人工智能”的炒作掩盖了一个根本局限:这些系统不知道什么是真实的。它们只知道什么是可能的。

除非有人发明出一种将预测扎根于现实而非统计的架构,否则幻觉将持续存在。不是作为需要修复的漏洞,而是作为这些系统工作方式的一种特征。

问题不是 AI 是否会产生幻觉。问题是,当 AI 产生幻觉时,你是否已经做好准备。

资料来源

Advertisement

🦋 Discussion on Bluesky

Discuss on Bluesky

Searching for posts...