为什么人工智能幻觉在2025年仍然无法解决

核心要点

幻觉是结构性的：大型 AI 模型预测的是最可能的下一个词，而不是真实的下一个词
训练无法解决它：网络规模的数据不完整、相互矛盾，而且常常是错误的。模型会忠实地学习这些错误
RLHF 让情况更糟：强化学习优化的是有用性和自信心，这会奖励看似合理的猜测，而非坦诚的不确定性
缓解措施只能降低，不能消除：RAG、工具调用和检测层有助于管理风险，但无法解决根本问题

自信的悖论

2025 年 12 月，法律研究人员记录了一个令人震惊的趋势：每天有四到五起新的法庭案件引用了并不存在的、由 AI 生成的法律判例。尽管多年警告以及多起备受瞩目的尴尬事件，律师们仍在提交包含虚构判例的辩护状。问题不在于粗心。问题在于 AI 听起来太自信了。

这揭示了现代人工智能核心的幻觉悖论。那些因通过律师资格考试和医学执照考试而备受赞誉的模型，同时也能充满自信地编造虚假法庭案例。GPT-5、Claude 3.5 和 Gemini Ultra 的能力远超前辈，但它们仍然会编造内容。

为什么？因为幻觉不是可以修补的漏洞。它是这些系统构建方式的结构性后果。

LLM 究竟如何工作：下一个 token 机器

大型 AI 模型实际上做了什么？其核心是，LLM 是一个“下一个 token 预测引擎”。给定一段文字序列（或 token），它会计算接下来内容的概率分布，并选择最可能的候选。

把它想象成一个极其复杂的自动补全。当你输入“The capital of France is”时，模型已经从数十亿文档中学到，下一个 token 应该是“Paris”。对于有充分记录的事实，这非常有效。

问题在三种情况下出现：

1. 模型掌握的信息不完整

如果询问一个鲜为人知的 19 世纪法律先例，或一个冷门科学现象，训练数据可能只包含部分、相互矛盾，甚至零相关的例子。模型不知道自己不知道。它的架构里没有内置不确定性的概念。因此它做它被训练去做的事：输出统计上最合理的延续。

这种延续可能是一份格式完美的虚假判例引用。流畅度是真实的，但事实不是。

2. 长文本生成中的错误级联

自回归模型一次生成一个 token，将每个输出反馈作为下一次预测的输入。这形成了一条脆弱的链条。如果模型在回复早期生成了一个错误的 token（一个错误的日期、一个虚构的名字），之后每一个 token 都基于被污染的上下文进行条件预测。

错误会累积。第一段中的一个失误，可能在第五段催生出一个完全虚构的叙述。模型没有回溯和验证的机制。

3. 目标是生成文本，而非真相

根本问题在于：LLM 被训练来最大化文本序列的似然度，而非论断的准确性。损失函数奖励那些看起来像训练数据的输出。它没有外部现实的概念，没有扎根于真相，只要编造流畅，就不会因自信的虚构而受到惩罚。

这就是为什么在当前范式下，幻觉在数学上是不可避免的。模型的目的就是永远猜测。表达不确定性，按字面理解，就是偏离目标。

训练数据的问题

除了架构，数据本身也存在问题。现代 LLM 在庞大的互联网语料上训练：Common Crawl、Wikipedia、Reddit、学术论文，以及介于两者之间的一切。这些数据具有以下特点：

不完整：长尾领域（鲜为人知的法律、冷门科学话题、本地事件）代表性不足。当被问及这些领域的具体问题时，模型必须进行插值。

不一致：互联网 constantly 自相矛盾。不同来源对同一事件宣称不同的事实。模型学习了所有版本，却没有仲裁者来判断哪个正确。

过时：训练数据有截止日期。当被问及截止日期之后的事件时，模型无法获取当前信息。它们根据旧有模式推断，常常完全虚构近期发展。

被污染：训练语料中存在错误信息、错误归属的引用以及彻头彻尾的虚构。模型把这些当作有效模式来学习。著名的 Mata v. Avianca 案中，一名律师引用了 ChatGPT 生成的虚假案例，原因就在于 ChatGPT 学会了看似合理的法律引用长什么样，却没学会哪些是真的。

RLHF：优化错了目标

来自人类反馈的强化学习（RLHF）本应有所帮助。通过根据人类偏好评分训练模型，OpenAI、Anthropic 等公司希望让输出更有用、无害且诚实。

但 RLHF 引入了一种反常的激励。人类评分者往往更喜欢自信、完整的回答，而不是含糊、不确定的回答。一个回答如果说“根据现有信息，答案似乎是 X，但确定性有限”，得分会低于直接说“答案是 X”的回答。

模型学会了这一点。它优化自信，因为自信会得到奖励。结果是：听起来合理、权威的回复，却可能完全是编造的。

这就是训练激励问题。这个旨在让 AI 更有帮助的机制，反而积极鼓励它自信地猜测，而不是承认无知。

为何现有缓解措施仍显不足

AI 行业已经开发出几种减少幻觉的策略。它们都有帮助，但都无法解决问题。

检索增强生成（RAG）

RAG 系统为 LLM 附加一个检索组件。在生成回复之前，系统会搜索经过整理的知识库，并将输出建立在检索到的文档之上。Thomson Reuters 和 LexisNexis 等法律 AI 供应商采用“围墙花园”方法，将模型限制为只能引用已验证的判例法。

这能大幅减少幻觉，但不会消除它们。模型仍可能误解检索到的文档，在真实来源之间虚构联系，或在检索返回不完整结果时编造细节。RAG 还会带来新的故障模式：如果相关文档不在搜索索引中，模型可能会用虚构来填补空白。

工具调用与外部 grounding

一些系统让 LLM 访问外部工具（计算器、数据库、API）来实时验证论断。这有助于事实查找，但也引入了自身的错误面。模型必须正确决定何时使用工具以及使用哪个工具。它可能虚构工具输出，或误解真实的输出。

幻觉检测层

最新的企业策略是部署次级 AI 来检测幻觉。例如，Clearbrief 将自己定位为“虚构案例的拼写检查”。它作为验证层，在提交前扫描法律辩护状中的虚构引用。

这承认了现实：基础模型会产生幻觉。唯一的问题是，你是否能在幻觉造成损害之前发现它们。这是一种有效的策略，但只是对结构性伤口的创可贴。

管理不可靠性的经济学

到 2025 年，企业采用已经形成了一套务实框架。幻觉不再被当作需要解决的问题，而是被当作需要管理的风险，就像其他任何质量指标一样。

对于低风险应用（营销文案、头脑风暴、代码片段），幻觉是可以容忍的。创造性推断通常是一种特性，而不是缺陷。如果产品描述稍微有点夸张，没人会受伤。

对于高风险应用（法律文件、医疗诊断、政府提交材料），企业部署多层防御：RAG、工具调用、人工验证、检测系统。目标不是零幻觉，而是可接受的幻觉率。

这种分层方法已经成为行业标准。Thomson Reuters 和 LexisNexis 明确告诉客户，对于开放式问题，幻觉“无法降到零”。他们将系统宣传为风险更低，而非万无一失。

其意义重大：信任和采用如今取决于管理不可靠性，而不是证明可靠性。企业正在围绕 AI 的局限构建工作流程，而不是等待这些局限被修复。

信任赤字

这造成了日益严重的信任问题。2025 年 APA 的一项调查发现，心理学家对 AI 不准确和幻觉的担忧上升了：从 2024 年的约 50% 上升到 2025 年的约三分之二，尽管 AI 工具的使用率在增长。

这种模式在各个职业中重复出现。医生、律师、研究人员和分析师使用 AI 的频率更高，但信任度却更低。每一次幻觉、每一次虚构引用、每一次自信满满的错误诊断，都会侵蚀这些工具赖以发挥作用的公信力。

这就是有能力却不可靠的悖论。AI 系统现在可以通过专业执照考试，但专业人士越来越多地将其输出视为需要人工审核的未经验证初稿。

该领域的发展方向

如果在当前范式下幻觉无法解决，接下来会怎样？

上下文工程与编排

2025 年的主导策略是将 LLM 包裹在复杂的编排层中。工程师不再要求模型本身准确，而是设计系统来约束模型的自由度。提示经过精心设计，检索系统范围严格限定，输出经过多轮验证。

这就是“上下文工程”——结构化输入和工作流程的艺术，使 LLM 在一开始就不太可能产生幻觉。它有效，但需要大量的工程投入和领域专业知识。

新架构

研究仍在继续探索可能从本质上减少幻觉的架构。一些提议包括：

不确定性量化（Uncertainty quantification）：模型在给出预测的同时输出置信度分数
原生检索模型（Retrieval-native models）：将外部 grounding 内置于架构中，而非后期附加
循环验证（Verification-in-the-loop）：模型被训练成在回复前对照外部来源检查自身输出

这些方案都尚未达到生产规模。预测与真相之间的根本张力仍未解决。

监管压力

随着幻觉造成的损害累积（法律渎职、医疗错误、虚假信息），监管关注正在增加。一些司法管辖区开始要求，在官方文件中使用 AI 生成内容时必须披露。另一些则在探索责任框架，当系统表现不佳时，将责任从用户转移到 AI 供应商。

监管无法修复技术问题，但可能改变经济激励。如果供应商要对幻觉造成的损害承担责任，对缓解措施的投资将会加速。

这对你意味着什么

如果你正在评估用于专业场景的 AI 工具，关键问题不是“它会不会产生幻觉？”（所有现有系统都会），而是“当它产生幻觉时会发生什么？”

对于高风险用例：要求缓解策略透明化。RAG 系统由哪些知识库支撑？存在哪些验证层？针对你的具体用例，有记录的幻觉率是多少？切勿在未经验证的情况下提交 AI 生成内容。

对于日常生产力：接受一定程度的“创作”是权衡的一部分。将 AI 输出视为初稿，而非最终成品。即使对于看似普通的任务，也要将验证嵌入工作流程。

对于技术团队：投资上下文工程。一个可靠的 AI 工作流与一个潜在风险之间的区别，往往在于系统如何被封装、约束和验证——而不是基础模型的能力。

令人不安的真相

AI 幻觉不是更好的模型就能修复的暂时性尴尬。它们是在不完美数据上训练、并带有错位激励的“下一个 token 预测”的结构性后果。每一项能力上的进步（更多参数、更多训练数据、更好的 RLHF）都让模型变得更有用，却没有让它们变得更可靠。

这并不意味着 AI 毫无用处。生产力提升是真实的，能力也是非凡的。但围绕“通用人工智能”的炒作掩盖了一个根本局限：这些系统不知道什么是真实的。它们只知道什么是可能的。

除非有人发明出一种将预测扎根于现实而非统计的架构，否则幻觉将持续存在。不是作为需要修复的漏洞，而是作为这些系统工作方式的一种特征。

问题不是 AI 是否会产生幻觉。问题是，当 AI 产生幻觉时，你是否已经做好准备。

资料来源

本文由 Trendy Tech Tribe 编辑团队撰写。

为什么人工智能幻觉仍然无法解决

核心要点

自信的悖论