重要なポイント
- 幻覚は構造的: 大規模な AI モデルは、本当の 単語ではなく、最も可能性の高い 次の単語を予測します
- トレーニングでは修正できません: Web スケールのデータは不完全で、一貫性がなく、多くの場合間違っています。モデルはそれらのエラーを忠実に学習します
- RLHF が事態を悪化させる: 強化学習は有用性と信頼性を最適化するため、正直な不確実性よりももっともらしい推測が重視されます。
- 軽減策は排除するものではなく軽減するもの: RAG、ツール呼び出しレイヤー、検出レイヤーはリスクの管理には役立ちますが、根本的な問題を解決することはできません
自信のパラドックス
2025 年 12 月、法律研究者は驚くべき傾向を文書化しました。それは、*1 日あたり 4 ~ 5 件の新たな訴訟が、AI によって生成された存在しない判例を引用しているというものでした。何年にもわたる警告と複数の注目を集める当惑にもかかわらず、弁護士は捏造された判例を含む準備書面を提出し続けている。問題は不注意ではありません。問題は、AI が自信満々に聞こえることです。
これは、現代の人工知能の中心にある幻覚のパラドックスを示しています。司法試験や医師免許試験に合格して祝われた同じモデルが、同時に完全な自信を持って偽の訴訟をでっち上げている。 GPT-5、Claude 3.5、および Gemini Ultra は、以前のバージョンよりも大幅に機能が向上していますが、それでも十分な機能を備えています。
なぜ?幻覚はパッチできるバグではないからです。これは、これらのシステムの構築方法の構造的な結果です。
LLM の実際の仕組み: 次のトークン マシン
大規模な AI モデルは実際に何を行うのでしょうか? LLM の核心は、次のトークンの予測エンジンです。一連の単語 (またはトークン) が与えられると、次に来るものの確率分布を計算し、最も可能性の高い候補を選択します。
これは、非常に洗練されたオートコンプリートのようなものだと考えてください。 「フランスの首都は」と入力すると、モデルは数十億の文書から次のトークンは「パリ」であるべきであることを学習します。これは、十分に文書化された事実に対して見事に機能します。
この問題は、次の 3 つのシナリオで発生します。
1. モデルには不完全な情報があります
19 世紀のあいまいな判例やニッチな科学現象について尋ねると、トレーニング データには部分的な例、矛盾する例、または関連する例がまったく含まれていない可能性があります。モデルは自分が知らないことを知りません。そのアーキテクチャには 不確実性 の概念が組み込まれていません。したがって、統計的に最も妥当な継続を出力するという、訓練されたことを実行します。
その続きは、完璧にフォーマットされた偽の事件の引用である可能性があります。流暢さは本物です。事実はそうではありません。
2. 長い形式の生成におけるエラーの連鎖
自己回帰モデルは一度に 1 つのトークンを生成し、各出力を次の予測の入力としてフィードバックします。これにより、壊れやすいチェーンが作成されます。モデルが応答の早い段階で 1 つの間違ったトークン (間違った日付、幻覚を起こした名前) を生成した場合、後続のすべてのトークンは破損したコンテキストを条件とします。
エラーはさらに悪化します。段落 1 での 1 つの間違いが、段落 5 までに完全に捏造された物語を生み出す可能性があります。モデルには、バックトラックして検証するメカニズムがありません。
3. 目的は真実ではなく生産です
根本的な問題: LLM は、主張の *正確さ * ではなく、テキスト シーケンスの 尤度 を最大化するように訓練されています。損失関数は、トレーニング データに似た出力を与えます。それには外部の現実という概念がなく、真実に根拠がなく、その捏造が流暢である限り、確信を持って捏造しても罰則はありません。
これが、現在のパラダイムの下では幻覚が数学的に避けられない理由です。モデルの目的は常に推測することです。不確実性を表現することは、文字通り、客観的ではありません。
トレーニング データの問題
アーキテクチャを超えて、データ自体が危険にさらされます。現代の LLM は、Common Crawl、Wikipedia、Reddit、学術論文など、膨大なインターネット コーパスを使ってトレーニングを行っています。このデータは次のとおりです。
不完全: ロングテール領域 (あいまいな法律、専門分野の科学トピック、地域の出来事) は過小評価されています。それらについて的を絞った質問をする場合、モデルは補間する必要があります。
矛盾: インターネットは常に矛盾しています。情報源が異なれば、同じ出来事について異なる事実が主張されます。モデルはすべてのバージョンを学習し、どのバージョンが正しいかを判断するものはありません。
古い: トレーニング データには期限があります。カットオフ後のイベントについて尋ねられた場合、モデルは現在の情報にアクセスできません。彼らは古いパターンから推測し、最近の発展を完全に幻覚することがよくあります。
毒入り: トレーニング コーパスには、誤った情報、帰属が間違っている引用、および完全な捏造が存在します。モデルはこれらを有効なパターンとして学習します。弁護士が ChatGPT によって生成された偽の訴訟を引用した有名な マタ対アビアンカ 事件は、ChatGPT がどれが本物であるかを学習せずに *もっともらしい法的引用がどのようなものであるかを学習したために起こりました。
RLHF: 間違ったものを最適化する
ヒューマン フィードバックからの強化学習 (RLHF) が役立つと考えられていました。 OpenAI や Anthropic などは、人間の好みの評価に基づいてモデルをトレーニングすることにより、出力をより有益で、無害で、正直なものにすることを目指しました。
しかし、RLHF は倒錯的なインセンティブを導入しました。人間の評価者は、ヘッジされた不確実な回答よりも、自信を持って完全な回答を好む傾向があります。 「入手可能な情報に基づくと、答えは X であるように見えますが、確実性は限られています」という回答は、「答えは X です」という回答よりもスコアが低くなります。
モデルはこれを学習します。自信は報われるため、自信が最適化されます。その結果、完全に捏造された可能性のある、もっともらしい、権威あるように聞こえる回答が得られます。
これが研修インセンティブの問題です。 AI をより役立つように設計された同じメカニズムは、AI が無知を認めるのではなく、自信を持って推測することを積極的に奨励します。
現在の緩和策では不十分な理由
AI 業界は、幻覚を軽減するためにいくつかの戦略を開発しました。それらはすべて役に立ちます。どれも問題を解決しません。
検索拡張生成 (RAG)
RAG システムは、LLM に取得コンポーネントを接続します。応答を生成する前に、システムは厳選されたナレッジ ベースを検索し、取得したドキュメントの出力を基礎とします。トムソン・ロイターやレクシスネクシスなどの法律AIベンダーは「壁に囲まれた庭園」アプローチを採用しており、モデルを検証済みの判例法のみを引用するように制限している。
これにより幻覚は劇的に軽減されますが、幻覚が完全になくなるわけではありません。このモデルは依然として、取得した文書を誤って解釈したり、実際のソース間の接続を幻覚したり、取得が不完全な結果を返した場合に詳細を捏造したりする可能性があります。 RAG は、新しい失敗モードも作成します。関連するドキュメントが検索インデックスにない場合、モデルは発明によってギャップを埋める可能性があります。
ツールの呼び出しと接地
一部のシステムでは、リアルタイムで請求を検証するために、LLM に外部ツール (計算機、データベース、API) へのアクセスを許可しています。これは事実の検索に役立ちますが、独自のエラー表面が生じます。モデルは、ツールを「いつ」使用するか、および「どの」ツールを使用するかを正しく決定する必要があります。ツールの出力を幻覚させたり、実際の出力を誤解したりする可能性があります。
幻覚検出レイヤー
最新の企業戦略は、幻覚を検出するために二次 AI を導入することです。たとえば、Clearbrief は、自社を「でっち上げられたケースのスペルチェック」として宣伝しています。これは、提出前に法的準備書面をスキャンして捏造された引用がないかを確認する検証レイヤーとして機能します。
これは、基本モデルが幻覚を起こすという現実を認めています。唯一の問題は、被害を引き起こす前に幻覚を捉えることができるかどうかです。これは有効な戦略ではありますが、構造的な傷を絆創膏で覆うものです。
管理された信頼性の低下の経済学
2025 年までに、企業の導入は実用的な枠組みに定着します。幻覚は、他の品質指標と同様に、解決すべき問題としてではなく、管理すべきリスクとして扱われます。
リスクの低いアプリケーション (マーケティング コピー、ブレインストーミング、コード スタブ) の場合、幻覚は許容されます。創造的な推論は多くの場合、バグではなく機能です。商品説明が多少誇張されても誰も傷つきません。
一か八かのアプリケーション (法的申請、医療診断、政府提出) の場合、企業は RAG、ツール呼び出し、人間による検証、検出システムなどの多層防御を導入します。目標は幻覚をゼロにすることではなく、「許容可能な」幻覚率を達成することです。
この段階的なアプローチは業界標準になっています。トムソン・ロイターとレクシスネクシスは、自由回答形式の質問に対して幻覚を「ゼロにすることはできない」と顧客に明確に伝えている。彼らは自分たちのシステムを、絶対確実ではなく、リスクが低いものとして宣伝しています。
この意味するところは重要です。信頼と採用は、信頼性を証明するのではなく、信頼性の低さを管理することにかかっています。企業は、AI の制限が修正されるのを待つのではなく、AI の制限を中心としたワークフローを構築しています。
信頼の欠如
これにより、信頼性の問題が増大しています。 2025年のAPA調査によると、AIツールの採用が増加したにもかかわらず、心理学者の間でAIの不正確さと幻覚に対する懸念が2024年の約50%から2025年の約3分の2に「増加」した。
このパターンはさまざまな職業で繰り返されます。医師、弁護士、研究者、アナリストは AI の利用を増やしていますが、AI に対する信頼は低下しています。あらゆる幻覚、あらゆる捏造された引用、あらゆる自信を持って間違った診断は、これらのツールを有用なものにする信頼性を損ないます。
これは、信頼性のない能力のパラドックスです。 AI システムは現在、専門的なライセンス試験に合格できるようになりましたが、専門家は自分の出力を人間によるレビューが必要な未確認の初稿として扱うことが増えています。
フィールドの向かう先
現在のパラダイム内で幻覚を解決できない場合、次に何が起こるのでしょうか?
コンテキストエンジニアリングとオーケストレーション
2025 年の主要な戦略は、LLM を洗練されたオーケストレーション層でラップすることです。エンジニアはモデルに正確さを求めるのではなく、モデルの自由度を「制約」するシステムを設計します。プロンプトは慎重に作成されています。検索システムの範囲は厳密に定められています。出力は複数の検証パスを通じて検証されます。
これは「コンテキスト エンジニアリング」です。LLM がそもそも幻覚を起こす可能性が低くなるように入力とワークフローを構造化する技術です。これは機能しますが、多大なエンジニアリング投資と専門知識が必要です。
新しいアーキテクチャ
幻覚を自然に軽減できるアーキテクチャの研究が続けられています。いくつかの提案には次のようなものがあります。
- 不確実性の定量化: 予測とともに信頼スコアを出力するモデル
- 検索ネイティブ モデル: 外部接地がボルトで固定されるのではなく、アーキテクチャに組み込まれているシステム
- ループ内検証: 応答する前に自身の出力を外部ソースと比較してチェックするようにトレーニングされたモデル
これらはいずれも生産規模に達していません。予測と真実の間の根本的な緊張は未解決のままです。
規制圧力
幻覚による被害(法的過誤、医療ミス、誤った情報)が蓄積するにつれ、規制当局の注目が高まっています。一部の管轄区域では、AI によって生成されたコンテンツが公式申請で使用される場合に開示を要求し始めています。システムのパフォーマンスが低下した場合に責任をユーザーから AI ベンダーに移す責任の枠組みを模索している企業もいます。
規制は技術的な問題を解決するものではありませんが、経済状況を変える可能性があります。ベンダーが幻覚による被害に対して責任を負うようになれば、緩和への投資が加速するだろう。
これはあなたにとって何を意味しますか
業務用の AI ツールを評価している場合、重要な質問は「これは幻覚を起こすか?」ではありません。 (現在のシステムはすべてそうです)しかし、「幻覚が起こったらどうなるのですか?」
一か八かのユースケースの場合: 緩和戦略に関する透明性を要求します。 RAG システムにフィードを与える知識ベースは何ですか?どのような検証層が存在しますか?特定の使用例で文書化された幻覚率はどれくらいですか? AI によって生成されたコンテンツは、人間による検証なしに決して送信しないでください。
一般的な生産性の場合: トレードオフの一環として、ある程度の発明を受け入れます。 AI の出力は最終製品ではなく、初稿として扱います。一見平凡なタスクであっても、ワークフローに検証を組み込みます。
技術チーム向け: コンテキスト エンジニアリングに投資します。信頼性の高い AI ワークフローと責任の違いは、多くの場合、基本モデルの機能ではなく、システムがどのようにラップされ、制約され、検証されるかにあります。
不愉快な真実
AI の幻覚は、より優れたモデルによって解決される一時的な問題ではありません。これらは、インセンティブがずれている不完全なデータに基づいてトレーニングされたネクストトークン予測の構造的な結果です。機能が進歩するたびに (より多くのパラメーター、より多くのトレーニング データ、より優れた RLHF)、モデルは 信頼性が高まることなく、モデルがより便利になります。
これはAIが役に立たないという意味ではありません。生産性の向上は本物です。その能力は驚くべきものです。しかし、「汎用人工知能」をめぐる誇大宣伝は、根本的な限界を曖昧にしています。それは、これらのシステムは何が真実なのかを知りません。彼らは何が起こり得るかだけを知っています。
誰かが統計ではなく現実に基づいて予測するアーキテクチャを発明するまで、幻覚は残るだろう。修正すべきバグとしてではなく、これらのシステムがどのように動作するかの機能として。
問題はAIが幻覚を起こすかどうかではない。問題は、そのときに対する備えができているかどうかです。
🦋 Discussion on Bluesky
Discuss on Bluesky