Points clés à retenir
- Les hallucinations sont structurelles : les grands modèles d’IA prédisent le mot suivant le plus probable, pas le vrai
- La formation ne peut pas résoudre ce problème : les données à l’échelle du Web sont incomplètes, incohérentes et souvent erronées. Le modèle apprend fidèlement ces erreurs
- Le RLHF aggrave les choses : l’apprentissage par renforcement optimise l’utilité et la confiance, ce qui récompense les suppositions plausibles sur une incertitude honnête. - Les atténuations réduisent, et non éliminent : les couches RAG, d’appel d’outils et de détection aident à gérer le risque mais ne peuvent pas résoudre le problème fondamental.
Le paradoxe de la confiance
En décembre 2025, des chercheurs en droit ont documenté une tendance surprenante : quatre à cinq nouvelles affaires judiciaires par jour citent des précédents juridiques générés par l’IA qui n’existent pas. Malgré des années d’avertissements et de multiples embarras très médiatisés, les avocats continuent de soumettre des mémoires fondés sur une jurisprudence fabriquée. Le problème n’est pas la négligence. Le problème est que l’IA semble si confiante.
Cela illustre le paradoxe des hallucinations au cœur de l’intelligence artificielle moderne. Les mêmes modèles célébrés pour avoir réussi les examens du barreau et les tests de licence médicale inventent simultanément de faux procès en toute confiance. GPT-5, Claude 3.5 et Gemini Ultra sont considérablement plus performants que leurs prédécesseurs, mais ils inventent toujours les choses.
Pourquoi? Parce que l’hallucination n’est pas un bug à corriger. C’est une conséquence structurelle de la façon dont ces systèmes sont construits.
Comment fonctionnent réellement les LLM : la machine à jetons suivante
Que fait réellement un grand modèle d’IA ? À la base, un LLM est un moteur de prédiction de prochain jeton. Étant donné une séquence de mots (ou de jetons), il calcule la distribution de probabilité de ce qui vient ensuite et sélectionne le candidat le plus probable.
Pensez-y comme à une saisie semi-automatique extrêmement sophistiquée. Lorsque vous tapez « La capitale de la France est », le modèle a appris à partir de milliards de documents que le prochain jeton devrait être « Paris ». Cela fonctionne à merveille pour des faits bien documentés.
Le problème apparaît dans trois scénarios :
1. Le modèle contient des informations incomplètes
Renseignez-vous sur un obscur précédent juridique du XIXe siècle ou sur un phénomène scientifique de niche, et les données de formation peuvent contenir des exemples partiels, contradictoires ou nuls. Le modèle ne sait pas qu’il ne sait pas. Il n’a aucun concept d’incertitude intégré à son architecture. Il fait donc ce pour quoi il a été entraîné : produire la suite la plus statistiquement plausible.
Cette suite pourrait être une fausse citation de cas parfaitement formatée. La maîtrise est réelle. Les faits ne le sont pas.
2. Cascades d’erreurs dans la génération de formulaires longs
Les modèles autorégressifs génèrent un jeton à la fois, renvoyant chaque sortie comme entrée pour la prédiction suivante. Cela crée une chaîne fragile. Si le modèle produit un jeton incorrect au début d’une réponse (une date erronée, un nom halluciné), chaque jeton suivant est désormais conditionné par un contexte corrompu.
L’erreur s’aggrave. Un seul faux pas dans le premier paragraphe peut donner naissance à un récit entièrement fabriqué au cinquième paragraphe. Le modèle ne dispose d’aucun mécanisme pour revenir en arrière et vérifier.
3. L’objectif est la production, pas la vérité
Le problème fondamental : les LLM sont formés pour maximiser la probabilité des séquences de texte, et non l’exactitude des affirmations. La fonction de perte récompense les sorties qui ressemblent aux données d’entraînement. Il n’a aucun concept de réalité externe, aucun fondement dans la vérité et aucune pénalité pour une fabrication confiante, tant que cette fabrication est fluide.
C’est pourquoi les hallucinations sont mathématiquement inévitables dans le paradigme actuel. Le but du modèle est de toujours deviner. Exprimer son incertitude est littéralement hors objectif.
Le problème des données de formation
Au-delà de l’architecture, les données elles-mêmes sont compromises. Les LLM modernes s’entraînent sur de vastes corpus Internet : Common Crawl, Wikipedia, Reddit, des articles universitaires et tout le reste. Ces données sont :
Incomplet : les domaines à longue traîne (lois obscures, sujets scientifiques de niche, événements locaux) sont sous-représentés. Lorsqu’on lui pose des questions ciblées à leur sujet, le modèle doit interpoler.
Incohérent : Internet se contredit constamment. Différentes sources affirment des faits différents sur les mêmes événements. Le modèle apprend toutes les versions et n’a aucun arbitre pour lequel est correct.
Obsolète : les données d’entraînement ont une date limite. Lorsqu’ils sont interrogés sur les événements post-cutoff, les modèles ne peuvent pas accéder aux informations actuelles. Ils déduisent de modèles plus anciens, hallucinant souvent entièrement les développements récents.
Empoisonné : la désinformation, les citations mal attribuées et les fabrications pures et simples existent dans le corpus de formation. Le modèle les apprend en tant que modèles valides. La célèbre affaire Mata c. Avianca, dans laquelle un avocat a cité de faux cas générés par ChatGPT, s’est produite parce que ChatGPT avait appris à quoi ressemblent les citations juridiques plausibles sans savoir lesquelles étaient réelles.
RLHF : Optimiser pour la mauvaise chose
L’apprentissage par renforcement à partir de la rétroaction humaine (RLHF) était censé aider. En formant des modèles sur les évaluations des préférences humaines, OpenAI, Anthropic et d’autres visaient à rendre les résultats plus utiles, inoffensifs et honnêtes.
Mais la RLHF a introduit une incitation perverse. Les évaluateurs humains ont tendance à préférer les réponses sûres et complètes aux réponses couvertes et incertaines. Une réponse indiquant « Sur la base des informations disponibles, la réponse semble être X, même si la certitude est limitée » obtient un score inférieur à celle indiquant « La réponse est X ».
Le modèle l’apprend. Il optimise la confiance car la confiance est récompensée. Le résultat : des réponses plausibles, faisant autorité, qui peuvent être complètement fabriquées.
C’est le problème des incitations à la formation. Le même mécanisme conçu pour rendre l’IA plus utile l’encourage activement à deviner avec confiance plutôt qu’à admettre son ignorance.
Pourquoi les mesures d’atténuation actuelles ne suffisent pas
L’industrie de l’IA a développé plusieurs stratégies pour réduire les hallucinations. Tous aident. Aucun d’eux ne résout le problème.
Génération augmentée par récupération (RAG)
Les systèmes RAG attachent un composant de récupération au LLM. Avant de générer une réponse, le système recherche dans une base de connaissances organisée et base le résultat dans les documents récupérés. Les fournisseurs d’IA juridique comme Thomson Reuters et LexisNexis utilisent des approches de « jardin clos », limitant les modèles à ne citer que la jurisprudence vérifiée.
Cela réduit considérablement les hallucinations mais ne les élimine pas. Le modèle peut toujours mal interpréter les documents récupérés, halluciner des liens entre des sources réelles ou fabriquer des détails lorsque la récupération renvoie des résultats incomplets. RAG crée également un nouveau mode d’échec : si le document pertinent ne figure pas dans l’index de recherche, le modèle peut combler le vide par l’invention.
Appel d’outils et mise à la terre
Certains systèmes donnent aux LLM accès à des outils externes (calculateurs, bases de données, API) pour vérifier les réclamations en temps réel. Cela facilite les recherches factuelles mais introduit sa propre surface d’erreur. Le modèle doit décider correctement quand utiliser un outil et quel outil utiliser. Il peut halluciner les résultats des outils ou mal interpréter les résultats réels.
Couches de détection d’hallucinations
La dernière stratégie d’entreprise consiste à déployer des IA secondaires pour détecter les hallucinations. Clearbrief, par exemple, se présente comme un « correcteur orthographique pour les cas inventés ». Il sert de couche de vérification qui analyse les mémoires juridiques à la recherche de citations fabriquées avant leur dépôt.
Cela reconnaît la réalité : les modèles de base vont halluciner. La seule question est de savoir si l’on peut détecter les hallucinations avant qu’elles ne causent des dommages. C’est une stratégie valable, mais ce n’est qu’un pansement sur une blessure structurelle.
L’économie du manque de fiabilité géré
D’ici 2025, l’adoption par les entreprises s’inscrit dans un cadre pragmatique. Les hallucinations ne sont pas traitées comme un problème à résoudre mais comme un risque à gérer, comme toute autre mesure de qualité.
Pour les applications à faibles enjeux (copie marketing, brainstorming, stubs de code), les hallucinations sont tolérées. L’inférence créative est souvent une fonctionnalité et non un bug. Personne n’est blessé si la description d’un produit est légèrement hyperbolique.
Pour les applications à enjeux élevés (dépôts juridiques, diagnostics médicaux, soumissions gouvernementales), les entreprises déploient des défenses à plusieurs niveaux : RAG, appels d’outils, vérification humaine, systèmes de détection. L’objectif n’est pas zéro hallucinations mais des taux d’hallucinations acceptables.
Cette approche à plusieurs niveaux est devenue la norme de l’industrie. Thomson Reuters et LexisNexis indiquent explicitement aux clients que les hallucinations « ne peuvent pas atteindre zéro » pour les questions ouvertes. Ils commercialisent leurs systèmes comme étant « à moindre risque » et non infaillibles.
L’implication est significative : la confiance et l’adoption dépendent désormais de la gestion du manque de fiabilité, et non de la démonstration de la fiabilité. Les entreprises créent des flux de travail autour des limites de l’IA plutôt que d’attendre que ces limites soient corrigées.
Le déficit de confiance
Cela a créé un problème de confiance croissant. Une enquête APA de 2025 a révélé que les inquiétudes concernant l’inexactitude de l’IA et les hallucinations parmi les psychologues ont augmenté d’environ 50 % en 2024 à environ les deux tiers en 2025, alors même que l’adoption des outils d’IA augmentait.
Le schéma se répète dans toutes les professions. Les médecins, les avocats, les chercheurs et les analystes utilisent davantage l’IA tout en lui faisant moins confiance. Chaque hallucination, chaque citation fabriquée, chaque diagnostic erroné avec assurance érode la crédibilité qui rend ces outils utiles.
C’est le paradoxe de la capacité sans fiabilité. Les systèmes d’IA peuvent désormais réussir les examens de licence professionnelle, mais les professionnels traitent de plus en plus leurs résultats comme des premières ébauches non vérifiées nécessitant un examen humain.
Où se dirige le domaine
Si les hallucinations ne peuvent pas être résolues dans le cadre du paradigme actuel, que se passera-t-il ensuite ?
Ingénierie du contexte et orchestration
La stratégie dominante d’ici 2025 consiste à envelopper les LLM dans des couches d’orchestration sophistiquées. Au lieu de demander au modèle d’être précis, les ingénieurs conçoivent des systèmes qui contraintent la liberté du modèle. Les invites sont soigneusement conçues. Les systèmes de récupération ont une portée étroite. Les sorties sont validées par plusieurs passes de vérification.
Il s’agit de « l’ingénierie de contexte » : l’art de structurer les entrées et les flux de travail de manière à ce que les LLM soient moins susceptibles d’halluciner en premier lieu. Cela fonctionne, mais cela nécessite un investissement d’ingénierie important et une expertise du domaine.
Nouvelles architectures
Les recherches se poursuivent sur des architectures susceptibles de réduire nativement les hallucinations. Certaines propositions incluent :
- Quantification de l’incertitude : modèles qui génèrent des scores de confiance ainsi que des prédictions
- Modèles natifs de récupération : systèmes dans lesquels la mise à la terre externe est intégrée à l’architecture et non boulonnée.
- Vérification dans la boucle : modèles formés pour vérifier leurs propres résultats par rapport à des sources externes avant de répondre
Aucun d’entre eux n’a atteint l’échelle de production. La tension fondamentale entre prédiction et vérité reste irrésolue.
Pression réglementaire
À mesure que les préjudices causés par les hallucinations s’accumulent (faute professionnelle juridique, erreurs médicales, désinformation), l’attention des régulateurs augmente. Certaines juridictions commencent à exiger la divulgation lorsque du contenu généré par l’IA est utilisé dans des documents officiels. D’autres explorent des cadres de responsabilité qui transfèrent la responsabilité des utilisateurs aux fournisseurs d’IA lorsque les systèmes fonctionnent mal.
La réglementation ne résoudra pas le problème technique, mais elle pourrait changer les aspects économiques. Si les vendeurs deviennent responsables des dommages causés par les hallucinations, les investissements dans l’atténuation s’accéléreront.
Ce que cela signifie pour vous
Si vous évaluez des outils d’IA à usage professionnel, la question clé n’est pas « Est-ce que cela hallucine ? (tous les systèmes actuels le font) mais “Que se passe-t-il quand il hallucine ?”
Pour les cas d’utilisation à enjeux élevés : exigez de la transparence sur les stratégies d’atténuation. Quelles bases de connaissances alimentent le système RAG ? Quelles couches de vérification existent ? Quel est le taux d’hallucinations documenté pour votre cas d’utilisation spécifique ? Ne soumettez jamais de contenu généré par l’IA sans vérification humaine.
Pour la productivité générale : acceptez un certain niveau d’invention dans le cadre du compromis. Traitez les résultats de l’IA comme des premières ébauches et non comme des produits finaux. Intégrez la vérification à votre flux de travail, même pour les tâches apparemment banales.
Pour les équipes techniques : investissez dans l’ingénierie du contexte. La différence entre un flux de travail d’IA fiable et un handicap réside souvent dans la manière dont le système est enveloppé, contraint et vérifié, et non dans les capacités du modèle de base.
La vérité inconfortable
Les hallucinations de l’IA ne sont pas un embarras temporaire que de meilleurs modèles résoudront. Ils sont une conséquence structurelle de la prédiction du prochain jeton formée sur des données imparfaites avec des incitations mal alignées. Chaque avancée en matière de capacités (plus de paramètres, plus de données d’entraînement, meilleur RLHF) a rendu les modèles plus utiles sans les rendre plus fiables.
Cela ne veut pas dire que l’IA est inutile. Les gains de productivité sont réels. Les capacités sont remarquables. Mais le battage médiatique autour de « l’intelligence générale artificielle » masque une limitation fondamentale : ces systèmes ne savent pas ce qui est vrai. Ils ne savent que ce qui est probable.
Jusqu’à ce que quelqu’un invente une architecture qui fonde les prédictions sur la réalité plutôt que sur les statistiques, les hallucinations persisteront. Non pas comme un bug à corriger, mais comme une caractéristique du fonctionnement de ces systèmes.
La question n’est pas de savoir si l’IA va halluciner. La question est de savoir si vous êtes prêt à affronter ce moment-là.
🦋 Discussion on Bluesky
Discuss on Bluesky