Wichtige Erkenntnisse
- Halluzinationen sind strukturell: Große KI-Modelle sagen das wahrscheinlichste nächste Wort voraus, nicht das wahre
- Training kann das Problem nicht beheben: Web-Scale-Daten sind unvollständig, inkonsistent und oft falsch. Das Modell lernt diese Fehler zuverlässig
- RLHF macht es noch schlimmer: Reinforcement Learning sorgt für Hilfsbereitschaft und Selbstvertrauen, was plausibles Raten gegenüber ehrlicher Unsicherheit belohnt
- Minderungen reduzieren, nicht beseitigen: RAG-, Tool-Calling- und Erkennungsebenen helfen bei der Risikobewältigung, können aber das grundlegende Problem nicht lösen
Das Vertrauensparadoxon
Im Dezember 2025 dokumentierten Rechtsforscher einen erschreckenden Trend: Vier bis fünf neue Gerichtsverfahren pro Tag zitieren KI-generierte rechtliche Präzedenzfälle, die es nicht gibt. Trotz jahrelanger Warnungen und mehrfacher öffentlichkeitswirksamer Peinlichkeiten reichen Anwälte weiterhin Schriftsätze mit erfundener Rechtsprechung ein. Das Problem ist nicht Nachlässigkeit. Das Problem ist, dass die KI so selbstbewusst klingt.
Dies veranschaulicht das Halluzinationsparadoxon im Herzen der modernen künstlichen Intelligenz. Dieselben Models, die für das Bestehen von Anwaltsprüfungen und medizinischen Approbationstests berühmt sind, erfinden gleichzeitig mit vollem Vertrauen gefälschte Gerichtsverfahren. GPT-5, Claude 3.5 und Gemini Ultra sind deutlich leistungsstärker als ihre Vorgänger, aber sie machen es immer noch gut.
Warum? Weil Halluzinationen kein Fehler sind, der behoben werden muss. Es ist eine strukturelle Konsequenz der Art und Weise, wie diese Systeme aufgebaut sind.
Wie LLMs tatsächlich funktionieren: Die Next-Token-Maschine
Was macht eigentlich ein großes KI-Modell? Im Kern ist ein LLM eine Engine zur Vorhersage des nächsten Tokens. Ausgehend von einer Folge von Wörtern (oder Tokens) berechnet es die Wahrscheinlichkeitsverteilung für das, was als nächstes kommt, und wählt den wahrscheinlichsten Kandidaten aus.
Stellen Sie sich das wie eine extrem ausgefeilte automatische Vervollständigung vor. Wenn Sie „Die Hauptstadt Frankreichs ist“ eingeben, hat das Modell aus Milliarden von Dokumenten gelernt, dass der nächste Token „Paris“ sein sollte. Dies funktioniert wunderbar für gut dokumentierte Fakten.
Das Problem tritt in drei Szenarien auf:
1. Das Modell verfügt über unvollständige Informationen
Fragen Sie nach einem obskuren rechtlichen Präzedenzfall aus dem 19. Jahrhundert oder einem wissenschaftlichen Nischenphänomen, und die Trainingsdaten können unvollständige, widersprüchliche oder gar keine relevanten Beispiele enthalten. Das Modell weiß nicht, dass es es nicht weiß. In seiner Architektur ist kein Konzept von Unsicherheit verankert. Es tut also das, wofür es trainiert wurde: die statistisch plausibelste Fortsetzung auszugeben.
Diese Fortsetzung könnte eine perfekt formatierte gefälschte Fallzitat sein. Die Geläufigkeit ist echt. Die Fakten sind es nicht.
2. Fehlerkaskaden bei der Langformgenerierung
Autoregressive Modelle generieren jeweils ein Token und geben jede Ausgabe als Eingabe für die nächste Vorhersage zurück. Dadurch entsteht eine fragile Kette. Wenn das Modell zu Beginn einer Antwort ein falsches Token erzeugt (ein falsches Datum, ein halluzinierter Name), ist jedes nachfolgende Token nun von einem beschädigten Kontext abhängig.
Der Fehler verschlimmert sich. Ein einziger Fehltritt im ersten Absatz kann im fünften Absatz zu einer völlig erfundenen Erzählung führen. Das Modell verfügt über keinen Mechanismus zum Zurückverfolgen und Überprüfen.
3. Das Ziel ist die Produktion, nicht die Wahrheit
Das grundlegende Problem: LLMs werden darauf trainiert, die Wahrscheinlichkeit von Textsequenzen zu maximieren, nicht die Genauigkeit von Behauptungen. Die Verlustfunktion belohnt Ausgaben, die wie die Trainingsdaten aussehen. Es gibt kein Konzept der äußeren Realität, keine Grundlage in der Wahrheit und keine Strafe für selbstbewusste Erfindungen, solange diese Erfindungen fließend sind.
Aus diesem Grund sind Halluzinationen im aktuellen Paradigma mathematisch unvermeidlich. Der Zweck des Modells besteht darin, immer zu raten. Unsicherheit auszudrücken ist im wahrsten Sinne des Wortes unobjektiv.
Das Trainingsdatenproblem
Über die Architektur hinaus sind die Daten selbst gefährdet. Moderne LLMs trainieren auf riesigen Internetkorpora: Common Crawl, Wikipedia, Reddit, wissenschaftliche Arbeiten und alles dazwischen. Diese Daten sind:
Unvollständig: Long-Tail-Domänen (unklare Gesetze, wissenschaftliche Nischenthemen, lokale Ereignisse) sind unterrepräsentiert. Bei gezielten Fragen dazu muss das Modell interpolieren.
Inkonsistent: Das Internet widerspricht sich ständig. Verschiedene Quellen behaupten unterschiedliche Fakten über dieselben Ereignisse. Das Modell lernt alle Versionen und hat keinen Schiedsrichter, der richtig ist.
Veraltet: Trainingsdaten haben ein Stichdatum. Wenn Models nach Ereignissen nach dem Cutoff gefragt werden, können sie nicht auf aktuelle Informationen zugreifen. Sie leiten aus älteren Mustern ab und halluzinieren oft völlig neue Entwicklungen.
Vergiftet: Im Schulungskorpus gibt es Fehlinformationen, falsch zugeordnete Zitate und völlige Erfindungen. Das Modell lernt diese als gültige Muster. Der berühmte Fall Mata v. Avianca, in dem ein Anwalt gefälschte, von ChatGPT generierte Fälle zitierte, geschah, weil ChatGPT gelernt hatte, wie plausible Rechtszitate aussehen, ohne zu erfahren, welche echt waren.
RLHF: Optimierung für das Falsche
Reinforcement Learning from Human Feedback (RLHF) sollte helfen. OpenAI, Anthropic und andere wollten durch das Training von Modellen zur Bewertung menschlicher Präferenzen die Ergebnisse hilfreicher, harmloser und ehrlicher machen.
Aber RLHF hat einen perversen Anreiz eingeführt. Menschliche Bewerter neigen dazu, sichere, vollständige Antworten gegenüber abgesicherten, unsicheren Antworten zu bevorzugen. Eine Antwort mit der Aussage „Basierend auf den verfügbaren Informationen scheint die Antwort X zu lauten, obwohl die Gewissheit begrenzt ist“ erhält eine schlechtere Punktzahl als eine Antwort mit der Aussage „Die Antwort lautet X“.
Das Modell lernt dies. Es optimiert das Selbstvertrauen, weil Selbstvertrauen belohnt wird. Das Ergebnis: plausible, verbindlich klingende Antworten, die möglicherweise völlig erfunden sind.
Dies ist das Problem des Trainingsanreizes. Der gleiche Mechanismus, der die KI hilfreicher machen soll, regt sie aktiv dazu an, sicher zu raten, anstatt Unwissenheit zuzugeben.
Warum aktuelle Abhilfemaßnahmen nicht ausreichen
Die KI-Industrie hat mehrere Strategien zur Reduzierung von Halluzinationen entwickelt. Alle helfen. Keiner von ihnen löst das Problem.
Retrieval-Augmented Generation (RAG)
RAG-Systeme fügen dem LLM eine Abrufkomponente hinzu. Bevor eine Antwort generiert wird, durchsucht das System eine kuratierte Wissensdatenbank und stützt die Ausgabe auf abgerufene Dokumente. Juristische KI-Anbieter wie Thomson Reuters und LexisNexis verwenden „Walled-Garden“-Ansätze und beschränken die Modelle darauf, nur verifizierte Rechtsprechung zu zitieren.
Dadurch werden Halluzinationen drastisch reduziert, aber nicht beseitigt. Das Modell kann abgerufene Dokumente immer noch falsch interpretieren, Verbindungen zwischen echten Quellen halluzinieren oder Details fabrizieren, wenn der Abruf unvollständige Ergebnisse liefert. RAG schafft auch einen neuen Fehlermodus: Wenn das relevante Dokument nicht im Suchindex enthalten ist, kann das Modell die Lücke mit einer Erfindung füllen.
Tool-Calling und Grounding
Einige Systeme ermöglichen LLMs Zugriff auf externe Tools (Rechner, Datenbanken, APIs), um Ansprüche in Echtzeit zu überprüfen. Dies hilft bei der sachlichen Suche, führt jedoch zu einer eigenen Fehleroberfläche. Das Modell muss richtig entscheiden, wann und welches Werkzeug verwendet werden soll. Es kann Werkzeugausgaben halluzinieren oder echte Ausgaben falsch interpretieren.
Ebenen zur Erkennung von Halluzinationen
Die neueste Unternehmensstrategie besteht darin, sekundäre KIs einzusetzen, um Halluzinationen zu erkennen. Clearbrief beispielsweise vermarktet sich selbst als „Rechtschreibprüfung für erfundene Fälle“. Es dient als Verifizierungsebene, die rechtliche Schriftsätze vor der Einreichung auf erfundene Zitate durchsucht.
Dies erkennt die Realität an: Basismodelle werden halluzinieren. Die Frage ist nur, ob man die Halluzinationen abfangen kann, bevor sie Schaden anrichten. Es ist eine gültige Strategie, aber es ist ein Pflaster für eine strukturelle Wunde.
Die Ökonomie verwalteter Unzuverlässigkeit
Bis 2025 hat sich die Einführung in Unternehmen in einem pragmatischen Rahmen etabliert. Halluzinationen werden nicht als ein zu lösendes Problem, sondern als ein zu bewältigendes Risiko behandelt, wie jede andere Qualitätsmetrik.
Bei Anwendungen mit geringem Einsatz (Marketingtexte, Brainstorming, Code-Stubs) werden Halluzinationen toleriert. Kreative Schlussfolgerungen sind oft eine Funktion und kein Fehler. Niemand wird verletzt, wenn eine Produktbeschreibung leicht übertrieben ist.
Für anwendungen mit hohem Risiko (Rechtsanträge, medizinische Diagnosen, behördliche Eingaben) setzen Unternehmen mehrschichtige Abwehrmaßnahmen ein: RAG, Tool-Calling, menschliche Verifizierung, Erkennungssysteme. Das Ziel sind nicht null Halluzinationen, sondern akzeptable Halluzinationsraten.
Dieser abgestufte Ansatz ist zum Industriestandard geworden. Thomson Reuters und LexisNexis weisen Kunden ausdrücklich darauf hin, dass Halluzinationen bei offenen Fragen „nicht gegen Null gehen dürfen“. Sie vermarkten ihre Systeme als geringeres Risiko und nicht als narrensicher.
Die Implikation ist erheblich: Vertrauen und Akzeptanz hängen jetzt vom Umgang mit Unzuverlässigkeit ab, nicht vom Nachweis von Zuverlässigkeit. Unternehmen bauen Arbeitsabläufe rund um die Einschränkungen der KI auf, anstatt darauf zu warten, dass diese Einschränkungen behoben werden.
Das Vertrauensdefizit
Dies hat zu einem wachsenden Vertrauensproblem geführt. Eine APA-Umfrage aus dem Jahr 2025 ergab, dass die Besorgnis über KI-Ungenauigkeiten und Halluzinationen unter Psychologen von etwa 50 % im Jahr 2024 auf etwa zwei Drittel im Jahr 2025 anstieg, obwohl die Akzeptanz von KI-Tools zunahm.
Das Muster wiederholt sich berufsübergreifend. Ärzte, Anwälte, Forscher und Analysten nutzen KI häufiger, vertrauen ihr jedoch weniger. Jede Halluzination, jedes erfundene Zitat, jede selbstbewusst falsche Diagnose untergräbt die Glaubwürdigkeit, die diese Tools nützlich macht.
Das ist das Paradox von Fähigkeit ohne Zuverlässigkeit. KI-Systeme können mittlerweile professionelle Lizenzprüfungen bestehen, doch Profis behandeln ihre Ergebnisse zunehmend als unbestätigte erste Entwürfe, die eine menschliche Überprüfung erfordern.
Wohin das Feld geht
Was kommt als nächstes, wenn Halluzinationen mit dem aktuellen Paradigma nicht gelöst werden können?
Kontext-Engineering und Orchestrierung
Die vorherrschende Strategie für 2025 besteht darin, LLMs in ausgefeilte Orchestrierungsschichten zu packen. Anstatt zu verlangen, dass das Modell genau ist, entwerfen Ingenieure Systeme, die die Freiheit des Modells einschränken. Die Eingabeaufforderungen werden sorgfältig ausgearbeitet. Abrufsysteme haben einen engen Anwendungsbereich. Die Ausgaben werden durch mehrere Verifizierungsdurchgänge validiert.
Das ist „Context Engineering“ – die Kunst, Eingaben und Arbeitsabläufe so zu strukturieren, dass LLMs von vornherein weniger wahrscheinlich halluzinieren. Es funktioniert, erfordert jedoch erhebliche technische Investitionen und Fachkenntnisse.
Neue Architekturen
Die Forschung an Architekturen, die Halluzinationen auf natürliche Weise reduzieren könnten, wird fortgesetzt. Einige Vorschläge umfassen:
- Unsicherheitsquantifizierung: Modelle, die neben Vorhersagen auch Konfidenzwerte ausgeben
- Retrieval-native Modelle: Systeme, bei denen die externe Erdung in die Architektur integriert und nicht angeschraubt ist
- Verification-in-the-Loop: Modelle, die darauf trainiert sind, ihre eigenen Ausgaben mit externen Quellen zu vergleichen, bevor sie antworten
Keines davon hat den Produktionsmaßstab erreicht. Die grundlegende Spannung zwischen Vorhersage und Wahrheit bleibt ungelöst.
Regulatorischer Druck
Da sich durch Halluzinationen verursachte Schäden häufen (Rechtsfehler, medizinische Fehler, Fehlinformationen), nimmt die Aufmerksamkeit der Aufsichtsbehörden zu. Einige Gerichtsbarkeiten beginnen, eine Offenlegung zu verlangen, wenn KI-generierte Inhalte in offiziellen Einreichungen verwendet werden. Andere erforschen Haftungsrahmen, die die Verantwortung von den Benutzern auf die KI-Anbieter verlagern, wenn Systeme schlecht funktionieren.
Regulierung wird das technische Problem nicht lösen, aber sie kann die wirtschaftlichen Aspekte verändern. Wenn Anbieter für durch Halluzinationen verursachte Schäden haftbar gemacht werden, werden die Investitionen in Schadensbegrenzung zunehmen.
Was das für Sie bedeutet
Wenn Sie KI-Tools für den professionellen Einsatz evaluieren, lautet die Schlüsselfrage nicht „Halluziert das?“ (alle aktuellen Systeme tun das), aber „Was passiert, wenn es halluziniert?“
Für Anwendungsfälle mit hohem Risiko: Fordern Sie Transparenz über Schadensbegrenzungsstrategien. Welche Wissensdatenbanken speisen das RAG-System? Welche Verifizierungsebenen gibt es? Wie hoch ist die dokumentierte Halluzinationsrate für Ihren spezifischen Anwendungsfall? Reichen Sie niemals KI-generierte Inhalte ohne menschliche Überprüfung ein.
Für die allgemeine Produktivität: Akzeptieren Sie ein gewisses Maß an Erfindungsreichtum als Teil des Kompromisses. Behandeln Sie KI-Ergebnisse als erste Entwürfe, nicht als Endprodukte. Integrieren Sie die Verifizierung in Ihren Arbeitsablauf, selbst bei scheinbar alltäglichen Aufgaben.
Für technische Teams: Investieren Sie in Kontext-Engineering. Der Unterschied zwischen einem zuverlässigen KI-Workflow und einer Haftung liegt häufig darin, wie das System verpackt, eingeschränkt und überprüft wird – und nicht in den Fähigkeiten des Basismodells.
Die unbequeme Wahrheit
KI-Halluzinationen sind keine vorübergehende Peinlichkeit, die durch bessere Modelle behoben werden kann. Sie sind eine strukturelle Folge der Next-Token-Vorhersage, die auf unvollständigen Daten mit falsch ausgerichteten Anreizen trainiert wurde. Jeder Leistungsfortschritt (mehr Parameter, mehr Trainingsdaten, bessere RLHF) hat die Modelle nützlicher gemacht, ohne sie zuverlässiger zu machen.
Das bedeutet nicht, dass KI nutzlos ist. Die Produktivitätssteigerungen sind real. Die Fähigkeiten sind bemerkenswert. Doch der Hype um „künstliche allgemeine Intelligenz“ verdeckt eine grundlegende Einschränkung: Diese Systeme wissen nicht, was wahr ist. Sie wissen nur, was wahrscheinlich ist.
Bis jemand eine Architektur erfindet, die Vorhersagen auf der Realität und nicht auf Statistiken basiert, wird es weiterhin Halluzinationen geben. Nicht als zu behebender Fehler, sondern als Merkmal der Funktionsweise dieser Systeme.
Die Frage ist nicht, ob KI halluzinieren wird. Die Frage ist, ob Sie darauf vorbereitet sind.
🦋 Discussion on Bluesky
Discuss on Bluesky