Datenqualität13. Januar 20267 Min. Lesezeit

KI-Halluzinations-Maskierung: Warum flüssiger Text gefährlicher ist

Eine Halluzination, die unbeholfen klingt, weckt Misstrauen. Eine, die wie eine ärztlich vertretbare Verdichtung klingt, geht durch. Genau diese Asymmetrie ist die strukturelle Lücke der Klinik-KI.

Dr. Sven Jungmann

CEO

Eine Reha-Chefärztin liest am Aufnahme-Tag einen KI-generierten Vorbefund-Text, der flüssig und ärztlich vertretbar klingt — und genau diese Sprachflüssigkeit ist der Vektor der Halluzinations-Maskierung in der Klinik-KI.

Am Aufnahme-Tag liest eine Reha-Chefärztin einen KI-vorbereiteten Vorbefund-Text. Der Text fasst zwei Brief-Quellen aus der Akut-Behandlung in einen Absatz: Er klingt flüssig, klinisch vertretbar, ohne Reibung. Die Chefärztin liest, nickt, bringt das Aufnahme-Gespräch in Gang. Drei Wochen später, in der Reha-Visite, fällt einer Mit-Ärztin beim Quer-Lesen auf, dass eine der zentralen Aussagen im Vorbefund-Text in keiner der beiden Brief-Quellen steht. Sie ist auch nicht direkt falsch — sie ist eine Synthese aus zwei quellengetreuen Fragmenten, die das Modell sprachlich zusammengezogen hat. Der Therapieplan war zu diesem Zeitpunkt drei Wochen alt; er muss korrigiert werden. Niemand hat geschlampt. Die Chefärztin hat den Vorbefund mit der gleichen Aufmerksamkeit gelesen, mit der sie ärztliche Briefe immer liest. Der Fehler hat einen Namen: Halluzinations-Maskierung. Und er ist in dieser Klinik nicht entstanden, weil das Modell schlecht war. Er ist entstanden, weil das Modell gut war.

Warum Sprachflüssigkeit kein Wahrheits-Signal ist

Die computerlinguistische Forschung hat den Mechanismus früh benannt. Maynez et al. (2020) zeigen — ursprünglich an Nachrichten-Korpora, nicht an klinischen Texten — dass Zusammenfassungs-Modelle zwei Klassen halluzinierter Aussagen produzieren. Eine intrinsische Halluzination widerspricht der Quelle direkt. Eine extrinsische Halluzination bringt etwas hinzu, was die Quelle weder bestätigt noch ausschließt. Beide klingen flüssig — denn das Modell ist auf Flüssigkeit trainiert, nicht auf Quellen-Treue. Die beiden Trainings-Achsen korrelieren nicht; ein Modell kann sehr flüssig schreiben und gleichzeitig den Bezug zur Quelle verlieren. Ji et al. (2023) konsolidieren in ihrer Survey für die ACM Computing Surveys den schwerwiegenderen Sub-Modus: das Verschmelzen mehrerer quellengetreuer Fragmente zu einer synthetischen Aussage, die in keiner Einzel-Quelle steht. Diese Aggregations-Klasse benennen die Autor:innen als methodisch besonders schwer detektierbar — gerade weil jede Einzel-Aussage, auf die sie aufsetzt, korrekt ist.

Die klinische Forschung der letzten zwei Jahre hat das Phänomen empirisch belegt. NEJM AI-Reviews 2024–2026 berichten konvergent eine Halluzinations-Rate klinischer Sprachmodelle zwischen 1 und 10 Prozent — die genaue Höhe ist aufgaben- und modellabhängig, die Reviews aggregieren Studien unterschiedlicher Methodik. Wichtiger als die Rate ist die Asymmetrie: Freie Halluzinationen werden von Klinik-Reviewer:innen relativ verlässlich erkannt, Aggregations-Halluzinationen deutlich seltener. npj Digital Medicine benennt das Phänomen in seinen 2024–2026 erschienenen Reviews als „fluency-induced complacency“: Die Sprachflüssigkeit der Aussage stellt das Misstrauen der lesenden Person still. Die Detektion-Rate sinkt nicht, weil die Aufmerksamkeit nachlässt, sondern weil die sprachliche Form selbst das Signal ist, auf das die klinische Heuristik anschlägt — und sie schlägt nicht an, wenn die Form unauffällig ist. Damit kehrt sich die übliche Risiko-Sortierung um. Eine offensichtliche Halluzination — eine Befund-Aussage, die im falschen Register klingt, ein Fachausdruck, der nicht passt — ist klinisch kein primäres Sicherheits-Problem, weil sie sich selbst markiert. Eine maskierte Halluzination ist eines, weil sie es nicht tut.

Klinisch ist die gefährlichere Halluzinationsart flüssig formulierte Synthese: Reviewer detektieren sie seltener als freie Halluzinationen, weil Sprachflüssigkeit klinisches Misstrauen stillstellt. — Die Detektions-Asymmetrie kehrt die Erwartung um: Je überzeugender der Text klingt, desto seltener wird der Fehler darunter sichtbar.·aiomics

Warum die klinische Heuristik hier strukturell versagt

Das ist keine Frage der Erfahrung. Singh, Asgari, Gilbert und vergleichbare Forschungs-Linien haben in den Jahren 2023–2025 in JAMA, NEJM AI und npj Digital Medicine dokumentiert, dass auch Fachärzt:innen mit fünfzehn bis zwanzig Jahren Klinik-Erfahrung flüssig formulierte Synthese-Halluzinationen schwerer detektieren als unbeholfen formulierte freie Halluzinationen. Der Effekt überrascht — er kehrt die Erwartung um, dass Erfahrung die Detektion stützt. Die Erklärung liegt nicht in der Aufmerksamkeit der Lesenden, sondern in der Heuristik, mit der sie lesen. Die klinische Heuristik kalibriert auf eine sinnvolle Annahme: Bei Menschen ist Sprachflüssigkeit ein Marker für Sicherheit der/des Berichtenden. Eine Anamnese, die unsicher formuliert ist, weckt sinnvolle Skepsis; eine Anamnese, die flüssig sitzt, signalisiert eine geübte Befundung — und damit, statistisch über die ärztlichen Karrieren von Reviewer:innen und Berichtenden hinweg, eine erhöhte Wahrscheinlichkeit, dass die zugrundeliegende Beobachtung sorgfältig war. Diese Heuristik ist klinisch gut kalibriert, aber sie kalibriert auf Menschen. Bei Sprachmodellen trägt sie nicht — die Flüssigkeit einer Modell-Ausgabe sagt nichts über ihre Quellen-Treue, weil das Modell die Flüssigkeit unabhängig vom Wahrheitsbezug erzeugt. Die beiden Trainings-Achsen — Flüssigkeit und Faithfulness — laufen parallel, nicht gemeinsam. Die Heuristik versagt nicht, weil die ärztliche Leitung unaufmerksam wird; sie versagt, weil sie auf eine Flüssigkeits-Wahrheits-Kopplung angewendet wird, die im Modell nicht existiert. Eine Heuristik, die auf einer nicht vorhandenen Kopplung beruht, kann nicht durch Übung verbessert werden — sie kann nur strukturell ergänzt werden.

Häufiger Denkfehler: „Ein besseres Modell hat weniger Halluzinationen“

Diese Gleichsetzung verschiebt die Sicherheits-Frage auf eine Achse, die das Problem nicht löst. Größere Modelle reduzieren die Halluzinations-Rate gegenüber kleineren — das gilt empirisch. Sie verändern aber die Detektions-Asymmetrie nicht: Ein größeres Modell schreibt flüssiger, und flüssigerer Text wird von Klinik-Reviewer:innen seltener angefochten. In der Aggregations-Klasse kann eine Skalierung des Modells die Maskierung verstärken, nicht abschwächen — die Synthese wird sprachlich überzeugender, die Detektions-Rate sinkt mit. Wer die Sicherheits-Frage als Modell-Größen-Frage liest, hat einen kategorialen Schritt übersprungen. Die Frage ist keine Modell-Frage, sondern eine Architektur-Frage: Welche Eigenschaften zeigen einer lesenden Klinikerin, woher jede einzelne Aussage in der Synthese stammt — vor der Sprachflüssigkeit, nicht nach ihr.

Drei Architektur-Eigenschaften, die Maskierung strukturell brechen

Die Antwort liegt in drei Eigenschaften, die unabhängig vom Modell-Anbieter prüfbar sind. Erstens: Provenienz pro Aussage. Jede Aussage in einer KI-generierten Synthese wird auf ihre Quelle zurückführbar gehalten — nicht auf einen Quellen-Cluster, sondern auf den konkreten Satz oder Abschnitt im konkreten Brief, aus dem sie stammt. Eine Aussage ohne Provenienz ist eine Aussage ohne Tragfähigkeit; sie wird in der ärztlichen Lese-Schicht als solche markiert, statt durch ihre flüssige Form Vertrauen zu beanspruchen, das ihr nicht zusteht. Zweitens: Span-Level-Attribution. Innerhalb einer Synthese-Aussage wird angezeigt, welche Phrase aus welcher Quelle kommt — nicht für den Absatz als Ganzes, sondern für die einzelnen Spans. Eine Synthese „Arthrose beidseits“ aus zwei Briefen mit „links“ und „rechts“ würde an der Span-Ebene aufzeigen, dass die Phrase „beidseits“ aus keiner der beiden Quellen stammt; sie ist die Synthese-Stelle, und die Synthese-Stelle ist die Stelle, an der das Modell die Verantwortung übernehmen muss. Die Klinikerin sieht in der Ausgabe, an welcher genauen Wort-Position das Modell die Quellen verlässt — und kann genau dort entscheiden, ob die Synthese gerechtfertigt ist oder zurückgewiesen werden muss. Drittens: Konsistenz-Prüfung über die Quellen-Menge vor der Generierung. Wenn zwei Quellen sich widersprechen, wird der Widerspruch dem ärztlichen Lese-Vorgang sichtbar gemacht — als Widerspruchs-Markierung im Synthese-Text, nicht als geglättete Konsens-Aussage. Eine Architektur, die Widersprüche zwischen Quellen erst nach der Generierung in einer Output-Filter-Schicht prüft, hat den Maskierungs-Vektor bereits passieren lassen; die Lese-Person sieht die geglättete Synthese, nicht die unterliegende Spannung. Sichtbare Lücken sind sicherer als geschlossene Prosa.

Die methodische Verankerung dieser drei Eigenschaften liegt in der Retrieval-Augmented-Generation-Forschung. Lewis et al. (2020) zeigen, dass eine explizite Retrieval-Schicht die Halluzinations-Rate gegenüber rein parametrischen Modellen reduziert. Die Reduktion ist nicht hinreichend — eine schlecht implementierte RAG-Pipeline produziert Aggregations-Halluzinationen weiterhin, wenn der Retrieval-Schritt mehrere Quellen liefert und der Generations-Schritt sie ohne Konsistenz-Prüfung verschmilzt. Die drei Architektur-Eigenschaften addieren sich also nicht zu RAG hinzu; sie sind die Bedingungen, unter denen RAG die Aggregations-Klasse überhaupt erreicht. Wer eine Klinik-KI-Pipeline beschafft, prüft nicht, ob „RAG drin ist“. Er prüft, ob jede Aussage in der Ausgabe zur Quelle führt, ob jede Synthese-Stelle als solche erkennbar ist und ob Widersprüche zwischen Quellen sichtbar bleiben. Die NEJM-AI-Reviews 2024–2026 stützen diese Architektur-Lesart: Vorgelagerte Konsistenz-Prüfungen erzielen empirisch höhere Wirksamkeit als nachgelagerte Halluzinations-Filter.

Die Antwort auf maskierte Synthese-Fehler in klinischen Sprachmodellen liegt nicht im größeren Modell, sondern in drei prüfbaren Architektur-Eigenschaften. — Die Frage verschiebt sich vom Modell zur Architektur — und in der Architektur wird die Sprachflüssigkeit selbst wieder zum Misstrauens-Anlass.·aiomics

Was das für Sie heißt

Im Klinik-KI-Beschaffungs-Gespräch lassen Sie zu vier Stellen schriftliche Antworten geben, bevor die Sprachflüssigkeit der Demo-Ausgabe Sie überzeugt. Erstens: Wird in der Ausgabe jede Aussage auf eine konkrete Quelle zurückgeführt — auf welcher Granularitäts-Ebene (Dokument, Abschnitt, Satz)? Zweitens: Werden Synthese-Stellen, die nicht direkt aus einer Quelle stammen, als solche markiert — auf Span-Ebene oder nur auf Absatz-Ebene? Drittens: Wie verfährt das System bei Quellen-Widersprüchen — wird die Spannung im Synthese-Text markiert, oder geglättet? Viertens: Welche Faithfulness-Metriken misst der Anbieter regelmäßig im Betrieb, und wie sind die Werte über die letzten zwölf Monate verlaufen? Diese vier Antworten machen aus einer flüssig klingenden Demo-Ausgabe eine prüfbare Aussage.

Provenienz-Granularität, Span-Markierung, Widerspruchs-Sichtbarkeit, Faithfulness-Metriken im Betrieb — verwandeln bisher unsichtbare Fehler beim Klinik-KI-Einkauf in eine Beschaffungs-Frage. — Vier Antworten auf einem Blatt — die kurze Liste, die das Sprachflüssigkeits-Argument im Beschaffungs-Gespräch entkräftet.·aiomics

Halluzinations-Maskierung ist kein Modell-Problem, sondern eine Klasse, gegen die Architektur explizit gebaut werden muss. Ein Sprachmodell, das flüssig schreibt, ohne seine Quellen pro Aussage offenzulegen, ist im klinischen Kontext nicht sicherer geworden, sondern lediglich überzeugender. Was sich für die Lese-Person geändert hat, ist die Schwelle, an der ihr Misstrauen anschlägt — nicht das Risiko darunter. Die Klinik, die in der Beschaffung Provenienz, Span-Attribution und Konsistenz-Prüfung als Architektur-Eigenschaften benennt — und sich von der Demo-Sprachqualität nicht stillstellen lässt — hat den Vektor strukturell hinter sich gelassen. Die Klinik, die nur die Halluzinations-Rate fragt, hat ihn nicht beseitigt. Sie hat ihn unsichtbarer gemacht.

#Halluzinations-Maskierung#Klinik-KI-Sicherheit#Faithfulness#Provenienz pro Aussage#Datenqualität#Klinik-LLM#RAG

Der Beitrag beschreibt eine methodisch konsolidierte Klasse von Modell-Fehlern (Halluzinations-Maskierung in generativen Sprachmodellen) und ihre Architektur-Antworten. Aiomics baut die Klinik-KI-Architektur explizit gegen diese Klasse. Er gibt keine Empirie zu konkreten Anbietern oder Produkten und keine Rechtsauslegung zu Medizinprodukte-Klassifikation oder Aufsichts-Anforderungen — die konkrete Bewertung im Einzelfall bleibt Sache der ärztlichen Leitung, der Klinik-IT-Leitung und der zuständigen Datenschutz-Beauftragten.

KI-Halluzinations-Maskierung: Warum flüssiger Text gefährlicher ist

Warum Sprachflüssigkeit kein Wahrheits-Signal ist

Warum die klinische Heuristik hier strukturell versagt

Drei Architektur-Eigenschaften, die Maskierung strukturell brechen

Weiterlesen

Souveränität ist nicht Ausfallsicherheit: Was die Angriffe auf die Cloud wirklich zeigen

Kein einziger Faktenfehler — und dann kam die fünfte Gesprächsrunde

Ein mRNA-Modell für 165 Dollar: Was ein Hugging-Face-Beitrag zeigt und was nicht

Diese Analyse stammt von den Leuten hinter Visite.

Sie möchten das in Ihrer Klinik sehen?