Reflexionen23. Dezember 20253 Min. Lesezeit

Die flüssige Halluzination: warum gute Grammatik zum klinischen Risiko wurde

Als alte Software scheiterte, scheiterte sie laut — in unübersehbar zerstückeltem Text. Generative KI scheitert in tadelloser Prosa. Der Fehler meldet sich nicht mehr, und der bestgeschriebene Befund kann der gefährlichste in der Akte sein.

Dr. Sven Jungmann

CEO

Eine Ärztin liest im Morgenlicht am Schreibtisch einen sauber und selbstbewusst gesetzten klinischen Befund, der Stift schwebt über einem schwach unterstrichenen Absatz.

Eine Assistenzärztin liest den Entlassbrief, den das System über Nacht entworfen hat. Er ist, nach jedem gewöhnlichen Maßstab, hervorragend: sauberer Satzbau, der richtige Ton, die Kadenz von jemandem, der das Fach beherrscht. Erst drei Absätze später stockt etwas — eine Arzneimittelallergie, mit voller Bestimmtheit aufgeführt, die die Patientin, soweit sie es rekonstruieren kann, nie hatte. Es gab keine Warnung. Der Satz mit dem Fehler las sich genau wie die Sätze ohne.

Wir haben uns so daran gewöhnt, dass Software laut scheitert, dass wir den Lärm für das Problem hielten. Wenn ein Altsystem brach, erzeugte es zerstückelten Text, kaputte Felder, einen Fehler, über den man nicht hinweglesen konnte. Diese Hässlichkeit war, im Rückblick, ein Sicherheitsmerkmal. Sie zwang die Ärztin, innezuhalten, zusammenzuzucken und die Sache zu richten. Der Fehler meldete sich selbst.

Generative Modelle brechen nicht auf diese Weise. Sie sind nicht darauf gebaut, recht zu haben, sondern plausibel zu sein: Sie sagen das nächste wahrscheinliche Wort voraus, damit der Satz seine Form behält. Erfindet eines also einen klinischen Befund, dann stottert es nicht und hakt nicht. Es schreibt die Unwahrheit in derselben flüssigen, fachlichen Stimme, in der es alles Wahre schreibt. Es kleidet den Fehler in das Gewand der Kompetenz.

“Die Gefahr ist nicht, dass die Maschine sich irrt. Sie ist, dass sie sich plausibel irrt — und dass die Flüssigkeit gerade jenes Signal begräbt, auf das wir uns verlassen haben, um den Irrtum zu fassen.”

Das Signal, das uns abhandenkam

Wenn eine junge Ärztin unsicher ist, hört man es dem Geschriebenen an. Der Eintrag wird kurz und vorsichtig: scheint, möglicherweise, fraglich. Die Unsicherheit zeigt sich in der Textur des Textes, und ein erfahrener Leser registriert sie, ohne dass man es ihm sagen müsste. Lange war dieses Zögern einer der stillen Schutzmechanismen der Medizin — ein Hinweis darauf, wo genauer hinzusehen war.

Ein Modell hat keinen solchen Hinweis. Es nennt einen gesicherten und einen erfundenen Befund in genau demselben Ton, mit derselben gleichmäßigen Bestimmtheit. Die Metadaten des Zweifels sind fort. Nichts an der Oberfläche der Prosa unterscheidet das Belegte vom Unbelegten — und das heißt, die Leserin kann nicht länger nach Gefühl sortieren.

Die Audit-Steuer

Hier die unbequeme Rechnung. Wir kaufen diese Systeme, um Zeit zu sparen, und auf der Seite des Schreibens ist die Ersparnis echt. Aber sie sicher zu nutzen heißt, das Lesen — das passive, flüssige Aufnehmen — durch Prüfen zu ersetzen: jede Zeile als Behauptung zu lesen, die gegen die Quelle abzugleichen ist. Und Prüfen ist kognitiv teurer als Schreiben.

Es ist tatsächlich leichter, einen Eintrag von Grund auf zu verfassen, als einen tadellosen Absatz zu lesen und ihn auf einen feinen inhaltlichen Fehler zu durchleuchten: ein um ein Jahr verschobenes Datum, eine vertauschte Seitenangabe, ein Milligramm, das still zum Mikrogramm geworden ist. Die Flüssigkeit, die den Text angenehm zu lesen macht, ist genau das, was den Fehler schwer auffindbar macht. Kurzfristig kann eine ehrlich betriebene, sichere Einführung die kognitive Last eher erhöhen als senken — eine Audit-Steuer, die niemand in die Kalkulation eingepreist hat.

Das Versagensmuster ist absehbar. Wo die Prüfung mühsam und der Tag lang ist, hören die Menschen auf zu prüfen. Sie zeichnen flüssige Befunde ab, weil die Prosa beruhigt und sie müde sind — und die Unterschrift bedeutet am Ende weniger, als alle annehmen. Ein tadellos geschriebener Absatz ist das Leichteste der Welt, um durchgewunken zu werden.

Lesen als Verhör

Die Fähigkeit, die das von Ärzt:innen verlangt, ist nicht, die Maschine geschickter anzuweisen. Es ist, das Zurückgegebene zu verhören. Lesen Sie das Dokument, als wäre es schuldig, bis seine Unschuld erwiesen ist. Legen Sie die Eloquenz beiseite — sie sagt nichts über die Richtigkeit — und gehen Sie direkt auf die Datenpunkte, die am ehesten halluzinieren: die Daten, die Dosierungen, die Seitenangaben, die Allergien, die Zahlen, die irgendwo zu einer Quelle passen müssen.

Nichts davon spricht gegen die Werkzeuge. Es spricht gegen eine bestimmte Wunschvorstellung: dass man KI über den bestehenden Betrieb legen, weiter so überfliegen kann, wie Ärzt:innen immer überflogen haben, und einfach die Zeit einsammelt. Eine Strategie, die darauf baut, dass müde Menschen flüssigen Text schnell lesen, ist kein Effizienzprogramm. Sie ist eine Art, das Risiko dorthin zu verschieben, wo man aufgehört hat hinzusehen.

#Reflexionen#Klinische KI#Patientensicherheit#Klinische Dokumentation#Digitalisierung

Die flüssige Halluzination: warum gute Grammatik zum klinischen Risiko wurde

Das Signal, das uns abhandenkam

Die Audit-Steuer

Lesen als Verhör

Weiterlesen

Warum aiomics für QM-Berichte und Qualitätsanalytik

Arztbrief mit KI: was zwischen Entwurf und Unterschrift passieren muss

KI-Dokumentation im Krankenhaus: Anbieter im Vergleich (2026)

Diese Analyse stammt von den Leuten hinter Visite.

Sie möchten das in Ihrer Klinik sehen?