Zum Hauptinhalt springen
Reflexionen3 Min. Lesezeit

Die flüssige Halluzination: warum gute Grammatik zum klinischen Risiko wurde

Als alte Software scheiterte, scheiterte sie laut — in unübersehbar zerstückeltem Text. Generative KI scheitert in tadelloser Prosa. Der Fehler meldet sich nicht mehr, und der bestgeschriebene Befund kann der gefährlichste in der Akte sein.

Dr. Sven Jungmann

Dr. Sven Jungmann

CEO

Eine Ärztin liest im Morgenlicht am Schreibtisch einen sauber und selbstbewusst gesetzten klinischen Befund, der Stift schwebt über einem schwach unterstrichenen Absatz.

Eine Assistenzärztin liest den Entlassbrief, den das System über Nacht entworfen hat. Er ist, nach jedem gewöhnlichen Maßstab, hervorragend: sauberer Satzbau, der richtige Ton, die Kadenz von jemandem, der das Fach beherrscht. Erst drei Absätze später stockt etwas — eine Arzneimittelallergie, mit voller Bestimmtheit aufgeführt, die die Patientin, soweit sie es rekonstruieren kann, nie hatte. Es gab keine Warnung. Der Satz mit dem Fehler las sich genau wie die Sätze ohne.

Wir haben uns so daran gewöhnt, dass Software laut scheitert, dass wir den Lärm für das Problem hielten. Wenn ein Altsystem brach, erzeugte es zerstückelten Text, kaputte Felder, einen Fehler, über den man nicht hinweglesen konnte. Diese Hässlichkeit war, im Rückblick, ein Sicherheitsmerkmal. Sie zwang die Ärztin, innezuhalten, zusammenzuzucken und die Sache zu richten. Der Fehler meldete sich selbst.

Generative Modelle brechen nicht auf diese Weise. Sie sind nicht darauf gebaut, recht zu haben, sondern plausibel zu sein: Sie sagen das nächste wahrscheinliche Wort voraus, damit der Satz seine Form behält. Erfindet eines also einen klinischen Befund, dann stottert es nicht und hakt nicht. Es schreibt die Unwahrheit in derselben flüssigen, fachlichen Stimme, in der es alles Wahre schreibt. Es kleidet den Fehler in das Gewand der Kompetenz.

Die Gefahr ist nicht, dass die Maschine sich irrt. Sie ist, dass sie sich plausibel irrt — und dass die Flüssigkeit gerade jenes Signal begräbt, auf das wir uns verlassen haben, um den Irrtum zu fassen.

Das Signal, das uns abhandenkam

Wenn eine junge Ärztin unsicher ist, hört man es dem Geschriebenen an. Der Eintrag wird kurz und vorsichtig: scheint, möglicherweise, fraglich. Die Unsicherheit zeigt sich in der Textur des Textes, und ein erfahrener Leser registriert sie, ohne dass man es ihm sagen müsste. Lange war dieses Zögern einer der stillen Schutzmechanismen der Medizin — ein Hinweis darauf, wo genauer hinzusehen war.

Ein Modell hat keinen solchen Hinweis. Es nennt einen gesicherten und einen erfundenen Befund in genau demselben Ton, mit derselben gleichmäßigen Bestimmtheit. Die Metadaten des Zweifels sind fort. Nichts an der Oberfläche der Prosa unterscheidet das Belegte vom Unbelegten — und das heißt, die Leserin kann nicht länger nach Gefühl sortieren.

Die Audit-Steuer

Hier die unbequeme Rechnung. Wir kaufen diese Systeme, um Zeit zu sparen, und auf der Seite des Schreibens ist die Ersparnis echt. Aber sie sicher zu nutzen heißt, das Lesen — das passive, flüssige Aufnehmen — durch Prüfen zu ersetzen: jede Zeile als Behauptung zu lesen, die gegen die Quelle abzugleichen ist. Und Prüfen ist kognitiv teurer als Schreiben.

Es ist tatsächlich leichter, einen Eintrag von Grund auf zu verfassen, als einen tadellosen Absatz zu lesen und ihn auf einen feinen inhaltlichen Fehler zu durchleuchten: ein um ein Jahr verschobenes Datum, eine vertauschte Seitenangabe, ein Milligramm, das still zum Mikrogramm geworden ist. Die Flüssigkeit, die den Text angenehm zu lesen macht, ist genau das, was den Fehler schwer auffindbar macht. Kurzfristig kann eine ehrlich betriebene, sichere Einführung die kognitive Last eher erhöhen als senken — eine Audit-Steuer, die niemand in die Kalkulation eingepreist hat.

Das Versagensmuster ist absehbar. Wo die Prüfung mühsam und der Tag lang ist, hören die Menschen auf zu prüfen. Sie zeichnen flüssige Befunde ab, weil die Prosa beruhigt und sie müde sind — und die Unterschrift bedeutet am Ende weniger, als alle annehmen. Ein tadellos geschriebener Absatz ist das Leichteste der Welt, um durchgewunken zu werden.

Lesen als Verhör

Die Fähigkeit, die das von Ärzt:innen verlangt, ist nicht, die Maschine geschickter anzuweisen. Es ist, das Zurückgegebene zu verhören. Lesen Sie das Dokument, als wäre es schuldig, bis seine Unschuld erwiesen ist. Legen Sie die Eloquenz beiseite — sie sagt nichts über die Richtigkeit — und gehen Sie direkt auf die Datenpunkte, die am ehesten halluzinieren: die Daten, die Dosierungen, die Seitenangaben, die Allergien, die Zahlen, die irgendwo zu einer Quelle passen müssen.

Nichts davon spricht gegen die Werkzeuge. Es spricht gegen eine bestimmte Wunschvorstellung: dass man KI über den bestehenden Betrieb legen, weiter so überfliegen kann, wie Ärzt:innen immer überflogen haben, und einfach die Zeit einsammelt. Eine Strategie, die darauf baut, dass müde Menschen flüssigen Text schnell lesen, ist kein Effizienzprogramm. Sie ist eine Art, das Risiko dorthin zu verschieben, wo man aufgehört hat hinzusehen.

#Reflexionen#Klinische KI#Patientensicherheit#Klinische Dokumentation#Digitalisierung

Weiterlesen

Editorial-Collage: eine erschöpfte Assistenzärztin am Arbeitsplatz blickt an einem Teal-Warnfenster vorbei, dahinter eine sich verlierende Halbton-Reihe identischer grauer Hinweise und ein einzelner Amber-Akzent.

Alarmmüdigkeit ist ein Kontinuum, kein Schalter: eine genaue Lektüre

Zwanzig Assistenzärzt:innen beschreiben, wie klinische Warnhinweise aufhören, gelesen zu werden. Der nützliche Befund ist nicht, dass sie weggeklickt werden: Es ist, dass Müdigkeit ein bewegliches Gleichgewicht aus Kultur und Gestaltung ist, kein fester Wesenszug.

Dr. Sven JungmannCEO
Editorial-Collage: eine übermüdete Person bei Nacht, beleuchtet vom blauen Schein eines Smartphones, eine unruhige Tealtinie als Blickbewegung über einem Navy-Rechteck, darunter angedeutete leere Tagebuchfelder und ein einzelner Amber-Punkt in einem Feld.

Das Schlaftagebuch, das gegen das übermüdete Gehirn arbeitet

Eine Eye-Tracking-Pilotstudie benennt ein unangenehmes Problem: Wer ein präzises Schlaftagebuch führen soll, ist die Person, deren Aufmerksamkeit der schlechte Schlaf bereits geschwächt hat. Die Oberfläche ist nicht neutral — doch gemessen wurde Belastung, nicht Wirkung.

Dr. Sven JungmannCEO
DKI-Konjunkturbarometer Q1/2026: Geschäftsklima-Saldo -63 — und die zweite Ebene der Krise sitzt in der Personal-Substanz.
Medizinisches Controlling

DKI-Konjunkturbarometer Q1/2026: Saldo -63 und die zweite Schicht der Krise

Das erste DKI-Konjunkturbarometer misst für die Krankenhäuser einen Geschäftsklima-Saldo von -63 — dramatisch unter jedem ifo-Wirtschaftszweig. Die Zahl ist real, aber sie ist nur eine Schicht. Die zweite — Belastung, Berufsausstieg, Vakanzdauer — entscheidet die nächste Reform.

Dr. Sven JungmannCEO

Diese Analyse stammt von den Leuten hinter Visite.

Unser wöchentlicher Newsletter zu KI in der Medizin. Jeden Freitag, gründlich geprüft.

Mit der Anmeldung stimmen Sie dem Erhalt von Visite per E-Mail zu. Abmeldung jederzeit. Mehr in unserer Datenschutzerklärung.

Sie möchten das in Ihrer Klinik sehen?

30 Minuten. Ihre Fragen. Unser Arzt-Gründer zeigt Ihnen die Plattform persönlich.

Termin vereinbaren

Unverbindlich. Kein Vertrieb. Arzt zu Arzt.