Reflexionen1. Januar 20264 Min. Lesezeit

Die Vertrauensfalle: Warum eine flüssige Antwort noch keine belegte ist

Eine KI, die einen Befund liest, und eine KI, die eine Anamnese zusammenfasst, sind nicht dieselbe Art Maschine. Die eine prüfen wir gegen Studien. Die andere müssen wir Zeile für Zeile gegen ihre Quelle prüfen können.

Dr. Sven Jungmann

CEO

Eine Ärztin liest an einem Arbeitsplatz eine saubere, selbstsichere Zusammenfassung auf dem Bildschirm, während neben der Tastatur ein dicker Stapel ungeöffneter Quelldokumente im Schatten liegt.

Spät in einer ruhigen Schicht öffnet eine Ärztin eine generierte Zusammenfassung zu einer Patientin, die sie nie gesehen hat. Sie ist sauber, geordnet, flüssig. Sie hält unter anderem fest, die Patientin habe eine Vorgeschichte mangelnder Therapietreue. Der Satz liest sich mit vollkommener Selbstverständlichkeit. Nichts in seinem Ton legt nahe, dass sie ihn prüfen sollte, und es gibt keinen naheliegenden Weg, das zu tun, ohne die ganze Akte erneut zu öffnen. Also liest sie weiter, und die Behauptung wird still zu einem Teil ihres Bildes von der Patientin.

In der Eile, mit der wir KI in die Medizin holen, haben wir zwei sehr verschiedene Maschinen in ein Wort gefasst. Sie verdienen Vertrauen nicht auf dieselbe Weise, und sie zu behandeln, als täten sie es, ist der Weg, auf dem aus einem flüssigen Satz ein klinischer Fakt wird, den niemand je belegt hat.

Zwei Maschinen, ein Wort

Die erste Art ist die Mustererkennung: das Modell, das eine Computertomografie oder ein EKG liest. Sie ist eine Black Box im ehrlichen Sinne — sie kann ihre Herleitung nicht erklären, und wir verlangen es nicht von ihr. Wir akzeptieren sie, weil sie an großen, vielfältigen Datensätzen geprüft wurde, ihre Sensitivität und Spezifität in begutachteten Studien belegt sind. Wir vertrauen der Statistik, nicht der Erklärung. Der Beleg ist die Studie.

Die zweite Art ist das generative Schließen: das Modell, das Notizen zusammenfasst, einen Entlassbrief entwirft, ein Vorgehen vorschlägt. Es ist eine probabilistische Maschine. Sie sagt das nächste plausible Wort voraus, und sie klingt außerordentlich sicher, ob sie recht hat oder nicht. Flüssigkeit ist das Einzige, was sie stets liefern kann. Richtigkeit nicht.

Die Falle besteht darin, das Vertrauen, das wir in der Radiologie gelernt haben, auf die Prosa in der Akte auszudehnen. Wir haben uns daran gewöhnt, einer Black Box zu trauen, die Bilder liest, und tragen diese Gewöhnung auf eine Black Box über, die Behauptungen über die Vorgeschichte eines Menschen aufstellt. Ein selbstsicherer Satz über eine Patientin ist aber kein statistischer Messwert. Er ist eine Aussage über die Wirklichkeit, und eine Aussage ist nur so viel wert wie ihre Quelle.

“Eine Behauptung ohne Quelle ist ein Gerücht. Ein klinischer Fakt ist eine Behauptung, die an einen Beleg gebunden ist. Der einzige Unterschied, den eine KI machen kann, ist, ob sie Ihnen diese Bindung in die Hand gibt.”

Prüfung fürs Auge, Beleg fürs Schließen

Daraus folgen zwei Maßstäbe, nicht einer. Für die Wahrnehmung — das Auge, das einen Befund oder ein Signal liest — verlangen wir die Validierung. Wir können die Black Box hinnehmen, wenn ihre Leistung an Bevölkerungen wie der unseren belegt ist. Für das Schließen — das System, das eine Aussage über Vorgeschichte, Vorgaben oder Fakten trifft — verlangen wir den Beleg. Es muss auf das Dokument zeigen können, in dem es gefunden hat, was es behauptet: die konkrete Pflegenotiz, den Laborwert, die Zeile in der Leitlinie.

Der Grund ist praktisch, bevor er grundsätzlich wird. Behauptet ein System, eine Patientin sei nicht therapietreu, kann aber nicht zeigen, wo es das gelesen hat, dann kann die Ärztin es nicht bestätigen, ohne die ganze Akte selbst noch einmal zu lesen. An diesem Punkt hat die Maschine ihr nichts erspart. Wer die Arbeit erneut tun muss, um die Arbeit zu prüfen, hat die Arbeit nie abgegeben. Eine Assistenz, die man vollständig nachprüfen muss, ist keine Assistenz.

Der stille Fehler und der laute

Generative Modelle erzeugen selbstsichere Fehler — flüssig, überzeugend, falsch. Die entscheidende Frage ist nicht, ob sie auftreten; sie werden auftreten. Sie lautet, ob jemand sie fangen kann. Ohne nachvollziehbare Quelle ist ein selbstsicherer Fehler unsichtbar. Eine Ärztin liest eine makellose, falsche Zusammenfassung und handelt danach, und nichts im Text deutet je auf den Mangel hin.

Binden Sie dieselbe Behauptung an ihre Quelle, und das Versagen ändert seinen Charakter vollständig. Die Ärztin folgt dem Verweis, stellt fest, dass die Notiz nicht hergibt, was die Zusammenfassung behauptete, und verwirft die Zeile. Aus dem Fehler, der ein stilles Risiko war, wird eine sichtbare Abweichung — eine kleine Reibung statt eines leisen Schadens. Nachvollziehbarkeit macht das Modell nicht genauer. Sie macht es rechenschaftsfähig, und das ist in der Medizin die wichtigere Eigenschaft.

Nichts davon spricht gegen Black Boxes. Sie pauschal abzulehnen wäre eine eigene Torheit; das Auge, das den Befund liest, hat sich seinen Platz verdient. Es geht darum, wohin das eine und das andere gehört. Bietet ein System eine Einschätzung zu einem Bild oder einem Signal, sehen wir auf seine Erfolgsbilanz. Bietet es eine Einschätzung zu Fakten, Vorgeschichte oder Vorgaben, verlangen wir seine Belege.

Im Zeitalter der generativen KI bekommt die evidenzbasierte Medizin still eine zweite Bedeutung: Nachprüfbarkeit. Wenn ich eine Erkenntnis nicht auf die Daten zurückführen kann, aus denen sie stammt, kann ich nicht verantwortlich nach ihr handeln — und während sich die europäischen KI-Regeln genau um diese Frage der Nachvollziehbarkeit formen, ist die Fähigkeit, die eigenen Quellen zu zeigen, bald keine Tugend mehr, sondern die Bedingung dafür, das Werkzeug überhaupt zu nutzen.

#Reflexionen#Klinische KI#Evidenzbasierte Medizin#Generative KI#Digitalisierung

Die Vertrauensfalle: Warum eine flüssige Antwort noch keine belegte ist

Zwei Maschinen, ein Wort

Prüfung fürs Auge, Beleg fürs Schließen

Der stille Fehler und der laute

Weiterlesen

Warum aiomics für QM-Berichte und Qualitätsanalytik

Arztbrief mit KI: was zwischen Entwurf und Unterschrift passieren muss

Der Aufnahmebefund beginnt, bevor die Patientin da ist

Diese Analyse stammt von den Leuten hinter Visite.

Sie möchten das in Ihrer Klinik sehen?