Eine klinische KI, die weiß, wann sie zweifeln sollte — und was dieser Beleg wert ist
Eine internationale Gruppe hat eine Eingabeschicht gebaut, die ein Sprachmodell zwingt, vor der Antwort seine eigene Sicherheit zu prüfen. Die begutachtete Fassung trägt nun Zahlen — groß, aber gemessen an synthetischen Fällen, bewertet von einem Modell, nicht an Patient:innen.

Dr. Sven Jungmann
CEO

Es gibt ein gut dokumentiertes Versagensmuster in klinischer Software auf Basis von Sprachmodellen: Das System antwortet mit derselben gleichmütigen Sicherheit, ob es auf festem Boden steht oder rät. Eine zutreffende Diagnose und eine flüssig formulierte Erfindung kommen im selben Tonfall daher. Der bemerkenswerte Ansatz dieser Arbeit besteht nicht darin, das Modell genauer zu machen, sondern es dazu zu bringen, sich anders zu verhalten, wenn es nicht sicher sein dürfte: innehalten, die fehlende Untersuchung anfordern oder eine fachärztliche Abklärung vorschlagen, statt sich festzulegen.
Das Rahmenwerk heißt BODHI — für balanciert, aufgeschlossen, diagnostisch, bescheiden und wissbegierig (im englischen Original) — und stammt von einer internationalen Gruppe unter Leitung des MIT, mit Mitwirkenden unter anderem an der Sorbonne, in Melbourne, an der Harvard-MIT-Division, der ETH Zürich, dem UCL und mehreren Kliniken. Die eigentliche Lektüre beginnt bei der veröffentlichten Auswertung in BMJ Health & Care Informatics, denn die Schlagzeilenzahlen sind ungewöhnlich groß und das Design, das sie hervorgebracht hat, ist enger, als sie klingen.
Der Mechanismus
BODHI ist ein zweistufiges Eingabeprotokoll, kein neues Modell und kein Neutraining. Im ersten Durchgang muss das Modell eine strukturierte Unsicherheitsanalyse erzeugen — wie sicher es ist, wie komplex der Fall ist, was fehlt, welche Warnzeichen vorliegen. Im zweiten Durchgang ordnet eine Komponente, die die Autor:innen Virtue Activation Matrix nennen, Sicherheit und Komplexität einer von vier Verhaltenshaltungen zu, von „fortfahren und beobachten“ bis zu „eskalieren und neu rahmen“ für Fälle mit hoher Komplexität und niedriger Sicherheit. In der Praxis bedeutet das: Steht das Modell auf dünnem Boden, wird es gezwungen, eine klärende Rückfrage zu stellen oder zu eskalieren, statt zu behaupten. Weil das Ganze allein auf Ebene der Eingabeaufforderung lebt, ist es günstig im Versuch — und nur so beständig, wie Steuerung über Eingabeaufforderungen es je sein kann.
Was die Zahlen tatsächlich zeigen
Der frühere Preprint war ein Designvorschlag. Die begutachtete Fassung ergänzt eine kontrollierte Auswertung: zwei Modelle, GPT-4o-mini und GPT-4.1-mini, je an 200 Fallvignetten des Benchmarks HealthBench Hard über fünf Zufallsstartwerte — also 1.000 fallbezogene Beobachtungen je Modell, 2.000 insgesamt. Die Verhaltensverschiebung ist groß und durchgängig. Beim stärkeren Modell stiegen Antworten mit angemessener klärender Rückfrage von 7,8 auf 97,3 Prozent (Cohens d=16,38), beim schwächeren von null auf 73,5 Prozent (d=19,54). Auch vorsichtiges Formulieren nahm zu (d=5,80 beim GPT-4.1-mini), und die zusammengesetzte Qualitätsbewertung gewann 16,6 Prozentpunkte (p<0,0001). Auf die Frage, ob Eingabeaufforderungen diese Modelle dazu bringen, zu fragen, bevor sie behaupten, lautet die Antwort ein klares Ja.
Es gibt einen Preis, den die Autor:innen offen benennen und der hierhergehört: Die Bewertung der Kommunikationsqualität fiel — um 12,5 Prozentpunkte beim GPT-4.1-mini (d=−2,94) und um 11,3 beim GPT-4o-mini. Die Gruppe argumentiert, der Benchmark bestrafe angemessenes Hedging, statt einen echten Verlust abzubilden, was plausibel ist. Aber es bleibt der Hinweis, dass dieselbe Maßnahme, die die Neugier-Kennzahlen hebt, eine andere senkt — der Zielkonflikt ist real.
Wo der Beleg endet
Die Fälle sind synthetische Vignetten, keine Patient:innen. Die Endpunkte sind Verhaltensstellvertreter — ob das Modell vorsichtig formulierte, ob es eine Rückfrage stellte — und sie wurden anhand eines Bewertungsschemas gemessen, das weitgehend von einem Modell vergeben wurde, nicht von Behandelnden am Krankenbett; die Autor:innen führen das Fehlen einer Validierung mit Behandelnden selbst unter ihren Grenzen auf. Und es gibt eine fast schon zirkuläre Eigenschaft, die man offen benennen sollte: Die Eingabeaufforderung weist das System an, klärende Rückfragen zu stellen, und die zentrale Kennzahl zählt klärende Rückfragen. Eine sehr große Effektstärke für „hat es getan, wozu wir es angewiesen haben“ beruhigt über die Befolgung, nicht über den klinischen Nutzen.
Die belastbare Lesart fällt also enger aus, als der Rahmen nahelegt. Die Arbeit zeigt, dass Vorgaben auf Ebene der Eingabeaufforderung ein Sprachmodell verlässlich dazu bringen können, Bescheidenheit auf Kommando vorzuführen. Sie zeigt nicht, dass diese Bescheidenheit gut kalibriert ist — dass das Modell genau in den Fällen innehält, in denen Innehalten richtig ist, und in den Fällen weitermacht, in denen Weitermachen richtig ist — und auch nicht, dass irgendetwas davon eine Diagnose, eine Überweisung oder den Verlauf einer Patientin verändert. Die Autor:innen sagen das selbst und verweisen auf eine prospektive Validierung mit nachgelagerten Endpunkten als die noch ausstehende Arbeit.
“Ein Modell dazu zu bringen, Unsicherheit auszusprechen, ist nicht dasselbe, wie es im richtigen Moment unsicher zu machen. Das Erste ist eine Eingabeaufforderung; das Zweite ist das eigentliche klinische Problem.”
Warum das hier zählt
Der Impuls hinter BODHI ist der richtige, und es ist der Impuls, den europäische Systeme von jeder Software zur Entscheidungsunterstützung erwarten sollten, die sie beschaffen: ein Werkzeug, das die Grenzen seines eigenen Wissens kenntlich macht, statt Unsicherheit in selbstgewisse Prosa zu übersetzen. Der Schlusskontrast der Arbeit ist der treffende: Software, die sich als mitdenkende Partnerin verhält, die weiß, wann sie fragen und wann sie zurücktreten muss, statt als selbstgewisses Orakel, das Unsicherheit hinter behauptender Eloquenz verbirgt. Als erster Schritt dorthin ist das glaubwürdig. Die unerledigte Arbeit ist die mühsamere, langsamere Art: Kalibrierung an echten Fällen, Bewertung durch Behandelnde statt durch Modelle und am Ende eine Studie, die misst, ob konstruierte Bescheidenheit bei den Patient:innen ankommt. Bis dahin ist dies eine gute Idee mit vielversprechender Stellvertreter-Evidenz — was eine präzise und nützliche Sache ist, solange sie niemand zum Beweis aufrundet.
Quelle: Arslan J, Benke K, Cajas Ordones SA, et al. Engineering framework for curiosity-driven and humble AI in clinical decision support. BMJ Health & Care Informatics 2026;33(1):e101877. Eine kontrollierte Auswertung zweier Sprachmodelle an synthetischen klinischen Vignetten, deren Endpunkte weitgehend anhand eines von einem Modell vergebenen Bewertungsschemas gemessen wurden; berichtet werden Verhaltensstellvertreter, nicht klinische Verläufe der Patient:innen.


