Zum Hauptinhalt springen
5 Min. Lesezeit

Ein Sprachmodell lernt zu fragen, bevor es antwortet

Ein klinisches Modell, das eine falsche Antwort selbstsicher gibt, ist gefährlich — weil man der Selbstsicherheit folgt. Diese Studie prüft eine Anweisung, die das Modell zwingt, zuerst zu fragen. Gemessen wurde ein Benchmark, nicht der Verlauf.

Dr. Sven Jungmann

Dr. Sven Jungmann

CEO

Editorial-Collage: eine über der Tastatur innehaltende Hand einer behandelnden Person unter einer leeren Tealsprechblase und einem kleinen navyfarbenen Fragezeichen, dazu ein einzelner Amber-Akzent.

Die Gefahr eines medizinischen Sprachmodells liegt nicht darin, dass es manchmal irrt. Jede:r Arzt:in irrt manchmal. Die Gefahr liegt darin, dass es im selben selbstsicheren Ton irrt, in dem es auch recht hat — und dass Menschen diesem Ton folgen. Die Automatisierungsverzerrung ist gut belegt: Radiolog:innen sind schon unrichtigen Vorschlägen einer Maschine gegen die eigene Befundlage gefolgt, und in der Intensivmedizin wurde Systemen selbst dann nachgegeben, wenn die klinische Intuition warnte. An ein klinisches Modell lässt sich daher eine eng gefasste Frage stellen: Lässt es sich dazu bringen, hörbar zu bemerken, wenn es noch nicht genug weiß, um zu antworten?

Diese Arbeit einer akademischen Forschungsgruppe, im März 2026 in BMJ Health & Care Informatics erschienen, versucht genau das zu beantworten. Ihr Vorschlag namens BODHI — für Balanced, Open-minded, Diagnostic, Humble und Inquisitive — ist kein neues und kein nachtrainiertes Modell. Es ist eine strukturierte Art, ein bestehendes Modell anzuweisen: Vorgaben, die vor der Antwort laufen und das Modell zwingen darzulegen, um welche Art Frage es geht, worin es unsicher ist und was es vor einer Festlegung erfragen müsste. Diese Bescheidenheit im Anspruch sollte man im Blick behalten, denn sie prägt, was das Ergebnis bedeuten kann und was nicht.

Was die Forschenden getan haben

Die Methode hat zwei Durchgänge. Im ersten erzeugt das Modell eine interne Analyse mit festen Feldern: Aufgabentyp, Primärhypothese samt Begründung, zentrale Unsicherheiten, mindestens eine Klärungsfrage für jeden Nicht-Notfall, Warnzeichen und Empfehlungen, abgestuft nach dem Maß der Unsicherheit. Im zweiten Durchgang schreibt es die Antwort, die die behandelnde Person sieht — konditioniert auf diese erste Analyse und gesteuert durch das, was die Autor:innen eine Virtue Activation Matrix nennen, also Regeln dazu, wann zu relativieren und wann nachzufragen statt zu behaupten ist. Das Ganze ist eine Prompt-Konstruktion; an den Modellgewichten wird nichts verändert.

Prüfgrundlage war HealthBench Hard, eine Sammlung von 200 bewusst schwierigen klinischen Fallvignetten aus Notfallmedizin, Grundversorgung und Facharztkonsilen. Zwei Modelle liefen — GPT-4o-mini und GPT-4.1-mini, beide von einem einzigen Anbieter —, jedes über fünf Zufallsstartwerte, insgesamt 2.000 bewertete Antworten. Das ist keine klinische Studie. Kein:e Patient:in war beteiligt, keine Entscheidung wurde umgesetzt. Es ist eine kontrollierte Benchmark-Untersuchung einer Prompting-Technik, und als solche gelesen ist es sorgfältige, gut dokumentierte Arbeit.

Was die Daten zeigen

Die Verhaltensänderung ist der eigentliche Befund, und er ist ungewöhnlich klar. Beim stärker reagierenden Modell, GPT-4.1-mini, stieg der Anteil der Antworten mit einer Klärungsfrage von 7,8 Prozent auf 97,3 Prozent. Bei GPT-4o-mini stieg er von null auf 73,5 Prozent. Das Relativieren — das ausdrückliche Eingeständnis von Unsicherheit — nahm beim stärkeren Modell um rund zwanzig Punkte zu. Für ein Fehlermuster, das aus unbegründeter Selbstsicherheit entsteht, ist es der richtige Instinkt, dem System das Fragen beizubringen — und die Anweisung erzeugte dieses Verhalten zuverlässig über alle fünf Zufallsstartwerte.

Auch die anhand der Bewertungsmatrix gemessene Gesamtqualität verbesserte sich — doch hier trennen sich die beiden Modelle, und genau diese Lücke lohnt das Lesen. GPT-4.1-mini gewann 16,6 Prozentpunkte (von 2,5 auf 19,1 Prozent), GPT-4o-mini 2,2 (von 0,0 auf 2,2 Prozent). Dieselbe Anweisung, die das eine Modell verwandelte, bewegte den Qualitätswert des anderen kaum. Eine Technik, deren Nutzen so stark davon abhängt, auf welchem Modell sie sitzt, haben wir noch nicht gut genug verstanden, um sie zu verallgemeinern.

Die Zahl, die das Abstract auslässt

Es gibt eine Gegenströmung, die die Schlagzeile verschweigt und die die Autor:innen in ihrer Ergebnistabelle offen benennen: Während die Modelle zu fragen und zu relativieren begannen, sank ihr Wert für die Kommunikationsqualität — bei GPT-4.1-mini um 12,5 Prozentpunkte (von 70,1 auf 57,5 Prozent), bei GPT-4o-mini um 11,3. Die Autor:innen deuten das als Artefakt: Die Bewertungsmatrix wurde für selbstsichere, deklarative Antworten geschrieben, sodass eine Antwort, die nachfragt oder einen Zweifel benennt, schlechter abschneidet, selbst wenn sie die sicherere Antwort ist. Das ist eine plausible und ehrliche Lesart. Sie bedeutet aber auch, dass dieselbe Intervention zwei der studieneigenen Endpunkte in entgegengesetzte Richtungen zieht — Gesamtqualität hinauf, Kommunikationsqualität hinab —, und genau deshalb kann ein einzelner Matrixwert nicht entscheiden, ob den Patient:innen besser gedient ist.

Die Effektgrößen laden eher zu Vorsicht ein als zum Beifall. Ein Cohen's d von 11,56 für die Gesamtqualität oder 16 und 19 für das Nachfragen ist nicht die Signatur eines feinen klinischen Signals; es ist das, was man sieht, wenn eine Anweisung ein Verhalten fast vollständig anschaltet. Das passt zur ehrlichen Lesart — die Anweisung erzwingt ein Verhalten —, sollte aber niemanden dazu bringen, diese Zahlen für ein Maß besserer Medizin zu halten. Sie messen die Befolgung einer Anweisung, auf einer Skala, die dieselbe Gruppe mitbestimmt hat, über zwei Modelle eines einzigen Herstellers. Die Autor:innen benennen die Grenzen selbst: ein einziger Benchmark, zwei Modellfamilien eines Anbieters, keine Kliniker:innen im Prüfablauf und Begründungstexte, die womöglich nicht abbilden, was das Modell tatsächlich berechnet hat.

Einem Modell das Fragen beizubringen ist der richtige Instinkt gegen überzogene Selbstsicherheit. Es ist noch kein Beleg dafür, dass es den Patient:innen besser geht.

Was eine klinische Leitung daraus mitnimmt

Der Endpunkt ist hier ein Matrixwert für schriftliche Antworten auf Vignetten — keine umgesetzte Diagnose, keine angeordnete oder eingesparte Untersuchung, kein:e weiterverfolgte:r Patient:in. Ein Modell, das mehr fragt und vorsichtiger relativiert, ist plausibel sicherer; belegt sicherer ist es nicht, und auf einem Benchmark kann es schon dadurch besser aussehen, dass es den Bewertenden gibt, was diese belohnen. Die nützliche Erkenntnis ist daher kein Name, den man sich merken muss. Sie lautet: Die Art, wie ein System angewiesen wird — vor jedem Nachtrainieren, vor jedem neuen Modell —, bestimmt messbar, ob es seine Unsicherheit von sich aus zeigt oder verbirgt; und dieser Hebel ist billig zu betätigen und wert, in einer Spezifikation festgeschrieben zu werden. Für europäische Systeme, die solche Werkzeuge unter der Medizinprodukteverordnung (MDR) und der EU-KI-Verordnung abwägen, ist die Lehre beschaffungsnah: Fragen Sie nicht nur, wie genau ein Modell ist, sondern wie es sich verhält, wenn es unsicher ist — und verlangen Sie, dieses Verhalten an etwas zu sehen, das Ihren Patient:innen näher ist als ein statischer englischsprachiger Benchmark. Ein Modell, das weiß, wann es fragen sollte, ist eine Voraussetzung sicherer Assistenz. Es ist noch kein Beweis dafür.

Quelle: Arslan J, Benke K, Cajas Ordones SA, et al. Engineering framework for curiosity-driven and humble AI in clinical decision support. BMJ Health & Care Informatics 2026;33(1):e101877. Eine begutachtete Bewertung einer Prompting-Technik auf einem einzigen statischen Benchmark mit zwei Modellen eines einzigen Anbieters; die Endpunkte waren Matrixwerte und Antwortverhalten, nicht der klinische Verlauf der Patient:innen. Volltext gelesen über den offenen PubMed-Central-Spiegel.

#Journal Club#Klinische KI#Sprachmodelle#Patientensicherheit#Evidenzbasierte Medizin

Weiterlesen

Editorial-Collage: behandschuhte Hände einer Pflegekraft lösen einen Verband, darunter ein Tealraster als Kalender und ein einzelner Amber-Punkt für eine Woche, auf warmem Steinpapier.

Eine Woche früher: Was ein KI-Heilungsindex tatsächlich schlägt

Eine große retrospektive Studie berichtet, dass ein KI-Heilungsindex eine stockende Wunde eine Woche eher erkennt als das übliche Maß. Das Signal ist real und bescheiden — und die Studie stammt von dem Unternehmen, das den Index verkauft.

Dr. Sven JungmannCEO

Diese Analyse stammt von den Leuten hinter Visite.

Unser wöchentlicher Newsletter zu KI in der Medizin. Jeden Freitag, gründlich geprüft.

Mit der Anmeldung stimmen Sie dem Erhalt von Visite per E-Mail zu. Abmeldung jederzeit. Mehr in unserer Datenschutzerklärung.

Sie möchten das in Ihrer Klinik sehen?

30 Minuten. Ihre Fragen. Unser Arzt-Gründer zeigt Ihnen die Plattform persönlich.

Termin vereinbaren

Unverbindlich. Kein Vertrieb. Arzt zu Arzt.