12. Mai 20264 Min. Lesezeit

Das Examen zu bestehen ist nicht dasselbe wie die Visite

Ein systematisches Review von 39 medizinischen KI-Benchmarks findet dasselbe Muster: Modelle, die im Examensformat 84 bis 90 Prozent erreichen, fallen bei praxisnahen Aufgaben auf 45 bis 69 Prozent und bei Sicherheitsaufgaben auf 40 bis 50 Prozent. Die Lücke ist strukturell.

Dr. Sven Jungmann

CEO

Editorial-Collage: die Hand einer behandelnden Person hält einen Multiple-Choice-Antwortbogen, dessen ausgefüllte Felder als Halbton-Raster erscheinen, getrennt durch eine tealfarbene Diagonale von einem unscharfen Krankenbett, dazu ein einzelner Amber-Akzent in der Lücke.

Ein führendes Modell beantwortet Fragen des US-amerikanischen medizinischen Staatsexamens mit rund 96 Prozent. Stellt man eine vergleichbare Modellklasse vor die komplexen diagnostischen Fälle, wie sie führende Fachzeitschriften veröffentlichen, erreicht das beste etwa 46 Prozent — bei einem Test, auf dem praktizierende Ärzt:innen im Schnitt rund 20 Prozent schaffen, die Fälle sind also tatsächlich schwer. Diese beiden Zahlen stammen aus zwei verschiedenen Benchmarks, nicht von einem System, das entlarvt wird; deshalb wird der Vergleich so oft falsch gelesen. Die nüchternere und wichtigere Fassung: Über das ganze Feld hinweg sind Examensleistung und klinische Leistung zwei verschiedene Messungen, und ein systematisches Review im Journal of Medical Internet Research hat dem Abstand zwischen beiden nun eine Größe gegeben.

Gong, Bang, Lee und Baik von der Hallym University sichteten 3.917 Datensätze und werteten 39 medizinische Benchmarks für große Sprachmodelle aus — über 2,3 Millionen Fragen in 45 Sprachen, 172 Fachrichtungen und auf sechs Kontinenten. Es ist eine narrative Synthese, keine Metaanalyse: Die Bewertungsmaße waren zu heterogen, um sie zu poolen, deshalb kategorisieren die Autor:innen, statt ein Effektmaß zu berechnen. Das ist eine echte Grenze, und sie benennen sie. Doch das Muster ist konsistent genug, um es ernst zu nehmen.

Zwei Arten von Benchmark

Der ordnende Gedanke des Reviews trennt, was ein Modell weiß, von dem, was es tut. Wissensbasierte Benchmarks — einundzwanzig der neununddreißig — prüfen Abruf und Schlussfolgern im Register eines Staatsexamens: Pharmakologie, Pathophysiologie, Leitlinienwissen, Multiple-Choice-Fragen mit einer vertretbaren Antwort. Führende Modelle erreichen hier 84 bis 90 Prozent, auf dem Niveau durchschnittlicher ärztlicher Leistung oder darüber. Praxisbasierte Benchmarks — fünfzehn an der Zahl — versuchen zu messen, was in etwas geschieht, das klinischer Arbeit näherkommt: diagnostische Gespräche über mehrere Runden, das Navigieren in einer strukturierten Patient:innenakte, das Entscheiden unter Bedingungen, in denen die Frage nie sauber gestellt wird. Dort sinken die Erfolgsquoten auf 45 bis 69 Prozent.

Der Mechanismus ist nicht rätselhaft. Eine Multiple-Choice-Frage belohnt Mustererkennung und Ausschlussverfahren; eine offene klinische Begegnung reicht einem die Antwortmöglichkeiten nicht. Innerhalb desselben klinischen Bereichs sank die Genauigkeit um 30 bis 40 Prozentpunkte, sobald das Antwortformat von Multiple-Choice auf Freitext wechselte. Das Format hatte einen großen Teil der Arbeit erledigt, die dem Wert gutgeschrieben wurde.

Wo die Lücke scharf wird

Die Zahl, die eine Klinikerin festhalten sollte, ist die zur Sicherheit. Bei Aufgaben, die das Erkennen von Kontraindikationen, das Vermeiden von Schaden und die Risikokommunikation prüfen — den Teilen der Medizin, in denen ein Fehler am wenigsten verzeihlich ist —, erreichen die Modelle 40 bis 50 Prozent. Zur Einordnung: Die Medikationsfehlerrate in gut funktionierenden Krankenhaussystemen liegt etwa bei 0,1 bis 1 Prozent; dieser Vergleich stammt von mir, nicht aus der Arbeit, aber es geht um die Größenordnung. Eine zweite menschliche Prüfschicht schließt eine derart große Lücke nicht. Sie definiert, welche Entscheidungen nicht delegiert werden sollten — gleichgültig, wie hoch ein Modell in einem Wissenstest abschnitt.

Es gibt eine subtilere Falle, die die Autor:innen das Empathie-Paradox nennen. In verblindeten Bewertungen schlagen Sprachmodelle Ärzt:innen konsistent bei Empathiewerten und Patient:innenzufriedenheit. Doch eine warme, gut formulierte Antwort auf die Schilderung thorakaler Beschwerden, die die klinische Dringlichkeit verfehlt, hat auf der falschen Skala gut abgeschnitten. Hohe Kommunikationswerte können diagnostische Schwäche verdecken — ein Argument dafür, die richtigen Endpunkte zu messen, nicht gegen freundliche Maschinen.

Was das Review nicht belegt

Es ist eine narrative Synthese veröffentlichter Benchmarks und erbt deren Grenzen, statt sie zu überwinden. Die Benchmarks bewerten Modelle isoliert, nicht eingebettet in einen realen klinischen Prozess mit seinen Unterbrechungen und Anreizen; statische Testdatensätze veralten, während sich die Medizin bewegt; und ein Viertel der neununddreißig — 26 Prozent, zehn Benchmarks — wies eine zu dünne methodische Berichterstattung für eine vollständige Bewertung auf. Hinzu kommt ein Problem der Geografie, das für europäische Leser:innen zu benennen ist: 33 Prozent der Benchmarks stammen aus Nordamerika, 31 Prozent aus Asien, dagegen 13 Prozent aus Europa, lediglich fünf europäischen Ursprungs. Leistung, die vorwiegend in US-amerikanischen und ostasiatischen Systemen gemessen wurde, überträgt sich nicht sauber auf europäische Dokumentationsstandards und Versorgungswege. Die Frage einer europäischen Validierung ist nicht akademisch; sie ist eine praktische Qualitätsanforderung.

“Examenswerte sind unzureichende und irreführende Stellvertreter für klinische Einsatzreife — so die Formulierung der Autor:innen, und der Satz, den man behalten sollte.”

Warum das hier zählt

Das Ermutigende ist, dass die Messung aufholt: 59 Prozent der Benchmarks erschienen nach 2023, und die besseren Instrumente gibt es inzwischen. MedAgentBench arbeitet in einer mit Fast Healthcare Interoperability Resources (FHIR) kompatiblen virtuellen Akte aus über 700.000 Datenelementen des Stanford Hospital und bewertet 300 klinisch abgeleitete Aufgaben. HealthBench beurteilt 5.000 ärztlich validierte Gespräche über mehrere Runden anhand von Bewertungsmatrizen, die 262 Ärzt:innen aus 60 Ländern erstellt haben. Genau diesen sollte sich jedes System stellen. Der Schluss der Autor:innen ist auf dieser Evidenz schwer zu bestreiten: Ein autonomer Einsatz in der klinischen Medizin ist derzeit nicht zu rechtfertigen, und die menschliche Aufsicht im Entscheidungsprozess ist die evidenzbasierte Position, nicht die ängstliche. Das Examen zu bestehen und die Patient:in zu behandeln waren nie dasselbe; wir haben nur gelernt, beides bei Menschen nicht zu verwechseln. Neu ist, dass bei KI das Examen weiterhin als Eignungsnachweis angeboten wird.

Quelle: Gong EJ, Bang CS, Lee JJ, Baik GH. Knowledge-Practice Performance Gap in Clinical Large Language Models: Systematic Review of 39 Benchmarks. J Med Internet Res 2025;27:e84120. Ein PRISMA-registriertes systematisches Review mit narrativer Synthese — es fasst bestehende Benchmarks zusammen und kategorisiert sie, statt eigene klinische Primärdaten zu erzeugen, und die Heterogenität dieser Benchmarks ließ keine gepoolte Metaanalyse zu.

#Journal Club#Klinische KI#Evidenzbasierte Medizin#Benchmarks#Sprachmodelle

Das Examen zu bestehen ist nicht dasselbe wie die Visite

Zwei Arten von Benchmark

Wo die Lücke scharf wird

Was das Review nicht belegt

Warum das hier zählt

Weiterlesen

Warum aiomics für QM-Berichte und Qualitätsanalytik

Warum aiomics für Kodiervorschläge und die §301-Vorbereitung

Warum aiomics für Entlassbriefe und Arztbriefe

Diese Analyse stammt von den Leuten hinter Visite.

Sie möchten das in Ihrer Klinik sehen?