Wenn sich das Ergebnis verzehnfacht: War es die Schulung oder das Werkzeug?
Bei 326 Ärzt:innen stieg die Bestehensquote in einem klinischen Kompetenztest nach einer 90-minütigen KI-Schulung von 6,4 auf 58,6 Prozent. Die Zahl ist echt. Nur trennt das Design nicht, wie viel die Lehre war und wie viel schlicht der Zugang zu GPT-4.

Dr. Sven Jungmann
CEO

Vor einer kurzen Online-Schulung bestanden 6,4 Prozent der Ärzt:innen einen Test zum klinischen Entscheiden. Danach waren es 58,6 Prozent. So formuliert, hat eine neunzigminütige Intervention die Bestehensquote fast verzehnfacht — eine Zahl, die eine eigene Folie bekommt. Die Studie dahinter, am 5. Februar 2026 in JMIR Medical Education erschienen, lohnt die Lektüre gerade deshalb: Die Zahl ist echt, und das Design rät leise davon ab, sie so zu lesen, wie die Folie es nahelegt.
Die Stichprobe ist für diese Art Arbeit ungewöhnlich breit: 326 Allgemeinmediziner:innen und Internist:innen aus 39 Ländern, und 308 von ihnen — 94,5 Prozent — hatten keine vorherige strukturierte Schulung im Umgang mit KI. Diese Breite ist die eigentliche Stärke der Arbeit — es sind nicht neun Begeisterte an einem Universitätszentrum — und sie macht die Beurteilung interessanter, nicht weniger.
Was die Forschenden getan haben
Das Design ist eine quasi-experimentelle Prä-post-Interventionsstudie im Crossover-Verfahren, vollständig asynchron online durchgeführt. Statt einen Test zweimal zu verwenden, bauten die Autor:innen zwei validierte, gleichwertige Fragensätze und tauschten sie zwischen den Gruppen vor und nach der Schulung — so diente jede:r Teilnehmende als eigene Kontrolle gegen die Streuung individueller Fähigkeit. Geprüft wurde über drei Bereiche: Diagnose, Therapieplanung, Patient:innenberatung. Entscheidend ist ein Detail des zweiten Tests: Er erlaubte KI-Unterstützung, konkret GPT-4.0, mit der Vorgabe, die Modellantworten zu prüfen statt zu übernehmen. Der Ausgangstest erlaubte das nicht. Verglichen wird also nicht „ärztliche Person vor der Schulung“ mit „ärztliche Person nach der Schulung“. Verglichen wird „ohne Werkzeug“ mit „geschult und zugleich mit einem großen Sprachmodell ausgestattet“.
Was die Evidenz belegt
Innerhalb dieses Rahmens sind die Zuwächse groß und konsistent. Der Mittelwert stieg von 56,9 auf 77,6 Prozent, ein Plus von rund 21 Prozentpunkten (P < 0,001). Alle Bereiche verbesserten sich signifikant (durchweg P < 0,001), am stärksten Diagnose (r = 0,738) und Therapieplanung (r = 0,686), moderater die Patient:innenberatung (r = 0,420). Allgemeinmediziner:innen gewannen mehr als Internist:innen — 23,7 gegenüber 13,7 Prozentpunkten. Mit dem Alter hing die Größe des Zuwachses nur schwach zusammen (ρ = –0,143). Am nützlichsten: Vorerfahrung mit KI machte keinen signifikanten Unterschied — der Nutzen setzte keinen Vorsprung voraus.
Was die Evidenz nicht belegt
Das clevere Crossover kontrolliert dafür, wer die Ärzt:innen sind. Für das, was sich zwischen den beiden Tests veränderte, leistet es nichts. Es gibt keinen Kontrollarm ohne Intervention — keine Gruppe, die den zweiten Test mit Werkzeug, aber ohne Schulung oder mit Schulung, aber ohne Werkzeug ablegt. Drei Dinge bewegten sich daher gemeinsam und lassen sich nicht trennen: das Lernen aus dem Kurs, die schlichte Hilfe von GPT-4 und die gewöhnliche Vertrautheit mit einem ähnlichen zweiten Test. Die Schlagzeile schreibt den Zuwachs der Schulung zu. Das Design schreibt ihn höchstens der Kombination „geschulte Person plus Sprachmodell“ zu — und der klinische Instinkt sagt, dass ein leistungsfähiges Modell, das strukturierte Multiple-Choice-Fragen beantwortet, einen erheblichen Teil davon allein trägt.
“Verglichen wird nicht „vor der Schulung“ mit „nach der Schulung“, sondern „ohne Werkzeug“ mit „geschult und zugleich mit einem Sprachmodell ausgestattet“.”
Die Autor:innen benennen das mit lobenswerter Klarheit: Ihr Design „erlaubt nicht, den Effekt der maßgeschneiderten KI-Schulung vom KI-Einsatz ohne Schulung zu trennen“. Sie fügen einen zweiten Vorbehalt hinzu, der in die Gegenrichtung weist: Wer sich freiwillig zu einer zeitintensiven KI-Studie meldet, stand KI vermutlich aufgeschlossener gegenüber als der Durchschnitt — der Effekt könnte also durch Selbstselektion überzeichnet sein oder, wie sie argumentieren, das unterschätzen, was eine zurückhaltendere Kollegin gewänne. So oder so überträgt sich das Ergebnis womöglich nicht auf die skeptische Kollegin auf demselben Flur. Und gemessen wurde Testleistung, nicht Versorgung. Ein höherer Wert in Prüfungsszenarien ist keine kürzere diagnostische Odyssee, keine korrekte Verordnung, keine vermiedene Schädigung; niemand wurde weiterverfolgt, und die Dauerhaftigkeit des Zuwachses ist unbekannt.
Warum das hier zählt
Nichts davon macht die Studie unwichtig. Es macht ihre Lehre enger und vermutlich ehrlicher als die Schlagzeile. Sie zeigt: Ärzt:innen, die eine kurze, strukturierte Einführung erhalten, nutzen ein universelles Modell bei Aufgaben des klinischen Entscheidens deutlich besser als unbegleitet — und das gilt über Länder hinweg und über Niveaus der Vorerfahrung. Für die ärztliche Fortbildung ist das ein reales Signal: Werkzeuge erreichen die Kliniken, ob jemand ihren Gebrauch lehrt oder nicht, und eine kurze, kostengünstige, vollständig online durchführbare Einführung verändert messbar, wie sie genutzt werden — zumindest auf dem Papier. Die schwierigere offene Frage ist jene, die tatsächlich darüber entscheidet, ob das in ein Curriculum gehört: wie viel der gemessenen Kompetenz vom Test in die Sprechstunde wandert, wie lange sie hält und wie viel übrig bleibt, sobald man dafür kontrolliert, dass das Modell schlicht im Raum war.
Quelle: Qunaibi EA, Al-Qaaneh AM, Ismail BF, et al. Effectiveness of Informed AI Use on Clinical Competence of General Practitioners and Internists: Pre-Post Intervention Study. JMIR Medical Education 2026;12:e75534. Eine Prä-post-Interventionsstudie im Crossover-Verfahren mit einer einzigen Kohorte ohne Kontrollarm ohne Intervention, an selbstselektierten Freiwilligen, die Testleistung statt klinischer Verläufe misst; der Nachtest erlaubte KI-Unterstützung, der Ausgangstest nicht.


