26. Mai 20264 Min. Lesezeit

Ärzt:innen reihten KI-Antworten vor die eigenen. Lesen Sie, was hier verglichen wurde.

Zweiundfünfzig Ärzt:innen reihten verblindet Antworten auf Patientenfragen und setzten GPT-4.0 vorn, ärztliche zuletzt. Die Zahl stimmt. Doch die menschlichen Antworten stammten aus einem Reddit-Forum, ohne Akte verfasst — und ob eine richtig war, prüfte niemand.

Dr. Sven Jungmann

CEO

Editorial-Collage: drei gestapelte Antwortkarten, von einer Tealklammer gereiht, zwei ordentlich, eine mit Eselsohr und handschriftlich, dahinter ein blasser Forumsverlauf und ein einzelner Amber-Akzent auf der handschriftlichen Karte.

Die Zahl, die aus dieser Studie weiterwandert, ist klar und ein wenig verstörend: In 150 direkten Vergleichen bevorzugten zweiundfünfzig Ärzt:innen die Antwort von GPT-4.0 gegenüber der ärztlichen Antwort in 78 Prozent der Fälle. Im Gesamtrang lag GPT-4.0 vorn (mittlerer Rang 1,63), Meta AI dahinter (1,83), die ärztlichen Antworten zuletzt (2,53). Verblindet setzten Ärzt:innen einen Chatbot vor die eigene Profession. Das ist die Schlagzeile, und sie ist korrekt wiedergegeben. Die Aufgabe eines Journal Clubs besteht darin, zu fragen, was genau hier gereiht wurde.

Die Studie in JMIR Formative Research ist eine Online-Befragung: 52 approbierte Ärzt:innen, international über Fachnetzwerke und Verteiler rekrutiert, zwischen März und Mai 2025. Jede:r sah drei anonymisierte Antworten auf eine Patientenfrage — eine von GPT-4.0, eine von Meta AI, eine von einer:einem verifizierten Ärzt:in — und sollte sie nach Genauigkeit und Passung reihen, von der besten zur schlechtesten. Welche Antwort von welcher Quelle stammte, war nicht bekannt. Die Autor:innen nennen ihre Arbeit selbst „vorläufig“ und „explorativ“, und der Name der Zeitschrift trägt dasselbe Signal: Formative Research ist der Ort für frühe, hypothesengenerierende Arbeiten. Das ist kein Mangel. Es ist die Evidenzstufe, und sie sollte das Maß der Schlussfolgerung bestimmen.

Woher die ärztlichen Antworten stammten

Hier liegt der Befund, der entscheidet, wie viel die Schlagzeile tragen kann. Die ärztlich verfassten Antworten kamen aus keiner Sprechstunde, keinem Brief, keiner Beratung. Es waren Beiträge aus dem Reddit-Forum r/AskDocs — von verifizierten Freiwilligen, anonym, für Fremde geschrieben, ohne Zugang zu Akte, Anamnese oder Untersuchung, oft in Eile und ohne jede Pflicht zur Nachsorge. Das Sprachmodell liefert demgegenüber jedes Mal einen gegliederten, vollständigen, gleichmäßig getönten Absatz. Es antwortet nie zwischen zwei Visiten und hat keinen schlechten Tag. Verglichen wird also nicht KI gegen Medizin. Verglichen wird ein geschliffener Maschinenabsatz gegen das informellste Register, in dem eine Ärztin je schreibt.

Die Autor:innen benennen das selbst: Sie merken an, dass das Reddit-Format „die Komplexität klinischer Kommunikation in der Praxis möglicherweise nicht vollständig abbildet“, und dass der Begriff der „Präferenz“ unscharf genug war, um für jede:n Befragte:n etwas anderes zu bedeuten. Beide Vorbehalte wiegen. Eine allein auf Text angewandte Präferenz belohnt genau das, wofür ein flüssiges Modell gebaut ist — Kohärenz, Vollständigkeit, Ruhe. Sie misst nicht, ob der Rat zutraf.

Was die Evidenz belegt

In der Stärke ausgedrückt, die die Daten erlauben: In einer kleinen, internationalen, selbstselektierten Stichprobe bevorzugten verblindet lesende Ärzt:innen wohlgeformte Modellantworten gegenüber anonymen Forenantworten — und zwar mit bemerkenswerter Beständigkeit, über die ausreichend besetzten Regionen hinweg (Nordamerika, Afrika, Asien) und über alle Erfahrungsstufen. Selbst unter den neun Ärzt:innen mit mehr als fünfzehn Jahren Praxis lagen die KI-Antworten vor den ärztlichen (1,75 gegenüber 2,62). Diese Beständigkeit ist der eigentliche Beitrag der Studie. Sie spricht dafür, dass die Präferenz keine Eigenart einer einzelnen Gruppe ist. Der Befund betrifft die Qualität strukturierter schriftlicher Kommunikation, und auf diesem schmalen Boden trägt er.

Was die Evidenz nicht belegt

Sie zeigt nicht, dass die Modellantworten genauer waren, denn Genauigkeit wurde nie unabhängig bewertet. Eine selbstbewusste, gut gegliederte falsche Antwort schneidet auf einer Skala, die nur nach der bevorzugten Textform fragt, gut ab; dieses Design kann sie nicht entlarven. Sie zeigt nicht, dass KI besser kommuniziert als Ärzt:innen in einem Umfeld, in dem die behandelnde Person die Akte, die Untersuchung und die Verantwortung für den Verlauf hat — dieser Vergleich wurde nie gezogen. Und die Zahlen selbst sind rein deskriptiv: Bei 52 Teilnehmenden führten die Autor:innen keine formalen Signifikanztests durch, sodass Konfidenzintervalle, nicht p-Werte, alles sind, was die Daten hergeben. Die Teilgruppen sind so dünn besetzt, dass sie kaum etwas tragen — Europa etwa ist mit einer einzigen befragten Person vertreten. Ein Mensch ist keine Region.

“Eine selbstbewusste, gut gegliederte falsche Antwort schneidet auf einer Skala, die nur nach der bevorzugten Textform fragt, gut ab. Dieses Design kann sie nicht entlarven.”

Warum das zählt

Richtig gelesen, weist die Studie auf etwas Nützliches — nicht ans Krankenbett, sondern in den öffentlichen Raum. Patient:innen lesen zunehmend Gesundheitsinformationen online, und dort kann die gegliederte, lesbare Antwort eines Modells den verstreuten, informellen Rat tatsächlich übertreffen, den sie sonst fänden. Das ist eine echte Beobachtung über digitale Gesundheitskommunikation und die Maßstäbe, die wir an sie anlegen. Es ist keine Aussage über die klinische Versorgung, und es wäre ein Fehlschluss — genau der, zu dem die Schlagzeile verführt —, eine Vorliebe für aufgeräumte Prosa als Urteil über ärztliche Kompetenz zu nehmen. Die ehrliche Lehre ist enger und interessanter: Wenn Ärzt:innen so sorgfältig schreiben wie die Maschine, könnte sich der Abstand schließen. Die Maschine hat lediglich sichtbar gemacht, was schlechtes Schreiben kostet.

Quelle: Brooks JS, Blankson P-K, Campbell PM, et al. Assessment of Physician Preferences for Large Language Model-Generated Responses Across Geographic Regions and Clinical Experience Levels: Preliminary Survey Study. JMIR Formative Research 2026;10:e82487. Eine vorläufige, explorative Online-Befragung unter 52 Ärzt:innen ohne formale Signifikanztests, in der die menschliche Vergleichsgröße aus anonymen Reddit-Forenbeiträgen bestand und die Genauigkeit der Antworten nie unabhängig geprüft wurde.

#Journal Club#Klinische KI#Sprachmodelle#Gesundheitskommunikation#Evidenzbasierte Medizin

Ärzt:innen reihten KI-Antworten vor die eigenen. Lesen Sie, was hier verglichen wurde.

Woher die ärztlichen Antworten stammten

Was die Evidenz belegt

Was die Evidenz nicht belegt

Warum das zählt

Weiterlesen

Warum aiomics für QM-Berichte und Qualitätsanalytik

Warum aiomics für Kodiervorschläge und die §301-Vorbereitung

Warum aiomics für Entlassbriefe und Arztbriefe

Diese Analyse stammt von den Leuten hinter Visite.

Sie möchten das in Ihrer Klinik sehen?