27. Mai 20265 Min. Lesezeit

ChatGPT korrigierte die Impfmythen und verfehlte die Klimamythen. Die Lücke ist der Befund.

Ein Experiment ließ 149 Studierende Gesundheitsmythen mit ChatGPT prüfen. Die Fehlvorstellungen zur Grippeimpfung sanken messbar; die zum Klimawandel bewegten sich überhaupt nicht. Die Asymmetrie sagt mehr als jedes Einzelergebnis — und die Evidenz ist dünner, als sie wirkt.

Dr. Sven Jungmann

CEO

Editorial-Collage: eine Person spricht zu einem Telefon, dessen Bildschirm ein Tealrechteck ist; eine Botschaft erreicht ihr Ziel, eine zweite löst sich auf, markiert von einem einzelnen Amber-Punkt.

Zwei Zahlen aus demselben Experiment, an denselben Menschen, in derselben Sitzung. Nach dem Gespräch mit ChatGPT über die Grippeimpfung sanken die faktischen Fehlvorstellungen der Teilnehmenden um ein mittleres Maß (Cohens d = -0,56). Nach dem Gespräch über den Klimawandel bewegten sich ihre Fehlvorstellungen nicht — d = -0,01, P = ,94, was im Klartext heißt: nichts geschah. Dasselbe Werkzeug, dieselben Nutzer:innen, das gegenteilige Ergebnis. Der Abstand zwischen diesen beiden Zahlen ist aufschlussreicher als jede für sich.

Die Studie der Kommunikationsforschenden Lu, Wang, Liu und McLeod erschien im Februar 2026 in JMIR AI. Sie stellt eine Frage, die im Sprechzimmer von Monat zu Monat häufiger auftaucht: Wenn Patient:innen sagen, sie hätten „ChatGPT gefragt“, was genau haben sie dann zurückbekommen?

Was die Forschenden getan haben

Die Forschenden führten ein Prä-Post-Experiment mit 149 Studierenden der Kommunikationswissenschaft an einer großen US-Universität im Mittleren Westen durch (217 begannen, 149 schlossen ab). Jede:r füllte einen Fragebogen aus, führte strukturierte Gespräche mit ChatGPT über Fehlinformationen zu Grippeimpfung und Klimawandel und beantwortete den Fragebogen danach erneut. Die 298 entstandenen Gesprächsprotokolle — zwei je Person — wurden nach fünf Kommunikationsstrategien aus der Literatur zur Korrektur von Fehlinformationen codiert: Kohärenzappelle (erklären, warum ein Mythos falsch ist), Konsensappelle (auf die Übereinstimmung von Fachleuten verweisen), Glaubwürdigkeitsappelle (autoritative Institutionen nennen), Verifikationsappelle (zur Gegenprüfung auffordern) und Empathieappelle (die Sorge der Nutzer:innen anerkennen). Die Codierung kombinierte ein automatisiertes Modell (GPT-4o) mit menschlicher Bewertung, wobei eine zweite Person Unstimmigkeiten auflöste; die Übereinstimmung lag zwischen 88 und 94 Prozent — hoch genug, um die Auszählungen ernst zu nehmen.

Zwei Eigenschaften des Studiendesigns entscheiden, wie viel die Ergebnisse tragen. Es gab keine eigene Kontrollgruppe, und die Stichprobe war eine Gelegenheitsstichprobe junger, gebildeter, digital versierter Studierender an einer einzigen Hochschule. Beides sind Grenzen, die die Autor:innen selbst benennen. Ein Detail unterstreicht die erste: Die Studie variierte zusätzlich, ob den Teilnehmenden ChatGPT als hoch- oder als wenig glaubwürdige Quelle vorgestellt wurde — und diese Variation veränderte nichts. Wenn ein eingebauter Vergleich den Ausschlag exakt null gibt, mahnt das, wie leicht eine unkontrollierte Prä-Post-Zahl sich selbst schmeicheln kann.

Was die Evidenz belegt

ChatGPT spricht nicht über jedes Thema gleich, und die Codierung zeigt es. Kohärenzappelle erschienen in allen 298 Protokollen, bei beiden Themen. Danach gehen die Profile deutlich auseinander. Bei der Grippeimpfung tauchten Verifikationsappelle — „Sprechen Sie mit Ihrer Ärztin oder Ihrem Arzt“ — in 59,1 Prozent der Gespräche auf, beim Klimawandel in 9,4 Prozent. Empathieappelle zeigten sich in 51,7 Prozent der Impfgespräche und 6,0 Prozent der Klimagespräche. Bei der Autorität kehrt sich das Muster um: Konsensappelle erschienen in 91,9 Prozent der Klimagespräche gegenüber 43,6 Prozent bei der Impfung, Glaubwürdigkeitsappelle in 60,4 gegenüber 38,9 Prozent. Bei einer persönlichen, handlungsnahen Gesundheitsentscheidung greift das Modell zur zwischenmenschlichen Rahmung; bei einem systemischen, politisch aufgeladenen Thema zu Institutionen und Expert:innenkonsens.

Die Daten zur Überzeugung fügen eine zweite Falte hinzu, die man festhalten sollte. Die Einstellungen verschoben sich bei beiden Themen in die gewünschte Richtung, um ein identisches, bescheidenes Maß — günstiger gegenüber der Grippeimpfung wie gegenüber dem Klimaschutz (d = 0,41 für beides, P < ,001). Doch die faktischen Fehlvorstellungen bewegten sich nur bei der Impfung. Das Gespräch konnte verschieben, wie Menschen über das Klima dachten, ohne eine einzige falsche Vorstellung zu korrigieren, die sie darüber hatten.

Was die Evidenz nicht belegt

Es liegt nahe, das als „ChatGPT korrigiert Gesundheitsmythen“ zu lesen. Das belegt die Studie nicht, aus drei Gründen. Erstens kann das Design ohne Kontrollgruppe den Effekt des Chatbots nicht von einer bloßen Wiederholungsmessung oder der sozialen Erwünschtheit trennen, zweimal in einer Sitzung zu antworten — eine Prä-Post-Verschiebung ist eine mögliche Ursache, keine bewiesene. Zweitens nutzten die Teilnehmenden GPT-3.5 oder GPT-4, je nachdem, ob sie die kostenpflichtige Version hatten, und die Studie schlüsselt die Ergebnisse nicht nach Modell auf; wir sehen also einen Durchschnitt über Systeme, die sich bekanntermaßen unterscheiden. Drittens sind 149 Kommunikationsstudierende an einem US-Campus nicht die US-Bevölkerung und schon gar nicht eine deutsche Hausarztpraxis; die Effektstärken beschreiben diesen Raum, keine Bevölkerung.

Die sauberere Lesart ist enger und interessanter. Die Trennung von Einstellung und Fehlvorstellung legt nahe, dass ein konversationelles Modell bei identitätsbehafteten Themen die Stimmung verschieben kann, während die zugrunde liegende falsche Überzeugung unberührt bleibt. In der klinischen Kommunikation ist diese Unterscheidung nicht akademisch: Eine Patientin, die der Impfung wärmer gegenübersteht, aber die Fehlvorstellung weiterhin hält, ist an einem anderen Punkt als eine, deren Überzeugung sich tatsächlich geändert hat — und nur eines davon sagt Verhalten verlässlich voraus.

“Das Gespräch konnte verschieben, wie Menschen über das Klima dachten, ohne eine einzige falsche Vorstellung zu korrigieren, die sie darüber hatten.”

Warum das zählt

Patient:innen bringen diese Gespräche bereits ins Sprechzimmer, und die Studie ist ein erster, sorgfältiger Blick darauf, was die Gespräche enthalten. Das Beruhigende: Bei einer alltäglichen Impffrage stützte sich das Modell auf Kohärenz und Konsens und verwies die Nutzer:innen zurück an eine Ärztin oder einen Arzt — Strategien, die evidenzbasierter Gesundheitskommunikation entsprechen. Das Mahnende: Die Qualität ist themenabhängig auf eine Weise, die wir noch nicht verstehen, und ein Gefühl zu verschieben ist nicht dasselbe, wie eine Tatsache zu korrigieren. Das zu wissen verändert die Antwort, wenn jemand mit „Ich habe ChatGPT gefragt“ beginnt — weniger ein Urteil, dem man zustimmt oder das man widerlegt, als ein Ausgangspunkt, dessen Stärken und blinde Flecken je nach Thema variieren.

Quelle: Lu L, Wang YS, Liu J, McLeod DM. Human-Generative AI Interactions and Their Effects on Beliefs About Health Issues: Content Analysis and Experiment. JMIR AI 2026;5:e80270. Ein einortiges Prä-Post-Experiment ohne eigene Kontrollgruppe an einer Gelegenheitsstichprobe von 149 Studierenden; es misst kurzfristige Meinungsänderung in einem Raum, nicht dauerhafte Korrektur in einer Bevölkerung. Die Autor:innen geben keine externe Förderung und keine Interessenkonflikte an.

#Journal Club#Gesundheitskommunikation#Generative KI#Fehlinformation#Evidenzbasierte Medizin

ChatGPT korrigierte die Impfmythen und verfehlte die Klimamythen. Die Lücke ist der Befund.

Was die Forschenden getan haben

Was die Evidenz belegt

Was die Evidenz nicht belegt

Warum das zählt

Weiterlesen

Warum aiomics für QM-Berichte und Qualitätsanalytik

Warum aiomics für Kodiervorschläge und die §301-Vorbereitung

Warum aiomics für Entlassbriefe und Arztbriefe

Diese Analyse stammt von den Leuten hinter Visite.

Sie möchten das in Ihrer Klinik sehen?