1. Juni 20264 Min. Lesezeit

Zwei Leser:innen, eine Zusammenfassung: Wer soll patientennahe KI bewerten?

Eine kleine Stanford-Studie ließ Ärzt:innen und Eltern dieselben KI-geschriebenen Zusammenfassungen bewerten. Sie waren sich signifikant uneinig — und diese Uneinigkeit, nicht die Werte, ist der eigentliche Befund.

Dr. Sven Jungmann

CEO

Editorial-Collage: ein klinisches Zusammenfassungsblatt mittig durchgerissen, die eine Hälfte gerahmt von einer Teal-Sprechblase, die andere von einem navyfarbenen Klemmbrett, ein einzelner Amber-Punkt auf der Rissline.

Eine Mutter auf der pädiatrischen Herzintensivstation liest die Zusammenfassung der heutigen Verlaufsnotiz, geschrieben von einem Sprachmodell. Sie findet sie hilfreich — klar genug, um die Fragen zu formulieren, die sie beim nächsten Gespräch stellen möchte. Am anderen Ende des Flurs liest ein Kinderkardiologe denselben Text und bewertet ihn niedriger: klinisch unvollständig, möglicherweise revisionsbedürftig. Beide Urteile sind vertretbar. Sie sind Antworten auf unterschiedliche Fragen — und genau diese Lücke ist der Kern der Studie.

Die Arbeit, am 10. Februar 2026 in JMIR AI von einer Gruppe des Lucile Packard Children's Hospital der Stanford University veröffentlicht, ist klein im Umfang und ungewöhnlich klar in ihrer Fragestellung. Für 50 Kinder auf einer pädiatrischen kardiovaskulären Intensivstation wurden jeweils zwei aufeinanderfolgende tägliche Verlaufsberichte (Beurteilung und Behandlungsplan) mit GPT-4o mini zusammengefasst. Acht Kinderkardiolog:innen und zehn Eltern herzkranker Kinder bewerteten diese Zusammenfassungen — jeweils zwei Ärzt:innen und zwei Eltern pro Zusammenfassung, auf unterschiedlichen Skalen, für unterschiedliche Dinge. Die eigentliche Frage lautet nicht, ob das Modell gute Zusammenfassungen schrieb. Sie lautet: Wer darf das entscheiden?

Was wirklich gemessen wurde

Die Eltern bewerteten die Hilfreichkeit auf einer vierstufigen Skala; die drei Hilfreichkeits-Items lagen zwischen 3,25 und 3,36. Ärzt:innen, die dieselbe Dimension beurteilten — wie hilfreich wäre dies für Familien? — kamen auf 2,97. Ein Mann-Whitney-U-Test bestätigt, dass der Unterschied statistisch signifikant ist (U = 3897; z = 2,69; P = 0,007). Nach ihren eigenen klinischen Kriterien bewerteten die Ärzt:innen die Korrektheit mit 3,19, die Vollständigkeit mit 3,04, „kein Revisionsbedarf“ mit 2,96 und die klinische Ausrichtung mit 2,90. Die Übereinstimmung zwischen den Bewertenden war bestenfalls moderat: ein Krippendorff-α (ein Maß für die Übereinstimmung zwischen Bewertenden, bei dem 1 völlige Übereinstimmung bedeutet) von 0,69 bei den Ärzt:innen und 0,75 bei den Eltern — also erhebliche individuelle Streuung in beiden Gruppen.

Eine weitere Zahl rückt den Rest zurecht. Der Flesch-Kincaid-Lesbarkeitsindex der Zusammenfassungen — eine Schätzung der Lesbarkeit eines Textes — lag bei 10,6. Der Auftrag im Prompt hatte ausdrücklich ein Lesbarkeitsniveau der sechsten bis achten Klasse verlangt. Das Modell verfehlte seine Anweisung um mehrere Schuljahre. Die wohlwollenden Lesbarkeits-Bewertungen der Eltern (3,36) müssen vor diesem Hintergrund gelesen werden: Sie spiegeln möglicherweise eine gesundheitskompetente Teilnehmer:innengruppe wider, nicht die Allgemeinheit.

Der eigentliche Befund ist methodisch

Die Uneinigkeit zwischen Eltern und Ärzt:innen ist nicht das Problem. Sie ist der Hinweis auf eines. Fast überall werden patientennahe KI-Werkzeuge so bewertet wie klinische Entscheidungsunterstützung: durch klinische Expert:innen, anhand klinischer Kriterien — Genauigkeit, Vollständigkeit, Treue zur Quelle. Für Software, die eine klinische Entscheidung trägt, ist das genau richtig. Für Software, deren Hauptaufgabe darin besteht, einer:einem Patient:in oder Angehörigen das Verstehen zu erleichtern, beantwortet sie eine andere Frage als die entscheidende.

“Eine Bewertungsmatrix, die nur fragt, ob eine Zusammenfassung klinisch korrekt ist, sagt nicht, ob die Mutter am Krankenbett sie verstanden hat.”

Eine Matrix, die nur fragt „Ist das klinisch präzise?“, sagt nicht, ob die Mutter am Krankenbett den Text verstanden hat, ob er ihr half, das nächste Gespräch vorzubereiten, oder ob er ihre Sorge eher verstärkte als ordnete. Das sind andere Fragen, und sie verlangen andere Bewertende. Dass eine klinische Matrix diese Dimension nicht erfasst, ist kein Mangel der Matrix; es ist schlicht ihre Grenze. Der Beitrag der Studie besteht darin, diese Grenze sichtbar zu machen.

Was die Evidenz nicht belegt

Die Autor:innen benennen die Grenzen offen, und sie wiegen. Es handelt sich um eine Einzelzentrumsstudie an einer hochspezialisierten US-Einrichtung, was die Übertragbarkeit einschränkt. Die Bewertenden erreichten nur moderate Übereinstimmung. Das Modell verfehlte die vorgegebene Lesbarkeit. Und der aufschlussreichste Vorbehalt des Studiendesigns lässt sich leicht übersehen: Die Eltern bewerteten Zusammenfassungen fremder Kinder, nicht ihrer eigenen. Damit fällt genau der emotionale Einsatz weg — eine Mutter, die über ihr eigenes schwer krankes Kind liest —, den das Werkzeug im realen Einsatz tragen würde. Die Lektüre, die die Studie erfasst, ist ruhiger als die, auf die es ankommt.

Nichts davon hebt die zentrale Aussage auf, denn diese ist eng und gut gewählt: Ein patientennahes Kommunikationswerkzeug allein an klinischer Treue zu messen, birgt das Risiko des falschen Schlusses. Schneidet ein Werkzeug bei Ärzt:innen mittelmäßig ab, ist aber für Familien tatsächlich nützlicher als das Bisherige, unterschätzt es eine rein klinische Bewertung — und der umgekehrte Irrtum ist ebenso möglich. Das ist eine Pilotstudie, die eine strukturelle Frage in einem wenig erforschten Feld aufwirft, keine, die sie beantwortet.

Sie lässt sich mühelos auf europäische Krankenhäuser übertragen, die erheblich in KI-gestützte Dokumentation und Patientenkommunikation investieren. Die Kriterien, die über Beschaffung und Einführung entscheiden, sind fast immer klinisch und administrativ — Effizienz, Dokumentationsqualität, Interoperabilität, Datenschutz. Ob Patient:innen und Angehörige die erzeugten Texte tatsächlich verstehen, nützlich finden und in ihre eigene Kommunikation mit dem Behandlungsteam einbinden können, wird selten systematisch erhoben. Diese Arbeit ist ein leises Plädoyer dafür, es zu erheben.

Quelle: Han B, Barnes T, Reddy CD, Shin AY. Evaluating Large Language Model–Generated Clinical Summaries Through a Dual-Perspective Framework: Retrospective Observational Study. JMIR AI 2026;5:e85221. Eine retrospektive Pilotstudie aus einem einzigen Zentrum, ohne Förderung und ohne erklärten Interessenkonflikt; sie wirft eine methodische Frage auf, statt sie zu beantworten.

#Journal Club#Klinische KI#Patientenkommunikation#Evidenzbasierte Medizin#Sprachmodelle

Zwei Leser:innen, eine Zusammenfassung: Wer soll patientennahe KI bewerten?

Was wirklich gemessen wurde

Der eigentliche Befund ist methodisch

Was die Evidenz nicht belegt

Weiterlesen

Warum aiomics für QM-Berichte und Qualitätsanalytik

Warum aiomics für Kodiervorschläge und die §301-Vorbereitung

Warum aiomics für Entlassbriefe und Arztbriefe

Diese Analyse stammt von den Leuten hinter Visite.

Sie möchten das in Ihrer Klinik sehen?