Zum Hauptinhalt springen
5 Min. Lesezeit

KI in der Wartezeit: Was eine Einzelfallstudie zeigt – und was nicht

Eine Familie nutzte einen Chatbot, um einen MRT-Befund zu verstehen, bevor ein Operateur Zeit hatte. Der Bericht ist ehrlich und menschlich – und es ist ein selbst berichteter Einzelfall, ohne Vergleichsgruppe, ohne Verlauf. Lesenswert wegen der Lücke, die er benennt.

Dr. Sven Jungmann

Dr. Sven Jungmann

CEO

Editorial-Collage: Hände halten ein Smartphone über einem Tisch voller medizinischer Unterlagen, ein navyblauer Halbkreis deutet einen leeren Termin an, dazu ein einzelner Amber-Akzent.

Ein Mann kommt innerhalb weniger Wochen von einem dreitägigen Golfturnier dahin, dass er die eigene Treppe nur noch kriechend bewältigt. Die Magnetresonanztomographie (MRT) ist schnell gemacht; der Befund landet im Patientenportal, in der dichten Fachsprache, die Radiolog:innen für ihresgleichen schreiben. Dann wird es still. Der erste Termin beim Neurochirurgen liegt in der US-amerikanischen Stadt der Familie fünfundsechzig Tage entfernt. In dieser Lücke – der Befund vorliegend, niemand da, um ihn gemeinsam zu lesen – kopiert seine Frau den anonymisierten Befund in einen Chatbot und stellt vier schlichte Fragen. Die Antwort kommt in Sekunden. Das ist der Fall im Zentrum einer Arbeit im Journal of Participatory Medicine, und er ist gerade deshalb lesenswert, weil er so klein ist.

Verfasst hat ihn Mary Beth Schoening von RampUp Health, und zwar als die Angehörige selbst; ihr Co-Autor, der Arzt Dustin Cotliar, steuert die klinische Einordnung bei, war an der Versorgung aber nicht beteiligt. Das ist für die Gewichtung entscheidend. Dies ist kein Versuch. Es ist der Bericht einer einzigen Familie aus der ersten Person, ergänzt um Lehren, die die Autor:innen daraus ableiten. Die erste Aufgabe beim ehrlichen Lesen besteht darin, diese beiden Dinge auseinanderzuhalten.

Was der Fall tatsächlich beschreibt

Die Familie arbeitete die Wartezeit in vier Schritten ab: den MRT-Befund in verständliche Sprache übersetzen, zu den beiden Operationsoptionen recherchieren, aus Portal-, Radiologie- und eigenen Notizen eine einseitige Zusammenfassung erstellen und einen priorisierten Fragenkatalog für das Gespräch erzeugen. Die eine Seite ging an sechs Empfänger:innen – Hausarzt, zwei Physiotherapeut:innen, Versicherung, eine Pflegekraft der Klinik, die die Terminvergabe organisierte, und Neurochirurg. Schoening berichtet, das habe Zeit gespart und ihrer Einschätzung nach den Operationstermin vorgezogen, auch weil der Neurochirurg den Bericht der Familie über das Tempo der Verschlechterung ungefiltert erhielt. Sie schildert zugleich, dass sie zwei Tage lang weinte, nachdem der Chatbot ihr – vor jeder ärztlichen Aussage – mitgeteilt hatte, dass ihr Mann wahrscheinlich eine Wirbelsäulenoperation brauchen würde.

Dieses letzte Detail ist das lehrreichste der Arbeit, und es schneidet in beide Richtungen. Der emotionale Schlag traf außerhalb des Sprechzimmers, nicht darin. Darunter liegt eine reale klinische Beobachtung: Patient:innen behalten wenig von dem, was in einem unter Schock geführten Gespräch gesagt wird. Die Autor:innen zitieren eine Studie, in der neurochirurgische Patient:innen einen Tag später im Mittel 24,8 Prozent der medizinischen Informationen erinnerten – eine eindrückliche Zahl, allerdings aus einer einzelnen Untersuchung mit vierundvierzig Patient:innen und nicht aus den eigenen Daten dieser Arbeit. Der plausible Mechanismus: Wer die Nachricht vorab verarbeitet, hält das Gespräch für die Fragen frei, die wirklich einen Operateur brauchen. Plausibel ist hier das richtige Wort. Der Fall kann nicht belegen, dass es aus einem anderen Grund geschah als Zufall und einer motivierten, digital versierten Familie.

Was die Evidenz nicht belegt

Alles, was die Geschichte überzeugend macht, begrenzt sie zugleich. Es gibt eine Familie, selbst ausgewählt und selbst berichtend, ohne Vergleichsgruppe und ohne Verlauf jenseits der eigenen Schilderung. Wir wissen nicht, ob die Übersetzung des Befunds durch den Chatbot zutreffend war, denn niemand prüfte das Ergebnis strukturiert gegen die Absicht des Radiologen. Wir wissen nicht, ob die frühere Operation den Zusammenfassungen zu verdanken war oder einem Dutzend anderer Dinge. Eine einzelne günstige Anekdote, erzählt von der Person, der sie nützte, ist die schwächste Stufe der Evidenz – das ist kein Vorwurf an die Autor:innen, die nie etwas anderes behaupten, sondern eine Warnung vor dem Schluss, zu dem eine vielbeschäftigte Leserin verleitet wird.

Es ehrt die Autor:innen, dass sie die Fehlermodi klar benennen. Halluzinationen – flüssige, selbstbewusste, aber schlicht falsche Ergebnisse – stehen an erster Stelle, und sie schlagen Prüfgewohnheiten vor: mehrere Werkzeuge vergleichen, die angegebenen Quellen kontrollieren, gegen vertrauenswürdige Gesundheitsseiten abgleichen, sachkundige Personen fragen. Der Datenschutz ist das Zweite: Öffentliche Sprachmodelle sind keine Speicher nach Datenschutz-Grundverordnung (DSGVO) oder nach dem US-amerikanischen Health Insurance Portability and Accountability Act (HIPAA), weshalb jedes Identifikationsmerkmal – auch die Namen der behandelnden Ärzt:innen – vor der Eingabe entfernt werden muss. Das Dritte sollte jeden beunruhigen, den die Geschichte erhebt. Gerade die Patient:innen, die von solcher Navigation am meisten profitieren würden – älter, digital weniger sicher, keine Muttersprachler:innen, ohne Geld für ein Abonnement –, sind am wenigsten in der Lage, zu tun, was diese Familie tat. Ein Werkzeug, das den ohnehin Befähigten am meisten hilft, kann die Lücke vergrößern, die es zu schließen scheint.

Eine einzelne günstige Anekdote, erzählt von der Person, der sie nützte, ist die schwächste Stufe der Evidenz – und gerade deshalb sorgfältig zu lesen, nicht abzutun.

Warum das hier zählt

Nimmt man die US-amerikanischen Wartezeiten heraus, die sich nicht übertragen lassen, überlebt der strukturelle Kern den Weg nach Europa unversehrt. Zwischen dem Moment, in dem ein Befund für Patient:innen sichtbar wird, und dem Moment, in dem eine Fachkraft ihn mit ihnen deuten kann, liegt ein Zeitraum, den das System selten füllt. Während Portale Ergebnisse schneller sichtbar machen, verlängert sich dieser Zeitraum auf der Seite der Patient:innen, ohne dass jemand gestaltet, was darin geschieht. Dieser Fall ist ein Machbarkeitsnachweis dafür, dass eine findige Familie die Lücke von Hand schließt. Er ist kein Beleg dafür, dass die Lücke für alle so geschlossen werden sollte, und er schweigt zu den Patient:innen, für die das gar nicht funktionieren würde. Die ernste offene Frage lautet nicht, ob Menschen in der Wartezeit zu solchen Werkzeugen greifen – das tun sie längst –, sondern wer für die Qualität und die Gerechtigkeit dessen verantwortlich ist, was sie finden, wenn keine Fachkraft im Raum ist.

Quelle: Schoening MB, Cotliar D. Patients and Caregivers Leveraging AI to Improve Their Health Care Journey: Case Study and Lessons Learned. J Particip Med 2026;18:e69790. Eine selbst berichtete Einzelfallstudie einer Angehörigen mit ärztlicher Einordnung – ein Meinungsbeitrag ohne Vergleichsgruppe, ohne Verlauf und ohne eigene Primärdaten, die niedrigste Stufe klinischer Evidenz –, und die obige Beurteilung wägt sie entsprechend.

#Journal Club#Patientenbeteiligung#Generative KI#Gesundheitskompetenz#Evidenzbasierte Medizin

Weiterlesen

Editorial-Collage: ein Smartphone mit leerem Tealbildschirm auf einem leeren Nachttisch im Krankenhaus, dazu ein einzelner Amber-Akzent am Bildschirmrand.

Die beste App der Welt – und niemand auf der Station, der sie nutzt

Zwanzig Behandelnde erklären, warum gute Mental-Health-Apps nie bei den Patient:innen ankommen. Das Hindernis ist fast nie die Technik. Es ist die ungeklärte Frage, wer das Werkzeug einführt, die Warnungen beobachtet und reagiert, wenn etwas auffällt.

Dr. Sven JungmannCEO
Editorial-Collage: das Handgelenk eines älteren Menschen mit schlichtem Band, als Teal-Bogen dargestellt, darunter blasse Aktivitätskurven und ein einzelner Amber-Punkt an der einzigen extern validierten Verbindung.

Wearables und Demenz: ein starkes Signal auf dünner Validierung

Ein systematisches Review von 49 Studien: Gestörter Schlaf und veränderte Aktivität begleiten den kognitiven Abbau, oft Jahre im Voraus. Drei der Studien haben ihr Modell extern geprüft. Das Signal ist real, die Validierungsgrundlage für eine Früherkennung noch nicht.

Dr. Sven JungmannCEO

Diese Analyse stammt von den Leuten hinter Visite.

Unser wöchentlicher Newsletter zu KI in der Medizin. Jeden Freitag, gründlich geprüft.

Mit der Anmeldung stimmen Sie dem Erhalt von Visite per E-Mail zu. Abmeldung jederzeit. Mehr in unserer Datenschutzerklärung.

Sie möchten das in Ihrer Klinik sehen?

30 Minuten. Ihre Fragen. Unser Arzt-Gründer zeigt Ihnen die Plattform persönlich.

Termin vereinbaren

Unverbindlich. Kein Vertrieb. Arzt zu Arzt.