30. Mai 20264 Min. Lesezeit

Als die KI in die kardiologische Sprechstunde kam: Was der Versuch wirklich zeigt

Ein echter randomisierter Versuch stellte ein medizinisches Sprachmodell neben neun Kardiolog:innen — 107 komplexe Fälle. Das Ergebnis ist real und schmaler als die Schlagzeile: gemessen wurde Präferenz, nicht der klinische Verlauf.

Dr. Sven Jungmann

CEO

Editorial-Collage: eine Kardiologin liest einen EKG-Streifen, gerahmt von einem Tealkreis, dahinter angedeutet eine zweite begutachtende Person, dazu ein einzelner Amber-Akzent.

Das meiste, was uns zu medizinischer KI gezeigt wird, ist ein Benchmark: ein Modell, das Prüfungsfragen beantwortet oder einen Testdatensatz schlägt, dem es nie wieder begegnet. Diese Studie ist anders — und genau deshalb eine Stunde wert. Neun Allgemeinkardiolog:innen betreuten 107 wirklich komplexe Patient:innen, überwiesen mit Verdacht auf eine genetische Kardiomyopathie, einmal mit und einmal ohne KI-Assistenz. Drei Subspezialist:innen, die nicht wussten, welche Beurteilung von wem stammte, bewerteten die Arbeit. Für eine klinische Prüfung von Sprachmodellen ist das ein ungewöhnlich ehrliches Studiendesign.

Das klinische Problem dahinter ist echt. Spezialwissen zu erblichen Herzerkrankungen ist auf wenige Zentren konzentriert; in weiten Teilen der USA ist keines erreichbar, und die meisten Betroffenen bleiben undiagnostiziert. Die hypertrophe Kardiomyopathie ist zugleich die häufigste Ursache für den plötzlichen Herztod junger Menschen — ein weitgehend vermeidbarer Tod, wenn die Diagnose rechtzeitig gestellt wird. Die Frage des Versuchs lautet nicht, ob KI beeindrucken kann, sondern ob sie die Arbeit einer durchschnittlichen Kardiologin näher an die einer Spezialistin heranführt.

Was die Forschenden getan haben

Das System ist AMIE (Articulate Medical Intelligence Explorer), ein auf Googles Gemini 2.0 Flash aufbauender Forschungsassistent. Jede:r Patient:in wurde von zwei der neun Kardiolog:innen beurteilt — eine:r per Zufall mit AMIE, eine:r ohne —, beide mit Zugang zu denselben multimodalen Daten: EKG, Langzeit-EKG, Ruhe- und Belastungsechokardiographie, Kardio-MRT-Berichte, Spiroergometrie. Genetische Befunde blieben allen vorenthalten, auch AMIE. Drei verblindete Stanford-Subspezialist:innen bewerteten anschließend jede Beurteilung anhand einer Bewertungsmatrix mit zehn Bereichen zu Triage, Diagnose und Behandlungsplanung. Es ist ein randomisierter kontrollierter Versuch (RCT) — allerdings an rückblickend zusammengestellten Falldaten, nicht an prospektiv begleiteten Patient:innen. Diese Unterscheidung ist der Kern der ganzen Geschichte.

Was die Evidenz belegt

Die unterstützten Kardiolog:innen waren messbar besser bei dem, was die KI gut kann. Insgesamt bevorzugten die verblindeten Subspezialist:innen die AMIE-gestützte Beurteilung in 46,7 Prozent der Fälle gegenüber 32,7 Prozent für die Kardiolog:innen allein, der Rest galt als gleichwertig (P = 0,02). Klinisch bedeutsame Fehler sanken von 24,3 auf 13,1 Prozent der Fälle (P = 0,033). Fehlende klinisch relevante Inhalte — die Auslassung, die im Stillen schadet — sanken von 37,4 auf 17,8 Prozent (P = 0,0021). Die Kardiolog:innen selbst fühlten sich in 57 Prozent der Fälle unterstützt und sahen in der Hälfte der Fälle Zeit gespart.

Liest man jedoch die einzelnen Bereiche, ist der Effekt präzise statt breit. Der Vorteil lag im Behandlungsplan und darin, nichts zu vergessen. Bei der Triage, bei der Diagnose selbst und bei der Formulierung der nächsten diagnostischen Frage — den Bereichen, die das schärfste Urteil verlangen — gab es keinen signifikanten Unterschied. Das Modell half am meisten dort, wo die Aufgabe Synthese war: sechs Untersuchungen zu einem stimmigen Plan zusammenzuführen und aufzufangen, was eine vielbeschäftigte Generalistin übersieht. Es machte niemanden zur besseren Diagnostikerin.

Was die Evidenz nicht belegt

Hier muss man als sorgfältige Leserin innehalten. Der Endpunkt war Präferenz — was eine Expertin von einer schriftlichen Beurteilung hielt — und kein einziger klinischer Verlauf. Niemand hat diese 107 Menschen weiterverfolgt, um zu sehen, ob die unterstützten Pläne zu früheren Diagnosen, weniger plötzlichen Todesfällen oder weniger überflüssigen Untersuchungen führten. Eine schärfer begründete, vollständigere Beurteilung ist plausibel die bessere Versorgung; sie ist nicht dasselbe wie bessere Versorgung, und der Versuch kann beides nicht trennen.

Zwei weitere Grenzen wiegen schwer. Die Fälle stammten aus einem einzigen US-Zentrum, ausschließlich in englischer Sprache, und die Kardiolog:innen waren nicht dafür verblindet, ob sie das Werkzeug nutzten. Und das geprüfte System stammt von Google, dessen Forschende die Studie mitverfassten und die Bewertungsmatrix mitgestalteten, an der AMIE gemessen wurde. Nichts davon ist verschleiert — die Autor:innen sind ungewöhnlich offen —, aber ein positives Ergebnis zum eigenen Produkt, bewertet auf der eigenen Skala, gewinnt sein Gewicht erst, wenn es andere unabhängig reproduzieren.

“Die Autor:innen formulieren ihr eigenes Urteil unmissverständlich: „It seems premature to deploy LLMs autonomously.“”

Warum das hier zählt

Für europäische Systeme ist das strukturelle Problem vertraut: Tiefe Expertise gebündelt in wenigen Universitätszentren, lange Wartezeiten, und die Geografie entscheidet, wer eine fachärztliche Zweitmeinung erhält. Wenn eine solche Assistenz die Behandlungsqualität einer Allgemeinkardiologin näher an das subspezialistische Niveau heben kann, ist das ernst zu nehmen — unter Aufsicht, mit geschulten Nutzer:innen und mit der regulatorischen Sorgfalt, die jede klinische Software verlangt. Die nützliche Frage lautet nicht mehr, ob solche Werkzeuge in die Klinik kommen. Sie lautet enger und schwieriger, und genau diese lässt der Versuch offen: unter welchen Bedingungen, mit welcher Aufsicht und gemessen an welchen Endpunkten, die tatsächlich bei den Patient:innen ankommen.

Quelle: O'Sullivan JW, Palepu A, Saab K, et al. A large language model for complex cardiology care. Nature Medicine 2026;32(2):616–623. Ein randomisierter kontrollierter Versuch an rückblickenden Falldaten, mitverfasst von den Entwicklern des Systems; der primäre Endpunkt war die Präferenz von Expert:innen, nicht der klinische Verlauf der Patient:innen.

#Journal Club#Klinische KI#Kardiologie#Evidenzbasierte Medizin#Sprachmodelle

Als die KI in die kardiologische Sprechstunde kam: Was der Versuch wirklich zeigt

Was die Forschenden getan haben

Was die Evidenz belegt

Was die Evidenz nicht belegt

Warum das hier zählt

Weiterlesen

Warum aiomics für QM-Berichte und Qualitätsanalytik

Warum aiomics für Kodiervorschläge und die §301-Vorbereitung

Warum aiomics für Entlassbriefe und Arztbriefe

Diese Analyse stammt von den Leuten hinter Visite.

Sie möchten das in Ihrer Klinik sehen?