5. Juli 20264 Min. Lesezeit

Mehr KI-Gesundheitstools denn je. Die Frage ist, ob sie helfen.

Eine sorgfältige Reportage trifft das Feld dort, wo es wirklich steht: Treffsicherheit auf einem Benchmark ist nicht dasselbe wie ein Nutzen für die Patient:innen — und genau Letzteres hat kaum jemand gemessen. Zwei Studien zeigen, warum.

Dr. Sven Jungmann

CEO

Editorial-Collage: eine Person am Küchentisch mit einem Smartphone, dessen Bildschirm eine tealfarbene Fläche ist, darüber ein großes Fragezeichen aus gerissenem Papier, dazu ein einzelner Amber-Akzent.

Innerhalb weniger Monate brachten Microsoft, Amazon, OpenAI und Google je einen Gesundheitsassistenten für Verbraucher:innen heraus — Akte verbinden, Fragen stellen. Das Angebot war noch nie so groß. Was diese Reportage richtig macht, ist, den naheliegenden nächsten Satz zu verweigern. Sie fragt nicht, ob die Werkzeuge treffsicher sind. Sie fragt, ob es einem Menschen besser geht, wenn er sie nutzt — und zeigt dann, dass dies kaum jemand gemessen hat.

Es handelt sich um Journalismus, nicht um eine Studie: eine Reportage von Grace Huckins in der MIT Technology Review, gestützt auf Gespräche mit Forschenden und auf einige neuere Arbeiten. Man sollte sie als das lesen, was sie ist: eine gut belegte Kartierung einer Evidenzlücke, keine Primärdaten. Ihr Wert liegt in der Unterscheidung, an der sie festhält und die das Marketing einebnet: Ein Modell kann auf einem Testdatensatz richtig liegen und seine Nutzerin dennoch schlechter dastehen lassen.

Warum Treffsicherheit die falsche Schlagzeile ist

Die sauberste Demonstration, die der Artikel anführt, ist eine vorregistrierte randomisierte Studie des Oxford Internet Institute, veröffentlicht in Nature Medicine, die das Experiment machte, das fast kein Benchmark sich vornimmt: Sie gab das Modell in die Hände echter Menschen. Rund 1.298 Teilnehmende bearbeiteten zehn klinische Szenarien — eine Gruppe mit einem Sprachmodell, eine Kontrollgruppe mit den Quellen, die sie ohnehin genutzt hätte. Direkt befragt, waren die Modelle hervorragend: Sie benannten die relevante Erkrankung in etwa 95 Prozent der Fälle (GPT-4o 94,7 Prozent, daneben Llama 3 und Command R+). In Menschenhand kamen dieselben Modelle in weniger als 34,5 Prozent zum richtigen Ergebnis. Der entscheidende Vergleich ist leicht zu übersehen: Die Nutzenden mit KI blieben nicht nur hinter dem Modell zurück — sie schnitten schlechter ab als die Kontrollgruppe ganz ohne KI.

Der Mechanismus ist banal und gerade deshalb schwer zu beheben. Nutzende liefern die Angaben nicht, die das Modell braucht; die Antworten mischen Richtiges und Falsches so, dass eine besorgte Laiin es nicht trennen kann; das Gespräch läuft über mehrere Runden, während die von den Anbietern veröffentlichten Auswertungen eine einzelne Antwort bewerten. Nichts davon taucht in einer Bestenliste auf. Eine Bestenliste misst das Modell. Eine Patientin erlebt das Gespräch.

Wo die Gefahr tatsächlich sitzt

Die zweite Arbeit, auf die sich der Artikel stützt, stammt von der Mount-Sinai-Klinik, ebenfalls in Nature Medicine, und stellt einem der Verbrauchersysteme die schärfere Sicherheitsfrage: Schickt es einen im Ernstfall an den richtigen Ort? Über 60 Szenarien aus 21 Fachgebieten und 960 Interaktionen, gemessen am ärztlichen Konsens, war es im mittleren Schweregradbereich verlässlich und an den Rändern nicht — es überschätzte 35 Prozent der nicht dringlichen Fälle und, gravierender, unterschätzte 48 Prozent der echten Notfälle. Eindeutige Bilder wie Schlaganfall oder Anaphylaxie erkannte es, doch in den mehrdeutigen Fällen beruhigte es die Nutzenden, selbst nachdem es gefährliche Symptome benannt hatte. Ein Werkzeug, das offensichtlich nutzlos ist, ist ein Ärgernis; eines, das bei einem echten Notfall ruhig und plausibel klingt, ist eine Gefahr, weil die Ruhe das ist, was geglaubt wird. Der Hinweis, das Produkt sei „nicht für Diagnose oder Behandlung bestimmt“, übersteht den Kontakt mit einem verängstigten Menschen um zwei Uhr nachts nicht — und die Reportage benennt offen, dass Menschen diese Systeme genau dafür verwenden.

Was die Reportage nicht belegt

Als Reportage beweist sie aus sich heraus nichts; ihr Gewicht ist von den Studien geliehen, die sie zitiert, und von den Forschenden, die sie befragt. Sie ist zudem eine Momentaufnahme verbrauchernaher Werkzeuge zu einem Zeitpunkt — die genannten Modelle werden überholt sein, und der Artikel selbst merkt an, dass ein neueres Spitzenmodell schlechter darin war, nach Kontext zu fragen, als ein früheres, was eine eigene Warnung vor der Annahme linearen Fortschritts ist. Die ehrliche Lesart ist eng: Dort, wo die Frage richtig gestellt wurde, ist die Lücke zwischen Benchmark-Treffsicherheit und Patientennutzen groß und weist in die falsche Richtung. Bei den meisten Werkzeugen wurde sie gar nicht gestellt.

Für alle, die klinische KI beschaffen oder regulieren, lautet die operative Lehre nicht „KI ist unsicher“. Sie lautet, dass die Evidenz, auf die es ankommt, von der Art ist, die diese beiden Studien liefern — das Werkzeug in echten Händen, gemessen an dem, was mit den Patient:innen geschieht — und dass diese Evidenz noch so selten ist, dass ihr Fehlen anzunehmen ist, bis das Gegenteil gezeigt wird. Treffsicherheit ist die Eintrittskarte, nicht der Beweis.

“Ein Modell kann auf dem Testdatensatz richtig liegen und seine Nutzerin dennoch schlechter dastehen lassen als ganz ohne KI. Nur die zweite Zahl erreicht die Patient:innen.”

Quelle: Huckins G. There are more AI health tools than ever—but how well do they work? MIT Technology Review, 30. März 2026. Dies ist sekundäre Berichterstattung, keine Primärforschung; ihre zentralen Aussagen ruhen auf zwei begutachteten Arbeiten in Nature Medicine — einer vorregistrierten randomisierten Oxford-Studie und einer Triage-Bewertung der Mount-Sinai-Klinik —, die hier das evidenzielle Gewicht tragen.

#Journal Club#Klinische KI#Gesundheitspolitik#Evidenzbasierte Medizin#Patientensicherheit

Mehr KI-Gesundheitstools denn je. Die Frage ist, ob sie helfen.

Warum Treffsicherheit die falsche Schlagzeile ist

Wo die Gefahr tatsächlich sitzt

Was die Reportage nicht belegt

Weiterlesen

Wenn die Hälfte der Daten fehlt: Lässt sich eine Rekonstruktion zur Krankheitserkennung vertrauen?

Kann ein kleines Open-Weight-Modell Demenz in der Sprache erkennen? Was der Benchmark zeigt

Eine Pflicht, die ein Viertel der Kliniken erfüllt: Was die ePA-Umfrage zeigt

Diese Analyse stammt von den Leuten hinter Visite.

Sie möchten das in Ihrer Klinik sehen?