31. Mai 20265 Min. Lesezeit

Die Governance-Lücke: Warum klinische KI nach der Validierung scheitert

Ein klinisches Modell besteht die Validierung, geht in Betrieb und driftet langsam – und niemand ist beauftragt, hinzusehen. Eine narrative Übersichtsarbeit kartiert, warum nicht der Algorithmus, sondern die Aufsicht zum Engpass geworden ist.

Dr. Sven Jungmann

CEO

Editorial-Collage: ruhende Hände einer behandelnden Person auf einer Tastatur, darüber eine tealfarbene Leistungskurve, die über eine navyfarbene Fläche nach unten abgleitet, dazu ein einzelner Amber-Akzent am unbemerkten Knick.

2021 prüfte ein Team in Michigan ein Modell zur Sepsis-Warnung, das in hunderten US-amerikanischen Krankenhäusern bereits lief. Eingebaut in das dominierende elektronische Aktensystem, war es am Krankenbett aktiviert worden, ohne je an den Patient:innen erprobt worden zu sein, die es tatsächlich sehen würde. Als endlich jemand nachsah, war die Trennschärfe schwach: eine Fläche unter der Grenzwertoptimierungskurve (AUROC) von 0,63, eine Sensitivität von eins zu drei. Das Modell war nicht im Labor gescheitert. Es war nach dem Labor nie beaufsichtigt worden.

Genau diese Abfolge – besteht die Prüfung, wird eingeführt, driftet unbeobachtet – ist das strukturelle Problem, das eine narrative Übersichtsarbeit in der MDPI-Zeitschrift Sci zu kartieren versucht. Bailo und fünf Mitautor:innen sichten die veröffentlichte Literatur und die regulatorischen Rahmenwerke dazu, wie künstliche Intelligenz gesteuert wird, sobald sie in den realen klinischen Betrieb gelangt. Ihr Befund ist für alle unbequem, die ein solches System eingekauft haben: Das Feld bringt immer leistungsfähigere Algorithmen hervor und zugleich immer dünnere Strukturen, um sie zu beaufsichtigen.

Um welche Art von Arbeit es sich handelt

Es ist wesentlich, dass dies eine narrative Übersichtsarbeit ist, kein Versuch und keine systematische Übersicht. Die Autor:innen durchsuchten fünf Datenbanken – Scopus, Web of Science, PubMed/MEDLINE, Embase und IEEE Xplore – nach englischsprachigen Arbeiten von 2018 bis Ende 2025, screenten zu zweit und ergänzten Dokumente von Behörden und Regulierungsstellen. Eine Meta-Analyse und ein formales Instrument zur Bewertung des Verzerrungsrisikos wendeten sie ausdrücklich nicht an – und sagen das auch. Eine narrative Übersicht erzeugt keine Primärdaten; sie ist die fachkundige Lesart eines ausgewählten Werkkorpus, nach Themen geordnet, und die Auswahl des Einbezogenen liegt im Urteil der Autor:innen. Das ist kein Mangel – eine gute narrative Übersicht ist die Landkarte eines verwirrenden Geländes, und diese hier ist eine nützliche Karte, erstellt ohne externe Förderung und ohne erklärte Interessenkonflikte. Aber eine Karte ist nicht das Gelände. Nichts hier ist Evidenz in dem Sinn, den eine Ärztin meint; es ist ein Argument darüber, wo die Evidenz und die Verantwortlichkeit fehlen.

Was die Arbeit tatsächlich argumentiert

Die Autor:innen gliedern das Governance-Problem in sieben übergreifende Themen: Verzerrung und Fairness, Erklärbarkeit, Sicherheit und Qualität, Datenschutz, Verantwortlichkeit und Haftung, menschliche Aufsicht sowie Beschaffung und Einführung. Liest man quer, zeigt sich ein einziger Faden. Die schweren Probleme sind keine technischen Lücken in dem, was wir bauen können; es sind organisatorische Lücken darin, wer nach dem Bauen zuständig ist. Verzerrung besteht weniger fort, weil wir sie nicht messen könnten, als weil niemand damit beauftragt ist, sie nach der Einführung über Subgruppen hinweg erneut zu messen. Werkzeuge zur Erklärbarkeit vermehren sich, doch verständlich genug für die Nutzung zu sein ist nicht dasselbe wie verständlich genug, um jemanden zur Rechenschaft zu ziehen, wenn das Modell irrt. Sicherheit, so betonen sie, ist kein Zertifikat, das bei der Zulassung erteilt wird; sie ist eine Eigenschaft, die aufrechterhalten werden muss, weil Modelle verfallen, sobald sich die Patient:innen, die Kodierpraxis und die Versorgungspfade um sie herum verschieben.

Der belastbarste Teil der Arbeit ist ihre Betonung der Überwachung nach der Einführung. Die Tradition der Medizinprodukte behandelt die Zulassung als den entscheidenden Meilenstein; Software, die lernt oder die still vom Anbieter aktualisiert wird, bricht diese Annahme. Ein Modell kann am Montag sicher und am Freitag fehlkalibriert sein, und keine einmalige Validierung wird das auffangen. Genau das macht der Fall aus Michigan greifbar, und genau das müssen die europäischen Regelwerke – die Medizinprodukteverordnung (MDR) und die EU-KI-Verordnung (EU AI Act) – erst noch in die Praxis übersetzen.

Was sie nicht belegt

Weil sie eine narrative Synthese ist, kann die Arbeit nicht sagen, wie häufig all das auftritt. Sie quantifiziert nicht, wie viele eingeführte Modelle driften oder wie viele Krankenhäuser für dieses Risiko eine zuständige Person benannt haben; sie trägt anschauliche Fälle zusammen – darunter das Epic-Modell, das sie qualitativ erwähnt, nicht mit eigenen Kennzahlen – und schließt aus ihnen. Ihre Empfehlungen – dass Aufsicht benannte Rollen, definierte Eskalationspfade und planmäßige Subgruppen-Prüfungen braucht – sind sinnvoll und im Feld breit geteilt, aber es sind Vorschläge, keine gegen Endpunkte getesteten Befunde. Keine Studie hier zeigt, dass ein Krankenhaus, das sie übernimmt, weniger geschädigte Patient:innen hat als eines, das es nicht tut. Dieser Versuch ist nicht durchgeführt worden.

Hinzu kommt die gewöhnliche Grenze jeder Übersichtsarbeit dieser Art: Die Wahl der Literatur und die Rahmung der Themen sind deutend, und eine andere Gruppe könnte den Datenschutz höher gewichten als die Fairness oder die Haftung höher als die Aufsicht – und eine stimmige, aber andere Geschichte erzählen. Der Wert liegt in der Rahmung, nicht in einem Anspruch auf Vollständigkeit – und die Autor:innen sind offen darin, dass Vollständigkeit nie das Ziel war.

“Ein Modell kann am Montag sicher und am Freitag fehlkalibriert sein, und keine einmalige Validierung wird das auffangen.”

Warum das hier zählt

Für ein europäisches Krankenhaus liegt die Lehre nicht in einer neuen Prüfliste; sie liegt in der Frage der Zuständigkeit. Der Fall aus Michigan ist gerade deshalb ernüchternd, weil das Modell nichts Exotisches war – es war eine voreingestellte Funktion eines weitverbreiteten Aktensystems, der man vertraute, weil sie mitgeliefert wurde. Der Beitrag der Arbeit besteht darin, die Lücke klar zu benennen: Der eigentliche Engpass für sichere klinische KI ist nicht mehr die Güte des Algorithmus, sondern das namentliche Vorhandensein einer Person, deren Aufgabe es ist, den Algorithmus nach der Inbetriebnahme zu beobachten. Das ist eine institutionelle Entscheidung, keine technische – und die meisten Systeme haben sie noch nicht getroffen.

Quelle: Bailo P, Nittari G, Pesel G, Basello E, Spasari T, Ricci G. Governing Healthcare AI in the Real World: How Fairness, Transparency, and Human Oversight Can Coexist: A Narrative Review. Sci 2026;8(2):36. Eine narrative Übersichtsarbeit – eine fachkundige Synthese der Literatur, ohne Meta-Analyse und ohne formale Bewertung des Verzerrungsrisikos, erklärt ohne externe Förderung und ohne Interessenkonflikte; ihre Schlüsse sind eine gut begründete Landkarte der Governance-Lücke, nicht ein gemessener Beleg für deren Ausmaß. Die Sepsis-Kennzahlen stammen aus der Primärquelle, Wong et al., JAMA Internal Medicine 2021, nicht aus dieser Arbeit.

#Journal Club#KI-Governance#Patientensicherheit#Gesundheitspolitik#Evidenzbasierte Medizin

Die Governance-Lücke: Warum klinische KI nach der Validierung scheitert

Um welche Art von Arbeit es sich handelt

Was die Arbeit tatsächlich argumentiert

Was sie nicht belegt

Warum das hier zählt

Weiterlesen

Warum aiomics für QM-Berichte und Qualitätsanalytik

Warum aiomics für Kodiervorschläge und die §301-Vorbereitung

Warum aiomics für Entlassbriefe und Arztbriefe

Diese Analyse stammt von den Leuten hinter Visite.

Sie möchten das in Ihrer Klinik sehen?