6. Mai 20265 Min. Lesezeit

Wohin die Klinik-KI tatsächlich geht — und warum genau das der Befund ist

Eine geostatistische Analyse von 3.092 US-Krankenhäusern fragt nicht, ob KI funktioniert, sondern wohin sie geht. Sie häuft sich in den besser vernetzten, besser ausgestatteten Häusern — und der stärkste Prädiktor war nicht Größe oder Geld, sondern Interoperabilität.

Dr. Sven Jungmann

CEO

Editorial-Collage: eine navyfarbene US-Landkarte mit tealfarbenen Rasterpunkten, die sich in wenigen Regionen ballen, und einem einzelnen Amber-Punkt allein in einer leeren Gegend.

Es ist leicht zu fragen, ob ein klinisches KI-Modell funktioniert. Schwerer und nützlicher ist die Frage, wo es am Ende landet — und ein Preprint einer Stanford-Gruppe tut genau das. Hwang und Kolleg:innen kartierten den Einsatz prädiktiver KI in 3.092 US-Krankenhäusern und untersuchten nicht die Trefferquote auf einem Testdatensatz, sondern die Geografie der Frage, wer diese Werkzeuge überhaupt hat. Rund ein Drittel — 35 Prozent — der antwortenden Häuser gab an, KI-gestützte Vorhersagemodelle zu betreiben. Das Bild, das zurückkommt, ist keine Front, die sich nach außen ausbreitet. Es ist eine Karte mit dichten Ballungen an wenigen Orten und großen Leerflächen überall sonst.

Das klingt nach einer gesundheitspolitischen Beobachtung und weniger nach einer klinischen. Doch für alle, die schon einmal gesehen haben, wie ein gutes Werkzeug genau die Patient:innen nicht erreicht, die es am dringendsten gebraucht hätten, ist es die ehrlichere Frage. Ein Modell, das die Versorgung nur dort hebt, wo die Versorgung ohnehin gut ist, schließt keine Lücke. Es vergrößert sie.

Was die Forschenden getan haben

Es handelt sich um eine beobachtende Querschnittsstudie — eine Karte, kein Versuch. Die Autor:innen verknüpften die Jahresbefragung der American Hospital Association von 2023 und deren informationstechnische Zusatzbefragung (in der erstmals ausführlich erfasst wird, ob ein Krankenhaus prädiktive Modelle einsetzt) mit sozioökonomischen Kennzahlen auf Gemeindeebene und mit 47 Qualitätskennzahlen der Centers for Medicare & Medicaid Services, vierteljährlich gemessen von 2022 bis Mitte 2025. Jedes Haus wurde dreistufig eingeordnet: keine Vorhersagemodelle, nicht-KI-gestützte Modelle oder KI-Modelle. Mit räumlicher Statistik suchten sie nach Ballungen, mit einem Random-Forest-Modell und SHAP-Werten bestimmten sie, was die Einführung vorhersagt; ein längsschnittlicher Teil prüfte, ob KI-Häuser sich über die Zeit anders entwickelten. Es wurden keine Patient:innen begleitet, nichts ist randomisiert. Alles Weitere ist Assoziation.

Was die Evidenz belegt

Die Einführung ist stark geballt: signifikante räumliche Autokorrelation auf jeder Messgröße, mit klaren Schwerpunkten und ebenso klaren Leerräumen statt einer gleichmäßigen Verteilung. Und die Ballung läuft dem Bedarf zuwider. Vergleicht man die Einführung mit Bedarfsindikatoren, reichen die Fehlpassungsraten von 67,3 Prozent (soziale Verwundbarkeit) bis 72,4 Prozent (medizinisch unterversorgte Regionen für die Versorgung Älterer und von Säuglingen). Im Klartext: Über die meisten Maße hinweg verfehlen mehr als zwei Drittel der Einführung den größten Bedarf, und die größten Konzentrationen liegen in den beiden schlechtesten Quadranten — hoher Bedarf bei wenig KI, geringer Bedarf bei viel KI.

Die Rangfolge der Prädiktoren ist der Teil, den man behalten sollte. Der wichtigste Faktor war weder Bettenzahl noch Trägerschaft noch der Wohlstand der Gemeinde. Es war die Interoperabilität. Das höchstgewichtete Merkmal (SHAP) war der Core Index, ein Maß für die Fähigkeit eines Hauses zum Austausch von Gesundheitsdaten; dahinter der gegenläufig gewichtete Friction Index, der die Hürden dieses Austauschs erfasst, dann das Modell des Versorgungsverbunds, die Bettenkapazität und ein Indikator zum Minderheitenstatus. Mehr Core Index, mehr KI. In der geografisch gewichteten Regression war der Core Index zudem der einzige Prädiktor, der in jeder Region ein positives Vorzeichen behielt, während andere zwischen positiv und negativ wechselten. Bei der Interoperabilität ist der Zusammenhang stabil; alles andere ist lokal. Die stille These lautet: KI landet dort, wo sich die Daten schon bewegen lassen.

Was die Evidenz nicht belegt

Beim längsschnittlichen Qualitätssignal muss man als sorgfältige Leserin innehalten. Von 20 Kennzahlen zeigten 12 nach Korrektur statistisch signifikante Verlaufsunterschiede für KI-Häuser. Einige fielen günstig aus — die 30-Tage-Sterblichkeit bei Herzinsuffizienz (Steigungsdifferenz -0,20) und bei Lungenentzündung (-0,32) ging zurück, mit weniger überzähligen Akutpflegetagen nach Entlassung. Andere liefen verkehrt herum: Die Verweildauer in der Notaufnahme stieg (+1,16), mehr Patient:innen verließen die Notaufnahme vor der Behandlung, und Kennzahlen der Sepsisversorgung verschlechterten sich (SEP-1 +0,91). Dieses gemischte Bild ist glaubwürdiger als ein sauberer Sieg es wäre — und die Autor:innen lesen es zu Recht als Assoziation, nicht als Wirkung. Häuser, die prädiktive KI einführen, unterscheiden sich von anderen in Personalausstattung, Fallzusammensetzung und Ausgangsdigitalisierung; jeder dieser Punkte könnte sowohl die Einführung als auch die Ergebnisse bewegen. Die Studie kann das Werkzeug nicht von der Art Krankenhaus trennen, die das Werkzeug kauft; ihr eigenes Random-Forest-Modell erreichte nur eine AUROC (Fläche unter der Grenzwertoptimierungskurve) von 0,67, was die Autor:innen genau auf solche nicht gemessenen Störgrößen zurückführen.

Zwei weitere Grenzen sind struktureller Natur. Die Exposition ist grob: Ein Häkchen in einer Befragung, dass ein Haus „KI-gestützte Vorhersagemodelle einsetzt“, sagt nichts darüber aus, welches Modell wofür, an wem, und ob jemand auf dessen Ergebnis hin handelt — die Autor:innen räumen ein, dass ihre Kategorien zu grob sind, um sie an eine bestimmte Kennzahl zu binden. Und die Einheit ist das Krankenhaus, nicht die einzelne Patientin; ein ökologischer Fehlschluss — vom Zusammenhang auf Hausebene auf den individuellen Nutzen zu schließen — ginge zu weit. Nichts davon versenkt die Arbeit. Es setzt die Obergrenze dessen, was sie behaupten kann.

“Der stärkste Prädiktor dafür, ob ein Haus KI eingeführt hatte, war nicht seine Größe oder sein Budget. Es war, ob es überhaupt schon Daten austauschen konnte.”

Warum das hier zählt

Die Daten sind amerikanisch und lassen sich nicht unverändert auf europäische Systeme übertragen. Der Mechanismus schon. Wenn die Interoperabilität das Tor ist, das entscheidet, welche Häuser KI überhaupt nutzen können — und das räumlich stabilste Signal der Arbeit sagt, dass sie es ist —, dann ist die unspektakuläre Arbeit — Standards, strukturierte Akten, die Fähigkeit, einen Entlassbrief ohne Fax zu bewegen — keine bloße Vorbedingung für KI, sondern das, was bestimmt, ob KI je die Orte erreicht, die sie am dringendsten brauchen. Das Risiko, das dieser Preprint dokumentiert, ist nicht, dass die Technik scheitert. Es ist, dass sie gelingt, ungleich, und eine Kluft verfestigt, die schon vorher da war. Für alle, die über ein Digitalisierungsbudget entscheiden, ist das das Argument, die Verbindungen vor den Algorithmen zu finanzieren.

Quelle: Hwang Y-M, Ng MY, Pillai M, Sahai MP, Hernandez-Boussard T. AI Implementation in U.S. Hospitals: Regional Disparities and Health Equity Implications. medRxiv, veröffentlicht am 28. Juni 2025; doi:10.1101/2025.06.27.25330441; gefördert von The SCAN Foundation, keine Interessenkonflikte angegeben. Ein nicht begutachteter Preprint mit beobachtendem Design auf Krankenhausebene — seine Befunde sind Assoziationen, keine kausalen Wirkungen; eine begutachtete Fassung ist inzwischen in Nature Health erschienen.

#Journal Club#Gesundheitsgerechtigkeit#Klinische KI#Interoperabilität#Gesundheitspolitik

Wohin die Klinik-KI tatsächlich geht — und warum genau das der Befund ist

Was die Forschenden getan haben

Was die Evidenz belegt

Was die Evidenz nicht belegt

Warum das hier zählt

Weiterlesen

Warum aiomics für QM-Berichte und Qualitätsanalytik

Arztbrief mit KI: was zwischen Entwurf und Unterschrift passieren muss

KI-Spracherkennung in der Klinik: das Wer-hat-was-gesagt-Problem

Diese Analyse stammt von den Leuten hinter Visite.

Sie möchten das in Ihrer Klinik sehen?