Chirurgische KI, die im Paper funktioniert, aber nicht im Saal
Ein Scoping Review sichtete 275 Treffer, um jedes KI-Modell zur Vermeidung chirurgischer Komplikationen aufzuspüren und es bis ans Bett zu verfolgen. Von 19 Studien waren die Modelle oft genau. Im Routineeinsatz waren zwei — und der Engpass ist nicht der Algorithmus.

Dr. Sven Jungmann
CEO

Die interessanteste Zahl dieses Reviews ist kein Genauigkeitswert. Es ist die Zwei. Von neunzehn Studien zu Modellen der künstlichen Intelligenz, die chirurgische Komplikationen vorhersagen und verhindern sollen, hatten sich nur zwei die Mühe gemacht, die Ärzt:innen zu fragen, die sie nutzen sollen, was sie davon halten. Und nur zwei Werkzeuge sind heute überhaupt im Routineeinsatz. Die Modelle funktionierten weitgehend. Ob sie jemand wollte, ihnen vertraute oder sie in einen OP-Plan einfügen konnte, blieb meist schlicht ungeprüft.
Genau diese Lücke wollten Mevik und Kolleg:innen in JMIR AI vermessen. Ihre Frage lautete nicht, ob KI eine chirurgische Komplikation vorhersagen kann — das ist weitgehend belegt —, sondern ob eine dieser Vorhersagen den Weg von der Validierungstabelle zu einer echten Patientin auf einem echten OP-Plan zurückgelegt hat. Sie durchsuchten elf Datenbanken, sichteten 275 Treffer und behielten 19 empirische Studien, in denen ein Modell unter realen chirurgischen Bedingungen eingesetzt oder erprobt wurde, veröffentlicht zwischen 2013 und Anfang 2025. Es ist ein Scoping Review: die Kartierung eines Feldes, keine gepoolte Schätzung eines Effekts. Für diese Frage ist das das richtige Instrument, und so sollte man es auch lesen.
Was die Forschenden getan haben
Nach dem Berichtsstandard PRISMA-ScR für Scoping Reviews schlossen die Autor:innen begutachtete empirische Arbeiten von 2013 bis Anfang 2025 ein, in denen ein KI-Modell zur Vermeidung einer chirurgischen Komplikation unter realen Bedingungen angewendet wurde — Wundinfektion, kardiale oder pulmonale Komplikationen oder Schlaganfall. Reine rückblickende Algorithmus-Validierungen, Leitartikel und Studienprotokolle blieben außen vor; es ging um den Einsatz, nicht um den Vergleichstest. Die 19 Studien ordneten sich in drei Gruppen: elf Studien (58 Prozent) zur Vorhersage der Dauer einer Hypotonie während der Operation, vier zur Vorhersage des Komplikationsrisikos und vier zur Entscheidungsunterstützung im Arbeitsweg der Behandelnden.
Was die Evidenz belegt
Auf die enge Frage der technischen Genauigkeit wirkt das Feld gesund. Das am besten untersuchte Beispiel ist die Hypotonie während der Operation — ein niedriger Blutdruck, der mit akutem Nierenversagen, Herzmuskelschäden und längeren Aufenthalten auf der Intensivstation einhergeht; allein elf der neunzehn Studien prüften den Hypotension Prediction Index. Modelle, die sie vorhersagten, erreichten eine Fläche unter der Grenzwertoptimierungskurve (AUROC, ein Maß dafür, wie gut ein Modell Ereignisse von Nichtereignissen trennt; 1,0 ist perfekt, 0,5 ist ein Münzwurf) um 0,89, und mehrere verkürzten die Zeit, die Patient:innen hypoton verbrachten. Die Risiko- und Entscheidungsmodelle lagen ähnlich: MySurgeryRisk über verschiedene Endpunkte hinweg bei 0,80 bis 0,92, POTTER um 0,88 für die Sterblichkeit und 0,93 für die Beatmungsabhängigkeit, jeweils besser als die Einschätzung der Chirurg:innen. Das sind respektable Werte für die Trennschärfe.
Doch Trennschärfe ist nicht dasselbe wie klinischer Nutzen, und der Review benennt das offen. Ein Modell, MyRISK, zeigt die Falle: eine Sensitivität von 94 Prozent — es übersieht kaum einen echten Fall — und ein negativer prädiktiver Wert von 99 Prozent, bei einem positiven prädiktiven Wert von nur 7 Prozent. Das heißt: Die große Mehrheit der Alarme, die es auslöst, ist falsch. Bei der Häufigkeit, mit der diese Ereignisse tatsächlich auftreten, kann ein hoher AUROC am Ende ein Signal sein, das Chirurg:innen zu ignorieren lernen. Eine Zahl, die auf der Kurve stark aussieht, kann am Bett ein Ärgernis sein.
Was die Evidenz nicht belegt
Der zentrale Befund des Reviews ist ein Fehlen. Trotz der Genauigkeit war nur eine Handvoll Modelle im Routineeinsatz, und keine der eingeschlossenen Studien erfüllte vollständig den TRIPOD+AI-Standard für die transparente Berichterstattung eines Vorhersagemodells. Eine externe Validierung — die Prüfung eines Modells an Daten eines Hauses, das es nicht gebaut hat — war die Ausnahme, nicht die Regel. Die wiederkehrenden Hürden, die die Autor:innen nennen, sind nicht rechnerischer Natur: manuelle Dateneingabe, keine Anbindung an die elektronische Akte, regulatorische und ethische Unsicherheit — der nach Angaben der Autor:innen häufigste Grund gegen eine Einführung — und das Fehlen jeder Vergütung, die den Aufwand für den Betrieb eines solchen Systems trüge. Die Strecke zwischen einem AUROC und einem besseren Verlauf überbrückt kein besserer Algorithmus. Sie überbrücken Schnittstellen, Validierung, Schulung und ein Budget.
Auch eine Schieflage der Evidenz ist zu nennen, denn die Autor:innen nennen sie selbst. Dass die Hypotonie-Vorhersage alles andere verdrängt, liegt auch daran, dass ein Produkt kommerziell verfügbar und gut integriert ist — und die meisten Studien, die es prüften, wurden vom Hersteller (Edwards Lifesciences) finanziert. Die Autor:innen selbst deklarieren keine Interessenkonflikte; die Verzerrung liegt in der zugrunde liegenden Literatur, nicht im Review. Aber der am besten untersuchte Erfolg des Feldes ist zugleich sein am stärksten gesponserter, und die elf Studien sind eher als ein Korpus herstellergestützter Arbeiten zu lesen denn als elf unabhängige Urteile.
“Eine Zahl, die auf der Kurve stark aussieht, kann am Bett ein Ärgernis sein.”
Warum das hier zählt
Unter der Medizinprodukteverordnung (MDR) und der EU-KI-Verordnung gilt Software, die chirurgische Entscheidungen lenkt, als Hochrisiko-System, mit anspruchsvollen Anforderungen an Konformitätsbewertung, klinische Evidenz und Überwachung nach dem Inverkehrbringen. Diese Anforderungen sind für jedes Team schwer zu erfüllen und für eine akademische Gruppe ohne kommerziellen Träger hinter einem vielversprechenden Modell nahezu unmöglich. Das, und nicht ein Versagen der Mathematik, ist der wahrscheinlichere Grund, warum die genauesten Werkzeuge das Pilotstadium nie verlassen. Die Lehre für alle, die chirurgische KI abwägen, lautet: über den AUROC hinauslesen und die unscheinbaren Fragen stellen — extern validiert an wem, eingebunden in welche Akte, geprüft von wem und finanziert wie. Zwei Studien haben die Ärzt:innen gefragt, was sie denken. Die nächsten neunzehn sollten dort beginnen.
Quelle: Mevik K, Woldaregay AZ, Jonsson EL, Tejedor M, Temple-Oberle C. Application of AI Models for Preventing Surgical Complications: Scoping Review of Clinical Readiness and Barriers to Implementation. JMIR AI 2026;5:e75064. Ein Scoping Review — er kartiert und beurteilt die vorhandene Literatur, statt Effekte zu poolen; seine zentrale Aussage betrifft den Stand des Feldes, nicht die Größe eines einzelnen Nutzens.


