1. Juli 20265 Min. Lesezeit

Eine Woche früher: Was ein KI-Heilungsindex tatsächlich schlägt

Eine große retrospektive Studie berichtet, dass ein KI-Heilungsindex eine stockende Wunde eine Woche eher erkennt als das übliche Maß. Das Signal ist real und bescheiden — und die Studie stammt von dem Unternehmen, das den Index verkauft.

Dr. Sven Jungmann

CEO

Editorial-Collage: behandschuhte Hände einer Pflegekraft lösen einen Verband, darunter ein Tealraster als Kalender und ein einzelner Amber-Punkt für eine Woche, auf warmem Steinpapier.

Das ganze Ergebnis passt in einen Satz: Eine Wunde, die stocken wird, lässt sich in Woche drei erkennen statt in Woche vier. Eine Woche. Bei einem Dekubitus an einer gebrechlichen 80-Jährigen ist eine Woche früherer Eskalation nicht nichts — sie kann der Unterschied zwischen einem Verbandwechsel und einem Débridement sein. Es lohnt also, sorgfältig zu fragen, was die Studie in BMJ Digital Health & AI wirklich zeigt und was sie uns zu glauben abverlangt.

Das klinische Problem ist echt und wächst. Chronische Wunden binden einen erheblichen Teil der Langzeit- und Anschlussversorgung; allein für die USA beziffern die Autor:innen die Kosten auf über 126 Milliarden Dollar im Jahr, mehr als 28 Milliarden davon zulasten von Medicare. Das Maß, auf das sich Behandelnde am Bett stützen, ist die Flächenreduktion (Percent Area Reduction, PAR): Hat eine Wunde in den ersten vier Wochen nicht um etwa ein Fünftel bis ein Drittel abgenommen, gilt sie als langsam oder schlecht heilend. PAR ist reproduzierbar, vertraut und von der US-Arzneimittelbehörde (Food and Drug Administration, FDA) als Surrogatendpunkt in klinischen Studien zu Wundprodukten anerkannt. Es ist aber auch eine einzige Zahl — Fläche über Zeit — und blendet das meiste aus, was eine Wundexpertin tatsächlich sieht: das Gewebe im Wundbett, das Exsudat, den Wundrand, die anatomische Lage.

Was die Forschenden getan haben

Es handelt sich um eine retrospektive Genauigkeitsstudie, nicht um einen Versuch. Anhand eines Datensatzes von 173.816 Wunden — von 85.599 Patient:innen über 2.316 stationäre Pflegeeinrichtungen und 132 ambulante Pflegedienste, durchgehend aus der Nachsorge —, erhoben über eine digitale Wundversorgungsplattform, verglichen die Autor:innen einen KI-gestützten Heilungsindex (Healing Index) mit PAR bei der Vorhersage verzögerter Heilung. Die Verteilung ist für dieses Umfeld typisch: Dekubitus überwiegt mit 70,8 Prozent, gefolgt von venösen (13,5), diabetischen Fuß- (9,6) und arteriellen Ulzera (6,3); das Durchschnittsalter lag bei 76,3 Jahren. Konkret geprüft wurde HI Modell 5, das sieben interpretierbare, überwiegend aus Bildern abgeleitete Merkmale — Fläche, Gewebezusammensetzung, Exsudat, Wundrand, anatomische Lage, Versorgungssetting — in ein zeitvariables Cox-Modell einbindet. Vorhergesagt wird, ob eine Wunde binnen zwölf Wochen heilte, dokumentiert im selben Datensatz.

Was die Evidenz belegt

In Woche drei erreichte der Heilungsindex eine ausgewogene Treffergenauigkeit (Balanced Accuracy) von 0,658 (95-%-Konfidenzintervall 0,650–0,665); PAR lag bei 0,601 und erreichte das Niveau von 65 Prozent erst in Woche vier. Das ist die Schlagzeile, ehrlich formuliert: ein Beurteilungszyklus Vorsprung. Die ausgewogene Treffergenauigkeit — der Mittelwert aus Sensitivität und Spezifität — ist hier das richtige Maß, weil die Daten schief sind: verzögert heilende Wunden überwiegen die fristgerecht heilenden um etwa vier zu eins. Sie verhindert, dass ein Modell allein dadurch gut aussieht, dass es auf das häufigere Ergebnis setzt. Der Vorsprung zeigte sich über alle vier Wundarten, und eine Varianzanalyse mit Messwiederholung bestätigte den Modelleffekt (F=35,32, p<0,001), wobei HI Modell 5 das stärkste von sechs Varianten war. Nichts davon ist in der Darstellung aufgebauscht.

Was die Evidenz nicht belegt

Beginnen wir mit der Zahl selbst. Eine ausgewogene Treffergenauigkeit nahe 0,66 bedeutet, dass das Modell genau an dem Punkt, an dem es seinen Vorsprung gewinnt, in etwa einem Drittel der Fälle falschliegt. Das ist ein früheres Signal, kein sicheres — es schickt eine Fachkraft hin zum Nachsehen, nicht zur Entscheidung. Vorhergesagt wird zudem nur ein dokumentiertes Etikett: Niemand wurde weiterverfolgt, um zu zeigen, dass das Handeln auf das Signal aus Woche drei zu weniger Amputationen, weniger Aufnahmen oder schnellerem Wundverschluss führte. Die Autor:innen sagen das selbst klar — sie stellen ausdrücklich fest, dass klinische Ergebnisse, Inanspruchnahme und Kosten nicht untersucht wurden und dass deren Verbesserung durch frühere Risikostratifizierung eine Hypothese für künftige prospektive Arbeiten bleibt. Früheres Wissen wird nur dann zu besserer Versorgung, wenn die gewonnene Woche genutzt wird — und das kann eine retrospektive Genauigkeitsanalyse nicht belegen.

Dann die Tatsache, die alles Übrige einfärbt. Fünf der acht Autor:innen sind aktuelle Beschäftigte von Swift Medical, dem Unternehmen, das den Heilungsindex entwickelt; eine weitere Person war dort beschäftigt; und der gesamte Datensatz stammt von Swifts eigener Plattform. Die Arbeit ist darin offen — die Interessenerklärung benennt es ausdrücklich —, aber ein vorteilhafter Vergleich des eigenen Produkts mit dem etablierten Maß, auf selbst erhobenen Daten, bewertet an einem Etikett, das die eigenen Segmentierungswerkzeuge mitgeprägt haben, gewinnt sein Gewicht erst, wenn jemand ohne eigenes Interesse das Ergebnis auf nicht selbst kuratierten Daten reproduziert. Die sorgfältige Leserin verwirft Herstellerforschung nicht und verbucht sie auch nicht ungeprüft; sie misst sie am Maßstab der unabhängigen Reproduktion, bevor sie sie als gesichert behandelt.

“Eine Woche früherer Warnung ist etwas wert. Sie ist nicht dasselbe wie eine Woche besserer Ergebnisse — und nur ein unabhängiger Datensatz kann beides trennen.”

Warum das hier zählt

Das Patientenprofil, das die Last chronischer Wunden in der nordamerikanischen Langzeitpflege treibt — älter, gebrechlich, überwiegend Dekubitus —, ähnelt stark dem der deutschen geriatrischen Rehabilitation und Pflege, wo die Dekubitusprophylaxe ein erfasster Qualitätsindikator ist. Ein Prognoseinstrument, das eine stockende Wunde einen Zyklus früher sichtbar macht, ist für dieses Umfeld die richtige Idee. Doch der Datensatz ist nordamerikanisch, die Plattform ist kommerziell, das Modell wurde ausschließlich auf Nachsorgedaten trainiert — die Autor:innen weisen darauf hin, dass seine Schwellenwerte andernorts wohl neu kalibriert werden müssten —, und eine europäische Validierung fehlt. Bevor ein solcher Index eine deutsche Station erreicht, bräuchte es eine Prüfung an lokalen Daten, die regulatorische Sorgfalt, die jede klinische Software nach der Medizinprodukteverordnung (MDR) verlangt, und eine klare Antwort auf die Frage, die diese Studie offenlässt: Verändert das Handeln auf das frühere Signal tatsächlich den Verlauf der Wunde?

Quelle: Goldstone L, Mohammed HT, Gupta R, et al. Predicting wound healing outcomes: a comparative accuracy analysis of AI-driven indices and percent area reduction. BMJ Digital Health & AI 2026;2(1):e000069. Eine retrospektive Genauigkeitsstudie auf einem einzigen kommerziellen Datensatz, bei der fünf der acht Autor:innen beim Entwickler des geprüften Index beschäftigt sind; sie berichtet eine frühere Vorhersage, nicht bessere Patientenergebnisse.

#Journal Club#Klinische KI#Wundversorgung#Evidenzbasierte Medizin#Prognosemodelle

Eine Woche früher: Was ein KI-Heilungsindex tatsächlich schlägt

Was die Forschenden getan haben

Was die Evidenz belegt

Was die Evidenz nicht belegt

Warum das hier zählt

Weiterlesen

Eine Pflicht, die ein Viertel der Kliniken erfüllt: Was die ePA-Umfrage zeigt

Eine 60-Sekunden-Messung am Morgen vor dem Crash: Was sie verrät und was nicht

Zwanzigtausend Nutzende, kein Kontrollarm: Wie man eine Real-World-Kohorte ehrlich liest

Diese Analyse stammt von den Leuten hinter Visite.

Sie möchten das in Ihrer Klinik sehen?