17. Juni 20264 Min. Lesezeit

Ein C-Index von 0,805 — auf 97 Prozent Heterogenität gebaut

28 maschinelle Lernmodelle wollen das Delir nach Herzoperationen vorhersagen. Gepoolt wirken sie klinisch brauchbar. Liest man die Biastabelle und die Heterogenität, verliert die eine Zahl ihre Bedeutung.

Dr. Sven Jungmann

CEO

Editorial-Collage: die Hand einer Patientin am Bettgitter im Aufwachraum, gerahmt von einem Tealkreis, dahinter 28 unterschiedlich hohe navyfarbene Balken und ein einzelner Amber-Streifen, der sich abhebt.

Etwa eine:r von zwölf Menschen, die am Herzen operiert werden, erwacht in den folgenden Tagen in ein Delir — in diesem Datensatz waren es 6.326 von 80.143 Patient:innen. Das ist keine Lappalie. Das postoperative Delir verlängert den Intensivaufenthalt, erhöht die Sterblichkeit und überschattet die Genesung über Monate. Der Reflex, es früh vorherzusagen und einzugreifen, bevor es eintritt, ist also genau der richtige. Die Frage ist nur, ob die Werkzeuge, die dafür gebaut werden, so gut sind, wie eine einzelne gepoolte Zahl vermuten lässt.

Guo und Kolleg:innen sind sie auf die saubere Weise angegangen: nicht, indem sie ein weiteres Modell trainierten, sondern indem sie 28 davon systematisch ausgewertet haben. Die Studien umfassen 80.143 herzchirurgische Patient:innen aus zwölf Ländern und die Publikationsjahre 2012 bis 2024. Das zentrale Ergebnis ist ein gepoolter C-Index — die Fläche unter der Grenzwertoptimierungskurve, AUROC, ein Maß dafür, wie gut ein Modell jene, die ein Delir entwickeln werden, von jenen trennt, die es nicht tun — von 0,805 (95%-KI 0,759–0,852) in den Validierungsdatensätzen, bei einer Sensitivität von 0,72 und einer Spezifität von 0,78. Für bare Münze genommen wäre das ein Modell, das rund drei von vier gefährdeten Patient:innen erkennt. Für gezielte Prophylaxe, frühere Mobilisierung, angepasste Sedierungstiefe wäre das ein echter Zugewinn.

Was die Übersicht belegt

Zwei Befunde sind belastbar und gehören behalten. Erstens sind die Prädiktoren, die quer durch die Literatur wiederkehren, unspektakulär und längst in der Akte: Alter, Kreatininwert, Dauer der kardiopulmonalen Bypass-Zeit, der Wert im Mini-Mental-Status-Test und die linksventrikuläre Ejektionsfraktion. Keine dieser Variablen verlangt eine neue Untersuchung oder einen neuen Sensor; sie stehen in nahezu jeder kardiochirurgischen Dokumentation. Ein Modell auf routinemäßig erfassten Variablen ist im Prinzip einsetzbar, ohne den Stationsalltag zu stören. Zweitens ist die Arbeit ehrlich zu ihrem eigenen Fundament — sie führt eine formale Bewertung des Verzerrungsrisikos durch, statt die Studien einfach zu mitteln und Erfolg zu verkünden. In dieser Bewertung liegt die eigentliche Geschichte.

Was die Zahl nicht bedeutet

Der gepoolte C-Index von 0,805 ist der mathematische Mittelwert aus Ergebnissen, die nicht vergleichbar sind. Das Heterogenitätsmaß I-Quadrat erreichte in den Validierungsdatensätzen 97,3 Prozent — und in den Trainingsdatensätzen 98,8 Prozent. Es ist ein Wert, den die Autor:innen selbst als extrem bezeichnen. I-Quadrat schätzt, welcher Anteil der Unterschiede zwischen Studien echte Verschiedenheit statt Zufall widerspiegelt; nahe 97 Prozent heißt das: Die 28 Modelle messen nicht eine Sache unter 28 Bedingungen, sondern 28 verschiedene Dinge. Ihr Mittel ergibt eine ordentliche Zahl samt Konfidenzintervall, aber dieser Schätzwert ist keine Eigenschaft, die ein einzelnes Modell an ein einzelnes Krankenbett mitbrächte. Es ist das Zentrum einer Wolke, nicht die Leistung eines Werkzeugs.

Die Bias-Bewertung sagt dasselbe von der anderen Seite. Von den 28 Modellen wurden 26 nach PROBAST, dem Instrument zur Einschätzung des Verzerrungsrisikos von Vorhersagemodellen, als hochriskant eingestuft; nur zwei galten als risikoarm. Die wiederkehrenden Mängel sind die klassischen: zu wenige Delir-Ereignisse pro Modellvariable, sodass das Modell Rauschen anpasst; schwacher Umgang mit fehlenden Daten; und unzureichende Prüfung auf Überanpassung. Am gewichtigsten aber: Fast keines dieser Modelle wurde dort geprüft, wo es zählt — an Daten eines Hauses, das es nicht gebaut hat. Von den 21 Studien mit Validierungsdatensatz teilten 11 ihre Daten zufällig, 4 trennten sie zeitlich, 3 nutzten eine k-fache Kreuzvalidierung, 2 ein Bootstrap-Resampling — und genau eine prüfte ihr Modell an einer externen Kohorte. 23 der 28 Studien stammten aus nur einem Zentrum. Die übrigen Validierungen zeigen, wie gut ein Modell sein eigenes Haus auswendig gelernt hat — und fast nichts darüber, wie es anderswo abschneidet.

“Ein gepoolter C-Index von 0,805 ist kein stabiler Schätzwert. Es ist das mathematische Zentrum von Ergebnissen, die zu verschieden sind, um in denselben Mittelwert zu gehören.”

Warum das zählt

Hier verläuft die Grenze, die einen Benchmark von einem klinischen Werkzeug trennt — und sie wird am leichtesten von jenen übersehen, die beim Abstract aufhören. Ein Trennwert über 0,8 ist als Signal, dass sich das zugrunde liegende Problem aus Routinedaten lernen lässt, durchaus ermutigend. Er ist kein Beleg dafür, dass eines dieser Modelle auf einer nie gesehenen Station bei 0,8 trennt, bei Patient:innen, deren Delir-Grundrate, OP-Spektrum und Erfassungsmethode sich vom Trainingsdatensatz unterscheiden — und die Erfassungsmethode des Delirs variiert zwischen diesen Studien, was allein die scheinbare Häufigkeit verschieben kann. Die Autor:innen ziehen den vorsichtigen Schluss, den ihre eigenen Daten verlangen: Die Leistung ist vielversprechend, die Evidenzbasis aber zu dünn und zu binnenvalidiert, um danach zu handeln. Das ist die richtige Lesart. Der ehrliche nächste Schritt ist nicht der Einsatz, sondern externe, multizentrische Validierung, wo möglich prospektiv, bevor auch nur einer dieser Werte verändern darf, was um vier Uhr morgens mit einer Patientin geschieht.

Quelle: Guo Y, Xu H, Wang A, Zhang M, Zhang S, Xie P. The Predictive Value of Machine Learning for Postoperative Delirium in Cardiac Surgery: Systematic Review and Meta-Analysis. Journal of Medical Internet Research 2026;28:e72304. Eine systematische Übersichtsarbeit mit Metaanalyse: Ihr gepoolter Schätzwert ruht auf 97 Prozent Heterogenität und auf einem Modellsatz, in dem 26 von 28 Studien als hochriskant galten und nur eine extern validiert wurde.

#Journal Club#Klinische KI#Herzchirurgie#Evidenzbasierte Medizin#Vorhersagemodelle

Ein C-Index von 0,805 — auf 97 Prozent Heterogenität gebaut

Was die Übersicht belegt

Was die Zahl nicht bedeutet

Warum das zählt

Weiterlesen

Die beste App der Welt – und niemand auf der Station, der sie nutzt

Wearables und Demenz: ein starkes Signal auf dünner Validierung

GPT-5 liest das PET-Bild selbstbewusst — und übersieht die Metastasen, auf die es ankommt

Diese Analyse stammt von den Leuten hinter Visite.

Sie möchten das in Ihrer Klinik sehen?