Die wichtigste Variable fehlte in drei von vier Datensätzen
In einem realen Darmkrebs-Datensatz fehlte die prognostisch wichtigste Variable — das Tumorstadium — in 75 Prozent der Datensätze, die Hälfte der übrigen war falsch kodiert. Eine ruhige Arbeit darüber, dass ein Modell nur lernen kann, was die Daten wirklich enthalten.

Dr. Sven Jungmann
CEO

Die prognostisch wichtigste Variable beim Darmkrebs ist das Tumorstadium — die TNM-Klassifikation (Tumor, Lymphknoten, Metastasen), die mehr als fast alles andere darüber sagt, wie es einer Patientin oder einem Patienten voraussichtlich ergehen wird. In einem realen klinischen Datensatz mit 6.491 Darmkrebs-Patient:innen, über zwölf Jahre an einer koreanischen Universitätsklinik zusammengetragen, fehlte genau diese Variable in 75,3 Prozent der Datensätze. Und von den Einträgen, die ein TNM-Stadium trugen, war die Hälfte falsch: 43 Kodierfehler in 86 nicht fehlenden Fällen.
Das ist der Ausgangsbefund einer ruhigen Methodenarbeit, die im November 2025 in JMIR Medical Informatics erschienen ist. Es ist keine Studie über einen klugen Algorithmus. Es ist eine Studie über die Spalte, die der Algorithmus nie zu sehen bekommt — und sie ist gerade deshalb eine Stunde wert, weil sie sich weigert, aufregend zu sein.
Was die Forschenden getan haben
Die Forschenden entwickelten einen regelbasierten Qualitätsmanagementprozess und führten ihn in vier Stufen über den Datensatz: Planung, Identifikation, Durchführung und Bewertung. Entscheidend war die Durchführungsstufe. Ein großer Teil der fehlenden Stadieninformationen war im Krankenhaus gar nicht wirklich abwesend — er stand im Freitext, in Pathologie- und Bildgebungsbefunden, nur nie übertragen in das strukturierte Feld, das ein Modell liest. Also bauten die Forschenden eine automatische Staging-Bibliothek: Schlüsselwortregeln, die diese Befunde lesen und T-, N- und M-Kategorien zuweisen. Geprüft gegen manuelle Kodierung an einer Stichprobe von 164 Fällen, stimmten die automatischen Zuordnungen in 93,3 Prozent der Fälle für TNM und in 93,9 Prozent für das SEER-Summenstadium überein.
Zwei Dinge gehören betont, bevor die Zahlen jemanden verführen. Dies ist eine retrospektive Fallstudie an einem einzigen Zentrum, kein Versuch. Und der Vergleichsmaßstab für jene 93,3 Prozent Übereinstimmung ist eine menschliche Kodierung, die dieselbe Arbeit beim TNM-Stadium zu 50 Prozent als falsch ausweist — die Automatisierung wird also an einer fehlerhaften Referenz gemessen, nicht an einem Goldstandard.
Was die Evidenz belegt
Nach dem Prozess sanken die fehlenden TNM-Daten von 75,3 auf 35,7 Prozent und das fehlende SEER-Stadium von 24,3 auf 18,5 Prozent. Die Kennzahl des Modells bewegte sich maßvoll: Die AUROC (Fläche unter der Grenzwertoptimierungskurve, ein Maß dafür, wie gut ein Modell die Verläufe trennt) des prognostischen Modells stieg von 0,856 auf 0,872. Das ist ein kleiner Zuwachs, und man könnte ihn leicht überverkaufen.
Das aussagekräftigere Ergebnis ist gar nicht die AUROC. Vor der Bereinigung stufte die Merkmalsauswahl das TNM-Stadium nicht unter die wichtigen Variablen des Modells ein — die prognostisch entscheidende Tatsache beim Darmkrebs war für den Algorithmus unsichtbar, weil sie zu oft fehlte oder falsch war, um lernbar zu sein. Nach der Bereinigung traten TNM und seine Teilcodes als bedeutsam hervor. Das Modell war nicht schlechter, weil die Methode schwach war. Es war schlechter, weil die Daten das Entscheidende nicht zuverlässig enthielten.
“Ein Modell kann nur aus einer Variablen lernen, die zuverlässig vorhanden und korrekt ist. Die Bereinigung machte den Algorithmus nicht klüger; sie machte die wichtigste Tatsache erstmals für ihn sichtbar.”
Was die Evidenz nicht belegt
Es wäre ein Fehlschluss, dies als gelöstes Problem zu lesen. Nach dem vollständigen Prozess fehlt noch immer mehr als ein Drittel der TNM-Werte — 35,7 Prozent sind eine Verbesserung gegenüber 75,3, kein sauberer Datensatz. Die Autor:innen sagen ausdrücklich, dass sie keine allgemeine Lösung für Datenfehler vorgelegt haben und dass das Staging in der Wirklichkeit schwer zu rekonstruieren ist: neoadjuvante Behandlung, Operationsbefunde und multidisziplinäre Urteile können das erfasste Stadium aus klinischen, nicht aus dokumentarischen Gründen unklar oder unvollständig lassen. Schlüsselwortregeln, gebaut für den Befundstil eines Hauses und für eine Sprache, reisen nicht garantiert mit.
Und die Studie misst Datenqualität und eine Modellkennzahl, keinen klinischen Verlauf. Eine besser gefüllte Stadienspalte ist eine Voraussetzung für vertrauenswürdige Modellierung; sie ist kein Beleg dafür, dass irgendjemand besser versorgt wurde. Das ist der richtige Umfang für eine Methodenarbeit — aber es ist der Umfang, und dort sollte eine Leserin ihn halten.
Warum das hier zählt
Wenn ein Vorhersagemodell schwächelt, greift der Reflex zum besseren Modell. Diese Arbeit ist ein sorgfältiges Plädoyer dafür, zuerst auf den Nenner zu schauen: darauf, wie vollständig und korrekt die entscheidenden Variablen je erfasst wurden. Die koreanischen Einzelheiten reisen nicht mit, das strukturelle Problem schon. Jede Einrichtung, die auf retrospektiven Akten aufbaut — die deutschen Tumorregister eingeschlossen, bei aller rechtlichen Verankerung —, erbt dieselbe Lücke zwischen dem, was eine behandelnde Person in einen Befund schrieb, und dem, was ein strukturiertes Feld tatsächlich enthält. Die unglamouröse Arbeit, die Stadienspalte richtig zu bekommen, ist keine Vorbereitung auf die Analyse. Nach dieser Evidenz ist sie der größte Teil der Analyse.
Quelle: Park N, Na K, Sunwoo W, Baek JH, Lee Y, Lee S, Woo H. Process for Quality Management of Electronic Medical Records-Based Data: Case Study Using Real Colorectal Cancer Data. JMIR Medical Informatics 2025;13:e73884. Eine retrospektive Fallstudie an einem einzigen Zentrum; ihre Endpunkte sind Datenvollständigkeit und eine Modellkennzahl, nicht der klinische Verlauf der Patient:innen, und nach dem Prozess fehlt noch immer mehr als ein Drittel der Stadienwerte.


