Zum Hauptinhalt springen
4 Min. Lesezeit

Die wichtigste Variable fehlte in drei von vier Datensätzen

In einem realen Darmkrebs-Datensatz fehlte die prognostisch wichtigste Variable — das Tumorstadium — in 75 Prozent der Datensätze, die Hälfte der übrigen war falsch kodiert. Eine ruhige Arbeit darüber, dass ein Modell nur lernen kann, was die Daten wirklich enthalten.

Dr. Sven Jungmann

Dr. Sven Jungmann

CEO

Editorial-Collage: die Hände einer behandelnden Person über einem Pathologiebefund, daneben eine weitgehend leere strukturierte Datentabelle, eine Zelle mit einem Amber-Punkt markiert.

Die prognostisch wichtigste Variable beim Darmkrebs ist das Tumorstadium — die TNM-Klassifikation (Tumor, Lymphknoten, Metastasen), die mehr als fast alles andere darüber sagt, wie es einer Patientin oder einem Patienten voraussichtlich ergehen wird. In einem realen klinischen Datensatz mit 6.491 Darmkrebs-Patient:innen, über zwölf Jahre an einer koreanischen Universitätsklinik zusammengetragen, fehlte genau diese Variable in 75,3 Prozent der Datensätze. Und von den Einträgen, die ein TNM-Stadium trugen, war die Hälfte falsch: 43 Kodierfehler in 86 nicht fehlenden Fällen.

Das ist der Ausgangsbefund einer ruhigen Methodenarbeit, die im November 2025 in JMIR Medical Informatics erschienen ist. Es ist keine Studie über einen klugen Algorithmus. Es ist eine Studie über die Spalte, die der Algorithmus nie zu sehen bekommt — und sie ist gerade deshalb eine Stunde wert, weil sie sich weigert, aufregend zu sein.

Was die Forschenden getan haben

Die Forschenden entwickelten einen regelbasierten Qualitätsmanagementprozess und führten ihn in vier Stufen über den Datensatz: Planung, Identifikation, Durchführung und Bewertung. Entscheidend war die Durchführungsstufe. Ein großer Teil der fehlenden Stadieninformationen war im Krankenhaus gar nicht wirklich abwesend — er stand im Freitext, in Pathologie- und Bildgebungsbefunden, nur nie übertragen in das strukturierte Feld, das ein Modell liest. Also bauten die Forschenden eine automatische Staging-Bibliothek: Schlüsselwortregeln, die diese Befunde lesen und T-, N- und M-Kategorien zuweisen. Geprüft gegen manuelle Kodierung an einer Stichprobe von 164 Fällen, stimmten die automatischen Zuordnungen in 93,3 Prozent der Fälle für TNM und in 93,9 Prozent für das SEER-Summenstadium überein.

Zwei Dinge gehören betont, bevor die Zahlen jemanden verführen. Dies ist eine retrospektive Fallstudie an einem einzigen Zentrum, kein Versuch. Und der Vergleichsmaßstab für jene 93,3 Prozent Übereinstimmung ist eine menschliche Kodierung, die dieselbe Arbeit beim TNM-Stadium zu 50 Prozent als falsch ausweist — die Automatisierung wird also an einer fehlerhaften Referenz gemessen, nicht an einem Goldstandard.

Was die Evidenz belegt

Nach dem Prozess sanken die fehlenden TNM-Daten von 75,3 auf 35,7 Prozent und das fehlende SEER-Stadium von 24,3 auf 18,5 Prozent. Die Kennzahl des Modells bewegte sich maßvoll: Die AUROC (Fläche unter der Grenzwertoptimierungskurve, ein Maß dafür, wie gut ein Modell die Verläufe trennt) des prognostischen Modells stieg von 0,856 auf 0,872. Das ist ein kleiner Zuwachs, und man könnte ihn leicht überverkaufen.

Das aussagekräftigere Ergebnis ist gar nicht die AUROC. Vor der Bereinigung stufte die Merkmalsauswahl das TNM-Stadium nicht unter die wichtigen Variablen des Modells ein — die prognostisch entscheidende Tatsache beim Darmkrebs war für den Algorithmus unsichtbar, weil sie zu oft fehlte oder falsch war, um lernbar zu sein. Nach der Bereinigung traten TNM und seine Teilcodes als bedeutsam hervor. Das Modell war nicht schlechter, weil die Methode schwach war. Es war schlechter, weil die Daten das Entscheidende nicht zuverlässig enthielten.

Ein Modell kann nur aus einer Variablen lernen, die zuverlässig vorhanden und korrekt ist. Die Bereinigung machte den Algorithmus nicht klüger; sie machte die wichtigste Tatsache erstmals für ihn sichtbar.

Was die Evidenz nicht belegt

Es wäre ein Fehlschluss, dies als gelöstes Problem zu lesen. Nach dem vollständigen Prozess fehlt noch immer mehr als ein Drittel der TNM-Werte — 35,7 Prozent sind eine Verbesserung gegenüber 75,3, kein sauberer Datensatz. Die Autor:innen sagen ausdrücklich, dass sie keine allgemeine Lösung für Datenfehler vorgelegt haben und dass das Staging in der Wirklichkeit schwer zu rekonstruieren ist: neoadjuvante Behandlung, Operationsbefunde und multidisziplinäre Urteile können das erfasste Stadium aus klinischen, nicht aus dokumentarischen Gründen unklar oder unvollständig lassen. Schlüsselwortregeln, gebaut für den Befundstil eines Hauses und für eine Sprache, reisen nicht garantiert mit.

Und die Studie misst Datenqualität und eine Modellkennzahl, keinen klinischen Verlauf. Eine besser gefüllte Stadienspalte ist eine Voraussetzung für vertrauenswürdige Modellierung; sie ist kein Beleg dafür, dass irgendjemand besser versorgt wurde. Das ist der richtige Umfang für eine Methodenarbeit — aber es ist der Umfang, und dort sollte eine Leserin ihn halten.

Warum das hier zählt

Wenn ein Vorhersagemodell schwächelt, greift der Reflex zum besseren Modell. Diese Arbeit ist ein sorgfältiges Plädoyer dafür, zuerst auf den Nenner zu schauen: darauf, wie vollständig und korrekt die entscheidenden Variablen je erfasst wurden. Die koreanischen Einzelheiten reisen nicht mit, das strukturelle Problem schon. Jede Einrichtung, die auf retrospektiven Akten aufbaut — die deutschen Tumorregister eingeschlossen, bei aller rechtlichen Verankerung —, erbt dieselbe Lücke zwischen dem, was eine behandelnde Person in einen Befund schrieb, und dem, was ein strukturiertes Feld tatsächlich enthält. Die unglamouröse Arbeit, die Stadienspalte richtig zu bekommen, ist keine Vorbereitung auf die Analyse. Nach dieser Evidenz ist sie der größte Teil der Analyse.

Quelle: Park N, Na K, Sunwoo W, Baek JH, Lee Y, Lee S, Woo H. Process for Quality Management of Electronic Medical Records-Based Data: Case Study Using Real Colorectal Cancer Data. JMIR Medical Informatics 2025;13:e73884. Eine retrospektive Fallstudie an einem einzigen Zentrum; ihre Endpunkte sind Datenvollständigkeit und eine Modellkennzahl, nicht der klinische Verlauf der Patient:innen, und nach dem Prozess fehlt noch immer mehr als ein Drittel der Stadienwerte.

#Journal Club#Datenqualität#Klinische KI#Reale Versorgungsdaten#Onkologie

Weiterlesen

Editorial-Collage: eine erschöpfte Assistenzärztin am Arbeitsplatz blickt an einem Teal-Warnfenster vorbei, dahinter eine sich verlierende Halbton-Reihe identischer grauer Hinweise und ein einzelner Amber-Akzent.

Alarmmüdigkeit ist ein Kontinuum, kein Schalter: eine genaue Lektüre

Zwanzig Assistenzärzt:innen beschreiben, wie klinische Warnhinweise aufhören, gelesen zu werden. Der nützliche Befund ist nicht, dass sie weggeklickt werden: Es ist, dass Müdigkeit ein bewegliches Gleichgewicht aus Kultur und Gestaltung ist, kein fester Wesenszug.

Dr. Sven JungmannCEO
Editorial-Collage: eine übermüdete Person bei Nacht, beleuchtet vom blauen Schein eines Smartphones, eine unruhige Tealtinie als Blickbewegung über einem Navy-Rechteck, darunter angedeutete leere Tagebuchfelder und ein einzelner Amber-Punkt in einem Feld.

Das Schlaftagebuch, das gegen das übermüdete Gehirn arbeitet

Eine Eye-Tracking-Pilotstudie benennt ein unangenehmes Problem: Wer ein präzises Schlaftagebuch führen soll, ist die Person, deren Aufmerksamkeit der schlechte Schlaf bereits geschwächt hat. Die Oberfläche ist nicht neutral — doch gemessen wurde Belastung, nicht Wirkung.

Dr. Sven JungmannCEO
DKI-Konjunkturbarometer Q1/2026: Geschäftsklima-Saldo -63 — und die zweite Ebene der Krise sitzt in der Personal-Substanz.
Medizinisches Controlling

DKI-Konjunkturbarometer Q1/2026: Saldo -63 und die zweite Schicht der Krise

Das erste DKI-Konjunkturbarometer misst für die Krankenhäuser einen Geschäftsklima-Saldo von -63 — dramatisch unter jedem ifo-Wirtschaftszweig. Die Zahl ist real, aber sie ist nur eine Schicht. Die zweite — Belastung, Berufsausstieg, Vakanzdauer — entscheidet die nächste Reform.

Dr. Sven JungmannCEO

Diese Analyse stammt von den Leuten hinter Visite.

Unser wöchentlicher Newsletter zu KI in der Medizin. Jeden Freitag, gründlich geprüft.

Mit der Anmeldung stimmen Sie dem Erhalt von Visite per E-Mail zu. Abmeldung jederzeit. Mehr in unserer Datenschutzerklärung.

Sie möchten das in Ihrer Klinik sehen?

30 Minuten. Ihre Fragen. Unser Arzt-Gründer zeigt Ihnen die Plattform persönlich.

Termin vereinbaren

Unverbindlich. Kein Vertrieb. Arzt zu Arzt.