Zum Hauptinhalt springen
Datenqualität7 Min. Lesezeit

Vier Dimensionen klinischer Datenqualität — und wo KI-Anbieter sie verfehlen

Klinische Datenqualität in der Klinik-KI hat seit Wang & Strong (1996) und der Norm ISO 8000 eine vierachsige Struktur — und Anbieter-Folien weisen in der Regel nur zwei davon aus. Der Beitrag entwickelt für jede Achse eine Bewertungs-Frage, die in der nächsten Demo gehört.

Dr. Sven Jungmann

Dr. Sven Jungmann

CEO

Eine Klinik-KI-Bewertung, die nur Genauigkeit und Aktualität misst, prüft die Hälfte der relevanten Datenqualitäts-Achsen — Konsistenz und Vollständigkeit bleiben unbelegt.

Eine Anbieter-Folie behauptet 98 Prozent Genauigkeit. Eine zweite behauptet Echtzeit-Verarbeitung. Beide Zahlen können stimmen, und der Datenqualitäts-Anspruch des Klinik-KI-Systems kann trotzdem nicht eingelöst sein. Klinische Datenqualität trägt vier Achsen: Konsistenz, Vollständigkeit, Genauigkeit, Aktualität. Die ersten beiden werden in den meisten Anbieter-Demos nicht systematisch gemessen — und die anderen zwei oft nur an einer Schwelle, die das klinisch entscheidende Verhalten nicht abdeckt. Das ist keine Marketing-Kritik. Es ist eine methodische Lücke, die in der Beschaffung und im klinischen Betrieb teurer wird, je länger sie ignoriert bleibt.

Die Vier-Achsen-Definition ist nicht neu. Wang und Strong (1996) zeigten in einer Industrie-Studie an Datenkonsument:innen, dass Genauigkeit allein das Konzept nicht trägt — Datenqualität ist mehrdimensional und kontextabhängig. Die Originalstudie war an US-Datenkonsument:innen aus Banken, Telekommunikation und Fertigung erhoben, nicht klinisch; die klinische Übertragung erfolgte später. Kahn et al. (2016) haben den Rahmen zwanzig Jahre nach Wang und Strong für klinische Sekundärdaten harmonisiert; ihre Arbeit im Open-Access-Journal eGEMS ist heute die meistzitierte Referenz für klinische Datenqualitäts-Bewertung. Die internationale Norm ISO 8000 formalisiert die Achsen institutionell und macht eine Erwartung explizit, die in Demos häufig untergeht: Datenqualität wird gegen ein dokumentiertes Erwartungs-Schema gemessen, nicht intuitiv beurteilt. Der Vier-Achsen-Rahmen ist also kein editorialer Vorschlag. Er ist seit drei Jahrzehnten methodischer Konsens — und genau seine schematische Disziplin ist die Stelle, an der viele Anbieter-Bewertungen aussteigen.

Konsistenz und Vollständigkeit: die unterprüften Achsen

Konsistenz ist die Frage, ob derselbe Sachverhalt über mehrere Quellen und über die Zeit hinweg gleich abgebildet wird. In der klinischen Aufnahme heißt das konkret: Ein Vorbefund einer ambulanten Praxis dokumentiert „Hypertonie, Beginn 2019“. Ein Akut-Bericht dokumentiert „ACE-Hemmer-Therapie seit 2021“. Eine konsistenz-blinde Synthese kann aus beiden Quell-Aussagen die Aussage „Hypertonie seit 2019, ACE-Hemmer-Therapie seit 2019“ formulieren. Die zeitliche Verknüpfung steht in keiner der beiden Quellen — sie ist eine inferierte Synthese. In einem früheren Beitrag (Wie aus zwei richtigen Befunden eine erfundene Diagnose wird) haben wir diese Klasse als Aggregations-Halluzination beschrieben: quellengetreue Einzel-Aussagen verschmelzen zu einer synthetischen Aussage, die in keiner Einzel-Quelle steht. Sie ist die strukturell gefährlichste Klasse, weil sie sich nicht als Erfindung tarnt, sondern als plausibel klingende Verdichtung.

Anbieter messen Genauigkeit häufig mit token-basierten Metriken aus der computerlinguistischen Forschung — F1, BLEU, ROUGE — gegen einen Referenz-Text. Diese Metriken vergleichen die Synthese mit einer Quelle, nicht die Synthese mit der Konsistenz über mehrere Quellen. Ein System kann jede Einzel-Aussage perfekt aus ihrer Quelle extrahieren — F1 nahe 1,0 — und trotzdem an der Aggregations-Achse versagen. Reviews 2024–2026 in npj Digital Medicine berichten konvergent, dass die Konsistenz-Achse die strukturell schwächste Stelle klinischer LLM-Anwendungen (Large Language Models) ist. Aggregations-Halluzinationen, Zeitlinien-Glättungen und Diagnose-Schwellen-Kompressionen sind drei Sub-Klassen, die in der Konsistenz-Achse zusammenlaufen — alle drei sind in F1- oder ROUGE-Metriken unsichtbar, weil sie keine Token-Abweichungen produzieren, sondern Verbindungs-Fehler zwischen Tokens. Eine Konsistenz-Bewertung müsste eine andere Frage stellen: Ist die Synthese gegen den Quellen-Korpus widerspruchsfrei? Sind alle in der Synthese implizierten Verknüpfungen — zeitlich, kausal, additiv — durch mindestens eine Einzelquelle gestützt? Die Reviews aggregieren Studien unterschiedlicher Methodik; die genauen Detektion-Raten variieren. Konvergenz besteht aber in der Klassifikation der Fehler-Modi.

Klinische Datenqualität KI braucht Konsistenzprüfung über Quellen — Genauigkeit pro Einzel-Aussage trägt die Aggregations-Achse nicht.
Zwei richtige Quellen, eine inferierte Synthese — die Stelle, an der die Konsistenz-Achse trägt oder bricht.·aiomics

Vollständigkeit ist nicht „alle Sektionen ausgefüllt“. Vollständigkeit ist „alle klinisch erwarteten Felder gegen ein indikationsabhängiges Schema vorhanden“. Eine kardiologische Anschlussheilbehandlung (AHB) erwartet andere Strukturen als eine orthopädische AHB — die OP-Daten, die postoperative Komplikations-Erfassung, die Belastungs-Limits sind im einen Fall führend, im anderen Fall sekundär. Eine neurologische AHB führt wieder andere Items: Phase-Zuordnung, Funktionsfähigkeits-Profil nach der Internationalen Klassifikation der Funktionsfähigkeit (ICF), kognitive Einschätzung. In der Kardiologie wiederum hängen die Vollständigkeits-Erwartungen am vorigen Eingriff: nach einer Bypass-Operation sind Pump-Funktion, Rhythmus-Status und Belastungs-Schwelle die strukturell führenden Felder; nach einer Klappen-Intervention ändern sich die Schwerpunkte erneut. Vollständigkeit als „X von Y Feldern ausgefüllt“ zu definieren, ohne X gegen einen indikationsabhängigen Erwartungs-Korpus zu setzen, misst eine Quote, die mit klinischer Substanz wenig zu tun hat. Wang und Strong betonten 1996 die Kontext-Spezifität dieser Achse: Daten sind vollständig in Bezug auf eine Aufgabe, nicht abstrakt vollständig.

Das EviDoc-Programm der Charité untersucht in akademischer Begleitforschung genau diese Frage — strukturelle Vollständigkeit klinischer Aufnahme-Dokumentation gegen ein indikationsabhängiges Erwartungs-Schema. Die methodische Disziplin des Programms ist nicht die pauschale Vollständigkeits-Quote, sondern die schemabasierte Lesung: was wäre für diese Indikation zu erwarten, was steht da, was fehlt. Das EviDoc-Programm ist eine akademische Einzelinitiative; die Befunde sind methodisch belastbar, aber nicht als kommerzielle Produkt-Empirie übertragbar. Aus einer solchen schemabasierten Lesung wird eine andere Aussage möglich als aus einer Quoten-Zahl: nicht „98 Prozent der Felder sind ausgefüllt“, sondern „die postoperative Komplikations-Erfassung fehlt — und das KI-System markiert die Lücke nicht“. Diese zweite Aussage ist klinisch handlungsrelevant; die erste ist eine Tabelle ohne Adressat. Anbieter, die in einer Demo „98 Prozent Vollständigkeits-Quote“ zeigen, ohne offenzulegen, gegen welches Schema sie messen, beantworten die strukturell wichtige Frage nicht — und ein System, das eine Lücke nicht markieren kann, ist auf der Vollständigkeits-Achse nicht prüfbar.

Genauigkeit und Aktualität: gemessen, oft oberflächlich

Die Genauigkeits-Achse ist die meistgemessene — und sie ist die, an der die Tiefe der Messung am häufigsten zurückbleibt. F1, BLEU und ROUGE prüfen, ob extrahierte Tokens mit der Quelle übereinstimmen. Sie prüfen nicht, ob ein Wort, das gleich aussieht, klinisch dasselbe bedeutet. „Vorhofflimmern paroxysmal“ und „Vorhofflimmern persistierend“ sind in einer F1-Bewertung beinahe identische Treffer — klinisch sind es zwei unterschiedliche Krankheits-Verläufe mit unterschiedlichen Therapie-Konsequenzen. „2 Milligramm“ und „20 Milligramm“ sind in einer ROUGE-Bewertung ein Token-Unterschied — klinisch eine Dosis-Differenz, die ein Patientensicherheits-Komitee zu Recht aufwecken würde. Eine klinisch gewichtete Genauigkeits-Schwelle behandelt das Problem strukturell: Token-Abweichungen werden nach klinischer Konsequenz gewichtet, nicht nach orthografischer Distanz. Eine vertauschte Lateralität, eine vertauschte Dosis-Stelle, eine Verwechslung „akut“ und „chronisch“ wiegen anders als ein Synonym oder ein Tippfehler. In klinischen Evaluationen ist diese Gewichtung Stand der Forschung; in Anbieter-Demos taucht sie selten auf. Anbieter, die ihre Genauigkeits-Zahl ohne Schweregrad-Gewichtung berichten, berichten eine Zahl, die das klinische Risiko-Profil nicht abbildet — und eine Zahl, die das Risiko-Profil nicht abbildet, ist als Beschaffungs-Argument unzureichend.

Klinische Datenqualität KI verlangt klinisch gewichtete Genauigkeit — Token-Übereinstimmung allein bildet das Risiko-Profil der Aufnahme-Doku nicht ab.
F1 erkennt nicht, ob zwei Wörter klinisch dasselbe bedeuten. Die Genauigkeits-Achse braucht eine klinische Schweregrad-Gewichtung.·aiomics

Aktualität ist die Frage, ob die Daten den aktuellen Zustand reflektieren, wenn sie in eine klinische Entscheidung einfließen. In der Aufnahme-Doku heißt das konkret: Wurde die jüngste Version eines Vorbefunds aus der ambulanten Praxis bereits eingespielt, oder arbeitet das System mit einer Version von vor drei Monaten? Ein Vorbefund kann im Sechs-Monats-Stand „Hypertonie, gut eingestellt“ sagen und im jüngsten Stand „neu aufgetretene Rhythmusstörungen“ — und eine Synthese, die nur die ältere Version sieht, ist nicht falsch im Sinne der Genauigkeit. Sie ist veraltet im Sinne der Aktualität. Klinisch ist das ein anderes Risiko-Profil als ein Halluzinations-Fehler — die Synthese ist quellengetreu, aber gegen die falsche Quelle. Der Anbieter-Pattern auf dieser Achse ist die Aussage „Echtzeit-Verarbeitung“ ohne Versions-Disziplin pro Quelle. Echtzeit-Verarbeitung beantwortet die Frage, wie schnell Daten verarbeitet werden, nachdem sie eingespielt wurden — nicht, wie schnell die Quelle ihre Daten einspielt. Eine Bewertung, die diese Übermittlungs-Strecke nicht im Vollständigkeits-Test mitführt, kann Aktualität nicht zusichern, sondern nur die Geschwindigkeit der eigenen Verarbeitung.

Eine Klinik-KI-Demo, die alle vier Datenqualitäts-Achsen ausweist, ist heute die Ausnahme — und genau die richtige Mindestmenge für die Aufnahme-Doku.
Vollständige Datenqualitäts-Demos weisen alle vier Achsen aus — die meisten weisen zwei aus.·aiomics

Was sich leicht messen lässt, ist nicht automatisch das Wichtige. Klinische Datenqualität ist mehr als die Genauigkeits-Zahl auf der Anbieter-Folie. Konsistenz, Vollständigkeit, Genauigkeit, Aktualität — die Achsen sind seit drei Jahrzehnten beschrieben; die Übersetzung in eine klinische Aufnahme-Architektur ist die heutige Aufgabe. Die methodische Disziplin der vier Achsen verschiebt das Bewertungsgespräch von einer Frage nach der Genauigkeits-Zahl hin zu einer Mindestmenge methodischer Prüf-Fragen, die jede Achse einzeln testen — und die in der Demo zu beantworten sind, nicht in einer späteren Begleitung. Eine Demo, die die Übersetzung schuldig bleibt, ist eine Demo, deren Datenqualitäts-Zusicherung nicht prüfbar ist — und nicht-prüfbare Zusicherungen sind in einer Aufnahme-Pipeline genau die Stelle, an der ein Fehler entsteht, den später keine Lesung mehr findet.

#Datenqualität#Klinik-KI#Aufnahmedokumentation#Konsistenzprüfung#Datenqualitäts-Dimensionen#Klinik-LLM

Aiomics baut Architektur entlang dieses Vier-Achsen-Rahmens. Der Beitrag beschreibt allgemeine methodische Prinzipien aus der peer-reviewed Literatur und der ISO-8000-Norm. Er gibt keine Empirie zu konkreten Anbietern oder Produkten und keine Rechtsauslegung zu Medizinprodukte-Klassifikation oder Aufsichts-Anforderungen.

Weiterlesen

Pflegedienstleitung im Reha-Haus prüft die Akut-Übermittlungen vor der Aufnahme — Pflegeüberleitung, Kontinenz- und Mobilitäts-Profil, Wundbeschreibung als drei strukturell unterscheidbare Doku-Klassen im Akut-Reha-Übergang Pflege.
Aufnahmemanagement

Akut-Reha-Übergang in 48 Stunden: Die Pflege-Sicht auf das Tempo

Was am 3. Tag nach Akut-Anfrage auf die Reha-Station kommt, hat die Pflege schon 2 Tage vorher entschieden — in der Form, in der die Akut-Klinik die Pflegeüberleitung verfasst hat. 3 strukturelle Lücken entscheiden, ob die ersten 24 Stunden Pflege-Arbeit oder Such-Arbeit sind.

Dr. Sven JungmannCEO
Konservative ROI-Modellierung Klinik-KI-Investition: Aufsichtsrats-Vorlage mit drei expliziten Annahmen statt aggregierter Anbieter-Pitch-Faktoren.
Ökonomie

Wie eine konservative ROI-Modellierung für eine Klinik-KI-Investition aussieht

Aufsichtsräte verlangen bei Investitionen eine gute ROI-Rechnung & stoßen in Angeboten auf Faktoren, die zu viele Effekte zu einem optimistischen Endwert aggregieren. Eine gute Modellierung trennt zwischen harten & weichen Effekten und dokumentiert wenige Annahmen klar.

Dr. Sven JungmannCEO

Sie möchten das in Ihrer Klinik sehen?

30 Minuten. Ihre Fragen. Unser Arzt-Gründer zeigt Ihnen die Plattform persönlich.

Termin vereinbaren

Unverbindlich. Kein Vertrieb. Arzt zu Arzt.