Datenqualität21. März 20268 Min. Lesezeit

Widerspruchserkennung als Sicherheitsfunktion in der klinischen KI

Wenn zwei Quellen einer Aufnahme-Doku widersprüchliche Aussagen machen — Penicillin-Allergie ja oder nein, Diabetes Typ 2 ja oder nein —, ist die richtige KI-Antwort keine glatte Synthese. Sie ist eine sichtbare Markierung des Widerspruchs.

Dr. Sven Jungmann

CEO

Widerspruchserkennung klinische KI an der Aufnahme — eine Reha-Chefärztin liest am Aufnahme-Tag eine Vorbefund-Synopse, in der drei Quellen widersprüchliche Aussagen zur Penicillin-Allergie machen, und entscheidet anhand der sichtbaren Markierung, nicht anhand einer glatten Synthese.

Eine Reha-Chefärztin liest am Aufnahme-Tag eine KI-vorbereitete Vorbefund-Synopse. Drei Quellen sind eingegangen — der Arzt-Brief der Akut-Klinik, ein Hausarzt-Schreiben, eine Patientinnen-Selbstauskunft. In zweien der drei Quellen steht „keine bekannte Penicillin-Allergie“. Die dritte Quelle dokumentiert „bekannte Penicillin-Allergie, makulopapulöses Exanthem 2019“. Die KI hätte aus diesen Quellen einen einzigen, glatten Satz formen können: „mögliche Penicillin-Allergie, anamnestisch unklar“. Das hat sie nicht getan. Stattdessen markiert die Synopse drei Zeilen explizit als Widerspruch — Quelle 1 verneint, Quelle 2 verneint, Quelle 3 bestätigt mit Symptom-Beschreibung — und stoppt die Verdichtung an genau dieser Stelle. Die Chefärztin braucht für die Klärung sieben Minuten und einen Anruf. Sie hatte sie auch zu führen. Was sie nicht getan hätte, wäre die glatte Synthese gewesen — sie liest nach Klärung, ohne dass etwas geklärt ist.

Eine eigene Klasse von KI-Fehler

Die computerlinguistische Forschung kennt diese Klasse von Fehler seit den Halluzinations-Taxonomien der späten zwanzigsten Generation an Sprachmodellen. Maynez und Kolleg:innen (2020) unterscheiden in der Association for Computational Linguistics intrinsische Halluzinationen — Aussagen, die der Quelle widersprechen — von extrinsischen — Aussagen, die jenseits dessen liegen, was die Quelle bestätigt oder ausschließt. Beide klingen flüssig. Eine spätere Taxonomie von Ji und Kolleg:innen (2023) in den ACM Computing Surveys ergänzt die Konsistenz-Verletzung zwischen Quellen als eigenständige Achse: zwei oder mehr Eingabe-Quellen tragen widersprüchliche Aussagen, das Modell muss entscheiden, was an die Ausgabe weitergereicht wird. Drei Optionen sind verfügbar. Erstens: Es bildet eine Synthese, die beide Aussagen sprachlich nivelliert — die häufigste Wahl heutiger Sprachmodelle, weil ihr Optimierungs-Ziel Sprachflüssigkeit ist, nicht Konflikt-Sichtbarkeit. Zweitens: Es wählt eine der beiden Quellen, ohne die Wahl zu deklarieren — ebenfalls problematisch, weil die Information über die andere Quelle aus dem Ergebnis verschwindet. Drittens: Es markiert den Widerspruch sichtbar und stoppt die Verdichtung an dieser Stelle. Nur die dritte Option ist eine Sicherheitsfunktion. Die spezifische klinische Variante dieses Mechanismus — zwei quellengetreue Befunde, die sprachlich zu einer dritten, in den Quellen nicht vorhandenen Aussage zusammengezogen werden — beschreibt der Beitrag „Wie aus zwei richtigen Befunden eine erfundene Diagnose wird“ unter dem Stichwort der Halluzinations-Maskierung. Widerspruchserkennung ist die strukturelle Antwort auf die Stelle, an der die Halluzinations-Maskierung am häufigsten greift.

Häufiger Denkfehler: „Eine glatte Synthese ist hilfreich“

Die Plausibilitäts-Falle in der KI-vorbereiteten Vorbefund-Synopse ist nicht die offene Falsch-Aussage, sondern die ärztlich vertretbar klingende Synthese, die einen Widerspruch zwischen Quellen versteckt. „Mögliche Penicillin-Allergie, anamnestisch unklar“ liest sich wie eine Klärung; tatsächlich ist es eine Verschiebung der Klärungs-Last in den ärztlichen Lese-Schritt, der in der typischen Aufnahme-Geschwindigkeit nicht aufgerufen wird. Die richtige KI-Antwort an dieser Stelle ist keine bessere Formulierung, sondern eine andere Art von Antwort: eine sichtbare Auflistung der widersprüchlichen Quellen, eine kurze Markierung der Widerspruchs-Klasse — Allergie-Konflikt, Diagnose-Konflikt, Funktions-Befund-Konflikt — und der Verzicht auf jede Verdichtung an dieser Stelle. Das Werkzeug verzichtet auf Glätte, damit die ärztliche Aufmerksamkeit ihren Weg in die Klärung findet.

Drei Aufnahme-Widerspruchs-Klassen mit besonderer klinischer Relevanz

Erstens — der Pharma-Konflikt. Drei Sub-Klassen: Allergie-Konflikt (eine Quelle dokumentiert eine Penicillin-Allergie, die andere verneint sie), Wechselwirkungs-Konflikt (zwei Quellen tragen unterschiedliche Daueraneinahmen, deren Kombination eine kritische Interaktion erzeugen würde), Dosis-Konflikt (Aufnahme-Brief dokumentiert eine andere Dosierung als die Hausarzt-Verordnung). Bates und Kolleg:innen haben in einer Reihe von Beiträgen seit 1997 in JAMA und Health Affairs gezeigt, dass medication errors — und Pharma-Konflikte sind ihre häufigste Vorform — die best-dokumentierte Klasse von Patientensicherheits-Fehlern in Krankenhäusern sind. Reconciliation als organisatorischer Prozess ist die etablierte Antwort. Die deutsche Verortung dieser Strategie liegt im Aktionsplan zur Verbesserung der Arzneimitteltherapie-Sicherheit (AMTS) des Bundesministeriums für Gesundheit (BMG); das Aktionsbündnis Patientensicherheit (APS) formuliert die Handlungs-Empfehlungen für Allergie- und Wechselwirkungs-Konflikt-Detektion an der Aufnahme. Beide Bezugs-Texte empfehlen den expliziten Medikations-Abgleich an Schnittstellen; sie verbinden ihn nicht im Sinne einer einzelnen einklagbaren Vorgabe, sondern als Standard guter klinischer Praxis. Eine KI-vorbereitete Vorbefund-Synopse, die einen Pharma-Konflikt sprachlich glättet, statt ihn zu markieren, arbeitet gegen diese Strategie.

Allergie, Wechselwirkung und Dosis sind die drei Sub-Klassen mit klinischen Folgen; die sichtbare Markierung statt einer glatten Synthese trägt die Sicherheitsfunktion. — Der Pharma-Konflikt ist die best-dokumentierte Widerspruchs-Klasse mit klinischen Folgen — Reconciliation an der Schnittstelle ist die etablierte Antwort.·aiomics

Zweitens — der Diagnose-Konflikt. Klassischer Aufnahme-Mechanismus: Die Akut-Klinik dokumentiert eine Diabetes-mellitus-Typ-2-Hauptdiagnose; das Hausarzt-Schreiben benennt die gleiche Person als Diabetes-mellitus-Typ-1-Patientin; die Patientinnen-Selbstauskunft ist konsistent mit dem Hausarzt. Drei Quellen, zwei verschiedene Diagnose-Aussagen — und in den allermeisten Fällen reicht eine Auflösung des Konflikts den klinischen Verlauf nicht ein, sondern entscheidet ihn. Die Insulin-Indikation, die Schulungs-Bedarfs-Bewertung, die Therapie-Hierarchie hängen daran. Eine KI-Synthese der Form „Diabetes mellitus, Typ unklar“ produziert eine Aussage, die sich liest, als wäre sie ein Befund, und die zugleich keinen der beiden Befunde trägt. Die korrekte Operations-Form ist hier dieselbe wie beim Pharma-Konflikt: explizite Markierung der widersprüchlichen Quellen, kein Sprach-Mittelweg. Die Klärung gehört in das Aufnahme-Gespräch, in den Anruf bei der Akut-Klinik, in die Sichtung der Insulin-Verordnung — nicht in eine sprachlich verdichtete Synopse.

Drittens — der Funktions-Befund-Konflikt. In der Reha besonders folgenreich: Der Akut-Brief beschreibt eine Mobilität von „rollstuhl-pflichtig“; das Pflege-Übergabe-Protokoll trägt „selbstständig im Stand transferiert“; die Patientin selbst sagt, sie habe in der letzten Akut-Phase Treppensteigen geübt. Drei Aussagen, drei verschiedene Funktions-Schwellen. Eine KI-Synthese, die hier den Mittelwert in eine Formulierung wie „eingeschränkte Mobilität“ presst, hat den Aufnahme-Phase-Zuordnungs-Schritt strukturell beschädigt: Die Phase-Zuordnung in der neurologischen oder geriatrischen Reha hängt an genau dieser Detail-Lage. Die korrekte Operations-Form ist auch hier die sichtbare Auflistung der widersprüchlichen Funktions-Befunde, ergänzt um den Hinweis, dass die Klärung im Erst-Befund am Aufnahme-Tag liegt. Die drei Klassen — Pharma, Diagnose, Funktions-Befund — sind keine Synonyme; sie haben eigene klinische Logiken, eigene Klärungs-Wege, eigene Verlaufs-Folgen. Eine ernstgemeinte Architektur behandelt sie als eigenständige Konflikt-Typen.

Zwei Architektur-Anforderungen, die Widerspruchserkennung tragen

Die erste Anforderung lautet: Markierung statt Synthese im Konflikt-Fall. Das Modell wird nicht primär darauf optimiert, einen einzigen flüssigen Satz aus widersprüchlichen Quellen zu formen, sondern darauf, den Widerspruch zu erkennen und in eine andere Ergebnis-Form zu überführen. Operativ heißt das: Die deklarative Konflikt-Klasse aus dem oben genannten Klassen-Inventar wird erkannt; die widersprüchlichen Quellen werden mit Quellen-Marker und kurzem Originalzitat aufgelistet; an der Stelle der sonst entstehenden Synthese steht ein expliziter Markierungs-Block, kein Mittelweg-Satz. Die Konflikt-Sichtbarkeit ist auf der Ergebnis-Ebene gegen die Sprachflüssigkeits-Optimierung geschützt — sie wird nicht von einem höher temperierten Lauf des Modells weggebügelt. Der Anbieter-Test dazu lautet: Was passiert in der Demo, wenn das System mit drei Quellen konfrontiert wird, von denen zwei eine Penicillin-Allergie verneinen und eine sie bestätigt? Eine glatte Synthese ist eine architekturale Aussage; eine sichtbare Markierung ist eine andere.

Die zweite Anforderung lautet: Provenienz-Bewahrung pro Aussage. Konflikt-Detektion zwischen Quellen ist nur dann strukturell tragfähig, wenn die Architektur jede Aussage in der Synopse auf den konkreten Quellen-Span zurückführen kann, aus dem sie stammt. Eine Architektur, die Quellen-Texte vor der Generierung in eine sprachliche Verdichtung mischt und keine separate Quellen-Spur pro Aussage hält, kann den Konflikt strukturell nicht sehen. Die Schablone dafür liefert die Retrieval-Augmented-Generation-Architektur, die Lewis und Kolleg:innen (2020) in NeurIPS vorgelegt haben — Quellen-bindendes Generieren mit retrievalbarem Kontext. Sie ist die Voraussetzung; die Konflikt-Detektion ist eine zusätzliche Stufe darauf. Eine ausführliche Behandlung der Aussage-Ebene und der Quellen-Granularität liefert der Beitrag „Provenienz-Nachverfolgung: Warum jede klinische Aussage eine Quelle braucht“. Wer in der Anbieter-Diskussion auf eine Konflikt-Markierungs-Logik hofft, ohne die Provenienz-Bewahrung pro Aussage zu prüfen, hat den unteren Stapel der Architektur übersehen.

Widerspruchserkennung klinische KI mit zwei Architektur-Anforderungen — Markierung statt Synthese im Konflikt-Fall plus Provenienz-Bewahrung pro Aussage als untere Schicht. — Die Konflikt-Markierung ist die obere Stufe; die Provenienz-Bewahrung pro Aussage ist die Voraussetzung darunter.·aiomics

Was die Empirie über die Lücke sagt

Klinisch ist die Folgen-Lage gut beschrieben. Singh und Kolleg:innen (2017) ordnen in BMJ Quality & Safety einen Anteil der Diagnose-Fehler im ambulanten Bereich der unzureichenden Reconciliation widersprüchlicher Befund-Quellen zu — die Studie aggregiert internationale Daten, das deutsche System ist nicht im Schwerpunkt, der mechanistische Punkt überträgt sich. Architektonisch ist die Forschungs-Linie konvergent. Beiträge in npj Digital Medicine (2024–2026) behandeln Konsistenz-Detektion in Klinik-LLMs als eigenständige Architektur-Forderung, die nicht durch ein größeres Modell, sondern durch eine quellen-bewahrende Pipeline erfüllt wird. Beiträge im Journal of the American Medical Informatics Association (JAMIA) 2023–2026 dokumentieren die Heterogenität von Konflikten zwischen elektronischen Patientenakte-Datenquellen und die Lücke zwischen akademisch konvergent benannter Lösung und operativ heterogen umgesetzter Praxis; die Studien sind überwiegend in US-Klinik-Settings erhoben, das Pattern ist methodisch unabhängig vom Versorgungs-Kontext. Editoriale Beiträge in Lancet Digital Health 2023–2026 ordnen die Konsistenz-Validierung als eigene Achse der Klinik-LLM-Validierung ein — neben Genauigkeit, Bias-Prüfung und Robustheit. Eine quantitative Häufigkeits-Aussage „X Prozent der deutschen Reha-Aufnahmen enthalten widersprüchliche Aussagen“ liegt in der publizierten Empirie nicht vor; der strukturelle Fall steht unabhängig davon.

Was das für Sie heißt

Drei Fragen lassen sich in der nächsten Anbieter-Diskussion vor der Vertrags-Unterschrift mechanisch prüfen. Erstens — die Live-Demo am Konflikt-Fall: Liefert das System aus drei einander widersprechenden Quellen-Aussagen einen geglätteten Mittelweg-Satz oder eine sichtbare Auflistung mit Konflikt-Markierung? Die Antwort entscheidet, ob die Aufnahme-Lese-Schicht im Sicherheits-Modus arbeitet oder im Verdichtungs-Modus. Zweitens — die Provenienz-Granularität: Lässt sich für jede einzelne Aussage in der Synopse der konkrete Quellen-Span anzeigen, aus dem sie stammt — oder beschränkt sich das System auf eine Quellen-Liste am Anfang, ohne die Aussage-Ebene zu binden? Drittens — die Konflikt-Klassen-Differenzierung: Behandelt das System Pharma-, Diagnose- und Funktions-Befund-Konflikte mit eigenen Erkennungs-Pfaden — oder verschwinden sie alle in einer einzigen unspezifischen Hedging-Klasse, die in der Aufnahme-Lese-Geschwindigkeit nicht aufgerufen wird? Wer alle drei Antworten schriftlich in der Beschaffungs-Phase eingeholt hat, hat eine prüfbare Architektur. Wer sie auf die Implementierungs-Phase vertagt, hat sie in den meisten Fällen verloren.

Widerspruchserkennung klinische KI nach dem Aufnahme-Tag — die Vorbefund-Synopse mit sichtbaren Markierungen liegt offen, drei Quellen sind erkennbar getrennt, die ärztliche Klärung ist erfolgt. — Die Konflikt-Markierung ist nur dann sichtbar geblieben, wenn die Architektur sie nicht in einem späteren Schritt geglättet hat.·aiomics

Eine glatte Synthese aus widersprüchlichen Quellen ist nicht das Erfolgs-Signal eines klinischen Sprachmodells. Sie ist die Stelle, an der die Sicherheits-Funktion strukturell ausgehebelt wird. Was die Reha-Chefärztin am Aufnahme-Tag braucht, ist nicht der schönste Satz aus drei Quellen — sondern die ehrliche Markierung der Stelle, an der die drei Quellen einander widersprechen. Wer das in der Architektur trägt, baut ein Werkzeug, das in der Aufnahme-Geschwindigkeit auf der Seite der Patient:innen-Sicherheit steht. Wer es weg-formuliert, baut eines, das so liest, als hätte es geholfen.

#Widerspruchserkennung Klinik-KI#Konsistenzprüfung Aufnahme#Datenqualität#Patientensicherheit#AMTS#Klinik-LLM#RAG

Der Beitrag beschreibt eine Klasse von Klinik-KI-Architektur-Anforderungen für die Aufnahme-Doku und stützt sich auf die peer-reviewed Halluzinations-Forschung sowie auf die deutsche Patientensicherheits-Strategie zur Arzneimitteltherapie-Sicherheit (AMTS). Aiomics betreibt eine Klinik-Doku-Architektur mit Provenienz-Nachverfolgung pro Aussage und mit einem expliziten Konflikt-Detektor; konkrete Häufigkeits-Aussagen zu Aufnahme-Widersprüchen werden nicht gemacht. Der Beitrag gibt keine Rechtsauslegung zu Patientensicherheits-Pflichten; die konkrete Bewertung im Einzelfall verlangt die ärztliche Leitung, die Klinik-IT-Leitung und die Datenschutz-Beauftragten der Einrichtung.

Widerspruchserkennung als Sicherheitsfunktion in der klinischen KI

Eine eigene Klasse von KI-Fehler

Drei Aufnahme-Widerspruchs-Klassen mit besonderer klinischer Relevanz

Zwei Architektur-Anforderungen, die Widerspruchserkennung tragen

Was die Empirie über die Lücke sagt

Weiterlesen

Souveränität ist nicht Ausfallsicherheit: Was die Angriffe auf die Cloud wirklich zeigen

Kein einziger Faktenfehler — und dann kam die fünfte Gesprächsrunde

Ein mRNA-Modell für 165 Dollar: Was ein Hugging-Face-Beitrag zeigt und was nicht

Diese Analyse stammt von den Leuten hinter Visite.

Sie möchten das in Ihrer Klinik sehen?