Widerspruchserkennung als Sicherheitsfunktion in der klinischen KI
Wenn zwei Quellen einer Aufnahme-Doku widersprüchliche Aussagen machen — Penicillin-Allergie ja oder nein, Diabetes Typ 2 ja oder nein —, ist die richtige KI-Antwort keine glatte Synthese. Sie ist eine sichtbare Markierung des Widerspruchs.

Dr. Sven Jungmann
CEO

Eine Reha-Chefärztin liest am Aufnahme-Tag eine KI-vorbereitete Vorbefund-Synopse. Drei Quellen sind eingegangen — der Arzt-Brief der Akut-Klinik, ein Hausarzt-Schreiben, eine Patientinnen-Selbstauskunft. In zweien der drei Quellen steht „keine bekannte Penicillin-Allergie“. Die dritte Quelle dokumentiert „bekannte Penicillin-Allergie, makulopapulöses Exanthem 2019“. Die KI hätte aus diesen Quellen einen einzigen, glatten Satz formen können: „mögliche Penicillin-Allergie, anamnestisch unklar“. Das hat sie nicht getan. Stattdessen markiert die Synopse drei Zeilen explizit als Widerspruch — Quelle 1 verneint, Quelle 2 verneint, Quelle 3 bestätigt mit Symptom-Beschreibung — und stoppt die Verdichtung an genau dieser Stelle. Die Chefärztin braucht für die Klärung sieben Minuten und einen Anruf. Sie hatte sie auch zu führen. Was sie nicht getan hätte, wäre die glatte Synthese gewesen — sie liest nach Klärung, ohne dass etwas geklärt ist.
Eine eigene Klasse von KI-Fehler
Die computerlinguistische Forschung kennt diese Klasse von Fehler seit den Halluzinations-Taxonomien der späten zwanzigsten Generation an Sprachmodellen. Maynez und Kolleg:innen (2020) unterscheiden in der Association for Computational Linguistics intrinsische Halluzinationen — Aussagen, die der Quelle widersprechen — von extrinsischen — Aussagen, die jenseits dessen liegen, was die Quelle bestätigt oder ausschließt. Beide klingen flüssig. Eine spätere Taxonomie von Ji und Kolleg:innen (2023) in den ACM Computing Surveys ergänzt die Konsistenz-Verletzung zwischen Quellen als eigenständige Achse: zwei oder mehr Eingabe-Quellen tragen widersprüchliche Aussagen, das Modell muss entscheiden, was an die Ausgabe weitergereicht wird. Drei Optionen sind verfügbar. Erstens: Es bildet eine Synthese, die beide Aussagen sprachlich nivelliert — die häufigste Wahl heutiger Sprachmodelle, weil ihr Optimierungs-Ziel Sprachflüssigkeit ist, nicht Konflikt-Sichtbarkeit. Zweitens: Es wählt eine der beiden Quellen, ohne die Wahl zu deklarieren — ebenfalls problematisch, weil die Information über die andere Quelle aus dem Ergebnis verschwindet. Drittens: Es markiert den Widerspruch sichtbar und stoppt die Verdichtung an dieser Stelle. Nur die dritte Option ist eine Sicherheitsfunktion. Die spezifische klinische Variante dieses Mechanismus — zwei quellengetreue Befunde, die sprachlich zu einer dritten, in den Quellen nicht vorhandenen Aussage zusammengezogen werden — beschreibt der Beitrag „Wie aus zwei richtigen Befunden eine erfundene Diagnose wird“ unter dem Stichwort der Halluzinations-Maskierung. Widerspruchserkennung ist die strukturelle Antwort auf die Stelle, an der die Halluzinations-Maskierung am häufigsten greift.
Drei Aufnahme-Widerspruchs-Klassen mit besonderer klinischer Relevanz
Erstens — der Pharma-Konflikt. Drei Sub-Klassen: Allergie-Konflikt (eine Quelle dokumentiert eine Penicillin-Allergie, die andere verneint sie), Wechselwirkungs-Konflikt (zwei Quellen tragen unterschiedliche Daueraneinahmen, deren Kombination eine kritische Interaktion erzeugen würde), Dosis-Konflikt (Aufnahme-Brief dokumentiert eine andere Dosierung als die Hausarzt-Verordnung). Bates und Kolleg:innen haben in einer Reihe von Beiträgen seit 1997 in JAMA und Health Affairs gezeigt, dass medication errors — und Pharma-Konflikte sind ihre häufigste Vorform — die best-dokumentierte Klasse von Patientensicherheits-Fehlern in Krankenhäusern sind. Reconciliation als organisatorischer Prozess ist die etablierte Antwort. Die deutsche Verortung dieser Strategie liegt im Aktionsplan zur Verbesserung der Arzneimitteltherapie-Sicherheit (AMTS) des Bundesministeriums für Gesundheit (BMG); das Aktionsbündnis Patientensicherheit (APS) formuliert die Handlungs-Empfehlungen für Allergie- und Wechselwirkungs-Konflikt-Detektion an der Aufnahme. Beide Bezugs-Texte empfehlen den expliziten Medikations-Abgleich an Schnittstellen; sie verbinden ihn nicht im Sinne einer einzelnen einklagbaren Vorgabe, sondern als Standard guter klinischer Praxis. Eine KI-vorbereitete Vorbefund-Synopse, die einen Pharma-Konflikt sprachlich glättet, statt ihn zu markieren, arbeitet gegen diese Strategie.

Zweitens — der Diagnose-Konflikt. Klassischer Aufnahme-Mechanismus: Die Akut-Klinik dokumentiert eine Diabetes-mellitus-Typ-2-Hauptdiagnose; das Hausarzt-Schreiben benennt die gleiche Person als Diabetes-mellitus-Typ-1-Patientin; die Patientinnen-Selbstauskunft ist konsistent mit dem Hausarzt. Drei Quellen, zwei verschiedene Diagnose-Aussagen — und in den allermeisten Fällen reicht eine Auflösung des Konflikts den klinischen Verlauf nicht ein, sondern entscheidet ihn. Die Insulin-Indikation, die Schulungs-Bedarfs-Bewertung, die Therapie-Hierarchie hängen daran. Eine KI-Synthese der Form „Diabetes mellitus, Typ unklar“ produziert eine Aussage, die sich liest, als wäre sie ein Befund, und die zugleich keinen der beiden Befunde trägt. Die korrekte Operations-Form ist hier dieselbe wie beim Pharma-Konflikt: explizite Markierung der widersprüchlichen Quellen, kein Sprach-Mittelweg. Die Klärung gehört in das Aufnahme-Gespräch, in den Anruf bei der Akut-Klinik, in die Sichtung der Insulin-Verordnung — nicht in eine sprachlich verdichtete Synopse.
Drittens — der Funktions-Befund-Konflikt. In der Reha besonders folgenreich: Der Akut-Brief beschreibt eine Mobilität von „rollstuhl-pflichtig“; das Pflege-Übergabe-Protokoll trägt „selbstständig im Stand transferiert“; die Patientin selbst sagt, sie habe in der letzten Akut-Phase Treppensteigen geübt. Drei Aussagen, drei verschiedene Funktions-Schwellen. Eine KI-Synthese, die hier den Mittelwert in eine Formulierung wie „eingeschränkte Mobilität“ presst, hat den Aufnahme-Phase-Zuordnungs-Schritt strukturell beschädigt: Die Phase-Zuordnung in der neurologischen oder geriatrischen Reha hängt an genau dieser Detail-Lage. Die korrekte Operations-Form ist auch hier die sichtbare Auflistung der widersprüchlichen Funktions-Befunde, ergänzt um den Hinweis, dass die Klärung im Erst-Befund am Aufnahme-Tag liegt. Die drei Klassen — Pharma, Diagnose, Funktions-Befund — sind keine Synonyme; sie haben eigene klinische Logiken, eigene Klärungs-Wege, eigene Verlaufs-Folgen. Eine ernstgemeinte Architektur behandelt sie als eigenständige Konflikt-Typen.
Zwei Architektur-Anforderungen, die Widerspruchserkennung tragen
Die erste Anforderung lautet: Markierung statt Synthese im Konflikt-Fall. Das Modell wird nicht primär darauf optimiert, einen einzigen flüssigen Satz aus widersprüchlichen Quellen zu formen, sondern darauf, den Widerspruch zu erkennen und in eine andere Ergebnis-Form zu überführen. Operativ heißt das: Die deklarative Konflikt-Klasse aus dem oben genannten Klassen-Inventar wird erkannt; die widersprüchlichen Quellen werden mit Quellen-Marker und kurzem Originalzitat aufgelistet; an der Stelle der sonst entstehenden Synthese steht ein expliziter Markierungs-Block, kein Mittelweg-Satz. Die Konflikt-Sichtbarkeit ist auf der Ergebnis-Ebene gegen die Sprachflüssigkeits-Optimierung geschützt — sie wird nicht von einem höher temperierten Lauf des Modells weggebügelt. Der Anbieter-Test dazu lautet: Was passiert in der Demo, wenn das System mit drei Quellen konfrontiert wird, von denen zwei eine Penicillin-Allergie verneinen und eine sie bestätigt? Eine glatte Synthese ist eine architekturale Aussage; eine sichtbare Markierung ist eine andere.
Die zweite Anforderung lautet: Provenienz-Bewahrung pro Aussage. Konflikt-Detektion zwischen Quellen ist nur dann strukturell tragfähig, wenn die Architektur jede Aussage in der Synopse auf den konkreten Quellen-Span zurückführen kann, aus dem sie stammt. Eine Architektur, die Quellen-Texte vor der Generierung in eine sprachliche Verdichtung mischt und keine separate Quellen-Spur pro Aussage hält, kann den Konflikt strukturell nicht sehen. Die Schablone dafür liefert die Retrieval-Augmented-Generation-Architektur, die Lewis und Kolleg:innen (2020) in NeurIPS vorgelegt haben — Quellen-bindendes Generieren mit retrievalbarem Kontext. Sie ist die Voraussetzung; die Konflikt-Detektion ist eine zusätzliche Stufe darauf. Eine ausführliche Behandlung der Aussage-Ebene und der Quellen-Granularität liefert der Beitrag „Provenienz-Nachverfolgung: Warum jede klinische Aussage eine Quelle braucht“. Wer in der Anbieter-Diskussion auf eine Konflikt-Markierungs-Logik hofft, ohne die Provenienz-Bewahrung pro Aussage zu prüfen, hat den unteren Stapel der Architektur übersehen.

Was die Empirie über die Lücke sagt
Klinisch ist die Folgen-Lage gut beschrieben. Singh und Kolleg:innen (2017) ordnen in BMJ Quality & Safety einen Anteil der Diagnose-Fehler im ambulanten Bereich der unzureichenden Reconciliation widersprüchlicher Befund-Quellen zu — die Studie aggregiert internationale Daten, das deutsche System ist nicht im Schwerpunkt, der mechanistische Punkt überträgt sich. Architektonisch ist die Forschungs-Linie konvergent. Beiträge in npj Digital Medicine (2024–2026) behandeln Konsistenz-Detektion in Klinik-LLMs als eigenständige Architektur-Forderung, die nicht durch ein größeres Modell, sondern durch eine quellen-bewahrende Pipeline erfüllt wird. Beiträge im Journal of the American Medical Informatics Association (JAMIA) 2023–2026 dokumentieren die Heterogenität von Konflikten zwischen elektronischen Patientenakte-Datenquellen und die Lücke zwischen akademisch konvergent benannter Lösung und operativ heterogen umgesetzter Praxis; die Studien sind überwiegend in US-Klinik-Settings erhoben, das Pattern ist methodisch unabhängig vom Versorgungs-Kontext. Editoriale Beiträge in Lancet Digital Health 2023–2026 ordnen die Konsistenz-Validierung als eigene Achse der Klinik-LLM-Validierung ein — neben Genauigkeit, Bias-Prüfung und Robustheit. Eine quantitative Häufigkeits-Aussage „X Prozent der deutschen Reha-Aufnahmen enthalten widersprüchliche Aussagen“ liegt in der publizierten Empirie nicht vor; der strukturelle Fall steht unabhängig davon.

Eine glatte Synthese aus widersprüchlichen Quellen ist nicht das Erfolgs-Signal eines klinischen Sprachmodells. Sie ist die Stelle, an der die Sicherheits-Funktion strukturell ausgehebelt wird. Was die Reha-Chefärztin am Aufnahme-Tag braucht, ist nicht der schönste Satz aus drei Quellen — sondern die ehrliche Markierung der Stelle, an der die drei Quellen einander widersprechen. Wer das in der Architektur trägt, baut ein Werkzeug, das in der Aufnahme-Geschwindigkeit auf der Seite der Patient:innen-Sicherheit steht. Wer es weg-formuliert, baut eines, das so liest, als hätte es geholfen.
Der Beitrag beschreibt eine Klasse von Klinik-KI-Architektur-Anforderungen für die Aufnahme-Doku und stützt sich auf die peer-reviewed Halluzinations-Forschung sowie auf die deutsche Patientensicherheits-Strategie zur Arzneimitteltherapie-Sicherheit (AMTS). Aiomics betreibt eine Klinik-Doku-Architektur mit Provenienz-Nachverfolgung pro Aussage und mit einem expliziten Konflikt-Detektor; konkrete Häufigkeits-Aussagen zu Aufnahme-Widersprüchen werden nicht gemacht. Der Beitrag gibt keine Rechtsauslegung zu Patientensicherheits-Pflichten; die konkrete Bewertung im Einzelfall verlangt die ärztliche Leitung, die Klinik-IT-Leitung und die Datenschutz-Beauftragten der Einrichtung.


