Datenqualität15. Februar 20267 Min. Lesezeit

Provenienz-Tracking: Warum jede klinische Aussage eine Quelle braucht

Eine Synthese aus zwei korrekten Vorbefunden kann eine dritte Aussage erzeugen, die in keiner der beiden Quellen steht. Provenienz-Tracking ist die operative Antwort auf diese Klasse von Halluzinationen — und sie wird auf Granularität entschieden, nicht auf Marketing-Versprechen.

Dr. Sven Jungmann

CEO

Provenienz-Tracking in der Klinik-KI entscheidet sich auf Granularität — nur wer jede Aussage zur konkreten Quelle zurückführt, schützt vor Synthese-Halluzinationen aus zwei einzeln richtigen Vorbefunden.

In einem aus zwei eingelesenen Vorbefunden generierten Aufnahme-Bericht steht der Satz: „Die Patientin nimmt Metformin und zeigt rezidivierende Hypoglykämien unter laufender Metformin-Therapie.“ In der ersten Quelle steht: „Die Patientin nimmt Metformin.“ In der zweiten Quelle steht: „Die Patientin zeigt rezidivierende Hypoglykämien.“ In keiner der beiden Quellen steht, dass die Hypoglykämien unter Metformin-Therapie zu beobachten seien. Die Aussage ist eine Synthese aus zwei einzeln richtigen Inputs — und sie ist klinisch falsch, weil Metformin als Monotherapie sehr selten zu Hypoglykämien führt. Die Synthese hat zwei Aussagen kausal verknüpft, ohne dass eine der beiden Quellen diese Verknüpfung trägt.

Diese Klasse von Fehler ist weder hypothetisch noch selten. Maynez et al. (2020) trennen in der grundlegenden Faithfulness-Untersuchung intrinsische von extrinsischen Halluzinationen — extrinsische fügen Information hinzu, die in keiner Quelle steht; intrinsische verfärben die in den Quellen vorhandene Information. Die Synthese-Halluzination ist eine besondere Variante der intrinsischen: Sie nutzt nur Material aus den Quellen, verknüpft es aber zu einer Aussage, die keiner Quelle für sich entnehmbar ist. Maynez und Kolleg:innen fanden in einem ihrer getesteten Modelle, dass 76,9 Prozent der generierten Zusammenfassungen halluzinatorisch verfärbt waren — die Untersuchung lief auf englischen Nachrichten-Texten und nicht auf klinischen Daten, die Klasse der Halluzination ist aber dieselbe wie im Klinik-Synthese-Fall. Ji et al. (2023) ordnen sie in der Übersicht der Association for Computing Machinery (ACM) zu Halluzinationen in der natürlichen Sprachgenerierung als eine der schwer erkennbaren Klassen ein, weil jede Teilaussage einzeln verifiziert werden kann.

Provenienz-Tracking als Sicherheitsinfrastruktur

Provenienz-Tracking ist die Disziplin, jede generierte Aussage einer Quelle zuzuordnen — nicht im Sinn einer Bibliographie am Ende des Berichts, sondern als integraler Teil der Erzeugung. Lewis et al. (2020) haben mit Retrieval-Augmented Generation (RAG) die Architektur dafür etabliert: Ein Retrieval-Schritt holt relevante Quellen aus einem Index, ein Generations-Schritt formuliert die Antwort. Die Pointe ist, dass RAG die genutzten Quellen sichtbar macht. Die Frage, auf welcher Granularität die Quellen-Verknüpfung gilt, bleibt damit aber offen. Eine Passage als Konditionierung der Generierung bedeutet nicht, dass jede generierte Aussage aus genau dieser Passage hervorgeht — die Generierung kann mischen, paraphrasieren oder über das Quellmaterial hinausgehen.

Diese Lücke schließt das Attributable-to-Identified-Sources-Framework (AIS), das Rashkin et al. (2023) in Computational Linguistics formalisiert haben. Eine Aussage gilt nur dann als zuschreibbar, wenn sie zwei Tests besteht: Sie ist als Aussage interpretierbar, und sie geht vollständig aus der genannten Quelle hervor. Das Kriterium klingt schlicht; in der Anwendung trennt es zwei Welten — die Welt der Systeme, die Quellen-Listen anzeigen, und die Welt der Systeme, die jede einzelne Aussage zur Quelle zurückführbar halten. Nur die zweite ist operativ tragfähig.

Provenienz-Tracking Klinik-KI auf Aussage-Ebene — Vorbefund-Quellen werden Span-für-Span auf den generierten Synthese-Bericht abgebildet, jede Aussage trägt eine sichtbare Quellen-Spur. — Provenienz-Tracking auf Aussage-Ebene macht die Verifikation einzeln möglich, statt sie an der Gesamtsynthese aufzuhängen.·aiomics

Drei Granularitäten — Dokument, Satz, Span

Die methodische Literatur unterscheidet drei Granularitäten der Quellen-Rückführung. Auf Dokument-Ebene verweist die Antwort auf die Quell-Dokumente, aus denen sie generiert wurde. Das ist der Default vieler Systeme und einfach umsetzbar. Das Problem dieser Granularität: Das genannte Dokument kann relevant sein, ohne dass der konkret generierte Satz darin enthalten ist. Auf Satz-Ebene wird jeder generierte Satz auf Quell-Passagen abgebildet. Gao et al. (2023) haben mit dem ALCE-Benchmark — Automatic LLM Citations Evaluation — gezeigt, dass selbst hochwertige Modelle wie GPT-4 etwa die Hälfte der notwendigen Citation-Belege auf Open-Domain-Aufgaben fehlt. Satz-Ebene ist verifizierbar in einem Inspektions-Schritt, fängt aber die Synthese-Halluzination nicht: Zwei Sätze, die je eine Quelle zitieren, können eine falsche Verknüpfung erzeugen, die keine der beiden Quellen trägt. Die Untersuchung von Gao und Kolleg:innen ist auf englischen Open-Domain-Aufgaben durchgeführt; sie zeigt die Klasse, nicht den deutschen Klinik-Alltag. Übertragen auf den Aufnahme-Fall: Ein System, das auf Satz-Ebene jeden Synthese-Satz mit „Befund 1“ oder „Befund 2“ annotiert, liefert die Quellen-Verweise — und versteckt zugleich die zwischen den Sätzen aufgebaute Verknüpfung. Die Verifikation findet die richtigen Quellen-Verweise; sie findet nicht das Problem, das zwischen ihnen entstanden ist.

Auf Span-Ebene verweist jede einzelne erzeugte Span — eine Nominalphrase, ein Zahlenwert, ein Datum — auf einen konkreten Span in einer konkreten Quelle. Das ist die einzige Granularität, die strukturell vor Synthese-Halluzinationen schützt. Sie lässt sich technisch auf drei Wegen umsetzen: extraktives Constraint-Decoding (jeder Output-Token muss aus einer Quell-Passage stammen), Verifikation per Span mittels Natural Language Inference (NLI) gegen die Quelle, oder dedizierte Citation-aware-Modelle. Alle drei Wege sind rechen- und architekturaufwendig — der Grund, warum produktive Systeme häufig auf Satz-Ebene stehen bleiben.

Provenienz-Tracking Klinik-KI auf drei Granularitäten — Dokument-, Satz- und Span-Ebene unterscheiden sich strukturell darin, ob Synthese-Halluzinationen aus zwei korrekten Quellen erkennbar bleiben. — Span-Ebene ist die einzige Granularität, auf der die Verknüpfung zweier korrekter Quellen einzeln prüfbar bleibt.·aiomics

Was klinische Studien dazu zeigen

Im Klinikkontext sind die belastbarsten Belege jüngeren Datums. Zakka und Kolleg:innen (NEJM AI 2024) haben mit Almanac ein RAG-System gegen ChatGPT-4, Bing und Bard auf 314 klinischen Fragen verglichen — der RAG-Ansatz mit kuratierter klinischer Wissensbasis schnitt in Faktentreue, Vollständigkeit und Sicherheit signifikant besser ab. Wornow et al. (NEJM AI 2025) sind mit VeriFact einen Schritt weiter gegangen: Ein automatisierter Verifikations-Schritt prüft generierte stationäre Verlaufs-Berichte gegen die Patientenakte selbst — die Übereinstimmung mit Kliniker:innen lag bei 93,2 Prozent und damit höher als die Inter-Rater-Übereinstimmung der Kliniker:innen untereinander (88,5 Prozent). Methodisch sind die beiden Studien unterschiedlich verankert: Almanac prüft gegen kuratiertes Leitlinien-Wissen, VeriFact prüft gegen die konkrete Patientenakte. Für die Synthese-Halluzinations-Klasse ist die zweite Verankerung die strengere — sie misst die Quellen-Treue an den tatsächlich genutzten Befunden, nicht an einer externen Wissensbasis. Beide Studien sind Single-Site, beide englischsprachig — eine deutsche Multi-Center-Validierung steht aus, und die Ergebnisse übertragen sich nicht eins zu eins auf die hiesige Klinik-Realität.

Asgari und Kolleg:innen haben in npj Digital Medicine 2025 ein Mess-Framework für klinische Sprachmodell-Sicherheit entwickelt. 12.999 von Kliniker:innen annotierte Sätze ergaben eine Halluzinations-Rate von 1,47 Prozent und eine Auslassungs-Rate von 3,45 Prozent. Die niedrige Rate ist ein Fortschritt; die Schwere ist die eigentliche Aussage: 44 Prozent der Halluzinationen wurden als „major“ eingestuft, gegenüber 16,7 Prozent der Auslassungen. Auch diese Studie ist Single-Site und englischsprachig; die methodische Übertragung auf deutsche Klinikkontexte muss empirisch erst geleistet werden. Die Botschaft trägt dennoch: Resthalluzinationen bleiben, ihre Schwere muss eigenständig überwacht werden, und die Voraussetzung dafür ist eine Quellen-Rückführbarkeit, die jede Aussage trägt.

Audit-Trail im Provenienz-Tracking Klinik-KI lässt noch Monate später auf den ursprünglichen Vorbefund zurückführen. — Ein operativ tragfähiger Audit-Trail erhält die Aussage-zu-Quelle-Verknüpfung über die unmittelbare Synthese hinaus.·aiomics

Drei Anforderungen an einen ernstgemeinten Audit-Trail

Aus den drei Granularitäten lässt sich ableiten, woran ein Provenienz-Tracking-System operativ erkennbar ist. Erstens: Jede in der Synthese erzeugte Aussage wird auf eine Quelle zurückgeführt, idealerweise auf Span-Ebene, mindestens aber auf Satz-Ebene. Der operative Test in der Anbieter-Demo besteht darin, einen synthetischen Aufnahme-Bericht zu erzeugen und dann eine Aussage anzuklicken — ein ernstgemeintes System markiert daraufhin den exakten Quell-Span im Vorbefund, kein bloßes Quell-Dokument. Zweitens: Die Quellen-Information bleibt im Audit-Trail erhalten, nicht nur in der Anzeige zur Generierungs-Zeit. Wenn das System sechs Monate später für eine Anfrage des Medizinischen Dienstes (MD) befragt wird, muss die Aussage-zu-Quelle-Verknüpfung rekonstruierbar sein, ohne sie aus dem damaligen Prompt-Kontext erneut herstellen zu müssen. Der operative Test ist die direkte Frage an die IT-Architektur: Wie wird die Span-zu-Span-Verknüpfung persistiert, in welchem Datenmodell, mit welcher Aufbewahrungs-Logik. Drittens: Die Quellen-Rückführung ist auditierbar gegen den ursprünglichen Befund-Bestand, nicht gegen eine paraphrasierte oder vektorisierte Repräsentation davon. Die Verifikation findet auf der Originalquelle statt, nicht auf einem Embedding davon. Der operative Test besteht darin, einen Audit-Fall zu konstruieren, in dem Originaltext und Vektorrepräsentation auseinandergehen, und zu prüfen, gegen welche der beiden das System die Aussage hält.

Diese drei Anforderungen sind nicht akademisch. Sie sind die strukturelle Übersetzung der Frage, ob ein System Verantwortung für seine Aussagen trägt oder ob es die Verantwortung in Form ungeprüfter Synthese an die Ärzt:innen zurückgibt. Gilbert, Kather und Hogan (npj Digital Medicine 2024) haben den konzeptuellen Punkt in einem Positionspapier so formuliert: Klinik-Sprachmodelle gehören in die Rolle des Curators — eines Systems, das verbindet und zitiert — nicht in die Rolle eines Generators, der aus dem Modell-Speicher heraus Antworten formuliert. Die Curator-Rahmung ist die konzeptuelle Begründung; Provenienz auf Aussage-Ebene ist ihre architektonische Übersetzung. Das Papier ist eine Position, keine Empirie — die Übersetzung in tragfähige Architekturen muss in jedem Klinikkontext eigenständig geleistet werden.

Provenienz nur auf Dokument-Ebene zu liefern verschiebt das Problem, statt es zu lösen. Die Frage, ob ein Klinik-KI-System es ernst meint, entscheidet sich am Verhalten nach der ersten unerklärlichen Synthese: ob die Aussage zu einer konkreten Quelle zurückgeht, oder ob sie eine plausible Konstruktion bleibt, die niemand mehr nachträglich auflösen kann.

#Provenienz-Tracking#Klinik-KI#Datenqualität#RAG#Halluzinationen#Audit-Trail

Aiomics betreibt eine Klinik-Doku-Architektur. Der Beitrag beschreibt methodische Grundlagen und publizierte klinische Evidenz zu Quellen-Rückführung und Halluzinations-Mitigation. Er gibt keine Rechtsauslegung und keine Anbieter-Empfehlung; eine konkrete Klinik-KI-Bewertung verlangt die jeweilige IT-Leitung, die Datenschutz-Beauftragten und die fachliche Prüfung im Einzelfall.

Provenienz-Tracking: Warum jede klinische Aussage eine Quelle braucht

Provenienz-Tracking als Sicherheitsinfrastruktur

Drei Granularitäten — Dokument, Satz, Span

Was klinische Studien dazu zeigen

Drei Anforderungen an einen ernstgemeinten Audit-Trail

Weiterlesen

Mehr KI-Gesundheitstools denn je. Die Frage ist, ob sie helfen.

Wenn die Hälfte der Daten fehlt: Lässt sich eine Rekonstruktion zur Krankheitserkennung vertrauen?

Kann ein kleines Open-Weight-Modell Demenz in der Sprache erkennen? Was der Benchmark zeigt

Diese Analyse stammt von den Leuten hinter Visite.

Sie möchten das in Ihrer Klinik sehen?