Halluzinations-Maskierung in der Codier-KI: Was die Architektur strukturell verhindern kann
Die gefährlichste Codier-Halluzination ist nicht der falsche Code. Sie ist der plausibel klingende Code, der zur Hauptdiagnose passt — aber nicht zur tatsächlich erbrachten Leistung.

Dr. Sven Jungmann
CEO

Die unauffälligste Klasse der Codier-Halluzinationen klingt richtig. Ein Klinik-Sprachmodell schlägt einen Operationen- und Prozeduren-Schlüssel (OPS) vor, der zur Hauptdiagnose passt, formal gegen die Deutschen Kodierrichtlinien (DKR) nicht offensichtlich verteidigungs-schwach ist — und der trotzdem die tatsächlich erbrachte Leistung verfehlt. Im Audit-Bestand wird daraus eine Wochen später beanstandete Codier-Position. In der Forschungs-Sprache der Faithfulness-Survey von Maynez und Kolleg:innen (ACL 2020) heißt das Muster intrinsische Halluzination — Information aus der Quelle wird verformt — beziehungsweise extrinsische Halluzination — Information wird erzeugt, die in der Quelle nicht enthalten ist. Die Arbeit untersucht Nachrichten-Zusammenfassung, nicht klinische Codierung; die methodische Unterscheidung trägt aber, weil Codier-Vorschläge eine vergleichbare Quell-zu-Ziel-Aufgabe sind.
In der klinischen Sprachmodell-Literatur ist die Beobachtung 2024–2026 stabil. Die Übersichtsarbeiten und Originalstudien in NEJM AI dokumentieren wiederkehrend, dass klinische Sprachmodelle Halluzinationen produzieren, deren Detektion am Punkt der Aussage ohne ärztliche Validierung schwierig ist. Eine konsolidierte Effektgröße liegt nicht vor — die Studien-Designs variieren in Aufgaben, Indikationen und Bewertungs-Metriken. Stabil ist die qualitative Aussage: In flüssig formuliertem klinischem Text ist Halluzination eine empirische Klasse, kein Randphänomen. Übertragen auf die Codier-Anwendung verschiebt das die Frage von „welches Modell“ zu „welche Architektur“.
Bevor die drei Klassen einzeln durchgehen, lohnt eine Trennung. Codier-KI im OPS- und ICD-10-GM-Sinn ist eine andere Aufgabe als eine Doku-KI, die einen Befund-Text aus Diktat oder Stichworten erzeugt, und eine andere als eine Differentialdiagnose-KI, die eine medizinische Schlussfolgerung modelliert. Die Halluzinations-Topologien unterscheiden sich. Doku-KI halluziniert in der Befund-Erzeugung; Differentialdiagnose-KI halluziniert in der Hypothesen-Generierung; Codier-KI halluziniert an einer dritten Stelle — sie bildet eine bestehende Behandlungs-Substanz auf eine Klassifikations-Position ab und kann diese Abbildung formal sauber erscheinen lassen, ohne sie zu belegen. Die Klassen, die hier beschrieben werden, sind die Codier-spezifischen.
Drei Klassen, an denen sich Codier-Halluzination strukturell zeigt
Erstens — die Plausibilisierungs-Halluzination. Das Sprachmodell schlägt einen OPS-Code vor, der gegen die Aufnahmediagnose und die Hauptdiagnose nicht auffällt, weil er zu der Indikations-Klasse plausibel passt. Was fehlt, ist die Verankerung in der tatsächlich dokumentierten Leistung — die Therapie-Sitzungen, der Eingriffs-Bericht, die Pflege-Aufwand-Notiz. Die Plausibilität trägt den Vorschlag durch die formale Konsistenz-Prüfung gegen ICD-Codes. Die Substanz-Prüfung gegen die Leistungs-Quelle findet — ohne Architektur-Eingriff — erst im Audit statt. Methodisch ist das die extrinsische Halluzination der oben zitierten Faithfulness-Survey: Information, die im Quell-Material nicht steht, wird erzeugt — verkleidet als sauber begründbarer Code.
Zweitens — die Fokus-Drift. Der Codier-Vorschlag verschiebt sich im Verlauf der Generierung von der Haupt-Veranlassung des stationären Aufenthaltes zu einer prominenten Nebendiagnose oder zu einer im Bericht häufig genannten Komorbidität. Das Modell folgt der lexikalischen Auffälligkeit, nicht der DKR-D002f-Definition der Hauptdiagnose („nach Analyse hauptsächlich verantwortlich“). Im Ergebnis erscheint ein Code, der formal codierbar ist, aber die falsche Hauptdiagnose-Position trägt. Die Fokus-Drift ist die unauffälligste Klasse, weil sie keine erfundene Information enthält — sie verschiebt nur die Gewichtung der vorhandenen.

Drittens — die fehlende Negativ-Codierung. Eine Nebendiagnose oder eine Komplikation, die für die fragliche Indikations-Klasse häufig erwartet wird, fehlt im Vorschlag, weil das Modell die negative Befund-Lage nicht repräsentiert. Im Befund-Text steht nichts dazu — und das Sprachmodell schlägt nichts dazu vor. Im klinischen Sinn ist die explizite Abwesenheit eines Befundes eine codier-relevante Information, weil sie die Schwere-Profil-Einordnung trägt. Im DKR-Sinn ist die Negativ-Codierung über das Plausibilitäts-Kriterium der D003l verlinkt: Wo eine erwartete Begleiterkrankung fehlt, sollte die Doku den Befund-Status explizit benennen, statt eine Lücke zu hinterlassen. Sprachmodelle ohne Bewusstsein für die negative Befund-Klasse codieren still — und produzieren damit eine systematische Untercodierung, die im Audit zwar selten beanstandet wird, aber die Erlös-Position kalibrierbar schmälert.
Welche architektonischen Kontrollen die drei Klassen strukturell verhindern
Die erste Kontrolle ist die Verankerung. Retrieval-Augmented Generation (Lewis und Kolleg:innen, NeurIPS 2020) bindet einen Codier-Vorschlag an zur Laufzeit abgerufene Quellpassagen — den Aufnahmebefund, die Verlaufsdokumentation, den OP- oder Therapie-Bericht — statt ihn allein aus den Parameter-Gewichten zu erzeugen. Der Vorschlag steht damit nicht mehr neben dem Bericht; er steht mit einem Verweis auf den Bericht. In der praktischen Auslegung heißt das: Pro vorgeschlagenem OPS-Code wird mindestens eine konkrete Textstelle aus dem Behandlungs-Bericht mitgeliefert, die die Leistung benennt. Pro vorgeschlagenem ICD-Code wird die diagnostisch tragende Befund-Passage angezeigt. Die Plausibilisierungs-Halluzination und die Fokus-Drift werden in dieser Architektur ausgeschlossen, weil ein Vorschlag ohne abgerufene Leistungs-Quelle keinen Vorschlag mehr erzeugt — er erzeugt eine Lücken-Anzeige, die der Codier-Verantwortung den Bedarf an Nachdokumentation oder Verzicht klar markiert.
Die zweite Kontrolle ist die Provenienz-Nachverfolgung. Pro Codier-Vorschlag wird gespeichert und sichtbar gehalten, welche Quellpassage den Vorschlag trägt. Die Codier-Verantwortung kann den Vorschlag damit gegen die Quelle prüfen, statt gegen die Plausibilität. Die Literatur in npj Digital Medicine 2024–2026 dokumentiert die qualitative Richtung — Retrieval-Verankerung reduziert Halluzinationen in klinischen Sprachmodell-Anwendungen — mit aufgaben- und Verankerungs-Qualitäts-abhängiger Wirkungs-Heterogenität. Eine konsolidierte Effektgröße ist daraus nicht ableitbar; die strukturelle Lesart bleibt: Wo der Vorschlag seine Quellpassage trägt, kann die Codier-Substanz geprüft werden.
Die dritte Kontrolle ist die explizite Konsistenz-Prüfung zwischen Diagnose-Quelle und Leistungs-Quelle. Eine Architektur, die jeden vorgeschlagenen OPS gegen die dokumentierte Therapie- oder Eingriffs-Position prüft und die fehlende Leistungs-Belegung als sichtbares Signal ausgibt, beantwortet die Plausibilisierungs-Halluzination strukturell — und nicht durch ein größeres Modell. Konkret: Wenn eine Komplex-Behandlung codiert werden soll, fragt die Architektur am Vorschlag, ob die Mindest-Strukturmerkmale (Teamzusammensetzung, Therapie-Mindesteinheiten, Pflege-Aufwand) in der Verlaufsdokumentation belegt sind. Wenn der Beleg fehlt, gibt es keinen Vorschlag, sondern eine Status-Zeile mit der konkreten dokumentatorischen Lücke. Die fehlende Negativ-Codierung lässt sich in derselben Architektur abbilden, indem für eine Indikations-Klasse erwartete Komorbiditäten als explizite Befund-Status-Fragen vorgesehen sind. Ein nicht beantworteter Befund-Status wird damit zum dokumentierten Status, nicht zur stillen Lücke — und die Codier-Verantwortung sieht im Vorschlags-Bestand pro Fall, welche Klärungen vor dem Quartalsabschluss offen sind.

Die drei Klassen werden in der klinischen Praxis selten als verwandte Klasse gelesen. Sie wirken wie drei verschiedene Fehler-Profile; methodisch sind sie verwandt. In jedem der drei Fälle erzeugt das Sprachmodell eine Aussage, deren Substanz im verfügbaren Bericht nicht oder nicht in der Gewichtung steht, die die Aussage suggeriert. Die Maskierung entsteht, weil die Aussage formal sauber wirkt — sie passt zur Hauptdiagnose, sie folgt der lexikalischen Mehrheit, sie übergeht eine erwartete Komorbidität still. Faithfulness — in der ACL-Lesart der zitierten Survey — ist die methodische Klammer. Die Architektur, die Faithfulness strukturell trägt, ist die Klammer in der Codier-Anwendung.

Die Halluzinations-Maskierung in der Codier-Anwendung ist nicht primär ein Problem der Modell-Größe oder des Trainings-Korpus. Sie ist ein Problem der Architektur — der Frage, ob ein Vorschlags-System seine Vorschläge an die zugrundeliegenden Befund- und Leistungs-Belege bindet und die Bindung sichtbar hält. Die drei beschriebenen Klassen sind erkennbar, wenn der Codier-Vorschlag mit seiner Quellpassage geliefert wird. Sie sind unsichtbar, wenn er ohne sie kommt. Eine Quartals-Beanstandung am Quartalsende ist die teuerste Form, in der ein Haus erfährt, welche der drei Klassen sein Codier-System nicht abfängt. Die strukturelle Antwort steht in der Beschaffungs-Lese am Tag eins.
Der Beitrag beschreibt die Architektur-Mechanik klinischer Sprachmodelle in der Codier-Anwendung und drei in der publizierten Literatur dokumentierte Klassen typischer Codier-Halluzinationen. Er gibt keine Rechtsauslegung der Codier-Regelwerke oder der Begutachtungs-Verfahren des Medizinischen Dienstes (MD) nach § 275c des Sozialgesetzbuches Fünftes Buch (SGB V); eine konkrete Codier-Beurteilung im Einzelfall verlangt medizincontrolling-fachliche und gegebenenfalls rechtliche Beratung. Die drei Klassen werden aus methodischer Faithfulness-Forschung (Maynez et al. 2020 ACL — Nachrichten-Zusammenfassung, konzeptionell übertragen) und aus klinischer Sprachmodell-Forschung in NEJM AI und npj Digital Medicine 2024–2026 abgeleitet; eine konsolidierte Effektgröße für klinische Codier-Anwendungen liegt in der heterogenen Literatur nicht vor. Codier-Künstliche-Intelligenz (Codier-KI) für Operationen- und Prozeduren-Schlüssel (OPS) und für Internationale statistische Klassifikation der Krankheiten in der zehnten Revision deutsche Modifikation (ICD-10-GM) unterscheidet sich aufgabentechnisch von Dokumentations-Künstlicher-Intelligenz (Doku-KI, Spracherfassungs- oder Befund-Generierungs-Aufgabe) und von Differentialdiagnose-Künstlicher-Intelligenz (medizinische Schlussfolgerung); die drei haben unterschiedliche Halluzinations-Topologien — der Beitrag hält sich an die Codier-Anwendung. Keine Aiomics-internen Allowlist-Claims (AI-1 bis AI-4) im Body aktiviert; die Architektur-Aussage ist eine konzeptionelle These, keine Kunden-Empirie.


