KI-Codierung versus strukturierte Primärdokumentation: Warum der Hebel am Aufnahmetag größer ist als am Quartals-Ende
Codier-Tools versprechen, ihre KI fange auch lückenhafte Primärdokumentation auf — 3 Klassen widersprechen dem. Negativ-Aussagen, Plausibilität gegen Verlauf & Komplex-Behandlungen mit Zeit-Anforderung sind Stellen, an denen Codier-KI ohne Doku-Substanz mathematisch nicht trifft.

Dr. Sven Jungmann
CEO

In den Demonstrations-Terminen, in denen Codier-Anbieter:innen ihre generative Pipeline vorstellen, fällt regelmäßig derselbe Satz: das System fange auch lückenhafte Primärdokumentation auf, lese den Entlass-Brief und den Verlaufs-Eintrag und leite daraus die Diagnose- und Prozedur-Codes ab — die Klinik müsse die Doku nicht erst sanieren. Das Versprechen ist verständlich, denn die Doku-Sanierung am Aufnahmetag ist mühsam und die Codier-Korrektur am Quartals-Ende ist schnell sichtbar. Es ist trotzdem mathematisch falsch. Drei strukturelle Klassen widersprechen ihm — und sie tun das nicht in einer Glaubens-Frage, sondern in einer Material-Frage. Die methodische Klammer der publizierten Studien-Serie im Journal of the American Medical Informatics Association (JAMIA) 2024–2026 trägt sie konsistent: die Treffer-Rate eines Large Language Models (LLM) in der klinischen Codierung ist eng an die Vollständigkeit und Struktur der Primärdokumentation gekoppelt. Wo die Substanz fehlt, kann das Werkzeug sie nicht erfinden.
Bevor die drei Klassen lesbar werden, lohnt sich die saubere Trennung der Begriffe. KI-Codierung beschreibt ein generatives Werkzeug, das aus narrativen Doku-Texten — Entlass-Brief, Verlaufs-Eintrag, Anamnese — die Codes nach Internationaler statistischer Klassifikation der Krankheiten (ICD) und nach Operationen- und Prozeduren-Schlüssel (OPS) ableitet. Strukturierte Primärdokumentation beschreibt das Doku-Verfahren bei der Aufnahme und entlang des stationären Aufenthalts — Felder, Listen, Zeitmarker, kalibrierte Frei-Text-Stellen —, das die Codier-Grundlage trägt. Die Zuordnung in eine Diagnosis-Related-Group (DRG) am Quartals-Ende ist das Vergütungs-Ergebnis, in dem sich beide Schichten treffen. Werkzeug und Doku-Schicht laufen nicht synonym, und die Frage des Hebels ist nicht, welche der beiden Schichten die größere Marketing-Aufmerksamkeit findet — sondern welche der beiden die Bedingungen herstellt, an denen die andere überhaupt arbeiten kann.
Klasse eins: Die Negativ-Aussage, die im Brief nicht steht
Die erste Klasse, in der die KI-Codierung methodisch begrenzt ist, ist die Negativ-Aussage — die Frage, was nicht erbracht oder nicht beobachtet wurde. Die Codier-Substanz nährt sich nicht nur aus dem, was im Verlauf steht, sondern auch aus dem, was darin fehlt. Die strenge Auslegung der Hauptdiagnose nach der Deutschen Kodierrichtlinie (DKR) D002f verlangt, dass die Hauptdiagnose die für den stationären Aufenthalt hauptsächlich ursächliche Erkrankung ist — der Ausschluss anderer Aufnahme-Gründe gehört zur Begründung. Eine generative Pipeline, die nur das liest, was im Brief geschrieben steht, hat keinen Zugriff auf das, was die aufnehmende Ärzt:in dort nicht geschrieben hat. Sie kann eine Verdacht-Diagnose nicht ausschließen, die nicht erwähnt wird; sie kann eine Komorbidität nicht plausibilisieren, die nicht dokumentiert ist; sie kann eine Aufnahme-Indikation nicht abstützen, deren Alternativen nicht festgehalten sind. Die Negativ-Aussage ist eine Aussage über eine Abwesenheit — und Abwesenheit ist nicht aus einer Textmenge ablesbar.

Klasse zwei: Plausibilität gegen den Verlauf
Die zweite Klasse betrifft die Plausibilisierung der Codier-Aussage gegen den dokumentierten Verlauf. Eine Nebendiagnose nach DKR D003l ist nur dann codier-fähig, wenn der Verlauf der stationären Behandlung sie trägt — durch dokumentierte Therapie, durch Verlängerung der Verweildauer, durch besonderen pflegerischen oder ärztlichen Mehraufwand. Eine generative Pipeline kann aus einem einzigen Brief-Hinweis auf eine bekannte Komorbidität die Nebendiagnose vorschlagen; ob die Vital-Werte, die Medikations-Verläufe und die Befund-Daten diese Codier-Aussage stützen, weiß sie nur, wenn die Daten ihr in struktureller Form vorliegen. Die NEJM-AI-Reviews 2024–2026 benennen diese Klasse als die mit der höchsten Fehlanfälligkeit generativer Codier-Systeme. Eine Codier-Empfehlung, die plausibel klingt, aber die der Verlauf nicht trägt, ist genau der Befund, der in der internen Kodierrevision und in der Begutachtung durch den Medizinischen Dienst (MD) gehäuft beanstandet wird — und die Beanstandung erreicht die Klinik erst Monate nach dem Quartals-Abschluss.
Klasse drei: OPS-Komplex-Behandlungen mit Zeit-Anforderung
Die dritte Klasse ist die schärfste — die OPS-Komplex-Behandlungen mit Strukturmerkmal-Pflicht und Zeit-Anforderung. Die geriatrische frührehabilitative Komplex-Behandlung, die neurologische Komplex-Behandlung, die Schlaganfall-Komplex-Behandlung — sie alle verlangen, dass die Klinik dokumentierte Zeitmarker in Tagen, Stunden und Minuten vorhält: definierte Therapie-Minuten pro Disziplin, definierte Mindest-Aufenthaltszeit pro Tag in einer überwachten Einheit, definierte Mindest-Häufigkeiten der ärztlichen Visite. Eine generative Pipeline kann diese Zeit-Anforderung methodisch nur dann ausweisen, wenn die Zeit-Marker in der Primär-Doku explizit erfasst sind — und zwar in einer Form, die der MD bei einer Beanstandung als Beweis zulässt. Die Beobachtung der npj-Digital-Medicine-Beiträge 2024–2026 ist hier eindeutig: die Treffer-Rate der generativen Codier-Pipelines bei OPS-Komplex-Behandlungen folgt der Erfassungs-Tiefe der Zeit-Marker in der Doku, nicht der Klugheit des Modells. Wo die Zeit-Marker fehlen, kann auch das stärkste Modell sie nicht herleiten; wo sie strukturiert vorliegen, codiert auch ein einfaches Modell zuverlässig. Die Codier-Substanz steckt in der Doku-Schicht, nicht im Werkzeug.

Warum der Hebel am Aufnahmetag größer ist
Die Klassen-Logik führt zu einer Beobachtung, die in der Investitions-Diskussion zählt. Eine Klinik, die eine Codier-KI ohne kalibrierte Primär-Doku betreibt, ändert die Codier-Geschwindigkeit, nicht die Codier-Substanz. Sie codiert dieselben Fälle schneller — und dieselben Fälle werden in derselben Quote vom MD beanstandet, weil die zugrundeliegenden Doku-Lücken unverändert weiterlaufen. Die Beanstandungs-Last verschiebt sich nicht in eine andere Höhe, sondern in eine andere Zeitlage: nicht weniger Beanstandung, sondern dieselbe Beanstandung mit höherem Investitions-Aufwand. Eine Klinik dagegen, die die Primär-Doku am Aufnahmetag und im Verlauf strukturiert anlegt, verändert die Codier-Substanz selbst — die Negativ-Aussagen werden ableitbar, die Verlaufs-Plausibilität wird abprüfbar, die OPS-Komplex-Zeit wird ausweisbar. Die Codier-KI ist auf dieser Substanz-Basis wirksam, weil sie ablesen kann, was vorhanden ist. Die Reihenfolge der Investition ist damit nicht Geschmackssache. Wer das Werkzeug vor der Substanz finanziert, kauft eine schnellere Maschine zur Verarbeitung schlechterer Eingangs-Daten.
Die Mehrjahres-Lesart trägt die Beobachtung weiter. Die Doku-Disziplin, die heute am Aufnahmetag eingeführt wird, wirkt zwei und drei Quartale später in der MD-Begutachtungs-Stichprobe — und nochmals in der Folge-Prüfung des nächsten Geschäftsjahres. Die Aiomics-Position zur Prüfquote 2027 hat diese Audit-Logik-Kontinuität im Detail aufgespannt. Die Codier-KI greift dabei nicht in die Audit-Logik selbst ein, sondern in die Codier-Geschwindigkeit; die Primär-Doku-Disziplin greift in die Substanz, die die Audit-Logik liest. Eine Architektur, die die Aufnahme-Felder strukturiert anlegt, im Verlauf konsistent fortschreibt und die Zeit-Marker in den OPS-Komplex-Behandlungen explizit erfasst, beantwortet stromaufwärts, was die Codier-KI stromabwärts sonst nur ablesen kann — und sonst nur ablesen könnte, wenn die Information dort wäre.

Die Diskussion zwischen Geschäftsführung, Ärztlichem Direktion und Medizincontrolling über die nächste Codier-Investition verläuft besser, wenn die Klassen-Logik als Eintritts-Karte vorliegt. Der Beschaffungs-Termin selbst wird damit zur strukturellen Probe, nicht zur Demonstrations-Show. Zwei Vorbereitungs-Stellen tragen sie. Erstens die eigene Doku-Vermessung: Wo trägt die Primär-Doku die drei Klassen schon — und wo nicht? Diese Vermessung führt eine interne Kodierrevision in einem Quartal entlang der Schwerpunkt-Stellen der FoKA-/SEG-4-Kommentierungen — sie ist im Haus, wenn die Codier-Revisions-Funktion arbeitet. Zweitens die Reihenfolge im Investitions-Plan: Eine Codier-KI nach einer kalibrierten Doku-Disziplin entfaltet im Quartal Wirkung; eine Codier-KI vor dieser Substanz-Schicht bleibt Verarbeitungs-Beschleuniger ohne Effekt auf die Codier-Grundlage. Wer in dieser Reihenfolge investiert, hält die Substanz-Diskussion sauber getrennt von der Werkzeug-Diskussion — und erspart der eigenen Klinik die zweite Lerne in zwei Jahren.
Codierung ist Ergebnis einer Daten-Substanz, kein Werkzeug, das diese Substanz herstellt. Die Codier-KI ist eine Schicht am Codier-Ende des Falls — wirksam, schnell, in der Routine wertvoll. Die strukturierte Primärdokumentation ist die Substanz-Schicht am Anfang und im Verlauf — sie entscheidet, ob die Codier-KI ablesen oder raten muss. Eine Klinik, die diesen Unterschied im Investitions-Plan trennt, hat die wichtigere Frage vor der weniger wichtigen Frage beantwortet. Die zweite Frage — welche Codier-KI — wird dann leichter, weil sie keine Substanz mehr ersetzen muss.
Der Beitrag beschreibt die methodischen Grenzen generativer Codier-Werkzeuge im deutschen Diagnosis-Related-Groups-Vergütungssystem (DRG) entlang peer-reviewed Literatur (Journal of the American Medical Informatics Association JAMIA 2024–2026, NEJM AI Reviews 2024–2026, npj Digital Medicine 2024–2026) und publizierter Praxis-Materialien (Krankenhausumschau KU 04/2026, FoKA-/SEG-4-Kommentierungen, mydrg.de und medconweb.de). Er gibt keine Rechtsauslegung des § 275c des Sozialgesetzbuches Fünftes Buch (SGB V), der Deutschen Kodierrichtlinien (DKR) oder der Begutachtungs-Verfahren des Medizinischen Dienstes (MD); eine klinik-spezifische Beschaffungs-Entscheidung verlangt medizincontrolling-fachliche und gegebenenfalls rechtliche Beratung. Drei Begriffe sauber trennen: KI-Codierung ist ein generatives Werkzeug, das aus narrativen Texten ICD- und OPS-Codes ableitet; strukturierte Primärdokumentation ist das Doku-Verfahren am Aufnahmetag und im Verlauf, das die Codier-Grundlage trägt; die DRG-Zuordnung ist das Vergütungs-Ergebnis, in dem sich beide Schichten treffen. Seit dem MDK-Reformgesetz zum 1. Januar 2020 ist der Medizinische Dienst (MD) ein eigenständiger Träger und nicht mehr Teil der Krankenkassen — die ältere Bezeichnung „MDK“ wird in der Suche weiter verwendet, im Verfahren ist der MD aktiv. Keine Aiomics-internen Allowlist-Claims (AI-1 bis AI-4) im Body aktiviert; der Hebel-Vergleich wird als Klassen-Logik entlang publizierter Studien geführt, nicht als Anbieter:innen-Vergleich.


