KI-Codierung in der Klinik: Was Anbieter-Versprechen wert sind
Anbieter von KI-Codiersystemen werben 2026 mit Trefferquoten zwischen 80 und 95 Prozent. Was diese Zahlen wert sind, hängt davon ab, wie sie gemessen wurden

Dr. Sven Jungmann
CEO

Es ist Frühjahr 2026. In einem Beschaffungs-Termin einer Schwerpunkt-Klinik in Süddeutschland sitzt die Medizincontrollerin gegenüber zwei Anbieter-Vertreter:innen, die hintereinander dieselbe Folie zeigen. Die eine Folie nennt eine Trefferquote von 87 Prozent für die hauseigene Codierungs-Lösung, die andere 92 Prozent. Beide Folien sind in dunkelblauer Schrift gesetzt, beide tragen ein Klinik-Foto im Hintergrund, beide verzichten auf eine Methoden-Zeile. Die Medizincontrollerin liest beide Zahlen als Marketing-Aussagen, nicht als Mess-Aussagen — und stellt die Frage, die in dieser Klasse von Beschaffungs-Termin selten zuerst kommt: in welcher Mess-Architektur sind diese 87 und 92 Prozent zustande gekommen.
Eine Trefferquote in der KI-Codierung ist keine fertige Zahl, sondern ein Resultat aus vier methodischen Entscheidungen. Erstens: gegen welche Referenz wird gemessen — gegen einen externen Goldstandard, gegen einen hauseigenen Codierer-Konsens, gegen einen einzelnen Codierer? Zweitens: an welchem Korpus wird gemessen — an einer Stichprobe von Akut-Fällen, an einer indikationsbezogenen Untermenge, an einem Validierungs-Korpus aus einer fremden Vergütungs-Logik? Drittens: in welcher Codiertiefe — Hauptdiagnose, Nebendiagnose, Operationen- und Prozedurenschlüssel (OPS), DRG-Gruppierungs-Endpunkt? Viertens: mit welchem Endpunkt — F1-Wert pro Code, Übereinstimmung auf Fall-Ebene, Erlös-Wirkung gegenüber der gegenwärtigen Codier-Praxis? Jede dieser vier Entscheidungen hebt oder senkt die Zahl. Und keine der vier Entscheidungen lässt sich aus einer Anbieter-Folie ablesen, die nur das Ergebnis nennt.
Fünf methodische Fragen vor dem Pilot-Vergleich
Die erste Frage gilt der Referenz. Eine Anbieter-Aussage „87 Prozent Trefferquote“ bedeutet etwas anderes, wenn die Referenz ein hauseigener Codierer-Konsens ist, als wenn sie ein externer Goldstandard ist. Der Codierer-Konsens des eigenen Hauses trägt die hauseigene Codier-Praxis fort — einschließlich ihrer systematischen Lücken. Eine Codier-KI, die gegen den hauseigenen Konsens validiert, lernt mit hoher Trefferquote die hauseigene Konsens-Lage abzubilden, nicht den DRG-fähigen Codier-Stand. Ein externer Goldstandard liegt seltener vor; wo er vorliegt, liegt er in einer fremden Vergütungs-Logik. Beide Referenzen sind methodisch zulässig — aber sie messen verschiedene Größen, und nur eine davon trägt die Erlös-Argumentation.
Die zweite Frage gilt dem Korpus. Eine Trefferquote, die an einer Stichprobe der Anbieter-eigenen Validierungs-Klinik gemessen wurde, ist nicht übertragbar auf das eigene Haus, ohne dass die Indikations-Mischung, die Doku-Disziplin und die Multimorbiditäts-Lage abgeglichen werden. Eine Trefferquote, die an einer anglo-amerikanischen ICD-9-CM- oder ICD-10-CM-Stichprobe gemessen wurde, trägt strukturell nicht in eine deutsche ICD-10-GM- und OPS-Logik. Die Frage ist nicht „wie hoch“, sondern „an welchem Material“ — und die Antwort entscheidet, ob die Zahl überhaupt etwas über das eigene Haus aussagt.
Die dritte Frage gilt der Codiertiefe. Eine Trefferquote auf der Hauptdiagnose ist eine andere Zahl als eine Trefferquote auf den Nebendiagnosen, und beide unterscheiden sich von einer Trefferquote auf dem OPS und einer Übereinstimmung auf der DRG-Gruppierungs-Ebene. Die publizierte Validierungs-Literatur in JAMIA zeigt, dass automatische Codierungs-Modelle je nach Validierungs-Setup F1-Werte zwischen 0,5 und 0,9 erreichen — die Streuung erklärt sich überwiegend aus Codiertiefe, Korpus-Charakter und Referenz-Definition, nicht aus den Modellen selbst. Die Mehrheit dieser Studien ist anglo-amerikanisch; die Übertragung auf deutsche OPS- und DRG-Logik ist nicht trivial. Eine Anbieter-Aussage „92 Prozent“ auf der Hauptdiagnose ist mit einer Aussage „92 Prozent“ auf der DRG-Ebene nicht vergleichbar — auch wenn beide Anbieter denselben Prozentwert nennen.
Die vierte Frage gilt dem Endpunkt. Eine Codier-Übereinstimmung auf Code-Ebene ist eine andere Größe als eine monetäre Erlös-Differenz zur Status-quo-Codierung. Eine Codier-KI kann eine hohe Code-Übereinstimmung erreichen und gleichzeitig systematisch jene Codes verfehlen, die die DRG-Gruppierung verschieben — etwa schwer wiegende Nebendiagnosen mit Komplikations-Pauschalen oder spezielle OPS-Schlüssel mit Zusatzentgelt-Wirkung. Berichte in NEJM AI zeigen, dass Sprachmodelle (LLM) in spezifischen Sub-Korpora hohe Trefferquoten erreichen, jedoch bei Multimorbidität, Nebendiagnosen und seltenen Codes deutlich abfallen. Die Anbieter-Folie nennt fast immer das günstigere Aggregat; die DRG-Erlös-Wirkung sitzt in den schwächeren Sub-Bereichen. Eine seriöse Trefferquoten-Aussage führt beide Endpunkte mit — die Code-Übereinstimmung und die Erlös-Differenz auf Fall-Ebene.

Die fünfte Frage gilt dem Status-quo-Vergleich. Eine Trefferquote ist eine relative Größe; relativ zu was. Wenn die hauseigene Codierung — die Codierer:innen mit ihrer laufenden internen Kodierrevision — eine Code-Übereinstimmung von 88 Prozent gegen denselben Goldstandard erreicht, dann beziffert sich der Beitrag des Anbieters zu „92 Prozent“ auf vier Prozentpunkte, nicht auf 92. Die belastbare Vergleichs-Größe ist nicht die absolute Trefferquote des Anbieters, sondern der Abstand zwischen Codier-KI und der laufenden Codier-Linie des Hauses. Diese Differenz, multipliziert mit der hauseigenen Fall-Zahl und der typischen DRG-Erlös-Wirkung pro Code-Korrektur, ergibt die wirtschaftliche Größe, an der die Beschaffungs-Entscheidung tatsächlich hängt.
Hinter den fünf Fragen liegt eine strukturelle Beobachtung, die in der Beschaffungs-Diskussion oft übersehen wird. Eine Codier-KI verarbeitet die Primärdokumentation des Hauses — die Anamnese, den Operationsbericht, den Verlaufsbericht, den Entlassbericht. Was in diesen Berichten steht, entscheidet, was die Codier-KI codieren kann. Eine schwer wiegende Nebendiagnose, die im Entlassbericht zwar im Behandlungs-Verlauf erwähnt, aber nicht als Diagnose ausgewiesen wird, ist für eine Codier-KI nicht zwingend codierbar — und für eine andere Codier-KI eben doch, je nach Kontextualisierungs-Tiefe. Die Trefferquoten-Streuung zwischen verschiedenen Anbietern fällt deshalb häufig kleiner aus als die Trefferquoten-Streuung desselben Anbieters zwischen Häusern mit unterschiedlich diszipliniertem Doku-Bestand. In der deutschen Fach-Community kehren diese Anmerkungen wieder — die Beiträge auf medinfoweb.de betonen die Bedeutung der Primärdoku-Qualität als Voraussetzung jeder automatischen Codierung; die Diskussions-Stränge auf mydrg.de formulieren wiederkehrend die fehlenden methodischen Auskünfte zur Anbieter-Folie. Beide Plattformen sind Fach-Community-Kanäle, keine peer-reviewte Quelle; die methodische Schärfe variiert je Beitrag.
Daraus folgt eine Konsequenz für die Beschaffungs-Entscheidung. Der Beitrag „Die interne Kodierrevision: Strategischer Imperativ“ in KU Gesundheitsmanagement 04/2026 beschreibt die interne Kodierrevision als zentralen Hebel für korrekte DRG-Erlöse — KI-Codierung ergänzt sie, ersetzt sie nicht. Das ist eine Fachpresse-Position, kein peer-reviewter Befund; die Richtung der Empfehlung kommt aus dem Kontext der Krankenhausmanagement-Beratung. Die operative Folge bleibt nüchtern: ein Pilot-Vergleich zweier Codier-KI-Anbieter trägt nur, wenn das Haus zuvor seine eigene Codier-Linie und seinen eigenen Doku-Bestand kennt — und mit dieser Kenntnis in den Vergleich geht.

Eine Medizincontroller:in, die zwei Anbieter-Trefferquoten gegeneinander stellt, hat im Vorfeld drei eigene Größen zu erheben. Die erste ist die hauseigene Trefferquote gegen denselben Goldstandard, gegen den die Anbieter sich messen lassen — als Status-quo-Größe der laufenden Codier-Praxis. Die zweite ist die Indikations-Mischung im hauseigenen Fall-Bestand und ihre Streuung gegenüber den Validierungs-Korpora der Anbieter. Die dritte ist die Doku-Disziplin im hauseigenen Berichts-Bestand: vollständig erfasste Nebendiagnosen, OPS-relevante Verlaufs-Beschreibungen, behandelte Komorbiditäten in begründbarer Form. Ohne diese drei Größen liest sich jede Anbieter-Folie wie ein Wettbewerb, der nicht stattfindet — die genannten Prozent-Werte sind nicht vergleichbar mit der eigenen Lage und auch nicht miteinander.
Im eigentlichen Pilot-Vergleich entsteht daraus ein nüchternes Vorgehen. Eine identische Stichprobe an Akut-Fällen aus dem eigenen Haus, ein identischer Goldstandard (etwa eine externe Codier-Begutachtung der Stichprobe), eine identische Codiertiefe, eine identische Endpunkt-Definition. Die beiden Anbieter codieren parallel auf dieselben Berichte; die Auswertung führt sowohl die Code-Übereinstimmung pro Codiertiefe als auch die DRG-Erlös-Differenz pro Fall mit. Erst diese Vergleichs-Architektur trägt eine Beschaffungs-Entscheidung. Eine Anbieter-Folie mit einer freien Prozent-Zahl ist demgegenüber Marketing-Material — manchmal nicht falsch, aber strukturell nicht entscheidungsfähig.
Die nüchterne Beobachtung dazu: in der Akut-Klinik konkurriert die Anamnese-Vollständigkeit am Aufnahme-Tag mit dem Aufnahme-Telefonat um dieselben fünfzehn Minuten. Welche Disziplin in dieser Konkurrenz gewinnt, entscheidet die Klinik in jedem einzelnen Fall mit — und kumulativ in der Codier-Trefferquote, die ein halbes Jahr später jede Codier-KI im eigenen Haus erreicht. Eine Codier-KI kann das Doku-Defizit nicht ersetzen; sie kann es höchstens an den Rändern ausgleichen. Die Trefferquote ist Symptom; die Primärdokumentation ist Ursache.

Wer die Anbieter-Folie um die fünf Methodik-Fragen ergänzt — Referenz, Korpus, Codiertiefe, Endpunkt, Status-quo-Vergleich — liest die Trefferquote anders. Aus 87 und 92 Prozent werden zwei Aussagen, die nicht denselben Gegenstand messen. Wer sie ohne diese Fragen liest, kauft eine Erzählung. Wer sie mit diesen Fragen liest, kauft eine Vergleichs-Größe. Das Versprechen liest sich anders, wenn die Frage anders gestellt ist.
Der Beitrag bezieht sich auf peer-reviewte Beiträge zur automatischen medizinischen Codierung in JAMIA und NEJM AI (2024–2026), auf den Beitrag „Die interne Kodierrevision: Strategischer Imperativ“ in KU Gesundheitsmanagement 04/2026, auf laufende Diskussionsbeiträge der Fach-Communities mydrg.de und medinfoweb.de zur KI-Codierung sowie auf das Doku-Volumen-Material vom Asklepios Doctor's Docu Day. Der Beitrag gibt keine produktbezogene Empfehlung und keine Rechtsauslegung der DRG-Vergütungs-Vorschriften, des Operationen- und Prozedurenschlüssels (OPS) oder der Internationalen statistischen Klassifikation der Krankheiten und verwandter Gesundheitsprobleme, 10. Revision, German Modification (ICD-10-GM). Aiomics codiert nicht; die Verbindung zwischen Primärdokumentations-Disziplin und Codier-Trefferquote bleibt eine architektonische Beobachtung, keine Anbieter-Aussage. Die Anbieter-Klasse wird als generischer Begriff behandelt — keine namentliche Erwähnung einzelner Codier-KI-Anbieter.


