Wenn KI-Dokumentations-Studien sich widersprechen: drei methodische Knackpunkte
Studien zu KI-gestützter Klinik-Dokumentation berichten Zeitersparnisse zwischen 0 und 50 Prozent. Die Bandbreite liegt nicht an der Technik, sondern an der Methodik — an drei Stellen, an denen die Studien strukturell unterschiedlich rechnen.

Dr. Sven Jungmann
CEO

Studien zur KI-gestützten Klinik-Dokumentation berichten Zeitersparnisse zwischen 0 und etwa 50 Prozent. Diese Bandbreite ist groß genug, um eine Frage aufzuwerfen: Welche Zahl gilt? Die Antwort steht nicht in der Technik. Sie steht in der Methodik. Eine 30-Prozent-Zeitersparnis in einer anbietergeführten Vorher-nachher-Studie ohne Lerneffekt-Kontrolle ist eine andere Aussage als eine 30-Prozent-Zeitersparnis in einer kontrollierten Studie mit Standard-of-Care-Vergleichsarm — auch wenn die Zahl identisch ist. Die methodische Lesart der Studienlage ist deshalb wichtiger als die Effektgrößen-Schlagzeile.
Reviews im New England Journal of Medicine — AI (NEJM AI) und Übersichten in Lancet Digital Health 2024–2026 zeigen die Bandbreite konsistent: Studien mit methodisch sauberem Design — Standard-of-Care-Vergleichsarm, Lerneffekt-Kontrolle, und (selten) validierte Doku-Qualitäts-Operationalisierung — berichten in der Regel kleinere Zeitersparnisse als anbietergeführte Vorher-nachher-Studien zur gleichen Software-Klasse. Die Differenz ist nicht zufällig. Sie ist die direkte Folge der drei methodischen Knackpunkte, die im Folgenden beschrieben werden. Diese Knackpunkte sind die methodische Voraussetzung für eine kalibrierte Lektüre — eine Effektgröße ohne sie bleibt eine Zahl ohne ihren methodischen Kontext.
Knackpunkt 1: Die Vergleichs-Baseline
Eine Studie zur KI-Doku misst die Software gegen eine Vergleichs-Baseline. Die Frage, was die Baseline genau ist, entscheidet die Hälfte der Effektgröße. Arbeiten in JAMA Network Open 2023–2026 dokumentieren das Muster konsistent: Dieselbe Software, gegen einen unoptimierten papierbasierten Klinik-Workflow gemessen, zeigt deutlich größere Zeitersparnisse als gegen einen bereits optimierten elektronischen Workflow. Die Differenz ist keine Eigenschaft der Software — sie ist eine Eigenschaft der Baseline. Anbieter-Studien wählen häufig die unoptimierte Baseline, weil dort die Zeitersparnisse größer ausfallen. Implementation-Science-Bewertungen müssen die Baseline explizit deklarieren und begründen, warum diese Baseline klinisch relevant ist. Eine Studie ohne Baseline-Deklaration hat ein halbes Argument geliefert.
Knackpunkt 2: Die Kontrolle für Lerneffekte
Arbeiten im British Medical Journal (BMJ) 2023–2026 berichten konsistent, dass Lerneffekte in den ersten 30 bis 60 Tagen nach KI-Einführung erheblich sind. Die Kliniker:in, die in den ersten Wochen deutlich länger pro Bericht braucht als nach acht Wochen Routine, lebt diese Lernkurve unabhängig vom Software-Effekt — und der Lerneffekt selbst macht einen wesentlichen Anteil des kumulativen Zeitgewinns aus. Eine Studie, die die ersten 30 Tage in die Auswertung einbezieht, mischt den Lerneffekt unweigerlich mit dem Software-Effekt. Methodisch saubere Studien schließen die Lernkurven-Phase aus oder kontrollieren sie über einen Vergleichsarm, der dieselbe Lernkurve durchläuft. Anbieter-Studien tun das oft nicht — und berichten dann eine Gesamt-Zeitersparnis, die strukturell durch die Lernkurve mit-verursacht ist. Eine Effektgröße ohne ausgewiesene Lerneffekt-Kontrolle enthält strukturell die Lernkurve und ist keine reine Software-Wirkung.
Knackpunkt 3: Die Operationalisierung von Doku-Qualität
Reviews in Lancet Digital Health betonen, dass die Operationalisierung von Doku-Qualität die methodisch dünnste Stelle der aktuellen Studienlage ist. Zeitmessung ist methodisch einfach — eine Stoppuhr, eine Klick-Tracker-Auswertung, ein Logfile. Qualitätsmessung verlangt Inter-Rater-Validierung durch unabhängige klinische Reviewer:innen, eine Verknüpfung mit klinisch-relevanten Outcome-Variablen und eine prospektive Audit-Struktur. Diese Voraussetzungen sind in vielen aktuellen Studien nur skizziert oder ganz weggelassen. Studien in Health Affairs 2023–2026 dokumentieren die Lücke konsequent: Die meisten KI-Doku-Studien bleiben bei Prozess-Outcomes (Zeit, Compliance) und überlassen die Verknüpfung mit klinischen Outcomes — Wiederaufnahme-Raten, Behandlungs-Qualität, Patient:innen-Sicherheit — späteren Arbeiten. Eine Studie, die die Doku-Qualität nicht prospektiv und unabhängig misst, hat den Effekt nicht gemessen, der klinisch zählt.

Was die richtige Frage an eine KI-Doku-Studie ist
„Spart KI Zeit?“ ist die populärste Frage an eine KI-Doku-Studie. Sie ist methodisch nicht falsch, aber sie ist zu schmal. Eine Studie, die nach den drei Knackpunkten gelesen wird, lässt sich kalibriert lesen — Baseline-Repräsentativität, Lerneffekt-Kontrolle und Doku-Qualitäts-Operationalisierung sind die Frage hinter der Effektgröße. Eine Effektgröße ohne diese Lesart bleibt eine Zahl ohne Methodik-Kontext.
Diese drei Fragen sind keine akademische Spitzfindigkeit. Sie sind die methodische Voraussetzung dafür, dass eine Effektgröße als Klinik-Argument trägt. Eine 30-Prozent-Zeitersparnis in einer Studie, die alle drei Fragen klar beantwortet, ist ein robustes Argument für eine Investitions-Entscheidung. Eine 30-Prozent-Zeitersparnis in einer Studie, die zwei oder drei der Fragen ausweicht, ist ein Marketing-Argument in Studien-Form. Diese Unterscheidung entscheidet eine andere Software-Wahl — und meistens die methodisch tragfähigere.

Aus der methodischen Lesart folgt eine architektonische Konsequenz: Eine Klinik-Doku-Software, deren Bewertungsachse die Zeitersparnis ist, optimiert auf einen Endpunkt, der klinisch nur in Verbindung mit der Doku-Qualität trägt. Eine Software, deren Bewertungsachse die Doku-Qualität, die Konsistenz mit Vorbefunden und die Audit-Tauglichkeit sind, optimiert auf die klinisch tragfähigeren Endpunkte. Eine Software, die schneller dokumentiert, aber dabei Halluzinations-Maskierung produziert oder Quellen-Inkonsistenzen glättet, verbraucht den Doku-Qualitäts-Vorrat, den ihre Geschwindigkeit eigentlich freisetzen sollte. Diese Architekturwahl ist die Konsequenz einer methodischen Entscheidung — und die methodische Entscheidung ist die Konsequenz einer methodischen Lesart der Studienlage.

Eine Studie, die alle drei Knackpunkte sauber adressiert, sagt etwas anderes als eine, die zwei davon ausweicht — bei gleicher Effektgröße. Die methodische Lesart ist die Voraussetzung dafür, dass „die Studienlage zeigt“ mehr ist als ein Marketing-Idiom. Drei Fragen vor der Effektgröße — mehr verlangt eine kalibrierte Lesart nicht.
Aiomics betreibt eine Klinik-Dokumentations-Architektur, deren Bewertungsachse die Doku-Qualität ist und nicht die Zeitersparnis. Der Beitrag beschreibt allgemeine methodische Muster aus der peer-reviewed Studienlage. Er nennt keine konkreten Anbieter, weil die methodischen Knackpunkte produkt-unabhängig sind.


