Spracherkennung ist nicht Dokumentation
Klinische Ambient-AI-Werkzeuge senken nachweislich die Schreibzeit und die Burnout-Last. Was sie nicht zeigen: ob der Output strukturell zu Reha-Bericht, Peer-Review und Entlassbrief passt — und warum das die teurere Frage ist.

Dr. Sven Jungmann
CEO

Auf einer Skala von eins bis fünf bewerten Ärzt:innen die Notizen, die ein Ambient-AI-Werkzeug aus ihrem Patientengespräch generiert, mit etwa 2,9 — gemessen an der Aussage „so gut wie meine eigene Notiz“. Das ist kein Verriss, aber auch kein Erfolg. Es ist die ehrliche Lesart der bisher größten randomisierten Vergleichsstudie zum Thema.
Die Doku-Last in Klinik und Praxis ist real. Studien dokumentieren seit Jahren, dass ärztliche Schreibzeit das Patientengespräch kürzt, die Pajama-Zeit verlängert und die Burnout-Skalen verschlechtert. Auf dieses Problem antwortet eine wachsende Klasse von Werkzeugen — sogenannte Ambient-AI-Scribes — mit einer technisch beeindruckenden Methode: Sie hören das Gespräch mit, transkribieren es, und liefern eine zur Bearbeitung vorgesehene Note in die Krankenakte. Die Schreibzeit sinkt; die Burnout-Skala bessert sich; das Patientengespräch wird wieder etwas freier. So weit das, was die Studien zeigen. Die Erzählung in der Klinik-IT-Diskussion läuft daraus oft schnell weiter zu „das Doku-Problem ist gelöst“ oder „in achtzehn Monaten gelöst“. Diese zweite Aussage ist eine andere — und sie wird in den vorliegenden Studien nicht belegt.
Was die Studien messen — und was sie nicht messen
Die bisher methodisch ambitionierteste Arbeit ist eine pragmatische 3-Arm-Studie aus den USA: Lukac und Kolleg:innen (medRxiv-Preprint 2025) verglichen über zwei Monate an einem Universitätskrankenhaus zwei kommerzielle Ambient-AI-Werkzeuge mit einer Kontrollgruppe. 238 Ärzt:innen aus vierzehn Fachrichtungen, 48.369 Encounter. Eines der beiden Werkzeuge senkte die Schreibzeit pro Notiz um 9,5 Prozent gegenüber der Kontrollgruppe (95-%-Konfidenzintervall -17,2 bis -1,8); das andere zeigte keinen signifikanten Effekt. Die Burnout-Skalen besserten sich in beiden Interventionsarmen. Was die Studie nicht maß: die Patient:innen-Outcomes, die Abrechnungs-Compliance und — entscheidend — ob die generierten Notizen den strukturellen Anforderungen nachgelagerter Berichte standhalten.
Die zweitgrößte Quelle ist eine Implementierungs-Studie aus dem Kaiser-Permanente-System (Tierney und Kolleg:innen, New England Journal of Medicine (NEJM) Catalyst 2024): Über 3.400 Ärzt:innen nutzten Ambient-AI in mehr als 303.000 Encountern während eines zehnwöchigen Pilots. Die Schreibzeit sank, die Patient:innen-Interaktion wurde wärmer wahrgenommen. Die Doku-Qualität wurde als „hoch genug zur Editierung“ bezeichnet — ein Selbstbewertungs-Maß, kein standardisierter Qualitäts-Index. Eine Rapid-Review aus 2025 (Kanaparthy und Kolleg:innen, Journal of Medical Internet Research (JMIR) AI) durchsuchte fünf Datenbanken über die Jahre 2014 bis 2024, identifizierte 1.450 Treffer und schloss am Ende sechs Studien ein. Eine davon bewertete Genauigkeit explizit (Score 48 von 50); Halluzinationen wurden in den anderen mit „few instances“ beschrieben, ohne quantitative Erfassung. Die Autor:innen zogen ein für Übersichtsarbeiten ungewöhnlich klares Fazit: Die real-world-Evidenz ist dünn, die Outcome-Metriken heterogen, die Patient:innen-Outcomes weitgehend unerhoben.
In dieser Lücke entsteht die zentrale Frage des Artikels. Schreibzeit-Reduktion ist messbar — und sie wird gemessen. Burnout-Reduktion ist messbar — und sie wird gemessen. Was nicht gemessen wird: ob das, was am Ende in der Akte steht, den Anforderungen entspricht, die das deutsche Gesundheitssystem an klinische Dokumentation stellt. Die Antwort darauf ist nicht „in einer Folgestudie demnächst“. Sie ist strukturell — und sie hat damit zu tun, dass Spracherkennung nicht Dokumentation ist, sondern eine Eingabeform.

Drei Stellen, an denen Kontext in Dokumentation übergeht
Eine Anamnese ist kein Monolog. Sie ist ein vom Arzt oder von der Ärztin geführtes Gespräch, in dem das Gesagte erst durch Bezug zu Vorbefunden, zur sozialen Situation und zum Reha-Ziel klinisch tragfähig wird. Welche Frage als nächstes gestellt wird, hängt davon ab, was im Akut-Bericht steht; welche Befunde nachgefragt werden müssen, hängt davon ab, was die Medikamentenliste schon nennt und was nicht. Ein Werkzeug, das die Anamnese transkribiert, ohne diese Bezüge mit aufzulösen, liefert ein lesbares Protokoll — kein anamnestisch verwertbares Dokument. Die zweite Stelle ist die Visite. Eine Visiten-Notiz ohne Bezug zum Behandlungspfad und zur Indikationsfachgruppe ist administrativer Text, kein klinisch handlungsleitender Eintrag. Was als „Patient stabil, Therapie wie geplant fortgesetzt“ transkribiert wird, ist erst dann Doku, wenn dahinter klar ist, ob „wie geplant“ sich auf den Reha-Therapie-Standard, auf die individuell vereinbarten Ziele oder auf den Verlauf der vergangenen drei Tage bezieht — und wenn diese Bezüge im strukturierten Eintrag des Krankenhausinformationssystems (KIS) auch ankommen. Die dritte Stelle ist die Aufnahme. Eine Aufnahme-Untersuchung ohne Bezug zu den Kostenträger-Anforderungen — im deutschen Reha-Kontext etwa die an der Internationalen Klassifikation der Funktionsfähigkeit (ICF) orientierte sozialmedizinische Beurteilung, die das Peer-Review-Verfahren der Deutschen Rentenversicherung (DRV) erwartet — verfehlt nicht die Patient:innen, sondern die Erlös-Mechanik des Hauses. Was die Aufnahme dokumentieren muss, sind nicht nur Diagnose und Anamnese, sondern Schädigung, Aktivität und Teilhabe in der Sprache der ICF; ein Gesprächsmitschnitt allein, so präzise transkribiert er sein mag, deckt diese Achsen nicht ab. An allen drei Stellen ist die Spracherkennung der einfache Teil. Der schwere Teil ist, was vor und nach dem Gespräch steht.
Hinzu kommt eine zweite Schicht, die in den klinischen Studien noch weniger gemessen wird: der Umgang mit widersprüchlichen Quelldaten. Ein Akut-Bericht aus dem zuweisenden Haus kann eine Auswurffraktion in einer Größenordnung nennen, die ein zweiter Befund anders angibt. Eine Medikation kann in einer Quelle erscheinen und in einer anderen fehlen. Wer einen flüssigen Notiz-Text aus diesen Daten generiert, ohne den Widerspruch sichtbar zu machen, produziert eine sprachlich überzeugende Falschaggregation. Die Notiz wirkt sauber; sie verbirgt die Uneinheitlichkeit der Quellen. Das ist kein Halluzinations-Phänomen im engeren Sinne — die Bestandteile stimmen einzeln. Es ist eine schlechtere Zusammenfassung als die uneinheitliche Quellenlage selbst, weil sie eine Konfidenz überträgt, die in den Daten nicht steckt.
Diese zwei Befunde — strukturelle Compliance-Lücke und unsichtbare Datenwidersprüche — sind keine Einschränkungen, die sich durch eine bessere Sprachmodell-Generation auflösen lassen. Sie sind Fragen der Architektur, nicht der Modellqualität. Ein größeres Modell transkribiert flüssiger; es stellt aber nicht plötzlich die Verbindung zur Akut-Akte her, weil diese Verbindung außerhalb des Sprachmodell-Inputs liegt. Das Argument für Ambient-AI muss daher nicht weniger ehrlich werden; es muss enger werden. Was die Werkzeuge gut können, sollten sie tun; wo sie an strukturelle Grenzen stoßen, ist nicht das Werkzeug schuld, sondern der Anspruch, mit dem es vermarktet wird.
Spracherkennung als Eingabe, Dokumentation als Output
Wir gehen bei Aiomics von einer einfachen Trennung aus. Spracherfassung ist Eingangsdatenstrom, kein Endpunkt. Was hineinkommt — das transkribierte Gespräch, das Diktat, das Ambient-Audio — wird im selben Schritt mit dem angereichert, was draußen längst da ist: Vorbefunde, Stammdaten, klinische Standards der Indikationsfachgruppe, formale Kostenträger-Anforderungen, der spezifische Behandlungspfad des Hauses. Erst aus dieser Anreicherung entsteht Dokumentation, die nachgelagerte Prozesse trägt — der Reha-Bericht, das Peer-Review-Verfahren, der Entlassbrief, die Codierung. Diese Tiefe ergibt sich nicht aus einem größeren Sprachmodell. Sie ergibt sich aus einem Datenmodell, das die klinischen Entitäten, ihre Beziehungen und die formalen Anforderungen ihrer Verwendung repräsentiert. Konkret heißt das: Jede Aussage bleibt zur Quelle zurückführbar, Widersprüche zwischen Quellen werden sichtbar gemacht statt verschmolzen, und die strukturellen Felder des nachgelagerten Berichts werden gezielt befüllt, statt aus einem Fließtext rückwärts wieder herausgesucht zu werden. Das ist eine Architekturwahl, keine Werbeaussage.

Praktisch heißt das auch: Ein Werkzeug, das nur transkribiert, ist nicht falsch — es ist eingeschränkt. Es löst die einfache Hälfte der Doku-Last, und das ist eine reale Leistung. Aber es entlastet die Klinik nicht in dem Maß, das die Doku-Krise verlangt; und es liefert keinen Reha-Bericht, der im Peer-Review konsistent durchläuft. Die zweite Hälfte verlangt ein anderes Architekturmuster: Quelle-zu-Quelle-Provenienz, Konsistenzprüfung über mehrere Befunde, sichtbares Markieren von Widersprüchen statt deren Verschmelzung. Diese Architektur ist nicht teurer, sie ist anders. Sie ist auch nicht auf deutsche Reha-Häuser bezogen — die strukturellen Anforderungen tragen anderswo andere Bezeichnungen: Kostenträger-Compliance, Outcomes-Reporting, an das US-amerikanische Merit-based Incentive Payment System (MIPS) angelehnte Doku, je nach System.
Die Studienlage wird sich in den nächsten 18 Monaten weiter ausdifferenzieren. Standardisierte Doku-Qualitäts-Skalen und strukturelle Compliance-Maße sind in Vorbereitung; die Rapid-Review von Kanaparthy und Kolleg:innen nennt das ausdrücklich als Forschungslücke. Bis dahin tragen die heutigen Studien das, was sie tragen können — Schreibzeit-Reduktion, Burnout-Verbesserung, hohe Selbstbewertung der Editierbarkeit. Sie tragen nicht die These, dass Spracherkennung Dokumentation ist. Diese These wird in der Vermarktung manchmal nahegelegt; in den Daten findet sie sich nicht. Für ein Reha-Haus in Deutschland mit Verantwortung für Reha-Bericht, Peer-Review und KTL-Codierung ist das kein theoretischer Einwand — es ist die Frage, ob ein Werkzeug, das die Schreibzeit halbiert, dieselbe Klinik in zwei Jahren weniger oder gleich viel Aufwand bei der Audit-Vorbereitung kostet. Die Antwort entscheidet sich nicht am Mikrofon. Sie entscheidet sich an der Stelle, wo Transkription auf Vorbefund, Behandlungspfad und Berichtsstruktur trifft — und dort entweder zu einer in sich schlüssigen Dokumentation wird oder zu einer Nacharbeit, die das gesparte Quartier wieder kostet.

Spracherkennung ist Eingabe, nicht Doku — wer beides verwechselt, automatisiert die einfache Hälfte und unterschätzt die schwere.
Dieser Beitrag stützt sich auf öffentlich publizierte Studien und auf die Architekturannahmen, die Aiomics für die eigene Software trifft. Er enthält keine empirisch gemessenen Aiomics-Kund:innen-Befunde und ist nicht als Bewertung benannter Marktanbieter zu lesen.


