9. Mai 20264 Min. Lesezeit

Wenn kein Mensch die Akte aktualisiert: maschinelles Lernen trifft Faxgerät

Ein US-Klinikverbund brachte Software bei, gescannte Koloskopie-Befunde zu lesen und Wiedervorstellungsdaten in die Akte zu schreiben. Klug und ehrlich gebaut — doch eine Machbarkeitsstudie an einem Standort, und nur ein Drittel der Befunde erreichte ihn.

Dr. Sven Jungmann

CEO

Editorial-Collage: eine gescannte Befundseite mit geschwärztem Datum, ein sich verengender Trichter aus Papierschnipseln und ein einzelner Amber-Punkt, der ein Feld der Akte markiert.

Ein externer Koloskopie-Befund kommt per Fax, wird in die Akte eingescannt und liegt dort als Bild. Die Patientin hatte Polypen; die durchführende Gastroenterologin schrieb, sie solle in drei Jahren wiederkommen. Doch im Erinnerungsfeld der Akte stehen weiterhin zehn Jahre — der Standardwert —, weil niemand das Bild je geöffnet und das Feld geändert hat. Drei Jahre später schweigt das System. Genau dieses unscheinbare Versagen will die Studie der NYU Langone Health beheben, und sie lohnt die Lektüre gerade deshalb, weil das Problem so banal und so verbreitet ist.

Etwa vier von fünf klinischen Dokumenten existieren als unstrukturierter Freitext, vieles davon eingescannt aus anderen Häusern. Nichts davon löst die Regelwerke aus, die auf strukturierte Felder angewiesen sind. Die Forschenden bauten eine Verarbeitungskette, die eine eng umrissene Lücke schließen soll: den gescannten Koloskopie-Befund lesen, das empfohlene Wiedervorstellungsintervall herauslösen und es in das Vorsorgefeld der Akte schreiben — ohne einen Menschen im Ablauf.

Was die Forschenden gebaut haben

Ein Modell des maschinellen Lernens, trainiert an 7.021 Dokumenten, liest jeden Befund und schlägt ein Wiedervorstellungsdatum vor; es handelt nur, wenn seine eigene Konfidenz über 70 Prozent liegt. Ein Software-Roboter — robotergestützte Prozessautomatisierung (RPA), dieselbe bildschirmsteuernde Technik, die auch Webformulare ausfüllt — öffnet dann die Akte und beschreibt das Feld, aber nur, wenn keine von neun vordefinierten Ausnahmeregeln greift. Die wichtigste dieser Regeln ist bewusst konservativ: Der Roboter überschreibt kein Datum, das bereits eine ärztliche Person gesetzt hat. Wo ein Mensch geurteilt hat, tritt die Maschine zurück. Das ist der richtige Instinkt, und es ist der Teil des Entwurfs, der am ehesten nachahmenswert ist.

Ebenso wichtig ist Klarheit über die Evidenzstufe: Dies ist eine Machbarkeitsstudie zur Prozessentwicklung (Proof-of-Concept), kein klinischer Versuch. Es gibt keine Kontrollgruppe, keine prospektiv begleiteten Patient:innen, keinen Endpunkt jenseits der Frage, ob das richtige Datum im richtigen Feld landete. Das zu veröffentlichen ist völlig legitim; es ist nur nicht das, was ein randomisiertes Ergebnis wäre, und die Leserin sollte es mit genau dieser Stärke gewichten.

Was die Evidenz belegt

In der Validierung lag die Gesamtgenauigkeit bei 80,7 Prozent (557 von 690 Dokumenten). Im systemweiten Betrieb verarbeitete die Kette zwischen Oktober 2023 und Dezember 2024 16.563 externe Koloskopie-Befunde, und von den Dokumenten, die den Automatisierungsschritt erreichten, führten 77,2 Prozent zu einer erfolgreichen Aktualisierung. Die Forschenden schätzen, dass sich die Genauigkeit der Vorsorge-Erinnerungsdaten um knapp 30 Prozent verbesserte. Für ein Feld, in dem die Alternative darin besteht, dass jemand Daten aus gescannten Faxen abtippt, ist das ein realer, nützlicher Gewinn — und die ehrliche, eng gefasste Aussage, die die Daten tragen.

Was die Evidenz nicht belegt

Zwei Zahlen entscheiden, ob dies eine Lösung oder ein Anfang ist. Die erste ist die Falsch-Negativ-Rate: 32,9 Prozent (130 von 395). In fast einem Drittel der Fälle, in denen tatsächlich ein Wiedervorstellungsdatum im Befund stand, erkannte das Modell es nicht. In der Vorsorge ist die Auslassung der gefährliche Fehler — es ist die Patientin, die stillschweigend nicht einbestellt wird —, und die wichtigste Sicherheitsmarge des Systems besteht darin, dass es schweigt, statt ein falsches Datum zu schreiben. Die zweite Zahl ist der Trichter. Von den 16.563 Befunden waren nur 35,3 Prozent (5.841) überhaupt für die RPA bereit; die eindrucksvollen 77,2 Prozent gelten allein für dieses kleinere Segment. Über die gesamte Kette aktualisierte das System in der Validierung 27,2 Prozent der Fälle korrekt — 188 von 690. Den größten Teil der Arbeit braucht weiterhin ein Mensch.

“In fast einem Drittel der Fälle, in denen ein Wiedervorstellungsdatum vorlag, fand das Modell es nicht. In der Vorsorge ist die Auslassung der gefährliche Fehler.”

Und das Ganze ruht auf dem System eines einzigen Hauses — Epic, UiPath, OnBase — an einem einzigen US-Klinikverbund, ohne externe Validierung. Die Forschenden räumen offen ein, dass die Architektur fragil ist: Eine Routineaktualisierung an irgendeiner Komponente kann den Roboter unbemerkt lahmlegen, und die Rate fehlender Angaben in den eingehenden Befunden ist hoch. Nichts davon entwertet die Arbeit. Es begrenzt sie. Verallgemeinerbar ist das Entwurfsmuster — konfidenzgesteuerte Extraktion, konservative Schreibregeln, eine Maschine, die bei Unsicherheit innehält —, nicht die Kette selbst, die anderswo neu gebaut und neu validiert werden müsste.

Warum das hier zählt

Deutsche Krankenhäuser haben denselben Stau gescannter Fremdbefunde und dieselben Erinnerungsfelder, in denen still veraltete Standardwerte stehen. Der Reiz, diese Lücke zu automatisieren, liegt auf der Hand — und ebenso die Falle: Ein System, das weitgehend unbeaufsichtigt in die Patientenakte schreibt, braucht eine benannte verantwortliche Stelle, eine Nachvollziehbarkeit der Schritte und eine klare Antwort darauf, wer haftet, wenn ein Datum falsch ist. Der übertragbarste Befund ist hier kein Werkzeug, sondern eine Disziplin: die Maschine nur dort handeln zu lassen, wo der Kontext eng definiert ist, sie bei geringer Konfidenz anhalten zu lassen und einem Menschen jederzeit das Übersteuern zu ermöglichen. Gemessen an einer Fehlerquote von einem Drittel ist diese Zurückhaltung keine Vorsicht um ihrer selbst willen. Sie ist der Entwurf, der wie beabsichtigt funktioniert.

Quelle: Stevens ER, Hartman J, Testa P, et al. Leveraging Machine Learning and Robotic Process Automation to Identify and Convert Unstructured Colonoscopy Results Into Actionable Data: Proof-of-Concept Study. JMIR Medical Informatics 2025;13:e73504. Eine Machbarkeitsstudie an einem einzigen Zentrum, ohne externe Validierung und ohne patientenbezogenen Endpunkt; ihre Erfolgsquote in der Schlagzeile gilt nur für das Drittel der Befunde, das den automatisierten Schritt erreichte.

#Journal Club#Klinische KI#Medizinische Informatik#Evidenzbasierte Medizin#Automatisierung

Wenn kein Mensch die Akte aktualisiert: maschinelles Lernen trifft Faxgerät

Was die Forschenden gebaut haben

Was die Evidenz belegt

Was die Evidenz nicht belegt

Warum das hier zählt

Weiterlesen

Warum aiomics für QM-Berichte und Qualitätsanalytik

Warum aiomics für Kodiervorschläge und die §301-Vorbereitung

Warum aiomics für Entlassbriefe und Arztbriefe

Diese Analyse stammt von den Leuten hinter Visite.

Sie möchten das in Ihrer Klinik sehen?