Zum Hauptinhalt springen
Datenqualität7 Min. Lesezeit

Strukturierte Datenextraktion aus Faxen: Was technisch geht

Im deutschen Reha-Markt kommen Vorbefunde überwiegend per Fax o. PDF. Die Kombination aus optischer Zeichenerkennung und großem Sprachmodell überträgt das Konvolut in eine durchsuchbare Form & sie produziert auch 2026 noch eine Reihe Inhalts-Fehler.

Dr. Sven Jungmann

Dr. Sven Jungmann

CEO

OCR LLM Klinik Fax Extraktion — eine Klinik-IT-Leitung im Aufnahme-Bereich liest die strukturierte Aufnahme-Maske gegen das gefaxte Befund-Konvolut, in dem Negationen, Datums-Felder und Diagnose-Codes die Stelle markieren, an der die ärztliche Aufnahme-Person das Ergebnis prüft.

Eine Reha-Klinik in Süddeutschland bekommt an einem Werktag rund vierzig Vorbefund-Konvolute aus den vor-belegenden Akut-Häusern und den niedergelassenen Praxen. Etwa drei Viertel kommen per Fax, der Rest als PDF-Anhang. Das Aufnahme-Sekretariat heftet, sortiert und reicht die Konvolute an die ärztliche Aufnahme weiter, die in einem ohnehin knappen Zeit-Korridor die Indikations-Lage prüft, die Vor-Medikation rekonstruiert und die Ziel-Vereinbarung formuliert. Die Idee, an dieser Stelle eine optische Zeichenerkennung mit nachgelagertem Sprachmodell einzubauen — also: das Konvolut zu lesen, zu strukturieren und in die Aufnahme-Maske zu legen — kommt seit etwa zwei Jahren in jeder Anbieter-Demo vor. Sie ist technisch möglich. Sie ist aber kein Ersatz für die ärztliche Aufnahme-Lektüre, sondern ihr Vor-Sortier-Werkzeug.

Die Anbieter-Demos beginnen meist mit einer Genauigkeits-Zahl. „Zeichen-Genauigkeit 99 Prozent“ oder „Feld-Genauigkeit 95 Prozent“ auf Folie sechs. Beide Zahlen sind nicht falsch und beide sind nicht das, woran sich die operative Brauchbarkeit entscheidet. Die operative Brauchbarkeit entscheidet sich an drei Verarbeitungs-Stufen mit jeweils eigener Fehler-Signatur, an vier Inhalts-Fehler-Klassen, die auch bei sehr hoher Zeichen-Genauigkeit erhalten bleiben, und an drei Folgerungen für die Beschaffung. Der Beitrag geht durch diese Mechanik durch — getrennt von der Demo-Zahl, getrennt von der ePA-Hoffnung, getrennt von der Vertrags-Verhandlung.

Drei Verarbeitungs-Stufen mit eigener Fehler-Signatur

Stufe eins ist die Zeichen-Erkennung. Eine Fax-Übertragung legt das Original auf eine Halbton-Auflösung von rund 200 dpi fest, reduziert den Kontrast und blendet hand-schriftliche Ergänzungen unsystematisch ein. Auf gut gedruckten Original-Bögen erreichen aktuelle OCR-Werkzeuge — Tesseract und die Cloud-Dienste der großen Anbieter — Zeichen-Genauigkeiten in der Größenordnung von 95 bis 99 Prozent. Auf gefaxten Befunden mit hand-schriftlichen Korrekturen am Rand, mit gestempelten Briefkopf-Schlüsseln und mit Tabellen-Zellen geringer Höhe sinkt der Wert merklich. Wichtig ist: die Fehler verteilen sich nicht gleichmäßig. Sie konzentrieren sich auf Zahlen-Felder, auf Zeichen-Paare wie 0 und O, 1 und l, 5 und S, und auf den Übergang zwischen Druck und Hand-Schrift.

Stufe zwei ist das Layout-Verständnis. Ein Reha-Entlassbericht trägt seine Information nicht im Fließ-Text allein. Diagnose-Codes stehen im Briefkopf, die Vor-Medikation in einer halb-strukturierten Liste, die Verlaufs-Befunde in tabellarischen Spalten, die Aufnahme-Empfehlung im freien Schluss-Absatz. Reine OCR ohne Layout-Bewusstsein liest die Zeichen, aber sie verliert die Bedeutung der Position. Layout-bewusste Modelle lesen Text und Position gemeinsam: Xu und Kolleg:innen (2020) haben mit LayoutLM eine vortrainierte Repräsentation von Text und Layout vorgelegt; Kim und Kolleg:innen (2022) haben mit Donut ein OCR-freies Modell vorgeschlagen, das das Dokument-Bild direkt in eine strukturierte Ausgabe abbildet und so die OCR-Fehler-Fortpflanzung vermeidet; Lee und Kolleg:innen (2023) bringen mit Pix2Struct die generative Frage-Antwort-Extraktion auf Dokument-Bilder; Wang und Kolleg:innen (2023) haben mit DocLLM die Layout-Bewusstheit in ein generatives Sprachmodell integriert. Der Effekt auf strukturierten Formularen ist messbar; auf gefaxten klinischen Befunden mit gemischtem Schrift-Bild bleibt das Restrisiko, dass Felder verschoben oder verwechselt werden, höher als auf akademischen Benchmark-Datensätzen.

Stufe drei ist die semantische Plausibilisierung. Eine Diagnose, die das Modell aus dem Briefkopf erkannt hat, lässt sich gegen ein klinisches Vokabular spiegeln — die Internationale Klassifikation der Krankheiten (ICD-10), die Systematized Nomenclature of Medicine (SNOMED CT), die Logical Observation Identifiers Names and Codes (LOINC). Eine numerische Aussage zu einem Laborwert lässt sich auf Einheit, Referenz-Bereich und Norm-Befund prüfen. Eine Datums-Aussage lässt sich auf Plausibilität gegen das Aufnahme-Datum prüfen. Diese Plausibilisierungs-Schicht ist die Stelle, an der semantische Fehler aus den ersten beiden Stufen auffallen — oder eben nicht. Studien im Journal of the American Medical Informatics Association (JAMIA) zeigen, dass diese dritte Schicht die Rate semantisch-falscher Extraktions-Ergebnisse merklich senkt; ohne sie steigt der Anteil der Ergebnisse, die wie eine plausible Klassifikation aussehen, aber inhaltlich an der Befund-Aussage vorbeigehen.

Die 3 Stufen Zeichen-Erkennung, Layout-Verständnis und semantische Plausibilisierung tragen jede einen eigenen Fehler-Typ; die Brauchbarkeit entscheidet sich an der Plausibilisierungs-Schicht.
Drei Stufen, drei Fehler-Typen. Die Plausibilisierungs-Schicht ist die Stelle, an der das Modell sich selbst korrigieren kann — oder eben nicht.·aiomics

Vier Inhalts-Fehler-Klassen, die ärztliche Validierung verlangen

Die in der npj Digital Medicine-Literatur und in der klinischen Information-Extraction-Forschung wiederkehrende Beobachtung lautet: Fehler verteilen sich nicht zufällig auf das Dokument, sondern konzentrieren sich auf wenige Inhalts-Klassen. Erstens: Negationen. „Kein Hinweis auf Restenose“ und „Hinweis auf Restenose“ unterscheiden sich in einem einzigen Wort, das in einem schlecht gefaxten Original vom Modell überlesen oder hineingelesen werden kann; das Vorzeichen des Befunds dreht sich. Zweitens: Datums-Verschiebungen. Ein Reha-Entlassbericht enthält in der Regel mehrere Daten — Aufnahme-Datum, Entlass-Datum, Vor-Operations-Datum, einzelne Befund-Daten — und Modell-Ausgaben verwechseln sie unter Druck zuverlässig. Drittens: numerische Felder mit Mehrdeutigkeit. Ein Laborwert „125“ ohne klar zuordenbare Einheit, ein Hämoglobin-Wert in einer Spalte, deren Kopf in der Halbton-Übertragung nicht mehr lesbar ist, ein Referenz-Bereich, der mit dem Befund-Wert räumlich verschmilzt. Viertens: semantische Plausibilisierungs-Verwechslung. Eine ähnlich klingende Diagnose mit einem ICD-Nachbarn-Code, eine Operations-Bezeichnung, die das Modell einer falschen Verfahrens-Klasse zuordnet, eine Medikamenten-Bezeichnung mit handelsname-zu-Wirkstoff-Verwechslung. Diese vier Klassen reduzieren sich durch reine Modell-Skalierung nicht auf null. Sie sind die Stelle, an der die ärztliche Aufnahme-Person eine systematische Validierungs-Rolle behält.

OCR LLM Klinik Fax Validierung — die ärztliche Aufnahme-Person liest das vor-strukturierte Ergebnis gegen das gefaxte Original und prüft Negation, Datum, Zahl und Diagnose-Code.
Die vier Fehler-Klassen sind robuster als die Genauigkeits-Werte. Sie entscheiden, an welcher Stelle die ärztliche Aufnahme-Lektüre nicht ersetzt, sondern verschoben wird.·aiomics

Was eine brauchbare Pipeline am Ausgang erzeugt

Eine Pipeline, deren Ergebnis in einer freien Text-Maske der Aufnahme-Software landet, ist für die nachgelagerte Verarbeitung wenig wert. Eine Pipeline, deren Ergebnis als Health Level Seven Fast Healthcare Interoperability Resources (HL7-FHIR)-Ressourcen — Patient, Encounter, Observation, Condition, MedicationStatement, DiagnosticReport — am Ausgang steht, knüpft an das Schema an, in dem die Klinik-IT die strukturierten Daten ohnehin verarbeitet. Drei Eigenschaften sind dafür nötig. Die erste Eigenschaft ist Konfidenz pro Feld: jedes extrahierte Feld trägt einen Konfidenz-Wert mit, der die Auswertbarkeit für die ärztliche Validierungs-Maske trägt. Die zweite Eigenschaft ist Provenienz pro Aussage: jede Behauptung im FHIR-Ergebnis ist auf die Quell-Stelle im Dokument-Bild zurückführbar — Seite, Position, Original-Zeichenfolge —, sodass die ärztliche Person bei einer Rück-Frage auf die Original-Stelle springen kann, ohne das Konvolut neu zu lesen. Die dritte Eigenschaft ist Versions-Disziplin: das Modell, das das Ergebnis erzeugt hat, ist mit Identifikations-Merkmal und Stand benannt, sodass eine spätere Aufsichts-Anfrage rekonstruieren kann, welcher Modell-Stand das Ergebnis erzeugt hat.

Die operative Frage ist nicht, wie viele Zeichen das System richtig liest — sondern welche Inhalts-Fehler es nicht selbst bemerkt und an die ärztliche Aufnahme-Person weitergibt.

Die langfristige Einordnung: KIM, ePA und FHIR — und der Sicherheits-Bezug

Die OCR-LLM-Pipeline ist eine Brücken-Technologie für eine Übergangsphase, keine Dauer-Lösung. Die Gematik hat mit der Telematikinfrastruktur (TI) den Pfad gelegt: Kommunikation im Medizinwesen (KIM) für strukturierte E-Mail mit Verschlüsselung und Integritäts-Sicherung; elektronische Patientenakte (ePA für alle) als medien-übergreifenden Daten-Raum; HL7-FHIR als gewähltes Schema. In der Reha-Sektion ist die Anschluss-Quote bei Redaktionsschluss noch nicht vollständig — Fax bleibt parallel im Einsatz. Das Bundesamt für Sicherheit in der Informationstechnik (BSI) ordnet Fax als Übergangs-Medium ein und benennt die Risiken: keine Ende-zu-Ende-Verschlüsselung, keine zuverlässige Empfänger-Authentifizierung, anfällig für Fehl-Adressierung. An dieser Stelle knüpft die Extraktions-Diskussion an den Aiomics-Anker-Artikel „Das Fax als Angriffsvektor“ an: Der Anker behandelt das Sicherheits-Risiko des Eingangs-Pfads; dieser Beitrag bleibt bei der Extraktions-Mechanik. Beide Achsen treffen sich in derselben Architektur-Entscheidung — eine Extraktions-Pipeline, deren Eingangs-Pfad nicht abgesichert ist, übernimmt das Risiko des Pfads in den FHIR-Ergebnis mit.

Eine Klinik-Geschäftsführung & eine ärztliche Direktion lesen die 3 Beschaffungs-Fragen gegen die Anbieter-Antwort & prüfen Pilot-Test am eigenen Bestand, FHIR-Mappbarkeit & ärztliche Validierung.
Drei Fragen, drei Antworten. Sie machen die Demo prüfbar — und sie verschieben die Diskussion von der Genauigkeits-Zahl zur Architektur.·aiomics

Strukturierte Datenextraktion aus Faxen ist 2026 technisch lösbar, aber sie ist nicht trivial. Die drei Verarbeitungs-Stufen tragen jede ihre eigene Fehler-Signatur, die vier Inhalts-Fehler-Klassen verlangen ärztliche Validierung, und der FHIR-fähige Ausgang mit Konfidenz und Provenienz entscheidet, ob das Ergebnis in der nachgelagerten Klinik-Architektur trägt oder als Insel stehen bleibt. Die ärztliche Aufnahme-Lektüre wird durch die Vor-Strukturierung nicht ersetzt; sie wird verschoben — von der Erst-Sortierung des Konvoluts zur Validierung der vier Stellen, an denen das Modell typischerweise irrt. Eine Klinik, die diese Verschiebung sauber organisiert, gewinnt Aufnahme-Zeit. Eine Klinik, die die Vor-Strukturierung wie eine fertige Aufnahme-Akte behandelt, importiert die vier Fehler-Klassen still in die Akte hinein.

#OCR Klinik#Document Understanding#Fax-Vorbefunde#PDF-Parsing Klinik#FHIR#KIM#Datenqualität Reha#Klinik-KI

Der Beitrag beschreibt die technischen Möglichkeiten und Grenzen der strukturierten Datenextraktion aus gefaxten oder PDF-übermittelten Vorbefunden in der Reha-Aufnahme. Er gibt keine Rechtsauslegung der ärztlichen Berufsordnung, des § 75c SGB V, der Datenschutz-Grundverordnung oder der KI-Verordnung; die konkrete Bewertung der ärztlichen Validierungs-Pflicht in der Aufnahme-Vor-Strukturierung verlangt die ärztliche Direktion, die Datenschutz-Beauftragten der Einrichtung und die rechtliche Beratung der Klinik. Die genannten Genauigkeits-Werte sind aus der Literatur als Größenordnungen referenziert; der konkrete Wert in einer Klinik hängt von Fax-Qualität, Dokument-Klasse und Schrift-Mischung im eigenen Bestand ab.

Weiterlesen

Editorial-Collage: eine erschöpfte Assistenzärztin am Arbeitsplatz blickt an einem Teal-Warnfenster vorbei, dahinter eine sich verlierende Halbton-Reihe identischer grauer Hinweise und ein einzelner Amber-Akzent.

Alarmmüdigkeit ist ein Kontinuum, kein Schalter: eine genaue Lektüre

Zwanzig Assistenzärzt:innen beschreiben, wie klinische Warnhinweise aufhören, gelesen zu werden. Der nützliche Befund ist nicht, dass sie weggeklickt werden: Es ist, dass Müdigkeit ein bewegliches Gleichgewicht aus Kultur und Gestaltung ist, kein fester Wesenszug.

Dr. Sven JungmannCEO
Editorial-Collage: eine übermüdete Person bei Nacht, beleuchtet vom blauen Schein eines Smartphones, eine unruhige Tealtinie als Blickbewegung über einem Navy-Rechteck, darunter angedeutete leere Tagebuchfelder und ein einzelner Amber-Punkt in einem Feld.

Das Schlaftagebuch, das gegen das übermüdete Gehirn arbeitet

Eine Eye-Tracking-Pilotstudie benennt ein unangenehmes Problem: Wer ein präzises Schlaftagebuch führen soll, ist die Person, deren Aufmerksamkeit der schlechte Schlaf bereits geschwächt hat. Die Oberfläche ist nicht neutral — doch gemessen wurde Belastung, nicht Wirkung.

Dr. Sven JungmannCEO
DKI-Konjunkturbarometer Q1/2026: Geschäftsklima-Saldo -63 — und die zweite Ebene der Krise sitzt in der Personal-Substanz.
Medizinisches Controlling

DKI-Konjunkturbarometer Q1/2026: Saldo -63 und die zweite Schicht der Krise

Das erste DKI-Konjunkturbarometer misst für die Krankenhäuser einen Geschäftsklima-Saldo von -63 — dramatisch unter jedem ifo-Wirtschaftszweig. Die Zahl ist real, aber sie ist nur eine Schicht. Die zweite — Belastung, Berufsausstieg, Vakanzdauer — entscheidet die nächste Reform.

Dr. Sven JungmannCEO

Diese Analyse stammt von den Leuten hinter Visite.

Unser wöchentlicher Newsletter zu KI in der Medizin. Jeden Freitag, gründlich geprüft.

Mit der Anmeldung stimmen Sie dem Erhalt von Visite per E-Mail zu. Abmeldung jederzeit. Mehr in unserer Datenschutzerklärung.

Sie möchten das in Ihrer Klinik sehen?

30 Minuten. Ihre Fragen. Unser Arzt-Gründer zeigt Ihnen die Plattform persönlich.

Termin vereinbaren

Unverbindlich. Kein Vertrieb. Arzt zu Arzt.