Datenqualität16. März 20267 Min. Lesezeit

Strukturierte Datenextraktion aus Faxen: Was technisch geht

Im deutschen Reha-Markt kommen Vorbefunde überwiegend per Fax o. PDF. Die Kombination aus optischer Zeichenerkennung und großem Sprachmodell überträgt das Konvolut in eine durchsuchbare Form & sie produziert auch 2026 noch eine Reihe Inhalts-Fehler.

Dr. Sven Jungmann

CEO

OCR LLM Klinik Fax Extraktion — eine Klinik-IT-Leitung im Aufnahme-Bereich liest die strukturierte Aufnahme-Maske gegen das gefaxte Befund-Konvolut, in dem Negationen, Datums-Felder und Diagnose-Codes die Stelle markieren, an der die ärztliche Aufnahme-Person das Ergebnis prüft.

Eine Reha-Klinik in Süddeutschland bekommt an einem Werktag rund vierzig Vorbefund-Konvolute aus den vor-belegenden Akut-Häusern und den niedergelassenen Praxen. Etwa drei Viertel kommen per Fax, der Rest als PDF-Anhang. Das Aufnahme-Sekretariat heftet, sortiert und reicht die Konvolute an die ärztliche Aufnahme weiter, die in einem ohnehin knappen Zeit-Korridor die Indikations-Lage prüft, die Vor-Medikation rekonstruiert und die Ziel-Vereinbarung formuliert. Die Idee, an dieser Stelle eine optische Zeichenerkennung mit nachgelagertem Sprachmodell einzubauen — also: das Konvolut zu lesen, zu strukturieren und in die Aufnahme-Maske zu legen — kommt seit etwa zwei Jahren in jeder Anbieter-Demo vor. Sie ist technisch möglich. Sie ist aber kein Ersatz für die ärztliche Aufnahme-Lektüre, sondern ihr Vor-Sortier-Werkzeug.

Die Anbieter-Demos beginnen meist mit einer Genauigkeits-Zahl. „Zeichen-Genauigkeit 99 Prozent“ oder „Feld-Genauigkeit 95 Prozent“ auf Folie sechs. Beide Zahlen sind nicht falsch und beide sind nicht das, woran sich die operative Brauchbarkeit entscheidet. Die operative Brauchbarkeit entscheidet sich an drei Verarbeitungs-Stufen mit jeweils eigener Fehler-Signatur, an vier Inhalts-Fehler-Klassen, die auch bei sehr hoher Zeichen-Genauigkeit erhalten bleiben, und an drei Folgerungen für die Beschaffung. Der Beitrag geht durch diese Mechanik durch — getrennt von der Demo-Zahl, getrennt von der ePA-Hoffnung, getrennt von der Vertrags-Verhandlung.

Drei Verarbeitungs-Stufen mit eigener Fehler-Signatur

Stufe eins ist die Zeichen-Erkennung. Eine Fax-Übertragung legt das Original auf eine Halbton-Auflösung von rund 200 dpi fest, reduziert den Kontrast und blendet hand-schriftliche Ergänzungen unsystematisch ein. Auf gut gedruckten Original-Bögen erreichen aktuelle OCR-Werkzeuge — Tesseract und die Cloud-Dienste der großen Anbieter — Zeichen-Genauigkeiten in der Größenordnung von 95 bis 99 Prozent. Auf gefaxten Befunden mit hand-schriftlichen Korrekturen am Rand, mit gestempelten Briefkopf-Schlüsseln und mit Tabellen-Zellen geringer Höhe sinkt der Wert merklich. Wichtig ist: die Fehler verteilen sich nicht gleichmäßig. Sie konzentrieren sich auf Zahlen-Felder, auf Zeichen-Paare wie 0 und O, 1 und l, 5 und S, und auf den Übergang zwischen Druck und Hand-Schrift.

Stufe zwei ist das Layout-Verständnis. Ein Reha-Entlassbericht trägt seine Information nicht im Fließ-Text allein. Diagnose-Codes stehen im Briefkopf, die Vor-Medikation in einer halb-strukturierten Liste, die Verlaufs-Befunde in tabellarischen Spalten, die Aufnahme-Empfehlung im freien Schluss-Absatz. Reine OCR ohne Layout-Bewusstsein liest die Zeichen, aber sie verliert die Bedeutung der Position. Layout-bewusste Modelle lesen Text und Position gemeinsam: Xu und Kolleg:innen (2020) haben mit LayoutLM eine vortrainierte Repräsentation von Text und Layout vorgelegt; Kim und Kolleg:innen (2022) haben mit Donut ein OCR-freies Modell vorgeschlagen, das das Dokument-Bild direkt in eine strukturierte Ausgabe abbildet und so die OCR-Fehler-Fortpflanzung vermeidet; Lee und Kolleg:innen (2023) bringen mit Pix2Struct die generative Frage-Antwort-Extraktion auf Dokument-Bilder; Wang und Kolleg:innen (2023) haben mit DocLLM die Layout-Bewusstheit in ein generatives Sprachmodell integriert. Der Effekt auf strukturierten Formularen ist messbar; auf gefaxten klinischen Befunden mit gemischtem Schrift-Bild bleibt das Restrisiko, dass Felder verschoben oder verwechselt werden, höher als auf akademischen Benchmark-Datensätzen.

Stufe drei ist die semantische Plausibilisierung. Eine Diagnose, die das Modell aus dem Briefkopf erkannt hat, lässt sich gegen ein klinisches Vokabular spiegeln — die Internationale Klassifikation der Krankheiten (ICD-10), die Systematized Nomenclature of Medicine (SNOMED CT), die Logical Observation Identifiers Names and Codes (LOINC). Eine numerische Aussage zu einem Laborwert lässt sich auf Einheit, Referenz-Bereich und Norm-Befund prüfen. Eine Datums-Aussage lässt sich auf Plausibilität gegen das Aufnahme-Datum prüfen. Diese Plausibilisierungs-Schicht ist die Stelle, an der semantische Fehler aus den ersten beiden Stufen auffallen — oder eben nicht. Studien im Journal of the American Medical Informatics Association (JAMIA) zeigen, dass diese dritte Schicht die Rate semantisch-falscher Extraktions-Ergebnisse merklich senkt; ohne sie steigt der Anteil der Ergebnisse, die wie eine plausible Klassifikation aussehen, aber inhaltlich an der Befund-Aussage vorbeigehen.

Die 3 Stufen Zeichen-Erkennung, Layout-Verständnis und semantische Plausibilisierung tragen jede einen eigenen Fehler-Typ; die Brauchbarkeit entscheidet sich an der Plausibilisierungs-Schicht. — Drei Stufen, drei Fehler-Typen. Die Plausibilisierungs-Schicht ist die Stelle, an der das Modell sich selbst korrigieren kann — oder eben nicht.·aiomics

Vier Inhalts-Fehler-Klassen, die ärztliche Validierung verlangen

Die in der npj Digital Medicine-Literatur und in der klinischen Information-Extraction-Forschung wiederkehrende Beobachtung lautet: Fehler verteilen sich nicht zufällig auf das Dokument, sondern konzentrieren sich auf wenige Inhalts-Klassen. Erstens: Negationen. „Kein Hinweis auf Restenose“ und „Hinweis auf Restenose“ unterscheiden sich in einem einzigen Wort, das in einem schlecht gefaxten Original vom Modell überlesen oder hineingelesen werden kann; das Vorzeichen des Befunds dreht sich. Zweitens: Datums-Verschiebungen. Ein Reha-Entlassbericht enthält in der Regel mehrere Daten — Aufnahme-Datum, Entlass-Datum, Vor-Operations-Datum, einzelne Befund-Daten — und Modell-Ausgaben verwechseln sie unter Druck zuverlässig. Drittens: numerische Felder mit Mehrdeutigkeit. Ein Laborwert „125“ ohne klar zuordenbare Einheit, ein Hämoglobin-Wert in einer Spalte, deren Kopf in der Halbton-Übertragung nicht mehr lesbar ist, ein Referenz-Bereich, der mit dem Befund-Wert räumlich verschmilzt. Viertens: semantische Plausibilisierungs-Verwechslung. Eine ähnlich klingende Diagnose mit einem ICD-Nachbarn-Code, eine Operations-Bezeichnung, die das Modell einer falschen Verfahrens-Klasse zuordnet, eine Medikamenten-Bezeichnung mit handelsname-zu-Wirkstoff-Verwechslung. Diese vier Klassen reduzieren sich durch reine Modell-Skalierung nicht auf null. Sie sind die Stelle, an der die ärztliche Aufnahme-Person eine systematische Validierungs-Rolle behält.

OCR LLM Klinik Fax Validierung — die ärztliche Aufnahme-Person liest das vor-strukturierte Ergebnis gegen das gefaxte Original und prüft Negation, Datum, Zahl und Diagnose-Code. — Die vier Fehler-Klassen sind robuster als die Genauigkeits-Werte. Sie entscheiden, an welcher Stelle die ärztliche Aufnahme-Lektüre nicht ersetzt, sondern verschoben wird.·aiomics

Was eine brauchbare Pipeline am Ausgang erzeugt

Eine Pipeline, deren Ergebnis in einer freien Text-Maske der Aufnahme-Software landet, ist für die nachgelagerte Verarbeitung wenig wert. Eine Pipeline, deren Ergebnis als Health Level Seven Fast Healthcare Interoperability Resources (HL7-FHIR)-Ressourcen — Patient, Encounter, Observation, Condition, MedicationStatement, DiagnosticReport — am Ausgang steht, knüpft an das Schema an, in dem die Klinik-IT die strukturierten Daten ohnehin verarbeitet. Drei Eigenschaften sind dafür nötig. Die erste Eigenschaft ist Konfidenz pro Feld: jedes extrahierte Feld trägt einen Konfidenz-Wert mit, der die Auswertbarkeit für die ärztliche Validierungs-Maske trägt. Die zweite Eigenschaft ist Provenienz pro Aussage: jede Behauptung im FHIR-Ergebnis ist auf die Quell-Stelle im Dokument-Bild zurückführbar — Seite, Position, Original-Zeichenfolge —, sodass die ärztliche Person bei einer Rück-Frage auf die Original-Stelle springen kann, ohne das Konvolut neu zu lesen. Die dritte Eigenschaft ist Versions-Disziplin: das Modell, das das Ergebnis erzeugt hat, ist mit Identifikations-Merkmal und Stand benannt, sodass eine spätere Aufsichts-Anfrage rekonstruieren kann, welcher Modell-Stand das Ergebnis erzeugt hat.

“Die operative Frage ist nicht, wie viele Zeichen das System richtig liest — sondern welche Inhalts-Fehler es nicht selbst bemerkt und an die ärztliche Aufnahme-Person weitergibt.”

Die langfristige Einordnung: KIM, ePA und FHIR — und der Sicherheits-Bezug

Die OCR-LLM-Pipeline ist eine Brücken-Technologie für eine Übergangsphase, keine Dauer-Lösung. Die Gematik hat mit der Telematikinfrastruktur (TI) den Pfad gelegt: Kommunikation im Medizinwesen (KIM) für strukturierte E-Mail mit Verschlüsselung und Integritäts-Sicherung; elektronische Patientenakte (ePA für alle) als medien-übergreifenden Daten-Raum; HL7-FHIR als gewähltes Schema. In der Reha-Sektion ist die Anschluss-Quote bei Redaktionsschluss noch nicht vollständig — Fax bleibt parallel im Einsatz. Das Bundesamt für Sicherheit in der Informationstechnik (BSI) ordnet Fax als Übergangs-Medium ein und benennt die Risiken: keine Ende-zu-Ende-Verschlüsselung, keine zuverlässige Empfänger-Authentifizierung, anfällig für Fehl-Adressierung. An dieser Stelle knüpft die Extraktions-Diskussion an den Aiomics-Anker-Artikel „Das Fax als Angriffsvektor“ an: Der Anker behandelt das Sicherheits-Risiko des Eingangs-Pfads; dieser Beitrag bleibt bei der Extraktions-Mechanik. Beide Achsen treffen sich in derselben Architektur-Entscheidung — eine Extraktions-Pipeline, deren Eingangs-Pfad nicht abgesichert ist, übernimmt das Risiko des Pfads in den FHIR-Ergebnis mit.

Was das für die Beschaffung heißt:

Erstens: Eine Anbieter-Demo mit zwei oder drei Beispiel-Konvoluten ist kein Beleg. Verlangt wird ein Pilot-Test am eigenen Dokument-Bestand — fünfzig bis hundert Konvolute aus dem laufenden Eingangs-Strom, geprüft an den vier Fehler-Klassen Negation, Datum, Zahl, Diagnose-Code. Zweitens: Der Output muss FHIR-mappbar sein und Konfidenz und Provenienz pro Feld mitführen. Eine Maske, die nur Fließ-Text in ein Feld schreibt, lässt sich von der nachgelagerten Klinik-Software nicht auswerten. Drittens: Die ärztliche Validierungs-Rolle ist Teil der Architektur, nicht eine spätere Ergänzung. Die Aufnahme-Maske zeigt jeden vor-strukturierten Wert mit der Quell-Stelle im Dokument-Bild — sodass die Validierung zur Lese-Geste am Bildschirm wird, nicht zu einem zweiten Lese-Vorgang am Papier-Konvolut.

Eine Klinik-Geschäftsführung & eine ärztliche Direktion lesen die 3 Beschaffungs-Fragen gegen die Anbieter-Antwort & prüfen Pilot-Test am eigenen Bestand, FHIR-Mappbarkeit & ärztliche Validierung. — Drei Fragen, drei Antworten. Sie machen die Demo prüfbar — und sie verschieben die Diskussion von der Genauigkeits-Zahl zur Architektur.·aiomics

Strukturierte Datenextraktion aus Faxen ist 2026 technisch lösbar, aber sie ist nicht trivial. Die drei Verarbeitungs-Stufen tragen jede ihre eigene Fehler-Signatur, die vier Inhalts-Fehler-Klassen verlangen ärztliche Validierung, und der FHIR-fähige Ausgang mit Konfidenz und Provenienz entscheidet, ob das Ergebnis in der nachgelagerten Klinik-Architektur trägt oder als Insel stehen bleibt. Die ärztliche Aufnahme-Lektüre wird durch die Vor-Strukturierung nicht ersetzt; sie wird verschoben — von der Erst-Sortierung des Konvoluts zur Validierung der vier Stellen, an denen das Modell typischerweise irrt. Eine Klinik, die diese Verschiebung sauber organisiert, gewinnt Aufnahme-Zeit. Eine Klinik, die die Vor-Strukturierung wie eine fertige Aufnahme-Akte behandelt, importiert die vier Fehler-Klassen still in die Akte hinein.

#OCR Klinik#Document Understanding#Fax-Vorbefunde#PDF-Parsing Klinik#FHIR#KIM#Datenqualität Reha#Klinik-KI

Der Beitrag beschreibt die technischen Möglichkeiten und Grenzen der strukturierten Datenextraktion aus gefaxten oder PDF-übermittelten Vorbefunden in der Reha-Aufnahme. Er gibt keine Rechtsauslegung der ärztlichen Berufsordnung, des § 75c SGB V, der Datenschutz-Grundverordnung oder der KI-Verordnung; die konkrete Bewertung der ärztlichen Validierungs-Pflicht in der Aufnahme-Vor-Strukturierung verlangt die ärztliche Direktion, die Datenschutz-Beauftragten der Einrichtung und die rechtliche Beratung der Klinik. Die genannten Genauigkeits-Werte sind aus der Literatur als Größenordnungen referenziert; der konkrete Wert in einer Klinik hängt von Fax-Qualität, Dokument-Klasse und Schrift-Mischung im eigenen Bestand ab.

Strukturierte Datenextraktion aus Faxen: Was technisch geht

Drei Verarbeitungs-Stufen mit eigener Fehler-Signatur

Vier Inhalts-Fehler-Klassen, die ärztliche Validierung verlangen

Was eine brauchbare Pipeline am Ausgang erzeugt

Die langfristige Einordnung: KIM, ePA und FHIR — und der Sicherheits-Bezug

Weiterlesen

Souveränität ist nicht Ausfallsicherheit: Was die Angriffe auf die Cloud wirklich zeigen

Kein einziger Faktenfehler — und dann kam die fünfte Gesprächsrunde

Ein mRNA-Modell für 165 Dollar: Was ein Hugging-Face-Beitrag zeigt und was nicht

Diese Analyse stammt von den Leuten hinter Visite.

Sie möchten das in Ihrer Klinik sehen?