1.800 Befunde in 4,45 Stunden: ein Ingenieurbericht im Gewand einer Studie
Eine urologische Gruppe schickte 1.800 Freitext-MRT-Befunde durch eine GPT-4-Pipeline, für weniger als einen Cent pro Bericht. Der Durchsatz ist echt, und die Verkabelung ist der Punkt — doch das Wort „Validierung“ im Titel meint frühere Arbeiten, nicht diese.

Dr. Sven Jungmann
CEO

Es sind Zahlen, bei denen eine Forschungskoordinatorin von ihrer Tabelle aufblickt. Eine urologische Arbeitsgruppe der University of California, San Francisco speiste 1.800 Freitext-Befunde von Prostata-MRT in eine automatisierte Pipeline ein, aufgebaut auf einem institutionellen, datenschutzgesicherten GPT-4. Jeder Befund wurde verarbeitet — eine Abschlussrate von 100 Prozent —, im Mittel 8,90 Sekunden je Bericht, insgesamt 4,45 Stunden, zu etwa neun Zehntel eines Cents pro Befund. Aus jedem Dokument fielen 16 strukturierte Felder: Prostatavolumen, PSA-Dichte, PI-RADS-Wert, klinisches Staging, anatomische Befunde. Der gesamte Durchlauf kostete ungefähr so viel wie ein belegtes Brötchen.
Das ist ein wirklich nützliches Ergebnis, und es lohnt sich, genau zu sein, welches Ergebnis es ist. Dies ist eine Ingenieurarbeit — die Autor:innen nennen sie eine technische Implementierungsstudie —, und so liest man sie am besten.
Was sie tatsächlich gebaut haben
Die Pipeline, UODBLLM genannt, ist eine modulare Python-Anwendung, eingebunden in eine bestehende urologische Forschungsdatenbank. Der Ablauf ist schlicht: einen unstrukturierten Befund lesen, ihn in ein versioniertes XML-Prompt-Template einbetten, an das Modell schicken, strukturierte Ausgaben empfangen und das Ergebnis in die Datenbank zurückschreiben. Die Prompt-Templates liegen in Datenbanktabellen statt im Code, lassen sich also ohne neue Auslieferung ändern, und der Aufbau ist modellunabhängig — das GPT-4-Backend kann im Prinzip gegen ein anderes großes Sprachmodell (Large Language Model) getauscht werden. Es läuft auf einem handelsüblichen Laptop. Nichts daran ist glanzvoll, und genau das ist der Beitrag: Die Arbeit dokumentiert das Bindegewebe — Datenbankanbindung, Fehlerbehandlung, den Schritt der Qualitätssicherung, die Kostenrechnung —, das die meisten veröffentlichten Vorführungen weglassen.
Was die Evidenz belegt
Die belastbare Aussage betrifft Durchsatz und Betriebstauglichkeit, nicht die Richtigkeit. Über 18 Chargen zu je 100 Berichten verarbeitete das System alle 1.800 ohne einen fehlgeschlagenen Lauf, in stabiler, gemessener Geschwindigkeit und zu Token-Kosten, die die Dollarsumme fast zu einem Rundungsfehler machen. Als Beleg dafür, dass sich eine Freitext-zu-Struktur-Pipeline in eine laufende klinische Forschungsdatenbank einbetten und durchgängig in diesem Umfang betreiben lässt, verdient die Arbeit ihren Schluss.
Was die Evidenz nicht belegt
Hier ist der Titel mit Sorgfalt zu lesen. Das Wort, das die meiste Last trägt — Validierung —, beschreibt diese Studie nicht. Die Autor:innen entschieden sich bewusst, die Extraktionsgenauigkeit nicht neu zu messen; die Werte, die sie dafür nennen — eine mediane Feldgenauigkeit von 98,1 Prozent (Interquartilsabstand 96,3 bis 99,2 Prozent) bei 424 Berichten und über 95 Prozent bei einem zweiten Satz von 228 —, stammen aus zwei eigenen früheren Arbeiten, an anderen Befundsätzen. Eine Abschlussrate von 100 Prozent bedeutet also, dass jeder Befund eine Antwort lieferte, nicht dass jede Antwort richtig war. Das sind zwei verschiedene Größen, und eine vielbeschäftigte Leserin verwechselt sie leicht. Die plakative Effizienzaussage — bis zu 90 Prozent weniger manuelle Extraktionszeit — ist nach der eigenen Einordnung der Autor:innen eine Schätzung des Möglichen, kein gemessener Vergleich gegen menschliche Abstrahierende an derselben Aufgabe.
Zwei weitere Grenzen kommen hinzu. Es ist ein einzelnes Zentrum, ein einzelner Befundtyp und ein einzelnes, institutionsspezifisch datenschutzgesichertes Modell; die Autor:innen halten ausdrücklich fest, dass die Ergebnisse mit anderen Modellen abweichen können und dass die Genauigkeit der Extraktion durch Sprachmodelle weiterhin menschliche Prüfung der entscheidenden Datenpunkte verlangt. Der Aufbau ist auf Übertragbarkeit angelegt, doch die Übertragbarkeit wird hier behauptet, nicht gezeigt.
“Eine Abschlussrate von 100 Prozent sagt Ihnen, dass jeder Befund eine Antwort lieferte. Sie sagt nicht, dass die Antwort richtig war — und das zu prüfen war nicht das Ziel dieser Studie.”
Warum das zählt
Die ehrliche Lesart dieser Arbeit ist zugleich die nützlichste. Jahrelang lag der begrenzende Faktor beim Überführen klinischen Freitexts in forschungstaugliche Daten in der Technik; dort liegt der Aufwand nicht mehr. Teuer ist nun die Integration — die Datenbankverkabelung, die versionierten Prompts, die Fehlerbehandlung und vor allem die menschliche Qualitätssicherung, die diese Arbeit beibehält, aber nicht neu beziffert. Diese Verschiebung gilt unabhängig vom Rechtsraum, und sie stellt die Frage neu für alle, die ein Tumorregister oder eine Outcomes-Datenbank in Freitext führen: nicht, ob ein Modell einen Befund lesen kann, sondern was es kostet, eines sicher einzubetten, und wie die Genauigkeit geprüft wird, sobald es läuft. Die Verkabelung ist zur eigentlichen Sache geworden — und die Validierung bleibt eine Aufgabe, die andere wiederholen müssen.
Quelle: Carlisle MN, Pace WA, Liu AW, Krumm R, Cowan JE, Carroll PR, Cooperberg MR, Odisho AY. Development and Validation of a Generative Artificial Intelligence-Based Pipeline for Automated Clinical Data Extraction From Electronic Health Records. JMIR Bioinformatics and Biotechnology 2026;7:e70708. Eine Implementierungsstudie aus einem einzelnen Zentrum; die Extraktionsgenauigkeit wurde hier nicht neu gemessen, sondern aus früheren Arbeiten der Autor:innen übernommen, und es wurden keine Interessenkonflikte erklärt.


