24. Juni 20265 Min. Lesezeit

Ein Graph und eine Suchmaschine in einer Patientenakte: ein klinischer Machbarkeitsnachweis, sorgfältig gelesen

Ein neues System fand über zehn pseudonymisierte Akten alles, wonach es gefragt wurde; zwei Ärzt:innen bemängelten nichts Gefährliches. Das Ergebnis ist echt — und genau das, was ein Machbarkeitsnachweis bedeutet: zehn Fälle, öffentliche Forschungsdaten, viel zu lange Antworten.

Dr. Sven Jungmann

CEO

Editorial-Collage: die Hände einer behandelnden Person greifen nach einer Patientenakte, die in ein Tealgitter aus Knoten und eine Halbtonspalte mit Fließtext geteilt ist, ein einzelner Amber-Punkt markiert einen Knoten.

Eine Krankenakte bewahrt ihre Wahrheit an zwei unvereinbaren Orten auf. Der eine ist strukturiert: kodierte Diagnosen, Laborwerte, Medikamentenlisten — Zeilen, die ein Rechner abfragen kann. Der andere ist Prosa: Entlassbriefe, Radiologiebefunde, die Notiz der Assistenzärztin um drei Uhr morgens. Die meisten Suchwerkzeuge lesen entweder die eine oder die andere Welt. Diese Arbeit beschreibt ein System, das beide zugleich lesen will — und dann das Redliche damit tut: Sie prüft es sorgfältig, an einer kleinen Stichprobe, und sagt Ihnen genau, wie klein.

Diese Zurückhaltung macht die Arbeit lesenswert. Die Schlagzeile, die sie begleitete — ein System habe Frage um Frage beantwortet, ohne etwas zu erfinden —, stimmt in einem engen, klar umrissenen Sinn, und der Wert der Studie liegt ganz darin, festzulegen, in welchem.

Was die Forschenden getan haben

Das System MediGRAF betreibt zwei Abrufwege parallel. Die strukturierten Daten liegen in einer Neo4j-Graphdatenbank, in der ein großes Sprachmodell (GPT-4o-mini) eine umgangssprachliche Frage in eine Cypher-Abfrage übersetzt — Cypher ist die Abfragesprache dieser Datenbank. Die Freitextdokumente werden in Vektor-Embeddings überführt und über semantische Ähnlichkeit durchsucht. Beide Treffer werden zusammengeführt, dann formuliert ein Sprachmodell die endgültige Antwort. Die Testdaten waren keine echten Krankenhausakten, sondern zehn pseudonymisierte Patient:innen aus MIMIC-IV, einem weit verbreiteten öffentlichen Forschungsdatensatz — 25 Entlassbriefe und 64 Radiologiebefunde, abgebildet als Graph mit rund 5.970 Knoten.

Es ist ein Machbarkeitsnachweis, und die Autor:innen nennen ihn auch so. Es gibt keinen Kontrollarm aus Ärzt:innen, keine prospektiv begleiteten Patient:innen, kein zweites Zentrum. Der Anspruch ist bewusst bescheiden: dass die Architektur die richtigen Informationen abruft und dass bei einer Handvoll schwieriger Fragen zwei Ärzt:innen nichts Gefährliches im Geschriebenen fanden.

Was die Evidenz belegt

Beim deterministischen Teil — holt das System jeden relevanten Fakt zurück? — war der hybride Ansatz stark. Über die einfachen und mittelschweren Fragen, für die ein Soll-Bestand an Datensätzen zum Abgleich existiert, erreichte er vollen Recall (1,0): Jede relevante Information wurde abgerufen. Aufschlussreich ist der Vergleich. Die reine Graphabfrage, ohne die angekoppelte semantische Suche, schaffte 0,8 Recall bei den einfachen und 0,688 bei den mittelschweren Fragen, deren Korrektheit auf 51,6 Prozent fiel. Die Freitextsuche war keine Beigabe; sie schloss die Lücke, die die strukturierte Abfrage offenließ. Das ist der eigentliche Beitrag der Arbeit: der Nachweis, dass die gemeinsame Abfrage beider Welten die alleinige Abfrage der strukturierten Welt schlägt.

Getrennt davon bewerteten zwei Krankenhausärzt:innen die zehn schwersten, schlussfolgernden Antworten auf Fünf-Punkte-Skalen. Die Gesamtqualität lag bei etwa 4,2 bis 4,3 von 5, und — das war der Satz, der die Runde machte — keine:r der beiden stufte eine der zehn Antworten als unsicher ein. Für eine Technik, deren prägender Fehlermodus die selbstbewusste Erfindung ist, sind null unsichere Antworten von zehn ein Befund, den man festhalten darf.

Was die Evidenz nicht belegt

Hier müssen die beiden Befunde auseinandergehalten werden, denn die Schlagzeile verwischte sie. „Voller Recall“ ist eine Abrufkennzahl: Sie besagt, dass die richtigen Fakten geholt wurden. „Keine unsichere Antwort“ ist ein klinisches Urteil zweier Leser:innen über zehn komplexe Fälle. Es sind verschiedene Messungen an verschiedenen Fragemengen, und keine garantiert, dass das System nicht beim elften schweren Fall oder bei der zweihundertsten Patientin etwas Plausibles und Falsches schreibt. Zehn Patient:innen und zwei Bewertende sind genau die Stichprobe, in der ein seltener Fehler unsichtbar bleibt.

Am schärfsten zeigen das die Daten selbst. MIMIC-IV ist sauberes, aufbereitetes Forschungsmaterial aus einer einzigen Einrichtung; eine reale Krankenakte ist unordentlicher, in weiten Teilen Europas mehrsprachig, voll der Abkürzungen und Widersprüche, an denen Abrufsysteme scheitern. Und die Bewertenden waren sich über eine echte Schwäche einig: Die Antworten waren zu lang. Eine:r vergab für Relevanz und Prägnanz nur 3,3 von 5 — das System fand alles und sagte dann zu viel, was in einer klinischen Zusammenfassung eine eigene Art des Versagens ist. Die Autor:innen räumen zudem ein, dass die Architektur noch nicht sauber angeben kann, welcher Fakt aus dem Graphen und welcher aus der Freitextsuche stammt; eine behandelnde Person kann eine Antwort also nicht vollständig bis zur Quelle zurückverfolgen. Für eine Software, die am Krankenbett überprüft werden soll, ist Nachvollziehbarkeit keine Verfeinerung, sondern der Kern.

“Voller Recall und keine unsichere Antwort sind echte Ergebnisse — an zehn Patient:innen, aus einem öffentlichen Forschungsdatensatz, mit einer Maschine, die zu viel redet. Genau das darf ein Machbarkeitsnachweis behaupten, und nicht mehr.”

Warum das hier zählt

Das strukturelle Problem, das die Arbeit angeht, kennt jede:r europäische Ärzt:in: Die Antwort auf eine klinische Frage steht meist irgendwo in der Akte, aufgeteilt zwischen einem kodierten Feld und einem Absatz Prosa, und sie zu finden kostet Zeit, die niemand hat. Ein Ansatz, der beides zugleich durchsucht und das Relevante verlässlich holt, ist eine vernünftige Richtung — und der Vergleich gegen die reine Graphabfrage ist genau die Art Evidenz, von der das Feld mehr braucht. Die ehrliche Lesart lautet: Diese Arbeit verdient einen nächsten Schritt, keinen Einsatz — einen größeren und unordentlicheren Datensatz, mehr Bewertende, echte Akten in den Sprachen, in denen sie tatsächlich geschrieben sind, und eine Quellenzuordnung, gut genug, dass eine Ärztin die Arbeit der Maschine prüfen kann, statt ihr zu vertrauen. Die Arbeit sagt das selbst. Dass sich etwas bauen lässt, ist nicht dasselbe wie der Nachweis, dass der Einsatz sicher ist — und die Autor:innen sind erfreulich klar darin, welches von beidem sie geleistet haben.

Quelle: Thio S, Lewis M, Denaxas S, Dobson RJB. Unlocking electronic health records: a hybrid graph RAG approach to safe clinical AI for patient QA. Frontiers in Digital Health 2026;8:1780700. Ein Machbarkeitsnachweis eines einzelnen Teams an zehn pseudonymisierten Patient:innen aus einem öffentlichen Forschungsdatensatz, bewertet von zwei Ärzt:innen; gemessen werden Abrufleistung und von Gutachtenden eingeschätzte Sicherheit, nicht der klinische Verlauf. Ein Autor ist bei CogStack Limited angestellt; die übrigen Autor:innen geben keine Interessenkonflikte an.

#Journal Club#Klinische KI#Retrieval-Augmented Generation#Elektronische Patientenakte#Evidenzbasierte Medizin

Ein Graph und eine Suchmaschine in einer Patientenakte: ein klinischer Machbarkeitsnachweis, sorgfältig gelesen

Was die Forschenden getan haben

Was die Evidenz belegt

Was die Evidenz nicht belegt

Warum das hier zählt

Weiterlesen

Die Produktivitätslücke: Warum bessere Werkzeuge noch keine besseren Institutionen ergeben

Die KI-Agenten kamen vor der Evidenz

Drei NHS-Cybervorfälle, ein blinder Fleck: Risiko, das zwischen den Ebenen wandert

Diese Analyse stammt von den Leuten hinter Visite.

Sie möchten das in Ihrer Klinik sehen?