Hält ein Wissensgraph ein Sprachmodell ehrlich? Was die Studie wirklich zeigt
Ein medizinisches Sprachmodell, das plausibel klingende Diagnosen erfindet, ist schlimmer als nutzlos. Diese Studie prüft, ob die Anbindung an einen strukturierten Wissensgraphen hilft — und die ehrliche Antwort lautet: ein wenig, in manchem, und in anderem schlechter.

Dr. Sven Jungmann
CEO

Ein Sprachmodell, das eine Diagnose erfindet, macht keinen kleinen Fehler. Es produziert einen Satz, der wie Medizin klingt — flüssig, selbstbewusst formuliert, in sich stimmig — und schlicht falsch ist, ohne Warnsignal, ohne Unsicherheitsmarkierung, ohne irgendetwas, das einer übermüdeten Leserin um drei Uhr morgens sagt, dass genau dieser plausible Absatz Fiktion ist. Dieses Versagensmuster will die Studie angehen, und es ist das richtige, vor dem man sich fürchten sollte.
Die geprüfte Idee ist schlicht und alt genug, um seriös zu sein: Wenn ein frei laufendes Modell halluziniert, binde es an etwas, das es nicht kann. Dieses Etwas ist hier ein strukturierter medizinischer Wissensgraph — das Unified Medical Language System (UMLS), eine kuratierte Karte mit rund 4,5 Millionen medizinischen Konzepten und etwa 15 Millionen benannten Beziehungen, hinterlegt mit SNOMED CT. Für die Studie wählte eine fachärztlich zertifizierte Person aus 270 Beziehungstypen die 107 diagnostisch relevantesten aus. Das von den Forschenden gebaute System, DR.KNOWS, extrahiert die Konzepte aus einer klinischen Notiz, wandert entlang dieser Beziehungen durch den Graphen, gewichtet die so gefundenen Pfade nach dem Patientenkontext und übergibt dem Modell diese Pfade als ausdrückliche, nachvollziehbare Grundlage für seine Diagnosevorschläge. Der Reiz ist offensichtlich: Eine Diagnose, die man entlang eines benannten Pfades zurückverfolgen kann, ist eine Diagnose, die man prüfen kann.
Was für eine Studie das ist
Vor jeder Zahl steht die Evidenzstufe. Es handelt sich um eine Design- und Anwendungsstudie: Die Forschenden bauten ein System und prüften es an rückblickenden Texten gegen Vergleichsverfahren. Es ist kein randomisierter Versuch, kein prospektiver Einsatz, keine Prüfung an Patient:innen, die über die Zeit begleitet wurden. Niemand wurde aufgrund der Ausgaben diagnostiziert, behandelt oder geschädigt. Das ist kein Vorwurf — es ist die richtige Stufe für eine solche Methode —, aber es begrenzt, was die Ergebnisse bedeuten können. Geprüft wurde an zwei englischsprachigen Datensätzen verschiedener Standorte: rund 1.005 annotierte Verlaufsnotizen aus dem öffentlichen Intensivdaten-Korpus MIMIC-III und 4.815 Notizen aus einem US-amerikanischen Universitätsklinikum, von der Notaufnahme über die Allgemeinmedizin bis zu Spezialstationen.
Was die Evidenz belegt
Bei der mechanischen Aufgabe — die richtigen diagnostischen Konzepte aus einer Notiz zu ziehen — schlug der Wissensgraph-Ansatz das herkömmliche Extraktionsverfahren, gegen das er antrat, tatsächlich. Bei der nachgelagerten Diagnosevorhersage erreichte die beste Konfiguration (ein feinjustierter Text-to-Text Transfer Transformer (T5), versorgt mit den Graphpfaden) einen ROUGE-L-Wert von 30,72 und einen Konzept-F-Wert von 27,78, vor denselben Modellen ohne die Pfade. Diese Zahlen sind zu lesen als das, was sie sind: Überlappungsmaße gegen einen Referenztext, auf einem Benchmark, in der Größenordnung von dreißig von hundert. Sie zeigen eine durchgängige, reale Verbesserung durch das Hinzufügen strukturierten Wissens. Sie messen nicht, ob eine Ärztin der Antwort vertraut hätte.
Dafür taten die Forschenden etwas Interessanteres als die meisten: Zwei fachärztlich zertifizierte Personen beurteilten das diagnostische Denken des Modells anhand sicherheitsorientierter Kriterien an 92 Notizen — verglichen wurde ein Modell (ChatGPT, Fünf-Schuss) mit und ohne die Wissenspfade. Und hier beginnt die ehrliche Lektüre.
Was die Evidenz nicht belegt
Die Schlagzeile aus der menschlichen Bewertung lautet, dass die Wissensgraph-Variante häufiger korrektes klinisches Denken hervorbrachte — in 55 Prozent der Fälle gegenüber 50 Prozent ohne Graph, ein Unterschied, den die Forschenden als statistisch signifikant berichten (P<0,001). Für sich genommen ist das die Art Satz, aus der eine Pressemitteilung gebaut wird. Doch dieselbe Bewertung an denselben 92 Notizen fand, dass die graphgestützte Variante bei der Abstraktion schlechter abschnitt — 78 gegenüber 88 Prozent (P=0,03) — und bei der Auslassung keinen signifikanten Unterschied zeigte, also beim Versäumnis, etwas klinisch Wichtiges wegzulassen (16 gegenüber 10 Prozent, P=0,16). Zur Ehre der Forschenden zeigte ein Teilkriterium in die Gegenrichtung: Bei der wirksamen Abstraktion waren die Wissenspfade signifikant im Vorteil (P=0,002). Das faire Fazit ist also kein Sieg und keine Niederlage, sondern eine Umverteilung. Strukturiertes Wissen half dem Modell, entlang eines vertretbaren Pfades zu argumentieren; es machte das Modell nach dieser Evidenz nicht verlässlich besser darin, angemessen zu verallgemeinern oder zu wissen, was nicht wegzulassen ist.
“Fünf Punkte Gewinn beim Denken, erkauft mit zehn Punkten Verlust bei der Abstraktion, sind ein Tausch — kein Triumph.”
Es gibt Grenzen, welche die Forschenden selbst benennen, und das ehrt sie. Das Extraktionsverfahren übersieht indirekte oder feinere Konzepte. Die Pfadgewichtung stützt sich stark auf Kosinus-Ähnlichkeit in einem Einbettungsraum und erbt deren Schwächen. Das UMLS selbst kann Verzerrungen der Populationen und Bereiche tragen, aus denen es gebaut wurde. Und ChatGPT, eines der Vergleichsmodelle, ist ein geschlossenes System, dessen Gewichte sie nicht einsehen können — ein Teil des Ergebnisses ruht also auf einer Blackbox. Ein Hinweis gehört in die Würdigung ebenfalls: Ein Mitautor berät ein kommerzielles Unternehmen für medizinische Sprachverarbeitung — in diesem Feld nicht ungewöhnlich, aber der Erwähnung wert.
Warum das hier zählt
Es gibt einen strukturellen Grund, weshalb diese Forschungsrichtung in europäischen Kliniken Aufmerksamkeit verdient, und einen strukturellen Grund zu warten. Der verdienstvolle Teil: Die Ausgabe eines Modells in einem nachvollziehbaren, benannten Wissenspfad zu verankern, ist genau die Eigenschaft, die sich eine Ärztin — und eine Benannte Stelle bei der Bewertung von Software unter der Medizinprodukteverordnung (MDR) — von klinischer Software wünschen sollte. Eine Antwort, die man prüfen kann, schlägt eine Antwort, der man vertrauen muss. Der Teil des Wartens ist schlichter. Jedes Konzept, jede Beziehung, jede Notiz dieser Studie ist englischsprachig und stammt aus US-amerikanischer Dokumentation. Eine deutsche klinische Notiz, mit ihren eigenen Abkürzungen, ihren eigenen Kodiergewohnheiten und einer Wissensbasis, die neu auszuwählen und neu zu validieren wäre, ist ein anderes Problem, das die Studie nicht berührt. Die Methode ist solide und lehrreich. Sie ist nach dieser Evidenz nicht bereit für eine deutschsprachige Station — und das Nützlichste, was sie einer sorgfältigen Leserin bietet, ist nicht das System, sondern die Disziplin ihrer menschlichen Bewertung, die sich weigerte, eine einzelne schmeichelhafte Zahl für das Ganze stehen zu lassen.
Quelle: Gao Y, Li R, Croxford E, et al. Leveraging Medical Knowledge Graphs Into Large Language Models for Diagnosis Prediction: Design and Application Study. JMIR AI 2025;4:e58670. Eine begutachtete Modellentwicklungs- und Benchmarkstudie an rückblickenden, englischsprachigen Aufzeichnungen — ihre Endpunkte sind Benchmark- und Expertenbewertungsmaße, nicht der klinische Verlauf, und ihre menschliche Bewertung fand die Wissensgraph-Variante besser im Denken, aber schlechter in der Abstraktion.


