Eine klinische KI, die merkt, wann sie noch nicht genug weiß
Ein hepatologisches Entscheidungssystem hört auf zu antworten, wenn die Evidenz dünn wird — und kennzeichnet die Antworten, die es trotzdem gibt. Die Architektur ist das Interessante. Die Evidenz dahinter sind dreißig Fragen, bewertet von den eigenen Entwickler:innen.

Dr. Sven Jungmann
CEO

Die klinisch wertvollste Eigenschaft eines Entscheidungssystems ist nicht, wie gut es antwortet. Sie liegt darin, ob es merkt, wann es noch nicht gut genug geantwortet hat — und dann weitersucht, statt trotzdem etwas Plausibles zu erzeugen. Eine neue Arbeit in Frontiers in Medicine baut einen hepatologischen Assistenten genau um diesen Gedanken herum, und sie lohnt sich für die Architektur, auch wenn die Evidenz dahinter schmal ist.
Das Problem, das die Forschenden ernst nehmen, kennt jede behandelnde Person vom üblichen Chatbot: Er antwortet immer. Man fragt ihn etwas, und er liefert flüssigen Text, ob das zugrunde liegende Wissen eine sichere Antwort trägt oder nicht. Am Krankenbett ist diese Voreinstellung die falsche. Ein System, das eine plausible, aber unsichere Antwort selbstsicher anbietet, ist gefährlicher als eines, das sinngemäß sagt: Ich habe noch nicht genug, um das zu beantworten.
Was die Forschenden gebaut haben
Zwei Teile. Erstens ein fachlicher Wissensgraph — 12.192 Entitäten und 28.770 Relationen — destilliert aus 53 klinischen Leitlinien zu Lebererkrankungen aus den vorangegangenen fünfzehn Jahren. Zweitens ein Agent, der diesen Graphen in einer Schleife abfragt, die die Forschenden „retrieve-evaluate-refine“ nennen: abrufen, prüfen, verfeinern. Der Agent ruft ab, beurteilt, ob das Gefundene ausreicht, und formuliert die Suche andernfalls neu — höchstens drei Mal. Reicht der Kontext auch nach drei Durchläufen nicht, schweigt das System nicht, sondern antwortet aus dem parametrischen Wissen des Sprachmodells und fügt eine ausdrückliche Warnung an: Diese Antwort wurde nicht über den Graphen abgesichert. Die stille Tugend des Entwurfs liegt darin, dass er eine abgesicherte Antwort von einer Notfallantwort trennt und der nutzenden Person zeigt, welche von beiden sie vor sich hat.
Es handelt sich um Retrieval-Augmented Generation — das Verfahren, die Ausgabe eines Sprachmodells in abgerufenen Dokumenten zu verankern statt allein im Training — mit zwei Verfeinerungen: ein strukturierter Wissensgraph anstelle loser Textpassagen und ein Agent, dem erlaubt ist, die eigene Unkenntnis zu bemerken und es erneut zu versuchen. Es selbstkorrigierend zu nennen, ist fair. Es validiert zu nennen, wäre es nicht.
Was die Evidenz belegt
Zwei Hepatolog:innen, verblindet dafür, welches System welche Antwort erzeugt hatte, bewerteten die Ergebnisse auf Fünf-Punkte-Skalen für Genauigkeit, Vollständigkeit und Sicherheit. Bei der Sicherheit — der hier wichtigsten Zahl — erreichte das Framework 4,9 gegenüber 4,4 für einen graphbasierten Vergleichsansatz, 4,3 für Standard-Retrieval und 4,1 für GPT-4 allein. Es führte auch auf den beiden anderen Skalen, und die Arbeit berichtet hohe automatisierte Werte für Treue zum Quelltext (0,94) und Kontextabdeckung (0,92). Eng gelesen ist das Ergebnis stimmig: Ein System, das seine Antworten verankern und sich enthalten soll, wenn es das nicht kann, liefert tatsächlich Antworten, die zwei Ärzt:innen als sicherer beurteilten.
Was die Evidenz nicht belegt
Jetzt der Nenner. Die Bewertung beruht auf dreißig Fragen — zehn faktischen, zehn mehrschrittigen, zehn bewusst mehrdeutigen. Dreißig. Das ist ein Machbarkeitsnachweis, keine Validierungsstudie, und die Forschenden sagen das auch. Bei einem so kleinen n ist der Abstand zwischen 4,4 und 4,9 eine Richtung, kein gemessener Effekt; kein Konfidenzintervall rettet ihn. Die Fragen und das Bewertungsraster wurden von derselben Gruppe erstellt, die das System gebaut hat, die automatisierten Kennzahlen sind an genau diesem Satz berechnet, und ein Vergleich mit einem externen, etablierten System zur klinischen Fragenbeantwortung fehlt. Ein günstiges Ergebnis auf dem eigenen Prüfstand, benotet von den eigenen Prüfenden, ist der Anfang der Untersuchung, nicht ihr Ende.
Eines gehört zudem offen ausgesprochen. Ein Wissensgraph ist nur so vertrauenswürdig wie die Leitlinien, die in ihn einfließen, und die Arbeit nennt nicht vollständig, welche nationalen Fachgesellschaften jene 53 Dokumente verfasst haben. Für eine europäische Leserin ist das keine Nebensache. Ein hepatologischer Assistent, der in den Leitlinien eines einzelnen Landes verankert ist, kodiert stillschweigend dessen Grenzwerte und Arzneimittelentscheidungen mit; die Wahrheit in der Medizin ist an Rechtsräume gebunden. Die Forschenden weisen selbst auf das verwandte Risiko hin, dass ein leitliniengebundenes System der neuesten Evidenz hinterherläuft und dass der Aufbau des Graphen erheblichen fachlichen Aufwand erforderte — die ehrlichen Grenzen einer sorgfältigen, aber frühen Arbeit.
“Ein System, das eine plausible, aber unsichere Antwort selbstsicher anbietet, ist gefährlicher als eines, das einräumt, noch nicht genug zu wissen.”
Warum das zählt
Die übertragbare Lehre ist nicht der hepatologische Graph und nicht der Punktwert. Es ist das Designprinzip, und es ist die richtige Frage an jede klinische KI, die einem Krankenhaus vorgeführt wird: Merkt sie, wann sie nicht genug weiß, und sagt sie es Ihnen? Ein Modell, das sich enthält, erneut sucht und eine nicht abgesicherte Antwort als nicht abgesichert kennzeichnet, tut etwas, das ein ungeschützter Chatbot nicht kann — es geht mit der eigenen Unsicherheit so um, dass eine behandelnde Person es nachprüfen kann. Ob gerade diese Umsetzung klinisches Vertrauen verdient, können dreißig selbst benotete Fragen nicht beantworten. Aber die Eigenschaft, nach der sie greift, ist die, die man fordern und sauber messen sollte, bevor irgendetwas dieser Art einer Patientin nahekommt.
Quelle: Hu Y, Xuan W, Zhou Q, Li Z, Li Y, Hu J, Fang F. A self-correcting Agentic Graph RAG for clinical decision support in hepatology. Frontiers in Medicine 2025;12:1716327. Ein begutachteter Machbarkeitsnachweis, geprüft an dreißig Fragen, die das entwickelnde Team selbst bewertete, ohne externen Vergleichsmaßstab — stark als Entwurf, vorläufig als Evidenz.


