25. Mai 20265 Min. Lesezeit

Triage per Sprachmodell: Die Quelle hat die Arbeit gemacht, nicht das Modell

Eine retrospektive Studie erdete ein Triage-Sprachmodell in zwei Quellen: Leitlinie und dreitausend frühere Fälle. Der ehrliche Befund ist leiser: besser als das ungeerdete Modell, von den Autoren als präklinisch bezeichnet, und keine Patientin wurde prospektiv begleitet.

Dr. Sven Jungmann

CEO

Editorial-Collage: die Hand einer Triage-Pflegekraft auf einem Notaufnahme-Klemmbrett, daneben treffen eine tealfarbene Leitlinienseite und ein navyfarbener Stapel früherer Fälle an einer Naht aufeinander, markiert durch einen einzelnen Amber-Punkt.

Die Triage trägt zwei Fehler in sich, die in entgegengesetzte Richtungen ziehen. Schickt man einen stillen Herzinfarkt ans Ende der Schlange, wartet jemand zu lange; winkt man eine stabile Patientin nach vorn, belegt ein verstauchter Knöchel den Schockraum. Jedes Werkzeug, das Hilfe verspricht, muss an beidem zugleich gemessen werden — und an denen, die diese Arbeit bereits gut machen. Eine retrospektive Studie in JMIR Medical Informatics hat ein Sprachmodell genau dieser Prüfung unterzogen. Ihr nützlichstes Ergebnis ist nicht die Schlagzeilenzahl, sondern die Frage, woher die Verbesserung kam.

Das System MECR-RAG ist ein retrieval-gestütztes Sprachmodell: Statt allein aus dem eigenen Modellwissen zu antworten, ruft es zunächst Belege ab und schlussfolgert über ihnen. Das Besondere an diesem Aufbau: Es ruft aus zwei Quellen zugleich ab — der lokalen Notaufnahme-Triageleitlinie aus Hongkong und einer Datenbank mit dreitausend anonymisierten früheren Triagefällen. Das zugrunde liegende Modell war in beiden Armen DeepSeek-V3, ohne Feinabstimmung; das ist wichtig, um das Ergebnis richtig zu lesen.

Was die Forschenden getan haben

Es handelt sich um eine retrospektive, monozentrische Auswertung. Das geerdete System und eine reine Prompt-Variante desselben Modells — ohne Abruf — sollten jeweils 236 Routinefällen aus einer einzigen Hongkonger Notaufnahme eine fünfstufige Triagekategorie zuweisen; die Testfälle stammten aus 2023, die abrufbare Falldatenbank aus 2024. Die Referenzbewertungen stammten von verblindeten erfahrenen Triage-Pflegekräften. Die primären Zielgrößen waren der quadratisch gewichtete Kappa-Wert (ein Übereinstimmungsmaß, das größere Abweichungen stärker bestraft) sowie die schlichte Trefferquote gegenüber diesen Expertenurteilen. In den 226 Fällen mit Verlaufsdaten ergänzten die Autoren eine ergebnisbasierte Schweregradstufe, um nicht nur zu fragen, ob das System mit den Pflegekräften übereinstimmte, sondern ob es die Patient:innen erfasste, die sich als ernsthaft krank erwiesen. Die Autoren benennen ausdrücklich: Dies ist eine präklinische In-silico-Validierung im DECIDE-AI-Rahmen — ein Konzeptnachweis, kein Beleg klinischer Wirkung.

Was die Evidenz belegt

Das geerdete System erreichte gegenüber der Pflegereferenz einen quadratisch gewichteten Kappa-Wert von 0,902 — gegenüber 0,801 für dasselbe Modell ohne Abruf (p < ,001); die Trefferquote stieg von 0,542 auf 0,802. Seine Übereinstimmung lag im selben Bereich wie die der Pflegekräfte untereinander (Interrater-Kappa 0,887), was die Autoren als „expertenvergleichbar“ beschreiben. Klinisch interessant war die Bewegung bei der Übertriage: unnötige Hochstufungen sanken von 68 auf 30 der 236 Fälle, während die Untertriage niedrig blieb (4 auf 3). Und bei dem Maß, das am meisten zählt — dem Erfassen der Patient:innen mit schwerem Verlauf —, kennzeichnete das geerdete System 124 von 130 schweren Fällen (95,4 Prozent) gegenüber 117 von 130 (90,0 Prozent) bei der initialen Pflegetriage (p = ,02), bei vergleichbarer Spezifität.

Der stille, eigentlich wichtige Befund steckt in der Ablationsanalyse. Reduzierte man das System auf das nackte Modell, brach die Übereinstimmung ein; die Leitlinie half, die Falldatenbank half, und erst beide zusammen erreichten 0,902. Keine Quelle reichte allein. Der Austausch des zugrunde liegenden Modells — die Autoren prüften Claude 3.7 Sonnet und GPT-4o in einer explorativen Kontrolle — veränderte das Ergebnis weit weniger als das Entfernen des Abrufs. Anders gesagt: Der Gewinn kam daher, das Modell in den richtigen Belegen zu erden, nicht aus einem größeren oder klügeren Modell. Das ist das Gegenteil dessen, wohin die meiste Aufmerksamkeit des Feldes zielt.

Was die Evidenz nicht belegt

Beginnen wir mit dem, was gemessen wurde. Der Endpunkt war die Übereinstimmung mit einer Triagekategorie, nicht der Weg einer Patientin durch die Notaufnahme. Niemand wurde randomisiert, keine Wartezeit wurde verkürzt, kein übersehener Infarkt in dieser Studie verhindert. Die Schweregradanalyse ist ein Schritt hin zur klinischen Relevanz, doch die Autoren sagen offen, dass schwere Ereignisse selten waren und dass sowohl der Pflegekonsens als auch ihr zusammengesetztes Maß pragmatische Näherungen sind, keine gesicherte Wahrheit. Sie gehen weiter als üblich und benennen den Rothman-Index und das Epic-Sepsis-Modell als Werkzeuge, die offline stark wirkten und nach der Einführung in unabhängiger Prüfung deutlich schwächer abschnitten. Hohe Übereinstimmung auf einer retrospektiven Werkbank ist genau jene Art Ergebnis, das verblasste, sobald das System auf eine reale Warteschlange traf.

Dann der Rahmen. Es ist eine Notaufnahme, eine lokale Leitlinie, eine Sprache und Dokumentationsweise, 236 archivierte Fälle, offline in etwa einer Minute je Fall durchgearbeitet. In Deutschland ist das Manchester-Triage-System etabliert; ein auf Hongkongs Leitlinie und Fallmischung abgestimmtes System zeigt, dass die Architektur funktionieren kann, nicht dass sie übertragbar ist. Die Falldatenbank und die Fallzusammenfassungen wurden automatisch aus Routinenotizen erzeugt, ohne ärztliche Prüfung, sodass einzelne abgerufene Präzedenzfälle falsch etikettiert sein können — und die Testfälle liegen ein Jahr vor der Falldatenbank, eine zeitliche Verschiebung, die die Autoren selbst benennen. Nichts davon ist ein Mangel der Arbeit; es ist die ehrliche Grenze eines Konzeptnachweises.

“Die Verbesserung kam daher, das Modell in den richtigen Belegen zu erden — Leitlinie und frühere Fälle zusammen —, nicht aus einem größeren Modell. Die meiste Aufmerksamkeit des Feldes zielt in die andere Richtung.”

Warum das zählt

Für alle, die Entscheidungsunterstützung in der eigenen Abteilung abwägen, liegt die übertragbare Lehre nicht im Kappa-Wert, sondern in der Ablation. Wenn die Erdung in maßgeblichen, lokalen Belegen mehr bewirkt als die Wahl des Modells, dann ist die Arbeit, die über die Sicherheit eines solchen Werkzeugs entscheidet, wenig glamourös und durch und durch klinisch: welche Leitlinie, welche früheren Fälle, von wem kuratiert und geprüft, von wem aktuell gehalten. Das ist eine Frage für die Menschen am Triage-Tresen, nicht für den Modellanbieter. Und sie lässt sich nur so beantworten, wie es die Autoren fordern — prospektiv, in mehr als einem Zentrum, gemessen an Wartezeiten, Überfüllung, Verweildauer und Endpunkten, die tatsächlich bei den Patient:innen ankommen.

Quelle: Wong HS, Wong TK. Multi-Evidence Clinical Reasoning With Retrieval-Augmented Generation for Emergency Triage: Retrospective Evaluation Study. JMIR Medical Informatics 2026;14:e82026. Eine monozentrische, retrospektive, präklinische In-silico-Auswertung; ihr primärer Endpunkt war die Übereinstimmung mit Experten-Triagebewertungen, nicht ein prospektiv gemessener klinischer Verlauf.

#Journal Club#Klinische KI#Notfallmedizin#Evidenzbasierte Medizin#Retrieval-gestützte Generierung

Triage per Sprachmodell: Die Quelle hat die Arbeit gemacht, nicht das Modell

Was die Forschenden getan haben

Was die Evidenz belegt

Was die Evidenz nicht belegt

Warum das zählt

Weiterlesen

Warum aiomics für QM-Berichte und Qualitätsanalytik

Warum aiomics für Kodiervorschläge und die §301-Vorbereitung

Warum aiomics für Entlassbriefe und Arztbriefe

Diese Analyse stammt von den Leuten hinter Visite.

Sie möchten das in Ihrer Klinik sehen?