Fünfundsechzig Studien sind sich einig: Die Modelle gewinnen. Die Station merkt nichts.
Eine PRISMA-Übersicht über 65 Studien zeigt, dass Sprachmodelle klinische Texte zuverlässig besser klassifizieren als klassische Verfahren. Die ehrliche Lesart ist schmaler: Genauigkeitsstudien aus einzelnen Häusern, die selten fragten, ob die Modelle auf Station funktionieren.

Dr. Sven Jungmann
CEO

Von 826 gesichteten Arbeiten blieben fünfundsechzig zur Auswertung übrig. Ihr Befund ist ungewöhnlich einheitlich: Über binäre, Multiklassen- und Multilabel-Aufgaben hinweg, über klinische Notizen, Patient:innennachrichten und Forschungsliteratur klassifizierten Large Language Models (große Sprachmodelle) Texte genauer als die klassischen Verfahren des maschinellen Lernens, mit denen sie verglichen wurden. So lautet das Ergebnis einer neuen systematischen Übersichtsarbeit in JMIR AI, und die Einigkeit ist echt. Die nützlichere Frage ist, was eine solche Einigkeit belegen kann und was nicht — und ob etwas davon je eine Station erreicht hat.
Textklassifikation ist der unscheinbare Maschinenraum der klinischen Informatik: einen Diagnosecode vergeben, eine unerwünschte Arzneimittelwirkung im Entlassbrief markieren, einen Pathologiebefund triagieren, Patient:innenpost sortieren. Genau diese hochvolumige, regelgebundene Arbeit, bei der ein guter Klassifikator still seinen Wert beweist. Eine saubere Antwort auf die Frage „Können Sprachmodelle das besser?“ ist deshalb von Belang. Die Übersicht liefert sie, und das ist ihr Verdienst.
Was die Forscherinnen getan haben
Hajar Sakai und Sarah Lam von der Binghamton University durchsuchten die großen Datenbanken — Google Scholar, Scopus, PubMed, ScienceDirect und weitere — nach Arbeiten aus den Jahren 2018 bis 2024 und kamen über eine PRISMA-Sichtung auf 65 einschlussfähige Studien aus dem Zeitraum 2020 bis zum dritten Quartal 2024. Es handelt sich um eine systematische Übersichtsarbeit, nicht um ein Experiment: Sie fasst zusammen, was andere gefunden haben, und erbt die Stärken wie die blinden Flecken der Literatur, die sie referiert. Die PRISMA-Buchführung ist nachvollziehbar — das Erste, was zu prüfen ist, und das, woran viele Übersichten scheitern.
Die eingeschlossenen Studien gruppieren sich aufschlussreich. Die feinabstimmende Anpassung (Fine-Tuning) war der häufigste Ansatz (35 Studien), deutlich vor dem Prompt Engineering (17). Modelle der BERT-Familie — lokal betreibbar und damit leichter dort zu halten, wo die Patient:innendaten liegen — machten rund die Hälfte der Multilabel-Arbeiten aus, während geschlossene Modelle der GPT-Familie bei binären (44,0 %) und Multiklassen-Aufgaben (30,6 %) führten. Die klinische Entscheidungsunterstützung war die mit Abstand häufigste Anwendung, in 29 der 65 Studien. Und das Feld beschleunigt: Allein in den ersten drei Quartalen 2024 erschienen 28 der 65 Arbeiten.
Was die Evidenz belegt
Auf die enge Frage, die sie sich gestellt hat, antwortet die Übersicht überzeugend. Jede eingeschlossene Studie nutzte Genauigkeitsmaße, und die Richtung war einheitlich: Die Sprachmodelle übertrafen die klassischen Vergleichsverfahren. Diese Übereinstimmung über Dutzende unabhängige Gruppen, Datensätze und Aufgabentypen hinweg ist schwerer beiseitezuschieben als jeder einzelne Benchmark, und sie ist das Stärkste, was die Arbeit sagt. Wer nur wissen will, ob diese Modelle klinische Texte im Forschungsumfeld gut klassifizieren können, hat seine Antwort: ja.
Die Übersicht ist zudem ehrlich gegenüber einem Zielkonflikt, den jedes Haus kennt. Lokale BERT-Modelle halten die Daten im Haus, verlangen aber annotierte Trainingsdaten und Entwicklungsaufwand; promptgesteuerte geschlossene Modelle sind schnell einsatzbereit ohne gelabelte Daten, senden den Text aber an einen externen Server — und ihre Betriebskosten können, so die Autorinnen, bei hohem Aufkommen erheblich sein. Es gibt hier keine kostenlose Option — nur eine Abwägung zwischen Datenkontrolle und Bequemlichkeit, die für verschiedene Textarten unterschiedlich ausfällt.
Was die Evidenz nicht belegt
Hier muss man als sorgfältige Leserin innehalten. „Genauer als der Vergleich“ ist eine Aussage über einen zurückgehaltenen Testdatensatz, meist aus einer einzigen Einrichtung, fast immer in englischer Sprache. Über 80 Prozent der eingeschlossenen Studien nutzten englischsprachige Daten, und die Autorinnen halten ausdrücklich fest, dass dieser Fokus die Entwicklung mehrsprachiger Ansätze behindert; die Validierung an deutschsprachigen klinischen Texten ist entsprechend dünn. Ein deutsches Haus, das eines dieser Verfahren übernimmt, bewegt sich also weitgehend jenseits der Landkarte, die die Literatur gezeichnet hat. Datensätze aus einzelnen Einrichtungen, so die Arbeit weiter, schränken die Übertragbarkeit der Ergebnisse auf andere Versorgungssettings ein — und seltene Erkrankungen, gerade dort, wo automatische Klassifikation am meisten helfen würde, sind genau jene Fälle, in denen unbalancierte Daten die Modelle am unzuverlässigsten machen.
Die tiefere Lücke ist, was die Studien gar nicht erst gemessen haben. Die Übersicht benennt sie unverblümt: Die Bewertungsrahmen prüften „inference latency, deployment feasibility, and operational costs“ nur eingeschränkt, weil die meisten Studien die Genauigkeit über praktische Einsatzkennzahlen stellten. Lange klinische Dokumente erzwingen zudem ein Zerlegen in Abschnitte, was die Inferenz verlangsamen und Echtzeitanwendungen verzögern kann; die hohen Betriebskosten fortgeschrittener Modelle können den praktischen Einsatz erschweren. Eine Testdatensatz-Genauigkeit sagt zu all dem nichts. Die Leistungsfrage ist vielfach beantwortet; die Einsatzfrage wurde kaum gestellt.
“Die Technologie ist reif in dem Sinne, in dem die Studien sie geprüft haben. Die Bedingungen für ihren sicheren Einsatz — Datenschutz nach der DSGVO, deutschsprachige Validierung, Integration in die Klinikinformationssysteme, Interpretierbarkeit am Punkt der Entscheidung — sind nicht das, was diese Studien gemessen haben.”
Warum das hier zählt
Die konstruktiven Vorschläge der Übersicht weisen in die richtige Richtung und bleiben dabei nüchtern: parametereffizientes Fine-Tuning (PEFT, samt LoRA) für Einrichtungen ohne große Rechenbudgets; synthetische Daten zum Ausgleich seltener Klassen — mit dem ausdrücklichen Vorbehalt, dass rekursives Training auf synthetischem Text einen Modellkollaps riskiert; föderiertes Lernen, damit Häuser auf gemeinsamen Daten trainieren können, ohne Patient:innenakten zu verschieben; und die zeitliche Modellierung, um die Chronologie zu erfassen, die einfache Klassifikation einebnet. Bemerkenswert ist auch der Appell, künftig Einsatzkennzahlen wie Hardware, Latenz und Durchsatz zu berichten und die Entscheidungen erklärbar zu machen. Für eine klinische oder kaufmännische Leitung an einem deutschen oder europäischen Haus ist die praktische Lesart eher ruhig als dringlich. Die Klassifikatoren funktionieren; die Rahmenbedingungen — Datenschutz nach der DSGVO, Validierung an deutschsprachigen Akten, Integration in das Klinikinformationssystem und Interpretierbarkeit dort, wo eine klinische Entscheidung daran hängt — sind das, was bislang niemand belegt hat. Die nächsten fünfundsechzig Studien werden davon handeln müssen.
Quelle: Sakai H, Lam SS. Large Language Models for Health Care Text Classification: Systematic Review. JMIR AI 2026;5:e79202 (veröffentlicht am 11. Februar 2026; die Autorinnen erklärten keine Interessenkonflikte). Eine begutachtete systematische PRISMA-Übersicht über 65 Einzelstudien, überwiegend aus einzelnen Einrichtungen und in englischer Sprache; sie belegt vergleichende Genauigkeit im Forschungsumfeld, nicht die klinische Leistung, die Kosten oder die Übertragbarkeit in der Praxis.


