Tippfehler, Homophone, Schwärzungen: Welche unsaubere Klinikdokumentation ein Sprachmodell wirklich aus der Bahn wirft
Eine Benchmark-Studie speiste drei Sprachmodelle mit absichtlich beschädigtem medizinischem Text. Schreibfehler störten kaum; das Schwärzen von Wörtern richtete den Schaden an. Ein nützlicher Befund — aber eine Benchmark mit synthetischem Rauschen, kein Beleg vom Krankenbett.

Dr. Sven Jungmann
CEO

Vertippen tut sich jede:r. Wer am Ende einer Nachtschicht einen Entlassbrief diktiert, schreibt „Diabtes“ statt Diabetes, verwechselt links mit rechts, verliert ein Wort. Das ist nicht die Ausnahme klinischer Texte, sondern ihre Beschaffenheit. Interessant ist die Frage, ob die Sprachmodelle, die wir zwischen diesen Text und eine Entscheidung setzen, das überhaupt bemerken — und eine Benchmark in JMIR AI beantwortet sie auf die unaufgeregte, ehrliche Weise: Sie beschädigt die Eingaben mit Absicht und schaut, was passiert.
Das ist relevant, weil das Modell sauberen Text selten zu sehen bekommt. Es trifft auf Abkürzungen, Autokorrektur-Narben, Kopier-Artefakte und — zunehmend — auf Text, dem ein Datenschutzschritt Namen, Daten und Identifikatoren entfernt hat, bevor das Modell ihn überhaupt sieht. Wird Robustheit gegenüber diesem Durcheinander vorausgesetzt statt gemessen, ist der Fehlermodus still: eine selbstbewusste, falsche Antwort auf einen Satz, den ein Mensch als verstümmelt erkannt hätte.
Was die Forschenden getan haben
Die Forschenden nahmen drei Sprachmodelle — ein GPT-Modell, Metas Llama und BlueBERT, ein auf biomedizinischen Texten vortrainiertes Encoder-Modell — und ließen sie drei medizinnahe Aufgaben bearbeiten: die Klassifikation von Stimmung, die Klassifikation der in einem Abstract beschriebenen Erkrankung und das Beantworten von Fragen zu klinischen Notizen. Dann beschädigten sie die Eingaben auf drei gezielte Weisen in abgestuften Stärken: Tippfehler auf Zeichenebene (bei 10, 30 und 50 Prozent der Zeichen), Homophon-Ersetzungen (gleich klingende Wörter, bei 10, 20, 30 Prozent der Wörter) und Schwärzungen (ganz entfernte Wörter, bei 10, 30, 50 Prozent). Das vollständige Raster ergab 270 experimentelle Szenarien. Das ist eine Benchmark-Studie auf einem eigens erstellten Datensatz, kein klinischer Versuch: keine Patient:innen, keine klinischen Verläufe, und das Rauschen ist synthetisch, von den Autor:innen erzeugt statt aus echten Akten gezogen.
Was die Evidenz belegt
Die erste Überraschung ist, wie wenig zerbrach. Über die 270 Szenarien hinweg blieb die Leistung in 113 Fällen (41,85 Prozent) stabil und verbesserte sich in 38 (14,07 Prozent) — in 151 Szenarien, also mehr als der Hälfte, stand das Modell nach der Verschlechterung der Eingabe nicht schlechter oder sogar besser da. Die Leistung fiel in 104 Fällen (38,52 Prozent), und nur 15 (5,56 Prozent) brachen auf das ein, was die Autor:innen einen katastrophalen Abfall nennen. Die reflexhafte Sorge — ein einzelner Tippfehler lasse das Ganze entgleisen — ist also nicht, was die Daten zeigen.
Die zweite Überraschung ist die Rangfolge der Schäden. Die Autor:innen berichten, dass Tippfehler und Homophone vergleichsweise geringe Wirkung hatten, während Schwärzungen eine deutlich ausgeprägtere Verschlechterung erzeugten; dort häufen sich die katastrophalen Ausfälle. In ihrer Aufschlüsselung nach Störungstyp entfielen die katastrophalen Ergebnisse auf die Schwärzungen, nicht auf die beiden anderen Störungen. Die Erklärung leuchtet ein, sobald man sie ausspricht. Ein Schreibfehler trägt noch ein Signal — „Diabtes“ ist eine Korrektur von seiner Bedeutung entfernt —, ein entferntes Wort trägt keines. Das Modell kann einen verzerrten Hinweis reparieren; einen Hinweis, der fehlt, kann es nicht wiederherstellen.
Ein dritter Befund lohnt das Festhalten, weil er der Intuition zuwiderläuft: Die Wirkung der Störung ist nicht monoton schlecht. In einem durchgerechneten Beispiel wurde ein Abstract über ein Karzinom der Gallenblase — die korrekte Kategorie war „Erkrankung des Verdauungssystems“ — im unveränderten Zustand fälschlich als „Neoplasie“ eingeordnet; gerade das Verändern der Begriffe „carcinoma“ und „cancer“ rückte das Modell von dieser falschen Einordnung ab und hin zur richtigen. Das Rauschen entfernte einen Begriff, der das Modell in die falsche Richtung gezogen hatte. Ein kleines Ergebnis, aber es widerlegt die Annahme, sauberere Eingabe sei immer die sicherere.
Was die Evidenz nicht belegt
Das ist eine Benchmark und sollte als solche gelesen werden. Die Störungen sind synthetisch — die Autor:innen führen das als erste ihrer Einschränkungen an —, und ein Skript, das zufällige Wörter löscht, ist nicht dasselbe wie eine echte Pseudonymisierungs-Strecke, ein verstümmeltes Diktat oder die Freitextnachricht einer Patientin. Gemessen wird die Trefferquote auf Text, keine Behandlungsentscheidung an Patient:innen, und nichts hiervon wurde an einem klinischen Verlauf gemessen. „Die Antwort wurde schlechter“ ist eine Eigenschaft des Testdatensatzes, noch kein dokumentierter Schaden für irgendjemanden.
Der Geltungsbereich ist eng, gerade in den Punkten, die fürs Verallgemeinern zählen: drei Modelle, drei Aufgaben, nur Englisch, ein eigens erstellter Datensatz. Und das schlagzeilentaugliche Detail — dass 12 der 15 katastrophalen Einbrüche auf das GPT-Modell entfielen — gehört vorsichtig behandelt. Es lädt zu einer sauberen Geschichte ein (das stärkste Modell ist das anfälligste), doch fünfzehn Ereignisse, verteilt über ein Raster aus 270 Zellen, sind ein dünner Boden für ein Urteil; man behandle es als Hypothese. Nichts davon ist ein Vorwurf an die Arbeit; es ist eine begutachtete Studie, die ihre eigenen Grenzen klar benennt. Es ist eine Mahnung, die Schlagzeile nicht mehr behaupten zu lassen, als die Methode hergibt.
“Ein Schreibfehler trägt noch ein Signal; ein entferntes Wort trägt keines. Das Modell kann einen verzerrten Hinweis reparieren — einen Hinweis, der fehlt, kann es nicht wiederherstellen.”
Warum das hier zählt
Was über den Testdatensatz hinaus trägt, ist der Zielkonflikt, den die Studie konkret macht. Der Datenschutzreflex lautet, identifizierenden Text zu entfernen, bevor ein Modell ihn berührt — vernünftige Praxis unter der Datenschutz-Grundverordnung (DSGVO). Doch die Schwärzung ist genau die Störung, unter der diese Modelle am stärksten strauchelten. Entfernt dieser Schritt nicht nur Identifikatoren, sondern tragende klinische Wörter, kann er genau die Bedingung sein, unter der das Modell am unzuverlässigsten arbeitet. Das ist kein Argument gegen die Schwärzung. Es ist ein Argument dafür, ein System an genau der verschlechterten Eingabe zu prüfen, die es real erhält — Schwärzungen eingeschlossen —, bevor man seinem Ergebnis vertraut. Die Lehre ist bescheiden und der Aufbewahrung wert: Robustheit gegen den realen Schmutz messen, sie nicht voraussetzen.
Quelle: Joshi S, Mehta M, Maniar S, Wang M, Singh VK. Performance of Large Language Models Under Input Variability in Health Care Applications: Dataset Development and Experimental Evaluation. JMIR AI 2026;5:e83640 (veröffentlicht am 20. Februar 2026). Eine begutachtete Benchmark an synthetisch verschlechtertem Text über drei Modelle und drei Aufgaben — als Robustheitsprobe nützlich, aber ohne Patient:innen, ohne klinische Verläufe und ohne Anspruch auf Leistung am Krankenbett. Gefördert in Teilen von der Rutgers University School of Communication and Information; keine Interessenkonflikte erklärt.


