Ein paar Hundert manipulierte Datensätze: Was die Studie zur Datenvergiftung wirklich behauptet
Eine analytische Übersicht argumentiert: Der Erfolg eines Angriffs auf medizinische KI hängt an der absoluten Zahl manipulierter Datensätze, nicht an ihrem Anteil. Die Argumentation trägt. Sie ist aber ein Bedrohungsmodell, kein gemessenes Ereignis.

Dr. Sven Jungmann
CEO

Die Zahl, die in dieser Arbeit die eigentliche Arbeit leistet, ist klein und widerläuft der Intuition: ein paar Hundert manipulierte Datensätze. Kein Prozentsatz des Trainingsdatensatzes, sondern eine Anzahl. Die Autoren tragen frühere Sicherheitsforschung zusammen, derzufolge ein Angreifer, der 100 bis 500 vergiftete Datensätze in die Daten hinter einer medizinischen KI einschleust, diese kompromittieren kann — mit berichteten Erfolgsraten von über 60 Prozent, bei Bildgebungsmodellen zwischen 70 und 95 Prozent. Das Beunruhigende daran: Diese Größenordnung verschiebt sich kaum, ob der umgebende Datensatz zehntausend oder zehn Millionen Datensätze umfasst. Träfe das in der Klinik zu, fiele eine bequeme Annahme — dass ein sehr großer Trainingsdatensatz durch seine schiere Größe eine Art Panzerung ist.
Bevor man weitergeht, lohnt sich Genauigkeit darüber, was diese Arbeit ist, denn das Genre entscheidet, wie viel jeder Satz tragen kann. Es ist kein Experiment. Farhad Abtahi und Kolleg:innen am Karolinska-Institut sowie Partner an der Universidad Politécnica de Madrid haben kein klinisches System angegriffen. Sie haben 41 zwischen 2019 und 2025 erschienene Sicherheitsstudien ausgewertet und daraus ein analytisches Bedrohungsmodell gebaut, illustriert mit acht hypothetischen Szenarien. Die empirischen Zahlen stammen aus dieser Vorliteratur, vieles davon zu nicht-medizinischen Modellen; die medizinischen Szenarien sind konstruierte Projektionen. Die Autoren sagen das selbst, deutlich und wiederholt.
Was die Evidenz belegt
Die stärkste Aussage, und die mitzunehmende, ist das Argument der absoluten Zahl. Über die betrachteten Architekturen hinweg — Faltungsnetze für die Bildgebung, große Sprachmodelle, Agenten des bestärkenden Lernens — berichten die zitierten Studien, dass der Angriffserfolg an der Anzahl vergifteter Beispiele hängt und nicht an ihrem Anteil. Genannt werden 100 bis 500 Datensätze für Bildgebungsmodelle und schon 100 bis 250 für instruktionsfeinjustierte Sprachmodelle, dazu Hinweise, dass die Sicherheitsausrichtung eines Modells mit in der Größenordnung von hundert gezielt gestalteten Beispielen ausgehebelt werden kann. Der Mechanismus ist nicht rätselhaft: Ein lernendes System kann aus einer kleinen, in sich stimmigen Menge von Beispielen eine enge, verlässliche Verknüpfung lernen, und ein größerer unauffälliger Datensatz verdünnt ein Signal nicht, das in sich kohärent ist.
Der zweite belegte Punkt betrifft die Sichtbarkeit, und er ist der eigentlich originelle Beitrag. Datenschutzrecht — die Datenschutz-Grundverordnung (DSGVO) in Europa, ihr Gegenstück in den USA — ist darauf angelegt, genau jene einrichtungsübergreifende Zusammenführung von Patient:innendaten zu verhindern, die einer prüfenden Stelle eine subtile, verteilte Manipulation auffallen ließe. Dieselben Regeln, die Patient:innen schützen, können als Nebenwirkung diejenigen blind machen, die eine langsame Kampagne sonst bemerken würden. Die Autoren schätzen die Erkennungsverzögerung auf sechs bis zwölf Monate, in föderierten oder datenschutzbeschränkten Umgebungen länger. Diese Schätzung ist eine begründete Projektion, keine Messung; der zugrunde liegende Widerspruch zwischen Prüfbarkeit und Vertraulichkeit ist jedoch real und gut belegt.
Was die Evidenz nicht belegt
Hier muss man die Linie halten, die die Autoren selbst ziehen. Die anschaulichen Fälle — ein Radiologiemodell, das nach rund 250 manipulierten Bildern, 0,025 Prozent eines Datensatzes aus einer Million Bildern, bei einer Bevölkerungsgruppe still Karzinome übersieht; ein Modell zur Organzuteilung, das über Jahre in eine systematische Schieflage driftet, bevor der Schaden statistisch sichtbar wird — sind ausdrücklich als hypothetische Konstrukte gekennzeichnet, nicht als eingetretene Vorfälle. Sie sollen einen Mechanismus lesbar machen, und das gelingt ihnen. Sie sind kein Beleg, dass ein solcher Angriff geschehen ist, und keine Schätzung seiner Wahrscheinlichkeit. Eine im Prinzip mögliche Bedrohung und eine stattfindende Bedrohung sind verschiedene Dinge, und die Arbeit vermengt beides nie, auch dort nicht, wo eine flüchtige Lesart es täte.
“Eine im Prinzip mögliche Bedrohung und eine stattfindende Bedrohung sind verschiedene Dinge — und diese Arbeit verwechselt beides sorgfältig nicht.”
Die Grenzen, die die Autoren benennen, sind die entscheidenden. Sie haben keine eigenen Angriffe auf produktive Systeme durchgeführt. Ihre Literatur war ausschließlich englischsprachig, mit der entsprechenden Verzerrung der Auswahl. Die herangezogenen empirischen Studien untersuchten Modelle mit bis zu 13 Milliarden Parametern, während klinische Basismodelle inzwischen 100 Milliarden und mehr erreichen — die Übertragung auf die größten Modelle, räumen sie ein, braucht daher noch empirische Bestätigung. Und die vorgeschlagenen Abwehrmaßnahmen — Überwachung von Uneinigkeit in Modellverbünden, gezielte adversariale Tests, prüfbare und zugleich datensparsame Protokollierung — sind in keiner prospektiven klinischen Umgebung validiert. Das ist eine gut begründete Argumentation über ein plausibles Risiko, keine gemessene Schadenshäufigkeit, und so sollte sie auch zitiert werden.
Warum das hier zählt
Für europäische Systeme ist das relevante Detail konkret. Der Europäische Gesundheitsdatenraum (European Health Data Space, EHDS) soll Gesundheitsdaten über 27 Mitgliedstaaten verbinden — in der Größenordnung von 450 Millionen Menschen —, und föderiertes Lernen ist einer seiner vorgesehenen Mechanismen. Die Autoren weisen darauf hin, dass ein über diesen Raum trainiertes föderiertes Modell die Vertrauensannahmen jedes beitragenden Knotens erbt: In ihrer Projektion könnte die Kontrolle über die Dateneinspeisung in drei bis fünf Mitgliedstaaten, elf bis neunzehn Prozent der Beteiligten, ein gemeinsames Modell prägen, während jeder nationale Datensatz für sich unauffällig bliebe. Das ist eine Gestaltungsfrage, die man früh stellen sollte, solange die Architektur noch entschieden wird — kein Grund zur Beunruhigung. Die ehrliche Lehre ist eng und brauchbar: Wird eine klinische KI geprüft, gehört die Robustheit gegen absichtlich verfälschte Trainingsdaten auf die Liste der Fragen, und die Größe des Datensatzes ist keine Antwort darauf.
Quelle: Abtahi F, Seoane F, Pau I, Vega-Barbas M. Data Poisoning Vulnerabilities Across Health Care Artificial Intelligence Architectures: Analytical Security Framework and Defense Strategies. Journal of Medical Internet Research 2026;28:e87969. Eine analytische Übersicht und Bedrohungsmodellierung früherer Sicherheitsforschung, gefördert von der SMAILE-Kernfazilität am Karolinska-Institut (keine Interessenkonflikte angegeben); sie enthält keine eigenen Experimente, und ihre medizinischen Angriffsszenarien sind ausdrücklich hypothetisch, keine dokumentierten Vorfälle.


