Zum Hauptinhalt springen
5 Min. Lesezeit

Was geschieht, wenn eine zugelassene KI ihr Verhalten ändert?

Unser Medizinprodukterecht unterstellt, dass ein Produkt sich morgen verhält wie am Tag der Zulassung. Adaptive KI tut das nicht. Eine Perspektive in npj Digital Medicine benennt die Lücke und schlägt einen Rahmen vor: ein Vorschlag, noch keine Evidenz.

Dr. Sven Jungmann

Dr. Sven Jungmann

CEO

Editorial-Collage: ein behördliches Zulassungssiegel auf einem Dokument, dessen Linien aus der Form geraten, dazu ein in sich zurücklaufender Halbtonpfeil und ein einzelner Amber-Akzent an der Lücke.

Das Datum, an dem eine Software zugelassen wird, sagt Ihnen, wie sie sich an jenem Tag verhalten hat. Für eine Hüftprothese oder eine Infusionspumpe genügt das: Das Geprüfte ist das Ausgelieferte, und es wird ein halbes Jahr später nicht stillschweigend zu etwas anderem. Bei einem adaptiven Modell des maschinellen Lernens ist der Zulassungstag der einzige Moment, über den Sie Gewissheit haben — und zunehmend nicht der Moment, der zählt. Das Modell, das im Oktober auf eine:n Patient:in trifft, ist womöglich nicht das Modell, das die Behörde im März gesehen hat.

Diese Diskrepanz ist der Gegenstand einer Perspektive von Cesario und Chinni in npj Digital Medicine. Ihr Argument ist eng und lohnt die genaue Wiedergabe: Das regulatorische Gerüst für Software als Medizinprodukt (Software as a Medical Device, SaMD) — die Medizinprodukteverordnung (MDR) in Europa, die Qualitätsmanagementnorm ISO 13485, die Norm IEC 62304 für den Software-Lebenszyklus — wurde um Annahmen herum gebaut, die für ein statisches Gerät gelten. Lineare Entwicklung. Feste Leistung. Ein Risikoprofil, das man einmal bestimmen kann. Keine dieser Annahmen übersteht die Begegnung mit einem System, das fortlaufend lernt. Eine Leistungsdrift ist bei solchen Systemen nicht der Fehlerfall. Sie ist das erwartbare Verhalten.

Was die Arbeit tatsächlich ist

Vor allem anderen lohnt sich Klarheit über die Evidenzstufe. Es handelt sich um eine Perspektive — ein strukturiertes Argument mit einem vorgeschlagenen Rahmen, keine Studie. Es gibt keinen Datensatz, keine Kohorte, keinen gemessenen Endpunkt. Die Arbeit prüft nicht, ob ihr Vorschlag die Sicherheit verbessert; sie begründet, dass die Lücke besteht, und skizziert, was ihre Schließung verlangen könnte. Das ist eine legitime und nützliche Art von Beitrag, aber sie steht weit entfernt von den randomisierten Versuchen und Validierungsstudien, die die Praxis verändern. Man sollte sie als gut begründete Position lesen, nicht als Befund.

Der Vorschlag trägt den Namen Good Digital Medicine Practices (GDMP) und besteht aus fünf Teilen: KI-spezifische Anforderungen in bestehende Qualitätssysteme zu integrieren; von der einmaligen Validierung bei der Zulassung zu einer kontinuierlichen klinischen Validierung überzugehen; eine adaptive Algorithmusaufsicht nach dem Vorbild von Instrumenten, die Behörden bereits aufbauen; eine verpflichtende Rückmeldung der Leistung aus dem Versorgungsalltag; und ein gemeinsames Vokabular, damit nationale Systeme zusammenwachsen statt auseinanderzudriften. So formuliert klingt das abstrakt. Konkret — und vom üblichen Ruf nach „mehr Aufsicht“ unterschieden — wird es dadurch, dass die Autoren Zahlen daran heften.

Der nützliche Teil: definierte Auslöser

Der praktischste Beitrag des Vorschlags besteht darin, zu benennen, was eine erneute Prüfung eines im Einsatz befindlichen Modells erzwingen sollte. Statt zu warten, bis ein Schaden sichtbar wird, nennt er quantitative Auslöser: eine Kalibrierungssteigung, die außerhalb von 0,90 bis 1,10 driftet; ein Rückgang der Fläche unter der Grenzwertoptimierungskurve (Area Under the Receiver Operating Characteristic Curve, AUROC, ein Standardmaß dafür, wie gut ein Modell Fälle von Nicht-Fällen trennt) um 0,05 oder mehr; eine Lücke in der Sensitivität von zehn Prozentpunkten oder mehr in einer Patient:innen-Untergruppe; ein Populationsstabilitätsindex über 0,2, der anzeigt, dass die eingehenden Daten den Trainingsdaten nicht mehr gleichen; eine Rate unerwünschter Ereignisse, die drei Standardabweichungen über den Ausgangswert steigt. Das sind im Voraus festgelegte Schwellen, an denen sich ein Überwachungsplan messen lässt. Sie machen aus „wir behalten das im Auge“ etwas Prüfbares.

Die Autoren leisten zudem die vergleichende Arbeit, und sie ist wirklich aufschlussreich. Singapurs Health Sciences Authority hat 2024 ein Change Management Program für SaMD mit maschinellem Lernen gestartet; die japanische Behörde betreibt ein Post-Approval Change Management Protocol; die US-amerikanische Food and Drug Administration nutzt den Predetermined Change Control Plan, der es einem Hersteller erlaubt, im Voraus festzulegen, welche Änderungen ein Modell ohne neue Einreichung vornehmen darf. Zusammen gelesen zeigen diese Beispiele, dass adaptive Aufsicht nicht mehr hypothetisch ist — mehrere Behörden bauen sie bereits, in unterschiedlichen Dialekten. Das Argument für eine Konvergenzschicht ist, dass die Dialekte auseinanderlaufen.

Was sie nicht belegt

Die ehrlichen Grenzen sind weitgehend Grenzen der Gattung. Ein Rahmen ist nicht dadurch validiert, dass er vorgeschlagen wird. Wir wissen nicht, ob die konkreten Auslöser der GDMP echten Schaden bei vertretbaren Fehlalarmraten erfassen, ob kontinuierliche Validierung für einen kleinen Hersteller bezahlbar ist oder ob eine globale Konvergenzschicht erreichbar oder nur wünschenswert ist. Die Autoren selbst bezeichnen ihren Vorschlag als Referenzstruktur, nicht als Standard — gedacht, um Harmonisierung zu stützen, nicht sie zu erzwingen. Das ist die richtige Haltung, und es ist zugleich eine Erinnerung daran, dass die Arbeit, daraus eine operative Regel zu machen, vollständig noch aussteht.

Eines muss die Leserin unabhängig abwägen. Die Autoren erklären, keine finanziellen Interessenkonflikte zu haben, und legen ihre Rollen zur Transparenz offen: Der eine ist Vorstandsvorsitzender eines klinischen Digital-Medizin-Unternehmens, der andere Geschäftsführer der italienischen Niederlassung eines Pharmaunternehmens. Beide haben mit anderen Worten ein unmittelbares Interesse daran, wie SaMD künftig reguliert wird. Das macht das Argument nicht falsch — es trägt oder fällt mit seiner Substanz, und die regulatorische Lücke besteht, gleich wer sie benennt. Aber ein Governance-Vorschlag von Menschen, die unter dieser Governance arbeiten werden, ist genau die Art von Beitrag, die ihr volles Gewicht erst gewinnt, wenn unbeteiligte Dritte ihn auf die Probe gestellt haben.

Die Leistungsdrift eines adaptiven Systems ist nicht der Fehlerfall. Sie ist das erwartbare Verhalten — und unsere Regeln wurden für Geräte geschrieben, die sich so nicht verhalten.

Warum das hier zählt

Die Arbeit behandelt Deutschland nicht, das Folgende ist daher meine eigene Lesart, nicht die der Autoren. Deutschland verfügt über Europas operativ am weitesten entwickelten nationalen Weg zur Erstattung digitaler Gesundheitsanwendungen, den DiGA-Pfad nach § 139e des Fünften Sozialgesetzbuchs (SGB V). Er ist gut in dem, was eine Welt statischer Geräte braucht: Nachweis des Nutzens, Datenschutz, eine definierte Bewertung durch das Bundesinstitut für Arzneimittel und Medizinprodukte (BfArM). Was ihm noch fehlt, ist eine systematische Antwort auf die Frage, die diese Perspektive zuspitzt: Wenn eine zugelassene Anwendung ihr zugrunde liegendes Modell aktualisiert, ab welchem Punkt gilt der nachgewiesene Nutzen nicht mehr, und was sollte eine erneute Bewertung auslösen? Das ist weniger ein deutsches Versäumnis als eine Lücke, die jedes vor der Verbreitung adaptiver Systeme entstandene System teilt. Der Beitrag einer solchen Arbeit liegt nicht darin, die Frage zu beantworten. Er liegt darin, sicherzustellen, dass wir sie stellen, bevor und nicht nachdem das erste Modell still aus dem Verhalten driftet, für das es zugelassen wurde.

Quelle: Cesario A, Chinni F. Toward global standards for SaMD: introducing a proposal for Good Digital Medicine Practices (GDMP). npj Digital Medicine 2026;9:226. Eine Perspektive ohne Primärdaten — ein begründeter Vorschlag, kein validierter Standard — von Autoren, die in dem Feld, dessen Regulierung sie vorschlagen, kommerzielle Leitungsrollen innehaben.

#Journal Club#Regulatorik#Software als Medizinprodukt#Adaptive KI#Gesundheitspolitik

Weiterlesen

Editorial-Collage: behandschuhte Hände einer Pflegekraft lösen einen Verband, darunter ein Tealraster als Kalender und ein einzelner Amber-Punkt für eine Woche, auf warmem Steinpapier.

Eine Woche früher: Was ein KI-Heilungsindex tatsächlich schlägt

Eine große retrospektive Studie berichtet, dass ein KI-Heilungsindex eine stockende Wunde eine Woche eher erkennt als das übliche Maß. Das Signal ist real und bescheiden — und die Studie stammt von dem Unternehmen, das den Index verkauft.

Dr. Sven JungmannCEO

Diese Analyse stammt von den Leuten hinter Visite.

Unser wöchentlicher Newsletter zu KI in der Medizin. Jeden Freitag, gründlich geprüft.

Mit der Anmeldung stimmen Sie dem Erhalt von Visite per E-Mail zu. Abmeldung jederzeit. Mehr in unserer Datenschutzerklärung.

Sie möchten das in Ihrer Klinik sehen?

30 Minuten. Ihre Fragen. Unser Arzt-Gründer zeigt Ihnen die Plattform persönlich.

Termin vereinbaren

Unverbindlich. Kein Vertrieb. Arzt zu Arzt.