Die KI-Agenten kamen vor der Evidenz
Auf der HIMSS 2026 brachten Anbieter mehr klinische KI-Agenten auf den Markt, als sich zählen ließen. Ein Messebericht ist keine Evidenz — er zeigt aber, wo die Validierungslücke heute liegt und warum das Wort „administrativ“ die regulatorische Arbeit erledigt.

Dr. Sven Jungmann
CEO

Der aufschlussreichste Satz in der Reportage von Casey Ross von der HIMSS-2026-Messe in Las Vegas ist zugleich der unspektakulärste: dass in einer einzigen Woche mehr klinische KI-Agenten angekündigt wurden, als sich vernünftig zählen ließen. Epic zeigte drei — Art für die klinische Dokumentation, Penny für Abrechnung und Vermeidung von Leistungsablehnungen, Emmie für Patientenanfragen und Terminplanung. Oracle stellte einen Assistenten vor, der über dreißig Fachrichtungen hinweg Notizen entwerfen und nächste Schritte vorschlagen soll. Amazon, Google und Microsoft erweiterten jeweils ihr eigenes Angebot. Nichts davon ist eine Studie, und es wäre ein Denkfehler, es als solche zu behandeln. Aber eine Messe ist eine eigene Art von Datenlage: Sie zeigt, was der Markt zu verkaufen beschlossen hat — und auf welche Validierung er dabei verzichten zu können meint.
Lesen wir den Text also als das, was er ist: eine Reportage, verfasst von einem investigativen Journalisten, der das Feld seit Jahren begleitet — kein begutachtetes Ergebnis. Der Wert des Stücks ist keine Zahl; der größte Teil des Artikels liegt hinter einer Bezahlschranke, und nichts Tragfähiges hängt an dem, was ich nicht lesen kann. Der Wert liegt in einer strukturellen Beobachtung, die eine sorgfältige Leserin an der regulatorischen Landkarte prüfen kann. Der Untertitel sagt es unverblümt: Patient:innen werden zur Entwicklung und Prüfung dieser Werkzeuge selten befragt.
Was der Bericht tatsächlich zeigt
Er dokumentiert eine Verschiebung der Art, nicht nur des Umfangs. Das zweckgebundene Modell, das ein Bild klassifiziert, weicht dem orchestrierten System, das eine Notiz entwirft, eine Akte abfragt, eine Ablehnung markiert und eine Nachricht weiterleitet — Software, die handelt und nicht nur vorhersagt. Was er nicht zeigt und auch nicht zu zeigen behauptet: dass auch nur einer dieser Agenten prospektiv an klinischen Verläufen geprüft wurde, oder dass die Einkaufenden an den Ständen nach solcher Evidenz verlangten.
Wo die Lücke wirklich liegt
Die interessante Frage ist nicht, ob diese Werkzeuge reguliert werden, sondern welche sich der Regulierung durch ihre Bezeichnung entziehen. In den USA erfüllt Software die Definition als Software as a Medical Device (Software als Medizinprodukt, SaMD) — und damit die vorgelagerte Prüfung — nur dann, wenn ihr Zweck darin besteht, Krankheiten zu erkennen, zu behandeln, zu verhüten oder zu lindern. Ein als administrativ oder operativ etikettiertes Werkzeug liegt jenseits dieser Linie und damit jenseits jeder Pflicht, vor dem Einsatz klinische Daten vorzulegen. Für einen Terminassistenten ist das vertretbar. Weniger vertretbar wird es, wenn dasselbe Vokabular ein System abdeckt, das die klinische Notiz entwirft, die eine Ärztin unterschreibt, oder den nächsten empfohlenen Schritt vorschlägt. Über die Höhe des Nachweises entscheidet das Etikett, nicht die Funktion — und das Etikett wählt der Anbieter.
Europa steht erkennbar nicht besser da. Unter der Medizinprodukteverordnung (MDR) verläuft dieselbe definitorische Naht, und die EU-KI-Verordnung (EU AI Act) legt ein risikobasiertes Regime darüber, ohne die Frage aufzulösen, ab wann ein Assistent zum Produkt wird. Ein als administrativ eingestufter Agent kann auf beiden Seiten des Atlantiks dieselbe Grauzone besetzen.
Warum die systemische Lesart zählt
Ein tragfähiger Gedanke aus dem Entwurf ist es wert, erhalten zu bleiben, denn er beschreibt die richtige Art, über Skalierung nachzudenken. Die Fehlerrate einer einzelnen Ärztin ist dadurch begrenzt, wie viele Patient:innen sie sieht. Die Fehlerrate eines Agenten ist durch nichts Örtliches begrenzt: derselbe Fehler, derselbe blinde Fleck, dieselbe stille Auslassung reproduzieren sich über jede Interaktion, tausendfach am Tag, identisch. Das ist kein Argument gegen die Technik. Es ist ein Argument dafür, dass die Beweisschwelle steigen sollte, nicht sinken, wenn die Einheit des Einsatzes von einem Menschen zu einem System wird, das mit einer Stimme zu einer ganzen Bevölkerung spricht.
“Über die Höhe des Nachweises entscheidet das Etikett, nicht die Funktion — und das Etikett wählt der Anbieter.”
Wie sorgfältige Entwicklung aussieht
Es lohnt, ein Gegenbeispiel danebenzustellen, gerade weil es die Ausnahme ist. Ein hepatologisches Entscheidungsunterstützungssystem, im Dezember 2025 in Frontiers in Medicine veröffentlicht, war darauf gebaut zu prüfen, ob die abgerufene Information überhaupt ausreicht, um zu antworten: ein primäres und ein sekundäres Modell stimmen unabhängig voneinander ab, ein modellunabhängiger Relevanzwert entscheidet bei Uneinigkeit, und erst dann antwortet das System — oder verfeinert die Anfrage noch einmal. Zwei Hepatolog:innen bewerteten seine Sicherheit mit 4,9 gegenüber 4,1 für ein eigenständiges GPT-4 auf einer Fünf-Punkte-Skala. Der ehrliche Vorbehalt der Autor:innen: Diese Werte stammen aus dreißig simulierten klinischen Fragen, nicht von Patient:innen, und der Prüfsatz ist klein — das Ergebnis spricht also für die Entwurfsdisziplin, nicht für die Leistung am Krankenbett. Doch genau dieser Instinkt — ein System zu bauen, das prüft, ob es antworten sollte, bevor es antwortet — ist jene Ingenieurarbeit, die ein auf Leistungsfähigkeit getrimmter Messeauftritt nicht belohnt. Die Lücke zwischen beiden ist die ganze Geschichte.
Quelle: Ross C. AI agents are rapidly spreading in health care, but validation is lacking. STAT News, 11. März 2026. Es handelt sich um Journalismus — eine weitgehend hinter einer Bezahlschranke liegende Reportage vom Messeboden, keine Primärforschung; ihr Wert ist die strukturelle Beobachtung, die unabhängig von jeder einzelnen Produktbehauptung Bestand hat.


