Was ein klinischer KI-Agent braucht, bevor er agiert
3 Voraussetzungen entscheiden, ob ein klinischer KI-Agent produktiv tragfähig ist oder nur in Demos funktioniert: strukturierte Eingangs-Daten, validierte Entscheidungs-Verantwortung pro Schritt und ein revisionsfester Audit-Trail.

Dr. Sven Jungmann
CEO

Mehrere Anbieter im Klinik-IT-Markt verschieben in den letzten zwölf Monaten ihre Plattform-Identität von „Marktplatz“ oder „Prozess-Plattform“ zu „agentischer Plattform“. Das Vokabular wechselt schneller als die Architektur. Eine Klinik-KI, die nur antwortet, ist falsch, wenn sie halluziniert. Ein Agent, der handelt, ist falsch, wenn er halluziniert, dokumentiert dabei aber nicht mehr die Spur, die er hinterlassen hat. Die Frage ist nicht, ob ein Agent in der Klinik nützlich sein kann. Die Frage ist, was er hinterlässt, wenn er das tut. In den großen Reviews der letzten zwei Jahre — NEJM AI 2024–2026, Nature Medicine 2024–2026, npj Digital Medicine 2024–2026 — konvergieren drei Architektur-Voraussetzungen vor jeder Pilotierung: erstens eine geprüfte und konsistente Eingangs-Datenschicht. Zweitens eine validierte Entscheidungs-Logik mit benannter klinischer Verantwortungs-Verkettung pro Schritt. Drittens ein revisionsfester Audit-Trail, der pro Aktion nachvollziehbar macht, welche Eingabe gesehen, welche Modell-Version aufgerufen, welcher Begründungs-Pfad gewählt und welche Person freigegeben hat. Diese drei Achsen sind im internationalen Diskurs nicht strittig. Strittig ist nur, ob eine Plattform sie hat — bevor sie als agentisch verkauft wird.
Voraussetzung 1: Eingangs-Daten, die der Agent lesen kann
Eine agentische Architektur steht oder fällt mit der Datenschicht, auf der sie operiert. Reviews in npj Digital Medicine 2024–2026 sind in dieser Linie konsistent: Datenqualität — Vollständigkeit der Vorbefunde, Konsistenz der Diagnose-Codes, Zeitstempel-Genauigkeit, Rückführbarkeit jeder Aussage zu ihrer Quelle — wird als Eingangs-Voraussetzung agentischer Klinik-Systeme benannt, nicht als nachgelagerte Optimierung. Die methodische Bemerkung dazu: Die Reviews aggregieren über Editorials und narrative Übersichten, nicht über eine einzelne randomisierte Studie. Die Konvergenz ist qualitativ stark; sie ist nicht durch eine einheitliche Klinik-Kohorte geprüft. Eine flache Datenschicht — naive Extraktion aus Quell-Dokumenten, halb-strukturierte Vorbefunde, kein einheitliches Diagnose-Vokabular — produziert einen Agenten mit erweitertem Halluzinations-Risiko. Die Architektur-Konsequenz ist nicht, das Modell zu vergrößern, sondern die Eingangs-Schicht zu strukturieren. Im aiomics-eigenen Beitrag „Wie aus zwei richtigen Befunden eine erfundene Diagnose wird“ ist das Pattern für Single-Turn-Antworten beschrieben — zwei korrekte Aussagen werden zu einer plausiblen, aber unbelegten dritten verdichtet. Im agentischen Setting verschärft sich das Pattern, weil der Agent diese dritte Aussage als Eingabe für den nächsten Schritt verwendet. Die Datenqualitäts-Frage entscheidet sich vor dem Agenten, nicht in ihm.
Forschung zu Constitutional AI und Agent Safety — dokumentiert in den Forschungs-Schriften von Anthropic 2023–2026 — kommt zum gleichen Schluss aus der Architektur-Sicht: Selbstprüfungs-Schritte, benannte Halt-Bedingungen und externe Werkzeug-Aufrufe, die das Modell als deskriptive Eingabe behandelt, sind die Stellen, an denen Fehler-Pfade über mehrere Schritte akkumulieren. Die Architektur-Antwort ist nicht Modellgröße. Sie ist Eingangs-Disziplin und Schritt-Validierung. Der praktische Test einer Eingangs-Datenschicht bleibt mechanisch: Jede Aussage, die der Agent in seinen Eingaben sieht, ist auf einen Quell-Span im Original-Dokument zurückführbar — oder sie ist nicht da. Eine Datenschicht ohne diese Rückführbarkeit liefert dem Agenten nicht Eingabe, sondern Material zum Verdichten.

Voraussetzung 2: validierte Entscheidungs-Logik mit benannter Verantwortung
In NEJM-AI-Reviews 2024–2026 wird die Verantwortungs-Verkettung pro Agent-Schritt als Substrat-Kriterium benannt: Agenten ohne benannte Person im Kontroll-Pfad sind in der klinischen Anwendung nicht freigabefähig. Die Editorials sind dabei vorsichtig — sie bündeln eine Linie aus mehreren Reviews ohne Meta-Analyse; die Konvergenz trägt argumentativ, nicht statistisch. Die Position selbst ist klar: Jede Aktion, die der Agent in einem klinischen Prozess ausführt, ist einer Person zugeordnet. Nicht einem System, nicht einer Funktion. Einer Person. Diese Anforderung ist nicht durch ein Framework zu lösen. Der Pragmatic Engineer Newsletter zu LLM-Agent-Architekturen ordnet die Beobachtung nüchtern: LangChain-artige, AutoGen-artige oder eigengebaute Agent-Frameworks lösen die Verantwortungs-Frage nicht — sie verschieben sie zwischen Komponenten. Die Verantwortungs-Architektur ist eine Produkt-Frage, keine Framework-Frage. Eine Plattform, die agentisch heißt, weil sie ein Framework integriert hat, beantwortet damit die Verantwortungs-Frage nicht; die Frage wird nur an eine andere Schicht delegiert. Validierte Entscheidungs-Logik bedeutet konkret: Für jede Klasse von Agent-Aktionen ist die Eingangs-Bedingung definiert, der Entscheidungs-Pfad nachvollziehbar, die Halt-Bedingung benannt und die freigebende Person identifiziert. Vier prüfbare Elemente; ohne sie ist die Logik nicht validiert, sondern formuliert.
Voraussetzung 3: ein Audit-Trail, der die Agent-Aktion rekonstruierbar hält
Klassische Logging-Disziplin reicht für agentische Systeme nicht aus. Beiträge in Nature Medicine 2024–2026 benennen den erweiterten Audit-Trail an vier Punkten: erstens die Eingabe-Provenienz — welcher Quell-Span trägt welche Aussage. Zweitens die Modell-Identifikation — welche Modell-Version mit welchen Parametern hat den Schritt erzeugt. Drittens der Begründungs-Pfad — welche Zwischen-Repräsentation ist entstanden, welche Werkzeug-Aufrufe ist der Agent gegangen. Viertens die menschliche Bestätigung — welche Person hat die Aktion freigegeben, in welchem Zeitfenster, mit welcher Notiz. Diese vier Punkte sind nicht eine Konformitäts-Geste, sondern die strukturelle Voraussetzung für jede nachträgliche Rekonstruktion einer Agenten-Entscheidung. Mehrere der zitierten Studien finden in agentischen Prozessen erhöhte Halluzinations-Raten gegenüber Single-Turn-Antworten, sobald mehrere Schritte selbständig verkettet wurden — die Effekt-Stärke variiert deutlich nach Studien-Setup; eine einheitliche Klinik-Kohorte fehlt. Die Anforderung an den Audit-Trail nimmt mit der Schritt-Tiefe zu, nicht ab.
Die institutionelle Linie ist parallel. Berichte des Stanford Institute for Human-Centered AI (HAI) 2024–2026 trennen Modell-Verantwortung von System-Verantwortung: Das Modell ist eine Komponente, die Architektur trägt die Verantwortung. Leitlinien der European Union Agency for Cybersecurity (ENISA) 2024–2025 benennen für agentische Systeme in regulierten Sektoren drei Pre-Deployment-Achsen: Daten-Eingangs-Validierung, Entscheidungs-Pfad-Auditierbarkeit und Notabschalt-Mechanismen. Die ENISA-Leitlinien sind sektor-übergreifend, nicht auf klinische Domänen begrenzt — die Achsen-Konvergenz mit den klinischen Reviews ist trotzdem sichtbar, und sie ist nicht zufällig. Sicherheits-Architektur in regulierten Domänen folgt demselben Prinzip, ob die Domäne Banken, Stromnetze oder Krankenhäuser umfasst: prüfbare Eingabe, prüfbarer Pfad, prüfbarer Halt. Die klinische Spezifität liegt in der Verantwortungs-Verkettung — nicht in einer eigenen Sicherheits-Logik.

Warum der Sprung zu „Agent“ die Anforderung erhöht, nicht reduziert
In der Marketing-Sprache sieht der Übergang von der „Marktplatz-Plattform“ oder „Prozess-Plattform“ zur „agentischen Plattform“ wie eine Erweiterung aus — neue Funktionen, höhere Autonomie, kürzere Wege. In der Architektur-Sprache ist es ein Schritt-Wechsel der Anforderungen. Eine Antwort-KI muss eine Aussage rechtfertigen können. Eine handelnde KI muss eine Aktion rechtfertigen können — dieselben Anforderungen plus die Schritt-Verkettung, die Halt-Bedingungen, die Notabschaltung und die menschliche Freigabe pro Klasse. Eine agentische Plattform trägt also nicht weniger, sondern mehr Architektur. Die naheliegende Versuchung lautet: Das Modell groß genug machen, dass die Architektur-Frage sich erübrigt. Sie erübrigt sich nicht. Sie wird nur teurer.

Eine produktiv tragfähige agentische Klinik-KI ist in der Praxis selten ein voll-autonomer Agent. Die meisten Implementierungen in regulierten Domänen sind hybrid: Co-Pilot mit eingebettetem Werkzeug-Aufruf, Mensch im Kontroll-Pfad, persistente Spur. Die Verantwortung liegt strukturell beim Menschen. Das ist keine Verkleinerung des Anspruchs an die Maschine; es ist die ehrliche Beschreibung dessen, was die Maschine in einer regulierten Klinik leisten kann, ohne die Verantwortungs-Architektur zu zerreißen. Drei Voraussetzungen vor jeder Aktion. Sie sind nicht neu — sie sind die ältere Disziplin verteilter Systeme, in einer neuen Sprache. Was sich geändert hat, ist nicht die Architektur-Frage. Was sich geändert hat, ist die Geschwindigkeit, mit der das Marketing sie für gelöst erklärt.
Der Beitrag beschreibt eine architektonische Sicht auf klinische KI-Agenten in Krankenhaus-Anwendungen. Er stützt sich auf peer-reviewte Editorials und Reviews (NEJM AI 2024–2026, Nature Medicine 2024–2026, npj Digital Medicine 2024–2026), Berichte des Stanford Institute for Human-Centered AI (HAI), Leitlinien der European Union Agency for Cybersecurity (ENISA) und Forschungs-Veröffentlichungen zu Constitutional AI und Agent Safety. Er gibt keine Rechtsauslegung zur Datenschutz-Grundverordnung (DSGVO), zum AI Act oder zur Medical Device Regulation (MDR) und nennt keine Anbieter-Namen.


