Agentic AI in der Klinik: Die zwei Architekturentscheidungen, die niemand diskutiert
Vor Pilotierung einer agentischen Klinik-KI stehen Architekturfragen, die in der Marketing-Sprache gerne übergangen werden: Auf welcher Schicht operiert der Agent in jedem Schritt — auf einer kuratierten Datenschicht mit Quellen-Verkettung oder naiver Volltext-Extraktion?

Dr. Sven Jungmann
CEO

In einer Anbieter-Demo handelt ein Agent in vier Schritten. Er nimmt eine Aufnahme-Anfrage entgegen, baut ein Patientenprofil auf, prüft die Eignung, reserviert einen Folge-Termin. Die Sequenz fließt; die Demonstration dauert acht Minuten und überzeugt im Erstkontakt. Die IT-Leitung im Raum stellt zwei Fragen, die nicht beantwortet werden. Woher kommen die Daten, auf denen der Agent in Schritt zwei operiert. Welche revisionsfeste Spur trägt sein Handeln im Audit-Fall. Beide Fragen liegen unter der Demo-Logik; sie werden in der Klinik-Realität klären, ob der Agent in den Routinebetrieb übergeht oder als Pilot stehen bleibt.
Die zwei Fragen sind keine Detail-Anliegen. Sie sind Architekturentscheidungen — und sie werden in der Marketing-Sprache aktueller Agenten-Kommunikation systematisch übergangen. Das aktuelle Vokabular zur Künstlichen Intelligenz (KI) in der Klinik spricht über Prozess-Schritte, Modell-Auswahl und Anbieter-Vergleich. Die zwei Fragen liegen unterhalb. Sie betreffen die Datenschicht, auf der der Agent operiert, und die Audit-Schicht, in der sein Handeln dokumentiert wird. Eine agentische Klinik-KI, die ihre Pilotierung mit der Modell-Frage öffnet, hat die zwei Architektur-Fragen offen gelassen — und steht später im ersten Auditfall mit einer architekturlosen Antwort da.
Die erste Entscheidung: Datenschicht oder naive Extraktion
Die erste Architekturentscheidung betrifft die Schicht, auf der der Agent zwischen seinen Schritten operiert. Eine agentische Architektur, die in jedem Schritt naiv aus Quelldokumenten extrahiert — Aufnahme-Notiz, Vorbefund, Pflegeüberleitungsbogen — und das Zwischenergebnis in den nächsten Schritt weiterreicht, multipliziert die Halluzinations-Wahrscheinlichkeit über die Schritte. Übersichts-Beiträge in NEJM AI und npj Digital Medicine der Jahre 2024 bis 2026 zur Mehrschritt-Logik klinischer Large-Language-Model-Agenten (LLM-Agenten) konvergieren in einer strukturellen Aussage: Ein Halluzinations-Fehler im zweiten Schritt eines vierstufigen Agenten wird im fünften Schritt als Faktum behandelt, sofern der Agent die Provenienz seiner eigenen Zwischenergebnisse nicht trackt. Die Effektgrößen variieren je nach Aufgaben-Klasse und Setting; die strukturelle Aussage trägt über die Studien hinweg, weil sie an der Architektur hängt.
Die alternative Architektur trennt Volltext-Quelle und Handelnde durch eine eigene Substrat-Schicht: eine kuratierte Akten-Schicht, in der jede Synthese-Aussage zu ihrem Quell-Span zurückführbar bleibt, in der Konsistenz über mehrere Quellen explizit geprüft wird, in der Lücken sichtbar markiert sind. Der Agent operiert nicht direkt auf den Volltexten, sondern auf einer validierten Zwischen-Schicht, deren Aussagen einzeln traceable sind. Reports des Stanford Institute for Human-Centered AI (HAI) zur Medical-AI-Architektur und Anthropic-Beiträge zu Agent-Safety und Tool-Use beschreiben diese Trennung als eine architektonische Eigenschaft der Datenschicht, nicht als nachgelagerten Filter — explizite Provenienz und strukturierte Validierungs-Schritte sind Architektur-Mittel, nicht Plug-ins gegen Halluzination. In der Datenschicht-Architektur ist Halluzinations-Reduktion eine Design-Entscheidung. In der naiven Extraktion ist sie ein Hoffnungswert.

Diese Trennung ist in der Anbieter-Kommunikation selten sichtbar. Eine Demo zeigt das Endverhalten — den Agenten, der ein vorzeigbares Ergebnis produziert. Sie zeigt nicht, ob unter ihm eine validierte Akten-Schicht sitzt oder ob er in jedem Schritt Volltexte zerschneidet, einbettet und neu zusammensetzt. Beide Architekturen produzieren in der Demo ähnliche Ergebnisse, weil das Demo-Setting die Datenlücken kontrolliert. In der Klinik produzieren sie unterschiedliche Ergebnisse, weil die Datenlücken dort die Norm sind. Die Mechanik der Multi-Step-Halluzination wird in einem Aiomics-Anker-Stück zur Aggregations-Halluzination ausführlicher beschrieben: wie aus zwei korrekt extrahierten Befunden eine kohärent klingende Drittaussage entsteht, die in keinem Quelldokument steht. Die strukturelle Gegenkontrolle ist nicht Modell-Größe oder ein nachgelagerter Filter, sondern eine Akten-Schicht, in der jede Aussage einzeln zu ihrer Quelle zurückreicht.
Die zweite Entscheidung: revisionsfester Audit-Trail oder Web-Logging
Die zweite Architekturentscheidung betrifft die Spur, die der Agent hinter sich lässt. Ein klassischer Webdienst loggt Anfragen, Antworten und Fehlerzustände — das reicht für Betriebs-Diagnostik, nicht für klinische Verantwortung. Ein agentisches Klinik-System verlangt einen Audit-Trail mit fünf Komponenten: dokumentierte Eingangsdaten mit Hash, dokumentierte Modell- und Prompt-Version, dokumentierte Entscheidungs-Logik mit Versionsstand, dokumentiertes Ergebnis mit Quellen-Verkettung und ein dokumentierter Eskalations-Pfad. ISO/IEC 42001:2023, der KI-Management-System-Standard, kodifiziert diese Linie auf System-Ebene. Das Artificial Intelligence Risk Management Framework (AI RMF) des National Institute of Standards and Technology (NIST) trägt sie auf Risiko-Management-Ebene. Beide verlangen Provenienz-Nachverfolgung entlang der Verarbeitungs-Kette, Versionierung der Entscheidungs-Logik, Audit-fähige Logs und Transparenz über Drittpartei-Komponenten — als Eigenschaft des Systems, nicht als nachträgliche Berichts-Übung.
Die regulatorische Linie geht in die gleiche Richtung. Die Verordnung (EU) 2024/1689 des Europäischen Parlaments und des Rates über Künstliche Intelligenz (EU AI Act) formuliert für Hochrisiko-Systeme — und klinische KI-Anwendungen können je nach Einsatzgebiet darunterfallen — Logging-Pflichten in Artikel 12, Transparenz in Artikel 13, menschliche Aufsicht in Artikel 14 und Daten- und Modell-Governance in den Artikeln 10 bis 11. Ob ein konkretes Klinik-System als Hochrisiko-System eingestuft ist, ist eine anwendungs-spezifische Frage. Die Logging-, Transparenz- und Aufsichts-Pflichten sind in der Architektur jedoch unabhängig von der Klassifikations-Frage zu denken — sie sind die operative Mindestform jeder agentischen Klinik-Architektur, die den ärztlichen und kaufmännischen Verantwortungs-Anker tragen muss.

Was zwischen den zwei Schichten liegt — und was nicht
Die zwei Architekturfragen sind nicht reduzierbar aufeinander. Eine sauber kuratierte Datenschicht ohne Audit-Trail produziert reproduzierbare Ergebnisse, die im Audit-Fall trotzdem nicht rekonstruierbar sind. Ein revisionsfester Audit-Trail über einer naiven Extraktions-Architektur dokumentiert die Halluzinations-Pfade in beeindruckender Detaillierung — er ändert sie nicht. Beide Schichten müssen zusammen tragen. Beiträge in Nature Medicine zu LLM-Agenten in klinischen Abläufen betonen die Frage als Architektur-Sicht: Die Sicherheit eines klinischen Agenten ist eine Frage der Datenfundament-Schicht und der Verantwortungs-Verkettung. Modellgröße und Ablauf-Logik sind Sekundärfragen. Eine Architektur, die die zwei Schichten klärt, trägt im Routinebetrieb. Eine Anwendung, die sie überspringt, überzeugt in der Demo und zerfasert im Pilot.
Was nicht zwischen die zwei Schichten gehört, ist Modell-Auswahl. Welche Sprachmodell-Familie ein Agent verwendet, ist eine wichtige Frage — sie ist nicht die Architekturentscheidung, die in den ersten Pilot-Wochen über Tragfähigkeit oder Scheitern entscheidet. Ebenso wenig gehört in diese zwei Schichten die Wahl der Prozess-Hülle: ob der Agent in einer Eigenentwicklung läuft oder in einem zugekauften Anwendungs-Rahmen, ist eine Sekundärfrage, sobald die Datenschicht und die Audit-Schicht stehen. Eine Pilotierung, die zugunsten der Modell-Wahl die zwei Architektur-Achsen überspringt, hat eine Architektur-Diskussion in eine Bestellungs-Diskussion verwandelt — und die Substanz auf einer anderen Achse bezahlt.

Eine agentische Architektur ohne strukturierte Datenschicht und ohne revisionsfesten Audit-Trail ist eine schnelle Demo. Ein produktiv tragfähiger Klinik-Agent ist eine Konstruktion in zwei Schichten, und die Demo zeigt nur die obere. Eine vorab geklärte Antwort auf die zwei Architekturentscheidungen ist keine Garantie auf Produktivität — sie ist die Möglichkeit, im ersten Auditfall eine Antwort zu haben, die nicht improvisiert ist. Das ist die Differenz, an der sich agentische Klinik-KI in den nächsten zwei Jahren von agentischer Klinik-Demonstration scheiden wird.
Der Beitrag beschreibt eine architektonische Sicht auf agentische KI in der Klinik. Er stützt sich auf peer-reviewed Übersichts-Beiträge (NEJM AI, npj Digital Medicine, Nature Medicine, Stanford HAI) und institutionelle Rahmen-Standards — Verordnung (EU) 2024/1689 über Künstliche Intelligenz (EU AI Act), International Organization for Standardization und International Electrotechnical Commission, ISO/IEC 42001:2023 (AI Management System), National Institute of Standards and Technology (NIST), AI Risk Management Framework 1.0 (AI RMF). Er gibt keine Rechtsauslegung im Einzelfall und keine Beschaffungs-Empfehlung; die konkrete Bewertung bleibt Sache der IT-Leitung, der ärztlichen Direktion und der Klinik-Geschäftsführung des Hauses. Aiomics betreibt eine Klinik-Doku-Architektur und nennt im Beitrag keine Wettbewerber:innen-Namen.


