Einkauf25. März 20267 Min. Lesezeit

Was „agentisch“ im Klinikalltag tatsächlich heißen kann — und was nicht

Auf der Pitch-Folie steht „agentische KI für die Klinik“ — und meint vier sehr verschiedene Architektur-Klassen. Eine sachliche Stufen-Taxonomie sortiert das Wort in vier Reifegrade von regelbasierter Automatisierung bis zur vollagentischen Selbst-Korrektur.

Dr. Sven Jungmann

CEO

Agentische KI Klinik Realität: Geschäftsführung und Klinik-IT-Leitung sortieren am Pitch-Tisch das Etikett in vier Reifegrad-Stufen — die das Marketing-Vokabular verschluckt.

Auf der Pitch-Folie der Klinik-IT-Plattform steht „Agentische KI für die Klinik“. Die Geschäftsführerin fragt zurück, was das konkret heiße — und der Anbieter antwortet mit drei Beispielen aus drei verschiedenen Architektur-Schichten. Ein regelbasiertes Routing-Skript, ein Sprachmodell-Vorschlag mit ärztlicher Übernahme, eine Funktion, die eigenständig Aufnahme-Anfragen ablehnt. Drei Funktionen, drei Reifegrade — und ein einziger Begriff darüber. Künstliche Intelligenz (KI) ist der Oberbegriff der Bewegung; das Wort „agentisch“ darunter trägt heute eine Spannweite, die im Pitch-Termin selten aufgeklappt wird. Ein Large Language Model (LLM) sitzt in den letzten drei Beispielen unten drunter, aber die Schicht darüber ist es, die die Verantwortbarkeit prägt — und sie ist in jedem der drei Fälle eine andere.

Die Beschaffungs-Diskussion in deutschen Akut- und Reha-Häusern erlebt diese Begriffs-Spannweite seit etwa zwei Jahren. Klinik-IT-Plattformen, die zuvor mit „Prozess-Automatisierung“ oder „Dokumentations-Co-Pilot“ beworben wurden, tragen heute das Etikett „agentisch“. Die Funktionen darunter haben sich nicht alle bewegt; die Sprache hat sich bewegt. Eine sachliche Trennung des Begriffs in Reifegrad-Stufen ist daher kein akademisches Anliegen, sondern ein Werkzeug der Beschaffungs-Disziplin. Sie macht sichtbar, welche Architektur-Klasse eine Plattform tatsächlich beschreibt — und welche Verantwortbarkeits-Folgen mit jeder Klasse einhergehen.

Vier Stufen, ein Begriff

Die internationale Adoption- und Markt-Diskussion liefert eine erste Sortierung. Reifegrad-Beiträge der Healthcare Information and Management Systems Society (HIMSS) 2023 bis 2026 ordnen Healthcare-AI-Adoption über mehrere Stufen — von regelbasierter Automatisierung über assistive Vorschlags-Architekturen hin zu autonomeren Schicht-Folgen — und beschreiben eine heterogene Verteilung über die Einrichtungen. Die Hype-Cycle-Linie von Gartner 2024 bis 2026 ordnet agentische KI im Healthcare-Kontext mehrheitlich noch in der Erwartungs-Phase ein — vor der produktiven Tragfähigkeits-Phase. HIMSS und Gartner sind Branchen-Synthese, nicht peer-reviewed; sie tragen die Markt-Lesart, nicht die methodische Klassifikation. Stufe eins ist die regelbasierte Automatisierung. Wenn-Dann-Pfade, deterministische Verkettungen, kein generatives Sprachmodell unten drunter. Diese Stufe ist im Klinikalltag seit Jahren tragfähig; sie heißt aber nur in der Marketing-Folie „agentisch“. Stufe zwei ist die kontextbewusste Vorschlags-Architektur — was im internationalen Diskurs als Co-Pilot beschrieben wird. Ein Sprachmodell liefert Vorschläge, ein Mensch prüft, übernimmt oder verwirft. Diese Stufe ist im deutschen Klinikalltag heute produktiv tragfähig — sie ist die Schicht, in der die Mehrzahl ernsthafter Klinik-KI-Funktionen heute sitzt.

Stufe drei beschreibt autonome Tasks innerhalb enger Grenzen. Die Plattform schließt einzelne Schritte selbstständig ab — eine Anfrage abgelehnt, ein Profil gebaut, eine Eignungs-Vorprüfung durchgeführt — innerhalb definierter Regeln und mit dokumentierten Eskalations-Schwellen. Diese Stufe ist punktuell tragfähig, aber die Audit-Last steigt: jeder autonom abgeschlossene Schritt ist nachträglich zu prüfen, und die Schwellen, an denen die Plattform an das ärztliche Team zurückgibt, sind versions-fest zu dokumentieren. Peer-reviewed Original- und Review-Beiträge in npj Digital Medicine 2024 bis 2026 zeigen, dass die Stabilität klinisch verwertbarer Schritt-Folgen strukturell an der Vollständigkeit und Konsistenz der Quell-Daten hängt. Die Befunde stammen aus internationalen Settings; die Engineering-Beobachtung — Substrat-Qualität prägt die Tragfähigkeit autonomer Schritte — trägt jedoch über die Settings hinweg. Im deutschen Klinikalltag ist die Stufe drei heute eher in eingegrenzten Anwendungsfällen produktiv als in breiten Prozess-Strecken.

Stufe vier beschreibt vollagentische Prozesse mit Selbst-Korrektur — Architekturen, in denen die Plattform plant, handelt, eigene Schritte über mehrere Schleifen prüft und korrigiert. Reports des Stanford Institute for Human-Centered Artificial Intelligence (Stanford HAI) 2024 und 2025 dokumentieren die Reife dieser Stufe in regulierten Healthcare-Domänen als heterogen — der Diskurs ist aktiv, die produktive Tragfähigkeit in klinischen Prozessen ist es heute nicht. Editorial- und Review-Beiträge in NEJM AI betonen, dass die Selbst-Korrektur-Spur einer vollagentischen Architektur — die Stelle, an der die Plattform ihre eigene vorherige Schritt-Aussage prüft und gegebenenfalls revidiert — eine Auditierbarkeits-Anforderung mit sich bringt, die sich entlang jedes Korrektur-Schritts multipliziert. Stanford HAI- und NEJM AI Editorials sind redaktionell kuratierte Synthese-Linien, keine peer-reviewed Original-Studien; die strukturelle Beobachtung trägt jedoch in der peer-reviewed Linie aus npj Digital Medicine fort. Stufe vier ist heute eher Forschungs-Frontier als Beschaffungs-Realität.

Agentische KI Klinik Realität: Vier Reifegrad-Stufen vom regelbasierten Pfad bis zur Selbst-Korrektur — nur die ersten zwei tragen in deutschen Häusern heute produktiv. — Vier Stufen, ein Begriff. Die Verantwortbarkeits-Anforderungen wachsen mit jeder Stufe.·aiomics

Was die Stufen für die Verantwortbarkeit bedeuten

Die operative Folge der Stufen-Trennung ist eine andere Verantwortbarkeits-Last pro Stufe. In Stufe eins prüft die Klinik-IT-Leitung die Regel-Logik einmalig vor der Inbetriebnahme; danach läuft die Verkettung deterministisch, und Änderungen an der Regel-Logik laufen über Versions-Stände, die ohne Sprachmodell-Schicht reproduzierbar bleiben. In Stufe zwei prüft eine ärztliche Person jeden Vorschlag vor der Übernahme — die Verantwortbarkeit sitzt in der Übernahme-Entscheidung selbst, und die Audit-Spur dokumentiert die Vorschlags-Folge zusammen mit der menschlichen Entscheidung. In Stufe drei verschiebt sich die Verantwortbarkeit vor den Pilot-Betrieb: die Direktion prüft die Architektur, die Eskalations-Schwellen und die Audit-Spur-Felder pro autonomem Schritt, bevor die Plattform überhaupt autonom handelt. Die laufende Prüfung wandert von der einzelnen Aussage zur Architektur-Disziplin als Ganzes. In Stufe vier wächst die Audit-Last entlang jedes Selbst-Korrektur-Schritts, weil jede revidierte Aussage eine eigene Schritt-Logik mit Modellversion, Begründungs-Pfad und Korrektur-Begründung bekommt. Eine vollagentische Architektur, die diese Korrektur-Spur nicht versions-fest dokumentiert, beschreibt nicht ihre Verantwortbarkeit; sie beschreibt nur ihren Hauptpfad. Der Management-System-Standard ISO/IEC 42001:2023 für Künstliche Intelligenz beschreibt Auditierbarkeit, Eingangsdaten-Disziplin und Eskalations-Pfade als Anforderungen an die Plattform-Verantwortung; er trennt nicht nach Stufen, weil alle Stufen dieselbe Auditierbarkeit benötigen. Die Anforderung wird dichter, je weiter oben die Stufe sitzt. Die Verordnung (EU) 2024/1689 (Europäische Verordnung über Künstliche Intelligenz, EU AI Act) ordnet Klinik-KI-Systeme typischerweise in die Hochrisiko-Klassifikation des Annex III ein und empfiehlt Auditierbarkeit, Risiko-Management und Aufsicht durch eine natürliche Person; die operative Übersetzung in die Stufen-Wahl bleibt der Klinik-IT-Disziplin überlassen. Wie eine konkrete Plattform unter diese Klassifikation fällt, ist anwendungs-spezifisch und in diesem Stück nicht zu klären.

Was die Geschäftsführung am Beschaffungs-Tisch fragt

Erste Frage: Welche der vier Stufen beschreibt die Plattform-Funktion konkret — Stufe eins (regelbasiert), Stufe zwei (Vorschlags-Schicht mit ärztlicher Übernahme), Stufe drei (autonome Schritte in engen Grenzen) oder Stufe vier (vollagentisch mit Selbst-Korrektur)? Eine substantielle Antwort benennt die Stufe pro Funktion und nicht das Etikett über der Folie. Zweite Frage: An welcher Schwelle bricht die Plattform den autonomen Schritt ab und gibt an die ärztliche Direktion oder das ärztliche Team zurück, und wo ist diese Schwelle versions-fest dokumentiert? Eine Plattform, die in Stufe drei sitzt und die Eskalations-Schwelle nicht zeigen kann, beschreibt ihre Verantwortbarkeits-Spur nicht. Dritte Frage: Welche Audit-Spur-Felder sind pro Schritt dokumentiert — Eingangsdaten, Modellversion, Entscheidungs-Stand, Begründungs-Pfad? Stufe zwei dokumentiert Vorschläge und Übernahmen; Stufe drei zusätzlich die Entscheidungs-Logik pro autonomem Schritt; Stufe vier zusätzlich jede Selbst-Korrektur-Revision mit ihrer eigenen Schritt-Logik. Diese drei Fragen übersetzen das Stufenmodell in eine Beschaffungs-Diskussion, die die Marketing-Sprache nicht überspringt.

Agentische KI Klinik Realität: Drei Beschaffungs-Fragen — Stufe, Eskalations-Schwelle, Audit-Spur-Felder — machen den Reifegrad einer Plattform am Pitch-Tisch sichtbar. — Drei Fragen am Pitch-Tisch. Sie machen die Stufen-Klasse sichtbar, die das Etikett verschluckt.·aiomics

Wo die Marketing-Sprache die Stufen verschluckt

Die Pitch-Folie hat eine eigene Schwerkraft. Sie zieht heterogene Funktionen unter ein Etikett, weil das Etikett kürzer ist als die Differenzierung. „Agentisch“ klingt in der Beschaffungs-Diskussion klarer als „regelbasierte Verkettung mit ergänztem Sprachmodell-Vorschlag“ — und es klingt moderner. Diese Schwerkraft ist nicht böswillig; sie ist eine Eigenschaft der Pitch-Sprache. Eine zweite Schwerkraft kommt aus den Branchen-Konferenzen und Markt-Reports, die das Wort in der Erwartungs-Phase eines Hype-Cycles weiter schärfen. Eine dritte aus den Pitch-Coaches, die der Klinik-IT-Plattform raten, das Etikett kurz zu halten und die Differenzierung in das Folge-Gespräch zu verlagern, das in der Beschaffungs-Realität selten so stattfindet. Aiomics tritt am Beschaffungs-Tisch nicht als Stufen-Versprechen auf; das Stufenmodell ist Beschaffungs-Werkzeug, nicht Anbieter-Etikett. Ein früheres Aiomics-Stück, „Vier Fragen vor dem Klinik-KI-Einkauf, die Anbieter:innen ungern hören“, hat vier Beschaffungs-Fragen formuliert, die die Marketing-Sprache am Pitch-Tisch öffnen. Das Stufenmodell dieses Stücks ergänzt die vier Fragen, indem es eine fünfte Pflicht-Frage hinzufügt: Welche Stufe steht hinter dem Etikett, das die Plattform sich gibt. Ohne diese Stufen-Frage bleibt jede Antwort auf die anderen vier in der gleichen Begriffs-Spannweite gefangen. Die Geschäftsführung kann die Stufen-Frage in jedem Pitch stellen — sie verlangt keine technische Tiefe, sondern eine sachliche Sortierung. Eine Plattform, die diese Sortierung verweigert oder umgeht, beschreibt nicht ihren Reifegrad; sie beschreibt nur ihre Marketing-Wahl. Die Klinik-IT-Leitung kann die Stufen-Antwort dann technisch verifizieren — Stufen-Etikett und tatsächliche Architektur müssen sich entsprechen, nicht das Etikett und die Erwartung.

Agentische KI Klinik Realität: Eine handschriftliche Linie auf der Pitch-Folie trennt vier Reifegrad-Stufen — zwei tragen produktiv, eine punktuell, eine als Forschungs-Frontier. — Eine Linie auf der Pitch-Folie. Sie sortiert das Etikett in vier Stufen, die die Beschaffungs-Diskussion trägt.·aiomics

Die Marketing-Sprache wird das Wort „agentisch“ in der nächsten Pitch-Generation weiter dehnen. Das ist eine Eigenschaft des Diskurses, kein Defekt einer einzelnen Plattform. Die Disziplin, die im Beschaffungs-Gespräch trägt, ist die Stufen-Sortierung — als Werkzeug, nicht als Polemik. Eine Pitch-Unterlage, die die Stufen-Frage substantiell beantwortet, beschreibt ihre Architektur-Klasse und ihre Verantwortbarkeits-Spur. Eine, die ausweicht, nutzt das Etikett, ohne den Reifegrad zu zeigen. Eine Beschaffungs-Entscheidung, die das Etikett „agentisch“ ohne Stufenangabe übernimmt, ist eine Black-Box-Wette auf den Reifegrad — die Verantwortbarkeits-Folgen einer nicht ausgewählten Stufe trägt nachher die Klinik-Geschäftsführung.

#agentische KI Klinik Realität#Klinik-KI-Reifegrad#Klinik-Beschaffung#AI Maturity Model#Levels of Clinical AI Autonomy#Co-Pilot vs Agent#Klinik-IT-Strategie#Verantwortbarkeit

Der Beitrag bezieht sich auf öffentlich verfügbare Branchen- und Forschungs-Beiträge: das Adoption-Maturity-Material der Healthcare Information and Management Systems Society (HIMSS), die Hype-Cycle-Methodologie von Gartner Research, peer-reviewed Original- und Review-Beiträge in npj Digital Medicine, Synthese-Berichte des Stanford Institute for Human-Centered Artificial Intelligence (Stanford HAI), Editorial- und Review-Beiträge in NEJM AI, den Management-System-Standard ISO/IEC 42001:2023 und die Verordnung (EU) 2024/1689 (Europäische Verordnung über Künstliche Intelligenz, EU AI Act, Annex III) als operative Bezugnahme. HIMSS- und Gartner-Beiträge sind Branchen-Synthese, kein peer-reviewed Standard; sie sind als Stand des Adoption- und Markt-Diskurses zu lesen. Stanford HAI und NEJM AI Editorials sind redaktionell kuratierte Synthese-Linien akademischer und Verlags-Institutionen, keine peer-reviewed Original-Studien. Der Beitrag nennt keine einzelnen Anbieter; er gibt keine Rechtsauslegung zur Hochrisiko-Klassifikation einzelner Plattformen und keine Beschaffungs-Empfehlung — die konkrete Bewertung bleibt Sache der Klinik-Geschäftsführung, der ärztlichen Direktion und der Klinik-IT-Leitung der Einrichtung.

Was „agentisch“ im Klinikalltag tatsächlich heißen kann — und was nicht

Vier Stufen, ein Begriff

Was die Stufen für die Verantwortbarkeit bedeuten

Wo die Marketing-Sprache die Stufen verschluckt

Weiterlesen

Souveränität ist nicht Ausfallsicherheit: Was die Angriffe auf die Cloud wirklich zeigen

Kein einziger Faktenfehler — und dann kam die fünfte Gesprächsrunde

Ein mRNA-Modell für 165 Dollar: Was ein Hugging-Face-Beitrag zeigt und was nicht

Diese Analyse stammt von den Leuten hinter Visite.

Sie möchten das in Ihrer Klinik sehen?