Zum Hauptinhalt springen
Einkauf7 Min. Lesezeit

Was „agentisch“ im Klinikalltag tatsächlich heißen kann — und was nicht

Auf der Pitch-Folie steht „agentische KI für die Klinik“ — und meint vier sehr verschiedene Architektur-Klassen. Eine sachliche Stufen-Taxonomie sortiert das Wort in vier Reifegrade von regelbasierter Automatisierung bis zur vollagentischen Selbst-Korrektur.

Dr. Sven Jungmann

Dr. Sven Jungmann

CEO

Agentische KI Klinik Realität: Geschäftsführung und Klinik-IT-Leitung sortieren am Pitch-Tisch das Etikett in vier Reifegrad-Stufen — die das Marketing-Vokabular verschluckt.

Auf der Pitch-Folie der Klinik-IT-Plattform steht „Agentische KI für die Klinik“. Die Geschäftsführerin fragt zurück, was das konkret heiße — und der Anbieter antwortet mit drei Beispielen aus drei verschiedenen Architektur-Schichten. Ein regelbasiertes Routing-Skript, ein Sprachmodell-Vorschlag mit ärztlicher Übernahme, eine Funktion, die eigenständig Aufnahme-Anfragen ablehnt. Drei Funktionen, drei Reifegrade — und ein einziger Begriff darüber. Künstliche Intelligenz (KI) ist der Oberbegriff der Bewegung; das Wort „agentisch“ darunter trägt heute eine Spannweite, die im Pitch-Termin selten aufgeklappt wird. Ein Large Language Model (LLM) sitzt in den letzten drei Beispielen unten drunter, aber die Schicht darüber ist es, die die Verantwortbarkeit prägt — und sie ist in jedem der drei Fälle eine andere.

Die Beschaffungs-Diskussion in deutschen Akut- und Reha-Häusern erlebt diese Begriffs-Spannweite seit etwa zwei Jahren. Klinik-IT-Plattformen, die zuvor mit „Prozess-Automatisierung“ oder „Dokumentations-Co-Pilot“ beworben wurden, tragen heute das Etikett „agentisch“. Die Funktionen darunter haben sich nicht alle bewegt; die Sprache hat sich bewegt. Eine sachliche Trennung des Begriffs in Reifegrad-Stufen ist daher kein akademisches Anliegen, sondern ein Werkzeug der Beschaffungs-Disziplin. Sie macht sichtbar, welche Architektur-Klasse eine Plattform tatsächlich beschreibt — und welche Verantwortbarkeits-Folgen mit jeder Klasse einhergehen.

Vier Stufen, ein Begriff

Die internationale Adoption- und Markt-Diskussion liefert eine erste Sortierung. Reifegrad-Beiträge der Healthcare Information and Management Systems Society (HIMSS) 2023 bis 2026 ordnen Healthcare-AI-Adoption über mehrere Stufen — von regelbasierter Automatisierung über assistive Vorschlags-Architekturen hin zu autonomeren Schicht-Folgen — und beschreiben eine heterogene Verteilung über die Einrichtungen. Die Hype-Cycle-Linie von Gartner 2024 bis 2026 ordnet agentische KI im Healthcare-Kontext mehrheitlich noch in der Erwartungs-Phase ein — vor der produktiven Tragfähigkeits-Phase. HIMSS und Gartner sind Branchen-Synthese, nicht peer-reviewed; sie tragen die Markt-Lesart, nicht die methodische Klassifikation. Stufe eins ist die regelbasierte Automatisierung. Wenn-Dann-Pfade, deterministische Verkettungen, kein generatives Sprachmodell unten drunter. Diese Stufe ist im Klinikalltag seit Jahren tragfähig; sie heißt aber nur in der Marketing-Folie „agentisch“. Stufe zwei ist die kontextbewusste Vorschlags-Architektur — was im internationalen Diskurs als Co-Pilot beschrieben wird. Ein Sprachmodell liefert Vorschläge, ein Mensch prüft, übernimmt oder verwirft. Diese Stufe ist im deutschen Klinikalltag heute produktiv tragfähig — sie ist die Schicht, in der die Mehrzahl ernsthafter Klinik-KI-Funktionen heute sitzt.

Stufe drei beschreibt autonome Tasks innerhalb enger Grenzen. Die Plattform schließt einzelne Schritte selbstständig ab — eine Anfrage abgelehnt, ein Profil gebaut, eine Eignungs-Vorprüfung durchgeführt — innerhalb definierter Regeln und mit dokumentierten Eskalations-Schwellen. Diese Stufe ist punktuell tragfähig, aber die Audit-Last steigt: jeder autonom abgeschlossene Schritt ist nachträglich zu prüfen, und die Schwellen, an denen die Plattform an das ärztliche Team zurückgibt, sind versions-fest zu dokumentieren. Peer-reviewed Original- und Review-Beiträge in npj Digital Medicine 2024 bis 2026 zeigen, dass die Stabilität klinisch verwertbarer Schritt-Folgen strukturell an der Vollständigkeit und Konsistenz der Quell-Daten hängt. Die Befunde stammen aus internationalen Settings; die Engineering-Beobachtung — Substrat-Qualität prägt die Tragfähigkeit autonomer Schritte — trägt jedoch über die Settings hinweg. Im deutschen Klinikalltag ist die Stufe drei heute eher in eingegrenzten Anwendungsfällen produktiv als in breiten Prozess-Strecken.

Stufe vier beschreibt vollagentische Prozesse mit Selbst-Korrektur — Architekturen, in denen die Plattform plant, handelt, eigene Schritte über mehrere Schleifen prüft und korrigiert. Reports des Stanford Institute for Human-Centered Artificial Intelligence (Stanford HAI) 2024 und 2025 dokumentieren die Reife dieser Stufe in regulierten Healthcare-Domänen als heterogen — der Diskurs ist aktiv, die produktive Tragfähigkeit in klinischen Prozessen ist es heute nicht. Editorial- und Review-Beiträge in NEJM AI betonen, dass die Selbst-Korrektur-Spur einer vollagentischen Architektur — die Stelle, an der die Plattform ihre eigene vorherige Schritt-Aussage prüft und gegebenenfalls revidiert — eine Auditierbarkeits-Anforderung mit sich bringt, die sich entlang jedes Korrektur-Schritts multipliziert. Stanford HAI- und NEJM AI Editorials sind redaktionell kuratierte Synthese-Linien, keine peer-reviewed Original-Studien; die strukturelle Beobachtung trägt jedoch in der peer-reviewed Linie aus npj Digital Medicine fort. Stufe vier ist heute eher Forschungs-Frontier als Beschaffungs-Realität.

Agentische KI Klinik Realität: Vier Reifegrad-Stufen vom regelbasierten Pfad bis zur Selbst-Korrektur — nur die ersten zwei tragen in deutschen Häusern heute produktiv.
Vier Stufen, ein Begriff. Die Verantwortbarkeits-Anforderungen wachsen mit jeder Stufe.·aiomics

Was die Stufen für die Verantwortbarkeit bedeuten

Die operative Folge der Stufen-Trennung ist eine andere Verantwortbarkeits-Last pro Stufe. In Stufe eins prüft die Klinik-IT-Leitung die Regel-Logik einmalig vor der Inbetriebnahme; danach läuft die Verkettung deterministisch, und Änderungen an der Regel-Logik laufen über Versions-Stände, die ohne Sprachmodell-Schicht reproduzierbar bleiben. In Stufe zwei prüft eine ärztliche Person jeden Vorschlag vor der Übernahme — die Verantwortbarkeit sitzt in der Übernahme-Entscheidung selbst, und die Audit-Spur dokumentiert die Vorschlags-Folge zusammen mit der menschlichen Entscheidung. In Stufe drei verschiebt sich die Verantwortbarkeit vor den Pilot-Betrieb: die Direktion prüft die Architektur, die Eskalations-Schwellen und die Audit-Spur-Felder pro autonomem Schritt, bevor die Plattform überhaupt autonom handelt. Die laufende Prüfung wandert von der einzelnen Aussage zur Architektur-Disziplin als Ganzes. In Stufe vier wächst die Audit-Last entlang jedes Selbst-Korrektur-Schritts, weil jede revidierte Aussage eine eigene Schritt-Logik mit Modellversion, Begründungs-Pfad und Korrektur-Begründung bekommt. Eine vollagentische Architektur, die diese Korrektur-Spur nicht versions-fest dokumentiert, beschreibt nicht ihre Verantwortbarkeit; sie beschreibt nur ihren Hauptpfad. Der Management-System-Standard ISO/IEC 42001:2023 für Künstliche Intelligenz beschreibt Auditierbarkeit, Eingangsdaten-Disziplin und Eskalations-Pfade als Anforderungen an die Plattform-Verantwortung; er trennt nicht nach Stufen, weil alle Stufen dieselbe Auditierbarkeit benötigen. Die Anforderung wird dichter, je weiter oben die Stufe sitzt. Die Verordnung (EU) 2024/1689 (Europäische Verordnung über Künstliche Intelligenz, EU AI Act) ordnet Klinik-KI-Systeme typischerweise in die Hochrisiko-Klassifikation des Annex III ein und empfiehlt Auditierbarkeit, Risiko-Management und Aufsicht durch eine natürliche Person; die operative Übersetzung in die Stufen-Wahl bleibt der Klinik-IT-Disziplin überlassen. Wie eine konkrete Plattform unter diese Klassifikation fällt, ist anwendungs-spezifisch und in diesem Stück nicht zu klären.

Agentische KI Klinik Realität: Drei Beschaffungs-Fragen — Stufe, Eskalations-Schwelle, Audit-Spur-Felder — machen den Reifegrad einer Plattform am Pitch-Tisch sichtbar.
Drei Fragen am Pitch-Tisch. Sie machen die Stufen-Klasse sichtbar, die das Etikett verschluckt.·aiomics

Wo die Marketing-Sprache die Stufen verschluckt

Die Pitch-Folie hat eine eigene Schwerkraft. Sie zieht heterogene Funktionen unter ein Etikett, weil das Etikett kürzer ist als die Differenzierung. „Agentisch“ klingt in der Beschaffungs-Diskussion klarer als „regelbasierte Verkettung mit ergänztem Sprachmodell-Vorschlag“ — und es klingt moderner. Diese Schwerkraft ist nicht böswillig; sie ist eine Eigenschaft der Pitch-Sprache. Eine zweite Schwerkraft kommt aus den Branchen-Konferenzen und Markt-Reports, die das Wort in der Erwartungs-Phase eines Hype-Cycles weiter schärfen. Eine dritte aus den Pitch-Coaches, die der Klinik-IT-Plattform raten, das Etikett kurz zu halten und die Differenzierung in das Folge-Gespräch zu verlagern, das in der Beschaffungs-Realität selten so stattfindet. Aiomics tritt am Beschaffungs-Tisch nicht als Stufen-Versprechen auf; das Stufenmodell ist Beschaffungs-Werkzeug, nicht Anbieter-Etikett. Ein früheres Aiomics-Stück, „Vier Fragen vor dem Klinik-KI-Einkauf, die Anbieter:innen ungern hören“, hat vier Beschaffungs-Fragen formuliert, die die Marketing-Sprache am Pitch-Tisch öffnen. Das Stufenmodell dieses Stücks ergänzt die vier Fragen, indem es eine fünfte Pflicht-Frage hinzufügt: Welche Stufe steht hinter dem Etikett, das die Plattform sich gibt. Ohne diese Stufen-Frage bleibt jede Antwort auf die anderen vier in der gleichen Begriffs-Spannweite gefangen. Die Geschäftsführung kann die Stufen-Frage in jedem Pitch stellen — sie verlangt keine technische Tiefe, sondern eine sachliche Sortierung. Eine Plattform, die diese Sortierung verweigert oder umgeht, beschreibt nicht ihren Reifegrad; sie beschreibt nur ihre Marketing-Wahl. Die Klinik-IT-Leitung kann die Stufen-Antwort dann technisch verifizieren — Stufen-Etikett und tatsächliche Architektur müssen sich entsprechen, nicht das Etikett und die Erwartung.

Agentische KI Klinik Realität: Eine handschriftliche Linie auf der Pitch-Folie trennt vier Reifegrad-Stufen — zwei tragen produktiv, eine punktuell, eine als Forschungs-Frontier.
Eine Linie auf der Pitch-Folie. Sie sortiert das Etikett in vier Stufen, die die Beschaffungs-Diskussion trägt.·aiomics

Die Marketing-Sprache wird das Wort „agentisch“ in der nächsten Pitch-Generation weiter dehnen. Das ist eine Eigenschaft des Diskurses, kein Defekt einer einzelnen Plattform. Die Disziplin, die im Beschaffungs-Gespräch trägt, ist die Stufen-Sortierung — als Werkzeug, nicht als Polemik. Eine Pitch-Unterlage, die die Stufen-Frage substantiell beantwortet, beschreibt ihre Architektur-Klasse und ihre Verantwortbarkeits-Spur. Eine, die ausweicht, nutzt das Etikett, ohne den Reifegrad zu zeigen. Eine Beschaffungs-Entscheidung, die das Etikett „agentisch“ ohne Stufenangabe übernimmt, ist eine Black-Box-Wette auf den Reifegrad — die Verantwortbarkeits-Folgen einer nicht ausgewählten Stufe trägt nachher die Klinik-Geschäftsführung.

#agentische KI Klinik Realität#Klinik-KI-Reifegrad#Klinik-Beschaffung#AI Maturity Model#Levels of Clinical AI Autonomy#Co-Pilot vs Agent#Klinik-IT-Strategie#Verantwortbarkeit

Der Beitrag bezieht sich auf öffentlich verfügbare Branchen- und Forschungs-Beiträge: das Adoption-Maturity-Material der Healthcare Information and Management Systems Society (HIMSS), die Hype-Cycle-Methodologie von Gartner Research, peer-reviewed Original- und Review-Beiträge in npj Digital Medicine, Synthese-Berichte des Stanford Institute for Human-Centered Artificial Intelligence (Stanford HAI), Editorial- und Review-Beiträge in NEJM AI, den Management-System-Standard ISO/IEC 42001:2023 und die Verordnung (EU) 2024/1689 (Europäische Verordnung über Künstliche Intelligenz, EU AI Act, Annex III) als operative Bezugnahme. HIMSS- und Gartner-Beiträge sind Branchen-Synthese, kein peer-reviewed Standard; sie sind als Stand des Adoption- und Markt-Diskurses zu lesen. Stanford HAI und NEJM AI Editorials sind redaktionell kuratierte Synthese-Linien akademischer und Verlags-Institutionen, keine peer-reviewed Original-Studien. Der Beitrag nennt keine einzelnen Anbieter; er gibt keine Rechtsauslegung zur Hochrisiko-Klassifikation einzelner Plattformen und keine Beschaffungs-Empfehlung — die konkrete Bewertung bleibt Sache der Klinik-Geschäftsführung, der ärztlichen Direktion und der Klinik-IT-Leitung der Einrichtung.

Weiterlesen

Editorial-Collage: eine erschöpfte Assistenzärztin am Arbeitsplatz blickt an einem Teal-Warnfenster vorbei, dahinter eine sich verlierende Halbton-Reihe identischer grauer Hinweise und ein einzelner Amber-Akzent.

Alarmmüdigkeit ist ein Kontinuum, kein Schalter: eine genaue Lektüre

Zwanzig Assistenzärzt:innen beschreiben, wie klinische Warnhinweise aufhören, gelesen zu werden. Der nützliche Befund ist nicht, dass sie weggeklickt werden: Es ist, dass Müdigkeit ein bewegliches Gleichgewicht aus Kultur und Gestaltung ist, kein fester Wesenszug.

Dr. Sven JungmannCEO
Editorial-Collage: eine übermüdete Person bei Nacht, beleuchtet vom blauen Schein eines Smartphones, eine unruhige Tealtinie als Blickbewegung über einem Navy-Rechteck, darunter angedeutete leere Tagebuchfelder und ein einzelner Amber-Punkt in einem Feld.

Das Schlaftagebuch, das gegen das übermüdete Gehirn arbeitet

Eine Eye-Tracking-Pilotstudie benennt ein unangenehmes Problem: Wer ein präzises Schlaftagebuch führen soll, ist die Person, deren Aufmerksamkeit der schlechte Schlaf bereits geschwächt hat. Die Oberfläche ist nicht neutral — doch gemessen wurde Belastung, nicht Wirkung.

Dr. Sven JungmannCEO

Diese Analyse stammt von den Leuten hinter Visite.

Unser wöchentlicher Newsletter zu KI in der Medizin. Jeden Freitag, gründlich geprüft.

Mit der Anmeldung stimmen Sie dem Erhalt von Visite per E-Mail zu. Abmeldung jederzeit. Mehr in unserer Datenschutzerklärung.

Sie möchten das in Ihrer Klinik sehen?

30 Minuten. Ihre Fragen. Unser Arzt-Gründer zeigt Ihnen die Plattform persönlich.

Termin vereinbaren

Unverbindlich. Kein Vertrieb. Arzt zu Arzt.