Pilot-Implementierung Klinik-KI: Was nach acht Wochen klar sein muss
Die Implementation-Science der letzten 20 Jahre ordnet Pilotierung — mit sechs Indikator-Klassen, die an Tag 56 lesbar sein sollten & an denen sich entscheidet, ob der Pilot in den Regelbetrieb übergehen kann.

Dr. Sven Jungmann
CEO

Eine Acht-Wochen-Lenkungsgruppe zu einem Klinik-KI-Pilot endet typischerweise mit einer Diskussion, in der niemand sagt, was er eigentlich denkt. Die Anbieter-Präsentation läuft, die Schulungs-Quote wird verlesen, die ersten Anwender:innen werden zitiert. Was nicht gesagt wird: ob der Pilot strukturell trägt oder ob er in einer Lage angekommen ist, in der die nächsten Wochen keine zusätzliche Information mehr liefern werden. Die Implementation-Science-Forschung der letzten zwanzig Jahre hat diese Frage methodisch geordnet. Sie ordnet die Acht-Wochen-Auswertung in sechs Indikator-Klassen, die in der Literatur konvergent benannt sind und in einem Pilot-Mittel-Punkt erkennbar sein sollten. Auf welcher dieser Klassen am Tag 56 keine tragfähige Aussage zustande kommt, ist der eigentliche Befund — und genau diese Frage gehört in die Acht-Wochen-Sitzung.
Die methodische Konsolidierung ist seit Mitte der 2000er-Jahre belastbar. Damschroder und Kolleg:innen (2009) ordnen die Determinanten von Klinik-IT-Implementierungen im Consolidated Framework for Implementation Research (CFIR) in fünf Domänen — Charakteristika der Intervention, äußerer Kontext, innerer Kontext, individuelle Akteur:innen, Implementierungs-Prozess. CFIR ist deskriptiv, kein prädiktiver Algorithmus; die fünf Domänen ordnen die Determinanten, ohne Erfolgs-Wahrscheinlichkeiten zu quantifizieren. Greenhalgh und Kolleg:innen (2017) erweitern die Sicht im Nonadoption-Abandonment-Scale-up-Spread-Sustainability-Framework (NASSS) im Journal of Medical Internet Research auf sieben Komplexitäts-Domänen. Glasgow, Vogt und Boles (1999) formulieren mit Reach-Effectiveness-Adoption-Implementation-Maintenance (RE-AIM) eine fünf-dimensionale Evaluations-Architektur. Aarons und Kolleg:innen (2011) ordnen Vorhaben im Exploration-Preparation-Implementation-Sustainment-Modell (EPIS) in vier Phasen, von denen ein Acht-Wochen-Stand typischerweise mitten in der Implementation-Phase liegt. Proctor und Kolleg:innen (2011) unterscheiden acht Implementierungs-Outcomes — darunter Adoption, Fidelity und Acceptability — und benennen damit die Mess-Bereiche, in denen ein Pilot-Mittel-Punkt operativ lesbar wird. Aus dieser konsolidierten Lese folgen sechs Indikator-Klassen, die sich in einem Acht-Wochen-Stand abprüfen lassen.
Beiträge in Implementation Science, in BMJ Open und in der Journal of the American Medical Informatics Association (JAMIA) 2023–2026 dokumentieren das Pattern konvergent: Pilots, deren Mid-Pilot-Auswertung in mehreren Klassen tragfähige Aussagen liefert, übergehen häufiger in den Regelbetrieb als Pilots, die sich auf Anbieter-Präsentation und Schulungs-Quote verengen. Die Studien sind heterogen in Größe und Design (Mixed-Methods, qualitative Fallstudien, Mehrzentren-Erhebungen), und die Effekt-Größen variieren zwischen Versorgungs-Kontexten. Die qualitative Klasse des Pattern ist über Studien-Designs hinweg stabil. Die zugrunde liegenden Erhebungen kommen vorwiegend aus angelsächsischen, niederländischen und nordischen Häusern; die Übertragung auf deutsche Klinik-Konstellationen ist methodisch tragfähig, einzelne Effekt-Maße lassen sich nicht direkt umrechnen.
Sechs Indikator-Klassen für den Acht-Wochen-Stand
Erstens die Adoption durch klinische Schlüsselpersonen. Die Klasse meint nicht die Anwesenheit in Schulungen und auch nicht die formal protokollierte Akzeptanz. Sie meint die tatsächliche Nutzung im Tagesgeschäft. Operativ ablesbar ist sie an drei Beobachtungen: Wie viele der Schlüsselpersonen — die ärztlichen Multiplikator:innen, die erfahrenen Stationsleitungen, die IT-affinen Therapeut:innen — haben die Software in der Acht-Wochen-Spanne aus eigenem Antrieb in den Prozess gezogen? An welchen Stellen wird die Ausgabe der Software akzeptiert, modifiziert oder verworfen? Welche Konfigurations-Anpassungen wurden auf Anregung dieser Schlüsselpersonen angestoßen, statt von der Anbieter-Seite vorgegeben? Pilots, deren Adoption sich nach acht Wochen ausschließlich in formalen Schulungs-Quoten misst, haben die Klasse nicht beantwortet — sie haben sie umgangen.
Zweitens die Schnittstellen-Stabilität. Die Klasse fragt, wie häufig in den ersten acht Wochen Schnittstellen zum Krankenhaus-Informationssystem (KIS), zu den Quell-Systemen der Daten und zu den Daten-Pipelines ausgefallen sind, und wie schnell die Ausfälle behoben wurden. Schnittstellen-Probleme zeigen sich in der Mid-Pilot-Phase strukturell, weil sie durch die Mengen-Verarbeitung der ersten Wochen sichtbar werden — und nicht im einzelnen Demo-Fall. Aus der NASSS-Lese ist die Schnittstellen-Stabilität die Domäne Technologie; in der Acht-Wochen-Auswertung tragen die operativen Befunde mehr als die Anbieter-Aussagen über die theoretische Verlässlichkeit. Eine schriftlich geführte Schnittstellen-Vorfälle-Liste mit Vorfall, Dauer, Behebung und Folge-Wirkung ist die Mindest-Form der Beleg-Lage. Pilots, in denen niemand diese Liste in der achten Woche zeigen kann, haben die Schnittstellen-Stabilität nicht erfasst.
Drittens die Datenqualität in den Ergebnis-Daten. Eine Klinik-KI erzeugt oder verarbeitet Daten, die in der Folge-Verwendung tragen müssen — in der Patient:innen-Akte, in der Abrechnungs-Spur, in der Übergabe an die Folge-Versorgung. Die Klasse fragt, ob die Ergebnis-Daten der ersten acht Wochen vollständig, konsistent und persistent sind: Sind die Pflicht-Felder durchgängig befüllt? Sind die strukturierten Felder mit den Frei-Text-Anteilen kohärent? Werden die Ergebnis-Daten so persistiert, dass sie in der Folge-Verwendung lesbar bleiben — auch nach einem zwischenzeitlichen Modell-Update oder einem Konfigurations-Wechsel? Datenqualitäts-Probleme in der Acht-Wochen-Spanne sind robust ablesbar an einer kleinen Stichprobe — typischerweise 30 bis 50 Fälle, manuell durchgesehen. Eine Anbieter-Aussage über die theoretische Datenqualität ohne Stichproben-Beleg ist eine Aussage ohne Mid-Pilot-Substanz.

Viertens die dokumentierten Prozess-Veränderungen. Die Klasse fragt, welche Klinik-Praxis-Pattern sich tatsächlich verschoben haben — und welche unverändert geblieben sind. In der CFIR-Lese ist sie die Domäne Implementierungs-Prozess; in der Proctor-Taxonomie deckt sie sich mit Fidelity (die Treue der Umsetzung gegenüber dem geplanten Verfahren) und mit Penetration (die Reichweite der neuen Praxis im Klinik-Alltag). Operativ ablesbar ist die Klasse an drei bis fünf konkreten Prozess-Skizzen: Wo hat die Software die Reihenfolge der Klick-Pfade verändert? An welchen Stellen wurden bestehende Doku-Schritte ersetzt — und an welchen Stellen wurden sie nur ergänzt, ohne dass der alte Schritt entfallen ist? Welche Übergabe-Stellen zwischen Berufsgruppen sind anders strukturiert als vor dem Pilot? Pilots, in denen nach acht Wochen niemand diese drei bis fünf Skizzen zeichnen kann, haben die Prozess-Veränderungen nicht beobachtet — sie haben das Veränderungs-Versprechen nur angenommen.
Fünftens die identifizierten Risiken. Die Klasse fragt, welche Punkte in den ersten acht Wochen sichtbar geworden sind, die in der Pilot-Vereinbarung am Tag eins nicht antizipiert wurden. In der NASSS-Lese ist sie die Domäne Anpassung über Zeit; methodisch entscheidend ist, dass die Risiken benannt sind und nicht in einem allgemeinen Erfahrungs-Bericht aufgehen. Drei Sorten Risiken sind in der Mid-Pilot-Empirie konsistent benannt: technische Risiken (eine bislang stille Schnittstelle bricht unter realer Last; eine Modell-Ausgabe trägt in einer Patient:innen-Konstellation nicht, die in der Pilot-Vereinbarung nicht ausgeschlossen wurde); organisatorische Risiken (eine Schlüsselperson verlässt das Haus; eine Berufsgruppe akzeptiert die Software-Logik nicht in der erwarteten Form); und Verfahrens-Risiken (ein Aufsichts-, Datenschutz- oder Förderungs-Strang stellt eine Frage, deren Beantwortung im Pilot-Aufbau nicht vorgesehen war). Eine schriftliche Risiko-Liste mit drei Spalten — Befund, Konsequenz, Folge-Schritt — ist die Form, in der die Klasse in der Acht-Wochen-Sitzung übergeben werden kann.
Sechstens die belastbare Erfolgsmessung gegenüber den Vor-Pilot-Werten. Diese Klasse setzt voraus, dass die Vor-Pilot-Werte am Tag eins erhoben wurden — die mediane Doku-Zeit pro Aufnahme-Bericht, die Vollständigkeitsquote der Pflicht-Felder, die Frequenz der Rückfragen aus dem Träger-Rückkanal, je nach Anwendungsfall zwei oder drei kontext-spezifische Größen. Im RE-AIM-Vokabular sind das die Dimensionen Effectiveness und Implementation. Die Klasse fragt, ob nach acht Wochen ein erster Vor-Nachher-Vergleich auf den vereinbarten Indikatoren möglich ist und ob die Differenz richtungsweisend lesbar ist — nicht statistisch belastbar, dafür ist die Datenmenge in dieser frühen Phase meist zu klein, sondern als Trendbild für die nächste Pilot-Phase. Pilots, in denen am Pilot-Start keine solche Bezugs-Größen festgehalten wurden, können die sechste Klasse strukturell nicht beantworten — sie ist mit der Pilot-Vereinbarung schon vor dem ersten Klinik-Tag verloren gegangen.

Welche Klasse keine Aussage trägt, ist der eigentliche Befund
Die produktive Frage in der Acht-Wochen-Sitzung lautet nicht, welche der sechs Klassen ein gutes Ergebnis liefert. Sie lautet, welche der sechs Klassen keine Aussage trägt — und warum. Eine Klasse ohne Aussage in der achten Woche kann zwei Gründe haben. Erstens: Der Pilot ist methodisch nicht so aufgebaut, dass die Klasse beobachtet werden konnte (etwa weil die Vor-Pilot-Werte fehlen oder weil die Schnittstellen-Vorfälle nicht protokolliert wurden). Zweitens: Die Klinik-Realität in der Pilot-Spanne hat in dieser Klasse strukturell keine Veränderung gezeigt (etwa weil die Adoption durch die Schlüsselpersonen nicht stattgefunden hat — was ein eigener Befund ist, nicht eine Mess-Lücke). Die zwei Gründe verlangen unterschiedliche Folge-Schritte: Im ersten Fall ist die Pilot-Anordnung in den verbleibenden Wochen nachzubessern; im zweiten Fall ist die Pilot-Hypothese auf der jeweiligen Klasse aktiv widerlegt. Beide Befunde sind belastbarer als die Sammelfeststellung, der Pilot „läuft“ — eine Sammelfeststellung, die in der Mid-Pilot-Literatur typischerweise in einer Variante der Diskussion landet, die keine Entscheidung trägt.

Ein Acht-Wochen-Pilot ist kein Software-Stand, er ist ein Klinik-Stand. Die sechs Indikator-Klassen sind in der Implementation-Science-Literatur über zwei Jahrzehnte konvergent dokumentiert; sie wirken unabhängig von der Software-Qualität, und sie wirken in der Mitte des Pilots, nicht erst an seinem Ende. Eine Sitzung, die alle sechs Klassen mit einer kurzen, schriftlich vorbereiteten Aussage durchgeht, dauert eine Stunde — deutlich kürzer als die typische Acht-Wochen-Lenkungsgruppen-Sitzung, die mit Anbieter-Präsentation und höflicher Sammelfeststellung füllt. Die Stunde ist die Stelle, an der sich entscheidet, ob die nächsten Wochen den Pilot in den Regelbetrieb tragen oder ob sie ihn weiter strecken, ohne zusätzliche Information zu liefern.
Aiomics formuliert die Acht-Wochen-Indikator-Klassen als Lese der publizierten Implementation-Science-Literatur (CFIR, NASSS, RE-AIM, EPIS, Proctor) und der konvergenten Empirie aus Implementation Science, BMJ Open und der Journal of the American Medical Informatics Association. Die referenzierten Studien stammen überwiegend aus US-amerikanischen, britischen und niederländischen Versorgungs-Kontexten; die strukturelle Übertragung auf deutsche Klinik-Konstellationen ist methodisch tragfähig, einzelne Effekt-Größen lassen sich nicht eins zu eins umrechnen. Der Beitrag stützt keine quantitative Aussage auf eine Aiomics-Pilot-Kohorte; die Anwendung der sechs Indikator-Klassen im konkreten Pilot ist Sache der Klinik-IT-Leitung, der ärztlichen Leitung und der Klinik-Geschäftsführung.


