KI-Sicherheit4. Mai 20267 Min. Lesezeit

Welche Klinik-KI-Anwendungen 2026 evidenzbasiert sind — und welche nicht

Sechs gängige Klinik-KI-Anwendungs-Klassen verteilen sich 2026 sehr ungleich auf vier Evidenz-Stufen: randomisierte Studie, prospektive Beobachtung, retrospektive Beobachtung, Anbieter-Whitepaper.

Dr. Sven Jungmann

CEO

Klinik-KI-Evidenz 2026: Vier Stufen — randomisiert, prospektiv, retrospektiv, Anbieter-Whitepaper — als Lese-Kompass für sechs Anwendungs-Klassen.

Anfang Mai 2026, im Besprechungs-Raum einer Misch-Klinik im Nordwesten. Auf dem Tisch liegen drei Anbieter-Pitch-Decks aus der laufenden Marktsondierung. Auf jedem Deckblatt steht das Wort „evidenzbasiert“. Nirgendwo steht, in welchem Studientyp gegen welchen Vergleichs-Arm gemessen wurde. Die ärztliche Direktorin hat im laufenden Quartal zwölf solche Decks gesehen und fünf Ablehnungs-Schreiben aufgesetzt. Sie weiß, dass der Begriff „Evidenz“ im Anbieter-Vokabular alles bedeuten kann — von einem randomisierten Drei-Arm-RCT bis zu einer monozentrischen Selbst-Berichts-Erhebung. Im Folgenden werden sechs gerade gegenüber deutschen Kliniken häufig pitchbare KI-Anwendungs-Klassen in vier Evidenz-Stufen einsortiert: randomisierte kontrollierte Studie (RCT), prospektive Beobachtung, retrospektive Beobachtung, Anbieter-Whitepaper. Die Sortierung ist kein Anbieter-Ranking, sondern eine Studientyp-Lese-Hilfe — der Lese-Kompass, den die Marketing-Folie nicht mitliefert.

Eine randomisierte kontrollierte Studie weist einer KI-Anwendung Patient:innen oder Behandelnde nach Zufalls-Mechanismus zu und vergleicht den Verlauf gegen einen Kontroll-Arm. Eine prospektive Beobachtung verfolgt eine Gruppe von Behandelnden oder Fällen vor- und nach der Einführung, ohne Randomisierung. Eine retrospektive Beobachtung wertet historische Daten nach Einführung aus, in der Regel ohne saubere Vergleichs-Gruppe. Ein Anbieter-Whitepaper berichtet über eine Implementierungs-Erfahrung in einem oder wenigen Häusern, in der Regel ohne veröffentlichte Methodik. Ein Stanford-HAI-Bericht 2024 ordnet die Lage ein: weniger als fünfzehn Prozent der publizierten klinischen KI-Studien sind randomisiert; ein deutlicher Anteil ist retrospektiv. Der Befund ist Reviewer-Sicht, kein eigener Endpunkt; er deckt sich aber mit der Anbieter-Pitch-Realität in deutschen Kliniken. Wer die vier Stufen ineinander verrechnet, hat den Begriff „Evidenz“ in der eigenen Lektüre eingeebnet — und er trägt nicht mehr, was er trägt, wenn man ihn unterschiedet.

Bildanalyse und Ambient-Sprach-Doku tragen RCT-Evidenz

Die KI-Bildanalyse in der Radiologie und Pathologie trägt 2026 die methodisch reifste Studienlage. Reviews in Lancet Digital Health 2024–2025 synthetisieren mehrere prospektive RCTs in Teil-Anwendungen — Mammographie-Triage, diabetische Retinopathie, Schlaganfall-Bild-Pre-Read — und finden je nach Indikation entweder Effekt oder Nicht-Effekt auf Sensitivität und Bearbeitungs-Zeit. Wichtig für die Lese-Disziplin: aggregations-Studien aggregieren Studien unterschiedlicher Methodik und sind nicht eins zu eins auf das eigene Haus übertragbar. Was sie tragen, ist die Tatsache, dass die Klasse überhaupt im RCT-Format gemessen wurde — das ist die Mindest-Voraussetzung für eine Pitch-Behauptung der Stufe „evidenzbasiert“.

Die zweite Klasse mit echter RCT-Evidenz ist die Ambient-Sprach-Dokumentation — Verfahren, die das Arzt-Patienten-Gespräch automatisch in einen Doku-Entwurf übersetzen. Tierney und Kolleg:innen (NEJM AI, 2024) publizierten einen Drei-Arm-RCT mit 18 ärztlichen Behandelnden in der Primärversorgung; die Studie fand eine Reduktion der Doku-Zeit pro Visite, jedoch keinen signifikanten Effekt auf Patient-Outcomes. Die Stichprobe ist klein, die Studie monozentrisch, der Setting ambulant statt klinisch. Eine Anschluss-Kohorte von Garcia und Kolleg:innen (JAMA Network Open, 2024) mit 68 Behandelnden bestätigt die Reduktion der subjektiven Doku-Last, ohne randomisierten Vergleichs-Arm. Was über das Klinik-Setting hinausgeht, gilt mit Vorbehalt: die Lese-Disziplin verlangt, den Studientyp und die Stichprobe in der eigenen Lektion mitzuführen, nicht erst beim Pilot-Eintritt.

Klinik-KI-Evidenz 2026 — Bildanalyse und Ambient-Sprachdokumentation mit RCT-Evidenz; KI-Codierung, prädiktive Belegung, Aufnahmetriage und Reha-Berichtgenerierung auf niedrigeren Evidenzstufen. — Vier Stufen, sechs Klassen — die Pitch-Behauptung muss sich in einer der vier wiederfinden lassen.·aiomics

Die übrigen vier Klassen — vom Prospektiv-Befund bis zum Anbieter-Whitepaper

Auf der zweiten Stufe — prospektive Beobachtung ohne Randomisierung — steht eine zweite Erhebungs-Linie für die Ambient-Sprach-Doku. Die Doku-Last-Messung pre/post Einführung in mehreren US-Klinik-Netzwerken ist in der Sinsky-Linie in JAMA 2025 mehrfach prospektiv beobachtet. Diese Erhebungen sind keine RCTs; sie hängen am Selbst-Berichts-Endpunkt der Behandelnden, und sie spielen im US-Krankenhaus-Kontext mit anderer Doku-Vorgabe als im deutschen Krankenhaus. Sie tragen die Aussage „Doku-Last sinkt subjektiv messbar nach Einführung“ — sie tragen nicht die stärkere Aussage „Doku-Qualität bleibt unberührt“. Für den deutschsprachigen Klinik-Kontext liefert das Universitätsklinikum Freiburg eine prospektive Pilot-Erhebung zu KI-Sprachmodellen für Arztbriefe (September 2024) mit einer Verwendbarkeits-Quote von 93,1 Prozent in der Pilot-Phase — monozentrisch, ohne externe Validierung; das Ergebnis trägt eine Pilot-Aussage, keine Generalisierung. Beide Erhebungs-Stränge stehen in der Lese-Disziplin auf der zweiten Stufe: prospektiv, ohne Randomisierung; sie tragen das Wort „evidenzbasiert“ in einer schwächeren, redlich beschreibbaren Form.

Auf der dritten Stufe — retrospektive Beobachtung — steht die KI-Codierung. Die automatische Zuordnung von Diagnosis Related Groups (DRG) und OPS-Codes zur Aufnahme- und Entlass-Doku trägt 2026 überwiegend retrospektive Evidenz. Reviews in npj Digital Medicine 2024 sammeln retrospektive Kohorten an meist anbieter-validierten Datensätzen; externe Validierung an häuser-fremden Datensätzen ist die Ausnahme. Eine analoge Lage zeigt die prädiktive Belegungsplanung: Modelle, die Aufnahme-Risiko und Verweildauer aus historischen Krankenhaus-Datensätzen schätzen, sind in Nature Medicine 2024–2025 (Rajkomar-Folgearbeiten u. a.) mit guter Performance auf historischen Daten publiziert; prospektive Implementierungs-Studien an deutschen Häusern, die den Effekt auf tatsächliche Belegungs-Entscheidungen messen, sind selten. Re-Training auf hauseigenen Daten ist in der Regel notwendig; das begünstigt eine Pilot-Pilot-Pilot-Sequenz statt einer prospektiven Klinik-Outcome-Messung.

Studientyp als Lese-Disziplin: Eine retrospektive Auswertung zeigt, was die KI auf historischen Daten getroffen hätte; eine prospektive Studie zeigt, was sie im laufenden Betrieb tatsächlich tut. — Retrospektiv und prospektiv tragen verschiedene Aussagen — die Pitch-Folie macht den Unterschied selten sichtbar.·aiomics

Auf der vierten Stufe — überwiegend Anbieter-Whitepapers — stehen zwei Klassen mit hoher Pitch-Aktivität in deutschen Kliniken. Die KI-gestützte Aufnahme-Triage in der Klinik-Aufnahme — Verfahren, die Anfragen, Vorbefunde und Indikations-Prüfung im ersten Kontakt automatisiert zusammenstellen — trägt 2026 in der publizierten Literatur überwiegend retrospektive Modell-Performance, kaum prospektive Klinik-Studien mit Outcome-Endpunkten. Anbieter-Whitepapers berichten Pilot-Erfahrungen aus einzelnen Häusern; eine systematische Lese-Disziplin trennt die Pilot-Aussage vom verallgemeinerten Befund. Ähnlich liegt der Fall in der Reha-Bericht-Generierung im deutschsprachigen Klinik-Kontext: über die Freiburger Pilot-Erhebung hinaus existieren in der publizierten Literatur 2024–2025 kaum prospektive Klinik-RCTs. Eine Mayo-Clinic-Implementations-Linie 2024 stellt die Beobachtung als Reviewer-Sicht zusammen; sie ist kein primärer Endpunkt, aber sie deckt sich mit der ECRI-Sicht: in mehreren Anwendungs-Klassen mit ausgeprägter Marktsondierung fehlt die prospektive Evidenz noch. Das ist kein Veto gegen die Anschaffung — es ist ein Argument für eine Pilot-Phase, die genau diese Lücke füllt.

Die sechs Klassen verteilen sich also nicht in einer einheitlichen Studien-Reife, sondern in einem Spektrum, das von der Bildanalyse und der Sprach-Doku am oberen Ende bis zur Reha-Bericht-Generierung am unteren Ende reicht. Diese Verteilung schließt eine KI-Anwendung mit schwacher publizierter Studienlage nicht aus. Sie ist ein Argument dafür, die Studientyp-Frage in die Pitch-Lektüre einzubauen — und die Pilot-Phase im eigenen Haus so zu gestalten, dass sie den Studientyp trägt, der in der publizierten Literatur fehlt. Eine Klasse, deren Anbieter-Whitepapers retrospektive Beobachtung zeigen, hat im eigenen Pilot-Plan eine prospektive Verlaufs-Messung mit Vergleichs-Arm zu erbringen — nicht weil das Anbieter-Whitepaper unzureichend wäre, sondern weil die Differenz zwischen retrospektiv und prospektiv erst in dieser Anschluss-Erhebung auftaucht. Wer das umgeht, kauft die Pitch-Behauptung als Endpunkt, nicht als Ausgangspunkt.

Die Anbieter-Pitch-Folie wird die Sortierung selten von sich aus mitliefern. Eine zweite Lese-Pflicht steckt im Begriff der Übertragbarkeit: eine Studie an US-Primärversorgung trägt nicht ohne Prüfung in eine deutsche Aufnahme-Schicht; eine Mammographie-RCT trägt nicht in die Reha-Bericht-Generierung. Die Frage ist nicht, ob eine Klasse überhaupt in einem RCT vermessen wurde, sondern ob das Setting der Studie der eigenen Anwendungs-Frage überhaupt nahe kommt. Eine Klasse mit RCT-Evidenz an einer fremden Indikation steht in der Pitch-Lektüre kaum besser als eine Klasse mit prospektiver Beobachtung an der eigenen Indikation — das ist der Punkt, an dem die Stufen-Sortierung um eine zweite, indikations-bezogene Prüfung ergänzt werden muss. Beide Prüfungen zusammen ergeben die Lese-Hilfe, die im Anbieter-Material schuldig bleibt.

Studientyp-Sortierung als Pitch-Lesedisziplin — Bildanalyse und Ambient-Sprachdoku tragen RCT-Evidenz; KI-Codierung und Belegungsplanung tragen retrospektive Modellperformance. — Eine Sortierung ersetzt keine Pilot-Phase — sie schreibt sie nur richtig auf.·aiomics

Eine nüchterne Beobachtung am Rand: kaum eine Pitch-Folie unterscheidet vor der Frage der Studienlage und der Frage der Übertragbarkeit. Wer beide Fragen vor dem Pilot-Beschluss in die eigene Anbieter-Lektüre schreibt, hat in der Verhandlung mehr in der Hand als die Anbieter-Folie selbst hätte zugestehen wollen. Was am 30. November 2026 in der Beschaffungs-Begründung tragen muss, ist im Mai 2026 schon zur Hälfte gelesen — der Rest entsteht in der nächsten Pitch-Schicht am Mittwoch-Vormittag, und nicht in der Antrags-Schicht im Oktober. Die Stufen-Sortierung ist eine Lese-Disziplin, kein Anschaffungs-Verbot. Ihre Funktion ist, dem Wort „evidenzbasiert“ den semantischen Spielraum zurückzugeben, den die Pitch-Folie an es ausgegeben hat.

Evidenzbasiert ist eine Studientyp-Frage, keine Marketing-Frage. Wer die Stufen unterscheidet, hält in der Anbieter-Lektüre die Distanz, die der Begriff in der Pitch-Folie eingebaut hat. Wer sie nicht unterscheidet, kauft auf einem Wort, das ohne Stufen alles bedeuten kann.

#Klinik-KI Evidenz#Ambient Scribe Studie#KI-Codierung Validierung#KI-Bildanalyse Evidenz#Prädiktive Belegungsplanung#Aufnahme-Triage KI#Reha-Bericht-Generierung#Anbieter-Pitch Evaluation

Der Beitrag bezieht sich auf publizierte Studien aus NEJM AI, JAMA Network Open, Lancet Digital Health, npj Digital Medicine, Nature Medicine sowie auf Reports von Stanford HAI, ECRI und Mayo Clinic im Zeitfenster 2024–2025, und auf eine deutschsprachige Pilot-Studie des Universitätsklinikums Freiburg (September 2024). Die Studienlage ist anwendungs-klassen-abhängig ungleich verteilt; einzelne RCT-Befunde sind monozentrisch oder kleine Stichproben und nicht eins zu eins auf andere Häuser oder Trägerstrukturen übertragbar. Der Beitrag gibt keine Anbieter-Empfehlung, keine Beschaffungs-Beratung und keine Rechtsauslegung; die Studientyp-Lese-Disziplin bleibt Sache der einzelnen Klinik. Keine Aiomics-internen Allowlist-Claims (AI-1 bis AI-4) im Body aktiviert.

Welche Klinik-KI-Anwendungen 2026 evidenzbasiert sind — und welche nicht

Bildanalyse und Ambient-Sprach-Doku tragen RCT-Evidenz

Die übrigen vier Klassen — vom Prospektiv-Befund bis zum Anbieter-Whitepaper

Weiterlesen

Warum aiomics für QM-Berichte und Qualitätsanalytik

Arztbrief mit KI: was zwischen Entwurf und Unterschrift passieren muss

KI-Spracherkennung in der Klinik: das Wer-hat-was-gesagt-Problem

Diese Analyse stammt von den Leuten hinter Visite.

Sie möchten das in Ihrer Klinik sehen?