Ausgabe 002

Die stärkste KI der Woche bleibt unter Verschluss — und wer Zugang bekommt, zählt für die Medizin mehr als das nächste Leistungsplus

Creator: Dr. med. Sven Jungmann
Published: 2026-06-12T07:00:00+02:00

Anthropic gibt Fable 5 frei, hält das stärkere Mythos 5 aber wegen Cyber- und Biorisiken zurück. Microsoft baut sieben eigene Modelle, die EU regelt die Kennzeichnung. Dazu zwei klinische Arbeiten, die zeigen, woran sich der Nutzen eines Modells wirklich entscheidet.

Ein KI-Experiment: KI über KI — für Ärzt:innen, evidenzbasiert und nachprüfbar.Veröffentlicht am 12. Juni 2026Aktualisiert am 19. Juni 2026

Es kommt zu viel, zu schnell, zu laut. Visite berichtet, was in der vergangenen Woche geschehen ist, und sucht mit Ihnen das Signal im Rauschen — die wenigen Entwicklungen, die für die Versorgung zählen. In diesen ersten Ausgaben erlauben wir uns, auch ein, zwei ältere Arbeiten aufzunehmen, wenn sie wichtig sind; wir kennzeichnen sie. Alle Quellen sind verlinkt; nehmen Sie nichts unbesehen.

Editoriale Collage: das Potenzial ist immens größer als das, was wir derzeit in der Klinik erleben.

Der Befund

Es war eine Woche der großen Modelle. Anthropic gab Fable 5 für alle frei, hielt das stärkere Mythos 5 aber zurück — aus Sorge, es könne beim Entwurf gefährlicher Erreger und bei Cyberangriffen helfen. Microsoft stellte sieben eigene Modelle vor und ein Labor, das auf Superintelligenz zielt. Die EU-Kommission legte fest, wie maschinell erzeugte Texte und Bilder künftig gekennzeichnet werden. Auffällig ist diese Woche weniger, was die Modelle können, als was an Bedingungen daran hängt: wer sie nutzen darf, wer das entscheidet, und woran man erkennt, was von einer Maschine stammt. Daneben zwei klinische Arbeiten, die davon unabhängig nützlich sind — ein Vorhersagemodell für Spendernieren und ein Schreibassistent für den Arztbrief. Beide erinnern an dasselbe: Der Wert eines Modells zeigt sich nicht in der Ankündigung, sondern in der Prüfung danach.

Evidenz

Studie

Ein Modell sagt das Fünf-Jahres-Überleben von Spendernieren treffsicherer voraus als etablierte Scores — geprüft bisher nur an der eigenen Kohorte

StudienbewertungGRADE: Low

Studientyp: Retrospektive Kohortenstudie zur Entwicklung und internen Validierung zweier ML-Vorhersagemodelle (kein externes Validierungskollektiv)
N / Setting: 940 erwachsene Empfänger:innen postmortaler Spendernieren; Nachbeobachtung über 5 Jahre; eine einzige Kohorte (Land/Zentrum im Abstract nicht spezifiziert)
PIRD: P: Erwachsene Empfänger:innen postmortaler Nierentransplantate
I: ML-Risikomodelle KAPTOR-pre (nur prä-Transplantationsdaten) und KAPTOR-full (prä- plus Daten des ersten Jahres, Pathologie, Laborwerte)
R: Tatsächlich beobachtetes 5-Jahres-Transplantatüberleben
D: Diskrimination (AUROC) und Risikostratifizierung (C-Index) im Vergleich zu etablierten Scores (u. a. KDPI)
Effekt: AUROC KAPTOR-full 0,904; KAPTOR-pre 0,813; laut Autor:innen höherer C-Index und bessere Risikostratifizierung als etablierte Werkzeuge inkl. KDPI (95% KI Keine 95%-Konfidenzintervalle im Abstract berichtet; nur interne Validierung)
n. a. (Diskriminationsmaße, kein Ereignis-Outcome mit berechenbarer absoluter Risikoreduktion)
n. a.
Risk of Bias: Vorhersagemodell-Bewertung (PROBAST-Logik, kein RoB-2/QUADAS-Fall): erhöhtes Bias-Risiko — retrospektiv, monozentrische Einzelkohorte, ausschließlich interne Validierung, Diskrimination ohne berichtete Kalibrierung oder Konfidenzintervalle
OCEBM-Level: 2b
Übertragbarkeit: Postmortale Spendernieren bei Erwachsenen; Lebendspende, pädiatrische Empfänger:innen und andere Gesundheitssysteme nicht abgebildet. Ohne externe Validierung ist die Übertragbarkeit auf deutsche Transplantationszentren offen.
Klinische Konsequenz: Hypothesengenerierend; vor einem klinischen Einsatz sind externe, prospektive Validierung und ein Kalibrierungsnachweis nötig. Derzeit keine Praxisänderung.

Retrospektiv, eine einzige Kohorte, nur interne Validierung; keine Konfidenzintervalle und keine Kalibrierung berichtet.

Zwei Machine-Learning-Modelle sagen das Fünf-Jahres-Überleben transplantierter Spendernieren voraus. Die Kennzahl dafür ist die AUROC, die Fläche unter der ROC-Kurve: ein Maß, wie gut ein Modell zwischen späterem Transplantatverlust und -erhalt trennt; 0,5 entspräche dem Zufall, 1,0 wäre fehlerfrei. Das Modell mit Daten aus dem ersten Jahr nach der Transplantation erreichte 0,904, das rein präoperative 0,813; beide übertrafen den KDPI, einen etablierten Index für die Qualität der Spenderniere. Geprüft wurden sie bislang nur intern — an Daten aus derselben Quelle, an der sie trainiert wurden.

Warum das zählt: Bei Vorhersagemodellen fällt die Trefferquote in der eigenen Kohorte fast immer höher aus als später an einer fremden Klinik. Die Zahl, die über eine Einführung entscheidet, ist deshalb die externe, prospektive Prüfung — und die steht hier noch aus. Wer ein solches Modell beurteilt, sollte zuerst danach fragen, und weniger nach dem Wert aus der Entwicklungsarbeit.

Quelle: Renal Failure

Quellen (1)

Predicting long-term allograft outcomes in kidney transplant recipients using a machine learning approach: a 5-year retrospective cohort study, Renal Failure 2026 (laut PubMed)

Studie

Ein KI-Agent schreibt Arztbrief-Entwürfe vor: Der Burnout-Wert der Ärzt:innen sank messbar, die Zeitersparnis kaum — und das ist die eigentliche Erkenntnis

StudienbewertungGRADE: Very Low

Studientyp: Einarmige prospektive Pilot-/Qualitätsverbesserungsstudie (Vorher-Nachher, kein Kontrollarm, nicht randomisiert)
N / Setting: 384 Entlassungen / 1.274 generierte Zusammenfassungen; eine akademische internistische Station (Stanford, USA); Intervention Aug.–Okt. 2025 vs. Baseline Apr.–Juli 2025
PICO: P: Ärztliche Arztbrief-Dokumentation hospitalisierter Patient:innen auf einer internistischen Station
I: MedAgentBrief — LLM-Agent (Gemini 2.5 Pro) erstellt nächtlich Entwürfe der Verlaufszusammenfassung
C: Vorinterventionsphase derselben Station ohne KI-Entwürfe
O: Primär: ärztlich berichtetes Schadenspotenzial unbearbeiteter Entwürfe (AHRQ-Schadensskala); sekundär: Nutzungsrate, Fehlerarten, Dokumentationszeit, kognitive Last (NASA-TLX), Burnout (Stanford PFI)
Effekt: Nutzung 57,0 %; Fehler: Auslassungen 25 %, Ungenauigkeiten 20 %, Halluzinationen 2 %; 88 % ohne Schadenspotenzial, 1 % „wahrscheinlich moderat“, 0 schwerwiegend; Burnout 1,75 → 1,20 (Skala 0–4) (95% KI Burnout 95%-KI 1,16–2,34 vs. 0,71–1,69; p=0,03. Zeit: median 10,7 (7,4–13,3) vs. 7,8 (5,1–11,7) Minuten; p=0,13 (n. s.))
Burnout absolut −0,55 Punkte (Skala 0–4); Zeit −2,9 Minuten (nicht signifikant)
n. a.
Risk of Bias: ROBINS-I → Serious: einarmiges Vorher-Nachher-Design ohne Kontrollgruppe, Einzelzentrum, Selbstbericht der Endpunkte, Zeitdaten nur für 7 Ärzt:innen mit Baseline; Erwartungs-/Neuheitseffekt (Hawthorne) plausibel
OCEBM-Level: 4
Übertragbarkeit: Eine US-amerikanische universitäre Innere-Medizin-Station, Gemini-2.5-Pro-spezifisch; Übertrag auf deutsche Arztbrief-Kultur, Haftungs- und Dokumentationspflichten offen.
Klinische Konsequenz: Zeigt Machbarkeit und geringe gemeldete Schäden im Pilotbetrieb, aber keinen Wirksamkeitsnachweis. Bestätigung in kontrollierten, mehrzentrigen Studien nötig.

Einarmig, Vorher-Nachher, kein Kontrollarm; Zeitdaten nur 7 Ärzt:innen; selbstberichtete Endpunkte; Einzelzentrum; Hawthorne-Effekt möglich.

Diese Arbeit ist von Anfang Mai. Laut PubMed prüfte eine Stanford-Gruppe prospektiv MedAgentBrief, einen KI-Agenten auf Basis von Gemini 2.5 Pro, der nachts einen Entwurf für die Zusammenfassung des stationären Verlaufs schreibt — die Grundlage des Arztbriefs. Auf einer internistischen Station entstanden zu 384 Entlassungen 1.274 Entwürfe; in 57 Prozent der Fälle übernahmen die Ärzt:innen den KI-Text. Sie meldeten Auslassungen (25 Prozent) und Ungenauigkeiten (20 Prozent), selten frei Erfundenes (2 Prozent); 88 Prozent der unbearbeiteten Entwürfe stuften sie als ohne Schadenspotenzial ein, keinen als schwerwiegend. Der gemessene Burnout-Wert sank deutlich, von 1,75 auf 1,20 auf einer Skala bis 4 (p=0,03), während die Zeitersparnis klein und statistisch nicht gesichert blieb (median 10,7 auf 7,8 Minuten; p=0,13).

Warum das zählt: Die Entlastung kam offenbar nicht aus gesparter Zeit, sondern daraus, dass die erste Fassung schon dastand. Wer solche Werkzeuge allein an gesparten Minuten misst, übersieht, was sie tatsächlich abnehmen. Einschränkend bleibt es eine einarmige Pilotstudie an einem Zentrum; das Ergebnis kann natürlich auch der Neuheit geschuldet sein (z.B. fehlende Gewöhnung im Umgang mit KI-generierten Texten).

Quelle: JAMA Network Open

Quellen (1)

Grolleau F et al., „Physician-Reported Safety Outcomes of AI-Generated Hospital Course Summaries“, JAMA Network Open 2026 (laut PubMed)

KI in der klinischen Praxis

Analyse

Anthropic hält sein stärkstes Modell wegen Cyber- und Biorisiken zurück — und macht damit den Zugang zur Frage, bei der Europa hinten steht

Anthropic veröffentlichte am 9. Juni Fable 5 für die allgemeine Nutzung. Das leistungsfähigere Schwestermodell Mythos 5 gab das Unternehmen ausdrücklich nicht frei: Modelle dieser Klasse übertreffen spezialisierte Programme beim Entwurf von Virus-Bausteinen — etwa bei adeno-assoziierten Viren, die in der Gentherapie als Genfähren dienen — und sie senken die Schwelle für Cyberangriffe. Anthropic stuft seine Modelle nach Risiko ab, vergleichbar mit den Sicherheitsstufen biologischer Labore; die stärkste Stufe bleibt vorerst eingeschränkt. Zugang erhalten zuerst Fachleute aus der IT-Sicherheit, später, gestaffelt, ausgewählte biomedizinische Forschungsgruppen.

Warum das zählt: Bei den fähigsten Modellen verschiebt sich die entscheidende Frage von der Technik zur Zuteilung — nicht was ein Modell kann, sondern wer es nutzen darf und nach welchen Kriterien. Für die Medizin ist das heikel, weil dieselbe Fähigkeit, die einen gefährlichen Erreger entwerfen könnte, auch bei der Entwicklung von Therapien hilft; die Grenze verläuft nicht zwischen guten und schlechten Werkzeugen, sondern zwischen den Händen, denen man sie anvertraut. Und europäische Kliniken stehen bei neuen Modellen ohnehin oft hinten an: In einer Branchenbefragung berichteten sechs von zehn europäischen Technologieunternehmen von verzögertem Zugang.

Quelle: Anthropic

Quellen (3)

Analyse

Microsoft baut sieben eigene Modelle und ein Labor für Superintelligenz — neben der Genauigkeit verdient eine zweite Frage Gewicht: wem das klinische Modell gehört

Microsoft stellte am 8. Juni sieben selbst entwickelte Modelle vor und ein Labor, das ausdrücklich auf Superintelligenz zielt — Systeme, die den Menschen über viele Aufgaben hinweg übertreffen sollen. Parallel entwickelt der Konzern mit der Mayo Clinic ein Modell eigens fürs Gesundheitswesen. Damit rückt ein Anbieter, über dessen Infrastruktur schon ein großer Teil der Krankenhaus-IT läuft, näher daran, Modell, Rechenleistung und Vertrieb aus einer Hand zu liefern.

Warum das zählt: Wie gut ein Modell erkennt, bleibt die erste Frage — daran ändert sich nichts. Eine zweite kommt hinzu, die in Beschaffungsgesprächen seltener gestellt wird: Wem gehört das Modell, an wessen Daten wurde es trainiert, und wie aufwendig wäre ein Wechsel? Je mehr davon bei einem Anbieter liegt, desto schwerer wiegt die Abhängigkeit. Wer einkauft, sollte den Wechsel vertraglich offenhalten, solange er noch leicht fällt.

Quelle: Microsoft AI

Quellen (2)

Gesundheitssystem & Politik

Regulatorik

Die EU-Kommission legt fest, wie KI-erzeugte Inhalte gekennzeichnet werden — ab August gilt die Pflicht, und sie betrifft auch maschinell verfasste Patiententexte

Die EU-Kommission veröffentlichte am 10. Juni ihren Verhaltenskodex zur Kennzeichnung maschinell erzeugter Inhalte. Er konkretisiert Artikel 50 des KI-Gesetzes, der verlangt, dass künstlich erzeugte Texte, Bilder und Töne als solche erkennbar sind. Vorgesehen sind ein einheitliches Kennzeichen (im Deutschen „KI“), eine Unterscheidung zwischen vollständig maschinell erzeugten und nur unterstützten Inhalten sowie technische Verfahren wie Wasserzeichen und maschinenlesbare Herkunftsangaben. Der Kodex ist freiwillig; die zugrunde liegende Transparenzpflicht greift ab dem 2. August.

Warum das zählt: Sobald ein Modell an Arztbriefen, Aufklärungstexten oder Patienteninformationen mitschreibt, stellt sich die Frage, was davon gekennzeichnet werden muss und wer dafür geradesteht. Im Klinikalltag ist die Grenze zwischen „unterstützt“ und „maschinell erzeugt“ fließend — und dort, wo sie gezogen wird, entscheidet sich, ob die Kennzeichnung Vertrauen schafft oder nur eine weitere Pflichtzeile wird.

Quelle: Europäische Kommission

Quellen (1)

Europäische Kommission, „Code of Practice on marking and labelling of AI-generated content“, 10.06.2026

Führung & Exzellenz

Analyse

Bewährte Bild-KI liegt ungenutzt, während ungeprüfte Sprach-KI millionenfach einzieht — Eric Topol über das, was klinische Leitung daraus folgern sollte

Dieser Essay ist vom 3. Mai. Der Kardiologe Eric Topol beschreibt einen Widerspruch: Für bildgebende KI gibt es belastbare Belege. Er nennt eine randomisierte Studie mit über 100.000 Frauen zur Mammografie und vier randomisierte Studien, in denen KI-Assistenz bei der Darmspiegelung mehr Adenome findet — gutartige, aber potenziell entartende Polypen. Im Alltag genutzt wird sie kaum. Umgekehrt strömt generative KI, deren Nutzen kaum geprüft ist, millionenfach in Praxen und Kliniken.

Klinische Brücke: Topols Punkt ist nicht, schneller oder langsamer zu werden, sondern genauer hinzusehen — das gut Belegte einführen und beim Unbelegten auf Belege bestehen, statt beides gleich zu behandeln. Für klinische Leitung heißt das, die Einführung an der Beweislage auszurichten, nicht an der Neuheit eines Werkzeugs.

Quelle: Eric Topol — Ground Truths

Quellen (1)

Eric Topol, „The Paradox of Medical AI Implementation“, Ground Truths, 03.05.2026

Die lange Lektüre

Longform

Drei Labore, ein Plan und ein Memorandum: eine Woche KI-Politik, sortiert von jemandem, der genau liest

Wenn in einer Woche gleich mehrere Spitzenmodelle erscheinen, lohnt jemand, der nicht der Ankündigung folgt, sondern dem Kleingedruckten. Der Analyst Zvi Mowshowitz ordnet die Strategiepapiere und politischen Signale, die parallel zu den Veröffentlichungen liefen — darunter ein Regierungs-Memorandum zur KI, Berichte über den Einsatz eines Spitzenmodells durch einen Geheimdienst und die Pläne eines Labors für den Umgang mit künftiger Superintelligenz. Seine eigene Bewertung des neuen Modells verschiebt er bewusst, bis er es einige Tage geprüft hat. Keine leichte Lektüre, aber die beste verfügbare Übersicht über die Kräfte, die mitentscheiden, unter welchen Regeln und für wen KI bald auch in der Klinik läuft. Eine Lektüre fürs Wochenende, für alle, die wissen wollen, was hinter den Schlagzeilen verhandelt wird.

Quelle: Zvi Mowshowitz

Quellen (1)

Zvi Mowshowitz, „Three Labs With a Plan and A Memorandum“, 09.06.2026

Zum Schluss

Meinung

Zum Schluss: die leise Zahl der Woche

Die meistdiskutierte Maschine dieser Woche ist eine, die fast niemand von uns benutzen darf. Die nützlichste Zahl dagegen war unscheinbar: In der Stanford-Arbeit sank die Erschöpfung der Ärzt:innen, obwohl sie kaum Zeit sparten. Man denke an den Spruch “Zeit ist unsere zweitkostbarste Ressource, Aufmerksamkeit ist auf Platz eins.” Vielleicht liegt der Gewinn solcher Werkzeuge seltener im Tempo als darin, nicht mehr vor dem leeren Blatt zu sitzen. Eine bescheidene Aussicht — und vielleicht die ehrlichste, die diese Woche zu bieten hatte.

Visite ist ein offenes Experiment. Jede Ausgabe wird vollständig von einem KI-System recherchiert und geschrieben. Dr. med. Sven Jungmann liest sie vor der Veröffentlichung gegen — mit leichter Hand und redaktionell verantwortlich. Wir zeigen, was KI in der medizinischen Analyse heute leisten kann, und ebenso, wo ihre Grenzen liegen. Alle Quellen sind verlinkt, damit Sie selbst nachprüfen können.

Methodik Dr. med. Sven Jungmann Operative und kommerzielle Tiefe? Lesen Sie Befund →

Die stärkste KI der Woche bleibt unter Verschluss — und wer Zugang bekommt, zählt für die Medizin mehr als das nächste Leistungsplus

Der Befund

Evidenz

Ein Modell sagt das Fünf-Jahres-Überleben von Spendernieren treffsicherer voraus als etablierte Scores — geprüft bisher nur an der eigenen Kohorte

Ein KI-Agent schreibt Arztbrief-Entwürfe vor: Der Burnout-Wert der Ärzt:innen sank messbar, die Zeitersparnis kaum — und das ist die eigentliche Erkenntnis

KI in der klinischen Praxis

Anthropic hält sein stärkstes Modell wegen Cyber- und Biorisiken zurück — und macht damit den Zugang zur Frage, bei der Europa hinten steht

Microsoft baut sieben eigene Modelle und ein Labor für Superintelligenz — neben der Genauigkeit verdient eine zweite Frage Gewicht: wem das klinische Modell gehört

Gesundheitssystem & Politik

Die EU-Kommission legt fest, wie KI-erzeugte Inhalte gekennzeichnet werden — ab August gilt die Pflicht, und sie betrifft auch maschinell verfasste Patiententexte

Führung & Exzellenz

Bewährte Bild-KI liegt ungenutzt, während ungeprüfte Sprach-KI millionenfach einzieht — Eric Topol über das, was klinische Leitung daraus folgern sollte

Die lange Lektüre

Drei Labore, ein Plan und ein Memorandum: eine Woche KI-Politik, sortiert von jemandem, der genau liest

Zum Schluss

Zum Schluss: die leise Zahl der Woche

Nächsten Freitag wieder.