Zum Hauptinhalt springen
Zum Archiv
Ausgabe 003

Spezialisierte Klinik-KI schlägt die Allzweckmodelle nicht — und liegt bei echten Arztfragen kaum über einer Websuche

Eine Nature-Medicine-Auswertung findet die Spezialisierung 'klinischer' KI-Werkzeuge nicht wieder. Dazu: Midjourney kündigt einen Ganzkörper-Ultraschall an, ChatGPT fällt unter 50 % Marktanteil, 'Europe 2031' warnt vor Abhängigkeit — und Studien prüfen, was KI wirklich leistet.

Ein KI-Experiment: KI über KI — für Ärzt:innen, evidenzbasiert und nachprüfbar.Veröffentlicht am

Es kommt zu viel, zu schnell, zu laut. Visite sucht mit Ihnen das Signal im Rauschen — die wenigen Entwicklungen einer Woche, die für die Versorgung zählen, und einen Blick darauf, wie KI die Medizin verändert. Diese Ausgabe ist zugleich ein offenes Experiment: Eine KI hat sie geschrieben, ein Arzt liest mit leichter Hand gegen. Alle Quellen sind verlinkt — prüfen Sie nach, nehmen Sie nichts unbesehen.

Die wahre Wirkung von KI ist eine Funktion dessen, wie wir sie in Prozessen einwenden und wie wir unsere Prozesse mit den neuen Möglichkeiten anpassen.

Der Befund

Zwei Register prägten die Woche. Das laute: Midjourney, bekannt für Bildgeneratoren, kündigte einen Ganzkörper-Ultraschall an; eine Gruppe aus Forschung, Thinktanks und Investoren warnte im Szenario 'Europe 2031' vor der digitalen Abhängigkeit des Kontinents; und ChatGPT fiel erstmals unter die Hälfte des Marktes. Das leise: drei klinische Arbeiten, die nüchtern prüften, was KI in der Versorgung wirklich leistet. Ein Forschungsteam stellte zwei als 'klinisch' vermarktete Werkzeuge drei Allzweckmodellen gegenüber — und fand die Spezialisierung nicht wieder. Eine prospektive dänische Studie zeigte, dass eine Screening-KI bei seltener Erkrankung vor allem Fehlalarme produziert. Eine dritte fand, dass auf Klinikdaten nachtrainierte Modelle sich diese Daten wörtlich merken. Zwischen den Registern liegt das eigentliche Thema: Die Ankündigung läuft der Prüfung voraus. Was zählt, zeigt sich selten in der Schlagzeile und meist erst in der unabhängigen, realitätsnahen Evaluation danach — und die fehlt noch zu oft.

Evidenz

Studie

KI-Augenscreening in der Hausarztpraxis: Ein negatives Ergebnis ist verlässlich, ein positives meist Fehlalarm — und schlechte Bilder erkennt die Software gar nicht

Viele Menschen mit Typ-2-Diabetes erscheinen nicht zur augenärztlichen Netzhautkontrolle — zu weite Wege, zu lange Wartelisten. Eine dänische Arbeitsgruppe prüfte deshalb prospektiv, ob ein KI-gestütztes Screening direkt in der Hausarztpraxis taugt. In zehn Praxen der Region Nordjütland fotografierten geschulte Mitarbeitende die Netzhaut von 183 Menschen mit Typ-2-Diabetes; die Software (RetinaLyze, ein Support-Vector-Machine-System) bewertete die Bilder, anschließend untersuchte eine Augenarztpraxis dieselben Patient:innen als Referenz. Bei niedriger Krankheitslast — nur 19 von 336 Bildern zeigten eine Retinopathie — war der negative Vorhersagewert hoch (98,3 %, 95%-Konfidenzintervall 96,0–99,3). Der positive Vorhersagewert lag dagegen bei 31,1 % (19,5–45,7): gut zwei von drei Alarmen waren falsch. Die Sensitivität betrug 73,7 % bei weitem Vertrauensbereich (51,2–88,2). Auffällig: Die Software stufte kein einziges Bild als unbrauchbar ein, während unabhängige Prüfer 18,6 % der Aufnahmen für nicht beurteilbar hielten.

Warum das zählt: In ihrer Diskussion verweisen die Autor:innen darauf, dass rückblickende Studien an sauberen Klinikbildern für vergleichbare Systeme höhere Sensitivitäten (≥ 87 %) berichten; ihr prospektiver Test unter Praxisbedingungen zeigt die Zahlen, die im Alltag tatsächlich anfallen. Sie nennen außerdem eine frühere Klinikstudie mit derselben Software (Nissen et al.), in der bei höherer Krankheitslast ein positiver Vorhersagewert von 73,6 % erreicht wurde — ein Beleg, wie stark die Aussagekraft eines Positivbefunds von der Prävalenz der gescreenten Gruppe abhängt. Vor einem Einsatz braucht es größere, prospektive Validierung und eine verlässliche Bildqualitätsprüfung.

Quelle: Scandinavian Journal of Primary Health Care

Quellen (1)

KI in der klinischen Praxis

Studie

Als 'klinisch' vermarktete KI-Werkzeuge schlagen die Allzweckmodelle nicht — und liegen bei echten Arztfragen kaum über einer Websuche

Spezialisierte 'klinische' KI-Werkzeuge ziehen in die Versorgung ein, fast immer ohne unabhängige Prüfung. Ein Forschungsteam holte das nach — die Ergebnisse erschienen in Nature Medicine: Es stellte zwei solcher Produkte — OpenEvidence und UpToDate Expert AI, beide auf großen Sprachmodellen aufgebaut — drei Allzweckmodellen gegenüber (GPT-5.2, Gemini 3.1 Pro, Claude Opus 4.6). Geprüft wurde dreistufig: an 500 Fragen aus MedQA, einem Test medizinischen Examenswissens; an 500 Aufgaben aus HealthBench, der misst, wie gut Antworten mit ärztlicher Einschätzung übereinstimmen; und an 100 echten, anonymisierten Fragen, die Ärzt:innen im laufenden Betrieb an ein Sprachmodell gestellt hatten. Zwölf Kliniker:innen bewerteten die Antworten verblindet und in zufälliger Reihenfolge, insgesamt 1.800 Einschätzungen. In allen drei Prüfungen lagen die Allzweckmodelle vorn. Bei den echten Arztfragen schnitten die Spezialwerkzeuge kaum besser ab als die automatische KI-Zusammenfassung einer Google-Suche.

Warum das zählt: Das Etikett 'klinisch' verspricht eine Prüfung, die es oft nicht gibt — und eine Spezialisierung, die sich hier nicht nachweisen ließ. Wer ein solches Werkzeug beschafft, sollte den direkten Vergleich mit dem zugrunde liegenden Basismodell verlangen, statt der Spezialisierung zu vertrauen. Die Autor:innen fordern dasselbe: unabhängige, realitätsnahe Prüfung, bevor solche Systeme an die Patientenversorgung gehen.

Quelle: Nature MedicinePaywall

Quellen (1)
Analyse

Midjourney, bekannt für Bildgeneratoren, kündigt einen Ganzkörper-Ultraschall an — im Prototyp dauert ein Scan 20 Minuten, ohne KI in der Bildgebung und ohne Zulassung

Das für KI-Bildgeneratoren bekannte Unternehmen Midjourney kündigte am 18. Juni seinen ersten Hardware-Vorstoß an: einen Ganzkörper-Ultraschall bei dem die Person in einen wassergefüllten Tank eintaucht, der als akustisches Ankopplungsmedium dient. Firmenchef David Holz stellt eine Untersuchung in MRT-Geschwindigkeit für wenige Dollar in Aussicht. Der Abstand zwischen Ankündigung und Stand der Dinge ist allerdings groß: Der Prototyp braucht laut Berichten rund 20 Minuten pro Scan, wurde an etwa einem Dutzend Menschen eingesetzt, enthält in der Bildgebung bislang keine KI und hat keine Zulassung der US-Behörde FDA. Die zugrunde liegende Technik stammt nicht von Midjourney, sondern ist von Butterfly Network lizenziert, einem Hersteller von Ultraschall-auf-Chip-Systemen.

Warum das zählt: Ein bekannter KI-Name macht aus einem Gerät noch kein geprüftes diagnostisches Werkzeug. Bemerkenswert ist gerade, dass in diesem 'KI-Unternehmen geht in die Medizin' bislang keine KI in der Bildgebung steckt — die Ankündigung verkauft eine Erwartung, kein Ergebnis. Für die Beurteilung zählt, was jedes Medizinprodukt belegen muss: validierte Bildqualität, klinische Studien, eine Zulassung. Bis dahin ist es ein Prototyp mit gutem Marketing.

Quelle: BloombergPaywall

Quellen (2)
Studie

Medizin-Sprachmodelle merken sich Trainingsdaten wörtlich — bis zu 87 % bleiben auch nach dem Nachtrainieren abrufbar, samt sensibler Patientendaten

Sprachmodelle 'memorieren': Sie geben Teile ihrer Trainingsdaten wörtlich wieder, statt nur Muster zu lernen. Ein Forschungsteam ging dem für die Medizin nach — die Arbeit erschien in Nature Communications: Untersucht wurden drei übliche Wege, ein Modell an medizinische Aufgaben anzupassen — weiteres Vortraining auf Fachtexten, Feinjustierung an Standard-Tests und Feinjustierung an echten Klinikdaten, darunter mehr als 13.000 stationäre Fälle des Yale-New-Haven-Systems. Das Ergebnis: Memorierung ist in der Medizin deutlich häufiger als bei allgemeinen Texten und hartnäckig — bis zu 87 % der im Vortraining eingeprägten Inhalte blieben auch nach der Feinjustierung abrufbar. Die Autor:innen unterscheiden drei Arten: nützliche (etwa die korrekte Wiedergabe von Leitlinien), belanglose (Textbausteine) und schädliche (sensible Patienteninhalte).

Warum das zählt: Viele Kliniken wollen Modelle auf ihren eigenen Daten nachtrainieren, weil die Antworten dann besser zum Haus passen. Das spricht dafür, die Datenherkunft, die Bereinigung und Tests auf abrufbare Patientendaten von Anfang an einzuplanen — und nicht erst, wenn ein Modell bereits im Haus läuft.

Quelle: Nature Communications

Quellen (1)
Studie

Sprachverarbeitende KI durchsucht 109.000 Klinikakten und meldet übersehene Leber-Warnsignale — etwa für ein Reserveantibiotikum mit gängigen Herzmedikamenten

Wechselwirkungen zwischen Medikamenten systematisch aus dem Aktentext zu erkennen ist mühsam, gerade bei mehrfach behandelten älteren Patient:innen. Ein Forschungsteam setzte dafür ein Modell zur Sprachverarbeitung ein — veröffentlicht in Annals of Medicine: Aus den elektronischen Akten von 109.263 stationären älteren Patient:innen filterte es zusammen mit Laborwerten Fälle von Leberschädigung heraus und prüfte 3.227 Medikamentenkombinationen auf Auffälligkeiten. 111 Signale ergaben sich, 58 davon mit zeitlich konsistentem Risikoverlauf. Ein 'Signal' ist dabei ein statistischer Verdacht, der genauer geprüft werden muss, kein Nachweis. Besonders auffällig war das Reserveantibiotikum Piperacillin/Tazobactam zusammen mit Acetylsalicylsäure, Clopidogrel oder Atorvastatin. Tierversuche und Sensitivitätsanalysen stützten die Funde.

Warum das zählt: Der Großteil dessen, was über Patient:innen bekannt ist, steht als Freitext in den Akten und bleibt klassischen Auswertungen verborgen. Sprachverarbeitung macht diesen Bestand für die Arzneimittelsicherheit durchsuchbar — im großen Maßstab und rückblickend. Die gefundenen Kombinationen sind damit Hinweise für gezielte, prospektive Prüfungen, noch kein Grund, eine Verordnung zu ändern.

Quelle: Annals of Medicine

Quellen (1)

Gesundheitssystem & Politik

Analyse

'Europe 2031': Forschende und Investoren warnen vor der digitalen Abhängigkeit des Kontinents — betroffen ist auch die Infrastruktur, auf der klinische KI läuft

Eine Gruppe aus KI-Forschenden, Thinktank-Vertreter:innen und Investor:innen veröffentlichte am 16. Juni das Szenario 'Europe 2031'. Es beschreibt, wie Europa binnen weniger Jahre an Gewicht in der KI-Entwicklung verliert. Die Verfasser:innen — darunter Michiel Bakker (MIT, Google DeepMind), Judith Dada (Visionaries Club) und Lily Stelling (Oxford Martin AI Governance Initiative) — werfen dem Kontinent drei Fehleinschätzungen vor: das Tempo der KI unterschätzt, ihre Reichweite unterschätzt, die eigene Aufholfähigkeit überschätzt. Ihr Befund: Europas bisherige Antwort sei 'zehn- bis hundertmal zu klein'. Bleibe es dabei, drohe 2031 die Wahl zwischen amerikanischem Protektorat, Anlehnung an China oder isoliertem Abstieg.

Warum das zählt: Klinische KI ist kein Inselthema. Sie läuft auf Rechenkapazität und auf Modellen, die heute überwiegend in den USA entstehen — genau die Allzweckmodelle, die in der Nature-Medicine-Auswertung dieser Ausgabe vorn lagen. Fällt Europa bei beidem zurück, hängt auch die Versorgung an einer Infrastruktur, über die hier niemand entscheidet: an Verfügbarkeit, Preisen und Nutzungsbedingungen, die anderswo gesetzt werden. Das ist weniger eine Frage des nächsten Werkzeugs als der Schicht darunter — wer sie besitzt und wer den Zugang bestimmt.

Quelle: Die ZeitPaywall

Quellen (2)

Führung & Exzellenz

Analyse

Wo KI die Pharmaforschung zuerst verändert — und warum der klinische Wirksamkeitsnachweis der letzte und härteste Engpass bleibt

Benjamin Liu, Mitgründer des Arzneientwicklers Formation Bio, beschreibt in einem vielbeachteten Essay, wie KI die Pharmaforschung verändert — ungleichmäßig und in einer bestimmten Reihenfolge. Seine These: KI verbessert zuerst dort, wo Daten reichlich und Rückkopplungen kurz sind. Die Wirkstoffsuche werde dadurch zur Massenware — die Zahl plausibler Kandidaten habe sich verdoppelt, während weiter nur rund 50 Wirkstoffe pro Jahr zugelassen würden, und gegen attraktive Zielstrukturen liefen teils über hundert Programme zugleich. Als Nächstes verbessere sich die Vorhersage von Toxizität. Der klinische Wirksamkeitsnachweis aber — ob ein Mittel bei echten Patient:innen wirkt — bleibe der letzte und härteste Engpass: Dafür fehlten die Daten (er nennt das Bild einer 'UK Biobank auf Steroiden'), und selbst ein gutes Vorhersagemodell entbinde nicht von prospektiven Studien, weil Zulassungsbehörden wiederholten Beleg verlangten.

Klinische Brücke: Für Ärzt:innen und klinische Leitung ist das eine nüchterne Verortung — der Teil der Wertschöpfung, der am längsten unersetzlich bleibt, ist genau ihrer: die kontrollierte Prüfung am Menschen, die richtige Indikation, die richtige Population, der richtige Endpunkt. Zu lesen ist der Text allerdings als Argument in eigener Sache: Liu leitet daraus die Strategie seines eigenen Unternehmens ab. Das macht die Beobachtung zur ungleichen 'Front' nicht falsch, aber man liest sie als Position eines Beteiligten.

Quelle: Benjamin Liu (Formation Bio)

Quellen (1)

Gesellschaft & Zukunft

Studie

Diagnose-KI für Hautkrebs benachteiligt je nach Geschlecht — ein neuer Ansatz lenkt das Modell auf die Läsion und verkleinert die Verzerrung, ohne Genauigkeit zu opfern

Diagnose-KI für die Haut wird meist an ihrer durchschnittlichen Trefferleistung gemessen — was die Frage verdeckt, für wen sie schlechter arbeitet. Verzerrungen nach Hautton sind dabei gut untersucht; Verzerrungen nach Geschlecht kaum. Eine Arbeit in npj Digital Medicine setzt hier an. Das Team entwickelte ein Verfahren (LesionAttn), das die 'Aufmerksamkeit' des Modells gezielt auf die Hautläsion lenkt — also auf das, worauf auch Ärzt:innen schauen — statt auf umgebende Bildmerkmale, an denen sich das Geschlecht ablesen lässt. Über ein Optimierungsverfahren wägt es Fairness und Genauigkeit gegeneinander ab. Auf zwei großen Hautbild-Datensätzen verringerte der Ansatz die Geschlechterverzerrung deutlich, ohne die diagnostische Leistung zu opfern, und übertraf bestehende Entzerrungsverfahren.

Warum das zählt: Ein hoher Durchschnittswert kann verbergen, dass ein Modell für eine Gruppe verlässlich und für eine andere unzuverlässig ist. Wer Diagnose-KI beurteilt, muss die Leistung nach Untergruppen aufschlüsseln — nach Geschlecht, Alter, Hautton — und nicht nur die eine Gesamtzahl betrachten. Sonst verteilt ein Werkzeug, das im Mittel gut abschneidet, seine Fehler ungleich über die Patient:innen.

Quelle: npj Digital Medicine

Quellen (1)
Hintergrund

ChatGPT fällt erstmals unter 50 % Marktanteil — die KI, der Ärzt:innen und Patient:innen begegnen, ist längst nicht mehr nur ein Modell

Bis Januar hielt ChatGPT mehr als die Hälfte des Marktes für KI-Assistenten; bis Ende Mai fiel der Anteil laut dem Marktbeobachter Sensor Tower auf 46,4 Prozent — erstmals unter die Hälfte. Google Gemini kam auf 27,7 Prozent, Anthropics Claude auf 10,3 Prozent; in absoluten Zahlen nennt der Bericht 1,1 Milliarden monatlich aktive Nutzer:innen für ChatGPT, 662 Millionen für Gemini, 245 Millionen für Claude.

Warum das zählt: Ein großer Teil der KI-Nutzung in der Medizin findet inoffiziell statt — Ärzt:innen, Pflegende und vor allem Patient:innen tippen ihre Fragen in das Modell, das sie ohnehin geöffnet haben. Wenn sich verschiebt, welches das ist, verschiebt sich auch, mit welchen Stärken, Schwächen und Datenschutzregeln man es zu tun hat. Im Sprechzimmer heißt das: 'Was sagt die KI dazu?' meint nicht mehr verlässlich ein bestimmtes System. Und die in der Nature-Medicine-Auswertung dieser Ausgabe verglichenen Spezialwerkzeuge sitzen genau auf diesen sich verschiebenden Basismodellen auf.

Quelle: TechCrunch

Quellen (1)

Die lange Lektüre

Longform

Warum das Genom kein Text ist, den eine KI einfach liest — eine Lektüre über die Grenzen sequenzbasierter Modelle in der Genmedizin

Wer KI in der Genmedizin einordnen will, liest dieses Stück. Quanta Magazine erklärt, warum sich das menschliche Genom der Logik sequenzbasierter Modelle entzieht — jener Programme, die DNA wie einen langen, linearen Text behandeln und daraus Funktion vorhersagen. Das Problem ist die Physik: Regulierende Abschnitte liegen oft Millionen Bausteine entfernt von dem Gen, das sie steuern, und wirken erst, wenn sich der Strang dreidimensional so faltet, dass sie sich berühren. Welche Faltung in welchem Zelltyp und zu welchem Zeitpunkt entsteht, ist hochgradig kontextabhängig — und genau diese Daten fehlen den Modellen weitgehend. Die zitierten Forscherinnen Karen Adelman (Harvard) und Wendy Bickmore (Edinburgh) argumentieren, man müsse aufhören, das Genom als 'linearen DNA-Code' zu lesen, und die dynamische 3D-Faltung als das Eigentliche der Regulation begreifen. Eine Lektüre fürs Wochenende — für alle, die wissen wollen, wo die heutige KI in der Genomik an eine echte, nicht bloß rechnerische Grenze stößt, und warum menschliches Verstehen hier vorerst unersetzlich bleibt.

Quelle: Quanta Magazine

Quellen (1)

Zum Schluss

Meinung

Zum Schluss: die Patient:innen, die nie kommen

Unter den 183 Menschen, die für die dänische Screening-Studie ihre Netzhaut fotografieren ließen, war mindestens jede:r elfte noch nie bei einer Augenuntersuchung für Diabetiker:innen gewesen. Dänische Daten legen nahe, dass ein Fünftel der Berechtigten sie nie wahrnimmt. Über die Trefferquote der Software lässt sich streiten, sowie auch über die wahren und die falschen Alarme. Der eigentliche Gewinn dieser Studie liegt aber woanders: Die Kamera stand in der Hausarztpraxis, in der diese Patient:innen ohnehin saßen — und nicht in einer Praxis am anderen Ende der Stadt, zu der sie nie gefahren wären. Manchmal hängt das Augenlicht weniger am besten Modell als an der kürzeren Wegstrecke zur Kamera. Das ist ein gutes Beispiel, um auch noch mal zu zeigen, dass die Wirkung von einem KI vor allem darin liegt, wie wir sie implementieren und was sie in den Prozessen, wie zum Beispiel in einer Patientenreise, fundamental verändern kann.

Visite ist ein offenes Experiment. Jede Ausgabe wird vollständig von einem KI-System recherchiert und geschrieben. Dr. med. Sven Jungmann liest sie vor der Veröffentlichung gegen — mit leichter Hand und redaktionell verantwortlich. Wir zeigen, was KI in der medizinischen Analyse heute leisten kann, und ebenso, wo ihre Grenzen liegen. Alle Quellen sind verlinkt, damit Sie selbst nachprüfen können.

Nächsten Freitag wieder.

Visite kostenlos abonnieren — evidenzbasiert, jederzeit abbestellbar.

Mit der Anmeldung stimmen Sie dem Erhalt von Visite per E-Mail zu. Abmeldung jederzeit. Mehr in unserer Datenschutzerklärung.