6. Juni 20264 Min. Lesezeit

Vier Gespräche über klinische KI, die sich leise einig sind

In vier Interviews des NEJM-AI-Podcasts landen Menschen, die medizinische KI bauen und erforschen, immer wieder an denselben Stellen: ein vererbter Denkfehler, ein Werte-Vakuum, eine Vertrauenslücke. Keine Studie. Trotzdem eine Stunde wert.

Dr. Sven Jungmann

CEO

Editorial-Collage: vier Menschen im Gespräch, angeordnet um einen Tealkreis mit einem einzelnen Amber-Punkt in der Mitte.

Vor einigen Jahren hätte Jonathan Chen Ihnen mit der Gewissheit eines Menschen, der ein Gesetz wiedergibt, gesagt: Eine Ärztin mit einem Computer ist besser als beide für sich allein. Das ist das sogenannte Fundamentaltheorem der biomedizinischen Informatik, und die meisten von uns hielten es für ausgemacht. Dann führte seine eigene Gruppe einen Versuch zum klinischen Schlussfolgern durch, in dem das Sprachmodell, direkt befragt, besser abschnitt als die Ärzt:innen, denen man genau dieses Modell zur Unterstützung an die Hand gegeben hatte — und der Zugang zum Modell die Ärzt:innen nicht verlässlich besser machte (Goh et al., JAMA Network Open 2024). Im Podcast NEJM AI Grand Rounds beschreibt er das als den Moment, in dem der Boden nachgab.

Das ist keine Studie, und das gehört vorangestellt. Es sind vier Gespräche — Chen, die Kognitionspsychologin Laura Zwaan, der Informatiker Zak Kohane und Seth Hain von Epic —, aufgezeichnet über vier Monate in einem Podcast der NEJM-Gruppe. Es gibt keinen gemeinsamen Datensatz, kein Protokoll, keine Begutachtung der Aussagen, die ins Mikrofon gesprochen wurden. Was die Reihe eine Stunde wert macht, ist nicht eine einzelne Zahl, sondern dass vier Menschen, die diese Technik bauen und erforschen, getrennt voneinander immer wieder dieselben drei Räume betreten.

Ein Denkfehler, den wir der Maschine beigebracht haben

Zwaan hat ihre Laufbahn damit verbracht, zu untersuchen, wie Ärzt:innen irren — und einem stilleren Problem darin, wie wir diese Fehler erforschen. Wenn man weiß, wie ein Fall ausging, kann man es nicht mehr nicht wissen; was im Moment vernünftig aussah, wirkt im Rückblick fahrlässig. Der Rückschaufehler ist weniger ein Mangel der Fehlerforschung als ihr Dauerbewohner. Ihr Punkt zur KI folgt fast von selbst: Ein Modell, das auf etikettierten Verläufen trainiert wurde, lernt aus Akten, die geschrieben wurden, nachdem der Ausgang bekannt war. Wir übergeben diesen Systemen nicht nur unser Wissen. Wir übergeben ihnen die bestimmte Art, in der sich unser Urteil verbiegt — und bitten sie dann, uns zu korrigieren.

Ein Vakuum, wo die Werte sein sollten

Kohane benennt die Lücke am direktesten. Modelle tragen bereits implizite Präferenzen in sich — das eine ist zurückhaltend, das andere greift zur aggressiven Abklärung —, und diese Neigungen sind nicht neutral; es sind klinische Haltungen mit Folgen. Seine Beobachtung lautet: Keine Aufsichtsbehörde prüft, wie diese Präferenzen entstehen. Arzneimittelbehörden fragen, ob ein Produkt sicher ist und ob es wirkt. Keine der beiden Fragen reicht bis zu den Werten, die ein System aufgenommen hat, oder zu der Frage, wessen Werte das sind. Für ein Werkzeug, das eine Diagnose oder eine Überweisung in eine Richtung schiebt, ist das keine kleine Auslassung.

Eine Lücke zwischen Einsatz und Vertrauen

Der vierte Faden handelt vom Tempo. Administrative KI — Kodierung, Abrechnung, die Erlössteuerung — ist mit vergleichsweise wenig Reibung in den Regelbetrieb der Gesundheitssysteme eingezogen. Klinische KI, die Art, die eine Diagnose oder eine Behandlung berührt, nicht; und die Gesprächspartner:innen sind sich einig, dass die Bremse nicht in erster Linie technisch ist. Hain beschreibt, wie Epic das Problem angeht, und versteht den vorsichtigen Einsatz für alles, was die Patient:innen erreicht, als die bewusste Entscheidung, die er sein sollte. Die Asymmetrie ist das Verräterische: Wir bewegen uns schnell, wo ein Fehler Geld kostet, und langsam, wo er einen Menschen kostet. Das ist im Großen und Ganzen der richtige Instinkt. Es bedeutet aber auch, dass genau die schweren Fälle noch warten.

Was das ist — und was nicht

Nehmen Sie die Reihe für das, was sie ist. Es sind die abgewogenen Meinungen von Menschen mit tiefem Eigeninteresse am Feld — Chen und Hain bauen die Werkzeuge; ihre Offenheit ist echt, aber sie ist nicht uneigennützig, und ein Interview ist kein kontrollierter Vergleich. Keine der vier Aussagen hier würde standhalten, wenn man sie als Beleg zitierte. Die ehrliche Lesart: Es sind Hypothesen, geschärft von Menschen, die es wissen müssten, und sie weisen zufällig in dieselbe Richtung — ein von uns vererbter Denkfehler, ein regulatorischer blinder Fleck bei den Werten und eine Einsatzlücke, die der Tragweite folgt und nicht der Schwierigkeit.

“Wir übergeben diesen Systemen nicht nur unser Wissen. Wir übergeben ihnen die bestimmte Art, in der sich unser Urteil verbiegt — und bitten sie dann, uns zu korrigieren.”

Für europäische Entscheider:innen ist der praktische Ertrag bescheiden, aber real. Die Fragen, die darüber entscheiden, ob klinische KI ihren Platz verdient, sind keine Benchmark-Werte. Es sind: wessen Werte ein System kodiert, wie und von wem seine Trainingsdaten etikettiert wurden, und ob die Vorsicht, die wir zu Recht am Krankenbett walten lassen, von der Prüfung getragen wird, die wir vor dem Einsatz anlegen. Vier Menschen, die sich in vielem uneinig sind, sind sich darin einig. Diese Einigkeit ernst zu nehmen, ohne sie für einen Beweis zu halten, lohnt sich.

Quelle: NEJM AI Grand Rounds, Interviews mit Jonathan Chen (15. Oktober 2025), Laura Zwaan (19. November 2025), Zak Kohane (17. Dezember 2025) und Seth Hain von Epic (18. Februar 2026), moderiert von Arjun Manrai und Andrew Beam. Das Ergebnis zum klinischen Schlussfolgern stammt aus Goh et al., JAMA Network Open 2024. Es handelt sich um aufgezeichnete Interviews, nicht um begutachtete Forschung: Die Ansichten sind individuell, mehrere Sprecher bauen die Systeme, über die sie reden, und nichts davon ist als primärer Beleg zu lesen.

#Journal Club#Klinische KI#KI-Regulierung#Diagnostische Fehler#Medizininformatik

Vier Gespräche über klinische KI, die sich leise einig sind

Ein Denkfehler, den wir der Maschine beigebracht haben

Ein Vakuum, wo die Werte sein sollten

Eine Lücke zwischen Einsatz und Vertrauen

Was das ist — und was nicht

Weiterlesen

Automation Bias am Krankenbett: warum Edit-Raten nahe null ein Warnsignal sind

Warum aiomics für QM-Berichte und Qualitätsanalytik

Warum aiomics für Formulare: Muster 61, DRV-Formulare und Befundberichte

Diese Analyse stammt von den Leuten hinter Visite.

Sie möchten das in Ihrer Klinik sehen?