Zum Hauptinhalt springen
5 Min. Lesezeit

GPT-5 liest das PET-Bild selbstbewusst — und übersieht die Metastasen, auf die es ankommt

Eine Pilotstudie prüfte GPT-5 gegen Radiolog:innen beim PET-Staging des Speiseröhrenkrebses. Die Gesamtgenauigkeit wirkt ordentlich. Die Sensitivität für die Metastasen, die über die Therapie entscheiden, nicht — und genau diese Zahl bestimmt, ob ein Werkzeug brauchbar ist.

Dr. Sven Jungmann

Dr. Sven Jungmann

CEO

Editorial-Collage: das Auge einer klinisch tätigen Person beugt sich über eine navyfarbene PET-Silhouette, ein selbstbewusster Tealkreis liegt über einem leeren Bereich, ein einzelner Amber-Punkt markiert einen übersehenen Lymphknoten.

Zeigt man GPT-5 ein Ganzkörper-PET-Bild und fragt, ob der Speiseröhrenkrebs die Lymphknoten im Bauchraum erreicht hat, liegt es in 73 Prozent der Fälle richtig. Das klingt brauchbar. Dann sieht man, wie es dorthin gelangt: Von 35 Patient:innen, die tatsächlich abdominale Lymphknotenmetastasen hatten, fand das Modell fünf. Eine Radiologin fand zwanzig. Die 73 Prozent bestehen fast vollständig daraus, dass das Modell bei Patient:innen ohne Metastasen korrekt „keine Ausbreitung“ sagt — und das auch bei jenen, bei denen es genau hinsehen müsste.

Diese Lücke zwischen einer schmeichelnden Genauigkeitszahl und einer entlarvenden Sensitivitätszahl ist die ganze Lehre dieser Arbeit. Und sie ist einer der häufigsten Wege, auf denen ein Ergebnis zu medizinischer KI fehlgelesen wird.

Was untersucht wurde

Es handelt sich um eine retrospektive Pilotstudie aus einem einzigen Zentrum — die unterste Stufe der Evidenzleiter, was die Autor:innen offen benennen. Maruyama und Kolleg:innen an der Tohoku-Universität schlossen 120 konsekutive Patient:innen mit bioptisch gesichertem Plattenepithelkarzinom der Speiseröhre ein, die zwischen Januar 2019 und Dezember 2021 ein [18F]FDG-PET/CT erhielten. Jede Aufnahme wurde zu einem standardisierten frontalen Maximum-Intensity-Projection-Bild (MIP) verarbeitet. Sechs große Sprachmodelle — GPT-5, GPT-4.5, GPT-4.1, OpenAI-o3 und -o1 sowie GPT-4 Turbo — sollten daraus plus der Tumorlokalisation das Stadium bestimmen. Vier verblindete klinisch Tätige (ein:e Nuklearmediziner:in, ein:e gastrointestinale:r Chirurg:in, zwei Radiologie-Assistenzärzt:innen) lasen dieselben Bilder unter denselben Bedingungen. Referenzstandard war der zertifizierte radiologische Befund nach der 8. UICC-TNM-Klassifikation. Die Arbeit folgt der CLAIM-Checkliste für KI in der Bildgebung — mehr methodische Sorgfalt, als dieser Bereich der Literatur sonst zeigt.

Was die Evidenz belegt

Bei der Gesamtgenauigkeit war GPT-5 das stärkste Modell und nicht absurd weit hinter den klinisch Tätigen: 63 gegenüber 78 Prozent bei thorakalen Lymphknoten, 73 gegenüber 80 bei abdominalen, 48 gegenüber 58 beim klinischen N-Stadium, 77 gegenüber 78 beim M-Stadium. Bei den Lymphknoten- und N-Stadium-Aufgaben waren die Unterschiede signifikant (P zwischen ,002 und <,001), beim M-Stadium nicht (P = ,052). Neuere Modelle schlugen ältere recht durchgängig — ein echtes Signal dafür, dass multimodaleres Training besser wird. Das sollte man nüchtern festhalten.

GPT-5 war zudem sehr spezifisch: Patient:innen ohne Metastasen erkannte es in 94 bis 98 Prozent der Fälle korrekt als unauffällig. Ein Modell, das selten falschen Alarm schlägt, hat als zweites Augenpaar zum Ausschluss durchaus Wert — vorausgesetzt, man weiß, dass dies das Einzige ist, was es zuverlässig leistet.

Was die Evidenz nicht belegt

Sie belegt nicht, dass GPT-5 metastasierte Erkrankung erkennt. Die Sensitivität — der Anteil der tatsächlich betroffenen Patient:innen, den das Modell auffängt — lag bei 31 Prozent für thorakale Lymphknoten gegenüber 84 Prozent der Radiolog:in, bei 14 gegenüber 57 Prozent für abdominale Lymphknoten und bei 4 gegenüber 33 Prozent für Fernmetastasen (M-Stadium). Der Matthews-Korrelationskoeffizient, der anders als die reine Genauigkeit ein Modell nicht dafür belohnt, sich auf eine Mehrheit negativer Fälle zu verlassen, zeigt die ehrliche Version: 0,32 für GPT-5 bei thorakalen Lymphknoten gegenüber 0,57 der Radiolog:in, 0,20 gegenüber 0,48 bei abdominalen Lymphknoten und 0,04 gegenüber 0,28 beim M-Stadium. Die hohe Genauigkeit ist Arbeit des Klassenungleichgewichts, nicht der Diskriminationsleistung.

Warum diese Zahl entscheidet: Beim Speiseröhrenkrebs bestimmt das Staging zwischen neoadjuvanter Radiochemotherapie und primärer Resektion. Übersieht man Lymphknoten- oder Fernmetastasen, kann ein Mensch in eine Ösophagektomie geführt werden — eine der invasivsten Operationen der Onkologie —, die ihn nicht heilen kann; oder ihm wird die Radiochemotherapie vorenthalten, die seine Prognose verändert hätte. Ein Werkzeug, das sechs von sieben Patient:innen mit abdominalen Metastasen verfehlt, ist für diese Entscheidung kein Grenzfall, sondern das falsche Instrument — so gut die Schlagzeilengenauigkeit auch aussieht.

Die hohe Genauigkeit ist Arbeit des Klassenungleichgewichts, nicht der Diskriminationsleistung — und genau deshalb sollte eine einzelne Genauigkeitszahl niemals die Diskussion abschließen.

Zwei weitere Einschränkungen halten die Einordnung ehrlich. Das Modell erhielt ein einziges MIP-Bild — eine flache Projektion, nicht die volumetrischen Schichten, die eine Radiologin tatsächlich liest — ohne SUVmax oder einen anderen quantitativen Stoffwechselwert. Gemessen wurde also bewusst eine verarmte Variante der Aufgabe, nicht das PET-Lesen, wie es geübt wird. Und in einer kleinen Post-hoc-Betrachtung fanden die Autor:innen die Ausgabe instabil: In einem Fall markierte GPT-5 zunächst korrekt einen thorakalen Lymphknoten, stufte denselben Fall aber als negativ ein, als das Prompt leicht in Richtung Begründung verändert wurde; in einem anderen traf es das richtige N-Stadium und erfand in der Begründung einen abdominalen Lymphknoten. Das sind Einzelfälle, kein Reliabilitätsmaß — aber sie deuten auf eine Eigenschaft dieser Systeme, die besseres Prompting nicht vollständig beseitigt.

Warum das hier zählt

Der Druck hinter dieser Studie ist real und auch europäischen Systemen vertraut: steigende Bildvolumina gegen eine schrumpfende Zahl an Radiolog:innen. Das macht die Versuchung groß, eine 73-Prozent-Zahl als „fast geschafft“ zu lesen — und diese Arbeit zeigt sauber, warum diese Lesart falsch ist. Die Lehre reicht weit über PET und über GPT-5 hinaus: Bei jeder screeningartigen Aufgabe auf unausgewogenen Daten sollte man nach Sensitivität und einem balancierten Maß fragen, bevor man eine Genauigkeitszahl überhaupt zulässt. Das Fazit der Autor:innen ist der richtige Schlusspunkt: Aktuelle Allzweckmodelle können die fachärztliche radiologische Beurteilung in diesem Bereich nicht ersetzen und nicht zuverlässig ergänzen. Das ist als Landkarte des noch Nötigen zu lesen — volumetrische Eingaben, quantitative Parameter, Validierung über mehrere Zentren, eine Möglichkeit zu prüfen, worauf das Modell schaut —, nicht als Urteil, dass es das nie können wird.

Quelle: Maruyama H, Toyama Y, Araki Y, et al. Evaluation of GPT-5 for Esophageal Cancer Staging Using FDG-PET Maximum-Intensity Projection Images: Comparative Pilot Study. JMIR Cancer 2026;12:e86630. Eine retrospektive Pilotstudie an 120 Fällen aus einem einzigen Zentrum — aufschlussreich für eine eng umgrenzte Aufgabe, aber nicht verallgemeinerbar und nicht darauf angelegt, einen klinischen Verlauf zu messen.

#Journal Club#Klinische KI#Medizinische Bildgebung#Evidenzbasierte Medizin#Sprachmodelle

Weiterlesen

Editorial-Collage: ein Smartphone mit leerem Tealbildschirm auf einem leeren Nachttisch im Krankenhaus, dazu ein einzelner Amber-Akzent am Bildschirmrand.

Die beste App der Welt – und niemand auf der Station, der sie nutzt

Zwanzig Behandelnde erklären, warum gute Mental-Health-Apps nie bei den Patient:innen ankommen. Das Hindernis ist fast nie die Technik. Es ist die ungeklärte Frage, wer das Werkzeug einführt, die Warnungen beobachtet und reagiert, wenn etwas auffällt.

Dr. Sven JungmannCEO
Editorial-Collage: das Handgelenk eines älteren Menschen mit schlichtem Band, als Teal-Bogen dargestellt, darunter blasse Aktivitätskurven und ein einzelner Amber-Punkt an der einzigen extern validierten Verbindung.

Wearables und Demenz: ein starkes Signal auf dünner Validierung

Ein systematisches Review von 49 Studien: Gestörter Schlaf und veränderte Aktivität begleiten den kognitiven Abbau, oft Jahre im Voraus. Drei der Studien haben ihr Modell extern geprüft. Das Signal ist real, die Validierungsgrundlage für eine Früherkennung noch nicht.

Dr. Sven JungmannCEO

Diese Analyse stammt von den Leuten hinter Visite.

Unser wöchentlicher Newsletter zu KI in der Medizin. Jeden Freitag, gründlich geprüft.

Mit der Anmeldung stimmen Sie dem Erhalt von Visite per E-Mail zu. Abmeldung jederzeit. Mehr in unserer Datenschutzerklärung.

Sie möchten das in Ihrer Klinik sehen?

30 Minuten. Ihre Fragen. Unser Arzt-Gründer zeigt Ihnen die Plattform persönlich.

Termin vereinbaren

Unverbindlich. Kein Vertrieb. Arzt zu Arzt.