GPT-5 liest das PET-Bild selbstbewusst — und übersieht die Metastasen, auf die es ankommt
Eine Pilotstudie prüfte GPT-5 gegen Radiolog:innen beim PET-Staging des Speiseröhrenkrebses. Die Gesamtgenauigkeit wirkt ordentlich. Die Sensitivität für die Metastasen, die über die Therapie entscheiden, nicht — und genau diese Zahl bestimmt, ob ein Werkzeug brauchbar ist.

Dr. Sven Jungmann
CEO

Zeigt man GPT-5 ein Ganzkörper-PET-Bild und fragt, ob der Speiseröhrenkrebs die Lymphknoten im Bauchraum erreicht hat, liegt es in 73 Prozent der Fälle richtig. Das klingt brauchbar. Dann sieht man, wie es dorthin gelangt: Von 35 Patient:innen, die tatsächlich abdominale Lymphknotenmetastasen hatten, fand das Modell fünf. Eine Radiologin fand zwanzig. Die 73 Prozent bestehen fast vollständig daraus, dass das Modell bei Patient:innen ohne Metastasen korrekt „keine Ausbreitung“ sagt — und das auch bei jenen, bei denen es genau hinsehen müsste.
Diese Lücke zwischen einer schmeichelnden Genauigkeitszahl und einer entlarvenden Sensitivitätszahl ist die ganze Lehre dieser Arbeit. Und sie ist einer der häufigsten Wege, auf denen ein Ergebnis zu medizinischer KI fehlgelesen wird.
Was untersucht wurde
Es handelt sich um eine retrospektive Pilotstudie aus einem einzigen Zentrum — die unterste Stufe der Evidenzleiter, was die Autor:innen offen benennen. Maruyama und Kolleg:innen an der Tohoku-Universität schlossen 120 konsekutive Patient:innen mit bioptisch gesichertem Plattenepithelkarzinom der Speiseröhre ein, die zwischen Januar 2019 und Dezember 2021 ein [18F]FDG-PET/CT erhielten. Jede Aufnahme wurde zu einem standardisierten frontalen Maximum-Intensity-Projection-Bild (MIP) verarbeitet. Sechs große Sprachmodelle — GPT-5, GPT-4.5, GPT-4.1, OpenAI-o3 und -o1 sowie GPT-4 Turbo — sollten daraus plus der Tumorlokalisation das Stadium bestimmen. Vier verblindete klinisch Tätige (ein:e Nuklearmediziner:in, ein:e gastrointestinale:r Chirurg:in, zwei Radiologie-Assistenzärzt:innen) lasen dieselben Bilder unter denselben Bedingungen. Referenzstandard war der zertifizierte radiologische Befund nach der 8. UICC-TNM-Klassifikation. Die Arbeit folgt der CLAIM-Checkliste für KI in der Bildgebung — mehr methodische Sorgfalt, als dieser Bereich der Literatur sonst zeigt.
Was die Evidenz belegt
Bei der Gesamtgenauigkeit war GPT-5 das stärkste Modell und nicht absurd weit hinter den klinisch Tätigen: 63 gegenüber 78 Prozent bei thorakalen Lymphknoten, 73 gegenüber 80 bei abdominalen, 48 gegenüber 58 beim klinischen N-Stadium, 77 gegenüber 78 beim M-Stadium. Bei den Lymphknoten- und N-Stadium-Aufgaben waren die Unterschiede signifikant (P zwischen ,002 und <,001), beim M-Stadium nicht (P = ,052). Neuere Modelle schlugen ältere recht durchgängig — ein echtes Signal dafür, dass multimodaleres Training besser wird. Das sollte man nüchtern festhalten.
GPT-5 war zudem sehr spezifisch: Patient:innen ohne Metastasen erkannte es in 94 bis 98 Prozent der Fälle korrekt als unauffällig. Ein Modell, das selten falschen Alarm schlägt, hat als zweites Augenpaar zum Ausschluss durchaus Wert — vorausgesetzt, man weiß, dass dies das Einzige ist, was es zuverlässig leistet.
Was die Evidenz nicht belegt
Sie belegt nicht, dass GPT-5 metastasierte Erkrankung erkennt. Die Sensitivität — der Anteil der tatsächlich betroffenen Patient:innen, den das Modell auffängt — lag bei 31 Prozent für thorakale Lymphknoten gegenüber 84 Prozent der Radiolog:in, bei 14 gegenüber 57 Prozent für abdominale Lymphknoten und bei 4 gegenüber 33 Prozent für Fernmetastasen (M-Stadium). Der Matthews-Korrelationskoeffizient, der anders als die reine Genauigkeit ein Modell nicht dafür belohnt, sich auf eine Mehrheit negativer Fälle zu verlassen, zeigt die ehrliche Version: 0,32 für GPT-5 bei thorakalen Lymphknoten gegenüber 0,57 der Radiolog:in, 0,20 gegenüber 0,48 bei abdominalen Lymphknoten und 0,04 gegenüber 0,28 beim M-Stadium. Die hohe Genauigkeit ist Arbeit des Klassenungleichgewichts, nicht der Diskriminationsleistung.
Warum diese Zahl entscheidet: Beim Speiseröhrenkrebs bestimmt das Staging zwischen neoadjuvanter Radiochemotherapie und primärer Resektion. Übersieht man Lymphknoten- oder Fernmetastasen, kann ein Mensch in eine Ösophagektomie geführt werden — eine der invasivsten Operationen der Onkologie —, die ihn nicht heilen kann; oder ihm wird die Radiochemotherapie vorenthalten, die seine Prognose verändert hätte. Ein Werkzeug, das sechs von sieben Patient:innen mit abdominalen Metastasen verfehlt, ist für diese Entscheidung kein Grenzfall, sondern das falsche Instrument — so gut die Schlagzeilengenauigkeit auch aussieht.
“Die hohe Genauigkeit ist Arbeit des Klassenungleichgewichts, nicht der Diskriminationsleistung — und genau deshalb sollte eine einzelne Genauigkeitszahl niemals die Diskussion abschließen.”
Zwei weitere Einschränkungen halten die Einordnung ehrlich. Das Modell erhielt ein einziges MIP-Bild — eine flache Projektion, nicht die volumetrischen Schichten, die eine Radiologin tatsächlich liest — ohne SUVmax oder einen anderen quantitativen Stoffwechselwert. Gemessen wurde also bewusst eine verarmte Variante der Aufgabe, nicht das PET-Lesen, wie es geübt wird. Und in einer kleinen Post-hoc-Betrachtung fanden die Autor:innen die Ausgabe instabil: In einem Fall markierte GPT-5 zunächst korrekt einen thorakalen Lymphknoten, stufte denselben Fall aber als negativ ein, als das Prompt leicht in Richtung Begründung verändert wurde; in einem anderen traf es das richtige N-Stadium und erfand in der Begründung einen abdominalen Lymphknoten. Das sind Einzelfälle, kein Reliabilitätsmaß — aber sie deuten auf eine Eigenschaft dieser Systeme, die besseres Prompting nicht vollständig beseitigt.
Warum das hier zählt
Der Druck hinter dieser Studie ist real und auch europäischen Systemen vertraut: steigende Bildvolumina gegen eine schrumpfende Zahl an Radiolog:innen. Das macht die Versuchung groß, eine 73-Prozent-Zahl als „fast geschafft“ zu lesen — und diese Arbeit zeigt sauber, warum diese Lesart falsch ist. Die Lehre reicht weit über PET und über GPT-5 hinaus: Bei jeder screeningartigen Aufgabe auf unausgewogenen Daten sollte man nach Sensitivität und einem balancierten Maß fragen, bevor man eine Genauigkeitszahl überhaupt zulässt. Das Fazit der Autor:innen ist der richtige Schlusspunkt: Aktuelle Allzweckmodelle können die fachärztliche radiologische Beurteilung in diesem Bereich nicht ersetzen und nicht zuverlässig ergänzen. Das ist als Landkarte des noch Nötigen zu lesen — volumetrische Eingaben, quantitative Parameter, Validierung über mehrere Zentren, eine Möglichkeit zu prüfen, worauf das Modell schaut —, nicht als Urteil, dass es das nie können wird.
Quelle: Maruyama H, Toyama Y, Araki Y, et al. Evaluation of GPT-5 for Esophageal Cancer Staging Using FDG-PET Maximum-Intensity Projection Images: Comparative Pilot Study. JMIR Cancer 2026;12:e86630. Eine retrospektive Pilotstudie an 120 Fällen aus einem einzigen Zentrum — aufschlussreich für eine eng umgrenzte Aufgabe, aber nicht verallgemeinerbar und nicht darauf angelegt, einen klinischen Verlauf zu messen.


