24. Mai 20265 Min. Lesezeit

111 Minuten früher: Was ein Modell zur Aufnahmeprognose wirklich einbringt

Ein niederländisches Modell sagt eine stationäre Aufnahme aus der Notaufnahme im Median 111 Minuten früher voraus als das klinische Personal. Die Zahl stimmt. Gemessen wurde aber Entscheidungszeit – an Akten, nie an Patient:innen.

Dr. Sven Jungmann

CEO

Editorial-Collage: ein:e Notaufnahmeärzt:in geht an Behandlungskojen vorbei, halb verdeckt von einer Teal-Uhr ohne Zeiger, darunter ein Balkendiagramm im Halbtonraster und ein einzelner Amber-Punkt auf einem leeren Bett.

Das klinische Personal in dieser Notaufnahme brauchte nach der Triage im Median 151 Minuten, bis die Entscheidung zur stationären Aufnahme feststand. Ein Gradient-Boosting-Modell, gefüttert mit denselben frühen Daten, kam im Median nach 20 Minuten zum selben Schluss – und rechnete dabei alle zehn Minuten neu, bis die geschätzte Aufnahmewahrscheinlichkeit 50 Prozent überschritt. Die Lücke von 111 Minuten dazwischen ist die Schlagzeile einer retrospektiven Studie aus dem St. Antonius Ziekenhuis in den Niederlanden, im Januar 2026 in JMIR AI erschienen. Es ist eine echte Zahl aus einem großen, sorgfältig aufgebauten Datensatz. Und eine Zahl, die das zweite Lesen mehr belohnt als das erste.

Das Problem dahinter kennt jede ausgelastete Notaufnahme. Der Engpass ist selten die Entscheidung zur Aufnahme; er liegt in der Zeit, in der Labor, Bildgebung und fachärztliche Einschätzungen zusammengetragen werden, während die Patientin eine Koje belegt und draußen der nächste Rettungswagen wartet. Ein verlässliches frühes Signal, dass eine bestimmte Person auf einer Station landen wird – abgegeben bei der Triage statt drei Stunden später – könnte die Bettensuche beginnen, bevor sich der Flur füllt. Das ist ein Logistikproblem, kein diagnostisches, und es lohnt sich, genau zu benennen, welches die Studie tatsächlich gelöst hat.

Was die Forschenden getan haben

Das Team trainierte ein Extreme-Gradient-Boosting-Modell (XGBoost) – einen üblichen, eigens für die Studie gebauten Klassifikator, kein kommerzielles Produkt. Entwicklung und Test stützten sich auf 131.250 Besuche von Januar 2018 bis Mai 2022, die Auswertung auf weitere 23.097 Besuche bis September 2023 – insgesamt 154.347 über fünfeinhalb Jahre. Das Modell sagt aus früh verfügbaren Daten voraus, ob die Person stationär aufgenommen wird. Auf einem zurückgehaltenen Testdatensatz erreichte es eine Treffergenauigkeit von 0,81, eine Präzision von 0,78, einen Recall von 0,73, einen F1-Wert von 0,75 und eine Fläche unter der Grenzwertoptimierungskurve (AUROC, ein Maß dafür, wie gut ein Modell die beiden Ausgänge über alle Schwellen hinweg trennt) von 0,89. Die wichtigsten Prädiktoren waren unspektakulär: Entzündungswerte, Nierenfunktion, Blutbild, Blutkulturen – die Erstuntersuchungen, die jede:r Notaufnahmeärzt:in in der ersten Stunde ohnehin anordnet.

Zwei Dinge verdienen Anerkennung. Der Datensatz ist groß und umfasst fünfeinhalb Jahre, ist also keine Gelegenheitsstichprobe. Und die Autor:innen blieben nicht bei einer Trennschärfe stehen; sie fragten, was die Vorhersage an Zeit wert gewesen wäre, und schlüsselten die Leistung nach Alter, Fachbereich und Triagekategorie auf, statt sich hinter einem einzigen AUROC-Wert zu verstecken. Genau in dieser Aufschlüsselung liegt die ehrliche Lesart.

Was die Evidenz belegt

Über die korrekten Vorhersagen hinweg traf das Modell seine Einschätzung im Median 111 Minuten (Interquartilsabstand 59 bis 169) vor der dokumentierten klinischen Entscheidung. Der Gewinn war dort am größten, wo man es sich wünscht. Bei den ältesten Patient:innen war das Modell zugleich früh und treffsicher: ein Recall um 0,90 bis 0,91 bei einer Präzision nahe 0,75 bis 0,78 in den Gruppen der 78- bis 87-Jährigen und ab 88 Jahren – also gerade bei jenen, für die ein zwei Stunden früher gesichertes Stationsbett am ehesten zählt. In der höchsten Dringlichkeitskategorie, in der die Aufnahme ohnehin nahezu feststeht, erreichte das Modell eine Präzision von 0,97 und einen Recall von 0,99. Wo der Ausgang stark zur Aufnahme neigt und die frühen Laborwerte aussagekräftig sind, ist das Modell wirklich gut darin, früher auszusprechen, was das System ohnehin schließen würde.

Was die Evidenz nicht belegt

Dieselbe Tabelle, die dem Modell in der Geriatrie schmeichelt, untergräbt es anderswo. In der Altersgruppe der 18- bis 27-Jährigen rücken Präzision 0,51 und Recall 0,46 das Modell nahe an einen Münzwurf. In der Neurologie lag die Präzision bei 0,52 – etwa jede dritte Aufnahmeempfehlung war falsch – und, aufschlussreicher noch, die gewonnene Zeit betrug null: Die Vorhersage des Modells kam im selben Moment wie die Entscheidung des klinischen Personals, nicht davor. In der Kardiologie zeigte sich dasselbe Muster. Ein Werkzeug, das für die Hochbetagten hervorragend und für ganze Fachbereiche zeitlich wertlos ist, ist nicht ein Werkzeug, sondern mehrere – und nur einige davon sind einsatzbereit. Die aggregierten 111 Minuten sind ein Mittel über eine Verteilung, die reichlich Nullen enthält.

“Gemessen wurde, wie viel früher eine Entscheidung fallen konnte – nicht, ob das frühere Entscheiden einer einzigen Patientin half.”

Was niemand gemessen hat

Der primäre Endpunkt war, nach der Definition der Autor:innen selbst, der Unterschied in der Entscheidungszeit zwischen Modell und klinischem Personal. Das ist kein klinischer Verlauf. Niemand hat gemessen, ob eine 111 Minuten früher gestartete Bettensuche auch nur eine Verweildauer verkürzte, eine Koje früher freimachte oder für eine einzige Person etwas am Ausgang änderte. Eine frühere Vorhersage ist plausibel nützlich; sie ist nicht dasselbe wie eine besser versorgte Patientin, und eine retrospektive Studie, die nie einen laufenden Betrieb berührt hat, kann beides nicht trennen. Die Autor:innen sagen es selbst: Die Zeitersparnis im realen Betrieb dürfte niedriger ausfallen als diese Zahlen, sobald das Modell auf eine ausgelastete Notaufnahme trifft, auf Personal, das nicht frei ist, auf einen Alarm zu reagieren, und auf jene Bildgebungs-, Blutgas- und Freitextdaten, die dieses Modell nie gesehen hat.

Es gibt eine zweite Grenze, die schlecht nach Deutschland reist. Das Modell lernte auf der niederländischen Triage-Skala U0 bis U5; deutsche Notaufnahmen arbeiten mit dem Manchester-Triage-System und seinen fünf Farbprioritäten, und die Kategorien sind nicht deckungsgleich. Ein auf eine Dringlichkeitslogik abgestimmter Klassifikator lässt sich nicht ohne lokale Revalidierung auf eine andere übertragen – und ein System, das eine Aufnahmeentscheidung informiert, fällt klar in den Geltungsbereich der Medizinprodukteverordnung (MDR). Die übertragbare Lehre ist die bescheidene: Ein solches Modell weiß nichts, was das klinische Personal nicht weiß. Es integriert dieselben frühen Informationen schneller und ohne die kognitive Last, gleichzeitig vier weitere Patient:innen zu versorgen. Das ist es wert – in den Gruppen, in denen es funktioniert, lokal validiert und gemessen an einem Endpunkt, der bei den Patient:innen ankommt statt nur auf der Uhr.

Quelle: van der Haas Y, Roskamp W, Chang-Willems LEM, et al. Evaluating an AI Decision Support System for the Emergency Department: Retrospective Study. JMIR AI 2026;5:e80448. Eine monozentrische retrospektive Studie, deren primärer Endpunkt die Entscheidungszeit war, nicht der klinische Verlauf; die Autor:innen weisen darauf hin, dass die Leistung im realen Betrieb niedriger ausfallen dürfte als die berichteten Zahlen.

#Journal Club#Klinische KI#Notfallmedizin#Evidenzbasierte Medizin#Klinische Entscheidungsunterstützung

111 Minuten früher: Was ein Modell zur Aufnahmeprognose wirklich einbringt

Was die Forschenden getan haben

Was die Evidenz belegt

Was die Evidenz nicht belegt

Was niemand gemessen hat

Weiterlesen

Warum aiomics für QM-Berichte und Qualitätsanalytik

Warum aiomics für Kodiervorschläge und die §301-Vorbereitung

Warum aiomics für Entlassbriefe und Arztbriefe

Diese Analyse stammt von den Leuten hinter Visite.

Sie möchten das in Ihrer Klinik sehen?