Stanford setzte ein Sprachmodell in die Akte. Was der Bericht belegen kann
Ein Universitätsklinikum bettete Sprachmodelle in die Patientenakte ein und zählte mit: tausend Nutzer:innen, Millionen an geschätzter Einsparung und, anständigerweise, zwei unbelegte Aussagen pro Zusammenfassung. Ein offener Erfahrungsbericht, keine kontrollierte Studie.

Dr. Sven Jungmann
CEO

Die Zahl, bei der man innehalten sollte, steht nicht in der Pressemitteilung. Es ist 2,33 — die durchschnittliche Zahl unbelegter Aussagen, die die Autor:innen pro KI-erstellter Zusammenfassung fanden, als sie ihr eigenes System prüften: 0,73 frei erfundene Aussagen und 1,60 Aussagen, die der Akte widersprachen. Sie berichten das ohne Umschweife, in einer Arbeit über ein Werkzeug, das tausend ihrer Behandelnden inzwischen täglich in der Versorgung nutzen. Ein Team, das diese Zahl über das eigene Produkt veröffentlicht, verdient eine sorgfältige Lektüre.
Die Arbeit ist ein Erfahrungsbericht des Stanford Health Care, veröffentlicht als arXiv-Preprint und noch nicht begutachtet. Sie beschreibt ChatEHR, ein System, das große Sprachmodelle mit der vollständigen, mehrjährigen Patientenakte verbindet — aufbereitet als strukturiertes Datenpaket — und sie sowohl als Chatfenster innerhalb der elektronischen Akte als auch als automatisierte Hintergrundaufgaben verfügbar macht. Der klinische Anlass ist der vertraute: Behandelnde verbringen viel Zeit damit, lange, verstreute Akten zusammenzuführen, und ein Werkzeug, das diese Sammelarbeit übernimmt, könnte einen Teil dieser Zeit zurückgeben.
Was die Forschenden getan haben
An diesem Punkt lohnt sich Genauigkeit, denn er bestimmt, was alles Übrige bedeuten kann. Stanford baute das System, führte es in der eigenen Institution ein und beschrieb anschließend das Beobachtete. Es gibt keine Kontrollgruppe, keine Randomisierung, keinen Vergleich mit einem ähnlichen Haus, das es anders gemacht hätte. Es ist ein Erfahrungsbericht mit einer einzigen Institution — ein sorgfältiger, quantifizierter, ungewöhnlich offener, aber eben ein Bericht darüber, was ein Universitätsklinikum tat, und keine Prüfung, ob es besser wirkte als die Alternative.
Zwei Entwurfsentscheidungen geben dem Bericht sein Rückgrat. Erstens ist das System bewusst modellunabhängig: Es leitet eine Aufgabe an dasjenige Sprachmodell weiter, das passt, statt die Institution auf ein einziges festzulegen. Zweitens — und das ist der eigentlich nützliche methodische Befund — berichten die Autor:innen, dass die übliche Bewertung anhand von Vergleichstests (Benchmarks) nicht ausreichte, um die Qualität im echten Einsatz zu sichern. Das Bestehen einer Reihe medizinischer Prüfungen sagte wenig darüber aus, wie sich das Werkzeug gegenüber drei Jahren echter Notizen einer realen Person verhielt. Also bauten sie eine fortlaufende Fehlermessung im laufenden Betrieb auf. Dieses Eingeständnis, dass die Benchmarks nicht genügten, ist übertragbarer als jede der Dollar-Zahlen.
Was die Evidenz belegt
Am festesten steht die Nutzung, weil sie schlicht gezählt ist. Innerhalb von achtzehn Monaten baute das Team sieben automatisierte Aufgaben und schulte 1.075 regelmäßige Nutzer:innen des Chatfensters, die in den ersten drei Monaten nach der Einführung über 23.000 Sitzungen und mehr als 19 Milliarden verarbeitete Token verzeichneten. Die Menschen nutzten es, wiederholt, ohne Zwang. Für ein klinisches KI-Werkzeug, das den Kontakt mit echten Abläufen übersteht, ist anhaltende freiwillige Nutzung kein triviales Ergebnis.
Die Fehlerprüfung ist das glaubwürdigste quantitative Ergebnis, gerade weil sie unvorteilhaft ausfällt. In einer Zehn-Prozent-Stichprobe untersuchten die Autor:innen 719 Zusammenfassungen und fanden im Mittel 2,33 unbelegte Aussagen je Zusammenfassung — 0,73 Halluzinationen und 1,60 Ungenauigkeiten —, wobei rund die Hälfte der Zusammenfassungen eine oder keine enthielt. Die ehrliche Lesart ist die, die auch die Autor:innen wählen: Das Werkzeug ist nützlich genug, dass Behandelnde es immer wieder wählen, und es macht oft genug Fehler, dass ein Mensch seine Ergebnisse prüfen muss. Beides gilt zugleich, und eine Einführung, die das Gegenteil behauptet, ist die gefährliche Art.
Was die Evidenz nicht belegt
Hier muss man als Leserin innehalten, denn die Schlagzeilen-Zahl ist der schwächste Teil. Die oft zitierten sechs Millionen Dollar Einsparung im ersten Jahr sind eine eigene Schätzung der Autor:innen bei der gegenwärtigen Nutzung, und sie sagen das auch. Der größte Einzelposten ist nicht eingesparte Zeit an der Tastatur, sondern projizierter Erlös: Eine Automatisierung, die Patient:innen für die Verlegung in eine Einheit niedrigerer Versorgungsstufe vorprüft, wird mit 2,4 bis 3,3 Millionen Dollar jährlichem Erlöszuwachs aus rund 1.700 Verlegungen pro Jahr verbucht, bei bescheidenen direkten Personaleinsparungen. Der Wert des interaktiven Chatfensters — etwa 2,2 Millionen Dollar im Jahr gegenüber rund 20.000 Dollar Modellkosten — ist aus angenommenen zehn eingesparten Minuten je Anfrage bei hundert täglichen Nutzer:innen hochgerechnet. Das sind nachvollziehbare interne Projektionen. Es sind keine gemessenen Einsparungen, und sie stammen von denjenigen, die das Werkzeug gebaut haben.
Worüber keine Zahl hier etwas aussagen kann, ist der klinische Verlauf. Niemand hat Patient:innen weiterverfolgt, um zu sehen, ob die Zusammenfassungen zu besseren Entscheidungen, früheren Diagnosen oder weniger Folgefehlern führten. Eine schnellere, vollständigere Aktendurchsicht ist plausibel die bessere Versorgung; sie ist nicht dasselbe wie bessere Versorgung, und ein unkontrollierter Bericht aus einem einzigen Haus kann beides nicht trennen. Ebenso wenig lässt sich die Erfahrung einer Institution — ihre Dateninfrastruktur, ihre Steuerungsreife, ihr Entwicklungspersonal — auf ein Krankenhaus übertragen, dem all das fehlt.
“Das Werkzeug ist nützlich genug, dass Behandelnde es immer wieder wählen, und es irrt oft genug, dass ein Mensch seine Ergebnisse prüfen muss. Beides gilt zugleich.”
Warum das hier zählt
Liest man ihn als das, was er ist, ist dieser Bericht wertvoll. Er gehört zu den wenigen offenen Schilderungen dessen, was geschieht, wenn Sprachmodelle im Routinebetrieb auf die vollständige Patientenakte treffen — samt der Fehlerquoten, die die meisten Anbieter nie veröffentlichen würden. Die übertragbaren Lehren sind nicht die Einsparungsschätzungen, sondern die Methode: Fehler fortlaufend im echten Einsatz messen, weil Benchmarks in die Irre führen; einen Menschen die Ergebnisse lesen lassen, wenn zwei unbelegte Aussagen pro Zusammenfassung der Ausgangswert sind; und festlegen, wie man ein System bewertet, bevor man es einführt, nicht danach. Für jede europäische Institution, die solche Werkzeuge erwägt, ist die richtige Haltung jene, die die Autor:innen selbst vorleben: Zählen Sie zuerst, was Ihr System falsch macht, im eigenen Umfeld, bevor Sie zählen, was es sparen könnte.
Quelle: Shah NH, Pfeffer MA, et al. Adoption and Use of LLMs at an Academic Medical Center. arXiv-Preprint 2602.00074, eingereicht am 21. Januar 2026. Ein unkontrollierter Erfahrungsbericht aus einem einzigen Zentrum, verfasst von den Entwicklern des Systems und nicht begutachtet; die wirtschaftlichen Zahlen sind eigene Schätzungen der Autor:innen, und gemessen werden Nutzung und Fehlerquoten, nicht der klinische Verlauf.


