KI-generierter Text und ärztliche Verantwortung
Wenn ein KI-System einen Aufnahme-Bericht generiert, bleibt die ärztliche Letztverantwortung bei den freigebenden Ärzt:innen — auch dann, wenn das System einen Fehler eingebaut hat, der strukturell nicht erkennbar war.

Dr. Sven Jungmann
CEO

In einem KI-generierten Aufnahme-Bericht steht der Satz: „Die Patientin nimmt seit Jahren Antikoagulation und zeigt eine relevante Sturzanamnese unter laufender Antikoagulation.“ Beim Freigabe-Schritt fallen keine offensichtlichen Widersprüche auf, der Bericht geht in die Akte. Sechs Monate später taucht der Satz in einer Anfrage des Medizinischen Dienstes (MD) auf. Eine genauere Prüfung der zugrunde liegenden Vorbefunde zeigt: In Quelle eins steht „Antikoagulation seit 2019“. In Quelle zwei steht „rezidivierende Stürze in den letzten zwölf Monaten“. Die kausale Verknüpfung „Stürze unter laufender Antikoagulation“ steht in keiner der beiden Quellen — sie ist eine Synthese, die das KI-System aus zwei einzeln richtigen Aussagen erzeugt hat. Die Frage ist nicht juristisch, sondern methodisch: Welche Eigenschaft hätte die KI-Architektur haben müssen, damit die freigebenden Ärzt:innen diese Synthese als Synthese überhaupt hätten erkennen können — bevor sie zur Aussage in der Akte wurde.
Der unbewegliche Punkt ist berufsständisch geklärt. Die Zentrale Ethikkommission (ZEKO) bei der Bundesärztekammer (BÄK) hat 2021 in ihrer Stellungnahme zur ärztlichen Entscheidungs-Unterstützung durch Künstliche Intelligenz formuliert, dass die Letztentscheidung und die Letztverantwortung bei den behandelnden Ärzt:innen verbleiben. KI-Systeme sind Entscheidungs-Unterstützung, nicht Entscheidungs-Ersatz. In derselben Stellungnahme steht eine zweite Aussage: Transparenz, Nachvollziehbarkeit und Erklärbarkeit sind keine wünschbaren Zusatz-Eigenschaften, sondern Voraussetzungen, damit die Letztverantwortung sachgerecht wahrgenommen werden kann. Die berufsständische Linie ist im laufenden Diskurs des Deutschen Ärzteblatts und in Folge-Beschlüssen des Deutschen Ärztetages bestätigt; die ethische Frage gilt damit als beantwortet. Die methodische Frage öffnet sich erst — sie heißt: Was folgt aus diesem unbeweglichen Punkt für die KI-Architektur, die in der Klinik eingesetzt wird, und welche Eigenschaften muss die Architektur tragen, damit die Stellungnahme keine Forderung bleibt, sondern zur Voraussetzung wird, die ein konkretes System einlöst.
Was die Sorgfaltspflicht der KI-Architektur abverlangt
Eine Sorgfaltspflicht ist keine Frage der Disziplin allein. Sie hat Voraussetzungen, ohne die sie nicht erfüllbar ist. Price, Gerke und Cohen (JAMA 2019) benennen die strukturelle Spannung methodisch sauber: Die Letztverantwortung liegt bei den Ärzt:innen; die innere Logik der KI-Empfehlung lässt sich nicht zwingend im Detail nachvollziehen. Die Quelle ist im US-Rechtsraum verankert, die methodische Beobachtung trägt aber unabhängig davon — der Spalt zwischen Verantwortung und Nachvollziehbarkeit ist eine Eigenschaft der Architektur, nicht der Person. Eine Architektur, die diesen Spalt schließt, macht die Sorgfaltspflicht erfüllbar. Eine Architektur, die ihn offenlässt oder erweitert, verschiebt ihn auf die Ärzt:innen zurück — als zusätzlichen Verifikations-Aufwand, der unter Zeit-Druck nicht mehr zu leisten ist.
Drei Architektur-Eigenschaften nehmen die Sorgfaltspflicht ernst. Erstens: Provenienz pro Aussage. Jede generierte Aussage trägt eine sichtbare Spur zu der konkreten Quelle, aus der sie hervorgeht — nicht zu einem Quell-Dokument im Plural, sondern zu der konkreten Stelle in dem konkreten Vorbefund. Der Unterschied klingt akademisch und ist operativ: Eine Liste der genutzten Vorbefunde ohne Span-Zuordnung lässt im Synthese-Satz offen, welche Aussage aus welcher Quelle stammt — und macht die einzelne Verifikation zur Stichprobe. Zweitens: sichtbare Konsistenzprüfung statt Glättung. Wo zwei Vorbefunde sich widersprechen, zeigt das System den Widerspruch — anstatt ihn in eine plausible Drittaussage zu übersetzen. Eine geglättete Synthese sieht in der Akte besser aus; sie tarnt die Uneinheitlichkeit der Quellen, deren Auflösung klinische Beurteilung wäre. Drittens: einsehbarer Originalbefund-Bestand. Die Verifikation läuft gegen die Originalquelle, nicht gegen eine paraphrasierte oder vektorisierte Repräsentation davon. Eine Architektur, die den Audit-Trail gegen den Vektor-Index führt, prüft die Übereinstimmung mit dem Index — und übersieht eine Abweichung zwischen Index und Originaltext, sobald sie auftritt. Diese drei Eigenschaften sind methodisch nicht neu; die Arbeitsgemeinschaft der Wissenschaftlichen Medizinischen Fachgesellschaften (AWMF) formuliert in ihren methodischen Empfehlungen zur KI-gestützten Evidenzsynthese die Quellen-Transparenz als Voraussetzung — der operative Klinikkontext der Synthese (Aufnahme-Bericht, Verlauf, Entlassbrief) hat die gleiche methodische Logik, auch wenn die AWMF-Empfehlungen aus dem Leitlinien-Kontext stammen.

Automation Bias verändert die Lage strukturell, nicht nur statistisch
Die Erfahrung, dass automatisierte Empfehlungen unkritischer übernommen werden als manuelle, ist empirisch beschrieben. Goddard, Roudsari und Wyatt (JAMIA 2012) haben in einer systematischen Übersicht über vierundsiebzig Studien Automation Bias bei Kliniker:innen reproduzierbar gefunden. Die operative Aussage steht in den Mediatoren: Kognitive Last, Aufgaben-Komplexität, Zeit-Druck und Sichtbarkeit der System-Begründung beeinflussen die Bias-Quote. Sichtbare Begründungen senken sie. Die Untersuchung ist überwiegend in englischsprachigen Settings durchgeführt; die Klasse der Befunde überträgt sich strukturell, die Quoten nicht. Lyell und Coiera (JAMIA 2017) haben in einer Folge-Übersicht den Zusammenhang zwischen Verifikations-Komplexität und Bias-Quote untersucht: Je aufwendiger die manuelle Prüfung der KI-Empfehlung, desto häufiger wird die Empfehlung übernommen, ohne sie zu prüfen. Auch dieser Befund ist in englischsprachigen Studien-Settings verankert. Die Konsequenz für die Klinik-Architektur ist methodisch klar: Architekturen, die die Verifikation strukturell erleichtern, schrumpfen Automation Bias; Architekturen, die nur ein Gesamtergebnis liefern, vergrößern ihn.
Die Klasse der schwer erkennbaren Synthese-Aussagen
Welche Aussagen sind im freigegebenen Bericht strukturell erkennbar, welche nicht? Maynez und Kolleg:innen (Association for Computational Linguistics, 2020) trennen in der Faithfulness-Untersuchung intrinsische von extrinsischen Halluzinationen. Extrinsische fügen Information hinzu, die in keiner Quelle steht — sie sind beim genauen Hinsehen erkennbar. Intrinsische bleiben innerhalb der Quellen, verfärben aber ihre Aussage. Die schwer erkennbare Variante ist die Synthese-Verknüpfung: Zwei korrekte Quellen-Aussagen werden zu einer dritten verbunden, die keiner der Einzel-Quellen zu entnehmen ist. Die Untersuchung lief auf englischen Nachrichten-Texten und nicht auf klinischen Daten — die Klasse überträgt sich, die Quoten nicht. Die jüngere klinische Empirie zeigt, dass Resthalluzinationen unvermeidlich sind. Asgari und Kolleg:innen (npj Digital Medicine 2025) haben in einer Single-Site-Studie 12.999 von Kliniker:innen annotierte Sätze ausgewertet: Die Halluzinations-Rate lag bei 1,47 Prozent, die Auslassungs-Rate bei 3,45 Prozent. Die methodisch relevante Aussage liegt in der Schwere — vierundvierzig Prozent der Halluzinationen wurden als „major“ eingestuft, gegenüber 16,7 Prozent der Auslassungen. Die deutsche Multi-Center-Validierung dieser Quoten steht aus.

Die methodische Konsequenz aus dieser Klasse von Halluzination und der Schwere der Resthalluzinationen ist nicht „seltener halluzinierende Modelle warten ab“ — sondern „die seltenen Halluzinationen müssen sichtbar werden, damit Ärzt:innen sie als solche erkennen“. Eine niedrige Halluzinations-Quote ohne Provenienz-Sichtbarkeit verschiebt das Risiko nach hinten: Die wenigen Fehler, die bleiben, treten in Form geglätteter, plausibel klingender Synthese-Sätze auf — also genau in der Form, die strukturell schwer zu erkennen ist. Der vermeintliche Fortschritt durch bessere Quoten produziert ohne Provenienz die schlechtere Verifikations-Lage. Für die Anbieter-Bewertung bedeutet das eine Vorrang-Reihenfolge: Die Frage „Wie selten halluziniert das System?“ steht hinter der Frage „Wie sichtbar sind die Halluzinationen, die bleiben?“ — und beide stehen hinter der Frage, ob das System die Sorgfaltspflicht der Klinik strukturell trägt oder sie an die Ärzt:innen zurückgibt.

Was sich am System operativ prüfen lässt
Aus der Sorgfaltspflicht lässt sich eine kurze Prüf-Liste für die Anbieter-Demo ableiten — drei Tests, die methodisch bedeutsam und gleichzeitig in zehn Minuten ausführbar sind. Erstens: Klick auf eine generierte Aussage im synthetischen Aufnahme-Bericht. Zeigt das System den exakten Quell-Span im Vorbefund — oder nur das Quell-Dokument als Ganzes? Die zweite Variante ist die Synthese-blinde Architektur. Zweitens: Konstruieren Sie einen Demo-Fall, in dem zwei Vorbefunde sich widersprechen — etwa „Diabetes Typ 2 seit 2018“ und „kein Diabetes mellitus“ aus einer späteren Anamnese. Macht das System die Diskrepanz sichtbar, oder produziert es eine geglättete Drittaussage? Drittens: Fragen Sie nach dem Audit-Trail-Verhalten sechs Monate nach Bericht-Freigabe. Lässt sich die Aussage-zu-Quelle-Verknüpfung dann noch rekonstruieren — gegen den ursprünglichen Vorbefund-Bestand, nicht gegen eine vektorisierte Stellvertretung? Wenn nicht, ist die Verifikation auf den Erstellungs-Moment begrenzt — die spätere Anfrage des Medizinischen Dienstes findet die Spur nicht.
Die ärztliche Verantwortung lässt sich nicht delegieren — aber sie lässt sich strukturell erleichtern oder erschweren. Die Auswahl einer Klinik-KI ist deshalb keine Entscheidung der Informationstechnik allein und auch keine Compliance-Übung. Sie ist eine Entscheidung über die architekturellen Bedingungen, unter denen die eigene Sorgfaltspflicht in den nächsten fünf Jahren erfüllbar bleibt — oder unter denen sie zur stillschweigenden Stichprobe wird.
Der Beitrag beschreibt methodische Voraussetzungen, die sich aus der ärztlichen Sorgfaltspflicht für die Bewertung von KI-Architekturen ergeben. Er gibt keine Rechtsauslegung und keine haftungsrechtliche Einschätzung; eine konkrete berufsrechtliche oder zivilrechtliche Bewertung im Einzelfall verlangt die ärztlichen Körperschaften, die juristische Beratung und die fachliche Prüfung des jeweiligen Klinik-Settings.


