Datenqualität21. April 20267 Min. Lesezeit

Aggregation als Risiko: Wenn KI aus richtigen Befunden falsche Synthesen bildet

Die gefährlichste Klasse von Fehlern in klinisch eingesetzten Sprachmodellen ist nicht die freie Halluzination, sondern die Aggregations-Falschsynthese: jede einzelne Eingabe-Aussage stimmt, die zusammengesetzte

Dr. Sven Jungmann

CEO

Aggregations-Falschsynthese in der Klinik-KI: drei quellengetreue Eingabe-Aussagen aus drei Quellen verschmelzen zu einer Ausgabe-Synthese, die in keiner Einzelquelle steht und gegen das verfügbare Quellen-Material falsch ist.

Eine IT-Leitung in einem mittelgroßen Klinik-Verbund — drei Akut-Häuser, eine Reha-Klinik — bewertet Anfang 2026 ein Aufnahme-Angebot eines Anbieters für klinische Large Language Models (LLM). Die Anbieterin demonstriert das System an zwei vorbereiteten Patienten-Fällen. Drei Quellen pro Fall — ein Akut-Brief, ein Hausarzt-Schreiben, eine Patientinnen-Selbstauskunft —, eine flüssige Aufnahme-Synopse als Ausgabe. Die Synopse liest sich klinisch, geordnet, ohne Reibung. Die Frage „funktioniert die KI gut“ trägt in dieser Demonstration nicht. Sie funktioniert; die Frage ist eine andere. Die Frage ist, ob das System eine bekannte Klasse von Fehler — die Aggregations-Falschsynthese — strukturell unwahrscheinlicher macht oder nur unsichtbar. Die zwei Test-Fälle haben konsistente Quellen. Im Klinik-Alltag haben drei Quellen aus drei Bezugs-Zeiten und drei Schreib-Konventionen regelmäßig leichte Inkonsistenzen — und genau dort entsteht die Klasse. Die Demonstration zeigt nicht, was die Pipeline tut, wenn die Quellen sich an einer Stelle, an zwei Stellen, an drei Stellen leicht widersprechen. Genau das ist die Stelle, an der eine Anbieter-Bewertung beginnt.

Eine eigene Klasse von KI-Risiko

Die Klasse hat einen Namen, sobald man sie methodisch anschaut: Aggregations-Falschsynthese. Die computerlinguistische Forschung trägt sie in einer Taxonomie, die spätestens seit Maynez und Kolleg:innen (2020) in der Association for Computational Linguistics konsolidiert ist — ursprünglich entwickelt an Nachrichten-Korpora, nicht an klinischen Texten. Die Taxonomie unterscheidet intrinsische Halluzinationen — Aussagen, die der Quelle widersprechen — und extrinsische — Aussagen, die jenseits dessen liegen, was die Quelle bestätigt oder ausschließt. Beide klingen flüssig. Sprachflüssigkeit und Quellen-Treue korrelieren nicht; ein Modell, das auf Flüssigkeit optimiert ist, kann den Bezug zur Quelle verlieren, ohne dass die Sprache es signalisiert. Ji und Kolleg:innen (2023) konsolidieren in den ACM Computing Surveys den schwerwiegenderen Sub-Modus: das Verschmelzen mehrerer quellengetreuer Fragmente zu einer synthetischen Aussage, die in keiner Einzel-Quelle steht. Die Aggregations-Klasse benennen die Autor:innen als methodisch besonders schwer detektierbar — gerade weil jede einzelne Eingabe-Aussage, auf die sie aufsetzt, korrekt ist.

Die klinische Forschung der letzten zwei Jahre hat die Klasse empirisch belegt. Reviews in NEJM AI — der KI-Sektion des New England Journal of Medicine — aggregieren 2024 bis 2026 Studien unterschiedlicher Methodik und berichten konvergent, dass Aggregations-Falschsynthesen von klinischen Reviewer:innen deutlich seltener detektiert werden als freie Halluzinationen. Die Detektions-Rate sinkt weiter, je flüssiger die synthetische Aussage formuliert ist. The Lancet Digital Health dokumentiert in der gleichen Periode in Reviews zu Klinik-Sprachmodell-Anwendungen ein wiederkehrendes Muster: nicht die freie Erfindung, sondern die plausibel klingende Synthese aus mehrdeutigen oder leicht inkonsistenten Quellen ist der dominierende Schadens-Vektor in dokumentierten Vorfällen. Die quantitativen Raten variieren mit Studien-Design und Anwendungs-Feld; die qualitative Asymmetrie ist über die Studien-Linie hinweg stabil.

Aggregations-Falschsynthese als eigene Klasse von Klinik-KI-Risiko — schwer detektierbar gerade weil die quellengetreuen Bestandteile sich in einen flüssigen Aufnahme-Text fügen, der keine Reibung trägt. — Die Klasse hat einen Namen — und ihre Schwer-Detektierbarkeit ist eine Eigenschaft der Klasse, nicht der lesenden Person.·aiomics

Drei generative Mechanismen der Falschsynthese

Erstens: temporale Aggregation. Daten- oder Verlaufs-Aussagen aus unterschiedlichen Beobachtungs-Zeiten werden zu einer einzigen Aussage zusammengezogen, ohne dass die Zeitachse mitgeführt wird. Quelle A schreibt „Marcumar 2 mg“ mit Bezug auf einen Brief von 2022. Quelle B schreibt „Marcumar 5 mg“ mit Bezug auf einen aktuellen Hausarzt-Befund. Eine Synthese formuliert „Marcumar 2 bis 5 mg“ oder „Marcumar variabel“ — Formulierungen, die einen Zeitverlauf andeuten, der in keiner Quelle dokumentiert ist. Studien in Nature Medicine arbeiten an spezifischen Anwendungs-Fällen — Discharge-Summary, klinische Kohorten-Synthese, Aufnahme-Synopse — den Mechanismus heraus: Die zeitliche Bezugs-Information verschwindet im Synthese-Schritt, und die Synthese liest sich, als hätten alle Quellen denselben Bezugs-Zeitpunkt geteilt. Was sie nicht haben.

Zweitens: Provenienz-Glättung. Aussagen aus mehreren Quellen werden zu einer Ausgabe-Aussage verschmolzen, ohne dass im Ergebnis erkennbar bleibt, welche Aussage aus welcher Quelle stammt — und welche Aussage gar nicht aus einer Quelle stammt, sondern eine Modell-Inferenz zwischen den Quellen ist. Eine Aufnahme-Synopse, die drei Quellen in einen Absatz zusammenführt und keinen Quellen-Marker pro Aussage trägt, hat die Provenienz auf der Ausgabe-Seite gelöscht. Was im Ergebnis steht, liest sich wie ein einheitlicher Bericht — und ist es nicht. npj Digital Medicine dokumentiert in seinen 2024 bis 2026 erschienenen Reviews, dass die Detektions-Rate für Provenienz-geglättete Synthesen unter klinischen Reviewer:innen niedriger liegt als für offensichtliche Halluzinations-Klassen — die Sprachflüssigkeit der Aussage stellt das klinische Misstrauen still, weil das Misstrauen sich auf die Form richtet, nicht auf die Provenienz-Spur dahinter. Ein Aufnahme-Text ohne Quellen-Marker pro Aussage zwingt die lesende Person, die Provenienz-Frage selbst zu rekonstruieren — bei drei Quellen, dreißig Aussagen und siebzig Aufnahmen pro Woche eine Aufgabe, die in der vorhandenen Aufmerksamkeits-Ökonomie der Aufnahme-Stelle nicht eingelöst wird.

Drittens: semantische Glättung. Verwandte, aber nicht identische Begriffe aus unterschiedlichen Quellen werden zu einem Sammel-Begriff verdichtet. Quelle A spricht von „grenzwertig erhöht“, Quelle B spricht von „pathologisch“. Eine Synthese formuliert „pathologisch erhöht“ und übernimmt die Schwelle aus Quelle B und das Adjektiv aus Quelle A, ohne dass die beiden Quellen tatsächlich übereingestimmt hätten. Quelle A dokumentiert „Arthrose linkes Knie“, Quelle B dokumentiert „Arthrose rechtes Knie“, die Synthese formuliert „Arthrose beidseits“ — die Aussage ist nicht quellengetreu, auch wenn sie als zulässige Verdichtung der beiden Vorbefunde klingt. Der Mechanismus ist generativ banal und klinisch teuer: Das Modell ist auf Sprach-Glätte optimiert, und Sprach-Glätte erlaubt Schwellen- und Lateralitäts-Verdichtungen, die der Quellen-Vergleich nicht trägt.

“Aggregations-Falschsynthese ist die Klasse, in der jede einzelne Eingabe-Aussage stimmt und die zusammengesetzte Ausgabe-Aussage trotzdem falsch ist — nicht trotz, sondern wegen der Quellengetreue ihrer Bestandteile.”

Aggregations-Falschsynthese in Klinik-LLM-Pipelines entsteht an drei wiederkehrenden Stellen — fehlender Zeit-Träger zwischen Quellen, fehlender Quellen-Marker pro Aussage, übertriebene Sprach-Glättung über semantisch verwandte Begriffe. — Die drei Mechanismen sitzen alle vor dem Ergebnis. Wer am Ergebnis filtert, prüft eine Stelle, an der die Klasse längst·aiomics

Drei Architektur-Eigenschaften, die der Klasse strukturell begegnen

Die wirksame Stelle ist nicht der nachgelagerte Ergebnis-Filter. Reports des Stanford Institute for Human-Centered AI (HAI) argumentieren 2024 bis 2026 konsistent, dass Ergebnis-Filter strukturell zu spät ansetzen — sie sehen die fertige Synthese und versuchen, an einem fertigen Text die Quellen-Treue rückwärts zu rekonstruieren, eine Aufgabe, die selbst einer aufmerksamen Klinikerin Mühe macht. Die wirksame Stelle sitzt vor der Synthese. Erstens: Provenienz-Nachverfolgung pro Aussage. Jede Aussage in der Ausgabe-Synopse muss auf eine konkrete Quelle und eine konkrete Stelle in der Quelle zurückführbar sein. Lewis und Kolleg:innen (2020) haben dieses Muster in der Retrieval-Augmented-Generation-(RAG)-Architektur etabliert — die Generierung wird in einem expliziten Retrieval-Schritt verankert, jede synthetisierte Aussage trägt ihre Quellen-Spur. Eine RAG-Pipeline ohne fein-granulare Quellen-Marker pro einzelner Aussage erbt das Aggregations-Risiko an der Synthese-Stelle; der Anker auf Dokumenten-Ebene allein reicht nicht.

Zweitens: temporale Annotation pro Aussage. Wenn die Eingabe-Quellen unterschiedliche Bezugs-Zeiten tragen, muss die Pipeline diese Zeiten an die Aussagen kleben und im Synthese-Schritt mitführen. Eine Aussage „Marcumar 5 mg“ ohne Zeitstempel ist im Synthese-Schritt strukturell ununterscheidbar von einer Aussage „Marcumar 2 mg“ ohne Zeitstempel — und die Pipeline produziert die Falschsynthese nicht aus Bösartigkeit, sondern aus fehlendem Zeit-Träger. Forschungs-Linien des MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) zur Klinik-KI-Architektur dokumentieren temporale Annotation als eigenständige Pipeline-Stufe, die der Synthese vorausgeht. Was das in der Benutzeroberfläche heißt, ist konkret: Die Synopse zeigt für jede Daten-Aussage einen sichtbaren Zeit-Marker; Aussagen ohne sicheren Zeit-Marker werden als solche gekennzeichnet, nicht in einen Sammel-Verlauf eingeschrieben.

Drittens: Quellen-Konsistenz-Prüfung vor der Verdichtung. Wenn zwei oder mehr Quellen sich semantisch leicht widersprechen — eine sagt „grenzwertig erhöht“, die andere „pathologisch“; eine sagt „links“, die andere „rechts“; eine sagt „2 mg“, die andere „5 mg“ — muss die Pipeline diesen Widerspruch vor dem Aggregations-Schritt erkennen und sichtbar machen. Eine Synthese, die den Widerspruch glättet, produziert einen Fehler, den am Ergebnis niemand mehr findet. Eine Synthese, die den Widerspruch markiert und der Klinikerin überlässt, ist langsamer und weniger elegant — und genau deshalb sicherer. Die drei Eigenschaften — Provenienz-Nachverfolgung, temporale Annotation, Konsistenz-Prüfung vor Verdichtung — sind keine Sonder-Anforderungen einer einzelnen Architektur-Schule. Sie sind die Übersetzung der peer-reviewed Faithfulness- und Halluzinations-Forschung in eine Klinik-Pipeline-Architektur, die die drei generativen Mechanismen vor der Synthese-Stelle adressiert. Was sie operativ teurer macht als die schnelle Glätte: Jede Eigenschaft hängt an einer eigenen Pipeline-Stufe, einer eigenen Datenstruktur, einer eigenen Anzeige-Geometrie in der Benutzeroberfläche. Was sie klinisch günstiger macht: Jede einzelne der drei Eigenschaften setzt vor dem Synthese-Schritt an, an dem die Aggregations-Falschsynthese entsteht — und nicht nach ihm, an dem sie durch eine flüssige Sprache bereits getarnt ist.

Drei Pipeline-Eigenschaften gegen Aggregations-Falschsynthese — Provenienz-Nachverfolgung pro Aussage, temporale Annotation pro Aussage, Konsistenz-Prüfung vor Verdichtung — sitzen vor dem Synthese-Schritt, nicht nach dem Ergebnis. — Drei Pipeline-Eigenschaften, die die Klasse strukturell unwahrscheinlicher machen·aiomics

Eine Aufnahme-Synopse, die aus drei quellengetreuen Eingaben eine vierte Aussage formt, klingt nicht wie eine Halluzination. Sie klingt wie eine Verdichtung. Genau das macht die Aggregations-Falschsynthese zur strukturell schwer detektierbaren Klasse — und genau deshalb gehört die Architektur-Antwort an den Anfang der Pipeline, nicht in den Ergebnis-Filter. Wer eine Klinik-LLM-Architektur bewertet, sollte die drei Mechanismen als Test-Raster auf konstruierten, leicht inkonsistenten Eingabe-Bündeln anlegen — und prüfen, ob das System die Inkonsistenzen sichtbar macht oder unter sprachlicher Glätte verbirgt.

#Aggregations-Falschsynthese#Klinik-LLM#Datenqualität#Halluzinations-Klassen#Provenienz-Tracking#RAG#Klinik-KI-Architektur

Der Beitrag beschreibt eine peer-reviewed dokumentierte Klasse von Fehler-Verhalten generativer Sprachmodelle in klinischen Anwendungen und ihre Architektur-Antworten. Aiomics betreibt eine Klinik-Doku-Architektur explizit gegen diese Klasse. Der Beitrag gibt keine Empirie zu konkreten Anbietern oder Produkten, keine Quanta zu Aiomics-internen Detektions-Raten und keine Rechtsauslegung zu Medizinprodukte-Klassifikation oder Aufsichts-Anforderungen. Die konkrete Bewertung im Einzelfall verlangt die ärztliche Leitung, die Klinik-IT-Leitung und die Datenschutz-Beauftragten der Einrichtung.

Aggregation als Risiko: Wenn KI aus richtigen Befunden falsche Synthesen bildet

Eine eigene Klasse von KI-Risiko

Drei generative Mechanismen der Falschsynthese

Drei Architektur-Eigenschaften, die der Klasse strukturell begegnen

Weiterlesen

Warum aiomics für QM-Berichte und Qualitätsanalytik

Arztbrief mit KI: was zwischen Entwurf und Unterschrift passieren muss

KI-Spracherkennung in der Klinik: das Wer-hat-was-gesagt-Problem

Diese Analyse stammt von den Leuten hinter Visite.

Sie möchten das in Ihrer Klinik sehen?