Warum Matching-Algorithmen nur so gut sind wie ihre Eingangsdaten
Vermittlungs-Plattformen werben mit der Qualität ihres Matching-Algorithmus. Die mathematische Sophistication des Algorithmus ist begrenzt durch die Vollständigkeit, Konsistenz und Aktualität des Patientenprofils, das in ihn einfließt.

Dr. Sven Jungmann
CEO

Eine Demo-Folie einer Vermittlungs-Plattform zeigt 94 Prozent Treffer-Quote. Eine zweite Folie zeigt 1,3 Sekunden mittlere Antwortzeit. Beide Zahlen können stimmen, und die klinische Tragfähigkeit der Treffer kann trotzdem nicht eingelöst sein. Die mathematische Qualität eines Matching-Algorithmus — die Berechnung, welche:r Patient:in zu welchem Nachversorger passt — ist begrenzt durch die Vollständigkeit, Konsistenz und Aktualität des Patientenprofils, das in den Algorithmus einfließt. Ein hervorragender Algorithmus auf einem unvollständigen Profil produziert schnelle Antworten auf falsche Fragen. Das ist keine Marketing-Kritik. Es ist eine strukturelle Aussage aus der Recommendation-Systems-Literatur, die seit zwei Jahrzehnten konvergent berichtet wird — und die in der Klinik-Vermittlungs-Diskussion in Deutschland selten ankommt.
Die Beobachtung ist nicht klinik-spezifisch. Aggarwal (2016) hält in der ersten kanonischen Lehrbuch-Synthese der Recommendation-Systems-Forschung fest: Die Qualität jeder Empfehlungs-Berechnung ist begrenzt durch die Eingabedaten — die Mathematik kompensiert keine schwache Datenmatrix. Ricci, Rokach und Shapira (2022) fassen zwanzig Jahre Forschung im Handbook zusammen und kommen zur derselben strukturellen Aussage: Die meisten realen Performance-Probleme von Empfehlungs-Systemen sind Daten-Probleme, nicht Algorithmus-Probleme. Vier Sub-Klassen sind etabliert — Sparsity (zu wenige Beobachtungen pro Profil), Cold-Start (neue Profile ohne Vor-Beobachtungen), Noise (verrauschte oder widersprüchliche Beobachtungen) und Context-Drift (Beobachtungen, die zwischen Erhebung und Anwendung veralten). Alle vier sind upstream-Daten-Klassen, an denen ein Algorithmus-Update strukturell nichts ändert. Adomavicius und Tuzhilin (2005) hatten bereits in einem viel-zitierten IEEE-Survey gezeigt, dass die Erweiterung von Recommendation-Systems auf neue Domänen wiederkehrend an derselben Stelle scheitert: Die Algorithmus-Familie ist übertragbar, die Datenstruktur nicht. Die Lehrbuch-Synthesen aggregieren Studien aus Konsumer-Domänen (Streaming, E-Commerce); die strukturelle Aussage zur Daten-Abhängigkeit ist domänenübergreifend, die spezifischen Effekt-Größen sind nicht 1:1 auf den klinischen Kontext übertragbar.
Was ein Patientenprofil im Matching tatsächlich enthält
Das Patientenprofil, mit dem eine Klinik-Vermittlungs-Plattform rechnet, besteht typischerweise aus einer Handvoll strukturierter Felder: Pflegegrad, Diagnose-Hauptgruppe, Alter, geografische Präferenz, Versicherungs-Status, mitunter Mobilitäts-Stufe. Diese Felder reichen für eine erste Sortierung — sie ordnen Patient:innen einer groben Kategorie zu, die einer ersten Nachversorger-Kapazitäts-Anfrage standhält. Sie reichen nicht für die Tragfähigkeits-Aussage, ob die aufnehmende Einrichtung den Aufenthalt tatsächlich tragen kann. Was im Profil typischerweise fehlt, ist die klinisch entscheidende Schicht: Wundsituation mit Verlauf, Mobilitäts-Trajektorie über die letzten 72 Stunden, kognitive Verfassung mit Schwankungs-Profil, Medikamenten-Komplexität jenseits der Anzahl, soziale Situation jenseits der Postleitzahl. Diese Schicht ist die, an der der aufnehmende Nachversorger entscheidet, ob die Übernahme strukturell trägt — und sie ist die, die im Matching-Profil meistens nicht abgebildet ist, weil sie nicht in einem strukturierten Feld erhoben wurde.
Die klinische Care-Transitions-Forschung kommt unabhängig von der Recommendation-Systems-Literatur zu derselben Mechanik. Coleman und Boult (2003) formulieren in der Position der American Geriatrics Society das Care-Transitions-Modell: Übergabe-Lücken entstehen nicht in der Vermittlungs-Schicht, sondern in der Vorbereitung der Übergabe — in der Vollständigkeit der Daten, die in die Übergabe einfließen. Naylor und Kolleg:innen (Health Affairs, 2011) aggregieren in einem viel-zitierten Beitrag die Evidenz: Strukturierte Übergabe-Programme, die auf vollständigen Patientenprofilen basieren, reduzieren die 30-Tage-Re-Hospitalisierungs-Rate messbar; nicht-strukturierte Übergaben mit unvollständigen Profilen produzieren wiederkehrend schlechtere Ergebnisse — selbst wenn die Vermittlung schnell erfolgt. Die Geschwindigkeit der Vermittlung ist kein Substitut für die Vollständigkeit der Daten. Die zitierte Aggregation aggregiert U.S.-amerikanische Studien; die strukturelle Aussage trägt international, die konkreten Effekt-Größen variieren je System. Die Mechanismen-Aussage ist konvergent: Was upstream nicht erhoben wurde, kann ein nachgelagerter Algorithmus nicht herstellen.

Die Fehlerquellen-Hierarchie: Datenlücken sind eine Klasse stärker
Wenn ein Matching-Treffer in der klinischen Realität nicht trägt — Patient:innen werden im Reha-Haus abgelehnt oder müssen innerhalb weniger Tage zurückverlegt werden —, hat der Fehler typischerweise drei mögliche Quellen. Erstens: Die Algorithmus-Logik selbst kann inadäquat sein, etwa wenn ein Collaborative-Filter-Verfahren auf einem zu kleinen Trainings-Korpus operiert. Zweitens: Die Schwellen-Definition kann falsch kalibriert sein, etwa wenn die Akzeptanz-Schwelle für einen Treffer zu niedrig liegt. Drittens: Das Patientenprofil kann unvollständig, inkonsistent oder veraltet sein. Die strukturelle Beobachtung der Recommendation-Systems-Forschung — und parallel die der Care-Transitions-Forschung — lautet: Die dritte Klasse dominiert die ersten beiden in den allermeisten realen Systemen. Datenlücken upstream sind eine Klasse stärker als Algorithmus-Schwächen — sowohl in der Häufigkeit als auch in der Folgenschwere. Die Bauer:innen von Matching-Systemen wissen das; die Bewerter:innen in der Klinik-Beschaffung müssen es nicht zwingend wissen, weil die Demos die Algorithmus-Schicht zeigen, nicht die Datenschicht.
Die Konsequenz für die Beschaffung ist nicht, den Algorithmus zu ignorieren — er ist nicht irrelevant. Die Konsequenz ist, die Bewertung umzustellen: nicht zuerst nach Algorithmus-Performance fragen, sondern zuerst nach Profil-Vollständigkeit. Das verändert die Demo-Logik. Eine Demo, die mit drei strukturierten Feldern (Pflegegrad, Diagnose-Hauptgruppe, Postleitzahl) eine 94-Prozent-Treffer-Quote zeigt, ist eine Demo auf einem dünnen Substrat. Eine Demo, die mit einem 30-Felder-Profil — Wundsituation mit Verlauf, Mobilitäts-Trajektorie, kognitive Schwankungs-Profile, Medikamenten-Komplexität, soziale Situation — eine 78-Prozent-Treffer-Quote zeigt, kann strukturell die belastbarere Demo sein, weil sie die klinisch entscheidenden Felder mitführt. Die Vergleichbarkeit der Treffer-Quoten setzt die Offenlegung der Profil-Definition voraus. Eine Treffer-Quote ohne offengelegtes Profil-Schema ist eine Zahl ohne Maßstab. In der Bewertungs-Praxis lässt sich diese Verschiebung an einer einfachen Frage festmachen: Welche Felder fließen in die Berechnung ein, in welcher Reihenfolge werden sie gewichtet, und was passiert, wenn eines fehlt — Nullwert, Mittelwert-Imputation, expliziter Lücken-Marker, oder schlicht Auslassen. Jede dieser vier Fallback-Strategien produziert eine andere Klasse von Treffer-Fehlern; keine ist neutral.

Was eine Software-Schicht hier wirksam ändern kann
Wenn die Hebel-Stelle im Datensubstrat liegt, ist die Frage nach der wirksamen Software-Schicht eine andere als die Frage nach der Algorithmus-Sophistication. Die wirksame Schicht setzt nicht am Vermittlungs-Punkt an, sondern an der Stelle, an der das Patientenprofil entsteht — bei der Aufnahme, in der Aufenthalts-Dokumentation, am Übergang zur Verlegung. Sie misst die Profil-Vollständigkeit gegen ein indikationsabhängiges Erwartungs-Schema, nicht gegen eine pauschale Feld-Quote. Sie macht Lücken sichtbar, statt sie zu glätten. Sie hält die Versions-Disziplin pro Quelle, damit Aktualität prüfbar ist. Die methodische Grundlage dafür ist seit drei Jahrzehnten beschrieben — die Vier-Achsen-Methodik (Konsistenz, Vollständigkeit, Genauigkeit, Aktualität), die in der internationalen Norm ISO 8000 formalisiert ist; in einem früheren Beitrag — „Vier Dimensionen klinischer Datenqualität“ — wird die Übertragung dieser Achsen auf die klinische KI-Bewertung detailliert. C016 wendet denselben Rahmen auf das Matching-Problem an: Eine Vermittlungs-Plattform kann auf der Algorithmus-Achse hervorragend sein und auf der Datensubstrat-Achse leer; sie kann auf der Datensubstrat-Achse tragfähig sein und auf der Algorithmus-Achse mittelmäßig. Die zweite Konfiguration ist die klinisch belastbarere — und sie ist die, die in der heutigen Demo-Praxis selten ausgewiesen wird.

Was sich leicht messen lässt, ist nicht automatisch das Wichtige. Eine Treffer-Quote ist eine messbare Größe; ein Profil-Schema ist eine strukturelle Voraussetzung. Die strukturelle Voraussetzung dominiert die messbare Größe — das ist die durchgängige Aussage von zwei Forschungs-Strängen, die unabhängig voneinander zur derselben Mechanik kommen: die Empfehlungs-System-Forschung in der Informatik und die klinische Übergabe-Forschung in der Versorgungswissenschaft. Eine Vermittlungs-Plattform, die ihre Algorithmus-Performance ohne Datenschicht-Auskunft berichtet, beantwortet die Frage nach der klinischen Tragfähigkeit nicht. Sie beantwortet eine andere Frage — die nach der eigenen Berechnungs-Geschwindigkeit. Das eine ist eine technische Aussage; das andere ist eine Beschaffungs-Aussage. Wer beides für dasselbe hält, kauft Geschwindigkeit auf einem Substrat, das er nicht geprüft hat.
Aiomics baut Architektur entlang dieses Datenqualitäts-Rahmens. Der Beitrag beschreibt allgemeine methodische Prinzipien aus der peer-reviewed Recommendation-Systems-Literatur und der klinischen Care-Transitions-Forschung. Er gibt keine Empirie zu konkreten Vermittlungs-Plattformen oder Anbietern und keine Rechtsauslegung zu Beschaffungs-Verfahren oder Aufsichts-Anforderungen.


