Zwanzigtausend Nutzende, kein Kontrollarm: Wie man eine Real-World-Kohorte ehrlich liest
Die bislang größte Real-World-Kohorte zu einer Verbraucherplattform aus Blutwerten und Wearables berichtet: Die meisten Nutzenden mit schlechten Ausgangswerten verbesserten sich. Die Zahlen sind echt. Ohne Vergleichsgruppe bleibt offen, ob die Plattform der Grund ist.

Dr. Sven Jungmann
CEO

Bei 20.342 Personen wurde mindestens zweimal Blut abgenommen, während sie dieselbe Verbraucher-Gesundheitsplattform nutzten, und unter denen, die mit einem schlechten Wert begannen, verbesserte sich die Mehrheit: 79,3 Prozent derjenigen mit erhöhtem HbA1c, 76,2 Prozent mit hohen Triglyzeriden, 74,2 Prozent mit erhöhter Nüchternglukose. Das ist ein großer Datensatz für diesen Bereich der digitalen Gesundheit, und die Versuchung ist groß, diese Prozentwerte als Ergebnis zu lesen. Bevor man das tut, lohnt es sich, zuerst die letzte Seite der Arbeit aufzuschlagen.
Alle sechs Autor:innen sind Beschäftigte von InsideTracker, dem Unternehmen, dessen Plattform untersucht wurde; die Studie wurde von InsideTracker finanziert; und die Autor:innen halten Aktienoptionen daran. Nüchtern gesagt: Es gibt keine Trennung zwischen dem Forschungsteam und der Finanzierungsquelle. Das macht die Daten nicht wertlos — ein Unternehmen, das seine eigenen Nutzenden untersucht, ist oft die einzige Stelle, die über die Daten dafür verfügt —, aber es legt den Maßstab fest, mit dem man als sorgfältige:r Leser:in herangeht, und es ist der Grund, das Studiendesign vor den Befunden zu lesen.
Was die Forschenden getan haben
Es handelt sich um eine retrospektive, beobachtende, längsschnittliche Kohortenstudie, erschienen in PLOS Digital Health. Die Forschenden blickten zurück auf Nutzende einer Plattform, die Blutbiomarker — 39 davon, von LDL-Cholesterin und HbA1c bis Vitamin D und Kortisol — mit Daten aus Fitness-Trackern und polygenen Risikowerten verbindet, um Empfehlungen zur Lebensführung zu erstellen. Sie identifizierten alle mit mindestens zwei Blutentnahmen im Abstand von mindestens 90 Tagen (n=20.342), maßen die Veränderung der Werte zwischen Ausgangs- und Folgemessung (im Median 260 Tage auseinander) und berichteten den Anteil derer, die sich verbesserten. Eine Teilgruppe mit fünf oder mehr Messungen über durchschnittlich rund 4,2 Jahre erlaubte die Frage, ob frühe Verbesserungen anhielten. Eine Kontrollgruppe gab es nicht. Niemand Vergleichbares wurde ohne die Plattform begleitet.
Was die Evidenz belegt
Unter den Nutzenden, die in einem suboptimalen Bereich begannen, bewegte sich die Mehrheit bei den Werten, die am stärksten auf Ernährung und Bewegung reagieren, in die richtige Richtung. Die glukosebezogenen Marker führten — HbA1c, Nüchternglukose und Triglyzeride verbesserten sich bei etwa drei von vier Nutzenden —, während sich das LDL-Cholesterin, das auf Lebensstil allein weit weniger anspricht, nur bei 20,4 Prozent verbesserte. Dieses Gefälle ist selbst aufschlussreich: Die Marker, die auf Verhalten reagieren sollten, taten es; der eine, der das weitgehend nicht tut, tat es nicht. Und in der länger begleiteten Teilgruppe blieben die frühen Verbesserungen über mehrere Jahre weitgehend erhalten, statt zurückzufallen. Anhaltende Veränderung lässt sich schwerer wegerklären als ein einmaliger Ausschlag bei der Folgemessung.
Was die Evidenz nicht belegt
Die Studie kann nicht belegen, dass die Plattform die Verbesserung verursacht hat, und das sagen die Autor:innen anerkennenswerterweise selbst — sie nennen die Analyse explorativ und die Schlüsse hypothesengenerierend. Unter diesem Vorbehalt liegen zwei Probleme. Das erste ist die Regression zur Mitte: Wählt man Menschen gerade deshalb aus, weil ein Wert auffällig war, zieht allein die Wiederholungsmessung den Gruppenmittelwert wieder Richtung Normalbereich — ganz ohne Intervention. Die Autor:innen gehen darauf direkt ein und argumentieren, dass eine über Jahre stabile Verbesserung schwer allein mit Regression zu erklären sei. Das ist ein fairer Einwand, und es ist kein Beweis; eine motivierte, sich selbst beobachtende Kohorte kann bessere Werte aus vielen Gründen halten, die mit den Empfehlungen nichts zu tun haben.
Das zweite Problem ist, wer diese Nutzenden sind. Die Kohorte ist zu 64,2 Prozent männlich, zu 84,3 Prozent weiß, in den USA ansässig und selbstselektiert — Menschen, gesundheitsbewusst und wohlhabend genug, um wiederholte private Blutpanels zu bezahlen. Das ist nahezu das Gegenteil einer repräsentativen Bevölkerung, und es ist genau die Gruppe, die sich am ehesten von selbst verbessert. Ohne einen Vergleichsarm ähnlicher Personen ohne die Plattform bleibt die Gegenfrage — was ohnehin geschehen wäre — unbeantwortbar. Ein hoher Anteil mit Verbesserung ist vereinbar mit einer Plattform, die wirkt, und ebenso mit einer, die schlicht Menschen anzieht, die sich ohnehin verbessert hätten.
“Ein hoher Anteil mit Verbesserung ist vereinbar mit einer Plattform, die wirkt — und ebenso mit einer, die Menschen anzieht, die sich ohnehin verbessert hätten.”
Warum das hier zählt
Das untersuchte Modell — Blutwerte, Wearables und genetisches Risiko zu personalisierter Prävention zu verbinden — trifft laufende europäische Debatten über digitale Prävention und erstattungsfähige Gesundheitsanwendungen, in denen die Frage nach dem Evidenzmaßstab für einen behaupteten klinischen Nutzen die ganze Sache ist. Diese Arbeit ist dafür ein nützliches Lehrstück. Sie ist eine kompetent berichtete, ungewöhnlich große Real-World-Kohorte, und sie ist ehrlich über ihre Grenzen. Sie ist zugleich nicht die Studie, die einen Präventionsanspruch rechtfertigen könnte, weil ihr Design die Intervention nicht von den Menschen trennen kann, die sie gewählt haben. Für alle, die solche Werkzeuge abwägen, lautet die Lehre nicht, dass Real-World-Daten wertlos seien; sondern dass Real-World-Daten ohne Vergleichsgruppe eine engere Frage beantworten, als der Prozentwert in der Schlagzeile nahelegt.
Quelle: Schneider N, Fabian P, Cawley M, Nogal B, Blander G, Deehan R. Improvements in blood and fitness tracker biomarkers in a longitudinal real-world cohort of digital health platform users. PLOS Digital Health 2026;5(3):e0001271. Eine retrospektive, beobachtende Kohorte ohne Kontrollarm, finanziert von und vollständig verfasst durch Beschäftigte des Unternehmens, dessen Plattform untersucht wurde; ihre Befunde sind, in den Worten der Autor:innen, hypothesengenerierend.


