Zum Hauptinhalt springen
4 Min. Lesezeit

Zwanzigtausend Nutzende, kein Kontrollarm: Wie man eine Real-World-Kohorte ehrlich liest

Die bislang größte Real-World-Kohorte zu einer Verbraucherplattform aus Blutwerten und Wearables berichtet: Die meisten Nutzenden mit schlechten Ausgangswerten verbesserten sich. Die Zahlen sind echt. Ohne Vergleichsgruppe bleibt offen, ob die Plattform der Grund ist.

Dr. Sven Jungmann

Dr. Sven Jungmann

CEO

Editorial-Collage: ein Unterarm bei der Blutabnahme, gerahmt von einem Tealkreis mit einer einzelnen steigenden Linie ohne Vergleichslinie daneben, dazu ein einzelner Amber-Akzent.

Bei 20.342 Personen wurde mindestens zweimal Blut abgenommen, während sie dieselbe Verbraucher-Gesundheitsplattform nutzten, und unter denen, die mit einem schlechten Wert begannen, verbesserte sich die Mehrheit: 79,3 Prozent derjenigen mit erhöhtem HbA1c, 76,2 Prozent mit hohen Triglyzeriden, 74,2 Prozent mit erhöhter Nüchternglukose. Das ist ein großer Datensatz für diesen Bereich der digitalen Gesundheit, und die Versuchung ist groß, diese Prozentwerte als Ergebnis zu lesen. Bevor man das tut, lohnt es sich, zuerst die letzte Seite der Arbeit aufzuschlagen.

Alle sechs Autor:innen sind Beschäftigte von InsideTracker, dem Unternehmen, dessen Plattform untersucht wurde; die Studie wurde von InsideTracker finanziert; und die Autor:innen halten Aktienoptionen daran. Nüchtern gesagt: Es gibt keine Trennung zwischen dem Forschungsteam und der Finanzierungsquelle. Das macht die Daten nicht wertlos — ein Unternehmen, das seine eigenen Nutzenden untersucht, ist oft die einzige Stelle, die über die Daten dafür verfügt —, aber es legt den Maßstab fest, mit dem man als sorgfältige:r Leser:in herangeht, und es ist der Grund, das Studiendesign vor den Befunden zu lesen.

Was die Forschenden getan haben

Es handelt sich um eine retrospektive, beobachtende, längsschnittliche Kohortenstudie, erschienen in PLOS Digital Health. Die Forschenden blickten zurück auf Nutzende einer Plattform, die Blutbiomarker — 39 davon, von LDL-Cholesterin und HbA1c bis Vitamin D und Kortisol — mit Daten aus Fitness-Trackern und polygenen Risikowerten verbindet, um Empfehlungen zur Lebensführung zu erstellen. Sie identifizierten alle mit mindestens zwei Blutentnahmen im Abstand von mindestens 90 Tagen (n=20.342), maßen die Veränderung der Werte zwischen Ausgangs- und Folgemessung (im Median 260 Tage auseinander) und berichteten den Anteil derer, die sich verbesserten. Eine Teilgruppe mit fünf oder mehr Messungen über durchschnittlich rund 4,2 Jahre erlaubte die Frage, ob frühe Verbesserungen anhielten. Eine Kontrollgruppe gab es nicht. Niemand Vergleichbares wurde ohne die Plattform begleitet.

Was die Evidenz belegt

Unter den Nutzenden, die in einem suboptimalen Bereich begannen, bewegte sich die Mehrheit bei den Werten, die am stärksten auf Ernährung und Bewegung reagieren, in die richtige Richtung. Die glukosebezogenen Marker führten — HbA1c, Nüchternglukose und Triglyzeride verbesserten sich bei etwa drei von vier Nutzenden —, während sich das LDL-Cholesterin, das auf Lebensstil allein weit weniger anspricht, nur bei 20,4 Prozent verbesserte. Dieses Gefälle ist selbst aufschlussreich: Die Marker, die auf Verhalten reagieren sollten, taten es; der eine, der das weitgehend nicht tut, tat es nicht. Und in der länger begleiteten Teilgruppe blieben die frühen Verbesserungen über mehrere Jahre weitgehend erhalten, statt zurückzufallen. Anhaltende Veränderung lässt sich schwerer wegerklären als ein einmaliger Ausschlag bei der Folgemessung.

Was die Evidenz nicht belegt

Die Studie kann nicht belegen, dass die Plattform die Verbesserung verursacht hat, und das sagen die Autor:innen anerkennenswerterweise selbst — sie nennen die Analyse explorativ und die Schlüsse hypothesengenerierend. Unter diesem Vorbehalt liegen zwei Probleme. Das erste ist die Regression zur Mitte: Wählt man Menschen gerade deshalb aus, weil ein Wert auffällig war, zieht allein die Wiederholungsmessung den Gruppenmittelwert wieder Richtung Normalbereich — ganz ohne Intervention. Die Autor:innen gehen darauf direkt ein und argumentieren, dass eine über Jahre stabile Verbesserung schwer allein mit Regression zu erklären sei. Das ist ein fairer Einwand, und es ist kein Beweis; eine motivierte, sich selbst beobachtende Kohorte kann bessere Werte aus vielen Gründen halten, die mit den Empfehlungen nichts zu tun haben.

Das zweite Problem ist, wer diese Nutzenden sind. Die Kohorte ist zu 64,2 Prozent männlich, zu 84,3 Prozent weiß, in den USA ansässig und selbstselektiert — Menschen, gesundheitsbewusst und wohlhabend genug, um wiederholte private Blutpanels zu bezahlen. Das ist nahezu das Gegenteil einer repräsentativen Bevölkerung, und es ist genau die Gruppe, die sich am ehesten von selbst verbessert. Ohne einen Vergleichsarm ähnlicher Personen ohne die Plattform bleibt die Gegenfrage — was ohnehin geschehen wäre — unbeantwortbar. Ein hoher Anteil mit Verbesserung ist vereinbar mit einer Plattform, die wirkt, und ebenso mit einer, die schlicht Menschen anzieht, die sich ohnehin verbessert hätten.

Ein hoher Anteil mit Verbesserung ist vereinbar mit einer Plattform, die wirkt — und ebenso mit einer, die Menschen anzieht, die sich ohnehin verbessert hätten.

Warum das hier zählt

Das untersuchte Modell — Blutwerte, Wearables und genetisches Risiko zu personalisierter Prävention zu verbinden — trifft laufende europäische Debatten über digitale Prävention und erstattungsfähige Gesundheitsanwendungen, in denen die Frage nach dem Evidenzmaßstab für einen behaupteten klinischen Nutzen die ganze Sache ist. Diese Arbeit ist dafür ein nützliches Lehrstück. Sie ist eine kompetent berichtete, ungewöhnlich große Real-World-Kohorte, und sie ist ehrlich über ihre Grenzen. Sie ist zugleich nicht die Studie, die einen Präventionsanspruch rechtfertigen könnte, weil ihr Design die Intervention nicht von den Menschen trennen kann, die sie gewählt haben. Für alle, die solche Werkzeuge abwägen, lautet die Lehre nicht, dass Real-World-Daten wertlos seien; sondern dass Real-World-Daten ohne Vergleichsgruppe eine engere Frage beantworten, als der Prozentwert in der Schlagzeile nahelegt.

Quelle: Schneider N, Fabian P, Cawley M, Nogal B, Blander G, Deehan R. Improvements in blood and fitness tracker biomarkers in a longitudinal real-world cohort of digital health platform users. PLOS Digital Health 2026;5(3):e0001271. Eine retrospektive, beobachtende Kohorte ohne Kontrollarm, finanziert von und vollständig verfasst durch Beschäftigte des Unternehmens, dessen Plattform untersucht wurde; ihre Befunde sind, in den Worten der Autor:innen, hypothesengenerierend.

#Journal Club#Digitale Gesundheit#Evidenzbasierte Medizin#Prävention#Real-World-Evidenz

Weiterlesen

Editorial-Collage: behandschuhte Hände einer Pflegekraft lösen einen Verband, darunter ein Tealraster als Kalender und ein einzelner Amber-Punkt für eine Woche, auf warmem Steinpapier.

Eine Woche früher: Was ein KI-Heilungsindex tatsächlich schlägt

Eine große retrospektive Studie berichtet, dass ein KI-Heilungsindex eine stockende Wunde eine Woche eher erkennt als das übliche Maß. Das Signal ist real und bescheiden — und die Studie stammt von dem Unternehmen, das den Index verkauft.

Dr. Sven JungmannCEO

Diese Analyse stammt von den Leuten hinter Visite.

Unser wöchentlicher Newsletter zu KI in der Medizin. Jeden Freitag, gründlich geprüft.

Mit der Anmeldung stimmen Sie dem Erhalt von Visite per E-Mail zu. Abmeldung jederzeit. Mehr in unserer Datenschutzerklärung.

Sie möchten das in Ihrer Klinik sehen?

30 Minuten. Ihre Fragen. Unser Arzt-Gründer zeigt Ihnen die Plattform persönlich.

Termin vereinbaren

Unverbindlich. Kein Vertrieb. Arzt zu Arzt.