18. Juni 20264 Min. Lesezeit

Wearables und Demenz: ein starkes Signal auf dünner Validierung

Ein systematisches Review von 49 Studien: Gestörter Schlaf und veränderte Aktivität begleiten den kognitiven Abbau, oft Jahre im Voraus. Drei der Studien haben ihr Modell extern geprüft. Das Signal ist real, die Validierungsgrundlage für eine Früherkennung noch nicht.

Dr. Sven Jungmann

CEO

Editorial-Collage: das Handgelenk eines älteren Menschen mit schlichtem Band, als Teal-Bogen dargestellt, darunter blasse Aktivitätskurven und ein einzelner Amber-Punkt an der einzigen extern validierten Verbindung.

49 Studien kamen in dieses Review. Drei davon haben ihr Vorhersagemodell an Daten einer anderen Einrichtung geprüft als jener, die es entwickelt hat. Das sind 6,1 Prozent. Diese Zahl sollten Sie sich merken: Sie trägt mehr als alles andere in der Arbeit.

Das Review von Cejudo und Kolleg:innen im Journal of Medical Internet Research wertet die Literatur der Jahre 2020 bis 2025 zu tragbaren Geräten und der Früherkennung kognitiver Beeinträchtigung und Demenz systematisch aus. Die Idee dahinter finden die meisten Kliniker:innen zu Recht reizvoll: Schlaf, körperliche Aktivität und zirkadianer Rhythmus verändern sich messbar in den Jahren, bevor ein Mensch einen kognitiven Test nicht mehr besteht — und ein Gerät am Handgelenk erfasst alle drei kontinuierlich, passiv, zu nahezu keinen Kosten. Ließen sich diese Signale früh als Risiko erkennen, öffnete sich das Interventionsfenster Jahre eher. Die Frage des Reviews ist die richtige: nicht, ob das Signal existiert, sondern ob die Evidenz reif genug ist, um danach zu handeln.

Was die Forschenden getan haben

Es handelt sich um ein systematisches Review mit strukturierter narrativer Synthese, nicht um eine Metaanalyse — die Autor:innen hielten die Studien für zu heterogen in Geräten, Endpunkten und Methoden, um sie zusammenzufassen. Das ist eine ehrliche Entscheidung, keine Abkürzung. Die Suche ergab 7.175 Treffer und verengte sich nach dem Screening auf 49 eingeschlossene Studien; gearbeitet wurde nach der PRISMA-2020-Leitlinie. Die 49 Studien umfassten zusammen mehr als 200.000 Teilnehmende, doch die Streuung erzählt die eigentliche Geschichte: Die Stichprobengrößen reichten von 14 bis 91.948, der Median lag bei gerade 145 Personen. Das Review wurde nicht prospektiv registriert, was die Autor:innen anmerken.

Was die Evidenz belegt

Das Verhaltenssignal ist konsistent und biologisch plausibel. Über die Studien hinweg waren gestörter Schlaf, ein fragmentierter zirkadianer Rhythmus und unregelmäßige Aktivität mit schlechterer Kognition assoziiert, bei mäßigen bis mittleren Effektgrößen. Der wichtigere Befund liegt in den Längsschnittkohorten: Gestörte Schlaf-Wach-Muster können einer klinisch offensichtlichen Beeinträchtigung um mehrere Jahre vorausgehen. Bei einer Erkrankung, deren behandelbares Fenster früh aufgeht und leise wieder zugeht, ist ein früher, passiver Marker ernst zu nehmen.

Eine Reihe von Studien ging über die Assoziation hinaus zur Vorhersage. Die meisten Arbeiten (28 von 49, 57,1 Prozent) waren auf Früherkennung ausgerichtet, doch nur 11 (22,4 Prozent) berichteten quantitative Ergebnisse, die unmittelbar darauf zielten; der Rest lieferte indirekte Evidenz. Wo maschinelles Lernen oder tiefe neuronale Netze zum Einsatz kamen, lagen die Werte für die Fläche unter der Grenzwertoptimierungskurve (AUROC, ein Maß dafür, wie gut ein Modell Erkrankte von Nichterkrankten trennt) zwischen etwa 0,70 und 0,95. Auf dem Papier reicht diese Spanne von mittelmäßiger bis ausgezeichneter Trennschärfe.

Was die Evidenz nicht belegt

Hier muss man als Leser:in innehalten, denn die Lücke zwischen Schlagzeile und Evidenz ist breit. Der größte Teil der Arbeiten — 73,5 Prozent (36 von 49) — nutzte klassische statistische Verfahren: belegt wurde, dass ein Marker mit Kognition assoziiert ist, nicht, dass ein Modell die individuelle Zukunft daraus vorhersagen kann. Assoziation und Vorhersage sind nicht dieselbe Aussage. Ein hoher AUROC, der nur an dem Datensatz berichtet wird, an dem ein Modell trainiert wurde, sagt aus, wie gut das Modell zu diesen Daten passt — nicht, wie es sich bei den Patient:innen der nächsten Klinik verhält. Das zeigt sich in den Koeffizienten selbst: In kleinen Studien fielen die standardisierten Effekte größer aus (β≈0,35-0,55), in den großen Kohorten schrumpften sie auf β≈0,10-0,25 oder Odds Ratios von 1,3-1,8 — die Signatur einer Überanpassung, nicht einer stärkeren Wahrheit.

Zwei strukturelle Befunde machen den Punkt. Die belastbarsten Daten stammen aus forschungstauglicher Aktigraphie — Laborgeräten wie der Actiwatch oder dem ActiGraph, eingesetzt in 43 der 49 Studien (87,8 Prozent). Verbrauchergeräte, die Fitbits und Apple Watches, auf die sich ein Früherkennungsprogramm tatsächlich stützen müsste, tauchten nur in 7 Studien auf (14,3 Prozent). Die beste Evidenz gilt also für Geräte, die die meisten Menschen nie tragen werden. Und von allen 49 Modellen wurden drei je außerhalb der Einrichtung geprüft, die sie entwickelt hat. Ein Vorhersagemodell, das nie an externen Daten validiert wurde, ist im genauen Sinne ein Modell, dessen Leistung Sie über den eigenen Datensatz hinaus noch nicht vertrauen können.

“Ein starkes frühes Signal und eine schwache Validierungsevidenz sind kein Widerspruch. Beides gehört vollständig und gleichgewichtig in jede seriöse Bewertung.”

Warum das zählt

In Deutschland sind nach aktuellen Schätzungen rund 1,8 Millionen Menschen von Demenz betroffen, und der Wunsch nach einem günstigen, passiven Frühwarnwerkzeug ist verständlich. Dieses Review ist gerade deshalb nützlich, weil es diesen Wunsch kalibriert. Das Signal ist real: Verhaltensmarker verschieben sich vor der Diagnose. Die Infrastruktur, die dieses Signal in ein klinisches Früherkennungsinstrument verwandeln würde — externe Validierung, Verbrauchergeräte, prospektive Nachverfolgung, Stichproben jenseits von 145 —, existiert in dem Umfang, den die Aussage verlangt, noch nicht. Das ist kein Grund, das Feld abzutun. Es ist das Pflichtenheft für die Studien, die folgen müssen, und eine Erinnerung daran, dass ein digitaler Biomarker das Wort „Früherkennung“ erst verdient, wenn er an Patient:innen funktioniert hat, die er nie zuvor gesehen hat.

Quelle: Cejudo A, Arrojo M, Martín C, Almeida A. AI and Wearables for Early Detection of Cognitive Impairment and Dementia: Systematic Review. J Med Internet Res 2026;28:e86262. Finanziert von der Vicomtech Foundation, Baskenland, Spanien; keine Interessenkonflikte angegeben. Es handelt sich um ein begutachtetes systematisches Review mit narrativer Synthese — ohne gepoolte Schätzung und ohne eigene Primärdaten; es beschreibt den Stand einer jungen, überwiegend assoziativen Literatur, nicht einen validierten Früherkennungstest.

#Journal Club#Digitale Biomarker#Demenz#Evidenzbasierte Medizin#Wearables

Wearables und Demenz: ein starkes Signal auf dünner Validierung

Was die Forschenden getan haben

Was die Evidenz belegt

Was die Evidenz nicht belegt

Warum das zählt

Weiterlesen

Die beste App der Welt – und niemand auf der Station, der sie nutzt

Ein C-Index von 0,805 — auf 97 Prozent Heterogenität gebaut

GPT-5 liest das PET-Bild selbstbewusst — und übersieht die Metastasen, auf die es ankommt

Diese Analyse stammt von den Leuten hinter Visite.

Sie möchten das in Ihrer Klinik sehen?