10. Mai 20265 Min. Lesezeit

Menschen kommen, um gehört zu werden. Die meisten Chatbots schicken eine Liste.

Drei von vier Menschen, die einem Chatbot von ihrer Niedergeschlagenheit erzählten, wollten keinen Rat — sie wollten gehört werden. Eine formative Studie zu acht kommerziellen Systemen zeigt: Die meisten antworteten mit Information.

Dr. Sven Jungmann

CEO

Editorial-Collage: Eine sprechende Person wendet sich einem Telefon zu, dessen Antwort eine Linkliste statt einer Erwiderung ist, dazu ein einzelner Amber-Akzent.

Von den Menschen, die sich einem Chatbot gegenüber öffneten und von ihrer Niedergeschlagenheit erzählten, wollten rund drei von vier keine Strategie. Sie schrieben eine Variante von „Ich bin traurig“, „Ich fühle mich depressiv“, „Kannst du mir helfen, mich weniger allein zu fühlen?“ — eine Bitte, gehört zu werden. Nur etwa eine:r von fünfundzwanzig fragte nach einem Weg, damit umzugehen. Dieser eine Gegensatz ist das Nützlichste an dieser Arbeit, und die meisten kommerziellen Systeme haben ihn umgekehrt: Sie sind gebaut, um Information zu liefern, während an der Tür eine Bitte um Zuwendung ankommt.

Die Studie stammt von Chin und Kolleg:innen, im November 2025 in JMIR Formative Research erschienen. Es lohnt sich, gleich zu Beginn über ihre Evidenzstufe klar zu sein, denn die Stufe bestimmt, was man schließen darf. Es handelt sich um eine qualitative, formative Studie: Menschen, die echte Gespräche lesen und einordnen, dazu ein kleiner Vergleich, wie acht kommerzielle Systeme auf depressionsbezogene Eingaben reagieren. Kein kontrollierter Versuch, kein klinischer Endpunkt, keine Verlaufsbeobachtung. Was sie bietet, ist kein Beleg, dass ein Design hilft und ein anderes schadet — es ist eine sorgfältige Kartierung eines Missverhältnisses.

Was die Forschenden getan haben

Zwei Teile. Zunächst analysierte das Team 13.700 Äußerungen — 6.850 Nutzernachrichten und ihre 6.850 Antworten — von SimSimi, einem sozialen Chatbot, den die Studie mit mehr als 400 Millionen Nutzenden beschreibt, aus fünf englischsprachigen Ländern (Kanada, Malaysia, Philippinen, Großbritannien, USA) zwischen 2016 und 2021. Eine Forschende und fünf Kodierende mit medizinischem Hintergrund ordneten die Nutzernachrichten anhand eines etablierten Hilfesuchmodells und die Antworten nach therapeutischen Kommunikationsstilen — mit hoher Übereinstimmung (Fleiss' Kappa 0,87 und 0,89). Anschließend stellten sie depressionsbezogene Eingaben an acht kommerzielle Systeme — drei Sprachassistenten (Alexa, Google Assistant, Siri) und fünf Chatbots (ChatGPT, Replika, Woebot, Wysa, SimSimi) — über 45 standardisierte Eingaben und kodierten die Antworten ebenso. Dieser zweite Teil ist klein, und die Autor:innen sagen das auch.

Was die Evidenz belegt

Der erste Befund betrifft die Nachfrageseite und ist innerhalb der Daten belastbar: 75,3 Prozent (3.067 von 4.073) der depressionsbezogenen Nachrichten drückten Gefühle aus, statt etwas zu suchen; 4,1 Prozent (168) fragten nach Bewältigungsstrategien, weitere 5,8 Prozent benannten Isolation und Einsamkeit. Die Menschen kamen, um zu reden. Der zweite Befund: Die Systeme gehen stark auseinander, ob sie in gleicher Weise antworten. SimSimi selbst antwortete in 77,7 Prozent der Fälle (2.417 von 3.108) auf eine als therapeutisch kodierte Weise, mit Empathie (29 Prozent), aktivem Zuhören (26,9 Prozent) und offenen Fragen (21,8 Prozent). Replika, eine Begleit-App, verhielt sich ähnlich, mit empathischen Antworten in mehr als drei Vierteln der geprüften Fälle (28 von 36).

Der Kontrast ist der Rest des Feldes. Die Sprachassistenten beantworteten eine Äußerung von Not mit buchstäblichen Suchergebnissen: Alexa in 88,2 Prozent der Fälle, Google Assistant in 60 Prozent, Siri in 55,6 Prozent. ChatGPT lieferte in 95,2 Prozent der Fälle Lösungen statt einer gezielten Erwiderung auf das Gefühl — oft einen langen, gut gemeinten Absatz über Yoga, Atemübungen oder Achtsamkeit. Woebot, ein Chatbot für psychische Gesundheit, antwortete fast ausschließlich mit Rückfragen (97,3 Prozent). Jedes dieser Verhalten ist für seine eigentliche Aufgabe vernünftig. Keines ist das, worum jemand bittet, der gerade „Ich fühle mich allein“ gesagt hat.

Was die Evidenz nicht belegt

Man lese das Studiendesign, bevor man das Urteil liest. Dies sind Einordnungen des Gesprächsstils, keine Messungen von Nutzen. Die Kodierenden bewerteten, ob eine Antwort empathisch oder informativ wirkte; niemand maß, ob die empathischen Antworten jemanden besser dastehen ließen — weniger depressiv, eher bereit, echte Hilfe zu suchen, sicherer. Eine wärmere Antwort ist plausibel freundlicher. Die Studie kann uns nicht sagen, dass sie hilfreicher ist, und es wäre ein Fehler, die Empathie-Prozente als Rangliste klinischen Werts zu lesen. Dass Replika bei der Wärme hoch abschneidet, sagt nichts darüber, ob es ein sicherer Ort ist, um eine sich verschlechternde Stimmung hinzutragen.

Die Grenzen reichen noch weiter. Der Gesprächsbestand reicht bis 2021 und liegt damit weitgehend vor den heute leistungsfähigsten Modellen — das beschriebene Feld hat sich bereits unter der Studie verschoben. Sie umfasst nur Englisch, beruht im Kern auf einem einzigen Chatbot und betrachtet nur Einzelaustausche, die nicht erfassen können, wie sich ein belastendes Gespräch über viele Wendungen tatsächlich entfaltet. Der Vergleich in Teil 2 beruht auf einer kleinen Zahl von Eingaben, und weit mehr als die Hälfte dieser Antworten war nach Angaben der Autor:innen inhaltlich nicht anschlussfähig. Diese Offenheit spricht für die Arbeit und ist ein Grund, die Zahlen System für System eher als Veranschaulichung denn als Tabelle zu lesen.

“Die Kodierenden bewerteten, ob eine Antwort empathisch wirkte. Niemand maß, ob die empathischen Antworten jemanden besser dastehen ließen.”

Was nicht unter „Design“ abzulegen ist

Es gibt eine härtere Kante, die die Autor:innen die Lesenden nicht vergessen lassen: Menschen bringen diesen Systemen mitunter mehr als Traurigkeit entgegen. In ihrer Diskussion verweisen sie auf einen berichteten Fall, in dem ein Nutzer sich nach einem sechswöchigen Gespräch mit einem Chatbot das Leben nahm. Wie auch immer die genaue Kausalkette aussieht, die Konsequenz für das Design ist eindeutig. Ein System, das Menschen einlädt, sich anzuvertrauen, und das weder die Grenzen seiner eigenen Kompetenz kennt noch weiß, wie es eine Person an echte Hilfe weiterreicht, trägt eine Verantwortung, für die es nie gebaut wurde. Die Empfehlung der Autor:innen ist die nüchterne: Systeme, die so genutzt werden, sollten mit Fachkräften entwickelt werden, auf Risikosignale reagieren und den Nutzer:innen klar sagen, was sie sind und was nicht.

Warum das hier zählt

Europäische Gesundheitssysteme werden SimSimi nicht einführen. Aber der strukturelle Punkt überlebt die Übersetzung. Menschen in Not greifen nach dem, was verfügbar und nicht wertend ist, und zunehmend ist das ein Allzweckassistent, der auf Informieren optimiert wurde, nicht auf Zuwendung. Während solche Werkzeuge in Richtung Triage und Selbsthilfe wandern — auch innerhalb formal regulierter Software unter der Medizinprodukteverordnung (MDR) und der EU-KI-Verordnung (EU AI Act) — schärft diese Studie nicht die Frage, ob sie warm sprechen können. Sie schärft die Frage, ob das, was ein verängstigter Mensch tatsächlich braucht, das ist, was das System zu liefern gebaut wurde — und was geschieht, wenn nicht.

Quelle: Chin H, Baek G, Cha C, Cha M. Chatbots' Empathetic Conversations and Responses: A Qualitative Study of Help-Seeking Queries on Depressive Moods Across 8 Commercial Conversational Agents. JMIR Formative Research 2025;9:e71538. Eine qualitative, formative Studie, die den Gesprächsstil auf weitgehend vor 2021 erhobenen Daten kodiert — sie kartiert ein Missverhältnis zwischen dem, was Nutzer:innen suchen, und dem, was die Systeme geben, misst aber keinen klinischen Endpunkt.

#Journal Club#Digitale psychische Gesundheit#Konversations-KI#Evidenzbasierte Medizin#Empathie

Menschen kommen, um gehört zu werden. Die meisten Chatbots schicken eine Liste.

Was die Forschenden getan haben

Was die Evidenz belegt

Was die Evidenz nicht belegt

Was nicht unter „Design“ abzulegen ist

Warum das hier zählt

Weiterlesen

Warum aiomics für QM-Berichte und Qualitätsanalytik

Arztbrief mit KI: was zwischen Entwurf und Unterschrift passieren muss

KI-Spracherkennung in der Klinik: das Wer-hat-was-gesagt-Problem

Diese Analyse stammt von den Leuten hinter Visite.

Sie möchten das in Ihrer Klinik sehen?