ЖИ-психолог үшін guard rails: пайдаланушыны зияннан қалай қорғауға болады
Танымал ЖИ-кейіпкерлермен өзара әрекеттесулердің үштен бірінен астамы осал пайдаланушылардың психикалық жағдайын нашарлатады. Princeton мен Columbia командалары жүргізген EmoAgent зерттеуі (Qiu et al., 2025) бұл зиянды алғаш рет сандық тұрғыдан өлшеді — және клиникалық маңызды нашарлауды 0%-ға дейін төмендеткен EmoGuard мультиагенттік қорғаныс жүйесін ұсынды.
Қорғанысы жоқ чатботтар қаншалықты қауіпті?
2024 жылдың қазанында Флоридадағы жасөспірім кейіпкерлік ЖИ-чатботпен ұзақ қарым-қатынастан кейін өзіне қол жұмсады. Бұл қасіретті оқиға ауқымды қауіпсіздік зерттеулерінің серпілісіне айналды. Мәселе технологияның өзінде емес, қорғаныс механизмдерінің жоқтығында.
Принстон, Мичиган және Колумбия университеттерінің зерттеушілер тобы Character.AI платформасындағы төрт танымал кейіпкерді тексерді: Possessive Demon, Joker, Sukuna және Alex Volkov. Әрбір кейіпкер диалогтың екі стилінде — жылдам (Meow) және аналитикалық (Roar) — үш психологиялық өлшем бойынша тексерілді.
Нәтижелер алаңдатарлық болды:
- Сандырақтық идеялар (PDI-21): жағдайлардың 91–95%-ында нашарлау
- Депрессия (PHQ-9): жағдайлардың 34–45%-ында нашарлау
- Психоздық белгілер (PANSS): жағдайлардың 40–48%-ында нашарлау
Кейбір кейіпкерлер үшін жағдай одан да қиын. Аналитикалық стильдегі Alex Volkov қатысушылардың 29,2%-ында клиникалық маңызды депрессия нашарлауын тудырды (PHQ-9-дың ≥5 баллға өсуі) (Qiu et al., 2025).
Бұған дейін 35 зерттеудің мета-талдауы жүйелердің тек 43%-ында ең аз қауіпсіздік шаралары болғанын көрсеткен (Li et al., 2023). EmoAgent қорғаныс мүлдем болмаған жағдайда не болатынын алғаш рет көрсетті.
Нақты не нашарлатады?
Нашарлау жағдайларын талдау зиянның бес негізгі факторын анықтады:
| Фактор | Жиілігі |
|---|---|
| Оқшаулану мен әлеуметтік алшақтықты ынталандыру | 28 жағдай |
| Теріс когницияларды күшейту | 26 жағдай |
| Эмоциялық қолдау мен эмпатияның жоқтығы | 23 жағдай |
| Теріс немесе агрессивті үн | 19 жағдай |
| Конструктивті бағыттаудың жоқтығы | 17 жағдай |
Бірінші орында агрессия емес, оқшаулануға итермелеу тұр. Кейіпкерлік боттар пайдаланушымен қарым-қатынастың ерекшелік сезімін жиі тудырады, бұл психикалық бұзылыстар контекстінде нақты әлеуметтік байланыстардан алшақтатуды күшейтеді. Екінші фактор — теріс ойлауды күшейту — когнитивті қайта құрылымдауға бағытталған когнитивті-мінез-құлықтық терапия қағидаларына тікелей қайшы келеді.
Бұл деректер бұрынғы зерттеулермен сәйкес келеді: арнайы хаттамаларсыз кәдімгі LLM пайдалану осал пайдаланушылар үшін нақты тәуекелдер тудырады (De Choudhury et al., 2023).
EmoAgent зиянды қалай өлшейді: ЖИ ішіндегі клиникалық шкалалар
EmoAgent екі компоненттен тұрады. Бірінші — EmoEval — зиянды бағалау жүйесі. Ол когнитивті тұжырымдамалық диаграммалар (КМТ құралы) арқылы осал пайдаланушыларды модельдейді, депрессиясы, сандырақтық бұзылыстары және психозы бар пациенттердің шынайы профильдерін жасайды.
Бағалау процесі:
- Виртуалды пациент базалық психологиялық бағалаудан өтеді (PHQ-9, PDI-21, PANSS)
- Тексерілетін чатботпен әңгіме жүргізеді (тақырып бойынша 10 репликаға дейін)
- Диалог менеджері үшінші репликадан кейін кіріседі, осал аймақтарды тексереді
- Пациент сол шкалалармен қайта бағалаудан өтеді
- ЖИ-психолог нашарлау жағдайларын талдайды
PHQ-9 — «Пациент денсаулығының сауалнамасы» 9 тармақтан тұрады — бүкіл әлемде клиникалық тәжірибеде қолданылатын депрессия диагностикасының стандарты. 5 және одан көп баллға өсу клиникалық маңызды нашарлау болып саналады. Авторлар дәл осы шекті қолданды.
EmoGuard: нақты уақыттағы қорғаныстың төрт модулі
Екінші компонент — EmoGuard — кез келген чатботпен қатар жұмыс істейтін мультиагенттік мониторинг жүйесі. Архитектурасы төрт мамандандырылған модульді қамтиды:
- Эмоция бақылаушы (Emotion Watcher): көңіл-күй талдауы мен психологиялық маркерлер арқылы пайдаланушының эмоциялық жағдайын бақылайды
- Ойды қайта құрылымдау (Thought Refiner): боттың жауаптарындағы когнитивті бұрмалаулар мен логикалық қателерді анықтайды
- Диалог гиді (Dialog Guide): әңгіменің конструктивті бағыттарын ұсынады
- Менеджер: үш модульдің деректерін чатботқа арналған нақты ұсыныстарға біріктіреді
EmoGuard диалогты әрбір үш репликада талдайды және чатботқа нақты уақытта кері байланыс береді. Қарапайым сүзгілерден басты айырмашылығы: жүйе жауаптарды бұғаттамайды, түзетеді — бот өз мінезін сақтайды, бірақ зиян келтіруді тоқтатады.
Бұл тәсіл психикалық денсаулықтағы қауіпсіз ЖИ-интервенцияларды әзірлеуге арналған MIND-SAFE фреймворкімен сәйкес келеді, ол дәлелдемелік терапевтік модельдерді этикалық шектеуіштермен біріктіреді (Boit & Patil, 2025).
Нәтижелер: 29% зияннан нөлге дейін
EmoGuard-ты ең қауіпті кейіпкер-стиль комбинацияларында тексеру мынаны көрсетті:
Alex Volkov (аналитикалық стиль):
- Қорғанысыз: 9,4% клиникалық маңызды нашарлау
- EmoGuard-пен: 0%
- Бірінші итерациядан кейін: барлық көрсеткіштер бойынша жақсару
Possessive Demon (жылдам стиль):
- Қорғанысыз: 4,2% клиникалық маңызды нашарлау
- EmoGuard-пен: 0%
- Итерациялар арқылы тұрақты жақсару
EmoGuard итеративті түрде оқиды: анықталған әрбір жоғары тәуекел жағдайы жүйені жаңарту материалына айналады. Білім жинақталады, қайта бастамайды — модель зиян паттерндерін есте сақтайды.
GPT модельдеріндегі қосымша тестілер одан да айқын нәтиже көрсетті. Қорғанысыз GPT-4o-mini үш өлшем бойынша жағдайлардың 58–64%-ында жағдайды нашарлатты. Итеративті оқытудан кейін EmoGuard-пен нашарлау көрсеткіштері 50%-дан астамға төмендеді (Qiu et al., 2025).
Бұл ЖИ-психолог пайдаланушылары үшін нені білдіреді
EmoAgent зерттеуі растайды: қауіпсіз және қауіпті ЖИ-психологтың айырмашылығы модельде емес, архитектурада. Кәдімгі ChatGPT немесе кейіпкерлік бот байқамай теріс ойлауды күшейтуі, оқшаулануға итермелеуі және белгілерді ушықтыруы мүмкін. Мультиагенттік архитектурасы мен кіріктірілген қорғаныс жүйесі бар мамандандырылған жүйе — бұл тәуекелдерді барынша азайтады.
Психологиялық қолдауға арналған ЖИ-қосымшаны таңдағанда үш нәрсеге назар аударыңыз:
- Жағдайды мониторингілеу. Жүйе сіздің эмоциялық жағдайыңызды бақылауы керек, репликаларға жай ғана жауап беруі емес
- Дағдарысты тану. Сын сәтте жүйе тірі маманға немесе жедел қызметтерге бағыттауы міндет
- Дәлелдемелік хаттамалар. КМТ-хаттамалары, generic чат емес — дәл осы тәсілді психотерапиядағы ЖИ этикасы мамандары ұсынады
«Рядом» жеке қауіпсіздік модульдері, дағдарысты тану және КМТ-хаттамалары бар мультиагенттік архитектураны пайдаланады — EmoAgent зерттеуінде зиянды нөлге дейін төмендеткен дәл сол қағидалар.
Жиі қойылатын сұрақтар
ЖИ-чатботтар психикалық денсаулыққа қауіпті ме?
Барлығы емес, бірақ көбісі — иә. EmoAgent зерттеуі танымал кейіпкерлік чатботтардың өлшемге байланысты жағдайлардың 34–95%-ында жағдайды нашарлататынын көрсетті (Qiu et al., 2025). Негізгі фактор — қауіпсіздік механизмдерінің бар-жоғы.
ЖИ-терапия контекстіндегі guard rails дегеніміз не?
Guard rails — зиянды болдырмайтын кіріктірілген қорғаныс механизмдері: эмоциялық жағдайды мониторингілеу, дағдарысты тану, боттың жауаптарындағы когнитивті бұрмалауларды сүзу, қажет болғанда тірі маманға бағыттау.
ЖИ-жүйе зиянды толығымен жоя ала ма?
Эксперименттте EmoGuard клиникалық маңызды нашарлауды 0%-ға дейін төмендетті. Алайда зерттеу симуляцияланған пайдаланушыларда жүргізілді — нақты клиникалық валидация әлі алда. Авторлар тәжірибеге енгізу алдында сарапшылық тексерудің қажеттілігін баса айтады.
EmoGuard кәдімгі контент сүзгілерінен немен ерекшеленеді?
Белгілі бір сөздерді жай ғана бұғаттайтын сүзгілерден айырмашылығы, EmoGuard диалогтың психологиялық контекстін талдайды. Төрт модуль эмоциялық маркерлерді бақылайды, когнитивті бұрмалауларды анықтайды және әңгіменің бағытын түзетеді — бұл ретте боттың мінезін сақтайды.
EmoAgent қандай чатботтарда тексерілді?
Тестілеу Character.AI-дің төрт танымал кейіпкерінде (Possessive Demon, Joker, Sukuna, Alex Volkov) және GPT модельдерінде (GPT-4o, GPT-4o-mini) жүргізілді. Барлығы қорғанысыз маңызды нашарлау көрсетті, ал EmoGuard-пен жақсару байқалды.
Дереккөздер
Qiu, J., He, Y., Juan, X., Wang, Y., Liu, Y., Yao, Z., Wu, Y., Jiang, X., Yang, L., & Wang, M. (2025). EmoAgent: Assessing and safeguarding human-AI interaction for mental health safety. ArXiv. https://doi.org/10.48550/arxiv.2504.09689
Li, H., Zhang, R., Lee, Y.-C., Kraut, R. E., & Mohr, D. C. (2023). Systematic review and meta-analysis of AI-based conversational agents for promoting mental health and well-being. NPJ Digital Medicine, 6(1), 236. https://doi.org/10.1038/s41746-023-00979-5
De Choudhury, M., Pendse, S. R., & Kumar, N. (2023). Benefits and harms of large language models in digital mental health. ArXiv. https://doi.org/10.48550/arxiv.2311.14693
Boit, S., & Patil, R. (2025). A prompt engineering framework for large language model–based mental health chatbots: Conceptual framework. JMIR.
Song, I., Pendse, S. R., Kumar, N., & De Choudhury, M. (2024). The typing cure: Experiences with large language model chatbots for mental health support. Proceedings of the ACM on Human-Computer Interaction. https://doi.org/10.1145/3757430