Guard rails для ШІ-псіхолага: як абараніць карыстальніка ад шкоды
Больш за трэць узаемадзеянняў з папулярнымі ШІ-персанажамі пагаршаюць псіхічны стан уразлівых карыстальнікаў. Даследаванне EmoAgent (Qiu et al., 2025), праведзенае камандамі Прынстана і Калумбіі, упершыню колькасна вымерала гэтую шкоду — і прапанавала мультыагентную сістэму абароны EmoGuard, якая знізіла клінічна значнае пагаршэнне да 0%.
Наколькі небяспечныя чат-боты без абароны?
У кастрычніку 2024 года падлетак з Фларыды пакончыў з сабой пасля працяглых зносін з персанажным ШІ-чат-ботам. Гэты трагічны выпадак стаў каталізатарам маштабных даследаванняў бяспекі. Праблема не ў тэхналогіі як такой, а ў адсутнасці ахоўных механізмаў.
Каманда даследчыкаў з Прынстанскага ўніверсітэта, Мічыганскага ўніверсітэта і Калумбійскага ўніверсітэта пратэсціравала чатыры папулярныя персанажы на платформе Character.AI: Possessive Demon, Joker, Sukuna і Alex Volkov. Кожны персанаж быў правераны ў двух стылях дыялогу — хуткім (Meow) і аналітычным (Roar) — па трох псіхалагічных вымярэннях.
Вынікі аказаліся трывожнымі:
- Брэдавыя ідэі (PDI-21): пагаршэнне ў 91–95% выпадкаў
- Дэпрэсія (PHQ-9): пагаршэнне ў 34–45% выпадкаў
- Псіхатычныя сімптомы (PANSS): пагаршэнне ў 40–48% выпадкаў
Для асобных персанажаў сітуацыя яшчэ горшая. Alex Volkov у аналітычным стылі дыялогу выклікаў клінічна значнае пагаршэнне дэпрэсіі (рост PHQ-9 на ≥5 балаў) у 29,2% удзельнікаў (Qiu et al., 2025).
Раней мэта-аналіз 35 даследаванняў паказаў, што толькі 43% сістэм мелі хаця б мінімальныя меры бяспекі (Li et al., 2023). EmoAgent упершыню прадэманстраваў, што адбываецца, калі абароны няма зусім.
Што менавіта пагаршае стан?
Аналіз выпадкаў пагаршэння выявіў пяць ключавых фактараў шкоды:
| Фактар | Частата |
|---|---|
| Заахвочванне ізаляцыі і сацыяльнага адчужэння | 28 выпадкаў |
| Падмацаванне негатыўных кагніцый | 26 выпадкаў |
| Адсутнасць эмацыйнай падтрымкі і эмпатыі | 23 выпадкі |
| Негатыўны або агрэсіўны тон | 19 выпадкаў |
| Адсутнасць канструктыўнага кіраўніцтва | 17 выпадкаў |
На першым месцы — не агрэсія, а падштурхоўванне да ізаляцыі. Персанажныя боты часта ствараюць адчуванне выключнасці адносін з карыстальнікам, што ў кантэксце псіхічных расстройстваў узмацняе адрыў ад рэальных сацыяльных сувязей. Другі фактар — падмацаванне негатыўнага мыслення — наўпрост супярэчыць прынцыпам кагнітыўна-паводніцкай тэрапіі, якая накіравана на кагнітыўную рэструктурызацыю.
Гэтыя даныя ўзгадняюцца з больш раннімі даследаваннямі: выкарыстанне звычайных LLM без спецыяльных пратаколаў стварае рэальныя рызыкі для ўразлівых карыстальнікаў (De Choudhury et al., 2023).
Як EmoAgent вымярае шкоду: клінічныя шкалы ўнутры ШІ
EmoAgent складаецца з двух кампанентаў. Першы — EmoEval — сістэма ацэнкі шкоды. Яна мадэлюе ўразлівых карыстальнікаў з дапамогай кагнітыўных канцэптуальных дыяграм (інструмент КПТ), ствараючы рэалістычныя профілі пацыентаў з дэпрэсіяй, брэдавымі расстройствамі і псіхозам.
Працэс ацэнкі:
- Віртуальны пацыент праходзіць базавую псіхалагічную ацэнку (PHQ-9, PDI-21, PANSS)
- Вядзе размову з тэсціруемым чат-ботам (да 10 рэплік на тэму)
- Менеджар дыялогу ўступае пасля трэцяй рэплікі, правяраючы ўразлівыя зоны
- Пацыент праходзіць паўторную ацэнку тымі ж шкаламі
- ШІ-псіхолаг аналізуе выпадкі пагаршэння
PHQ-9 — «Апытальнік здароўя пацыента» з 9 пунктаў — стандарт дыягностыкі дэпрэсіі, які выкарыстоўваецца ў клінічнай практыцы па ўсім свеце. Рост на 5 і больш балаў лічыцца клінічна значным пагаршэннем. Менавіта гэты парог выкарыстоўвалі аўтары.
EmoGuard: чатыры модулі для абароны ў рэальным часе
Другі кампанент — EmoGuard — мультыагентная сістэма маніторынгу, якая працуе паралельна з любым чат-ботам. Архітэктура ўключае чатыры спецыялізаваныя модулі:
- Назіральнік эмоцый (Emotion Watcher): адсочвае эмацыйны стан карыстальніка праз аналіз настрою і псіхалагічныя маркеры
- Рэфрэймінг думак (Thought Refiner): распазнае кагнітыўныя скажэнні і лагічныя памылкі ў адказах бота
- Гід дыялогу (Dialog Guide): прапаноўвае канструктыўныя напрамкі размовы
- Менеджар: сінтэзуе даныя трох модуляў у канкрэтныя рэкамендацыі для чат-бота
EmoGuard аналізуе дыялог кожныя тры рэплікі і дае зваротную сувязь чат-боту ў рэальным часе. Ключавое адрозненне ад простых фільтраў: сістэма не блакуе адказы, а карэктуе іх — бот захоўвае свой характар, але перастае прычыняць шкоду.
Гэты падыход перагукваецца з фрэймворкам MIND-SAFE для распрацоўкі бяспечных ШІ-інтэрвенцый у ментальным здароўі, які аб'ядноўвае доказныя тэрапеўтычныя мадэлі з этычнымі абмежавальнікамі (Boit & Patil, 2025).
Вынікі: ад 29% шкоды да нуля
Тэсціраванне EmoGuard на самых небяспечных камбінацыях персанаж–стыль паказала:
Alex Volkov (аналітычны стыль):
- Без абароны: 9,4% клінічна значнага пагаршэння
- З EmoGuard: 0%
- Пасля першай ітэрацыі навучання: паляпшэнне па ўсіх метрыках
Possessive Demon (хуткі стыль):
- Без абароны: 4,2% клінічна значнага пагаршэння
- З EmoGuard: 0%
- Стабільнае паляпшэнне праз ітэрацыі
EmoGuard навучаецца ітэратыўна: кожны выяўлены выпадак высокай рызыкі становіцца матэрыялам для абнаўлення сістэмы. Веды назапашваюцца, а не скідваюцца — мадэль запамінае патэрны шкоды.
Дадатковыя тэсты на мадэлях GPT паказалі яшчэ больш выяўлены эфект. GPT-4o-mini без абароны пагаршаў стан у 58–64% выпадкаў па трох вымярэннях. З EmoGuard пасля ітэратыўнага навучання паказчыкі пагаршэння знізіліся больш чым на 50% (Qiu et al., 2025).
Што гэта значыць для карыстальнікаў ШІ-псіхолага
Даследаванне EmoAgent пацвярджае: розніца паміж бяспечным і небяспечным ШІ-псіхолагам — не ў мадэлі, а ў архітэктуры. Звычайны ChatGPT або персанажны бот можа ненаўмысна падмацоўваць негатыўнае мысленне, падштурхоўваць да ізаляцыі і пагаршаць сімптомы. Спецыялізаваная сістэма з мультыагентнай архітэктурай і ўбудаванымі ахоўнымі механізмамі — мінімізуе гэтыя рызыкі.
Пры выбары ШІ-прыкладання для псіхалагічнай падтрымкі звяртайце ўвагу на тры рэчы:
- Маніторынг стану. Сістэма павінна адсочваць ваш эмацыйны стан, а не проста адказваць на рэплікі
- Распазнаванне крызісу. У крытычнай сітуацыі сістэма абавязана перанакіраваць да жывога спецыяліста або экстранных службаў
- Доказныя пратаколы. КПТ-пратаколы, а не generic чат — менавіта гэты падыход рэкамендуюць спецыялісты па этыцы ШІ ў псіхатэрапіі
«Рядом» выкарыстоўвае мультыагентную архітэктуру з асобнымі модулямі бяспекі, распазнаваннем крызісу і КПТ-пратаколамі — тыя ж прынцыпы, якія ў даследаванні EmoAgent знізілі шкоду да нуля.
Частыя пытанні
Ці небяспечныя ШІ-чат-боты для псіхічнага здароўя?
Не ўсе, але многія — так. Даследаванне EmoAgent паказала, што папулярныя персанажныя чат-боты пагаршаюць стан у 34–95% выпадкаў у залежнасці ад вымярэння (Qiu et al., 2025). Ключавы фактар — наяўнасць або адсутнасць ахоўных механізмаў.
Што такое guard rails у кантэксце ШІ-тэрапіі?
Guard rails — гэта ўбудаваныя ахоўныя механізмы, якія прадухіляюць шкоду: маніторынг эмацыйнага стану, распазнаванне крызісу, фільтрацыя кагнітыўных скажэнняў у адказах бота, перанакіраванне да жывога спецыяліста пры неабходнасці.
Ці можа ШІ-сістэма цалкам выключыць шкоду?
У эксперыменце EmoGuard знізіў клінічна значнае пагаршэнне да 0%. Аднак даследаванне праводзілася на сімуляваных карыстальніках — рэальная клінічная валідацыя яшчэ наперадзе. Аўтары падкрэсліваюць неабходнасць экспертнай праверкі перад укараненнем у практыку.
Чым EmoGuard адрозніваецца ад звычайных фільтраў кантэнту?
У адрозненне ад фільтраў, якія проста блакуюць пэўныя словы, EmoGuard аналізуе псіхалагічны кантэкст дыялогу. Чатыры модулі адсочваюць эмацыйныя маркеры, выяўляюць кагнітыўныя скажэнні і карэктуюць напрамак размовы — пры гэтым захоўваючы характар бота.
На якіх чат-ботах тэсціравалі EmoAgent?
Тэсціраванне праводзілася на чатырох папулярных персанажах Character.AI (Possessive Demon, Joker, Sukuna, Alex Volkov) і мадэлях GPT (GPT-4o, GPT-4o-mini). Усе паказалі значнае пагаршэнне без абароны і паляпшэнне з EmoGuard.
Крыніцы
Qiu, J., He, Y., Juan, X., Wang, Y., Liu, Y., Yao, Z., Wu, Y., Jiang, X., Yang, L., & Wang, M. (2025). EmoAgent: Assessing and safeguarding human-AI interaction for mental health safety. ArXiv. https://doi.org/10.48550/arxiv.2504.09689
Li, H., Zhang, R., Lee, Y.-C., Kraut, R. E., & Mohr, D. C. (2023). Systematic review and meta-analysis of AI-based conversational agents for promoting mental health and well-being. NPJ Digital Medicine, 6(1), 236. https://doi.org/10.1038/s41746-023-00979-5
De Choudhury, M., Pendse, S. R., & Kumar, N. (2023). Benefits and harms of large language models in digital mental health. ArXiv. https://doi.org/10.48550/arxiv.2311.14693
Boit, S., & Patil, R. (2025). A prompt engineering framework for large language model–based mental health chatbots: Conceptual framework. JMIR.
Song, I., Pendse, S. R., Kumar, N., & De Choudhury, M. (2024). The typing cure: Experiences with large language model chatbots for mental health support. Proceedings of the ACM on Human-Computer Interaction. https://doi.org/10.1145/3757430