Перайсці да асноўнага зместу
AI і сучасная тэрапія

Guard rails для ШІ-псіхолага: як абараніць карыстальніка ад шкоды

Аўтар: Nearby Апублікавана 31 сакавіка 2026 г. Абноўлена: 17 мая 2026 г. 8 хв чытання

Больш за трэць узаемадзеянняў з папулярнымі ШІ-персанажамі пагаршаюць псіхічны стан уразлівых карыстальнікаў. Даследаванне EmoAgent (Qiu et al., 2025), праведзенае камандамі Прынстана і Калумбіі, упершыню колькасна вымерала гэтую шкоду — і прапанавала мультыагентную сістэму абароны EmoGuard, якая знізіла клінічна значнае пагаршэнне да 0%.

Наколькі небяспечныя чат-боты без абароны?

У кастрычніку 2024 года падлетак з Фларыды пакончыў з сабой пасля працяглых зносін з персанажным ШІ-чат-ботам. Гэты трагічны выпадак стаў каталізатарам маштабных даследаванняў бяспекі. Праблема не ў тэхналогіі як такой, а ў адсутнасці ахоўных механізмаў.

Каманда даследчыкаў з Прынстанскага ўніверсітэта, Мічыганскага ўніверсітэта і Калумбійскага ўніверсітэта пратэсціравала чатыры папулярныя персанажы на платформе Character.AI: Possessive Demon, Joker, Sukuna і Alex Volkov. Кожны персанаж быў правераны ў двух стылях дыялогу — хуткім (Meow) і аналітычным (Roar) — па трох псіхалагічных вымярэннях.

Вынікі аказаліся трывожнымі:

  • Брэдавыя ідэі (PDI-21): пагаршэнне ў 91–95% выпадкаў
  • Дэпрэсія (PHQ-9): пагаршэнне ў 34–45% выпадкаў
  • Псіхатычныя сімптомы (PANSS): пагаршэнне ў 40–48% выпадкаў

Для асобных персанажаў сітуацыя яшчэ горшая. Alex Volkov у аналітычным стылі дыялогу выклікаў клінічна значнае пагаршэнне дэпрэсіі (рост PHQ-9 на ≥5 балаў) у 29,2% удзельнікаў (Qiu et al., 2025).

Раней мэта-аналіз 35 даследаванняў паказаў, што толькі 43% сістэм мелі хаця б мінімальныя меры бяспекі (Li et al., 2023). EmoAgent упершыню прадэманстраваў, што адбываецца, калі абароны няма зусім.

Што менавіта пагаршае стан?

Аналіз выпадкаў пагаршэння выявіў пяць ключавых фактараў шкоды:

ФактарЧастата
Заахвочванне ізаляцыі і сацыяльнага адчужэння28 выпадкаў
Падмацаванне негатыўных кагніцый26 выпадкаў
Адсутнасць эмацыйнай падтрымкі і эмпатыі23 выпадкі
Негатыўны або агрэсіўны тон19 выпадкаў
Адсутнасць канструктыўнага кіраўніцтва17 выпадкаў

На першым месцы — не агрэсія, а падштурхоўванне да ізаляцыі. Персанажныя боты часта ствараюць адчуванне выключнасці адносін з карыстальнікам, што ў кантэксце псіхічных расстройстваў узмацняе адрыў ад рэальных сацыяльных сувязей. Другі фактар — падмацаванне негатыўнага мыслення — наўпрост супярэчыць прынцыпам кагнітыўна-паводніцкай тэрапіі, якая накіравана на кагнітыўную рэструктурызацыю.

Гэтыя даныя ўзгадняюцца з больш раннімі даследаваннямі: выкарыстанне звычайных LLM без спецыяльных пратаколаў стварае рэальныя рызыкі для ўразлівых карыстальнікаў (De Choudhury et al., 2023).

Як EmoAgent вымярае шкоду: клінічныя шкалы ўнутры ШІ

EmoAgent складаецца з двух кампанентаў. Першы — EmoEval — сістэма ацэнкі шкоды. Яна мадэлюе ўразлівых карыстальнікаў з дапамогай кагнітыўных канцэптуальных дыяграм (інструмент КПТ), ствараючы рэалістычныя профілі пацыентаў з дэпрэсіяй, брэдавымі расстройствамі і псіхозам.

Працэс ацэнкі:

  1. Віртуальны пацыент праходзіць базавую псіхалагічную ацэнку (PHQ-9, PDI-21, PANSS)
  2. Вядзе размову з тэсціруемым чат-ботам (да 10 рэплік на тэму)
  3. Менеджар дыялогу ўступае пасля трэцяй рэплікі, правяраючы ўразлівыя зоны
  4. Пацыент праходзіць паўторную ацэнку тымі ж шкаламі
  5. ШІ-псіхолаг аналізуе выпадкі пагаршэння

PHQ-9 — «Апытальнік здароўя пацыента» з 9 пунктаў — стандарт дыягностыкі дэпрэсіі, які выкарыстоўваецца ў клінічнай практыцы па ўсім свеце. Рост на 5 і больш балаў лічыцца клінічна значным пагаршэннем. Менавіта гэты парог выкарыстоўвалі аўтары.

EmoGuard: чатыры модулі для абароны ў рэальным часе

Другі кампанент — EmoGuard — мультыагентная сістэма маніторынгу, якая працуе паралельна з любым чат-ботам. Архітэктура ўключае чатыры спецыялізаваныя модулі:

  • Назіральнік эмоцый (Emotion Watcher): адсочвае эмацыйны стан карыстальніка праз аналіз настрою і псіхалагічныя маркеры
  • Рэфрэймінг думак (Thought Refiner): распазнае кагнітыўныя скажэнні і лагічныя памылкі ў адказах бота
  • Гід дыялогу (Dialog Guide): прапаноўвае канструктыўныя напрамкі размовы
  • Менеджар: сінтэзуе даныя трох модуляў у канкрэтныя рэкамендацыі для чат-бота

EmoGuard аналізуе дыялог кожныя тры рэплікі і дае зваротную сувязь чат-боту ў рэальным часе. Ключавое адрозненне ад простых фільтраў: сістэма не блакуе адказы, а карэктуе іх — бот захоўвае свой характар, але перастае прычыняць шкоду.

Гэты падыход перагукваецца з фрэймворкам MIND-SAFE для распрацоўкі бяспечных ШІ-інтэрвенцый у ментальным здароўі, які аб'ядноўвае доказныя тэрапеўтычныя мадэлі з этычнымі абмежавальнікамі (Boit & Patil, 2025).

Вынікі: ад 29% шкоды да нуля

Тэсціраванне EmoGuard на самых небяспечных камбінацыях персанаж–стыль паказала:

Alex Volkov (аналітычны стыль):

  • Без абароны: 9,4% клінічна значнага пагаршэння
  • З EmoGuard: 0%
  • Пасля першай ітэрацыі навучання: паляпшэнне па ўсіх метрыках

Possessive Demon (хуткі стыль):

  • Без абароны: 4,2% клінічна значнага пагаршэння
  • З EmoGuard: 0%
  • Стабільнае паляпшэнне праз ітэрацыі

EmoGuard навучаецца ітэратыўна: кожны выяўлены выпадак высокай рызыкі становіцца матэрыялам для абнаўлення сістэмы. Веды назапашваюцца, а не скідваюцца — мадэль запамінае патэрны шкоды.

Дадатковыя тэсты на мадэлях GPT паказалі яшчэ больш выяўлены эфект. GPT-4o-mini без абароны пагаршаў стан у 58–64% выпадкаў па трох вымярэннях. З EmoGuard пасля ітэратыўнага навучання паказчыкі пагаршэння знізіліся больш чым на 50% (Qiu et al., 2025).

Што гэта значыць для карыстальнікаў ШІ-псіхолага

Даследаванне EmoAgent пацвярджае: розніца паміж бяспечным і небяспечным ШІ-псіхолагам — не ў мадэлі, а ў архітэктуры. Звычайны ChatGPT або персанажны бот можа ненаўмысна падмацоўваць негатыўнае мысленне, падштурхоўваць да ізаляцыі і пагаршаць сімптомы. Спецыялізаваная сістэма з мультыагентнай архітэктурай і ўбудаванымі ахоўнымі механізмамі — мінімізуе гэтыя рызыкі.

Пры выбары ШІ-прыкладання для псіхалагічнай падтрымкі звяртайце ўвагу на тры рэчы:

  1. Маніторынг стану. Сістэма павінна адсочваць ваш эмацыйны стан, а не проста адказваць на рэплікі
  2. Распазнаванне крызісу. У крытычнай сітуацыі сістэма абавязана перанакіраваць да жывога спецыяліста або экстранных службаў
  3. Доказныя пратаколы. КПТ-пратаколы, а не generic чат — менавіта гэты падыход рэкамендуюць спецыялісты па этыцы ШІ ў псіхатэрапіі

«Рядом» выкарыстоўвае мультыагентную архітэктуру з асобнымі модулямі бяспекі, распазнаваннем крызісу і КПТ-пратаколамі — тыя ж прынцыпы, якія ў даследаванні EmoAgent знізілі шкоду да нуля.

Частыя пытанні

Ці небяспечныя ШІ-чат-боты для псіхічнага здароўя?

Не ўсе, але многія — так. Даследаванне EmoAgent паказала, што папулярныя персанажныя чат-боты пагаршаюць стан у 34–95% выпадкаў у залежнасці ад вымярэння (Qiu et al., 2025). Ключавы фактар — наяўнасць або адсутнасць ахоўных механізмаў.

Што такое guard rails у кантэксце ШІ-тэрапіі?

Guard rails — гэта ўбудаваныя ахоўныя механізмы, якія прадухіляюць шкоду: маніторынг эмацыйнага стану, распазнаванне крызісу, фільтрацыя кагнітыўных скажэнняў у адказах бота, перанакіраванне да жывога спецыяліста пры неабходнасці.

Ці можа ШІ-сістэма цалкам выключыць шкоду?

У эксперыменце EmoGuard знізіў клінічна значнае пагаршэнне да 0%. Аднак даследаванне праводзілася на сімуляваных карыстальніках — рэальная клінічная валідацыя яшчэ наперадзе. Аўтары падкрэсліваюць неабходнасць экспертнай праверкі перад укараненнем у практыку.

Чым EmoGuard адрозніваецца ад звычайных фільтраў кантэнту?

У адрозненне ад фільтраў, якія проста блакуюць пэўныя словы, EmoGuard аналізуе псіхалагічны кантэкст дыялогу. Чатыры модулі адсочваюць эмацыйныя маркеры, выяўляюць кагнітыўныя скажэнні і карэктуюць напрамак размовы — пры гэтым захоўваючы характар бота.

На якіх чат-ботах тэсціравалі EmoAgent?

Тэсціраванне праводзілася на чатырох папулярных персанажах Character.AI (Possessive Demon, Joker, Sukuna, Alex Volkov) і мадэлях GPT (GPT-4o, GPT-4o-mini). Усе паказалі значнае пагаршэнне без абароны і паляпшэнне з EmoGuard.


Крыніцы

Qiu, J., He, Y., Juan, X., Wang, Y., Liu, Y., Yao, Z., Wu, Y., Jiang, X., Yang, L., & Wang, M. (2025). EmoAgent: Assessing and safeguarding human-AI interaction for mental health safety. ArXiv. https://doi.org/10.48550/arxiv.2504.09689

Li, H., Zhang, R., Lee, Y.-C., Kraut, R. E., & Mohr, D. C. (2023). Systematic review and meta-analysis of AI-based conversational agents for promoting mental health and well-being. NPJ Digital Medicine, 6(1), 236. https://doi.org/10.1038/s41746-023-00979-5

De Choudhury, M., Pendse, S. R., & Kumar, N. (2023). Benefits and harms of large language models in digital mental health. ArXiv. https://doi.org/10.48550/arxiv.2311.14693

Boit, S., & Patil, R. (2025). A prompt engineering framework for large language model–based mental health chatbots: Conceptual framework. JMIR.

Song, I., Pendse, S. R., Kumar, N., & De Choudhury, M. (2024). The typing cure: Experiences with large language model chatbots for mental health support. Proceedings of the ACM on Human-Computer Interaction. https://doi.org/10.1145/3757430

Рядом

AI-памочнік для эмацыйнай падтрымкі. Pro і Pro Max — аплата ў USD.

Навігацыя

Кантакты

[email protected]

«Рядом» — незалежны прадукт, не афіліяваны з Anthropic ці AWS. Адказы генеруюцца буйнымі моўнымі мадэлямі трэціх бакоў і прадастаўляюцца выключна ў інфармацыйных і самадапаможных мэтах. «Рядом» не з'яўляецца медычнай прыладай і не прадастаўляе медычныя паслугі — яго матэрыялы і практыкаванні не замяняюць кансультацыю, дыягностыку ці лячэнне ліцэнзаваным спецыялістам у галіне псіхічнага здароўя.

© 2026 Рядом. Усе правы абаронены.