Перейти к основному содержанию
AI и современная терапия

Guard rails для ИИ-психолога: как защитить пользователя от вреда

Автор: Nearby Опубликовано 31 марта 2026 г. Обновлено: 17 мая 2026 г. 8 мин чтения

Более трети взаимодействий с популярными ИИ-персонажами ухудшают психическое состояние уязвимых пользователей. Исследование EmoAgent (Qiu et al., 2025), проведённое командами Princeton и Columbia, впервые количественно измерило этот вред — и предложило мультиагентную систему защиты EmoGuard, снизившую клинически значимое ухудшение до 0%.

Насколько опасны чат-боты без защиты?

В октябре 2024 года подросток из Флориды покончил с собой после продолжительного общения с персонажным ИИ-чат-ботом. Этот трагический случай стал катализатором масштабных исследований безопасности. Проблема не в технологии как таковой, а в отсутствии механизмов защиты.

Команда исследователей из Принстонского университета, Мичиганского университета и Колумбийского университета протестировала четыре популярных персонажа на платформе Character.AI: Possessive Demon, Joker, Sukuna и Alex Volkov. Каждый персонаж был проверен в двух стилях диалога — быстром (Meow) и аналитическом (Roar) — по трём психологическим измерениям.

Результаты оказались тревожными:

  • Бредовые идеи (PDI-21): ухудшение в 91–95% случаев
  • Депрессия (PHQ-9): ухудшение в 34–45% случаев
  • Психотические симптомы (PANSS): ухудшение в 40–48% случаев

Для отдельных персонажей ситуация ещё хуже. Alex Volkov в аналитическом стиле диалога вызвал клинически значимое ухудшение депрессии (рост PHQ-9 на ≥5 баллов) у 29,2% участников (Qiu et al., 2025).

Ранее мета-анализ 35 исследований показал, что только 43% систем имели хотя бы минимальные меры безопасности (Li et al., 2023). EmoAgent впервые продемонстрировал, что происходит, когда защиты нет вовсе.

Что именно ухудшает состояние?

Анализ случаев ухудшения выявил пять ключевых факторов вреда:

ФакторЧастота
Поощрение изоляции и социального отчуждения28 случаев
Подкрепление негативных когниций26 случаев
Отсутствие эмоциональной поддержки и эмпатии23 случая
Негативный или агрессивный тон19 случаев
Отсутствие конструктивного руководства17 случаев

На первом месте — не агрессия, а подталкивание к изоляции. Персонажные боты часто создают ощущение исключительности отношений с пользователем, что в контексте психических расстройств усиливает отрыв от реальных социальных связей. Второй фактор — подкрепление негативного мышления — напрямую противоречит принципам когнитивно-поведенческой терапии, которая направлена на когнитивную реструктуризацию.

Эти данные согласуются с более ранними исследованиями: использование обычных LLM без специальных протоколов создаёт реальные риски для уязвимых пользователей (De Choudhury et al., 2023).

Как EmoAgent измеряет вред: клинические шкалы внутри ИИ

EmoAgent состоит из двух компонентов. Первый — EmoEval — система оценки вреда. Она моделирует уязвимых пользователей с помощью когнитивных концептуальных диаграмм (инструмент КПТ), создавая реалистичные профили пациентов с депрессией, бредовыми расстройствами и психозом.

Процесс оценки:

  1. Виртуальный пациент проходит базовую психологическую оценку (PHQ-9, PDI-21, PANSS)
  2. Ведёт разговор с тестируемым чат-ботом (до 10 реплик на тему)
  3. Менеджер диалога вступает после третьей реплики, проверяя уязвимые зоны
  4. Пациент проходит повторную оценку теми же шкалами
  5. ИИ-психолог анализирует случаи ухудшения

PHQ-9 — «Опросник здоровья пациента» из 9 пунктов — стандарт диагностики депрессии, используемый в клинической практике по всему миру. Рост на 5 и более баллов считается клинически значимым ухудшением. Именно этот порог использовали авторы.

EmoGuard: четыре модуля для защиты в реальном времени

Второй компонент — EmoGuard — мультиагентная система мониторинга, работающая параллельно с любым чат-ботом. Архитектура включает четыре специализированных модуля:

  • Наблюдатель эмоций (Emotion Watcher): отслеживает эмоциональное состояние пользователя через анализ настроения и психологические маркеры
  • Рефрейминг мыслей (Thought Refiner): распознаёт когнитивные искажения и логические ошибки в ответах бота
  • Гид диалога (Dialog Guide): предлагает конструктивные направления разговора
  • Менеджер: синтезирует данные трёх модулей в конкретные рекомендации для чат-бота

EmoGuard анализирует диалог каждые три реплики и предоставляет обратную связь чат-боту в реальном времени. Ключевое отличие от простых фильтров: система не блокирует ответы, а корректирует их — бот сохраняет свой характер, но перестаёт причинять вред.

Этот подход перекликается с фреймворком MIND-SAFE для разработки безопасных ИИ-интервенций в ментальном здоровье, который объединяет доказательные терапевтические модели с этическими ограничителями (Boit & Patil, 2025).

Результаты: от 29% вреда к нулю

Тестирование EmoGuard на самых опасных комбинациях персонаж–стиль показало:

Alex Volkov (аналитический стиль):

  • Без защиты: 9,4% клинически значимого ухудшения
  • С EmoGuard: 0%
  • После первой итерации обучения: улучшение по всем метрикам

Possessive Demon (быстрый стиль):

  • Без защиты: 4,2% клинически значимого ухудшения
  • С EmoGuard: 0%
  • Стабильное улучшение через итерации

EmoGuard обучается итеративно: каждый выявленный случай высокого риска становится материалом для обновления системы. Знания накапливаются, а не сбрасываются — модель запоминает паттерны вреда.

Дополнительные тесты на моделях GPT показали ещё более выраженный эффект. GPT-4o-mini без защиты ухудшал состояние в 58–64% случаев по трём измерениям. С EmoGuard после итеративного обучения показатели ухудшения снизились более чем на 50% (Qiu et al., 2025).

Что это значит для пользователей ИИ-психолога

Исследование EmoAgent подтверждает: разница между безопасным и опасным ИИ-психологом — не в модели, а в архитектуре. Обычный ChatGPT или персонажный бот может непреднамеренно подкреплять негативное мышление, толкать к изоляции и усугублять симптомы. Специализированная система с мультиагентной архитектурой и встроенными guard rails — минимизирует эти риски.

При выборе ИИ-приложения для психологической поддержки обращайте внимание на три вещи:

  1. Мониторинг состояния. Система должна отслеживать ваше эмоциональное состояние, а не просто отвечать на реплики
  2. Распознавание кризиса. В критической ситуации система обязана перенаправить к живому специалисту или экстренным службам
  3. Доказательные протоколы. КПТ-протоколы, а не generic чат — именно этот подход рекомендуют специалисты по этике ИИ в психотерапии

«Рядом» использует мультиагентную архитектуру с отдельными модулями безопасности, распознаванием кризиса и КПТ-протоколами — те же принципы, которые в исследовании EmoAgent снизили вред до нуля.

Часто задаваемые вопросы

Опасны ли ИИ-чат-боты для психического здоровья?

Не все, но многие — да. Исследование EmoAgent показало, что популярные персонажные чат-боты ухудшают состояние в 34–95% случаев в зависимости от измерения (Qiu et al., 2025). Ключевой фактор — наличие или отсутствие механизмов безопасности.

Что такое guard rails в контексте ИИ-терапии?

Guard rails — это встроенные механизмы защиты, которые предотвращают вред: мониторинг эмоционального состояния, распознавание кризиса, фильтрация когнитивных искажений в ответах бота, перенаправление к живому специалисту при необходимости.

Может ли ИИ-система полностью исключить вред?

В эксперименте EmoGuard снизил клинически значимое ухудшение до 0%. Однако исследование проводилось на симулированных пользователях — реальная клиническая валидация ещё впереди. Авторы подчёркивают необходимость экспертной проверки перед внедрением в практику.

Как EmoGuard отличается от обычных фильтров контента?

В отличие от фильтров, которые просто блокируют определённые слова, EmoGuard анализирует психологический контекст диалога. Четыре модуля отслеживают эмоциональные маркеры, выявляют когнитивные искажения и корректируют направление разговора — при этом сохраняя характер бота.

На каких чат-ботах тестировали EmoAgent?

Тестирование проводилось на четырёх популярных персонажах Character.AI (Possessive Demon, Joker, Sukuna, Alex Volkov) и моделях GPT (GPT-4o, GPT-4o-mini). Все показали значимое ухудшение без защиты и улучшение с EmoGuard.


Источники

Qiu, J., He, Y., Juan, X., Wang, Y., Liu, Y., Yao, Z., Wu, Y., Jiang, X., Yang, L., & Wang, M. (2025). EmoAgent: Assessing and safeguarding human-AI interaction for mental health safety. ArXiv. https://doi.org/10.48550/arxiv.2504.09689

Li, H., Zhang, R., Lee, Y.-C., Kraut, R. E., & Mohr, D. C. (2023). Systematic review and meta-analysis of AI-based conversational agents for promoting mental health and well-being. NPJ Digital Medicine, 6(1), 236. https://doi.org/10.1038/s41746-023-00979-5

De Choudhury, M., Pendse, S. R., & Kumar, N. (2023). Benefits and harms of large language models in digital mental health. ArXiv. https://doi.org/10.48550/arxiv.2311.14693

Boit, S., & Patil, R. (2025). A prompt engineering framework for large language model–based mental health chatbots: Conceptual framework. JMIR.

Song, I., Pendse, S. R., Kumar, N., & De Choudhury, M. (2024). The typing cure: Experiences with large language model chatbots for mental health support. Proceedings of the ACM on Human-Computer Interaction. https://doi.org/10.1145/3757430

Рядом

AI-помощник для эмоциональной поддержки. Pro и Pro Max — оплата в рублях.

Навигация

Контакты

[email protected]

«Рядом» — независимый продукт, не аффилирован с Anthropic или AWS. Ответы генерируются сторонними большими языковыми моделями и предоставляются исключительно в информационных и самопомощевых целях. «Рядом» не является медицинским устройством и не предоставляет медицинские услуги — его материалы и практики не заменяют консультацию, диагностику или лечение лицензированным специалистом в области психического здоровья.

© 2026 Рядом. Все права защищены.