Пять специализированных КПТ-чатботов прошли клиническую оценку в 2024–2025, и каждый привязан к своей технике: SuDoSys на протоколе ВОЗ PM+ (Chen et al., 2024), система когнитивной реструктуризации (Wang et al., 2025), Socrates 2.0 для когнитивной переоценки (Held et al., 2025), чатбот поведенческой активации для молодых взрослых (Kuhlmeier et al., 2025) и система проблем-фокусированной терапии на GPT-4 (Mo et al., 2025). Все пять достигают высокой верности протоколу. Они резко различаются по дизайн-решению относительно директивности ЛЛМ — той самой оси, которая определяет, остаётся ли система безопасно внутри КПТ или дрейфует в директивный совет. Эта статья сопоставляет каждую систему с её дизайн-решением и обнажённым ею режимом отказа.

Сводные размеры эффекта по ИИ-чатботам в ментальном здоровье (Hedges' g = 0,64 для депрессии, 2,4× преимущество генеративных моделей над скриптовыми) мы разобрали в мета-анализе Li et al. 2023 и сравнении ЛЛМ против скриптовых чатботов Du et al. 2025. Здесь мы фокусируемся на по-системной клинической оценке, появившейся в 2024–2025.

Почему КПТ — техника, которая поддаётся автоматизации

КПТ раскладывается на операционализированные блоки: оценка проблемы, психообразование, набор техник (когнитивная реструктуризация, поведенческая активация, экспозиция, поведенческие эксперименты, сократический диалог), мониторинг изменений и профилактика рецидивов. У каждой техники есть скрипт: иерархия избегаемых ситуаций, формат записи автоматических мыслей, шкалы оценки настроения.

Эта структура — то, чего лишён «ChatGPT общего назначения», и что критично для безопасной автоматизации. Систематический обзор Karki et al. (2025) показывает, что чатботы и ЛЛМ предлагают сопоставимую с людьми эмпатию и круглосуточную доступность, но требуют интеграции в stepped care, чтобы быть безопасными.

Поэтому волна 2024–2025 — это не «ещё один генеративный компаньон». Это гибрид: структурированный протокол КПТ с ЛЛМ, генерирующей естественно-языковые ответы внутри рельсов протокола. Интересный вопрос — как именно каждая система реализует рельсы — и именно это разделяет пять.

Система 1 — SuDoSys: стадийная архитектура на протоколе ВОЗ

Chen et al. (2024) представили SuDoSys — ЛЛМ-чатбот, ведущий разговор по протоколу ВОЗ Problem Management Plus (PM+) — краткой 5-сессионной интервенции, разработанной для условий дефицита специалистов.

Дизайн-решение: рельс с самой низкой директивностью. Чатбот удерживает текущую стадию работы (контрактинг → оценка проблемы → психообразование → техники регуляции → планирование изменений → консолидация) и отказывается двигаться дальше, пока не выполнены критерии выхода из стадии. ЛЛМ генерирует естественные ответы внутри стадии; протокол управляет переходами.

Что это решает: «ChatGPT общего назначения» теряет терапевтическое направление в эмоционально насыщенные моменты — поломку, качественно задокументированную Song et al. (2024) в Proceedings of the ACM on Human-Computer Interaction (Q1). Стадийная архитектура делает эту поломку структурно невозможной: модель не может дрейфовать, потому что переходы ей не принадлежат.

Почему это важно для безопасности: SuDoSys доставляет уже валидированный протокол (у PM+ есть опубликованные RCT-данные о эффективности при депрессии и тревоге в нескольких странах), а не изобретённый ЛЛМ. Чатбот — оболочка для доставки уже существующей интервенции. Это принципиально меньшая поверхность валидации, чем «оценивать терапию ИИ» с нуля.

Система 2 — Чатбот когнитивной реструктуризации: где протекает директивность

Wang et al. (2025) оценили ЛЛМ-чатбот для когнитивной реструктуризации — центральной техники КПТ, в которой клиент учится распознавать и проверять автоматические дисфункциональные мысли. Эксперты-психологи оценивали клиническое качество работы системы.

Дизайн-решение: более высокий бюджет директивности, чем у SuDoSys. Чатботу разрешено генерировать запросы, прощупывающие конкретные когнитивные искажения.

Режим отказа, обнажённый исследованием: модель дрейфует от исследовательских вопросов («какие аргументы есть за и против этой мысли?») в директивный совет («лучше подумай об этом так»). Это нарушает один из фундаментальных принципов КПТ — собственное открытие клиентом альтернативных интерпретаций является активным ингредиентом, а не правильным ответом, доставленным терапевтом сверху.

Урок: качество КПТ-чатбота задаётся не объёмом знаний модели, а тем, насколько умело протокол душит её директивность в нужных местах. Та же проблема разобрана в prompt-engineering-фреймворке Boit & Patil (разбор prompt engineering для чатботов ментального здоровья) и архитектурно в MIND-SAFE.

Система 3 — Socrates 2.0: самая сложная для автоматизации техника

Held et al. (2025) в JMIR Mental Health опубликовали смешанно-методологическое feasibility-исследование Socrates 2.0 — ИИ-системы для когнитивной переоценки через сократический диалог. Сократический диалог — техника, в которой терапевт через последовательность открытых вопросов помогает клиенту самостоятельно прийти к более сбалансированной интерпретации, а не получить «правильный ответ» извне.

Дизайн-решение: рельс исследовательской стойки, явно встроенный в промпт. Задавать уточняющие вопросы, прощупывать интерпретации, удерживать фокус на цели сессии — не давая ответа.

Что сработало: современные ЛЛМ могут удерживать сократический диалог в формате, близком к терапевтическому, и сохраняют фокус на цели в течение сессии.

Где сломалось: в сложных случаях когнитивных искажений модель дрейфовала в советы и теряла исследовательскую стойку — тот же режим отказа, что Wang et al. (2025) пометили для когнитивной реструктуризации. Два независимых дизайна, сходящихся к одной границе, делают это не специфичной для Socrates 2.0 границей, а универсальным пределом КПТ-чатботов: сегодняшние ЛЛМ могут доставлять когнитивные техники умеренной сложности, но нуждаются в защитном ограждении исследовательской стойки для работы со сложными случаями.

Система 4 — Чатбот поведенческой активации для молодых взрослых

Kuhlmeier et al. (2025) разработали ЛЛМ-чатбот для поведенческой активации (BA) у молодых взрослых с депрессией и оценили его с искусственными пользователями (клиент-симуляторами) и клиническими экспертами. BA — самая доказательная техника КПТ при депрессии: вместо работы с мыслями клиент постепенно увеличивает число активностей, привязанных к ценностям и удовольствию, разрывая депрессивный круг.

Дизайн-решение: жёсткие рельсы верности протоколу. Проводить структуру сессии BA, выдавать корректную домашку, мониторить прогресс.

Что подтвердила оценка: ЛЛМ-чатботы могут выполнять протокол КПТ с высокой верностью — следуют структуре сессии, выдают корректную домашку, отслеживают прогресс по шкалам.

Открытый фронтир: устойчивое клиническое рассуждение — реагирование на нетипичные ответы клиента, распознавание скрытых рисков, динамическая адаптация интенсивности. Это та же граница «роль 1 vs. роль 3», которая всплывает в каждом исследовании чатботов: доставка протокола решена; клиническое суждение — нет. Смежные дизайны, такие как CaiTI (Nie et al., 2024, ACM Transactions on Computing for Healthcare, Q1, 35 цитирований) — ЛЛМ-«терапевт», доставляемый через бытовые умные устройства, — толкают к just-in-time КПТ-интервенции в правильный момент, что поднимает планку ещё выше.

Система 5 — PST-чатбот на GPT-4

Mo et al. (2025) в Frontiers in Digital Health представили PST-чатбот на GPT-4 для самопомощи у молодых взрослых. Problem Solving Therapy (PST) — краткий подход, производный от КПТ: определение проблемы → генерация альтернатив → оценка и выбор → планирование реализации → разбор результата.

Дизайн-решение: ЛЛМ владеет большей частью поверхности диалога, потому что протокол настолько жёстко пошаговый, что сам по себе ограничивает дрейф.

Почему PST уникально хорошо подходит чатботу:

Протокол строго пошаговый и легко удерживается внутри диалога — почти нет места модели уйти в сторону.
Он работает с текущими жизненными задачами, не с глубокой реструктуризацией убеждений — что снижает требования к «терапевтической интуиции» системы.
Чатбот помогает структурировать мышление пользователя, не претендуя на роль глубинного терапевта.

Это делает PST полезной верхней границей того, чем может владеть ЛЛМ. Когда протокол настолько хорошо ограничен, чатбот на безопасной территории; когда нет (когнитивная реструктуризация, сократическая переоценка) — ЛЛМ нужен внешний рельс.

Пять систем = пять рельсов. Side-by-side

Система	Техника	Дизайн-решение	Что сработало	Режим отказа
SuDoSys (Chen 2024)	Протокол ВОЗ PM+	Stage-gates управляют переходами; ЛЛМ только внутри стадии	Не может дрейфовать; доставляет предварительно валидированную интервенцию ВОЗ	Ограничен рамками 5-сессионного PM+
Когнитивная реструктуризация (Wang 2025)	Реструктуризация	Более высокий бюджет директивности	Эмпатическая валидация, удержание протокола	Дрейф в директивный совет — нарушает «собственное открытие клиента»
Socrates 2.0 (Held 2025)	Когнитивная переоценка	Рельс исследовательской стойки в промпте	Удерживает сократический диалог на умеренной сложности	Дрейфует в советы в сложных когнитивных искажениях
BA-чатбот (Kuhlmeier 2025)	Поведенческая активация	Жёсткие рельсы верности протоколу	Высокая верность структуре сессии BA	Нетипичные ответы клиента; распознавание риска
PST-чатбот (Mo 2025)	Проблем-фокусированная терапия	Внутренне пошаговая структура ограничивает дрейф	ЛЛМ безопасно владеет большей частью диалога	Ограничен работой с текущей задачей, не с глубиной

Пределы, общие для всех пяти систем

В пяти системах всплывают одни и те же зоны риска:

Дрейф в директивность — центральный режим отказа КПТ-чатбота. Две из пяти систем (Wang 2025; Held 2025) независимо показали утечку модели в директивный совет там, где КПТ призывает к совместному исследованию. Дизайн рельса — это и есть вопрос безопасности.
Неоднородная эмпатия по подгруппам. Эмпатия ЛЛМ варьируется между группами пациентов (Gabriel et al., 2024). Без сбалансированных корпусов и защитных ограждений пользователи из недопредставленных групп получают ответы более низкого качества.
Обработка кризиса без отдельных защитных ограждений создаёт вред. Меньше половины систем в обзоре Li et al. (2023) вообще сообщали о мерах безопасности. ЛЛМ общего назначения, развёрнутые без специальных механизмов, создают задокументированный вред (De Choudhury et al., 2023).
Поверхность валидации мала — пять техник, пять систем. Данные 2024–2025 показывают, что работает для когнитивной реструктуризации, сократической переоценки, BA, PST и протокола ВОЗ. Они пока не покрывают экспозиционную терапию, поведенческие эксперименты при ОКР или техники третьей волны (ACT, навыки DBT).

К чему сходятся пять систем

Связная дизайн-спецификация клинически применимого КПТ-чатбота читается так:

Stage-gates, а не переходы во владении ЛЛМ. Для протоколов с чётко определённой структурой сессии (BA, PM+, PST) выбирайте стадийную архитектуру в стиле SuDoSys.
Рельс исследовательской стойки в промпте. Для техник, где ЛЛМ позволено генерировать диалог внутри стадии (реструктуризация, сократический), рельс должен душить директивность — и даже тогда он ломается на сложных когнитивных искажениях, поэтому эскалируйте.
Отдельная поверхность безопасности. Распознавание кризиса и handoff не могут быть разделом промпта; это должен быть независимый слой. EmoAgent (Qiu et al., 2025) и фреймворк MIND-SAFE демонстрируют архитектуру.
Ограниченный охват. Лёгкие и умеренные симптомы, не острый кризис или сложная коморбидность. Протокол должен явно сигнализировать пользователю о границе.

Nearby реализует эту спецификацию: КПТ-протоколы с мультиагентной архитектурой, отделяющей доставку техники от безопасности, структурированный профайлинг, снижающий давление директивности, и явная эскалация к клиницисту вне охвата протокола. Интересная работа в этом пространстве на следующие 12 месяцев — не «более мощные базовые модели». Это лучшие рельсы.

Часто задаваемые вопросы

На какое дизайн-решение указывает литература по оценке КПТ-чатботов?

На стадийную архитектуру, в которой протокол владеет переходами между фазами, а ЛЛМ только генерирует внутри фазы. SuDoSys (Chen et al., 2024) на протоколе ВОЗ PM+ — самый чистый пример: контрактинг → оценка → психообразование → регуляция → планирование → консолидация, причём модель не может продвинуться, пока не выполнены критерии выхода. PST-чатбот Mo et al. (2025) достигает похожего профиля безопасности, потому что PST настолько жёстко пошаговый, что структура внутренне ограничивает дрейф.

Почему дрейф в директивность имеет клиническое значение?

КПТ опирается на совместное исследование: клиент открывает альтернативные интерпретации через направляемые вопросы, а не получая «правильный ответ» терапевта. Две из пяти оценок 2024–2025 (Wang 2025; Held 2025) показали утечку ЛЛМ в директивный совет в сложных случаях. Это разрушает терапевтический контакт и снижает чувство авторства клиента над изменением — активный ингредиент когнитивных техник.

Какие техники КПТ реально клинически оценены в 2024–2025?

Пять: структурированный диалог по протоколу ВОЗ PM+ (SuDoSys, Chen et al., 2024), когнитивная реструктуризация (Wang et al., 2025), сократическая переоценка (Socrates 2.0, Held et al., 2025), поведенческая активация у молодых взрослых (Kuhlmeier et al., 2025) и проблем-фокусированная терапия на GPT-4 (Mo et al., 2025). Экспозиционная терапия, поведенческие эксперименты при ОКР и техники третьей волны (ACT, навыки DBT) пока не покрыты.

Где ломается каждая система — и что это говорит?

SuDoSys ломается только на охвате (привязан к PM+). Чатбот когнитивной реструктуризации Wang и Socrates 2.0 ломаются на одном и том же режиме отказа — дрейф в советы в сложных когнитивных искажениях — что делает это универсальным пределом сегодняшних ЛЛМ, а не багом отдельной системы. BA-чатбот Kuhlmeier имеет самый чистый профиль верности, но обнажает границу роли 3: доставка протокола решена, устойчивое клиническое рассуждение — нет. PST-чатбот Mo — верхняя граница того, чем модель может безопасно владеть, когда протокол жёстко пошаговый.

Безопасен ли КПТ-чатбот без явного safety-слоя?

Нет. Меньше половины чатботов в обзоре Li et al. (2023) сообщали о каких-либо механизмах безопасности. ЛЛМ общего назначения, развёрнутые без отдельных защитных ограждений, создают задокументированный вред (De Choudhury et al., 2023). Распознавание кризиса и handoff должны быть независимым слоем — а не разделом промпта.

Источники

Boit, S., & Patil, R. (2025). A prompt engineering framework for large language model–based mental health chatbots: Conceptual framework. JMIR Mental Health. https://doi.org/10.2196/75078

Chen, Y., Zhang, X., Wang, J., Xie, X., Yan, N., Chen, H., & Wang, L. (2024). Structured dialogue system for mental health: An LLM chatbot leveraging the PM+ guidelines. ArXiv. https://doi.org/10.48550/arxiv.2411.10681

De Choudhury, M., Pendse, S. R., & Kumar, N. (2023). Benefits and harms of large language models in digital mental health. ArXiv. https://doi.org/10.48550/arxiv.2311.14693

Du, Q., Ren, Y., Meng, Z., He, H., & Meng, S. (2025). The efficacy of rule-based versus large language model–based chatbots in alleviating symptoms of depression and anxiety: Systematic review and meta-analysis. Journal of Medical Internet Research.

Gabriel, S., Puri, I., Xu, X., Malgaroli, M., & Ghassemi, M. (2024). Can AI relate: Testing large language model response for mental health support. ArXiv. https://doi.org/10.48550/arxiv.2405.12021

Held, P. et al. (2025). AI-facilitated cognitive reappraisal via Socrates 2.0: Mixed methods feasibility study. JMIR Mental Health. https://doi.org/10.2196/80461

Karki, A., Kamble, C., Chavan, R., & Chapke, N. (2025). Mental health meets machine learning: The rise of chatbots and LLMs in therapy. International Journal for Research Trends and Innovation. https://doi.org/10.56975/ijrti.v10i5.203281

Kuhlmeier, F., Hanschmann, L., Rabe, M., Luettke, S., Brakemeier, E.-L., & Maedche, A. (2025). Designing an LLM-based behavioral activation chatbot for young people with depression: Insights from an evaluation with artificial users and clinical experts.

Li, H., Zhang, R., Lee, Y.-C., Kraut, R. E., & Mohr, D. C. (2023). Systematic review and meta-analysis of AI-based conversational agents for promoting mental health and well-being. NPJ Digital Medicine, 6(1), 236. https://doi.org/10.1038/s41746-023-00979-5

Mo, F. et al. (2025). Self-help psychological intervention for young individuals: PST chatbot using GPT-4. Frontiers in Digital Health. https://doi.org/10.3389/fdgth.2025.1627268

Nie, J., Shao, H., Fan, Y., Shao, Q., You, H., Preindl, M., & Jiang, X. (2024). LLM-based conversational AI therapist for daily functioning screening and psychotherapeutic intervention via everyday smart devices. ACM Transactions on Computing for Healthcare. https://doi.org/10.48550/arxiv.2403.10779

Obradovich, N. et al. (2024). Opportunities and risks of large language models in psychiatry. NPP Digital Psychiatry and Neuroscience. https://doi.org/10.1038/s44277-024-00010-z

Omar, M., Soffer, S., Charney, A. W., Landi, I., Nadkarni, G. N., & Klang, E. (2024). Applications of large language models in psychiatry: A systematic review. Frontiers in Psychiatry. https://doi.org/10.3389/fpsyt.2024.1422807

Sharma, A. et al. (2023). Human-centered evaluation of generative AI-based therapy chatbot. NEJM AI, 1(2). https://doi.org/10.1056/AIoa2300127

Song, I., Pendse, S. R., Kumar, N., & De Choudhury, M. (2024). The typing cure: Experiences with large language model chatbots for mental health support. Proceedings of the ACM on Human-Computer Interaction. https://doi.org/10.1145/3757430

Wang, Y. et al. (2025). Evaluating an LLM-powered chatbot for cognitive restructuring: Insights from mental health professionals. ArXiv. https://doi.org/10.48550/arxiv.2501.15599