ИИ vs. психолог: карта по ролям — что показывают исследования 2024–2025 годов
Живой психолог одновременно играет минимум четыре клинических роли — и ИИ в 2024–2025 заменяет их с очень разной скоростью. В рутинной доставке протокола и базовом эмпатическом отклике ИИ уже сравнялся с человеком по валидированным шкалам. В работе с регуляцией «здесь и сейчас», оценке суицидального риска и сложной дифференциальной диагностике разрыв остаётся большим. Эта статья сопоставляет каждую из четырёх ролей с самыми сильными данными — и с границей, за которой чатбот перестаёт быть безопасным.
Сводный размер эффекта («снижает ли ИИ депрессию?») мы уже разобрали в мета-анализе 35 исследований Li et al. 2023 и сравнении LLM против скриптовых чатботов Du et al. 2025. Здесь мы фокусируемся на более сложном вопросе: что происходит в дизайне head-to-head, где чатбот и клиницист выполняют одну и ту же задачу с одной и той же популяцией?
Психолог — это четыре роли, а не одна
Правильный вопрос не «может ли ИИ заменить психолога», а «в каких из его ролей и для каких пользователей ИИ уже работает на уровне, сопоставимом с человеком?» Системы здравоохранения, использующие модель стадийной помощи (stepped care) от Великобритании до Австралии, операционализируют психолога как четыре функции:
- Диагност — отличает депрессию от тревожного расстройства, ПТСР, биполярного спектра.
- Носитель техники — проводит протоколы КПТ, ACT, поведенческой активации шаг за шагом.
- Партнёр по альянсу — выстраивает рабочую связь, валидирует переживание, выдерживает молчание и сопротивление.
- Клинический судья — оценивает риск, решает, когда эскалировать, ведёт случай через сессии.
Систематический обзор Omar et al. (2024) в Frontiers in Psychiatry (Q1, 50 цитирований) синтезировал 28 исследований и вынес точный вердикт: ЛЛМ «многообещающи» в доставке техник и части альянса, заметно слабее в клинической оценке риска, и ещё не оценивались head-to-head с людьми по long-horizon суждению. Ниже мы проходим по каждой роли с самыми сильными данными 2024–2025.
Роль 1 — Носитель техники: ИИ сравнялся с людьми по верности протоколу
Самый информативный дизайн 2025 года — исследование Napiwotzki et al. (JMIR Formative Research), которое поставило ИИ-чатбот и живых психологов рядом на поведенческой активации (BA) — одной из самых доказательных техник КПТ при депрессии. BA — идеальная поверхность для сравнения, потому что её протокол жёстко операционализирован: прояснение ценностей, иерархия активностей, мониторинг настроения, разбор домашней работы. Мало неоднозначности в том, как выглядит «правильное выполнение».
Mixed-methods репликация в JMIR Mental Health (Scholich et al., 2025) сравнила терапевтическую коммуникацию ЛЛМ-чатботов и живых психологов. Общая находка обоих дизайнов: по верности протоколу и базовым эмпатическим ответам ИИ сравнивается с людьми или подходит на близкое расстояние. Разрыв открывается в более тонкой работе — обработке сопротивления клиента, расшифровке неоднозначных формулировок запроса, адаптации интенсивности к состоянию «здесь и сейчас».
Song et al. (2024) в Proceedings of the ACM on Human-Computer Interaction (Q1) проследил режим отказа качественно. Пользователи ЛЛМ-чатботов для ментального здоровья ценили доступность и отсутствие осуждения, но регулярно сталкивались с коммуникативными сбоями — нерелевантными или формульными ответами в эмоционально насыщенные моменты. Это не пробел в знаниях. Это цена статистической генерации, когда скрипт протокола кончается.
Вердикт по роли 1: ИИ может проводить жёсткий протокол КПТ шаг за шагом с верностью, близкой к человеческой. Он не может импровизировать вокруг протокола, когда клиент ломает ожидаемый паттерн.
Роль 2 — Партнёр по альянсу: 3,76 из 5 по WAI, но асимметрично
Альянс — рабочая связь между клиентом и психологом — предсказывает исход психотерапии лучше, чем выбранный метод, по Bordin (1979). Второй вопрос для ИИ — формируется ли альянс вообще.
Кросс-секционное исследование 527 пользователей ИИ-чатбота Clare измерило альянс по Working Alliance Inventory — Short Revised (Schäfer et al., 2025). Среднее значение — 3,76 из 5, сопоставимо с очной амбулаторной психотерапией (3,9–4,2) и групповой КПТ (3,5–3,8). Две находки уточняют картину:
- Альянс с ИИ был наиболее сильным среди одиноких пользователей (r = 0,25) и людей с выраженными симптомами тревоги или депрессии (r = 0,37). Чатбот наиболее ценен именно там, где живой сервис максимально дефицитен.
- Альянс структурно асимметричен: компонент Bond (эмоциональная связь) ниже, чем с живым психологом; компоненты Goal и Task (согласие о целях и методах) сопоставимы.
В переводе: ИИ хорошо держит структуру терапии, но медленно строит доверие. Для клиента, чья основная потребность — структурированная еженедельная работа (то, что живой психолог назвал бы «хорошим комплаенсом по домашке»), ИИ конкурирует достоверно. Для клиента, чья работа в первую очередь реляционная (долгое горевание, комплексный ПТСР), разрыв в Bond — неправильная стартовая точка.
Вердикт по роли 2: ИИ строит достаточно альянса, чтобы доставлять работу по протоколу; недостаточно, чтобы быть реляционным проводником в глубинной терапии.
Роль 3 — Клинический судья: дрейф прогноза и неоднородная эмпатия
Два head-to-head дизайна против клиницистов обнажают слабость этой роли.
Elyoseph et al. (2024, Family Medicine and Community Health) сравнили четыре ЛЛМ (ChatGPT-3.5, ChatGPT-4, Claude, Bard) с врачами общей практики, психиатрами, клиническими психологами, психиатрическими медсёстрами и общей публикой по прогнозу. Все четыре ЛЛМ корректно распознавали депрессию и рекомендовали комбинацию психотерапии и антидепрессантов. Но ChatGPT-3.5 был значимо более пессимистичен, чем все остальные ЛЛМ, профессионалы и публика — предсказывал больше негативных долгосрочных исходов. Авторы предупреждают прямо: пессимистичный прогноз от ЛЛМ может снизить мотивацию пациента начать или продолжить терапию. ChatGPT-4, Claude и Bard в основном совпали с профессиональным мнением — но вариативность внутри «тира ЛЛМ» сама стала клинической переменной.
Gabriel et al. (2024) в Can AI Relate (29 цитирований) задали вопрос, одинаково ли эмпатична ЛЛМ ко всем группам пользователей. Нет. Уровни эмпатии значимо различались между подгруппами пациентов, а соответствие ответов принципам мотивационного интервьюирования нуждалось в улучшении. Для пользователей из групп, недопредставленных в обучающих данных, чатбот статистически менее эмпатичен — режим отказа, который живой психолог регулирует сознательно, а ЛЛМ не регулирует.
Это цена использования ChatGPT общего назначения в работе с ментальным здоровьем. De Choudhury et al. (2023, 63 цитирования) каталогизировали 12 категорий потенциального вреда от ЛЛМ в цифровой поддержке ментального здоровья — большинство возникает на границе между «доставкой техники» (роль 1) и «клиническим суждением» (роль 3). Специализированные системы закрывают этот разрыв двумя слоями: дообучение на сбалансированных психотерапевтических корпусах (Mental-LLM, Xu et al., 2023, NPJ) и явные защитные ограждения (EmoAgent, Qiu et al., 2025; см. наш разбор guardrails для ментального здоровья).
Вердикт по роли 3: без специализированных промптов, проверенных протоколов и явных safety-слоёв ЛЛМ как клинический судья — отрицательная полезность для уязвимых пользователей. С ними — становится уровня триажа, а не уровня решения.
Роль 4 — Диагност и куратор кейса: пока в основном человек
Obradovich et al. (2024) в NPP Digital Psychiatry and Neuroscience (56 цитирований) консолидировали возможности и риски ЛЛМ в психиатрии. Граница, которую они проводят, чаще всего воспроизводится в других обзорах. ИИ пока не может заменить клинициста в:
- Сложной дифференциальной диагностике и коморбидности. Различение биполярного спектра, ПТСР и расстройств личности требует устойчивого наблюдения и контекста кейса, недостижимых для чатбота в одной сессии.
- Острый суицидальный риск и эскалация кризиса. Даже специализированные системы пропускают часть кризисных сигналов. Правильный дизайн — поэтому жёсткий handoff-протокол на телефон доверия и живого клинициста, а не попытка «лечить» через кризис.
- Долгосрочная работа с травмой. Детская травма и комплексный ПТСР требуют момент-к-моменту регуляции эмоционального состояния клиента — невербального согласования, темпа речи, пауз. ИИ-системы пока этого не умеют даже в мультимодальных форматах.
- Клинический супервизорный контекст. Решения о фармакотерапии, госпитализации и вовлечении семьи остаются юридической и клинической ответственностью человека.
Вердикт по роли 4: не изменился за десятилетие. Граница ИИ — это решение на уровне кейса; всё, что ниже, — в игре.
Карта по ролям
| Роль | Что требуется | ИИ в 2024–2025 | Где ломается |
|---|---|---|---|
| Носитель техники | Верность протоколу, структурированная домашка | Близко к человеческому уровню на BA (Napiwotzki 2025) и коммуникации КПТ (Scholich 2025) | Сопротивление, нетипичные формулировки клиента (Song 2024) |
| Партнёр по альянсу | Рабочая связь, валидация | WAI = 3,76/5 на Clare (Schäfer 2025), компоненты Goal/Task сопоставимы с людьми | Ниже Bond; реляционная глубинная терапия |
| Клинический судья | Оценка риска, мотивационная устойчивость | Уровень триажа с защитными ограждениями | Дрейф прогноза (Elyoseph 2024), неоднородная эмпатия (Gabriel 2024) |
| Диагност / куратор кейса | Диф. диагностика, эскалация, лонгитюдный контекст | Не оценивался head-to-head против людей | Коморбидность, острый кризис, травма, решения по фармакотерапии |
Что это значит на практике
«Может ли ИИ заменить психолога» — неправильная рамка. Две из четырёх ролей уже имеют достоверную ИИ-замену (доставка техники, часть альянса). Одна — только триажная с защитными ограждениями (клинический судья). Одна остаётся доменом живого клинициста (диагност и куратор кейса).
Связный дизайн stepped care читается так:
- Первая ступень: ИИ держит рутинную доставку протокола КПТ и поддержку между сессиями, на зрелом альянсе, достаточном для работы по протоколу.
- Вторая ступень: живой клиницист владеет дифференциальной диагностикой, эскалацией кризиса, долгосрочной работой с травмой и решениями по фармакотерапии.
- Граница: ИИ должен явно сигнализировать триггеры эскалации, не пытаясь «лечить через них».
Nearby спроектирован именно вокруг этой карты ролей: КПТ-протоколы для роли 1, структурированный профайлинг, выстраивающий Goal/Task-альянс для роли 2, мультиагентная архитектура с отдельными агентами для техники и безопасности — чтобы роль 3 оставалась честной, и явный handoff для роли 4.
Часто задаваемые вопросы
В каких ролях психолога ИИ может заменить человека?
ИИ в 2024–2025 достигает почти человеческого уровня в доставке техники (Napiwotzki 2025 для поведенческой активации; Scholich 2025 для терапевтической коммуникации) и в компонентах Goal/Task рабочего альянса (Schäfer 2025, WAI-SR = 3,76/5 на Clare, 527 пользователей). Две роли остаются недостижимыми: клиническое суждение (Elyoseph 2024 показывает дрейф прогноза; Gabriel 2024 — неоднородную эмпатию) и владение кейсом, включая дифференциальную диагностику и эскалацию кризиса (Obradovich 2024; Omar 2024).
Что значит «head-to-head ИИ vs. психолог» методологически?
Два дизайна 2025 года сравнили чатботы и живых психологов на идентичных задачах: Napiwotzki et al. (JMIR Formative Research) — на поведенческой активации, и Scholich et al. (JMIR Mental Health) — на терапевтической коммуникации в смешанных методах. Оба изолируют верность протоколу и эмпатическое реагирование как оси сравнения. Оба находят ИИ конкурентным по этим осям, с разрывом, открывающимся вокруг сопротивления и неоднозначных формулировок клиента.
Почему альянс с ИИ ниже по компоненту Bond, чем по Goal и Task?
Bond фиксирует эмоциональную связь; Goal и Task — согласие, над чем работать и как. ИИ сравнивается с людьми по Goal/Task, потому что согласие по протоколу — вербально и структурировано. ИИ отстаёт по Bond, потому что эмоциональная связь накапливается через невербальное согласование, темп речи и подразумеваемый подтекст, которые ЛЛМ не производит надёжно. Асимметрия структурная, а не вопрос размера модели.
Может ли ChatGPT общего назначения работать как терапевт?
Нет. Elyoseph et al. (2024) обнаружили, что ChatGPT-3.5 систематически пессимистичнее в прогнозе, чем клиницисты и общая публика — искажение, способное снизить мотивацию клиента начать или продолжить терапию. De Choudhury et al. (2023) каталогизировали 12 категорий потенциального вреда от ЛЛМ общего назначения в контексте ментального здоровья. Безопасность уровня триажа требует специализированных промптов, проверенных протоколов и явных защитных ограждений (prompt engineering для чатботов ментального здоровья; guardrails для ментального здоровья).
Когда живой клиницист строго необходим вместо ИИ?
Четыре зоны, где ИИ неприемлем как основной актор: сложная дифференциальная диагностика (биполярный спектр, ПТСР, расстройства личности), острый суицидальный риск и кризис, долгосрочная работа с травмой, требующая момент-к-моменту регуляции, и решения о фармакотерапии или госпитализации (Obradovich et al., 2024; Omar et al., 2024). В этих случаях ИИ должен передавать пользователя живому клиницисту по жёсткому протоколу, а не пытаться «лечить через» кейс.
Источники
De Choudhury, M., Pendse, S. R., & Kumar, N. (2023). Benefits and harms of large language models in digital mental health. ArXiv. https://doi.org/10.48550/arxiv.2311.14693
Du, Q., Ren, Y., Meng, Z., He, H., & Meng, S. (2025). The efficacy of rule-based versus large language model–based chatbots in alleviating symptoms of depression and anxiety: Systematic review and meta-analysis. Journal of Medical Internet Research.
Elyoseph, Z., Levkovich, I., & Shinan-Altman, S. (2024). Assessing prognosis in depression: Comparing perspectives of AI models, mental health professionals and the general public. Family Medicine and Community Health.
Gabriel, S., Puri, I., Xu, X., Malgaroli, M., & Ghassemi, M. (2024). Can AI relate: Testing large language model response for mental health support. ArXiv. https://doi.org/10.48550/arxiv.2405.12021
Napiwotzki, F. et al. (2025). Comparing human and AI therapists in behavioral activation for depression. JMIR Formative Research. https://doi.org/10.2196/78138
Obradovich, N., Khalsa, S., Khan, W. U., Suh, J., Perlis, R. H., Ajilore, O., & Paulus, M. P. (2024). Opportunities and risks of large language models in psychiatry. NPP Digital Psychiatry and Neuroscience. https://doi.org/10.1038/s44277-024-00010-z
Omar, M., Soffer, S., Charney, A. W., Landi, I., Nadkarni, G. N., & Klang, E. (2024). Applications of large language models in psychiatry: A systematic review. Frontiers in Psychiatry. https://doi.org/10.3389/fpsyt.2024.1422807
Schäfer, S. K. et al. (2025). User characteristics, motives, and therapeutic alliance in mental health conversational AI Clare. Frontiers in Digital Health. https://doi.org/10.3389/fdgth.2025.1576135
Scholich, T. et al. (2025). Comparison of human therapists and LLM chatbots for therapeutic communication: Mixed methods study. JMIR Mental Health. https://doi.org/10.2196/69709
Song, I., Pendse, S. R., Kumar, N., & De Choudhury, M. (2024). The typing cure: Experiences with large language model chatbots for mental health support. Proceedings of the ACM on Human-Computer Interaction. https://doi.org/10.1145/3757430