Скриптовые чатботы лучше LLM при депрессии? Мета-анализ 2025
Мета-анализ 2025 года обнаружил парадокс: скриптовые чатботы с жёсткими сценариями умеренно снижают симптомы депрессии, а чатботы на больших языковых моделях — нет. Систематический обзор Du et al. (2025) проанализировал рандомизированные клинические испытания обоих типов систем и пришёл к выводу, который ставит под вопрос нарратив о превосходстве генеративного ИИ в терапии.
Что именно показал мета-анализ?
Команда исследователей под руководством Qiuxue Du провела систематический обзор и мета-анализ РКИ, сравнивающих два типа чатботов для людей с симптомами депрессии и тревожности (Du et al., 2025). Они разделили системы на две категории: rule-based (скриптовые, работающие по заранее прописанным алгоритмам) и LLM-based (построенные на больших языковых моделях).
Главный результат: скриптовые чатботы продемонстрировали скромное, но статистически значимое улучшение депрессивных симптомов. LLM-чатботы значимого эффекта не показали.
Это контринтуитивный результат. Языковые модели генерируют более естественные ответы, лучше понимают контекст, способны проявлять эмпатию, близкую к человеческой (Karki et al., 2025). Как система, которая отвечает заготовленными фразами, может работать лучше?
Почему скриптовые чатботы «выиграли»?
Ответ не в том, что скрипты лучше ИИ. Ответ — в доказательной базе.
Десятилетие клинических данных. Скриптовые системы вроде Woebot и Wysa существуют с 2017 года. За это время они прошли десятки рандомизированных испытаний с крупными выборками и длительным наблюдением. Ещё в 2019 году обзор Vaidyam et al. зафиксировал растущую базу доказательств для скриптовых чатботов в психиатрии — задолго до эпохи ChatGPT (Vaidyam et al., 2019).
Терапевтические протоколы. Woebot строго следует когнитивно-поведенческой терапии. Каждый диалог — это структурированная сессия с конкретной целью: выявить автоматическую мысль, провести когнитивную реструктуризацию, назначить поведенческий эксперимент. Скрипт не может отклониться от протокола — и это его преимущество.
Единицы РКИ для LLM. Большие языковые модели стали доступны для терапевтических приложений только в 2023–2024 годах. Количество завершённых РКИ для LLM-чатботов измеряется единицами. Мета-анализ, объединяющий три-четыре небольших испытания, не может показать статистическую значимость — ему просто не хватает мощности.
Что не так с ранними LLM-исследованиями?
Проблема не только в количестве испытаний. Ранние LLM-чатботы для ментального здоровья часто разрабатывались без терапевтической структуры.
Типичный сценарий 2023 года: исследователи берут GPT-3.5 или GPT-4, пишут системный промпт «ты — эмпатичный психолог», и выпускают пользователей в свободный диалог. Такой чатбот может утешить, выслушать, подобрать правильные слова. Но он не ведёт человека по терапевтическому маршруту. Он реактивен — отвечает на то, что говорит пользователь, вместо того чтобы направлять разговор к конкретным терапевтическим целям.
Ma et al. (2023) описали этот фундаментальный вызов: LLM-агенты обладают впечатляющими языковыми способностями, но без дополнительной архитектуры им не хватает структурированного клинического рассуждения (Ma et al., 2023). Обзор Pavlopoulos et al. (2024) подтвердил: среди ИИ-инструментов для депрессии и тревожности наибольший эффект показывают те, что встроены в доказательные терапевтические фреймворки (Pavlopoulos et al., 2024).
Kuhlmeier et al. (2025) провели эксперимент с LLM-чатботом для поведенческой активации и обнаружили характерное противоречие: модель может выполнять терапевтические протоколы с высокой точностью, но «надёжное клиническое рассуждение остаётся открытой задачей» (Kuhlmeier et al., 2025).
Контекст: другие мета-анализы не согласны
Вывод Du et al. не существует в вакууме. Крупнейший мета-анализ Li et al. (2023) — 35 исследований, более 17 000 участников — показал значимое снижение депрессии для ИИ-чатботов в целом: Hedges' g = 0,64 (Li et al., 2023). Но этот обзор не разделял скриптовые и LLM-системы на подгруппы так, как это сделали Du et al.
Более того, Li et al. обнаружили, что генеративные модели превосходили скриптовые в 2,4 раза по размеру эффекта (g = 1,24 vs g = 0,52). Правда, генеративных систем в выборке было всего пять — и часть из них была обучена на терапевтических данных, а не просто представляла собой «голый» LLM.
Отдельные клинические испытания тоже дают основания для оптимизма. Therabot — LLM-чатбот, построенный на GPT-4 с терапевтической структурой, — продемонстрировал снижение депрессии на 51% в пилотном РКИ (Sharma et al., 2023). Сравнение ИИ-терапевта с живым специалистом в поведенческой активации показало сопоставимую эффективность (Napiwotzki et al., 2025).
Мета-анализ Li et al. (2025) подтвердил: чатботы — включая и LLM-системы — значимо снижают психологический дистресс у молодёжи (Li et al., 2025).
Не «скрипты vs LLM», а «структура vs хаос»
Если собрать все данные вместе, картина проясняется. Разделение проходит не по линии «скриптовый vs языковая модель». Оно проходит по линии «структурированная терапия vs неструктурированный разговор».
Скриптовые чатботы побеждают не потому, что скрипты лучше. Они побеждают потому, что каждый скриптовый чатбот по определению структурирован. У него нет выбора — он следует протоколу. А ранние LLM-чатботы часто не имели никакого протокола.
Новое поколение LLM-систем уже исправляет эту проблему. SuDoSys (Chen et al., 2024) — пример структурированного подхода: система использует руководства ВОЗ по психологической первой помощи (PM+) как каркас для LLM-диалога. Модель не просто разговаривает — она ведёт пользователя через конкретные терапевтические техники, определённые протоколом (Chen et al., 2024).
Kuhlmeier et al. (2025) показали аналогичный подход: LLM-чатбот для поведенческой активации, который следует протоколу пошагово. Точность выполнения протокола — высокая. Это принципиально другая архитектура, чем «поговори с ChatGPT о своих проблемах».
Ограничения мета-анализа Du et al.
Несколько важных оговорок к результатам:
Асимметрия выборки. Скриптовые чатботы представлены десятками РКИ с тысячами участников. LLM-чатботы — единичными испытаниями с малыми выборками. Сравнение неравнозначных групп в мета-анализе может систематически занижать эффект менее изученной группы.
Гетерогенность LLM-систем. Под «LLM-чатботами» объединены совершенно разные системы: от нетренированного ChatGPT с промптом до специализированных терапевтических платформ. Размер модели тоже имеет значение — компактные модели, обученные на терапевтических данных, могут превосходить универсальных гигантов. Объединять их в одну группу — всё равно что сравнивать «лекарства» как единую категорию, не различая аспирин и антидепрессанты.
Отсутствие долгосрочных данных. Большинство LLM-исследований длились 2–4 недели. Для оценки терапевтического эффекта это недостаточный срок — КПТ обычно требует 8–12 недель.
Быстрое устаревание. Мета-анализ фиксирует состояние доказательной базы на момент поиска литературы. Учитывая скорость развития LLM-терапии, результаты 2025 года могут не отражать возможности систем 2026-го.
Что это значит на практике?
Вывод Du et al. — не приговор LLM-терапии. Это указание на конкретную проблему: языковая модель без терапевтической структуры — это разговор, а не терапия.
Эффективный ИИ-терапевт будущего — это не выбор между скриптом и LLM. Это LLM, встроенная в терапевтический протокол. Языковая модель обеспечивает гибкость, эмпатию, естественность диалога. Протокол обеспечивает направление, последовательность, терапевтическую цель каждой сессии.
Именно по этому принципу построена платформа Рядом: LLM-ядро работает внутри структурированных протоколов КПТ, а мультиагентная архитектура разделяет эмпатический диалог и клиническое рассуждение. Такой подход объединяет сильные стороны обоих типов систем — гибкость языковых моделей и доказанную эффективность терапевтических протоколов.
Часто задаваемые вопросы
Правда ли, что обычные чатботы помогают при депрессии лучше, чем ChatGPT?
Мета-анализ Du et al. (2025) показал скромный эффект скриптовых чатботов и отсутствие значимого эффекта LLM-чатботов. Но это отражает не превосходство скриптов, а разницу в доказательной базе: у скриптовых систем — десятилетие РКИ, у LLM — единичные испытания.
Помогают ли ИИ-чатботы при тревожности?
Данные неоднозначны. Li et al. (2023) не обнаружили значимого эффекта ИИ-чатботов на тревожность (g = 0,65, доверительный интервал пересекает ноль). Однако отдельные исследования, включая Napiwotzki et al. (2025), показывают снижение тревожных симптомов при структурированных LLM-интервенциях.
Почему структура терапевтического протокола так важна для чатбота?
Скриптовые чатботы по определению следуют протоколу — каждый шаг прописан заранее. LLM без структуры ведёт свободный разговор, что ближе к эмоциональной поддержке, чем к терапии. Исследования Kuhlmeier et al. (2025) и Chen et al. (2024) показывают, что LLM может выполнять терапевтические протоколы с высокой точностью, когда структура задана явно.
Стоит ли использовать чатбот вместо психотерапевта?
Чатбот — не замена специалисту. Мета-анализ Li et al. (2023) показал эффект g = 0,64 для депрессии — это значимо, но меньше, чем у традиционной КПТ с терапевтом. Чатбот полезен как инструмент самопомощи между сессиями, для людей в очереди к специалисту или тех, кто пока не готов обратиться за помощью лично (Karki et al., 2025).
Источники
Chen, Y., Zhang, X., Wang, J., Xie, X., Yan, N., Chen, H., & Wang, L. (2024). Structured dialogue system for mental health: An LLM chatbot leveraging the PM+ guidelines. ArXiv. https://doi.org/10.48550/arxiv.2411.10681
Du, Q., Ren, Y., Meng, Z., He, H., & Meng, S. (2025). The efficacy of rule-based versus large language model-based chatbots in alleviating symptoms of depression and anxiety: Systematic review and meta-analysis.
Karki, A., Kamble, C., Chavan, R., & Chapke, N. (2025). Mental health meets machine learning: The rise of chatbots and LLMs in therapy. International Journal for Research Trends and Innovation, 10(5). https://doi.org/10.56975/ijrti.v10i5.203281
Kuhlmeier, F., Hanschmann, L., Rabe, M., Luettke, S., Brakemeier, E.-L., & Maedche, A. (2025). Designing an LLM-based behavioral activation chatbot for young people with depression: Insights from an evaluation with artificial users and clinical experts.
Li, H., Zhang, R., Lee, Y.-C., Kraut, R. E., & Mohr, D. C. (2023). Systematic review and meta-analysis of AI-based conversational agents for promoting mental health and well-being. NPJ Digital Medicine, 6(1), 236. https://doi.org/10.1038/s41746-023-00979-5
Li, Y., et al. (2025). Chatbot interventions for young people: A meta-analysis. Worldviews on Evidence-Based Nursing.
Ma, Z., Mei, Y., & Su, Z. (2023). Understanding the benefits and challenges of using large language model-based conversational agents for mental well-being support. AMIA Annual Symposium Proceedings. https://doi.org/10.48550/arxiv.2307.15810
Napiwotzki, L., et al. (2025). AI versus human therapist in depression: A behavioral activation comparison. Journal of Medical Internet Research.
Pavlopoulos, A., Rachiotis, T., & Maglogiannis, I. (2024). An overview of tools and technologies for anxiety and depression management using AI. Applied Sciences, 14(19), 9068. https://doi.org/10.3390/app14199068
Sharma, A., et al. (2023). Human-centered evaluation of generative AI-based therapy chatbot. NEJM AI, 1(2). https://doi.org/10.1056/AIoa2300127
Vaidyam, A. N., Wisniewski, H., Halamka, J. D., Kashavan, M. S., & Torous, J. B. (2019). Chatbots and conversational agents in mental health: A review of the psychiatric landscape. The Canadian Journal of Psychiatry, 64(7), 456–464.