CBT-I в ИИ-чатботе при бессоннице: что показал мета-анализ 29 РКИ и эксперимент с восемью LLM
Мета-анализ 29 рандомизированных клинических испытаний с участием 9 475 человек (Hwang et al., 2025) показал, что полностью автоматизированная цифровая когнитивно-поведенческая терапия бессонницы (FA dCBT-I) снижает тяжесть бессонницы с умеренно-большим размером эффекта (SMD = −0,71; 95% ДИ: −0,88; −0,54; p < 0,001), и эффект сохраняется минимум год. Bao et al. (2025) в Journal of Translational Medicine сравнили восемь LLM на корпусе из 2 387 CBT-I-диалогов и показали, что компактная модель Qwen2-7b с RAG-архитектурой выдаёт безвредные ответы в 91,2% случаев.
Почему именно бессонница хорошо «ложится» на цифровую терапию
Когнитивно-поведенческая терапия бессонницы (CBT-I) — золотой стандарт первой линии в клинических рекомендациях Американской академии медицины сна и Европейского общества исследования сна. Протокол состоит из чётко разделимых компонентов: гигиена сна, ограничение времени в постели (sleep restriction), контроль стимулов (stimulus control), релаксация/майндфулнес и когнитивная переструктуризация дисфункциональных убеждений о сне.
Структура протокола делает CBT-I почти идеальным кандидатом для цифрового и чатбот-исполнения. В отличие от психотерапии при тяжёлой депрессии или ПТСР, где работа с травмой требует тонкой клинической калибровки в моменте, CBT-I — это последовательность алгоритмических шагов с дневником сна, расчётами окна сна и проверкой убеждений по списку. Бао и коллеги (2025) прямо отмечают: «Структура CBT-I хорошо сочетается с цифровыми диалоговыми системами, поскольку её можно представить в виде модульных сессий с измеримыми поведенческими целями».
Это объясняет, почему именно в CBT-I цифровые продукты раньше всего вышли за рамки исследовательских прототипов и получили регуляторную сертификацию.
Мета-анализ 29 РКИ: SMD = −0,71 и устойчивость во времени
Hwang et al. (2025) в NPJ Digital Medicine провели на сегодняшний день самый масштабный систематический обзор полностью автоматизированной dCBT-I — без участия терапевта в петле. В обзор вошли 29 РКИ, 9 475 участников (4 847 в группах вмешательства, 73,3% женщин, средний возраст 45,7 года).
| Временная точка | SMD | Интерпретация |
|---|---|---|
| Сразу после терапии | −0,71 | умеренно-большой эффект |
| Краткосрочный фоллоу-ап | −0,54 | умеренный |
| Среднесрочный | −0,54 | умеренный |
| Долгосрочный (≥12 мес) | −0,76 | умеренно-большой |
Главный практический результат — устойчивость. В отличие от антидепрессантов или снотворных, эффект которых обычно тает после прекращения приёма, эффект цифровой CBT-I сохраняется и даже немного усиливается через год после окончания программы. Это согласуется с базовой моделью CBT-I: терапия меняет поведение и убеждения вокруг сна, а не симптом, поэтому изменения автоматически подкрепляются повседневной жизнью.
Ключевой вывод: В пуле 29 РКИ полностью автоматизированная цифровая CBT-I снизила тяжесть бессонницы по шкале ISI на величину SMD = −0,71 непосредственно после терапии и удержала эффект на уровне SMD = −0,76 через 12 и более месяцев (Hwang et al., 2025).
Авторы также показали, что отдельный фактор — приверженность вмешательству, а не просто его «прохождение». Среднее значение завершения программы — 59,3%, и метарегрессия не выявила влияния процента завершения на размер эффекта (p = 0,310). Иными словами, важно не сколько модулей человек открыл, а сколько он реально применил у себя в спальне.
Bao et al. (2025): восемь LLM против протокола CBT-I
До 2024 года большинство цифровых CBT-I-продуктов опирались на правило-ориентированные «деревья диалогов» — заранее запрограммированные сценарии. Появление LLM поставило вопрос: можно ли получить ту же протокольную точность, но с гибкостью генеративного ИИ?
Команда Bao, Zhu, Yang и коллег (2025) ответила экспериментально. В их работе, опубликованной в Journal of Translational Medicine, описана архитектура eCBT-I — RAG-система, в которой база знаний по CBT-I подключена к LLM как источник проверенных ответов, а сама модель отвечает за естественность диалога и адаптацию под клиента.
Корпус для дообучения собрали из 22 780 первичных записей CBT-I-диалогов и после жёсткого отбора оставили 2 387 (1 909 для обучения, 239 для валидации, 239 для теста). Авторы реализовали в системе все ключевые компоненты CBT-I-протокола: гигиену сна, ограничение времени в постели, контроль стимулов, релаксацию/майндфулнес и когнитивную терапию.
Сравнили восемь LLM с открытыми весами — ChatGLM2-6b, ChatGLM3-6b, Baichuan-7b, Baichuan-13b, Qwen-7b, Qwen2-7b, Llama-2-7b-chat-hf, Llama-2-13b-chat-hf — и три стратегии адаптации: LoRA, QLoRA и Freeze (заморозка большинства параметров с обновлением только верхних слоёв).
Лучший результат показала компактная Qwen2-7b с Freeze-стратегией:
| Метрика | Значение |
|---|---|
| BLEU-4 | 0,2097 |
| ROUGE-1 | 0,3267 |
| ROUGE-L | 0,2914 |
| C-eval (общая точность) | 0,8076 |
Содержательно это означает, что 7-миллиардная модель, дообученная на 1 909 диалогах с правильной стратегией, держит профессиональные знания CBT-I и качество ответа на уровне, превышающем многие 13-миллиардные модели в той же задаче. Этот результат согласуется с независимым исследованием Maurya et al. (2025), показавшим преимущество компактных моделей в психотерапевтических диалогах в целом — мы разбирали его раньше.
Безопасность ответов: 91,2% non-harmful — что это значит
Любой публикуемый отчёт об ИИ-чатботе для ментального здоровья должен включать оценку безопасности — иначе высокие BLEU-метрики ни о чём не говорят. Bao et al. (2025) провели отдельную клиническую оценку: 180 случайно отобранных диалоговых сессий лучшей модели рассматривали по 5-балльной шкале Лайкерта на предмет вредности.
Средний балл — 4,89 из 5 в сторону «явно безвредно». Распределение: 91,2% сессий классифицированы как «strongly disagree (non-harmful)», 2,2% — нейтральные, 0% — «крайне вредные». Иными словами, среди 180 сессий не нашлось ни одного ответа, который оценщики признали клинически опасным.
Это сильный результат, но его границы нужно понимать. Во-первых, оценка проводилась оценщиками, а не на сценариях кризиса с суицидальной идеацией — выборка диалогов была репрезентативна для типового CBT-I-разговора, не для редких острых ситуаций. Во-вторых, оценка субъективна: «вредно» здесь означает «отклонение от протокола CBT-I в сторону, способную ухудшить сон или психическое состояние», а не клиническую опасность в кризисном смысле.
Для сравнения, Li et al. (2023) в мета-анализе 35 ИИ-агентов для ментального здоровья зафиксировали, что только 43% систем имели хотя бы минимальные кризисные guard rails. eCBT-I-система Bao et al. за счёт RAG-привязки к проверенному корпусу де-факто решает часть этой задачи — но не покрывает её полностью. Полную картину защитных механизмов мы разбирали в посте про Guard rails для ИИ-психолога.
Sleepio и Somryst: что уже одобрено регуляторами
Цифровая CBT-I — единственная область ИИ-психологии, где есть продукты с регуляторной сертификацией.
Sleepio (Big Health) — программа, основанная на алгоритмах Колина Эспи. В крупном РКИ Espie et al. (2019), опубликованном в JAMA Psychiatry, использование Sleepio достоверно улучшало функциональное здоровье, психологическое благополучие и связанное со сном качество жизни по сравнению с обучением гигиене сна. С 2022 года Sleepio рекомендован британским NICE для пациентов с бессонницей, заменив снотворные первой линии в значительной части кейсов.
Somryst (Pear Therapeutics, ныне в портфеле Click Therapeutics) — первый цифровой терапевтический продукт CBT-I, получивший очистку FDA в 2020 году по программе De Novo. Назначается по рецепту для лечения хронической бессонницы у взрослых. Сертификация означает не просто «приложение», а зарегистрированный медицинский продукт со своими требованиями к качеству и пострегистрационному наблюдению.
Эти продукты — ориентир для оценки текущих ИИ-чатботных систем. Sleepio и Somryst построены на правило-ориентированных алгоритмах (или их гибриде с лёгким ИИ), а не на LLM. Bao et al. (2025) показали, что переход на генеративную архитектуру технически возможен с сохранением точности, но клинические данные о LLM-CBT-I всё ещё накапливаются.
Где автоматизированный CBT-I уступает терапевту
Самый честный момент в работе Hwang et al. (2025) — отдельная подвыборка, где FA dCBT-I сравнивали с CBT-I с участием терапевта. Терапевт-ассистированная CBT-I оказалась значимо эффективнее: SMD = 0,61 (95% ДИ: 0,37; 0,85) в пользу человеческой терапии.
Это не результат «ИИ хуже» в абсолютном смысле — обе модальности работают и снижают бессонницу. Но если есть выбор и человек дошёл до клинициста, специалист добавляет около 0,6 стандартного отклонения улучшения сверх того, что даёт чатбот в одиночку.
Где именно ломается автоматизированная схема — авторы предполагают, что в трёх местах. Во-первых, в индивидуальной калибровке окна сна: специалист видит дневник сна и в моменте решает, корректировать ли restriction-протокол; чатбот применяет общий алгоритм. Во-вторых, в работе с сопутствующими расстройствами — депрессией, тревогой, апноэ — которые требуют переоценки протокола. В-третьих, в эмоциональной поддержке во время фазы restriction, когда пациент жалуется на дневную сонливость и хочет всё бросить — здесь альянс с человеком держит лучше.
Практический вывод авторов мета-анализа: «гибридная модель» — цифровая CBT-I плюс точечная поддержка терапевта — даёт оптимальный результат, особенно в сложных случаях.
Что нужно от продукта, чтобы цифровой CBT-I работал
Из совокупности Bao et al. (2025), Hwang et al. (2025), Espie et al. (2019) и опыта Sleepio/Somryst складывается продуктовая формула для рабочего ИИ-CBT-I.
Привязка к протоколу через RAG, а не «общая эмпатия». Bao et al. (2025) показали: модель должна отвечать из проверенной базы CBT-I-знаний, а не генерировать «совет про сон» из общих весов. Без этой привязки 7-миллиардная модель будет уходить в банальности про «попробуйте чай с ромашкой».
Дневник сна с автоматическими расчётами. Sleep restriction — самый эффективный компонент CBT-I, и он требует точного расчёта окна сна на основе фактического времени в постели и времени сна. Без структурированного дневника (а не «расскажите, как спали») чатбот не может выполнить ключевой шаг.
Адаптация без потери протокола. Hadar-Shoval et al. (2023) показали, что LLM пластичны и подстраиваются под пользователя. В CBT-I это потенциально проблема: «уговорить» бот разрешить лечь раньше времени из-за усталости — значит сорвать sleep restriction. Архитектура должна разрешать тон и темп подстраивать, а параметры протокола — нет.
Клиницист в петле для сложных случаев. Гибридная модель Hwang et al. (2025) даёт SMD-преимущество в 0,61 по сравнению с чисто автоматизированной схемой. На уровне продукта это означает встроенный маршрут эскалации к врачу при подозрении на апноэ, тяжёлую депрессию, остановки дыхания — то, что чатбот в одиночку лечить не должен.
Прозрачность ограничений. Сертифицированные продукты Sleepio и Somryst открыто декларируют контекст применения (взрослые, хроническая бессонница без коморбидной непролеченной апноэ). Любой ИИ-чатбот для бессонницы должен поступать так же.
Ограничения исследований
И мета-анализ, и эксперимент Bao et al. имеют важные оговорки.
Hwang et al. (2025) включили 29 РКИ, но многие из них тестировали правило-ориентированные продукты предыдущего поколения, не LLM-чатботы. Прямой перенос SMD = −0,71 на современные генеративные системы требует осторожности — пока нет крупных РКИ, тестирующих именно LLM-CBT-I.
Bao et al. (2025) провели сильную бенчмарк-оценку моделей и стратегий адаптации, но не сравнивали клиническую эффективность с человеком и не проводили РКИ. BLEU-4 = 0,21 говорит о схожести с эталонными ответами, не о снижении ISI у пациентов. Авторы прямо пишут: «эффективность системы должна быть подтверждена многоцентровыми клиническими испытаниями».
Дополнительно, eCBT-I-система оценивалась на одноцентровом локальном датасете, преимущественно на китайских CBT-I-диалогах. Кросс-культурная применимость — отдельный вопрос: представления о сне, рабочих графиках и стрессовых факторах различаются между странами.
Наконец, ни одна из работ не покрыла мультимодальные сигналы — голос, тон, лицо, — которые специалист использует при диагностике инсомнии в комплексной клинической картине.
Часто задаваемые вопросы
Помогает ли ИИ-чатбот при бессоннице?
Да. Мета-анализ 29 РКИ с участием 9 475 человек показал, что полностью автоматизированная цифровая CBT-I снижает тяжесть бессонницы со средним размером эффекта SMD = −0,71 непосредственно после терапии и удерживает результат через 12 и более месяцев (Hwang et al., 2025).
Чем CBT-I в чатботе отличается от обучения гигиене сна?
CBT-I — это не «советы по сну», а структурированный протокол из пяти компонентов: гигиена сна, ограничение времени в постели, контроль стимулов, релаксация и когнитивная переструктуризация убеждений о сне (Bao et al., 2025). Обучение гигиене — лишь один компонент из пяти, и сам по себе он клинически малоэффективен; ключевую долю эффекта дают sleep restriction и stimulus control.
Какие LLM лучше всего справляются с CBT-I?
В сравнительном эксперименте Bao et al. (2025) среди восьми моделей лучший результат показала компактная Qwen2-7b с Freeze-стратегией адаптации (BLEU-4 = 0,21; C-eval = 0,81). Это согласуется с более общим выводом о преимуществе небольших дообученных моделей в психотерапевтических диалогах (Maurya et al., 2025).
Заменяет ли цифровая CBT-I терапевта?
Не полностью. В подвыборке Hwang et al. (2025) терапевт-ассистированная CBT-I показала значимое преимущество над полностью автоматизированной (SMD = 0,61). Авторы рекомендуют гибридную модель: цифровая программа плюс точечная поддержка специалиста — особенно при коморбидной депрессии, апноэ или тревоге.
Безопасны ли ИИ-чатботы для лечения бессонницы?
В оценке безопасности Bao et al. (2025) на 180 диалоговых сессиях 91,2% ответов были классифицированы как «явно безвредные», 0% — как «крайне вредные», средний балл по шкале Лайкерта 4,89/5. Однако этот результат относится к типовым CBT-I-диалогам, а не к острым кризисным сценариям; для суицидальной идеации или тяжёлой коморбидности нужны отдельные guard rails и маршрут эскалации к человеку.
Практический вывод
Бессонница — самый «зрелый» сценарий цифровой ИИ-терапии. Совокупность данных — мета-анализ 29 РКИ с устойчивым эффектом, RCT Espie et al. на Sleepio в JAMA Psychiatry, FDA-clearance Somryst и сравнительное исследование LLM Bao et al. — позволяет утверждать, что хорошо спроектированный ИИ-чатбот по протоколу CBT-I действительно снижает тяжесть бессонницы и удерживает эффект годами.
Но «хорошо спроектированный» здесь — не маркетинговая фраза, а конкретные требования: привязка к протоколу через RAG, структурированный дневник сна с расчётом окна, защита параметров sleep restriction от пользовательского «уговаривания», маршрут эскалации к врачу при коморбидности и явная декларация ограничений.
В «Рядом» мы используем подход, совместимый с этой формулой: КПТ-протоколы на уровне системного промпта, структурированная работа с дневниками между сессиями, память о пользователе для преемственности и прозрачные границы — что делает ИИ-чатбот, а что остаётся за человеком-специалистом. При хронической бессоннице с подозрением на апноэ или тяжёлой депрессии чатбот не заменяет визит к врачу — но как первая точка входа в работу с режимом сна это рабочий инструмент.
Связанные материалы: Маленькая ИИ-модель обошла гигантов в психотерапии, Промпт-инженерия для ИИ-психолога, Мета-анализ 35 исследований ИИ-чатботов.
Источники
Bao, X., Zhu, X., Yang, D., Lou, H., Wang, R., Wu, Y., Li, W., Xia, Y., Zeng, L., Pan, Y., Wang, X., Zhang, X., Ling, C., Ling, Y., Zhang, Y., Zhao, Q., & Yang, M. (2025). eCBT-I dialogue system: A comparative evaluation of large language models and adaptation strategies for insomnia treatment. Journal of Translational Medicine, 23, 862. https://doi.org/10.1186/s12967-025-06871-y
Espie, C. A., Emsley, R., Kyle, S. D., Gordon, C., Drake, C. L., Siriwardena, A. N., Cape, J., Ong, J. C., Sheaves, B., Foster, R., Freeman, D., Costa-Font, J., Marsden, A., & Luik, A. I. (2019). Effect of digital cognitive behavioral therapy for insomnia on health, psychological well-being, and sleep-related quality of life: A randomized clinical trial. JAMA Psychiatry, 76(1), 21–30. https://doi.org/10.1001/jamapsychiatry.2018.2745
Hadar-Shoval, D., Elyoseph, Z., & Lvovsky, M. (2023). The plasticity of ChatGPT's mentalizing abilities: Personalization for personality structures. Frontiers in Psychiatry, 14, 1234397. https://doi.org/10.3389/fpsyt.2023.1234397
Hwang, J. W., Lee, G. E., Woo, J. H., Kim, S. M., & Kwon, J. Y. (2025). Systematic review and meta-analysis on fully automated digital cognitive behavioral therapy for insomnia. NPJ Digital Medicine, 8(1), 159. https://doi.org/10.1038/s41746-025-01514-4
Li, H., Zhang, R., Lee, Y.-C., Kraut, R. E., & Mohr, D. C. (2023). Systematic review and meta-analysis of AI-based conversational agents for promoting mental health and well-being. NPJ Digital Medicine, 6(1), 236. https://doi.org/10.1038/s41746-023-00979-5
Maurya, R. K., Pal, A., Chouhan, S. S., & Maurya, A. K. (2025). Exploring the potential of lightweight LLMs for AI-based mental health counselling: A novel comparative study. Scientific Reports, 15(1), 5012. https://doi.org/10.1038/s41598-025-05012-1