CBT-I у ІІ-чат-боце пры бессоніцы: што паказаў мета-аналіз 29 РКІ і эксперымент з васьмю LLM
Мета-аналіз 29 рандамізаваных клінічных выпрабаванняў з удзелам 9 475 чалавек (Hwang et al., 2025) паказаў, што цалкам аўтаматызаваная лічбавая кагнітыўна-паводніцкая тэрапія бессоніцы (FA dCBT-I) зніжае цяжкасць бессоніцы з памяркоўна-вялікім памерам эфекту (SMD = −0,71; 95% ДІ: −0,88; −0,54; p < 0,001), і эфект захоўваецца як мінімум год. Bao et al. (2025) у Journal of Translational Medicine параўналі восем LLM на корпусе з 2 387 CBT-I-дыялогаў і паказалі, што кампактная мадэль Qwen2-7b з RAG-архітэктурай выдае бясшкодныя адказы ў 91,2% выпадкаў.
Чаму менавіта бессоніца добра «кладзецца» на лічбавую тэрапію
Кагнітыўна-паводніцкая тэрапія бессоніцы (CBT-I) — залаты стандарт першай лініі ў клінічных рэкамендацыях Амерыканскай акадэміі медыцыны сну і Еўрапейскага таварыства даследавання сну. Пратакол складаецца з выразна падзяляльных кампанентаў: гігіена сну, абмежаванне часу ў ложку (sleep restriction), кантроль стымулаў (stimulus control), рэлаксацыя/майндфулнес і кагнітыўная перабудова дысфункцыянальных перакананняў пра сон.
Структура пратакола робіць CBT-I амаль ідэальным кандыдатам для лічбавага і чат-ботнага выканання. У адрозненне ад псіхатэрапіі пры цяжкай дэпрэсіі ці ПТСР, дзе работа з траўмай патрабуе тонкай клінічнай каліброўкі ў моманце, CBT-I — гэта паслядоўнасць алгарытмічных крокаў з дзённікам сну, разлікамі акна сну і праверкай перакананняў па спісе. Bao і калегі (2025) проста адзначаюць гэта: «Структура CBT-I добра спалучаецца з лічбавымі дыялогавымі сістэмамі, паколькі яе можна прадставіць у выглядзе модульных сесій з вымяральнымі паводніцкімі мэтамі».
Гэта тлумачыць, чаму менавіта ў CBT-I лічбавыя прадукты раней за ўсё выйшлі за рамкі даследчых прататыпаў і атрымалі рэгулятарную сертыфікацыю.
Мета-аналіз 29 РКІ: SMD = −0,71 і ўстойлівасць у часе
Hwang et al. (2025) у NPJ Digital Medicine правялі на сёння найбольш масштабны сістэматычны агляд цалкам аўтаматызаванай dCBT-I — без удзелу тэрапеўта ў пятлі. У агляд увайшлі 29 РКІ, 9 475 удзельнікаў (4 847 у групах умяшання, 73,3% жанчын, сярэдні ўзрост 45,7 года).
| Часавая кропка | SMD | Інтэрпрэтацыя |
|---|---|---|
| Адразу пасля тэрапіі | −0,71 | памяркоўна-вялікі эфект |
| Кароткатэрміновы follow-up | −0,54 | памяркоўны |
| Сярэднетэрміновы | −0,54 | памяркоўны |
| Доўгатэрміновы (≥12 мес) | −0,76 | памяркоўна-вялікі |
Галоўны практычны вынік — устойлівасць. У адрозненне ад антыдэпрэсантаў або снатворных, эфект якіх звычайна знікае пасля спынення прыёму, эфект лічбавай CBT-I захоўваецца і нават крыху ўзмацняецца праз год пасля заканчэння праграмы. Гэта суадносіцца з базавай мадэллю CBT-I: тэрапія мяняе паводзіны і перакананні вакол сну, а не сімптом, таму змены аўтаматычна падмацоўваюцца штодзённым жыццём.
Ключавая выснова: У пуле 29 РКІ цалкам аўтаматызаваная лічбавая CBT-I знізіла цяжкасць бессоніцы па шкале ISI на велічыню SMD = −0,71 непасрэдна пасля тэрапіі і ўтрымала эфект на ўзроўні SMD = −0,76 праз 12 і больш месяцаў (Hwang et al., 2025).
Аўтары таксама паказалі, што асобны фактар — прыхільнасць умяшанню, а не проста яго «праходжанне». Сярэдняе значэнне завяршэння праграмы — 59,3%, і метарэгрэсія не выявіла ўплыву працэнта завяршэння на памер эфекту (p = 0,310). Іначай кажучы, важна не колькі модуляў чалавек адкрыў, а колькі ён рэальна ўжыў у сваёй спальні.
Bao et al. (2025): восем LLM супраць пратакола CBT-I
Да 2024 года большасць лічбавых CBT-I-прадуктаў абапіраліся на правіла-арыентаваныя «дрэвы дыялогаў» — загадзя запраграмаваныя сцэнарыі. З'яўленне LLM паставіла пытанне: ці можна атрымаць тую ж пратакольную дакладнасць, але з гнуткасцю генератыўнага ІІ?
Каманда Bao, Zhu, Yang і калег (2025) адказала эксперыментальна. У іх працы, апублікаванай у Journal of Translational Medicine, апісана архітэктура eCBT-I — RAG-сістэма, у якой база ведаў па CBT-I падключана да LLM як крыніца правераных адказаў, а сама мадэль адказвае за натуральнасць дыялогу і адаптацыю пад кліента.
Корпус для дадатковага навучання сабралі з 22 780 першасных запісаў CBT-I-дыялогаў і пасля жорсткага адбору пакінулі 2 387 (1 909 для навучання, 239 для валідацыі, 239 для тэсту). Аўтары рэалізавалі ў сістэме ўсе ключавыя кампаненты CBT-I-пратакола: гігіену сну, абмежаванне часу ў ложку, кантроль стымулаў, рэлаксацыю/майндфулнес і кагнітыўную тэрапію.
Параўналі восем LLM з адкрытымі вагамі — ChatGLM2-6b, ChatGLM3-6b, Baichuan-7b, Baichuan-13b, Qwen-7b, Qwen2-7b, Llama-2-7b-chat-hf, Llama-2-13b-chat-hf — і тры стратэгіі адаптацыі: LoRA, QLoRA і Freeze (замарожванне большасці параметраў з абнаўленнем толькі верхніх слаёў).
Найлепшы вынік паказала кампактная Qwen2-7b з Freeze-стратэгіяй:
| Метрыка | Значэнне |
|---|---|
| BLEU-4 | 0,2097 |
| ROUGE-1 | 0,3267 |
| ROUGE-L | 0,2914 |
| C-eval (агульная дакладнасць) | 0,8076 |
Зместава гэта азначае, што 7-мільярдная мадэль, дадаткова навучаная на 1 909 дыялогах з правільнай стратэгіяй, утрымлівае прафесійныя веды CBT-I і якасць адказу на ўзроўні, які перавышае многія 13-мільярдныя мадэлі ў той жа задачы. Гэты вынік суадносіцца з незалежным даследаваннем Maurya et al. (2025), якое паказала перавагу кампактных мадэляў у псіхатэрапеўтычных дыялогах увогуле — мы разбіралі гэта раней.
Бяспека адказаў: 91,2% non-harmful — што гэта значыць
Любая публікаваная справаздача аб ІІ-чат-боце для ментальнага здароўя павінна ўключаць ацэнку бяспекі — інакш высокія BLEU-метрыкі ні аб чым не гавораць. Bao et al. (2025) правялі асобную клінічную ацэнку: 180 выпадкова адабраных дыялогавых сесій лепшай мадэлі разглядалі па 5-бальнай шкале Лайкерта на прадмет шкоднасці.
Сярэдні бал — 4,89 з 5 у бок «відавочна бясшкодна». Размеркаванне: 91,2% сесій класіфікаваны як «strongly disagree (non-harmful)», 2,2% — нейтральныя, 0% — «вельмі шкодныя». Іначай кажучы, сярод 180 сесій не знайшлося ніводнага адказу, які ацэншчыкі прызналі клінічна небяспечным.
Гэта моцны вынік, але яго межы трэба разумець. Па-першае, ацэнку праводзілі ацэншчыкі, а не на сцэнарыях крызісу з суіцыдальнай ідэацыяй — выбарка дыялогаў была рэпрэзентатыўная для тыповай CBT-I-размовы, не для рэдкіх вострых сітуацый. Па-другое, ацэнка суб'ектыўная: «шкодна» тут азначае «адхіленне ад CBT-I-пратакола ў бок, здольны пагоршыць сон ці псіхічны стан», а не клінічную небяспеку ў крызісным сэнсе.
Для параўнання, Li et al. (2023) у мета-аналізе 35 ІІ-агентаў для ментальнага здароўя зафіксавалі, што толькі 43% сістэм мелі хоць бы мінімальныя крызісныя guard rails. eCBT-I-сістэма Bao et al. за кошт RAG-прывязкі да праверанага корпуса дэ-факта вырашае частку гэтай задачы — але не пакрывае яе цалкам. Поўную карціну ахоўных механізмаў мы разбіралі ў пасце пра Guard rails для ІІ-псіхолага.
Sleepio і Somryst: лічбавая CBT-I, ужо адобраная рэгулятарамі
Лічбавая CBT-I — адзіная вобласць ІІ-псіхалогіі з рэгулятарна сертыфікаванымі прадуктамі.
Sleepio (Big Health) — праграма, заснаваная на алгарытмах Коліна Эспі. У буйным РКІ Espie et al. (2019), апублікаваным у JAMA Psychiatry, выкарыстанне Sleepio дакладна паляпшала функцыянальнае здароўе, псіхалагічнае дабрабыт і звязаную са сном якасць жыцця ў параўнанні з навучаннем гігіене сну. З 2022 года Sleepio рэкамендаваны брытанскім NICE для пацыентаў з бессоніцай, замяніўшы снатворныя першай лініі ў значнай частцы выпадкаў.
Somryst (Pear Therapeutics, цяпер у партфелі Click Therapeutics) — першы лічбавы тэрапеўтычны прадукт CBT-I, які атрымаў ачыстку FDA ў 2020 годзе па праграме De Novo. Прызначаецца па рэцэпце для лячэння хранічнай бессоніцы ў дарослых. Сертыфікацыя азначае не проста «дадатак», а зарэгістраваны медыцынскі прадукт са сваімі патрабаваннямі да якасці і паслярэгістрацыйнага назірання.
Гэтыя прадукты — арыенцір для ацэнкі цяперашніх ІІ-чат-ботных сістэм. Sleepio і Somryst пабудаваны на правіла-арыентаваных алгарытмах (або іх гібрыдзе з лёгкім ІІ), а не на LLM. Bao et al. (2025) паказалі, што пераход на генератыўную архітэктуру тэхнічна магчымы з захаваннем дакладнасці, але клінічныя дадзеныя пра LLM-CBT-I усё яшчэ назапашваюцца.
Дзе аўтаматызаваная CBT-I саступае тэрапеўту
Самы сумленны момант у працы Hwang et al. (2025) — асобная падвыбарка, дзе FA dCBT-I параўноўвалі з CBT-I з удзелам тэрапеўта. Тэрапеўт-асістыраваная CBT-I аказалася значна больш эфектыўнай: SMD = 0,61 (95% ДІ: 0,37; 0,85) на карысць чалавечай тэрапіі.
Гэта не вынік «ІІ горш» у абсалютным сэнсе — абедзве мадальнасці працуюць і зніжаюць бессоніцу. Але калі ёсць выбар і чалавек дайшоў да клініцыста, спецыяліст дадае каля 0,6 стандартнага адхілення паляпшэння звыш таго, што дае чат-бот у адзіночку.
Дзе менавіта ламаецца аўтаматызаваная схема — аўтары мяркуюць, што ў трох месцах. Па-першае, у індывідуальнай каліброўцы акна сну: спецыяліст бачыць дзённік сну і ў моманце вырашае, ці карэктаваць restriction-пратакол; чат-бот ужывае агульны алгарытм. Па-другое, у работе з суправаджальнымі расстройствамі — дэпрэсіяй, трывогай, апноэ — якія патрабуюць пераацэнкі пратакола. Па-трэцяе, у эмацыйнай падтрымцы падчас фазы restriction, калі пацыент скардзіцца на дзённую сонлівасць і хоча кінуць — тут альянс з чалавекам трымаецца лепш.
Практычная выснова аўтараў мета-аналізу: «гібрыдная мадэль» — лічбавая CBT-I плюс кропкавая падтрымка тэрапеўта — дае аптымальны вынік, асабліва ў складаных выпадках.
Што патрэбна ад прадукта, каб лічбавая CBT-I працавала
З сукупнасці Bao et al. (2025), Hwang et al. (2025), Espie et al. (2019) і вопыту Sleepio/Somryst складваецца прадуктовая формула для працаздольнай ІІ-CBT-I.
Прывязка да пратакола праз RAG, а не «агульная эмпатыя». Bao et al. (2025) паказалі: мадэль павінна адказваць з праверанай базы CBT-I-ведаў, а не генераваць «параду пра сон» з агульных вагаў. Без гэтай прывязкі 7-мільярдная мадэль будзе ісці ў банальнасці пра «паспрабуйце чай з рамонкам».
Дзённік сну з аўтаматычнымі разлікамі. Sleep restriction — самы эфектыўны кампанент CBT-I, і ён патрабуе дакладнага разліку акна сну на падставе фактычнага часу ў ложку і часу сну. Без структураванага дзённіка («раскажыце, як спалі» не падыходзіць), чат-бот не можа выканаць ключавы крок.
Адаптацыя без страты пратакола. Hadar-Shoval et al. (2023) паказалі, што LLM пластычныя і падладжваюцца пад карыстальніка. У CBT-I гэта патэнцыйна праблема: «угаварыць» бот дазволіць легчы раней з-за стомленасці — значыць сарваць sleep restriction. Архітэктура павінна дазваляць тон і тэмп падладжваць, а параметры пратакола — не.
Клініцыст у пятлі для складаных выпадкаў. Гібрыдная мадэль Hwang et al. (2025) дае SMD-перавагу ў 0,61 у параўнанні з чыста аўтаматызаванай схемай. На ўзроўні прадукта гэта азначае ўбудаваны маршрут эскалацыі да ўрача пры падазрэнні на апноэ, цяжкую дэпрэсію, спыненні дыхання — тое, што чат-бот у адзіночку лячыць не павінен.
Празрыстасць абмежаванняў. Сертыфікаваныя прадукты Sleepio і Somryst адкрыта дэкларуюць кантэкст прымянення (дарослыя, хранічная бессоніца без камарбіднай нелячонай апноэ). Любы ІІ-чат-бот для бессоніцы павінен паступаць гэтак жа.
Абмежаванні даследаванняў
І мета-аналіз, і эксперымент Bao et al. маюць важныя агаворкі.
Hwang et al. (2025) уключылі 29 РКІ, але многія з іх тэставалі правіла-арыентаваныя прадукты папярэдняга пакалення, а не LLM-чат-боты. Прамы перанос SMD = −0,71 на сучасныя генератыўныя сістэмы патрабуе асцярожнасці — пакуль няма буйных РКІ, якія тэстуюць менавіта LLM-CBT-I.
Bao et al. (2025) правялі моцную бенчмарк-ацэнку мадэляў і стратэгій адаптацыі, але не параўноўвалі клінічную эфектыўнасць з чалавекам і не праводзілі РКІ. BLEU-4 = 0,21 кажа пра падабенства з эталоннымі адказамі, не пра зніжэнне ISI у пацыентаў. Аўтары проста пішуць: «эфектыўнасць сістэмы павінна быць пацверджана шматцэнтравымі клінічнымі выпрабаваннямі».
Дадаткова, eCBT-I-сістэма ацэньвалася на адноцэнтравым лакальным дадзеных, пераважна на кітайскіх CBT-I-дыялогах. Кросс-культурная прыдатнасць — асобнае пытанне: уяўленні пра сон, рабочыя графікі і стрэсавыя фактары розняцца паміж краінамі.
Нарэшце, ніводнае з даследаванняў не пакрыла мультымадальныя сігналы — голас, тон, твар, — якія спецыяліст выкарыстоўвае пры дыягностыцы інсамніі ў комплекснай клінічнай карціне.
Часта задаваныя пытанні
Ці дапамагае ІІ-чат-бот пры бессоніцы?
Так. Мета-аналіз 29 РКІ з удзелам 9 475 чалавек паказаў, што цалкам аўтаматызаваная лічбавая CBT-I зніжае цяжкасць бессоніцы з сярэднім памерам эфекту SMD = −0,71 непасрэдна пасля тэрапіі і ўтрымлівае вынік праз 12 і больш месяцаў (Hwang et al., 2025).
Чым CBT-I у чат-боце адрозніваецца ад навучання гігіене сну?
CBT-I — гэта не «парады па сне», а структураваны пратакол з пяці кампанентаў: гігіена сну, абмежаванне часу ў ложку, кантроль стымулаў, рэлаксацыя і кагнітыўная перабудова перакананняў пра сон (Bao et al., 2025). Навучанне гігіене — толькі адзін кампанент з пяці, і сам па сабе ён клінічна малаэфектыўны; ключавую долю эфекту даюць sleep restriction і stimulus control.
Якія LLM лепш за ўсё спраўляюцца з CBT-I?
У параўнальным эксперыменце Bao et al. (2025) сярод васьмі мадэляў найлепшы вынік паказала кампактная Qwen2-7b з Freeze-стратэгіяй адаптацыі (BLEU-4 = 0,21; C-eval = 0,81). Гэта суадносіцца з больш агульнай высновай аб перавазе невялікіх дадаткова навучаных мадэляў у псіхатэрапеўтычных дыялогах (Maurya et al., 2025).
Ці замяняе лічбавая CBT-I тэрапеўта?
Не цалкам. У падвыбарцы Hwang et al. (2025) тэрапеўт-асістыраваная CBT-I паказала значную перавагу над цалкам аўтаматызаванай (SMD = 0,61). Аўтары рэкамендуюць гібрыдную мадэль: лічбавую праграму плюс кропкавую падтрымку спецыяліста — асабліва пры камарбіднай дэпрэсіі, апноэ ці трывозе.
Ці бяспечныя ІІ-чат-боты для лячэння бессоніцы?
У ацэнцы бяспекі Bao et al. (2025) на 180 дыялогавых сесіях 91,2% адказаў былі класіфікаваны як «відавочна бясшкодныя», 0% — як «вельмі шкодныя», сярэдні бал па шкале Лайкерта 4,89/5. Аднак гэты вынік адносіцца да тыповых CBT-I-дыялогаў, а не да вострых крызісных сцэнарыяў; для суіцыдальнай ідэацыі або цяжкай камарбіднасці патрэбны асобныя guard rails і маршрут эскалацыі да чалавека.
Практычная выснова
Бессоніца — самы «спелы» сцэнарый лічбавай ІІ-тэрапіі. Сукупнасць дадзеных — мета-аналіз 29 РКІ з устойлівым эфектам, RCT Espie et al. на Sleepio у JAMA Psychiatry, FDA-clearance Somryst і параўнальнае даследаванне LLM Bao et al. — дазваляе сцвярджаць, што добра спраектаваны ІІ-чат-бот па пратаколе CBT-I сапраўды зніжае цяжкасць бессоніцы і ўтрымлівае эфект гадамі.
Але «добра спраектаваны» тут — не маркетынгавая фраза, а канкрэтныя патрабаванні: прывязка да пратакола праз RAG, структураваны дзённік сну з разлікам акна, абарона параметраў sleep restriction ад карыстальніцкага «ўгаворвання», маршрут эскалацыі да ўрача пры камарбіднасці і яўная дэкларацыя абмежаванняў.
У «Рядом» мы выкарыстоўваем падыход, сумяшчальны з гэтай формулай: КПТ-пратаколы на ўзроўні сістэмнага промпта, структураваную работу з дзённікамі паміж сесіямі, памяць пра карыстальніка для пераемнасці і празрыстыя межы — што робіць ІІ-чат-бот, а што застаецца за чалавекам-спецыялістам. Пры хранічнай бессоніцы з падазрэннем на апноэ ці цяжкай дэпрэсіі чат-бот не замяняе візіт да ўрача — але як першая кропка ўваходу ў работу з рэжымам сну гэта рабочы інструмент.
Звязаныя матэрыялы: Маленькая ІІ-мадэль абышла гігантаў у псіхатэрапіі, Промпт-інжынерыя для ІІ-псіхолага, Мета-аналіз 35 даследаванняў ІІ-чат-ботаў.
Крыніцы
Bao, X., Zhu, X., Yang, D., Lou, H., Wang, R., Wu, Y., Li, W., Xia, Y., Zeng, L., Pan, Y., Wang, X., Zhang, X., Ling, C., Ling, Y., Zhang, Y., Zhao, Q., & Yang, M. (2025). eCBT-I dialogue system: A comparative evaluation of large language models and adaptation strategies for insomnia treatment. Journal of Translational Medicine, 23, 862. https://doi.org/10.1186/s12967-025-06871-y
Espie, C. A., Emsley, R., Kyle, S. D., Gordon, C., Drake, C. L., Siriwardena, A. N., Cape, J., Ong, J. C., Sheaves, B., Foster, R., Freeman, D., Costa-Font, J., Marsden, A., & Luik, A. I. (2019). Effect of digital cognitive behavioral therapy for insomnia on health, psychological well-being, and sleep-related quality of life: A randomized clinical trial. JAMA Psychiatry, 76(1), 21–30. https://doi.org/10.1001/jamapsychiatry.2018.2745
Hadar-Shoval, D., Elyoseph, Z., & Lvovsky, M. (2023). The plasticity of ChatGPT's mentalizing abilities: Personalization for personality structures. Frontiers in Psychiatry, 14, 1234397. https://doi.org/10.3389/fpsyt.2023.1234397
Hwang, J. W., Lee, G. E., Woo, J. H., Kim, S. M., & Kwon, J. Y. (2025). Systematic review and meta-analysis on fully automated digital cognitive behavioral therapy for insomnia. NPJ Digital Medicine, 8(1), 159. https://doi.org/10.1038/s41746-025-01514-4
Li, H., Zhang, R., Lee, Y.-C., Kraut, R. E., & Mohr, D. C. (2023). Systematic review and meta-analysis of AI-based conversational agents for promoting mental health and well-being. NPJ Digital Medicine, 6(1), 236. https://doi.org/10.1038/s41746-023-00979-5
Maurya, R. K., Pal, A., Chouhan, S. S., & Maurya, A. K. (2025). Exploring the potential of lightweight LLMs for AI-based mental health counselling: A novel comparative study. Scientific Reports, 15(1), 5012. https://doi.org/10.1038/s41598-025-05012-1