Пяць КПТ-чат-ботаў, пяць дызайн-рашэнняў: як даследаванні 2024–2025 картаграфуюць поле
Пяць спецыялізаваных КПТ-чат-ботаў прайшлі клінічную ацэнку ў 2024–2025, і кожны прывязаны да сваёй тэхнікі: SuDoSys на пратаколе ВААЗ PM+ (Chen et al., 2024), сістэма кагнітыўнай рэструктурызацыі (Wang et al., 2025), Socrates 2.0 для кагнітыўнай пераацэнкі (Held et al., 2025), чат-бот паводзінскай актывацыі для маладых дарослых (Kuhlmeier et al., 2025) і сістэма праблем-факусаванай тэрапіі на GPT-4 (Mo et al., 2025). Усе пяць дасягаюць высокай вернасці пратаколу. Яны рэзка адрозніваюцца па дызайн-рашэнні адносна дырэктыўнасці ЛЛМ — той самай восі, якая вызначае, ці застаецца сістэма бяспечна ўнутры КПТ або дрэйфуе ў дырэктыўную параду. Гэты артыкул супастаўляе кожную сістэму з яе дызайн-рашэннем і агалёным ёй рэжымам адмовы.
Зводныя памеры эфекту па ІІ-чат-ботах у ментальным здароўі (Hedges' g = 0,64 для дэпрэсіі, 2,4× перавага генератыўных мадэляў над скрыптовымі) мы разабралі ў мэта-аналізе Li et al. 2023 і параўнанні ЛЛМ супраць скрыптовых чат-ботаў Du et al. 2025. Тут мы факусуемся на пасістэмнай клінічнай ацэнцы, якая з'явілася ў 2024–2025.
Чаму КПТ — тэхніка, якая паддаецца аўтаматызацыі
КПТ раскладаецца на аперацыяналізаваныя блокі: ацэнка праблемы, псіхаадукацыя, набор тэхнік (кагнітыўная рэструктурызацыя, паводзінская актывацыя, экспазіцыя, паводзінскія эксперыменты, сакратычны дыялог), маніторынг змен і прафілактыка рэцыдываў. У кожнай тэхнікі ёсць скрыпт: іерархія пазбяганых сітуацый, фармат запісу аўтаматычных думак, шкалы ацэнкі настрою.
Гэтая структура — тое, чаго пазбаўлены «ChatGPT агульнага прызначэння» і што крытычна для бяспечнай аўтаматызацыі. Сістэматычны агляд Karki et al. (2025) паказвае, што чат-боты і ЛЛМ прапануюць супастаўную з людзьмі эмпатыю і кругласутачную даступнасць, але патрабуюць інтэграцыі ў stepped care, каб быць бяспечнымі.
Таму хваля 2024–2025 — гэта не «яшчэ адзін генератыўны кампаньён». Гэта гібрыд: структураваны пратакол КПТ з ЛЛМ, якая генеруе натуральна-моўныя адказы ўнутры рэйсаў пратакола. Цікавае пытанне — як менавіта кожная сістэма рэалізуе рэйсы — і менавіта гэта разводзіць пяць.
Сістэма 1 — SuDoSys: стадыйная архітэктура на пратаколе ВААЗ
Chen et al. (2024) прадставілі SuDoSys — ЛЛМ-чат-бота, які вядзе размову па пратаколе ВААЗ Problem Management Plus (PM+) — кароткай 5-сесійнай інтэрвенцыі, распрацаванай для ўмоў дэфіцыту спецыялістаў.
Дызайн-рашэнне: рэйс з самай нізкай дырэктыўнасцю. Чат-бот утрымлівае бягучую стадыю работы (кантрактынг → ацэнка праблемы → псіхаадукацыя → тэхнікі рэгуляцыі → планаванне змен → кансалідацыя) і адмаўляецца рухацца далей, пакуль не выкананы крытэрыі выхаду са стадыі. ЛЛМ генеруе натуральныя адказы унутры стадыі; пратакол кіруе пераходамі.
Што гэта вырашае: «ChatGPT агульнага прызначэння» губляе тэрапеўтычны кірунак у эмацыйна насычаныя моманты — паломку, якасна задакументаваную Song et al. (2024) у Proceedings of the ACM on Human-Computer Interaction (Q1). Стадыйная архітэктура робіць гэтую паломку структурна немагчымай: мадэль не можа дрэйфаваць, бо пераходы ёй не належаць.
Чаму гэта важна для бяспекі: SuDoSys дастаўляе ўжо валідаваны пратакол (у PM+ ёсць апублікаваныя РКВ-дадзеныя пра эфектыўнасць пры дэпрэсіі і трывозе ў некалькіх краінах), а не вынайдзены ЛЛМ. Чат-бот — абалонка для дастаўкі ўжо існуючай інтэрвенцыі. Гэта прынцыпова меншая паверхня валідацыі, чым «ацэньваць тэрапію ІІ» з нуля.
Сістэма 2 — Чат-бот кагнітыўнай рэструктурызацыі: дзе працякае дырэктыўнасць
Wang et al. (2025) ацанілі ЛЛМ-чат-бота для кагнітыўнай рэструктурызацыі — цэнтральнай тэхнікі КПТ, у якой кліент вучыцца распазнаваць і правяраць аўтаматычныя дысфункцыянальныя думкі. Эксперты-псіхолагі ацэньвалі клінічную якасць работы сістэмы.
Дызайн-рашэнне: больш высокі бюджэт дырэктыўнасці, чым у SuDoSys. Чат-боту дазволена генераваць запыты, якія прашчупваюць канкрэтныя кагнітыўныя скажэнні.
Рэжым адмовы, агалёны даследаваннем: мадэль дрэйфуе ад даследчых пытанняў («якія аргументы ёсць за і супраць гэтай думкі?») у дырэктыўную параду («лепш падумай пра гэта так»). Гэта парушае адзін з фундаментальных прынцыпаў КПТ — уласнае адкрыццё кліентам альтэрнатыўных інтэрпрэтацый з'яўляецца актыўным інгрэдыентам, а не правільным адказам, дастаўленым тэрапеўтам зверху.
Урок: якасць КПТ-чат-бота задаецца не аб'ёмам ведаў мадэлі, а тым, наколькі ўмела пратакол душыць яе дырэктыўнасць у патрэбных месцах. Тая ж праблема разабрана ў prompt-engineering-фрэймворку Boit & Patil (разбор prompt engineering для чат-ботаў ментальнага здароўя) і архітэктурна ў MIND-SAFE.
Сістэма 3 — Socrates 2.0: самая складаная для аўтаматызацыі тэхніка
Held et al. (2025) у JMIR Mental Health апублікавалі змешана-метадалагічнае feasibility-даследаванне Socrates 2.0 — ІІ-сістэмы для кагнітыўнай пераацэнкі праз сакратычны дыялог. Сакратычны дыялог — тэхніка, у якой тэрапеўт праз паслядоўнасць адкрытых пытанняў дапамагае кліенту самастойна прыйсці да больш збалансаванай інтэрпрэтацыі, а не атрымаць «правільны адказ» звонку.
Дызайн-рашэнне: рэйс даследчай пазіцыі, яўна ўбудаваны ў промпт. Задаваць удакладняльныя пытанні, прашчупваць інтэрпрэтацыі, утрымліваць фокус на мэце сесіі — не даючы адказу.
Што спрацавала: сучасныя ЛЛМ могуць утрымліваць сакратычны дыялог у фармаце, блізкім да тэрапеўтычнага, і захоўваюць фокус на мэце на працягу сесіі.
Дзе зламалася: у складаных выпадках кагнітыўных скажэнняў мадэль дрэйфавала ў парады і губляла даследчую пазіцыю — той жа рэжым адмовы, які Wang et al. (2025) пазначылі для кагнітыўнай рэструктурызацыі. Два незалежныя дызайны, якія сыходзяцца да адной мяжы, робяць гэта не спецыфічнай для Socrates 2.0 мяжой, а універсальным пределам КПТ-чат-ботаў: сённяшнія ЛЛМ могуць дастаўляць кагнітыўныя тэхнікі ўмеранай складанасці, але маюць патрэбу ў ахоўнай агароджы даследчай пазіцыі для работы са складанымі выпадкамі.
Сістэма 4 — Чат-бот паводзінскай актывацыі для маладых дарослых
Kuhlmeier et al. (2025) распрацавалі ЛЛМ-чат-бота для паводзінскай актывацыі (BA) у маладых дарослых з дэпрэсіяй і ацанілі яго з штучнымі карыстальнікамі (кліент-сімулятарамі) і клінічнымі экспертамі. BA — самая даказная тэхніка КПТ пры дэпрэсіі: замест работы з думкамі кліент паступова павялічвае колькасць актыўнасцяў, прывязаных да каштоўнасцяў і задавальнення, разрываючы дэпрэсіўны круг.
Дызайн-рашэнне: жорсткія рэйсы вернасці пратаколу. Праводзіць структуру сесіі BA, выдаваць карэктную хатнюю работу, маніторыць прагрэс.
Што пацвердзіла ацэнка: ЛЛМ-чат-боты могуць выконваць пратакол КПТ з высокай вернасцю — следуюць структуры сесіі, выдаюць карэктную хатнюю работу, адсочваюць прагрэс па шкалах.
Адкрыты франтыр: устойлівае клінічнае разважанне — рэагаванне на нетыповыя адказы кліента, распазнаванне схаваных рызык, дынамічная адаптацыя інтэнсіўнасці. Гэта тая ж мяжа «роля 1 супраць ролі 3», якая ўсплывае ў кожным даследаванні чат-ботаў: дастаўка пратакола вырашана; клінічнае суджэнне — не. Сумежныя дызайны, такія як CaiTI (Nie et al., 2024, ACM Transactions on Computing for Healthcare, Q1, 35 цытаванняў) — ЛЛМ-«тэрапеўт», дастаўлены праз бытавыя разумныя прылады — штурхаюць да just-in-time КПТ-інтэрвенцыі ў правільны момант, што падымае планку яшчэ вышэй.
Сістэма 5 — PST-чат-бот на GPT-4
Mo et al. (2025) у Frontiers in Digital Health прадставілі PST-чат-бот на GPT-4 для самадапамогі ў маладых дарослых. Problem Solving Therapy (PST) — кароткі КПТ-вытворны падыход: вызначэнне праблемы → генерацыя альтэрнатыў → ацэнка і выбар → планаванне рэалізацыі → разбор выніку.
Дызайн-рашэнне: ЛЛМ валодае большай часткай паверхні дыялогу, бо пратакол настолькі жорстка пакрокавы, што сам па сабе абмяжоўвае дрэйф.
Чаму PST унікальна добра падыходзіць чат-боту:
- Пратакол строга пакрокавы і лёгка ўтрымліваецца ўнутры дыялогу — амаль няма месца мадэлі сысці ў бок.
- Ён працуе з бягучымі жыццёвымі задачамі, не з глыбокай рэструктурызацыяй перакананняў — што зніжае патрабаванні да «тэрапеўтычнай інтуіцыі» сістэмы.
- Чат-бот дапамагае структураваць мысленне карыстальніка, не прэтэндуючы на ролю глыбіннага тэрапеўта.
Гэта робіць PST карыснай верхняй мяжой таго, чым можа валодаць ЛЛМ. Калі пратакол настолькі добра абмежаваны, чат-бот на бяспечнай тэрыторыі; калі не (кагнітыўная рэструктурызацыя, сакратычная пераацэнка) — ЛЛМ патрэбен знешні рэйс.
Пяць сістэм = пяць рэйсаў. Side-by-side
| Сістэма | Тэхніка | Дызайн-рашэнне | Што спрацавала | Рэжым адмовы |
|---|---|---|---|---|
| SuDoSys (Chen 2024) | Пратакол ВААЗ PM+ | Stage-gates кіруюць пераходамі; ЛЛМ толькі ўнутры стадыі | Не можа дрэйфаваць; дастаўляе папярэдне валідаваную інтэрвенцыю ВААЗ | Абмежаваны рамкамі 5-сесійнага PM+ |
| Кагнітыўная рэструктурызацыя (Wang 2025) | Рэструктурызацыя | Больш высокі бюджэт дырэктыўнасці | Эмпатычная валідацыя, утрыманне пратакола | Дрэйф у дырэктыўную параду — парушае «ўласнае адкрыццё кліента» |
| Socrates 2.0 (Held 2025) | Кагнітыўная пераацэнка | Рэйс даследчай пазіцыі ў промпце | Утрымлівае сакратычны дыялог на ўмеранай складанасці | Дрэйфуе ў парады ў складаных кагнітыўных скажэннях |
| BA-чат-бот (Kuhlmeier 2025) | Паводзінская актывацыя | Жорсткія рэйсы вернасці пратаколу | Высокая вернасць структуры сесіі BA | Нетыповыя адказы кліента; распазнаванне рызыкі |
| PST-чат-бот (Mo 2025) | Праблем-факусаваная тэрапія | Унутрана пакрокавая структура абмяжоўвае дрэйф | ЛЛМ бяспечна валодае большай часткай дыялогу | Абмежаваны работай з бягучай задачай, не з глыбінёй |
Пределы, агульныя для ўсіх пяці сістэм
У пяці сістэмах усплываюць адны і тыя ж зоны рызыкі:
- Дрэйф у дырэктыўнасць — цэнтральны рэжым адмовы КПТ-чат-бота. Дзве з пяці сістэм (Wang 2025; Held 2025) незалежна паказалі ўцечку мадэлі ў дырэктыўную параду там, дзе КПТ заклікае да сумеснага даследавання. Дызайн рэйса — гэта і ёсць пытанне бяспекі.
- Нераўнамерная эмпатыя па падгрупах. Эмпатыя ЛЛМ вар'іруецца паміж групамі пацыентаў (Gabriel et al., 2024). Без збалансаваных корпусаў і ахоўных агароджаў карыстальнікі з недапрэдстаўленых груп атрымліваюць адказы больш нізкай якасці.
- Апрацоўка крызісу без асобных ахоўных агароджаў стварае шкоду. Менш за палову сістэм у аглядзе Li et al. (2023) наогул паведамлялі пра меры бяспекі. ЛЛМ агульнага прызначэння, разгорнутыя без спецыяльных механізмаў, ствараюць задакументаваную шкоду (De Choudhury et al., 2023).
- Паверхня валідацыі малая — пяць тэхнік, пяць сістэм. Дадзеныя 2024–2025 паказваюць, што працуе для кагнітыўнай рэструктурызацыі, сакратычнай пераацэнкі, BA, PST і пратакола ВААЗ. Яны пакуль не пакрываюць экспазіцыйную тэрапію, паводзінскія эксперыменты пры АКР або тэхнікі трэцяй хвалі (ACT, навыкі DBT).
Да чаго сыходзяцца пяць сістэм
Звязная дызайн-спецыфікацыя клінічна прыдатнага КПТ-чат-бота чытаецца так:
- Stage-gates, а не пераходы ва ўладанні ЛЛМ. Для пратаколаў з выразна вызначанай структурай сесіі (BA, PM+, PST) выбірайце стадыйную архітэктуру ў стылі SuDoSys.
- Рэйс даследчай пазіцыі ў промпце. Для тэхнік, дзе ЛЛМ дазволена генераваць дыялог унутры стадыі (рэструктурызацыя, сакратычны), рэйс павінен душыць дырэктыўнасць — і нават тады ён ламаецца на складаных кагнітыўных скажэннях, таму эскалуйце.
- Асобная паверхня бяспекі. Распазнаванне крызісу і handoff не могуць быць раздзелам промпта; гэта павінен быць незалежны слой. EmoAgent (Qiu et al., 2025) і фрэймворк MIND-SAFE дэманструюць архітэктуру.
- Абмежаваны ахоп. Лёгкія і ўмераныя сімптомы, не востры крызіс або складаная камарбіднасць. Пратакол павінен явна сігналізаваць карыстальніку пра мяжу.
Nearby рэалізуе гэтую спецыфікацыю: КПТ-пратаколы з мультыагентнай архітэктурай, якая аддзяляе дастаўку тэхнікі ад бяспекі, структураваны прафайлінг, які зніжае ціск дырэктыўнасці, і яўная эскалацыя да клініцыста па-за ахопам пратакола. Цікавая работа ў гэтай прасторы на наступныя 12 месяцаў — не «больш магутныя базавыя мадэлі». Гэта лепшыя рэйсы.
Часта задаваныя пытанні
На якое дызайн-рашэнне паказвае літаратура па ацэнцы КПТ-чат-ботаў?
На стадыйную архітэктуру, у якой пратакол валодае пераходамі паміж фазамі, а ЛЛМ толькі генеруе ўнутры фазы. SuDoSys (Chen et al., 2024) на пратаколе ВААЗ PM+ — самы чысты прыклад: кантрактынг → ацэнка → псіхаадукацыя → рэгуляцыя → планаванне → кансалідацыя, прычым мадэль не можа прасунуцца, пакуль не выкананы крытэрыі выхаду. PST-чат-бот Mo et al. (2025) дасягае падобнага профілю бяспекі, бо PST настолькі жорстка пакрокавы, што структура ўнутрана абмяжоўвае дрэйф.
Чаму дрэйф у дырэктыўнасць мае клінічнае значэнне?
КПТ абапіраецца на сумеснае даследаванне: кліент адкрывае альтэрнатыўныя інтэрпрэтацыі праз накіраваныя пытанні, а не атрымліваючы «правільны адказ» тэрапеўта. Дзве з пяці ацэнак 2024–2025 (Wang 2025; Held 2025) паказалі ўцечку ЛЛМ у дырэктыўную параду ў складаных выпадках. Гэта разбурае тэрапеўтычны кантакт і зніжае пачуццё аўтарства кліента над зменай — актыўны інгрэдыент кагнітыўных тэхнік.
Якія тэхнікі КПТ рэальна клінічна ацэненыя ў 2024–2025?
Пяць: структураваны дыялог па пратаколе ВААЗ PM+ (SuDoSys, Chen et al., 2024), кагнітыўная рэструктурызацыя (Wang et al., 2025), сакратычная пераацэнка (Socrates 2.0, Held et al., 2025), паводзінская актывацыя ў маладых дарослых (Kuhlmeier et al., 2025) і праблем-факусаваная тэрапія на GPT-4 (Mo et al., 2025). Экспазіцыйная тэрапія, паводзінскія эксперыменты пры АКР і тэхнікі трэцяй хвалі (ACT, навыкі DBT) пакуль не пакрытыя.
Дзе ламаецца кожная сістэма — і пра што гэта гаворыць?
SuDoSys ламаецца толькі на ахопе (прывязаны да PM+). Чат-бот кагнітыўнай рэструктурызацыі Wang і Socrates 2.0 ламаюцца на адным і тым жа рэжыме адмовы — дрэйф у парады ў складаных кагнітыўных скажэннях — што робіць гэта універсальным пределам сённяшніх ЛЛМ, а не багам асобнай сістэмы. BA-чат-бот Kuhlmeier мае самы чысты профіль вернасці, але агаляе мяжу ролі 3: дастаўка пратакола вырашана, устойлівае клінічнае разважанне — не. PST-чат-бот Mo — верхняя мяжа таго, чым мадэль можа бяспечна валодаць, калі пратакол жорстка пакрокавы.
Ці бяспечны КПТ-чат-бот без яўнага safety-слою?
Не. Менш за палову чат-ботаў у аглядзе Li et al. (2023) паведамлялі пра якія-небудзь механізмы бяспекі. ЛЛМ агульнага прызначэння, разгорнутыя без асобных ахоўных агароджаў, ствараюць задакументаваную шкоду (De Choudhury et al., 2023). Распазнаванне крызісу і handoff павінны быць незалежным слоем — а не раздзелам промпта.
Крыніцы
Boit, S., & Patil, R. (2025). A prompt engineering framework for large language model–based mental health chatbots: Conceptual framework. JMIR Mental Health. https://doi.org/10.2196/75078
Chen, Y., Zhang, X., Wang, J., Xie, X., Yan, N., Chen, H., & Wang, L. (2024). Structured dialogue system for mental health: An LLM chatbot leveraging the PM+ guidelines. ArXiv. https://doi.org/10.48550/arxiv.2411.10681
De Choudhury, M., Pendse, S. R., & Kumar, N. (2023). Benefits and harms of large language models in digital mental health. ArXiv. https://doi.org/10.48550/arxiv.2311.14693
Du, Q., Ren, Y., Meng, Z., He, H., & Meng, S. (2025). The efficacy of rule-based versus large language model–based chatbots in alleviating symptoms of depression and anxiety: Systematic review and meta-analysis. Journal of Medical Internet Research.
Gabriel, S., Puri, I., Xu, X., Malgaroli, M., & Ghassemi, M. (2024). Can AI relate: Testing large language model response for mental health support. ArXiv. https://doi.org/10.48550/arxiv.2405.12021
Held, P. et al. (2025). AI-facilitated cognitive reappraisal via Socrates 2.0: Mixed methods feasibility study. JMIR Mental Health. https://doi.org/10.2196/80461
Karki, A., Kamble, C., Chavan, R., & Chapke, N. (2025). Mental health meets machine learning: The rise of chatbots and LLMs in therapy. International Journal for Research Trends and Innovation. https://doi.org/10.56975/ijrti.v10i5.203281
Kuhlmeier, F., Hanschmann, L., Rabe, M., Luettke, S., Brakemeier, E.-L., & Maedche, A. (2025). Designing an LLM-based behavioral activation chatbot for young people with depression: Insights from an evaluation with artificial users and clinical experts.
Li, H., Zhang, R., Lee, Y.-C., Kraut, R. E., & Mohr, D. C. (2023). Systematic review and meta-analysis of AI-based conversational agents for promoting mental health and well-being. NPJ Digital Medicine, 6(1), 236. https://doi.org/10.1038/s41746-023-00979-5
Mo, F. et al. (2025). Self-help psychological intervention for young individuals: PST chatbot using GPT-4. Frontiers in Digital Health. https://doi.org/10.3389/fdgth.2025.1627268
Nie, J., Shao, H., Fan, Y., Shao, Q., You, H., Preindl, M., & Jiang, X. (2024). LLM-based conversational AI therapist for daily functioning screening and psychotherapeutic intervention via everyday smart devices. ACM Transactions on Computing for Healthcare. https://doi.org/10.48550/arxiv.2403.10779
Obradovich, N. et al. (2024). Opportunities and risks of large language models in psychiatry. NPP Digital Psychiatry and Neuroscience. https://doi.org/10.1038/s44277-024-00010-z
Omar, M., Soffer, S., Charney, A. W., Landi, I., Nadkarni, G. N., & Klang, E. (2024). Applications of large language models in psychiatry: A systematic review. Frontiers in Psychiatry. https://doi.org/10.3389/fpsyt.2024.1422807
Sharma, A. et al. (2023). Human-centered evaluation of generative AI-based therapy chatbot. NEJM AI, 1(2). https://doi.org/10.1056/AIoa2300127
Song, I., Pendse, S. R., Kumar, N., & De Choudhury, M. (2024). The typing cure: Experiences with large language model chatbots for mental health support. Proceedings of the ACM on Human-Computer Interaction. https://doi.org/10.1145/3757430
Wang, Y. et al. (2025). Evaluating an LLM-powered chatbot for cognitive restructuring: Insights from mental health professionals. ArXiv. https://doi.org/10.48550/arxiv.2501.15599