Жывы псіхолаг адначасова выконвае мінімум чатыры клінічныя ролі — і ІІ у 2024–2025 замяшчае іх з вельмі рознай хуткасцю. У руціннай дастаўцы пратакола і базавым эмпатычным водгуку ІІ ужо параўнаўся з чалавекам па валідаваных шкалах. У рабоце з рэгуляцыяй «тут і цяпер», ацэнцы суіцыдальнага рызыку і складанай дыферэнцыяльнай дыягностыцы разрыў застаецца вялікім. Гэты артыкул супастаўляе кожную з чатырох роляў з самымі моцнымі дадзенымі — і з мяжой, за якой чат-бот перастае быць бяспечным.

Зводны памер эфекту («ці зніжае ІІ дэпрэсію?») мы ўжо разабралі ў мэта-аналізе 35 даследаванняў Li et al. 2023 і параўнанні ЛЛМ супраць скрыптовых чат-ботаў Du et al. 2025. Тут мы факусуемся на больш складаным пытанні: што адбываецца ў дызайне head-to-head, дзе чат-бот і клініцыст выконваюць адну і тую ж задачу з адной і той жа папуляцыяй?

Псіхолаг — гэта чатыры ролі, а не адна

Правільнае пытанне не «ці можа ІІ замяніць псіхолага», а «у якіх з яго роляў і для якіх карыстальнікаў ІІ ужо працуе на ўзроўні, супастаўным з чалавекам?» Сістэмы аховы здароўя, якія прымяняюць мадэль стадыйнай дапамогі (stepped care) ад Вялікабрытаніі да Аўстраліі, аперацыяналізуюць псіхолага як чатыры функцыі:

Дыягнаст — адрознівае дэпрэсію ад трывожнага засмучэння, ПТСР, біпалярнага спектра.
Носьбіт тэхнікі — праводзіць пратаколы КПТ, ACT, паводзінскай актывацыі крок за крокам.
Партнёр па альянсе — будуе працоўную сувязь, валідуе перажыванне, вытрымлівае маўчанне і супраціўленне.
Клінічны суддзя — ацэньвае рызыку, вырашае, калі эскалаваць, вядзе кейс праз сесіі.

Сістэматычны агляд Omar et al. (2024) у Frontiers in Psychiatry (Q1, 50 цытаванняў) сінтэзаваў 28 даследаванняў і вынес дакладны вердыкт: ЛЛМ «шматабяцальныя» ў дастаўцы тэхнік і частцы альянсу, прыкметна слабейшыя ў клінічнай ацэнцы рызыкі і пакуль не ацэньваліся head-to-head з людзьмі па long-horizon суджэнні. Ніжэй мы праходзім па кожнай ролі з самымі моцнымі дадзенымі 2024–2025.

Роля 1 — Носьбіт тэхнікі: ІІ параўнаўся з людзьмі па вернасці пратаколу

Самы інфарматыўны дызайн 2025 года — даследаванне Napiwotzki et al. (JMIR Formative Research), якое паставіла ІІ-чат-бота і жывых псіхолагаў побач на паводзінскай актывацыі (BA) — адной з самых даказных тэхнік КПТ пры дэпрэсіі. BA — ідэальная паверхня для параўнання, бо яе пратакол жорстка аперацыяналізаваны: праясненне каштоўнасцяў, іерархія актыўнасцяў, маніторынг настрою, разбор хатняй работы. Мала неадназначнасці ў тым, як выглядае «правільнае выкананне».

Mixed-methods рэплікацыя ў JMIR Mental Health (Scholich et al., 2025) параўнала тэрапеўтычную камунікацыю ЛЛМ-чат-ботаў і жывых псіхолагаў. Агульная знаходка абодвух дызайнаў: па вернасці пратаколу і базавых эмпатычных адказах ІІ параўноўваецца з людзьмі або падыходзіць на блізкую дыстанцыю. Разрыў адкрываецца ў больш тонкай рабоце — апрацоўцы супраціўлення кліента, расшыфроўцы неадназначных фармулёвак запыту, адаптацыі інтэнсіўнасці да стану «тут і цяпер».

Song et al. (2024) у Proceedings of the ACM on Human-Computer Interaction (Q1) прасачылі рэжым адмовы якасна. Карыстальнікі ЛЛМ-чат-ботаў для ментальнага здароўя цанілі даступнасць і адсутнасць асуджэння, але рэгулярна сутыкаліся з камунікатыўнымі зрывамі — нерэлевантнымі або шаблоннымі адказамі ў эмацыйна насычаныя моманты. Гэта не прабел у ведах. Гэта цана статыстычнай генерацыі, калі скрыпт пратакола заканчваецца.

Вердыкт па ролі 1: ІІ можа праводзіць жорсткі пратакол КПТ крок за крокам з вернасцю, блізкай да чалавечай. Ён не можа імправізаваць вакол пратакола, калі кліент ламае чаканы патэрн.

Роля 2 — Партнёр па альянсе: 3,76 з 5 па WAI, але асіметрычна

Альянс — працоўная сувязь паміж кліентам і псіхолагам — прадказвае вынік псіхатэрапіі лепш, чым выбраны метад, паводле Bordin (1979). Таму другое пытанне для ІІ — ці фарміруецца альянс наогул.

Крос-секцыйнае даследаванне 527 карыстальнікаў ІІ-чат-бота Clare вымярала альянс па Working Alliance Inventory — Short Revised (Schäfer et al., 2025). Сярэдняе значэнне — 3,76 з 5, супастаўна з вочнай амбулаторнай псіхатэрапіяй (3,9–4,2) і групавой КПТ (3,5–3,8). Дзве знаходкі ўдакладняюць карціну:

Альянс з ІІ быў найбольш моцным сярод адзінокіх карыстальнікаў (r = 0,25) і людзей з выяўленымі сімптомамі трывогі або дэпрэсіі (r = 0,37). Чат-бот найбольш каштоўны менавіта там, дзе жывы сэрвіс максімальна дэфіцытны.
Альянс структурна асіметрычны: кампанент Bond (эмацыйная сувязь) ніжэйшы, чым з жывым псіхолагам; кампаненты Goal і Task (згода па мэтах і метадах) супастаўныя.

У перакладзе: ІІ добра трымае структуру тэрапіі, але павольней будуе давер. Для кліента, чыя асноўная патрэба — структураваная штотыднёвая работа (тое, што жывы псіхолаг назваў бы «добрым камплаенсам па хатняй рабоце»), ІІ канкурэнтны з высокай надзейнасцю. Для кліента, чыя работа ў першую чаргу рэляцыйная (доўгае гараванне, комплексны ПТСР), разрыў у Bond — няправільная стартавая кропка.

Вердыкт па ролі 2: ІІ будуе дастаткова альянсу, каб дастаўляць работу па пратаколе; недастаткова, каб быць рэляцыйным правадніком у глыбіннай тэрапіі.

Роля 3 — Клінічны суддзя: дрэйф прагнозу і нераўнамерная эмпатыя

Два head-to-head дызайны супраць клініцыстаў агаляюць слабасць гэтай ролі.

Elyoseph et al. (2024, Family Medicine and Community Health) параўналі чатыры ЛЛМ (ChatGPT-3.5, ChatGPT-4, Claude, Bard) з урачамі агульнай практыкі, псіхіятрамі, клінічнымі псіхолагамі, псіхіятрычнымі медсёстрамі і агульнай публікай па прагнозе. Усе чатыры ЛЛМ карэктна распазнавалі дэпрэсію і рэкамендавалі камбінацыю псіхатэрапіі і антыдэпрэсантаў. Але ChatGPT-3.5 быў значна больш песімістычны, чым усе астатнія ЛЛМ, прафесіяналы і публіка — прадказваў больш негатыўных доўгатэрміновых зыходаў. Аўтары папярэджваюць прама: песімістычны прагноз ад ЛЛМ можа знізіць матывацыю пацыента пачаць або працягнуць тэрапію. ChatGPT-4, Claude і Bard у асноўным супалі з прафесійным меркаваннем — але варыятыўнасць унутры «тыра ЛЛМ» сама стала клінічнай зменнай.

Gabriel et al. (2024) у працы Can AI Relate (29 цытаванняў) задалі пытанне, ці аднолькава ЛЛМ эмпатычная да ўсіх груп карыстальнікаў. Не. Узроўні эмпатыі значна адрозніваліся паміж падгрупамі пацыентаў, а адпаведнасць адказаў прынцыпам матывацыйнага інтэрв'ю патрабавала паляпшэння. Для карыстальнікаў з груп, недапрэдстаўленых у навучальных дадзеных, чат-бот статыстычна менш эмпатычны — рэжым адмовы, які жывы псіхолаг рэгулюе свядома, а ЛЛМ не рэгулюе.

Гэта цана выкарыстання ChatGPT агульнага прызначэння ў рабоце з ментальным здароўем. De Choudhury et al. (2023, 63 цытаванні) каталагізавалі 12 катэгорый патэнцыйнай шкоды ад ЛЛМ у лічбавай падтрымцы ментальнага здароўя — большасць узнікае на мяжы паміж «дастаўкай тэхнікі» (роля 1) і «клінічным суджэннем» (роля 3). Спецыялізаваныя сістэмы закрываюць гэты разрыў двума слаямі: данавучаннем на збалансаваных псіхатэрапеўтычных корпусах (Mental-LLM, Xu et al., 2023, NPJ) і яўнымі ахоўнымі агароджамі (EmoAgent, Qiu et al., 2025; гл. наш разбор guardrails для ментальнага здароўя).

Вердыкт па ролі 3: без спецыялізаваных промптаў, правераных пратаколаў і яўных safety-слаёў ЛЛМ як клінічны суддзя — адмоўная карыснасць для ўразлівых карыстальнікаў. З імі — становіцца ўзроўнем трыяжу, а не ўзроўнем рашэння.

Роля 4 — Дыягнаст і куратар кейса: пакуль у асноўным чалавек

Obradovich et al. (2024) у NPP Digital Psychiatry and Neuroscience (56 цытаванняў) кансалідавалі магчымасці і рызыкі ЛЛМ у псіхіятрыі. Мяжа, якую яны праводзяць, часцей за ўсё ўзнаўляецца ў іншых аглядах. ІІ пакуль не можа замяніць клініцыста ў:

Складанай дыферэнцыяльнай дыягностыцы і камарбіднасці. Адрозненне біпалярнага спектра, ПТСР і засмучэнняў асобы патрабуе ўстойлівага назірання і кантэксту кейса, недасягальных для чат-бота за адну сесію.
Востры суіцыдальны рызык і эскалацыя крызісу. Нават спецыялізаваныя сістэмы прапускаюць частку крызісных сігналаў. Правільны дызайн — таму жорсткі handoff-пратакол на тэлефон даверу і жывога клініцыста, а не спроба «лячыць» праз крызіс.
Доўгая работа з траўмай. Дзіцячая траўма і комплексны ПТСР патрабуюць момант-да-моманту рэгуляцыі эмацыйнага стану кліента — невербальнага падстройвання, тэмпу маўлення, паўз. ІІ-сістэмы пакуль гэтага не ўмеюць нават у мультымадальных фарматах.
Клінічны супервізійны кантэкст. Рашэнні аб фармакатэрапіі, шпіталізацыі і прыцягненні сям'і застаюцца юрыдычнай і клінічнай адказнасцю чалавека.

Вердыкт па ролі 4: не змяніўся за дзесяцігоддзе. Мяжа ІІ — гэта рашэнне на ўзроўні кейса; усё, што ніжэй, — у гульні.

Карта па ролях

Роля	Што патрабуецца	ІІ у 2024–2025	Дзе ламаецца
Носьбіт тэхнікі	Вернасць пратаколу, структураваная хатняя работа	Блізка да чалавечага ўзроўню на BA (Napiwotzki 2025) і камунікацыі КПТ (Scholich 2025)	Супраціўленне, нетыповыя фармулёўкі кліента (Song 2024)
Партнёр па альянсе	Працоўная сувязь, валідацыя	WAI = 3,76/5 на Clare (Schäfer 2025), кампаненты Goal/Task супастаўныя з людзьмі	Ніжэйшы Bond; рэляцыйная глыбінная тэрапія
Клінічны суддзя	Ацэнка рызыкі, матывацыйная ўстойлівасць	Узровень трыяжу з ахоўнымі агароджамі	Дрэйф прагнозу (Elyoseph 2024), нераўнамерная эмпатыя (Gabriel 2024)
Дыягнаст / куратар кейса	Дыф. дыягностыка, эскалацыя, лангітудны кантэкст	Не ацэньваўся head-to-head супраць людзей	Камарбіднасць, востры крызіс, траўма, рашэнні па фармакатэрапіі

Што гэта значыць на практыцы

«Ці можа ІІ замяніць псіхолага» — няправільная рамка. Дзве з чатырох роляў ужо маюць надзейную ІІ-замену (дастаўка тэхнікі, частка альянсу). Адна — толькі трыяжная з ахоўнымі агароджамі (клінічны суддзя). Адна застаецца даменам жывога клініцыста (дыягнаст і куратар кейса).

Звязны дызайн stepped care чытаецца так:

Першая ступень: ІІ трымае руцінную дастаўку пратакола КПТ і падтрымку паміж сесіямі, на спелым альянсе, дастатковым для работы па пратаколе.
Другая ступень: жывы клініцыст валодае дыферэнцыяльнай дыягностыкай, эскалацыяй крызісу, доўгатэрміновай работай з траўмай і рашэннямі па фармакатэрапіі.
Мяжа: ІІ павінен явна сігналізаваць трыгеры эскалацыі, не спрабуючы «лячыць праз іх».

Nearby спраектаваны менавіта вакол гэтай карты роляў: КПТ-пратаколы для ролі 1, структураваны прафайлінг, які выбудоўвае Goal/Task-альянс для ролі 2, мультыагентная архітэктура з асобнымі агентамі для тэхнікі і бяспекі — каб роля 3 заставалася сумленнай, і яўны handoff для ролі 4.

Часта задаваныя пытанні

У якіх ролях псіхолага ІІ можа замяніць чалавека?

ІІ у 2024–2025 дасягае амаль чалавечага ўзроўню ў дастаўцы тэхнікі (Napiwotzki 2025 для паводзінскай актывацыі; Scholich 2025 для тэрапеўтычнай камунікацыі) і ў кампанентах Goal/Task працоўнага альянсу (Schäfer 2025, WAI-SR = 3,76/5 на Clare, 527 карыстальнікаў). Дзве ролі застаюцца недасягальнымі: клінічнае суджэнне (Elyoseph 2024 паказвае дрэйф прагнозу; Gabriel 2024 — нераўнамерную эмпатыю) і валоданне кейсам, уключаючы дыферэнцыяльную дыягностыку і эскалацыю крызісу (Obradovich 2024; Omar 2024).

Што значыць «head-to-head ІІ супраць псіхолага» метадалагічна?

Два дызайны 2025 года параўналі чат-ботаў і жывых псіхолагаў на ідэнтычных задачах: Napiwotzki et al. (JMIR Formative Research) — на паводзінскай актывацыі, і Scholich et al. (JMIR Mental Health) — на тэрапеўтычнай камунікацыі ў змешаных метадах. Абодва ізалююць вернасць пратаколу і эмпатычнае рэагаванне як восі параўнання. Абодва знаходзяць ІІ канкурэнтным па гэтых восях, з разрывам, які адкрываецца вакол супраціўлення і неадназначных фармулёвак кліента.

Чаму альянс з ІІ ніжэйшы па кампаненце Bond, чым па Goal і Task?

Bond фіксуе эмацыйную сувязь; Goal і Task — згоду, над чым працаваць і як. ІІ параўноўваецца з людзьмі па Goal/Task, бо згода па пратаколе — вербальная і структураваная. ІІ адстае па Bond, бо эмацыйная сувязь назапашваецца праз невербальнае падстройванне, тэмп маўлення і падразумяваны падтэкст, якія ЛЛМ не вырабляе надзейна. Асіметрыя структурная, а не пытанне памеру мадэлі.

Ці можа ChatGPT агульнага прызначэння працаваць як тэрапеўт?

Не. Elyoseph et al. (2024) выявілі, што ChatGPT-3.5 сістэматычна песімістычнейшы ў прагнозе, чым клініцысты і агульная публіка — скажэнне, здольнае знізіць матывацыю кліента пачаць або працягнуць тэрапію. De Choudhury et al. (2023) каталагізавалі 12 катэгорый патэнцыйнай шкоды ад ЛЛМ агульнага прызначэння ў кантэксце ментальнага здароўя. Бяспека ўзроўню трыяжу патрабуе спецыялізаваных промптаў, правераных пратаколаў і яўных ахоўных агароджаў (prompt engineering для чат-ботаў ментальнага здароўя; guardrails для ментальнага здароўя).

Калі жывы клініцыст строга неабходны замест ІІ?

Чатыры зоны, дзе ІІ непрымальны як асноўны актар: складаная дыферэнцыяльная дыягностыка (біпалярны спектр, ПТСР, засмучэнні асобы), востры суіцыдальны рызык і крызіс, доўгатэрміновая работа з траўмай, якая патрабуе момант-да-моманту рэгуляцыі, і рашэнні аб фармакатэрапіі або шпіталізацыі (Obradovich et al., 2024; Omar et al., 2024). У гэтых выпадках ІІ павінен перадаваць карыстальніка жывому клініцысту па жорсткім пратаколе, а не спрабаваць «лячыць праз» кейс.

Крыніцы

De Choudhury, M., Pendse, S. R., & Kumar, N. (2023). Benefits and harms of large language models in digital mental health. ArXiv. https://doi.org/10.48550/arxiv.2311.14693

Du, Q., Ren, Y., Meng, Z., He, H., & Meng, S. (2025). The efficacy of rule-based versus large language model–based chatbots in alleviating symptoms of depression and anxiety: Systematic review and meta-analysis. Journal of Medical Internet Research.

Elyoseph, Z., Levkovich, I., & Shinan-Altman, S. (2024). Assessing prognosis in depression: Comparing perspectives of AI models, mental health professionals and the general public. Family Medicine and Community Health.

Gabriel, S., Puri, I., Xu, X., Malgaroli, M., & Ghassemi, M. (2024). Can AI relate: Testing large language model response for mental health support. ArXiv. https://doi.org/10.48550/arxiv.2405.12021

Li, H., Zhang, R., Lee, Y.-C., Kraut, R. E., & Mohr, D. C. (2023). Systematic review and meta-analysis of AI-based conversational agents for promoting mental health and well-being. NPJ Digital Medicine, 6(1), 236. https://doi.org/10.1038/s41746-023-00979-5

Napiwotzki, F. et al. (2025). Comparing human and AI therapists in behavioral activation for depression. JMIR Formative Research. https://doi.org/10.2196/78138

Obradovich, N., Khalsa, S., Khan, W. U., Suh, J., Perlis, R. H., Ajilore, O., & Paulus, M. P. (2024). Opportunities and risks of large language models in psychiatry. NPP Digital Psychiatry and Neuroscience. https://doi.org/10.1038/s44277-024-00010-z

Omar, M., Soffer, S., Charney, A. W., Landi, I., Nadkarni, G. N., & Klang, E. (2024). Applications of large language models in psychiatry: A systematic review. Frontiers in Psychiatry. https://doi.org/10.3389/fpsyt.2024.1422807

Schäfer, S. K. et al. (2025). User characteristics, motives, and therapeutic alliance in mental health conversational AI Clare. Frontiers in Digital Health. https://doi.org/10.3389/fdgth.2025.1576135

Scholich, T. et al. (2025). Comparison of human therapists and LLM chatbots for therapeutic communication: Mixed methods study. JMIR Mental Health. https://doi.org/10.2196/69709

Sharma, A. et al. (2023). Human-centered evaluation of generative AI-based therapy chatbot. NEJM AI, 1(2). https://doi.org/10.1056/AIoa2300127

Song, I., Pendse, S. R., Kumar, N., & De Choudhury, M. (2024). The typing cure: Experiences with large language model chatbots for mental health support. Proceedings of the ACM on Human-Computer Interaction. https://doi.org/10.1145/3757430