DSM5AgentFlow — мультыагентная сістэма з трох ШІ-агентаў, якая праводзіць скрынінг псіхічных расстройстваў праз натуральны дыялог і абгрунтоўвае кожную высному спасылкамі на канкрэтныя крытэрыі DSM-5. У тэсціраванні на 8 000 дыялогаў лепшая мадэль дасягнула дакладнасці 70% і F1 = 77%, а па трывожных расстройствах — да 94% (Ozgun et al., 2025).

Чаму празрыстасць дыягностыкі крытычна важная

Большасць ШІ-сістэм для ментальнага здароўя працуюць як «чорная скрыня»: выдаюць вынік без тлумачэння, як да яго прыйшлі. Для карыстальніка гэта выглядае як «ШІ сказаў, што ў вас дэпрэсія» — без магчымасці зразумець чаму.

У клінічнай практыцы празрыстасць — базавае патрабаванне. Псіхатэрапеўт тлумачыць свае гіпотэзы, спасылаецца на дыягнастычныя крытэрыі, прывязвае назіранні да канкрэтных выказванняў кліента. Гэта дазваляе і пацыенту, і супервізару праверыць логіку разважанняў.

Сістэматычныя агляды фіксуюць рост выкарыстання LLM у псіхіятрыі (Guo et al., 2024; Omar et al., 2024), але сістэмы з тлумачальнай дыягностыкай — рэдкасць. DSM5AgentFlow, распрацаваны камандай з Амстэрдамскага свабоднага ўніверсітэта і Тэхнічнага ўніверсітэта Эйндхавена, вырашае менавіта гэтую праблему.

Тры агенты: тэрапеўт, кліент, дыягност

Архітэктура сістэмы мадэлюе рэальны дыягнастычны працэс праз трох спецыялізаваных агентаў:

Агент-тэрапеўт вядзе клінічнае інтэрв'ю. Бярэ 23 стандартныя пытанні з крос-дыягнастычнага апытальніка DSM-5 Level-1 і перафармулёўвае іх у натуральныя, размоўныя пытанні. Замест «Ацаніце частату вашых панічных атак ад 0 да 4» пытае: «Раскажыце, ці бываюць моманты, калі вас раптоўна ахоплівае страх або паніка?» Ахоплівае 13 сімптаматычных даменаў.

Агент-кліент сімулюе пацыента з зададзеным псіхалагічным профілем. Адказвае ад першай асобы, апісвае сімптомы без выкарыстання дыягнастычных тэрмінаў. Гэта дазваляе тэсціраваць сістэму ў маштабе: 8 000 дыялогаў пакрываюць 10 асноўных расстройстваў — ад трывожнасці і дэпрэсіі да шызафрэніі і злоўжывання рэчывамі.

Агент-дыягност аналізуе транскрыпт размовы і фармуе структураваны справаздачу з чатырох частак:

Спачувальнае рэзюмэ стану пацыента
Дыягнастычная гіпотэза
Абгрунтаванне з цытатамі з дыялогу і спасылкамі на крытэрыі DSM-5
Рэкамендацыі па лячэнні

Мультыагентны падыход — калі кожны агент адказвае за сваю ролю — ужо паказаў сябе эфектыўнейшым за маналітныя рашэнні і ў тэрапіі, і ў ацэнцы стану. DSM5AgentFlow пацвярджае гэты трэнд на баку дыягностыкі.

Як RAG забяспечвае доказнасць

Ключавая тэхнічная асаблівасць — інтэграцыя RAG (Retrieval-Augmented Generation) з поўным тэкстам DSM-5. Дыягност не абапіраецца на «веды», зашытыя ў вагі мадэлі. Замест гэтага ён:

Атрымлівае транскрыпт дыялогу
Здабывае 5 найбольш рэлевантных фрагментаў DSM-5 (чанкі па 512–1024 токены)
Фармуе дыягназ, яўна прывязваючы выказванні пацыента да крытэрыяў

Для маркіроўкі сувязей выкарыстоўваюцца XML-тэгі: <sym> — сімптом, <quote> — прамая цытата з дыялогу, <med> — медыцынскі крытэрый. Гэта дазваляе прасачыць ланцужок разважанняў: канкрэтная рэпліка пацыента → канкрэтны крытэрый DSM-5 → дыягнастычная выснова.

DSM-5 (Diagnostic and Statistical Manual of Mental Disorders, 5th edition) — стандартная класіфікацыя Амерыканскай псіхіятрычнай асацыяцыі, якая ўключае дыягнастычныя крытэрыі для ўсіх асноўных псіхічных расстройстваў. Выкарыстанне яго як базы ведаў RAG гарантуе, што кожная выснова прывязана да аўтарытэтнай клінічнай крыніцы.

Дакладнасць: ад 70% у сярэднім да 94% па трывожных расстройствах

Сістэму тэсціравалі на чатырох моўных мадэлях: Llama-4-Scout-17B, Mistral-Saba-24B, Qwen-QWQ-32B і GPT-4.1-Nano. Лепшыя вынікі паказала Qwen-QWQ — мадэль, аптымізаваная для разважанняў:

Агульная дакладнасць: 70%, F1: 77%
Панічны расстройства: 93,65%
ПТСР: 94,36%
Сацыяльная трывожнасць: 93,89%

GPT-4.1-Nano дасягнула дакладнасці 83%, але з меншым F1 (73%). Якасць дыялогаў ацэньвалася асобна: Llama-4 і Mistral атрымалі 4,26–4,41 з 5 па шкале рубрык LLM, тады як GPT-4.1-Nano — толькі 1,89–2,54 (Ozgun et al., 2025).

Самае слабае месца — расстройства адаптацыі: F1 ад 2,78% да 40,25%. Сістэма сістэматычна блытала яго з дэпрэсіяй — што нядзіўна: і ў клінічнай практыцы размежаванне гэтых дыягназаў застаецца адной з самых складаных задач.

Якасць тлумачэнняў: не ўсе мадэлі аднолькава празрыстыя

Асобна ацэньвалася тлумачальнасць — здольнасць мадэлі абгрунтаваць сваю высному. Розніца аказалася значнай:

Qwen-QWQ (лепшая): 11 тэгаў сімптомаў, 4 прамыя цытаты з дыялогу, яўныя спасылкі на крытэрыі DSM, нумараваныя крокі логікі. Цалкам празрысты працэс — ад назірання да высновы.

GPT-4.1-Nano: шмат тэгаў, але без структураванага разважання. Адказ правільны, але незразумела чаму — сувязь паміж назіраннямі і выснавай губляецца.

Llama-4: мінімум абгрунтаванняў, адсутнасць спасылак на крытэрыі. Па сутнасці, тая самая «чорная скрыня», якую сістэма заклікана ліквідаваць.

Гэты вынік важны: дакладнасць дыягназу без тлумачэння мала карысная ў клінічным кантэксце. Спецыяліст павінен мець магчымасць праверыць кожны крок разважання — гэтак жа, як вылічальная псіхіятрыя імкнецца зрабіць празрыстымі матэматычныя мадэлі псіхічных працэсаў.

Абмежаванні: чаму гэта пакуль не замена псіхіятру

Аўтары сумленна абазначаюць межы даследавання:

Толькі сінтэтычныя даныя — усе 8 000 дыялогаў згенераваны ШІ. Экалагічная валіднасць не пацверджана
Аднапраходная генерацыя — сістэма не адаптуе пытанні па ходзе інтэрв'ю на аснове папярэдніх адказаў
Абмежаваны пул мадэляў — тэсціраванне праводзілася толькі на Groq-хосцінгу і OpenAI
Перакрыжаваныя сімптомы — расстройствы з падобнай клінічнай карцінай (адаптацыя vs дэпрэсія) адрозніваюцца дрэнна
Пазіцыя аўтараў: сістэма — даследчы інструмент, не медыцынская прылада

Усе даныя і код адкрытыя для ўзнаўлення іншымі даследчыкамі — важны крок для навуковай празрыстасці ў вобласці, дзе давер крытычна важны.

Што гэта значыць для будучыні ШІ-скрынінгу

DSM5AgentFlow паказвае, як можа выглядаць наступны крок: не замена спецыяліста, а празрысты інструмент папярэдняга скрынінгу. Сістэма, якая тлумачыць кожную высному, можа:

Дапамагчы карыстальніку асэнсаваць свае сімптомы да візіту да спецыяліста
Даць тэрапеўту структураваную справаздачу для паскарэння першаснай ацэнкі
Стандартызаваць скрынінг у рэгіёнах з дэфіцытам псіхіятраў

Для «Рядом» гэта пацвярджэнне правільнасці мультыагентнага падыходу: падзел адказнасці паміж агентамі — тэрапеўтычным, аналітычным і кантралюючым — дае і больш дакладныя, і больш празрыстыя вынікі.

Частыя пытанні

Ці можа ШІ паставіць дыягназ псіхічнага расстройства?

Пакуль не — у клінічным сэнсе. DSM5AgentFlow дасягае дакладнасці 70% і F1 77% у кантраляваных умовах, але тэсціраваўся толькі на сінтэтычных даных. Аўтары пазіцыянуюць сістэму як даследчы інструмент, не замену псіхіятрычнай дыягностыцы (Ozgun et al., 2025).

Што такое DSM-5 і навошта ён патрэбны ШІ-сістэме?

DSM-5 (Diagnostic and Statistical Manual of Mental Disorders, 5th edition) — стандартная класіфікацыя Амерыканскай псіхіятрычнай асацыяцыі. Уключае дыягнастычныя крытэрыі для ўсіх асноўных псіхічных расстройстваў. DSM5AgentFlow выкарыстоўвае яго як базу ведаў праз RAG, прывязваючы кожную высному да канкрэтнага крытэрыю.

Якія расстройствы сістэма дыягнастуе лепш за ўсё?

Трывожныя расстройствы: панічнае (93,65%), ПТСР (94,36%), сацыяльная трывожнасць (93,89%). Горш за ўсё — расстройства адаптацыі (F1 ад 2,78% да 40,25%), якое сістэма часта блытае з дэпрэсіяй.

Чым DSM5AgentFlow адрозніваецца ад звычайнага ШІ-скрынінгу?

Тры адрозненні: (1) мультыагентная архітэктура з падзелам роляў, (2) RAG-інтэграцыя з поўным тэкстам DSM-5, (3) структураванае абгрунтаванне кожнай высновы з тэгамі сімптомаў і цытатамі з дыялогу. Звычайныя ШІ-скрынінгі выдаюць вынік без тлумачэння.

Ці можна выкарыстоўваць вынікі DSM5AgentFlow для самадыягностыкі?

Не. Аўтары прама ўказваюць: сістэма — даследчы інструмент, не медыцынская прылада. Любы скрынінг — і ШІ, і папяровыя апытальнікі — гэта нагода звярнуцца да спецыяліста, а не падстава для самастойных высноў.

Крыніцы

Ozgun, M. C., Pei, J., Hindriks, K. V., Donatelli, L., Liu, Q., & Wang, J. (2025). Trustworthy AI psychotherapy: Multi-agent LLM workflow for counseling and explainable mental disorder diagnosis. Proceedings of the 34th ACM International Conference on Information and Knowledge Management (CIKM 2025). https://doi.org/10.1145/3746252.3761164

Guo, J., et al. (2024). Large language models for mental health: A systematic review. ArXiv. https://doi.org/10.48550/arxiv.2403.15401

Omar, A., et al. (2024). Applications of large language models in psychiatry: A systematic review. Frontiers in Psychiatry, 15. https://doi.org/10.3389/fpsyt.2024.1422807

Chen, Y., et al. (2025). MIND: Towards immersive psychological healing with multi-agent inner dialogue. ArXiv. https://doi.org/10.48550/arxiv.2502.19860