DSM5AgentFlow — мультиагентная система из трёх ИИ-агентов, которая проводит скрининг психических расстройств через естественный диалог и обосновывает каждый вывод ссылками на конкретные критерии DSM-5. В тестировании на 8 000 диалогов лучшая модель достигла точности 70% и F1 = 77%, а по тревожным расстройствам — до 94% (Ozgun et al., 2025).

Почему прозрачность диагностики критична

Большинство ИИ-систем для ментального здоровья работают как «чёрный ящик»: выдают результат без объяснения, как к нему пришли. Для пользователя это выглядит как «ИИ сказал, что у вас депрессия» — без возможности понять почему.

В клинической практике прозрачность — базовое требование. Психотерапевт объясняет свои гипотезы, ссылается на диагностические критерии, привязывает наблюдения к конкретным высказываниям клиента. Это позволяет и пациенту, и супервизору проверить логику рассуждений.

Систематические обзоры фиксируют растущее применение LLM в психиатрии (Guo et al., 2024; Omar et al., 2024), но системы с объяснимой диагностикой — редкость. DSM5AgentFlow, разработанный командой из Амстердамского свободного университета и Технического университета Эйндховена, решает именно эту проблему.

Три агента: терапевт, клиент, диагност

Архитектура системы моделирует реальный диагностический процесс через трёх специализированных агентов:

Агент-терапевт ведёт клиническое интервью. Берёт 23 стандартных вопроса из кросс-диагностического опросника DSM-5 Level-1 и переформулирует их в естественные, разговорные вопросы. Вместо «Оцените частоту ваших панических атак от 0 до 4» спрашивает: «Расскажите, бывают ли моменты, когда вас внезапно охватывает страх или паника?» Охватывает 13 симптоматических доменов.

Агент-клиент симулирует пациента с заданным психологическим профилем. Отвечает от первого лица, описывает симптомы без использования диагностических терминов. Это позволяет тестировать систему в масштабе: 8 000 диалогов покрывают 10 основных расстройств — от тревожности и депрессии до шизофрении и злоупотребления веществами.

Агент-диагност анализирует транскрипт разговора и формирует структурированный отчёт из четырёх частей:

Сочувственное резюме состояния пациента
Диагностическая гипотеза
Обоснование с цитатами из диалога и ссылками на критерии DSM-5
Рекомендации по лечению

Мультиагентный подход — когда каждый агент отвечает за свою роль — уже показал себя эффективнее монолитных решений и в терапии, и в оценке состояния. DSM5AgentFlow подтверждает этот тренд на стороне диагностики.

Как RAG обеспечивает доказательность

Ключевая техническая особенность — интеграция RAG (Retrieval-Augmented Generation) с полным текстом DSM-5. Диагност не полагается на «знания», зашитые в веса модели. Вместо этого он:

Получает транскрипт диалога
Извлекает 5 наиболее релевантных фрагментов DSM-5 (чанки по 512–1024 токена)
Формирует диагноз, явно привязывая высказывания пациента к критериям

Для маркировки связей используются XML-теги: <sym> — симптом, <quote> — прямая цитата из диалога, <med> — медицинский критерий. Это позволяет проследить цепочку рассуждений: конкретная реплика пациента → конкретный критерий DSM-5 → диагностический вывод.

DSM-5 (Diagnostic and Statistical Manual of Mental Disorders, 5th edition) — стандартная классификация Американской психиатрической ассоциации, включающая диагностические критерии для всех основных психических расстройств. Использование его как базы знаний RAG гарантирует, что каждый вывод привязан к авторитетному клиническому источнику.

Точность: от 70% в среднем до 94% по тревожным расстройствам

Систему тестировали на четырёх языковых моделях: Llama-4-Scout-17B, Mistral-Saba-24B, Qwen-QWQ-32B и GPT-4.1-Nano. Лучшие результаты показала Qwen-QWQ — модель, оптимизированная для рассуждений:

Общая точность: 70%, F1: 77%
Паническое расстройство: 93,65%
ПТСР: 94,36%
Социальная тревожность: 93,89%

GPT-4.1-Nano достигла точности 83%, но с меньшим F1 (73%). Качество диалогов оценивалось отдельно: Llama-4 и Mistral получили 4,26–4,41 из 5 по шкале рубрик LLM, тогда как GPT-4.1-Nano — только 1,89–2,54 (Ozgun et al., 2025).

Самое слабое место — расстройство адаптации: F1 от 2,78% до 40,25%. Система систематически путала его с депрессией — что неудивительно: и в клинической практике разграничение этих диагнозов остаётся одной из самых сложных задач.

Качество объяснений: не все модели одинаково прозрачны

Отдельно оценивалась объяснимость — способность модели обосновать свой вывод. Разница оказалась значительной:

Qwen-QWQ (лучшая): 11 тегов симптомов, 4 прямые цитаты из диалога, явные ссылки на критерии DSM, нумерованные шаги логики. Полностью прозрачный процесс — от наблюдения до вывода.

GPT-4.1-Nano: много тегов, но без структурированного рассуждения. Ответ правильный, но непонятно почему — связь между наблюдениями и выводом теряется.

Llama-4: минимум обоснований, отсутствие ссылок на критерии. По сути, тот самый «чёрный ящик», который система призвана устранить.

Этот результат важен: точность диагноза без объяснения мало полезна в клиническом контексте. Специалист должен иметь возможность проверить каждый шаг рассуждения — так же, как вычислительная психиатрия стремится сделать прозрачными математические модели психических процессов.

Ограничения: почему это пока не замена психиатру

Авторы честно обозначают границы исследования:

Только синтетические данные — все 8 000 диалогов сгенерированы ИИ. Экологическая валидность не подтверждена
Однопроходная генерация — система не адаптирует вопросы по ходу интервью на основе предыдущих ответов
Ограниченный пул моделей — тестирование проводилось только на Groq-хостинге и OpenAI
Перекрёстные симптомы — расстройства с похожей клинической картиной (адаптация vs депрессия) различаются плохо
Позиция авторов: система — исследовательский инструмент, не медицинское устройство

Все данные и код открыты для воспроизведения другими исследователями — важный шаг для научной прозрачности в области, где доверие критично.

Что это значит для будущего ИИ-скрининга

DSM5AgentFlow показывает, как может выглядеть следующий шаг: не замена специалиста, а прозрачный инструмент предварительного скрининга. Система, которая объясняет каждый вывод, может:

Помочь пользователю осмыслить свои симптомы до визита к специалисту
Предоставить терапевту структурированный отчёт для ускорения первичной оценки
Стандартизировать скрининг в регионах с дефицитом психиатров

Для «Рядом» это подтверждение правильности мультиагентного подхода: разделение ответственности между агентами — терапевтическим, аналитическим и контролирующим — даёт и более точные, и более прозрачные результаты.

Что вычислительные модели меняют в диагностике

Есть более глубокое напряжение, которое стоит назвать. DSM-5 — категориальная система: вы либо соответствуете чек-листу расстройства, либо нет, и граница между «диагноз есть» и «нет» — жёсткий порог. Система вроде DSM5AgentFlow наследует эту логику — она проецирует разговор на критерии DSM. Но значительная часть вычислительной психиатрии тянет в противоположную сторону — к измеренческому (dimensional) взгляду на психическое расстройство.

Сетевая теория, предложенная Borsboom (2017, World Psychiatry), — ясный пример: она трактует расстройство не как единую скрытую болезненную сущность, а как сеть симптомов, которые запускают друг друга. Исследовательские инициативы вроде Research Domain Criteria (RDoC) NIMH двигают туда же, описывая, где человек находится вдоль непрерывных параметров, а не сортируя его по коробкам. Для диагностики это важно, потому что два человека с одинаковой меткой DSM могут колоссально различаться в том, что на самом деле движет их дистрессом, — а значит, и в том, что им поможет. Наш обзор вычислительных моделей психических расстройств разбирает этот сдвиг подробно.

Здесь же — и предупреждение. Hitchcock и коллеги (2023, Neuroscience & Biobehavioral Reviews) обнаружили, что многие вычислительные меры страдают от низкой тест-ретестовой надёжности — то есть один и тот же человек может получить разные оценки в разные дни. Любой ИИ, опирающийся на такие меры, наследует эту нестабильность, и это ещё одна причина трактовать автоматический результат как отправную точку для разговора с клиницистом, а не как приговор.

Часто задаваемые вопросы

Может ли ИИ поставить диагноз психического расстройства?

Пока нет — в клиническом смысле. DSM5AgentFlow достигает точности 70% и F1 77% в контролируемых условиях, но тестировался только на синтетических данных. Авторы позиционируют систему как исследовательский инструмент, не замену психиатрической диагностике (Ozgun et al., 2025).

Что такое DSM-5 и зачем он нужен ИИ-системе?

DSM-5 (Diagnostic and Statistical Manual of Mental Disorders, 5th edition) — стандартная классификация Американской психиатрической ассоциации. Включает диагностические критерии для всех основных психических расстройств. DSM5AgentFlow использует его как базу знаний через RAG, привязывая каждый вывод к конкретному критерию.

Какие расстройства система диагностирует лучше всего?

Тревожные расстройства: паническое (93,65%), ПТСР (94,36%), социальная тревожность (93,89%). Хуже всего — расстройство адаптации (F1 от 2,78% до 40,25%), которое система часто путает с депрессией.

Чем DSM5AgentFlow отличается от обычного ИИ-скрининга?

Три отличия: (1) мультиагентная архитектура с разделением ролей, (2) RAG-интеграция с полным текстом DSM-5, (3) структурированное обоснование каждого вывода с тегами симптомов и цитатами из диалога. Обычные ИИ-скрининги выдают результат без объяснения.

Можно ли использовать результаты DSM5AgentFlow для самодиагностики?

Нет. Авторы прямо указывают: система — исследовательский инструмент, не медицинское устройство. Любой скрининг — и ИИ, и бумажные опросники — это повод обратиться к специалисту, а не основание для самостоятельных выводов.

Почему DSM-5 критикуют в вычислительной психиатрии?

Потому что он категориален — он сортирует людей по диагностическим коробкам с жёсткими порогами, тогда как многие данные говорят, что психическое здоровье измеренческое. Подходы вроде сетевой теории и рамки RDoC утверждают, что двумя людьми с одной меткой могут двигать очень разные глубинные процессы. DSM-5 остаётся клиническим стандартом и полезным общим языком, но вычислительные исследователи видят в его структуре «или/или» плохое соответствие тому, как расстройства на самом деле варьируются.

Заменит ли ИИ психиатрическую диагностику?

Достоверных признаков этого нет. Даже самые прозрачные исследовательские системы, протестированные лишь на синтетических данных, позиционируются самими авторами как инструменты скрининга и поддержки, а не медицинские устройства. Реалистичная роль в ближайшей перспективе — помогать людям осмыслить симптомы до визита и давать клиницистам структурированный стартовый отчёт, при этом реальный диагноз всегда ставит человек.

Источники

Ozgun, M. C., Pei, J., Hindriks, K. V., Donatelli, L., Liu, Q., & Wang, J. (2025). Trustworthy AI psychotherapy: Multi-agent LLM workflow for counseling and explainable mental disorder diagnosis. Proceedings of the 34th ACM International Conference on Information and Knowledge Management (CIKM 2025). https://doi.org/10.1145/3746252.3761164

Guo, J., et al. (2024). Large language models for mental health: A systematic review. ArXiv. https://doi.org/10.48550/arxiv.2403.15401

Omar, A., et al. (2024). Applications of large language models in psychiatry: A systematic review. Frontiers in Psychiatry, 15. https://doi.org/10.3389/fpsyt.2024.1422807

Chen, Y., et al. (2025). MIND: Towards immersive psychological healing with multi-agent inner dialogue. ArXiv. https://doi.org/10.48550/arxiv.2502.19860