ИИ-диагностика по DSM-5: прозрачность вместо чёрного ящика
DSM5AgentFlow — мультиагентная система из трёх ИИ-агентов, которая проводит скрининг психических расстройств через естественный диалог и обосновывает каждый вывод ссылками на конкретные критерии DSM-5. В тестировании на 8 000 диалогов лучшая модель достигла точности 70% и F1 = 77%, а по тревожным расстройствам — до 94% (Ozgun et al., 2025).
Почему прозрачность диагностики критична
Большинство ИИ-систем для ментального здоровья работают как «чёрный ящик»: выдают результат без объяснения, как к нему пришли. Для пользователя это выглядит как «ИИ сказал, что у вас депрессия» — без возможности понять почему.
В клинической практике прозрачность — базовое требование. Психотерапевт объясняет свои гипотезы, ссылается на диагностические критерии, привязывает наблюдения к конкретным высказываниям клиента. Это позволяет и пациенту, и супервизору проверить логику рассуждений.
Систематические обзоры фиксируют растущее применение LLM в психиатрии (Guo et al., 2024; Omar et al., 2024), но системы с объяснимой диагностикой — редкость. DSM5AgentFlow, разработанный командой из Амстердамского свободного университета и Технического университета Эйндховена, решает именно эту проблему.
Три агента: терапевт, клиент, диагност
Архитектура системы моделирует реальный диагностический процесс через трёх специализированных агентов:
Агент-терапевт ведёт клиническое интервью. Берёт 23 стандартных вопроса из кросс-диагностического опросника DSM-5 Level-1 и переформулирует их в естественные, разговорные вопросы. Вместо «Оцените частоту ваших панических атак от 0 до 4» спрашивает: «Расскажите, бывают ли моменты, когда вас внезапно охватывает страх или паника?» Охватывает 13 симптоматических доменов.
Агент-клиент симулирует пациента с заданным психологическим профилем. Отвечает от первого лица, описывает симптомы без использования диагностических терминов. Это позволяет тестировать систему в масштабе: 8 000 диалогов покрывают 10 основных расстройств — от тревожности и депрессии до шизофрении и злоупотребления веществами.
Агент-диагност анализирует транскрипт разговора и формирует структурированный отчёт из четырёх частей:
- Сочувственное резюме состояния пациента
- Диагностическая гипотеза
- Обоснование с цитатами из диалога и ссылками на критерии DSM-5
- Рекомендации по лечению
Мультиагентный подход — когда каждый агент отвечает за свою роль — уже показал себя эффективнее монолитных решений и в терапии, и в оценке состояния. DSM5AgentFlow подтверждает этот тренд на стороне диагностики.
Как RAG обеспечивает доказательность
Ключевая техническая особенность — интеграция RAG (Retrieval-Augmented Generation) с полным текстом DSM-5. Диагност не полагается на «знания», зашитые в веса модели. Вместо этого он:
- Получает транскрипт диалога
- Извлекает 5 наиболее релевантных фрагментов DSM-5 (чанки по 512–1024 токена)
- Формирует диагноз, явно привязывая высказывания пациента к критериям
Для маркировки связей используются XML-теги: <sym> — симптом, <quote> — прямая цитата из диалога, <med> — медицинский критерий. Это позволяет проследить цепочку рассуждений: конкретная реплика пациента → конкретный критерий DSM-5 → диагностический вывод.
DSM-5 (Diagnostic and Statistical Manual of Mental Disorders, 5th edition) — стандартная классификация Американской психиатрической ассоциации, включающая диагностические критерии для всех основных психических расстройств. Использование его как базы знаний RAG гарантирует, что каждый вывод привязан к авторитетному клиническому источнику.
Точность: от 70% в среднем до 94% по тревожным расстройствам
Систему тестировали на четырёх языковых моделях: Llama-4-Scout-17B, Mistral-Saba-24B, Qwen-QWQ-32B и GPT-4.1-Nano. Лучшие результаты показала Qwen-QWQ — модель, оптимизированная для рассуждений:
- Общая точность: 70%, F1: 77%
- Паническое расстройство: 93,65%
- ПТСР: 94,36%
- Социальная тревожность: 93,89%
GPT-4.1-Nano достигла точности 83%, но с меньшим F1 (73%). Качество диалогов оценивалось отдельно: Llama-4 и Mistral получили 4,26–4,41 из 5 по шкале рубрик LLM, тогда как GPT-4.1-Nano — только 1,89–2,54 (Ozgun et al., 2025).
Самое слабое место — расстройство адаптации: F1 от 2,78% до 40,25%. Система систематически путала его с депрессией — что неудивительно: и в клинической практике разграничение этих диагнозов остаётся одной из самых сложных задач.
Качество объяснений: не все модели одинаково прозрачны
Отдельно оценивалась объяснимость — способность модели обосновать свой вывод. Разница оказалась значительной:
Qwen-QWQ (лучшая): 11 тегов симптомов, 4 прямые цитаты из диалога, явные ссылки на критерии DSM, нумерованные шаги логики. Полностью прозрачный процесс — от наблюдения до вывода.
GPT-4.1-Nano: много тегов, но без структурированного рассуждения. Ответ правильный, но непонятно почему — связь между наблюдениями и выводом теряется.
Llama-4: минимум обоснований, отсутствие ссылок на критерии. По сути, тот самый «чёрный ящик», который система призвана устранить.
Этот результат важен: точность диагноза без объяснения мало полезна в клиническом контексте. Специалист должен иметь возможность проверить каждый шаг рассуждения — так же, как вычислительная психиатрия стремится сделать прозрачными математические модели психических процессов.
Ограничения: почему это пока не замена психиатру
Авторы честно обозначают границы исследования:
- Только синтетические данные — все 8 000 диалогов сгенерированы ИИ. Экологическая валидность не подтверждена
- Однопроходная генерация — система не адаптирует вопросы по ходу интервью на основе предыдущих ответов
- Ограниченный пул моделей — тестирование проводилось только на Groq-хостинге и OpenAI
- Перекрёстные симптомы — расстройства с похожей клинической картиной (адаптация vs депрессия) различаются плохо
- Позиция авторов: система — исследовательский инструмент, не медицинское устройство
Все данные и код открыты для воспроизведения другими исследователями — важный шаг для научной прозрачности в области, где доверие критично.
Что это значит для будущего ИИ-скрининга
DSM5AgentFlow показывает, как может выглядеть следующий шаг: не замена специалиста, а прозрачный инструмент предварительного скрининга. Система, которая объясняет каждый вывод, может:
- Помочь пользователю осмыслить свои симптомы до визита к специалисту
- Предоставить терапевту структурированный отчёт для ускорения первичной оценки
- Стандартизировать скрининг в регионах с дефицитом психиатров
Для «Рядом» это подтверждение правильности мультиагентного подхода: разделение ответственности между агентами — терапевтическим, аналитическим и контролирующим — даёт и более точные, и более прозрачные результаты.
Часто задаваемые вопросы
Может ли ИИ поставить диагноз психического расстройства?
Пока нет — в клиническом смысле. DSM5AgentFlow достигает точности 70% и F1 77% в контролируемых условиях, но тестировался только на синтетических данных. Авторы позиционируют систему как исследовательский инструмент, не замену психиатрической диагностике (Ozgun et al., 2025).
Что такое DSM-5 и зачем он нужен ИИ-системе?
DSM-5 (Diagnostic and Statistical Manual of Mental Disorders, 5th edition) — стандартная классификация Американской психиатрической ассоциации. Включает диагностические критерии для всех основных психических расстройств. DSM5AgentFlow использует его как базу знаний через RAG, привязывая каждый вывод к конкретному критерию.
Какие расстройства система диагностирует лучше всего?
Тревожные расстройства: паническое (93,65%), ПТСР (94,36%), социальная тревожность (93,89%). Хуже всего — расстройство адаптации (F1 от 2,78% до 40,25%), которое система часто путает с депрессией.
Чем DSM5AgentFlow отличается от обычного ИИ-скрининга?
Три отличия: (1) мультиагентная архитектура с разделением ролей, (2) RAG-интеграция с полным текстом DSM-5, (3) структурированное обоснование каждого вывода с тегами симптомов и цитатами из диалога. Обычные ИИ-скрининги выдают результат без объяснения.
Можно ли использовать результаты DSM5AgentFlow для самодиагностики?
Нет. Авторы прямо указывают: система — исследовательский инструмент, не медицинское устройство. Любой скрининг — и ИИ, и бумажные опросники — это повод обратиться к специалисту, а не основание для самостоятельных выводов.
Источники
Ozgun, M. C., Pei, J., Hindriks, K. V., Donatelli, L., Liu, Q., & Wang, J. (2025). Trustworthy AI psychotherapy: Multi-agent LLM workflow for counseling and explainable mental disorder diagnosis. Proceedings of the 34th ACM International Conference on Information and Knowledge Management (CIKM 2025). https://doi.org/10.1145/3746252.3761164
Guo, J., et al. (2024). Large language models for mental health: A systematic review. ArXiv. https://doi.org/10.48550/arxiv.2403.15401
Omar, A., et al. (2024). Applications of large language models in psychiatry: A systematic review. Frontiers in Psychiatry, 15. https://doi.org/10.3389/fpsyt.2024.1422807
Chen, Y., et al. (2025). MIND: Towards immersive psychological healing with multi-agent inner dialogue. ArXiv. https://doi.org/10.48550/arxiv.2502.19860