Модель с 500 миллионами параметров обошла GPT-4.1 по метрике ROUGE-1 в терапевтических диалогах — 41,32 против 40,04. Это результат исследования MoPHES, опубликованного в IEEE в октябре 2025 года. Авторы — Вэй, Чжоу и Ван — показали: в психологической поддержке побеждает не размер модели, а качество обучающих данных.

Что такое MoPHES?

MoPHES (Mobile Psychological Health Evaluation and Support) — система на базе языковой модели MiniCPM4-0.5B, обученной специально для ведения многоходовых терапевтических диалогов. Ключевое слово — «специально». Вместо того чтобы натаскивать гигантскую модель на всё подряд, исследователи взяли компактную модель и дообучили её на тщательно подобранном корпусе психологических консультаций.

Корпус собирался из двух китайских датасетов — PsyQA и EmoLLM. Исходные 113 552 пары «вопрос-ответ» прошли фильтрацию и были преобразованы в 34 827 многоходовых диалогов, имитирующих реальные консультации. Тематика: семья и брак (50,6%), эмоциональные проблемы (24,7%), личностный рост (13,4%).

Почему маленькая модель побеждает большую?

Универсальные модели вроде ChatGPT и GPT-4.1 обучены на триллионах токенов из интернета. Они знают всё — и ничего глубоко. В психологическом контексте это проявляется конкретно: они дают советы вместо того, чтобы слушать, повторяют одни и те же формулировки, плохо удерживают эмоциональный контекст в длинных разговорах.

Дообученная MiniCPM4-0.5B научилась другому — вести себя как консультант, а не как энциклопедия. По метрике ROUGE-1 она набрала 41,32 балла в стратегии label, тогда как GPT-4.1 — 40,04. Это значит, что ответы маленькой модели точнее совпадали с эталонными терапевтическими репликами по содержанию и лексике.

При ручной экспертной оценке — понимание, эмпатия, профессионализм, полезность и безопасность — MoPHES набрала 7,204 балла из 10 по стратегии label. GPT-4.1 получил 8,685. Разрыв есть, но MoPHES стала лучшей среди всех некоммерческих моделей. Учитывая, что GPT-4.1 — продукт с бюджетом в миллиарды долларов, результат 0,5B-модели впечатляет.

Почему «думающие» модели провалились?

Самый неожиданный результат исследования: DeepSeek-R1-7B — модель, оптимизированная для логических рассуждений, — показала худшие результаты среди всех протестированных систем. Это контринтуитивно: казалось бы, «рассуждающая» модель должна лучше анализировать проблему клиента.

Но терапия — не логическая задача. Человеку, который рассказывает о своей боли, не нужен пошаговый разбор ситуации. Ему нужно быть услышанным. Модели, заточенные под цепочки рассуждений, буквально «думают вслух» вместо того, чтобы поддерживать. Они оптимизированы на поиск правильного ответа — а в терапии правильного ответа часто не существует.

Что это значит для будущего ИИ-терапии?

Несколько выводов, которые стоит запомнить.

Доступность. MoPHES обучалась на одном GPU A100. Это не суперкомпьютер — это стандартное оборудование, доступное в облаке за десятки долларов в час. Если качественную терапевтическую модель можно создать без инфраструктуры уровня Google, порог входа для разработчиков ментальных сервисов резко снижается.

Приватность. Модель с 500 миллионами параметров может работать прямо на смартфоне — без отправки данных на сервер. Для психологической поддержки это критически важно: люди чаще обращаются за помощью, когда уверены, что их слова не уходят в облако.

Специализация важнее масштаба. Исследования последних лет — SMILE, MeChat (2023), SoulChat (2023) — уже показывали, что синтетические и курированные датасеты для обучения терапевтических моделей дают сильные результаты. MoPHES подтвердила тренд: узкая специализация побеждает универсальность.

Где проходит граница?

Важно не путать прогресс с готовностью. MoPHES обучалась на китайскоязычных данных — перенос на другие языки и культурные контексты потребует отдельной работы. Ручная оценка всё ещё отдаёт первенство коммерческим моделям по эмпатии и профессионализму. Ни одна из протестированных систем не проходила клинических испытаний — в отличие от Therabot, снизившего симптомы депрессии на 51%.

По данным ВОЗ (2022), каждый восьмой человек в мире живёт с психическим расстройством, при этом 75% людей в странах с низким доходом не получают никакой помощи. Компактные специализированные модели — один из реальных путей к преодолению этого разрыва.

Проект «Рядом» опирается именно на эту логику: не гнаться за размером модели, а строить систему поддержки, которая понимает контекст, удерживает эмпатию и работает в рамках доказательных подходов.

Часто задаваемые вопросы

Может ли ИИ-модель с 500 млн параметров заменить живого психотерапевта? Нет. MoPHES и подобные системы — это инструмент поддержки, а не замена специалиста. Они могут помочь между сессиями, в зонах без доступа к терапевтам или как первый шаг для тех, кто пока не готов обратиться к человеку.

Почему важно, что модель маленькая? Компактные модели могут работать локально — на телефоне или ноутбуке — без подключения к интернету. Это защищает конфиденциальность и делает помощь доступной даже в регионах со слабым покрытием сети.

Чем дообученная модель отличается от ChatGPT в роли «терапевта»? ChatGPT и GPT-4.1 — универсальные модели, которые подстраиваются под запрос через промпт. Дообученная модель вроде MoPHES прошла обучение на десятках тысяч реальных терапевтических диалогов и усвоила паттерны профессиональной поддержки: активное слушание, валидацию эмоций, структуру сессии. Подробнее о возможностях и рисках LLM в терапии — в статье ChatGPT как терапевт: возможности и риски.

Что такое вычислительная психиатрия и как она связана с ИИ-терапией? Вычислительная психиатрия использует математические модели для понимания психических расстройств. ИИ-терапия — одно из её практических приложений: модели, обученные на клинических данных, применяют эти принципы для поддержки людей в реальном времени.