Как ИИ распознаёт суицидальный риск в тексте — и где границы метода
Психиатры давно знают неприятную правду: традиционные шкалы оценки суицидального риска работают ненамного лучше случайного угадывания. Мета-анализ 365 исследований за 50 лет (Franklin et al., 2017) показал, что прогностическая способность классических факторов риска близка к AUC 0.58 — почти бесполезна для реальных решений. Именно этот провал подтолкнул исследователей к машинному обучению и анализу естественного языка.
Что алгоритм видит в тексте
Суицидальные мысли оставляют следы не столько в словах «хочу умереть», сколько в структуре речи. Исследования группы Джона Пестиана (Cincinnati Children's Hospital) показали, что модели, обученные на транскриптах интервью, различают суицидальных и несуицидальных подростков с точностью около 85% — опираясь не на прямые заявления, а на паттерны: снижение когнитивной сложности, рост абсолютистских формулировок («всегда», «никогда»), сужение временной перспективы, сдвиг местоимений в сторону «я» при одновременной эмоциональной диссоциации.
Al-Mosaiwi и Johnstone (2018) проанализировали более 6400 постов на англоязычных форумах и обнаружили, что доля абсолютистских слов в сообществах о депрессии и тревоге на 50% выше, чем в контрольных, а в сообществах о суицидальных мыслях — на 80% выше. Это тот тип сигнала, который трудно уловить человеческим слухом, но легко измерить статистически.
Как это работает на больших данных
Walsh, Ribeiro и Franklin (2017) обучили модель на электронных медкартах 5167 пациентов и получили AUC 0.84 для прогноза попытки суицида в ближайшие 7 дней — в разы выше любых клинических шкал. Похожие результаты показывают работы на данных социальных сетей: ежегодные соревнования CLPsych используют посты Reddit (subreddit SuicideWatch) как размеченный корпус, и лучшие системы достигают F1-метрики 0.55–0.60 на задаче классификации уровня риска.
Facebook с 2017 года использует систему обнаружения суицидальных сигналов в постах и прямых трансляциях; по собственным отчётам компании, она инициировала более 3500 выездов скорой помощи за первый год. Instagram и TikTok развернули похожие алгоритмы. В 2023 году JAMA Psychiatry опубликовала систематический обзор 54 ML-исследований: средний AUC — 0.81, что делает NLP самым точным из известных методов прогноза на коротких горизонтах.
Где метод ломается
Высокая точность — это только половина истории. Базовая частота суицидальных попыток настолько низка, что даже модель с чувствительностью 90% и специфичностью 90% в популяции даст десятки ложных срабатываний на каждый истинный случай. Это не недостаток алгоритма — это математика редких событий.
Отсюда практические проблемы. Первая — стигматизация: ложная метка «высокий риск» в медкарте может повлиять на страховку, трудоустройство, родительские права. Вторая — культурная слепота: почти все корпусы обучения собраны на англоязычных пациентах из США и Великобритании, и модели плохо переносятся на другие языки и культуры выражения дистресса. Третья — сдвиг распределения: паттерны меняются со временем, и модель, обученная в 2019 году, к 2024-му может устаревать.
Есть и более глубокий вопрос: даже идеальный детектор не решает, что делать с сигналом. Отправить экстренные службы без согласия? Показать баннер с телефоном доверия? Уведомить близкого? Каждое решение несёт свои этические издержки, и исследований того, какая интервенция реально снижает риск после обнаружения, почти нет.
Что это значит для продукта
Когда приложение вроде «Рядом» работает с человеком в уязвимом состоянии, детекция риска — это не функция, которую можно включить и забыть. Это обязательство: слушать внимательнее, реагировать осторожнее, признавать границы своей компетенции и передавать человека специалистам, когда сигналы переходят определённый порог. Хороший ИИ-помощник не соревнуется с кризисной линией — он помогает человеку дойти до неё вовремя.
Технология умеет замечать то, что ускользает от самого человека. Но что делать с замеченным — это по-прежнему решение, в котором обязан участвовать человек.