Псіхіятры даўно ведаюць непрыемную праўду: традыцыйныя шкалы ацэнкі суіцыдальнай рызыкі працуюць не нашмат лепш за выпадковае адгадванне. Мета-аналіз 365 даследаванняў за 50 гадоў (Franklin et al., 2017) паказаў, што прагнастычная здольнасць класічных фактараў рызыкі блізкая да AUC 0.58 — амаль бескарысная для рэальных рашэнняў. Менавіта гэты правал падштурхнуў даследчыкаў да машыннага навучання і апрацоўкі натуральнай мовы.

Што алгарытм бачыць у тэксце

Суіцыдальныя думкі пакідаюць сляды не столькі ў словах «хачу памерці», колькі ў структуры маўлення. Даследаванні групы Джона Пэсціяна (Cincinnati Children's Hospital) паказалі, што мадэлі, навучаныя на транскрыптах інтэрв'ю, адрозніваюць суіцыдальных і несуіцыдальных падлеткаў з дакладнасцю каля 85% — абапіраючыся не на прамыя заявы, а на патэрны: зніжэнне кагнітыўнай складанасці, рост абсалютысцкіх фармулёвак («заўсёды», «ніколі»), звужэнне часавай перспектывы, зрух займеннікаў у бок «я» пры адначасовай эмацыйнай дысацыяцыі.

Al-Mosaiwi і Johnstone (2018) прааналізавалі больш за 6400 пастоў на англамоўных форумах і выявілі, што доля абсалютысцкіх слоў у суполках пра дэпрэсію і трывогу на 50% вышэйшая, чым у кантрольных, а ў суполках пра суіцыдальныя думкі — на 80% вышэйшая. Гэта той тып сігналу, які цяжка злавіць чалавечым слыхам, але лёгка вымераць статыстычна.

Як гэта працуе на вялікіх даных

Walsh, Ribeiro і Franklin (2017) навучылі мадэль на электронных медкартах 5167 пацыентаў і атрымалі AUC 0.84 для прагнозу спробы самагубства ў бліжэйшыя 7 дзён — у разы вышэй за любыя клінічныя шкалы. Падобныя вынікі паказваюць працы на даных сацыяльных сетак: штогадовыя спаборніцтвы CLPsych выкарыстоўваюць пасты Reddit (сабрэдыт SuicideWatch) як размечаны корпус, і лепшыя сістэмы дасягаюць F1-метрыкі 0.55–0.60 на задачы класіфікацыі ўзроўню рызыкі.

Facebook з 2017 года выкарыстоўвае сістэму выяўлення суіцыдальных сігналаў у пастах і прамых трансляцыях; паводле ўласных справаздач кампаніі, яна ініцыявала больш за 3500 выездаў хуткай дапамогі за першы год. Instagram і TikTok разгарнулі падобныя алгарытмы. У 2023 годзе JAMA Psychiatry апублікавала сістэматычны агляд 54 ML-даследаванняў: сярэдні AUC — 0.81, што робіць NLP самым дакладным з вядомых метадаў прагнозу на кароткіх гарызонтах.

Дзе метад ламаецца

Высокая дакладнасць — гэта толькі палова гісторыі. Базавая частата суіцыдальных спроб настолькі нізкая, што нават мадэль з адчувальнасцю 90% і спецыфічнасцю 90% у папуляцыі дасць дзясяткі ілжывых спрацоўванняў на кожны сапраўдны выпадак. Гэта не недахоп алгарытму — гэта матэматыка рэдкіх падзей.

Адсюль практычныя праблемы. Першая — стыгматызацыя: ілжывая метка «высокая рызыка» ў медкарце можа паўплываць на страхаванне, працаўладкаванне, бацькоўскія правы. Другая — культурная слепата: амаль усе корпусы навучання сабраныя на англамоўных пацыентах са ЗША і Вялікабрытаніі, і мадэлі дрэнна пераносяцца на іншыя мовы і культурныя спосабы выказвання дыстрэсу. Трэцяя — зрух размеркавання: патэрны мяняюцца з часам, і мадэль, навучаная ў 2019 годзе, да 2024-га можа ўстарэць.

Ёсць і больш глыбокае пытанне: нават ідэальны дэтэктар не вырашае, што рабіць з сігналам. Адправіць экстраныя службы без згоды? Паказаць банер з тэлефонам даверу? Паведаміць блізкаму? Кожнае рашэнне нясе свае этычныя выдаткі, і даследаванняў таго, якая інтэрвенцыя рэальна зніжае рызыку пасля выяўлення, амаль няма.

Што гэта значыць для прадукта

Калі прыкладанне накшталт «Рядом» працуе з чалавекам у ўразлівым стане, дэтэкцыя рызыкі — гэта не функцыя, якую можна ўключыць і забыць. Гэта абавязак: слухаць больш уважліва, рэагаваць асцярожней, прызнаваць межы сваёй кампетэнцыі і перадаваць чалавека спецыялістам, калі сігналы пераходзяць пэўны парог. Добры ШІ-памочнік не спаборнічае з крызіснай лініяй — ён дапамагае чалавеку дайсці да яе своечасова.

Тэхналогія ўмее заўважаць тое, што выслізгвае ад самога чалавека. Але што рабіць з заўважаным — гэта па-ранейшаму рашэнне, у якім абавязаны ўдзельнічаць чалавек.