王焓驍 ,康艾嘉 ,趙玉寶 ,趙福容 ,蔣曉江 ,郝鳳儀 ,*,唐向東
(1.重慶兩江新區(qū)第一人民醫(yī)院,重慶 401120;2.中國(guó)人民大學(xué),北京 100872;3.多倫多大學(xué),加拿大多倫多 M5S 2E8;4.杭州安肯醫(yī)療科技有限公司,浙江 杭州 311121;5.陸軍特色醫(yī)學(xué)中心,重慶 400042;6.四川大學(xué)華西醫(yī)院睡眠醫(yī)學(xué)中心,四川 成都 610041*通信作者:郝鳳儀,E-mail:fengyihao@cqljrmyy.com)
自殺是個(gè)體蓄意或自愿采取各種手段結(jié)束自己生命的行為,自殺死亡占所有死亡人數(shù)的1.4%[1]。既往研究[2]闡述了潛在的自殺風(fēng)險(xiǎn)因素,包括心理健康狀況、經(jīng)濟(jì)社會(huì)地位、文化和道德因素等,為自殺風(fēng)險(xiǎn)評(píng)估提供了理論模型,但傳統(tǒng)統(tǒng)計(jì)分析方法處理復(fù)雜數(shù)據(jù)的能力有限,且研究同質(zhì)性強(qiáng),導(dǎo)致模型僅在較狹窄的限定范圍內(nèi)有意義[3]。且由于自殺意念的隱蔽性,既往自殺預(yù)測(cè)方法難以對(duì)高危人群做出準(zhǔn)確的、主動(dòng)的識(shí)別[4-5]。
機(jī)器學(xué)習(xí)是人工智能(Artificial Intelligence,AI)學(xué)科的重要分支,它使用計(jì)算機(jī)模擬人類(lèi)學(xué)習(xí)過(guò)程,并通過(guò)不斷適應(yīng)新數(shù)據(jù)以?xún)?yōu)化算法,從而提高模型的預(yù)測(cè)準(zhǔn)確性[6],是一類(lèi)能從數(shù)據(jù)中自動(dòng)分析并掌握規(guī)律,再利用規(guī)律對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測(cè)的方法。與傳統(tǒng)分析方法相比,機(jī)器學(xué)習(xí)能為給定數(shù)據(jù)集確定最有效的模型,并且更適合處理復(fù)雜數(shù)據(jù)[7],但需要更大的數(shù)據(jù)集來(lái)構(gòu)建預(yù)測(cè)模型。目前在自殺預(yù)測(cè)領(lǐng)域常用的算法有隨機(jī)森林、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、自然語(yǔ)言、深度學(xué)習(xí)等,均表現(xiàn)出良好潛力。近年來(lái),自殺意念的表達(dá)不再局限于口頭形式,通過(guò)電子手段(包括論壇、博客、輕博客、即時(shí)消息、電子郵件、私信等)表達(dá)痛苦和自殺意念的情況逐漸增多。青年人是網(wǎng)絡(luò)平臺(tái)的主要用戶(hù),也是自殺的高風(fēng)險(xiǎn)人群,網(wǎng)絡(luò)平臺(tái)的數(shù)據(jù)公開(kāi)化為自殺預(yù)測(cè)的機(jī)器學(xué)習(xí)提供了數(shù)據(jù)來(lái)源。
1.1.1 資料來(lái)源
于2021年4月-5月對(duì)PubMed、中國(guó)知網(wǎng)、萬(wàn)方醫(yī)學(xué)網(wǎng)的相關(guān)文獻(xiàn)進(jìn)行檢索。檢索時(shí)限為2016年1月1日-2020年12月31日。
1.1.2 檢索策略
中文檢索詞:“機(jī)器學(xué)習(xí)”“人工智能”“決策樹(shù)”“分類(lèi)樹(shù)”“支持向量機(jī)”“隨機(jī)森林”“神經(jīng)網(wǎng)絡(luò)”“深度學(xué)習(xí)”“自然語(yǔ)言”和“自殺”;中文檢索式:(機(jī)器學(xué)習(xí)+人工智能+決策樹(shù)+分類(lèi)樹(shù)+支持向量機(jī)+隨機(jī)森林+神經(jīng)網(wǎng)絡(luò)+深度學(xué)習(xí)+自然語(yǔ)言)*(自殺);英 文 檢 索 詞 :“Machine Learning”“Artificial Intelli?gence”“Decision Trees”“Classification Trees”“Support Vector Machines”“Random Forests”“Neural Network”“Deep Learning”“Natural Language”“Suicide”“Social media”“Social Network”“Facebook”“Twitter”“Reddit”“Instagram”“Snapchat”“YouTube”“Weibo”“Forums”;英文檢索式:((Machine Learning OR Artificial Intelli?gence OR Decision Trees OR Classification Trees OR Support Vector Machines OR Random Forests OR Neural Networks OR Deep Learning OR Natural Language)AND(Suicide)AND(Social media OR Social Network OR Facebook OR Twitter OR Reddit OR Instagram OR Snapchat OR YouTube OR Weibo OR Forums))AND((Machine Learning OR Artificial Intelligence OR Decision Trees OR Classification Trees OR Support Vector Machines OR Random Forests OR Neural Net?works OR Deep Learning OR Natural Language)AND(Suicide)AND(Social media OR Social Network OR Facebook OR Twitter OR Reddit OR Instagram OR Snapchat OR YouTube OR Weibo OR Forums))。
由三位作者共同制定文獻(xiàn)的納入與排除標(biāo)準(zhǔn)。納入標(biāo)準(zhǔn):①采用各類(lèi)機(jī)器學(xué)習(xí)方法,從網(wǎng)絡(luò)社交平臺(tái)采集數(shù)據(jù)并預(yù)測(cè)自殺的研究;②具有代表性的關(guān)于基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)社交平臺(tái)用戶(hù)自殺預(yù)測(cè)的重要綜述和原創(chuàng)研究性文獻(xiàn)。排除標(biāo)準(zhǔn):①重復(fù)的文獻(xiàn);②非中英文文獻(xiàn);③無(wú)法獲取全文的文獻(xiàn)。
由兩名研究者獨(dú)立進(jìn)行文獻(xiàn)檢索,在剔除重復(fù)文獻(xiàn)后,由兩名研究者閱讀文獻(xiàn)標(biāo)題、摘要和全文,進(jìn)行人工交叉復(fù)審;嚴(yán)格按照納入和排除標(biāo)準(zhǔn)篩選文獻(xiàn)。
初步檢索共獲取文獻(xiàn)114篇,其中中文文獻(xiàn)44篇,英文文獻(xiàn)70篇。排除重復(fù)文獻(xiàn)18篇,剩余96篇。再通過(guò)閱讀文獻(xiàn)標(biāo)題、摘要及全文,排除60篇,最終納入文獻(xiàn)36篇。見(jiàn)圖1。
圖1 文獻(xiàn)篩選流程圖
2.2.1 微博與輕博客是目前機(jī)器學(xué)習(xí)預(yù)測(cè)自殺的主戰(zhàn)場(chǎng)
微博與輕博客因用戶(hù)可自由匿名發(fā)言且信息公開(kāi),容易實(shí)現(xiàn)數(shù)據(jù)采集,為機(jī)器學(xué)習(xí)提供了海量訓(xùn)練素材。在基于Twitter的研究中[8],自殺預(yù)測(cè)的準(zhǔn)確率為68%~92%,使用神經(jīng)網(wǎng)絡(luò)可探索與自殺相關(guān)的心理因素,包括負(fù)擔(dān)、壓力、孤獨(dú)、絕望、失眠、抑郁和焦慮,并預(yù)測(cè)自殺行為發(fā)生風(fēng)險(xiǎn)較高時(shí)間。
在中國(guó),基于微博的“樹(shù)洞行動(dòng)”以已故用戶(hù)的微博賬號(hào)下的留言為數(shù)據(jù)庫(kù),篩查具有情緒低落甚至包含自殺意念的信息。楊芳等[9]研究顯示,留言用戶(hù)主要集中在16~26歲年齡段,跳樓、割腕、燒炭等是高風(fēng)險(xiǎn)人群表達(dá)的主要自殺方式。留言用戶(hù)在各時(shí)間段中負(fù)性情緒的表達(dá)均多于正性情緒,留言文本內(nèi)容可概括為情緒傾訴、人際關(guān)系和社會(huì)支持、睡眠、死亡等方面[10]。章宣等[11]提出混合架構(gòu)的神經(jīng)網(wǎng)絡(luò)模型,進(jìn)一步提升了自殺風(fēng)險(xiǎn)的預(yù)測(cè)精度。莊婷婷等[12]研究表明,微博用戶(hù)自殺敏感信息的發(fā)布具有周期規(guī)律,約50%的信息發(fā)布于23∶00至次日05∶00。許立鵬等[13]提供了較為完備的中國(guó)互聯(lián)網(wǎng)用戶(hù)“自殺詞典”,以提高自殺意念模型的分類(lèi)準(zhǔn)確率。Cheng等[14]研究顯示,高自殺風(fēng)險(xiǎn)者代詞、前置詞、多功能詞的使用頻率高,而動(dòng)詞使用頻率較低,總字?jǐn)?shù)較多。然而,由于網(wǎng)絡(luò)信息的真實(shí)性問(wèn)題,發(fā)言文本中信息的準(zhǔn)確性仍需人工進(jìn)一步甄別。
2.2.2 熟人社交平臺(tái)Facebook已啟動(dòng)自殺審查與監(jiān)測(cè)系統(tǒng)
個(gè)體在熟人社交平臺(tái)暴露自殺意念可能意味著更迫切的求助與發(fā)泄需求。2017年,F(xiàn)acebook開(kāi)始自動(dòng)化監(jiān)測(cè)自殺相關(guān)內(nèi)容,利用網(wǎng)站即時(shí)消息界面與用戶(hù)交流情緒和認(rèn)知,洞察用戶(hù)行為模式,此外,平臺(tái)還包括情緒追蹤、每日簽到和心理教育等功能。如果監(jiān)測(cè)到用戶(hù)存在自殺風(fēng)險(xiǎn),則會(huì)啟動(dòng)危機(jī)應(yīng)對(duì)方案,包括向用戶(hù)提供心理支持資源和危機(jī)干預(yù)熱線,或提醒當(dāng)?shù)貞?yīng)急人員。Facebook正在擴(kuò)大自動(dòng)監(jiān)測(cè)范圍,以監(jiān)視和刪除包含敏感視頻的帖子,防止自殺直播[15]。
在Facebook的自殺審查監(jiān)測(cè)系統(tǒng)中,使用隨機(jī)森林加上Deep Text(由Facebook發(fā)布,能夠準(zhǔn)確識(shí)別聊天內(nèi)容)和線性回歸是最有效的,機(jī)器學(xué)習(xí)在自殺表達(dá)上得到了更加精確的訓(xùn)練,使工作人員能夠更好地區(qū)分自殺意念的諷刺表達(dá)和嚴(yán)肅表達(dá),從而使模型更加健全和準(zhǔn)確[16]。
2.2.3 機(jī)器學(xué)習(xí)可識(shí)別討論論壇中的自殺內(nèi)容
自殺意念的表達(dá)有時(shí)兼具抒情、澄清、告別和遺囑的功能,這些內(nèi)容被用戶(hù)發(fā)表在相應(yīng)的“社區(qū)”以引起共鳴。國(guó)外學(xué)者在討論論壇Reddit進(jìn)行了調(diào)查[17-18],結(jié)果表明,使用自然語(yǔ)言處理,可識(shí)別用戶(hù)的情緒困擾和自殺風(fēng)險(xiǎn)。Logistic回歸和支持向量機(jī)分類(lèi)器算法顯示,在線帖子中的自殺內(nèi)容監(jiān)測(cè)準(zhǔn)確率為80%~92%[19]。一些擔(dān)心被污名化者,例如阿片類(lèi)藥物使用者也傾向于在論壇求助。過(guò)量使用阿片類(lèi)藥物是其常見(jiàn)的自殺手段,然而機(jī)器學(xué)習(xí)對(duì)該類(lèi)人群的自殺風(fēng)險(xiǎn)識(shí)別具有較多假陽(yáng)性結(jié)果[20]。在線心理健康論壇可以為心理痛苦者提供支持性網(wǎng)絡(luò)環(huán)境,同時(shí)生成大量數(shù)據(jù),可利用機(jī)器學(xué)習(xí)挖掘這些數(shù)據(jù)以預(yù)測(cè)其心理健康狀態(tài)[21]。在CO?VID-19流行期間,機(jī)器學(xué)習(xí)也被用來(lái)識(shí)別自殺相關(guān)的論壇發(fā)言,并發(fā)現(xiàn)其數(shù)量增加了1倍多,且邊緣型人格障礙患者和創(chuàng)傷后應(yīng)激障礙患者存在較高的自殺傾向[22]。
2.2.4 圖片與視頻社交平臺(tái)數(shù)據(jù)具有潛力,但需更精準(zhǔn)的圖像識(shí)別技術(shù)
Brown等[23]研究表明,Instagram上活躍程度和語(yǔ)言使用的差異與急性自殺無(wú)關(guān)。機(jī)器學(xué)習(xí)的其他機(jī)制(如識(shí)別圖片內(nèi)容)可能更有價(jià)值。Dagar等[24]分析了YouTube上有關(guān)青少年自殺預(yù)防和相關(guān)健康教育視頻的用戶(hù)留言,約7.5%的用戶(hù)坦率表達(dá)了自殺意念或留言尋求幫助。機(jī)器學(xué)習(xí)可監(jiān)視各類(lèi)照片和視頻共享網(wǎng)站,例如Instagram、Snapchat和YouTube,以減少涉及自傷和自殺圖像的傳播[25-26]。隨著計(jì)算機(jī)視覺(jué)研究和深度學(xué)習(xí)技術(shù)的發(fā)展,AI圖像分類(lèi)技術(shù)也許會(huì)從血腥、暴力或悲傷的圖片或視頻信息中識(shí)別出潛在的自殺風(fēng)險(xiǎn)。
2.2.5 機(jī)器學(xué)習(xí)結(jié)合臨床數(shù)據(jù)庫(kù),用于群體篩查
機(jī)器學(xué)習(xí)可適用于各種臨床環(huán)境和人群,且可以勝任對(duì)疾病高危人群的初級(jí)篩查工作。2018年初,加拿大公共衛(wèi)生局與AI公司Advanced Symbolics合作,啟動(dòng)了對(duì)區(qū)域自殺模式的研究。該公司從加拿大社交媒體帳戶(hù)中公開(kāi)獲取匿名數(shù)據(jù),以監(jiān)測(cè)自殺高危人群并預(yù)測(cè)自殺高峰[15]。Zheng等[27]通過(guò)開(kāi)發(fā)基于人群的風(fēng)險(xiǎn)分層監(jiān)測(cè)系統(tǒng),使用機(jī)器學(xué)習(xí)算法和深度神經(jīng)網(wǎng)絡(luò)建立具有電子健康記錄的模型,結(jié)合社會(huì)經(jīng)濟(jì)因素及人口學(xué)數(shù)據(jù),預(yù)測(cè)未來(lái)12個(gè)月的自殺未遂概率。Walsh等[28]將機(jī)器學(xué)習(xí)算法應(yīng)用于縱向臨床數(shù)據(jù),以預(yù)測(cè)青少年的自殺未遂風(fēng)險(xiǎn),將預(yù)測(cè)準(zhǔn)確性提高了9倍。
目前機(jī)器學(xué)習(xí)已從大型數(shù)據(jù)庫(kù)中識(shí)別出的自殺相關(guān)危險(xiǎn)指標(biāo)包括臨床風(fēng)險(xiǎn)(精神疾病或軀體疾病史)與認(rèn)知風(fēng)險(xiǎn)(生活滿(mǎn)意度、目標(biāo)、絕望、自尊和自我感知能力等)[29-30]。群體縱向臨床數(shù)據(jù)的使用不僅提供了結(jié)合健康數(shù)據(jù)庫(kù)進(jìn)行縱向預(yù)測(cè)的可能性,更有利于對(duì)高危者進(jìn)行長(zhǎng)期管理。
2.3.1 準(zhǔn)確性和效率需進(jìn)一步提升
機(jī)器學(xué)習(xí)的算法需不斷完善,以兼顧預(yù)測(cè)準(zhǔn)確性和處理速度,這主要是由于:①關(guān)鍵信息難以識(shí)別。目前基于互聯(lián)網(wǎng)平臺(tái)的算法更多關(guān)注與自殺相關(guān)的關(guān)鍵詞,而忽略包含壓力、痛苦、抱怨等可能含有自殺風(fēng)險(xiǎn)的部分。②由于自殺死亡是低概率事件,機(jī)器學(xué)習(xí)算法需在精度和召回率之間尋找平衡。過(guò)多地將用戶(hù)判讀為高風(fēng)險(xiǎn)人群會(huì)增加非必要的人工篩選和救援工作量,反之,則可能遺漏需要被救援的用戶(hù)。由于存在自殺意念的人群比例相對(duì)較高,而自殺死亡率相對(duì)更低,大多數(shù)自殺預(yù)測(cè)模型會(huì)存在極低的陽(yáng)性預(yù)測(cè)值[5],且即使在自殺高風(fēng)險(xiǎn)人群中,該現(xiàn)象仍存在,這限制了機(jī)器學(xué)習(xí)的實(shí)際應(yīng)用。自1990年以來(lái),全球自殺死亡率大幅降低,其中中國(guó)下降幅度最大,達(dá)到64.1%[31]。大量人群在臨床和生活中表達(dá)過(guò)負(fù)性想法或存在自殺意念,但最終不會(huì)付諸行動(dòng)。潛在的解決方法是,首先保證較高的召回率和偏低的精度,然后引入“觸發(fā)事件”機(jī)制,在識(shí)別到有自殺傾向的情況下,獲取可靠的觸發(fā)事件(例如用戶(hù)在線詢(xún)問(wèn)如何購(gòu)買(mǎi)自殺工具)有助于提高預(yù)測(cè)的精度。③不同人群有其特殊性,單一算法難以適配所有人群,例如,患有抑郁癥、雙相障礙、焦慮癥、物質(zhì)濫用、沖動(dòng)控制障礙以及社會(huì)經(jīng)濟(jì)地位較低,都被認(rèn)為是與自殺未遂事件相關(guān)的重要特征,至少患有一種精神障礙的個(gè)體自殺未遂風(fēng)險(xiǎn)是無(wú)精神障礙者的10倍以上[27]。因此,應(yīng)建立針對(duì)特殊人群的自殺風(fēng)險(xiǎn)預(yù)測(cè)模型。
2.3.2 隱私泄露、污名化問(wèn)題
首先,基于社交媒體的網(wǎng)絡(luò)平臺(tái)尚未受到隱私法規(guī)的管制。用戶(hù)自殺相關(guān)信息的收集可能侵犯隱私權(quán),從而引發(fā)不信任感,并降低用戶(hù)尋求支持的可能性。同時(shí),個(gè)體自殺意念與行為被泄露可能對(duì)其工作和生活造成困擾。例如,在軍事系統(tǒng)和校園中,單位對(duì)個(gè)人健康狀況有一定的知情權(quán),這將影響其職業(yè)和學(xué)業(yè)生涯,導(dǎo)致當(dāng)事人利益受損,尤其是自殺識(shí)別失誤,不僅未能提供幫助,還會(huì)給當(dāng)事人帶來(lái)污名化[32]。
機(jī)器學(xué)習(xí)可以依據(jù)收集到的社交網(wǎng)絡(luò)文字、圖片和視頻等資料預(yù)測(cè)用戶(hù)的自殺風(fēng)險(xiǎn)。在現(xiàn)有自殺預(yù)測(cè)手段難以滿(mǎn)足大規(guī)模篩查需求、海量自殺相關(guān)數(shù)據(jù)真假難辨的情況下,機(jī)器學(xué)習(xí)有望成為突破口。機(jī)器學(xué)習(xí)在輕博客、Facebook、討論論壇、圖片與視頻社交平臺(tái)用戶(hù)自殺預(yù)測(cè)中的表現(xiàn)值得期待,然而,也需要進(jìn)一步提升算法的準(zhǔn)確性和效率,平衡精度與召回率之間的矛盾,建立不同人群的自殺預(yù)測(cè)模型,注重隱私保護(hù)與污名化問(wèn)題,并解決后續(xù)自殺干預(yù)手段不足的問(wèn)題。
目前,由于機(jī)器學(xué)習(xí)算法仍不夠成熟,由計(jì)算機(jī)進(jìn)行海量數(shù)據(jù)的甄別,再由醫(yī)師做出臨床判斷的人機(jī)結(jié)合的預(yù)測(cè)方式可能是風(fēng)險(xiǎn)最低、效率最高的選擇。這需要制定安全處理高風(fēng)險(xiǎn)病例、假陽(yáng)性或假陰性的預(yù)案以及在專(zhuān)家判斷和算法判斷有沖突時(shí)給出決策。在未來(lái)的研究中,應(yīng)注重自殺預(yù)測(cè)模型的優(yōu)化。智能手機(jī)收集的用戶(hù)輸入信息及穿戴式設(shè)備收集的生理數(shù)據(jù)可能是自殺預(yù)測(cè)模型的重要補(bǔ)充[33];結(jié)合臨床數(shù)據(jù),如電子病歷、就診記錄[34]及靜息態(tài)功能磁共振數(shù)據(jù)[35]等也可能有助于提高預(yù)測(cè)準(zhǔn)確率和效率;機(jī)器學(xué)習(xí)亦有望通過(guò)對(duì)自殺相關(guān)腦區(qū)的識(shí)別[36],并與神經(jīng)調(diào)控技術(shù)相結(jié)合[37],實(shí)現(xiàn)對(duì)自殺的實(shí)時(shí)監(jiān)測(cè)與干預(yù)。