社交網(wǎng)絡(luò)中的抑郁癥用戶(hù)語(yǔ)言和行為特征分析及檢測(cè)

2020-06-01 08:15:36門(mén)秀萍魏瑞斌吳小蘭

現(xiàn)代情報(bào) 2020年6期

門(mén)秀萍魏瑞斌吳小蘭

摘要：[目的/意義]通過(guò)在線工具來(lái)分析社交網(wǎng)絡(luò)用戶(hù)的語(yǔ)言和行為特征，對(duì)抑郁癥患者進(jìn)行預(yù)測(cè)性研究。[方法/過(guò)程]從推特上收集自我披露的抑郁癥信息，提取抑郁癥用戶(hù)和正常用戶(hù)在社交網(wǎng)絡(luò)中的語(yǔ)言和行為特征信息。在對(duì)特征信息進(jìn)行分析和驗(yàn)證的基礎(chǔ)上，利用機(jī)器學(xué)習(xí)算法預(yù)測(cè)抑郁癥用戶(hù)。[結(jié)果/結(jié)論]研究發(fā)現(xiàn)，用戶(hù)在社交網(wǎng)絡(luò)上的語(yǔ)言和行為特征能夠反映其心理狀態(tài)，從中提取的各類(lèi)特征可用于抑郁用戶(hù)的檢測(cè)。在抑郁癥用戶(hù)預(yù)測(cè)方法中，隨機(jī)森林分類(lèi)器的表現(xiàn)最好?；贓mpath的詞語(yǔ)類(lèi)別特征在不同類(lèi)型分類(lèi)中具有最高的預(yù)測(cè)得分，而主題特征的得分排名較低。

關(guān)鍵詞：抑郁癥;社交網(wǎng)絡(luò);機(jī)器學(xué)習(xí);分類(lèi);用戶(hù);語(yǔ)言;特征分析;檢測(cè)

Abstract：[Purpose/Significance]This study aims to analyze language and behavioral characteristics of social network users by using online tools，and to implement predictive research on depression.[Method/Process]We collected self-disclosed depression information from Twitter，and extracted the characteristics of language and behavior of depression users and normal users in social networks.Based on the analysis of feature information，several machine learning algorithms were used to detect depression users.[Results/Conclusion]The study found that users language and behavior characteristics in social networks can reflect their psychological state，and the various features extracted from them can be used for the prediction of depressed users.Random forest classifiers performed best in predictors of depression users，the characteristics of empath-based linguistic psychology have the highest prediction scores in different types of classification，while the topic features have lower scores.

Key words：depression;social network;machine learning;classification

醫(yī)療信息學(xué)作為醫(yī)學(xué)和信息科學(xué)交叉的一個(gè)領(lǐng)域，心理健康與疾病和衛(wèi)生保健等主題成為該領(lǐng)域的研究熱點(diǎn)[1-2]。抑郁癥是一種常見(jiàn)的心理疾病。根據(jù)世界衛(wèi)生組織報(bào)告，在全球范圍內(nèi)，超過(guò)3億人患有抑郁癥[3]。另有調(diào)查顯示，中國(guó)抑郁癥患者已達(dá)到9 000萬(wàn)[4]。對(duì)抑郁癥的科普、防范、治療工作亟待重視，抑郁癥防治已被列入全國(guó)精神衛(wèi)生工作重點(diǎn)。雖然傳統(tǒng)的線下治療是診斷抑郁癥最有效的方法，但人們對(duì)患有抑郁癥感到羞愧或不知情。超過(guò)70%的抑郁癥早期患者不愿咨詢(xún)心理醫(yī)生，導(dǎo)致病情惡化[5]。另一方面，人們?cè)絹?lái)越多地依賴(lài)推特、微博等社交媒體平臺(tái)來(lái)表達(dá)情緒和觀點(diǎn)，并分享自身的狀態(tài)信息，全球有超過(guò)20億的用戶(hù)定期使用社交媒體[6]。

社交媒體為轉(zhuǎn)變?cè)缙谝钟舭Y干預(yù)策略提供了前所未有的機(jī)會(huì)。通過(guò)分析人們?cè)谏缃痪W(wǎng)絡(luò)上的日常語(yǔ)言可以了解一個(gè)人的心理特征，其分析結(jié)果比基于朋友和家人的判斷更準(zhǔn)確[7]。社交媒體用戶(hù)的公開(kāi)評(píng)論、行為和社交互動(dòng)等信息可以可靠地監(jiān)測(cè)和預(yù)測(cè)與健康相關(guān)的行為，例如預(yù)測(cè)流感病毒、過(guò)敏、癌癥等疾病的發(fā)生率[8-10]。

本文利用機(jī)器學(xué)習(xí)技術(shù)來(lái)分析Twitter的數(shù)據(jù)，研究社交網(wǎng)絡(luò)中的抑郁癥用戶(hù)語(yǔ)言和行為特征分析及檢測(cè)。具體內(nèi)容包括：探尋Twitter用戶(hù)的語(yǔ)言和行為中與抑郁癥有關(guān)的因素，如何從Twitter數(shù)據(jù)中提取這些特征因素，分析這些因素與抑郁癥病癥之間的關(guān)系，然后通過(guò)分類(lèi)實(shí)驗(yàn)，分析檢測(cè)抑郁癥最具影響力的機(jī)器學(xué)習(xí)方法以及哪些特征對(duì)檢測(cè)抑郁癥貢獻(xiàn)最大。挖掘抑郁癥人群在社交網(wǎng)絡(luò)上的行為和語(yǔ)言能幫助研究者了解他們的思維模式。研究成果可進(jìn)一步應(yīng)用到各種類(lèi)型的心理問(wèn)題，包括社交恐懼、自尊問(wèn)題以及完美主義的自動(dòng)診斷和治療。

本文主要有以下貢獻(xiàn)：1）對(duì)語(yǔ)言信息進(jìn)行了細(xì)粒度的分析，從語(yǔ)言的結(jié)構(gòu)、語(yǔ)言的詞語(yǔ)類(lèi)別和語(yǔ)言的主題3個(gè)維度進(jìn)行更全面和系統(tǒng)的語(yǔ)言特征挖掘;2）將Empath語(yǔ)言分析包引入抑郁癥的檢測(cè)，提供了更多的語(yǔ)言特征;3）擴(kuò)大基于社交網(wǎng)絡(luò)的心理健康度量的范圍，研究254個(gè)特征與抑郁癥之間的關(guān)系。

1 相關(guān)研究工作概述

1.1 基于問(wèn)卷調(diào)查的抑郁癥用戶(hù)檢測(cè)

在心理學(xué)和流行病學(xué)研究中，自我報(bào)告調(diào)查僅次于臨床訪談，因此基于心理測(cè)量自我報(bào)告進(jìn)行抑郁癥的預(yù)測(cè)具有較高的有效性和可信度[11]。因此，在早期大多數(shù)研究人員通過(guò)調(diào)查問(wèn)卷獲得患者的心理狀態(tài)信息，并基于各種抑郁癥診斷量表進(jìn)行精神狀態(tài)的檢測(cè)，如Choi等采用抑郁癥狀量表、自殺亞量表（DSI-SS）、Beck抑郁量表（BDI）對(duì)抑郁癥患者問(wèn)卷進(jìn)行評(píng)分和診斷[12]。有些學(xué)者通過(guò)參與者報(bào)告抑郁發(fā)作的癥狀和日期，并結(jié)合流行病學(xué)研究中心修訂的抑郁量表（CES-D）[13]和貝克抑郁量表（BDI）[14]的得分進(jìn)行抑郁癥檢測(cè)。抑郁自評(píng)量表能夠直觀地反映抑郁患者的精神狀態(tài)，但量表的填寫(xiě)依賴(lài)被測(cè)者的主觀意愿，當(dāng)面對(duì)大規(guī)模群體時(shí)，需要花費(fèi)較大的人力和時(shí)間成本。另外，問(wèn)卷調(diào)查方式獲得的患者信息有限，使心理醫(yī)生無(wú)法了解抑郁癥患者的全部信息。

1.2 基于社交網(wǎng)絡(luò)數(shù)據(jù)抑郁癥用戶(hù)檢測(cè)

社交網(wǎng)絡(luò)上大量的用戶(hù)生成內(nèi)容（UGC）能夠及時(shí)反映用戶(hù)的真實(shí)狀態(tài)和情緒，使得用戶(hù)心理健康分析成為可能。一些學(xué)者對(duì)社交網(wǎng)絡(luò)平臺(tái)（如紅迪網(wǎng)和照片墻）上的用戶(hù)數(shù)據(jù)進(jìn)行了研究，發(fā)現(xiàn)抑郁患者在語(yǔ)言屬性和社交行為方面與正常用戶(hù)存在較大差異[15-17]。如患有抑郁的學(xué)生更頻繁地使用第一人稱(chēng)代詞，以及帶有貶義的形容詞[18]。在推特社交平臺(tái)上，患有抑郁癥的用戶(hù)使用第一人稱(chēng)代詞和過(guò)去時(shí)態(tài)動(dòng)詞的也普遍較高[19]。De Choudhury M等驗(yàn)證了產(chǎn)后抑郁癥患者在推特平臺(tái)的語(yǔ)言風(fēng)格、情感表達(dá)和社交行為等方面與產(chǎn)前正常狀態(tài)相比有明顯變化[20]。LiveJournal社交平臺(tái)上抑郁癥用戶(hù)和正常用戶(hù)在情緒、寫(xiě)作特征、主題內(nèi)容等方面存在顯著差異[21]。而基于中文微博的抑郁癥研究也發(fā)現(xiàn)，在語(yǔ)言使用特征方面，抑郁癥患者對(duì)情感詞、消極情緒詞、認(rèn)知機(jī)制詞、連接詞的使用隨時(shí)間顯著增加[22]。

上述研究對(duì)各種不同社交平臺(tái)下抑郁癥患者和正常人的語(yǔ)言使用和社交行為特征進(jìn)行了對(duì)比分析，證實(shí)了社交網(wǎng)絡(luò)活動(dòng)記錄與用戶(hù)的抑郁狀態(tài)之間存在較強(qiáng)的相關(guān)性，這些結(jié)論為基于社交網(wǎng)絡(luò)的抑郁癥的檢測(cè)、診斷及治療提供了依據(jù)。

1.3 基于社交網(wǎng)絡(luò)抑郁特征的選擇和計(jì)算

研究者對(duì)來(lái)自推特、照片墻、紅迪網(wǎng)等不同社交網(wǎng)絡(luò)平臺(tái)的用戶(hù)的情感、情緒和寫(xiě)作行為等心理學(xué)特征進(jìn)行抽取，并使用各種機(jī)器學(xué)習(xí)模型進(jìn)行抑郁癥預(yù)測(cè)。Choudhury M D等提取推特用戶(hù)的社交活動(dòng)、情感、語(yǔ)言風(fēng)格等信息，對(duì)用戶(hù)患抑郁癥的風(fēng)險(xiǎn)進(jìn)行評(píng)估，準(zhǔn)確率達(dá)到70%[23]。Zhang L等使用主題分析模型對(duì)新浪微博用戶(hù)自殺的概率進(jìn)行線性回歸分析[24]。還有基于統(tǒng)計(jì)特征的方法，包括詞袋模型，頻率—逆文檔頻率（TF-IDF）、N-Gram詞頻，詞性頻率，平均發(fā)帖數(shù)量，帖子的平均字?jǐn)?shù)、發(fā)表時(shí)間戳等[25-26]。

在眾多方法中，LIWC統(tǒng)計(jì)方法具有較高的檢測(cè)率。LIWC是由心理分析學(xué)家制作的一套心理語(yǔ)言學(xué)詞匯包[27]，可以從用戶(hù)語(yǔ)言中分析出70多個(gè)心理語(yǔ)言學(xué)特征，被廣泛應(yīng)用于基于社交網(wǎng)絡(luò)的心理健康分析[17，28]。LIWC的成功激發(fā)了研究人員提出自定義領(lǐng)域詞典的方法，比如來(lái)自WordNet的情感詞匯，來(lái)自Vader的情感詞匯[29-30]，以及采用詞向量技術(shù)的抑郁癥擴(kuò)充詞典[31-32]。在國(guó)內(nèi)，中國(guó)科學(xué)院心理研究所計(jì)算網(wǎng)絡(luò)心理實(shí)驗(yàn)室參照LIWC2007，研發(fā)了中文文本分析軟件“文心”，胡泉使用該軟件對(duì)新浪微博用戶(hù)的文本數(shù)據(jù)提取語(yǔ)言成分特征和心理狀態(tài)特征對(duì)抑郁癥進(jìn)行檢測(cè)[33]。

基于LIWC的方法從心理學(xué)角度提取了抑郁癥用戶(hù)在社交網(wǎng)絡(luò)上的語(yǔ)言特征，這些特征對(duì)于抑郁癥患者具有一定的表征能力，預(yù)測(cè)效果可以達(dá)到85%以上。其關(guān)鍵在于LIWC字典的定義，LIWC字典主要包含情感和認(rèn)知等心理學(xué)相關(guān)的詞語(yǔ)，不能很全面的涵蓋抑郁用戶(hù)的語(yǔ)言詞匯，因此，LIWC的語(yǔ)言分析并不全面，缺少一些隱含的有價(jià)值的語(yǔ)言信息，這些隱含信息對(duì)于早期和輕度抑郁癥的檢測(cè)更有意義。

綜上所述，社交網(wǎng)絡(luò)語(yǔ)言和行為中蘊(yùn)含著與心理學(xué)相關(guān)的重要信息，使用這些信息來(lái)衡量和預(yù)測(cè)用戶(hù)心理健康水平，是較為科學(xué)的方法之一。提取具有較強(qiáng)表征能力的抑郁特征是提高檢測(cè)效果的關(guān)鍵。本文在已有研究的基礎(chǔ)上，采用新的特征計(jì)算方法，進(jìn)一步擴(kuò)大了基于社交網(wǎng)絡(luò)的抑郁測(cè)量的范圍，從不同維度描述了推特用戶(hù)分享內(nèi)容的語(yǔ)言和行為特征，并分析比較了幾種常用的機(jī)器學(xué)習(xí)模型預(yù)測(cè)抑郁癥的有效性，最高預(yù)測(cè)準(zhǔn)確率達(dá)到90%以上。

2 基于社交網(wǎng)絡(luò)的抑郁癥用戶(hù)分析及檢測(cè)模型

本文建立的基于社交網(wǎng)絡(luò)的抑郁癥特征分析及檢測(cè)模型主要包括以下幾個(gè)部分，如圖1所示：

2.1 數(shù)據(jù)采集

參照心理疾病在線識(shí)別研究中的數(shù)據(jù)采集方法[28，34]，本文使用表1中的關(guān)鍵短語(yǔ)作為正則表達(dá)式構(gòu)造搜索關(guān)鍵詞。通過(guò)推特API從公開(kāi)的推特?cái)?shù)據(jù)中檢索自我診斷為抑郁癥的個(gè)人用戶(hù)，最后收集到2015-2017年期間，共5 899名疑似抑郁癥用戶(hù)組，同時(shí)爬取這些用戶(hù)發(fā)表的時(shí)間軸（Timeline）信息。為了與抑郁癥用戶(hù)組進(jìn)行對(duì)照分析，從推特流中過(guò)濾出不包含上述關(guān)鍵短語(yǔ)的5 366個(gè)正常用戶(hù)作為參照組，同時(shí)爬取這些用戶(hù)在同樣時(shí)間間隔內(nèi)的時(shí)間軸（Timeline）數(shù)據(jù)。每個(gè)被過(guò)濾用戶(hù)的時(shí)間軸數(shù)據(jù)包括帖子文本、用戶(hù)名、發(fā)布時(shí)間、標(biāo)簽、提及次數(shù)、收藏、地理位置和帖子編號(hào)等信息。在表2中列出了所獲得數(shù)據(jù)的基本描述性信息。

2.2 數(shù)據(jù)預(yù)處理

上述數(shù)據(jù)作為我們實(shí)驗(yàn)數(shù)據(jù)的候選集，為了提高模型的效果，需要進(jìn)行數(shù)據(jù)預(yù)處理。首先去除非英語(yǔ)用戶(hù)，以及被關(guān)注數(shù)超過(guò)1 000的用戶(hù)，因?yàn)樵擃?lèi)賬戶(hù)有可能是一些組織、名人或社團(tuán)賬戶(hù)。然后刪除停用詞、@、網(wǎng)址、頻率較高的單詞和出現(xiàn)次數(shù)少于3次的單詞，最后采用Autocorrect進(jìn)行拼寫(xiě)檢查，進(jìn)行詞干提取，以進(jìn)一步減少單詞個(gè)數(shù)。

盡管關(guān)鍵短語(yǔ)包含自我表述的抑郁癥的經(jīng)歷和診斷，但仍有很多被過(guò)濾出的帖子中存在虛假陳述和引用等形式的噪聲數(shù)據(jù)。另外，對(duì)隨機(jī)爬取的正常用戶(hù)中有可能存在沒(méi)有使用匹配句式的抑郁用戶(hù)，為了獲得真實(shí)準(zhǔn)確的樣本，本文使用人工標(biāo)注方法對(duì)數(shù)據(jù)進(jìn)行了評(píng)分，對(duì)候選集數(shù)據(jù)進(jìn)行更精確的篩選，對(duì)每一個(gè)候選用戶(hù)，將其通過(guò)正則表達(dá)式匹配的帖子作為中心，提取中心帖子發(fā)布之前和之后各連續(xù)10條帖子，形成一組上下文帖子。我們將其稱(chēng)為推特用戶(hù)的上下文。這些來(lái)自5 899名疑似用戶(hù)和5 366名正常用戶(hù)的公開(kāi)上下文隨后被傳遞給3位評(píng)分員，對(duì)數(shù)據(jù)真實(shí)性進(jìn)行注釋?zhuān)?-抑郁，1-非抑郁，2-不確定），每個(gè)評(píng)分員分別對(duì)所有用戶(hù)進(jìn)行單獨(dú)分類(lèi)，只有被所有評(píng)分者都標(biāo)記為0的用戶(hù)被選入抑郁用戶(hù)數(shù)據(jù)集。其中疑似用戶(hù)組最終得到2 143個(gè)抑郁用戶(hù)，2 933個(gè)正常用戶(hù)，823個(gè)不確定用戶(hù);正常用戶(hù)組得到4 037個(gè)正常用戶(hù)，78個(gè)抑郁用戶(hù)，1 251個(gè)不確定用戶(hù)，評(píng)分者之間的3類(lèi)注釋任務(wù)的科恩κ測(cè)量值是0.62。分歧主要出現(xiàn)在“2-不確定”類(lèi)上，在“0-抑郁”類(lèi)和“1-非抑郁”類(lèi)之間的一致性為0.86。最終，選擇疑似用戶(hù)組中的2 143個(gè)抑郁用戶(hù)作為抑郁用戶(hù)數(shù)據(jù)集，正常用戶(hù)中的4 037個(gè)正常用戶(hù)作為正常用戶(hù)數(shù)據(jù)集。

這3類(lèi)用戶(hù)分別分享了120 183條、224 092條和76 667條帖子，平均每個(gè)用戶(hù)分享了56條、76條和93條帖子。表3給出了每個(gè)類(lèi)別的上下文帖子的示例。

2.3 特征提取與選擇

2.3.1 行為特征提取

用戶(hù)在社交網(wǎng)絡(luò)的行為特征主要是指可以代表用戶(hù)交互行為內(nèi)容的特征。研究表明，心理健康與網(wǎng)絡(luò)行為之間存在關(guān)聯(lián)性。根據(jù)抑郁癥的臨床經(jīng)驗(yàn)，患者意志活動(dòng)呈顯著持久的抑制。表現(xiàn)為行為緩慢，生活被動(dòng)，回避社交，這些特征也體現(xiàn)在社交網(wǎng)絡(luò)行為上。通過(guò)推特API接口獲取用戶(hù)的注冊(cè)時(shí)間，發(fā)帖數(shù)量等社交網(wǎng)絡(luò)行為數(shù)據(jù)，選取了發(fā)帖總數(shù)，朋友數(shù)量，日均發(fā)帖量、日均收藏?cái)?shù)，日均被關(guān)注數(shù)量，回復(fù)率，被轉(zhuǎn)發(fā)帖子數(shù)量等信息進(jìn)行統(tǒng)計(jì)分析和比對(duì)。

研究發(fā)現(xiàn)，抑郁癥用戶(hù)在推特等社交網(wǎng)絡(luò)上的活躍時(shí)間具有明顯的規(guī)律性。因此，對(duì)抑郁用戶(hù)組和正常用戶(hù)組的不同時(shí)間的發(fā)帖行為進(jìn)行了統(tǒng)計(jì)，將1天按照每2小時(shí)為間隔劃分成12個(gè)時(shí)間段，分別統(tǒng)計(jì)用戶(hù)在這些時(shí)間段內(nèi)的發(fā)帖數(shù)量，并繪制用戶(hù)發(fā)帖時(shí)間與發(fā)帖數(shù)量曲線圖，對(duì)用戶(hù)社交行為的周期性特征進(jìn)行分析。

2.3.2 語(yǔ)言特征提取

思維與語(yǔ)法組織形式之間的關(guān)系被廣泛地應(yīng)用于心理疾病的癥狀分析[35]。本文提取推特用戶(hù)的不同詞性類(lèi)別的使用頻率、語(yǔ)法形式、可讀性指標(biāo)CLI[30]、單詞復(fù)雜性指標(biāo)等用于對(duì)比抑郁用戶(hù)和正常用戶(hù)在詞匯選擇、語(yǔ)法靈活性等語(yǔ)言運(yùn)用能力上的差異。

研究人員經(jīng)常使用LIWC從心理學(xué)角度來(lái)分析社交媒體上的帖子[36]。但LIWC只有40個(gè)主題和情感類(lèi)別，缺少許多潛在的詞語(yǔ)類(lèi)別[37]。本文使用Empath[37]進(jìn)行詞語(yǔ)分析，Empath是一種數(shù)據(jù)驅(qū)動(dòng)的語(yǔ)言分析工具，利用對(duì)現(xiàn)代小說(shuō)中18億個(gè)單詞的深度學(xué)習(xí)，將用戶(hù)給定的一組種子詞語(yǔ)，擴(kuò)展生成新的詞匯類(lèi)別。例如，使用種子詞語(yǔ)“推特”和“臉書(shū)”，Empath可以生成“社交媒體”詞語(yǔ)類(lèi)別。Empath的部分詞語(yǔ)類(lèi)別已被證實(shí)與LIWC中的類(lèi)似詞語(yǔ)類(lèi)別高度相關(guān)（r=0.906）。

為了研究抑郁用戶(hù)患病的原因，對(duì)抑郁用戶(hù)的帖子進(jìn)行LDA主題模型[38]分析。本文使用Gensim實(shí)現(xiàn)的LDA模型獲得推特用戶(hù)的主題分布。LDA主題模型分析方法是一種非監(jiān)督聚類(lèi)方法，需要設(shè)定主題個(gè)數(shù)，為了獲得最佳主題個(gè)數(shù)，需計(jì)算不同主題數(shù)量下的困惑度，選取具有最小困惑度的主題模型。

2.3.3 特征選擇

通過(guò)對(duì)抑郁用戶(hù)在社交網(wǎng)絡(luò)上的行為、語(yǔ)言的分析，得到了很多屬性特征，這些屬性將有助于識(shí)別社交網(wǎng)絡(luò)中抑郁用戶(hù)。為了提高模型預(yù)測(cè)的準(zhǔn)確度，需要對(duì)這些屬性進(jìn)行選擇。

首先進(jìn)行歸一化處理，消除特征值衡量方式差異對(duì)識(shí)別效果的影響。如將所有頻次統(tǒng)計(jì)特征映射到[0，1]范圍內(nèi)，對(duì)于具有不同量綱的特征進(jìn)行Min-Max歸一化處理。其次消除噪聲特征，選擇最顯著的特征變量。篩選方法是根據(jù)特征在各種統(tǒng)計(jì)測(cè)試中的得分與結(jié)果變量的相關(guān)性。具體通過(guò)采用ANOVA F測(cè)試方法去除噪聲和冗余特征，將特征空間從254個(gè)特征減少到132個(gè)最佳特征。

2.4 分類(lèi)訓(xùn)練及預(yù)測(cè)

通過(guò)特征選擇獲得的屬性將用于識(shí)別社交網(wǎng)絡(luò)中抑郁用戶(hù)，從正常用戶(hù)中檢測(cè)出具有抑郁癥的用戶(hù)。采用機(jī)器學(xué)習(xí)模型基于這些屬性特征進(jìn)行分類(lèi)訓(xùn)練及預(yù)測(cè)，將數(shù)據(jù)集分成訓(xùn)練集和測(cè)試集，將訓(xùn)練集輸入邏輯回歸、支持向量機(jī)、高斯樸素貝葉斯、決策樹(shù)和隨機(jī)森林等機(jī)器學(xué)習(xí)模型進(jìn)行分類(lèi)訓(xùn)練，選擇擬合效果最佳的學(xué)習(xí)模型，對(duì)測(cè)試集進(jìn)行預(yù)測(cè)。

為了選擇最佳學(xué)習(xí)模型，計(jì)算每種學(xué)習(xí)模型在測(cè)試集上的查準(zhǔn)率、查全率、f1和AUC等指標(biāo)對(duì)預(yù)測(cè)效果進(jìn)行性能度量。為避免過(guò)擬合，采用十折交叉驗(yàn)證方法，將數(shù)據(jù)集分成10等份，輪流將其中9份作為訓(xùn)練數(shù)據(jù)，1份作為測(cè)試數(shù)據(jù)。取10次十折交叉驗(yàn)證結(jié)果的平均值作為對(duì)機(jī)器學(xué)習(xí)算法效率的估計(jì)。為了分析不同特征對(duì)分類(lèi)效果的影響，將每類(lèi)特征分別進(jìn)行分類(lèi)實(shí)驗(yàn)，以檢測(cè)每類(lèi)特征的表征能力，并通過(guò)隨機(jī)森林算法計(jì)算每類(lèi)特征對(duì)預(yù)測(cè)結(jié)果的重要性。

3 研究結(jié)果分析

3.1 抑郁用戶(hù)的行為特征分析

3.1.1 交互行為分析

從抑郁用戶(hù)組和正常用戶(hù)組交互特征統(tǒng)計(jì)結(jié)果（如圖2）可以發(fā)現(xiàn)，抑郁用戶(hù)在社交網(wǎng)絡(luò)上不如正常用戶(hù)活躍，通常他們具有較少的朋友（432<608，p<0.001）。平均每天的發(fā)帖數(shù)量明顯低于正常用戶(hù)（25.79<27.92，p<0.001），抑郁用戶(hù)平均被關(guān)注數(shù)低于正常用戶(hù)（0.330<1.362，p<0.001）。平均每天的收藏?cái)?shù)量較低（7.73<9.73，p=0.032）。另外，他們對(duì)事物缺乏興趣，關(guān)注或收藏的內(nèi)容較少。抑郁癥患者在社交網(wǎng)絡(luò)上與其他用戶(hù)之間的交互活動(dòng)較少，具體表現(xiàn)在整體的發(fā)帖量明顯低于正常用戶(hù)。

3.1.2 活動(dòng)周期性分析

通過(guò)推特用戶(hù)的發(fā)帖周期可以發(fā)現(xiàn)，正常用戶(hù)組整體發(fā)帖數(shù)量要遠(yuǎn)高于抑郁用戶(hù)組。從圖3看，抑郁用戶(hù)組的活躍時(shí)間峰值出現(xiàn)在凌晨2～3點(diǎn)之間，這可能與抑郁癥患者普遍存在的失眠或者半夜早醒等睡眠障礙有關(guān)。

3.2 抑郁用戶(hù)語(yǔ)言特征分析

3.2.1 語(yǔ)言結(jié)構(gòu)分析

通過(guò)對(duì)抑郁癥患者帖子的語(yǔ)言結(jié)構(gòu)分析發(fā)現(xiàn)，抑郁用戶(hù)使用人稱(chēng)代詞的比例要顯著高于正常用戶(hù)，較常使用第一人稱(chēng)（0.023>0.022，p=0.01）和第二人稱(chēng)（0.020>0.019，p=0.002），較少使用第三人稱(chēng)（0.015<0.017，p<0.001）。從心理學(xué)的視角看，較多的第一人稱(chēng)使用率表明，抑郁癥患者更加關(guān)注自身，自我意識(shí)或自我感知能力過(guò)強(qiáng)。容易產(chǎn)生極端化的思維方式，喜歡用表示極端的副詞，如“完全”、“絕對(duì)”或“所有人”（0.0066>0.0059，p<0.001）。每個(gè)單詞的平均字符數(shù)存在一定差異（4.749>4.732，p=0.048）。

抑郁癥用戶(hù)在交流中使用較為簡(jiǎn)單的語(yǔ)法形式，缺乏靈活性，語(yǔ)言可讀性（CLI）較低（11.59<11.78，p=0.046），在詞性類(lèi)別的選擇上更加單一化，運(yùn)用語(yǔ)言的能力要低于正常用戶(hù)組。在連詞（0.019>0.022，p<0.001）、數(shù)詞（0.016<0.018，p<0.001）、情態(tài)助動(dòng)詞（0.013>0.012，p=0.01）、名詞（0.176<0.179，p=0.006）、副詞（0.061>0.059，p=0.004）、小品詞（0.0049<0.0052，p=0.001）和動(dòng)詞（0.098<0.104，p<0.001）等詞語(yǔ)使用頻率整體較低。抑郁癥患者語(yǔ)言和內(nèi)容相對(duì)貧乏，傾向于使用更多的簡(jiǎn)單單詞（4.73<4.74，p=0.047），每個(gè)句子平均單詞數(shù)較少（17<37，p=0.002）。結(jié)果見(jiàn)圖4。

3.2.2 Empath特征分析

對(duì)抽取的198維Empath特征進(jìn)行比較，通過(guò)T檢驗(yàn)發(fā)現(xiàn)兩類(lèi)用戶(hù)在其中的82個(gè)詞語(yǔ)類(lèi)別具有顯著差異，如表4所示。與正常用戶(hù)相比，抑郁癥用戶(hù)更多使用閱讀、感情、聽(tīng)覺(jué)、聲音、睡眠等感知相關(guān)的詞語(yǔ)類(lèi)別，而仇恨、羞愧、辱罵、易怒、抑郁、混亂、犯罪、恐怖、受傷等負(fù)面情緒相關(guān)詞匯頻率也高于正常用戶(hù)。這表明抑郁癥用戶(hù)經(jīng)常表現(xiàn)出情緒低落，更多關(guān)注家庭、旅游、運(yùn)動(dòng)、互聯(lián)網(wǎng)、計(jì)算機(jī)、社交媒體等相關(guān)的內(nèi)容。較少關(guān)注時(shí)尚、法律、戰(zhàn)爭(zhēng)、軍隊(duì)、暴力等大眾普遍關(guān)注的話題。Empath還進(jìn)行了情感極性分析，其中在積極情感分?jǐn)?shù)上，抑郁用戶(hù)和正常用戶(hù)之間沒(méi)有顯著差別，但是抑郁用戶(hù)較多使用表示消極的詞語(yǔ)（0.0045>0.0041，p<0.001）。

3.2.3 LDA主題分析

根據(jù)LDA主題個(gè)數(shù)與困惑度的曲線圖（如圖5），主題個(gè)數(shù)設(shè)置為20，表5列出了抑郁用戶(hù)的主題—高頻關(guān)鍵詞。從主題分析的高頻詞分析，抑郁用戶(hù)在社交平臺(tái)上會(huì)較多地談?wù)摷膊“Y狀、治療經(jīng)驗(yàn)等話題，會(huì)更多地關(guān)注自身情感狀態(tài)。

為了比較抑郁用戶(hù)組與正常用戶(hù)組的主題差異，本文首先分別計(jì)算兩個(gè)組中所有帖子的每個(gè)主題的后驗(yàn)概率。然后比較所有主題在每組用戶(hù)所有帖子上的概率分布。對(duì)結(jié)果進(jìn)行成對(duì)T檢驗(yàn)，發(fā)現(xiàn)所有主題在兩組用戶(hù)的分布存在明顯差異（p=0.006）。

3.3 抑郁用戶(hù)的檢測(cè)效果分析

分類(lèi)實(shí)驗(yàn)結(jié)果表明，在應(yīng)用的幾種分類(lèi)算法中，隨機(jī)森林的分類(lèi)效果最好，如表6所示。

為了分析不同類(lèi)別的特征對(duì)分類(lèi)效果的影響，本文將每類(lèi)特征分別用隨機(jī)森林進(jìn)行分類(lèi)實(shí)驗(yàn)。從圖6看，Empath分類(lèi)效果最好，對(duì)整體的分類(lèi)效果貢獻(xiàn)最大。

隨機(jī)森林算法的信息熵可以測(cè)量不同類(lèi)別特征的重要性，熵值的平均降幅越大，則信息增益越大，即特征對(duì)分類(lèi)結(jié)果的重要性越大。圖7為每類(lèi)特征信息熵的平均下降幅度進(jìn)行歸一化后的結(jié)果。

Empath特征對(duì)分類(lèi)效果起著最關(guān)鍵作用。Empath特征共提取198維詞語(yǔ)類(lèi)別特征，因此需要足夠多的語(yǔ)言信息。當(dāng)用戶(hù)在社交網(wǎng)絡(luò)上分享的語(yǔ)言信息較少時(shí)，會(huì)增加被錯(cuò)分的可能性。通過(guò)觀察隨機(jī)森林分類(lèi)模型中被錯(cuò)分的371個(gè)用戶(hù)的社交數(shù)據(jù)，發(fā)現(xiàn)這些用戶(hù)在社交網(wǎng)絡(luò)上分享內(nèi)容明顯少于正確分類(lèi)用戶(hù)，其中正確分類(lèi)用戶(hù)平均發(fā)帖量為73條，每條帖子詞匯數(shù)平均為86，而錯(cuò)分用戶(hù)為38條，每條帖子詞匯數(shù)為34?？梢酝ㄟ^(guò)增大時(shí)間窗口獲取更多用戶(hù)信息的方法進(jìn)行改進(jìn)，但時(shí)間窗口的選擇需要進(jìn)行實(shí)驗(yàn)研究，如果時(shí)間窗口太大，會(huì)增加計(jì)算成本，也可能會(huì)降低特征的表征能力。另外，本文提出的方法在其他社交網(wǎng)絡(luò)上的應(yīng)用效果也需要進(jìn)一步的驗(yàn)證。

4 結(jié) 語(yǔ)

本文使用推特?cái)?shù)據(jù)研究用戶(hù)語(yǔ)言和行為特征與抑郁癥的關(guān)系，通過(guò)用戶(hù)在推特上的交互行為、語(yǔ)言的結(jié)構(gòu)、語(yǔ)言的Empath類(lèi)別和語(yǔ)言的主題等特征，考察了利用社交網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行抑郁癥檢測(cè)的可能性，通過(guò)T檢驗(yàn)方法分析了各類(lèi)特征與抑郁癥的關(guān)系，對(duì)比了邏輯回歸、支持向量機(jī)、樸素貝葉斯、決策樹(shù)和隨機(jī)森林等機(jī)器學(xué)習(xí)算法對(duì)抑郁用戶(hù)的檢測(cè)效果，其中，隨機(jī)森林算法效果最好，準(zhǔn)確率達(dá)到90%以上，證明了抑郁癥這類(lèi)心理疾病可以在一些在線環(huán)境中檢測(cè)到。但本研究仍然存在一些不足。首先，對(duì)社交網(wǎng)絡(luò)用戶(hù)的分析主要集中在互動(dòng)行為和文本內(nèi)容上，沒(méi)有考慮用戶(hù)之間的連接關(guān)系，如用戶(hù)之間的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)等。其次，本文只在一個(gè)相對(duì)較小的樣本數(shù)據(jù)集上取得了較好的效果，這些結(jié)論的廣泛性需要在更大的樣本空間中進(jìn)行驗(yàn)證。第三，該類(lèi)研究還較少關(guān)注如何識(shí)別不知道自己心理健康狀況的抑郁癥患者。因此，如何將這些特征應(yīng)用到臨床規(guī)則中仍需要進(jìn)一步的研究。

總之，自然語(yǔ)言處理和機(jī)器學(xué)習(xí)的發(fā)展，使基于社交媒體信息篩選高危人群成為可能。但由此引發(fā)的一系列關(guān)于數(shù)據(jù)所有權(quán)和隱私保護(hù)的倫理和法律問(wèn)題亟待解決。

參考文獻(xiàn)

[1]劉雅姝，張海濤，徐海玲，等.近三年國(guó)外圖書(shū)館學(xué)與信息科學(xué)領(lǐng)域研究熱點(diǎn)與前沿分析[J].現(xiàn)代情報(bào)，2019，39（9）：168-177.

[2]田大芳，魏瑞斌.2017年國(guó)際信息科學(xué)與圖書(shū)館學(xué)研究熱點(diǎn)分析[J].現(xiàn)代情報(bào)，2018，38（8）：125-129.

[3]世界衛(wèi)生組織.抑郁癥[EB/OL].https：//www.who.int/ zh/ news-room/fact-sheets /detail/depression，2019-05-11.

[4]抑郁癥：“心靈感冒”可治[EB/OL].http：//health.people.com.cn/n1/ 2017/0329/ c14739-29176601.html，2019-05-11.

[5]Shen G Y，Jia J，Nie L Q，et al.Depression Detection via Harvesting Social Media：A Multimodal Dictionary Learning Solution[C]//Proceedings of the 26th International Joint Conference on Artificial Intelligence，Melbourne，Australia：IJCAI，2017：3838-3844.

[6]DIGITAL IN 2017：GLOBAL OVERVIEW[EB/OL].https：//wearesocial.com/ special-reports/digital-in-2017-global-overview，2019-05-18.

[7]Wu Y Y，Kosinski M，Stillwell D.Computer-based Personality Judgments Are More Accurate Than Those Made By Humans[J].Proceedings of the National Academy of Sciences，2015，112（4），1036-1040.

[8]Broniatowski D A，Paul M J，Dredze M.National and Local Influenza Surveillance Through Twitter：An Analysis of the 2012-2013 Influenza Epidemic[J].PLoS One，2013，8（12）：e83672.

[9]Chew C，Eysenbach G.Pandemics in the Age of Twitter：Content Analysis of Tweets During the 2009 H1N1 Outbreak[J].PloS One，2010，5（11）：e14118.

[10]Kass-Hout T A，Alhinnawi H.Social Media in Public Health[J].British Medical Bulletin，2013，108（1）：5-24.

[11]Lwe B，Kroenke K，Herzog W，et al.Measuring Depression Outcome with a Brief Self-report Instrument：Sensitivity to Change of the Patient Health Questionnaire（PHQ-9）[J].Affect Disord 2004，81：61-66.

[12]Seung W Choi，Benjamin Schalet，Karon F，et al.Establishing a Common Metric for Depressive Symptoms：Linking the BDI-II，CES-D，and PHQ-9 to PROMIS Depression[J].Psychological Assesment，2014，26：513-527.

[13]Radloff L S.The CES-D Scale：A Self-report Depression Scale for Research in the General Population[J]. Appl Psychol Meas，1977，（1）：385-401.

[14]Beck A T，Steer R A，Brown G K.Beck Depression Inventory Ⅱ[J].San Antonio，1996，78：490-498.

[15]Chancellor S，Lin Z Y，Goodman E L，et al.Quantifying and Predicting Mental Illness Severity in Online Pro-Eating Disorder Communities[C]//Proceedings of the 19th ACM Conference on Computer-Supported Cooperative Work & Social Computing.San Francisco，USA：ACM，2016：1171-1184.

[16]Choudhury M D，De S.Mental Health Discourse on Reddit：Self- Disclosure，Social Support，and Anonymity[C]//Proceedings of the 8th International AAAI Conference on Weblogs and Social Media，Ann Arbor，USA：AAAI，2014：71-80.

[17]劉德喜，邱家洪，萬(wàn)常選，等.利用準(zhǔn)私密社交網(wǎng)絡(luò)文本數(shù)據(jù)檢測(cè)抑郁用戶(hù)的可行性分析[J].中文信息學(xué)報(bào)，2018，32（9）：93-102.

[18]Rude S，Gortner E M，Pennebaker J.Language Use of Depressed and Depression-Vulnerable College Students[J].Cognition & Emotion，2004，18（8）：1121-1133.

[19]Nadeem M，Horn M，Coppersmith G，et al.Identifying Depression on Twitter[EB/OL].https：//arxiv.org/ftp/arxiv/papers/1607/1607.07384.pdf，2019-04-16.

[20]De Choudhury M，Counts S，Horvitz E.Predicting Postpartum Changes in Emotion Andbehavior Via Social Media[C]//Proceedings of the SIGCHI Conference on Human Factorsin Computing Systems，New York，USA：ACM，2013：3267-3276.

[21]Nguyen T，Phung D Q，Dao Bo，et al.Affective and Content Analysis of Online Depression Communities[J].IEEE Transactions on Affective Computing，2014，5（3）：217-226.

[22]蔣宛月，江光榮，徐升，等.國(guó)民心理健康素養(yǎng)變化趨勢(shì)——基于抑郁主題微博大數(shù)據(jù)分析[C]//杭州：第二十二屆全國(guó)心理學(xué)學(xué)術(shù)會(huì)議，2019.

[23]Choudhury M D，Gamon M，Counts S，et al.Predicting Depression Via Social Media[C]//Proceedings of the 7th International AAAI Conference on Weblogs and Social Media.Cambridge，USA：AAAI，2013：128-137.

[24]Zhang L，Huang X L，Liu T L，et al.Using Linguistic Features to Estimate Suicide Probability of Chinese Microblog Users[C]//Proceedings of International Conference on Human Centered Computing.Berlin，Germany：Springer，2014：549-559.

[25]Preotiuc-Pietro D，Eichstaedt J，Park G，et al.The Role of Personality，Age and Gender in Tweeting About Mental Illnesses[C]//Proceedings of the 2nd Workshop on Computational Linguistics and Clinical Psychology.Denver，USA：ACL，2015：21-31.

[26]Coppersmith G，Harman C，Dredze M.Measuring Post traumatic Stress Disorder in Twitter[C]//Proceedings of the 8th International AAAI Conference on Weblogs and Social Media.Ann Arbor，USA：AAAI，2014：579-582.

[27]Tausczik Y R，Pennebaker J W.The Psychological Meaning of Words：LIWC and Computerized Text Analysis Methods[J].Journal of Language and Social Psychology，2010，29 16（1）：24-54.

[28]Coopersmith G，Dredze M，Harman C.Quantifying Mental Health Signals in Twitter[C]// Proceedings of the 1st Workshop on Computational Linguistics and Clinical Psychology，Baltimore，USA：ACL，2014：51-60.

[29]Wang X Y，Zhang C H，Ji Y，et al.A Depression Detection Model Based on Sentiment Analysis in Micro-blog Social Network[C]//Proceedings of Pacific-Asia Conference on Knowledge Discovery and Data Mining.Gold Coast，Australia：Spring，2013：201-213.

[30]韓梅花，趙景秀.基于“用戶(hù)畫(huà)像”的閱讀療法模式研究——以抑郁癥為例[J].大學(xué)圖書(shū)館學(xué)報(bào)，2017，35（6）：105-110.

[31]方振宇.基于詞向量的微博用戶(hù)抑郁預(yù)測(cè)方法研究[D].合肥：合肥工業(yè)大學(xué)，2017.

[32]李林堅(jiān).基于情緒詞庫(kù)的抑郁癥患者情緒表達(dá)分析與預(yù)測(cè)[D].杭州：浙江大學(xué)，2019.

[33]胡泉.基于新浪微博的互聯(lián)網(wǎng)用戶(hù)心理健康狀態(tài)判別[D].開(kāi)封：河南大學(xué)，2015.

[34]Choudhury M D，Counts S，Horvitz E.Social Media as a Measurement Tool of Depression in Populations[C]//Proceedings of the fifth Annual ACM Web Science Conference.New York，USA：ACM，2013：47-56.

[35]Jefrey A Lieberman，Diana Perkins，Aysenil Belger，et al.The Early Stages of Schizophrenia：Speculations on Pathogenesis，Pathophysiology，and Therapeutic Approaches[J].Biological psychiatry，2001，50（11）：884-897.

[36]Pennebaker J W，F(xiàn)rancis M E，Booth R J.Linguistic Inquiry and Word Count[J].Psychosomatic Medicine，2001，63：517-522.

[37]Fast E，Chen B B，Bernstein M S.Empath：Understanding Topic Signals in Large-scale Text[C]//Proceedings of the 2016 CHI Conference on Human Factors in Computing Systems.San Jose，USA：ACM，2016：4647-4657.

[38]Blei D M，Ng A Y，Jordan M I.Latent Dirichlet Allocation[J].The Journal of Machine Learning Research，2003，3（1）：993-1022.

（責(zé)任編輯：陳媛）

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

社交網(wǎng)絡(luò)中的抑郁癥用戶(hù)語(yǔ)言和行為特征分析及檢測(cè)