施志偉,高俊波,胡雯雯,劉志遠
(上海海事大學(xué),上海 201306)
基于文本的抑郁情感傾向識別模型①
施志偉,高俊波,胡雯雯,劉志遠
(上海海事大學(xué),上海 201306)
針對學(xué)生在新浪微博文本中所表現(xiàn)出來的抑郁情感傾向,提出了一種識別抑郁情感傾向的模型. 通過在本校廣泛發(fā)動學(xué)生在線填寫抑郁自評量表,獲得學(xué)生的量表得分. 采集學(xué)生的微博文本,并請本校心理學(xué)老師對微博進行人工標注. 在預(yù)處理階段,利用抑郁情感詞典重新組合在分詞階段被拆分的抑郁情感詞,以提高識別正確率. 然后基于支持向量機構(gòu)建一個情感分類器對微博數(shù)據(jù)進行訓(xùn)練,經(jīng)過不斷的學(xué)習(xí)反饋,獲得較好的分類效果; 最后,定義了抑郁指數(shù)來衡量個體在一段時間內(nèi)的抑郁傾向程度. 實驗結(jié)果表明,抑郁指數(shù)衡量的抑郁程度大致與量表結(jié)果吻合,該方法識別準確率達到82.35%.
抑郁傾向識別; 抑郁自評量表; 抑郁情感詞典; 支持向量機; 抑郁指數(shù); 新浪微博
微博作為一種開放化的互聯(lián)網(wǎng)社交服務(wù),由于文體格式自由、使用方便,越來越多的用戶通過微博發(fā)布自己的所見所聞,所感所思. 在海量微博文本中,有很多蘊藏著個人情感,可以利用這些文本進行情感分析研究[1]. 當前,情感分析研究主要是針對某個具體事物的評論[2],如影評,產(chǎn)品評論等,而針對文本中所蘊藏的抑郁情感的研究還比較少.
在世界范圍內(nèi),抑郁癥是人們面臨的最為普遍的心理疾病之一. 隨著微博等社交網(wǎng)絡(luò)平臺的發(fā)展壯大,許多研究者借助用戶網(wǎng)絡(luò)特征行為來判別其心理抑郁情況[3]. 文獻[4]基于產(chǎn)婦在產(chǎn)后社交網(wǎng)路中對話頻度、語言風(fēng)格等進行分析,建立產(chǎn)婦抑郁統(tǒng)計模型. Wang[5]等將抑郁患者視為一個節(jié)點,并以此為中心構(gòu)建一個圖網(wǎng)絡(luò),根據(jù)網(wǎng)絡(luò)中相鄰節(jié)點的屬性及連接權(quán)重,給出模型來計算抑郁狀況. 文獻[6]采用腦成像方法研究靜息態(tài)下不同性別的抑郁癥患者的腦功能差異. 文獻[7]從用戶發(fā)微博的時間、粉絲數(shù)及關(guān)注數(shù)等方面來分析用戶的抑郁情況.
本文將對學(xué)生微博文本中所蘊含的抑郁情感傾向展開研究,并定義抑郁指數(shù)來衡量個體在一段時間內(nèi)的抑郁傾向程度,為高校的心理工作者及醫(yī)院醫(yī)護人員識別抑郁患者提供輔助手段.
抑郁癥是一種普遍的心理疾病,成因非常復(fù)雜,研究者對抑郁癥的發(fā)病機理提出了許多理論假說[8]. 心理及醫(yī)學(xué)研究者還提出了各種抑郁癥診斷量表,為相關(guān)實踐提供了重要的實驗依據(jù). Zung[9]提出的抑郁自評量表具有高度可操作性及適應(yīng)性,很多醫(yī)療機構(gòu)也使用此量表來度量患者的抑郁程度. 它根據(jù)得分將抑郁情緒分為四類,[20,41]表示正常,[42,49]表示輕度抑郁,[50,57]表示中度抑郁,[58,80]表示重度抑郁. 本文采用SDS抑郁自評量表做對比實驗.
目前,開源情感詞典眾多[10],但還沒有一部完整的抑郁情感詞典. 本文在已有情感詞典基礎(chǔ)上,構(gòu)建一個基礎(chǔ)的抑郁情感詞典,共統(tǒng)計常見抑郁詞1041個. 考慮到微博用語的特征及時代性,采集抑郁情感網(wǎng)絡(luò)流行詞語54個; 從新浪微博抽取26個常用抑郁情感符號加入抑郁情感詞典. 抑郁情感詞典中部分詞如表1所示.
表1 抑郁情感詞典
本文建立的抑郁情感傾向識別模型主要包括以下幾個部分,如圖1所示.
采集數(shù)據(jù)之前,在上海海事大學(xué)校內(nèi)廣泛發(fā)動學(xué)生在線(網(wǎng)頁或者微信)填寫抑郁自評量表(https://sojump.com/jq/9743549.aspx),獲得每個學(xué)生的抑郁傾向得分. 在學(xué)生知情并授權(quán)的情況下采集微博語料,并請本校的心理咨詢師對學(xué)生的微博文本進行逐條標注.用預(yù)處理后的訓(xùn)練樣本訓(xùn)練分類器,得到可靠的抑郁情感識別器,并對抑郁指數(shù)和量表得分進行皮爾遜相關(guān)性分析,最后給出抑郁指數(shù)和抑郁程度之間的關(guān)系式.
圖1 學(xué)生抑郁情感傾向識別模型
對微博文本構(gòu)造特征向量前,先進行分詞和去停用詞處理,本文使用中科院分詞系統(tǒng)ICTCLAS. 在分詞后,許多抑郁情感詞被拆分,如“草泥馬”被分割成“草/泥/馬”,為了更好保留抑郁情感詞,參照已經(jīng)構(gòu)建的抑郁情感詞典,將這類詞恢復(fù)原狀. 去停用詞是利用構(gòu)建好的停用詞表過濾掉無用的字詞. 鑒于微博文本特點及多次去停用詞的結(jié)果,本文在哈工大去停用詞表的基礎(chǔ)上,加入了一些特殊的人名、地名及無關(guān)的字詞,如“上?!?、“TFBOY”等. 經(jīng)過反復(fù)試驗,此方法有更好的實驗效果.
特征空間的高維性和稀疏性是文本分類中面臨的最大問題. 將特征項全部保留,這將導(dǎo)致維度太大,降低分類效率和準確率,因此必須進行特征降維. 本文采用CHI進行特征選擇[11],其主要思想是假設(shè)特征t和類別ci之間符合 CHI分布,CHI統(tǒng)計值越大,特征與類別之間的相關(guān)性越強,對類別的貢獻度越大. 計算公式如式(1)所示.
最后,取特征t的最大值作為其全局CHI統(tǒng)計量,如式(2).
則特征詞ti在文檔dk中的權(quán)重為:
本文采用向量空間模型對微博文本進行刻畫. 在向量空間模型中,文本被視為由特征權(quán)重構(gòu)成的特征矩陣,關(guān)于文本的所有處理都在向量空間上進行. 根據(jù)特征選擇和特征加權(quán)的結(jié)果,微博文本將被表示成如下的向量空間模型.
每一行表示一條微博,wij表示第i條微博的第j個特征詞的權(quán)重;n表示文本集中微博總數(shù),m表示每條微博的特征維數(shù).
微博長短不一,按向量空間模型構(gòu)造的矩陣是一個有大量特征值為零的稀疏矩陣. 為了避免浪費存儲空間,提高運算效率,本文采用 (L T:W)形式來表示每條微博,其中L表示每條微博的標簽,T表示特征項,W為特征項的權(quán)重. 如:“我真的愛你,閉上眼,以為我能忘記,但流下的眼淚,卻沒有騙到自己”,這句話特征選擇后得到 5個特征詞,分別為“騙”、“愛”、“眼淚”、“閉上眼”、“流下”. 故而這句話可以表示成“1.0 28:0.4528 39:0.2295 49:0.3215 862:0.5811 1832:0.54878”,其中 1.0 表示標簽,28 是特征詞“騙”的索引號,0.4528是特征詞的權(quán)重.
支持向量機是一種實用高效的機器學(xué)習(xí)方法[13,14],和其他方法相比,它在處理非線性及高維分類問題中表現(xiàn)出其特有的優(yōu)勢. 處理非線性的文本分類問題,首先構(gòu)造非線性映射函數(shù)將數(shù)據(jù)x變換到高維空間F,然后在高維空間F使用線性分類器分類. 公式(6)實現(xiàn)把數(shù)據(jù)從低維空間轉(zhuǎn)換到高維空間F.
在空間變換后,采用高斯核函數(shù)實現(xiàn)非線性問題線性化. 高斯核函數(shù)如下[15]:
其中C為參數(shù),用于控制上述目標函數(shù)中兩項之間的權(quán)重. 此外,將約束條件加入到目標函數(shù)中,構(gòu)造拉格朗日函數(shù),解得 0≤ αi≤C,αi表示約束條件所對應(yīng)的拉格朗日乘子. 相應(yīng)的分類函數(shù)如公式(10).
其中,x表示待分類微博文本,xi表示對文本的支持向量,yi為xi對應(yīng)的分類,當f(x)≥0,則x有抑郁傾向,f(x)<0則正常.
對微博文本分類后,只能看出單條微博的抑郁情況,而不能刻畫個體在一段時間內(nèi)整體抑郁傾向狀況.通過觀察、比較大量學(xué)生的抑郁微博數(shù),在上述抑郁情感識別模型基礎(chǔ)上,本文提出抑郁指數(shù)來衡量個體在一段時間內(nèi)的抑郁傾向程度,計算公式如(11). 其中Nd表示分類結(jié)果中抑郁微博條數(shù),Nt表示總的微博數(shù),DI的值越大表示抑郁情感傾向越嚴重.
鑒于本文僅從微博文本這一特征來分析個體抑郁傾向情況,不涉及微博關(guān)注數(shù)、粉絲數(shù)等其他結(jié)構(gòu)特征,故而只取抑郁微博數(shù)與總微博數(shù)的比值作為抑郁指數(shù).
從2016年9月22到2016年12月23號,共381名學(xué)生在線作答,剔除無效量表,實際有效 271 人. 從得分結(jié)果來看,有抑郁傾向 80 人,正常 191 人. 按照3:1的比例,分別從兩類學(xué)生中隨機抽取訓(xùn)練用例和測試用例,訓(xùn)練集和測試集中人數(shù)如表2所示. 按照每人采集500條,不足采集全部的原則,共獲得7321條微博文本. 對訓(xùn)練集中微博語料進行人工標注后,共獲得抑郁微博1512條,正常微博3786條; 測試集共2023條微博.
表2 訓(xùn)練集和測試集人數(shù)及微博數(shù)
本文采用分類正確率來評價分類效果,公式如下:
其中,a表示被正確判斷為抑郁的微博數(shù),b表示被誤判為抑郁的微博數(shù),c表示被正確判斷為正常的微博數(shù),d表示被誤判為正常的微博數(shù).
實驗1. 對測試集中2023條微博,分別在采用抑郁情感詞典和不采用抑郁情感詞典的情況下進行實驗,結(jié)果如表3所示.
從表3可以看出,采用人工構(gòu)建的抑郁情感詞典后,對單條微博的識別正確率顯著提高.
實驗2. 利用分類器對測試集中每個學(xué)生的微博文本進行分類,得到68個測試用例的抑郁指數(shù)和正確率,部分數(shù)據(jù)如表4所示.
表3 采用抑郁情感詞典的實驗準確率
對實驗結(jié)果中抑郁指數(shù)DI和量表得分Score進行分析,發(fā)現(xiàn)它們之間有一定的聯(lián)系,畫出兩者之間的散點圖,如圖2,其中Index值為1表示有抑郁傾向,Index值為-1表示正常. 對兩者之間的相關(guān)性進行皮爾遜檢測,發(fā)現(xiàn)DI和Score在0.01水平(雙側(cè))上顯著相關(guān),且 r=0.544,說明兩者有較強的相關(guān)性. 根據(jù)相關(guān)性檢測結(jié)果以及量表得分與抑郁程度的關(guān)系,給出抑郁指數(shù)與抑郁程度之間的關(guān)系式為公式(13).
表4 不同學(xué)生抑郁指數(shù)及抑郁量表得分情況
抑郁指數(shù)在[0,0.1]時,情緒狀態(tài)正常; 抑郁指數(shù)在(0.1,0.2]時,開始有抑郁傾向但處于輕度狀態(tài); 抑郁指數(shù)在 (0.2,0.3]時,處于中度抑郁狀態(tài); 當抑郁指數(shù)在 (0.3,1]時,抑郁情況已經(jīng)比較嚴重了,必須采取有效的治療手段. 其中,當 DI在[0.08,0.15]時,正常與抑郁的交叉現(xiàn)象很明顯,這與部分學(xué)生量表得分在42分左右有明顯的關(guān)系.
表5給出了68個測試用例的識別結(jié)果,正常情緒的識別準確率比抑郁傾向的識別準確率低,可能是由于學(xué)生在正常狀態(tài)下所發(fā)的微博中包含了相關(guān)抑郁詞.
實驗3. 從 2016年 3月到2017年 2月,采集3位學(xué)生在此期間所有微博數(shù)據(jù),以月為單位分別求出抑郁指數(shù)并畫出走勢圖,結(jié)果如圖3.
從圖3可以看出,抑郁傾向呈現(xiàn)出波動狀態(tài),但在一定時間范圍內(nèi),有抑郁傾向的學(xué)生的抑郁指數(shù)普遍比正常人要高,而且情緒波動更劇烈.
圖2 DI與 Score 的關(guān)系散點圖
表5 學(xué)生測試用例的分類結(jié)果
圖3 不同學(xué)生的抑郁傾向走勢圖
抑郁情感傾向分析試圖從微博文本中識別出個體在某段時間內(nèi)的抑郁傾向狀況. 在學(xué)生知情且授權(quán)的情況下,獲取學(xué)生的微博文本; 在學(xué)校心理咨詢師的幫助下對微博文本進行情感極性標注,并使用機器學(xué)習(xí)算法訓(xùn)練分類器,實現(xiàn)面向微博文本的學(xué)生抑郁情感傾向識別. 實驗結(jié)果表明,該方法對學(xué)生的抑郁情感傾向有較好的識別效果.
鑒于微博文本語言極具特色,不少學(xué)生的微博都是通網(wǎng)絡(luò)圖片或表情來傳達情感,這對深入研究學(xué)生的抑郁情感傾向提出了非常高的要求. 此外,僅僅通過微博文本來分析抑郁傾向情況,而沒考慮微博周邊其他一些因素,如關(guān)注數(shù)、粉絲數(shù)、微博發(fā)表時間等,這些都是需要繼續(xù)研究改進的地方.
1劉楠. 面向微博短文本的情感分析研究[博士學(xué)位論文]. 武漢: 武漢大學(xué),2013: 24–91.
2Pang B,Lee L,Vaithyanathan S. Thumbs up? Sentiment classification using machine learning techniques. Proc. of the ACL-02 Conference on Empirical Methods in Natural Language Processing-Volume 10. Stroudsburg,PA,USA.2002. 79–86.
3Youn SJ,Trinh NH,Shyu I,et al. Using online social media,Facebook,in screening for major depressive disorder among college students. International Journal of Clinical and Health Psychology,2013,13(1): 74–80. [doi: 10.1016/S1697-2600(13)70010-3]
4De Choudhury M,Counts S,Horvitz E. Predicting postpartum changes in emotion and behavior via social media.Proc. of the SIGCHI Conference on Human Factors in Computing Systems. New York,USA. 2013. 3267–3276.
5Wang XY,Zhang CH,Ji Y,et al. A depression detection model based on sentiment analysis in micro-blog social network. Proc. of the PAKDD 2013 International Workshops on Trends and Applications in Knowledge Discovery and Data Mining-Volume 7867. New York,USA. 2013.201–213.
6王麗,姚志劍,滕皋軍,等. 靜息態(tài)下不同性別抑郁癥患者腦功能及其差異的fMRI研究. 中國心理衛(wèi)生雜志,2008,22(4): 271–275.
7李鵬宇. 微博社交網(wǎng)絡(luò)中的學(xué)生用戶抑郁癥識別方法研究[碩士學(xué)位論文]. 哈爾濱: 哈爾濱工業(yè)大學(xué),2014. 17–60.
8郭珊,郭克鋒. 抑郁癥的研究進展. 中國臨床康復(fù),2005,9(4): 131–133.
9Zung WWK,Richards CB,Short MJ. Self-rating depression scale in an outpatient clinic: Further validation of the SDS.Archives of General Psychiatry,1965,13(6): 508–515. [doi:10.1001/archpsyc.1965.01730060026004]
10徐琳宏,林鴻飛,潘宇,等. 情感詞匯本體的構(gòu)造. 情報學(xué)報,2008,27(2): 180–185.
11譚松波. 高性能文本分類算法研究[博士學(xué)位論文]. 北京:中國科學(xué)院計算技術(shù)研究所,2005.
12Aizawa A. An Information-theoretic perspective of tf-idf measures. Information Processing & Management,2003,39(1): 45–65.
13張學(xué)工. 關(guān)于統(tǒng)計學(xué)習(xí)理論與支持向量機. 自動化學(xué)報,2000,26(1): 32–42.
14Vapnik VN. The Nature of Statistical Learning Theory. New York: Springer,1995.
15郭麗娟,孫世宇,段修生. 支持向量機及核函數(shù)研究. 科學(xué)技術(shù)與工程,2008,8(2): 487–490.
Depression Tendency Identification Model Based on Text Content Analysis
SHI Zhi-Wei,GAO Jun-Bo,HU Wen-Wen,LIU Zhi-Yuan
(Shanghai Maritime University,Shanghai 201306,China)
In order to solve the problem of identifying depression tendency among students on sina microblog platform,this paper proposes a depression tendency identification model. By inviting students widely to fill in the self-rating depression scale online on campus we can get the students’ score. We collect students’ microblog text and ask the psychology teacher to annotate the microblog artificially. In the pretreatment stage,we use the depression emotional dictionary to reassemble the depressed emotion words that are split at the segmentation stage so as to improve the recognition accuracy rate. And then we build a classifier based on the support vector machine to train the data. Through continuous learning and feedback,we get a better classification result. Finally,this paper defines the depression index and uses it to measure the degree of depression for a period of time. The experimental results indicate that the degree of depression measured by depression index is approximately consistent with the results of the scale,the accuracy of the method being 82.35%.
depression tendency identification; self-rating depression scale; depression emotional dictionary; support vector machine (SVM); depression index; sina micro-blog
施志偉,高俊波,胡雯雯,劉志遠.基于文本的抑郁情感傾向識別模型.計算機系統(tǒng)應(yīng)用,2017,26(12):155–159. http://www.c-sa.org.cn/1003-3254/6088.html
上海海事大學(xué)研究生創(chuàng)新基金(2016ycx036)
2017-03-09; 修改時間: 2017-03-27; 采用時間: 2017-03-31