亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        社交網(wǎng)絡(luò)中的抑郁癥用戶語言和行為特征分析及檢測

        2020-06-01 08:15:36門秀萍魏瑞斌吳小蘭
        現(xiàn)代情報(bào) 2020年6期
        關(guān)鍵詞:用戶組社交特征

        門秀萍 魏瑞斌 吳小蘭

        摘 要:[目的/意義]通過在線工具來分析社交網(wǎng)絡(luò)用戶的語言和行為特征,對抑郁癥患者進(jìn)行預(yù)測性研究。[方法/過程]從推特上收集自我披露的抑郁癥信息,提取抑郁癥用戶和正常用戶在社交網(wǎng)絡(luò)中的語言和行為特征信息。在對特征信息進(jìn)行分析和驗(yàn)證的基礎(chǔ)上,利用機(jī)器學(xué)習(xí)算法預(yù)測抑郁癥用戶。[結(jié)果/結(jié)論]研究發(fā)現(xiàn),用戶在社交網(wǎng)絡(luò)上的語言和行為特征能夠反映其心理狀態(tài),從中提取的各類特征可用于抑郁用戶的檢測。在抑郁癥用戶預(yù)測方法中,隨機(jī)森林分類器的表現(xiàn)最好?;贓mpath的詞語類別特征在不同類型分類中具有最高的預(yù)測得分,而主題特征的得分排名較低。

        關(guān)鍵詞:抑郁癥;社交網(wǎng)絡(luò);機(jī)器學(xué)習(xí);分類;用戶;語言;特征分析;檢測

        Abstract:[Purpose/Significance]This study aims to analyze language and behavioral characteristics of social network users by using online tools,and to implement predictive research on depression.[Method/Process]We collected self-disclosed depression information from Twitter,and extracted the characteristics of language and behavior of depression users and normal users in social networks.Based on the analysis of feature information,several machine learning algorithms were used to detect depression users.[Results/Conclusion]The study found that users language and behavior characteristics in social networks can reflect their psychological state,and the various features extracted from them can be used for the prediction of depressed users.Random forest classifiers performed best in predictors of depression users,the characteristics of empath-based linguistic psychology have the highest prediction scores in different types of classification,while the topic features have lower scores.

        Key words:depression;social network;machine learning;classification

        醫(yī)療信息學(xué)作為醫(yī)學(xué)和信息科學(xué)交叉的一個(gè)領(lǐng)域,心理健康與疾病和衛(wèi)生保健等主題成為該領(lǐng)域的研究熱點(diǎn)[1-2]。抑郁癥是一種常見的心理疾病。根據(jù)世界衛(wèi)生組織報(bào)告,在全球范圍內(nèi),超過3億人患有抑郁癥[3]。另有調(diào)查顯示,中國抑郁癥患者已達(dá)到9 000萬[4]。對抑郁癥的科普、防范、治療工作亟待重視,抑郁癥防治已被列入全國精神衛(wèi)生工作重點(diǎn)。雖然傳統(tǒng)的線下治療是診斷抑郁癥最有效的方法,但人們對患有抑郁癥感到羞愧或不知情。超過70%的抑郁癥早期患者不愿咨詢心理醫(yī)生,導(dǎo)致病情惡化[5]。另一方面,人們越來越多地依賴推特、微博等社交媒體平臺來表達(dá)情緒和觀點(diǎn),并分享自身的狀態(tài)信息,全球有超過20億的用戶定期使用社交媒體[6]。

        社交媒體為轉(zhuǎn)變早期抑郁癥干預(yù)策略提供了前所未有的機(jī)會。通過分析人們在社交網(wǎng)絡(luò)上的日常語言可以了解一個(gè)人的心理特征,其分析結(jié)果比基于朋友和家人的判斷更準(zhǔn)確[7]。社交媒體用戶的公開評論、行為和社交互動等信息可以可靠地監(jiān)測和預(yù)測與健康相關(guān)的行為,例如預(yù)測流感病毒、過敏、癌癥等疾病的發(fā)生率[8-10]。

        本文利用機(jī)器學(xué)習(xí)技術(shù)來分析Twitter的數(shù)據(jù),研究社交網(wǎng)絡(luò)中的抑郁癥用戶語言和行為特征分析及檢測。具體內(nèi)容包括:探尋Twitter用戶的語言和行為中與抑郁癥有關(guān)的因素,如何從Twitter數(shù)據(jù)中提取這些特征因素,分析這些因素與抑郁癥病癥之間的關(guān)系,然后通過分類實(shí)驗(yàn),分析檢測抑郁癥最具影響力的機(jī)器學(xué)習(xí)方法以及哪些特征對檢測抑郁癥貢獻(xiàn)最大。挖掘抑郁癥人群在社交網(wǎng)絡(luò)上的行為和語言能幫助研究者了解他們的思維模式。研究成果可進(jìn)一步應(yīng)用到各種類型的心理問題,包括社交恐懼、自尊問題以及完美主義的自動診斷和治療。

        本文主要有以下貢獻(xiàn):1)對語言信息進(jìn)行了細(xì)粒度的分析,從語言的結(jié)構(gòu)、語言的詞語類別和語言的主題3個(gè)維度進(jìn)行更全面和系統(tǒng)的語言特征挖掘;2)將Empath語言分析包引入抑郁癥的檢測,提供了更多的語言特征;3)擴(kuò)大基于社交網(wǎng)絡(luò)的心理健康度量的范圍,研究254個(gè)特征與抑郁癥之間的關(guān)系。

        1 相關(guān)研究工作概述

        1.1 基于問卷調(diào)查的抑郁癥用戶檢測

        在心理學(xué)和流行病學(xué)研究中,自我報(bào)告調(diào)查僅次于臨床訪談,因此基于心理測量自我報(bào)告進(jìn)行抑郁癥的預(yù)測具有較高的有效性和可信度[11]。因此,在早期大多數(shù)研究人員通過調(diào)查問卷獲得患者的心理狀態(tài)信息,并基于各種抑郁癥診斷量表進(jìn)行精神狀態(tài)的檢測,如Choi等采用抑郁癥狀量表、自殺亞量表(DSI-SS)、Beck抑郁量表(BDI)對抑郁癥患者問卷進(jìn)行評分和診斷[12]。有些學(xué)者通過參與者報(bào)告抑郁發(fā)作的癥狀和日期,并結(jié)合流行病學(xué)研究中心修訂的抑郁量表(CES-D)[13]和貝克抑郁量表(BDI)[14]的得分進(jìn)行抑郁癥檢測。抑郁自評量表能夠直觀地反映抑郁患者的精神狀態(tài),但量表的填寫依賴被測者的主觀意愿,當(dāng)面對大規(guī)模群體時(shí),需要花費(fèi)較大的人力和時(shí)間成本。另外,問卷調(diào)查方式獲得的患者信息有限,使心理醫(yī)生無法了解抑郁癥患者的全部信息。

        1.2 基于社交網(wǎng)絡(luò)數(shù)據(jù)抑郁癥用戶檢測

        社交網(wǎng)絡(luò)上大量的用戶生成內(nèi)容(UGC)能夠及時(shí)反映用戶的真實(shí)狀態(tài)和情緒,使得用戶心理健康分析成為可能。一些學(xué)者對社交網(wǎng)絡(luò)平臺(如紅迪網(wǎng)和照片墻)上的用戶數(shù)據(jù)進(jìn)行了研究,發(fā)現(xiàn)抑郁患者在語言屬性和社交行為方面與正常用戶存在較大差異[15-17]。如患有抑郁的學(xué)生更頻繁地使用第一人稱代詞,以及帶有貶義的形容詞[18]。在推特社交平臺上,患有抑郁癥的用戶使用第一人稱代詞和過去時(shí)態(tài)動詞的也普遍較高[19]。De Choudhury M等驗(yàn)證了產(chǎn)后抑郁癥患者在推特平臺的語言風(fēng)格、情感表達(dá)和社交行為等方面與產(chǎn)前正常狀態(tài)相比有明顯變化[20]。LiveJournal社交平臺上抑郁癥用戶和正常用戶在情緒、寫作特征、主題內(nèi)容等方面存在顯著差異[21]。而基于中文微博的抑郁癥研究也發(fā)現(xiàn),在語言使用特征方面,抑郁癥患者對情感詞、消極情緒詞、認(rèn)知機(jī)制詞、連接詞的使用隨時(shí)間顯著增加[22]。

        上述研究對各種不同社交平臺下抑郁癥患者和正常人的語言使用和社交行為特征進(jìn)行了對比分析,證實(shí)了社交網(wǎng)絡(luò)活動記錄與用戶的抑郁狀態(tài)之間存在較強(qiáng)的相關(guān)性,這些結(jié)論為基于社交網(wǎng)絡(luò)的抑郁癥的檢測、診斷及治療提供了依據(jù)。

        1.3 基于社交網(wǎng)絡(luò)抑郁特征的選擇和計(jì)算

        研究者對來自推特、照片墻、紅迪網(wǎng)等不同社交網(wǎng)絡(luò)平臺的用戶的情感、情緒和寫作行為等心理學(xué)特征進(jìn)行抽取,并使用各種機(jī)器學(xué)習(xí)模型進(jìn)行抑郁癥預(yù)測。Choudhury M D等提取推特用戶的社交活動、情感、語言風(fēng)格等信息,對用戶患抑郁癥的風(fēng)險(xiǎn)進(jìn)行評估,準(zhǔn)確率達(dá)到70%[23]。Zhang L等使用主題分析模型對新浪微博用戶自殺的概率進(jìn)行線性回歸分析[24]。還有基于統(tǒng)計(jì)特征的方法,包括詞袋模型,頻率—逆文檔頻率(TF-IDF)、N-Gram詞頻,詞性頻率,平均發(fā)帖數(shù)量,帖子的平均字?jǐn)?shù)、發(fā)表時(shí)間戳等[25-26]。

        在眾多方法中,LIWC統(tǒng)計(jì)方法具有較高的檢測率。LIWC是由心理分析學(xué)家制作的一套心理語言學(xué)詞匯包[27],可以從用戶語言中分析出70多個(gè)心理語言學(xué)特征,被廣泛應(yīng)用于基于社交網(wǎng)絡(luò)的心理健康分析[17,28]。LIWC的成功激發(fā)了研究人員提出自定義領(lǐng)域詞典的方法,比如來自WordNet的情感詞匯,來自Vader的情感詞匯[29-30],以及采用詞向量技術(shù)的抑郁癥擴(kuò)充詞典[31-32]。在國內(nèi),中國科學(xué)院心理研究所計(jì)算網(wǎng)絡(luò)心理實(shí)驗(yàn)室參照LIWC2007,研發(fā)了中文文本分析軟件“文心”,胡泉使用該軟件對新浪微博用戶的文本數(shù)據(jù)提取語言成分特征和心理狀態(tài)特征對抑郁癥進(jìn)行檢測[33]。

        基于LIWC的方法從心理學(xué)角度提取了抑郁癥用戶在社交網(wǎng)絡(luò)上的語言特征,這些特征對于抑郁癥患者具有一定的表征能力,預(yù)測效果可以達(dá)到85%以上。其關(guān)鍵在于LIWC字典的定義,LIWC字典主要包含情感和認(rèn)知等心理學(xué)相關(guān)的詞語,不能很全面的涵蓋抑郁用戶的語言詞匯,因此,LIWC的語言分析并不全面,缺少一些隱含的有價(jià)值的語言信息,這些隱含信息對于早期和輕度抑郁癥的檢測更有意義。

        綜上所述,社交網(wǎng)絡(luò)語言和行為中蘊(yùn)含著與心理學(xué)相關(guān)的重要信息,使用這些信息來衡量和預(yù)測用戶心理健康水平,是較為科學(xué)的方法之一。提取具有較強(qiáng)表征能力的抑郁特征是提高檢測效果的關(guān)鍵。本文在已有研究的基礎(chǔ)上,采用新的特征計(jì)算方法,進(jìn)一步擴(kuò)大了基于社交網(wǎng)絡(luò)的抑郁測量的范圍,從不同維度描述了推特用戶分享內(nèi)容的語言和行為特征,并分析比較了幾種常用的機(jī)器學(xué)習(xí)模型預(yù)測抑郁癥的有效性,最高預(yù)測準(zhǔn)確率達(dá)到90%以上。

        2 基于社交網(wǎng)絡(luò)的抑郁癥用戶分析及檢測模型

        本文建立的基于社交網(wǎng)絡(luò)的抑郁癥特征分析及檢測模型主要包括以下幾個(gè)部分,如圖1所示:

        2.1 數(shù)據(jù)采集

        參照心理疾病在線識別研究中的數(shù)據(jù)采集方法[28,34],本文使用表1中的關(guān)鍵短語作為正則表達(dá)式構(gòu)造搜索關(guān)鍵詞。通過推特API從公開的推特?cái)?shù)據(jù)中檢索自我診斷為抑郁癥的個(gè)人用戶,最后收集到2015-2017年期間,共5 899名疑似抑郁癥用戶組,同時(shí)爬取這些用戶發(fā)表的時(shí)間軸(Timeline)信息。為了與抑郁癥用戶組進(jìn)行對照分析,從推特流中過濾出不包含上述關(guān)鍵短語的5 366個(gè)正常用戶作為參照組,同時(shí)爬取這些用戶在同樣時(shí)間間隔內(nèi)的時(shí)間軸(Timeline)數(shù)據(jù)。每個(gè)被過濾用戶的時(shí)間軸數(shù)據(jù)包括帖子文本、用戶名、發(fā)布時(shí)間、標(biāo)簽、提及次數(shù)、收藏、地理位置和帖子編號等信息。在表2中列出了所獲得數(shù)據(jù)的基本描述性信息。

        2.2 數(shù)據(jù)預(yù)處理

        上述數(shù)據(jù)作為我們實(shí)驗(yàn)數(shù)據(jù)的候選集,為了提高模型的效果,需要進(jìn)行數(shù)據(jù)預(yù)處理。首先去除非英語用戶,以及被關(guān)注數(shù)超過1 000的用戶,因?yàn)樵擃愘~戶有可能是一些組織、名人或社團(tuán)賬戶。然后刪除停用詞、@、網(wǎng)址、頻率較高的單詞和出現(xiàn)次數(shù)少于3次的單詞,最后采用Autocorrect進(jìn)行拼寫檢查,進(jìn)行詞干提取,以進(jìn)一步減少單詞個(gè)數(shù)。

        盡管關(guān)鍵短語包含自我表述的抑郁癥的經(jīng)歷和診斷,但仍有很多被過濾出的帖子中存在虛假陳述和引用等形式的噪聲數(shù)據(jù)。另外,對隨機(jī)爬取的正常用戶中有可能存在沒有使用匹配句式的抑郁用戶,為了獲得真實(shí)準(zhǔn)確的樣本,本文使用人工標(biāo)注方法對數(shù)據(jù)進(jìn)行了評分,對候選集數(shù)據(jù)進(jìn)行更精確的篩選,對每一個(gè)候選用戶,將其通過正則表達(dá)式匹配的帖子作為中心,提取中心帖子發(fā)布之前和之后各連續(xù)10條帖子,形成一組上下文帖子。我們將其稱為推特用戶的上下文。這些來自5 899名疑似用戶和5 366名正常用戶的公開上下文隨后被傳遞給3位評分員,對數(shù)據(jù)真實(shí)性進(jìn)行注釋,(0-抑郁,1-非抑郁,2-不確定),每個(gè)評分員分別對所有用戶進(jìn)行單獨(dú)分類,只有被所有評分者都標(biāo)記為0的用戶被選入抑郁用戶數(shù)據(jù)集。其中疑似用戶組最終得到2 143個(gè)抑郁用戶,2 933個(gè)正常用戶,823個(gè)不確定用戶;正常用戶組得到4 037個(gè)正常用戶,78個(gè)抑郁用戶,1 251個(gè)不確定用戶,評分者之間的3類注釋任務(wù)的科恩κ測量值是0.62。分歧主要出現(xiàn)在“2-不確定”類上,在“0-抑郁”類和“1-非抑郁”類之間的一致性為0.86。最終,選擇疑似用戶組中的2 143個(gè)抑郁用戶作為抑郁用戶數(shù)據(jù)集,正常用戶中的4 037個(gè)正常用戶作為正常用戶數(shù)據(jù)集。

        這3類用戶分別分享了120 183條、224 092條和76 667條帖子,平均每個(gè)用戶分享了56條、76條和93條帖子。表3給出了每個(gè)類別的上下文帖子的示例。

        2.3 特征提取與選擇

        2.3.1 行為特征提取

        用戶在社交網(wǎng)絡(luò)的行為特征主要是指可以代表用戶交互行為內(nèi)容的特征。研究表明,心理健康與網(wǎng)絡(luò)行為之間存在關(guān)聯(lián)性。根據(jù)抑郁癥的臨床經(jīng)驗(yàn),患者意志活動呈顯著持久的抑制。表現(xiàn)為行為緩慢,生活被動,回避社交,這些特征也體現(xiàn)在社交網(wǎng)絡(luò)行為上。通過推特API接口獲取用戶的注冊時(shí)間,發(fā)帖數(shù)量等社交網(wǎng)絡(luò)行為數(shù)據(jù),選取了發(fā)帖總數(shù),朋友數(shù)量,日均發(fā)帖量、日均收藏?cái)?shù),日均被關(guān)注數(shù)量,回復(fù)率,被轉(zhuǎn)發(fā)帖子數(shù)量等信息進(jìn)行統(tǒng)計(jì)分析和比對。

        研究發(fā)現(xiàn),抑郁癥用戶在推特等社交網(wǎng)絡(luò)上的活躍時(shí)間具有明顯的規(guī)律性。因此,對抑郁用戶組和正常用戶組的不同時(shí)間的發(fā)帖行為進(jìn)行了統(tǒng)計(jì),將1天按照每2小時(shí)為間隔劃分成12個(gè)時(shí)間段,分別統(tǒng)計(jì)用戶在這些時(shí)間段內(nèi)的發(fā)帖數(shù)量,并繪制用戶發(fā)帖時(shí)間與發(fā)帖數(shù)量曲線圖,對用戶社交行為的周期性特征進(jìn)行分析。

        2.3.2 語言特征提取

        思維與語法組織形式之間的關(guān)系被廣泛地應(yīng)用于心理疾病的癥狀分析[35]。本文提取推特用戶的不同詞性類別的使用頻率、語法形式、可讀性指標(biāo)CLI[30]、單詞復(fù)雜性指標(biāo)等用于對比抑郁用戶和正常用戶在詞匯選擇、語法靈活性等語言運(yùn)用能力上的差異。

        研究人員經(jīng)常使用LIWC從心理學(xué)角度來分析社交媒體上的帖子[36]。但LIWC只有40個(gè)主題和情感類別,缺少許多潛在的詞語類別[37]。本文使用Empath[37]進(jìn)行詞語分析,Empath是一種數(shù)據(jù)驅(qū)動的語言分析工具,利用對現(xiàn)代小說中18億個(gè)單詞的深度學(xué)習(xí),將用戶給定的一組種子詞語,擴(kuò)展生成新的詞匯類別。例如,使用種子詞語“推特”和“臉書”,Empath可以生成“社交媒體”詞語類別。Empath的部分詞語類別已被證實(shí)與LIWC中的類似詞語類別高度相關(guān)(r=0.906)。

        為了研究抑郁用戶患病的原因,對抑郁用戶的帖子進(jìn)行LDA主題模型[38]分析。本文使用Gensim實(shí)現(xiàn)的LDA模型獲得推特用戶的主題分布。LDA主題模型分析方法是一種非監(jiān)督聚類方法,需要設(shè)定主題個(gè)數(shù),為了獲得最佳主題個(gè)數(shù),需計(jì)算不同主題數(shù)量下的困惑度,選取具有最小困惑度的主題模型。

        2.3.3 特征選擇

        通過對抑郁用戶在社交網(wǎng)絡(luò)上的行為、語言的分析,得到了很多屬性特征,這些屬性將有助于識別社交網(wǎng)絡(luò)中抑郁用戶。為了提高模型預(yù)測的準(zhǔn)確度,需要對這些屬性進(jìn)行選擇。

        首先進(jìn)行歸一化處理,消除特征值衡量方式差異對識別效果的影響。如將所有頻次統(tǒng)計(jì)特征映射到[0,1]范圍內(nèi),對于具有不同量綱的特征進(jìn)行Min-Max歸一化處理。其次消除噪聲特征,選擇最顯著的特征變量。篩選方法是根據(jù)特征在各種統(tǒng)計(jì)測試中的得分與結(jié)果變量的相關(guān)性。具體通過采用ANOVA F測試方法去除噪聲和冗余特征,將特征空間從254個(gè)特征減少到132個(gè)最佳特征。

        2.4 分類訓(xùn)練及預(yù)測

        通過特征選擇獲得的屬性將用于識別社交網(wǎng)絡(luò)中抑郁用戶,從正常用戶中檢測出具有抑郁癥的用戶。采用機(jī)器學(xué)習(xí)模型基于這些屬性特征進(jìn)行分類訓(xùn)練及預(yù)測,將數(shù)據(jù)集分成訓(xùn)練集和測試集,將訓(xùn)練集輸入邏輯回歸、支持向量機(jī)、高斯樸素貝葉斯、決策樹和隨機(jī)森林等機(jī)器學(xué)習(xí)模型進(jìn)行分類訓(xùn)練,選擇擬合效果最佳的學(xué)習(xí)模型,對測試集進(jìn)行預(yù)測。

        為了選擇最佳學(xué)習(xí)模型,計(jì)算每種學(xué)習(xí)模型在測試集上的查準(zhǔn)率、查全率、f1和AUC等指標(biāo)對預(yù)測效果進(jìn)行性能度量。為避免過擬合,采用十折交叉驗(yàn)證方法,將數(shù)據(jù)集分成10等份,輪流將其中9份作為訓(xùn)練數(shù)據(jù),1份作為測試數(shù)據(jù)。取10次十折交叉驗(yàn)證結(jié)果的平均值作為對機(jī)器學(xué)習(xí)算法效率的估計(jì)。為了分析不同特征對分類效果的影響,將每類特征分別進(jìn)行分類實(shí)驗(yàn),以檢測每類特征的表征能力,并通過隨機(jī)森林算法計(jì)算每類特征對預(yù)測結(jié)果的重要性。

        3 研究結(jié)果分析

        3.1 抑郁用戶的行為特征分析

        3.1.1 交互行為分析

        從抑郁用戶組和正常用戶組交互特征統(tǒng)計(jì)結(jié)果(如圖2)可以發(fā)現(xiàn),抑郁用戶在社交網(wǎng)絡(luò)上不如正常用戶活躍,通常他們具有較少的朋友(432<608,p<0.001)。平均每天的發(fā)帖數(shù)量明顯低于正常用戶(25.79<27.92,p<0.001),抑郁用戶平均被關(guān)注數(shù)低于正常用戶(0.330<1.362,p<0.001)。平均每天的收藏?cái)?shù)量較低(7.73<9.73,p=0.032)。另外,他們對事物缺乏興趣,關(guān)注或收藏的內(nèi)容較少。抑郁癥患者在社交網(wǎng)絡(luò)上與其他用戶之間的交互活動較少,具體表現(xiàn)在整體的發(fā)帖量明顯低于正常用戶。

        3.1.2 活動周期性分析

        通過推特用戶的發(fā)帖周期可以發(fā)現(xiàn),正常用戶組整體發(fā)帖數(shù)量要遠(yuǎn)高于抑郁用戶組。從圖3看,抑郁用戶組的活躍時(shí)間峰值出現(xiàn)在凌晨2~3點(diǎn)之間,這可能與抑郁癥患者普遍存在的失眠或者半夜早醒等睡眠障礙有關(guān)。

        3.2 抑郁用戶語言特征分析

        3.2.1 語言結(jié)構(gòu)分析

        通過對抑郁癥患者帖子的語言結(jié)構(gòu)分析發(fā)現(xiàn),抑郁用戶使用人稱代詞的比例要顯著高于正常用戶,較常使用第一人稱(0.023>0.022,p=0.01)和第二人稱(0.020>0.019,p=0.002),較少使用第三人稱(0.015<0.017,p<0.001)。從心理學(xué)的視角看,較多的第一人稱使用率表明,抑郁癥患者更加關(guān)注自身,自我意識或自我感知能力過強(qiáng)。容易產(chǎn)生極端化的思維方式,喜歡用表示極端的副詞,如“完全”、“絕對”或“所有人”(0.0066>0.0059,p<0.001)。每個(gè)單詞的平均字符數(shù)存在一定差異(4.749>4.732,p=0.048)。

        抑郁癥用戶在交流中使用較為簡單的語法形式,缺乏靈活性,語言可讀性(CLI)較低(11.59<11.78,p=0.046),在詞性類別的選擇上更加單一化,運(yùn)用語言的能力要低于正常用戶組。在連詞(0.019>0.022,p<0.001)、數(shù)詞(0.016<0.018,p<0.001)、情態(tài)助動詞(0.013>0.012,p=0.01)、名詞(0.176<0.179,p=0.006)、副詞(0.061>0.059,p=0.004)、小品詞(0.0049<0.0052,p=0.001)和動詞(0.098<0.104,p<0.001)等詞語使用頻率整體較低。抑郁癥患者語言和內(nèi)容相對貧乏,傾向于使用更多的簡單單詞(4.73<4.74,p=0.047),每個(gè)句子平均單詞數(shù)較少(17<37,p=0.002)。結(jié)果見圖4。

        3.2.2 Empath特征分析

        對抽取的198維Empath特征進(jìn)行比較,通過T檢驗(yàn)發(fā)現(xiàn)兩類用戶在其中的82個(gè)詞語類別具有顯著差異,如表4所示。與正常用戶相比,抑郁癥用戶更多使用閱讀、感情、聽覺、聲音、睡眠等感知相關(guān)的詞語類別,而仇恨、羞愧、辱罵、易怒、抑郁、混亂、犯罪、恐怖、受傷等負(fù)面情緒相關(guān)詞匯頻率也高于正常用戶。這表明抑郁癥用戶經(jīng)常表現(xiàn)出情緒低落,更多關(guān)注家庭、旅游、運(yùn)動、互聯(lián)網(wǎng)、計(jì)算機(jī)、社交媒體等相關(guān)的內(nèi)容。較少關(guān)注時(shí)尚、法律、戰(zhàn)爭、軍隊(duì)、暴力等大眾普遍關(guān)注的話題。Empath還進(jìn)行了情感極性分析,其中在積極情感分?jǐn)?shù)上,抑郁用戶和正常用戶之間沒有顯著差別,但是抑郁用戶較多使用表示消極的詞語(0.0045>0.0041,p<0.001)。

        3.2.3 LDA主題分析

        根據(jù)LDA主題個(gè)數(shù)與困惑度的曲線圖(如圖5),主題個(gè)數(shù)設(shè)置為20,表5列出了抑郁用戶的主題—高頻關(guān)鍵詞。從主題分析的高頻詞分析,抑郁用戶在社交平臺上會較多地談?wù)摷膊“Y狀、治療經(jīng)驗(yàn)等話題,會更多地關(guān)注自身情感狀態(tài)。

        為了比較抑郁用戶組與正常用戶組的主題差異,本文首先分別計(jì)算兩個(gè)組中所有帖子的每個(gè)主題的后驗(yàn)概率。然后比較所有主題在每組用戶所有帖子上的概率分布。對結(jié)果進(jìn)行成對T檢驗(yàn),發(fā)現(xiàn)所有主題在兩組用戶的分布存在明顯差異(p=0.006)。

        3.3 抑郁用戶的檢測效果分析

        分類實(shí)驗(yàn)結(jié)果表明,在應(yīng)用的幾種分類算法中,隨機(jī)森林的分類效果最好,如表6所示。

        為了分析不同類別的特征對分類效果的影響,本文將每類特征分別用隨機(jī)森林進(jìn)行分類實(shí)驗(yàn)。從圖6看,Empath分類效果最好,對整體的分類效果貢獻(xiàn)最大。

        隨機(jī)森林算法的信息熵可以測量不同類別特征的重要性,熵值的平均降幅越大,則信息增益越大,即特征對分類結(jié)果的重要性越大。圖7為每類特征信息熵的平均下降幅度進(jìn)行歸一化后的結(jié)果。

        Empath特征對分類效果起著最關(guān)鍵作用。Empath特征共提取198維詞語類別特征,因此需要足夠多的語言信息。當(dāng)用戶在社交網(wǎng)絡(luò)上分享的語言信息較少時(shí),會增加被錯(cuò)分的可能性。通過觀察隨機(jī)森林分類模型中被錯(cuò)分的371個(gè)用戶的社交數(shù)據(jù),發(fā)現(xiàn)這些用戶在社交網(wǎng)絡(luò)上分享內(nèi)容明顯少于正確分類用戶,其中正確分類用戶平均發(fā)帖量為73條,每條帖子詞匯數(shù)平均為86,而錯(cuò)分用戶為38條,每條帖子詞匯數(shù)為34??梢酝ㄟ^增大時(shí)間窗口獲取更多用戶信息的方法進(jìn)行改進(jìn),但時(shí)間窗口的選擇需要進(jìn)行實(shí)驗(yàn)研究,如果時(shí)間窗口太大,會增加計(jì)算成本,也可能會降低特征的表征能力。另外,本文提出的方法在其他社交網(wǎng)絡(luò)上的應(yīng)用效果也需要進(jìn)一步的驗(yàn)證。

        4 結(jié) 語

        本文使用推特?cái)?shù)據(jù)研究用戶語言和行為特征與抑郁癥的關(guān)系,通過用戶在推特上的交互行為、語言的結(jié)構(gòu)、語言的Empath類別和語言的主題等特征,考察了利用社交網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行抑郁癥檢測的可能性,通過T檢驗(yàn)方法分析了各類特征與抑郁癥的關(guān)系,對比了邏輯回歸、支持向量機(jī)、樸素貝葉斯、決策樹和隨機(jī)森林等機(jī)器學(xué)習(xí)算法對抑郁用戶的檢測效果,其中,隨機(jī)森林算法效果最好,準(zhǔn)確率達(dá)到90%以上,證明了抑郁癥這類心理疾病可以在一些在線環(huán)境中檢測到。但本研究仍然存在一些不足。首先,對社交網(wǎng)絡(luò)用戶的分析主要集中在互動行為和文本內(nèi)容上,沒有考慮用戶之間的連接關(guān)系,如用戶之間的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)等。其次,本文只在一個(gè)相對較小的樣本數(shù)據(jù)集上取得了較好的效果,這些結(jié)論的廣泛性需要在更大的樣本空間中進(jìn)行驗(yàn)證。第三,該類研究還較少關(guān)注如何識別不知道自己心理健康狀況的抑郁癥患者。因此,如何將這些特征應(yīng)用到臨床規(guī)則中仍需要進(jìn)一步的研究。

        總之,自然語言處理和機(jī)器學(xué)習(xí)的發(fā)展,使基于社交媒體信息篩選高危人群成為可能。但由此引發(fā)的一系列關(guān)于數(shù)據(jù)所有權(quán)和隱私保護(hù)的倫理和法律問題亟待解決。

        參考文獻(xiàn)

        [1]劉雅姝,張海濤,徐海玲,等.近三年國外圖書館學(xué)與信息科學(xué)領(lǐng)域研究熱點(diǎn)與前沿分析[J].現(xiàn)代情報(bào),2019,39(9):168-177.

        [2]田大芳,魏瑞斌.2017年國際信息科學(xué)與圖書館學(xué)研究熱點(diǎn)分析[J].現(xiàn)代情報(bào),2018,38(8):125-129.

        [3]世界衛(wèi)生組織.抑郁癥[EB/OL].https://www.who.int/ zh/ news-room/fact-sheets /detail/depression,2019-05-11.

        [4]抑郁癥:“心靈感冒”可治[EB/OL].http://health.people.com.cn/n1/ 2017/0329/ c14739-29176601.html,2019-05-11.

        [5]Shen G Y,Jia J,Nie L Q,et al.Depression Detection via Harvesting Social Media:A Multimodal Dictionary Learning Solution[C]//Proceedings of the 26th International Joint Conference on Artificial Intelligence,Melbourne,Australia:IJCAI,2017:3838-3844.

        [6]DIGITAL IN 2017:GLOBAL OVERVIEW[EB/OL].https://wearesocial.com/ special-reports/digital-in-2017-global-overview,2019-05-18.

        [7]Wu Y Y,Kosinski M,Stillwell D.Computer-based Personality Judgments Are More Accurate Than Those Made By Humans[J].Proceedings of the National Academy of Sciences,2015,112(4),1036-1040.

        [8]Broniatowski D A,Paul M J,Dredze M.National and Local Influenza Surveillance Through Twitter:An Analysis of the 2012-2013 Influenza Epidemic[J].PLoS One,2013,8(12):e83672.

        [9]Chew C,Eysenbach G.Pandemics in the Age of Twitter:Content Analysis of Tweets During the 2009 H1N1 Outbreak[J].PloS One,2010,5(11):e14118.

        [10]Kass-Hout T A,Alhinnawi H.Social Media in Public Health[J].British Medical Bulletin,2013,108(1):5-24.

        [11]Lwe B,Kroenke K,Herzog W,et al.Measuring Depression Outcome with a Brief Self-report Instrument:Sensitivity to Change of the Patient Health Questionnaire(PHQ-9)[J].Affect Disord 2004,81:61-66.

        [12]Seung W Choi,Benjamin Schalet,Karon F,et al.Establishing a Common Metric for Depressive Symptoms:Linking the BDI-II,CES-D,and PHQ-9 to PROMIS Depression[J].Psychological Assesment,2014,26:513-527.

        [13]Radloff L S.The CES-D Scale:A Self-report Depression Scale for Research in the General Population[J]. Appl Psychol Meas,1977,(1):385-401.

        [14]Beck A T,Steer R A,Brown G K.Beck Depression Inventory Ⅱ[J].San Antonio,1996,78:490-498.

        [15]Chancellor S,Lin Z Y,Goodman E L,et al.Quantifying and Predicting Mental Illness Severity in Online Pro-Eating Disorder Communities[C]//Proceedings of the 19th ACM Conference on Computer-Supported Cooperative Work & Social Computing.San Francisco,USA:ACM,2016:1171-1184.

        [16]Choudhury M D,De S.Mental Health Discourse on Reddit:Self- Disclosure,Social Support,and Anonymity[C]//Proceedings of the 8th International AAAI Conference on Weblogs and Social Media,Ann Arbor,USA:AAAI,2014:71-80.

        [17]劉德喜,邱家洪,萬常選,等.利用準(zhǔn)私密社交網(wǎng)絡(luò)文本數(shù)據(jù)檢測抑郁用戶的可行性分析[J].中文信息學(xué)報(bào),2018,32(9):93-102.

        [18]Rude S,Gortner E M,Pennebaker J.Language Use of Depressed and Depression-Vulnerable College Students[J].Cognition & Emotion,2004,18(8):1121-1133.

        [19]Nadeem M,Horn M,Coppersmith G,et al.Identifying Depression on Twitter[EB/OL].https://arxiv.org/ftp/arxiv/papers/1607/1607.07384.pdf,2019-04-16.

        [20]De Choudhury M,Counts S,Horvitz E.Predicting Postpartum Changes in Emotion Andbehavior Via Social Media[C]//Proceedings of the SIGCHI Conference on Human Factorsin Computing Systems,New York,USA:ACM,2013:3267-3276.

        [21]Nguyen T,Phung D Q,Dao Bo,et al.Affective and Content Analysis of Online Depression Communities[J].IEEE Transactions on Affective Computing,2014,5(3):217-226.

        [22]蔣宛月,江光榮,徐升,等.國民心理健康素養(yǎng)變化趨勢——基于抑郁主題微博大數(shù)據(jù)分析[C]//杭州:第二十二屆全國心理學(xué)學(xué)術(shù)會議,2019.

        [23]Choudhury M D,Gamon M,Counts S,et al.Predicting Depression Via Social Media[C]//Proceedings of the 7th International AAAI Conference on Weblogs and Social Media.Cambridge,USA:AAAI,2013:128-137.

        [24]Zhang L,Huang X L,Liu T L,et al.Using Linguistic Features to Estimate Suicide Probability of Chinese Microblog Users[C]//Proceedings of International Conference on Human Centered Computing.Berlin,Germany:Springer,2014:549-559.

        [25]Preotiuc-Pietro D,Eichstaedt J,Park G,et al.The Role of Personality,Age and Gender in Tweeting About Mental Illnesses[C]//Proceedings of the 2nd Workshop on Computational Linguistics and Clinical Psychology.Denver,USA:ACL,2015:21-31.

        [26]Coppersmith G,Harman C,Dredze M.Measuring Post traumatic Stress Disorder in Twitter[C]//Proceedings of the 8th International AAAI Conference on Weblogs and Social Media.Ann Arbor,USA:AAAI,2014:579-582.

        [27]Tausczik Y R,Pennebaker J W.The Psychological Meaning of Words:LIWC and Computerized Text Analysis Methods[J].Journal of Language and Social Psychology,2010,29 16(1):24-54.

        [28]Coopersmith G,Dredze M,Harman C.Quantifying Mental Health Signals in Twitter[C]// Proceedings of the 1st Workshop on Computational Linguistics and Clinical Psychology,Baltimore,USA:ACL,2014:51-60.

        [29]Wang X Y,Zhang C H,Ji Y,et al.A Depression Detection Model Based on Sentiment Analysis in Micro-blog Social Network[C]//Proceedings of Pacific-Asia Conference on Knowledge Discovery and Data Mining.Gold Coast,Australia:Spring,2013:201-213.

        [30]韓梅花,趙景秀.基于“用戶畫像”的閱讀療法模式研究——以抑郁癥為例[J].大學(xué)圖書館學(xué)報(bào),2017,35(6):105-110.

        [31]方振宇.基于詞向量的微博用戶抑郁預(yù)測方法研究[D].合肥:合肥工業(yè)大學(xué),2017.

        [32]李林堅(jiān).基于情緒詞庫的抑郁癥患者情緒表達(dá)分析與預(yù)測[D].杭州:浙江大學(xué),2019.

        [33]胡泉.基于新浪微博的互聯(lián)網(wǎng)用戶心理健康狀態(tài)判別[D].開封:河南大學(xué),2015.

        [34]Choudhury M D,Counts S,Horvitz E.Social Media as a Measurement Tool of Depression in Populations[C]//Proceedings of the fifth Annual ACM Web Science Conference.New York,USA:ACM,2013:47-56.

        [35]Jefrey A Lieberman,Diana Perkins,Aysenil Belger,et al.The Early Stages of Schizophrenia:Speculations on Pathogenesis,Pathophysiology,and Therapeutic Approaches[J].Biological psychiatry,2001,50(11):884-897.

        [36]Pennebaker J W,F(xiàn)rancis M E,Booth R J.Linguistic Inquiry and Word Count[J].Psychosomatic Medicine,2001,63:517-522.

        [37]Fast E,Chen B B,Bernstein M S.Empath:Understanding Topic Signals in Large-scale Text[C]//Proceedings of the 2016 CHI Conference on Human Factors in Computing Systems.San Jose,USA:ACM,2016:4647-4657.

        [38]Blei D M,Ng A Y,Jordan M I.Latent Dirichlet Allocation[J].The Journal of Machine Learning Research,2003,3(1):993-1022.

        (責(zé)任編輯:陳 媛)

        猜你喜歡
        用戶組社交特征
        社交之城
        英語世界(2023年6期)2023-06-30 06:28:28
        社交牛人癥該怎么治
        意林彩版(2022年2期)2022-05-03 10:25:08
        文件共享安全管理方案探討
        社交距離
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        你回避社交,真不是因?yàn)閮?nèi)向
        文苑(2018年17期)2018-11-09 01:29:28
        抓住特征巧觀察
        青云QingCloud發(fā)布資源協(xié)作功能實(shí)現(xiàn)資源共享與權(quán)限控制
        電腦與電信(2016年3期)2017-01-18 07:35:44
        ASP.NET中細(xì)分新聞?lì)惥W(wǎng)站的用戶對頁面的操作權(quán)限
        国产天美传媒性色av| 亚洲日本高清一区二区| 日本妇人成熟免费2020| 国产成人无码av一区二区| 精品性影院一区二区三区内射| 久久国产A∨一二三| 天堂久久一区二区三区| 色婷婷五月综合激情中文字幕| 中文字幕亚洲情99在线| 人妻中出精品久久久一区二| 在线女同免费观看网站| 中文字幕亚洲无线码在线一区| 国产真实夫妇交换视频| 久久久国产精品福利免费| 国产精品第一区亚洲精品| 亚洲综合极品美女av| 国产精选污视频在线观看| 久久半精品国产99精品国产| 中文亚洲第一av一区二区| 国产av无码专区亚洲av男同| 日韩成人大屁股内射喷水| 久久国产成人午夜av影院| 蜜桃视频一区视频二区| 中文精品久久久久人妻不卡| 国产精品久久无码一区二区三区网| 色二av手机版在线| 91成人黄色蘑菇视频| 亚洲avav天堂av在线网毛片| 成人精品一级毛片| 美国又粗又长久久性黄大片| 日韩av无码一区二区三区| 性久久久久久久| 亚洲AV无码一区二区一二区教师| 久久一区二区国产精品| 日韩乱码人妻无码中文字幕久久| 欧美a视频在线观看| 国产精品午夜福利亚洲综合网| 四虎成人精品在永久免费| 亚洲国产美女精品久久久久| 日本中文字幕av网址| 日本一区二区三级在线观看|