亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        抑郁癥網(wǎng)絡(luò)社交與疑似抑郁微博初步篩選算法

        2022-01-22 07:47:56查國清胡超然孫銘濤王德慶
        關(guān)鍵詞:用戶大學(xué)生分析

        查國清,胡超然,孫銘濤,王德慶

        1.北京航空航天大學(xué)可靠性與系統(tǒng)工程學(xué)院,北京 100191

        2.波士頓大學(xué)文理學(xué)院,馬薩諸塞州 02212

        3.北京航空航天大學(xué)經(jīng)濟(jì)管理學(xué)院,北京 100191

        4.北京航空航天大學(xué)計(jì)算機(jī)學(xué)院,北京 100191

        統(tǒng)計(jì)顯示目前世界各國有超過34 000 萬的抑郁癥患者,并且每年有1 000 萬至2 000 萬人有自殺傾向[1]。根據(jù)中國衛(wèi)生部的統(tǒng)計(jì)[2],截止2012 年,我國已有至少3 000萬的抑郁癥就診記錄。高校學(xué)生作為一個(gè)社會(huì)經(jīng)驗(yàn)較少、心理承受能力較低,而又擔(dān)負(fù)著未來家庭、社會(huì)多重責(zé)任的特殊群體,抑郁癥發(fā)病率明顯高于其他人群[3]。

        目前,抑郁癥的檢測(cè)主要是基于心理量表測(cè)評(píng)。雖然該方法能夠很好地預(yù)測(cè)用戶是否有心理障礙[4],但是也存在諸如:只能被動(dòng)等待當(dāng)事人主動(dòng)尋求幫助,可能會(huì)漏掉存在抑郁傾向人員;效率低下,無法實(shí)現(xiàn)大規(guī)模人群心理健康狀態(tài)的實(shí)時(shí)監(jiān)控,識(shí)別結(jié)果反饋時(shí)間滯后;抑郁癥患者有可能會(huì)選擇不符合自我狀態(tài)描述的積極備選項(xiàng)或表現(xiàn)出不符合自身狀態(tài)的認(rèn)知與行為等不可克服的不足。

        有調(diào)查[5]顯示,高校學(xué)生中微博普及率高達(dá)90%以上。用戶使用微博的行為受到自身個(gè)性特征的驅(qū)動(dòng),個(gè)性特征可以作為推測(cè)微博用戶心理特征的線索之一。微博用戶會(huì)通過發(fā)表網(wǎng)絡(luò)文本的方式來表達(dá)自己觀點(diǎn)、想法和情緒等心理特征。用戶使用微博的行為特征以及微博內(nèi)容的語義特征有可能可以被用來表征微博用戶的心理特征。通過對(duì)微博用戶的網(wǎng)絡(luò)文本和日志進(jìn)行深度挖掘分析,可以獲取用戶一段時(shí)間以來的心理特征,進(jìn)而為分析用戶的心理健康狀態(tài)包括抑郁狀態(tài)提供了可能。

        1 相關(guān)研究

        借助于社交網(wǎng)絡(luò)的數(shù)據(jù)進(jìn)行心理分析逐漸成為研究的熱點(diǎn)。目前研究主要為兩個(gè)方向。

        研究方向一,探索社交網(wǎng)絡(luò)數(shù)據(jù)與抑郁癥的關(guān)系。例如,密蘇里科技大學(xué)的研究人員研究大學(xué)生互聯(lián)網(wǎng)的使用方式與抑郁癥之間的關(guān)聯(lián)[6]。Gamon等人[7]從Twitter 上采集了有抑郁癥以及沒有抑郁癥用戶的數(shù)據(jù),并利用最小二乘法對(duì)采集到的數(shù)據(jù)進(jìn)行回歸分析;統(tǒng)計(jì)了用戶發(fā)布Twitter的時(shí)間信息,分析了兩類用戶在發(fā)布Twitter上的時(shí)間差異;并采用了皮爾遜相關(guān)系數(shù)方法分析了用戶特征與抑郁癥的相關(guān)性程度等。Moreno等人[8-9]使用Facebook數(shù)據(jù)檢測(cè)青少年抑郁傾向,借助心理學(xué)上的診斷標(biāo)準(zhǔn),結(jié)合Facebook主頁信息對(duì)大學(xué)生抑郁狀況進(jìn)行分析。

        研究方向二,利用社交網(wǎng)絡(luò)數(shù)據(jù)檢測(cè)識(shí)別抑郁癥。如:Choudhury等人[10-11]中獲取了大量的Twitter數(shù)據(jù),并利用CES-D量表得到用戶的抑郁狀態(tài)標(biāo)簽,通過分析用戶社交網(wǎng)絡(luò)行為數(shù)據(jù)進(jìn)行特征提取,構(gòu)造抑郁檢測(cè)模型,證明Twitter 數(shù)據(jù)能夠用于檢測(cè)用戶是否有抑郁癥。Hiraga等人[12]使用了來自Yahoo Japan、Livedoor等多個(gè)blog平臺(tái)的數(shù)據(jù),結(jié)合日語特有的語言特征進(jìn)行特征抽取,并使用機(jī)器學(xué)習(xí)方法構(gòu)建抑郁檢測(cè)模型,證明blog數(shù)據(jù)可以用于檢測(cè)抑郁用戶。Li等人[13]研究發(fā)現(xiàn),通過分析博客文本中文字詞匯內(nèi)容與文本結(jié)構(gòu)特征可以實(shí)現(xiàn)針對(duì)網(wǎng)絡(luò)用戶情緒狀態(tài)的識(shí)別。Gill 等人[14]研究發(fā)現(xiàn),通過分析博客的短文本內(nèi)容同樣可以實(shí)現(xiàn)針對(duì)網(wǎng)絡(luò)用戶情緒狀態(tài)的識(shí)別。

        研究方向一中抑郁癥用戶和非抑郁癥用戶為事先采取人工標(biāo)注方式得到。研究方向二中所提出的抑郁癥檢測(cè)識(shí)別模型,在計(jì)算機(jī)領(lǐng)域?qū)儆诜诸悊栴},也需要事先對(duì)抑郁癥用戶和非抑郁癥用戶采用人工方式進(jìn)行標(biāo)注以用于訓(xùn)練集和測(cè)試集構(gòu)造。由于人工標(biāo)注費(fèi)時(shí)費(fèi)力,本文在對(duì)抑郁癥群體包括網(wǎng)絡(luò)行為、文本語義(詞和話題)等網(wǎng)絡(luò)社交行為分析基礎(chǔ)上,研究提出一種疑似抑郁微博的初步篩選算法,能夠快速地從海量大學(xué)生微博中篩選帶有抑郁情緒的微博,減少專家標(biāo)注工作量,提高標(biāo)注效率,為從海量微博中自動(dòng)篩選占比非常少的疑似抑郁微博提供了可行性,并可進(jìn)一步為后續(xù)抑郁癥患者精確識(shí)別(分類問題)提供良好的數(shù)據(jù)處理基礎(chǔ)。

        2 抑郁癥群體網(wǎng)絡(luò)社交行為分析

        2.1 數(shù)據(jù)來源

        (1)抑郁癥群體微博數(shù)據(jù)

        新浪微博用戶“走飯”為一名抑郁癥患者,2012年3月18 日在微博上留下遺言后自殺身亡,影響巨大。在該微博遺言下有超百萬的跟帖,并仍在不斷增加。跟帖中不乏大量的抑郁癥用戶表達(dá)負(fù)面情緒。本文獲取了“走飯”微博跟帖,在跟帖中尋找抑郁癥微博,并籍由抑郁癥微博尋找抑郁癥用戶。對(duì)于抑郁癥微博的判定,本文共邀請(qǐng)了6 位在不同行業(yè)從事心理學(xué)有關(guān)工作的專家,分別獨(dú)立地在上述獲取的微博中標(biāo)出抑郁癥微博。最終由6位專家一致認(rèn)定的,確定為抑郁癥微博。同一用戶在不同時(shí)間發(fā)布4 條以上抑郁癥微博的認(rèn)定為抑郁癥用戶。最終構(gòu)成了抑郁癥群體樣本數(shù)據(jù)集和抑郁癥群體微博樣本數(shù)據(jù)集。樣本數(shù)據(jù)集分別由8 081 名抑郁癥用戶及這些用戶發(fā)布的90 568 條微博(包含40 035 條抑郁微博和50 533 條非抑郁微博)組成,獲取的微博發(fā)布時(shí)間范圍為2014 年至2018 年,獲取時(shí)間為2019年1月。

        (2)普通大學(xué)生微博數(shù)據(jù)

        作為本文關(guān)注的大學(xué)生群體,獲取了首都8所高校的53 573 名普通大學(xué)生的微博數(shù)據(jù),考慮到研究倫理,不采集高校名稱,不采集用戶名。進(jìn)行對(duì)比分析,并用于后續(xù)篩選疑似抑郁微博的數(shù)據(jù)集,微博發(fā)布時(shí)間為2018 年11 月12 日至2018 年12 月12 日,獲取時(shí)間為2019年1月,共計(jì)701 827條微博。如表1所示。

        表1 首都8所高校微博數(shù)據(jù)情況Table 1 Weibo data of 8 universities in Beijing

        2.2 抑郁癥群體微博網(wǎng)絡(luò)行為分析

        為了研究人們?cè)谝钟舭Y的影響下發(fā)布微博的行為將發(fā)生何種變化,本文利用2.1 節(jié)所述的抑郁癥群體微博和普通大學(xué)生群體微博樣本數(shù)據(jù)集,對(duì)比了抑郁癥群體和普通大學(xué)生群體的微博數(shù)量與發(fā)布時(shí)間的關(guān)系。需要說明的是,由于普通大學(xué)生群體中有3 所高校的130 210 條微博數(shù)據(jù)時(shí)間戳受損,時(shí)間無法精確至“小時(shí)”,故將該部分微博數(shù)據(jù)舍棄,即本節(jié)利用的普通大學(xué)生群體微博樣本集共571 617條。

        (1)不同群體微博發(fā)布行為分析

        對(duì)比了抑郁癥群體和普通大學(xué)生群體的微博發(fā)布頻率和變化率與時(shí)間的關(guān)系,如圖1所示。橫軸為一天中的24 小時(shí),縱軸中微博發(fā)帖頻率指某時(shí)段發(fā)帖數(shù)與當(dāng)天總發(fā)帖數(shù)的比值。

        圖1 兩類群體發(fā)帖頻率及變化率Fig.1 Post frequency and change rate of two groups

        從圖1可見,抑郁癥群體和大學(xué)生群體微博發(fā)布頻率隨時(shí)間變化的大體趨勢(shì)相同。但是,抑郁癥群體和普通大學(xué)生群體在微博發(fā)布頻率和發(fā)帖變化率上又有所不同。從21點(diǎn)至次日8點(diǎn)左右,抑郁癥群體發(fā)帖頻率更高,而且發(fā)帖頻率處于全天的較高水平。一方面說明抑郁癥用戶在夜間和凌晨比普通大學(xué)生群體更為活躍,另一方面也說明抑郁癥用戶在夜間和凌晨也是自身最為活躍的時(shí)段。由此可見,抑郁癥群體的活躍度表現(xiàn)出明顯的“晝低夜高”現(xiàn)象。

        如圖1 所示,大學(xué)生群體發(fā)帖變化率波動(dòng)現(xiàn)象明顯,結(jié)合發(fā)帖變化率的時(shí)間分布來看,波動(dòng)現(xiàn)象基本都發(fā)生在上下課、午餐、午休、晚餐時(shí)段,說明大學(xué)生群體發(fā)帖受現(xiàn)實(shí)作息影響更為明顯,側(cè)面反映出普通大學(xué)生群體生物鐘更加規(guī)律。與之相反,抑郁癥群體的發(fā)帖變化率除了在凌晨和夜間有明顯變化外,白晝時(shí)段發(fā)帖變化率較為平緩,反映出該群體在生活中過多關(guān)注自身、不想做事、不顧飲食甚至生活被動(dòng)等現(xiàn)象,側(cè)面反映出抑郁癥群體伴隨著意志活動(dòng)減退的特點(diǎn)[15]。

        2.3 抑郁癥群體詞特征分析

        有研究表明,文檔中出現(xiàn)頻率較高的詞語,即高頻詞,在一定程度上代表了文檔的焦點(diǎn)所在[16]。本文統(tǒng)計(jì)并分析了抑郁癥群體與普通大學(xué)生群體所發(fā)微博的高頻詞及特征,了解兩類用戶的關(guān)注焦點(diǎn)。如表2 所示,本文分別列出抑郁癥群體與大學(xué)生群體所發(fā)微博排名前20的高頻詞。

        表2 抑郁癥群體和普通大學(xué)生群體高頻詞Table 2 High-frequency words in depression groups and ordinary college students

        “語言探索與字詞技術(shù)”(LIWC)廣泛應(yīng)用于研究語詞分析與心理特征的關(guān)系。本文使用簡(jiǎn)體中文版的“語言探索與字詞技術(shù)”(SC-LIWC)工具[17],對(duì)抑郁癥群體的詞特征分析如下:(1)抑郁癥群體在微博文本中使用第一人稱單數(shù)代名詞(“自己”)的頻率最高。上述現(xiàn)象表明抑郁癥群體自我意識(shí)或自我感知過強(qiáng),在社會(huì)生活中更加沉浸在自己的世界里而不愿和其他人產(chǎn)生聯(lián)系。(2)抑郁癥群體在微博文本中使用確切詞(“真的”)的頻率很高。這說明抑郁癥群患者對(duì)世界的看法更容易走極端,更容易以“非黑即白”的觀念看世界。(3)抑郁癥群體在微博文本中使用否定詞(“沒有”“不想”“可是”)的頻率也較高。這種現(xiàn)象表明該群體在社會(huì)生活中常夾帶著消極情緒,進(jìn)而他們更容易否定自己、消極看待世界以及消極對(duì)待生活。(4)除此之外,抑郁癥群體在微博文本中還廣泛的使用沒有實(shí)質(zhì)意義的功能詞和填充贅詞等,這種現(xiàn)象說明該群體存在著思維不嚴(yán)密、不清晰的問題,進(jìn)而反映出該群體猶豫、矛盾等心理特征。

        與之相反,普通大學(xué)生在微博文本中頻繁使用的詞多屬于社會(huì)歷程詞(“回復(fù)”“ 轉(zhuǎn)發(fā)”)、正向情緒詞(“哈哈哈”“喜歡”)和專有名詞(“微博”“朱一龍”“超話”“卜凡”“尤長(zhǎng)靖”“米奇”)等。這表明普通大學(xué)生更加關(guān)心外部世界、關(guān)心社會(huì)熱點(diǎn),在社會(huì)生活中也更加的與外界聯(lián)系、與他人建立互動(dòng)。這些詞語特征反映了該群體積極、樂觀等心理特點(diǎn)。

        2.4 抑郁癥群體話題分析

        有研究表明,文本的話題內(nèi)容在一定程度上反映了文本所要表達(dá)的中心思想[18]。因此,本文將提取抑郁癥群體所發(fā)微博的話題內(nèi)容,并分析其隱含的中心思想。

        利用LDA[19]對(duì)抑郁癥群體進(jìn)行話題建模,話題數(shù)量設(shè)置為20。結(jié)果表明多數(shù)話題反映了抑郁癥患者存在精神性—情感障礙、軀體性障礙、精神運(yùn)動(dòng)性障礙和心理障礙四個(gè)方面的問題。而上述內(nèi)容與SDS 等抑郁評(píng)測(cè)問卷所涵蓋的四個(gè)維度高度一致。本文選取了其中5個(gè)話題進(jìn)行分析,如表3所示。

        表3 選取的抑郁癥群體5個(gè)話題及其主題詞Table 3 5 topics and key words of selected depression groups

        話題1孤獨(dú)的話題。抑郁癥患者內(nèi)心孤獨(dú),感覺沒有與自己能夠說知心話的對(duì)象??蓺w為抑郁的精神性—情感障礙。話題2 選擇死亡的忐忑不安心理的話題。這可能與嚴(yán)重抑郁癥患者長(zhǎng)期受病癥的折磨,希望解脫但又害怕死亡,于是更希望自己在一場(chǎng)意外中突然結(jié)束生命的心理有關(guān)。這是嚴(yán)重抑郁癥患者典型的心理癥狀,可歸為抑郁的心理性障礙。話題3厭惡自己的話題。覺得自己是廢物,是垃圾,感到自己沒有用,可有可無,這是抑郁癥患者典型癥狀,可歸為精神運(yùn)動(dòng)性障礙。話題4 睡眠障礙的話題。失眠是抑郁癥患者典型癥狀,可歸為抑郁的軀體性障礙。話題5鼓勵(lì)自己堅(jiān)持下去的話題。這可能與抑郁癥患者在與抑郁病癥做斗爭(zhēng),接受治療過程中展示出的正向積極的一面,給自己加油,鼓勵(lì)自己有關(guān)。除了話題5,還有些話題也反映了抑郁癥治療以及抑郁患者社會(huì)支持等積極的話題,而這些話題在測(cè)評(píng)問卷中不會(huì)體現(xiàn)出來,可以看作是微博文本區(qū)別于問卷測(cè)評(píng)等傳統(tǒng)抑郁癥檢測(cè)的不同之處。

        3 基于抑郁關(guān)鍵詞和語義擴(kuò)展的大學(xué)生疑似抑郁微博初步篩選算法研究

        本算法首先建立抑郁基礎(chǔ)關(guān)鍵詞表,然后利用Word2Vec工具[20]進(jìn)一步擴(kuò)展該詞表,得到抑郁擴(kuò)展關(guān)鍵詞表,最后利用該擴(kuò)展關(guān)鍵詞表對(duì)被測(cè)微博進(jìn)行分析,繼而判斷該微博是否帶有抑郁情緒。算法的流程如圖2所示。為了找了最佳的算法,本研究采用3種不同的方法建立抑郁基礎(chǔ)關(guān)鍵詞表和相應(yīng)的抑郁擴(kuò)展關(guān)鍵詞表,進(jìn)行對(duì)比。

        圖2 篩選算法流程Fig.2 Identify algorithm steps

        3.1 抑郁基礎(chǔ)關(guān)鍵詞表的生成

        方法1 SDS問卷分詞法,指的是利用“jieba”文本分詞工具對(duì)抑郁癥自評(píng)量表(SDS)進(jìn)行分詞處理,并將分詞結(jié)果作為抑郁基礎(chǔ)關(guān)鍵詞表的方法。先將SDS 量表中一半表征正向情緒的項(xiàng)目轉(zhuǎn)化為表征負(fù)向情緒的項(xiàng)目,然后對(duì)所有項(xiàng)目進(jìn)行分詞并去除其中的主語和語氣詞等詞匯,得到47 個(gè)詞組成的詞表(如:感到、情緒、沮喪、郁悶、早晨、心情、哭……)。

        方法2 專家詞法,指的是利用頭腦風(fēng)暴方法由若干專家運(yùn)用研究經(jīng)驗(yàn)基于精神性—情感障礙、軀體性障礙、精神運(yùn)動(dòng)性障礙和心理行為障礙四個(gè)維度開展頭腦風(fēng)暴,得到抑郁基礎(chǔ)關(guān)鍵詞表,由238 個(gè)詞組成(如:情緒低落、沮喪、抑郁、悶悶不樂、失眠、易醒、噩夢(mèng)、孤獨(dú)、晝重夜輕……)。

        方法3 綜合詞法,綜合詞法的抑郁基礎(chǔ)關(guān)鍵詞表與專家詞法相同,然后按照3.2 節(jié)的方法對(duì)基礎(chǔ)詞表進(jìn)行擴(kuò)展,形成抑郁擴(kuò)展關(guān)鍵詞表。

        3.2 Word2Vec 語義擴(kuò)展和抑郁擴(kuò)展關(guān)鍵詞表的生成

        Word2Vec 語義擴(kuò)展的方法如下:將上一步抑郁基礎(chǔ)關(guān)鍵詞表的每個(gè)詞分別與詞典中的所有詞計(jì)算余弦相似度,取相似度最大的前10 個(gè)詞作為該詞的近義詞。這樣對(duì)基礎(chǔ)關(guān)鍵詞表中的每個(gè)詞都能篩選與其近義的10個(gè)詞,去重,然后人工去掉其中與抑郁不相關(guān)的詞或者不符合實(shí)驗(yàn)要求的詞,如英文詞和編碼,得到抑郁擴(kuò)展關(guān)鍵詞表。實(shí)驗(yàn)時(shí)調(diào)用了python synonyms 包,synonyms 使用wikidata-corpus 訓(xùn)練的詞向量生成近義詞表。

        需要說明的是,綜合詞法得到的抑郁擴(kuò)展關(guān)鍵詞表是在專家詞法抑郁擴(kuò)展關(guān)鍵詞基礎(chǔ)上加入與抑郁癥有關(guān)的藥品名生成的詞表。本研究遍列了當(dāng)前市場(chǎng)上治療抑郁癥的所有藥品的化學(xué)名稱和商品名稱,如:阿戈美拉汀、阿莫沙平、百適可、百憂解、苯乙肼、彼邁樂、丙咪嗪、曲唑酮……等74個(gè)。3種基礎(chǔ)詞表法擴(kuò)展后得到的抑郁關(guān)鍵詞表分別有392、474、548個(gè)。

        3.3 相似度分析

        以2.1 節(jié)中普通大學(xué)生微博數(shù)據(jù)為樣本,抑郁篩選首先要對(duì)微博做諸如刪除語氣詞、分詞等預(yù)處理,之后再展開相似度分析。相似度計(jì)算的做法是將每條微博分詞為A1,A2,…,Am,每個(gè)分詞與抑郁擴(kuò)展關(guān)鍵詞表的詞向量K1,K2,…,Kn一一求余弦相似度,將最大的余弦相似度值作為該分詞與抑郁癥的相關(guān)度。舉例:微博分詞A1,依次求A1與K1,K2,…,Kn等n個(gè)詞的余弦相似度,將n個(gè)余弦相似度中最大的那個(gè)作為該詞與抑郁癥的相關(guān)度。疑似抑郁微博篩選標(biāo)準(zhǔn)為:將微博分詞A1,A2,…,Am與抑郁關(guān)鍵詞表相似度最大的前3個(gè)求平均值(經(jīng)人工多次測(cè)驗(yàn),3個(gè)的效果比較好),若平均值大于95%,則認(rèn)為該微博與抑郁相關(guān)。若微博中的分詞數(shù)不足3個(gè),則對(duì)所有詞求其平均值。

        相似度分析算法偽代碼如下:

        4 實(shí)驗(yàn)結(jié)果分析

        4.1 篩選有效性分析

        由于專家詞法和綜合詞法相比只是沒有藥品的專有名詞,所以為了確定最優(yōu)方法,無需對(duì)3 種算法兩兩進(jìn)行對(duì)比,只需先對(duì)比分析SDS問卷分詞法和綜合詞法在篩選疑似抑郁微博上的性能,然后再對(duì)比綜合詞法的藥品專有名詞相比專家詞法多篩選出的微博即可。本文分別從SDS 問卷分詞法和綜合詞法兩種算法的微博篩選結(jié)果中隨機(jī)抽取2%,并交由專家判定篩選結(jié)果是否有效。SDS 問卷分詞法與綜合詞法的專家評(píng)定結(jié)果如表4所示。

        表4 篩選算法專家評(píng)定結(jié)果Table 4 Expert evaluation results of screening algorithm

        綜合詞法和專家詞法對(duì)比,有如下5條微博是被綜合詞法篩選出來而未被專家詞法篩選的。

        (1)有什么清熱降火排毒的食物嗎最近太暴躁了黃臉婆本人;

        (2)原來情緒低落和不開心不一樣;

        (3)哈佛腦科學(xué)家:學(xué)習(xí)不好,情緒低落,比吃藥更管用的方法是……

        (4)[抱抱]我最近也是,時(shí)常情緒低落難以控制;

        (5)【一夜“爆紅”的芬太尼,黑天鵝又至,人福醫(yī)藥和恩華藥業(yè)是否面臨風(fēng)險(xiǎn)?】在周日的清晨,芬太尼意外成為12月最強(qiáng)市場(chǎng)焦點(diǎn)。如果說之前數(shù)次美國和加拿大抗議芬太尼并未能引起國內(nèi)投資人的注意,那么今天C位出道的芬太尼必將被一再科普。從北美市場(chǎng)來看,芬太尼的兇猛與危險(xiǎn)已經(jīng)被上升到“鴉片”戰(zhàn)爭(zhēng)。

        以上5條可見,雖然綜合詞法相比于專家詞法增加了一定噪聲,如(1)、(5)條,但是(2)、(3)、(4)條都帶有負(fù)面情緒。

        綜上,3種算法對(duì)比,綜合詞法在篩選疑似抑郁微博的性能上表現(xiàn)最好。綜合詞法相比與專家詞法雖然在引入藥品名這一維度后會(huì)引入一定噪聲,增加了誤識(shí)率,但是其能夠篩選到專家詞法遺漏的疑似抑郁微博,而且擴(kuò)大樣本集范圍后,更有可能直接篩選出在微博中符合治療抑郁癥藥品的有關(guān)微博。

        4.2 篩選出的疑似抑郁微博詞特征分析

        對(duì)于綜合詞法篩選出的疑似抑郁微博,使用與2.3節(jié)同樣的方法進(jìn)行詞特征分析。

        如表5所示,前20個(gè)高頻詞有如下特征:(1)疑似抑郁微博中使用悲傷詞、否定詞、生氣詞等負(fù)向情緒詞,感知?dú)v程詞,確切詞,第一人稱單數(shù)代名詞、因果詞等頻率較高,占前20個(gè)高頻詞的80%,這種現(xiàn)象表明該群體自我意識(shí)較強(qiáng),容易以“非黑即白”的觀念看世界,并且在現(xiàn)實(shí)生活中常夾帶著消極情緒,進(jìn)而他們更容易否定自己、消極看待世界以及消極對(duì)待生活。這些用詞特征與抑郁癥群體特點(diǎn)高度相似。(2)但是疑似抑郁微博中也存在使用偏好詞、攝食詞、生活詞、動(dòng)詞等表征該群體關(guān)注外部世界的詞語的現(xiàn)象。由此可見,利用綜合抑郁關(guān)鍵詞法能夠有效地從大學(xué)生群體中篩選出疑似抑郁微博。

        表5 疑似抑郁微博高頻詞特征Table 5 Characteristics of high frequency words in suspected Weibo depression

        4.3 篩選出的疑似抑郁微博話題分析

        對(duì)于綜合詞法篩選出的疑似抑郁微博,使用與2.4節(jié)同樣的方法進(jìn)行微博話題的分析。在分出的20個(gè)話題中,有14個(gè)與抑郁相關(guān)的話題,占比達(dá)到了70%。舉例如表6所示??梢?,通過話題分析也驗(yàn)證了該算法對(duì)初步篩選出疑似抑郁微博有一定有效性。

        表6 選取的疑似抑郁微博5個(gè)話題及其主題詞Table 6 Selected 5 topics of suspected Weibo depression and their subject words

        話題1 關(guān)于感到無聊發(fā)泄負(fù)面情緒的話題。

        話題2 關(guān)于晚上做噩夢(mèng)的話題。

        話題3 關(guān)于恐懼自卑的話題。

        話題4 關(guān)于迷茫的話題。

        話題5 關(guān)于失戀分手的話題。

        4.4 算法優(yōu)化探討

        提出的綜合詞法雖然有效,有助于減少專家標(biāo)注工作量,提高標(biāo)注效率,但是篩選準(zhǔn)確率只有65.7%。為了今后改進(jìn)算法,提高準(zhǔn)確率,對(duì)識(shí)別錯(cuò)誤進(jìn)行了分析,把錯(cuò)誤識(shí)別分為漏識(shí)別和誤識(shí)別兩種情況,針對(duì)漏識(shí)別和誤識(shí)別的微博分別進(jìn)行了樣例分析。結(jié)果如下:

        漏識(shí)別(第一種識(shí)別錯(cuò)誤)樣例:這幾年,健康不佳,睡眠煎熬,心情也不好,一路走來實(shí)屬不易。希望年底許愿,明年有起色。該樣例為漏識(shí)別樣例。在該樣例中,用戶同時(shí)表達(dá)了身體不適和情緒不佳的癥狀,符合抑郁癥生理和心理皆出現(xiàn)負(fù)面癥狀的特點(diǎn),但該算法并未將該樣例識(shí)別。該樣例未識(shí)別的原因在于分詞特征不足,分詞過于細(xì)化使得“不好”“不佳”等形容詞并未與之前的名詞結(jié)合起來,使得整個(gè)文本的相關(guān)度低于閾值。

        對(duì)于第一種識(shí)別錯(cuò)誤,今后改進(jìn)算法時(shí),可增加分詞特征。在模型中增加分詞特征可以使得模型對(duì)于多個(gè)詞連接成的合成詞進(jìn)行識(shí)別,并更準(zhǔn)確地計(jì)算文本的相關(guān)度。

        誤識(shí)別樣例(第二種識(shí)別錯(cuò)誤):小朋友看了綜藝真是哭得超級(jí)慘[笑cry]感受到了對(duì)維他命老師深深的喜愛[笑cry]。該樣例為誤識(shí)別樣例。在該樣例中,由于模型識(shí)別到了如“哭”“cry”“慘”這樣的詞,導(dǎo)致該文本被識(shí)別了出來。

        對(duì)于第二種識(shí)別錯(cuò)誤,今后改進(jìn)算法時(shí),可使用能夠?qū)⑽谋局性~匯的上下文加入計(jì)算的模型。中文中有些詞在不同的語境下可能表示了不同的意思,如“哭”表示了負(fù)面情緒,“笑哭”表示比“笑”更強(qiáng)烈的正面情緒,“笑著笑著就哭了”又表示了負(fù)面情緒?,F(xiàn)有已獲得特定詞向量的語料庫無法解決這種與上下文有關(guān)的情感分析問題,因此在進(jìn)一步的研究中,應(yīng)該著手于使用能夠分析上下文語意語境的模型來進(jìn)行進(jìn)一步研究。

        5 結(jié)論

        構(gòu)建了抑郁癥群體樣本數(shù)據(jù)集和抑郁癥群體微博樣本數(shù)據(jù)集,采集了普通大學(xué)生微博數(shù)據(jù)。以此分析并總結(jié)了抑郁癥群體發(fā)布微博的網(wǎng)絡(luò)行為、文本語義(詞和話題)等社交網(wǎng)絡(luò)行為特點(diǎn)。依據(jù)這些特點(diǎn),綜合專家智慧,并運(yùn)用Word2Vec 工具建立了抑郁癥擴(kuò)展關(guān)鍵詞表,該詞表為研究提出疑似抑郁微博初步篩選算法提供了支持。

        提出基于抑郁關(guān)鍵詞和語義擴(kuò)展的大學(xué)生疑似抑郁微博初步篩選算法,篩選準(zhǔn)確率為65.7%。雖然準(zhǔn)確率還不是很高,但達(dá)到了快速地從海量大學(xué)生微博中篩選帶有抑郁情緒的微博,減少專家標(biāo)注工作量,提高標(biāo)注效率,并進(jìn)一步為后續(xù)抑郁癥患者精確識(shí)別(分類問題)提供良好的數(shù)據(jù)處理基礎(chǔ)的目的。

        為提高篩選準(zhǔn)確率,分別對(duì)第一種識(shí)別錯(cuò)誤和第二種識(shí)別錯(cuò)誤進(jìn)行了分析探討,提出了未來結(jié)合語意語境分析優(yōu)化算法的思路。

        猜你喜歡
        用戶大學(xué)生分析
        隱蔽失效適航要求符合性驗(yàn)證分析
        帶父求學(xué)的大學(xué)生
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        大學(xué)生之歌
        黃河之聲(2017年14期)2017-10-11 09:03:59
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        如何獲取一億海外用戶
        讓大學(xué)生夢(mèng)想成真
        中國火炬(2013年7期)2013-07-24 14:19:23
        亚洲精品国精品久久99热| 亚洲国产欲色有一二欲色| 麻豆成人久久精品二区三区免费| 18禁止进入1000部高潮网站| 天码人妻一区二区三区| 2021国产最新在线视频一区| 亚洲在线一区二区三区| 国产亚洲自拍日本亚洲| 国产精品成人久久电影| 久久亚洲道色宗和久久| 国产精品久久婷婷六月| 欧美乱妇高清无乱码免费| 中文字幕无码日韩专区免费 | 亚洲中文欧美日韩在线| 国产黄色一区二区三区,| 国产一区二区三区四区三区| 亚洲精品无码mv在线观看| 天天澡天天揉揉AV无码人妻斩 | a级国产乱理伦片| 76少妇精品导航| 国产伪娘人妖在线观看| 麻神在线观看免费观看| 欧美成人精品午夜免费影视| 中文字幕国产91| 加勒比一区二区三区av| 亚洲av永久无码精品一福利| 亚洲国产成人va在线观看天堂| 日韩中文字幕网站| 在线播放国产自拍av| 99精品国产一区二区三区| 无码成人片一区二区三区| 女同另类专区精品女同| 极品少妇hdxx麻豆hdxx| 亚洲一区二区三区偷拍女厕| 日韩精品人妻少妇一区二区| 亚洲av精二区三区日韩| 亚洲欧洲偷自拍图片区| 久久国产精品超级碰碰热| 久久人妻一区二区三区免费 | 最近最好的中文字幕2019免费| 久久精品国产乱子伦多人|