亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于抑郁詞典的社交網絡心理障礙檢測方法

        2017-06-05 17:37:47方振宇
        電腦知識與技術 2017年7期
        關鍵詞:抑郁

        方振宇

        摘要:在中國,微博作為主流的社交媒體工具,是個人用戶發(fā)表自己意見和表達情感的一個網絡平臺。調研發(fā)現,抑郁用戶和非抑郁用戶在社交互動,語言使用,情緒表達上有著很大的不同,這也使得通過社交網絡的方式獲取數據建立預測模型成為可能。文章通過微博爬蟲的方法獲取抑郁與非抑郁用戶微博數據,基于傳統情感詞典在抑郁預測上詞語的局限性和不足,本文利用深度遍歷詞向量同義詞的方法,構建適合預測抑郁場景的抑郁詞典。結合知網情感詞典,表情符號詞典對用戶博文進行情感分析,并在此基礎上建立分類器進行用戶的抑郁預測和分類。

        關鍵詞:微博;抑郁;詞向量;分類預測

        中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2017)07-0244-04

        現代社會節(jié)奏加快,人們工作和學習的壓力都非常的大,每個人或多或少都有著心理上的問題,比如緊張,煩躁,焦慮甚至是抑郁。長期處于這種心理狀態(tài)下會影響人們的工作和生活狀態(tài),并有可能發(fā)展為精神疾病,極大影響了人們的生活質量和水平,許多人因為心理障礙產生了消極的生活態(tài)度,嚴重的心理疾病患者甚至會做出過激的行為。每年因為心理疾病死亡的人數也在不斷增加中,這更加讓我們意識到心理問題的重要性。如何鑒定自己是否有心理障礙以及如何科學的防治是一個急需解決的問題。

        心理疾病一般是慢慢積累而成,從偶爾的煩躁苦惱慢慢可以演變成頻繁的焦慮甚至是嚴重的抑郁。但是對于自己是否存在心理障礙的跡象,個人主觀一般會存在偏歧。一般情況下,心理問題的發(fā)現以及心理障礙的檢測都是采用心理問卷的形式,這種方法雖然能很有效地檢測出人們的心理障礙,但是需要患者意識到自身的心理問題進行主動的檢測,并且很多抑郁患者對于自身的心理問題存在主觀上的認知偏差,所以這種方式存在一定的局限性。

        微博作為人們發(fā)表自己意見,抒發(fā)情感的一個常用的社交媒體軟件,其文本,語音,圖片,視頻等包含了大量的語義及情感信息。通過獲取用戶的微博數據可以進行數據的分析,統計出處理所需的信息,并對這些信息用機器學習的算法進行學習,構造出關于心理障礙的分類器。利用這個分類器可以有效地鑒別出需要鑒定的用戶哪些是有心理障礙的如抑郁焦慮等,對于這些人可以建議他們去醫(yī)院做更深入的心理檢測,從而遏制心理障礙的進一步擴大以及減少不理智行為的產生。

        1相關研究

        目前國外在社交網絡和心理學統計方面已經有了很多成熟的研究和應用。麻省理工的心理學教授傾向通過TheBigFive(大五類人格特征)來描述人的人格與個性。大五類因素包括:嚴謹性、外向性、開放性、宜人性與神經質人格特質。0代表Openness to experience(開放性),C代表Conscientiousness(嚴謹性),E代表F.xtraversion(外向性),A代表Agreeableness(宜人性),N代表Neuroticism(神經質)。大五人格的研究對在心理學上研究心理障礙提供了理論支持,目前有基于大五人格的心理健康問卷供人們自我檢測心理健康狀態(tài)。

        Balani S等人采集Reddit上的用戶數據,通過進行數據分類,標簽定制,特征定義之后開發(fā)了一個基于內容特征的分類器,對reddit上的帖子進行自我表達高中低的級別判斷。并統計分析了個人自我表達的多少和心理健康狀態(tài)之間的關系。

        Choudhury M De等人采集Reddit上半匿名社區(qū)的用戶的個人信息,帖子言論信息,與其他用戶的互動信息等建立評分體系,依據評分結果建立用戶預測分類模型。模型主要預測個人用戶是否會在將來有自殺的想法或者行為。

        Q Hu等人通過調查問卷的形式獲取了心理評測人員的個人信息,并獲取他們的微博信息。提取了靜態(tài)特征以及動態(tài)特征在內的一共972個特征,經過特征分析后采用邏輯回歸的方式進行分類器的構造,并進行了用戶數據的回歸分析。

        國內研究者白朔天等人采用多任務回歸學習預測微博用戶的心理健康狀況,并且構造了抑郁與焦慮的相關度分析。何躍等人采用了分詞統計表情符號的方法,并采用SVM的方法構造情感分類器。

        總體而言,目前國外在情感分類,抑郁檢測等方面做得研究有很多,關注的心理障礙種類也很多,采用的方法都是基于機器學習的算法,分類主要集中于Facebook、Twitter以及reddit等這些社交媒體,也有Instagram上的相關研究。國內目前主要集中在微博情感分類上,但是很多都是針對微博文本本身的情感進行處理,以及針對微博文本語義上的處理,在特征的提取上多針對文本的信息,個人信息、語言行為特征等有所缺失。綜上,微博數據有著很多可以挖掘和利用的信息,在幫助研究個人心理,人際關系方面有著很大作用。本文針對多用戶的信息采集,采取多種特征的定義提取,并采用多種分類方法進行建模分析。

        2方法

        2.1數據獲取

        本文從微博上抓取了一共920位用戶的個人信息以及其微博內容。其中443位用戶是有心理障礙的患者。其余477位為沒有心理障礙的用戶。本文選擇的443位有心理障礙的用戶為正在服用治療如抑郁,焦慮等心理疾病的藥物的用戶,這類用戶已經在醫(yī)學上鑒定為具有心理障礙的患者。477位沒有心理障礙的用戶是獲取的經過心理測試未有明顯異常的學生用戶。本文采取微博爬蟲的方法獲取這些用戶微博的相關信息。

        本文所使用的微博爬蟲采用python編寫,首先模擬登陸新浪微博再根據用戶的uid獲取他們的微博內容及個人信息。獲取的網頁經過網頁解析,解析出用戶個人信息,微博文本,關注,粉絲等內容,存入數據庫。整個爬蟲工作的流程如圖1所示。

        圖1中解析數據是從htrnl中提取結構化的數據如content,userinformation等。數據清洗主要包括去除一些不重要的數據,去除冗余數據,錯誤數據等。數據庫用戶id作為主鍵存取用戶對應信息如用戶微博內容,用戶粉絲關注id等。

        2.2抑郁詞典建立

        由于中文的情感詞典包含的都是情感類詞匯,中性詞匯包含的不是很多。同時由于中文的情感詞典自身的不完整性,導致中文的情感分析類任務的實驗結果收到了很大的制約。

        大多數情感詞匯都可以在情感詞典中找到。本文目標是抑郁檢測,所以對于用戶的情感分類中,抑郁詞匯起到了有很大的作用。但是由于很多抑郁詞匯是中性詞,因此在情感詞典里并沒有這些抑郁詞匯。比如常見的一種能反映人是否有抑郁傾向的詞“失眠”,這個詞論極性而言是個中性詞,在知網的情感詞典里并沒有出現。更多的詞比如抑郁癥的一種一些軀體癥狀如“頭暈”,“神經衰弱”,“心悸”等,抑郁癥的一些行為特征如“自閉”,“疑病”,“自殘”等也沒有在情感詞典內出現。所以僅基于情感詞典構造分類預測模型肯定是不完整的,將會失去很多有用的幫助分類的信息。

        人工的構造抑郁詞匯詞典是一種解決上面問題的方法。但是由于詞匯具有同義詞,在微博場景下用戶也會使用新興的網絡詞語,所以人工構建抑郁詞典很難做到完整同時也不適用于微博場景?;谶@種問題,我們構建了抑郁用戶常見的抑郁詞匯作為基本的抑郁詞典?;镜囊钟粼~典包括抑郁軀體癥狀,抑郁行為特征一級抗抑郁藥物的名稱。下表是基本抑郁詞典的構成部分。

        本文提出了搜索詞匯上文相關詞的方法去獲取抑郁詞匯的相關詞,用深度遍歷的方法去獲取所有的基準抑郁詞匯的上下文相關詞。

        本文采用word2vec的方法獲取詞匯的上下文相關詞。處理步驟如下:

        1)采用結巴分詞將所有用戶微博分詞,去除表情符號以及標點,輸入法符號等。去除停用詞使得詞向量獲得更好的效果。

        2)利用word2vec訓練微博語料,獲得每一個詞的詞向量表示。

        3)計算詞與詞之間的相似度,來獲得基本抑郁詞典內詞匯的相關詞。

        詞向量相關度的計算利用的是詞向量之間的距離,這個距離可以用歐式距離計算也可以用兩個向量之間夾角的cosine值來表示。

        本文采取向量問的cosine值來計算兩個向量間的距離。向量間的距離間接的可以反映兩個向量的相似度。公式如下所示:

        (1)

        抑郁詞典擴充的處理方法如下:

        1)用word2vec獲取每一個詞的詞向量表示

        2)對于基準抑郁詞典內的詞W。從獲取的微博語料中搜尋w的相關詞,選取相似度前40的詞作為w的相關詞庫,并記為Sw。對于Sw中的相關詞,它的同義詞庫記為S。

        3)對于i從1到40。如果si在基礎抑郁詞庫內出現或在情感詞典里出現,則從Sw內移除si;否則轉4。

        4)如果si與W之間的距離小于0.4,則從Ss內移除si。否則保存si。如果W不在si的前40個相關詞中,則移除si,否則保存該詞。i值加1,轉3。i值遍歷完,轉5.

        5)S加入到基礎抑郁詞典內,并且里面的詞作為新的種子詞。

        我們在選取相關詞時,只選取前40個詞,并且判斷該詞是否與它的相關詞互為相關詞,如果不是則去掉。同時設置閾值來進一步過濾不相關詞匯。兩個詞之間如果距離小于0.4,基本上已經不是我們需要的詞匯了,盡管可能還有一點語義的關聯性。閾值的設立為了避免結果中出現大量的不相關詞匯。雖然經過了篩選,但是結果中還是會有很多錯誤詞匯和不相關詞匯。

        為了去除不相關詞匯,保證獲得詞匯的質量,本文進行了人工的篩選,將所有不屬于抑郁詞匯類別的以及一些錯誤詞匯進行刪除。最終從獲取的相關詞匯中選取了994個從微博語料中學習到的抑郁詞匯,并將它們構建成了抑郁詞典。

        2.3特征提取

        2.3.1個人信息特征

        本文特征提取主要獲取用戶兩方面特征,包括個人信息特征和語言特征。個人信息特征包括用戶的性別,年齡,是否已婚,粉絲數,關注數等用戶的個人信息。有些特征如轉發(fā)數,評論數,點贊數等是體現個人用戶的社交習慣,與他人互動交流的情況。一些特征如發(fā)表微博時間,發(fā)表微博數量則是體現用戶活躍程度,挖掘這些特征可以發(fā)現用戶的一些性格特征比如是否內向,是否孤僻等??傊畟€人信息特征包含了很多用戶的心理信息,提取這些特征可以有效地提高分類模型的分類效果。個人信息特征見表2所列。

        表2只列取了一部分個人信息特征,還包括用戶個人隱私設置如是否可以評論,是否屏蔽消息等。

        2.3.2語言特征

        語言特征是指微博文本的包含情感內容的特征比如情感詞典中詞語的詞頻,詞性,表情符號的頻率等。統計語言特征的情感詞是基于情感詞典實現,本文選用了HowNet和NTUSD作為情感詞典。此外本文還收集了微博上的表情符號特征,建立了表情符號詞典。表情符號特征通過文本表示。

        2.3.3特征權重

        本文采用TF-IDF們的方式統計詞的權重。TF-IDF方法可以反映出詞語在文檔中的重要程度,其中"IF表示詞頻,IDF表示逆向文件頻率。根據TF-IDF可得,用戶a的某個詞i的詞頻可以表示為;

        (2)

        其中,ni為詞i的在用戶微博中出現次數,分母為所有詞的詞數之和。用戶n的詞語i的逆向文件頻率可以表示為:

        (3)

        (3)式中N表示所有的用戶文檔數,mi表示詞語i所出現過的文檔數。則用戶a的詞語i的權重可以表示為;

        (4)

        本文分詞采用的是ICTCLAS分詞包,去除了如逗號,句號,頓號等標點符號,去除了停用詞如“的”,“地”,“在”等詞語。

        2.4特征簡化

        2.4.1歸一化

        為了消除不同變量量綱之間不一致帶來的影響,加快機器學習算法分類速度,本文采用了歸一化處理的方法,將特征映射到一個區(qū)間:

        (5)

        (5)式將數據映射到區(qū)間[0,1]之間。

        2.4.2特征選擇

        由于詞典內的詞語較多,從而獲取的語言特征向量維數較大,在后續(xù)的分類模型設計過程中,過大的特征維數可能會影響分類效果,并有過擬合的情況產生。因此本文從以下三個方面進行特征選擇;

        (1)去除特征列全為0或大部分為0的數據以及經過權重計算后權重較小的詞語的特征。

        (2)采用卡方檢驗[]的方法進行特征選取,卡方檢驗主要通過賦予特征權重來表示特征與類別間的相關度,通過定義閾值篩選特征權值,選取排名靠前的特征。

        3分類預測模型的建立

        3.1評價標準

        提取特征后將特征矩陣利用機器學習的算法進行建??梢垣@得分類預測的模型。本文采用精確率(Precision),召回率(Recall),F1值作為判定分類器分類效果好壞的指標,即

        (6)

        (7)

        (8)

        其中TP為P個標簽為1的樣本里,TP個被分類器判定為1的樣本數;FP為標簽為O的樣本被判定為1的個數;FN為標簽為1的樣本被判定為0的個數。

        3.2構造分類器

        為了減少分類可能產生的過擬合以及充分利用數據集,本文采用十折交叉的方法獲取實驗的分類結果,并求取均值作為最終的實驗結果。十折交叉法是指將處理好的特征文本劃分為10份,每次選其中9份作為訓練集剩下的1份作為測試集??偣蔡幚硎?,將每一次分類器訓練得到的精確率,召回率和n值的均值作為該分類器的最終結果。

        本文采用神經網絡,支持向量機以及邏輯回歸的方法進行分類預測,并計算出了三種方法的分類結果。

        本文基于擴展的抑郁詞典的方法,在F1值最高達到了83.369%。由于F1綜合考慮了召回率以及準確率,所以綜合考慮,SVM獲得了最好的分類效果。本文選取SVM作為抑郁分類的分類算法。

        基于本文構造的模型,對于待識別用戶進行檢測,如果該用戶分類結果為消極則表示該用戶可能存在心理障礙,因而可以聯系這些用戶建議他們去醫(yī)院做跟深入的心理檢測,從而減少用戶心理障礙的發(fā)生以及幫助有心理障礙的用戶更早接受治療。

        4結論

        本文針對微博用戶可能存在心理健康問題的情況,通過使用爬蟲獲取微博用戶信息及微博文本,進行特征分析及提取,利用SVM以及邏輯回歸,神經網絡的方法建立分類器模型,對未知用戶進行分類預測。本文根據詞向量間距離從獲取的微博語料中挖掘了種子抑郁詞匯的相關詞,并根據這些相關詞建立了分類用的抑郁詞典。實驗結果表明上述的方法是可行的,對于有心理障礙的用戶有著良好的分類效果。當然可以通過改進分類模型獲得更好的分類預測效果,比如采集更多的用戶數據,獲取更細致的特征,更精確的特征選取等,同時也可以嘗試其他的分類方法。這是未來需要進行改進的地方以及努力的方向。

        猜你喜歡
        抑郁
        趕走青春期的小“抑郁”
        偏癱患者應用綜合性神經康復治療的效果解析
        接納與承諾療法干預青少年正畸依從性的臨床研究
        過半帕金森病會和“抑郁”相伴
        個體化心理干預對妊娠嘔吐孕婦焦慮抑郁的影響
        今日健康(2016年12期)2016-11-17 14:41:27
        護理干預對突發(fā)性耳聾患者的影響
        今日健康(2016年12期)2016-11-17 13:41:00
        產前個性化心理護理對初產婦焦慮、抑郁心理及分娩方式的影響
        社區(qū)中醫(yī)干預初產婦產后焦慮及抑郁的效果
        社區(qū)在冊糖尿病患者的生活質量及影響因素分析
        日本免费一区二区久久久| 欧美色欧美亚洲另类二区| 亚洲午夜久久久久久久久电影网| 又粗又硬又大又爽免费视频播放| 一本大道久久香蕉成人网| 最新国产日韩AV线| 中文字幕亚洲精品码专区| 亚洲av色香蕉第一区二区三区| 中文字幕亚洲高清精品一区在线| 亚洲成人一区二区三区不卡| 日韩精品一区二区在线天天狠天| 亚洲狠狠婷婷综合久久久久| 国产一区二区三区乱码| 亚洲av日韩av高潮潮喷无码| 国产亚洲第一精品| 日本女同伦理片在线观看| 亚洲综合小综合中文字幕| 视频一区视频二区制服丝袜| 免费人妻精品一区二区三区| 国产真实夫妇视频| 国产色秀视频在线播放| 日韩中文字幕欧美亚洲第一区| 国产男女做爰猛烈视频网站| 人妻少妇精品专区性色anvn| 国产日韩精品suv| 桃花影院理论片在线| 少妇被粗大的猛进69视频| 亚洲国产另类久久久精品小说| 97国产精品麻豆性色| 青青草大香蕉视频在线观看| 97碰碰碰人妻无码视频| 欧美日韩中文国产一区发布 | av一区无码不卡毛片| 亚洲无人区乱码中文字幕| 好吊妞视频这里有精品| 国产成a人亚洲精v品无码性色| 国产91网| 成a人片亚洲日本久久| 丝袜美腿在线观看一区| 狠狠噜天天噜日日噜视频麻豆| 久久无码人妻一区二区三区午夜 |