亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

<strike id="oawgy"><menu id="oawgy"></menu></strike>

<strike id="oawgy"><input id="oawgy"></input></strike>

<strike id="oawgy"></strike>

<strike id="oawgy"><menu id="oawgy"></menu></strike>

?

基于詞向量的多維度正則化SVM社交網(wǎng)絡(luò)抑郁傾向檢測方法

2022-03-18 06:17:46賈寶龍杜依寧

計算機應(yīng)用與軟件 2022年3期

關(guān)鍵詞：博文分詞準(zhǔn)確率

王垚賈寶龍杜依寧張晗陳響

(北京世相科技文化有限公司北京 100102)

0 引言

微博是一種開放化的互聯(lián)網(wǎng)社交服務(wù)，人們可以通過微博分享自己的心情、經(jīng)歷或故事。微博提供的評論、超級話題等功能，使人們能快速找到志同道合的朋友。海量的微博文本中蘊含著大量的情感。微博的文本內(nèi)容成為抑郁傾向檢測的主要數(shù)據(jù)來源之一。

國內(nèi)外對于社交媒體文本內(nèi)容的情感分析方法主要包括統(tǒng)計學(xué)方法和機器學(xué)習(xí)方法。統(tǒng)計學(xué)方法通過統(tǒng)計高頻詞，構(gòu)建情感詞典來分析文本內(nèi)容的情感傾向。高一虹等[1]基于數(shù)據(jù)統(tǒng)計來分析抑郁癥患者在現(xiàn)實生活中和社交媒體上的表現(xiàn)，發(fā)現(xiàn)抑郁癥患者在社交媒體上發(fā)微博的頻率更高，微博的文本內(nèi)容中的負(fù)向情感更明顯。林曄[2]對當(dāng)時引起巨大轟動的“走飯”和“醒醒我們回家了”兩個微博賬號進行了統(tǒng)計分析，發(fā)現(xiàn)在實施自殺前，抑郁患者會反復(fù)、頻繁地表達(dá)自己的抑郁、痛苦和自殺意圖，糾結(jié)于生死之間。雖然基于統(tǒng)計的方法能夠一定程度上分析出微博用戶的情感，但是忽略了用戶信息，并且過分依賴分詞的好壞，因此不能準(zhǔn)確地評價用戶的抑郁傾向。

基于機器學(xué)習(xí)的方法是通過將微博文本、博主簡介和博主標(biāo)簽等特征抽象為向量，構(gòu)建分類器進行訓(xùn)練。施志偉等[3]通過問卷調(diào)查得到有抑郁傾向的用戶，獲取他們的微博文本數(shù)據(jù)，使用支持向量機模型進行有監(jiān)督學(xué)習(xí)，準(zhǔn)確率達(dá)到82.35%。但是其訓(xùn)練數(shù)據(jù)單一，只考慮了微博文本的內(nèi)容，沒有考慮發(fā)博人的性別、情感等因素。為了考慮更多的有效信息，Peng等[7]增加了發(fā)博人簡介、發(fā)博人行為等特征，對比了傳統(tǒng)支持向量機、樸素貝葉斯、決策樹和K-近鄰等算法后，提出一種多元支持向量機模型，準(zhǔn)確率達(dá)到了83.5%，明顯高于其他幾種分類算法，但由于數(shù)據(jù)量較少，模型的泛化能力不足。Hao等[8]提出了一種基于兩種分類器的檢測方法，首先訓(xùn)練樸素貝葉斯分類器，并生成一個抑郁患者的常用詞詞典，然后使用線性分類器加入更多的特征，得到了準(zhǔn)確率較高的分類器。方振宇[9]提出了基于Word2vec詞向量的神經(jīng)網(wǎng)絡(luò)分類模型，將用戶情緒向量與微博內(nèi)容向量進行拼接作為用戶特征向量，準(zhǔn)確率達(dá)到了86.5%，但是忽略了用戶的個人屬性信息。為了解決上述存在的問題，本文在使用微博文本作為樣本特征的基礎(chǔ)上，將用戶的情感、性別和發(fā)博頻率融入到SVM的目標(biāo)函數(shù)中，提出了一種基于詞向量的多維度正則化SVM的社交網(wǎng)絡(luò)抑郁傾向檢測方法，并通過多組對比實驗驗證了該方法的有效性。

1 相關(guān)工作

1.1 抑郁癥

抑郁癥[11]是一種心理障礙或情感障礙，是最常見的精神疾病之一，主要表現(xiàn)為興趣減退、認(rèn)知功能受損和情緒紊亂。據(jù)統(tǒng)計，抑郁癥患者的終身患病率為13.2%[12]，大約有25%的女性患過抑郁癥，大約有10%的男性患過抑郁癥[13]。由于基層醫(yī)療機構(gòu)對抑郁癥的認(rèn)識不充分，仍存在著普遍的一高兩低現(xiàn)象，即高患病率、低診斷率、低治愈率。

1.2 數(shù)據(jù)的收集

使用的數(shù)據(jù)來自新浪微博，選擇352位有明顯抑郁傾向的博主的35 962條微博文本作為正數(shù)據(jù)，323位非抑郁癥患者博主的72 697條微博文本作為負(fù)數(shù)據(jù)。篩選后得到28 654條微博文本的正數(shù)據(jù)，58 569條微博文本的負(fù)數(shù)據(jù)。經(jīng)過3位心理學(xué)系的碩士研究生進行交叉檢驗，僅有10位用戶存在爭議，說明數(shù)據(jù)的可信度較高。

1.3 數(shù)據(jù)的清洗

微博內(nèi)容數(shù)據(jù)形式多樣，包含大量“臟”數(shù)據(jù)，所以需要對數(shù)據(jù)進行清洗，通過人工觀察或統(tǒng)計發(fā)現(xiàn)主要有以下形式的“臟”數(shù)據(jù):(1) 非文本信息(圖片和視頻等)；(2) 廣告數(shù)據(jù)以及非原創(chuàng)數(shù)據(jù)(文本中包括投票、打榜、影響力和人氣演員等)；(3) 部分干擾字符(@xxx，#xxx超話#等)；(4) 長度小于7個字的微博文本；(5) 不規(guī)范表達(dá)方式(emoji表情、顏文字等)。

清洗前和清洗后的數(shù)據(jù)如表1所示。

表1 數(shù)據(jù)展示

2 抑郁傾向檢測方法

本文提出的抑郁傾向檢測方法主要包括兩部分，分別為構(gòu)建用戶向量、構(gòu)建多維度正則化SVM，如圖1所示。

圖1 多維度正則化SVM檢測模型

首先，微博文本的向量化主要包括：(1) 對微博文本的分詞；(2) 獲取每個詞語的騰訊詞向量；(3) 將詞向量進行特征加權(quán)計算句向量；(4) 根據(jù)句向量構(gòu)建用戶向量。然后，進行多維度正則化SVM的有監(jiān)督學(xué)習(xí)。

2.1 構(gòu)建用戶向量

2.1.1分詞與詞向量

騰訊詞向量是騰訊AI實驗室在2018年開源的一個大規(guī)模、高質(zhì)量的中文詞向量數(shù)據(jù)集。該數(shù)據(jù)集在多個方面較現(xiàn)有公開數(shù)據(jù)集均有改善。在覆蓋率上，該數(shù)據(jù)集包含了超過800萬的中文詞匯，覆蓋了更多的短語，包含了近兩年的網(wǎng)絡(luò)用語。在準(zhǔn)確性上，該訓(xùn)練算法使用的是騰訊自研的Directional Skip-Gram(DSG)算法[14]，它改進了被廣泛使用的如Word2vec詞向量模型中的詞向量訓(xùn)練算法Skip-Gram(SG)[15]，在文本窗口中詞對共現(xiàn)關(guān)系的基礎(chǔ)上，加入了詞對的相對位置的考量，以此提高詞向量語義表示的準(zhǔn)確性。所以用它來作為微博內(nèi)容分詞后每個詞的詞向量[18]是合理有效的。

由于微博文本包含大量網(wǎng)絡(luò)用語，而百度分詞比較善于針對網(wǎng)絡(luò)文本進行分詞，同時也能通過構(gòu)建自定義詞典提高特殊詞匯的分詞效果，所以，首先利用百度分詞API進行分詞，然后獲得對應(yīng)的騰訊詞向量。對于騰訊詞向量庫中不存在的抑郁詞，則選擇騰訊詞向量庫中與其最相近的詞作為替代。對于不在抑郁詞典中且騰訊詞向量未收錄的詞語，將其賦值為0向量，便于之后的計算。

2.1.2構(gòu)建微博文本向量

首先使用TF-IDF[19]進行特征加權(quán)。特征權(quán)重Wij的計算式為：

Wij=TFij·IDFij

(1)

式中：TFij表示特征詞ωi在文本dj中出現(xiàn)的次數(shù)，IDFij表示特征詞ωi的逆文檔頻率。為了能夠一定程度上增強抑郁詞權(quán)重，IDFij通過大規(guī)模的微博文本數(shù)據(jù)集計算。

為了提升抑郁詞對于整條微博文本的影響，賦予抑郁詞相對較大的權(quán)重值，賦予非抑郁詞權(quán)重1。即加權(quán)后的詞向量表示為：

Vi=TVi·Wij·Wd

(2)

式中：TVi表示該詞的騰訊詞向量，Wij表示該詞的TF-IDF值，Wd表示該詞的抑郁詞權(quán)重。

2.1.3構(gòu)建用戶向量

根據(jù)2.1.2節(jié)得到的加權(quán)詞向量，通過對應(yīng)維度求均值的方式計算整條微博文本的向量表示，該向量表示為：

cd=(xd1,xd2,…,xdt)

(3)

式中：xd1表示當(dāng)前文本中所有詞向量第1維的均值。因為騰訊詞向量的緯度是200，所以由此得出的文本向量也是200維，進而可得到用戶的矩陣表示為：

(4)

式中：n表示用戶的微博總條數(shù)。最后，通過將矩陣Mi按行求均值得到用戶的向量。

2.2 多維度正則化

支持向量機[20]是一種優(yōu)秀的機器學(xué)習(xí)分類模型，在面對非線性以及高維度分類問題上，效果比其他二分類方法更好，因為SVM能夠接受高維特征空間和稀疏特征向量，所以在文本分類上有很好的效果。面對微博文本分類這個非線性問題，直接利用線性化的SVM是無法分類的，所以將決策函數(shù)的限制條件進行一定的放松，使它對于一些異常或極端樣本點有一定容錯空間，SVM模型表示為：

yi·[(WT·xi)+b]≥1-ξi1≤i≤N,ξ≥0

(5)

(6)

由于文本在經(jīng)過前期詞向量信息累加的處理后，所得到的數(shù)據(jù)的維數(shù)已經(jīng)較高，所以還需要進行變換，這也是SVM的一個優(yōu)勢，它通過構(gòu)造可以將已有數(shù)據(jù)x映射到高維空間H的映射函數(shù)，即φ(xi)。因為此類映射的維度理論上是可以無限維的，無法顯式求出，所以SVM引入核函數(shù)[21]來實現(xiàn)不需要知道映射向量就可以實現(xiàn)分類的目的。核函數(shù)形式如下：

k(xi,xj)=φ(xi)Tφ(xj)

(7)

這里通過高斯核函數(shù)實現(xiàn)同等映射:

(8)

通過將式(6)轉(zhuǎn)化為對偶問題的方式，利用KKT條件，構(gòu)造拉格朗日函數(shù)，求得最終的分類函數(shù)如下：

(9)

式中：αj是拉格朗日乘子；x表示待分類文本。

經(jīng)過前期相關(guān)研究工作，發(fā)現(xiàn)有抑郁傾向的用戶存在以下明顯特征：(1) 發(fā)微博頻率明顯高于正常用戶；(2) 有明顯消極情感；(3) 女性人數(shù)明顯高于男性用戶，比例大致為3 ∶1。因此將用戶發(fā)微博頻率、用戶文本情感和性別特征加入到目標(biāo)函數(shù)中，使SVM學(xué)習(xí)到的超平面更加準(zhǔn)確，因此在原本的目標(biāo)函數(shù)上增加一項由發(fā)微博頻率、情感和性別組成的正則項，表示為：

ωi=ωe·ei+ωs·si+ωf·fi

(10)

式中：ei表示用戶的負(fù)向情感概率；si表示用戶的性別分?jǐn)?shù)；fi表示用戶的發(fā)微博頻率分?jǐn)?shù)。因此，改進后的目標(biāo)函數(shù)為：

(11)

式中：W表示ωi的影響力權(quán)重。

3 實驗

3.1 實驗設(shè)計及評價標(biāo)準(zhǔn)

實驗包括以下四種算法：(1) 使用騰訊詞向量訓(xùn)練SVM；(2) 使用騰訊詞向量訓(xùn)練mSVM；(3) 用TF-IDF加權(quán)詞向量訓(xùn)練mSVM；(4) 使用TF-IDF和抑郁詞加權(quán)詞向量訓(xùn)練mSVM。為了便于描述，算法1用SVM表示，算法2用mSVM表示，算法3用mSVM-T表示，算法4用mSVM-TW表示。

在四種算法上進行3組對比實驗，分別為：(1) 隨著迭代次數(shù)準(zhǔn)確率的變化趨勢；(2) 隨著迭代次數(shù)召回率的變化趨勢；(3) 隨著迭代次數(shù)F1值的變化趨勢。準(zhǔn)確率、召回率和F1值的計算公式如下：

(12)

(13)

(14)

(15)

式中：TP表示真例判斷為正樣本；FP表示假例判斷為正樣本；FN表示假例判斷為負(fù)樣本；TN表示真例判斷為負(fù)樣本。

3.2 實驗結(jié)果與分析

為了能夠更準(zhǔn)確地反映四種算法的準(zhǔn)確率、召回率和F1值隨著迭代次數(shù)的變化情況，在當(dāng)前迭代次數(shù)下的準(zhǔn)確率、召回率和F1值均為獨立訓(xùn)練10次取均值。四種算法的準(zhǔn)確率隨迭代次數(shù)的變化趨勢如圖2所示。

圖2 準(zhǔn)確率變化趨勢圖

由圖2可看出，mSVM-TW在140次迭代后收斂，達(dá)到最優(yōu)值0.89±0.05。SVM和mSVM-T在170次迭代后收斂，分別達(dá)到0.83±0.05和0.82±0.05，mSVM在180次迭代后收斂，達(dá)到0.85±0.05。在收斂速度和最優(yōu)值上，mSVM-TW均明顯優(yōu)于其他三種算法，主要原因有兩點，一是輸入向量通過TF-IDF和抑郁詞加權(quán)，改變了原始數(shù)據(jù)分布，使得數(shù)據(jù)的分布對于當(dāng)前的任務(wù)更加清晰，因此更容易被分類；二是通過情感、性別和發(fā)博頻率使得目標(biāo)函數(shù)的損失變得更小，因此收斂速度更快。

召回率隨迭代次數(shù)的變化趨勢如圖3所示，從收斂速度和最優(yōu)值，mSVM-TW也明顯優(yōu)于其他三種算法。mSVM-TW的最優(yōu)召回率達(dá)到0.86±0.05。在迭代次數(shù)較低時，召回率異常偏高，甚至達(dá)到1.0。這是由于當(dāng)?shù)螖?shù)較低時，分類器處于欠擬合狀態(tài)，此時分類器將所有樣本判斷為正樣本，因此召回率會異常高。隨著迭代次數(shù)的增加，處于分類超平面較近的真負(fù)或假正樣本逐漸增多，因此召回率逐漸下降，并趨于穩(wěn)定。

圖3 召回率變化趨勢圖

F1值隨迭代次數(shù)的變化趨勢如圖4所示，從收斂速度和最優(yōu)值來看，mSVM-TW也明顯優(yōu)于其他三種算法，最優(yōu)F1值達(dá)到0.89±0.05。

圖4 F1值變化趨勢圖

綜合上述實驗結(jié)果，mSVM-TW在各評價指標(biāo)上均有較大提升，說明通過詞向量加權(quán)和多種特征的正則化能夠有效提升傳統(tǒng)SVM在抑郁傾向檢測任務(wù)上的分類性能。

4 結(jié) 語

本文提出的基于詞向量的多維度正則化SVM方法，由于在傳統(tǒng)SVM的損失函數(shù)中融入情感、性別和發(fā)微博頻率，所以在SVM的監(jiān)督學(xué)習(xí)過程中，能夠根據(jù)用戶的多種特征約束損失函數(shù)，使得學(xué)習(xí)到的分類超平面更加準(zhǔn)確，泛化能力更強。因此，對于那些文本特征不夠明顯的用戶也能較好地分類。

由于微博內(nèi)容的形式具有多樣性，除了文本，還有圖片、視頻、音頻等，所以只考慮微博的文本內(nèi)容會丟失用戶的大量有效信息。因此，下一步考慮加入用戶更多的有效信息，構(gòu)建多模態(tài)的抑郁傾向檢測模型，進一步增強模型的性能。

猜你喜歡

博文分詞準(zhǔn)確率

第一次掙錢

作文大王·低年級(2022年3期)2022-03-19 18:09:52

乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析

健康之家(2021年19期)2021-05-23 11:17:39

不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討

醫(yī)學(xué)食療與健康(2021年27期)2021-05-13 18:46:23

2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析

農(nóng)業(yè)科技與信息(2021年2期)2021-03-27 07:27:38

結(jié)巴分詞在詞云中的應(yīng)用

智富時代(2019年6期)2019-07-24 10:33:16

高速公路車牌識別標(biāo)識站準(zhǔn)確率驗證法

中國交通信息化(2018年5期)2018-08-21 03:37:40

小學(xué)生作文·小學(xué)低年級適用(2018年12期)2018-04-11 03:10:42

值得重視的分詞的特殊用法

高中生·天天向上(2016年9期)2016-11-22 09:10:34

Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut

校園英語·下旬(2016年2期)2016-03-18 10:23:20

快樂作文·低年級(2014年10期)2015-01-14 23:43:55

計算機應(yīng)用與軟件2022年3期

計算機應(yīng)用與軟件的其它文章: 投稿須知; 概念格的對象漸減更新算法; 面向社交群問答對獲取的深度學(xué)習(xí)模型; 輪式機器人分?jǐn)?shù)階滑模內(nèi)模速度控制器設(shè)計; 基于輕量級神經(jīng)網(wǎng)絡(luò)的白盒攻防研究; 工業(yè)物聯(lián)網(wǎng)中基于PUFs輕量級的密鑰交換協(xié)議研究

感谢您访问我们的网站，您可能还对以下资源感兴趣：

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

亚洲av中文字字幕乱码软件 | 国产毛片网| 天堂AV无码AV毛片毛| 国产日产免费在线视频| 亚洲国产成人va在线观看天堂| 亚洲熟女少妇精品综合| 真人做爰试看120秒| 让少妇高潮无乱码高清在线观看| 国精品无码一区二区三区在线| 1000部拍拍拍18勿入免费视频下载| 亚洲精品成AV无在线观看| 亚洲熟妇夜夜一区二区三区| 饥渴少妇一区二区三区| 丝袜美腿国产一区二区| 老太婆性杂交视频| 久久国产热这里只有精品| 97se亚洲国产综合自在线图片| 欧美日韩一线| 国产成人av区一区二区三| 久久天堂精品一区二区三区四区| 玩弄放荡人妇系列av在线网站| 精品久久久无码中字| 后入内射欧美99二区视频| 久久青青草原亚洲AV无码麻豆| 777久久| 视频区一区二在线观看| 国产精品成人观看视频国产奇米| 麻豆╳╳╳乱女另类| 日日碰狠狠丁香久燥| 青草网在线观看| 亚洲精品熟女av影院| 音影先锋中文字幕在线| 国产乱子伦| 中文亚洲av片在线观看不卡| 国产精品国产三级国产专播 | 日韩精品一区二区三区在线观看 | 日韩内射美女人妻一区二区三区| 中文字幕免费观看视频| 最新日韩av在线不卡| 日韩中文字幕一区二十| 精品视频在线观看日韩|

<del id="mo0wa"></del>