劉秋慧,柴玉梅,劉 箴
1(鄭州大學(xué) 信息工程學(xué)院,鄭州 450001) 2(寧波大學(xué) 信息科學(xué)與工程學(xué)院,浙江 寧波 315211) E-mail:liuqhano@foxmail.com
微博作為一種開(kāi)放的、發(fā)展迅速的社交媒體,越來(lái)越多的用戶將其作為分享和交流的平臺(tái),人們不僅喜歡在微博上與朋友進(jìn)行交流、互動(dòng),更愿意對(duì)即時(shí)播出的影視劇和熱銷的產(chǎn)品及熱點(diǎn)事件發(fā)表自己的觀點(diǎn)和看法.龐大的微博用戶群,通過(guò)文本、聲音、圖片和視頻等方式,來(lái)發(fā)表自己對(duì)產(chǎn)品、事件和服務(wù)等實(shí)體對(duì)象的觀點(diǎn)和態(tài)度,產(chǎn)生的海量數(shù)據(jù)信息,隱藏著巨大的社會(huì)價(jià)值和商業(yè)價(jià)值,引發(fā)了很多學(xué)者積極參與到微博信息挖掘的研究工作中.
自2002年Bo Pang[1]提出情感分析以來(lái),引起了國(guó)內(nèi)外學(xué)者的廣泛關(guān)注,隨著社交媒體的迅速發(fā)展,微博情感分析成為當(dāng)前研究的熱點(diǎn).從微博數(shù)據(jù)中分析和監(jiān)測(cè)到的用戶的信息,已經(jīng)被應(yīng)用到諸多領(lǐng)域中,例如商業(yè)部門通過(guò)分析微博數(shù)據(jù)中所包含的用戶對(duì)于某產(chǎn)品發(fā)表的觀點(diǎn)信息,預(yù)測(cè)產(chǎn)品的銷售狀況,幫助自動(dòng)推薦系統(tǒng)更加準(zhǔn)確的判斷是否向用戶推送廣告;政府部門則通過(guò)監(jiān)測(cè)到的微博信息,來(lái)實(shí)時(shí)掌握民情、民意.
微博具有便捷性和原創(chuàng)性,內(nèi)容短小精悍一般限制在140字左右,融合了情感詞、網(wǎng)絡(luò)用語(yǔ)和表情符號(hào)等情感特征.構(gòu)建網(wǎng)絡(luò)用語(yǔ)詞典、情感詞表、表情符號(hào)向量空間和詞向量,是學(xué)習(xí)微博情感特征的有效方法之一.本文提出了半監(jiān)督的情感分析模型SR-CBOW(Softmax Regression-Continuous Bag-of-Words),利用詞向量學(xué)習(xí)微博短語(yǔ)的情感特征,可以同時(shí)進(jìn)行詞向量的訓(xùn)練和微博情感分析.本文的章節(jié)安排為:第2節(jié)介紹相關(guān)工作,第3節(jié)介紹本文提出的情感分析模型SR-CBOW,第4介紹實(shí)驗(yàn),第5節(jié)介紹工作總結(jié)與展望.
微博情感分析方法歸納起來(lái)可以分為兩類,有監(jiān)督的學(xué)習(xí)方法和無(wú)監(jiān)督的學(xué)習(xí)方法.有監(jiān)督的學(xué)習(xí)方法,通過(guò)有標(biāo)簽的樣本來(lái)訓(xùn)練模型,并利用訓(xùn)練好的模型對(duì)未見(jiàn)文本進(jìn)行分類.起初,有監(jiān)督的機(jī)器學(xué)習(xí)方法樸素貝葉斯、最大熵和支持向量機(jī)被應(yīng)用于情感分類任務(wù)[2];近幾年,深度學(xué)習(xí)方法被推上了熱潮.無(wú)監(jiān)督的學(xué)習(xí)方法不需要人工標(biāo)注語(yǔ)料,省去了大量的人力勞動(dòng),因此,也得到了研究者的廣泛關(guān)注.基于主題模型的情感分類方法,是使用最為廣泛的無(wú)監(jiān)督情感分類方法[3],有代表性的一些算法有,Mei[4]等人提出的主題情感模型TSM,Lin[5]等人提出的基于LDA模型的JST模型.無(wú)監(jiān)督的學(xué)習(xí)方法雖然不需要付出高昂的代價(jià)來(lái)標(biāo)注數(shù)據(jù),但是其情感分析的結(jié)果往往略低于有監(jiān)督的學(xué)習(xí)方法.
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一種范式,近年來(lái)引起工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注[6].深度學(xué)習(xí)常見(jiàn)的三種基本模型為多層感知機(jī)(MLP,Multi-layer Perceptron)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network)和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network),被應(yīng)用于分詞、詞性標(biāo)注、情感分析和機(jī)器翻譯等諸多自然語(yǔ)言處理任務(wù)中.何[7]等人提出了增強(qiáng)情感語(yǔ)義的多通道卷積神經(jīng)網(wǎng)絡(luò)(EMCNN,Emotion-semantics enhanced Multi-channel Convolution Neural Network)模型,該模型利用表情符號(hào)的向量增強(qiáng)多通道卷積神經(jīng)網(wǎng)絡(luò)(MCNN,Multi-channel Convolution Neural Network)模型的情感語(yǔ)義,來(lái)提高微博情緒識(shí)別的準(zhǔn)確性.梁[8]等人在遞歸自編碼網(wǎng)絡(luò)的基礎(chǔ)上,構(gòu)建極性情感轉(zhuǎn)移模型,并將其應(yīng)用于微博情感傾向性分析任務(wù)中.深度學(xué)習(xí)的模型較復(fù)雜,導(dǎo)致模型對(duì)數(shù)據(jù)集的需求更大,模型訓(xùn)練需要的時(shí)間也更多.
微博數(shù)據(jù)中表情符號(hào)、網(wǎng)絡(luò)用語(yǔ)和無(wú)情感色彩字符的出現(xiàn),嚴(yán)重制約微博情感分析性能的提高.表情符號(hào)作為情感表達(dá)的方式之一,在微博文本中出現(xiàn)的概率超過(guò)7%,模型對(duì)于表情符號(hào)的理解是情感分析任務(wù)的難點(diǎn)之一,Jiang[9]等人提出表情符號(hào)空間模型(ESM,Emoticon Space Model),利用一維向量空間表示一個(gè)表情符號(hào),將詞替換為與之相似度最高的表情符號(hào),并用其進(jìn)一步構(gòu)建微博的向量表示,該方法通過(guò)將文字語(yǔ)言替換為更簡(jiǎn)潔、直觀地表情達(dá)意的表情符號(hào),巧妙的把高維的詞向量轉(zhuǎn)換為低維的表情符號(hào)向量,使之在少量手工標(biāo)注的數(shù)據(jù)上有更好的表現(xiàn);網(wǎng)絡(luò)用語(yǔ)的自主化、個(gè)性化、全息化、符號(hào)化、創(chuàng)新化等特性,使其信息傳遞的方式更形象、使用也越來(lái)越廣泛,按照其來(lái)源網(wǎng)絡(luò)用語(yǔ)被分為諧音詞、縮略詞、象形詞、轉(zhuǎn)義詞和新詞五大類[10],如諧音詞“厚厚”表達(dá)的涵義為“吼吼”表示開(kāi)心,縮略詞“請(qǐng)?jiān)时睘椤罢?qǐng)?jiān)试S我做一個(gè)悲傷的表情”的簡(jiǎn)寫,象形詞“orz”像一個(gè)人跪在那里,表示自己很無(wú)奈,新詞“我去”表示對(duì)于某事感到驚訝,而統(tǒng)計(jì)模型較難學(xué)習(xí)該類詞明確的語(yǔ)義信息,網(wǎng)絡(luò)詞匯詞典的構(gòu)建,為此問(wèn)題的解決提供了幫助;微博文本中數(shù)字、URL等無(wú)情感色彩的字符的出現(xiàn),影響了分詞和詞性標(biāo)注等情感分析基礎(chǔ)任務(wù)的準(zhǔn)確性,通過(guò)刪除文本中的該類字符,降低噪聲的干擾以提高情感分析的準(zhǔn)確性.
針對(duì)微博數(shù)據(jù)的特點(diǎn)及中文微博情感分析任務(wù)中人工標(biāo)注數(shù)據(jù)相對(duì)較少的情況,本文提出了半監(jiān)督的情感分析模型SR-CBOW.與受限于具體語(yǔ)境的基于語(yǔ)料庫(kù)的方法相比,該模型對(duì)大規(guī)模無(wú)標(biāo)注的微博語(yǔ)料進(jìn)行學(xué)習(xí),利用自動(dòng)獲取的語(yǔ)義信息,輔助完成情感分析任務(wù).對(duì)于不平衡的微博情感分析數(shù)據(jù)集,本文對(duì)語(yǔ)義相似度最高的微博進(jìn)行合并,通過(guò)減少所占比重較高的情感類的樣本數(shù)量,解決數(shù)據(jù)集的不平衡問(wèn)題;為提高SR-CBOW模型情感分析的準(zhǔn)確性,采用否定擴(kuò)散的方法突出否定詞的重要性,利用對(duì)詞語(yǔ)添加的否定標(biāo)記,來(lái)獲取關(guān)鍵的詞序信息,協(xié)助SR-CBOW模型實(shí)現(xiàn)情感轉(zhuǎn)移.
SR-CBOW模型在對(duì)微博的向量表示進(jìn)行情感分類的同時(shí),利用微博中詞語(yǔ)的上下文信息進(jìn)行詞向量的訓(xùn)練,從而使模型得以有效地利用包含在文本中的語(yǔ)言信息,更好地完成情感分類任務(wù).SR-CBOW模型進(jìn)行情感分析的主要流程,如圖1所示.
圖1 SR-CBOW模型流程圖Fig.1 SR-CBOW model flowchart
首先,通過(guò)基于語(yǔ)義相似度的數(shù)據(jù)集平衡方法,均衡微博情感分析數(shù)據(jù)集中不同情感類的樣本數(shù)量,將得到的均衡數(shù)據(jù)集和大量無(wú)標(biāo)注的微博數(shù)據(jù),作為模型的訓(xùn)練數(shù)據(jù);其次,對(duì)訓(xùn)練數(shù)據(jù)中包含否定詞的微博進(jìn)行否定擴(kuò)散,通過(guò)添加否定標(biāo)記,來(lái)標(biāo)識(shí)關(guān)鍵的詞序信息,緩解SR-CBOW模型構(gòu)建過(guò)程中,微博向量表示方式造成詞序信息丟失的問(wèn)題,協(xié)助模型對(duì)包含否定詞的微博進(jìn)行情感轉(zhuǎn)移;最終,CBOW模型根據(jù)窗口內(nèi)的上下文信息預(yù)測(cè)當(dāng)前詞,進(jìn)行詞向量的訓(xùn)練和語(yǔ)義信息的獲取,通過(guò)查找向量表,得到微博中所有詞的向量表示,并對(duì)其進(jìn)行累加取平均,作為微博短語(yǔ)的向量表示,并通過(guò) softmax回歸方法對(duì)微博的向量表示進(jìn)行情感分類.
為了提高詞向量的質(zhì)量,本文在訓(xùn)練語(yǔ)料中加入了大量未標(biāo)注的微博數(shù)據(jù),并以“__情感類別”區(qū)分有標(biāo)注的情感分析語(yǔ)料以及未標(biāo)注的純文本語(yǔ)料,在進(jìn)行詞向量訓(xùn)練之后,如果數(shù)據(jù)中包含“__情感類別”標(biāo)記,則對(duì)該微博進(jìn)行情感分析模型的訓(xùn)練.
不平衡數(shù)據(jù)集使SR-CBOW模型預(yù)測(cè)的結(jié)果往往傾向于樣本數(shù)量較多的情感類,嚴(yán)重影響了情感分析的結(jié)果.針對(duì)此問(wèn)題,本文采用基于微博語(yǔ)義相似度的數(shù)據(jù)平衡方法,通過(guò)合并相似度最高的微博,緩解數(shù)據(jù)集的不平衡性.
定義1.本文將情感類別相同的微博twg和twh的相似度函數(shù)Sim(twg,twh)定義為:
(1)
其中,wgi與whj表示微博twg和twh中出現(xiàn)的動(dòng)詞、形容詞或副詞,ng和nh分別代表上述三類詞語(yǔ)在微博twg和twh中總的數(shù)量,sim(wgi,whj)[11]表示基于知網(wǎng)的詞語(yǔ)wgi和whj的相似度計(jì)算.首先給定某一情感類別,然后遍歷數(shù)據(jù)集中該情感類的所有微博,并將相似度最高的兩條微博進(jìn)行合并,每進(jìn)行一輪,該情感類的微博樣本數(shù)減半.該方法在沒(méi)有數(shù)據(jù)損失的情況下,降低了訓(xùn)練數(shù)據(jù)集上所占比重最高的情感類的樣本數(shù)量,增加了低頻情感類別的權(quán)重,從而均衡模型預(yù)測(cè)結(jié)果的分布、提高情感分析的性能.
模型對(duì)于包含否定詞的微博短語(yǔ),較難做出準(zhǔn)確的分類.針對(duì)此問(wèn)題,采用否定擴(kuò)散的方法來(lái)突出否定詞的重要性,與傳統(tǒng)的TF-IDF[12]相比,該方法不僅可以突出重要詞語(yǔ)、抑制次要詞語(yǔ),還可以利用添加的否定標(biāo)記,來(lái)獲取關(guān)鍵的詞序信息.
SR-CBOW模型的構(gòu)建過(guò)程中,通過(guò)向量累加來(lái)構(gòu)建微博向量表示的方式,會(huì)導(dǎo)致詞序信息的丟失,尤其是對(duì)于有否定詞出現(xiàn)的微博,關(guān)鍵的詞序信息決定了是否對(duì)該微博進(jìn)行情感極性轉(zhuǎn)移.例如微博“我/rr 送/v 的/ude1 禮物/n 你/rr 喜歡/vi 不/d”和“我/rr 送/v 的/ude1 禮物/n 你/rr 不/d 喜歡/vi”有相同的向量表示,如公式2和3所示,但要表達(dá)的情感信息卻截然不同.
(v我+v送+v的+v禮物+v你+v喜歡+v不)/ 7
(2)
(v我+v送+v的+v禮物+v你+v不+v喜歡)/ 7
(3)
針對(duì)上述問(wèn)題,本文采用否定擴(kuò)散的方法,對(duì)出現(xiàn)在否定詞之后的詞語(yǔ)添加否定標(biāo)記,例如,原有的情感詞“喜歡”,添加否定標(biāo)記后得到新的詞“喜歡
(v我+v送+v的+v禮物+v你+v喜歡+v不)/ 7
(4)
(v我+v送+v的+v禮物+v你+v不+v喜歡< neg >)/ 7
(5)
從公式(4)和公式(5)中可以看出,否定擴(kuò)散的方法通過(guò)對(duì)微博中相應(yīng)的詞語(yǔ)添加否定標(biāo)記,來(lái)標(biāo)識(shí)動(dòng)詞、形容詞和副詞與否定詞的前后位置,為SR-CBOW模型提供關(guān)鍵的詞序信息;同時(shí)通過(guò)添加否定標(biāo)記,將原有的情感詞“喜歡”改變?yōu)樾碌脑~“喜歡
本文收集建立的否定詞表,如表1所示.
表1 否定詞表Table 1 Privative words table
考慮到一個(gè)否定詞只能影響它所在的短句,而不是整條微博,因此,將否定擴(kuò)散的范圍限定到否定詞所在的短句中,例如,對(duì)于微博“不/d 舒服/a./wj 拉肚子/v./wj 還/d 低燒/n.”只需對(duì)第一個(gè)短句進(jìn)行否定擴(kuò)散.本文收集建立了標(biāo)點(diǎn)符號(hào)表,將否定擴(kuò)散限制在一定的范圍內(nèi),所包含的符號(hào)如表2所示.
表2 標(biāo)點(diǎn)符號(hào)表Table 2 Punctuation table
一個(gè)詞語(yǔ)之前可能存在多個(gè)否定詞,本文假定雙重否定表示肯定,當(dāng)已記錄否定詞的數(shù)量為奇數(shù),且當(dāng)前詞語(yǔ)屬于動(dòng)詞、形容詞或副詞時(shí),才對(duì)其添加否定標(biāo)記,進(jìn)行否定擴(kuò)散,具體實(shí)現(xiàn)過(guò)程如算法1所示.
算法1.否定擴(kuò)散
輸入:微博tw,否定詞表privative_table,標(biāo)點(diǎn)符號(hào)表Punctuation_table
輸出:否定擴(kuò)散后的微博
1. 首先使用NLPIR分詞工具進(jìn)行分詞和詞性標(biāo)注工作
2. 初始化否定標(biāo)志flag=False
3. forwintwdo
4. ifwinprivative_tablethen
flag=flag取反
5. else ifwinPunctuation_tablethen
flag=False
else
6. ifflagandw∈{verb,adjective,adverb} then
w=w+“
end if
end if
更新tw
end for
7. returntw
3.3.1 基于CBOW模型的詞向量訓(xùn)練
目前微博情感分析的語(yǔ)料較少,模型難以充分獲取低頻詞的語(yǔ)義信息,導(dǎo)致情感分析模型無(wú)法得到有效的訓(xùn)練.針對(duì)此問(wèn)題,CBOW模型通過(guò)周圍的詞來(lái)預(yù)測(cè)當(dāng)前詞,有效地利用了包含在文本中的語(yǔ)言信息,協(xié)助SR-CBOW模型完成情感分析任務(wù);并采用欠采樣的方法,均衡數(shù)據(jù)中的高頻詞和低頻詞,提高詞語(yǔ)和微博向量表示的質(zhì)量,為情感分析奠定基礎(chǔ);為了提高模型的訓(xùn)練速度,采用了近似于-log softmax的噪聲對(duì)比估計(jì)方法.
CBOW模型通過(guò)上下文來(lái)預(yù)測(cè)當(dāng)前詞,共分為輸入層、投射層和輸出層三部分,CBOW模型的結(jié)構(gòu)如圖2所示.
(6)
為了均衡微博文本中高頻詞語(yǔ)及低頻詞語(yǔ)的影響,使出現(xiàn)頻率較低的詞語(yǔ)仍然能夠得到充分的訓(xùn)練,在取上下文詞語(yǔ)時(shí),對(duì)其進(jìn)行欠采樣處理,按照公式(7)所示的概率舍棄詞語(yǔ)wt+i:
圖2 CBOW模型結(jié)構(gòu)圖Fig.2 CBOW model structure diagram
(7)
其中f(wt+i)表示詞語(yǔ)wt+i在訓(xùn)練語(yǔ)料中出現(xiàn)的頻率,λ為預(yù)設(shè)定的閾值,實(shí)驗(yàn)中使用10-5.
(8)
(9)
其中σ(·)為sigmoid函數(shù),負(fù)例集合N為:
N={wi|wi∈V&wi?{wt-k…wt+k}}
(10)
3.3.2 基于softmax回歸的情感分類
softmax回歸是邏輯回歸在多分類問(wèn)題上的擴(kuò)展,是常用的有監(jiān)督的多分類方法.本文采用softmax回歸模型對(duì)微博的向量表示進(jìn)行情感分類,通過(guò)最優(yōu)化負(fù)對(duì)數(shù)似然懲罰函數(shù),對(duì)情感分析模型SR-CBOW進(jìn)行訓(xùn)練.
定義2.本文將微博短語(yǔ)的向量表示定義為,微博中所有詞語(yǔ)向量累加的均值,如公式(11)所示:
(11)
(12)
其中W2為權(quán)重矩陣,m表示情感類別數(shù),b為偏置,s的維度為m.微博屬于各個(gè)情感類的成績(jī)分別為s1,s2…sm,并利用softmax函數(shù)計(jì)算微博屬于每個(gè)情感類別的概率:
(13)
其中yi表示第i維是否為微博的目標(biāo)情感類別,如果第i維是微博的目標(biāo)情感類,yi為1,否則yi為0.p的每一維代表模型預(yù)測(cè)微博為相應(yīng)情感類別的概率,概率最大的情感類別為該微博情感分析的結(jié)果.模型訓(xùn)練的目標(biāo)是使目標(biāo)情感類別的概率盡可能的大,使用的懲罰函數(shù)為:
(14)
情感分析模型SR-CBOW在大量無(wú)標(biāo)注的微博數(shù)據(jù)和少量標(biāo)注的情感分析數(shù)據(jù)上進(jìn)行訓(xùn)練,其過(guò)程如算法2所示.
算法2.SR-CBOW模型的訓(xùn)練
輸入:微博訓(xùn)練數(shù)據(jù)集D,初始學(xué)習(xí)速率start_lr,無(wú)監(jiān)督訓(xùn)練周期cbow_epoch,詞向量矩陣M,系數(shù)矩陣W1,W2
輸出:訓(xùn)練好的情感分析模型SR-CBOW
1. 初始化訓(xùn)練周期epoch=1
2.D1=對(duì)D進(jìn)行基于語(yǔ)義相似度的數(shù)據(jù)平衡處理
3. while 誤差下降 do
lr=start_lr/ epoch
4. fortwinD1do
5.tw=對(duì)包含否定詞的tw進(jìn)行否定擴(kuò)散
string_tag=獲取tw的第一個(gè)標(biāo)記
6. ifepoch 7. forwintwdo w左右各取k個(gè)詞作為CBOW模型的輸入,預(yù)測(cè)w,計(jì)算懲罰函數(shù)對(duì)M、W1的導(dǎo)數(shù)△M、△W1 M=M-lr* △M W1=W1-lr* △W1 end for end if 8. ifstring_tag==“__情感類別” then tw中所有詞向量通過(guò)情感分析模型預(yù)測(cè)情感類別,計(jì)算懲罰函數(shù)對(duì)M、W2的導(dǎo)數(shù)△M、△W2 M=M-lr* △M W2=W2-lr* △W2 end if end for epoch=epoch+1 end while 9. return SR-CBOW模型 本文實(shí)驗(yàn)所使用的數(shù)據(jù)是NLP&CC2013情緒識(shí)別任務(wù)和CCIR2014情感傾向性分析任務(wù)的評(píng)測(cè)數(shù)據(jù),無(wú)情感標(biāo)簽的微博語(yǔ)料來(lái)源于中國(guó)爬盟網(wǎng)站,共整理得到約30G的微博文本.情緒識(shí)別任務(wù)將情感分為7類,分別對(duì)應(yīng)憤怒(anger)、厭惡(disgust)、驚恐(fear)、高興(happiness)、喜好(like)、悲傷(sadness)和驚訝(surprise),情感傾向性分析任務(wù)將情感分為兩類正向和負(fù)向,訓(xùn)練集中每個(gè)情感類及對(duì)應(yīng)出現(xiàn)的頻次(樣本的數(shù)量)如表3所示. 本文使用準(zhǔn)確率P(Precesion)、召回率R(Recall)、F值(F-measure)和微平均評(píng)估情感分析模型SR-CBOW,微平均的計(jì)算公式為: 表3 情感類別及出現(xiàn)的頻次Table 3 Emotions and frequency of occurrence 其中sys_correct表示模型預(yù)測(cè)的結(jié)果和目標(biāo)值一致的數(shù)目,gold表示微博的目標(biāo)情感數(shù)目,sys_proposed表示模型標(biāo)注的數(shù)目,i的取值在情緒識(shí)別任務(wù)和情感傾向性分析任務(wù)中,分別對(duì)應(yīng)7類情感值和2類情感傾向值. 本文共分為5組實(shí)驗(yàn),第1組實(shí)驗(yàn)是對(duì)向量維度的選擇,以期得到能較好適應(yīng)模型的向量表示;第2組實(shí)驗(yàn)是在第1組實(shí)驗(yàn)的基礎(chǔ)上展開(kāi)的,利用無(wú)標(biāo)注的微博數(shù)據(jù)協(xié)助模型訓(xùn)練;第3組實(shí)驗(yàn)驗(yàn)證本文提出的否定擴(kuò)散方法的有效性;第4組實(shí)驗(yàn)利用基于語(yǔ)義相似度的數(shù)據(jù)平衡方法,對(duì)沒(méi)有情感色彩的微博樣本進(jìn)行合并,來(lái)緩解數(shù)據(jù)集的不平衡性,從而提高情感分析的準(zhǔn)確率;第5組實(shí)驗(yàn)在電腦、酒店和書籍消費(fèi)評(píng)價(jià)的語(yǔ)料(平衡數(shù)據(jù)集)上進(jìn)行,來(lái)驗(yàn)證移除定制技巧后SR-CBOW模型的泛化能力和領(lǐng)域適應(yīng)能力. 向量的維度是需要調(diào)整的主要參數(shù),維度越高模型中的參數(shù)就越多,容易導(dǎo)致模型過(guò)擬合,維度過(guò)低則難以包含所需要的信息.本文以情緒識(shí)別任務(wù)為主,通過(guò)調(diào)整詞語(yǔ)向量的維度,選取適合數(shù)據(jù)集和模型的向量維度,參數(shù)調(diào)整的過(guò)程如圖3所示. 圖3 向量維度調(diào)整Fig.3 Vector dimension adjustment 從圖3可以看出,當(dāng)情感分析模型中詞向量的維度高于50時(shí),其準(zhǔn)確率開(kāi)始下降,在向量維度為44時(shí),Mic_P、Mic_R和Mic_F的值分別為56.1%、32.37%、41.05%,此時(shí)的Mic_F值最高,接下來(lái)的實(shí)驗(yàn)中向量維度都設(shè)置為44. 在向量維度為44的基礎(chǔ)上,訓(xùn)練數(shù)據(jù)中加入大量無(wú)情感標(biāo)簽的微博數(shù)據(jù),模型的Mic_F值提高了0.76個(gè)百分點(diǎn),其結(jié)果如圖4所示. 圖4 加入無(wú)標(biāo)簽數(shù)據(jù)集的情感分析結(jié)果Fig.4 Emotion analysis results with unlabeled data set added 灰色的柱狀圖表示加入無(wú)情感標(biāo)簽微博數(shù)據(jù)后,情緒識(shí)別任務(wù)的結(jié)果.情緒識(shí)別任務(wù)和情感傾向性分析任務(wù),每個(gè)情感類的識(shí)別結(jié)果,如表4所示. 表4 情感分析結(jié)果Table 4 Emotion analysis results 其中情緒識(shí)別任務(wù)的情感分析結(jié)果,明顯低于情感傾向性分析任務(wù),從任務(wù)本身和任務(wù)的數(shù)據(jù)特點(diǎn)分析,情緒識(shí)別任務(wù)中每個(gè)情感類的樣本數(shù)量分布不均衡,尤其是標(biāo)簽為“none”的樣本,約占樣本總量的3/5,是導(dǎo)致情緒識(shí)別結(jié)果較低的主要原因. 加入否定擴(kuò)散之后,在情緒識(shí)別任務(wù)和情感傾向性分析任務(wù)中,Mic_F值分別提高了2.02和1.29個(gè)百分點(diǎn),幾乎每個(gè)情緒類別的召回率都得到提高.因?yàn)?微博短語(yǔ)往往較短,數(shù)據(jù)中包含否定詞語(yǔ)的情況也較少,所以,該方法對(duì)情感分析結(jié)果的提高程度有限.具體結(jié)果如表5所示. 從表4和表5可以看出情緒識(shí)別任務(wù)中模型的準(zhǔn)確率較高,而召回率卻很低.根據(jù)表3的統(tǒng)計(jì)信息可以發(fā)現(xiàn)訓(xùn)練樣例中包含大量沒(méi)有情感色彩的微博,數(shù)據(jù)集的極度不平衡是造成召回率低的主要原因.針對(duì)此問(wèn)題,本文通過(guò)減少標(biāo)簽為“none”的樣本數(shù)量,來(lái)降低其頻率,以均衡模型的準(zhǔn)確率與召回率.數(shù)據(jù)平衡處理對(duì)結(jié)果的影響,如圖5所示. 表5 基于否定擴(kuò)散的情感分析結(jié)果Table 5 Emotion analysis results with negative spreading 圖5 數(shù)據(jù)平衡處理及對(duì)應(yīng)的情感分析結(jié)果Fig.5 Data balancing and emotion analysis results 其中縱軸表示情感分析結(jié)果的評(píng)估值,橫軸表示將沒(méi)有情感色彩的微博合并后,微博樣本的數(shù)量,當(dāng)執(zhí)行4輪數(shù)據(jù)集平衡處理時(shí),情感分析的結(jié)果最好.隨著標(biāo)簽為“none”的微博樣本,在訓(xùn)練語(yǔ)料中比重的降低,情感分析模型的召回率快速上升,同時(shí)Mic_F值得到較為明顯的提高;當(dāng)該比重降低到一定程度后,情感分析的準(zhǔn)確性開(kāi)始下降,本文只取得了局部最優(yōu)結(jié)果.選擇Mic_F值最高的結(jié)果,作為SR-CBOW模型的最終結(jié)果,其Mic_F值提高了6.28個(gè)百分點(diǎn),與其它模型的情感分析結(jié)果進(jìn)行比較,如表6所示. 表6 情感分析結(jié)果對(duì)比Table 6 Comparison of emotion analysis results 其中融合顯性和隱性特征的無(wú)監(jiān)督聚類方法的結(jié)果要略低于其它方法,基于深度學(xué)習(xí)的MCNN模型和情感極性轉(zhuǎn)移模型,雖然結(jié)果較無(wú)監(jiān)督的聚類方法好,但訓(xùn)練模型需要的時(shí)間較多,且F值略低于未進(jìn)行數(shù)據(jù)平衡的SR-CBOW模型.本文提出的半監(jiān)督情感分析模型SR-CBOW,結(jié)構(gòu)簡(jiǎn)單、模型訓(xùn)練快,并且情感分析結(jié)果優(yōu)于已知模型. 由表6可以看出,在數(shù)據(jù)集不平衡的微博情緒識(shí)別任務(wù)中,通過(guò)平衡數(shù)據(jù)集,可以使SR-CBOW模型的情感分析結(jié)果得到進(jìn)一步的提升. 為了驗(yàn)證本文提出的SR-CBOW模型的魯棒性,本文在其它領(lǐng)域的平衡數(shù)據(jù)集上,使用移除定制技巧的情感分析模型SR-CBOW進(jìn)行實(shí)驗(yàn),來(lái)檢驗(yàn)?zāi)P偷姆夯芰吞幚砥渌I(lǐng)域數(shù)據(jù)的能力.該數(shù)據(jù)集為包含電腦、酒店和書籍3個(gè)領(lǐng)域消費(fèi)評(píng)價(jià)數(shù)據(jù)的中文情感挖掘語(yǔ)料-ChnSentiCorp[18].對(duì)應(yīng)的情感分析結(jié)果如表7所示. 表7 消費(fèi)評(píng)價(jià)語(yǔ)料的情感分析結(jié)果Table 7 Consumption evaluation data emotion analysis results 前兩種方法是文獻(xiàn)[18]中實(shí)驗(yàn)及對(duì)比實(shí)驗(yàn)的方法.通過(guò)表7可以看出,未使用數(shù)據(jù)平衡手段的SR-CBOW模型,在消費(fèi)評(píng)價(jià)數(shù)據(jù)的情感分析任務(wù)中,也可以取得理想的結(jié)果. 本文提出情感分析模型SR-CBOW,利用文本中包含的語(yǔ)言信息輔助模型的訓(xùn)練,并通過(guò)否定擴(kuò)散的方法,解決生成微博向量表示時(shí)語(yǔ)序信息丟失所帶來(lái)的問(wèn)題,在情緒識(shí)別任務(wù)和情感傾向性分析任務(wù)中取得了目前已知的最好結(jié)果,并可以通過(guò)均衡數(shù)據(jù)集等手段進(jìn)一步提升. 不同的詞語(yǔ)蘊(yùn)含不同程度的情感信息,對(duì)情感分析結(jié)果的影響程度也不同;否定擴(kuò)散可以保留情感分析問(wèn)題中較關(guān)鍵的語(yǔ)序信息,但仍會(huì)損失一些語(yǔ)序信息.針對(duì)這些問(wèn)題,下一步將探究一種保留詞序信息的、加權(quán)的微博向量表示構(gòu)建方法,實(shí)現(xiàn)對(duì)微博向量表示的自動(dòng)化學(xué)習(xí),以期獲得更好的微博情感分析結(jié)果.4 實(shí) 驗(yàn)
4.1 實(shí)驗(yàn)數(shù)據(jù)及評(píng)價(jià)指標(biāo)
4.2 實(shí)驗(yàn)及結(jié)果分析
5 總結(jié)與展望