王康靜, 錢江海,2
(1.上海電力大學(xué) 數(shù)理學(xué)院, 上海 200090;2.華東師范大學(xué) 軟硬件協(xié)同設(shè)計(jì)技術(shù)與應(yīng)用教育部工程研究中心, 上海 200062)
隨著網(wǎng)絡(luò)與社交媒體的不斷發(fā)展,網(wǎng)絡(luò)用戶可以自由且隨時(shí)發(fā)表自己對(duì)某一實(shí)體的主觀意見,各大媒體便需要分析人們對(duì)于某一特定實(shí)體的反應(yīng),并依據(jù)其表達(dá)的情感采取有針對(duì)性的措施[1],因此情感分析對(duì)于政策措施的制定與經(jīng)營(yíng)策略的實(shí)施具有重大研究意義。目前常用的情感文本分析模型主要包含無監(jiān)督詞典模型[2]和有監(jiān)督分類模型[3-4]。無監(jiān)督詞典模型通過預(yù)定義情感詞典中的特定詞匯來計(jì)算文本的情感得分,并結(jié)合其他因素決定最終情感分?jǐn)?shù)。文獻(xiàn)[5]利用情感詞典優(yōu)化特征詞權(quán)重,并與文本語義特征相融合,有效提高了情感特征詞的強(qiáng)度和情感分類精度。文獻(xiàn)[6]通過分析WordNet詞典的相似性,評(píng)估同類別的情感詞匯具備同質(zhì)相似性特征,為情感文本分析提供基礎(chǔ)。文獻(xiàn)[7]利用詞性標(biāo)注、情緒詞典和通用情感詞典作為情感分類流程中特征提取的外部資源,顯著改善了情感分類效果。雖然詞典模型在無標(biāo)簽數(shù)據(jù)下可作為一種優(yōu)選的情感分類方法,但由于其理論基礎(chǔ)依賴于特定領(lǐng)域詞典和專家知識(shí),所以詞典模型的魯棒性和適用性有限。有監(jiān)督分類模型的首要工作是非結(jié)構(gòu)化文本數(shù)據(jù)的結(jié)構(gòu)化,包含應(yīng)用最為廣泛的詞頻-逆文本頻率(Term Frequency-Inverse Document Frequency,TF-IDF)模型[8]和詞嵌入模型。詞嵌入模型主要包含Word2Vec模型[9]和GloVe模型[10]兩類。文獻(xiàn)[11]通過實(shí)義詞語抽取分析,并利用支持向量機(jī)(Support Vector Machine,SVM)分類算法對(duì)藏文微博進(jìn)行積極、客觀與消極分類。文獻(xiàn)[12]提出通過卡方統(tǒng)計(jì)提取訓(xùn)練文本特征詞,并由TF-IWF賦予其特征權(quán)重,有效擴(kuò)大了特征詞權(quán)重值的范圍。文獻(xiàn)[13]通過改進(jìn)TF-IDF加權(quán),對(duì)類別區(qū)分能力不同的詞語賦予不同的權(quán)重。雖然有監(jiān)督分類模型相比無監(jiān)督詞典模型具有更好的分類表現(xiàn),但是其前提條件必須是針對(duì)標(biāo)簽數(shù)據(jù),且對(duì)于訓(xùn)練文本的數(shù)據(jù)質(zhì)量要求較高。TF-IDF模型是一種經(jīng)典文本特征表示方法,其主要思想是通過計(jì)算詞項(xiàng)的頻率和逆文檔頻率來衡量其重要性。TF-IDF模型能夠準(zhǔn)確反映文本中各個(gè)詞項(xiàng)的重要性,可以將其應(yīng)用于多語言文本的特征表示、圖像文本的聯(lián)合表示及知識(shí)圖譜的構(gòu)建等。
通過綜合分析無監(jiān)督詞典模型和基于TF-IDF特征提取的有監(jiān)督分類模型在情感分類方面的優(yōu)缺點(diǎn)和適用性可知,這兩種方法本質(zhì)上具有互補(bǔ)性,適當(dāng)結(jié)合可滿足不同領(lǐng)域情感分類的適用性。
TF-IDF模型主要用于識(shí)別不常出現(xiàn)的詞匯,是構(gòu)建結(jié)構(gòu)化文本最為成熟的模型之一。它是基于兩個(gè)度量指標(biāo)的組合:詞頻和逆文本頻率。詞頻表示一個(gè)特征詞在對(duì)應(yīng)文本中的出現(xiàn)次數(shù),逆文本頻率表示包含某特征詞的文本數(shù)與總文本數(shù)的比率。詞頻與逆文本頻率的計(jì)算公式為
(1)
(2)
式中:Tf(w,D)——文本D中詞w的頻率;
fwD——文本D中詞w的出現(xiàn)次數(shù);
ND——文本D總詞數(shù);
Idf(w,D)——文本D中詞w的逆文本頻率;
N——文本集合總篇數(shù);
df(w)——存在詞w的文本數(shù)。
在實(shí)際模型中,為了避免因誤差為零導(dǎo)致計(jì)算量出現(xiàn)無窮大情況,需要對(duì)每個(gè)詞項(xiàng)增加1的文檔頻率,即將Idf計(jì)算結(jié)果加1。
通過將文本的詞頻向量和詞的逆文本頻率相乘,并進(jìn)行L2規(guī)范化,可以得到最終特征向量Tfidf為
(3)
式中:‖·‖——?dú)W幾里得L2范數(shù)。
無監(jiān)督詞典模型是出現(xiàn)較早的情感分類模型,適用于互聯(lián)網(wǎng)中大量未經(jīng)標(biāo)注的情感文本數(shù)據(jù)分類。該模型的附加資源是情緒詞典。情緒詞典中包含正面情感和負(fù)面情感、極性(正面或負(fù)面分?jǐn)?shù)的大小)、詞性標(biāo)簽等相關(guān)聯(lián)的單詞列表,可以用來計(jì)算情感文本中的情緒得分,并結(jié)合其他參數(shù),修正情緒得分。無監(jiān)督詞典模型的算法邏輯描述如下。
第1步:加載情感文本數(shù)據(jù),以特定標(biāo)識(shí)符進(jìn)行分句預(yù)處理。
第2步:加載第三方情緒詞典資源,可將多個(gè)情緒詞典進(jìn)行融合。
第3步:依據(jù)情緒詞典匹配各情感文本分句所包含的情感詞,并記錄其極性與位置。
第4步:依據(jù)分句情感詞定位向前搜索程度副詞,并依據(jù)程度副詞的權(quán)重對(duì)情感極性進(jìn)行加權(quán)。
第5步:依據(jù)分句情感詞定位向前查找否定詞。若否定詞數(shù)量為奇數(shù),則情感極性取反;若否定詞數(shù)量為偶數(shù),則情感極性不變。
第6步:搜尋分句結(jié)尾感嘆詞。若分句結(jié)尾存在感嘆號(hào),則分句相應(yīng)情感詞極性加2;若分句結(jié)尾存在問號(hào),則分句相應(yīng)情感詞極性加負(fù)2。
第7步:計(jì)算各分句情感詞極性之和,即正極性與負(fù)極性之和。
第8步:計(jì)算各分句情感詞正極性和負(fù)極性均值,并計(jì)算正極性均值和負(fù)極性均值與該分句極性之和的距離。距離較近的極性,則為該分句的情感傾向。
傳統(tǒng)的TF-IDF模型通過逆文本頻率計(jì)算每個(gè)特征詞的權(quán)重與文本語料的特征向量。首先,通過中文分詞或英文詞根還原;然后,經(jīng)過去停用詞預(yù)處理;最后,使用TF-IDF模型,得到文本語料的特征向量表示。雖然此種方式可以適用大多數(shù)文本特征向量構(gòu)建場(chǎng)景,但在情感文本領(lǐng)域卻有很大的局限性,因?yàn)榍楦形谋舅哪承┨卣髟~具有不同程度的情感極性。這些具有更大權(quán)重的特征詞,需要在原始TF-IDF模型構(gòu)成的特征詞向量基礎(chǔ)上融合特征詞的情感極性。
當(dāng)前情感詞匯的極性研究主要包含情感詞匯的極性偏好和極性程度。前者用于評(píng)價(jià)特征詞的正面情感和負(fù)面情感傾向,后者用于評(píng)價(jià)特征詞的正面情感和負(fù)面情感程度。情感詞匯的極性偏好和極性程度共同構(gòu)成了該特征詞的情感區(qū)分度。在計(jì)算特征詞的情感區(qū)分度時(shí),可以采用該特征詞在不同情感語料中的分布頻率表示。如果一個(gè)詞匯在正面情感文本中出現(xiàn)的頻率較高,則有理由相信該詞匯具有正極性的可能性更高;反之亦然。因此,通過計(jì)算一個(gè)詞匯在正面情感文本的頻率和在負(fù)面情感文本的頻率并進(jìn)行比較,可以得出該詞匯的情感區(qū)分度。詞匯的情感區(qū)分度計(jì)算公式為
(4)
式中:ηw——特征詞w的情感區(qū)分度;
Nwp——特征詞w在正面情感文本中的出現(xiàn)次數(shù);
Np——正面情感文本總篇數(shù);
Nn——負(fù)面情感文本總篇數(shù);
Nwn——特征詞w在負(fù)面情感文本中的出現(xiàn)次數(shù)。
為了避免詞匯在正面情感文本或負(fù)面情感文本中出現(xiàn)零次而不滿足對(duì)數(shù)運(yùn)算,故分別加1。詞匯的情感區(qū)分度模型如圖1所示。
圖1 詞匯的情感區(qū)分度模型
當(dāng)特征詞w在正面情感文本或負(fù)面情感文本出現(xiàn)次數(shù)相等時(shí),ηw=0,表示該特征詞無任何情感區(qū)分度;當(dāng)特征詞w在正面情感文本的出現(xiàn)次數(shù)大于在負(fù)面情感文本的出現(xiàn)次數(shù)時(shí),ηw>0,表示該特征詞的情感傾向?yàn)檎?且情感程度等于η;當(dāng)特征詞w在正面情感文本的出現(xiàn)次數(shù)小于在負(fù)面情感文本的出現(xiàn)次數(shù)時(shí),ηw<0,表示該特征詞的情感傾向?yàn)樨?fù),且情感程度等于η。
式(4)雖然可以通過度量每個(gè)特征詞在不同情感類型文本中的分布頻率計(jì)算其情感區(qū)分度,但由于其僅統(tǒng)計(jì)每個(gè)特征詞在情感文本中是否出現(xiàn),并沒有考慮該特征詞在各文本中的出現(xiàn)次數(shù),因此可能會(huì)導(dǎo)致由于惡意差評(píng)和虛假好評(píng)而引發(fā)的詞匯情感區(qū)分度失真,即詞匯情感區(qū)分度穩(wěn)定性較差。
現(xiàn)假設(shè)存在10組情感文本數(shù)據(jù)D,其中5組為正面情感文本,5組為負(fù)面情感文本。某一特征詞w在正面情感文本中出現(xiàn)2次,在負(fù)面情感文本中出現(xiàn)3次,依據(jù)式(4)可以計(jì)算得出ηw=-0.29,那么可以判定w的情感傾向?yàn)樨?fù)面,且傾向程度等于|ηw|。但若w在2篇正面情感文本出現(xiàn)的次數(shù)分別為(2,5),在3篇負(fù)面情感文本出現(xiàn)的次數(shù)分別為(1,1,9),此時(shí)若僅依據(jù)ηw判斷w的情感區(qū)分度便會(huì)失真,因?yàn)殡m然w在負(fù)面情感文本中多出現(xiàn)了1次,但在某一負(fù)面情感文本中出現(xiàn)了9次,相比同為負(fù)面情感文本的其他情況差異極大,因此可能屬于惡意差評(píng)。如果該條文本不納入w的負(fù)面情感文本統(tǒng)計(jì)范圍,那么w的情感區(qū)分度ηw=0,且根據(jù)其在正面情感文本其中的出現(xiàn)次數(shù),可以判斷w更有可能偏向正面。
因此,除了通過度量每個(gè)特征詞在不同情感類型文本中的分布頻率計(jì)算其情感區(qū)分度之外,還需要更為深入的度量每個(gè)特征詞在同一情感類型文本中的出現(xiàn)次數(shù)。為此,本文引入離散系數(shù)這一統(tǒng)計(jì)指標(biāo)來評(píng)估特征詞在正面情感文本或負(fù)面情感文本中的分布情況,以判定其情感偏好的穩(wěn)定性,避免惡意差評(píng)或虛假好評(píng)情況的發(fā)生。離散系數(shù)可以用以衡量不同水平高低的數(shù)據(jù)組別的離散情況,有效避免正面情感文本組別與負(fù)面情感文本組別的數(shù)據(jù)水平差異。其計(jì)算公式為
(5)
式中:λ——特征詞w在正面情感文本或負(fù)面情感文本中的離散系數(shù);
n——特征詞w在正面情感文本或負(fù)面情感文本中的出現(xiàn)次數(shù);
xi——特征詞w在第i篇正面情感文本或負(fù)面情感文本中的出現(xiàn)次數(shù);
在情感文本數(shù)據(jù)D中,w在2篇正面情感文本出現(xiàn)的次數(shù)分別為(2,5),則其正面離散系數(shù)為λp=0.43;在3篇負(fù)面情感文本出現(xiàn)的次數(shù)分別為(1,1,9),則其負(fù)面離散系數(shù)為λn=1.03。若λ越大,表示特征詞w在正面情感文本或負(fù)面情感文本的不穩(wěn)定性越高,則需要對(duì)特征詞w的正面情感或負(fù)面情感傾向加以懲罰。懲罰計(jì)算公式為
(6)
λp——特征詞w的正面離散系數(shù);
λn——特征詞w的負(fù)面離散系數(shù)。
在對(duì)特征詞的情感極性偏好和程度做出完備評(píng)估后,便可以將其作為特征詞的情感表征權(quán)重融入到TF-IDF模型中?,F(xiàn)假設(shè)某情感文本的原始TF-IDF為矩陣V,由n篇情感文本的m個(gè)特征詞構(gòu)成,特征詞集合為{w1,w2,w3,…,wm},第i篇情感文本的第j個(gè)特征詞的Tfidf值為vi·j,V表示為
(7)
式中:Tfidffinal——改進(jìn)后的TF-IDF模型;
NTUSD——情緒詞典集合;
k——情緒詞典中的特征詞w應(yīng)賦予的權(quán)值,一般取2。
通過無監(jiān)督詞典模型可以在情感文本無標(biāo)簽的情況下,對(duì)情感文本做出初步的情感評(píng)分,且通過某些有監(jiān)督的機(jī)器學(xué)習(xí)算法?;诟倪M(jìn)的TF-IDF模型也可以通過其決策函數(shù)評(píng)估情感文本具體屬于某一類別的得分,并將此得分視為情感評(píng)分。為綜合考量?jī)煞N情感文本評(píng)分模式,參考分類指標(biāo)查準(zhǔn)率和查全率的融合得到F1綜合評(píng)價(jià)指標(biāo)的思想,對(duì)兩類評(píng)分模式進(jìn)行調(diào)和平均。計(jì)算公式為
(8)
式中:sf——情感文本綜合情感得分;
stfidf——基于改進(jìn)TF-IDF模型的有監(jiān)督分類模型決策得分;
sdict——基于詞典模型的情感得分。
融合改進(jìn)TF-IDF與無監(jiān)督詞典模型的情感分類算法計(jì)算流程如圖2所示。
圖2 情感分類算法計(jì)算流程
由圖2可知:首先,對(duì)情感文本語料分別進(jìn)行結(jié)構(gòu)化預(yù)處理,將通過分句預(yù)處理的文本語料輸入詞典模型進(jìn)行評(píng)估,便可以得到各分句的情感得分;其次,將結(jié)構(gòu)化預(yù)處理后的文本數(shù)據(jù)通過改進(jìn)TF-IDF模型進(jìn)行文本特征向量化,并將其特征矩陣輸入有監(jiān)督的機(jī)器學(xué)習(xí)模型,評(píng)估其決策函數(shù)的得分,作為情感得分;最后,對(duì)兩類情感得分進(jìn)行調(diào)和平均,得到情感文本的綜合情感得分。計(jì)算完成情感文本的綜合得分后,便可以根據(jù)決定決策邊界對(duì)綜合得分進(jìn)行分類。
本文實(shí)驗(yàn)采用一個(gè)中文旅館評(píng)論數(shù)據(jù)集和一個(gè)英文電影評(píng)論數(shù)據(jù)集。中文旅館評(píng)論數(shù)據(jù)集來自文獻(xiàn)[14],共選取5 000條記錄,包含正面評(píng)論2 500條,負(fù)面評(píng)論2 500條,且在正面評(píng)論和負(fù)面評(píng)論中分別含有與旅館居住環(huán)境不符的虛假好評(píng)200條和惡意差評(píng)300條,用以測(cè)驗(yàn)本文模型在二者之間的鑒別力。英文電影評(píng)論數(shù)據(jù)集來自文獻(xiàn)[15],共選取50 000條記錄,包含正面評(píng)論25 000條,負(fù)面評(píng)論25 000條。此外,英文情緒詞典采用AFINN詞典和VADER詞典,AFINN詞典包括3 300個(gè)單詞及其情感極性分?jǐn)?shù);VADER詞典包含7 500個(gè)帶有正確驗(yàn)證分?jǐn)?shù)的詞匯特征。中文情緒詞典采用臺(tái)灣大學(xué)情緒詞典,包含8 276個(gè)負(fù)面詞匯和2 810個(gè)正面詞匯。實(shí)驗(yàn)過程中,均取整體數(shù)據(jù)集的80%作為訓(xùn)練集,20%作為測(cè)試集。對(duì)于無監(jiān)督詞典模型僅使用20%的測(cè)試集。
情感分類的整體效能可采用分類準(zhǔn)確率衡量,即正確分類的情感文本占所有情感文本的比例。準(zhǔn)確率越高,分類模型效能越好。分類準(zhǔn)確率計(jì)算公式為
(9)
式中:TP——實(shí)際類標(biāo)簽等于預(yù)測(cè)類標(biāo)簽的正類實(shí)例總數(shù);
TN——實(shí)際類標(biāo)簽等于預(yù)測(cè)類標(biāo)簽的負(fù)類實(shí)例總數(shù);
FP——模型錯(cuò)誤地將負(fù)類預(yù)測(cè)為正類的實(shí)例總數(shù);
FN——模型錯(cuò)誤地將正類預(yù)測(cè)為負(fù)類的實(shí)例總數(shù)。
準(zhǔn)確率一般用于數(shù)據(jù)類別較為平衡的情況。如果數(shù)據(jù)類別分布偏差較大,將使用精度Precision、召回率Recall和F1分?jǐn)?shù)這3個(gè)指標(biāo)衡量模型分類效能。精度表示正類中正確預(yù)測(cè)的數(shù)量占所有預(yù)測(cè)正類數(shù)量的比例,召回率表示正類中正確預(yù)測(cè)的數(shù)量占正確預(yù)測(cè)和錯(cuò)誤預(yù)測(cè)數(shù)量的比例,而F1分?jǐn)?shù)則是精度和召回率的諧波平均值,用以平衡二者的度量值及評(píng)估模型的整體分類效能。3個(gè)指標(biāo)計(jì)算公式為
(10)
(11)
(12)
為驗(yàn)證本文所提模型在情感分類方面的提升效果,將采用上述兩種不同的數(shù)據(jù)集分別針對(duì)原始TF-IDF模型、詞典模型、結(jié)合情緒詞典的TF-IDF模型、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)模型和本文模型進(jìn)行分析對(duì)比。情緒詞典模型采用AFINN,該模型可以預(yù)測(cè)情感文本的正負(fù)情感得分;有監(jiān)督分類模型采用梯度提升機(jī),該模型是一種常用的集成學(xué)習(xí)模型,相比傳統(tǒng)的單一機(jī)器學(xué)習(xí)分類模型,具有更好的分類精度和穩(wěn)定性,且該模型通過其決策函數(shù)可以評(píng)估某一樣本屬于某一類別的得分。
中文旅館評(píng)論數(shù)據(jù)集測(cè)試過程中,有監(jiān)督分類模型采用5層交叉驗(yàn)證方式,無監(jiān)督詞典模型采用5次測(cè)試均值。實(shí)驗(yàn)結(jié)果如表1所示。
表1 旅館評(píng)論數(shù)據(jù)集對(duì)比分析
由表1可知,在中文情感文本語料測(cè)試條件下,本文模型顯著優(yōu)于其他模型分類表現(xiàn)。由于無監(jiān)督詞典模型屬于無監(jiān)督情感分類模型,僅依靠情感文本與情緒詞典的匹配關(guān)系計(jì)算情感得分,所以其分類表現(xiàn)最差,綜合分類精度為0.726。TF-IDF模型考慮了特征詞匯的統(tǒng)計(jì)特性,并利用有監(jiān)督分類模型進(jìn)行訓(xùn)練,所以分類精度較無監(jiān)督詞典模型有明顯提升。融入情感詞典的TF-IDF模型,不僅考慮了特征詞匯的統(tǒng)計(jì)特性,還對(duì)這些特征詞是否在情感詞典出現(xiàn)或根據(jù)其情感詞典中的極性,賦予不同的權(quán)重,所以相比TF-IDF模型,綜合分類精度略有提升,但由于情感特征詞的數(shù)量限制和具體分布信息欠缺,所以提升效果不太顯著。CNN模型在兩項(xiàng)指標(biāo)均表現(xiàn)良好,但對(duì)于文本語料的數(shù)量和質(zhì)量要求較高,且訓(xùn)練時(shí)間較長(zhǎng)。本文所提模型綜合分類精度及準(zhǔn)確率都表現(xiàn)優(yōu)異。
英文電影評(píng)論數(shù)據(jù)集測(cè)試過程中,有監(jiān)督分類模型采用5層交叉驗(yàn)證的方式,無監(jiān)督詞典模型采用5次測(cè)試均值。實(shí)驗(yàn)結(jié)果如表2所示。
表2 電影評(píng)論數(shù)據(jù)集對(duì)比分析
表3 旅館評(píng)論數(shù)據(jù)集詞匯分析
針對(duì)基于TF-IDF模型的傳統(tǒng)情感文本分類算法存在情感詞匯極性偏好區(qū)分度和穩(wěn)定性較低的問題,本文提出改進(jìn)TF-IDF模型加權(quán)的方式,并融合有監(jiān)督分類模型與無監(jiān)督詞典模型的綜合評(píng)分。通過對(duì)比實(shí)驗(yàn)可知,本文模型可以提高情感分類的精確度。