董 祥 和
(天津職業(yè)技術(shù)師范大學(xué)經(jīng)濟與管理學(xué)院 天津 300222)
?
基于情感特征向量空間模型的中文商品評論傾向分類算法
董 祥 和
(天津職業(yè)技術(shù)師范大學(xué)經(jīng)濟與管理學(xué)院天津 300222)
為了能夠快速有效地將中文商品評論識別為好評或差評,提出一種算法。針對不同類別的商品,預(yù)先根據(jù)其評論語料構(gòu)建領(lǐng)域情感詞典,評論文本與情感詞典集匹配提取情感特征,構(gòu)建情感特征向量空間模型SF-VSM(Sentiment Feature Vector Space Model),解決傳統(tǒng)的特征向量空間模型維數(shù)較高及特征選擇誤差問題。然后基于該模型結(jié)合改進的多項式樸素貝葉斯方法對評論進行情感傾向分類。實驗結(jié)果表明,相比分別基于原始特征和基于χ2特征選取的樸素貝葉斯分類算法,該算法分類精度較高且分類速度快。
中文商品評論情感傾向情感詞典情感特征向量空間模型樸素貝葉斯分類
國內(nèi)多數(shù)電子商務(wù)銷售平臺的用戶可以對商品及服務(wù)發(fā)表評價。商品評論信息對商家及購物者都很重要,會影響潛在消費者的購買。通過對商品評論文本的采集分析可以得知用戶對商品的褒貶程度,有助于商家改進生產(chǎn)及銷售策略。隨著電商平臺用戶和商品的不斷增長,針對各種商品的評論文本信息數(shù)量激增,要求能夠根據(jù)評論情感傾向及時、準(zhǔn)確地自動進行分類,統(tǒng)計好評和差評程度是電商平臺需要考慮解決的問題。情感分析語義計算可用于分析商品評論文本的褒貶性。該方法基于情感詞典匹配,適用的語料范圍較廣,無論是手機、電腦這些商品,還是書評、影評都有相應(yīng)語料。但是詞典匹配需要深入到詞語、句子、語法這些層面,分類結(jié)果會由于語義表達的豐富性而出現(xiàn)較大誤差[1]。監(jiān)督機器學(xué)習(xí)方法也可用于商品評論文本情感分析。樸素貝葉斯分類算法是常用的統(tǒng)計學(xué)習(xí)分類方法,需要人工標(biāo)注訓(xùn)練文本,將訓(xùn)練文本分句分詞,如果直接將分詞作為原始特征進行分類學(xué)習(xí),會大幅度增加分類器的訓(xùn)練時間,而且由于分類效果依賴于訓(xùn)練文本和測試文本之間的相關(guān)性,會引入噪聲特征,影響分類性能[2]。文獻[3,4]研究比較了中文文本分類中文檔頻率、χ2(Chi-Square, CHI)統(tǒng)計等特征選取方法對分類效果的影響。由于針對選定的訓(xùn)練文本進行訓(xùn)練,可能會篩選掉包含著重要判斷信息的情感特征詞,或保留一些無法體現(xiàn)情感傾向的特征詞,而且待測文本需參與較復(fù)雜的特征選擇運算,不利于大規(guī)模在線評論統(tǒng)計分類。
本文提出語義分析和監(jiān)督分類相結(jié)合的方法,為不同類別商品根據(jù)評論語料構(gòu)建領(lǐng)域情感詞典。將評論文本與情感詞典集匹配提取情感特征,構(gòu)建低維數(shù)的情感特征向量空間模型SF-VSM,結(jié)合改進的多項式樸素貝葉斯分類算法構(gòu)建分類器。采集國內(nèi)某電商平臺的三份商品評論文本集作為分析樣本,分別與基于原始特征、χ2特征選擇向量空間模型的樸素貝葉斯分類算法進行了實驗對比。
語義分析算法在分析商品評論文本情感傾向時,首先需讀取某條評論文本并進行分句;然后查找分句的情感詞并賦予相應(yīng)分值,查找程度詞、否定詞和感嘆號并賦予相應(yīng)權(quán)重,統(tǒng)計該分句的好評分值p1和差評分值n1,統(tǒng)計所有分句的好評分值和差評分值;最后計算得到該條評論的好評均值pm和方差pv,以及差評均值nm和方差nv,從而可以得到該條評論的褒貶程度[5]。評論文本分詞后需要和情感詞典比對確定情感傾向,情感詞典包括基礎(chǔ)情感詞典、拓展情感詞典?;A(chǔ)情感詞典包括了一些被廣泛認同的如“好”、“差”等這些情感詞,通常把知網(wǎng)提供的正面/負面評價詞語、正面/負面情感詞語和臺灣大學(xué)簡體中文情感極性詞典的positive/negative詞典消重之后組合在一起,構(gòu)成基礎(chǔ)積極/消極情感詞典,同時需要對知網(wǎng)提供的程度級別詞語進行權(quán)值的設(shè)置。將基礎(chǔ)情感詞典通過同義詞詞典找到情感詞的同義詞,這樣就拓展了基礎(chǔ)情感詞典,稱為拓展情感詞典[6]。
機器學(xué)習(xí)方法分類商品評論文本情感時,需先選出一部分表達積極情感的文本和一部分表達消極情感的文本,用概率統(tǒng)計方法進行訓(xùn)練,獲得一個情感分類器。通過情感分類器對所有文本進行積極和消極的二分分類[7],最終的分類可以為評論文本給出好評/1或差評/0這樣的類別,也可以給出好評或差評的概率值。文本分類最常用的文本特征表示模型是向量空間模型VSM,向量空間模型假設(shè)文本中詞條對文本類別所起的作用是相互獨立的,把文本看作一系列無序詞條的集合[8]。如果分類算法直接將訓(xùn)練文本分詞作為特征,則特征項空間維數(shù)太大,會產(chǎn)生稀疏問題和增加計算復(fù)雜度;如果僅限于對分類的訓(xùn)練文本進行特征選擇,將可能會保留一些無情感傾向的無用特征或剔除一些在特定領(lǐng)域有情感傾向的有用特征。本文考慮構(gòu)建不同類型商品的領(lǐng)域情感詞典,結(jié)合基礎(chǔ)和拓展情感詞典,分析提取商品評論文本中的立場、情緒等情感特征,構(gòu)建相應(yīng)的情感特征向量空間模型,降低特征向量空間維數(shù),以達到改善分類精度和提高分類速度的目的。
2.1情感特征向量空間模型
在特定的領(lǐng)域,有些并非基礎(chǔ)的情感詞也有情感傾向,比如“此款手機很耐摔,還防水,挺好!”耐摔、防水是在手機商品這個領(lǐng)域有積極情緒的詞。為確保文本情感特征提取的全面準(zhǔn)確,需要針對不同類別的商品構(gòu)建領(lǐng)域情感詞典。采用基于領(lǐng)域語料的逐點互信息PMI(Point-wise Mutual Information)[9]計算法構(gòu)建領(lǐng)域情感詞典,在相應(yīng)的語料庫中循環(huán)統(tǒng)計特征詞、特征詞與積極基礎(chǔ)情感詞和特征詞與消極基礎(chǔ)情感詞分別出現(xiàn)的數(shù)量。利用這些數(shù)據(jù)計算積極互信息和消極互信息,求兩個互信息之差,差為正則積極、為負則消極。重復(fù)計算不同詞的互信息之差,最后選分值高的特征詞組成領(lǐng)域情感詞,計算方法如下:
(1)
其中word表示被測詞,SO-PMI(word)表示積極互信息和消極互信息之差,Pwords和Nwords分別表示基礎(chǔ)情感詞典中的積極和消極基準(zhǔn)詞,PMI計算如下式:
(2)
其中p(w1,w2)表示被測詞w1與基礎(chǔ)情感詞w2同時出現(xiàn)的概率,p(wi)表示wi出現(xiàn)的概率。設(shè)N為語料庫所有文本數(shù),df (wi)為詞wi在語料庫出現(xiàn)的文本頻率,p(wi)計算如下:
(3)
為不同類型商品構(gòu)建的領(lǐng)域情感詞典會有所不同。如通過對手機評論語料庫的統(tǒng)計分析,能夠獲取“流暢、輕薄、模糊”等情感詞,而服裝類商品則有“合身、得體、褶皺”等情感詞。類別不同而具有相似屬性的商品,如手機、筆記本電腦等IT商品,分別為它們構(gòu)建的領(lǐng)域情感詞典會出現(xiàn)部分相同的情感詞。
基礎(chǔ)情感詞典、拓展情感詞典與領(lǐng)域情感詞典組合而成的情感詞典(L)用三元組描述[10]:
L={C, N, M}
C={ci}i=1,2,…,IN={nj}j=1,2,…,JM={mk}k=1,2,…,K
(4)
其中C代表情感關(guān)鍵詞集,N代表否定詞集,M代表修飾詞集,這些詞匯均可從詞典中自動獲取。給定一條評論文本R,分詞表示為:
R={Rl}l=1,2,…,L
(5)
借助情感詞典從R中提取特征詞,得到情感特征詞集合:
W={wv}={ci,v, nj,v, mk,v}
ci,v∈R∩Cnj,v∈R∩Nmk,v∈R∩M
(6)
每條評論文本被提取的所有情感特征構(gòu)成一個特征向量,所有評論文本中的全部情感特征構(gòu)成空間向量模型SF-VSM,其每一維對應(yīng)一個情感特征,定義如下:
(7)
若為某類商品評論構(gòu)建的原始特征向量空間維數(shù)記為DV,構(gòu)建的情感特征向量空間SF-VSM維數(shù)記為DS,則通過(DV-DS)/DV×100%可以計算得到降維程度。
2.2改進的多項式模型樸素貝葉斯分類算法
需利用分類算法基于SF-VSM模型訓(xùn)練出分類規(guī)則,然后根據(jù)分類規(guī)則判定未知文本的類別。樸素貝葉斯分類是一種常用的文本分類方法,將表示成為向量的待分類文本Di(x1,x2,…,xn)歸到類別集合C={C1, C2,…,Cm}中的某一類。其中Di(x1, x2,…, xn)為待分類文本Di的特征向量,C={C1, C2,…,Cm}為給定的文本類別集合,即求解向量Di(x1, x2,…, xn)屬于給定類別C1, C2,…, Cm的概率值(p1, p2,…, pm),其中pj為Di(x1, x2,…, xn)屬于Cj的概率,則max(p1,p2,…,pm)所對應(yīng)的類別就是文本Di所屬的類別。假設(shè)Di為一任意文本,文本Di屬于Cj的概率為:
(8)
其中P(x1,x2,…,xn)對應(yīng)所有類值是相同的,所以只需估算P(Cj)P(x1,x2,…,xn|Cj),式(8)可轉(zhuǎn)化為如下公式:
(9)
樸素貝葉斯分類假設(shè)在給定的文本類別下,文本特征項是相互獨立的,則有:
(10)
式(9)可簡化為:
(11)
根據(jù)P(Di|Cj)計算方式的不同,樸素貝葉斯分類主要有多變量伯努利模型MBM(Multivariate Bernoulli Model)、多項式模型MM(Multinomial Model)等模型[11]。由于多項式模型考慮了特征項在文本中出現(xiàn)的次數(shù),該信息決定一個文本的類別時具有重要的價值,所以本文采用了多項式模式樸素貝葉斯分類方法。文本屬于類Cj時特征詞xi出現(xiàn)一次的概率為P(xi|Cj),出現(xiàn)nk次的概率為P(xi|Cj)nk,假定共有n個詞,則n=n1+n2+…+nk,則有:
(12)
P(xi|Cj)采用詞頻估算:
(13)
為了避免數(shù)據(jù)稀疏引起的零概率問題,一般會引入laplace平滑因子[12],如下式:
(14)
式中V是訓(xùn)練樣本的特征詞表。如果訓(xùn)練集中某類別包含的特征詞量較大,而其他類別包含的特征詞量相對少,利用式(14)計算可能會造成較大的估計偏差。提出采用修正的平滑因子λ,λ取特征項xi在所有類中出現(xiàn)的概率,即λ=P(xi|C),式(14)調(diào)整為下式:
(15)
先驗概率P(Cj)計算如下:
(16)
對于給定的待測文本Di,通過式(11)、式(15)和式(16)表示的模型計算后驗概率分布,將后驗概率最大的類作為Di的類輸出。
2.3算法描述
提出的中文商品評論文本情感傾向分類算法主要步驟描述如下:
(1) 針對要處理的某類商品,利用2.1節(jié)式(1)-式(3)基于相應(yīng)評論語料庫構(gòu)建領(lǐng)域情感詞典;
(2) 將該類中文商品評論集預(yù)處理,人工標(biāo)注文本所屬類別,標(biāo)注每條評論屬于好評或差評;
(3) 采用交叉驗證方法,將標(biāo)注文本分為訓(xùn)練文本和測試文本;
(4) 將訓(xùn)練文本分句、分詞,去除停用詞和高頻詞,構(gòu)成初始文本向量;
(5) 將初始文本向量與基礎(chǔ)情感詞典、拓展情感詞典和領(lǐng)域情感詞典,提取情感詞特征,根據(jù)2.1節(jié)式(4)-式(7)構(gòu)建SF-VSM;
(6) 基于SF-VSM和式(15)計算每個情感特征項對類別進行劃分的條件概率,記錄結(jié)果;
(7) 根據(jù)式(16)計算好評和差評兩個類別在訓(xùn)練文本集中出現(xiàn)的頻率,記錄結(jié)果;
(8) 輸入測試文本,依據(jù)(4)、(5)步生成測試文本情感特征向量;
(9) 利用式(7)計算測試文本情感特征向量分別屬于兩個類的概率,將測試文本分配到概率最大的類別中,記錄分配結(jié)果;
(10) 針對所有測試文本,重復(fù)(8)、(9)步,統(tǒng)計所有測試文本分配結(jié)果和實際標(biāo)注的類別一致次數(shù),計算分類準(zhǔn)確率;
(11) 重復(fù)(3)-(10)步,多次迭代計算分類平均準(zhǔn)確率;
(12) 輸入待分類評論文本,依據(jù)(4)、(5)步生成待分類評論文本情感特征向量;
(13) 利用式(7)計算待分類評論文本情感特征向量分別屬于兩個類的概率,將待分類評論文本分配到概率最大的類別中,輸出結(jié)果,算法結(jié)束。
算法步驟中(4)-(7)步生成分類器,(8)-(11)步測試分類準(zhǔn)確率,(12)、(13)步完成待分類評論文本的分類。
實驗比較三種算法對中文商品評論文本情感傾向的分類效果。算法一是文中提出的基于情感特征向量空間模型的改進多項式模型樸素貝葉斯分類算法。算法二是基于原始特征向量空間模型的多項式模型樸素貝葉斯分類算法,該算法直接將評論文本分詞作為特征項。算法三是基于χ2特征選擇向量空間模型的多項式模型樸素貝葉斯分類算法[13]。χ2統(tǒng)計方法假設(shè)詞條和文本類別之間符合具有一階自由度的χ2分布,通過衡量詞條與文本類別之間的相關(guān)程度選擇特征以降低特征空間的維數(shù)。
3.1實驗數(shù)據(jù)與評價指標(biāo)
實驗數(shù)據(jù)采集自國內(nèi)某電商平臺指定型號的數(shù)碼相機、手機、筆記本的用戶評論,其中數(shù)碼相機評論7067條,手機評論11 125條,筆記本評論23 379條。鑒于評論分類是二分類問題,將三份評論進行剔除保留處理,人工分類標(biāo)注,得到數(shù)碼相機評論好評和差評均為2409條,手機評論好評和差評均為4742條,筆記本評論好評和差評均為8653條。
算法一使用的基礎(chǔ)情感詞典由知網(wǎng)提供的情感詞語和臺灣大學(xué)簡體中文情感極性詞典消重組合在一起,拓展情感詞典采用哈工大信息檢索研究中心同義詞詞林?jǐn)U展版。從http://www.datatang.com下載關(guān)于數(shù)碼相機、手機、筆記本相應(yīng)的評論語料庫。根據(jù)2.1節(jié)提出的方法分別構(gòu)建數(shù)碼相機、手機、筆記本對應(yīng)的領(lǐng)域情感詞典,其中數(shù)碼相機領(lǐng)域情感詞典中有502個褒義詞、170個貶義詞,手機領(lǐng)域情感詞典中有810個褒義詞、352個貶義詞,筆記本領(lǐng)域情感詞典中有838個褒義詞、368個貶義詞。
查準(zhǔn)率(precision)、召回率(recall)和微平均(F1)作為評價分類效果的指標(biāo)[14]。查準(zhǔn)率是指算法正確分類到某個類別的評論文本數(shù)與算法分類到該類別的評論文本數(shù)的比率;召回率是算法正確分類到某個類別的評論文本數(shù)與人工分類到該類別的評論文本數(shù)的比率;F1微平均值綜合考慮了查準(zhǔn)率和召回率兩個指標(biāo),計算公式如下:
(17)
3.2實驗結(jié)果與分析
程序用Java語言實現(xiàn),采用10折交叉驗證法進行訓(xùn)練和測試,每次分配訓(xùn)練文本和測試文本后,交給三種算法運算處理,記錄訓(xùn)練時間和測試時間,計算評價指標(biāo)值,并重復(fù)10次取平均值。程序在Intel pentium4 3.2 GHz的CPU,內(nèi)存4 GB的PC機,Windows 7操作系統(tǒng)上運行測試。
實驗中統(tǒng)計對比得到,針對數(shù)碼相機評論,相比于算法二為其構(gòu)建的原始特征向量空間,算法一為其構(gòu)建的情感特征向量空間維數(shù)下降了53.4%。而手機評論特征空間維數(shù)下降了51.7%,筆記本評論特征空間維數(shù)下降了52.3%。三種算法的分類效果如圖1所示。
圖1 三種算法分類效果
從實驗結(jié)果可以看出,算法一的分類精度高于算法二和算法三。當(dāng)對筆記本評論分類時算法二分類效果最差,說明特征向量維數(shù)過高造成噪聲數(shù)據(jù)過多,影響了分類精度。當(dāng)對數(shù)碼相機評論分類時,由于訓(xùn)練文本較少,算法三保留了過多的低頻詞,這些低頻詞并非情感特征,大都是噪音詞,不應(yīng)作為特征,相比于算法二,分類效果提升并不明顯。由于實驗?zāi)康氖亲R別評論屬于好評或差評,應(yīng)主要考慮文本情感特征,而中文商品評論文本的情感特征比較豐富,情感詞與評價對象之間的對應(yīng)關(guān)系比較清晰。算法一能夠較準(zhǔn)確地提取情感特征,空間維數(shù)相比算法二和算法三都低,而且在計算條件概率時采用了修正的平滑因子,計算準(zhǔn)確率較高。當(dāng)對筆記本評論分類時精度有所下降,但不是特別明顯,說明算法分類性能比較穩(wěn)定。
鑒于算法需實際運用于電商平臺在線評論分類系統(tǒng),3種算法的訓(xùn)練文本訓(xùn)練時間和測試文本分類時間需要測試,時間開銷如表1所示。
表1 三種算法時間開銷
算法二將所有分詞作為特征項,隨著評論文本的增加,詞匯增多,特征向量維數(shù)遠高于算法一和算法三,增加了分類計算復(fù)雜度,計算耗時最長。算法三根據(jù)χ2分布提取特征的計算復(fù)雜度為O(n2),同一類別生成的特征向量維數(shù)仍比算法一要高。算法一分詞匹配提取情感特征的計算復(fù)雜度為O(m×n),生成的SF-VSM維數(shù)均低于算法二和算法三,訓(xùn)練時間開銷較小,測試文本分類時間短,滿足在線評論分類要求。
3.3存在的問題
針對不同類別商品的中文評論文本,提出的算法在情感傾向分類之前,需要完成相關(guān)預(yù)備工作,即收集整理不同類別商品評論語料庫,并通過語義分析方法構(gòu)建領(lǐng)域情感詞典。整理并定期更新完善各類別語料庫,是算法能夠有效運行的前提條件,并且對在線商品評論情感傾向分類時,需要將情感詞典集作為模塊集成到分類程序中,同時需要經(jīng)常更新領(lǐng)域情感詞典。
基于SF-VSM模型結(jié)合改進的多項式樸素貝葉斯算法,能夠快速有效地將中文商品評論文本分類為好評或差評,分類得到的結(jié)果可以為推薦系統(tǒng)提供幫助。差評度較高的商品將不會被推薦給用戶,也可以為在線廣告投放系統(tǒng)提供幫助,好評程度較高的商品相關(guān)廣告可以被投放。針對差評度較高的商品,需要深入分析挖掘差評評論文本,提取意見較大的商品屬性或服務(wù)項目,這樣有助于生產(chǎn)企業(yè)改進商品和銷售企業(yè)改進服務(wù),這也是進一步的研究方向。
[1] Peter T,Michael L.Measuring Praise and Criticism:Inference of Semantic Orientation from Association[J].ACM Transactions on Information Systems,2003,21(4):315-346.
[2] Bing Liu.Sentiment Analysis and Opinion Mining[M].California:Morgan & Claypool Publishers,2012:24-28.
[3] 張瑾.基于改進TF-IDF算法的情報關(guān)鍵詞提取方法[J].情報雜志,2014,33(4):153-155.
[4] 李曉紅.中文文本分類中的特征詞抽取方法[J].計算機工程與設(shè)計,2009,30(17):4127-4129.
[5] 陳曉東.基于情感詞典的中文微博情感傾向分析研究[D].武漢:華中科技大學(xué),2012.
[6] 周詠梅,楊佳能.面向文本情感分析的中文情感詞典構(gòu)建方法[J].山東大學(xué)學(xué)報:工學(xué)版,2013,43(6):27-33.
[7] 周杰.基于機器學(xué)習(xí)的網(wǎng)絡(luò)新聞評論情感分類研究[J].計算機應(yīng)用,2010,30(4):1011-1014.
[8] Turney P D.Thumbs up Or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews[C]//Proceedings of ACL-02,40th Annual Meeting of the Association for Computational Linguistics.Philadelphia:ACL,2002:417-424.
[9] 王振宇,吳澤衡.基于HowNet和PMI的詞語情感極性計算[J].計算機工程,2012,38(15):187-193.
[10] 夏云慶,楊瑩,張鵬洲,等.基于情感向量空間模型的歌詞情感分析[J].中文信息學(xué)報,2010,24(1):99-103.
[11] Barber D.Bayesian Reasoning and Machine Learning[M].Oxford:Cambridge University Press,2012:227-237.
[12] 杜選.基于加權(quán)補集的樸素貝葉斯文本分類算法研究[J].計算機應(yīng)用與軟件,2014,31(9):253-255.
[13] 徐明,高翔,許志剛,等.基于改進卡方統(tǒng)計的微博特征提取方法[J].計算機工程與應(yīng)用,2014,50(19):113-117.
[14] Manning C M.Introduction to Information Retrieval[M].Oxford:Cambridge University Press,2010:151-173.
CLASSIFICATION ALGORITHM FOR CHINESE PRODUCT REVIEWS TENDENCY BASED ON SENTIMENT FEATURES VECTOR SPACE MODEL
Dong Xianghe
(SchoolofEconomicsandManagement,TianjinUniversityofTechnologyandEducation,Tianjin300222,China)
To classify the Chinese product reviews as positive or negative quickly and efficiently, we propose an algorithm. It builds the domain sentiment lexicon in advance according to the review corpus in regard to the products of different categories, and extracts the sentiment features by matching the reviews text with sentiment lexicon set. Then it builds the sentiment feature vector space model (SF-VSM) to solve the problems of traditional vector space model in higher dimensionality and feature selection error. Afterwards, based on SF-VSM and in combination with the improved multinomial naive Bayes method, it classifies the sentiment tendency of reviews. Experimental results show that the proposed algorithm has higher classification accuracy and classification speed than the naive Bayes algorithms based on primitive vector space model or χ2feature selection respectively.
Chinese product reviewsSentiment tendencySentiment lexiconSentiment feature vector space modelNaive Bayes classification
2015-03-03。天津職業(yè)技術(shù)師范大學(xué)科研發(fā)展基金項目(SK12-01)。董祥和,副教授,主研領(lǐng)域:Web數(shù)據(jù)挖掘,智能信息處理。
TP391
A
10.3969/j.issn.1000-386x.2016.08.071