蔡玉霞,孟佳娜
(大連民族大學(xué) 計算機(jī)科學(xué)與工程學(xué)院,遼寧 大連116605)
隨著淘寶、京東等購物網(wǎng)站的迅猛發(fā)展,網(wǎng)購人數(shù)也隨之快速增加,這讓消費者越來越不知道如何選擇產(chǎn)品。在這樣的背景下,客觀的產(chǎn)品評論傾向性分析顯得尤為必要。本系統(tǒng)通過對產(chǎn)品評論進(jìn)行分詞、去停用詞、特征選擇、權(quán)重計算和LibSVM 分類,完成對評論文本的情感傾向性分類。除此之外,本文將以上研究內(nèi)容通過Java Web 技術(shù)實現(xiàn)可視化,使用者可以直觀、快速的獲得特定類型產(chǎn)品的客戶評價情況。
目前比較典型的情感分類系統(tǒng)有上海交通大學(xué)針對汽車領(lǐng)域的用戶評論情感分類系統(tǒng)、哈爾濱工業(yè)大學(xué)的HIT_IR_OMS 系統(tǒng)以及日本富士通公司開發(fā)的情感分類系統(tǒng)。綜合來看,情感傾向性分類的主體方法分為有監(jiān)督學(xué)習(xí)方法和無監(jiān)督學(xué)習(xí)方法。
在有監(jiān)督學(xué)習(xí)方法方面,Pang 等[1]利用有監(jiān)督學(xué)習(xí)的方法將電影評論分為正面和負(fù)面兩類。在無監(jiān)督學(xué)習(xí)方法方面;Turney[2]提出一種簡單的無監(jiān)督學(xué)習(xí)方法把文本信息分為褒義和貶義,分類過程中采用PMI-IR 方法。近年來,研究人員已經(jīng)開始考慮情感分析中的話題語境和話題因素。
目前,國內(nèi)孫建旺等[3]提出一種能夠有效地對中文微博進(jìn)行情感分類的方法;張偉等[4]提出一種細(xì)粒度級別的情感分類方法對在線客戶評論進(jìn)行情感分類;劉全超等[5]優(yōu)化了多特征的微博話題情感傾向性判定算法。隨著人們對情感分類領(lǐng)域的不斷投入,情感傾向性分類的研究正不斷的向前推進(jìn)。
本文使用互聯(lián)網(wǎng)公開的評論文本作為語料集,對語料進(jìn)行了預(yù)處理,進(jìn)而計算特征項的權(quán)重,并將所得到的模型放在分類系統(tǒng)中進(jìn)行傾向性分析,最后將整個過程設(shè)計成一個能夠?qū)Ξa(chǎn)品評論進(jìn)行分類的系統(tǒng)。文本預(yù)處理階段主要包括中文自動分詞、去停用詞、特征選擇和構(gòu)建詞典四個步驟。在特征項的權(quán)重計算階段使用布爾權(quán)值計算法,最后在分類系統(tǒng)中進(jìn)行情感分類的對比實驗。
產(chǎn)品評論情感傾向性分類系統(tǒng)實現(xiàn)了對特定網(wǎng)購產(chǎn)品評論的情感分類,在上述算法的基礎(chǔ)上,通過Java Web 技術(shù)實現(xiàn)該系統(tǒng)的可視化。本系統(tǒng)登錄階段分為管理員登錄和用戶登錄,不同登錄者擁有的權(quán)限和可進(jìn)行的操作如圖1:
圖1 系統(tǒng)設(shè)計功能模塊圖
產(chǎn)品評論情感傾向性分類,是指給定某個產(chǎn)品的評論,對該類評論分類成正面評論和負(fù)面評論。本文所設(shè)計的情感傾向性分類系統(tǒng)的具體步驟如下:
自動分詞技術(shù)[6]目前主要有機(jī)械分詞法、基于理解的分詞方法以及基于統(tǒng)計的分詞方法等,本系統(tǒng)通過調(diào)用張華平教授NLPIR 漢語分詞系統(tǒng)[7]的源碼進(jìn)行環(huán)境配置,實現(xiàn)在產(chǎn)品評論分類系統(tǒng)的Web 界面調(diào)用分詞代碼,完成自動分詞功能。
由于產(chǎn)品評論經(jīng)過分詞之后變成一個一個詞條的集合,這樣造成了文本的維數(shù)較大,因此在本實驗中,采用哈工大擴(kuò)展后的停用詞表[8],特征集經(jīng)過去停用詞處理之后維數(shù)大大縮減。
整個過程本系統(tǒng)采用向量空間模型(VSM)[9],產(chǎn)品評論文本經(jīng)過分詞、去停用詞之后,仍需要特征選擇降低維數(shù),本系統(tǒng)分別使用卡方公式、信息增益進(jìn)行特征選擇實驗。在進(jìn)行特征選擇之前需獲取訓(xùn)練集中的如下統(tǒng)計信息:
P(t):文檔中含特征t 的概率;
P(Ci):文檔屬于類別Ci的概率;
P(t,Ci):文檔含特征t 并又屬于類別Ci的聯(lián)合概率;
P(t|Ci):文檔含特征t 同時屬于類別Ci的概率;
特征選擇時的卡方公式的計算方法為:
通過Java 代碼運用信息增益和卡方公式分別進(jìn)行特征選擇,進(jìn)而構(gòu)建含有不同特征維數(shù)的Hashmap 詞典,分別通過不同特征維數(shù)百分比進(jìn)行對比試驗,以獲得最佳產(chǎn)品評論情感傾向性分類結(jié)果。
系統(tǒng)權(quán)重的計算采用布爾權(quán)重計算法。根據(jù)特征項t 是否在文檔D 中出現(xiàn),出現(xiàn)賦值1,反之賦值0。支持向量機(jī)[10]的原理是將低維空間中的點一一映射到高維空間中去,使其成為線性可分的,再通過線性劃分原理判斷分類邊界。本系統(tǒng)使用70%的產(chǎn)品評論文本集進(jìn)行訓(xùn)練,30%的相應(yīng)評論作為測試集,通過LibSVM 分類器[11]建立模型,并對測試集數(shù)據(jù)進(jìn)行情感傾向性分類。
使用來自譚松波博士[12]分享的一個中文互聯(lián)網(wǎng)評論語料,該語料包括notebook、book 和hotel三種類型的產(chǎn)品評論文本,各類中正面評論2000個、負(fù)面評論2000 個。實驗中將每類語料中的70%文檔為訓(xùn)練集,30 %文檔為測試集。
該實驗分別采用卡方公式和信息增益對原本含有7 122 個特征詞的notebook 類、含有16 908個特征詞的book 類和含有13 718 個特征詞的hotel 類進(jìn)行特征選擇,通過布爾權(quán)重計算法計算權(quán)重,并在LibSVM 中進(jìn)行情感傾向性分類,三類產(chǎn)品評論分別經(jīng)過信息增益、卡方公式選擇一定百分比的特征在LibSVM 中進(jìn)行情感傾向性分類的效果如圖2、圖3。
由圖2 可知,三類產(chǎn)品評論均采用信息增益進(jìn)行特征選擇的情況下,notebook 類在特征總維數(shù)4 %時取得最佳分類效果,準(zhǔn)確率達(dá)81.07 %;book 類在特征總維數(shù)2 %情況下兩種特征選擇方法對情感分類效果均取得最優(yōu)效果,最終情感分類準(zhǔn)確率為86.5 %;hotel 類在特征總維數(shù)的5 %時取得最佳分類效果,準(zhǔn)確率達(dá)83.42 %。
由圖3 可知,三類產(chǎn)品評論均采用卡方公式進(jìn)行特征選擇的情況下,notebook 類在特征總維數(shù)2 %時取得最佳分類效果,準(zhǔn)確率達(dá)80.73 %;book 類在特征總維數(shù)的2 %情況下與信息增益同時取得最佳分類效果,卡方公式最佳的情感分類準(zhǔn)確率為86.75 %;hotel 類在特征總維數(shù)的4 %時取得最佳分類效果,準(zhǔn)確率達(dá)83.5 %。
圖2 信息增益特征選擇下三類產(chǎn)品評論情感傾向性分類準(zhǔn)確率
圖3 卡方公式特征選擇下三類產(chǎn)品評論情感傾向性分類準(zhǔn)確率
實驗結(jié)果表明,信息增益和卡方公式可以在不損失情感分類效率的前提下顯著降低特征向量的維度并有效提高情感分類準(zhǔn)確率,由此可知在產(chǎn)品評論情感傾向性分類的實驗過程中有必要考慮特征維數(shù)對情感分類結(jié)果的影響。
根據(jù)以上實驗結(jié)果,三類產(chǎn)品評論分別采用兩種不同的特征選擇方法最終情感分類效果的對比如圖4 -圖6。圖4 表明,notebook 類特征維數(shù)百分比在10 %以上的情況下卡方公式具有明顯優(yōu)勢;特征維數(shù)百分比在5 %以下時信息增益占優(yōu)勢;圖5 顯示,book 類特征維數(shù)百分比在0.5 %以上時卡方公式準(zhǔn)確率高于信息增益,而在0.5 %以下時信息增益對分類效果影響更好,整體而言卡方公式對book 類產(chǎn)品評論的情感分類效果優(yōu)于信息增益;圖6 表明,hotel 類特征維數(shù)在5 %以上卡方公式和信息增益對情感分類效果的影響完全相同,而在4 %以下卡方公式具有明顯優(yōu)勢,僅在2 %時信息增益的分類效果略微高出一點。
通過實驗可知,兩種特征選擇方法各有利弊,信息增益方法的優(yōu)點是更全面的考慮了所有特征詞包括未出現(xiàn)詞對文本分類結(jié)果的影響,這樣可提高文本分類的效果,但統(tǒng)計量過大不利于推廣;卡方公式的優(yōu)點是得到的值是歸一化的值,但該方法只關(guān)心出現(xiàn)次數(shù)特別多的特征詞,很多情況下低頻詞對類別有很大的代表性,即卡方的“低頻詞缺陷”,因此開方經(jīng)常同其他因素綜合考慮。
綜合以上實驗結(jié)果和兩種特征選擇方法的特點可知,在特征維數(shù)不同的情況下卡方公式和信息增益兩個特征選擇方法的分類效果各具優(yōu)勢,此外特征選擇算法的效果也與文本分類的算法有關(guān),本實驗中整體而言卡方統(tǒng)計法表現(xiàn)更好。
圖4 信息增益和卡方公式分別對notebook 類情感分類效果對比
圖5 信息增益和卡方公式分別對book 類情感分類效果對比
圖6 信息增益和卡方公式分別對hotel 類情感分類效果對比
在自然語言處理的領(lǐng)域中,情感傾向性分類已然成為持續(xù)升溫的研究熱點,產(chǎn)品評論的情感傾向性分類隨著愈加火熱的網(wǎng)購的發(fā)展變得更加炙手可熱。本系統(tǒng)在文本預(yù)處理、特征選擇、權(quán)重計算、分類算法的基礎(chǔ)上,設(shè)計出產(chǎn)品評論情感傾向性分類系統(tǒng),實現(xiàn)了對產(chǎn)品評論進(jìn)行情感分類的功能,方便網(wǎng)購消費者、廠家、商家更直觀、確切地把握該產(chǎn)品的客戶反饋結(jié)果。
[1]PANG B,LEE L,VAITHYANATHAN S. Thumbs up:sentiment classification using machine learning techniques[C]. In Proc. of the ACL-02 conference on Empirical methods in natural language processing - Volume 10,Stroudsburg,PA,USA:Association for Computational Linguistics,2002. 79 -86.
[2]TURNEY P.Thumbs Up or Thumbs Down Semantic Orientation Applied to Unsupervised Classification of Reviews[C]. In Proc. of the ACL’02.Philadelphia,USA:2002,417 -424.
[3]孫建旺,呂學(xué)強(qiáng),張雷瀚.基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析研究[J]. 計算機(jī)應(yīng)用與軟件,2014,31(7):177 -181.
[4]張偉,李培峰,朱巧明.基于樹核函數(shù)的英文句子情感分類研究[J].計算機(jī)應(yīng)用與軟件,2011,28(4):30 -32,39.
[5]劉全超,黃海燕,馮沖.基于多特征微博話題情感傾向性判定算法研究[J].中文信息學(xué)報,2014,28(4):124-131.
[6]項煒,金彭.基于詞頻學(xué)習(xí)和動態(tài)詞頻更新的藏文自動分詞系統(tǒng)設(shè)計[J]. 計算機(jī)應(yīng)用與軟件,2014,31(5):106 -109.
[7]張華平. NLPIR 漢語分詞系統(tǒng)[EB/OL].[2013 -11-11]. http:∥ictclas.nlpir.org/.
[8]哈爾濱工業(yè)大學(xué)社會計算與信息檢索研究中心. 哈工大停用詞表[EB /OL].[2013 -05 -30]. http:∥ir.hit.edu.cn/.
[9]郭鳳嬌,李長玲,王曉笛,等. 基于向量空間模型的學(xué)科交叉文獻(xiàn)發(fā)現(xiàn)研究——以情報學(xué)和計算機(jī)學(xué)科為例[J].情報雜志,2014,33(3):172 -175.
[10]LEWIS D D. Naive (Bayes)at forty:The independence assumption in information retrieval[C]. In Proc.of the 10th European Conf. on Machine Learning(ECML),1998,4 -15.
[11]CHANG C C,LIN C J. LIBSVM :a library for support vector machines[J] ACM Transactions on Intelligent Systems and Technology,2007,2(3):389 -396.
[12]譚松波. 中文情感挖掘語料——ChnSentiCorp[EB/OL].[2012 -08 -10]. http://www.searchforum.org.cn/tansongbo/corpus.htm.