梁曌 陳思宇 梁小林 康欣
摘 要 產(chǎn)品垃圾評(píng)論在一定程度上影響了評(píng)論信息的參考價(jià)值,本文旨在建立識(shí)別模型將垃圾評(píng)論從評(píng)論文本中剔除,保留真實(shí)的產(chǎn)品評(píng)論。首先,分析了產(chǎn)品評(píng)論的特點(diǎn),從數(shù)據(jù)搜集、文本預(yù)處理、互信息檢驗(yàn)、文本表示4個(gè)模塊提取了14個(gè)特征。然后,利用高互補(bǔ)性建立了基于KNN和Bayes算法的組合分類器模型。最后,利用交叉驗(yàn)證對(duì)iPhone 6 Plus的產(chǎn)品評(píng)論進(jìn)行檢驗(yàn),得到評(píng)價(jià)指標(biāo)分別為:正確識(shí)別率75.3%、召回率82.1%以及F1值77.5%.
關(guān)鍵詞 KNN算法;Bayes算法;組合分類器;互信息;交叉驗(yàn)證
中圖分類號(hào) O213;TP18 文獻(xiàn)標(biāo)識(shí)碼 A
1 引 言
電子商務(wù)的異軍突起促使網(wǎng)購(gòu)走進(jìn)人們的日常生活,網(wǎng)購(gòu)的同時(shí),多數(shù)網(wǎng)民會(huì)在不受約束的情況下對(duì)相關(guān)產(chǎn)品發(fā)表評(píng)論,而這種隨意性往往使得這些產(chǎn)品評(píng)論中充斥了大量無(wú)用的、不真實(shí)的信息,這些信息就是垃圾評(píng)論.垃圾評(píng)論在一定程度上影響了評(píng)論信息的參考價(jià)值,從而誤導(dǎo)潛在消費(fèi)者并干擾銷售商對(duì)銷售業(yè)績(jī)的評(píng)價(jià).產(chǎn)品垃圾評(píng)論的識(shí)別旨在解決這一問(wèn)題,將垃圾評(píng)論從評(píng)論文本中剔除,保留真實(shí)的產(chǎn)品評(píng)論,為用戶提供可靠的參考依據(jù).
結(jié)合近幾年垃圾評(píng)論識(shí)別的文獻(xiàn)可知,垃圾評(píng)論識(shí)別的關(guān)鍵問(wèn)題是文本特征的提取與分類算法的選擇.N Nitin Jamal和Bing Liu等[1]首次對(duì)垃圾評(píng)論進(jìn)行了分類,很好地識(shí)別了英文領(lǐng)域中存在的無(wú)用評(píng)論,但由于中英文之間存在差異,往往英文領(lǐng)域的垃圾識(shí)別方法不能直接有效地應(yīng)用到中文領(lǐng)域當(dāng)中.游貴榮等[2]提出了中文垃圾評(píng)論的特征提取方法,邱云飛等[3]、吳敏等[4]、李霄等[5]分別從用戶行為、產(chǎn)品特征的顯著性檢驗(yàn)以及信息的有用性角度對(duì)垃圾評(píng)論的識(shí)別進(jìn)行了研究,但在分類器的選取上,上述學(xué)者均采用單一算法的分類模型,如單一的Logistic回歸算法等.大量的理論與實(shí)驗(yàn)結(jié)果表明,多分類器系統(tǒng)不但可以提高分類的正確率,而且可以提高識(shí)別系統(tǒng)的泛化能力和魯棒性.與此同時(shí)所有分類器都參與集成的效果并非最好,從眾多分類器中選擇部分互補(bǔ)性強(qiáng)的分類器進(jìn)行集成可以提高集成的效率并改善其效果[6].因此本文在建立文本特征表示模型的基礎(chǔ)上,提出了用高互補(bǔ)性組合分類器對(duì)評(píng)論進(jìn)行識(shí)別和過(guò)濾.
2 文本特征的提取
2.1 產(chǎn)品評(píng)論的特點(diǎn)與垃圾評(píng)論的分類
為了更準(zhǔn)確地識(shí)別垃圾評(píng)論,首先探討產(chǎn)品評(píng)論的特征.
通過(guò)對(duì)中文產(chǎn)品評(píng)論中的評(píng)論文本進(jìn)行分析,總結(jié)出中文產(chǎn)品評(píng)論領(lǐng)域的特點(diǎn)主要體現(xiàn)在以下幾個(gè)方面:
1)評(píng)論文本格式自由多樣;
2)評(píng)價(jià)對(duì)象的多樣化;
3)評(píng)論內(nèi)容具有近似重復(fù)性;
可分為①由不同評(píng)論者針對(duì)同一產(chǎn)品發(fā)表的近似重復(fù)評(píng)論;②由同一評(píng)論者針對(duì)不同產(chǎn)品發(fā)表的近似重復(fù)評(píng)論;③由不同評(píng)論者針對(duì)不同產(chǎn)品發(fā)表的近似重復(fù)評(píng)論;
4)不真實(shí)評(píng)論;
5)廣告;
6)不帶有感情色彩的隨機(jī)文本.
基于以上分析,將垃圾評(píng)論定義為以下5種類型:-
1)非指定產(chǎn)品的評(píng)論:該類評(píng)論的特點(diǎn)為它雖然是評(píng)論,但只對(duì)品牌和制造商,甚至是站點(diǎn)評(píng)論,而沒(méi)有針對(duì)當(dāng)前產(chǎn)品本身進(jìn)行評(píng)論,或者確實(shí)是對(duì)產(chǎn)品進(jìn)行了評(píng)論,但是評(píng)錯(cuò)了產(chǎn)品.如在蘋(píng)果手機(jī)的評(píng)論中,“買SONYZ3也不錯(cuò)啊,很漂亮,旗艦機(jī)...”等
2)虛假評(píng)論:如“我這有全新的iPhone6 Plus,只要99元”等.
3)廣告評(píng)論:如“蘋(píng)果超愛(ài)大屏幕3 500元拿現(xiàn)貨QQ熱購(gòu)122929079”
4)無(wú)意義文本:
①個(gè)人的消費(fèi)經(jīng)歷,如“再爛都永遠(yuǎn)有人瘋搶,飄揚(yáng)過(guò)海甚至成為一部手機(jī),實(shí)在不懂.”②人身攻擊,如“用蘋(píng)果的都是腦殘”等,③其他無(wú)關(guān)文本,如“信號(hào)不好等”“轉(zhuǎn)給我唄?”
5)咨詢性評(píng)論:只是詢問(wèn)關(guān)于產(chǎn)品的情況,而不是評(píng)論.如“多少錢呢?”.
2.2 特征提取與量化
為了建立產(chǎn)品垃圾評(píng)論識(shí)別模型,根據(jù)2.1節(jié)的分析結(jié)果,分4個(gè)模塊對(duì)產(chǎn)品評(píng)論文本進(jìn)行特征提取與量化.
模塊一 數(shù)據(jù)的搜集
本文采用WebHarvest網(wǎng)絡(luò)爬蟲(chóng)對(duì)京東商城和天貓商城內(nèi)多個(gè)商家的iPhone 6 Plus的產(chǎn)品評(píng)論進(jìn)行爬取,得到由兩萬(wàn)條產(chǎn)品評(píng)論組成的數(shù)據(jù)集A0,同時(shí)對(duì)蘋(píng)果官網(wǎng)上關(guān)于iPhone 6 Plus的產(chǎn)品參數(shù)進(jìn)行爬取,得到產(chǎn)品屬性數(shù)據(jù)集B0.
模塊二 對(duì)爬取的數(shù)據(jù)集進(jìn)行預(yù)處理
1)構(gòu)造用戶詞典.用戶詞典包括停用詞詞典、極性詞詞典,其中極性詞詞典主要是由HowNet極性詞加上一些評(píng)論作者常用的、和表達(dá)情感有關(guān)的網(wǎng)絡(luò)流行詞,及一些口語(yǔ)化的詞語(yǔ)與縮寫(xiě)組成,用以表達(dá)用戶褒貶傾向和感情色彩.停用詞詞典由網(wǎng)絡(luò)上現(xiàn)有的停用詞詞表加上針對(duì)垃圾評(píng)論特性的停用詞組成[7-9].
2)文本分詞.中文單詞是評(píng)論信息處理的基礎(chǔ),分詞工具采用中科院提供的分詞工具ICTCLAS 2015分詞系統(tǒng)[10],其主要功能包括中文分詞、詞性標(biāo)注,同時(shí)允許用戶向系統(tǒng)中導(dǎo)入自定義詞典以提高特定領(lǐng)域的分詞效果,因此,將上述用戶詞典與產(chǎn)品屬性數(shù)據(jù)集B0作為自定義詞典導(dǎo)入ICTCLAS分詞系統(tǒng)后,對(duì)數(shù)據(jù)集進(jìn)行逐條分詞、詞性標(biāo)注以及情感詞標(biāo)注,得到預(yù)處理后的數(shù)據(jù)集A.
模塊三 特征的互信息檢驗(yàn)
為了選取最能表達(dá)文本信息內(nèi)容的特征,本文從被評(píng)論的商品、評(píng)論者、文本結(jié)構(gòu)、情感傾向、主題詞五個(gè)屬性提取特征,在提取特征之前,先利用互信息說(shuō)明這5個(gè)屬性對(duì)識(shí)別垃圾評(píng)論具有顯著相關(guān)性.-
互信息是2個(gè)事件集合之間的相關(guān)性,通常用來(lái)衡量某個(gè)屬性和類別之間的統(tǒng)計(jì)獨(dú)立關(guān)系,互信息量越大,代表特征項(xiàng)與類別之間的貢獻(xiàn)概率也越大.現(xiàn)對(duì)所選特征進(jìn)行互信息檢驗(yàn),旨在說(shuō)明所選屬性能在一定程度上反應(yīng)該條評(píng)論的信息,即所選屬性項(xiàng)是互信息量較大的詞條,互信息(MI)定義如下endprint
2)高互補(bǔ)性分類器
高互補(bǔ)性分類器組合的構(gòu)建流程大致為:首先構(gòu)造一定數(shù)量的候選分類器如Bayes分類器、KNN分類器、SVM分類器和logistics回歸分類器等,計(jì)算分類器之間的相關(guān)程度,然后根據(jù)相關(guān)系數(shù)對(duì)候選分類器進(jìn)行排序,并依據(jù)可信度,選擇出對(duì)目標(biāo)有較高識(shí)別率的分類器組合.
首先,驗(yàn)證單一算法分類器的局限性.利用數(shù)學(xué)軟件MATLAB,對(duì)其進(jìn)行基于多層BP網(wǎng)絡(luò)的識(shí)別模式的標(biāo)記,對(duì)上述四種分類器用SPSS比較其準(zhǔn)確率,召回率以及Fmeasure值.得表2.由表2,垃圾評(píng)論識(shí)別的準(zhǔn)確率相對(duì)偏低,不少數(shù)量的正常評(píng)論被識(shí)別為垃圾評(píng)論;其召回率也不高,直觀來(lái)看是有些垃圾評(píng)論被判別為正常評(píng)論.可見(jiàn)單一分類算法的過(guò)濾效果并不理想,本質(zhì)原因是分詞的不準(zhǔn)確性使得評(píng)論文本特征有限的缺點(diǎn)充分暴露,以致于對(duì)結(jié)果的準(zhǔn)確性產(chǎn)生很大影響,而且Bayes分類器要求各個(gè)特征項(xiàng)之間相互獨(dú)立,這顯然于現(xiàn)實(shí)不符.同時(shí)也從側(cè)面說(shuō)明單一算法的分類器對(duì)數(shù)據(jù)量要求很大,需要對(duì)較為完備的訓(xùn)練集特征進(jìn)行學(xué)習(xí)[6].
為了更準(zhǔn)確地進(jìn)行垃圾評(píng)論識(shí)別,本文對(duì)各分類器進(jìn)行組合,得到高互補(bǔ)性分類器.根據(jù)高互補(bǔ)性分類器組合理論,利用相關(guān)系數(shù)對(duì)上述4種分類器的互補(bǔ)性進(jìn)行分析,即相關(guān)系數(shù)大的分類器組合互補(bǔ)性弱,相關(guān)系數(shù)小的分類器組合互補(bǔ)性強(qiáng).
利用SPSS軟件對(duì)其進(jìn)行相關(guān)分析,見(jiàn)表3.
由表3,相關(guān)系數(shù)的大小排序?yàn)椋?/p>
SVM+Bayes>SVM+KNN>Bayes+LR> LR+KNN>LR + SVM>Bayes+KNN.
其對(duì)偶命題互補(bǔ)性排序?yàn)椋?/p>
SVM+Bayes LR+KNN 可見(jiàn)Bayes分類器和KNN分類器的相關(guān)性最低且顯著性均大于0.01,即可認(rèn)為他們之間的互補(bǔ)性最強(qiáng),存在統(tǒng)計(jì)學(xué)意義.而SVM分類器和Bayes分類器的相似度較高,且顯著性大于0.01,認(rèn)為存在統(tǒng)計(jì)學(xué)意義.為了進(jìn)一步驗(yàn)證這4種分類器的互補(bǔ)性,對(duì)這6個(gè)組合進(jìn)行聚類檢驗(yàn). 用SPSS軟件對(duì)其進(jìn)行聚類分析,結(jié)果見(jiàn)表4 由上可知,互補(bǔ)性最強(qiáng)的組合分類器為Bayes+KNN分類器. 3.4 模型的交叉驗(yàn)證 本文利用WebHarvest爬蟲(chóng)從天貓和京東商城爬取了20 000條評(píng)論作為原始數(shù)據(jù)集A0,將構(gòu)建好的用戶詞典與產(chǎn)品屬性數(shù)據(jù)集B0導(dǎo)入ICTCLAS 2015分詞系統(tǒng)后,得到預(yù)處理數(shù)據(jù)集A,對(duì)A中的每個(gè)數(shù)據(jù)類型進(jìn)行人工標(biāo)記,再隨機(jī)地將其等分成4份得到A1、A2、A3、A4. 先以數(shù)據(jù)集A1為檢驗(yàn)集,A2,A3,A4為訓(xùn)練集,計(jì)算模型的性能指標(biāo).首先將數(shù)據(jù)集A2,A3,A4的特征向量導(dǎo)入Bayes+KNN組合分類器對(duì)其進(jìn)行訓(xùn)練,然后將檢驗(yàn)集A1的特征向量導(dǎo)入到已訓(xùn)練好的分類器中,得出檢驗(yàn)集中相應(yīng)評(píng)論是非垃圾評(píng)論還是垃圾評(píng)論,最后根據(jù)分類器對(duì)每條評(píng)論判定的結(jié)果以及人工標(biāo)記,計(jì)算該訓(xùn)練集和檢驗(yàn)集組合下,分類器的性能指標(biāo).用同樣的方法得到依次以A2、A3、A4為檢驗(yàn)集的分類器的性能指標(biāo),相關(guān)結(jié)果見(jiàn)表5.-將上述3個(gè)評(píng)價(jià)值平均得,基于KNN算法和Bayes算法的垃圾評(píng)論識(shí)別模型的最終準(zhǔn)確率達(dá)到75.3%,召回率為82.1%,F(xiàn)1值為77.5%,結(jié)果較為理想,有應(yīng)用價(jià)值. 4 結(jié)束語(yǔ) 垃圾評(píng)論識(shí)別的關(guān)鍵問(wèn)題是文本特征的提取與分類算法的選擇.本文根據(jù)中文評(píng)論的特點(diǎn)提取了14個(gè)特征,并利用組合分類器算法對(duì)垃圾評(píng)論進(jìn)行了識(shí)別,得到了較理想的結(jié)果.通過(guò)搭建基于Hadoop的大數(shù)據(jù)平臺(tái)集群,本模型可推廣到一個(gè)基于通過(guò)海量數(shù)據(jù)集進(jìn)行訓(xùn)練的垃圾評(píng)論問(wèn)題,從而實(shí)現(xiàn)此模型適用于更一般產(chǎn)品的垃圾評(píng)論的檢測(cè)目標(biāo).- 參考文獻(xiàn) [1] N JINDAL, B LIU.Opinion spam and analysis[C]//Proceedings of the first ACM international conference on Web search and data mining,2008:219-229. [2] 游貴榮,吳為,錢沄濤.電子商務(wù)中垃圾評(píng)論檢測(cè)的特征提取方法[J].情報(bào)分析與研究.2014,251(10):93-100. [3] 邱云飛,王建坤,邵良彬等.基于用戶行為的產(chǎn)品垃圾評(píng)論者監(jiān)測(cè)研究[J].計(jì)算機(jī)工程.2012,38(11):254-257,261. [4] 吳敏,何瓏.融合多特征的產(chǎn)品評(píng)論識(shí)別[J].微型機(jī)與應(yīng)用.2012,31(22):85-87. [5] 李霄,丁晟春.垃圾商品評(píng)論信息的識(shí)別研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù).2013,29(1):63-68. [6] H J KANG,D DOERMANN.Selection of classifiers for the construction of multiple classifier systems[C]//Proceedings of the 8th- international conference on Document Analysis and Recognition. Seoul, Korea, 2005,1194-1198. [7] 知網(wǎng)[DB/OL].HowNet Knowledge Database[DB/OL].[2013-11-05]. http://www.keenage.com/ . [8] 趙文婧.產(chǎn)品描述詞及情感詞抽取模式的研究[D].北京:北京郵電大學(xué)計(jì)算機(jī)學(xué)院,2010. [9] 顧益軍,樊孝忠,王建華.中文停用詞表的自動(dòng)選擇[J].北京理工大學(xué)學(xué)報(bào).2005,25(4):337-340. [10]ICTCLAS 漢語(yǔ)分詞系統(tǒng) (ICTCLAS Chinese Lexical Analysis System [CP/OL].[2015-10-05].http://www.ictclas.org/. [11]C C CHEN, Y D TSENG. Quality evaluation of product reviews using an imformation quality framework[J].Decision Support Systems. 2011, 50(4):755-768. [12]陳昀,基于數(shù)據(jù)挖掘技術(shù)的產(chǎn)品垃圾評(píng)論識(shí)別研究[D].保定:河北大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,2014.