亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于KNN和Bayes算法的組合分類器的垃圾評(píng)論識(shí)別研究

2016-04-08 10:11:46梁曌陳思宇梁小林康欣

經(jīng)濟(jì)數(shù)學(xué) 2016年1期

梁曌　陳思宇　梁小林　康欣

摘要產(chǎn)品垃圾評(píng)論在一定程度上影響了評(píng)論信息的參考價(jià)值，本文旨在建立識(shí)別模型將垃圾評(píng)論從評(píng)論文本中剔除，保留真實(shí)的產(chǎn)品評(píng)論。首先，分析了產(chǎn)品評(píng)論的特點(diǎn)，從數(shù)據(jù)搜集、文本預(yù)處理、互信息檢驗(yàn)、文本表示4個(gè)模塊提取了14個(gè)特征。然后，利用高互補(bǔ)性建立了基于KNN和Bayes算法的組合分類器模型。最后，利用交叉驗(yàn)證對(duì)iPhone 6 Plus的產(chǎn)品評(píng)論進(jìn)行檢驗(yàn)，得到評(píng)價(jià)指標(biāo)分別為：正確識(shí)別率75.3%、召回率82.1%以及F1值77.5%.

關(guān)鍵詞 KNN算法；Bayes算法；組合分類器；互信息；交叉驗(yàn)證

中圖分類號(hào) O213；TP18 文獻(xiàn)標(biāo)識(shí)碼 A

1 引言

電子商務(wù)的異軍突起促使網(wǎng)購(gòu)走進(jìn)人們的日常生活，網(wǎng)購(gòu)的同時(shí)，多數(shù)網(wǎng)民會(huì)在不受約束的情況下對(duì)相關(guān)產(chǎn)品發(fā)表評(píng)論，而這種隨意性往往使得這些產(chǎn)品評(píng)論中充斥了大量無(wú)用的、不真實(shí)的信息，這些信息就是垃圾評(píng)論.垃圾評(píng)論在一定程度上影響了評(píng)論信息的參考價(jià)值，從而誤導(dǎo)潛在消費(fèi)者并干擾銷售商對(duì)銷售業(yè)績(jī)的評(píng)價(jià).產(chǎn)品垃圾評(píng)論的識(shí)別旨在解決這一問(wèn)題，將垃圾評(píng)論從評(píng)論文本中剔除，保留真實(shí)的產(chǎn)品評(píng)論，為用戶提供可靠的參考依據(jù).

結(jié)合近幾年垃圾評(píng)論識(shí)別的文獻(xiàn)可知，垃圾評(píng)論識(shí)別的關(guān)鍵問(wèn)題是文本特征的提取與分類算法的選擇.N Nitin Jamal和Bing Liu等[1]首次對(duì)垃圾評(píng)論進(jìn)行了分類，很好地識(shí)別了英文領(lǐng)域中存在的無(wú)用評(píng)論，但由于中英文之間存在差異，往往英文領(lǐng)域的垃圾識(shí)別方法不能直接有效地應(yīng)用到中文領(lǐng)域當(dāng)中.游貴榮等[2]提出了中文垃圾評(píng)論的特征提取方法，邱云飛等[3]、吳敏等[4]、李霄等[5]分別從用戶行為、產(chǎn)品特征的顯著性檢驗(yàn)以及信息的有用性角度對(duì)垃圾評(píng)論的識(shí)別進(jìn)行了研究，但在分類器的選取上，上述學(xué)者均采用單一算法的分類模型，如單一的Logistic回歸算法等.大量的理論與實(shí)驗(yàn)結(jié)果表明，多分類器系統(tǒng)不但可以提高分類的正確率，而且可以提高識(shí)別系統(tǒng)的泛化能力和魯棒性.與此同時(shí)所有分類器都參與集成的效果并非最好，從眾多分類器中選擇部分互補(bǔ)性強(qiáng)的分類器進(jìn)行集成可以提高集成的效率并改善其效果[6].因此本文在建立文本特征表示模型的基礎(chǔ)上，提出了用高互補(bǔ)性組合分類器對(duì)評(píng)論進(jìn)行識(shí)別和過(guò)濾.

2 文本特征的提取

2.1 產(chǎn)品評(píng)論的特點(diǎn)與垃圾評(píng)論的分類

為了更準(zhǔn)確地識(shí)別垃圾評(píng)論，首先探討產(chǎn)品評(píng)論的特征.

通過(guò)對(duì)中文產(chǎn)品評(píng)論中的評(píng)論文本進(jìn)行分析，總結(jié)出中文產(chǎn)品評(píng)論領(lǐng)域的特點(diǎn)主要體現(xiàn)在以下幾個(gè)方面：

1）評(píng)論文本格式自由多樣；

2）評(píng)價(jià)對(duì)象的多樣化；

3）評(píng)論內(nèi)容具有近似重復(fù)性；

可分為①由不同評(píng)論者針對(duì)同一產(chǎn)品發(fā)表的近似重復(fù)評(píng)論；②由同一評(píng)論者針對(duì)不同產(chǎn)品發(fā)表的近似重復(fù)評(píng)論；③由不同評(píng)論者針對(duì)不同產(chǎn)品發(fā)表的近似重復(fù)評(píng)論；

4）不真實(shí)評(píng)論；

5）廣告；

6）不帶有感情色彩的隨機(jī)文本.

基于以上分析，將垃圾評(píng)論定義為以下5種類型：-

1）非指定產(chǎn)品的評(píng)論：該類評(píng)論的特點(diǎn)為它雖然是評(píng)論，但只對(duì)品牌和制造商，甚至是站點(diǎn)評(píng)論，而沒(méi)有針對(duì)當(dāng)前產(chǎn)品本身進(jìn)行評(píng)論，或者確實(shí)是對(duì)產(chǎn)品進(jìn)行了評(píng)論，但是評(píng)錯(cuò)了產(chǎn)品.如在蘋(píng)果手機(jī)的評(píng)論中，“買SONYZ3也不錯(cuò)啊，很漂亮，旗艦機(jī)...”等

2）虛假評(píng)論：如“我這有全新的iPhone6 Plus，只要99元”等.

3）廣告評(píng)論：如“蘋(píng)果超愛(ài)大屏幕3 500元拿現(xiàn)貨QQ熱購(gòu)122929079”

4）無(wú)意義文本：

①個(gè)人的消費(fèi)經(jīng)歷，如“再爛都永遠(yuǎn)有人瘋搶，飄揚(yáng)過(guò)海甚至成為一部手機(jī)，實(shí)在不懂.”②人身攻擊，如“用蘋(píng)果的都是腦殘”等，③其他無(wú)關(guān)文本，如“信號(hào)不好等”“轉(zhuǎn)給我唄？”

5）咨詢性評(píng)論：只是詢問(wèn)關(guān)于產(chǎn)品的情況，而不是評(píng)論.如“多少錢呢？”.

2.2 特征提取與量化

為了建立產(chǎn)品垃圾評(píng)論識(shí)別模型，根據(jù)2.1節(jié)的分析結(jié)果，分4個(gè)模塊對(duì)產(chǎn)品評(píng)論文本進(jìn)行特征提取與量化.

模塊一數(shù)據(jù)的搜集

本文采用WebHarvest網(wǎng)絡(luò)爬蟲(chóng)對(duì)京東商城和天貓商城內(nèi)多個(gè)商家的iPhone 6 Plus的產(chǎn)品評(píng)論進(jìn)行爬取，得到由兩萬(wàn)條產(chǎn)品評(píng)論組成的數(shù)據(jù)集A0，同時(shí)對(duì)蘋(píng)果官網(wǎng)上關(guān)于iPhone 6 Plus的產(chǎn)品參數(shù)進(jìn)行爬取，得到產(chǎn)品屬性數(shù)據(jù)集B0.

模塊二對(duì)爬取的數(shù)據(jù)集進(jìn)行預(yù)處理

1）構(gòu)造用戶詞典.用戶詞典包括停用詞詞典、極性詞詞典，其中極性詞詞典主要是由HowNet極性詞加上一些評(píng)論作者常用的、和表達(dá)情感有關(guān)的網(wǎng)絡(luò)流行詞，及一些口語(yǔ)化的詞語(yǔ)與縮寫(xiě)組成，用以表達(dá)用戶褒貶傾向和感情色彩.停用詞詞典由網(wǎng)絡(luò)上現(xiàn)有的停用詞詞表加上針對(duì)垃圾評(píng)論特性的停用詞組成[7-9].

2）文本分詞.中文單詞是評(píng)論信息處理的基礎(chǔ)，分詞工具采用中科院提供的分詞工具ICTCLAS 2015分詞系統(tǒng)[10]，其主要功能包括中文分詞、詞性標(biāo)注，同時(shí)允許用戶向系統(tǒng)中導(dǎo)入自定義詞典以提高特定領(lǐng)域的分詞效果，因此，將上述用戶詞典與產(chǎn)品屬性數(shù)據(jù)集B0作為自定義詞典導(dǎo)入ICTCLAS分詞系統(tǒng)后，對(duì)數(shù)據(jù)集進(jìn)行逐條分詞、詞性標(biāo)注以及情感詞標(biāo)注，得到預(yù)處理后的數(shù)據(jù)集A.

模塊三特征的互信息檢驗(yàn)

為了選取最能表達(dá)文本信息內(nèi)容的特征，本文從被評(píng)論的商品、評(píng)論者、文本結(jié)構(gòu)、情感傾向、主題詞五個(gè)屬性提取特征，在提取特征之前，先利用互信息說(shuō)明這5個(gè)屬性對(duì)識(shí)別垃圾評(píng)論具有顯著相關(guān)性.-

互信息是2個(gè)事件集合之間的相關(guān)性，通常用來(lái)衡量某個(gè)屬性和類別之間的統(tǒng)計(jì)獨(dú)立關(guān)系，互信息量越大，代表特征項(xiàng)與類別之間的貢獻(xiàn)概率也越大.現(xiàn)對(duì)所選特征進(jìn)行互信息檢驗(yàn)，旨在說(shuō)明所選屬性能在一定程度上反應(yīng)該條評(píng)論的信息，即所選屬性項(xiàng)是互信息量較大的詞條，互信息（MI）定義如下endprint

2）高互補(bǔ)性分類器

高互補(bǔ)性分類器組合的構(gòu)建流程大致為：首先構(gòu)造一定數(shù)量的候選分類器如Bayes分類器、KNN分類器、SVM分類器和logistics回歸分類器等，計(jì)算分類器之間的相關(guān)程度，然后根據(jù)相關(guān)系數(shù)對(duì)候選分類器進(jìn)行排序，并依據(jù)可信度，選擇出對(duì)目標(biāo)有較高識(shí)別率的分類器組合.

首先，驗(yàn)證單一算法分類器的局限性.利用數(shù)學(xué)軟件MATLAB，對(duì)其進(jìn)行基于多層BP網(wǎng)絡(luò)的識(shí)別模式的標(biāo)記，對(duì)上述四種分類器用SPSS比較其準(zhǔn)確率，召回率以及Fmeasure值.得表2.由表2，垃圾評(píng)論識(shí)別的準(zhǔn)確率相對(duì)偏低，不少數(shù)量的正常評(píng)論被識(shí)別為垃圾評(píng)論；其召回率也不高，直觀來(lái)看是有些垃圾評(píng)論被判別為正常評(píng)論.可見(jiàn)單一分類算法的過(guò)濾效果并不理想，本質(zhì)原因是分詞的不準(zhǔn)確性使得評(píng)論文本特征有限的缺點(diǎn)充分暴露，以致于對(duì)結(jié)果的準(zhǔn)確性產(chǎn)生很大影響，而且Bayes分類器要求各個(gè)特征項(xiàng)之間相互獨(dú)立，這顯然于現(xiàn)實(shí)不符.同時(shí)也從側(cè)面說(shuō)明單一算法的分類器對(duì)數(shù)據(jù)量要求很大，需要對(duì)較為完備的訓(xùn)練集特征進(jìn)行學(xué)習(xí)[6].

為了更準(zhǔn)確地進(jìn)行垃圾評(píng)論識(shí)別，本文對(duì)各分類器進(jìn)行組合，得到高互補(bǔ)性分類器.根據(jù)高互補(bǔ)性分類器組合理論，利用相關(guān)系數(shù)對(duì)上述4種分類器的互補(bǔ)性進(jìn)行分析，即相關(guān)系數(shù)大的分類器組合互補(bǔ)性弱，相關(guān)系數(shù)小的分類器組合互補(bǔ)性強(qiáng).

利用SPSS軟件對(duì)其進(jìn)行相關(guān)分析，見(jiàn)表3.

由表3，相關(guān)系數(shù)的大小排序?yàn)椋?/p>

SVM+Bayes>SVM+KNN>Bayes+LR> LR+KNN>LR + SVM>Bayes+KNN.

其對(duì)偶命題互補(bǔ)性排序?yàn)椋?/p>

SVM+Bayes

LR+KNN

可見(jiàn)Bayes分類器和KNN分類器的相關(guān)性最低且顯著性均大于0.01，即可認(rèn)為他們之間的互補(bǔ)性最強(qiáng)，存在統(tǒng)計(jì)學(xué)意義.而SVM分類器和Bayes分類器的相似度較高，且顯著性大于0.01，認(rèn)為存在統(tǒng)計(jì)學(xué)意義.為了進(jìn)一步驗(yàn)證這4種分類器的互補(bǔ)性，對(duì)這6個(gè)組合進(jìn)行聚類檢驗(yàn).

用SPSS軟件對(duì)其進(jìn)行聚類分析，結(jié)果見(jiàn)表4

由上可知，互補(bǔ)性最強(qiáng)的組合分類器為Bayes+KNN分類器.

3.4 模型的交叉驗(yàn)證

本文利用WebHarvest爬蟲(chóng)從天貓和京東商城爬取了20 000條評(píng)論作為原始數(shù)據(jù)集A0，將構(gòu)建好的用戶詞典與產(chǎn)品屬性數(shù)據(jù)集B0導(dǎo)入ICTCLAS 2015分詞系統(tǒng)后，得到預(yù)處理數(shù)據(jù)集A，對(duì)A中的每個(gè)數(shù)據(jù)類型進(jìn)行人工標(biāo)記，再隨機(jī)地將其等分成4份得到A1、A2、A3、A4.

先以數(shù)據(jù)集A1為檢驗(yàn)集，A2，A3，A4為訓(xùn)練集，計(jì)算模型的性能指標(biāo).首先將數(shù)據(jù)集A2，A3，A4的特征向量導(dǎo)入Bayes+KNN組合分類器對(duì)其進(jìn)行訓(xùn)練，然后將檢驗(yàn)集A1的特征向量導(dǎo)入到已訓(xùn)練好的分類器中，得出檢驗(yàn)集中相應(yīng)評(píng)論是非垃圾評(píng)論還是垃圾評(píng)論，最后根據(jù)分類器對(duì)每條評(píng)論判定的結(jié)果以及人工標(biāo)記，計(jì)算該訓(xùn)練集和檢驗(yàn)集組合下，分類器的性能指標(biāo).用同樣的方法得到依次以A2、A3、A4為檢驗(yàn)集的分類器的性能指標(biāo)，相關(guān)結(jié)果見(jiàn)表5.-將上述3個(gè)評(píng)價(jià)值平均得，基于KNN算法和Bayes算法的垃圾評(píng)論識(shí)別模型的最終準(zhǔn)確率達(dá)到75.3%，召回率為82.1%，F(xiàn)1值為77.5%，結(jié)果較為理想，有應(yīng)用價(jià)值.

4 結(jié)束語(yǔ)

垃圾評(píng)論識(shí)別的關(guān)鍵問(wèn)題是文本特征的提取與分類算法的選擇.本文根據(jù)中文評(píng)論的特點(diǎn)提取了14個(gè)特征，并利用組合分類器算法對(duì)垃圾評(píng)論進(jìn)行了識(shí)別，得到了較理想的結(jié)果.通過(guò)搭建基于Hadoop的大數(shù)據(jù)平臺(tái)集群，本模型可推廣到一個(gè)基于通過(guò)海量數(shù)據(jù)集進(jìn)行訓(xùn)練的垃圾評(píng)論問(wèn)題，從而實(shí)現(xiàn)此模型適用于更一般產(chǎn)品的垃圾評(píng)論的檢測(cè)目標(biāo).-

參考文獻(xiàn)

[1] N JINDAL， B LIU.Opinion spam and analysis[C]//Proceedings of the first ACM international conference on Web search and data mining，2008：219-229.

[2] 游貴榮，吳為，錢沄濤.電子商務(wù)中垃圾評(píng)論檢測(cè)的特征提取方法[J].情報(bào)分析與研究.2014，251（10）：93-100.

[3] 邱云飛，王建坤，邵良彬等.基于用戶行為的產(chǎn)品垃圾評(píng)論者監(jiān)測(cè)研究[J].計(jì)算機(jī)工程.2012，38（11）：254-257，261.

[4] 吳敏，何瓏.融合多特征的產(chǎn)品評(píng)論識(shí)別[J].微型機(jī)與應(yīng)用.2012，31（22）：85-87.

[5] 李霄，丁晟春.垃圾商品評(píng)論信息的識(shí)別研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù).2013，29（1）：63-68.

[6] H J KANG，D DOERMANN.Selection of classifiers for the construction of multiple classifier systems[C]//Proceedings of the 8th- international conference on Document Analysis and Recognition. Seoul， Korea， 2005，1194-1198.

[7] 知網(wǎng)[DB/OL].HowNet Knowledge Database[DB/OL].[2013-11-05]. http：//www.keenage.com/ .

[8] 趙文婧.產(chǎn)品描述詞及情感詞抽取模式的研究[D].北京：北京郵電大學(xué)計(jì)算機(jī)學(xué)院，2010.

[9] 顧益軍，樊孝忠，王建華.中文停用詞表的自動(dòng)選擇[J].北京理工大學(xué)學(xué)報(bào).2005，25（4）：337-340.

[10]ICTCLAS 漢語(yǔ)分詞系統(tǒng) （ICTCLAS Chinese Lexical Analysis System [CP/OL].[2015-10-05].http：//www.ictclas.org/.

[11]C C CHEN， Y D TSENG. Quality evaluation of product reviews using an imformation quality framework[J].Decision Support Systems. 2011， 50（4）：755-768.

[12]陳昀，基于數(shù)據(jù)挖掘技術(shù)的產(chǎn)品垃圾評(píng)論識(shí)別研究[D].保定：河北大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，2014.

經(jīng)濟(jì)數(shù)學(xué)2016年1期

經(jīng)濟(jì)數(shù)學(xué)的其它文章: 下層獨(dú)立的一主多從雙層隨機(jī)線性規(guī)劃問(wèn)題研究; 基于反饋回歸法的用電量預(yù)測(cè)模型研究; 具有質(zhì)量安全懲罰主導(dǎo)權(quán)零售商與供應(yīng)商的食品安全檢測(cè)決策; 具有相依結(jié)構(gòu)離散時(shí)間模型破產(chǎn)概率的上界; 譜負(fù)Lévy過(guò)程位勢(shì)測(cè)度的推廣; 具有風(fēng)險(xiǎn)相依結(jié)構(gòu)的平衡信度估計(jì)