亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于KNN和Bayes算法的組合分類器的垃圾評(píng)論識(shí)別研究

        2016-04-08 10:11:46梁曌陳思宇梁小林康欣
        經(jīng)濟(jì)數(shù)學(xué) 2016年1期

        梁曌 陳思宇 梁小林 康欣

        摘 要 產(chǎn)品垃圾評(píng)論在一定程度上影響了評(píng)論信息的參考價(jià)值,本文旨在建立識(shí)別模型將垃圾評(píng)論從評(píng)論文本中剔除,保留真實(shí)的產(chǎn)品評(píng)論。首先,分析了產(chǎn)品評(píng)論的特點(diǎn),從數(shù)據(jù)搜集、文本預(yù)處理、互信息檢驗(yàn)、文本表示4個(gè)模塊提取了14個(gè)特征。然后,利用高互補(bǔ)性建立了基于KNN和Bayes算法的組合分類器模型。最后,利用交叉驗(yàn)證對(duì)iPhone 6 Plus的產(chǎn)品評(píng)論進(jìn)行檢驗(yàn),得到評(píng)價(jià)指標(biāo)分別為:正確識(shí)別率75.3%、召回率82.1%以及F1值77.5%.

        關(guān)鍵詞 KNN算法;Bayes算法;組合分類器;互信息;交叉驗(yàn)證

        中圖分類號(hào) O213;TP18 文獻(xiàn)標(biāo)識(shí)碼 A

        1 引 言

        電子商務(wù)的異軍突起促使網(wǎng)購(gòu)走進(jìn)人們的日常生活,網(wǎng)購(gòu)的同時(shí),多數(shù)網(wǎng)民會(huì)在不受約束的情況下對(duì)相關(guān)產(chǎn)品發(fā)表評(píng)論,而這種隨意性往往使得這些產(chǎn)品評(píng)論中充斥了大量無(wú)用的、不真實(shí)的信息,這些信息就是垃圾評(píng)論.垃圾評(píng)論在一定程度上影響了評(píng)論信息的參考價(jià)值,從而誤導(dǎo)潛在消費(fèi)者并干擾銷售商對(duì)銷售業(yè)績(jī)的評(píng)價(jià).產(chǎn)品垃圾評(píng)論的識(shí)別旨在解決這一問(wèn)題,將垃圾評(píng)論從評(píng)論文本中剔除,保留真實(shí)的產(chǎn)品評(píng)論,為用戶提供可靠的參考依據(jù).

        結(jié)合近幾年垃圾評(píng)論識(shí)別的文獻(xiàn)可知,垃圾評(píng)論識(shí)別的關(guān)鍵問(wèn)題是文本特征的提取與分類算法的選擇.N Nitin Jamal和Bing Liu等[1]首次對(duì)垃圾評(píng)論進(jìn)行了分類,很好地識(shí)別了英文領(lǐng)域中存在的無(wú)用評(píng)論,但由于中英文之間存在差異,往往英文領(lǐng)域的垃圾識(shí)別方法不能直接有效地應(yīng)用到中文領(lǐng)域當(dāng)中.游貴榮等[2]提出了中文垃圾評(píng)論的特征提取方法,邱云飛等[3]、吳敏等[4]、李霄等[5]分別從用戶行為、產(chǎn)品特征的顯著性檢驗(yàn)以及信息的有用性角度對(duì)垃圾評(píng)論的識(shí)別進(jìn)行了研究,但在分類器的選取上,上述學(xué)者均采用單一算法的分類模型,如單一的Logistic回歸算法等.大量的理論與實(shí)驗(yàn)結(jié)果表明,多分類器系統(tǒng)不但可以提高分類的正確率,而且可以提高識(shí)別系統(tǒng)的泛化能力和魯棒性.與此同時(shí)所有分類器都參與集成的效果并非最好,從眾多分類器中選擇部分互補(bǔ)性強(qiáng)的分類器進(jìn)行集成可以提高集成的效率并改善其效果[6].因此本文在建立文本特征表示模型的基礎(chǔ)上,提出了用高互補(bǔ)性組合分類器對(duì)評(píng)論進(jìn)行識(shí)別和過(guò)濾.

        2 文本特征的提取

        2.1 產(chǎn)品評(píng)論的特點(diǎn)與垃圾評(píng)論的分類

        為了更準(zhǔn)確地識(shí)別垃圾評(píng)論,首先探討產(chǎn)品評(píng)論的特征.

        通過(guò)對(duì)中文產(chǎn)品評(píng)論中的評(píng)論文本進(jìn)行分析,總結(jié)出中文產(chǎn)品評(píng)論領(lǐng)域的特點(diǎn)主要體現(xiàn)在以下幾個(gè)方面:

        1)評(píng)論文本格式自由多樣;

        2)評(píng)價(jià)對(duì)象的多樣化;

        3)評(píng)論內(nèi)容具有近似重復(fù)性;

        可分為①由不同評(píng)論者針對(duì)同一產(chǎn)品發(fā)表的近似重復(fù)評(píng)論;②由同一評(píng)論者針對(duì)不同產(chǎn)品發(fā)表的近似重復(fù)評(píng)論;③由不同評(píng)論者針對(duì)不同產(chǎn)品發(fā)表的近似重復(fù)評(píng)論;

        4)不真實(shí)評(píng)論;

        5)廣告;

        6)不帶有感情色彩的隨機(jī)文本.

        基于以上分析,將垃圾評(píng)論定義為以下5種類型:-

        1)非指定產(chǎn)品的評(píng)論:該類評(píng)論的特點(diǎn)為它雖然是評(píng)論,但只對(duì)品牌和制造商,甚至是站點(diǎn)評(píng)論,而沒(méi)有針對(duì)當(dāng)前產(chǎn)品本身進(jìn)行評(píng)論,或者確實(shí)是對(duì)產(chǎn)品進(jìn)行了評(píng)論,但是評(píng)錯(cuò)了產(chǎn)品.如在蘋(píng)果手機(jī)的評(píng)論中,“買SONYZ3也不錯(cuò)啊,很漂亮,旗艦機(jī)...”等

        2)虛假評(píng)論:如“我這有全新的iPhone6 Plus,只要99元”等.

        3)廣告評(píng)論:如“蘋(píng)果超愛(ài)大屏幕3 500元拿現(xiàn)貨QQ熱購(gòu)122929079”

        4)無(wú)意義文本:

        ①個(gè)人的消費(fèi)經(jīng)歷,如“再爛都永遠(yuǎn)有人瘋搶,飄揚(yáng)過(guò)海甚至成為一部手機(jī),實(shí)在不懂.”②人身攻擊,如“用蘋(píng)果的都是腦殘”等,③其他無(wú)關(guān)文本,如“信號(hào)不好等”“轉(zhuǎn)給我唄?”

        5)咨詢性評(píng)論:只是詢問(wèn)關(guān)于產(chǎn)品的情況,而不是評(píng)論.如“多少錢呢?”.

        2.2 特征提取與量化

        為了建立產(chǎn)品垃圾評(píng)論識(shí)別模型,根據(jù)2.1節(jié)的分析結(jié)果,分4個(gè)模塊對(duì)產(chǎn)品評(píng)論文本進(jìn)行特征提取與量化.

        模塊一 數(shù)據(jù)的搜集

        本文采用WebHarvest網(wǎng)絡(luò)爬蟲(chóng)對(duì)京東商城和天貓商城內(nèi)多個(gè)商家的iPhone 6 Plus的產(chǎn)品評(píng)論進(jìn)行爬取,得到由兩萬(wàn)條產(chǎn)品評(píng)論組成的數(shù)據(jù)集A0,同時(shí)對(duì)蘋(píng)果官網(wǎng)上關(guān)于iPhone 6 Plus的產(chǎn)品參數(shù)進(jìn)行爬取,得到產(chǎn)品屬性數(shù)據(jù)集B0.

        模塊二 對(duì)爬取的數(shù)據(jù)集進(jìn)行預(yù)處理

        1)構(gòu)造用戶詞典.用戶詞典包括停用詞詞典、極性詞詞典,其中極性詞詞典主要是由HowNet極性詞加上一些評(píng)論作者常用的、和表達(dá)情感有關(guān)的網(wǎng)絡(luò)流行詞,及一些口語(yǔ)化的詞語(yǔ)與縮寫(xiě)組成,用以表達(dá)用戶褒貶傾向和感情色彩.停用詞詞典由網(wǎng)絡(luò)上現(xiàn)有的停用詞詞表加上針對(duì)垃圾評(píng)論特性的停用詞組成[7-9].

        2)文本分詞.中文單詞是評(píng)論信息處理的基礎(chǔ),分詞工具采用中科院提供的分詞工具ICTCLAS 2015分詞系統(tǒng)[10],其主要功能包括中文分詞、詞性標(biāo)注,同時(shí)允許用戶向系統(tǒng)中導(dǎo)入自定義詞典以提高特定領(lǐng)域的分詞效果,因此,將上述用戶詞典與產(chǎn)品屬性數(shù)據(jù)集B0作為自定義詞典導(dǎo)入ICTCLAS分詞系統(tǒng)后,對(duì)數(shù)據(jù)集進(jìn)行逐條分詞、詞性標(biāo)注以及情感詞標(biāo)注,得到預(yù)處理后的數(shù)據(jù)集A.

        模塊三 特征的互信息檢驗(yàn)

        為了選取最能表達(dá)文本信息內(nèi)容的特征,本文從被評(píng)論的商品、評(píng)論者、文本結(jié)構(gòu)、情感傾向、主題詞五個(gè)屬性提取特征,在提取特征之前,先利用互信息說(shuō)明這5個(gè)屬性對(duì)識(shí)別垃圾評(píng)論具有顯著相關(guān)性.-

        互信息是2個(gè)事件集合之間的相關(guān)性,通常用來(lái)衡量某個(gè)屬性和類別之間的統(tǒng)計(jì)獨(dú)立關(guān)系,互信息量越大,代表特征項(xiàng)與類別之間的貢獻(xiàn)概率也越大.現(xiàn)對(duì)所選特征進(jìn)行互信息檢驗(yàn),旨在說(shuō)明所選屬性能在一定程度上反應(yīng)該條評(píng)論的信息,即所選屬性項(xiàng)是互信息量較大的詞條,互信息(MI)定義如下endprint

        2)高互補(bǔ)性分類器

        高互補(bǔ)性分類器組合的構(gòu)建流程大致為:首先構(gòu)造一定數(shù)量的候選分類器如Bayes分類器、KNN分類器、SVM分類器和logistics回歸分類器等,計(jì)算分類器之間的相關(guān)程度,然后根據(jù)相關(guān)系數(shù)對(duì)候選分類器進(jìn)行排序,并依據(jù)可信度,選擇出對(duì)目標(biāo)有較高識(shí)別率的分類器組合.

        首先,驗(yàn)證單一算法分類器的局限性.利用數(shù)學(xué)軟件MATLAB,對(duì)其進(jìn)行基于多層BP網(wǎng)絡(luò)的識(shí)別模式的標(biāo)記,對(duì)上述四種分類器用SPSS比較其準(zhǔn)確率,召回率以及Fmeasure值.得表2.由表2,垃圾評(píng)論識(shí)別的準(zhǔn)確率相對(duì)偏低,不少數(shù)量的正常評(píng)論被識(shí)別為垃圾評(píng)論;其召回率也不高,直觀來(lái)看是有些垃圾評(píng)論被判別為正常評(píng)論.可見(jiàn)單一分類算法的過(guò)濾效果并不理想,本質(zhì)原因是分詞的不準(zhǔn)確性使得評(píng)論文本特征有限的缺點(diǎn)充分暴露,以致于對(duì)結(jié)果的準(zhǔn)確性產(chǎn)生很大影響,而且Bayes分類器要求各個(gè)特征項(xiàng)之間相互獨(dú)立,這顯然于現(xiàn)實(shí)不符.同時(shí)也從側(cè)面說(shuō)明單一算法的分類器對(duì)數(shù)據(jù)量要求很大,需要對(duì)較為完備的訓(xùn)練集特征進(jìn)行學(xué)習(xí)[6].

        為了更準(zhǔn)確地進(jìn)行垃圾評(píng)論識(shí)別,本文對(duì)各分類器進(jìn)行組合,得到高互補(bǔ)性分類器.根據(jù)高互補(bǔ)性分類器組合理論,利用相關(guān)系數(shù)對(duì)上述4種分類器的互補(bǔ)性進(jìn)行分析,即相關(guān)系數(shù)大的分類器組合互補(bǔ)性弱,相關(guān)系數(shù)小的分類器組合互補(bǔ)性強(qiáng).

        利用SPSS軟件對(duì)其進(jìn)行相關(guān)分析,見(jiàn)表3.

        由表3,相關(guān)系數(shù)的大小排序?yàn)椋?/p>

        SVM+Bayes>SVM+KNN>Bayes+LR> LR+KNN>LR + SVM>Bayes+KNN.

        其對(duì)偶命題互補(bǔ)性排序?yàn)椋?/p>

        SVM+Bayes

        LR+KNN

        可見(jiàn)Bayes分類器和KNN分類器的相關(guān)性最低且顯著性均大于0.01,即可認(rèn)為他們之間的互補(bǔ)性最強(qiáng),存在統(tǒng)計(jì)學(xué)意義.而SVM分類器和Bayes分類器的相似度較高,且顯著性大于0.01,認(rèn)為存在統(tǒng)計(jì)學(xué)意義.為了進(jìn)一步驗(yàn)證這4種分類器的互補(bǔ)性,對(duì)這6個(gè)組合進(jìn)行聚類檢驗(yàn).

        用SPSS軟件對(duì)其進(jìn)行聚類分析,結(jié)果見(jiàn)表4

        由上可知,互補(bǔ)性最強(qiáng)的組合分類器為Bayes+KNN分類器.

        3.4 模型的交叉驗(yàn)證

        本文利用WebHarvest爬蟲(chóng)從天貓和京東商城爬取了20 000條評(píng)論作為原始數(shù)據(jù)集A0,將構(gòu)建好的用戶詞典與產(chǎn)品屬性數(shù)據(jù)集B0導(dǎo)入ICTCLAS 2015分詞系統(tǒng)后,得到預(yù)處理數(shù)據(jù)集A,對(duì)A中的每個(gè)數(shù)據(jù)類型進(jìn)行人工標(biāo)記,再隨機(jī)地將其等分成4份得到A1、A2、A3、A4.

        先以數(shù)據(jù)集A1為檢驗(yàn)集,A2,A3,A4為訓(xùn)練集,計(jì)算模型的性能指標(biāo).首先將數(shù)據(jù)集A2,A3,A4的特征向量導(dǎo)入Bayes+KNN組合分類器對(duì)其進(jìn)行訓(xùn)練,然后將檢驗(yàn)集A1的特征向量導(dǎo)入到已訓(xùn)練好的分類器中,得出檢驗(yàn)集中相應(yīng)評(píng)論是非垃圾評(píng)論還是垃圾評(píng)論,最后根據(jù)分類器對(duì)每條評(píng)論判定的結(jié)果以及人工標(biāo)記,計(jì)算該訓(xùn)練集和檢驗(yàn)集組合下,分類器的性能指標(biāo).用同樣的方法得到依次以A2、A3、A4為檢驗(yàn)集的分類器的性能指標(biāo),相關(guān)結(jié)果見(jiàn)表5.-將上述3個(gè)評(píng)價(jià)值平均得,基于KNN算法和Bayes算法的垃圾評(píng)論識(shí)別模型的最終準(zhǔn)確率達(dá)到75.3%,召回率為82.1%,F(xiàn)1值為77.5%,結(jié)果較為理想,有應(yīng)用價(jià)值.

        4 結(jié)束語(yǔ)

        垃圾評(píng)論識(shí)別的關(guān)鍵問(wèn)題是文本特征的提取與分類算法的選擇.本文根據(jù)中文評(píng)論的特點(diǎn)提取了14個(gè)特征,并利用組合分類器算法對(duì)垃圾評(píng)論進(jìn)行了識(shí)別,得到了較理想的結(jié)果.通過(guò)搭建基于Hadoop的大數(shù)據(jù)平臺(tái)集群,本模型可推廣到一個(gè)基于通過(guò)海量數(shù)據(jù)集進(jìn)行訓(xùn)練的垃圾評(píng)論問(wèn)題,從而實(shí)現(xiàn)此模型適用于更一般產(chǎn)品的垃圾評(píng)論的檢測(cè)目標(biāo).-

        參考文獻(xiàn)

        [1] N JINDAL, B LIU.Opinion spam and analysis[C]//Proceedings of the first ACM international conference on Web search and data mining,2008:219-229.

        [2] 游貴榮,吳為,錢沄濤.電子商務(wù)中垃圾評(píng)論檢測(cè)的特征提取方法[J].情報(bào)分析與研究.2014,251(10):93-100.

        [3] 邱云飛,王建坤,邵良彬等.基于用戶行為的產(chǎn)品垃圾評(píng)論者監(jiān)測(cè)研究[J].計(jì)算機(jī)工程.2012,38(11):254-257,261.

        [4] 吳敏,何瓏.融合多特征的產(chǎn)品評(píng)論識(shí)別[J].微型機(jī)與應(yīng)用.2012,31(22):85-87.

        [5] 李霄,丁晟春.垃圾商品評(píng)論信息的識(shí)別研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù).2013,29(1):63-68.

        [6] H J KANG,D DOERMANN.Selection of classifiers for the construction of multiple classifier systems[C]//Proceedings of the 8th- international conference on Document Analysis and Recognition. Seoul, Korea, 2005,1194-1198.

        [7] 知網(wǎng)[DB/OL].HowNet Knowledge Database[DB/OL].[2013-11-05]. http://www.keenage.com/ .

        [8] 趙文婧.產(chǎn)品描述詞及情感詞抽取模式的研究[D].北京:北京郵電大學(xué)計(jì)算機(jī)學(xué)院,2010.

        [9] 顧益軍,樊孝忠,王建華.中文停用詞表的自動(dòng)選擇[J].北京理工大學(xué)學(xué)報(bào).2005,25(4):337-340.

        [10]ICTCLAS 漢語(yǔ)分詞系統(tǒng) (ICTCLAS Chinese Lexical Analysis System [CP/OL].[2015-10-05].http://www.ictclas.org/.

        [11]C C CHEN, Y D TSENG. Quality evaluation of product reviews using an imformation quality framework[J].Decision Support Systems. 2011, 50(4):755-768.

        [12]陳昀,基于數(shù)據(jù)挖掘技術(shù)的產(chǎn)品垃圾評(píng)論識(shí)別研究[D].保定:河北大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,2014.

        在线一区不卡网址观看| 一二区成人影院电影网| 在线亚洲日本一区二区| 日本本土精品午夜视频| 精品国产黄一区二区三区| 国产精品国产高清国产专区| 国产 高潮 抽搐 正在播放| 大ji巴好深好爽又大又粗视频| 亚洲精品久久久久久久不卡四虎| 国产在线精品成人一区二区三区| 中文字幕人妻丝袜美腿乱| 女人夜夜春高潮爽a∨片| 91精品国产91久久久无码色戒| 亚洲成人av一区二区麻豆蜜桃| 热综合一本伊人久久精品| 中文乱码字幕在线亚洲av| 白白色白白色视频发布| 无码国产色欲xxxx视频| 亚洲aⅴ在线无码播放毛片一线天| 国产一级片毛片| 99精品国产自产在线观看| 国产一级一厂片内射视频播放 | 欧美尺寸又黑又粗又长| 91久久青青草原免费| 秋霞日韩一区二区三区在线观看| 91极品尤物在线观看播放 | 91久久精品美女高潮喷白浆| 后入丝袜美腿在线观看| 亚洲成av人片乱码色午夜| 国内精品卡一卡二卡三| 日本不卡在线视频二区三区| 一级片久久| 激情人妻网址| 国产午夜视频高清在线观看| 国产精品午夜夜伦鲁鲁| 医院人妻闷声隔着帘子被中出| 男受被做哭激烈娇喘gv视频| 久热这里只有精品99国产| 国产精品一级黄色大片| 国产国语按摩对白av在线观看| 一本色道久久88综合日韩精品|