亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于隨機(jī)森林和規(guī)則匹配的垃圾評論識別

        2018-01-02 08:44:34偉,康準(zhǔn)
        軟件 2017年12期
        關(guān)鍵詞:規(guī)則垃圾森林

        魏 偉,康 準(zhǔn)

        (中南民族大學(xué) 計算機(jī)科學(xué)學(xué)院,湖北 武漢 430074)

        基于隨機(jī)森林和規(guī)則匹配的垃圾評論識別

        魏 偉,康 準(zhǔn)

        (中南民族大學(xué) 計算機(jī)科學(xué)學(xué)院,湖北 武漢 430074)

        針對電子商務(wù)平臺存在的大量垃圾評論,提出一種基于隨機(jī)森林和規(guī)則匹配的垃圾識別方法。該方法對樣本進(jìn)行有放回的重復(fù)抽取樣以建立隨機(jī)模型,以減弱評論數(shù)據(jù)集不平衡性的影響。一部分垃圾評論數(shù)據(jù)特征明顯,采用規(guī)則匹配進(jìn)一步提高評論識別的召回率。從現(xiàn)有的電商平臺上提取評論數(shù)據(jù)集進(jìn)行實驗,結(jié)果表明基于隨機(jī)森林分類模型比其他基于基線分類模型分類效果更好,且引入規(guī)則匹配機(jī)制后,分類效果也有一定程度的提高。

        垃圾評論識別;隨機(jī)森林;集成學(xué)習(xí)算法;不平衡問題

        0 引言

        隨著電子商務(wù)的高速發(fā)展,越來越多的消費者習(xí)慣網(wǎng)上購物,同時在網(wǎng)上大量寫下相關(guān)產(chǎn)品或服務(wù)的評論信息,為之后的消費者作為參考。但是,在上述評論中,存在一些垃圾評論,這些垃圾評論包括與產(chǎn)品無關(guān)評論,廣告評論等。何海紅等人[1]針對購物網(wǎng)站中的垃圾評論識別做了相關(guān)研究,這種評論被用于誤導(dǎo)消費者購買行為。Gilbert等人[2]的研究發(fā)現(xiàn) 10%~15%的評論本質(zhì)上被早期評論所影響,并且很可能被垃圾評論所影響。這些垃圾評論不僅損害消費者的權(quán)益,給網(wǎng)絡(luò)市場的正常競爭造成了嚴(yán)重的負(fù)面影響。因此,甄別網(wǎng)絡(luò)上的垃圾評論對凈化網(wǎng)絡(luò)購物環(huán)境和正確引導(dǎo)消費者的購物行為具有重要意義。

        通過分析文獻(xiàn)[3-4],本文將垃圾評論劃分為以下幾類:(1)與商品內(nèi)容不相關(guān)的其他評論,比如對其他商品的評論等;(2)重復(fù)評論,相同字詞重復(fù)出現(xiàn),單純?yōu)闇愖謹(jǐn)?shù)而評論;(3)與評論無關(guān)的信息,例如無意義的隨機(jī)字符,各類廣告和超鏈接等等。

        近年來,研究者針對商品垃圾評論做了大量的工作。丁晟春等[5]人從評論、評論者和被評論的商品三個方面選擇特征,使用SVM模型中4種常用的核函數(shù)進(jìn)行垃圾商品評論的識別,取得了較好的識別效果。吳為等[6]人利用評價句的數(shù)量能有效地區(qū)分與產(chǎn)品無關(guān)的評論或垃圾評論,結(jié)合評論的主題詞、情感傾向、文本結(jié)構(gòu)等,有針對性地提取相應(yīng)的特征,使用SVM分類模型對評論進(jìn)行分類。何海江等[7]人提出將相關(guān)度向量空間模型CVSM作為評論的文檔表示模型,討論了信息增益 IG、互信息MI、χ2統(tǒng)計CHI、文檔頻率DF等不同特征抽取方法對模型的影響,與傳統(tǒng)的向量空間模型相比,顯著提高了垃圾評論的識別能力。

        文獻(xiàn)[5-7]雖然考慮到特征值從多維度提取,但是未考慮商品評論數(shù)據(jù)集不平衡問題。本文在文獻(xiàn)[8-10]的工作基礎(chǔ)上,在評論特征[11]中選取元數(shù)據(jù)特征,情感特征,評論者特征三個維度提取特征建立隨機(jī)森林模型進(jìn)行初步識別。與此同時鑒于一部分垃圾評論評論較顯著,在初步識別的基礎(chǔ)上,對商品評論文本進(jìn)行基于規(guī)則的過濾。實驗結(jié)果表明,基于隨機(jī)森林和規(guī)則匹配能有效提高垃圾評論識別的準(zhǔn)確率。

        1 算法框架

        1.1 識別流程

        產(chǎn)品垃圾評論識別如圖1所示。

        圖1 垃圾商品評論識別流程Fig.1 The process of recognizing spam comment

        1.2 數(shù)據(jù)預(yù)處理

        鑒于商品評論樣本數(shù)據(jù)形式不一致,例如一些樣本評論數(shù)據(jù)中含有鏈接,數(shù)字等。對樣本數(shù)據(jù)分詞前作如下處理:(1)將樣本數(shù)據(jù)中多余空格去掉;(2)剔除全是字母,數(shù)字,標(biāo)點的樣本數(shù)據(jù);(3)去除重復(fù)評論。預(yù)處理結(jié)束后,針對本文的樣本數(shù)據(jù)集,定義每個評論表示為特征向量其中n為本文模型中使用特征個數(shù), yi= { 0,1},0表示正常評論,1表示垃圾評論。

        1.3 特征提取

        無論是半監(jiān)督學(xué)習(xí)算法還是全監(jiān)督學(xué)習(xí)算法,都需要用對應(yīng)的特征向量表示評論。定義并抽取恰當(dāng)?shù)脑u論特征是正確識別垃圾評論的關(guān)鍵。根據(jù)商品評論的特點引入以下特征表示商品評論并提取其特征值。從三個維度提取,文本特征中選?。簝?nèi)容相似度,鏈接數(shù),廣告詞數(shù),名詞度。情感特征中選?。呵楦性~數(shù)。元數(shù)據(jù)特征中選?。韩@得贊數(shù),評論長度。評論者特征中選取是否匿名,信用等級或者經(jīng)驗等級。

        (1)內(nèi)容相似度。內(nèi)容相似度是指評論者為了達(dá)到評論所需的最低字?jǐn)?shù)選擇復(fù)制粘貼,例如評論“滿意滿意滿意滿意滿意”。內(nèi)容相似度越低,該評論就越有可能是垃圾評論。內(nèi)容相似度計算如式(1)所示:

        其中riL 表示評論ir的總漢字?jǐn)?shù),riC 表示評論ir中不同的漢字?jǐn)?shù)。

        (2)鏈接數(shù)。根據(jù)電商平臺的評論數(shù)據(jù)分析,絕大多數(shù)含有超鏈接的評論都是屬于廣告評論或者推銷評論。一般正常評論中是比較少的含有超鏈接,所以一般含有的超鏈接數(shù)量越多,越有可能是垃圾評論。

        (3)廣告詞數(shù)。針對商品評論中,有人利用大部分消費者在網(wǎng)上購物都會看該商品的評論信息的習(xí)慣借助評論打廣告。例如“全場包郵”,“淘寶鏈接”,“假一罰十”等等,搜集常見的廣告詞制作廣告字典,樣本評論數(shù)據(jù)分詞之后與字典比較,含有廣告詞越多的越可能是垃圾評論。

        (4)名詞度。一般的評論都是表達(dá)消費者的意見,滿意或者不滿意。而垃圾評論更多的是描述信息,例如廣告信息,營銷信息。因此名詞度越高,該評論越可能是垃圾評論。計算方式如式(2)所示:

        其中riC 表示評論ir的總詞數(shù),rin表示評論ir中名詞數(shù)。

        (5)情感詞數(shù)。評論一般需要表達(dá)出消費者的意見,通常飽含情緒。情感詞用的越少越可能是垃圾評論。第一步,分析語料庫創(chuàng)建情感詞詞典,例如“開心”,“幸運”,“倒霉”等。然后計算評論中包含的情感詞語的數(shù)量。

        (6)獲得贊數(shù)。電商平臺一般會給一個評論設(shè)置一個回饋,后面的消費者如果覺得這條評論對自己有用就可以給這個評論點贊,類似的說法還有,有用數(shù),給評論的評論數(shù)等等。這一類的數(shù)值越低越說明這條評論是一條垃圾評論的可能性越高。

        (7)評論長度。真實顧客在寫評論時一般比較簡短,甚至懶于評論。而垃圾評論往往為了描述更多的信息去打廣告,匹配更多的關(guān)鍵字導(dǎo)致內(nèi)容比較長?;诖耍疚陌颜?guī)化長度的平方 SNL(Square of the Normalized Length)作為描述長度的特征,在標(biāo)注數(shù)據(jù)集時觀察得到當(dāng)SNL越接近1時該評論為垃圾評論的可能性越大,其中計算SNL如式(3)所示:

        其中kmax 是表示評論數(shù)據(jù)集中最長的評論;表示評論的長度,本文采用評論中漢字的個數(shù)來表示。

        (8)是否匿名。一般情況下如果評論者是匿名的情況下,說明這一類評論是垃圾評論的可能性越高。

        (9)評論者信用等級或者經(jīng)驗等級。一般情況下如果評論者的信用等級或者經(jīng)驗等級越低,越說明這條評論是一條垃圾評論的可能性越高。

        2 隨機(jī)森林算法與規(guī)則匹配

        目前主流垃圾評論識別相關(guān)方法主要考慮如何利用評論文本信息,評論者等信息對商品進(jìn)行識別,忽略了評論數(shù)據(jù)集的不平衡性[12]。不平衡數(shù)據(jù)集會帶來如下問題:(1)容易導(dǎo)致小類樣本的缺失;(2)比較難區(qū)分噪聲樣本和小類樣本。(3)決策面偏移問題等等。為了克服以上可能會產(chǎn)生的問題,Breiman等人在2001年提出隨機(jī)森林(RF, Random Forest)算法[13],隨機(jī)森林是一個包含多個決策樹的組合分類器,單棵決策樹可以按照一定精度分類,為了進(jìn)一步提高精度標(biāo)準(zhǔn)的做法就是種植一個森林,并且讓所有決策樹參加投票,通過投票結(jié)果得出最終的預(yù)測結(jié)果。當(dāng)采用標(biāo)準(zhǔn)的隨機(jī)森林來解決垃圾評論識別問題時候,發(fā)現(xiàn)有較好的分類性能,但是對于一些不平衡的數(shù)據(jù)集識別速度很慢,需要做進(jìn)一步改進(jìn)。通過分析文獻(xiàn)[14-15]將隨機(jī)森林算法來處理垃圾評論分類問題,并減弱數(shù)據(jù)集不平衡性帶來的負(fù)面影響。實驗結(jié)果表明,該方法可以取得比較好的識別效果,具體算法如表1示所示。

        表1 隨機(jī)森林算法Tab.1 Random forest algorithm

        2.1 基于規(guī)則匹配設(shè)計

        根據(jù)本文上面章節(jié)總結(jié)的垃圾評論的類型以及顯著性特征,我們設(shè)置了下面幾種規(guī)則匹配。規(guī)則匹配包含相應(yīng)的詞典,正則表達(dá)式等資源,由判別邏輯表達(dá)式構(gòu)成識別規(guī)則。一篇評論如果符合規(guī)則中一條或者幾條,則根據(jù)規(guī)則匹配識別為垃圾評論。未識別的被留存,給下一步的分類模型進(jìn)行分類識別。為了闡述規(guī)則匹配的建立過程,我們把一篇評論視為一個詞語序列,不構(gòu)成詞語的部分則視為一個連續(xù)的字符串,詞語和非詞語字符串在規(guī)則匹配中等價(下面都稱為詞語)。對于評論文本 R為一個詞語序列,W為評論文本中包含的詞語的集合,規(guī)則匹配構(gòu)建如下:

        (1)基于關(guān)鍵詞規(guī)則

        以廣告,營銷,傳播虛假信息等為目的的垃圾評論。在評論文本中通常包含網(wǎng)站鏈接,“http”“https”“www”等。聯(lián)系方式,“加 QQ”“聯(lián)系 QQ”“微信搜索”“公眾號”等。營銷信息,“代金券”“促銷”“搶購”“熱線”等。我們根據(jù)這些關(guān)鍵詞來構(gòu)建垃圾關(guān)鍵詞詞典。設(shè)置詞典集合 K,以及垃圾關(guān)鍵詞的正則表達(dá)式集合 R。正則表達(dá)式算子為Match(Word,Regx∈{true,false}),若 Word 符合正則表達(dá)式Regx,則值為true,否則為false。

        規(guī)則一:若(? word ∈ W)(? regx ∈ R)(word∈ K V Match(word,regx)),則 T 為一篇垃圾評論。

        (2)評論中無序字母,數(shù)字及字符序列規(guī)則

        有效評論一般包含正常評論的英文單詞數(shù)量,而垃圾評論中包含多個連續(xù)的與內(nèi)容無關(guān)的字母,數(shù)字和字符等。利用非詞語字符串占評論比例可以有效判斷垃圾評論。

        規(guī)則二:對于評論 T,非詞語字符長度為 l,若l/|T|>χ,則評論T被認(rèn)為是垃圾評論。例如:“很好吃?。。。。。。?!。。。?!钡?。

        (3)內(nèi)容相似度規(guī)則。

        單純?nèi)悏蛟u論字?jǐn)?shù)的評論,基本毫無意義。1.3節(jié)中對于特征值內(nèi)容相似度已做闡述,設(shè)置S(t)為評論T的相似度。

        規(guī)則三:若|S(t)|<α,則評論T為垃圾評論。

        3 實驗與評價

        3.1 數(shù)據(jù)集構(gòu)建

        現(xiàn)有機(jī)器學(xué)習(xí)算法中,標(biāo)注訓(xùn)練語料的準(zhǔn)確性將直接影響最后的分類正確性。然而目前國內(nèi)對于中文語料沒有一個公開的語料庫。為了追求數(shù)據(jù)真實性,本文從淘寶網(wǎng)絡(luò)商城(https://www.taobao.com)上抓取數(shù)據(jù)。本文的數(shù)據(jù)集就是基于這個抓取的數(shù)據(jù)構(gòu)建得到,該數(shù)據(jù)集一共包含9901篇評論,其中正常評論8020篇,垃圾評論881篇,大類和小類的比例約為 10:1,數(shù)據(jù)集的不平衡性比較大,其構(gòu)成如表2所示。

        表2 實驗數(shù)據(jù)集Tab.2 Experimental data set

        3.2 實驗設(shè)置

        為了比較全面的評價本文所提識別方法的有效性,本文在統(tǒng)計召回率和正確率兩個指標(biāo)的基礎(chǔ)上采取F值作為垃圾評論識別效果的最終測評指標(biāo)。公式如下:

        其中,CS表示實際標(biāo)注的虛假評論集合;PS表示算法預(yù)測的虛假評論集合。

        3.3 基于隨機(jī)森林和規(guī)則匹配算法實驗結(jié)果與

        分析

        本文采用 3.1節(jié)獲取的數(shù)據(jù)集作為實驗數(shù)據(jù)并且以weka作為實驗平臺,采用十折交叉驗證的方法進(jìn)行實驗。為了驗證本文所提方法的可行性和有效性一共設(shè)計了二組實驗,第一組實驗主要比較不同基線方法與隨機(jī)森林的性能差別結(jié)果如表3所示。

        第二組實驗主要比較在本文采用基于隨機(jī)森林算法的基礎(chǔ)上,進(jìn)一步進(jìn)行規(guī)則過濾?;趯Υ罅坷u論的觀察,得出垃圾評論具有的一些顯著特征,故本文在采用基于隨機(jī)森林算法的基礎(chǔ)上,采用2.1節(jié)提出的規(guī)則匹配進(jìn)行過濾。實驗結(jié)果如表4所示。

        表3 基于隨機(jī)森林的bagging算法與基線方法實驗結(jié)果Tab.3 The results of bagging algorithm experimental

        通過表2的數(shù)據(jù)可以看出,在本文收集的數(shù)據(jù)集的情況下,隨機(jī)森林的識別準(zhǔn)確率明顯高于其他基于基線的方法。通過表3中的Result_1可知,經(jīng)過規(guī)則過濾,對于選擇的四類產(chǎn)品垃圾評論的識別準(zhǔn)確率進(jìn)一步提高,與此同時召回率和F值均高于Result_0,實驗結(jié)果表明本文提出規(guī)則的有效性。

        表4 基于隨機(jī)森林和規(guī)則匹配的實驗結(jié)果Tab.4 The results of rules matching experimental

        4 結(jié)論及未來工作

        本文針對垃圾評論數(shù)據(jù)集不平衡性問題,提出基于隨機(jī)森林的垃圾識別方法,以減弱數(shù)據(jù)不平衡性的影響,實驗結(jié)果表明本文所提的識別方法取得良好的效果,未來將嘗試大規(guī)模評論數(shù)據(jù)的垃圾評論識別研究,同時針對中文垃圾評論,在特征建模過程中增加文本的心理語言學(xué)特征改進(jìn)模型加快算法執(zhí)行效率。

        [1] SUN Y C, Li Q S. The research situation and prospect analysis of meta search engines[C]// 2012 2nd International Conference on Uncertainty Reasoning and Knowledge Engineering(URKE). IEEE. Bali. Indonesia, 2012: 224-229.

        [2] CALLAN J P. LU Z H, CROFT W B. Searching distributed col-lections with inference networks[C]// Proceedings of the 18thAnnual International ACM S1G1R Conference on Research and Development in Information Retrieval. ACM.Massachusetts. USA, 1995: 2128.

        [3] JINDAL N. LIU 13. Opinion spam and analysis[C]//International Conference on Web Search and Data Mining. ACM, 2008:19-230.

        [4] LIU B. Sentiment Analysis and Opinon Mining[M], Chicago:Morgan&-Clayppol, 2012: 113-115.

        [5] 李霄, 丁晟春. 垃圾商品評論信息的識別研究[J]. 現(xiàn)代圖書情報技術(shù), 2013, (01): 63-68.

        [6] 游貴榮, 吳為, 錢沄濤. 電子商務(wù)中垃圾評論檢測的特征提取方法[J]. 現(xiàn)代圖書情報技術(shù), 2014, (10): 93-100.

        [7] 何海江, 凌云. 由Logistic回歸識別Web社區(qū)的垃圾評論[J].計算機(jī)工程與應(yīng)用, 2009, 45(23): 140-143.

        [8] 章劍鋒. 評論挖掘中的語義信息抽取[D]. 復(fù)旦大學(xué), 2008.

        [9] 何瓏. 基于隨機(jī)森林的產(chǎn)品垃圾評論識別[J]. 中文信息學(xué)報, 2015, 29(03): 150-154.

        [10] 黃鈴, 李學(xué)明. 基于AdaBoost的微博垃圾評論識別方法[J].計算機(jī)應(yīng)用, 2013, 33(12): 3563-3566.

        [11] 林煜明, 王曉玲, 朱濤, 周傲英. 用戶評論的質(zhì)量檢測與控制研究綜述[J/OL]. 軟件學(xué)報, 2014, 25(03): 506-527.

        [12] Piyaphol Phoungphol. Robust Multiclass Classification for Learning from Imbalanced Biomedical Data[J]. Tsinghua Science and Technology, 2012, 17(06): 619-628.

        [13] BREIMANL Random F[J]. Machine learning, 2001, 45(1):5-32.

        [14] Zhou ZH, Wu JX, Tang W. Ensembling neural networks:Many could be better than all. Artificial Intelligence, 2002,137(1, 2): 239. 263.

        [15] 郭山清, 高叢, 姚建等. 基于改進(jìn)的隨機(jī)森林算法的入侵檢測模型(英文)[J]. 軟件學(xué)報, 2005, (08): 1490-1498.

        Recognition of Spam Comment Based on Random Forest and Rule matching

        WEI Wei, KANG Zhun
        (College of Computer Science, South-Central University for Nationalities, Hubei Wuhan 430074)

        Aiming at the spam comment on the existence of e-commerce platform, a identification method based on random forest and rule matching is proposed. The method extracts the same number of replicas for the two classes in the sample, or assigns the same weight to two different classes to establish a stochastic model to weaken the impact of the data set imbalance. Part of the spam comment data characteristics are obvious, the use of rule matching to further improve the recall rate of comments identified. The results show that there is a high recognition rate for the identification of spam, and the validity of the proposed method is verified by extracting the data from the actual electricity platform.

        Spam collection recognition; Random forest; Integrated learning algorithm; Unbalanced problem

        TP301.6

        A

        10.3969/j.issn.1003-6970.2017.12.017

        本文著錄格式:魏偉,康準(zhǔn). 基于隨機(jī)森林和規(guī)則匹配的垃圾評論識別[J]. 軟件,2017,38(12):90-94

        中南民族大學(xué)中央高?;究蒲袠I(yè)務(wù)費專項資金項目(CZZ15002)

        魏偉(1991-),男,中南民族大學(xué)計算機(jī)科學(xué)學(xué)院碩士研究生,主要研究方向為自然語言處理和分布式計算??禍?zhǔn)(1992-),男,中南民族大學(xué)計算機(jī)科學(xué)學(xué)院碩士研究生,主要研究方向為自然語言處理和知識圖譜。

        猜你喜歡
        規(guī)則垃圾森林
        撐竿跳規(guī)則的制定
        垃圾去哪了
        數(shù)獨的規(guī)則和演變
        那一雙“分揀垃圾”的手
        倒垃圾
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        倒垃圾
        哈Q森林
        TPP反腐敗規(guī)則對我國的啟示
        哈Q森林
        亚洲美女又黄又爽在线观看| 麻豆69视频在线观看| 成年免费a级毛片免费看无码| 中文字幕无码日韩专区免费 | 少妇人妻中文久久综合| 99国产精品久久久蜜芽| 亚洲永久无码动态图| 久久精品有码中文字幕1| 亚洲av毛片在线免费看| 国产精品成人va在线观看| 日本www一道久久久免费榴莲 | 欧美xxxxx高潮喷水麻豆| 国产熟妇人妻精品一区二区动漫| 综合色天天久久| 亚洲精品国产av成人网| 男女肉粗暴进来动态图| 久久久久久免费毛片精品| 精品无码成人片一区二区| 日本免费大片一区二区三区| 国产精品无码av无码| 美女大量吞精在线观看456| 亚洲日本VA午夜在线电影| 国产午夜免费啪视频观看| 亚洲一区二区三区香蕉| 国产美女免费国产| 午夜黄色一区二区不卡| 无人区乱码一区二区三区| 好大好深好猛好爽视频免费| 国内精品福利在线视频| 国产内射一级一片高清内射视频| 欧美猛少妇色xxxxx猛交| 亚洲国产成人久久综合一区77 | 激情五月婷婷综合| 国产一区二区在三区在线观看| 天天综合网网欲色| 亚洲av一宅男色影视| 亚洲 美腿 欧美 偷拍| av网站在线观看亚洲国产| 国产免费人成视频在线观看| 免费无码中文字幕A级毛片| 偷拍偷窥在线精品视频|