魏瑾瑞, 王若彤, 王 晗
(1.東北財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)學(xué)院,遼寧 大連 116025; 2.北京師范大學(xué) 統(tǒng)計(jì)學(xué)院,北京 100000)
近年來(lái),隨著電子商務(wù)的迅速發(fā)展,虛假評(píng)論的規(guī)模越發(fā)壯大,甚至形成虛假評(píng)論群組協(xié)同作案,因此,如何恰當(dāng)識(shí)別虛假評(píng)論具有重要的現(xiàn)實(shí)意義[1]。李璐旸等系統(tǒng)綜述了國(guó)內(nèi)外虛假評(píng)論識(shí)別的現(xiàn)狀,對(duì)比總結(jié)了特征設(shè)計(jì)、模型方法、數(shù)據(jù)集合評(píng)價(jià)指標(biāo)等方面,探討與展望了未來(lái)的識(shí)別研究方向[2]。虛假評(píng)論群組是指以共同目的協(xié)同發(fā)布虛假評(píng)論的個(gè)體組成的群體,相比虛假評(píng)論者個(gè)體影響力更大、隱蔽性更強(qiáng),對(duì)檢測(cè)方法的要求更高[3]。目前識(shí)別虛假評(píng)論的方法主要是參照評(píng)論內(nèi)容的文本特征[4,5]和評(píng)論者的行為特征[6,7],但是文本特征的模仿成本較低,單純依靠文本特征的識(shí)別已被證明效果有限;而依靠評(píng)論者行為特征的識(shí)別則需要有大量的歷史行為數(shù)據(jù)支撐,對(duì)于只發(fā)表一條評(píng)價(jià)的用戶,傳統(tǒng)模型不能有效解決冷啟動(dòng)問(wèn)題。事實(shí)上,大量虛假評(píng)論并非個(gè)體行為,而是有潛在組織的集體行為,評(píng)論者、目標(biāo)商品和關(guān)聯(lián)商品構(gòu)成一個(gè)巨大的網(wǎng)絡(luò),因此,有不少研究開(kāi)始轉(zhuǎn)向?qū)μ摷僭u(píng)論群組的識(shí)別[8~15]。按識(shí)別方法的不同,可以區(qū)分為監(jiān)督識(shí)別方法和非監(jiān)督識(shí)別方法,其中,監(jiān)督識(shí)別方法主要采用基于評(píng)論內(nèi)容特征的識(shí)別方法[5],而非監(jiān)督識(shí)別方法則根據(jù)識(shí)別特征不同可以分為單個(gè)虛假評(píng)論者特征、虛假評(píng)論群組特征[9,16]、時(shí)間序列特征[17]、評(píng)論模式特征[6]、行為分布特征[18]等。傳統(tǒng)識(shí)別虛假評(píng)論群組主要利用評(píng)論內(nèi)容的相似性和文本特征[8,9,12,14],也有學(xué)者開(kāi)始轉(zhuǎn)向結(jié)合群組結(jié)構(gòu)分析的虛假評(píng)論群組檢測(cè)[11,13,15]。例如,利用虛假評(píng)論者的網(wǎng)絡(luò)足跡選擇目標(biāo)產(chǎn)品,進(jìn)而通過(guò)挖掘目標(biāo)產(chǎn)品背后所有評(píng)論者的評(píng)論信息來(lái)達(dá)到檢測(cè)虛假評(píng)論群組的目的[11]。事實(shí)上,虛假評(píng)論群組與目標(biāo)產(chǎn)品之間已然形成了一定的特殊關(guān)系,對(duì)于目標(biāo)產(chǎn)品的選擇并不是隨機(jī)的,而是虛假評(píng)論群組背后的組織者經(jīng)過(guò)深思熟慮后的決策。因此,盡管現(xiàn)實(shí)中很多評(píng)論內(nèi)容和行為都可以偽造與模仿,但是用戶之間的關(guān)系以及用戶與產(chǎn)品之間的關(guān)系都存在某種確定的聯(lián)系,本文嘗試通過(guò)分析評(píng)論者的網(wǎng)絡(luò)行為發(fā)現(xiàn)目標(biāo)產(chǎn)品背后的虛假評(píng)論群組。
本文的改進(jìn)之處在于:(1)基于評(píng)論者與產(chǎn)品之間的網(wǎng)絡(luò)結(jié)構(gòu)特征挖掘評(píng)論者的行為軌跡,通過(guò)構(gòu)造2-hop子圖生成模型識(shí)別虛假評(píng)論群組。(2)利用多次迭代的方式將相似性滿足閾值的評(píng)論者放入對(duì)應(yīng)的候選群組,從而在有效固定網(wǎng)絡(luò)結(jié)構(gòu)的動(dòng)態(tài)變化的同時(shí)更加準(zhǔn)確地識(shí)別潛藏較深的虛假評(píng)論群組。(3)采用兩步探測(cè)方法,先篩選可疑目標(biāo)產(chǎn)品所對(duì)應(yīng)的高度相似的虛假評(píng)論者,再對(duì)剩余評(píng)論者聚類合并識(shí)別潛藏較深的虛假評(píng)論群組,這種做法在提高虛假評(píng)論識(shí)別精度的同時(shí)可以有效減少識(shí)別時(shí)長(zhǎng)與復(fù)雜度。
完美的虛假評(píng)論與真實(shí)評(píng)論無(wú)限接近,令反虛假系統(tǒng)無(wú)法識(shí)別。最新研究發(fā)現(xiàn)真假評(píng)論最大的區(qū)別在于網(wǎng)絡(luò)層面的關(guān)系模式。虛假評(píng)論由于其有組織性會(huì)呈現(xiàn)出一定的統(tǒng)計(jì)規(guī)律。本文重點(diǎn)研究評(píng)論者-產(chǎn)品組成的評(píng)論網(wǎng)絡(luò)中虛假評(píng)論者的網(wǎng)絡(luò)結(jié)構(gòu)特征,通過(guò)構(gòu)造網(wǎng)絡(luò)行為得分(Network Behavior Score)識(shí)別虛假評(píng)論群組,基于評(píng)論者與產(chǎn)品的關(guān)系計(jì)算PageRank值,根據(jù)得分高低識(shí)別無(wú)向圖中節(jié)點(diǎn)之間的異常行為。本文提到的節(jié)點(diǎn)中心性是基于度中心性(Degree Centrality)和PageRank中心性(PageRankCentrality)的度量方式得出的結(jié)果,目的是利用這兩項(xiàng)指標(biāo)分別使用局部和全局信息量化無(wú)向圖中各個(gè)節(jié)點(diǎn)的重要程度,進(jìn)一步通過(guò)信息熵與散度量化評(píng)論者及評(píng)論產(chǎn)品的可疑性。
評(píng)論者-產(chǎn)品評(píng)論網(wǎng)絡(luò)G包含了m個(gè)評(píng)論者節(jié)點(diǎn)U,n個(gè)產(chǎn)品節(jié)點(diǎn)p及連接它們的評(píng)論關(guān)系E,即G=(U,P,E)。評(píng)論者包括真實(shí)評(píng)論者和虛假評(píng)論者,產(chǎn)品包括目標(biāo)產(chǎn)品和非目標(biāo)產(chǎn)品,二者通過(guò)評(píng)論文本進(jìn)行邊的建立。假定一個(gè)評(píng)論者以文本方式對(duì)多個(gè)產(chǎn)品進(jìn)行評(píng)論,不論是否真實(shí)均為有效評(píng)論。即在真實(shí)評(píng)論網(wǎng)絡(luò)中,一個(gè)評(píng)論者可以對(duì)多種產(chǎn)品進(jìn)行同一評(píng)論,也可以對(duì)一個(gè)產(chǎn)品進(jìn)行多種評(píng)論,評(píng)論者與產(chǎn)品之間行為和對(duì)應(yīng)關(guān)系是交錯(cuò)的,真實(shí)評(píng)論網(wǎng)絡(luò)的相鄰節(jié)點(diǎn)不應(yīng)過(guò)分彼此依賴,基于相鄰節(jié)點(diǎn)多樣性可以分析評(píng)論者的相似性。當(dāng)一組評(píng)論者的中心性值驟降至一個(gè)極小的區(qū)間時(shí)是非常可疑的。
對(duì)于一組給定的產(chǎn)品,為了量化它們相鄰節(jié)點(diǎn)多樣性的中心性,先將產(chǎn)品對(duì)應(yīng)的評(píng)論者所有中心性的值分解,然后通過(guò)直方圖來(lái)創(chuàng)建其密度的非參數(shù)估計(jì),最后采用信息熵計(jì)算直方圖的偏度,信息熵的計(jì)算公式為:
(1)
真實(shí)評(píng)論網(wǎng)絡(luò)本身的自相似性決定了評(píng)論網(wǎng)絡(luò)的部分內(nèi)容往往擁有整個(gè)評(píng)論網(wǎng)絡(luò)的相似屬性。因此,可以利用這一結(jié)構(gòu)特征測(cè)量虛假評(píng)論造成的分布失真。評(píng)論者中心性的直方圖密度之間的KL散度可以表示為:
(2)
其中,P(i)表示產(chǎn)品的評(píng)論者的中心直方圖分布,Q表示所有評(píng)論者的中心直方圖分布。使用計(jì)算P(i)的方式來(lái)計(jì)算Q,通過(guò)自相似性結(jié)構(gòu)特征指標(biāo)中得到評(píng)論者的兩個(gè)得分指標(biāo)來(lái)分別表示中心性,分別為KLdeg(i)和KLpr(i)。分?jǐn)?shù)越高,對(duì)應(yīng)產(chǎn)品越可能是虛假評(píng)論的目標(biāo)產(chǎn)品。
為了量化產(chǎn)品受到虛假評(píng)論攻擊的影響,利用累積分布函數(shù)整合Hdeg(i)、Hpr(i)、KLdeg(i)和KLpr(i)等四個(gè)得分指標(biāo)。假設(shè)一組產(chǎn)品中心性的信息熵得分為Hc,則一個(gè)特定的Hc(i)經(jīng)驗(yàn)累積分布函數(shù)可以表示成:
f(Hc(i))=P(H≤Hc(i))
(3)
同理有,
f(KLc(i))=1-P(KL≤KLc(i))
(4)
進(jìn)而有,
f(H(i))=f(Hdeg(i))2+f(Hpr(i))2
(5)
f(KL(i))=f(KLdeg(i))2+f(KLpr(i))2
(6)
(7)
前一節(jié)通過(guò)計(jì)算一組產(chǎn)品i的網(wǎng)絡(luò)行為得分來(lái)測(cè)量可疑目標(biāo)產(chǎn)品的異常性。為了進(jìn)一步反向識(shí)別虛假評(píng)論群組,我們建立一個(gè)包括最高網(wǎng)絡(luò)行為得分的頂級(jí)產(chǎn)品P1、對(duì)應(yīng)的評(píng)論者R及其評(píng)論的產(chǎn)品P2的子網(wǎng),通過(guò)誘導(dǎo)以上k個(gè)可疑目標(biāo)產(chǎn)品的所有評(píng)論者及其評(píng)論的產(chǎn)品得到一個(gè)2-hop子圖。該2-hop子圖可以用一個(gè)p×u的鄰接矩陣A來(lái)表示,其中|P2|=p,|R|=u。
在判斷虛假評(píng)論群組的存在性后,采用GroupStrainer算法[11]識(shí)別虛假評(píng)論群組。該算法通過(guò)重新組織所有成員識(shí)別虛假評(píng)論群組,能夠有效降低識(shí)別失誤率。值得注意的是,為了在提高識(shí)別精度的同時(shí)減少聚類算法負(fù)荷,我們先篩選出高度相似的虛假評(píng)論群組再進(jìn)行聚類。由于整個(gè)識(shí)別過(guò)程中虛假評(píng)論群組數(shù)目未知,我們借助層次聚類方法將評(píng)論者反復(fù)迭代后合并成更大的群組并得到其嵌套層次結(jié)構(gòu)。樸素層次聚類方法在每次迭代只能合并兩個(gè)評(píng)論者,分析大規(guī)模評(píng)論數(shù)據(jù)效率低,因此采用局部敏感哈希算法(Locality Sensitive Hashing Algorithm)提高迭代過(guò)程的效率。本文通過(guò)選擇多種哈希函數(shù)進(jìn)行映射變換將數(shù)據(jù)點(diǎn)散列成簽名矩陣,接著再散列簽名矩陣,得到每個(gè)數(shù)據(jù)點(diǎn)被最終散列到相應(yīng)的存儲(chǔ)桶中,這樣既能夠確保原始數(shù)據(jù)點(diǎn)之間的相似性與他們簽名相等的可能性成正比,也能夠完全控制這種狀況發(fā)生的概率。因此,兩個(gè)數(shù)據(jù)點(diǎn)之間相似性越高,生成的簽名匹配的可能性越大,被分散到相同存儲(chǔ)桶中的概率也就越大。對(duì)于不同的相似性函數(shù),局部敏感哈希算法會(huì)使用不同且適當(dāng)?shù)墓:瘮?shù)。為減少哈希表的空間儲(chǔ)存,運(yùn)用Jaccard相似度的最小散列法和Cosine相似度的隨機(jī)投影法。
為了客觀評(píng)估上述虛假評(píng)論群組識(shí)別算法的效果,采用亞馬遜數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)分析。該數(shù)據(jù)集來(lái)源于大型電子商務(wù)平臺(tái)亞馬遜(https://www.amazon.cn/)在中國(guó)市場(chǎng)的實(shí)際評(píng)論,采集窗口是2010年1月1日至2013年12月31日,包括15個(gè)一級(jí)產(chǎn)品類別的525619個(gè)產(chǎn)品的產(chǎn)品信息、1424596個(gè)評(píng)評(píng)論者信息以及7202921條評(píng)論的評(píng)論信息。該數(shù)據(jù)集的每條評(píng)論樣本都包含以下13個(gè)字段:評(píng)論者ID、產(chǎn)品ID、評(píng)論等級(jí)、一級(jí)類別ID、一級(jí)類別名稱、二級(jí)類別ID、二級(jí)類別名稱、評(píng)論日期、產(chǎn)品名稱、評(píng)論標(biāo)題、評(píng)論內(nèi)容、評(píng)論標(biāo)題長(zhǎng)度和評(píng)論內(nèi)容長(zhǎng)度。
實(shí)驗(yàn)分析數(shù)據(jù)采集窗口期內(nèi)前四類最暢銷的產(chǎn)品,包括圖書(shū)音像類、手機(jī)數(shù)碼類、美妝個(gè)護(hù)類和家居生活類等四類。數(shù)據(jù)清洗時(shí),如果原始數(shù)據(jù)中的評(píng)論者ID、評(píng)論等級(jí)、產(chǎn)品名稱、評(píng)論標(biāo)題和評(píng)論內(nèi)容等這些關(guān)鍵字段有缺失、含異常值或?yàn)橹貜?fù)樣本,則將其剔除。
將上述兩類算法分別應(yīng)用于四個(gè)數(shù)據(jù)集,計(jì)算對(duì)應(yīng)所有產(chǎn)品的網(wǎng)絡(luò)行為得分,根據(jù)網(wǎng)絡(luò)行為得分的大小可以判斷該產(chǎn)品是否為虛假評(píng)論群組所攻擊的目標(biāo)產(chǎn)品。以目標(biāo)產(chǎn)品為種子誘導(dǎo)出評(píng)論網(wǎng)絡(luò)的2-hop子圖,再通過(guò)GroupStrainer算法識(shí)別評(píng)論網(wǎng)絡(luò)中的虛假評(píng)論群組。
為量化虛假評(píng)論群組的評(píng)論行為,引入虛假評(píng)論者共謀得分(Spammer Collusion Score)和虛假評(píng)論者共謀平均得分(Spammer Collusion Average Score):
(8)
(9)
其中,g表示數(shù)據(jù)集中的一個(gè)虛假評(píng)論群組,ri,rj分別為群組g中的兩個(gè)虛假評(píng)論者,p(ri),p(rj)分別表示虛假評(píng)論者ri和rj攻擊的目標(biāo)產(chǎn)品,n為群組中虛假評(píng)論者的總數(shù)。虛假評(píng)論群組的共謀平均得分SCAS越高時(shí),該群組的成員之間共謀性越強(qiáng)。
為了使實(shí)驗(yàn)更具說(shuō)服力,本文使用HDBSCAN算法[19,20]、DBSCAN算法[20,21]、KMeans算法[21]以及GroupStrainer算法進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果表明四種聚類算法識(shí)別出的虛假評(píng)論群組個(gè)數(shù)以及共謀均分變化趨同,說(shuō)明識(shí)別結(jié)果具有較好的穩(wěn)健性。圖1展示了四類產(chǎn)品數(shù)據(jù)集在四種不同方法下識(shí)別出的虛假評(píng)論群組個(gè)數(shù)以及各個(gè)產(chǎn)品數(shù)據(jù)集的共謀平均得分。以HDBSCAN算法的實(shí)驗(yàn)結(jié)果為例,四個(gè)數(shù)據(jù)集中隱藏的虛假評(píng)論群組的數(shù)量分別為7個(gè)、15個(gè)、40個(gè)和14個(gè)。
從各個(gè)產(chǎn)品類別的群組個(gè)數(shù)上來(lái)看,圖書(shū)音像類產(chǎn)品是亞馬遜平臺(tái)的主導(dǎo)產(chǎn)品,評(píng)論者以及評(píng)論數(shù)量是最多的,但是虛假評(píng)論群組的數(shù)量卻是最少的;相比較而言,美妝個(gè)護(hù)類產(chǎn)品的虛假評(píng)論群組反而是數(shù)量最多的,該類產(chǎn)品作為日耗品,主要面向女性消費(fèi)群體,具有種類多、更換頻率快、使用周期短等特征,因而其潛在市場(chǎng)價(jià)值高于圖書(shū)音像類產(chǎn)品。同時(shí),真實(shí)評(píng)論數(shù)量明顯多于虛假評(píng)論,這符合我們對(duì)網(wǎng)絡(luò)評(píng)論中虛假評(píng)論行為的基本預(yù)期:大多數(shù)評(píng)論還是真實(shí)可靠的。
圖1 四種聚類算法的比較
圖2為四個(gè)數(shù)據(jù)集中產(chǎn)品信息熵與散度的關(guān)系,方框內(nèi)為正常點(diǎn),圓圈內(nèi)為異常點(diǎn),點(diǎn)與產(chǎn)品一一對(duì)應(yīng)。以圖書(shū)音像類產(chǎn)品為例,圖2(a)和(b)分別表示其度中心性和PageRank中心性的信息熵與散度的關(guān)系,當(dāng)KL散度越大且信息熵越小時(shí),對(duì)應(yīng)產(chǎn)品月的可疑性越高。同理,圖(c)和(d)、(e)和(f)、(g)和(h)分別為手機(jī)數(shù)碼類、美妝個(gè)護(hù)類和家居生活類產(chǎn)品的信息熵與KL散度的關(guān)系。綜合來(lái)看,圖書(shū)音像類與手機(jī)數(shù)碼類產(chǎn)品中異常點(diǎn)明顯多于其他兩類產(chǎn)品,出于隱藏虛假評(píng)論行為的考慮,產(chǎn)品數(shù)量更多的類別可能存在更多可疑目標(biāo)產(chǎn)品。進(jìn)一步,以頂級(jí)產(chǎn)品P1為種子從前文建立的子網(wǎng)中誘導(dǎo)出2-hop子圖。圖書(shū)音像類和美妝個(gè)護(hù)類產(chǎn)品的共謀均分在0.57左右,說(shuō)明這兩類產(chǎn)品更受消費(fèi)者青睞,虛假評(píng)論群組通過(guò)攻擊部分非目標(biāo)產(chǎn)品進(jìn)行偽裝以獲得經(jīng)濟(jì)利益。手機(jī)數(shù)碼類和家居生活類產(chǎn)品的共謀均分更高,偽裝度更低,分別為0.83和1.00。
為進(jìn)一步驗(yàn)證模型的準(zhǔn)確性和穩(wěn)健性,在前文的模型對(duì)比實(shí)驗(yàn)基礎(chǔ)上,回溯并比較真假評(píng)論的統(tǒng)計(jì)特征差異。下圖3為虛假評(píng)論與真實(shí)評(píng)論統(tǒng)計(jì)特征。評(píng)論等級(jí)為好評(píng)比例,評(píng)論日期是同時(shí)發(fā)布評(píng)論的比例,產(chǎn)品名稱是目標(biāo)產(chǎn)品占總產(chǎn)品數(shù)量的比例,重復(fù)評(píng)論是重復(fù)評(píng)論占所有評(píng)論的比例。此外,定義評(píng)論集中度為評(píng)論者與產(chǎn)品數(shù)量的比值,表示同一評(píng)論者評(píng)論同類產(chǎn)品的頻率??梢园l(fā)現(xiàn),虛假評(píng)論的評(píng)論集中度是真實(shí)評(píng)論的3.3~5.7倍,其中手機(jī)數(shù)碼類產(chǎn)品差異最大。該類產(chǎn)品變遷快,消費(fèi)者盲區(qū)多,說(shuō)明虛假評(píng)論群組偏好攻擊消費(fèi)者陌生的領(lǐng)域。從評(píng)論日期和重復(fù)評(píng)論來(lái)看,虛假評(píng)論的同質(zhì)性非常明顯,其中,圖書(shū)音像類產(chǎn)品差異性最小。值得注意的是,虛假評(píng)論的評(píng)論等級(jí)與真實(shí)評(píng)論趨同,即虛假評(píng)論群組并非直接刷高評(píng)論等級(jí),而是通過(guò)文本好評(píng)吸引消費(fèi)者。事實(shí)上,價(jià)格相近的同種產(chǎn)品,如果店鋪的好評(píng)率過(guò)高反而容易引起消費(fèi)者懷疑。相比產(chǎn)品評(píng)論等級(jí),消費(fèi)者更青睞參考評(píng)論文本。此外,通過(guò)對(duì)比真假評(píng)論的網(wǎng)絡(luò)結(jié)構(gòu)可以發(fā)現(xiàn),虛假評(píng)論的群組特征比真實(shí)評(píng)論更明顯,呈現(xiàn)出有組織的網(wǎng)絡(luò)結(jié)構(gòu)。二者的區(qū)別在于評(píng)論者之間是否存在以目標(biāo)產(chǎn)品為媒介的緊密關(guān)聯(lián)。
圖2 四個(gè)數(shù)據(jù)集的信息熵與KL散度關(guān)系圖
圖3 虛假評(píng)論與真實(shí)評(píng)論統(tǒng)計(jì)特征對(duì)比
隨著購(gòu)物評(píng)論生產(chǎn)的日益專業(yè)化和商業(yè)化,評(píng)論作為個(gè)人行為非常容易被模仿,因此基于個(gè)體層面的文本或行為特征識(shí)別往往容易引起誤判。事實(shí)上,現(xiàn)實(shí)中識(shí)別虛假評(píng)論的目標(biāo)并非止于單條評(píng)論的是非判斷,而是追蹤到虛假評(píng)論背后的組織者(被雇傭者)以及目標(biāo)產(chǎn)品(雇傭者),從源頭上予以警告和打擊。不同于普通的社交網(wǎng)絡(luò),專業(yè)化的虛假評(píng)論是并發(fā)的集體行為,其目標(biāo)產(chǎn)品選擇不是隨機(jī)決策,因此基于評(píng)論者與產(chǎn)品的網(wǎng)絡(luò)結(jié)構(gòu)特征可以很好地識(shí)別虛假評(píng)論群組,而且虛假評(píng)論群組的識(shí)別過(guò)程也可以一并篩查出其攻擊的目標(biāo)產(chǎn)品,可操作性更強(qiáng)。
根據(jù)樣本的評(píng)論行為計(jì)算其所對(duì)應(yīng)產(chǎn)品的相鄰節(jié)點(diǎn)多樣性與自相似性,通過(guò)累積分布函數(shù)估算二者概率將其綜合為網(wǎng)絡(luò)行為得分,基于此對(duì)虛假評(píng)論群組攻擊的目標(biāo)產(chǎn)品進(jìn)行篩選,進(jìn)而以可疑產(chǎn)品為種子建立2-hop子圖作為后續(xù)識(shí)別虛假評(píng)論群組的子樣本數(shù)據(jù),結(jié)合局部敏感哈希算法的層次聚類識(shí)別評(píng)論樣本中的虛假評(píng)論群組?;趤嗰R遜評(píng)論數(shù)據(jù)集檢驗(yàn)了該方法的識(shí)別能力,發(fā)現(xiàn)該方法能夠有效識(shí)別隱藏較深的大規(guī)模虛假評(píng)論群組,且虛假評(píng)論群組對(duì)目標(biāo)產(chǎn)品的攻擊模式存在產(chǎn)品類別差異;最后將算法得出的虛假評(píng)論與真實(shí)評(píng)論進(jìn)行對(duì)比,虛假評(píng)論的同質(zhì)性非常明顯,評(píng)論日期更加緊湊,評(píng)論者集中度較高,虛假評(píng)論群組的目的也并非簡(jiǎn)單直接刷高評(píng)論等級(jí),而是傾向于通過(guò)文本好評(píng)來(lái)吸引消費(fèi)者。不足之處在于,識(shí)別過(guò)程中未能充分利用評(píng)論樣本的文本及行為特征,未來(lái)可以考慮將其作為輔助信息提升識(shí)別精度。