葉子成 王幫海
(廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院 廣東 廣州 510006)
國內(nèi)外大量研究表明,閱讀對某一事物的網(wǎng)絡(luò)評論是當(dāng)前人們獲得信息的重要途徑之一,評論很大程度會影響其對某一事物的看法。在電商平臺中,不良商家為了獲得更大的利益,會利用虛假評論對消費(fèi)者的消費(fèi)決策進(jìn)行誤導(dǎo)。在網(wǎng)絡(luò)媒體中,個別媒體團(tuán)隊(duì)會利用虛假評論控制輿論、獲取流量并從中受益。
隨著網(wǎng)絡(luò)社交平臺的興起,一種由關(guān)鍵意見領(lǐng)袖[1]進(jìn)行宣傳,運(yùn)營團(tuán)隊(duì)同時對商品發(fā)表不真實(shí)評論的模式隨之流行。關(guān)鍵意見領(lǐng)袖負(fù)責(zé)在單群組或多群組中進(jìn)行有效的信息傳播,推動粉絲在短時間內(nèi)發(fā)布大量評論,使目標(biāo)商品在短時間內(nèi)獲得許多真假混雜的評論,增大虛假評論群組的檢測。虛假評論群組[2-3]指的是多個評論者通過組織協(xié)同地對同一個或同一組商品發(fā)表虛假評論。發(fā)布虛假評論的用戶共同構(gòu)成虛假評論群組,群組內(nèi)的個體之間不一定有直接關(guān)聯(lián),但通過領(lǐng)導(dǎo)者的組織策劃,虛假評論群組可以有規(guī)模地針對多種商品協(xié)同發(fā)布虛假評論。虛假評論群組的危害性遠(yuǎn)遠(yuǎn)大于虛假評論者個體的危害性,群組通過組織者的策劃在一段時間內(nèi)發(fā)表大量虛假評論,可以控制目標(biāo)商品的評論風(fēng)向,影響正常用戶的消費(fèi)決策。
現(xiàn)有的針對虛假評論群組檢測的研究工作多采用頻繁項(xiàng)挖掘或聚類算法獲得候選群組,再通過具備領(lǐng)域知識的專家進(jìn)行人工標(biāo)注得到候選群組的類別或?qū)θ航M的聯(lián)系及內(nèi)部特征進(jìn)行分析。Jindal等[4]利用一種排序模型確定虛假評論群組的可疑程度。Lim等[5]認(rèn)為在同一個群組中評論者們在行為上有以下共性:(1) 更可能集中在一個時間段內(nèi)對某一個商品發(fā)表評論;(2) 群組中的成員對一個商品的評分與真實(shí)用戶給出的評分存在偏差,即群組偏差(Group Deviation),群組偏差反映了群組欺詐行為的程度;(3) 虛假評論群組在某一個商品中發(fā)表評論越早,越能控制商品的評價風(fēng)向,發(fā)表虛假評論的動機(jī)也更充足。Xu等[6]在FraudInformer排序算法中利用多組特征(pairwise features)對評論者進(jìn)行打分和排序,并根據(jù)行為特征對反映的信息判定兩個虛假評論者是否強(qiáng)相關(guān),若強(qiáng)相關(guān),則二者屬于一個虛假評論群組的可能性更高。Xu等[7]基于文獻(xiàn)[6]提出的特征對,用改進(jìn)的KNN聚類算法和圖分類算法進(jìn)行聚類。在改進(jìn)的KNN聚類算法中研究者選擇k個最相似的評論,然后使用投票法判斷通過聚類分類的群組是否屬于虛假評論群組。而在圖分類算法中則通過對目標(biāo)函數(shù)求最優(yōu)解獲得給每一個評論者所屬的標(biāo)簽,并未對群組有進(jìn)一步分析。Ye等[8]引入了網(wǎng)絡(luò)足跡分(Network Footprint Score, NFS)的概念用于量化一個商品是否成為虛假評論群組目標(biāo)的可疑程度以及評論者行為的反常程度,隨后用其所提出的GroupStrainer算法對由可疑商品和可疑評論者構(gòu)成的2-hop子圖進(jìn)行層次聚類,從而檢測到虛假評論群組。Mukherjee等[2]使用頻繁項(xiàng)挖掘方法找到一組候選群組,再運(yùn)用GSRank模型對候選群組屬于虛假評論群組的概率進(jìn)行計(jì)算。張琪等[9]根據(jù)虛假評論者的行為指標(biāo)構(gòu)建帶權(quán)評論圖,對可疑子圖進(jìn)行篩選,確定嫌疑較大的評論者,再使用Louvain社群發(fā)現(xiàn)算法[10]將可疑評論者進(jìn)行分類。
已有的研究主要針對虛假評論群組的三個方面進(jìn)行研究:基于群組內(nèi)容和行為特征的檢測方法,基于群組結(jié)構(gòu)的檢測方法,基于網(wǎng)絡(luò)結(jié)構(gòu)的檢測方法[11]。本文提出的一種基于評論者相似度矩陣的譜聚類群組檢測算法(Spectral Clustering Group Detection Algorithm based on Reviewer Similarity Matrix,SCGDA),并對檢測出來的候選群組進(jìn)行分析和研究,補(bǔ)足了文獻(xiàn) [2,4,9]的不足。與文獻(xiàn)[9]相似的是,SCGDA同樣使用帶權(quán)評論者圖作為譜聚類的相似度矩陣。本文工作與其最大的不同之處在于,文獻(xiàn)[9]通過設(shè)置閾值基本篩選出可疑用戶,再進(jìn)行群組結(jié)構(gòu)發(fā)現(xiàn)和分析;而本文工作強(qiáng)調(diào)先對群組進(jìn)行檢測,再根據(jù)候選群組的內(nèi)部特征進(jìn)一步判斷所屬類別。此外,文獻(xiàn)[9]在對實(shí)驗(yàn)數(shù)據(jù)預(yù)處理階段刪除了不活躍的用戶和產(chǎn)品數(shù)據(jù),本文認(rèn)為移除部分?jǐn)?shù)據(jù)雖然有利于降低算法的時間復(fù)雜度,考慮到電子商務(wù)平臺會對違規(guī)賬號進(jìn)行封禁,虛假評論群組不得不使用多批賬號發(fā)布虛假評論,這些賬號很大可能就是剛注冊的賬號或是不活躍賬號,同時,移除部分?jǐn)?shù)據(jù)會改變數(shù)據(jù)集的結(jié)構(gòu),無法有效體現(xiàn)出算法的魯棒性。另外,在關(guān)鍵意見領(lǐng)袖模式下,一些基于文本分析進(jìn)行檢測的算法[12-13]或利用評論爆發(fā)性進(jìn)行檢測的算法[2,7-8,14-15]表現(xiàn)不佳。SCGDA利用用戶發(fā)布評論的行為特征檢測不同群組,適合對以關(guān)鍵意見領(lǐng)袖為核心的虛假評論群組進(jìn)行檢測。下面將介紹用戶相似度度量指標(biāo)的選擇和帶權(quán)評論者圖的構(gòu)建過程,并利用帶權(quán)評論者圖的鄰接矩陣作為相似度矩陣,通過譜聚類的方法完成群組檢測。之后,本文將對不同候選群組進(jìn)行分析,根據(jù)不同群組特征來度量候選群組的可疑程度,并與其他群組檢測算法進(jìn)行比較。
許多研究者[4,7,9,16]提出了一些能夠反映虛假評論者或虛假評論群組異常程度的指標(biāo),這些指標(biāo)被廣泛應(yīng)用于檢測虛假評論或檢測虛假評論者的不同模型中[2,8-9,16-17]。本文使用的帶權(quán)評論者圖以用戶作為節(jié)點(diǎn),因此從用戶的互動行為和自身行為兩個方面選擇了能夠反映評論者異常程度的5個指標(biāo):共同評論次數(shù),同一商品的評分相似度,用戶互動次數(shù),積極評分比例和消極評分比例。
共同評論次數(shù)是兩個用戶對相同商品進(jìn)行過評分的次數(shù),該指標(biāo)越高,表示兩個用戶在相同商品發(fā)表過評論的次數(shù)越多,這兩個用戶的行為越可疑。
同一商品的評分相似度用于度量兩個用戶在共同評論過的相同商品上給出評分的相似程度。當(dāng)兩個用戶有過多次共同評論相同商品的經(jīng)歷時,該指標(biāo)可以進(jìn)一步反映用戶的異常程度。
用戶互動次數(shù)指的是兩個用戶所發(fā)表的評論收到的互動行為(如認(rèn)為該評論“有用”)的次數(shù)。虛假評論群組的成員為了提高虛假評論的可信度和曝光率,會采用點(diǎn)贊、認(rèn)為“有用”等方式進(jìn)行互動。由于群組大小不同,不同群組成員的互動次數(shù)差異較大,但同一群組成員的互動次數(shù)則比較相近,因此該指標(biāo)可以反映用戶互動行為的相似程度。
積極(消極)評分比例是用戶給出積極(消極)評分次數(shù)占所有已給出評分次數(shù)的比例,虛假評論者為了抬高或降低商品的平均分,因此給出極端評分的概率遠(yuǎn)遠(yuǎn)高于普通用戶。利用該指標(biāo)可以度量極端評分比例,進(jìn)一步地,利用歐氏距離度量兩個用戶在積極(消極)評分比例上的相似程度。
由于虛假評論群組中的成員具有共謀性,互動行為指標(biāo)能夠捕獲不同用戶的關(guān)聯(lián)行為。對已產(chǎn)生關(guān)聯(lián)的可疑用戶,再進(jìn)一步結(jié)合用戶行為指標(biāo)可以度量兩個用戶自身行為的相似程度??傊鲜?個指標(biāo)涵蓋了用戶的互動行為和自身行為,能準(zhǔn)確地反映用戶間的相似程度,在這5個指標(biāo)中得分越相近的用戶在行為上越相似,更可能被認(rèn)為屬于同一群組。
互動行為指標(biāo)反映的是一個用戶的行為與其他用戶的行為的關(guān)聯(lián)程度。本節(jié)將對共同評論次數(shù)(Co-Reviewing Times, CRT)[9]、同一商品的評分相似度(Similarity of Rating on Same Product, SRSP)[3,9]和用戶互動次數(shù)(Interaction Times, IT)進(jìn)行介紹。
1.1.1共同評論次數(shù)
文獻(xiàn)[5,9]認(rèn)為,兩個評論者對同一個商品發(fā)表評論的次數(shù)越多,二者越有可能是同屬一個群組的虛假評論者。由于虛假評論群組的協(xié)同性,在同一群組內(nèi)的成員有更多相同的評論目標(biāo),而正常的用戶因用戶性別、年齡、收入和興趣愛好等不同而有不同的消費(fèi)行為,兩個正常的用戶往往不會出現(xiàn)多次對同一商品均進(jìn)行評論的現(xiàn)象。因此,本文選擇共同評論次數(shù)[9]作為用戶相似度度量指標(biāo)。
CRT(n1,n2)=|P1∩P2|
(1)
式中:n1、n2為兩個不同的評論者;P1、P2分別為n1、n2發(fā)表過評論的商品集合。
1.1.2同一商品的評分相似度
同一虛假評論群組的成員往往有共同褒揚(yáng)或貶低同一商品的目標(biāo),因此,屬于同一群組的成員不僅僅在相同商品上有較多的評論次數(shù),即CRT更高,而且對相同商品會給出更相近的評分。本文在文獻(xiàn)[3,9]的基礎(chǔ)上提出同一商品的評分相似度。
(2)
式中:n1、n2為兩個不同的評論者;SP1i、SP2j分別為n1、n2對商品P發(fā)表第i或第j條評價的評分;N1、N2分別為n1、n2在商品P上發(fā)表的評論數(shù)。
1.1.3用戶互動次數(shù)
虛假評論群者通常會在電商平臺上進(jìn)行互動,如進(jìn)行給已發(fā)表的虛假評論點(diǎn)贊、評論等互動行為,從而提高評論的可信度和賬號的活躍度。由于虛假評論者往往一人操縱多個賬號,因?yàn)椴倏v者的個人習(xí)慣,虛假評論賬號的互動次數(shù)有相似的互動頻率和互動次數(shù)。在此基礎(chǔ)上,本文定義用戶互動次數(shù)(Interaction Times, IT) 來衡量不同賬號間互動行為的相似程度,計(jì)算式為:
(3)
式中:C1i、C2i分別表示n1、n2第i種互動行為的次數(shù)。數(shù)據(jù)集中共有N種互動行為。本實(shí)驗(yàn)中,N取3,三種不同的互動行為分別為“發(fā)表的評論被其他用戶認(rèn)為有用”“發(fā)表的評論被其他用戶認(rèn)為很酷”“發(fā)表的評論被其他用戶認(rèn)為有趣”。
用戶行為指標(biāo)反映的是用戶自身的行為特征,如最大日評論數(shù)(Maximum Number of Reviews, MNR)[18]指的是用戶在單日發(fā)表最多評論的數(shù)目,這是一個異常的用戶行為特征;極端評分比例(Extreme Rating, EXT)[18]指的是用戶給出的極端評分?jǐn)?shù)量占給出評分?jǐn)?shù)量的比例。由于虛假評論者的目的往往是大幅提高或降低某個商品的平均分,因此虛假評論者給出的極端評分比例會遠(yuǎn)遠(yuǎn)高于普通用戶。
本文認(rèn)為一個群組內(nèi)的評論者有相同的目標(biāo),因此虛假評論者給出的好評或差評數(shù)量也會相近。本文對兩個用戶的好評占比和差評占比進(jìn)行統(tǒng)計(jì),并分別計(jì)算兩個用戶給出的好評(差評)比例的相近程度。評分的區(qū)間為[1,5],認(rèn)為1、2分為差評,4、5分為好評。則用戶的積極評分比例(Positive Rating Ratio, PR)定義為:
(4)
式中:|·|表示該評分出現(xiàn)的次數(shù)。
消極評分比例(Negative Rating Ratio, NR)定義為:
(5)
用歐氏距離度量兩個用戶PR和NR的相似度:
(6)
式中:rn表示為評論者n的PR或NR。
異構(gòu)評論圖(Heterogeneous Review Graph)[19]以用戶、評論和商品作為三種不同類型的節(jié)點(diǎn),當(dāng)兩個不同類型的節(jié)點(diǎn)發(fā)生關(guān)聯(lián)后則相應(yīng)地在兩個節(jié)點(diǎn)之間產(chǎn)生一條邊來描述節(jié)點(diǎn)間的關(guān)系。不同于異構(gòu)評論圖,張琪等[9]僅以用戶作為節(jié)點(diǎn),以用戶之間的相似程度作為權(quán)重構(gòu)建了帶權(quán)評論圖。本文在其工作的基礎(chǔ)上增加了用戶互動次數(shù)、用戶行為指標(biāo)計(jì)算邊的權(quán)重,構(gòu)建帶權(quán)評論者圖。構(gòu)建過程如下:
(1) 將每個評論者作為一個節(jié)點(diǎn)添加到圖中,構(gòu)成圖G=(V)。
(2) 利用第1節(jié)中提到的用戶相似度度量指標(biāo)構(gòu)建圖的邊。由于兩名虛假評論者屬于同一群組,則其必然在相同商品中發(fā)表過評論,因此在構(gòu)建圖的邊時先對圖G=(V)中兩兩節(jié)點(diǎn)的所有組合進(jìn)行遍歷,當(dāng)且僅當(dāng)兩兩評論者共同評論過至少一個商品,即共同評論次數(shù)大于0時,在代表這兩個評論者的節(jié)點(diǎn)之間建立一條邊,構(gòu)成無權(quán)圖G=(V,E),其中:V表示點(diǎn)集;E表示邊集。
(3) 對所有邊(vi,vj)∈E,分別計(jì)算節(jié)點(diǎn)vi、vj之間的共同評論次數(shù)(CRT)、同一商品評分相似度(SPSR)、用戶互動次數(shù)(IT),以及用戶積極(消極)評分比例相似度。
(4) 利用各項(xiàng)度量指標(biāo)計(jì)算所有邊(vi,vj)∈E的權(quán)值。張琪等[9]選用的2個造假行為特征各占0.5的權(quán)重;Dematis等[20]提出的模型根據(jù)選用的各項(xiàng)評分指標(biāo)的取值范圍來確定各指標(biāo)的權(quán)重,最終令各項(xiàng)指標(biāo)在式中占據(jù)相近的比例。本文選用的各度量指標(biāo)分別衡量節(jié)點(diǎn)不同維度下的相似程度,可以認(rèn)為各指標(biāo)的重要性相同。由于各指標(biāo)的取值區(qū)間不同,因此將其歸一化至[0,1]后取相同權(quán)重用于計(jì)算權(quán)值ω,即:
SimilarityNRij)
(7)
式中:k=5。
譜聚類[21]是一種從圖論演化而來的聚類算法。它的核心思想是對帶權(quán)圖進(jìn)行切割,使得切圖后不同子圖之間邊的權(quán)重之和盡可能低,同一子圖內(nèi)邊的權(quán)重之和盡可能高。文獻(xiàn)[22]指出譜聚類算法是用圖所對應(yīng)的矩陣特征向量表示圖的結(jié)構(gòu)特征關(guān)系,再對這些特征采用經(jīng)典聚類算法實(shí)現(xiàn)聚類。本文算法利用多分類正則切的譜聚類[23]方法對2.1節(jié)中構(gòu)建的帶權(quán)評論者圖進(jìn)行切割。具體地,利用譜聚類進(jìn)行群組檢測的基本流程如算法1所示。
算法1譜聚類檢測群組
輸入:帶權(quán)評論者圖G(V,E),檢測簇的個數(shù)n。
輸出:n個候選群組C=(c1,c2,…,cn)。
1. 由帶權(quán)評論者圖G計(jì)算鄰接矩陣A、度矩陣D以及拉普拉斯矩陣L=D-A。
2. 根據(jù)式(8)獲得標(biāo)準(zhǔn)化的拉普拉斯矩陣NL:
NL=D-1/2(D-A)D-1/2=D-1/2LD-1/2
(8)
3. 計(jì)算NL最小的k個特征值及其對應(yīng)的特征向量f,k取檢測簇的個數(shù)n。
4. 將各自對應(yīng)的特征向量f組成v×k大小的特征矩陣f并按行標(biāo)準(zhǔn)化,v為樣本數(shù),即圖G節(jié)點(diǎn)的個數(shù)。
5. 利用K-means方法對f按行進(jìn)行聚類,檢測得到n個候選群組C=(c1,c2,…,cn)。
Mukherjee等[17]從美國最大點(diǎn)評網(wǎng)站Yelp上分別爬取了芝加哥地區(qū)85家酒店和130家餐廳的評論數(shù)據(jù)分別構(gòu)成Yelp-Hotel和Yelp-Restaurant數(shù)據(jù)集。隨著多年的發(fā)展,Yelp的虛假評論過濾算法具有足夠高的準(zhǔn)確率,且在Yelp網(wǎng)頁上,被過濾算法識別出的虛假評論會被置于虛假評論區(qū),而過濾算法認(rèn)為正常的評論將被置于常規(guī)頁面。Mukherjee等將從商品(酒店或餐廳)的虛假評論區(qū)中爬取的評論數(shù)據(jù)置為正類標(biāo)簽“Y”,將從商品的常規(guī)頁面爬取的評論數(shù)據(jù)置為負(fù)類標(biāo)簽“N”。此外還從評論者主頁中爬取每一個評論者發(fā)表過的評論(不限于酒店、餐廳商品類別),將沒有出現(xiàn)在常規(guī)頁面的評論認(rèn)為是被過濾的虛假評論并置為正類標(biāo)簽“YR”,否則置為負(fù)類標(biāo)簽“NR”。從評論者主頁爬取的數(shù)據(jù)極大豐富了以“用戶”為中心的評論信息,由于爬取的許多用戶曾發(fā)表過虛假評論,因此該數(shù)據(jù)集(涵蓋Y、YR、N、NR四類標(biāo)簽)是一個不平衡的數(shù)據(jù)集。本文對數(shù)據(jù)集中具有不同虛假評論程度的群組進(jìn)行檢測,文獻(xiàn)[9,24]表明虛假評論占比超過10%的用戶有較大可能性是虛假評論者,因此虛假評論更多的不平衡數(shù)據(jù)集有利于不同層次群組檢測工作的進(jìn)行。此外,該數(shù)據(jù)集的虛假評論多以“用戶”為中心進(jìn)行爬取,因此也適合對聚類后的群組進(jìn)行內(nèi)部特征分析。
本文在帶權(quán)評論者圖構(gòu)建階段,選擇了酒店數(shù)據(jù)集中的評論者ID、商品ID、評論評分和評論被認(rèn)為是“有用的”次數(shù)、評論被認(rèn)為是“有趣的”次數(shù)、評論被認(rèn)為是“很酷的”次數(shù)對邊上權(quán)值的計(jì)算。由于虛假評論群組中會因賬號異常等原因而更換所控制的賬號,本實(shí)驗(yàn)不做刪除不活躍用戶的預(yù)處理,即采用完整的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),數(shù)據(jù)集共有5 132位評論者、688 329條評論、283 291件評論者發(fā)表過評論的商品。
SCGDA可以將數(shù)據(jù)集中5 132位評論者聚類到n個不同的簇中。由于在后續(xù)的工作中需要對群組特征進(jìn)一步分析,為了更好地體現(xiàn)群組內(nèi)部特征,本文將選取個體大于10的群組進(jìn)行分析。本文計(jì)算了聚類后個體小于10的群組占比,作為簇個數(shù)n的選擇指標(biāo),各聚類簇數(shù)下獲得成員數(shù)小于10的群組數(shù)量及所占比例如表1所示。
表1 不同簇數(shù)下聚類獲得個體小于10的群組數(shù)
根據(jù)個體小于10的群組占比,本文選擇了簇數(shù)n=15進(jìn)行群組檢測。
現(xiàn)有的研究對于虛假評論占一個虛假評論者發(fā)表評論的比例的定義尚不明確。Li等[24]認(rèn)為被大眾點(diǎn)評(dianping.com)網(wǎng)站檢測出虛假評論占已發(fā)表評論10%以上的用戶為虛假評論者。張琪等[9]檢測出來的12個虛假評論群組中,共有6個群組成員所有成員虛假評論占比為10%以上,所有群組的平均占比達(dá)到94.8%;成員占比為15%以上的,所有群組平均占比為86.1%;成員占比為20%以上的,所有群組平均占比為77.8%。綜合上述文獻(xiàn)的研究結(jié)果,可以認(rèn)為發(fā)表虛假評論占發(fā)表評論10%以上的用戶有較高的可能性是虛假評論者,發(fā)表虛假評論占發(fā)表評論20%以上的用戶可以基本確定是虛假評論者。本文分別對檢測獲得的15個群組中發(fā)布了10%、15%、20%以上虛假評論的人數(shù)進(jìn)行計(jì)算,群組檢測情況以及發(fā)布不同比例虛假評論人數(shù)占比如表2所示。
表2 群組檢測情況及發(fā)布不同比例虛假評論人數(shù)占比
可以看出,除了人數(shù)小于10的群組外,至少有90%的成員發(fā)表虛假評論占比超過10%的群組共有四個,所有群組的大部分成員均發(fā)布了至少10%以上的虛假評論。此外,除了10號和12號群組,其他群組成員發(fā)布的虛假評論均占到所有發(fā)布評論的30%以上,情況十分可疑。考慮到本文使用的數(shù)據(jù)集是一個不平衡的數(shù)據(jù)集,可以認(rèn)為檢測出來的群組是活躍度不相同的虛假評論群組。
本節(jié)主要介紹用于分析群組特征的幾個指標(biāo)并利用這些指標(biāo)對檢測得到的群組進(jìn)行分析,同時本文選擇K-means、層次聚類兩個經(jīng)典聚類算法,以及Louvain算法這一常用于虛假評論群組檢測的算法對帶權(quán)評論者圖進(jìn)行群組檢測對照實(shí)驗(yàn),以驗(yàn)證本文算法的有效性。其中:K-means和層次聚類算法取與本文算法相同的簇數(shù)n=15;Louvain算法是一種基于模塊度的社區(qū)發(fā)現(xiàn)算法,無法預(yù)設(shè)其檢測群組的數(shù)量。本文通過對該算法的參數(shù)調(diào)整使其檢測的群組數(shù)量最接近本文算法選擇的簇數(shù),Louvain算法檢測獲得13個群組。
3.3.1極端評分比(ExtremeRatingRatio,ERR)
Mukherjee等[18]認(rèn)為虛假評論者更傾向于發(fā)布極端的評分(在[1,5]的評分區(qū)間中給出1分或5分將被視為極端評分)以控制商品的平均分朝著目標(biāo)方向變化,因此提出了極端評分(Extreme Rating, EXT)的概念。張琪等[9]利用該指標(biāo)計(jì)算一個群組成員的平均極端評分比作為衡量群組檢測好壞的指標(biāo)之一。本文對四種方法檢測出的虛假評論群組分別計(jì)算極端評分比,其降序排列結(jié)果如表3所示。
表3 不同方法檢測的各虛假評論群組極端評分比
可以發(fā)現(xiàn),Louvain算法和SCGDA對比K-means算法及層次聚類算法均有較好的表現(xiàn),Louvain算法檢測出來的虛假評論群組中有7個ERR更高,而SCGDA檢測出來的群組中有11個群組ERR更高,從圖1可以直觀地看出Louvain算法和SCGDA劃群組的ERR趨勢。
圖1 不同方法檢測的各虛假評論群組極端評分比
可以認(rèn)為,即使Louvain算法可檢測得15個群組,SCGDA的第14、第15號群組ERR值更高。更高的ERR值意味著群組的可疑程度更高,在該指標(biāo)下SCGDA表現(xiàn)更好。
3.3.2重復(fù)評論比(RepeatedCommentRatio,RCR)
文獻(xiàn)[15]研究認(rèn)為同一ID在相同商品中發(fā)表多次評論是一種可疑的、不正常的行為。本文將檢測出的虛假評論群組進(jìn)行統(tǒng)計(jì),重復(fù)評論比指的是同一群組中,同一用戶對同一商品進(jìn)行的重復(fù)評論占該群組所有發(fā)布評論的比例。每個群組的重復(fù)評論比如圖2所示。
圖2 不同方法檢測的各虛假評論群組重復(fù)評論比
可以看出,本文算法與Louvain算法表現(xiàn)更好,而其他算法的表現(xiàn)較差??梢哉J(rèn)為,SCGDA檢測的群組中,有3個群組超過10%的評論都是在進(jìn)行“刷評論”的行為,在實(shí)驗(yàn)中每一種算法都檢測出RCR值趨于0的群組,這是由于這些群組規(guī)模都特別小,發(fā)表評論數(shù)量不多,因此在同一商品上重復(fù)評論的可能性也較低。
圖3 不同方法下檢測的各虛假評論群組評分偏差
在評分偏差值較小的前段,本文算法表現(xiàn)明顯優(yōu)于其他算法;在中段各算法的表現(xiàn)差距不明顯,本文算法略優(yōu)于其他算法;在RD值較高的后段,SCGDA及Louvain均略遜于兩類經(jīng)典算法,然而本文算法的表現(xiàn)仍比Louvain算法略優(yōu)。整體而言,本文算法的表現(xiàn)較好。
本文提出的SCGDA將優(yōu)化后的帶權(quán)評論者圖和譜聚類算法結(jié)合,并以此完成在Yelp數(shù)據(jù)集中的群組檢測工作,即先針對元數(shù)據(jù)選擇特征,再構(gòu)建帶權(quán)評論者圖,最后利用譜聚類算法對其進(jìn)行檢測獲得不同候選群組。本文選擇了3個常用于群組檢測工作的算法在同一帶權(quán)評論者圖上進(jìn)行群組檢測作為對照實(shí)驗(yàn),并在“極端評分比”“重復(fù)評論比”“評分偏差”三個虛假群組指標(biāo)上進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明,本文算法的群組檢測效果整體上要優(yōu)于其他方法。
實(shí)際中,評論的正面或反面傾向與被評論對象的形象之間往往有一定的關(guān)系,但用戶個體的下一條評論是正例或是反例具有不確定性,且受限于數(shù)據(jù)集,難以對個體是否屬于欺詐者定性說明。未來的工作考慮從評論的正反面和被評論對象的關(guān)系進(jìn)行挖掘,并對帶權(quán)評論者圖的構(gòu)建過程和譜聚類方法進(jìn)行進(jìn)一步完善,考慮用戶間的潛在聯(lián)系以進(jìn)一步提升群組檢測的準(zhǔn)確度,從而提高本文算法的群組檢測效果。