房有麗,王 紅,3
1(山東師范大學(xué) 信息科學(xué)與工程學(xué)院,濟(jì)南250358 )2(山東省分布式計算軟件新技術(shù)重點實驗室,濟(jì)南250014)3(山東師范大學(xué) 生命科學(xué)研究院,濟(jì)南250014)
網(wǎng)上購物迎合了當(dāng)今快速的生活節(jié)奏,給人們生活帶來便捷.但是,虛假評論的存在,為營造公平公正的網(wǎng)絡(luò)購物環(huán)境帶來了巨大挑戰(zhàn).網(wǎng)上購物使得用戶無法親身感受到商品質(zhì)地和性能,所以,在線評論成為顧客了解商店與商品的重要渠道,他們通常先參考商品的評論與評分,再決定是否購買.好的評論可以提升產(chǎn)品的信譽(yù),引導(dǎo)更多的顧客購買;相反,差的評論會影響信譽(yù),降低銷售量.因此,由于利益的驅(qū)動,商家開始雇傭水軍冒充普通顧客偽造評論.一方面對自己的商品進(jìn)行好評,另一方面對于競爭者惡意詆毀.因此,如何有效發(fā)現(xiàn)這些虛假評論成為亟待解決的問題.
先前的工作大多分別利用評分或評論來檢測虛假評論,如1-2分代表差評,3分代表中評,4-5分代表好評,這些方法存在不足:第一,分別利用評分或評論檢測虛假評論,而沒有考慮二者的一致性問題,只利用評分或評論不能準(zhǔn)確檢測出虛假評論,因為評論與評分有時會不一致,評分不能完全代表評論者的真實情感.其中本文提到的一致性是指評論文本的情感極性與其評分都是一致積極或者消極,呈現(xiàn)正相關(guān),如表1所示,A、B表示不一致,C表示一致;第二,忽略了虛假評論在不同的時間的不同表現(xiàn).一般來說,在一段時間內(nèi)評論數(shù)量激增及評分突然上升或下降,就可能存在不真實的評論.針對上述問題,本文提出了基于評分-評價一致性和多維時間序列的虛假評論識別方法.
表1 評論-評分一致性對比表Table 1 Comment-rating Consistency comparison
本文的主要貢獻(xiàn)包括:
1)提出了判斷評論與其評分差異性的方案,綜合利用評分和評論檢測虛假評論.給出分析感情極性并判斷與其評分的一致性算法.
2)研究虛假評論在時間維的表現(xiàn),提出了針對評論與評分的多模態(tài)時間統(tǒng)計檢測方法,檢測一段時間內(nèi)評論與評分突變的相關(guān)性,而不是傳統(tǒng)的靜態(tài)評論集合檢測方法.
近年來,研究者們在垃圾網(wǎng)頁[1]與垃圾郵件[2]的識別研究上做了大量工作,獲得了較好效果.近來,虛假評論的檢測成為一個研究熱點.Jindal等[3]發(fā)現(xiàn)了虛假評論廣泛的存在于商品中,但是這些評論本質(zhì)上與垃圾網(wǎng)頁和垃圾郵件不同,他們利用商品的評論數(shù)據(jù)、融合評論文本內(nèi)容和商品的特征因素進(jìn)行建模來區(qū)分復(fù)制觀點和非復(fù)制觀點,檢測出是復(fù)制觀點時則判為虛假評論.
Xie等[4]發(fā)現(xiàn)了單一評論是虛假評論的重要組成部分.正常的評論比較穩(wěn)定、相關(guān)低.相比之下,虛假的評論相關(guān)性高且突發(fā)性,表達(dá)情感極性強(qiáng).因此提出時間模式,構(gòu)建基于多維聚合的時間序列統(tǒng)計以此挖掘虛假評論的相關(guān)性.
OTT等[5]利用眾包平臺實現(xiàn)了第一個虛假評論的“黃金”數(shù)據(jù)集,其中包含真實評論跟虛假評論.在基于計算機(jī)語言學(xué)的基礎(chǔ)上,把虛假評論的檢測問題轉(zhuǎn)化為文本分類問題.Li等[6]通過網(wǎng)絡(luò)獲取大量產(chǎn)品的評論,然后手動標(biāo)注語料庫,利用協(xié)同算法來檢測虛假評論.
任亞峰等[7]提出基于語言結(jié)構(gòu)和情感極性的虛假評論識別方法,并利用自然語言處理技術(shù)分析正面和負(fù)面情感極性對評論的影響.然后利用遺傳算法,通過復(fù)制、交叉和變異實現(xiàn)種群的進(jìn)化,從而提高準(zhǔn)確率.Li等[8]利用語義和情感檢測,并給出了構(gòu)建每個特征的模型和算法,實驗表明,提出的模型,算法和特征在檢測任務(wù)中比基于內(nèi)容,評論者信息和行為的傳統(tǒng)方法有效.
Peng等[9]為了解決情感對商品的影響度,提出了基于自然語言處理技術(shù)對于情感的評分,并通過觀察建立規(guī)則來判別虛假評論,實驗表明,他們所提出的方法在分析情感的精確度上取得了良好的效果.
Chang等[10]利用重要的屬性詞,具體的量詞和名詞動詞比例來構(gòu)建虛假模型,結(jié)果說明更加獨特的詞匯和具體的量詞和名詞包含在內(nèi),假冒的可能性就越小.Li[11]等通過集體無標(biāo)記的學(xué)習(xí)來識別虛假的評論.
通過總結(jié)前人的工作發(fā)現(xiàn),研究者分別從評分和評論兩個方面進(jìn)行研究.一方面從商品評分著手,通過聚類算法進(jìn)行分組,識別出虛假的評論;另一方面是基于自然語言分析文本.本文提出融合情感分析、評分與評論一致性、以及時間序列的動態(tài)多維模型來檢測虛假評論.
本文的目標(biāo)是利用情感技術(shù)及多維時間序列更加準(zhǔn)確的檢測虛假評論,為了實現(xiàn)這個目標(biāo),有3個問題需要解決.第一,如何判斷評論文本的情感極性與其評分的一致性,第二,如何利用時間序列模型檢測在一段時間內(nèi)評論數(shù)量與評分突變的相關(guān)性,進(jìn)行虛假評論識別;第三,如何通過機(jī)器學(xué)習(xí)模型發(fā)現(xiàn)虛假評論的影響因素,并揭示這些因素與識別虛假評論的關(guān)系.
評論文本的情感傾向分析是通過挖掘和分析評論文本中的立場、觀點情緒等主觀信息,分析得出評論者的正面或者負(fù)面情感傾向.Dewang等[12]提出了一套新的詞匯和句法特征集,并應(yīng)用監(jiān)督算法對假評論數(shù)據(jù)集(黃金標(biāo)準(zhǔn))進(jìn)行分類.邸鵬等[13]提出對轉(zhuǎn)折句式文本分析算法,主要針對長文本的情感分析,所以考慮上下文的轉(zhuǎn)折關(guān)系是有效的.但是他們直接對短文本分析效果并不佳,因為無法考慮上下文信息.本文提出了不同的計算方法:分別利用情感強(qiáng)度、特征權(quán)重對虛假評論的影響,提出了感情極性與其評分的一致性算法,如算法1所示.為了方便計算,符號表示如表2所示.
表2 符號定義表Table 2 Symbol definition
定義f(d)代表語義情感分?jǐn)?shù)和評分之間的差異度,如公式(1)所示,若m(d)與o(d)的乘積大于0,則表明它們之間沒有太大的差異;若是二者乘積小于0,則說明它們的差異過大是虛假評論.
(1)
1)情感強(qiáng)度.情感強(qiáng)度是指情感詞通過距離對特征的影響度.當(dāng)特征與情感詞距離較近時,情感強(qiáng)度加強(qiáng),反之亦然.定義s(f)代表所有特征詞匯情感度,用dis(wi,f)表示兩者的距離,計算情感詞對特征的影響度如公式(2)所示.
(2)
在公式(2)中,o(wj)表示情感極性的詞匯,當(dāng)是積極性詞匯時,情感極性用+1表示;當(dāng)是消極性詞匯時,情感極性用-1表示.cN表示每個特征否定詞的數(shù)量,如果沒有否定詞,cN等于0;若有奇數(shù)個否定字,極性情緒為-1,否則為+1.
2)特征影響度.特征影響度是指利用不同特征判斷虛假評論的準(zhǔn)確度.在評論里有很多特征對判斷虛假評論都有影響,但影響程度不同.權(quán)重較大的特征判斷虛假評論精確度會更高;相反,權(quán)重較小的特征甚至影響虛假評論的判別.定義o(d)代表每條評論的情感分?jǐn)?shù),如公式(3)所示.
(3)
Algorithm1.Review Analysis
1.INPUT:Review Text:
2.OUTPUT:Review Orientation
3.rt←{Review Text};
4.While(rt.read())
5. For all j∈rt.Length DO
6. IF(rt.wordi∈NegDictionary) THEN
7. IF(num/2!=1)THEN
8.o(wj)←o(wj)
9. ELSEo(wj)←-o(wj)
10.END FOR;
∥emotional intensity calculation
∥emotional score calculation
∥evaluation and score consistency judgment
13. FORfielement ind
14. IFm(d)*o(d)>0
15.f(d)=1∥the two are consistent
16. ELSE 0∥the two are inconsistent
17. END FOR
18.END WHILE;
19.RETURNf(d)
商家雇傭水軍冒充普通顧客偽造評論,會造成一段時間內(nèi)評論數(shù)量激增及評分突然上升或下降.最早提出利用時間序列檢測虛假評論的是文獻(xiàn)[14],但是存在著不足,他們僅基于評分建立評價指標(biāo),不夠準(zhǔn)確,因此,本文提出利用多維時間序列關(guān)于評論及評分異常模式檢測方法.
3.2.1 時間序列結(jié)構(gòu)
檢測方法是基于時間序列,包括評論數(shù)量、平均評分.每個商店都有一系列按照發(fā)布時間升序排序的評論數(shù)量及評分.其中,R(s)={r1,…,rns} 和TS(s)={ts1,…,tsns}分別表示評論與其對應(yīng)的時間,ns是商店的評論數(shù)量,tsi是評論ri的評論時間,tsi≤tsj當(dāng)1≤i (4) f1(In)=|{rj:tsj∈In}| (5) (6) 檢測虛假評論的思想如下:給定兩個時間序列的商店,我們在兩個序列中找出評分及評論數(shù)量相關(guān)的異常段.具體步驟如下所示. 第1步.首先,在每個維度上,我們采用貝葉斯變化點檢測算法[15],使用時間序列擬合曲線. 第2步.將簡單的模板匹配算法應(yīng)用于擬合曲線以檢測突發(fā)模式.令C={c1,c2}表示時間序列二維的擬合曲線,并使用類似函數(shù)的模板來表示值的突然v={v1,…,v5},如果擬合曲線上的段c={c1,c2,…,cn}∈C與模板函數(shù)匹配,從而發(fā)現(xiàn)曲線上的異常段. 第3步.滑動窗口在時間序列的所有維度中找出對應(yīng)于聯(lián)合突發(fā)的時間序列段.可以通過c滑動窗口來獲得所有段,落入窗口中的所有段定義為b={ci1,…,cin},并求在兩個序列v、b之間進(jìn)行匹配.其中兩個序列之間的匹配是根據(jù)一個序列中的點與另一個序列匹配,通過兩個點之間的“匹配”,兩個點的絕對值之的差小閾值ε,L(i,j)記錄子序列之間的匹配數(shù)量匹配公式如(7) (7) 3.2.2 異常檢測算法 前文進(jìn)行了多維時間序列相關(guān)異常模式檢測構(gòu)建,如算法2所示. Algorithm2.Correlated Abnormal Patterns Detection in Multidimensional Time Series 1.Input:Multidimensional-curvesC, 2.window sizeΔt,time spanI. 3.Output:Periods when correlatea nomalies appear, 4.Detected time of spam activities 5.Initialize time setS0={I},scaleη=0 6.n=length ofC,w=time frame length 7.S=φ//set of periods tor return 8.forb=1→n-w+1 do 9.S=S∪{[b,b+w-1]} if 10. |{x∈Li:i=1,2,x∈[b,b+w-1]}==2| 11.End for 12.WhileΔtnot small enough do η=η+1,St=φ. 13. ForI∈Sη-1 do Fit a curveF(I,Δt) 14.Sη=Sη∪C 15. End for 16.End while 17.ReturnSη 特征選擇是從原有的特征集中選出貢獻(xiàn)率較大的特征子集.任亞峰等人使用遺傳算法對特征進(jìn)行選擇,但是該算法存在缺點:有許多參數(shù),如交叉率和變異率,并且這些參數(shù)的選擇嚴(yán)重影響解的品質(zhì),而目前這些參數(shù)的選擇大部分是依靠經(jīng)驗,因此本文提出借助于信息增益進(jìn)行選擇,最后利用似然比檢驗使用的邏輯回歸模型是否有效. 3.3.1 變量選取標(biāo)準(zhǔn)-信息增益 信息增益(IG,Information Gain)是非常有效的特征選擇方法.在信息增益中,重要性的衡量標(biāo)準(zhǔn)就是看特征可以為分類系統(tǒng)帶來多少信息,帶來的信息越多,該特征越重要.其計算虛假評論如公式(8)、公式(9)所示. (8) G(t)=entropy(D)-entropy(c|t) (9) 3.3.2 評論文本特征選擇 影響虛假評論的特征有很多,本文提出最可能影響的11個特征如下所示,并用信息增益計算影響度較大的特征. F1:文本復(fù)制.評論者為了盡快完成評論,經(jīng)常復(fù)制一些雷同的文本以不同身份評論,從而達(dá)到虛假攻擊. F2:情感度.情感度是指評論者對評論的情感極性度.虛假評論者比較片面,而正常用戶相對客觀. F3:文本長度.虛假評論者相比正常評論者相對較長. F4:用戶信譽(yù).用戶發(fā)表的評論被其他用戶采納的數(shù)量越多,則信譽(yù)越高越真實. F5:追評時間.正??蛻粢话阍偈褂靡欢螘r間后進(jìn)行追評,而虛假評論者幾乎跟初評同時完成. F6:專業(yè)術(shù)語.正常用戶在進(jìn)行評論時比較白化,而虛假評論者使用詞匯較專業(yè). F7:否定詞.正常用戶在評論部分性能或許使用否定詞,而虛假評論者幾乎不用. F8:一致性.文本評論的情感極性與給出評分的相似度,相似性越低越可能是虛假評論,是檢測虛假評論重要特征. F9:相關(guān)度.相關(guān)度是指評論內(nèi)容與商品屬性的關(guān)聯(lián)程度,有些虛假評論者為了快速評論便復(fù)制一些與商品不相關(guān)的內(nèi)容. F10:圖片.普通用戶一般很少上傳照片,但是虛假評論者通常上傳照片提高商品信譽(yù). F11:轉(zhuǎn)折詞.虛假評論者的情感極性高度一致,很少使用轉(zhuǎn)折詞.但普通用戶或許會對部分性能表示不滿. 其中sw(re)表示評論中情感詞集合,tw(re)表示評論中所有詞語集合,l(r),f(r)分別為始末評論時間.特征F2,F(xiàn)5,F(xiàn)6計算如公式(10)-公式(12)所示. (10) (11) (12) 虛假評論的影響因素有很多,但是哪些因素對檢測虛假評論更加明顯,這其實就是回歸問題.自變量X是影響因素,由于自變量是離散的,無法直接用線性回歸方法解決,因此最佳的解決方法是Logistic回歸模型.Logistic分析原理就是利用一組數(shù)據(jù)擬合一個Logistic回歸模型,然后借助于這個模型揭示總體中若干自變量與一個因變量取某個值的概率之間的關(guān)系.概率P與自變量的關(guān)系如公式(13)、公式(14)所示. Y′=θ0+θ1X1+θ2X2+…+θmXm (13) (14) 在上述公式中自變量為X1…Xn,θ0常數(shù)項,θ1…θn等為偏回歸系數(shù),P表示在n個自變量共同作用下發(fā)生的概率.因變量Y是二分類的值,所以取值為 現(xiàn)在把研究Y與X關(guān)系轉(zhuǎn)換成分析當(dāng)Y取某個值時的概率P與X的關(guān)系.當(dāng)Y是0時為虛假評論,X為虛假評論的影響因素.這樣研究虛假評論的攻擊率P與X的關(guān)系就簡單了很多. 本文的數(shù)據(jù)集主要來自Xie等[16]12402條評論,其中包含6492條真實評論,5910條虛假評論.其中在一段時間內(nèi)突然激增,如表3所示. 表3 數(shù)據(jù)分析表Table 3 Data analysis table 為了選取對邏輯回歸模型影響較顯著的自變量,我們利用前文給出的公式(8)(9)計算每個自變量的信息增益,其結(jié)果如表4所示. 表4 候選特征及其信息增益值表Table 4 Candidate features and information gains 為了檢驗?zāi)P椭兴凶宰兞空w是否與所有研究事件的信息增益存在線性關(guān)系,本文用似然比檢驗.其原理是通過分析模型中變量變化對似然比的影響,依次判斷增加或者刪除某個變量是否對因變量有顯著影響,如公式(15)所示. G=-2(ln(Lp)-ln(Lk)) (15) 在公式(15)中:ln(Lp)表示不包含檢驗變量時模型的對數(shù)似然值,ln(Lk)表示包含.當(dāng)樣本量較大時,G近似服從自由度為待檢驗因素個數(shù)的χ2分布.當(dāng)G大于臨界值時,接受H1,拒絕無效假設(shè),表示該影響因素對Logistic模型有意義.本文計算7個特征的似然比,在p值等于0.05條件下,計算結(jié)果如表5所示. 表5 似然比測試表Table 5 Likelihood ratio text 本文首先借助于情感分析利用情感強(qiáng)度、特征權(quán)重對虛假文本評論的影響計算出每條評論的近似分?jǐn)?shù),然后再與評論者給出與其相對應(yīng)的評分進(jìn)行比較,結(jié)果如圖1所示,實驗結(jié)果發(fā)現(xiàn)在所有給出的評論中前30天是趨向于正相關(guān)的,評分與評價基本一致,在(2010.5.15-2010.7.15)逐漸趨向于負(fù)相關(guān),兩者不再一致,說明該時間段內(nèi)出現(xiàn)大量虛假評論,原因是商店為了提高效率,大量水軍復(fù)制與內(nèi)容不符的評論文本,導(dǎo)致與實際評分出現(xiàn)誤差,但整體評分趨向于上升趨勢,因為商家雇傭的好評水軍數(shù)量大于惡意的詆毀者.通過實驗說明評分與評價一致性表現(xiàn)出了不錯的性能. 圖1 評論-評分一致性對比圖Fig.1 Comment-rating consistency comparison圖2 評論和評分的時間序圖Fig.2 Reviews and scoring time 同時,我們預(yù)先故意選取數(shù)據(jù)了(2010.5.15-2010.7.15)確定包含大量水軍的評論,基于多維時間序列從審查數(shù)據(jù)中檢測到更多的突發(fā)細(xì)節(jié)的時間段.我們設(shè)置窗口大小為15天,發(fā)現(xiàn)評分與評論數(shù)量在(20→30)急劇增加的可疑活動,如圖2所示,這與事先選取的實際評論情況相吻合,此結(jié)果揭示多維時間序列論識別方法是檢測虛假評論的重要性能. 本文利用情感極性、多維時間序列,并通過邏輯回歸模型檢測虛假評論,并采用十折交叉驗證,通過與邵珠峰[17]提出的基于情感特征和用戶關(guān)系的方法(圖3中Structed標(biāo)記)與Feng[18]提出的基于句法結(jié)構(gòu)的檢測算法(圖3中CFG標(biāo)記)對比驗證本文方法的有效性.本文采用最為通用3個評判指標(biāo)來判斷虛假檢測的優(yōu)劣:準(zhǔn)確率、召回率、F1值.從圖3中可以看出融合評分-評價一致性和多維時間序列的虛假評論識別方法取得了較好的結(jié)果. 圖3 準(zhǔn)確率比較圖Fig.3 Comparison of accuracy 邵珠峰等人分析虛假評論者和真實評論者在情感極性上存在著差異,通過評論者的情感差異構(gòu)建特征模型,并結(jié)合用戶之間的關(guān)系構(gòu)造多邊圖模型,最后計算出用戶評分來識別虛假評論.該方法準(zhǔn)確率有所提高,主要因為考慮情感極性差異,融合了評論文本較為重要的8個特征和其權(quán)重.但也存在著缺點,通過人工標(biāo)記數(shù)據(jù)存在著一定偏差,只考慮初末時間.F1指數(shù)對比與召回率對比如圖4、圖5所示. 圖4 F1指數(shù)比較圖Fig.4 F1_Measure comparison Feng等人提出的于句法結(jié)構(gòu)的檢測算法分析了淺層次句法模式的缺點,主要研究深層次的句法模式.他們在先前研究者的工作基礎(chǔ)上加入特殊句法模式構(gòu)建語義樹并提取語義特征,此方法的準(zhǔn)確率達(dá)到91.2%.該方法優(yōu)越于邵珠峰的主要原因是,對于不同規(guī)則的書寫模式可以利用語義樹挖掘深層的句法關(guān)系,構(gòu)建專門的語義樹,但邵珠峰提出的方法受到限制. 本文相比較邵珠峰和Feng的準(zhǔn)確率有所提高,但F1值比Feng的稍差一點.本文,首先,借助自然語言處理通過情感技術(shù)分析評論的情感極性并判斷與其評分的一致性;其次,建立時間序列進(jìn)行評論識別;最后,通過抽取7個特征并使用邏輯回歸進(jìn)行虛假檢測.但我們發(fā)現(xiàn)準(zhǔn)去率提高的同時F1值有所下降,可能原因在于在加入特征后一些評論不存在否定詞. 隨著電子商務(wù)的蓬勃發(fā)展,研究者們對虛假評論檢測作出了不懈的努力.基于情感極性和多維時間序列,首先根據(jù)在線商品評論的特點,提出通過分析評論的情感極性,判斷與其評分的一致性算法;其次,考慮時間對評分及評論數(shù)量的影響,構(gòu)建基于多維時間序列的虛假評論識別方法;最后,通過抽取不同特征,建立邏輯回歸模型,進(jìn)行不真實的或虛假的評論檢測,通過對比試驗證實了本文算法取得了較好的效果.但該方法還需有待改進(jìn),第一,冷啟動問題,沒有動態(tài)的考慮評論情況,在沒有評論或者僅僅少數(shù)評論的前提下該怎樣獲取評論信息;第二,評論文本中還隱藏其他重要特征可以提高精度.未來工作主要集中在這兩方面.3.3 虛假評論特征選擇
3.4 邏輯回歸模型
4 實驗分析
4.1 數(shù)據(jù)集
4.2 自變量計算-信息增益
4.3 方法與模型檢測
4.4 實驗分析
5 結(jié)束語