趙 敏,張?jiān)虑伲]英通,張澤華+
1.太原理工大學(xué) 信息與計(jì)算機(jī)學(xué)院,太原030024
2.Department of Computer Science,University of Illinois at Chicago,Chicago 60607,USA
隨著智能推薦系統(tǒng)、機(jī)器在線問答等數(shù)據(jù)挖掘技術(shù)與應(yīng)用的深入發(fā)展,用戶網(wǎng)絡(luò)評(píng)論已成為互聯(lián)網(wǎng)大數(shù)據(jù)不可忽視的組成部分。但在巨大經(jīng)濟(jì)利益的推動(dòng)下,虛假評(píng)論和網(wǎng)絡(luò)水軍(paid posters)已成為當(dāng)前的一大頑疾。針對(duì)產(chǎn)品或服務(wù)的欺詐評(píng)論會(huì)誤導(dǎo)用戶的消費(fèi)決策,從而降低用戶消費(fèi)體驗(yàn),影響商家信譽(yù),給商家造成經(jīng)濟(jì)損失[1]。因此,檢測(cè)并及時(shí)過濾虛假評(píng)論已成數(shù)據(jù)挖掘應(yīng)用的痛點(diǎn)問題。
雖然當(dāng)前互聯(lián)網(wǎng)中的虛假評(píng)論數(shù)量逐年遞增,但總體仍呈現(xiàn)出類別不均衡[1]?;趥鹘y(tǒng)機(jī)器學(xué)習(xí)的欺詐評(píng)論識(shí)別方法從類別分布不均衡的數(shù)據(jù)中學(xué)習(xí)的模型會(huì)偏向多數(shù)類,因此在識(shí)別少數(shù)不實(shí)評(píng)論時(shí)難免產(chǎn)生有偏差的分類結(jié)果。針對(duì)這一現(xiàn)實(shí)存在的問題,Yuan 等人提出兩階段檢測(cè)方法TM-DRD(deceptive review detection algorithm based on target product identification and calculation of metapath feature weight)[2],首先利用核密度估計(jì)分析欺詐者的評(píng)分模式得到頻繁受攻擊的商品集合,將識(shí)別范圍縮小到目標(biāo)商品的評(píng)論后數(shù)據(jù)類別傾斜程度降低,再采用元路徑特征權(quán)重計(jì)算得到最終的識(shí)別結(jié)果。周黎宇從算法改進(jìn)入手,提出了基于支持向量取樣的非均衡數(shù)據(jù)分類方法,并依此構(gòu)建了虛假評(píng)論檢測(cè)模型[3]。ISRD(spam review detection with imbalanced data distributions)方法結(jié)合降采樣與集成學(xué)習(xí),在多個(gè)平衡數(shù)據(jù)集上訓(xùn)練不同的決策樹分類器,最后通過多數(shù)投票算法(majority vote)檢測(cè)欺詐評(píng)論[4]。這些方法在一定程度上提升了不均衡虛假評(píng)論檢測(cè)的性能,但大多基于傳統(tǒng)的統(tǒng)計(jì)方法改進(jìn),高代價(jià)的特征工程會(huì)限制其靈活性。
圖神經(jīng)網(wǎng)絡(luò)[5]是一類專門處理網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù)的深度學(xué)習(xí)模型,可以聚合鄰居信息為中心節(jié)點(diǎn)學(xué)習(xí)高維非線性的向量表示,應(yīng)用于下游的分類、聚類等任務(wù)。近年來,有些欺詐檢測(cè)方法基于GNN(graph neural networks)相關(guān)模型構(gòu)建,Zhang 等人從地下論壇抽取有效的關(guān)系構(gòu)建異構(gòu)用戶網(wǎng)絡(luò),結(jié)合圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional neural networks,GCN)[6]和注意力機(jī)制(attention mechanism)[7]提出player2vec方法檢測(cè)非法利益鏈上的關(guān)鍵用戶[8]。Wang 等人提出基于雙層結(jié)構(gòu)GCN 的FdGars 方法對(duì)手機(jī)應(yīng)用商店的評(píng)論進(jìn)行欺詐檢測(cè)[9]。不同于傳統(tǒng)機(jī)器學(xué)習(xí)方法的多步處理過程,GNN-based 方法以端到端的方式檢測(cè)欺詐,但這類方法同樣受到類別不均衡的影響,在淺層神經(jīng)網(wǎng)絡(luò)的反向傳播過程中,多數(shù)類主導(dǎo)著用于更新模型權(quán)重的梯度,這使得類別失衡的數(shù)據(jù)訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)偏向多數(shù)類,與更關(guān)注少數(shù)異常的欺詐檢測(cè)任務(wù)相違背[10]。
為了避免大量的特征工程,降低類別傾斜的影響,本文結(jié)合集成學(xué)習(xí)框架提出了一種面向非均衡類數(shù)據(jù)的集成層級(jí)圖注意力網(wǎng)絡(luò)虛假評(píng)論檢測(cè)方法(ensemble hierarchical graph attention network,En-HGAN),其總體識(shí)別過程如圖1。本文主要工作內(nèi)容如下:
圖1 En-HGAN 識(shí)別欺詐評(píng)論的總體過程Fig.1 Overall process of detecting fake reviews using En-HGAN
(1)為了充分學(xué)習(xí)評(píng)論網(wǎng)絡(luò)中各種形式異構(gòu)的信息,En-HGAN 采用雙層注意力計(jì)算為混合領(lǐng)域的評(píng)論生成更加細(xì)致的向量表征。
(2)利用隨機(jī)欠采樣(random under sampling,RUS)對(duì)原始傾斜數(shù)據(jù)做預(yù)處理,再融合Bagging 框架集成多個(gè)“好而不同”的HGAN 子模型來緩解類別不均衡問題。
(3)通過選擇數(shù)據(jù)傾斜分布時(shí)適用的評(píng)價(jià)指標(biāo),進(jìn)而可反映En-HGAN 方法真實(shí)的欺詐檢測(cè)效果。
傳統(tǒng)機(jī)器學(xué)習(xí)檢測(cè)虛假評(píng)論的方法可分為有監(jiān)督、半監(jiān)督和無監(jiān)督三類,大多依賴于反映不實(shí)評(píng)論與可信評(píng)價(jià)間差異的欺詐特征,如針對(duì)文本的有詞袋(bag of word,BoW)、心理語言學(xué)(linguistic inquiry and word count,LIWC)、評(píng)論長度、發(fā)布日期、評(píng)分等文本屬性及元數(shù)據(jù);關(guān)注評(píng)論行為的包括最大評(píng)論內(nèi)容相似度(maximum content similarity)、最大評(píng)論數(shù)量(maximum number of reviews)、極端評(píng)分(extreme rating behavior)等統(tǒng)計(jì)信息[11]。
監(jiān)督方法通常把檢測(cè)不實(shí)評(píng)論當(dāng)作二分類任務(wù),從評(píng)論文本及元數(shù)據(jù)中抽取欺詐特征,利用有標(biāo)記數(shù)據(jù)來訓(xùn)練機(jī)器學(xué)習(xí)分類算法。Shojaee 等人采用反映寫作風(fēng)格的詞匯和句法特征(lexical and syntactic features),通過支持向量機(jī)和樸素貝葉斯算法在酒店評(píng)論語料庫上實(shí)施了欺詐檢測(cè)任務(wù)[12]。由于標(biāo)記數(shù)據(jù)難以準(zhǔn)確構(gòu)建,不依賴類別標(biāo)簽的無監(jiān)督方法為檢測(cè)不實(shí)評(píng)論提供了新思路。任亞峰等人充分研究了欺詐者的心理狀態(tài),認(rèn)為虛假評(píng)論在語言結(jié)構(gòu)和情感極性上必然與真實(shí)評(píng)論存在較大差異,從評(píng)論文本中抽取相關(guān)特征后,通過聚類算法檢測(cè)虛假評(píng)論[13]。半監(jiān)督方法大都通過協(xié)同訓(xùn)練(co-training)、正例-無標(biāo)記學(xué)習(xí)(PU-learning)等半監(jiān)督學(xué)習(xí)框架,利用少量有標(biāo)記數(shù)據(jù)以及大量無標(biāo)記數(shù)據(jù)來訓(xùn)練機(jī)器學(xué)習(xí)分類器,達(dá)到檢測(cè)目的。例如先用全監(jiān)督的分類算法在少量標(biāo)記數(shù)據(jù)上選擇最優(yōu)的混合欺詐特征,再利用半監(jiān)督的協(xié)同訓(xùn)練、三元訓(xùn)練(tri-training)和協(xié)同隨機(jī)森林(co-forest)算法以及大量無標(biāo)記數(shù)據(jù)提升識(shí)別虛假評(píng)論的性能[14]。但是隨著評(píng)論數(shù)據(jù)規(guī)模的不斷增加,大量費(fèi)時(shí)費(fèi)力的特征抽取、特征選擇工作無法避免,同時(shí)這些“精心設(shè)計(jì)”的統(tǒng)計(jì)模型容易受到攻擊且面臨領(lǐng)域遷移的問題。
隨著欺詐與反欺詐檢測(cè)的博弈過程,欺詐者會(huì)有規(guī)避檢測(cè)的進(jìn)階行為,導(dǎo)致根據(jù)專家經(jīng)驗(yàn)設(shè)計(jì)的欺詐特征失效。鑒于評(píng)論系統(tǒng)中實(shí)體間關(guān)系難以改變和隱藏,基于網(wǎng)絡(luò)的虛假評(píng)論檢測(cè)方法出現(xiàn)?;诟怕蕡D模型的URSM(unified review spamming model)方法將評(píng)論建模為隱變量,并以無監(jiān)督的方式對(duì)其欺詐程度進(jìn)行排序[15]。NetSpam 方法將評(píng)論網(wǎng)絡(luò)建模為異構(gòu)信息網(wǎng)絡(luò),并利用元路徑特征權(quán)重計(jì)算對(duì)評(píng)論進(jìn)行分類[16]。
HGAN(hierarchical graph attention network)是實(shí)施在異構(gòu)信息網(wǎng)絡(luò)上,利用節(jié)點(diǎn)嵌入來檢測(cè)欺詐評(píng)論的GNN-based 方法,下面介紹相關(guān)定義。
定義1異構(gòu)信息網(wǎng)絡(luò)(heterogeneous information network,HIN)[17]可以表示為無向圖G=(V,E,X),其中代表a類型節(jié)點(diǎn),Xa是a類型節(jié)點(diǎn)的初始特征矩陣,網(wǎng)絡(luò)中共有A種不同類型的節(jié)點(diǎn),Eb代表b類型的邊,網(wǎng)絡(luò)中共有B種不同類型的邊,且A+B>2;當(dāng)A=B=1 時(shí),異構(gòu)網(wǎng)絡(luò)G演變成同構(gòu)網(wǎng)絡(luò)g。
定義2(異構(gòu)信息網(wǎng)絡(luò)節(jié)點(diǎn)表征學(xué)習(xí)[17])給定一個(gè)異構(gòu)信息網(wǎng)絡(luò)G=(V,E,X),節(jié)點(diǎn)表征學(xué)習(xí)的目標(biāo)是訓(xùn)練一個(gè)函數(shù)f:Va→Rd,將目標(biāo)節(jié)點(diǎn)映射到d維向量空間,其中d?|Va|。
定義3圖神經(jīng)網(wǎng)絡(luò)(GNN)[5]遵循層間信息傳遞機(jī)制,能夠同時(shí)學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)與節(jié)點(diǎn)屬性信息為節(jié)點(diǎn)生成向量表示,總層數(shù)可用L表示,l層接收并聚合l-1 層的信息,1 ≤l≤L,通過堆疊多層GNN,目標(biāo)節(jié)點(diǎn)最終可以接收來自較遠(yuǎn)鄰居的信息。圖神經(jīng)網(wǎng)絡(luò)模型的一般框架可以表示成為,其中是中心節(jié)點(diǎn)v在l層的向量表示,Nv是節(jié)點(diǎn)v的one-hop 鄰接節(jié)點(diǎn)集合,l層的聚合函數(shù)AGG(l)(?)可將鄰居信息映射為向量,⊕代表鄰居信息與節(jié)點(diǎn)v屬性的結(jié)合操作。
根據(jù)評(píng)論系統(tǒng)中天然存在的關(guān)系構(gòu)建異構(gòu)評(píng)論網(wǎng)絡(luò)G=(V,E,X),其中V={VU,VR,VP},E={Epost,Ebelongs-to},X={XU,XR,XP},VU、XU分別代表用戶(User,U)節(jié)點(diǎn)及其特征矩陣,VR、XR分別代表評(píng)論(Review,R)節(jié)點(diǎn)及其特征矩陣,VP、XP分別代表商品(Product,P)節(jié)點(diǎn)及其特征矩陣,Epost代表用戶與評(píng)論間的發(fā)表關(guān)系,Ebelongs-to代表評(píng)論與商品間的屬于關(guān)系。圖2(a)給出構(gòu)建一個(gè)異構(gòu)評(píng)論網(wǎng)絡(luò)的例子,虛假評(píng)論檢測(cè)可以視為其中的節(jié)點(diǎn)二分類問題,利用網(wǎng)絡(luò)表征學(xué)習(xí)把評(píng)論節(jié)點(diǎn)VR映射到輸出向量空間Rd,接著訓(xùn)練分類器C:Rd→{0,1}檢測(cè)評(píng)論節(jié)點(diǎn)的可信性,1 代表不實(shí),0 代表可信。
異構(gòu)評(píng)論網(wǎng)絡(luò)包含豐富各異的關(guān)系信息,要從中選出對(duì)欺詐檢測(cè)有意義的,能反映虛假評(píng)論間相似性的關(guān)系。
Xu 等人的研究表明群組欺詐評(píng)論,即有組織的水軍團(tuán)體有目的地攻擊某些特定商品,以群組的方式發(fā)布虛假評(píng)論的行為,是現(xiàn)在非法操縱評(píng)論的主要形式,其危害性遠(yuǎn)大于單個(gè)欺詐用戶[18]。群組虛假評(píng)論在發(fā)表者、商品、評(píng)分和發(fā)表時(shí)間上緊密關(guān)聯(lián)[19]。
基于上述研究,形成圖上的跡(trail),即圖上兩個(gè)互異節(jié)點(diǎn)間不經(jīng)過重復(fù)邊的一條路徑,選擇評(píng)論節(jié)點(diǎn)間的三種復(fù)合關(guān)系,如圖2(b)所示。
圖2 通過評(píng)論間的關(guān)系映射異構(gòu)評(píng)論網(wǎng)絡(luò)到同構(gòu)網(wǎng)絡(luò)Fig.2 Mapping HIN to homogeneous networks via several trails
如圖3,層級(jí)圖注意力網(wǎng)絡(luò)HGAN 檢測(cè)方法整體由三部分組成:首先是基于圖注意力網(wǎng)絡(luò)(graph attention network,GAT)[20]的GAT-layer,其中包含節(jié)點(diǎn)級(jí)別的注意力計(jì)算;接著是語義融合層(semanticfusion-layer),其中包含關(guān)系級(jí)別的注意力計(jì)算;最后是輸出分類結(jié)果的線性層(linear-layer)。
圖3 HGAN 的整體框架Fig.3 Overview framework of HGAN
(1)處理同構(gòu)評(píng)論網(wǎng)絡(luò)的GAT-layer 評(píng)論數(shù)據(jù)通常涉及多個(gè)領(lǐng)域,由不同用戶撰寫,特征呈現(xiàn)多樣性[21]。GAT-layer在信息聚合階段采用自注意力(self-attention)機(jī)制,依賴網(wǎng)絡(luò)結(jié)構(gòu)與節(jié)點(diǎn)特征為中心評(píng)論的鄰居學(xué)習(xí)不同的相對(duì)重要性,一定程度上提高整體分類性能。
三個(gè)平行的單層GAT-layer分別學(xué)習(xí)評(píng)論在三個(gè)同構(gòu)網(wǎng)絡(luò)下的向量表征,下面以g1為例介紹關(guān)系RUR 下評(píng)論表示的學(xué)習(xí)過程,其他兩種關(guān)系下的節(jié)點(diǎn)表征學(xué)習(xí)可由此類推。
式(2)用Softmax 函數(shù)計(jì)算評(píng)論i、j間歸一化的注意力系數(shù),保證i所有鄰居的注意力系數(shù)之和為1,Ni是i的一階鄰居集合。相比GCN[6]不考慮相鄰評(píng)論之間互相影響程度的差異,通過計(jì)算節(jié)點(diǎn)連接度deg(?)為鄰居分配的對(duì)稱性權(quán)重αij這樣非對(duì)稱的相鄰評(píng)論間重要性更具現(xiàn)實(shí)意義。
式(3)結(jié)合評(píng)論i與其鄰居信息生成向量表示。結(jié)合操作⊕選擇加和,鄰居信息聚合操作選擇鄰居特征與其對(duì)應(yīng)注意力系數(shù)的線性組合,σ是激活函數(shù)。
為增強(qiáng)自注意力學(xué)習(xí)過程的穩(wěn)定性,采用式(4)的多頭注意力(multi-head attention)機(jī)制,即實(shí)施自注意力機(jī)制P次,把得到的評(píng)論向量連接。其中是第p個(gè)注意力機(jī)制計(jì)算得到的鄰居權(quán)重,這樣評(píng)論的輸出表征的維數(shù)是Pd2。
(2)融合異構(gòu)關(guān)系語義的semantic-fusion-layer這一部分融合不同關(guān)系下的評(píng)論向量表示,學(xué)習(xí)更全面統(tǒng)一的評(píng)論表征。semantic-fusion-layer 的輸入是評(píng)論表征集合,輸出評(píng)論表征,l是向量維數(shù),⊕是融合操作。不同關(guān)系下的表征對(duì)評(píng)論分類任務(wù)的貢獻(xiàn)各異,在融合時(shí)采用注意力機(jī)制自動(dòng)計(jì)算各個(gè)關(guān)系的權(quán)重,具體如下。
式(5)計(jì)算關(guān)系ρk的注意力權(quán)重。首先對(duì)ρk下的評(píng)論表征實(shí)施非線性變換,M是可訓(xùn)練的權(quán)重矩陣,b是偏置;接著用語義級(jí)別的注意力權(quán)重向量q與非線性變換后的評(píng)論表征做點(diǎn)積,最后取均值作為,是對(duì)特定關(guān)系下所有評(píng)論表征重要性的平均。
式(6)利用Softmax 函數(shù)計(jì)算關(guān)系ρk歸一化后的注意力權(quán)重,表示關(guān)系ρk下評(píng)論表示的重要性。
式(7)輸出融合評(píng)論表征ZR,融合操作⊕選定為特定關(guān)系的注意力權(quán)重與相應(yīng)評(píng)論表征的線性組合。
(3)輸出分類結(jié)果的linear-layer
式(8)將融合全部語義的評(píng)論表征ZR輸入到單層的神經(jīng)網(wǎng)絡(luò)分類器中,輸出評(píng)論的類別,W1和b1分別代表權(quán)重矩陣與偏置。
因此,可最小化式(9)的二分類交叉熵?fù)p失來指導(dǎo)模型的訓(xùn)練,其中yR代表評(píng)論的真實(shí)標(biāo)簽,代表HGAN 方法計(jì)算的分類結(jié)果。
傳統(tǒng)機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)模型多廣泛使用數(shù)據(jù)預(yù)處理來解決非均衡監(jiān)督學(xué)習(xí)問題,這類方法不需對(duì)模型做修改,主要通過在訓(xùn)練數(shù)據(jù)集上實(shí)施隨機(jī)過采樣、隨機(jī)欠采樣或其他動(dòng)態(tài)采樣方法減輕訓(xùn)練集的傾斜程度[22]。
利用隨機(jī)降采樣對(duì)訓(xùn)練集做預(yù)平衡,可以簡單地解決HGAN 方法面臨的評(píng)論數(shù)據(jù)類別傾斜問題,但單一的欠采樣處理會(huì)丟失一些對(duì)評(píng)論分類任務(wù)有意義的負(fù)例樣本信息,因此融合Bagging[23]集成框架提出En-HGAN 方法,盡量減少欠采樣帶來的信息損失,En-HGAN 集成模型的整體學(xué)習(xí)過程如圖4。
圖4 En-HGAN 的學(xué)習(xí)過程Fig.4 Learning procedure of En-HGAN
利用集成模型En-HGAN 判斷評(píng)論是否欺詐節(jié)點(diǎn)時(shí),輸入用于測(cè)試的評(píng)論樣本集Dtest;首先利用集合ε={HGAN1,HGAN2,…,HGANk} 中所有訓(xùn)練好的基礎(chǔ)檢測(cè)模型為Dtest中的測(cè)試評(píng)論樣本生成二分類結(jié)果;之后將基礎(chǔ)檢測(cè)模型HGANi對(duì)測(cè)試評(píng)論實(shí)例j∈Dtest給出的分類結(jié)果記作cij,對(duì)集合ε中所有基礎(chǔ)學(xué)習(xí)器的分類結(jié)果取算數(shù)平均值作為評(píng)論j最終的集成檢測(cè)結(jié)果,即En-HGAN(j)=。
由于不同的訓(xùn)練子集存在差異,且基學(xué)習(xí)器HGAN 作為一種神經(jīng)網(wǎng)絡(luò)模型,其學(xué)習(xí)結(jié)果容易受到樣本擾動(dòng)的影響,在一定程度上可以保證集成學(xué)習(xí)結(jié)果的多樣性。
在En-HGAN 檢測(cè)方法中,基學(xué)習(xí)器的個(gè)數(shù)k等于均衡訓(xùn)練子集的數(shù)量,依照Lee[24]提出的式(10)選取k值,該式通過提供足夠多的訓(xùn)練子集,盡可能利用所有實(shí)例的信息。
在內(nèi)存為640 GB DDR2 的浪潮異構(gòu)機(jī)群GPU:12X 32 GB Tesla V100s 實(shí)驗(yàn)環(huán)境下,分別測(cè)試基學(xué)習(xí)器HGAN 與集成方法En-HGAN 的虛假評(píng)論識(shí)別效果并且對(duì)參數(shù)設(shè)置進(jìn)行討論,又與其他基線方法進(jìn)行對(duì)比。
在數(shù)據(jù)類別分布非均衡的情況下,本文利用En-HGAN 欺詐檢測(cè)方法在YelpChi[25]評(píng)論數(shù)據(jù)集上實(shí)施虛假評(píng)論識(shí)別任務(wù),在Amazon[26]評(píng)論數(shù)據(jù)集上實(shí)施欺詐用戶檢測(cè)任務(wù),二者都可歸結(jié)為異構(gòu)網(wǎng)絡(luò)上的節(jié)點(diǎn)二分類問題。
YelpChi 數(shù)據(jù)來自Rayana 等人[25]從商業(yè)點(diǎn)評(píng)網(wǎng)站Yelp.com 上采集的經(jīng)網(wǎng)站自身過濾算法標(biāo)記的用戶評(píng)論數(shù)據(jù),涵蓋了酒店與飯店兩個(gè)領(lǐng)域,預(yù)處理后YelpChi數(shù)據(jù)集的統(tǒng)計(jì)信息如表1。
表1 YelpChi數(shù)據(jù)集的統(tǒng)計(jì)信息Table 1 Statistics of YelpChi dataset
Amazon 數(shù)據(jù)包含樂器類產(chǎn)品的用戶評(píng)論,來自Mcauley 等人[26]從電子商務(wù)網(wǎng)站Amazon.com 上爬取并公開的無標(biāo)記用戶評(píng)論數(shù)據(jù),預(yù)處理后Amazon 欺詐用戶數(shù)據(jù)集的統(tǒng)計(jì)信息如表2。
表2 Amazon 數(shù)據(jù)集的統(tǒng)計(jì)信息Table 2 Statistics of Amazon dataset
為了利用En-HGAN 方法在Amazon 數(shù)據(jù)上對(duì)欺詐用戶進(jìn)行識(shí)別,與Zhang 等人[27]的做法相似,將獲得有用投票(helpful votes)超過80%的用戶標(biāo)記為良性實(shí)體,將有用投票低于20%的用戶標(biāo)記為不可信實(shí)體;Amazon 評(píng)論數(shù)據(jù)集上同構(gòu)用戶網(wǎng)絡(luò)的構(gòu)造與Dou 等人[28]的做法類似,基于關(guān)系UPU 為針對(duì)至少一個(gè)相同產(chǎn)品發(fā)表過評(píng)論的用戶建立直接關(guān)聯(lián),基于關(guān)系UsU 為一周時(shí)間內(nèi)至少給出過一次相同評(píng)分的用戶建立直接關(guān)聯(lián),基于關(guān)系URU 利用TF-IDF(term frequency-inverse document frequency)衡量所有用戶的評(píng)論文本相似度,并為前5%的用戶建立直接關(guān)聯(lián);最后得到三種不同關(guān)系下的Amazon 同構(gòu)用戶網(wǎng)絡(luò)gUPU、gUsU和gURU。
圖5 給出YelpChi 數(shù)據(jù)下根據(jù)評(píng)論間關(guān)系構(gòu)造的網(wǎng)絡(luò)gRUR、gRsPsR、gRtPtR的度分布情況,橫軸代表節(jié)點(diǎn)連接度,縱軸代表頻次,可以看出通過時(shí)間戳、評(píng)分連接的評(píng)論網(wǎng)絡(luò)比用戶連接的評(píng)論網(wǎng)絡(luò)更加稠密。
圖5 YelpChi評(píng)論網(wǎng)絡(luò)的度分布Fig.5 Degree distribution of YelpChi review networks
圖6 給出Amazon 數(shù)據(jù)下根據(jù)用戶間關(guān)系構(gòu)造的網(wǎng)絡(luò)gUPU、gUsU、gURU的度分布情況,不難看出通過評(píng)分與評(píng)論文本相似度連接的用戶網(wǎng)絡(luò)比通過產(chǎn)品連接的用戶網(wǎng)絡(luò)更稠密。
圖6 Amazon 用戶網(wǎng)絡(luò)的度分布Fig.6 Degree distribution of Amazon user networks
本文選擇F1 值評(píng)價(jià)模型的整體分類性能,選擇ROC-AUC(receiver operating characteristic-area under the curve)值評(píng)價(jià)模型對(duì)欺詐節(jié)點(diǎn)的檢測(cè)能力。
(1)LR,傳統(tǒng)的機(jī)器學(xué)習(xí)分類算法,實(shí)驗(yàn)中采用Rayana 等人論文中的離散欺詐屬性[25]作為YelpChi評(píng)論數(shù)據(jù)初始特征。
(2)Player2Vec[8],該方法使用GCN 對(duì)每個(gè)關(guān)系中的信息進(jìn)行編碼,并使用注意力機(jī)制匯總來自不同關(guān)系的信息。
(3)FdGars[9],基于GCN 的欺詐檢測(cè)方法,實(shí)驗(yàn)中用該方法分別為多個(gè)同構(gòu)評(píng)論(用戶)網(wǎng)絡(luò)生成節(jié)點(diǎn)表征,并報(bào)告多種關(guān)系下最優(yōu)的檢測(cè)性能。
(4)HGANnd,HGAN方法的一個(gè)變體,去除GAT-layer 中的self-attention 計(jì)算模塊,在信息聚合時(shí)為中心評(píng)論的鄰居分配相同的權(quán)重。
(5)HGANsem,HGAN 方法的另一變體,僅去除語義融合層的注意力權(quán)重計(jì)算,并為每種關(guān)系分配相同的權(quán)重。
(6)graphconsis[29],基于空間域的GNN模型graphsage[30]改進(jìn),通過解決鄰居信息聚合時(shí)的不一致問題緩解類別傾斜的影響。
實(shí)驗(yàn)中所有GNN-based 模型的可訓(xùn)練參數(shù)采用隨機(jī)方法初始化,并基于交叉熵?fù)p失采用Adam 算法進(jìn)行優(yōu)化訓(xùn)練。YelpChi評(píng)論網(wǎng)絡(luò)中節(jié)點(diǎn)的初始特征XR采用100維的Word2Vec 嵌入表征,Amazon 用戶網(wǎng)絡(luò)中節(jié)點(diǎn)的初始輸入特征采用Zhang 等人[27]論文里25 維的離散屬性。
在HGAN 模型結(jié)構(gòu)的設(shè)置上,對(duì)每個(gè)YelpChi 評(píng)論網(wǎng)絡(luò)(Amazon 用戶網(wǎng)絡(luò)),GAT-layer 均設(shè)置為1層,即只考慮距中心評(píng)論(用戶)1-hop 的鄰居,其中多頭注意力機(jī)制實(shí)施次數(shù)P設(shè)置為8,輸出空間維度d2設(shè)置為8,即輸出特征維數(shù)為64,激活函數(shù)采用LeakyReLU;semantic-fusion-layer 中學(xué)習(xí)語義注意力系數(shù)的向量q的維數(shù)設(shè)置為128,最終每個(gè)YelpChi 評(píng)論(Amazon用戶)節(jié)點(diǎn)學(xué)習(xí)到的嵌入表征的維度l是64。
在En-HGAN方法的實(shí)驗(yàn)中,根據(jù)式(10)與參數(shù)實(shí)驗(yàn)為YelpChi 數(shù)據(jù)集將基學(xué)習(xí)器個(gè)數(shù)k設(shè)置為9,為Amazon 數(shù)據(jù)集將基學(xué)習(xí)器數(shù)量k設(shè)置為12,每個(gè)裝袋中正負(fù)樣本的比例為1∶1,為保證學(xué)習(xí)結(jié)果的可信性,獨(dú)立實(shí)驗(yàn)5 次,對(duì)評(píng)價(jià)指標(biāo)取平均值。
(1)保持測(cè)試集中的正樣本比例等于原始數(shù)據(jù)集中的類別不均衡比率(YelpChi 數(shù)據(jù)中為14.5%,Amazon 數(shù)據(jù)中為9.5%),En-HGAN 方法以及基線方法在兩個(gè)數(shù)據(jù)集上進(jìn)行欺詐節(jié)點(diǎn)檢測(cè)的F1 值與AUC 值分別如圖7、圖8 所示。
圖7 YelpChi與Amazon 數(shù)據(jù)集上的F1 值結(jié)果Fig.7 F1 result on YelpChi and Amazon datasets
圖8 YelpChi與Amazon 數(shù)據(jù)集上的AUC 值結(jié)果Fig.8 AUC result on YelpChi and Amazon datasets
圖7(a)中,基于欺詐特征的LR 方法對(duì)YelpChi評(píng)論的整體分類效果最優(yōu),說明根據(jù)專家經(jīng)驗(yàn)設(shè)計(jì)的特征的有效性。圖7 中,集成方法En-HGAN 在YelpChi 數(shù)據(jù)集上的F1 值基本與先進(jìn)的graphconsis方法相近,在Amazon 數(shù)據(jù)集上的F1 值稍低于graphconsis 方法,總體優(yōu)于其他兩個(gè)GNN-based 檢測(cè)方法,這表明在HGAN 模型中引入集成思想解決圖結(jié)構(gòu)數(shù)據(jù)的不均衡分類在一定程度上是有效的;兩個(gè)數(shù)據(jù)集上,Player2Vec 在整體分類性能上始終優(yōu)于FdGars,這表明融合異構(gòu)語義信息的評(píng)論(用戶)表征比單一關(guān)系下學(xué)習(xí)到的節(jié)點(diǎn)向量表示更具分辨力。
圖8(a)中,En-HGAN 方法在YelpChi 數(shù)據(jù)集上的AUC 值與先進(jìn)的欺詐檢測(cè)方法graphconsis 很相近,稍優(yōu)于傳統(tǒng)的LR 方法,且總是優(yōu)于其他GNNbased 方法;圖8(b)中,En-HGAN 方法在Amazon 數(shù)據(jù)集上的AUC 值相比graphconsis 方法稍低,且總是優(yōu)于另兩個(gè)GNN-based 方法。這表明基本的GNNbased 欺詐檢測(cè)方法確實(shí)會(huì)受到非均衡數(shù)據(jù)分布的不良影響,同時(shí)也說明集成多個(gè)存在差異的HGAN 模型來檢測(cè)網(wǎng)絡(luò)中少量的不實(shí)評(píng)論(欺詐用戶)是可行的。
(2)在兩個(gè)數(shù)據(jù)集上,基學(xué)習(xí)器HGAN 與變體方法實(shí)驗(yàn)結(jié)果的F1 值與AUC值分別如圖9、圖10所示。
從圖9、圖10 中不難看出,兩個(gè)不同數(shù)據(jù)集上,HGAN 在檢測(cè)性能上始終優(yōu)于兩個(gè)變體方法,這表明雙層注意力機(jī)制能夠從異構(gòu)的語義關(guān)系中學(xué)習(xí)到表達(dá)力更強(qiáng)、對(duì)欺詐檢測(cè)任務(wù)更加有效的節(jié)點(diǎn)嵌入;HGANsem 的表現(xiàn)總是好于HGANnd 則說明,相比關(guān)系級(jí)別的注意力計(jì)算,在節(jié)點(diǎn)級(jí)別對(duì)鄰居信息進(jìn)行有區(qū)別的融合更有益于欺詐節(jié)點(diǎn)檢測(cè)任務(wù)。
圖10 HGAN 與其變體方法在YelpChi與Amazon 數(shù)據(jù)集上的AUC 值結(jié)果Fig.10 AUC result of HGAN and its variant methods on YelpChi and Amazon datasets
本節(jié)基于兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn),分別討論了一些重要的超參數(shù)對(duì)基檢測(cè)方法HGAN 以及集成檢測(cè)方法En-HGAN 的影響。
(1)圖11、圖12 和圖13 分別給出兩個(gè)不同數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果下網(wǎng)絡(luò)中節(jié)點(diǎn)最終輸出向量的維度l,語義融合層的注意力向量q的維數(shù),以及GAT-layer中多頭自注意力機(jī)制實(shí)施次數(shù)P這3 個(gè)參數(shù)對(duì)HGAN 識(shí)別虛假評(píng)論效果的影響。
圖11 l 對(duì)HGAN 方法的影響Fig.11 Effect of l on HGAN
圖12 q 對(duì)HGAN 方法的影響Fig.12 Effect of q on HGAN
圖13 P 對(duì)HGAN 方法的影響Fig.13 Effect of P on HGAN
圖11(a)中,隨著YelpChi 評(píng)論最終向量表示維度的增加,HGAN 的檢測(cè)性能首先隨之提升,然后開始緩慢下降;圖11(b)中隨著Amazon 用戶輸出表征維度的增加,HGAN 的檢測(cè)性能也呈現(xiàn)先緩慢提升再下降的趨勢(shì),但總體變化并不明顯。這表明一個(gè)合適的表征維數(shù)更有益于HGAN 編碼多樣的語義,維度過大的節(jié)點(diǎn)向量表示可能引入冗余信息。
圖12 顯示HGAN 對(duì)欺詐評(píng)論(用戶)的檢測(cè)效果隨著語義層次注意力向量維度的增加而提升,并且在q的維數(shù)等于128 時(shí)達(dá)到最優(yōu),之后可能因?yàn)榫S度過大導(dǎo)致了過擬合使得模型性能逐漸降低。
圖13 的結(jié)果顯示多頭注意力機(jī)制中P的值越大,HGAN 的性能會(huì)隨之輕微波動(dòng)著增長。
(2)將少數(shù)類樣本設(shè)定為正例(positive),多數(shù)類樣本設(shè)定為負(fù)例(negative)。圖14 和圖15 給出兩個(gè)數(shù)據(jù)集的實(shí)驗(yàn)下基學(xué)習(xí)器個(gè)數(shù)k以及訓(xùn)練子集中正負(fù)樣本比例(pos∶neg)對(duì)En-HGAN 檢測(cè)性能的影響。
圖14 k 對(duì)En-HGAN 方法的影響Fig.14 Effect of k on En-HGAN
圖15 pos∶neg 對(duì)En-HGAN 方法的影響Fig.15 Effect of pos∶neg on En-HGAN
圖14(a)中,隨著子模型個(gè)數(shù)k不斷增大,直到等于9,En-HGAN 對(duì)YelpChi 數(shù)據(jù)集中不實(shí)評(píng)論的檢測(cè)效果逐漸優(yōu)化,但繼續(xù)增加基學(xué)習(xí)器數(shù)量,模型性能沒有進(jìn)一步提升;圖14(b)中,隨著基學(xué)習(xí)器個(gè)數(shù)的增加,En-HGAN 對(duì)Amazon 數(shù)據(jù)集中欺詐用戶的識(shí)別效果逐漸提升,并在k等于12 時(shí)達(dá)到最優(yōu),但k的值繼續(xù)增大后檢測(cè)性能沒有明顯變化。
圖15 的結(jié)果顯示訓(xùn)練子集中正例占比變大,En-HGAN 的檢測(cè)效果卻沒有更優(yōu)。pos∶neg 為1∶0.2、1∶0.5時(shí)可能由于子訓(xùn)練集中樣本量較少和過擬合問題造成方法性能降低。
本文的集成層級(jí)圖注意力網(wǎng)絡(luò)En-HGAN 識(shí)別方法一方面利用層次化的注意力機(jī)制從異構(gòu)網(wǎng)絡(luò)中為評(píng)論(用戶)節(jié)點(diǎn)學(xué)習(xí)語義更加豐富的向量表征,另一方面利用輸入樣本擾動(dòng)集成多個(gè)差異化的HGAN 模型,實(shí)驗(yàn)結(jié)果表明傳統(tǒng)的數(shù)據(jù)采樣結(jié)合集成學(xué)習(xí)用于圖神經(jīng)網(wǎng)絡(luò)模型做類別不均衡的節(jié)點(diǎn)分類任務(wù)是可行的。由于En-HGAN 方法沒有進(jìn)一步考慮數(shù)據(jù)子集中各類樣本的質(zhì)量,單純地使用隨機(jī)欠采樣解決不同類實(shí)例在數(shù)量上的不均衡,未來可以采取更加靈活的動(dòng)態(tài)采樣方法構(gòu)建更優(yōu)質(zhì)的均衡子訓(xùn)練集。另外,也可根據(jù)問題背景和數(shù)據(jù)分布等選擇其他集成框架,比如Boosting 來挖掘異常特征和均衡檢測(cè)結(jié)果。