摘 要 近年來(lái),國(guó)內(nèi)外眾多學(xué)者對(duì)虛假評(píng)論檢測(cè)進(jìn)行研究,本文針對(duì)虛假評(píng)論人進(jìn)行檢測(cè),利用無(wú)監(jiān)督圖嵌入算法(node2vec)獲取評(píng)論人向量,進(jìn)而獲得評(píng)論人之間的距離,根據(jù)距離計(jì)算出評(píng)論人的作弊度。同時(shí)將評(píng)論人特征融合為作弊先驗(yàn),有效地篩選出了有對(duì)產(chǎn)品進(jìn)行虛假評(píng)論的評(píng)論人。
關(guān)鍵詞 虛假評(píng)論檢測(cè);圖嵌入;無(wú)監(jiān)督學(xué)習(xí);特征融合
針對(duì)虛假評(píng)論檢測(cè)問(wèn)題,本文構(gòu)建評(píng)論人圖結(jié)構(gòu)模型,使用無(wú)監(jiān)督圖嵌入算法(node2vec)將評(píng)論人圖中的節(jié)點(diǎn)嵌入到低維向量空間中,使得圖中的評(píng)論人節(jié)點(diǎn)轉(zhuǎn)化為向量,通過(guò)計(jì)算評(píng)論人之間的Frobenius距離以估計(jì)評(píng)論人在向量空間中的距離,以此衡量評(píng)論人的作弊度并排序。
1相關(guān)算法
1.1 node2vec算法
node2vec算法[1]是圖嵌入方法的一種。該算法指定了兩個(gè)參數(shù),p,q。參數(shù)p稱為返回參數(shù),控制重復(fù)訪問(wèn)剛剛訪問(wèn)過(guò)頂點(diǎn)的概率,p值較高,概率較低。參數(shù)q稱為進(jìn)出參數(shù),控制著游走方向,實(shí)現(xiàn)指定游走趨向于DFS還是BFS,q>1傾向于BFS,q<1則更傾向于DFS。
1.2 特征融合
一組評(píng)論特征F{xl1,xl2…xlF},將F融合為一個(gè)作弊分?jǐn)?shù)。后使用經(jīng)驗(yàn)累積分布函數(shù)統(tǒng)一為可比較的尺度和分布。
經(jīng)過(guò)上述步驟后,不同特征極性均轉(zhuǎn)化為f(xli)的值,越低表示作弊嫌疑越高。
隨后將評(píng)論先驗(yàn)轉(zhuǎn)化為評(píng)論人先驗(yàn)。采用Abbr、RD、EXT、DEV、ETF、ISR等特征[2]將該評(píng)論人所有評(píng)論的最大先驗(yàn)作為該評(píng)論人的作弊先驗(yàn) 。
2算法模型分析
2.1 圖結(jié)構(gòu)建立
假設(shè)有包含了m個(gè)評(píng)論人U={ui,i=1,2,...,m}對(duì)n個(gè)產(chǎn)品P={pk,k=1,2,...,n}的所有評(píng)論構(gòu)成的數(shù)據(jù)集。數(shù)據(jù)集包括:評(píng)論人id,被評(píng)論人所評(píng)論的產(chǎn)品id,評(píng)論人對(duì)產(chǎn)品的打分評(píng)級(jí),以及打分時(shí)間。如圖1所示,評(píng)論人ui對(duì)產(chǎn)品Pk撰寫(xiě)了評(píng)分為ri的評(píng)論Vik,這一系列行為可以用一個(gè)元組的形式表示為vik=(ui, pk, rik)。
算法需要有效的虛假評(píng)論人的特征,并且當(dāng)一個(gè)產(chǎn)品在短時(shí)間內(nèi)突然接收到的評(píng)論量暴增時(shí),往往會(huì)有大量的虛假評(píng)論人參與其中[2-3],這就涉及團(tuán)體評(píng)論作弊活動(dòng)。
為描述團(tuán)體作弊活動(dòng),基于協(xié)同評(píng)論行為構(gòu)建評(píng)論人圖模型,如圖1所示。兩條協(xié)同評(píng)論的緊密度通過(guò)兩者的評(píng)論vik和vjk計(jì)算得到。用協(xié)同行為緊密度來(lái)衡量評(píng)論緊密度如定義一。
定義1:給定評(píng)論同一產(chǎn)品的兩個(gè)評(píng)論人ui、uj,撰寫(xiě)了評(píng)論Vik,Vjk,兩條評(píng)論的時(shí)間差Δt、打分差Δr,定義評(píng)論間的緊密度為:
評(píng)論人可能評(píng)論多個(gè)目標(biāo)產(chǎn)品,因此通過(guò)多個(gè)協(xié)同評(píng)論行為定義評(píng)論人的緊密度。
定義2:評(píng)論人緊密度,給定兩個(gè)評(píng)論用戶ui、uj,Pi為評(píng)論人ui所評(píng)論的產(chǎn)品集合,兩個(gè)用戶間的緊密度:
2.2 圖結(jié)構(gòu)算法模型
為計(jì)算每一個(gè)評(píng)論人的作弊度建立評(píng)論人-評(píng)論人圖模型,如定義3所示。
定義3:評(píng)論人圖,令U={u1,u2,u3…um}表示m個(gè)評(píng)論人的節(jié)點(diǎn)集合,根據(jù)公式得到評(píng)論人之間緊密度,建立評(píng)論人-評(píng)論人圖G=(V,E),E={(ui,uj)│collu(ui,uj)=1,ui,uj ∈U}。
3實(shí)驗(yàn)結(jié)果分析
結(jié)果表明,本文方法與FraudScan方法相比充分利用圖結(jié)構(gòu)信息,考慮協(xié)同評(píng)論行為,從全局到局部對(duì)虛假評(píng)論進(jìn)行篩查,AP值,精度,NDCG值均有有效提升,并能有效降低篩查誤差。本研究提出的方法可有效應(yīng)用于實(shí)際中,也可為設(shè)計(jì)基于無(wú)監(jiān)督圖嵌入檢測(cè)方法的研究提供參考。
參考文獻(xiàn)
[1] GROVER A,LESKOVEC J.Node2vec:scalable feature learning for networks[C].Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining.San Francisco,California,USA:ACM,2016:855-864.
[2] Wang Z,Hu R,Chen Q,et al. ColluEagle: Collusive review spammer detection using Markov random fields [J]. Data Mining and Knowledge Discovery,2019(10):723.
[3] S. Rayana, L. Akoglu. Collective opinion spam detection: bridging review networks and metadata [C].In Proceedings of KDD,Sydney,Australia,2015:985-994.
作者簡(jiǎn)介
彭明夷(1996-),女,遼寧省大連市人;沈陽(yáng)理工大學(xué)在讀碩士研究生,專業(yè):計(jì)算機(jī)技術(shù),學(xué)歷:工程碩士,研究方向:大數(shù)據(jù)原理及應(yīng)用。