亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于馬爾可夫隨機場的評論欺詐在線檢測方法

        2020-08-01 06:56:02前,王
        沈陽理工大學(xué)學(xué)報 2020年2期
        關(guān)鍵詞:產(chǎn)品模型

        陳 前,王 琢

        (沈陽理工大學(xué) 信息科學(xué)與工程學(xué)院,沈陽 110159)

        在線評論對候選消費者有著強烈的導(dǎo)向性。高分的評論往往更容易吸引消費者前去購買該商品;反而低分的評論容易誘導(dǎo)消費者放棄購買。商家利用這個規(guī)則張貼大量虛假評論來蒙蔽消費者[1]。

        虛假評論問題是由Bing Liu研究團隊,在2008年首次提出在線垃圾評論檢測問題[2]中所引出的,而后Ott等強調(diào)標(biāo)準(zhǔn)數(shù)據(jù)集的重要性[3],通過Amazon旗下的“Amazon Mechanical Turk”(機械土耳其人)網(wǎng)站招聘來一些人,為指定酒店書寫虛假評論從而獲得虛假的評論內(nèi)容,研究人員讓受試者完成任務(wù),并支付少量酬金,并從TripAdvisor(貓途鷹在線旅行社區(qū))上選取真實的評論內(nèi)容,從而獲得了對評論的虛假性有標(biāo)注的標(biāo)準(zhǔn)數(shù)據(jù)集。該方法利用監(jiān)督模型對虛假評論進行檢測,得到了很高的準(zhǔn)確率。

        在現(xiàn)實世界中評論是復(fù)雜多樣的,因此有標(biāo)注的虛假評論數(shù)據(jù)集的獲取極其困難,這同時也從根本上加大了有監(jiān)督算法的難度。Akoglu等提出通過網(wǎng)絡(luò)效應(yīng)在網(wǎng)絡(luò)評論中的評論欺詐檢測[4]——FraudEagle框架,該方法將用戶、產(chǎn)品視為頂點,用戶和產(chǎn)品之間生成的評論為邊,以此建立二部圖;然后以此二部圖為基礎(chǔ),利用概率圖模型中的馬爾可夫隨機場建模,并使用經(jīng)典的近似推斷算法之一的 Loopy Belief Propagation(循環(huán)置信傳播,簡稱LBP)來求解每個頂點的邊緣概率。依照邊緣概率值來表示該評論人作弊的可疑度。

        以上的框架都是利用離線大規(guī)模數(shù)據(jù)進行離線虛假評論挖掘,因此以往的離線算法都無法迅速捕捉到虛假評論,這樣就會造成即使離線框架已經(jīng)檢測到虛假評論(評論人),而所造成的危害已經(jīng)產(chǎn)生,其算法的應(yīng)用價值變低。為應(yīng)對這個問題在線檢測虛假評論框架應(yīng)運而生。Ye等首先提出基于多元指示信號進行實時虛假評論檢測[5],通過每個單位時間窗的多元指示信號的變化,來得到當(dāng)前時間窗內(nèi)產(chǎn)品的可疑度。呂海等使用時間窗口在評論數(shù)據(jù)流上滑動構(gòu)造評論人-產(chǎn)品二部圖,并利用SCAN技術(shù)挖掘虛假評論人群組[6]。Xu C等提出利用矩陣分解算法對評論人、產(chǎn)品形成的評分矩陣進行因子化,最后得到評論人的可疑度[7]。

        本文所提出的FRAUDMRF是以在線的方式,當(dāng)新評論產(chǎn)生時利用近期相關(guān)數(shù)據(jù),構(gòu)建輕量型二部圖(評論人-產(chǎn)品),利用馬爾科夫隨機場模型迅速預(yù)測出近期評論(評論人)的可疑度,并在兩個有標(biāo)注的評論數(shù)據(jù)集YelpNYC、YelpZip上進行實驗,以作弊度排序的方式來檢驗?zāi)P偷男阅堋?/p>

        1 模型的建立

        1.1 FRAUDMRF框架介紹

        FRAUDMRF是一個在線運行框架,假設(shè)評論v=(uid,pid,r,d)、v.uid、v.pid、v.r、v.d分別表示評論v的評論人、產(chǎn)品、評分值、評分日期。即每當(dāng)一條新的評論vt到來時,更新模型并對近期評論(評論人)進行預(yù)測,迅速得出其作弊度。

        設(shè)常量T用來控制是否為近期評論的閾值。當(dāng)評論vt到達,尋vt.uid近期評論的其他產(chǎn)品集合Pt={v.pid|vt.d-v.d≤T∩vt.uid=v.uid},以及近期評論過vt.pid的其他評論人集合Ut={v.uid|vt.d-v.d≤T∩vt.pid=v.pid}。邊集合E={e(v.uid,v.pid) |ifv.uid=vt.uidorv.pid=vt.pid,v.uid∈Ut,v.pid∈Pt}。由此得到二部圖Gt(V,E),如圖1所示,其中V=Ut∪Pt。

        圖1 t時刻評論人-產(chǎn)品二部圖

        得到圖Gt,用結(jié)對馬爾可夫隨機場[8]進行建模,將圖Gt中的頂點集合中的每個頂點假設(shè)為不可觀測的隨機變量Yi。

        每個隨機變量Yi可以從其各自的有限個標(biāo)簽域中取得適當(dāng)?shù)臉?biāo)簽值,如評論人的標(biāo)簽域為Lu={真實,虛假},產(chǎn)品為Lp={好的,壞的}。并將隨機變量Yi所分配的標(biāo)簽值設(shè)為yi。設(shè)Ψ表示一個團勢集合,由以下兩種類型組成。

        (1)每個隨機變量Yi都有與之相對應(yīng)的先驗知識,維度與隨機變量Yi所對應(yīng)的標(biāo)簽域相同,以概率的形式表現(xiàn),如:Y2是評論人頂點,所對應(yīng)的先驗為={0.2,0.8},表示該評論人從已知條件估計是真實的概率為0.2,是虛假的概率為0.8。

        依據(jù)以上條件,建立如下聯(lián)合概率表達式。

        (1)

        式中:Z為歸一化常量;y為所有隨機變量所分配的標(biāo)簽值的集合。要求得argmaxp(y)的解y,可知這是一個NP-Hard問題,所以利用近似推斷算法“循環(huán)置信傳播”(LBP)來求解該問題。

        1.2 先驗知識

        利用良好的先驗知識提升模型性能。Rayana等[9]針對虛假評論檢測問題提出SpEagle框架,該框架利用馬爾科夫隨機場建模,并融入大量的先驗知識取得了很好的效果。尤其是融入先驗知識后的模型比默認(rèn)使用固定先驗知識的模型的性能得到了整體的提升。本文將其離線特征改造成可在線計算的特征,在FRAUDMRF中,并設(shè)計在線特征融合公式,見公式(2)所示。

        (2)

        式中:S(g)表示頂點g的評論人為作弊(產(chǎn)品為壞的)先驗值,頂點g的先驗為{1-S(g),S(g)};fi(g)表示頂點g的第i個特征的特征值;F表示頂點g的特征總個數(shù);σ∈(0,1]表示該先驗的可信度,并將得到的先驗保存到集合Prior={(vi.uid,S(g)),(vi.pid,S(g)),…}中。

        1.3 作弊先驗可視化分析

        本文將兩個數(shù)據(jù)集的計算完成在線作弊先驗,按照標(biāo)簽將真實評論和虛假評論分別統(tǒng)計其各自的累計分布函數(shù)(CumulativeDistributionFunction,CDF),并以直方圖顯示兩種先驗在兩個數(shù)據(jù)集中對真實評論和虛假評論的區(qū)分度,圖2、圖3所示。圖2、圖3中參數(shù)δ=1。

        圖2 YelpNYC數(shù)據(jù)集

        圖3 YelpZip數(shù)據(jù)集

        1.4 兼容性矩陣

        1.4.1虛假評論人的勾結(jié)相似性

        在虛假評論檢測問題中,群體爆發(fā)性作弊評論所造成的危害是最為嚴(yán)重的。本文通過觀察數(shù)據(jù),針對群爆發(fā)性作弊評論行為,總結(jié)出以下幾點。

        (1)評論人會在短時間內(nèi)集中針對某個或某幾個產(chǎn)品發(fā)布大量虛假評論。

        (2)評論人在這期間內(nèi)會對該產(chǎn)品共同評論高分,吹捧商家產(chǎn)品質(zhì)量;或共同評論低分,貶低商家商品質(zhì)量。

        (3)評論人數(shù)在此期間內(nèi)相對于其他時間較為密集。

        根據(jù)以上幾點信息,本文提出評論之間的勾結(jié)相似性來捕獲群體爆發(fā)性虛假評論行為,其勾結(jié)相似性公式見式(3)所示。

        (3)

        設(shè)Δt=vt.d-v.d,服從均值為0,方差為σ1(默認(rèn)為T)的正態(tài)分布;設(shè)Δr=|vt.r-v.r|,服從均值為0,方差為σ2(默認(rèn)為3)的正態(tài)分布;φ(g)表示累積分布函數(shù)(CDF)的標(biāo)準(zhǔn)正態(tài)分布,乘2是為了將其數(shù)值范圍放大到0~0.5之間。

        1.4.2兼容性矩陣的定義

        兼容性矩陣是以條件概率分布表的形式來表示,如表1、表2所示。

        表1 類型s+邊的兼容性矩陣

        表2 類型s-邊的兼容性矩陣

        其中α為固定參數(shù)(接近于0的正小數(shù)),主要影響當(dāng)前評論人vt.uid和該人近期評論的相關(guān)產(chǎn)品vi.pid之間的網(wǎng)絡(luò)效應(yīng);β主要影響近期評論產(chǎn)品vt.pid的評論人vj.uid之間的網(wǎng)絡(luò)效應(yīng),β越小表示近期評論成為虛假評論的可能性越小,通常設(shè)置一個接近于1的小數(shù)。

        1.5 模型的推斷過程

        LBP是一種基于迭代消息傳遞的方法,當(dāng)消息傳遞趨于穩(wěn)定時停止迭代,利用當(dāng)前穩(wěn)定的消息計算出頂點的置信度bi(yi)(類似于邊緣概率,表示頂點yi通過算法估計在其標(biāo)簽域上可能為各個標(biāo)簽值的概率)[10]。其消息傳遞公式如下。

        (4)

        式中:mi→j(yj)表示由頂點Yi向頂Yj的標(biāo)簽yj傳遞一次消息;z1表示歸一化常量;Ni表示頂點Yi鄰居,如果Yi為評論人頂點,則Ni表示評論人i近期評論的所有產(chǎn)品,反之Yi表示產(chǎn)品頂點,則Ni表示近期評論過該產(chǎn)品i的所有評論人;yj表示不包含yj;mk→i(yj)表示除yj外yi的鄰居向yi傳遞的消息。計算置信度bi(yi)的公式如下。

        (5)

        式中z2為歸一化常量。關(guān)于評論的可疑度計算,本文利用該評論的評論人頂點Yi和產(chǎn)品頂點Yj的聯(lián)合概率p(yi,yj)“虛假,壞的”來表示,其計算公式如下(z3為歸一化常量)。

        (6)

        2 算法詳細(xì)過程

        算法的詳細(xì)過程本文以偽代碼的形式展現(xiàn),如表3所示。

        表3 算法詳細(xì)過程

        當(dāng)一條新的評論到達時,F(xiàn)raudMRF算法的時間復(fù)雜度為O(k+k×iters),其中iters是LBP算法的最大迭代次數(shù)。計算新到達的評論的評論人和產(chǎn)品的實時先驗的時間復(fù)雜度為O(k2),其中k=|E|。

        3 實驗結(jié)果評估

        3.1 參數(shù)設(shè)置和在線特征選取

        數(shù)據(jù)集的介紹及其參數(shù)設(shè)置如表4、表5所示。

        表4 Yelp數(shù)據(jù)集統(tǒng)計信息

        表5 各個數(shù)據(jù)集設(shè)置

        表5中δu、δp分別為公式(2)中評論人先驗和產(chǎn)品先驗的可信度參數(shù)。

        3.2 實驗結(jié)果分析

        本文在兩個數(shù)據(jù)集(YelpNYC,YelpZip)上設(shè)置如上參數(shù)運行FRAUDMRF模型。將該評論(評論人)在其延后T天數(shù)內(nèi)得到的最大的可疑度作為該評論(評論人)的最終可疑度。將FRAUDMRF的評論最終可疑度結(jié)果以排名的方式與評論人(產(chǎn)品)實時作弊先驗和FRAUDEAGLE算法的評論可疑度結(jié)果進行比較;用相同的方式將FRAUDMRF的評論人的最終可疑度結(jié)果與FRAUDEAGLE算法的評論人可疑度結(jié)果進行比較。在樣本分布很不平衡的數(shù)據(jù)集中以排名的方式檢驗結(jié)果,能夠更好的反應(yīng)模型的性能。在Xu C等提出的“用戶評論中的在線信譽欺詐活動的檢測方法”中,指出YelpZip數(shù)據(jù)集中符合團體活動欺詐評論人僅474人。所以實驗展示按作弊度排序前1000個評論人和評論的表現(xiàn),并以歸一化折損累計增益NDCG (衡量排序搜索算法常用指標(biāo))作為評價指標(biāo)來展示模型的性能,如圖4、圖5所示。圖4中FraudEagle(V1)、FraudMRF(V2)表示FRAUDEAGLE算法和FRAUDMRF算法的評論結(jié)果。圖5中FraudEagle(R1)、FraudMRF(R2)表示FRAUDEAGLE算法和FRAUDMRF算法的評論人結(jié)果。

        由圖4可以看出,F(xiàn)RAUDMRF的評論結(jié)果的NDCG指標(biāo)在前面的排名遙遙領(lǐng)先實時先驗的評論排名與FRAUDEAGLE算法的評論結(jié)果排名,在排名的后期評論人實時先驗的評論排名與FRAUDMRF的評論排名指標(biāo)接近,分析可得其原因是因為產(chǎn)品實時先驗下降,才導(dǎo)致FRAUDMRF的評論在排名后期降低。

        圖4 兩個數(shù)據(jù)集評論排名

        圖5為兩個數(shù)據(jù)集評論人排名。

        由圖5可以看出,F(xiàn)RAUDMRF的評論人結(jié)果的NDCG指標(biāo)整體上的排名都遙遙領(lǐng)先FRAUDEAGLE算法的評論人排名結(jié)果。在兩個數(shù)據(jù)集上將前2000的評論(評論人)排名的平均精度(Average Precision,簡稱AP)指標(biāo)以表格的形式展現(xiàn),如表6所示。

        圖5 兩個數(shù)據(jù)集評論人排名

        表6 前2000評論(評論人)排名AP

        4 結(jié)論

        (1)在網(wǎng)絡(luò)結(jié)構(gòu)上,本文建立的輕量型二部圖,能夠在短時間內(nèi)獲得近期評論(評論人)的可疑度,由于是輕量型二部圖,因為頂點數(shù)量較少,不僅在網(wǎng)絡(luò)傳播上時效性高,且還是一個穩(wěn)定的快速收斂算法。

        (2)在比較結(jié)果上,F(xiàn)RAUDMRF在兩個數(shù)據(jù)集上,無論是靠前的排名還是靠后的排名都領(lǐng)先于FRAUDEAGLE,可以證明馬爾可夫隨機場融入在線實時先驗的重要性,以及網(wǎng)絡(luò)效應(yīng)在虛假評論領(lǐng)域發(fā)揮的優(yōu)良表現(xiàn)。

        猜你喜歡
        產(chǎn)品模型
        一半模型
        好產(chǎn)品,可持續(xù)
        從靈感出發(fā),邂逅好產(chǎn)品
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        2015產(chǎn)品LOOKBOOK直擊
        Coco薇(2015年1期)2015-08-13 02:23:50
        新產(chǎn)品
        玩具(2009年10期)2009-11-04 02:33:14
        產(chǎn)品
        個人電腦(2009年9期)2009-09-14 03:18:46
        日本一区二区视频免费在线看| 中文字幕一区二区三区人妻精品 | 中文字幕人妻av一区二区| 91精品啪在线观看国产18| 国产精品国产三级国产专区51区 | 久久这里只精品国产99热| 中文字幕一区二区三区.| 国产一区二区三区视频地址| 女人被狂躁c到高潮视频| 少妇厨房愉情理伦片bd在线观看 | 熟女人妻中文字幕一区| 蜜桃免费一区二区三区| 久久天天躁狠狠躁夜夜avapp| 久久国产成人午夜av影院| aⅴ色综合久久天堂av色综合| 手机在线免费观看av不卡网站| 人妻仑乱a级毛片免费看| 性夜影院爽黄a爽在线看香蕉| 69搡老女人老妇女老熟妇| 日韩一区二区三区久久精品| 久久久亚洲精品无码| 亚洲大尺度在线观看| 中文字幕中乱码一区无线精品| 精品亚洲麻豆1区2区3区| 米奇影音777第四色| 久久频这里精品99香蕉| 国产在线观看黄片视频免费| 夜夜躁狠狠躁日日躁视频| 久久亚洲精品无码gv| 日韩精品一区二区亚洲av性色| av免费在线播放视频| 黑人巨大跨种族video| 国产在线欧美日韩一区二区| 美女和男人一起插插插| 国内精品久久久人妻中文字幕| 夜色阁亚洲一区二区三区| 亚洲精品一区二区三区国产| 寂寞人妻渴望被中出中文字幕 | 久青草国产视频| 国产精品国产三级国产专区51区| 2021亚洲国产精品无码|