亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于D-S證據(jù)理論的電子商務(wù)虛假評(píng)論者檢測(cè)

        2018-11-15 01:54:14張文宇張彬彬
        關(guān)鍵詞:評(píng)論者準(zhǔn)確率證據(jù)

        張文宇,岳 昆,張彬彬

        (云南大學(xué) 信息學(xué)院,昆明 650500)

        1 引 言

        在亞馬遜中國(guó)、京東商城和淘寶網(wǎng)等電子商務(wù)網(wǎng)站中,消費(fèi)者可以通過(guò)評(píng)論與評(píng)分表達(dá)他們對(duì)商品的使用感受和對(duì)商家服務(wù)的滿意度.不同于傳統(tǒng)實(shí)體購(gòu)物,商品評(píng)論成為了消費(fèi)者和商家了解產(chǎn)品質(zhì)量和服務(wù)最為重要的信息來(lái)源.通常,與僅有小部分正面評(píng)論的產(chǎn)品相比,擁有絕大部分正面評(píng)論的產(chǎn)品更受消費(fèi)者歡迎;如果一件產(chǎn)品包含正面評(píng)價(jià)較多,則可大大增加消費(fèi)者的購(gòu)買(mǎi)欲望[1],消費(fèi)者在線評(píng)論的價(jià)值已得到消費(fèi)者和在線零售商的公認(rèn)[2].部分商家為提高自身信譽(yù)或貶低競(jìng)爭(zhēng)對(duì)手開(kāi)始通過(guò)雇傭評(píng)論者甚至親自去充當(dāng)評(píng)論者書(shū)寫(xiě)虛假評(píng)論誤導(dǎo)潛在消費(fèi)者,這些評(píng)論者通常給予正面評(píng)論夸大商品的品質(zhì),通過(guò)負(fù)面評(píng)論詆毀商家的信譽(yù).互聯(lián)網(wǎng)中這類發(fā)表不真實(shí)、具有欺騙性的評(píng)論者被稱為虛假評(píng)論者[3],虛假評(píng)論者的存在,干擾了商品描述的真實(shí)性及推薦系統(tǒng)的準(zhǔn)確性,也損害了電子商務(wù)平臺(tái)的健康運(yùn)行與良性發(fā)展.因此,如何對(duì)評(píng)論者信息數(shù)據(jù)進(jìn)行分析、進(jìn)而識(shí)別出虛假評(píng)論者,有重要現(xiàn)實(shí)意義.

        不同于真實(shí)評(píng)論者,虛假評(píng)論者的動(dòng)機(jī)主要是推銷(xiāo)和詆毀,故虛假評(píng)論者本身的行為特征和真實(shí)評(píng)論者有較大區(qū)別.現(xiàn)有虛假評(píng)論者識(shí)別方法主要從消費(fèi)者某種單一行為入手進(jìn)行分析,未從不同的視角對(duì)評(píng)論者的行為進(jìn)行觀察,只能發(fā)現(xiàn)評(píng)論者的單一作弊行為而遺漏了其它潛在的作弊行為.表1給出了一個(gè)真實(shí)的虛假評(píng)論者示例,其作弊行為不僅體現(xiàn)在給予所評(píng)論商品全五星好評(píng),而且體現(xiàn)在評(píng)論都集中在某一天、評(píng)論內(nèi)容完全相同、評(píng)論目標(biāo)集中在同一家商店的書(shū)籍等.當(dāng)發(fā)現(xiàn)評(píng)論者的多種異常行為時(shí),我們更加容易判斷其身份是虛假評(píng)論者,因此,本文在多種行為特征下對(duì)評(píng)論者身份進(jìn)行分析.一方面,評(píng)論者的每一種行為特征對(duì)評(píng)論者身份的影響都具有不確定性,如何在不同的觀測(cè)空間中準(zhǔn)確衡量這種不確定性,是提高虛假評(píng)論者識(shí)別率的前提.另一方面,如何有效綜合考慮影響評(píng)論者身份的多個(gè)因素,也是亟待解決的問(wèn)題.因此,本文考慮衡量各層面因素的不確定性及這些因素對(duì)虛假評(píng)論者識(shí)別的綜合影響,在以上兩個(gè)角度識(shí)別虛假評(píng)論者.

        表1 一個(gè)真實(shí)的虛假評(píng)論者

        為了提高商品信譽(yù)度或宣傳競(jìng)爭(zhēng)對(duì)手商品的缺點(diǎn),虛假評(píng)論者往往會(huì)做出復(fù)制觀點(diǎn)、重復(fù)評(píng)論、評(píng)分極端、評(píng)論交易日期集中、夸大商品質(zhì)量等舉措,意圖讓好評(píng)或差評(píng)成為目標(biāo)商家商品的主流輿論,進(jìn)而誤導(dǎo)消費(fèi)者判斷.真實(shí)評(píng)論者會(huì)根據(jù)需求購(gòu)買(mǎi)自己所需商品,不像虛假評(píng)論者那樣反復(fù)對(duì)同一網(wǎng)店的固定產(chǎn)品進(jìn)行評(píng)論評(píng)分,購(gòu)買(mǎi)行為呈現(xiàn)出隨機(jī)性.同時(shí),虛假評(píng)論者賬戶的職能在于完成商家給定的任務(wù),和其他評(píng)論者之間往往沒(méi)有交流行為,也沒(méi)有正常的社交網(wǎng)絡(luò).綜上,在現(xiàn)有電商體系下,我們對(duì)此兩類評(píng)論者的行為動(dòng)機(jī)進(jìn)行分析,認(rèn)為評(píng)論者自身的行為不僅表現(xiàn)在其評(píng)價(jià)行為,而且表現(xiàn)在對(duì)商品的關(guān)注行為和與其他評(píng)論者之間的交流行為,通過(guò)這三類不同特征來(lái)綜合描述評(píng)論者所呈現(xiàn)的行為.

        證據(jù)理論(又稱D-S證據(jù)理論)是一種由Dempster提出、Shafer進(jìn)一步完善的不精確推理理論,在解決不確定信息的表示和融合方面有其獨(dú)特優(yōu)勢(shì)[4],被廣泛應(yīng)用于數(shù)據(jù)融合、故障診斷及風(fēng)險(xiǎn)評(píng)估等領(lǐng)域[5-9].證據(jù)理論首先將描述系統(tǒng)的不確定信息轉(zhuǎn)化為證據(jù),然后利用Dempster組合規(guī)則進(jìn)行證據(jù)融合.本文基于D-S證據(jù)理論的基本思想,無(wú)需假設(shè)各影響因素不確定性和完備性,以評(píng)論者的評(píng)價(jià)行為、評(píng)論者對(duì)商品的關(guān)注行為、評(píng)論者的交流行為特征作為對(duì)虛假評(píng)論者檢測(cè)的“證據(jù)”,構(gòu)建虛假評(píng)論者識(shí)別框架,討論基于以上三類特征的虛假評(píng)論者發(fā)現(xiàn)方法.

        支持向量機(jī)(SVM,Support Vector Machine)是機(jī)器學(xué)習(xí)領(lǐng)域內(nèi)的有監(jiān)督學(xué)習(xí)模型,通常用來(lái)進(jìn)行模式識(shí)別、分類及回歸分析[10-12].SVM分類本質(zhì)是尋找一個(gè)軟間隔超平面,通過(guò)正則化求解,使樣本點(diǎn)到超平面的距離之和最大.當(dāng)樣本集線性不可分時(shí),通過(guò)選擇核函數(shù)將樣本映射到核函數(shù)隱式定義的特征空間.本文提出通過(guò)多個(gè)維度對(duì)評(píng)論者評(píng)價(jià)行為、評(píng)論者對(duì)商品的關(guān)注行為、評(píng)論者交流行為分別進(jìn)行衡量,基于三種行為特征建立不同的SVM模型,利用SVM處理小樣本及多維數(shù)據(jù)的優(yōu)勢(shì)對(duì)單特征模式下評(píng)論者的作弊行為進(jìn)行探討.進(jìn)一步,本文參考Platt引入sigmoid函數(shù)擬合后驗(yàn)概率值[13],將SVM的無(wú)閾值輸出轉(zhuǎn)化為關(guān)于真實(shí)評(píng)論者和虛假評(píng)論者的后驗(yàn)概率輸出,為證據(jù)融合奠定基礎(chǔ).

        我們?cè)趩翁卣鱏VM模型的基礎(chǔ)上定義了相應(yīng)的概率賦值函數(shù),利用證據(jù)組合規(guī)則得到不同證據(jù)對(duì)最終評(píng)論者身份判定的聯(lián)合影響.一方面,SVM的錯(cuò)誤率表示不能確定將目標(biāo)評(píng)論者樣本準(zhǔn)確進(jìn)行分類的概率,與證據(jù)理論中的不確定信息相吻合,可以將其視為融合決策中的不確定信息.另一方面,我們通過(guò)評(píng)論者后驗(yàn)概率輸出結(jié)合SVM的準(zhǔn)確率得到最終關(guān)于真實(shí)評(píng)論者和虛假評(píng)論者的信度值.

        最后,建立在亞馬遜中國(guó)電商用戶數(shù)據(jù)集之上的實(shí)驗(yàn)結(jié)果表明,本文所提出的方法準(zhǔn)確有效.

        2 相關(guān)工作

        評(píng)論圖模型構(gòu)建和虛假評(píng)論者檢測(cè)方面, Wang等[14]分析了評(píng)論者、 評(píng)論以及被評(píng)商店三者之間的交互關(guān)系, 通過(guò)構(gòu)建包含這三種因素的評(píng)論圖對(duì)虛假評(píng)論者進(jìn)行挖掘和檢測(cè). Liang等[15]通過(guò)構(gòu)造多邊圖來(lái)迭代計(jì)算評(píng)論者的不真實(shí)度檢測(cè)虛假評(píng)論者. Lu等[16]通過(guò)構(gòu)建包含用戶特征及評(píng)論特征的評(píng)論因素圖并通過(guò)信息傳遞算法同時(shí)檢測(cè)虛假評(píng)論和虛假評(píng)論者. Rayana等[17]通過(guò)構(gòu)建用戶、 商品、 評(píng)論間的關(guān)系圖來(lái)發(fā)現(xiàn)Yelp網(wǎng)站上存在的虛假評(píng)論人和虛假評(píng)論. 以上方法只考慮了評(píng)論圖中各節(jié)點(diǎn)之間的制約關(guān)系, 沒(méi)有考慮評(píng)論圖之外的因素, 并且評(píng)論圖的構(gòu)建局限于某一特定商品或者商家, 未能從評(píng)論者的所有評(píng)論購(gòu)買(mǎi)信息出發(fā)去發(fā)現(xiàn)評(píng)論者作弊行為.

        基于異常行為的虛假評(píng)論者檢測(cè)方面,Lim[3]等基于用戶對(duì)單一商品多次相近評(píng)分、用戶對(duì)于單獨(dú)品牌上的產(chǎn)品群給予過(guò)高或過(guò)低評(píng)分、用戶在某些產(chǎn)品上的評(píng)分跟其他用戶評(píng)分偏離很大、用戶對(duì)剛上架的商品進(jìn)行評(píng)分的等四種評(píng)分行為提出四種檢測(cè)模型.Mukherjee等[18]提出構(gòu)建隱變量貝葉斯模型進(jìn)行虛假評(píng)論者檢測(cè),將用戶評(píng)論特征定義為隱變量,借助EM算法進(jìn)行參數(shù)學(xué)習(xí)并利用吉布斯采樣進(jìn)行推理.Xue等[19]通過(guò)構(gòu)建信任感知模型得出每個(gè)用戶的可信度打分來(lái)識(shí)別虛假評(píng)論者.Ye等[20]通過(guò)監(jiān)控不同時(shí)間片下用戶的突發(fā)行為和異常行為來(lái)發(fā)現(xiàn)用戶的作弊行為.Fei[21]等通過(guò)構(gòu)建隱馬爾可夫模型發(fā)現(xiàn)用戶的評(píng)論、打分的異常變化.以上基于異常行為的虛假評(píng)論者檢測(cè)方法,從單一的角度去檢測(cè)虛假評(píng)論者,但近年來(lái)虛假評(píng)論者作弊方式呈現(xiàn)出多樣化趨勢(shì)并且隱藏性越來(lái)越高,當(dāng)發(fā)現(xiàn)評(píng)論者不存在某種作弊行為時(shí),并不代表該評(píng)論者不采用其他作弊手段.

        基于集體作弊的虛假評(píng)論者檢測(cè)研究方面,Xie等[22]通過(guò)檢測(cè)不同時(shí)間窗口下商品評(píng)論數(shù)量變化、評(píng)分變化以及只發(fā)一條評(píng)論的評(píng)論者所占比例變化來(lái)發(fā)現(xiàn)集體作弊的現(xiàn)象.Choo等[23]從作弊者之間非正常的相互促進(jìn)聯(lián)系行為和情感分析入手挖掘作弊聯(lián)盟.Yang等[24]借助作者主題模型得到每一個(gè)用戶的興趣概述,通過(guò)構(gòu)造用戶興趣向量、計(jì)算余弦相似度來(lái)檢測(cè)作弊團(tuán)體.Ye等[25]提出一種無(wú)監(jiān)督可度量的方法來(lái)檢測(cè)網(wǎng)絡(luò)中的集體作弊團(tuán)體.以上方法可以發(fā)現(xiàn)可疑的集體作弊團(tuán)體,但是當(dāng)一個(gè)評(píng)論者團(tuán)體很可疑時(shí),并不能肯定其中的每一個(gè)評(píng)論者都是作弊者,進(jìn)而很難判斷其發(fā)表的評(píng)論時(shí)是否為虛假評(píng)論.

        這些虛假評(píng)論者檢測(cè)方法為本文的研究提供了參考,但針對(duì)多特征行為模式下虛假評(píng)論者的檢測(cè)還需進(jìn)一步探索.

        3 評(píng)論者相關(guān)行為定義

        3.1 評(píng)論者屬性

        為了描述評(píng)論者評(píng)價(jià)行為、評(píng)論者對(duì)商品的關(guān)注行為、評(píng)論者交流行為這三類用戶特征,本文采用多個(gè)維度刻畫(huà)每一個(gè)特征.對(duì)于某個(gè)評(píng)論者,評(píng)論者屬性如表2所示.

        表2 評(píng)論者屬性表示

        3.2 評(píng)論者評(píng)價(jià)行為特征

        虛假評(píng)論者往往會(huì)批量復(fù)制粘貼正常用戶的好評(píng)或差評(píng)對(duì)目標(biāo)產(chǎn)品進(jìn)行評(píng)價(jià),打分呈現(xiàn)極端性,集中在1星和5星,且評(píng)論往往集中在某一天.因此,本文從以下5個(gè)維度描述虛假評(píng)論者的評(píng)價(jià)行為特征:評(píng)論者打分的極端性、評(píng)論內(nèi)容的相似性、評(píng)價(jià)的早期性、評(píng)論的集中性和打分的偏差性.

        1)評(píng)論者打分的極端性.打分往往能反映出用戶對(duì)商品的偏好和內(nèi)心對(duì)商品真實(shí)評(píng)價(jià),當(dāng)一個(gè)用戶總是給出最高分五星或最低分一星打分時(shí),那么這個(gè)用戶的偏好存在問(wèn)題,其身份就很可疑.用極端打分?jǐn)?shù)量占評(píng)論數(shù)量的比例來(lái)描述打分的極端性:

        (1)

        2)評(píng)價(jià)內(nèi)容的相似性.虛假評(píng)論者往往會(huì)選擇復(fù)制抄襲先前用戶的好評(píng)并將其應(yīng)用到自己的多數(shù)評(píng)論中,當(dāng)一個(gè)評(píng)論者的多數(shù)評(píng)論內(nèi)容相似,那么很可能是虛假評(píng)論者在批量復(fù)制評(píng)論.利用評(píng)論內(nèi)容余弦相似度的最大值描述評(píng)論內(nèi)容的相似性[26]:

        S2=max{cosin(ri,rj),i≠j)

        (2)

        3)評(píng)價(jià)的早期性.當(dāng)一個(gè)用戶往往在商品剛上架后不久發(fā)表評(píng)論,為商品后來(lái)銷(xiāo)售起到了促進(jìn)作用,那么用戶身份就很可疑.用商品上架后一個(gè)月內(nèi)發(fā)表評(píng)論占評(píng)論者所有評(píng)論的比例描述評(píng)價(jià)的早期性:

        (3)

        4)評(píng)論的集中性.不同于真實(shí)評(píng)論者在隨機(jī)時(shí)間內(nèi)進(jìn)行評(píng)論,虛假評(píng)論者往往在某一天內(nèi)完成虛假評(píng)論的任務(wù).用單日內(nèi)發(fā)表的最多評(píng)論占總評(píng)論的比例描述評(píng)論的集中性:

        (4)

        5)打分的偏差性.虛假評(píng)論者對(duì)產(chǎn)品的描述往往和產(chǎn)品的真實(shí)質(zhì)量不符,對(duì)商品的打分和商品所得的平均分有明顯出入.電子商務(wù)平臺(tái)中一般最高評(píng)分為五星,最低評(píng)分為一星,用商品打分和商品得分之差的平均偏差比例描述打分的偏差性:

        (5)

        3.3 評(píng)論者對(duì)商品的關(guān)注特征

        和正常評(píng)論者相比,虛假評(píng)論者評(píng)價(jià)的商品類別、品牌數(shù)量和商家局限在小范圍內(nèi),平均單條評(píng)論涉及的商品類別數(shù)量、商家數(shù)量、品牌數(shù)量可以反映評(píng)論者對(duì)商品的特殊關(guān)注特征和虛假評(píng)論者的任務(wù)目標(biāo)范圍.用評(píng)論所涉及商品類別數(shù)量占所有評(píng)論的比例描述商品類別涉及率,評(píng)論所涉及商家數(shù)量占所有評(píng)論的比例描述商家涉及率,用評(píng)論所涉及品牌數(shù)量占所有評(píng)論的比例描述品牌涉及率:

        (6)

        (7)

        (8)

        3.4 評(píng)論者的交流行為

        虛假評(píng)論者往往得不到其他用戶的認(rèn)可,也不會(huì)與正常評(píng)論者有交流,沒(méi)有正常的社交網(wǎng)絡(luò),對(duì)于其他用戶的提問(wèn)他們不會(huì)提供反饋?zhàn)稍?,也不?huì)提供有價(jià)值的信息或有幫助的投票.本文采用用戶有用投票比例、用戶平均每條評(píng)論被回應(yīng)數(shù)量、用戶所有評(píng)論認(rèn)可度的平均值三個(gè)維度來(lái)描述該特征:

        S9=vr

        (9)

        (10)

        (11)

        4 虛假評(píng)論者識(shí)別模型的構(gòu)建

        4.1 基于D-S證據(jù)理論的虛假評(píng)論者識(shí)別框架

        評(píng)論者的評(píng)價(jià)行為、評(píng)論者對(duì)商品的關(guān)注行為、評(píng)論者的交流行為從不同的側(cè)面構(gòu)成了評(píng)論者身份判斷的“證據(jù)”.給定一個(gè)有限、互斥、窮舉的假設(shè)空間Θ,稱其為識(shí)別框架(Frame of Discernment),考慮Θ的冪集,即Θ的所有子集構(gòu)成的集合,記為2Θ.如前所述,本文基于D-S證據(jù)理論,通過(guò)證據(jù)融合規(guī)則判斷評(píng)論者身份,下面首先給出相關(guān)定義.

        定義1(辨識(shí)框架)將評(píng)論者身份可能的判定結(jié)果中真實(shí)評(píng)論者(T)和虛假評(píng)論者(F)構(gòu)成的集合定義為辨識(shí)框架,記為Θ={T,F(xiàn)},Θ的冪集為2Θ={? ,{T},{F},{T,F(xiàn)}}.

        定義2(mass函數(shù))函數(shù)m:2Θ→[0,1]稱為Θ上的mass函數(shù),若評(píng)論者的評(píng)價(jià)行為、評(píng)論者的對(duì)商品的關(guān)注行為、評(píng)論者和其他評(píng)論者交流行為相互獨(dú)立,m1為評(píng)論者評(píng)價(jià)特征的mass函數(shù),m2為評(píng)論者對(duì)商品關(guān)注特征的mass函數(shù),m3為用戶和其他用戶交流特征的mass函數(shù).mi(T)表示第i個(gè)mass函數(shù)中對(duì)真實(shí)評(píng)論者的支持度,mi(F)表示第個(gè)mass函數(shù)中對(duì)虛假評(píng)論者的支持度,mi(Θ)表示第i個(gè)mass函數(shù)中關(guān)于不確定的支持度.

        D-S證據(jù)理論中,Dempster證據(jù)組合規(guī)則組合兩個(gè)mass函數(shù)產(chǎn)生一個(gè)新的mass函數(shù),表示初始可能沖突的證據(jù)間的一致意見(jiàn),集合的交集表達(dá)了公共證據(jù)元素.Dempster證據(jù)組合規(guī)則的基本思想在于對(duì)多源不確定證據(jù)進(jìn)行融合形成最終關(guān)于辨識(shí)框架的mass函數(shù)值,證據(jù)存在沖突時(shí),通過(guò)歸一化因子k進(jìn)行可信度標(biāo)準(zhǔn)化修正.根據(jù)其基本思想,定義3給出三種特征下mass函數(shù)的合成規(guī)則.

        定義3(mass函數(shù)合成規(guī)則)對(duì)于?N?Θ,評(píng)論者識(shí)別框架Θ上的3個(gè)mass函數(shù)m1、m2和m3的Dempster合成規(guī)則為:

        (m1⊕m2⊕m3)(N)

        (12)

        其中,

        k=∑N1∩N2∩N3≠φm1(N1)m2(N2)m3(N3)

        =1-∑N1∩N2∩N3=φm1(N1)m2(N2)m3(N3)

        1-k即∑N1∩N2∩N3=φm1(N1)m2(N2)m3(N3),反映了有關(guān)評(píng)論者證據(jù)的沖突程度,?為證據(jù)組合算子,N1,N2,N3?2Θ.

        根據(jù)定義1,辨識(shí)框架為Θ={虛假評(píng)論者,真實(shí)評(píng)論者};根據(jù)定義2,將評(píng)論者本身呈現(xiàn)的三類特征作為證據(jù)體構(gòu)建基本概率分配函數(shù);根據(jù)定義3,得到證據(jù)融合后的mass函數(shù).在得到證據(jù)融合后關(guān)于虛假評(píng)論者和真實(shí)評(píng)論者的信度及不確定度量mi(Θ)后,我們辨識(shí)出評(píng)論者的身份,對(duì)評(píng)論者身份的最終判定遵循以下規(guī)則:

        1)具有最大信度的類是目標(biāo)類;

        2)目標(biāo)類與其他類的信度差值必須大于閾值θ1;

        3)目標(biāo)類信度必須大于不確定信度指派值;

        4)不確定信度指派值必須小于閾值θ2.

        4.2 基于Sigmoid函數(shù)的基本概率分配

        為得到不同mass函數(shù)下的基本概率分配,需要度量單特征下評(píng)論者為真實(shí)評(píng)論者和評(píng)論者為虛假評(píng)論者的可能性以及無(wú)法識(shí)別的可能性,對(duì)于來(lái)自三種不同特征空間的評(píng)論者樣本集,本文首先建立評(píng)論者單特征下三個(gè)不同的SVM檢測(cè)模型,實(shí)現(xiàn)三個(gè)基于不同特征下的決策函數(shù).對(duì)單特征下評(píng)論者檢測(cè)的準(zhǔn)確率進(jìn)行測(cè)試,利用錯(cuò)誤率衡量不確定信息,進(jìn)而參考Platt提出的利用sigmoid函數(shù)實(shí)現(xiàn)關(guān)于虛假評(píng)論者和真實(shí)評(píng)論者的后驗(yàn)概率輸出,結(jié)合SVM的準(zhǔn)確率去衡量樣本關(guān)于真實(shí)評(píng)論者和虛假評(píng)論者的基本概率分配.

        我們將評(píng)論者評(píng)價(jià)特征量化為五維向量x1=(s1,s2,s3,s4,s5),對(duì)商品關(guān)注行為和交流行為分別量化為三維向量x2=(s6,s7,s8)、x3=(s9,s10,s11).對(duì)于來(lái)自不同特征空間的向量樣本,我們訓(xùn)練三個(gè)行為特征下不同的SVM模型,訓(xùn)練后帶有核函數(shù)的標(biāo)準(zhǔn)的SVM無(wú)閾值輸出為:

        f(x)=h(x)+b

        (13)

        h(x)=∑xi∈svαiyik(xi,x)

        (14)

        其中,αi為拉格朗日乘子,k(xi,x)為選定的核函數(shù),sv是支持向量集.

        SVM決策分類函數(shù)為:

        y=sgn(f(x))=sgn(∑xi∈svαiyik(xi,x)+b)

        (15)

        當(dāng)y=1時(shí),判斷該評(píng)論者為真實(shí)評(píng)論者,當(dāng)y=-1時(shí),判斷該評(píng)論者為虛假評(píng)論者.

        然而,f(x)和y都不是評(píng)論者后驗(yàn)概率輸出,我們引入?yún)?shù)A和B,利用sigmoid-fitting方法將無(wú)閾值輸出f(x)轉(zhuǎn)化為后驗(yàn)概率.待檢測(cè)評(píng)論者是真實(shí)評(píng)論者的概率為:

        (16)

        待檢測(cè)評(píng)論者為虛假評(píng)論者的概率為:

        (17)

        我們通過(guò)極大似然估計(jì)的方法計(jì)算A和B:

        (18)

        其中,pl=pA,B(fl)

        其中,m為訓(xùn)練集中的樣本數(shù),N+為樣本中真實(shí)評(píng)論者的數(shù)量,N-為樣本中虛假評(píng)論者的數(shù)量,yl是樣本的標(biāo)簽.

        對(duì)三個(gè)不同行為特征下的SVM分類器,在完成評(píng)論者樣本集的訓(xùn)練過(guò)程后,根據(jù)式(18)得到最優(yōu)參數(shù)Ai、Bi(i=1,2,3),并基于公式(16)和公式(17)得出后驗(yàn)概率pi和1-pi.因此,結(jié)合SVM的識(shí)別準(zhǔn)確率qi對(duì)mass函數(shù)值定義為:

        mi(T)=qipi

        (19)

        mi(F)=qi(1-pi)

        (20)

        mi(Θ)=1-qi

        (21)

        將用戶的三種行為特征作為三個(gè)證據(jù)體,根據(jù)公式(19)、(20)、(21)得出每一證據(jù)體關(guān)于真實(shí)評(píng)論者和虛假評(píng)論者的基本可信度m1(T)、m1(F)、m2(T)、m2(F)、m3(T)、m3(F)及相關(guān)不確定性m1(Θ)、m2(Θ)、m3(Θ).

        4.3 基于虛假評(píng)論者識(shí)別框架下mass函數(shù)值獲取算法

        針對(duì)評(píng)論者行為特征信息,基于4.1節(jié)、4.2節(jié)中的方法計(jì)算用戶特征數(shù)據(jù)對(duì)其身份的聯(lián)合影響,進(jìn)行證據(jù)融合,在預(yù)處理后的評(píng)論者屬性特征值的基礎(chǔ)上得到評(píng)論者識(shí)別框架下的信度值.

        算法1.

        輸入:待檢測(cè)的評(píng)論者集合U及每個(gè)評(píng)論者特征向量x1,x2,x3

        輸出:每一位評(píng)論者在識(shí)別框架下的mass函數(shù)值t.m(T)、t.m(F)、t.m(Θ)(t∈U)

        變量:A1、A2、A3、B1、B2、B3:后驗(yàn)概率輸出函數(shù)的參數(shù)值

        q1、q2、q3:SVM的準(zhǔn)確率

        步驟:

        begin

        for eacht∈Udo

        fori=1 to 3 do

        根據(jù)公式(13)得到t.fi(x);

        根據(jù)公式(16)sigmoid函數(shù)輸出其屬于真實(shí)評(píng)論者的概率t.pi(T);

        t.pi(F)←1-t.pi(T);

        t.mi(T)←t.pi(T)*qi;

        /*結(jié)合SVM的準(zhǔn)確率ri計(jì)算單特征下關(guān)于真實(shí)評(píng)論者的信度*/

        t.mi(F)←t.pi(F)*qi;

        /*計(jì)算單特征下關(guān)于虛假評(píng)論者的信度*/

        t.mi(Θ)←1-qi;

        /*利用SVM的錯(cuò)誤率表示不確定性*/

        end for

        t,k←1-∑N1∩N2∩N3=φt.m1(N1)*t.m2(N2)*t.m3(N3);

        t,mr←∑N1∩N2∩N3=Tt.m1(N1)*t.m2(N2)*t.m3(N3)/t.k;

        t,mF←∑N1∩N2∩N3=Ft.m1(N1)*t.m2(N2)*t.m3(N3)/t.k;

        t,mθ←∑N1∩N2∩N3=θt.m1(N1)*t.m2(N2)*t.m3(N3)/t.k;

        end for

        return 所有t.mT、t.mF、t.mΘ

        end

        不難看出,算法1的執(zhí)行代價(jià)主要取決于單特征下證據(jù)支持度的獲取及證據(jù)融合.其中,單特征下證據(jù)支持度的獲取執(zhí)行一個(gè)常數(shù)次循環(huán),證據(jù)融合依次執(zhí)行計(jì)算規(guī)范化因子及3個(gè)mass函數(shù)基于識(shí)別框架下的證據(jù)融合,若有n個(gè)評(píng)論者,算法1的時(shí)間復(fù)雜度為O(n).

        5 實(shí)驗(yàn)結(jié)果

        為了評(píng)判虛假評(píng)論者識(shí)別方法的準(zhǔn)確性,我們從亞馬遜官網(wǎng)共計(jì)爬取了4000個(gè)用戶的完整信息,請(qǐng)三位有五年以上網(wǎng)上購(gòu)物經(jīng)驗(yàn)的碩士作為標(biāo)記人對(duì)樣本集進(jìn)行標(biāo)記,并制訂了五條虛假評(píng)論者鑒別規(guī)則:1)評(píng)論總在商品上架后不久發(fā)表且評(píng)論日期呈現(xiàn)集中化趨勢(shì);2)極端好評(píng)與極端差評(píng)占絕大多數(shù)且常與平均打分出入很大;3)評(píng)論內(nèi)容相似度很高且存在抄襲他人評(píng)論的現(xiàn)象;4)評(píng)論局限于個(gè)別商家并且反復(fù)對(duì)此商家的商品給予好評(píng)或差評(píng);5)發(fā)表評(píng)論較多但與其他評(píng)論者不存在互動(dòng)行為.當(dāng)評(píng)論者的行為符合以上兩點(diǎn)或者兩點(diǎn)以上的描述時(shí),評(píng)論者身份很可疑.最終人工標(biāo)記結(jié)果見(jiàn)表3,其中“”表示和主對(duì)角線相對(duì)稱單元格數(shù)值相同.

        本文通過(guò)計(jì)算Kappa值[27]對(duì)三位標(biāo)記者標(biāo)記結(jié)果的一致性進(jìn)行檢驗(yàn),Kappa值越高,說(shuō)明標(biāo)記結(jié)果的一致性越高.三位標(biāo)記者之間的Kappa值分別為0.79、0.89和0.87,人工標(biāo)記結(jié)果具有很高可信度.當(dāng)評(píng)論者被兩個(gè)及以上專家標(biāo)記為虛假評(píng)論者時(shí),視其為虛假評(píng)論者.實(shí)驗(yàn)環(huán)境如下:Intel(R)Core(TM)i7-6700HQ 2.6GHZ處理器,8GB內(nèi)存,Windows10(64位)操作系統(tǒng),使用MatlabR2016a作為實(shí)驗(yàn)平臺(tái).

        表3 專家標(biāo)記虛假評(píng)論者結(jié)果

        5.1 SVM準(zhǔn)確率測(cè)試

        由于s10取值范圍不為[0,1],我們首先對(duì)s10取值進(jìn)行[0,1]歸一化處理.不同懲罰因子與核函數(shù)的選取會(huì)構(gòu)建不同的分類超平面,進(jìn)而影響到SVM準(zhǔn)確率.SVM準(zhǔn)確率越低,說(shuō)明單特征下評(píng)論者識(shí)別的不確定性越高,進(jìn)而會(huì)增大證據(jù)融合后不確定性的mass函數(shù)值、降低最終判斷決策的準(zhǔn)確率.因此,我們對(duì)不同數(shù)量樣本集下SVM模型進(jìn)行測(cè)試,測(cè)試SVM的準(zhǔn)確率隨著樣本數(shù)量增加的變化趨勢(shì);同時(shí),選取不同的核函數(shù)和懲罰因子,測(cè)試不同參數(shù)選取對(duì)SVM準(zhǔn)確率的影響.我們以評(píng)論者評(píng)價(jià)行為構(gòu)建SVM為例,選取RBF核函數(shù)為典型代表,將訓(xùn)練樣本分為5個(gè)子集,采取交叉驗(yàn)證[28]的方式對(duì)SVM進(jìn)行訓(xùn)練,即每次以其中一個(gè)子集作為測(cè)試集,將其他四個(gè)子集作為訓(xùn)練集,整個(gè)過(guò)程進(jìn)行不重復(fù)循環(huán)直至每個(gè)子集都作為測(cè)試集被預(yù)測(cè)一次,最后取5次結(jié)果準(zhǔn)確率的平均值去衡量SVM準(zhǔn)確率.懲罰因子c分別選取為0.1、1、10、100、1000.實(shí)驗(yàn)結(jié)果如圖1所示.同時(shí),我們固定懲罰因子為100,選取線性核函數(shù)、多項(xiàng)式核函數(shù)、RBF核函數(shù)及sigmoid核函數(shù)作為測(cè)試對(duì)象,對(duì)這些核函數(shù)下SVM的準(zhǔn)確率進(jìn)行測(cè)試,測(cè)試結(jié)果如圖2所示.

        圖1 不同懲罰因子下RBF核函數(shù)SVM模型準(zhǔn)確率

        圖2 懲罰因子為100時(shí)測(cè)得不同核函數(shù)下SVM準(zhǔn)確率

        根據(jù)圖1和圖2的測(cè)試結(jié)果,可得出隨著訓(xùn)練樣本數(shù)量遞增,SVM準(zhǔn)確率大體呈上升趨勢(shì).sigmoid核函數(shù)分類效果明顯不如其他三類核函數(shù),同時(shí),當(dāng)懲罰因子過(guò)大或過(guò)小時(shí),都會(huì)降低SVM的準(zhǔn)確率,進(jìn)而大大增加證據(jù)理論模型中評(píng)論者識(shí)別的不確定性.因此,選擇合適的懲罰因子和核函數(shù)才能使模型的識(shí)別效果達(dá)到最佳.為避免懲罰因子選擇不當(dāng)對(duì)實(shí)驗(yàn)結(jié)果的影響,我們其取值范圍設(shè)置為[2-7,210],步距為0.1,測(cè)得最高準(zhǔn)確率如表4所示.根據(jù)表4結(jié)果,我們選取RBF核函數(shù)作為最終三個(gè)SVM模型的核函數(shù).

        5.2 不同方法下虛假評(píng)論者識(shí)別比較

        根據(jù)表4選取最優(yōu)準(zhǔn)確率對(duì)應(yīng)的SVM模型作為單一特征模型,將SVM的無(wú)閾值輸出通過(guò)sigmoid函數(shù)得到在各個(gè)證據(jù)體下的證據(jù)支持度,進(jìn)而進(jìn)行證據(jù)融合,對(duì)得到的融合后的證據(jù)支持度依據(jù)判別規(guī)則對(duì)評(píng)論者身份進(jìn)行判定并統(tǒng)計(jì)準(zhǔn)確率.部分樣本的證據(jù)融合結(jié)果如表5和表6所示,根據(jù)實(shí)際情況,我們?nèi)ˇ?=0.05,θ2=0.1.

        表4 不同核函數(shù)下的最高準(zhǔn)確率

        表5 初始不同評(píng)論特征下的證據(jù)支持度

        表6 D-S證據(jù)融合后的證據(jù)支持度

        根據(jù)最終實(shí)驗(yàn)結(jié)果,證據(jù)理論模型對(duì)評(píng)論者的預(yù)測(cè)準(zhǔn)確率達(dá)提高到了87.76%,相對(duì)于其它單特征下評(píng)論者識(shí)別效果有明顯提升.根據(jù)表4可以看出,其他三類檢測(cè)方法中,基于評(píng)論者對(duì)商品關(guān)注行為特征的檢測(cè)效果最差,大概為70%,而基于評(píng)論者的評(píng)價(jià)行為檢測(cè)效果優(yōu)于另外兩種.在單特征下評(píng)論者身份無(wú)法識(shí)別時(shí),比如評(píng)論者2,可以通過(guò)證據(jù)融合的方式對(duì)其身份進(jìn)行識(shí)別.因此,證據(jù)理論模型提高了評(píng)論者識(shí)別的準(zhǔn)度,也使識(shí)別的不確定性大大降低.

        為了驗(yàn)證模型的合理性,我們重新輸入標(biāo)記者新標(biāo)記的1000個(gè)真實(shí)評(píng)論者和1000個(gè)虛假評(píng)論者作為樣本統(tǒng)計(jì)準(zhǔn)確率和召回率,測(cè)試所得虛假評(píng)論者識(shí)別準(zhǔn)確率、虛假評(píng)論者識(shí)別召回率、真實(shí)評(píng)論者識(shí)別準(zhǔn)確率、真實(shí)評(píng)論者識(shí)別召回率如表7所示,可以看出,基于證據(jù)融合方法的準(zhǔn)確率和召回率都要高于其他三種單一特征下的識(shí)別方法.

        表7 基于不同方法的識(shí)別準(zhǔn)確率及召回率

        同時(shí)基于前文提到的11種評(píng)論者屬性維度,我們利用Native Bayes、Logistic Regression和Decision Tree 3種有監(jiān)督機(jī)器學(xué)習(xí)模型進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表8所示.

        可以看出,相比較于其他方法,證據(jù)融合的虛假評(píng)論者識(shí)別準(zhǔn)確率提高了4%-9%,識(shí)別召回率提高了3%-8%,F(xiàn)1值提高了0.03-0.08.因此,證據(jù)融合方法在虛假評(píng)論者識(shí)別上優(yōu)于其他三種傳統(tǒng)方法.

        表8 四種方法的實(shí)驗(yàn)結(jié)果對(duì)比

        最后,在算法1得到mass函數(shù)值的基礎(chǔ)上,我們將評(píng)論者按虛假評(píng)論者證據(jù)支持度由大到小排序,以被標(biāo)記者標(biāo)記的次數(shù)將評(píng)論者分為3、2、1、0這4個(gè)級(jí)別,以10為排列位置間隔,計(jì)算前k(k=10,20,30,…,100)位置排列的NDCG值[29],NDCG值越高,說(shuō)明排序結(jié)果越科學(xué).同樣,在單一行為模式檢測(cè)下,我們按虛假評(píng)論者后驗(yàn)概率值大小由高至低進(jìn)行排序,對(duì)NDCG值進(jìn)行計(jì)算,實(shí)驗(yàn)結(jié)果如圖3所示.隨著排列位置的后移,四種排序方法得到的NDCG值都趨于穩(wěn)定,其中,基于證據(jù)融合進(jìn)行排序比其他排序方式提高了2%-4%,明顯優(yōu)于其他排序,相反,基于評(píng)論者交流特征和基于對(duì)商品關(guān)注特征的排序并不是很好的排序方法.因此,基于虛假評(píng)論者證據(jù)支持度進(jìn)行排序?qū)μ摷僭u(píng)論者有更好的區(qū)分度,能更準(zhǔn)確地找出潛在的虛假評(píng)論者.

        圖3 不同排序方法下的NDCG值

        6 總 語(yǔ)

        本文從解決虛假評(píng)論者識(shí)別問(wèn)題出發(fā), 分析了評(píng)論者評(píng)價(jià)行為在內(nèi)的三種行為模式, 以多個(gè)維度對(duì)評(píng)論者行為特征進(jìn)行描述, 并基于用戶行為證據(jù)融合構(gòu)建D-S證據(jù)理論模型. 本文提出的方法和思路, 利用影響用戶身份各因素的不確定性和它們之間的相互關(guān)系, 從評(píng)論者的評(píng)價(jià)行為特征、 評(píng)論者對(duì)商品的關(guān)注特征、 評(píng)論者的交流行為特征三個(gè)全面的角度綜合考慮對(duì)評(píng)論者的身份進(jìn)行檢測(cè). 建立在真實(shí)數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果表明, 本文提出的方法結(jié)合多種作弊模式并進(jìn)行證據(jù)融合, 可準(zhǔn)確、 快速地檢測(cè)評(píng)論者身份, 避免了單個(gè)特征指標(biāo)在解決虛假評(píng)論者檢測(cè)問(wèn)題上的不足, 能夠幫助人們快速發(fā)現(xiàn)電子商務(wù)網(wǎng)站中存在虛假評(píng)論者、 虛假評(píng)論及低信譽(yù)商家, 進(jìn)而對(duì)商品質(zhì)量有更清晰的了解. 文獻(xiàn)[3]從用戶打分行為角度對(duì)虛假評(píng)論者進(jìn)行分析, 列出了一些虛假評(píng)論者檢測(cè)的可行指標(biāo). 文獻(xiàn)[20]基于不同時(shí)間片下評(píng)論數(shù)量和平均打分的變化發(fā)現(xiàn)虛假評(píng)論和虛假評(píng)論者. 相比于文獻(xiàn)[3]和文獻(xiàn)[20], 我們更加系統(tǒng)全面地從不同角度分析了評(píng)論者行為, 同時(shí)更進(jìn)一步對(duì)模型性能進(jìn)行了測(cè)試. 相對(duì)于文獻(xiàn)[15]76%和文獻(xiàn)[21]83.7%的識(shí)別準(zhǔn)確率, 我們87%的識(shí)別準(zhǔn)確率取得了一定的提升. 然而, 本文的方法不適合對(duì)作弊團(tuán)體中只發(fā)表個(gè)別評(píng)論的虛假評(píng)論者進(jìn)行檢測(cè). 今后將從集體作弊的角度分析, 去發(fā)現(xiàn)危害性更大、 隱蔽性更強(qiáng)的虛假評(píng)論者團(tuán)體.

        猜你喜歡
        評(píng)論者準(zhǔn)確率證據(jù)
        智珠2則
        人工智能技術(shù)的電子商務(wù)虛假評(píng)論者檢測(cè)
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        高速公路車(chē)牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        對(duì)于家庭暴力應(yīng)當(dāng)如何搜集證據(jù)
        紅土地(2016年3期)2017-01-15 13:45:22
        基于情感特征和用戶關(guān)系的虛假評(píng)論者的識(shí)別
        手上的證據(jù)
        “大禹治水”有了新證據(jù)
        国产欧美日韩一区二区三区在线| 99久久免费视频色老| 国产免费人成视频网站在线18| 亚洲一区二区三区综合免费在线| 国产精品一区二区黑丝| 久久精品中文字幕女同免费| 国产精品无码一区二区三区在| 体验区试看120秒啪啪免费| 2019最新中文字幕在线观看| 麻豆精品国产精华液好用吗| 久久人人爽人人爽人人片av东京热 | 青春草免费在线观看视频| 久久久久亚洲精品无码网址蜜桃| 亚洲国产精品特色大片观看完整版| 国产女精品视频网站免费| 国产AⅤ无码久久丝袜美腿| 三男一女吃奶添下面| 亚洲粉嫩高潮的18p| 五月天无码| 日本av一区二区播放| av天堂一区二区三区精品| 三级网站亚洲三级一区| 91精品国产乱码久久中文| 第一次处破女18分钟高清| 好紧好爽免费午夜视频| 国产欧美日韩久久久久| 国产高潮精品久久AV无码 | 国产在线视频一区二区三区不卡| 男人天堂亚洲一区二区| 国产av在线观看一区二区三区| 国产色系视频在线观看| 日本一卡2卡3卡4卡无卡免费网站| 国产乱子伦在线观看| 国产精品网站夜色| 国产精品自拍首页在线观看| 亚洲一区二区三区天堂av| 99精品人妻少妇一区二区三区| 日本添下边视频全过程| 亚欧美日韩香蕉在线播放视频| 狠狠色综合网站久久久久久久| 国产成人精品日本亚洲直播|