亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于交互行為的在線社會(huì)網(wǎng)絡(luò)水軍檢測(cè)方法

        2015-01-06 01:08:12陳侃陳亮朱培棟熊岳山
        通信學(xué)報(bào) 2015年7期
        關(guān)鍵詞:水軍決策樹間隔

        陳侃,陳亮,朱培棟,熊岳山

        (國防科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)學(xué)院,湖南 長(zhǎng)沙410073)

        1 引言

        網(wǎng)絡(luò)水軍出于政治或經(jīng)濟(jì)等目的對(duì)在線社會(huì)網(wǎng)絡(luò)中的信息進(jìn)行推廣,使目標(biāo)信息在極短的時(shí)間內(nèi)大范圍擴(kuò)散,同時(shí)利用數(shù)量?jī)?yōu)勢(shì)影響用戶對(duì)其真實(shí)性的判斷。根據(jù)內(nèi)容和功能的不同,常見目標(biāo)信息包括廣告、木馬和惡意鏈接、謠言等。廣告水軍以病毒營銷的方式發(fā)布目標(biāo)產(chǎn)品的不實(shí)描述,誘導(dǎo)用戶對(duì)產(chǎn)品真實(shí)質(zhì)量產(chǎn)生誤判。病毒、木馬和釣魚網(wǎng)站被隱藏在正常內(nèi)容中,或以中獎(jiǎng)等方式吸引用戶點(diǎn)擊,通過超鏈接重定向到惡意程序所在的頁面感染用戶。謠言傳播目的在于散布謠言并說服他人,不僅能夠引導(dǎo)社會(huì)輿論,還可能引發(fā)大范圍社會(huì)恐慌,甚至對(duì)國家安全和社會(huì)穩(wěn)定造成威脅[1]。近年來爆發(fā)了多起網(wǎng)絡(luò)造謠事件,例如“搶鹽風(fēng)波”[2]、“地震謠言”[3]等,對(duì)人民生活和社會(huì)治安造成嚴(yán)重困擾和威脅。

        網(wǎng)絡(luò)水軍已成為工業(yè)界和學(xué)術(shù)界面臨的重要課題,多種網(wǎng)絡(luò)水軍檢測(cè)方法也被提出,如基于文本的方法[4]、基于黑名單的方法[5]和基于用戶特征[6]的方法等。其中基于文本的方法適用于具有明顯關(guān)鍵字的水軍信息,如廣告等;基于黑名單的方法適用于檢測(cè)包含惡意鏈接的水軍信息;基于用戶行為模式的方法適用于檢測(cè)具有明顯水軍特征的水軍用戶。這些檢測(cè)方法局限性在于都只能檢測(cè)單一種類的水軍,在海量信息的條件下為保證低漏檢率需要綜合使用,從而增加檢測(cè)的復(fù)雜性和時(shí)空耗費(fèi)。因此設(shè)計(jì)一個(gè)通用性的檢測(cè)方法具有重要意義。

        本文提出了一種基于傳播交互的水軍檢測(cè)方法。在線社會(huì)網(wǎng)絡(luò)中,用戶交互是引起信息傳播的根本途徑。水軍雖然種類多樣,但在交互行為上具有共同特性,而且與正常用戶的交互行為表現(xiàn)出明顯差異,因此從傳播交互角度出發(fā)進(jìn)行檢測(cè)更具有通用性。

        2 相關(guān)研究工作

        近年來,隨著在線社會(huì)網(wǎng)絡(luò)的流行,網(wǎng)絡(luò)水軍越來越多地以在線社會(huì)網(wǎng)絡(luò)作為水軍活動(dòng)的主要平臺(tái),知名網(wǎng)站如 Facebook、Twitter和 Myspace等都已經(jīng)成為了水軍活動(dòng)的重要場(chǎng)所[5~7]。其他諸如論壇[8]、視頻共享網(wǎng)站[9]、博客[10]等在內(nèi)的在線網(wǎng)絡(luò)也都已成為網(wǎng)絡(luò)水軍發(fā)動(dòng)水軍攻擊的平臺(tái)[11]。

        水軍檢測(cè)可分為人員檢測(cè)和信息檢測(cè),二者檢測(cè)對(duì)象不同。人員檢測(cè)針對(duì)水軍成員,信息檢測(cè)針對(duì)水軍傳播的信息。檢測(cè)的一般觀點(diǎn)是抽取特征,并利用特征分離水軍成員或水軍信息。

        Irani通過用戶注冊(cè)信息對(duì)水軍成員進(jìn)行檢測(cè)[6],這種方法使檢測(cè)可以在用戶注冊(cè)時(shí)進(jìn)行,但準(zhǔn)確性較低,水軍用戶也可以隨時(shí)更改信息逃避檢測(cè)。Benevenut使用SVM分類器對(duì)Twitter中網(wǎng)絡(luò)水軍進(jìn)行檢測(cè)[12],使用的特征包括信息中包含鏈接的比例、用戶賬號(hào)使用時(shí)間、關(guān)注者的關(guān)注比例等。Wang利用Twitter中25 847個(gè)用戶信息對(duì)網(wǎng)絡(luò)水軍進(jìn)行檢測(cè)[13],檢測(cè)特征包括關(guān)注與被關(guān)注度、轉(zhuǎn)發(fā)數(shù)量、雙向交互數(shù)量以及鏈接比例等。

        信息檢測(cè)主要是根據(jù)信息內(nèi)容分析水軍特征,例如信息中鏈接特征以及基于自然語言處理的文本分類[14]。Zhang使用基于鏈接相似性的方法關(guān)聯(lián)水軍活動(dòng)[15],并采用基于機(jī)器學(xué)習(xí)的方法對(duì)可能的水軍活動(dòng)進(jìn)行檢測(cè)。Blacklist方法利用知名的blacklist站點(diǎn)來檢測(cè)包含惡意鏈接的水軍信息。Gao使用此方法對(duì) Facebook留言墻中包含惡意鏈接的信息進(jìn)行分析[16]。Grier研究了Twitter傳播信息中的惡意鏈接[5],結(jié)果表明Twitter上8%的鏈接都被重定向到惡意網(wǎng)站。他的工作還證明blacklist無法解決新的威脅,當(dāng)一個(gè)惡意鏈接被標(biāo)注為 blacklist之前已經(jīng)有超過90%的用戶被感染。文本內(nèi)容也是水軍檢測(cè)的重要特征。Raymond通過分析評(píng)論文本與正常用戶評(píng)論的差異來發(fā)現(xiàn)網(wǎng)絡(luò)水軍發(fā)布的虛假評(píng)論[4]。Chen利用回復(fù)、積極性及語義特征對(duì)新聞網(wǎng)絡(luò)上的網(wǎng)絡(luò)水軍信息進(jìn)行檢測(cè),可以提供95%的檢測(cè)準(zhǔn)確率[17]。

        當(dāng)前網(wǎng)絡(luò)水軍檢測(cè)的難點(diǎn)一方面在于檢測(cè)的準(zhǔn)確性有待提高,另一方面在于水軍種類多樣,賬號(hào)多變,而檢測(cè)方法大都只面向于單一種類的水軍,無法提供通用的檢測(cè)方案。為了保證檢測(cè)的準(zhǔn)確性需要同時(shí)使用多種檢測(cè)機(jī)制,造成系統(tǒng)復(fù)雜性的提升和計(jì)算量的增加。

        3 基于交互行為的信息傳播模型

        雇用網(wǎng)絡(luò)水軍的目的在于信息傳播,雇主將產(chǎn)品、言論或觀點(diǎn)在在線社會(huì)網(wǎng)絡(luò)中推廣,一方面需要增加信息傳播廣度,使其對(duì)更多用戶可見;另一方面需要增加信息可信度,從而能夠更好地影響用戶,這些都是通過用戶交互來實(shí)現(xiàn)的。

        用戶交互是信息傳播的基本方式和根本動(dòng)力。根據(jù)平臺(tái)不同,交互類型也有不同,例如關(guān)注、轉(zhuǎn)發(fā)、評(píng)論、點(diǎn)贊、收藏等。其中關(guān)注、轉(zhuǎn)發(fā)和評(píng)論是在線社會(huì)網(wǎng)絡(luò)中通用的交互方式。

        關(guān)注:A關(guān)注B之后,B新發(fā)布的信息會(huì)實(shí)時(shí)推送給A。

        轉(zhuǎn)發(fā):A轉(zhuǎn)發(fā)B的信息,該信息從B的頁面復(fù)制到A的頁面,引起信息傳播。

        評(píng)論:A評(píng)論B的信息,評(píng)論內(nèi)容仍在B的頁面顯示,不會(huì)引起信息傳播,但會(huì)對(duì)信息可信性和說服力造成影響。

        雖然水軍種類多樣,而且水軍賬號(hào)不斷變化,但從信息傳播的角度來看,無論水軍信息還是正常信息都有其固有的傳播模式。這些模式體現(xiàn)在用戶之間的交互上,從這3種交互行為入手對(duì)網(wǎng)絡(luò)水軍和正常用戶在信息傳播中的行為差異進(jìn)行分析,就能為水軍信息檢測(cè)提供通用性的檢測(cè)方案。

        用F(u)、R(u)、C(u)分別表示用戶u的關(guān)注、轉(zhuǎn)發(fā)和評(píng)論集合。其中,F(xiàn)(u)是由其他用戶組成的無序集合;R和C中的元素為類似<user,time>的二元組,user代表發(fā)布信息的用戶,time為信息發(fā)布時(shí)間,集合按照time排序。

        由于轉(zhuǎn)發(fā)和評(píng)論在行為上都表現(xiàn)為信息的再發(fā)布,行為表現(xiàn)和特征描述都具有相似性。為避免重復(fù)將轉(zhuǎn)發(fā)和評(píng)論通稱為傳播,傳播集合用D(u)表示。根據(jù)交互主體的不同,將傳播特征分為關(guān)注者-傳播者、發(fā)布者-傳播者、傳播者-傳播者3種類型。其關(guān)系如圖1所示。

        圖1 基于交互行為的信息傳播模型

        3.1 關(guān)注者-傳播者特征定義

        信息傳播的前提是信息可見,在線社會(huì)網(wǎng)絡(luò)中用戶A發(fā)布的信息對(duì)用戶B可見的方式主要有以下幾種。

        1)B關(guān)注A,B就可以實(shí)時(shí)獲得A的更新。由于在線社會(huì)網(wǎng)絡(luò)中推送機(jī)制的廣泛使用,新的信息發(fā)布后會(huì)立即推送給關(guān)注者。

        2)B關(guān)注C,C轉(zhuǎn)發(fā)A的信息。那么B就可以通過C間接訪問到A發(fā)布的信息。B和A之間可能存在多跳。

        3)B直接獲取A發(fā)布信息的鏈接,通過鏈接訪問。

        通過觀察發(fā)現(xiàn)一般用戶主要通過前2種方式訪問信息,而網(wǎng)絡(luò)水軍則主要通過第3種方式訪問目標(biāo)信息。這是因?yàn)樗娕c雇主之間通常不存在直接的關(guān)注關(guān)系,只能通過雇主給出的鏈接進(jìn)行信息傳播。這使網(wǎng)絡(luò)水軍與正常用戶在關(guān)注-傳播關(guān)系上產(chǎn)生明顯差異。

        定義傳播關(guān)系分布用來衡量傳播者與關(guān)注者之間的關(guān)系,用DR表示傳播關(guān)系分布,p為一條信息,u為信息發(fā)布者,DR的計(jì)算式為

        其中,P(u)為用戶u發(fā)布的所有信息,|D(p)|表示集合D(p)的元素?cái)?shù)量。DR用來衡量傳播者同時(shí)也是關(guān)注者的比例,正常用戶主要通過關(guān)注關(guān)系獲取信息,而網(wǎng)絡(luò)水軍主要通過鏈接方式獲取信息,因此造成DR值的差異。

        3.2 發(fā)布者-傳播者特征定義

        發(fā)布者與傳播者之間進(jìn)行直接交互,從交互時(shí)間的角度定義了平均傳播時(shí)間(ADT)、首次傳播時(shí)間(FDT)和傳播啟動(dòng)時(shí)間(DST)3個(gè)特征。

        1) 平均傳播時(shí)間

        傳播時(shí)間為信息從發(fā)布到最末一次傳播的總時(shí)間,平均傳播時(shí)間用來描述每一條轉(zhuǎn)發(fā)/評(píng)論的平均持續(xù)時(shí)間。用ADT表示平均傳播時(shí)間,計(jì)算式為

        其中,N=|D(p)|,由于D(p)是按照時(shí)間排序的,因此

        網(wǎng)絡(luò)水軍通過完成雇主發(fā)布的傳播任務(wù)獲取報(bào)酬,而報(bào)酬是有限的,如果任務(wù)完成數(shù)量超出獎(jiǎng)勵(lì)限額就不會(huì)獲得報(bào)酬。因此網(wǎng)絡(luò)水軍期望在任務(wù)期限內(nèi)盡可能早地完成任務(wù),而且任務(wù)完成數(shù)量一旦達(dá)到限額就不會(huì)再對(duì)信息進(jìn)行傳播。正常信息的傳播僅受限于用戶的使用習(xí)慣,傳播時(shí)間與傳播范圍都沒有具體的界限。

        2) 首次傳播時(shí)間

        首次傳播時(shí)間用來描述從信息發(fā)布到獲得第一條轉(zhuǎn)發(fā)/評(píng)論所等待的時(shí)間,用FDT表示首次傳播時(shí)間,計(jì)算式為

        其中,d1為D(p)中第一個(gè)元素。

        由于消息實(shí)時(shí)推送機(jī)制的廣泛使用以及移動(dòng)終端應(yīng)用的大力推廣,很多在線社會(huì)網(wǎng)絡(luò)都具有“類實(shí)時(shí)”特性,用戶之間能夠以近似實(shí)時(shí)的方式進(jìn)行交互,信息也能夠在第一時(shí)間被關(guān)注者傳播。而網(wǎng)絡(luò)水軍訪問目標(biāo)信息的方式通常不是通過對(duì)被關(guān)注者的推送,而是通過給定的鏈接,因此難以體現(xiàn)出實(shí)時(shí)特性。同時(shí)水軍活動(dòng)任務(wù)的發(fā)布、接受、和實(shí)施都需要耗費(fèi)一定的時(shí)間,使水軍信息的首次傳播時(shí)間比正常信息更長(zhǎng)。

        3) 傳播啟動(dòng)時(shí)間

        傳播啟動(dòng)時(shí)間用來描述一條信息變“可信”所需要的時(shí)間。當(dāng)一條信息的轉(zhuǎn)發(fā)和評(píng)論量達(dá)到一定程度時(shí),能夠吸引更多用戶關(guān)注并影響用戶對(duì)信息內(nèi)容的判斷。用DST表示傳播啟動(dòng)時(shí)間,計(jì)算式為

        其中,m為可信參數(shù),用來描述一條信息產(chǎn)生影響力所需要的轉(zhuǎn)發(fā)/評(píng)論的數(shù)量。本文中定義m=1 000。即認(rèn)為一條信息的轉(zhuǎn)發(fā)/評(píng)論量超過1 000就能對(duì)用戶判斷產(chǎn)生影響。

        3.3 傳播者-傳播者特征定義

        傳播者與傳播者之間并沒有或很少直接交互,只是在與發(fā)布者交互時(shí)產(chǎn)生時(shí)序關(guān)系。對(duì)該時(shí)序關(guān)系進(jìn)行分析可以更好地理解傳播者參與的積極性和行為規(guī)律。從傳播者-傳播者角度定義了平均傳播間隔(ADI)和傳播間隔方差(VDI)2個(gè)特征。

        1) 平均傳播間隔

        傳播時(shí)間間隔為每?jī)蓷l相鄰信息之間的時(shí)間間隔,平均傳播間隔為所有傳播時(shí)間間隔的均值。其計(jì)算式為

        由于水軍行為多集中在短時(shí)間之內(nèi)進(jìn)行,呈現(xiàn)出突發(fā)特性,因此每2條相鄰信息之間的時(shí)間間隔都很小。而正常用戶發(fā)布的信息出于個(gè)人使用習(xí)慣的差異,時(shí)間間隔相對(duì)更大。

        2) 傳播間隔方差

        傳播間隔方差為所有的傳播間隔之間的方差,用來描述一條信息的所有轉(zhuǎn)發(fā)或評(píng)論的時(shí)間間隔的差異程度,計(jì)算方法為

        水軍行為的突發(fā)性不僅表現(xiàn)在時(shí)間間隔短,而且間隔分布也處于一個(gè)相對(duì)較小的范圍內(nèi)。而普通用戶的轉(zhuǎn)發(fā)和評(píng)論受訪問習(xí)慣的影響表現(xiàn)出更大的差異性。

        4 基于決策樹的水軍檢測(cè)方法

        將網(wǎng)絡(luò)水軍檢測(cè)問題看作二分類問題,設(shè)P為在線社會(huì)網(wǎng)絡(luò)中所有信息集合,P= {PsUPn},其中,Ps為網(wǎng)絡(luò)水軍推廣的信息集合,Pn為正常信息集合。設(shè)p為一條信息,使用特征向量表示為目標(biāo)函數(shù)為,其中,φ(p)為二分類函數(shù),網(wǎng)絡(luò)水軍檢測(cè)即發(fā)現(xiàn)信息p是否屬于集合Ps。

        針對(duì)二分類問題當(dāng)前已經(jīng)有多種方案,例如決策樹、SVM、Bayes、神經(jīng)網(wǎng)絡(luò)方法等。分類流程包括訓(xùn)練和分類2部分,訓(xùn)練過程通過特征選取和分類訓(xùn)練構(gòu)造分類器,分類過程使用分類器對(duì)新的樣本實(shí)現(xiàn)分類。本文選取決策樹C5算法作為分類檢測(cè)算法。C5算法采用Boosting方式提高模型準(zhǔn)確率,更適合在線社會(huì)網(wǎng)絡(luò)這類數(shù)據(jù)量較大的場(chǎng)景。

        決策樹的根節(jié)點(diǎn)為數(shù)據(jù)樣本集,分支節(jié)點(diǎn)對(duì)應(yīng)著對(duì)單一屬性的測(cè)試,該測(cè)試將數(shù)據(jù)空間分割為多個(gè)子集。每條分支對(duì)應(yīng)該屬性的不同屬性值,而葉節(jié)點(diǎn)是帶有分類標(biāo)記的樣本集分割。決策樹需要使用訓(xùn)練集構(gòu)建,然后實(shí)現(xiàn)對(duì)新樣本的分類檢測(cè)。

        首先定義相關(guān)概念如下。

        信息熵:在樣本集S中,依據(jù)目標(biāo)屬性(是否為水軍信息)將S分為NS和SS這2個(gè)子集,則S的信息熵計(jì)算為

        信息增益:屬性D的信息增益Gain(Di)計(jì)算為

        信息增益比率:屬性D的信息增益比率計(jì)算為

        借助各屬性的信息增益比率構(gòu)建檢測(cè)決策樹。設(shè)訓(xùn)練數(shù)據(jù)集S=D1D2D3D4D5D6為6維向量空間,其中,Di(1≤i≤6)分別對(duì)應(yīng)模型中定義的6種特征。決策樹構(gòu)建算法如下。

        算法1基于傳播特征的決策樹構(gòu)建算法

        輸入訓(xùn)練數(shù)據(jù)集S

        輸出決策樹DT

        1) 初始化,設(shè)t=S為DT的根節(jié)點(diǎn)。

        2) 計(jì)算當(dāng)前樣本節(jié)點(diǎn)t的信息熵,以及t中每個(gè)特征屬性Di的信息增益比率GainRatio(Di)。

        3) 令Dk=max{GainRatio(Di)},根據(jù)Dk的取值將t劃分為m個(gè)子集,每個(gè)子集為t的一個(gè)分支,對(duì)應(yīng)一個(gè)新的決策樹節(jié)點(diǎn)。

        4) 依次設(shè)每個(gè)新的決策樹節(jié)點(diǎn)為當(dāng)前樣本節(jié)點(diǎn),重復(fù)步驟 2)~4),直到所有新樣本節(jié)點(diǎn)中的樣本滿足:①都屬于同一目標(biāo)類;②所有屬性都處理完畢;③樣本的剩余屬性取值完全相同。并將這樣的節(jié)點(diǎn)標(biāo)記為葉節(jié)點(diǎn)。

        5) 用所有葉節(jié)點(diǎn)中占多數(shù)的目標(biāo)分類屬性值來標(biāo)記該葉節(jié)點(diǎn),決策樹構(gòu)建完成,返回DT。

        構(gòu)造成功之后,就可以使用決策樹對(duì)新的樣本值進(jìn)行目標(biāo)屬性的分類檢測(cè)。從決策樹的根節(jié)點(diǎn)開始,測(cè)試比較這個(gè)節(jié)點(diǎn)對(duì)應(yīng)的屬性值,然后選擇正確分支向葉節(jié)點(diǎn)移動(dòng),重復(fù)比較和分支過程,直到到達(dá)葉節(jié)點(diǎn),葉節(jié)點(diǎn)的類別屬性即為最終的分類檢測(cè)結(jié)果。

        5 實(shí)驗(yàn)和分析

        5.1 數(shù)據(jù)準(zhǔn)備

        從新浪微博中抓取真實(shí)數(shù)據(jù)分析傳播特征。水軍活動(dòng)以很多方式存在,如廣告水軍、意見水軍、木馬病毒水軍等。盡管內(nèi)容和功能各有不同,但都以同樣的方式被組織和傳播。其中廣告水軍更常見也更容易區(qū)分,因此使用廣告水軍作為原型來分析其傳播特征。

        首先通過人工方式對(duì)新浪微博中的水軍廣告進(jìn)行標(biāo)注,然后提取這些廣告信息中的關(guān)鍵字。利用新浪微博提供的搜索引擎使用這些關(guān)鍵字進(jìn)行搜索,并保存搜索結(jié)果。

        一般地,很多用戶在看到廣告時(shí)會(huì)選擇忽略,極少參與轉(zhuǎn)發(fā)或評(píng)論。在搜索結(jié)果中,80%的廣告微博的轉(zhuǎn)發(fā)和評(píng)論次數(shù)少于10次,大多數(shù)為0次。此外約10%的微博具有很高的轉(zhuǎn)發(fā)和評(píng)論量,認(rèn)為它們較大概率來自于網(wǎng)絡(luò)水軍。過濾掉少于100次評(píng)論和轉(zhuǎn)發(fā)的微博,最后得到1 424條水軍數(shù)據(jù)集。

        為了與水軍數(shù)據(jù)進(jìn)行對(duì)比,還搜集了正常用戶的微博數(shù)據(jù)。采用手動(dòng)方式挑選一些較小概率雇用網(wǎng)絡(luò)水軍的用戶,選取方式是:①熟悉的用戶,如朋友或老師;②教育或科學(xué)界的知名人士。選擇教育或科學(xué)界人士是因?yàn)檎J(rèn)為相比其他行業(yè),這些用戶更小概率會(huì)雇用網(wǎng)絡(luò)水軍。抓取了這些用戶在 4月1日到4月14日之間的所有微博。同樣過濾掉少于100次評(píng)論和轉(zhuǎn)發(fā)的微博,最后得到1 687條正常數(shù)據(jù)集。

        5.2 傳播特征統(tǒng)計(jì)分析

        使用抓取到的數(shù)據(jù)集對(duì)水軍用戶和正常用戶的傳播特征進(jìn)行分析,各項(xiàng)特征的累積分布如圖 2所示。

        圖2給出了傳播關(guān)系分布(DR)特征的累積分布,可看出水軍信息的特征值遠(yuǎn)小于正常信息的特征值。在轉(zhuǎn)發(fā)特征圖中,80%的水軍信息的DR值小于 0.2,說明 80%的水軍信息中,由關(guān)注者給出的轉(zhuǎn)發(fā)不到總量的20%。與之形成對(duì)比的是約80%的正常信息的DR值大于0.2。這一對(duì)比在評(píng)論特征圖中更加明顯,80%的水軍信息的DR值小于0.1,說明80%的水軍信息中,僅有不到10%的轉(zhuǎn)發(fā)和評(píng)論來自于關(guān)注者。這一分布證明了正常信息的轉(zhuǎn)發(fā)和評(píng)論主要來源于關(guān)注者,而水軍信息的轉(zhuǎn)發(fā)和評(píng)論主要來源于陌生人。

        圖2 基于轉(zhuǎn)發(fā)和評(píng)論的DR累積分布

        圖3給出了平均傳播時(shí)間的累積分布,從圖中可以看出,80%的水軍轉(zhuǎn)發(fā)信息平均持續(xù)時(shí)間少于20 min,而90%的正常用戶的平均持續(xù)時(shí)間都大于20 min。此外,80%的水軍評(píng)論信息平均持續(xù)時(shí)間少于30 min,相同時(shí)間下正常評(píng)論信息只有不到5%。

        圖4給出了首次傳播時(shí)間的累積分布,可以看出水軍和正常信息在FDT上分布差異性明顯。約90%以上的正常信息都可以在10 min之內(nèi)獲取到第一條轉(zhuǎn)發(fā)和評(píng)論。而在相同時(shí)間之內(nèi),水軍信息中只有10%能夠獲取到第一條轉(zhuǎn)發(fā),18%能獲取到第一條評(píng)論。在1 min內(nèi),約45%的正常信息可以獲得第一條轉(zhuǎn)發(fā)和評(píng)論,而水軍信息中只有2%可以獲得第一條轉(zhuǎn)發(fā),7%獲得第一條評(píng)論。

        圖3 基于轉(zhuǎn)發(fā)和評(píng)論的ADT累積分布

        圖4 基于轉(zhuǎn)發(fā)和評(píng)論的FDT累積分布

        圖5給出了傳播啟動(dòng)時(shí)間的累積分布。從圖中可看出正常信息的啟動(dòng)時(shí)間一般小于水軍信息。60%的正常信息的轉(zhuǎn)發(fā)啟動(dòng)時(shí)間小于200 min,該時(shí)間之內(nèi)只有20%的水軍信息獲得應(yīng)有的轉(zhuǎn)發(fā)。DST特征的差異性不如其他特征明顯,評(píng)論特征更為相近。

        圖5 基于轉(zhuǎn)發(fā)和評(píng)論的DST累積分布

        圖6給出了平均傳播間隔的累計(jì)分布。從數(shù)量上看,水軍信息的平均傳播間隔小于正常信息。60%的水軍轉(zhuǎn)發(fā)和評(píng)論間隔都小于10 min,而在此范圍內(nèi)的正常信息不到 10%。此外 25%的水軍轉(zhuǎn)發(fā)和35%的水軍評(píng)論的平均傳播間隔都在1 min之內(nèi),這證明了水軍信息轉(zhuǎn)發(fā)和評(píng)論時(shí)的突發(fā)特性。

        圖6 基于轉(zhuǎn)發(fā)和評(píng)論的ADI累積分布

        圖7給出了傳播間隔方差的累計(jì)分布。水軍信息傳播間隔的方差更小,說明水軍信息的傳播間隔之間的差異性更小。原因是水軍信息的突發(fā)特性使時(shí)間間隔都相對(duì)集中在一個(gè)小范圍內(nèi),而正常信息受用戶使用習(xí)慣的影響差異性更大。

        5.3 檢測(cè)結(jié)果

        將數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集,比例為7:3。按照算法1的描述對(duì)訓(xùn)練集進(jìn)行分類訓(xùn)練,得到?jīng)Q策樹如圖8所示。利用該樹可以直接進(jìn)行水軍檢測(cè)。

        圖7 基于轉(zhuǎn)發(fā)和評(píng)論的VDI累積分布

        圖8 基于交互行為特征的水軍檢測(cè)決策樹

        使用測(cè)試集對(duì)決策樹檢測(cè)方法的有效性進(jìn)行驗(yàn)證,并同時(shí)對(duì)比了SVM算法以及神經(jīng)網(wǎng)絡(luò)的RBF算法,驗(yàn)證結(jié)果如表1所示。

        表1 檢測(cè)方法結(jié)果對(duì)比

        結(jié)果表明本文的決策樹算法在基于傳播模型的網(wǎng)絡(luò)水軍檢測(cè)方面具有明顯優(yōu)勢(shì),準(zhǔn)確率和召回率都高于其他2種方法。其中,SVM算法可以提供較高的準(zhǔn)確率,但召回率難以保證,漏檢率較高。RBF算法的召回率有所提升,但仍大幅度低于決策樹算法。從綜合評(píng)價(jià)來看,決策樹算法性能最優(yōu),其次是RBF算法,SVM算法由于召回率過低因此性能最差。

        文獻(xiàn)[18]使用概念圖模型對(duì)新浪微博中的水軍進(jìn)行檢測(cè),基于平臺(tái)和檢測(cè)對(duì)象的相似性,使用它作為參考與本文的檢測(cè)方法進(jìn)行對(duì)比,結(jié)果如表 2所示??梢钥闯觯瑹o論是在準(zhǔn)確率、召回率還是綜合評(píng)價(jià)上,本文的檢測(cè)方法都表現(xiàn)出明顯優(yōu)勢(shì)。這也證明了本文方法能夠有效且準(zhǔn)確地對(duì)水軍進(jìn)行檢測(cè)。

        表2 檢測(cè)結(jié)果對(duì)比

        對(duì)檢測(cè)算法中各特征的重要性進(jìn)行了分析,結(jié)果如圖9所示。重要性按由高到低的順序排名依次是FDT>DR>ADI>ADT>VDI>DST。

        圖9 特征重要性評(píng)估

        檢測(cè)結(jié)果的高準(zhǔn)確性證明了傳播模型中特征選取的有效性,說明本文定義的特征能夠準(zhǔn)確描述網(wǎng)絡(luò)水軍和正常用戶行為和傳播過程的差異。正常用戶可以根據(jù)關(guān)注關(guān)系實(shí)時(shí)獲取更新提醒,而網(wǎng)絡(luò)水軍需要跟蹤雇主發(fā)布的任務(wù)進(jìn)行消息傳播。正常用戶對(duì)信息的訪問和傳播基于自己的日常習(xí)慣,而網(wǎng)絡(luò)水軍的消息傳播依賴于任務(wù)發(fā)布時(shí)間和任務(wù)限額。

        6 結(jié)束語

        本文提出了基于交互行為的信息傳播模型,從交互關(guān)系的角度定義了3種6個(gè)特征對(duì)傳播行為進(jìn)行量化。在此模型之下利用決策樹算法對(duì)網(wǎng)絡(luò)水軍傳播的信息進(jìn)行檢測(cè)。利用新浪微博的真實(shí)數(shù)據(jù)對(duì)傳播模型進(jìn)行分析并驗(yàn)證檢測(cè)方法的有效性,結(jié)果表明本文的方法可以高效地檢測(cè)出網(wǎng)絡(luò)水軍。盡管網(wǎng)絡(luò)水軍在種類功能方面各有差異,但傳播行為上的共性使得本文的檢測(cè)方法更具有通用性,可以適用于多場(chǎng)景下的水軍檢測(cè)。

        [1] http://news.ifeng.com/opinion/special/wangluoshuijun/[EB/OL].

        [2] http://zh.wikipedia.org/zh-cn/%E7%9B%B2%E6%8%A2%E7%9B%90%E4%BA%8B%E4%BB%B6[EB/OL].

        [3] http://qcyn.sina.com.cn/news/ynyw/2011/1205/01134061411.html[EB/OL].

        [4] RAYMOND Y K, STEPHEN L, LIAO S Y. Text mining and probabilistic language modeling for online review spam detection[J]. ACM Trans Management Inf Syst, 2011,2(4):25.

        [5] GRIER C, THOMAS K, PAXSON V,et al. @spam: the underground on 140 characters or less[A]. Proceedings of the 17th ACM Conference on Computer and Communications Security[C]. Chicago, Illinois, USA, 2010. 27-37.

        [6] IRANI D, WEBB S, PU C. Study of static classification of social spam profiles in MySpace[A]. ICWSM[C]. 2010.

        [7] THOMAS K, GRIER C, SONG D,et al. Suspended accounts in retrospect: an analysis of twitter spam[A]. Proceedings of the 2011 ACM SIGCOMM Conference on Internet Measurement Conference[C].Berlin, Germany, 2011. 243-258.

        [8] SHIN Y, GUPTA M, MYERS S. Prevalence and mitigation of forum spamming[A]. IEEE INFOCOM 2011[C]. 2011. 2309-2317.

        [9] BENEVENUTO F, RODRIGUES T, ALMEIDA V,et al. Identifying video spammers in online social networks[A]. Proceedings of the 4th International Workshop on Adversarial Information Retrieval on the Web[C]. Beijing, China, 2008. 45-52.

        [10] RAJADESINGAN A. MAHENDRAN A. Comment spam classi-fication in blogs through comment analysis and comment-blog post relationships[A]. Proceedings of the 13th International Conference on Computational Linguistics and Intelligent Text Processing-Volume Part II[C]. New Delhi, India: Springer-Verlag,2012.490-501.

        [11] HEYMANN P, KOUTRIKA G, GARCIA-MOLINA H. Fighting spam on social Web sites: a survey of approaches and future challenges[J].IEEE Internet Computing, 2007, 11(6):36-45.

        [12] BENEVENUTO F, MAGNO G, RODRIGUES T,et al. Detecting spammers on twitter[A]. CEAS[C]. 2010.

        [13] WANG A H. Detecting spam bots in online social networking sites: a machine learning approach[A]. Data and Applications Security and Privacy, 25th Anunual IFIP WG11.3 Conference[C]. 2010. 335-342.

        [14] 蘇金樹, 張博鋒, 徐昕等. 基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展[J]. 軟件學(xué)報(bào), 2006, 19(9):1848-1859.SU J S, ZHANG B F, XU X,et al. Advances in machine learning based text categorization[J]. Journal of Software, 2006, 19(9):1848-1859.

        [15] ZHANG X, ZHU S, LIANG W. Detecting spam and promoting campaigns in the Twitter social network[A]. The 12th IEEE International Conference on Data Mining[C]. 2012.1194-1199.

        [16] GAO H, HU J, WILSON C,et al. Detecting and characterizing social spam campaigns[A]. The 10th ACM SIGCOMM Conference on Internet Measurement[C]. Melbourne, Australia, 2010.

        [17] CHEN C, WU K, SRINIVASAN V,et al. Battling the internet water army: detection of hidden paid posters[EB/OL]. arXiv preprint ar-Xiv:1111.4297v1[cs.SI]. 2011.

        [18] 韓忠明等. 面向微博的概率圖水軍識(shí)別模型[J]. 計(jì)算機(jī)研究與發(fā)展, 2013, S2:180-186.HAN Z M, XU F M, DUAN D G. Probabilistic graphical model for identifying water army in microblogging system[J]. Journal of Computer Research and Development, 2013, S2:180-186.

        猜你喜歡
        水軍決策樹間隔
        “網(wǎng)絡(luò)水軍”作惡,該打!
        間隔問題
        一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
        間隔之謎
        決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        網(wǎng)絡(luò)水軍
        方圓(2017年12期)2017-07-17 17:50:26
        基于決策樹的出租車乘客出行目的識(shí)別
        水軍
        黃河之聲(2016年24期)2016-04-22 02:39:44
        基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
        水軍的前世今生
        久久久亚洲av波多野结衣| 国产麻豆一区二区三区在| 国产亚洲一区二区毛片| 无码国产精品色午夜| 久久人妻av不卡中文字幕| 日韩精品有码中文字幕| 亚洲中文字幕一区av| av黄色在线免费观看 | av区无码字幕中文色| 亚洲av网一区二区三区| www射我里面在线观看| 日产国产精品亚洲系列| 人妻在卧室被老板疯狂进入国产| 国产精品高清视亚洲乱码有限公司 | 欧美性受xxxx狂喷水| 日日澡夜夜澡人人高潮| 欧美白人最猛性xxxxx| 97欧美在线| 成人永久福利在线观看不卡| 一本久久综合亚洲鲁鲁五月夫| 国产精品一区二区三区三| 亚洲国产精品中文字幕久久| 久久久久亚洲精品无码网址蜜桃| 国产女主播喷水视频在线观看| 亚洲人成电影在线无码| 91福利精品老师国产自产在线| 在线免费午夜视频一区二区| 中文字幕一区二区三区日日骚| 欧美熟妇另类久久久久久多毛| 国产ww久久久久久久久久| 久久99精品国产99久久6男男| 欧美午夜精品久久久久久浪潮 | 二区三区视频在线观看| 男女上床免费视频网站| 久久综合伊人77777麻豆| 色综合久久精品亚洲国产| 精品三级久久久久久久电影| 五月天无码| 国产风骚主播视频一区二区| 美女视频在线观看亚洲色图| 婷婷丁香五月激情综合|