亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于交互行為的在線社會(huì)網(wǎng)絡(luò)水軍檢測(cè)方法

2015-01-06 01:08:12陳侃陳亮朱培棟熊岳山

通信學(xué)報(bào) 2015年7期

陳侃，陳亮，朱培棟，熊岳山

(國防科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)學(xué)院，湖南長(zhǎng)沙410073)

1 引言

網(wǎng)絡(luò)水軍出于政治或經(jīng)濟(jì)等目的對(duì)在線社會(huì)網(wǎng)絡(luò)中的信息進(jìn)行推廣，使目標(biāo)信息在極短的時(shí)間內(nèi)大范圍擴(kuò)散，同時(shí)利用數(shù)量?jī)?yōu)勢(shì)影響用戶對(duì)其真實(shí)性的判斷。根據(jù)內(nèi)容和功能的不同，常見目標(biāo)信息包括廣告、木馬和惡意鏈接、謠言等。廣告水軍以病毒營銷的方式發(fā)布目標(biāo)產(chǎn)品的不實(shí)描述，誘導(dǎo)用戶對(duì)產(chǎn)品真實(shí)質(zhì)量產(chǎn)生誤判。病毒、木馬和釣魚網(wǎng)站被隱藏在正常內(nèi)容中，或以中獎(jiǎng)等方式吸引用戶點(diǎn)擊，通過超鏈接重定向到惡意程序所在的頁面感染用戶。謠言傳播目的在于散布謠言并說服他人，不僅能夠引導(dǎo)社會(huì)輿論，還可能引發(fā)大范圍社會(huì)恐慌，甚至對(duì)國家安全和社會(huì)穩(wěn)定造成威脅[1]。近年來爆發(fā)了多起網(wǎng)絡(luò)造謠事件，例如“搶鹽風(fēng)波”[2]、“地震謠言”[3]等，對(duì)人民生活和社會(huì)治安造成嚴(yán)重困擾和威脅。

網(wǎng)絡(luò)水軍已成為工業(yè)界和學(xué)術(shù)界面臨的重要課題，多種網(wǎng)絡(luò)水軍檢測(cè)方法也被提出，如基于文本的方法[4]、基于黑名單的方法[5]和基于用戶特征[6]的方法等。其中基于文本的方法適用于具有明顯關(guān)鍵字的水軍信息，如廣告等；基于黑名單的方法適用于檢測(cè)包含惡意鏈接的水軍信息；基于用戶行為模式的方法適用于檢測(cè)具有明顯水軍特征的水軍用戶。這些檢測(cè)方法局限性在于都只能檢測(cè)單一種類的水軍，在海量信息的條件下為保證低漏檢率需要綜合使用，從而增加檢測(cè)的復(fù)雜性和時(shí)空耗費(fèi)。因此設(shè)計(jì)一個(gè)通用性的檢測(cè)方法具有重要意義。

本文提出了一種基于傳播交互的水軍檢測(cè)方法。在線社會(huì)網(wǎng)絡(luò)中，用戶交互是引起信息傳播的根本途徑。水軍雖然種類多樣，但在交互行為上具有共同特性，而且與正常用戶的交互行為表現(xiàn)出明顯差異，因此從傳播交互角度出發(fā)進(jìn)行檢測(cè)更具有通用性。

2 相關(guān)研究工作

近年來，隨著在線社會(huì)網(wǎng)絡(luò)的流行，網(wǎng)絡(luò)水軍越來越多地以在線社會(huì)網(wǎng)絡(luò)作為水軍活動(dòng)的主要平臺(tái)，知名網(wǎng)站如 Facebook、Twitter和 Myspace等都已經(jīng)成為了水軍活動(dòng)的重要場(chǎng)所[5～7]。其他諸如論壇[8]、視頻共享網(wǎng)站[9]、博客[10]等在內(nèi)的在線網(wǎng)絡(luò)也都已成為網(wǎng)絡(luò)水軍發(fā)動(dòng)水軍攻擊的平臺(tái)[11]。

水軍檢測(cè)可分為人員檢測(cè)和信息檢測(cè)，二者檢測(cè)對(duì)象不同。人員檢測(cè)針對(duì)水軍成員，信息檢測(cè)針對(duì)水軍傳播的信息。檢測(cè)的一般觀點(diǎn)是抽取特征，并利用特征分離水軍成員或水軍信息。

Irani通過用戶注冊(cè)信息對(duì)水軍成員進(jìn)行檢測(cè)[6]，這種方法使檢測(cè)可以在用戶注冊(cè)時(shí)進(jìn)行，但準(zhǔn)確性較低，水軍用戶也可以隨時(shí)更改信息逃避檢測(cè)。Benevenut使用SVM分類器對(duì)Twitter中網(wǎng)絡(luò)水軍進(jìn)行檢測(cè)[12]，使用的特征包括信息中包含鏈接的比例、用戶賬號(hào)使用時(shí)間、關(guān)注者的關(guān)注比例等。Wang利用Twitter中25 847個(gè)用戶信息對(duì)網(wǎng)絡(luò)水軍進(jìn)行檢測(cè)[13]，檢測(cè)特征包括關(guān)注與被關(guān)注度、轉(zhuǎn)發(fā)數(shù)量、雙向交互數(shù)量以及鏈接比例等。

信息檢測(cè)主要是根據(jù)信息內(nèi)容分析水軍特征，例如信息中鏈接特征以及基于自然語言處理的文本分類[14]。Zhang使用基于鏈接相似性的方法關(guān)聯(lián)水軍活動(dòng)[15]，并采用基于機(jī)器學(xué)習(xí)的方法對(duì)可能的水軍活動(dòng)進(jìn)行檢測(cè)。Blacklist方法利用知名的blacklist站點(diǎn)來檢測(cè)包含惡意鏈接的水軍信息。Gao使用此方法對(duì) Facebook留言墻中包含惡意鏈接的信息進(jìn)行分析[16]。Grier研究了Twitter傳播信息中的惡意鏈接[5]，結(jié)果表明Twitter上8%的鏈接都被重定向到惡意網(wǎng)站。他的工作還證明blacklist無法解決新的威脅，當(dāng)一個(gè)惡意鏈接被標(biāo)注為 blacklist之前已經(jīng)有超過90%的用戶被感染。文本內(nèi)容也是水軍檢測(cè)的重要特征。Raymond通過分析評(píng)論文本與正常用戶評(píng)論的差異來發(fā)現(xiàn)網(wǎng)絡(luò)水軍發(fā)布的虛假評(píng)論[4]。Chen利用回復(fù)、積極性及語義特征對(duì)新聞網(wǎng)絡(luò)上的網(wǎng)絡(luò)水軍信息進(jìn)行檢測(cè)，可以提供95%的檢測(cè)準(zhǔn)確率[17]。

當(dāng)前網(wǎng)絡(luò)水軍檢測(cè)的難點(diǎn)一方面在于檢測(cè)的準(zhǔn)確性有待提高，另一方面在于水軍種類多樣，賬號(hào)多變，而檢測(cè)方法大都只面向于單一種類的水軍，無法提供通用的檢測(cè)方案。為了保證檢測(cè)的準(zhǔn)確性需要同時(shí)使用多種檢測(cè)機(jī)制，造成系統(tǒng)復(fù)雜性的提升和計(jì)算量的增加。

3 基于交互行為的信息傳播模型

雇用網(wǎng)絡(luò)水軍的目的在于信息傳播，雇主將產(chǎn)品、言論或觀點(diǎn)在在線社會(huì)網(wǎng)絡(luò)中推廣，一方面需要增加信息傳播廣度，使其對(duì)更多用戶可見；另一方面需要增加信息可信度，從而能夠更好地影響用戶，這些都是通過用戶交互來實(shí)現(xiàn)的。

用戶交互是信息傳播的基本方式和根本動(dòng)力。根據(jù)平臺(tái)不同，交互類型也有不同，例如關(guān)注、轉(zhuǎn)發(fā)、評(píng)論、點(diǎn)贊、收藏等。其中關(guān)注、轉(zhuǎn)發(fā)和評(píng)論是在線社會(huì)網(wǎng)絡(luò)中通用的交互方式。

關(guān)注：A關(guān)注B之后，B新發(fā)布的信息會(huì)實(shí)時(shí)推送給A。

轉(zhuǎn)發(fā)：A轉(zhuǎn)發(fā)B的信息，該信息從B的頁面復(fù)制到A的頁面，引起信息傳播。

評(píng)論：A評(píng)論B的信息，評(píng)論內(nèi)容仍在B的頁面顯示，不會(huì)引起信息傳播，但會(huì)對(duì)信息可信性和說服力造成影響。

雖然水軍種類多樣，而且水軍賬號(hào)不斷變化，但從信息傳播的角度來看，無論水軍信息還是正常信息都有其固有的傳播模式。這些模式體現(xiàn)在用戶之間的交互上，從這3種交互行為入手對(duì)網(wǎng)絡(luò)水軍和正常用戶在信息傳播中的行為差異進(jìn)行分析，就能為水軍信息檢測(cè)提供通用性的檢測(cè)方案。

用F(u)、R(u)、C(u)分別表示用戶u的關(guān)注、轉(zhuǎn)發(fā)和評(píng)論集合。其中，F(xiàn)(u)是由其他用戶組成的無序集合；R和C中的元素為類似＜user,time＞的二元組，user代表發(fā)布信息的用戶，time為信息發(fā)布時(shí)間，集合按照time排序。

由于轉(zhuǎn)發(fā)和評(píng)論在行為上都表現(xiàn)為信息的再發(fā)布，行為表現(xiàn)和特征描述都具有相似性。為避免重復(fù)將轉(zhuǎn)發(fā)和評(píng)論通稱為傳播，傳播集合用D(u)表示。根據(jù)交互主體的不同，將傳播特征分為關(guān)注者-傳播者、發(fā)布者-傳播者、傳播者-傳播者3種類型。其關(guān)系如圖1所示。

圖1 基于交互行為的信息傳播模型

3.1 關(guān)注者-傳播者特征定義

信息傳播的前提是信息可見，在線社會(huì)網(wǎng)絡(luò)中用戶A發(fā)布的信息對(duì)用戶B可見的方式主要有以下幾種。

1)B關(guān)注A，B就可以實(shí)時(shí)獲得A的更新。由于在線社會(huì)網(wǎng)絡(luò)中推送機(jī)制的廣泛使用，新的信息發(fā)布后會(huì)立即推送給關(guān)注者。

2)B關(guān)注C，C轉(zhuǎn)發(fā)A的信息。那么B就可以通過C間接訪問到A發(fā)布的信息。B和A之間可能存在多跳。

3)B直接獲取A發(fā)布信息的鏈接，通過鏈接訪問。

通過觀察發(fā)現(xiàn)一般用戶主要通過前2種方式訪問信息，而網(wǎng)絡(luò)水軍則主要通過第3種方式訪問目標(biāo)信息。這是因?yàn)樗娕c雇主之間通常不存在直接的關(guān)注關(guān)系，只能通過雇主給出的鏈接進(jìn)行信息傳播。這使網(wǎng)絡(luò)水軍與正常用戶在關(guān)注-傳播關(guān)系上產(chǎn)生明顯差異。

定義傳播關(guān)系分布用來衡量傳播者與關(guān)注者之間的關(guān)系，用DR表示傳播關(guān)系分布，p為一條信息，u為信息發(fā)布者，DR的計(jì)算式為

其中，P(u)為用戶u發(fā)布的所有信息，|D(p)|表示集合D(p)的元素?cái)?shù)量。DR用來衡量傳播者同時(shí)也是關(guān)注者的比例，正常用戶主要通過關(guān)注關(guān)系獲取信息，而網(wǎng)絡(luò)水軍主要通過鏈接方式獲取信息，因此造成DR值的差異。

3.2 發(fā)布者-傳播者特征定義

發(fā)布者與傳播者之間進(jìn)行直接交互，從交互時(shí)間的角度定義了平均傳播時(shí)間（ADT）、首次傳播時(shí)間（FDT）和傳播啟動(dòng)時(shí)間（DST）3個(gè)特征。

1) 平均傳播時(shí)間

傳播時(shí)間為信息從發(fā)布到最末一次傳播的總時(shí)間，平均傳播時(shí)間用來描述每一條轉(zhuǎn)發(fā)/評(píng)論的平均持續(xù)時(shí)間。用ADT表示平均傳播時(shí)間，計(jì)算式為

其中，N=|D(p)|，由于D(p)是按照時(shí)間排序的，因此

網(wǎng)絡(luò)水軍通過完成雇主發(fā)布的傳播任務(wù)獲取報(bào)酬，而報(bào)酬是有限的，如果任務(wù)完成數(shù)量超出獎(jiǎng)勵(lì)限額就不會(huì)獲得報(bào)酬。因此網(wǎng)絡(luò)水軍期望在任務(wù)期限內(nèi)盡可能早地完成任務(wù)，而且任務(wù)完成數(shù)量一旦達(dá)到限額就不會(huì)再對(duì)信息進(jìn)行傳播。正常信息的傳播僅受限于用戶的使用習(xí)慣，傳播時(shí)間與傳播范圍都沒有具體的界限。

2) 首次傳播時(shí)間

首次傳播時(shí)間用來描述從信息發(fā)布到獲得第一條轉(zhuǎn)發(fā)/評(píng)論所等待的時(shí)間，用FDT表示首次傳播時(shí)間，計(jì)算式為

其中，d1為D(p)中第一個(gè)元素。

由于消息實(shí)時(shí)推送機(jī)制的廣泛使用以及移動(dòng)終端應(yīng)用的大力推廣，很多在線社會(huì)網(wǎng)絡(luò)都具有“類實(shí)時(shí)”特性，用戶之間能夠以近似實(shí)時(shí)的方式進(jìn)行交互，信息也能夠在第一時(shí)間被關(guān)注者傳播。而網(wǎng)絡(luò)水軍訪問目標(biāo)信息的方式通常不是通過對(duì)被關(guān)注者的推送，而是通過給定的鏈接，因此難以體現(xiàn)出實(shí)時(shí)特性。同時(shí)水軍活動(dòng)任務(wù)的發(fā)布、接受、和實(shí)施都需要耗費(fèi)一定的時(shí)間，使水軍信息的首次傳播時(shí)間比正常信息更長(zhǎng)。

3) 傳播啟動(dòng)時(shí)間

傳播啟動(dòng)時(shí)間用來描述一條信息變“可信”所需要的時(shí)間。當(dāng)一條信息的轉(zhuǎn)發(fā)和評(píng)論量達(dá)到一定程度時(shí)，能夠吸引更多用戶關(guān)注并影響用戶對(duì)信息內(nèi)容的判斷。用DST表示傳播啟動(dòng)時(shí)間，計(jì)算式為

其中，m為可信參數(shù)，用來描述一條信息產(chǎn)生影響力所需要的轉(zhuǎn)發(fā)/評(píng)論的數(shù)量。本文中定義m=1 000。即認(rèn)為一條信息的轉(zhuǎn)發(fā)/評(píng)論量超過1 000就能對(duì)用戶判斷產(chǎn)生影響。

3.3 傳播者-傳播者特征定義

傳播者與傳播者之間并沒有或很少直接交互，只是在與發(fā)布者交互時(shí)產(chǎn)生時(shí)序關(guān)系。對(duì)該時(shí)序關(guān)系進(jìn)行分析可以更好地理解傳播者參與的積極性和行為規(guī)律。從傳播者-傳播者角度定義了平均傳播間隔（ADI）和傳播間隔方差（VDI）2個(gè)特征。

1) 平均傳播間隔

傳播時(shí)間間隔為每?jī)蓷l相鄰信息之間的時(shí)間間隔，平均傳播間隔為所有傳播時(shí)間間隔的均值。其計(jì)算式為

由于水軍行為多集中在短時(shí)間之內(nèi)進(jìn)行，呈現(xiàn)出突發(fā)特性，因此每2條相鄰信息之間的時(shí)間間隔都很小。而正常用戶發(fā)布的信息出于個(gè)人使用習(xí)慣的差異，時(shí)間間隔相對(duì)更大。

2) 傳播間隔方差

傳播間隔方差為所有的傳播間隔之間的方差，用來描述一條信息的所有轉(zhuǎn)發(fā)或評(píng)論的時(shí)間間隔的差異程度，計(jì)算方法為

水軍行為的突發(fā)性不僅表現(xiàn)在時(shí)間間隔短，而且間隔分布也處于一個(gè)相對(duì)較小的范圍內(nèi)。而普通用戶的轉(zhuǎn)發(fā)和評(píng)論受訪問習(xí)慣的影響表現(xiàn)出更大的差異性。

4 基于決策樹的水軍檢測(cè)方法

將網(wǎng)絡(luò)水軍檢測(cè)問題看作二分類問題，設(shè)P為在線社會(huì)網(wǎng)絡(luò)中所有信息集合，P= {PsUPn}，其中，Ps為網(wǎng)絡(luò)水軍推廣的信息集合，Pn為正常信息集合。設(shè)p為一條信息,使用特征向量表示為目標(biāo)函數(shù)為，其中，φ(p)為二分類函數(shù)，網(wǎng)絡(luò)水軍檢測(cè)即發(fā)現(xiàn)信息p是否屬于集合Ps。

針對(duì)二分類問題當(dāng)前已經(jīng)有多種方案，例如決策樹、SVM、Bayes、神經(jīng)網(wǎng)絡(luò)方法等。分類流程包括訓(xùn)練和分類2部分，訓(xùn)練過程通過特征選取和分類訓(xùn)練構(gòu)造分類器，分類過程使用分類器對(duì)新的樣本實(shí)現(xiàn)分類。本文選取決策樹C5算法作為分類檢測(cè)算法。C5算法采用Boosting方式提高模型準(zhǔn)確率，更適合在線社會(huì)網(wǎng)絡(luò)這類數(shù)據(jù)量較大的場(chǎng)景。

決策樹的根節(jié)點(diǎn)為數(shù)據(jù)樣本集，分支節(jié)點(diǎn)對(duì)應(yīng)著對(duì)單一屬性的測(cè)試，該測(cè)試將數(shù)據(jù)空間分割為多個(gè)子集。每條分支對(duì)應(yīng)該屬性的不同屬性值，而葉節(jié)點(diǎn)是帶有分類標(biāo)記的樣本集分割。決策樹需要使用訓(xùn)練集構(gòu)建，然后實(shí)現(xiàn)對(duì)新樣本的分類檢測(cè)。

首先定義相關(guān)概念如下。

信息熵：在樣本集S中，依據(jù)目標(biāo)屬性（是否為水軍信息）將S分為NS和SS這2個(gè)子集，則S的信息熵計(jì)算為

信息增益：屬性D的信息增益Gain(Di)計(jì)算為

信息增益比率：屬性D的信息增益比率計(jì)算為

借助各屬性的信息增益比率構(gòu)建檢測(cè)決策樹。設(shè)訓(xùn)練數(shù)據(jù)集S=D1D2D3D4D5D6為6維向量空間，其中，Di(1≤i≤6)分別對(duì)應(yīng)模型中定義的6種特征。決策樹構(gòu)建算法如下。

算法1基于傳播特征的決策樹構(gòu)建算法

輸入訓(xùn)練數(shù)據(jù)集S

輸出決策樹DT

1) 初始化，設(shè)t=S為DT的根節(jié)點(diǎn)。

2) 計(jì)算當(dāng)前樣本節(jié)點(diǎn)t的信息熵，以及t中每個(gè)特征屬性Di的信息增益比率GainRatio(Di)。

3) 令Dk=max{GainRatio(Di)}，根據(jù)Dk的取值將t劃分為m個(gè)子集，每個(gè)子集為t的一個(gè)分支，對(duì)應(yīng)一個(gè)新的決策樹節(jié)點(diǎn)。

4) 依次設(shè)每個(gè)新的決策樹節(jié)點(diǎn)為當(dāng)前樣本節(jié)點(diǎn)，重復(fù)步驟 2)～4)，直到所有新樣本節(jié)點(diǎn)中的樣本滿足：①都屬于同一目標(biāo)類；②所有屬性都處理完畢；③樣本的剩余屬性取值完全相同。并將這樣的節(jié)點(diǎn)標(biāo)記為葉節(jié)點(diǎn)。

5) 用所有葉節(jié)點(diǎn)中占多數(shù)的目標(biāo)分類屬性值來標(biāo)記該葉節(jié)點(diǎn)，決策樹構(gòu)建完成，返回DT。

構(gòu)造成功之后，就可以使用決策樹對(duì)新的樣本值進(jìn)行目標(biāo)屬性的分類檢測(cè)。從決策樹的根節(jié)點(diǎn)開始，測(cè)試比較這個(gè)節(jié)點(diǎn)對(duì)應(yīng)的屬性值，然后選擇正確分支向葉節(jié)點(diǎn)移動(dòng)，重復(fù)比較和分支過程，直到到達(dá)葉節(jié)點(diǎn)，葉節(jié)點(diǎn)的類別屬性即為最終的分類檢測(cè)結(jié)果。

5 實(shí)驗(yàn)和分析

5.1 數(shù)據(jù)準(zhǔn)備

從新浪微博中抓取真實(shí)數(shù)據(jù)分析傳播特征。水軍活動(dòng)以很多方式存在，如廣告水軍、意見水軍、木馬病毒水軍等。盡管內(nèi)容和功能各有不同，但都以同樣的方式被組織和傳播。其中廣告水軍更常見也更容易區(qū)分，因此使用廣告水軍作為原型來分析其傳播特征。

首先通過人工方式對(duì)新浪微博中的水軍廣告進(jìn)行標(biāo)注，然后提取這些廣告信息中的關(guān)鍵字。利用新浪微博提供的搜索引擎使用這些關(guān)鍵字進(jìn)行搜索，并保存搜索結(jié)果。

一般地，很多用戶在看到廣告時(shí)會(huì)選擇忽略，極少參與轉(zhuǎn)發(fā)或評(píng)論。在搜索結(jié)果中，80%的廣告微博的轉(zhuǎn)發(fā)和評(píng)論次數(shù)少于10次，大多數(shù)為0次。此外約10%的微博具有很高的轉(zhuǎn)發(fā)和評(píng)論量，認(rèn)為它們較大概率來自于網(wǎng)絡(luò)水軍。過濾掉少于100次評(píng)論和轉(zhuǎn)發(fā)的微博，最后得到1 424條水軍數(shù)據(jù)集。

為了與水軍數(shù)據(jù)進(jìn)行對(duì)比，還搜集了正常用戶的微博數(shù)據(jù)。采用手動(dòng)方式挑選一些較小概率雇用網(wǎng)絡(luò)水軍的用戶，選取方式是：①熟悉的用戶，如朋友或老師；②教育或科學(xué)界的知名人士。選擇教育或科學(xué)界人士是因?yàn)檎J(rèn)為相比其他行業(yè)，這些用戶更小概率會(huì)雇用網(wǎng)絡(luò)水軍。抓取了這些用戶在 4月1日到4月14日之間的所有微博。同樣過濾掉少于100次評(píng)論和轉(zhuǎn)發(fā)的微博，最后得到1 687條正常數(shù)據(jù)集。

5.2 傳播特征統(tǒng)計(jì)分析

使用抓取到的數(shù)據(jù)集對(duì)水軍用戶和正常用戶的傳播特征進(jìn)行分析，各項(xiàng)特征的累積分布如圖 2所示。

圖2給出了傳播關(guān)系分布（DR）特征的累積分布，可看出水軍信息的特征值遠(yuǎn)小于正常信息的特征值。在轉(zhuǎn)發(fā)特征圖中，80%的水軍信息的DR值小于 0.2，說明 80%的水軍信息中，由關(guān)注者給出的轉(zhuǎn)發(fā)不到總量的20%。與之形成對(duì)比的是約80%的正常信息的DR值大于0.2。這一對(duì)比在評(píng)論特征圖中更加明顯，80%的水軍信息的DR值小于0.1，說明80%的水軍信息中，僅有不到10%的轉(zhuǎn)發(fā)和評(píng)論來自于關(guān)注者。這一分布證明了正常信息的轉(zhuǎn)發(fā)和評(píng)論主要來源于關(guān)注者，而水軍信息的轉(zhuǎn)發(fā)和評(píng)論主要來源于陌生人。

圖2 基于轉(zhuǎn)發(fā)和評(píng)論的DR累積分布

圖3給出了平均傳播時(shí)間的累積分布，從圖中可以看出，80%的水軍轉(zhuǎn)發(fā)信息平均持續(xù)時(shí)間少于20 min，而90%的正常用戶的平均持續(xù)時(shí)間都大于20 min。此外，80%的水軍評(píng)論信息平均持續(xù)時(shí)間少于30 min，相同時(shí)間下正常評(píng)論信息只有不到5%。

圖4給出了首次傳播時(shí)間的累積分布，可以看出水軍和正常信息在FDT上分布差異性明顯。約90%以上的正常信息都可以在10 min之內(nèi)獲取到第一條轉(zhuǎn)發(fā)和評(píng)論。而在相同時(shí)間之內(nèi)，水軍信息中只有10%能夠獲取到第一條轉(zhuǎn)發(fā)，18%能獲取到第一條評(píng)論。在1 min內(nèi)，約45%的正常信息可以獲得第一條轉(zhuǎn)發(fā)和評(píng)論，而水軍信息中只有2%可以獲得第一條轉(zhuǎn)發(fā)，7%獲得第一條評(píng)論。

圖3 基于轉(zhuǎn)發(fā)和評(píng)論的ADT累積分布

圖4 基于轉(zhuǎn)發(fā)和評(píng)論的FDT累積分布

圖5給出了傳播啟動(dòng)時(shí)間的累積分布。從圖中可看出正常信息的啟動(dòng)時(shí)間一般小于水軍信息。60%的正常信息的轉(zhuǎn)發(fā)啟動(dòng)時(shí)間小于200 min，該時(shí)間之內(nèi)只有20%的水軍信息獲得應(yīng)有的轉(zhuǎn)發(fā)。DST特征的差異性不如其他特征明顯，評(píng)論特征更為相近。

圖5 基于轉(zhuǎn)發(fā)和評(píng)論的DST累積分布

圖6給出了平均傳播間隔的累計(jì)分布。從數(shù)量上看，水軍信息的平均傳播間隔小于正常信息。60%的水軍轉(zhuǎn)發(fā)和評(píng)論間隔都小于10 min，而在此范圍內(nèi)的正常信息不到 10%。此外 25%的水軍轉(zhuǎn)發(fā)和35%的水軍評(píng)論的平均傳播間隔都在1 min之內(nèi)，這證明了水軍信息轉(zhuǎn)發(fā)和評(píng)論時(shí)的突發(fā)特性。

圖6 基于轉(zhuǎn)發(fā)和評(píng)論的ADI累積分布

圖7給出了傳播間隔方差的累計(jì)分布。水軍信息傳播間隔的方差更小，說明水軍信息的傳播間隔之間的差異性更小。原因是水軍信息的突發(fā)特性使時(shí)間間隔都相對(duì)集中在一個(gè)小范圍內(nèi)，而正常信息受用戶使用習(xí)慣的影響差異性更大。

5.3 檢測(cè)結(jié)果

將數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集，比例為7:3。按照算法1的描述對(duì)訓(xùn)練集進(jìn)行分類訓(xùn)練，得到?jīng)Q策樹如圖8所示。利用該樹可以直接進(jìn)行水軍檢測(cè)。

圖7 基于轉(zhuǎn)發(fā)和評(píng)論的VDI累積分布

圖8 基于交互行為特征的水軍檢測(cè)決策樹

使用測(cè)試集對(duì)決策樹檢測(cè)方法的有效性進(jìn)行驗(yàn)證，并同時(shí)對(duì)比了SVM算法以及神經(jīng)網(wǎng)絡(luò)的RBF算法，驗(yàn)證結(jié)果如表1所示。

表1 檢測(cè)方法結(jié)果對(duì)比

結(jié)果表明本文的決策樹算法在基于傳播模型的網(wǎng)絡(luò)水軍檢測(cè)方面具有明顯優(yōu)勢(shì)，準(zhǔn)確率和召回率都高于其他2種方法。其中，SVM算法可以提供較高的準(zhǔn)確率，但召回率難以保證，漏檢率較高。RBF算法的召回率有所提升，但仍大幅度低于決策樹算法。從綜合評(píng)價(jià)來看，決策樹算法性能最優(yōu)，其次是RBF算法，SVM算法由于召回率過低因此性能最差。

文獻(xiàn)[18]使用概念圖模型對(duì)新浪微博中的水軍進(jìn)行檢測(cè)，基于平臺(tái)和檢測(cè)對(duì)象的相似性，使用它作為參考與本文的檢測(cè)方法進(jìn)行對(duì)比，結(jié)果如表 2所示?？梢钥闯觯瑹o論是在準(zhǔn)確率、召回率還是綜合評(píng)價(jià)上，本文的檢測(cè)方法都表現(xiàn)出明顯優(yōu)勢(shì)。這也證明了本文方法能夠有效且準(zhǔn)確地對(duì)水軍進(jìn)行檢測(cè)。

表2 檢測(cè)結(jié)果對(duì)比

對(duì)檢測(cè)算法中各特征的重要性進(jìn)行了分析，結(jié)果如圖9所示。重要性按由高到低的順序排名依次是FDT＞DR＞ADI＞ADT＞VDI＞DST。

圖9 特征重要性評(píng)估

檢測(cè)結(jié)果的高準(zhǔn)確性證明了傳播模型中特征選取的有效性，說明本文定義的特征能夠準(zhǔn)確描述網(wǎng)絡(luò)水軍和正常用戶行為和傳播過程的差異。正常用戶可以根據(jù)關(guān)注關(guān)系實(shí)時(shí)獲取更新提醒，而網(wǎng)絡(luò)水軍需要跟蹤雇主發(fā)布的任務(wù)進(jìn)行消息傳播。正常用戶對(duì)信息的訪問和傳播基于自己的日常習(xí)慣，而網(wǎng)絡(luò)水軍的消息傳播依賴于任務(wù)發(fā)布時(shí)間和任務(wù)限額。

6 結(jié)束語

本文提出了基于交互行為的信息傳播模型，從交互關(guān)系的角度定義了3種6個(gè)特征對(duì)傳播行為進(jìn)行量化。在此模型之下利用決策樹算法對(duì)網(wǎng)絡(luò)水軍傳播的信息進(jìn)行檢測(cè)。利用新浪微博的真實(shí)數(shù)據(jù)對(duì)傳播模型進(jìn)行分析并驗(yàn)證檢測(cè)方法的有效性，結(jié)果表明本文的方法可以高效地檢測(cè)出網(wǎng)絡(luò)水軍。盡管網(wǎng)絡(luò)水軍在種類功能方面各有差異，但傳播行為上的共性使得本文的檢測(cè)方法更具有通用性，可以適用于多場(chǎng)景下的水軍檢測(cè)。

[1] http://news.ifeng.com/opinion/special/wangluoshuijun/[EB/OL].

[2] http://zh.wikipedia.org/zh-cn/%E7%9B%B2%E6%8%A2%E7%9B%90%E4%BA%8B%E4%BB%B6[EB/OL].

[3] http://qcyn.sina.com.cn/news/ynyw/2011/1205/01134061411.html[EB/OL].

[4] RAYMOND Y K, STEPHEN L, LIAO S Y. Text mining and probabilistic language modeling for online review spam detection[J]. ACM Trans Management Inf Syst, 2011,2(4):25.

[5] GRIER C, THOMAS K, PAXSON V,et al. @spam: the underground on 140 characters or less[A]. Proceedings of the 17th ACM Conference on Computer and Communications Security[C]. Chicago, Illinois, USA, 2010. 27-37.

[6] IRANI D, WEBB S, PU C. Study of static classification of social spam profiles in MySpace[A]. ICWSM[C]. 2010.

[7] THOMAS K, GRIER C, SONG D,et al. Suspended accounts in retrospect: an analysis of twitter spam[A]. Proceedings of the 2011 ACM SIGCOMM Conference on Internet Measurement Conference[C].Berlin, Germany, 2011. 243-258.

[8] SHIN Y, GUPTA M, MYERS S. Prevalence and mitigation of forum spamming[A]. IEEE INFOCOM 2011[C]. 2011. 2309-2317.

[9] BENEVENUTO F, RODRIGUES T, ALMEIDA V,et al. Identifying video spammers in online social networks[A]. Proceedings of the 4th International Workshop on Adversarial Information Retrieval on the Web[C]. Beijing, China, 2008. 45-52.

[10] RAJADESINGAN A. MAHENDRAN A. Comment spam classi-fication in blogs through comment analysis and comment-blog post relationships[A]. Proceedings of the 13th International Conference on Computational Linguistics and Intelligent Text Processing-Volume Part II[C]. New Delhi, India: Springer-Verlag,2012.490-501.

[11] HEYMANN P, KOUTRIKA G, GARCIA-MOLINA H. Fighting spam on social Web sites: a survey of approaches and future challenges[J].IEEE Internet Computing, 2007, 11(6):36-45.

[12] BENEVENUTO F, MAGNO G, RODRIGUES T,et al. Detecting spammers on twitter[A]. CEAS[C]. 2010.

[13] WANG A H. Detecting spam bots in online social networking sites: a machine learning approach[A]. Data and Applications Security and Privacy, 25th Anunual IFIP WG11.3 Conference[C]. 2010. 335-342.

[14] 蘇金樹, 張博鋒, 徐昕等. 基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展[J]. 軟件學(xué)報(bào), 2006, 19(9):1848-1859.SU J S, ZHANG B F, XU X,et al. Advances in machine learning based text categorization[J]. Journal of Software, 2006, 19(9):1848-1859.

[15] ZHANG X, ZHU S, LIANG W. Detecting spam and promoting campaigns in the Twitter social network[A]. The 12th IEEE International Conference on Data Mining[C]. 2012.1194-1199.

[16] GAO H, HU J, WILSON C,et al. Detecting and characterizing social spam campaigns[A]. The 10th ACM SIGCOMM Conference on Internet Measurement[C]. Melbourne, Australia, 2010.

[17] CHEN C, WU K, SRINIVASAN V,et al. Battling the internet water army: detection of hidden paid posters[EB/OL]. arXiv preprint ar-Xiv:1111.4297v1[cs.SI]. 2011.

[18] 韓忠明等. 面向微博的概率圖水軍識(shí)別模型[J]. 計(jì)算機(jī)研究與發(fā)展, 2013, S2:180-186.HAN Z M, XU F M, DUAN D G. Probabilistic graphical model for identifying water army in microblogging system[J]. Journal of Computer Research and Development, 2013, S2:180-186.