王淑琪,王未央
(上海海事大學(xué)信息工程學(xué)院,上海 201306)
網(wǎng)絡(luò)技術(shù)深入千家萬戶,互聯(lián)網(wǎng)社交平臺隨之蓬勃發(fā)展。不管是國外的Twitter、Facebook,還是國內(nèi)的微博、QQ,這些社交應(yīng)用已成為每個互聯(lián)網(wǎng)用戶的必備軟件。在閑暇時,人們登錄社交軟件,或與親朋好友聯(lián)系感情,或觀察網(wǎng)絡(luò)中發(fā)生的各種事件。人們享受于社交平臺便捷性和及時性。然而,網(wǎng)絡(luò)水軍的發(fā)展卻使得社交平臺信息的真實性發(fā)生轉(zhuǎn)變。網(wǎng)絡(luò)水軍是一群網(wǎng)絡(luò)中針對特定內(nèi)容發(fā)布特定信息的、被雇傭的網(wǎng)絡(luò)槍手。他們混跡于貼吧、論壇、微博等各個社交平臺,當(dāng)受到有心人士雇傭,他們便會偽裝成普通用戶對目標(biāo)內(nèi)容進(jìn)行回復(fù)、評論和傳播,以此對正常用戶產(chǎn)生影響。
社交網(wǎng)絡(luò)平臺上廣大的用戶群體所隱藏的巨大商機,催生了網(wǎng)絡(luò)水軍這一灰色產(chǎn)業(yè)的發(fā)展。他們利用微博輿論,發(fā)布廣告,傳播虛假信息,劫持熱門話題,更有甚者帶動敏感話題,刺激激動的網(wǎng)絡(luò)用戶造成惡劣的社會影響。時至今日,由網(wǎng)絡(luò)水軍策劃、炒熱的微博事件屢見不鮮。為遏制網(wǎng)絡(luò)水軍的發(fā)展,及時制止網(wǎng)絡(luò)水軍造成的惡劣影響,識別出隱藏在數(shù)以萬計的普通用戶中的網(wǎng)絡(luò)水軍已成當(dāng)務(wù)之急。
本文主要對微博網(wǎng)絡(luò)水軍賬號的識別做出研究。網(wǎng)絡(luò)水軍作為大量水軍賬號構(gòu)成的群體,其基礎(chǔ)就是賬號本身,故此本文提取出所有微博賬號信息,劃分出粉絲數(shù)、關(guān)注數(shù)、粉絲關(guān)注比,平均微博數(shù)、信息完整度、勛章數(shù)、陽光信用度等七大特征屬性,利用支持向量機進(jìn)行模型建立,從而將模型用于微博網(wǎng)絡(luò)水軍識別。
識別網(wǎng)絡(luò)水軍的方法主要有基于內(nèi)容特征、用戶特征、環(huán)境特征和綜合特征四個方向的研究。在網(wǎng)絡(luò)水軍發(fā)展早期,網(wǎng)絡(luò)水軍主要利用郵件進(jìn)行運作,其產(chǎn)生的郵件內(nèi)容易于識別、容易處理,主要采用文本分類[2]、文本情感分析[3]以及文本傾向性[4]等方法。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,用戶意識開始提高,傳統(tǒng)的網(wǎng)絡(luò)水軍不再能給網(wǎng)絡(luò)用戶造成影響,新型網(wǎng)絡(luò)水軍開始滋生,他們的行為趨向于正常用戶,發(fā)布內(nèi)容不再有顯著特征,這使得傳統(tǒng)的依靠內(nèi)容特征識別方法不再有效,相關(guān)學(xué)者基于此事實開始對網(wǎng)絡(luò)水軍的用戶特征進(jìn)行分析。Ghosh等人[5]通過在Twitter中識別一組垃圾郵件賬戶并監(jiān)控其鏈接創(chuàng)建策略來分析當(dāng)前垃圾郵件發(fā)送者在線社交網(wǎng)絡(luò)中采用的策略。除了對網(wǎng)絡(luò)水軍的用戶特征分析外,相關(guān)學(xué)者另辟蹊徑,從網(wǎng)絡(luò)自身環(huán)境特征來分析網(wǎng)絡(luò)水軍特點。Las-Casas等人[6]提出了一種在源網(wǎng)絡(luò)中檢測垃圾郵件發(fā)送者的新方法,使用從巴西寬帶ISP收集的實際數(shù)據(jù)集采用監(jiān)督分類計數(shù)來進(jìn)行水軍識別。基于綜合特征的網(wǎng)絡(luò)水軍識別的方法是為了彌補特定類型網(wǎng)絡(luò)水軍識別方法無法全面分析而誕生的。
目前,國內(nèi)對微博平臺網(wǎng)絡(luò)水軍的識別方法研究有限。張良等人[7]利用累計分布函數(shù)提取用戶特征屬性,利用邏輯回歸算法建立識別水軍模型。袁旭萍等人[8]使用熵值法確定指標(biāo)權(quán)重,采用綜合指數(shù)和熵值法確立微博水軍自動識別模型。程曉濤等人[9]利用水軍用戶無法改變與網(wǎng)絡(luò)中正常用戶的鏈接關(guān)系,采用了基于用戶關(guān)系圖特征的微博水軍賬號識別方法。諸如以上研究均是從對用戶賬號信息的特征屬性提取入手,但其算法對用戶賬號信息提取不全面,在網(wǎng)絡(luò)水軍行為逐漸趨于正常用戶的條件下,仍然不能全面識別微博水軍。
通過對以往微博網(wǎng)絡(luò)水軍識別方法的對比研究發(fā)現(xiàn),這些研究一般從用戶信息和用戶行為信息兩方面提取特征屬性,用戶信息方面簡單提取基本信息,用戶行為信息一般提取微博內(nèi)容的URL率和文本自相似度。在特征提取這方面,以往研究用戶信息提取不全,用戶行為信息提取單一,而隨著網(wǎng)絡(luò)水軍運轉(zhuǎn)方式轉(zhuǎn)變,不再單純的以發(fā)布廣告和惡意鏈接的方式運營,其賬號背后有水軍操作而變得越來越隱藏化、用戶化,提取URL率和文本自相似度這兩條屬性已不再適合。故此,本文將提取出用戶賬號所具有的全部累計信息,經(jīng)過相關(guān)整理篩選得出有效的網(wǎng)絡(luò)水軍特征屬性。
粉絲數(shù):該用戶賬號被其他用戶賬號關(guān)注總數(shù)。由于水軍賬號一般為完成雇主任務(wù)而產(chǎn)生,此賬號上一般和其他用戶不具有交互性,排除被正常用戶意外關(guān)注,水軍賬號的粉絲數(shù)一般比正常用戶粉絲數(shù)少。
關(guān)注數(shù):該用戶關(guān)注其他用戶賬號總數(shù)。網(wǎng)絡(luò)水軍的灰色產(chǎn)業(yè)鏈下存在粉絲數(shù)買賣的情況,即有正常用戶為滿足其高關(guān)注度的要求,購買僵尸粉對自身關(guān)注,從而提高用戶的粉絲數(shù)。另外,由于水軍接受各個雇主任務(wù),需要關(guān)注各類熱點話題,其本身就要對大量賬號進(jìn)行關(guān)注。綜上兩種情況,水軍賬號的關(guān)注數(shù)要遠(yuǎn)遠(yuǎn)高于正常用戶的關(guān)注數(shù)。
粉絲關(guān)注比:每個用戶的粉絲數(shù)同其關(guān)注數(shù)的比值。為了排除個別正常用戶因為特別需要而產(chǎn)生的低粉絲數(shù)或高關(guān)注數(shù)的情況,采用用戶粉絲數(shù)與關(guān)注數(shù)的比值可以更好地區(qū)分水軍和正常用戶,即粉絲關(guān)注比越高,該用戶越可能是認(rèn)證用戶,粉絲關(guān)注比越低,則可能是水軍賬號。其公式如下:
微博數(shù):用戶賬號已經(jīng)發(fā)布的微博總數(shù)。水軍賬號在進(jìn)行制造和傳播輿論時,會大量的發(fā)布和轉(zhuǎn)發(fā)相關(guān)微博,而正常用戶一般只會因為某些事件而發(fā)布微博作為傾述或吐槽需要,不會大量發(fā)布微博,故而水軍用戶的微博數(shù)量比正常用戶要多得多。
平均微博數(shù):自創(chuàng)建微博賬號起,該用戶賬號平均每天發(fā)布的微博數(shù)。
資料完善度:此為綜合評價指標(biāo),其中包括性別、生日、所在地、QQ、大學(xué)、工作經(jīng)歷六個基本資料,每個小指標(biāo)填寫則為1,不填寫則為0。資料完善度為各小指標(biāo)的加和總值。
是否有簡介:由用戶手動編寫,方便其他用戶了解該賬號用戶,具有極強的個性化。簡介填寫則該指標(biāo)為1,沒有則為0。
標(biāo)簽數(shù):標(biāo)簽是用戶為讓更多志趣相同之人找到自己的個性化描述詞語,如校園生活、讀書分享等。標(biāo)簽數(shù)多少則反應(yīng)該用戶興趣廣泛程度和其活躍度。
微博等級:微博等級是用戶活躍和榮譽的見證。隨著用戶在微博上的探索和成長,等級會隨之增加。
勛章個數(shù):勛章是用戶參與微博上各類活動所授予的圖標(biāo)。其個數(shù)能反應(yīng)該用戶的活躍程度。
會員信息:用戶為獲得微博特權(quán)服務(wù)而付費開通的標(biāo)志,微博會員等級為1-7級。
陽光信用:微博陽光信用致力于成為自然人網(wǎng)絡(luò)身份的一個固有價值屬性。它結(jié)合了用戶的發(fā)言歷史、活躍度、違規(guī)記錄、商業(yè)記錄、實名以及社交關(guān)系等行為,是微博用戶在網(wǎng)絡(luò)上陽光討論、積極表達(dá)、理性交流的衡量標(biāo)尺。陽光信用劃分為5個等級,等級越高信用極好,等級越低信用極低。
網(wǎng)絡(luò)水軍識別實際上是一個二分類問題,以微博平臺所有用戶為一個大集合,所有用戶的行為模式基本類似,因此對單個用戶賬號的判別只有兩種情況,一種是網(wǎng)絡(luò)水軍,一種不是網(wǎng)絡(luò)水軍。設(shè)U為微博用戶集合,Uy為網(wǎng)絡(luò)水軍集合,Un為非網(wǎng)絡(luò)水軍集合,則U={Uy,Un}。設(shè) x為用戶特征向量,則 x={x1,x2,…,xi,…,xn},其中xi表示上一節(jié)提到的各個用戶特征屬性。存在一個目標(biāo)函數(shù)F,使得,即目標(biāo)函數(shù) F→{0,1}的映射。當(dāng)F(x)=1時,表示該特征向量標(biāo)志的用戶信息屬于水軍集合,反之,F(xiàn)(x)=0,則表示屬于正常用戶集合。
支持向量機是由Corinna Cortes和Vapnik在1995年提出的一種前饋類型網(wǎng)絡(luò)的傳統(tǒng)機器學(xué)習(xí)分類算法,它以訓(xùn)練誤差作為優(yōu)化問題的約束條件,以置信范圍值最小化作為優(yōu)化目標(biāo),即SVM是一種結(jié)構(gòu)風(fēng)險最小化準(zhǔn)則的學(xué)習(xí)方法。
SVM的工作原理便是將原始數(shù)據(jù)通過變換映射到高緯度特征空間,這樣即使數(shù)據(jù)不是線性可分,也可以對數(shù)據(jù)點進(jìn)行分類,然后使用變換后的新數(shù)據(jù)進(jìn)行預(yù)測分類。
從線性可分模式分類角度來理解,SVM的主要思想是建立一個最優(yōu)決策超平面,使得該平面兩側(cè)平面最近的兩類樣本之間的距離最大化,從而對分類問題提供良好的泛化能力。
定義1最優(yōu)超平面有n個線性可分樣本{(x1,y1),(x2,y2),…,(xn,yn)},對于任意輸入樣本 xi,期望輸出 yi=±1(代表兩類類別標(biāo)志)。用于分類的超平面方程為wTx+b=0,其中,x為輸入向量,w為權(quán)值,b為偏置,則有wTx+b>0,y=+1;wTx+b<0,y=-1。
超平面與最近的樣本點之間的間隔成為分離邊緣,支持向量機的目標(biāo)是找到一個分離邊緣最大的超平面,即最優(yōu)超平面,也就是要確定分離邊緣最大時w和b的值。這樣,分離邊緣最大化等價于使權(quán)值向量范數(shù)‖w‖最小化。通過對一個復(fù)雜的最優(yōu)化問題的求解簡化為對原有樣本數(shù)據(jù)的內(nèi)積運算。在d(wTx+b)≥1的約束下,可得最小化代價函數(shù):
該約束優(yōu)化問題的代價函數(shù)是w的凸函數(shù),且關(guān)于w的約束條件是線性,因此可用langrange系數(shù)方程解決約束最優(yōu)問題。
而對于復(fù)雜的模式分類問題非線性地投射到高位特征空間可能是線性可分的,因此只要特征空間的維數(shù)足夠高,則原始模式空間能變換為一個新的高位特征空間,使得在特征空間中模式以較高的概率為線性可分的,這樣就可以解決非線性可分?jǐn)?shù)據(jù)的分類問題。
然而,如何將低位空間向量集映射到高位空間?這邊涉及到SVM的關(guān)鍵,核函數(shù)的選擇。核函數(shù)可以巧妙地解決計算復(fù)雜度的問題,只要選用適當(dāng)?shù)暮撕瘮?shù),就可以得到高維空間的分類函數(shù),采用不同的核函數(shù)得到不同的SVM算法。常見的核函數(shù)類型有以下幾種:
(1)線性核函數(shù):K(x,xi)=x·xi
(2)多項式核函數(shù):K(x,xi)=((x·xi)+1)d
(4)Sigmoid 核函數(shù):K(x,xi)=tanh(κ(x,xi)-δ)
其中,RBF核主要用于線性不可分的情形,適用于參數(shù)多,分類結(jié)果非常依賴于參數(shù)的實際問題。根據(jù)微博數(shù)據(jù)特征屬性特點,本文選擇RBF核解決數(shù)據(jù)分類問題。
為獲取實驗相關(guān)數(shù)據(jù),需要對大量用戶數(shù)據(jù)進(jìn)行收集處理。新浪微博用戶信息可以利用新浪微博開放的API進(jìn)行,但是考慮到使用API調(diào)用的用戶信息不夠全面,且新浪微博API調(diào)用防非法操作措施,通過API調(diào)用獲取數(shù)據(jù)并不能滿足實驗數(shù)據(jù)要求。本文選擇采用爬取程序從新浪微博開放平臺采集微博用戶信息。由于支持向量機本身在解決小樣本識別中表現(xiàn)出特有的精確優(yōu)勢,故而使用爬取程序獲取用戶信息1036條。經(jīng)過對數(shù)據(jù)有效性篩選,獲得934條正常用戶信息數(shù)據(jù)。通過網(wǎng)絡(luò)購買水軍的方式,手動獲取到200條水軍用戶信息數(shù)據(jù)。
對上述獲得的數(shù)據(jù)信息進(jìn)行預(yù)處理:
數(shù)據(jù)清理:填寫少量缺失值、光滑噪聲數(shù)據(jù)、刪除離群點。
數(shù)據(jù)變化:對某些字段進(jìn)行規(guī)范化,使其適用于SVM。本文采用IBM SPSS Modeler作為本實驗的軟件工具。SPSS自身集成SVM功能,且提供了可視化的操縱方便,界面友好,操作方便。
(1)創(chuàng)建基本流,建立模型
圖1
(2)模型測試結(jié)果圖
從圖2實驗結(jié)果我們可以看出,基于支持向量機的微博水軍賬號識別精確度達(dá)到94.22%,同文獻(xiàn)[7]實驗結(jié)果比較,本文實驗結(jié)果精確度基本高于文[7]精確獻(xiàn)度,說明相較于采用邏輯回歸算法作水軍檢測,采用支持向量機模型具有更高的識別精確率,更加有效。
圖2
網(wǎng)絡(luò)技術(shù)日新月異,越來越多的用戶加入到互聯(lián)網(wǎng)大軍中,網(wǎng)絡(luò)水軍這一灰色產(chǎn)業(yè)產(chǎn)生了巨大的利益誘惑,要及時遏制網(wǎng)絡(luò)水軍造成的輿論誤導(dǎo)、熱點綁架等影響,就要從源頭抓起,揪出隱匿在微博用戶群體中的水軍賬號。本文采用了一種基于支持向量的水軍賬號檢測模型,針對目前水軍行為特征趨向正常用戶的混同表現(xiàn),收集代表用戶的全部客觀信息作為檢測依據(jù),實驗結(jié)果表明本文的模型可以更精確的識別出網(wǎng)絡(luò)水軍。在今后的研究中,可以對支持向量機做出優(yōu)化,使其能適應(yīng)各種不同平臺的水軍檢測。
參考文獻(xiàn):
[1]莫倩,楊珂.網(wǎng)絡(luò)水軍識別研究[J].軟件學(xué)報,2014,25(7):1505-1526.http://www.jos.org.cn/1000-9825/4617.html
[2]Sriram B,Fuhry D,Demir E,Ferhatosmanoglu H,Demirbas M.Short Text Classification in Twitter to Improve Information Filtering.In:Crestani F,Marchand-Maillet S,Chen HH,eds.Proc.of the 33rd Int'l ACM SIGIR Conf.on Research and Development in Information Retrieval(SIGIR 2010).New York:ACM Press,2010:841-842.
[3]Zhao YY,Qin B,Liu T.Sentiment Analysis.Ruan Jian Xue Bao.Journal of Software,2010,21(8):1834-1848(in Chinese with English abstract).http://www.jos.org.cn/1000-9825/3832.html.
[4]Liu B.Sentiment Analysis And Subjectivity.In:Indurkhya N,Damerau FJ,eds.Handbook of Natural Language Processing.Boca Raton:CRC Press,2010:627-666.
[5]Ghosh S,Korlam G,Ganguly N.Spammers'Networks Within Online Social Networks:A Case-study on Twitter.In:Sadagopan S,Ramamritham K,Kumar A,Ravindra MP,Bertino E,Kumar R,eds.Proc.of the 20th Int’l Conf.on World Wide Web(WWW 2011).New York:ACM Press,2011:41-42.
[6]Las-Casas PHB,Guedes D,Almeida JM,Ziviani A,Marques-Neto HT.SpaDeS:Detecting Spammers at the Source Network.Computer Networks,2012,57(2):526-539.
[7]張良,朱湘,李愛平,等.一種基于邏輯回歸算法的水軍識別方法[J].信息安全與技術(shù),2015(4):57-62.
[8]袁旭萍,王仁武,翟伯蔭.基于綜合指數(shù)和熵值法的微博水軍自動識別[J].情報雜志,2014(7):176-179.
[9]程曉濤,劉彩霞,劉樹新.基于關(guān)系圖特征的微博水軍發(fā)現(xiàn)方法[J].自動化學(xué)報,2015,41(9):1533-1541.
[10]張艷梅,黃瑩瑩,甘世杰,等.基于貝葉斯模型的微博網(wǎng)絡(luò)水軍識別算法研究[J].通信學(xué)報,2017,38(1):44-53.
[11]楊臻,張明慧,肖漢.基于多特征的網(wǎng)絡(luò)水軍識別方法[J].激光雜志,2016(12):110-113.
[12]謝忠紅,張穎,張琳.基于邏輯回歸算法的微博水軍識別[J].微型機與應(yīng)用,2017(16):67-69.
[13]韓忠明,許峰敏,段大高.面向微博的概率圖水軍識別模型[J].計算機研究與發(fā)展,2013,50(s2):180-186.