亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于支持向量機的微博水軍賬號識別

2018-05-07 03:27:23王淑琪王未央

現(xiàn)代計算機 2018年9期

王淑琪，王未央

（上海海事大學(xué)信息工程學(xué)院，上海 201306）

0 引言

網(wǎng)絡(luò)技術(shù)深入千家萬戶，互聯(lián)網(wǎng)社交平臺隨之蓬勃發(fā)展。不管是國外的Twitter、Facebook，還是國內(nèi)的微博、QQ，這些社交應(yīng)用已成為每個互聯(lián)網(wǎng)用戶的必備軟件。在閑暇時，人們登錄社交軟件，或與親朋好友聯(lián)系感情，或觀察網(wǎng)絡(luò)中發(fā)生的各種事件。人們享受于社交平臺便捷性和及時性。然而，網(wǎng)絡(luò)水軍的發(fā)展卻使得社交平臺信息的真實性發(fā)生轉(zhuǎn)變。網(wǎng)絡(luò)水軍是一群網(wǎng)絡(luò)中針對特定內(nèi)容發(fā)布特定信息的、被雇傭的網(wǎng)絡(luò)槍手。他們混跡于貼吧、論壇、微博等各個社交平臺，當(dāng)受到有心人士雇傭，他們便會偽裝成普通用戶對目標(biāo)內(nèi)容進(jìn)行回復(fù)、評論和傳播，以此對正常用戶產(chǎn)生影響。

社交網(wǎng)絡(luò)平臺上廣大的用戶群體所隱藏的巨大商機，催生了網(wǎng)絡(luò)水軍這一灰色產(chǎn)業(yè)的發(fā)展。他們利用微博輿論，發(fā)布廣告，傳播虛假信息，劫持熱門話題，更有甚者帶動敏感話題，刺激激動的網(wǎng)絡(luò)用戶造成惡劣的社會影響。時至今日，由網(wǎng)絡(luò)水軍策劃、炒熱的微博事件屢見不鮮。為遏制網(wǎng)絡(luò)水軍的發(fā)展，及時制止網(wǎng)絡(luò)水軍造成的惡劣影響，識別出隱藏在數(shù)以萬計的普通用戶中的網(wǎng)絡(luò)水軍已成當(dāng)務(wù)之急。

本文主要對微博網(wǎng)絡(luò)水軍賬號的識別做出研究。網(wǎng)絡(luò)水軍作為大量水軍賬號構(gòu)成的群體，其基礎(chǔ)就是賬號本身，故此本文提取出所有微博賬號信息，劃分出粉絲數(shù)、關(guān)注數(shù)、粉絲關(guān)注比，平均微博數(shù)、信息完整度、勛章數(shù)、陽光信用度等七大特征屬性，利用支持向量機進(jìn)行模型建立，從而將模型用于微博網(wǎng)絡(luò)水軍識別。

1 相關(guān)研究

識別網(wǎng)絡(luò)水軍的方法主要有基于內(nèi)容特征、用戶特征、環(huán)境特征和綜合特征四個方向的研究。在網(wǎng)絡(luò)水軍發(fā)展早期，網(wǎng)絡(luò)水軍主要利用郵件進(jìn)行運作，其產(chǎn)生的郵件內(nèi)容易于識別、容易處理，主要采用文本分類[2]、文本情感分析[3]以及文本傾向性[4]等方法。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展，用戶意識開始提高，傳統(tǒng)的網(wǎng)絡(luò)水軍不再能給網(wǎng)絡(luò)用戶造成影響，新型網(wǎng)絡(luò)水軍開始滋生，他們的行為趨向于正常用戶，發(fā)布內(nèi)容不再有顯著特征，這使得傳統(tǒng)的依靠內(nèi)容特征識別方法不再有效，相關(guān)學(xué)者基于此事實開始對網(wǎng)絡(luò)水軍的用戶特征進(jìn)行分析。Ghosh等人[5]通過在Twitter中識別一組垃圾郵件賬戶并監(jiān)控其鏈接創(chuàng)建策略來分析當(dāng)前垃圾郵件發(fā)送者在線社交網(wǎng)絡(luò)中采用的策略。除了對網(wǎng)絡(luò)水軍的用戶特征分析外，相關(guān)學(xué)者另辟蹊徑，從網(wǎng)絡(luò)自身環(huán)境特征來分析網(wǎng)絡(luò)水軍特點。Las-Casas等人[6]提出了一種在源網(wǎng)絡(luò)中檢測垃圾郵件發(fā)送者的新方法，使用從巴西寬帶ISP收集的實際數(shù)據(jù)集采用監(jiān)督分類計數(shù)來進(jìn)行水軍識別。基于綜合特征的網(wǎng)絡(luò)水軍識別的方法是為了彌補特定類型網(wǎng)絡(luò)水軍識別方法無法全面分析而誕生的。

目前，國內(nèi)對微博平臺網(wǎng)絡(luò)水軍的識別方法研究有限。張良等人[7]利用累計分布函數(shù)提取用戶特征屬性，利用邏輯回歸算法建立識別水軍模型。袁旭萍等人[8]使用熵值法確定指標(biāo)權(quán)重，采用綜合指數(shù)和熵值法確立微博水軍自動識別模型。程曉濤等人[9]利用水軍用戶無法改變與網(wǎng)絡(luò)中正常用戶的鏈接關(guān)系，采用了基于用戶關(guān)系圖特征的微博水軍賬號識別方法。諸如以上研究均是從對用戶賬號信息的特征屬性提取入手，但其算法對用戶賬號信息提取不全面，在網(wǎng)絡(luò)水軍行為逐漸趨于正常用戶的條件下，仍然不能全面識別微博水軍。

2 特征屬性定義

通過對以往微博網(wǎng)絡(luò)水軍識別方法的對比研究發(fā)現(xiàn)，這些研究一般從用戶信息和用戶行為信息兩方面提取特征屬性，用戶信息方面簡單提取基本信息，用戶行為信息一般提取微博內(nèi)容的URL率和文本自相似度。在特征提取這方面，以往研究用戶信息提取不全，用戶行為信息提取單一，而隨著網(wǎng)絡(luò)水軍運轉(zhuǎn)方式轉(zhuǎn)變，不再單純的以發(fā)布廣告和惡意鏈接的方式運營，其賬號背后有水軍操作而變得越來越隱藏化、用戶化，提取URL率和文本自相似度這兩條屬性已不再適合。故此，本文將提取出用戶賬號所具有的全部累計信息，經(jīng)過相關(guān)整理篩選得出有效的網(wǎng)絡(luò)水軍特征屬性。

粉絲數(shù)：該用戶賬號被其他用戶賬號關(guān)注總數(shù)。由于水軍賬號一般為完成雇主任務(wù)而產(chǎn)生，此賬號上一般和其他用戶不具有交互性，排除被正常用戶意外關(guān)注，水軍賬號的粉絲數(shù)一般比正常用戶粉絲數(shù)少。

關(guān)注數(shù)：該用戶關(guān)注其他用戶賬號總數(shù)。網(wǎng)絡(luò)水軍的灰色產(chǎn)業(yè)鏈下存在粉絲數(shù)買賣的情況，即有正常用戶為滿足其高關(guān)注度的要求，購買僵尸粉對自身關(guān)注，從而提高用戶的粉絲數(shù)。另外，由于水軍接受各個雇主任務(wù)，需要關(guān)注各類熱點話題，其本身就要對大量賬號進(jìn)行關(guān)注。綜上兩種情況，水軍賬號的關(guān)注數(shù)要遠(yuǎn)遠(yuǎn)高于正常用戶的關(guān)注數(shù)。

粉絲關(guān)注比：每個用戶的粉絲數(shù)同其關(guān)注數(shù)的比值。為了排除個別正常用戶因為特別需要而產(chǎn)生的低粉絲數(shù)或高關(guān)注數(shù)的情況，采用用戶粉絲數(shù)與關(guān)注數(shù)的比值可以更好地區(qū)分水軍和正常用戶，即粉絲關(guān)注比越高，該用戶越可能是認(rèn)證用戶，粉絲關(guān)注比越低，則可能是水軍賬號。其公式如下：

微博數(shù)：用戶賬號已經(jīng)發(fā)布的微博總數(shù)。水軍賬號在進(jìn)行制造和傳播輿論時，會大量的發(fā)布和轉(zhuǎn)發(fā)相關(guān)微博，而正常用戶一般只會因為某些事件而發(fā)布微博作為傾述或吐槽需要，不會大量發(fā)布微博，故而水軍用戶的微博數(shù)量比正常用戶要多得多。

平均微博數(shù)：自創(chuàng)建微博賬號起，該用戶賬號平均每天發(fā)布的微博數(shù)。

資料完善度：此為綜合評價指標(biāo)，其中包括性別、生日、所在地、QQ、大學(xué)、工作經(jīng)歷六個基本資料，每個小指標(biāo)填寫則為1，不填寫則為0。資料完善度為各小指標(biāo)的加和總值。

是否有簡介：由用戶手動編寫，方便其他用戶了解該賬號用戶，具有極強的個性化。簡介填寫則該指標(biāo)為1，沒有則為0。

標(biāo)簽數(shù)：標(biāo)簽是用戶為讓更多志趣相同之人找到自己的個性化描述詞語，如校園生活、讀書分享等。標(biāo)簽數(shù)多少則反應(yīng)該用戶興趣廣泛程度和其活躍度。

微博等級：微博等級是用戶活躍和榮譽的見證。隨著用戶在微博上的探索和成長，等級會隨之增加。

勛章個數(shù)：勛章是用戶參與微博上各類活動所授予的圖標(biāo)。其個數(shù)能反應(yīng)該用戶的活躍程度。

會員信息：用戶為獲得微博特權(quán)服務(wù)而付費開通的標(biāo)志，微博會員等級為1-7級。

陽光信用：微博陽光信用致力于成為自然人網(wǎng)絡(luò)身份的一個固有價值屬性。它結(jié)合了用戶的發(fā)言歷史、活躍度、違規(guī)記錄、商業(yè)記錄、實名以及社交關(guān)系等行為，是微博用戶在網(wǎng)絡(luò)上陽光討論、積極表達(dá)、理性交流的衡量標(biāo)尺。陽光信用劃分為5個等級，等級越高信用極好，等級越低信用極低。

3 基于支持向量機的水軍賬號識別模型

網(wǎng)絡(luò)水軍識別實際上是一個二分類問題，以微博平臺所有用戶為一個大集合，所有用戶的行為模式基本類似，因此對單個用戶賬號的判別只有兩種情況，一種是網(wǎng)絡(luò)水軍，一種不是網(wǎng)絡(luò)水軍。設(shè)U為微博用戶集合，Uy為網(wǎng)絡(luò)水軍集合，Un為非網(wǎng)絡(luò)水軍集合，則U={Uy,Un}。設(shè) x為用戶特征向量，則 x={x1,x2,…,xi,…,xn}，其中xi表示上一節(jié)提到的各個用戶特征屬性。存在一個目標(biāo)函數(shù)F，使得，即目標(biāo)函數(shù) F→{0,1}的映射。當(dāng)F(x)=1時，表示該特征向量標(biāo)志的用戶信息屬于水軍集合，反之，F(xiàn)(x)=0，則表示屬于正常用戶集合。

支持向量機是由Corinna Cortes和Vapnik在1995年提出的一種前饋類型網(wǎng)絡(luò)的傳統(tǒng)機器學(xué)習(xí)分類算法，它以訓(xùn)練誤差作為優(yōu)化問題的約束條件，以置信范圍值最小化作為優(yōu)化目標(biāo)，即SVM是一種結(jié)構(gòu)風(fēng)險最小化準(zhǔn)則的學(xué)習(xí)方法。

SVM的工作原理便是將原始數(shù)據(jù)通過變換映射到高緯度特征空間，這樣即使數(shù)據(jù)不是線性可分，也可以對數(shù)據(jù)點進(jìn)行分類，然后使用變換后的新數(shù)據(jù)進(jìn)行預(yù)測分類。

從線性可分模式分類角度來理解，SVM的主要思想是建立一個最優(yōu)決策超平面，使得該平面兩側(cè)平面最近的兩類樣本之間的距離最大化，從而對分類問題提供良好的泛化能力。

定義1最優(yōu)超平面有n個線性可分樣本{(x1,y1),(x2,y2),…,(xn,yn)}，對于任意輸入樣本 xi，期望輸出 yi=±1（代表兩類類別標(biāo)志）。用于分類的超平面方程為wTx+b=0，其中，x為輸入向量，w為權(quán)值，b為偏置，則有wTx+b＞0,y=+1;wTx+b＜0,y=-1。

超平面與最近的樣本點之間的間隔成為分離邊緣，支持向量機的目標(biāo)是找到一個分離邊緣最大的超平面，即最優(yōu)超平面，也就是要確定分離邊緣最大時w和b的值。這樣，分離邊緣最大化等價于使權(quán)值向量范數(shù)‖w‖最小化。通過對一個復(fù)雜的最優(yōu)化問題的求解簡化為對原有樣本數(shù)據(jù)的內(nèi)積運算。在d(wTx+b)≥1的約束下，可得最小化代價函數(shù)：

該約束優(yōu)化問題的代價函數(shù)是w的凸函數(shù)，且關(guān)于w的約束條件是線性，因此可用langrange系數(shù)方程解決約束最優(yōu)問題。

而對于復(fù)雜的模式分類問題非線性地投射到高位特征空間可能是線性可分的，因此只要特征空間的維數(shù)足夠高，則原始模式空間能變換為一個新的高位特征空間，使得在特征空間中模式以較高的概率為線性可分的，這樣就可以解決非線性可分?jǐn)?shù)據(jù)的分類問題。

然而，如何將低位空間向量集映射到高位空間？這邊涉及到SVM的關(guān)鍵，核函數(shù)的選擇。核函數(shù)可以巧妙地解決計算復(fù)雜度的問題，只要選用適當(dāng)?shù)暮撕瘮?shù)，就可以得到高維空間的分類函數(shù)，采用不同的核函數(shù)得到不同的SVM算法。常見的核函數(shù)類型有以下幾種：

（1）線性核函數(shù)：K(x,xi)=x·xi

（2）多項式核函數(shù)：K(x,xi)=((x·xi)+1)d

（4）Sigmoid 核函數(shù)：K(x,xi)=tanh(κ(x,xi)-δ)

其中，RBF核主要用于線性不可分的情形，適用于參數(shù)多，分類結(jié)果非常依賴于參數(shù)的實際問題。根據(jù)微博數(shù)據(jù)特征屬性特點，本文選擇RBF核解決數(shù)據(jù)分類問題。

4 實驗結(jié)果及分析

4.1 數(shù)據(jù)處理與準(zhǔn)備

為獲取實驗相關(guān)數(shù)據(jù)，需要對大量用戶數(shù)據(jù)進(jìn)行收集處理。新浪微博用戶信息可以利用新浪微博開放的API進(jìn)行，但是考慮到使用API調(diào)用的用戶信息不夠全面，且新浪微博API調(diào)用防非法操作措施，通過API調(diào)用獲取數(shù)據(jù)并不能滿足實驗數(shù)據(jù)要求。本文選擇采用爬取程序從新浪微博開放平臺采集微博用戶信息。由于支持向量機本身在解決小樣本識別中表現(xiàn)出特有的精確優(yōu)勢，故而使用爬取程序獲取用戶信息1036條。經(jīng)過對數(shù)據(jù)有效性篩選，獲得934條正常用戶信息數(shù)據(jù)。通過網(wǎng)絡(luò)購買水軍的方式，手動獲取到200條水軍用戶信息數(shù)據(jù)。

對上述獲得的數(shù)據(jù)信息進(jìn)行預(yù)處理：

數(shù)據(jù)清理：填寫少量缺失值、光滑噪聲數(shù)據(jù)、刪除離群點。

數(shù)據(jù)變化：對某些字段進(jìn)行規(guī)范化，使其適用于SVM。本文采用IBM SPSS Modeler作為本實驗的軟件工具。SPSS自身集成SVM功能，且提供了可視化的操縱方便，界面友好，操作方便。

4.2 實驗?zāi)Ｐ图敖Y(jié)果

（1）創(chuàng)建基本流，建立模型

圖1

（2）模型測試結(jié)果圖

從圖2實驗結(jié)果我們可以看出，基于支持向量機的微博水軍賬號識別精確度達(dá)到94.22%，同文獻(xiàn)[7]實驗結(jié)果比較，本文實驗結(jié)果精確度基本高于文[7]精確獻(xiàn)度，說明相較于采用邏輯回歸算法作水軍檢測，采用支持向量機模型具有更高的識別精確率，更加有效。

圖2

5 結(jié)語

網(wǎng)絡(luò)技術(shù)日新月異，越來越多的用戶加入到互聯(lián)網(wǎng)大軍中，網(wǎng)絡(luò)水軍這一灰色產(chǎn)業(yè)產(chǎn)生了巨大的利益誘惑，要及時遏制網(wǎng)絡(luò)水軍造成的輿論誤導(dǎo)、熱點綁架等影響，就要從源頭抓起，揪出隱匿在微博用戶群體中的水軍賬號。本文采用了一種基于支持向量的水軍賬號檢測模型，針對目前水軍行為特征趨向正常用戶的混同表現(xiàn)，收集代表用戶的全部客觀信息作為檢測依據(jù)，實驗結(jié)果表明本文的模型可以更精確的識別出網(wǎng)絡(luò)水軍。在今后的研究中，可以對支持向量機做出優(yōu)化，使其能適應(yīng)各種不同平臺的水軍檢測。

參考文獻(xiàn)：

[1]莫倩,楊珂.網(wǎng)絡(luò)水軍識別研究[J].軟件學(xué)報,2014,25(7):1505-1526.http://www.jos.org.cn/1000-9825/4617.html

[2]Sriram B,Fuhry D,Demir E,Ferhatosmanoglu H,Demirbas M.Short Text Classification in Twitter to Improve Information Filtering.In:Crestani F,Marchand-Maillet S,Chen HH,eds.Proc.of the 33rd Int'l ACM SIGIR Conf.on Research and Development in Information Retrieval(SIGIR 2010).New York:ACM Press,2010：841-842.

[3]Zhao YY,Qin B,Liu T.Sentiment Analysis.Ruan Jian Xue Bao.Journal of Software,2010,21(8):1834-1848(in Chinese with English abstract).http://www.jos.org.cn/1000-9825/3832.html.

[4]Liu B.Sentiment Analysis And Subjectivity.In:Indurkhya N,Damerau FJ,eds.Handbook of Natural Language Processing.Boca Raton:CRC Press,2010：627-666.

[5]Ghosh S,Korlam G,Ganguly N.Spammers'Networks Within Online Social Networks:A Case-study on Twitter.In:Sadagopan S,Ramamritham K,Kumar A,Ravindra MP,Bertino E,Kumar R,eds.Proc.of the 20th Int’l Conf.on World Wide Web(WWW 2011).New York:ACM Press,2011：41-42.

[6]Las-Casas PHB,Guedes D,Almeida JM,Ziviani A,Marques-Neto HT.SpaDeS:Detecting Spammers at the Source Network.Computer Networks,2012,57(2):526-539.

[7]張良,朱湘,李愛平,等.一種基于邏輯回歸算法的水軍識別方法[J].信息安全與技術(shù),2015(4):57-62.

[8]袁旭萍,王仁武,翟伯蔭.基于綜合指數(shù)和熵值法的微博水軍自動識別[J].情報雜志,2014(7):176-179.

[9]程曉濤,劉彩霞,劉樹新.基于關(guān)系圖特征的微博水軍發(fā)現(xiàn)方法[J].自動化學(xué)報,2015,41(9):1533-1541.

[10]張艷梅,黃瑩瑩,甘世杰,等.基于貝葉斯模型的微博網(wǎng)絡(luò)水軍識別算法研究[J].通信學(xué)報,2017,38(1):44-53.

[11]楊臻,張明慧,肖漢.基于多特征的網(wǎng)絡(luò)水軍識別方法[J].激光雜志,2016(12):110-113.

[12]謝忠紅,張穎,張琳.基于邏輯回歸算法的微博水軍識別[J].微型機與應(yīng)用,2017(16):67-69.

[13]韓忠明,許峰敏,段大高.面向微博的概率圖水軍識別模型[J].計算機研究與發(fā)展,2013,50(s2):180-186.