亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于支持向量機的微博水軍賬號識別

        2018-05-07 03:27:23王淑琪王未央
        現(xiàn)代計算機 2018年9期
        關(guān)鍵詞:水軍賬號向量

        王淑琪,王未央

        (上海海事大學(xué)信息工程學(xué)院,上海 201306)

        0 引言

        網(wǎng)絡(luò)技術(shù)深入千家萬戶,互聯(lián)網(wǎng)社交平臺隨之蓬勃發(fā)展。不管是國外的Twitter、Facebook,還是國內(nèi)的微博、QQ,這些社交應(yīng)用已成為每個互聯(lián)網(wǎng)用戶的必備軟件。在閑暇時,人們登錄社交軟件,或與親朋好友聯(lián)系感情,或觀察網(wǎng)絡(luò)中發(fā)生的各種事件。人們享受于社交平臺便捷性和及時性。然而,網(wǎng)絡(luò)水軍的發(fā)展卻使得社交平臺信息的真實性發(fā)生轉(zhuǎn)變。網(wǎng)絡(luò)水軍是一群網(wǎng)絡(luò)中針對特定內(nèi)容發(fā)布特定信息的、被雇傭的網(wǎng)絡(luò)槍手。他們混跡于貼吧、論壇、微博等各個社交平臺,當(dāng)受到有心人士雇傭,他們便會偽裝成普通用戶對目標(biāo)內(nèi)容進(jìn)行回復(fù)、評論和傳播,以此對正常用戶產(chǎn)生影響。

        社交網(wǎng)絡(luò)平臺上廣大的用戶群體所隱藏的巨大商機,催生了網(wǎng)絡(luò)水軍這一灰色產(chǎn)業(yè)的發(fā)展。他們利用微博輿論,發(fā)布廣告,傳播虛假信息,劫持熱門話題,更有甚者帶動敏感話題,刺激激動的網(wǎng)絡(luò)用戶造成惡劣的社會影響。時至今日,由網(wǎng)絡(luò)水軍策劃、炒熱的微博事件屢見不鮮。為遏制網(wǎng)絡(luò)水軍的發(fā)展,及時制止網(wǎng)絡(luò)水軍造成的惡劣影響,識別出隱藏在數(shù)以萬計的普通用戶中的網(wǎng)絡(luò)水軍已成當(dāng)務(wù)之急。

        本文主要對微博網(wǎng)絡(luò)水軍賬號的識別做出研究。網(wǎng)絡(luò)水軍作為大量水軍賬號構(gòu)成的群體,其基礎(chǔ)就是賬號本身,故此本文提取出所有微博賬號信息,劃分出粉絲數(shù)、關(guān)注數(shù)、粉絲關(guān)注比,平均微博數(shù)、信息完整度、勛章數(shù)、陽光信用度等七大特征屬性,利用支持向量機進(jìn)行模型建立,從而將模型用于微博網(wǎng)絡(luò)水軍識別。

        1 相關(guān)研究

        識別網(wǎng)絡(luò)水軍的方法主要有基于內(nèi)容特征、用戶特征、環(huán)境特征和綜合特征四個方向的研究。在網(wǎng)絡(luò)水軍發(fā)展早期,網(wǎng)絡(luò)水軍主要利用郵件進(jìn)行運作,其產(chǎn)生的郵件內(nèi)容易于識別、容易處理,主要采用文本分類[2]、文本情感分析[3]以及文本傾向性[4]等方法。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,用戶意識開始提高,傳統(tǒng)的網(wǎng)絡(luò)水軍不再能給網(wǎng)絡(luò)用戶造成影響,新型網(wǎng)絡(luò)水軍開始滋生,他們的行為趨向于正常用戶,發(fā)布內(nèi)容不再有顯著特征,這使得傳統(tǒng)的依靠內(nèi)容特征識別方法不再有效,相關(guān)學(xué)者基于此事實開始對網(wǎng)絡(luò)水軍的用戶特征進(jìn)行分析。Ghosh等人[5]通過在Twitter中識別一組垃圾郵件賬戶并監(jiān)控其鏈接創(chuàng)建策略來分析當(dāng)前垃圾郵件發(fā)送者在線社交網(wǎng)絡(luò)中采用的策略。除了對網(wǎng)絡(luò)水軍的用戶特征分析外,相關(guān)學(xué)者另辟蹊徑,從網(wǎng)絡(luò)自身環(huán)境特征來分析網(wǎng)絡(luò)水軍特點。Las-Casas等人[6]提出了一種在源網(wǎng)絡(luò)中檢測垃圾郵件發(fā)送者的新方法,使用從巴西寬帶ISP收集的實際數(shù)據(jù)集采用監(jiān)督分類計數(shù)來進(jìn)行水軍識別。基于綜合特征的網(wǎng)絡(luò)水軍識別的方法是為了彌補特定類型網(wǎng)絡(luò)水軍識別方法無法全面分析而誕生的。

        目前,國內(nèi)對微博平臺網(wǎng)絡(luò)水軍的識別方法研究有限。張良等人[7]利用累計分布函數(shù)提取用戶特征屬性,利用邏輯回歸算法建立識別水軍模型。袁旭萍等人[8]使用熵值法確定指標(biāo)權(quán)重,采用綜合指數(shù)和熵值法確立微博水軍自動識別模型。程曉濤等人[9]利用水軍用戶無法改變與網(wǎng)絡(luò)中正常用戶的鏈接關(guān)系,采用了基于用戶關(guān)系圖特征的微博水軍賬號識別方法。諸如以上研究均是從對用戶賬號信息的特征屬性提取入手,但其算法對用戶賬號信息提取不全面,在網(wǎng)絡(luò)水軍行為逐漸趨于正常用戶的條件下,仍然不能全面識別微博水軍。

        2 特征屬性定義

        通過對以往微博網(wǎng)絡(luò)水軍識別方法的對比研究發(fā)現(xiàn),這些研究一般從用戶信息和用戶行為信息兩方面提取特征屬性,用戶信息方面簡單提取基本信息,用戶行為信息一般提取微博內(nèi)容的URL率和文本自相似度。在特征提取這方面,以往研究用戶信息提取不全,用戶行為信息提取單一,而隨著網(wǎng)絡(luò)水軍運轉(zhuǎn)方式轉(zhuǎn)變,不再單純的以發(fā)布廣告和惡意鏈接的方式運營,其賬號背后有水軍操作而變得越來越隱藏化、用戶化,提取URL率和文本自相似度這兩條屬性已不再適合。故此,本文將提取出用戶賬號所具有的全部累計信息,經(jīng)過相關(guān)整理篩選得出有效的網(wǎng)絡(luò)水軍特征屬性。

        粉絲數(shù):該用戶賬號被其他用戶賬號關(guān)注總數(shù)。由于水軍賬號一般為完成雇主任務(wù)而產(chǎn)生,此賬號上一般和其他用戶不具有交互性,排除被正常用戶意外關(guān)注,水軍賬號的粉絲數(shù)一般比正常用戶粉絲數(shù)少。

        關(guān)注數(shù):該用戶關(guān)注其他用戶賬號總數(shù)。網(wǎng)絡(luò)水軍的灰色產(chǎn)業(yè)鏈下存在粉絲數(shù)買賣的情況,即有正常用戶為滿足其高關(guān)注度的要求,購買僵尸粉對自身關(guān)注,從而提高用戶的粉絲數(shù)。另外,由于水軍接受各個雇主任務(wù),需要關(guān)注各類熱點話題,其本身就要對大量賬號進(jìn)行關(guān)注。綜上兩種情況,水軍賬號的關(guān)注數(shù)要遠(yuǎn)遠(yuǎn)高于正常用戶的關(guān)注數(shù)。

        粉絲關(guān)注比:每個用戶的粉絲數(shù)同其關(guān)注數(shù)的比值。為了排除個別正常用戶因為特別需要而產(chǎn)生的低粉絲數(shù)或高關(guān)注數(shù)的情況,采用用戶粉絲數(shù)與關(guān)注數(shù)的比值可以更好地區(qū)分水軍和正常用戶,即粉絲關(guān)注比越高,該用戶越可能是認(rèn)證用戶,粉絲關(guān)注比越低,則可能是水軍賬號。其公式如下:

        微博數(shù):用戶賬號已經(jīng)發(fā)布的微博總數(shù)。水軍賬號在進(jìn)行制造和傳播輿論時,會大量的發(fā)布和轉(zhuǎn)發(fā)相關(guān)微博,而正常用戶一般只會因為某些事件而發(fā)布微博作為傾述或吐槽需要,不會大量發(fā)布微博,故而水軍用戶的微博數(shù)量比正常用戶要多得多。

        平均微博數(shù):自創(chuàng)建微博賬號起,該用戶賬號平均每天發(fā)布的微博數(shù)。

        資料完善度:此為綜合評價指標(biāo),其中包括性別、生日、所在地、QQ、大學(xué)、工作經(jīng)歷六個基本資料,每個小指標(biāo)填寫則為1,不填寫則為0。資料完善度為各小指標(biāo)的加和總值。

        是否有簡介:由用戶手動編寫,方便其他用戶了解該賬號用戶,具有極強的個性化。簡介填寫則該指標(biāo)為1,沒有則為0。

        標(biāo)簽數(shù):標(biāo)簽是用戶為讓更多志趣相同之人找到自己的個性化描述詞語,如校園生活、讀書分享等。標(biāo)簽數(shù)多少則反應(yīng)該用戶興趣廣泛程度和其活躍度。

        微博等級:微博等級是用戶活躍和榮譽的見證。隨著用戶在微博上的探索和成長,等級會隨之增加。

        勛章個數(shù):勛章是用戶參與微博上各類活動所授予的圖標(biāo)。其個數(shù)能反應(yīng)該用戶的活躍程度。

        會員信息:用戶為獲得微博特權(quán)服務(wù)而付費開通的標(biāo)志,微博會員等級為1-7級。

        陽光信用:微博陽光信用致力于成為自然人網(wǎng)絡(luò)身份的一個固有價值屬性。它結(jié)合了用戶的發(fā)言歷史、活躍度、違規(guī)記錄、商業(yè)記錄、實名以及社交關(guān)系等行為,是微博用戶在網(wǎng)絡(luò)上陽光討論、積極表達(dá)、理性交流的衡量標(biāo)尺。陽光信用劃分為5個等級,等級越高信用極好,等級越低信用極低。

        3 基于支持向量機的水軍賬號識別模型

        網(wǎng)絡(luò)水軍識別實際上是一個二分類問題,以微博平臺所有用戶為一個大集合,所有用戶的行為模式基本類似,因此對單個用戶賬號的判別只有兩種情況,一種是網(wǎng)絡(luò)水軍,一種不是網(wǎng)絡(luò)水軍。設(shè)U為微博用戶集合,Uy為網(wǎng)絡(luò)水軍集合,Un為非網(wǎng)絡(luò)水軍集合,則U={Uy,Un}。設(shè) x為用戶特征向量,則 x={x1,x2,…,xi,…,xn},其中xi表示上一節(jié)提到的各個用戶特征屬性。存在一個目標(biāo)函數(shù)F,使得,即目標(biāo)函數(shù) F→{0,1}的映射。當(dāng)F(x)=1時,表示該特征向量標(biāo)志的用戶信息屬于水軍集合,反之,F(xiàn)(x)=0,則表示屬于正常用戶集合。

        支持向量機是由Corinna Cortes和Vapnik在1995年提出的一種前饋類型網(wǎng)絡(luò)的傳統(tǒng)機器學(xué)習(xí)分類算法,它以訓(xùn)練誤差作為優(yōu)化問題的約束條件,以置信范圍值最小化作為優(yōu)化目標(biāo),即SVM是一種結(jié)構(gòu)風(fēng)險最小化準(zhǔn)則的學(xué)習(xí)方法。

        SVM的工作原理便是將原始數(shù)據(jù)通過變換映射到高緯度特征空間,這樣即使數(shù)據(jù)不是線性可分,也可以對數(shù)據(jù)點進(jìn)行分類,然后使用變換后的新數(shù)據(jù)進(jìn)行預(yù)測分類。

        從線性可分模式分類角度來理解,SVM的主要思想是建立一個最優(yōu)決策超平面,使得該平面兩側(cè)平面最近的兩類樣本之間的距離最大化,從而對分類問題提供良好的泛化能力。

        定義1最優(yōu)超平面有n個線性可分樣本{(x1,y1),(x2,y2),…,(xn,yn)},對于任意輸入樣本 xi,期望輸出 yi=±1(代表兩類類別標(biāo)志)。用于分類的超平面方程為wTx+b=0,其中,x為輸入向量,w為權(quán)值,b為偏置,則有wTx+b>0,y=+1;wTx+b<0,y=-1。

        超平面與最近的樣本點之間的間隔成為分離邊緣,支持向量機的目標(biāo)是找到一個分離邊緣最大的超平面,即最優(yōu)超平面,也就是要確定分離邊緣最大時w和b的值。這樣,分離邊緣最大化等價于使權(quán)值向量范數(shù)‖w‖最小化。通過對一個復(fù)雜的最優(yōu)化問題的求解簡化為對原有樣本數(shù)據(jù)的內(nèi)積運算。在d(wTx+b)≥1的約束下,可得最小化代價函數(shù):

        該約束優(yōu)化問題的代價函數(shù)是w的凸函數(shù),且關(guān)于w的約束條件是線性,因此可用langrange系數(shù)方程解決約束最優(yōu)問題。

        而對于復(fù)雜的模式分類問題非線性地投射到高位特征空間可能是線性可分的,因此只要特征空間的維數(shù)足夠高,則原始模式空間能變換為一個新的高位特征空間,使得在特征空間中模式以較高的概率為線性可分的,這樣就可以解決非線性可分?jǐn)?shù)據(jù)的分類問題。

        然而,如何將低位空間向量集映射到高位空間?這邊涉及到SVM的關(guān)鍵,核函數(shù)的選擇。核函數(shù)可以巧妙地解決計算復(fù)雜度的問題,只要選用適當(dāng)?shù)暮撕瘮?shù),就可以得到高維空間的分類函數(shù),采用不同的核函數(shù)得到不同的SVM算法。常見的核函數(shù)類型有以下幾種:

        (1)線性核函數(shù):K(x,xi)=x·xi

        (2)多項式核函數(shù):K(x,xi)=((x·xi)+1)d

        (4)Sigmoid 核函數(shù):K(x,xi)=tanh(κ(x,xi)-δ)

        其中,RBF核主要用于線性不可分的情形,適用于參數(shù)多,分類結(jié)果非常依賴于參數(shù)的實際問題。根據(jù)微博數(shù)據(jù)特征屬性特點,本文選擇RBF核解決數(shù)據(jù)分類問題。

        4 實驗結(jié)果及分析

        4.1 數(shù)據(jù)處理與準(zhǔn)備

        為獲取實驗相關(guān)數(shù)據(jù),需要對大量用戶數(shù)據(jù)進(jìn)行收集處理。新浪微博用戶信息可以利用新浪微博開放的API進(jìn)行,但是考慮到使用API調(diào)用的用戶信息不夠全面,且新浪微博API調(diào)用防非法操作措施,通過API調(diào)用獲取數(shù)據(jù)并不能滿足實驗數(shù)據(jù)要求。本文選擇采用爬取程序從新浪微博開放平臺采集微博用戶信息。由于支持向量機本身在解決小樣本識別中表現(xiàn)出特有的精確優(yōu)勢,故而使用爬取程序獲取用戶信息1036條。經(jīng)過對數(shù)據(jù)有效性篩選,獲得934條正常用戶信息數(shù)據(jù)。通過網(wǎng)絡(luò)購買水軍的方式,手動獲取到200條水軍用戶信息數(shù)據(jù)。

        對上述獲得的數(shù)據(jù)信息進(jìn)行預(yù)處理:

        數(shù)據(jù)清理:填寫少量缺失值、光滑噪聲數(shù)據(jù)、刪除離群點。

        數(shù)據(jù)變化:對某些字段進(jìn)行規(guī)范化,使其適用于SVM。本文采用IBM SPSS Modeler作為本實驗的軟件工具。SPSS自身集成SVM功能,且提供了可視化的操縱方便,界面友好,操作方便。

        4.2 實驗?zāi)P图敖Y(jié)果

        (1)創(chuàng)建基本流,建立模型

        圖1

        (2)模型測試結(jié)果圖

        從圖2實驗結(jié)果我們可以看出,基于支持向量機的微博水軍賬號識別精確度達(dá)到94.22%,同文獻(xiàn)[7]實驗結(jié)果比較,本文實驗結(jié)果精確度基本高于文[7]精確獻(xiàn)度,說明相較于采用邏輯回歸算法作水軍檢測,采用支持向量機模型具有更高的識別精確率,更加有效。

        圖2

        5 結(jié)語

        網(wǎng)絡(luò)技術(shù)日新月異,越來越多的用戶加入到互聯(lián)網(wǎng)大軍中,網(wǎng)絡(luò)水軍這一灰色產(chǎn)業(yè)產(chǎn)生了巨大的利益誘惑,要及時遏制網(wǎng)絡(luò)水軍造成的輿論誤導(dǎo)、熱點綁架等影響,就要從源頭抓起,揪出隱匿在微博用戶群體中的水軍賬號。本文采用了一種基于支持向量的水軍賬號檢測模型,針對目前水軍行為特征趨向正常用戶的混同表現(xiàn),收集代表用戶的全部客觀信息作為檢測依據(jù),實驗結(jié)果表明本文的模型可以更精確的識別出網(wǎng)絡(luò)水軍。在今后的研究中,可以對支持向量機做出優(yōu)化,使其能適應(yīng)各種不同平臺的水軍檢測。

        參考文獻(xiàn):

        [1]莫倩,楊珂.網(wǎng)絡(luò)水軍識別研究[J].軟件學(xué)報,2014,25(7):1505-1526.http://www.jos.org.cn/1000-9825/4617.html

        [2]Sriram B,Fuhry D,Demir E,Ferhatosmanoglu H,Demirbas M.Short Text Classification in Twitter to Improve Information Filtering.In:Crestani F,Marchand-Maillet S,Chen HH,eds.Proc.of the 33rd Int'l ACM SIGIR Conf.on Research and Development in Information Retrieval(SIGIR 2010).New York:ACM Press,2010:841-842.

        [3]Zhao YY,Qin B,Liu T.Sentiment Analysis.Ruan Jian Xue Bao.Journal of Software,2010,21(8):1834-1848(in Chinese with English abstract).http://www.jos.org.cn/1000-9825/3832.html.

        [4]Liu B.Sentiment Analysis And Subjectivity.In:Indurkhya N,Damerau FJ,eds.Handbook of Natural Language Processing.Boca Raton:CRC Press,2010:627-666.

        [5]Ghosh S,Korlam G,Ganguly N.Spammers'Networks Within Online Social Networks:A Case-study on Twitter.In:Sadagopan S,Ramamritham K,Kumar A,Ravindra MP,Bertino E,Kumar R,eds.Proc.of the 20th Int’l Conf.on World Wide Web(WWW 2011).New York:ACM Press,2011:41-42.

        [6]Las-Casas PHB,Guedes D,Almeida JM,Ziviani A,Marques-Neto HT.SpaDeS:Detecting Spammers at the Source Network.Computer Networks,2012,57(2):526-539.

        [7]張良,朱湘,李愛平,等.一種基于邏輯回歸算法的水軍識別方法[J].信息安全與技術(shù),2015(4):57-62.

        [8]袁旭萍,王仁武,翟伯蔭.基于綜合指數(shù)和熵值法的微博水軍自動識別[J].情報雜志,2014(7):176-179.

        [9]程曉濤,劉彩霞,劉樹新.基于關(guān)系圖特征的微博水軍發(fā)現(xiàn)方法[J].自動化學(xué)報,2015,41(9):1533-1541.

        [10]張艷梅,黃瑩瑩,甘世杰,等.基于貝葉斯模型的微博網(wǎng)絡(luò)水軍識別算法研究[J].通信學(xué)報,2017,38(1):44-53.

        [11]楊臻,張明慧,肖漢.基于多特征的網(wǎng)絡(luò)水軍識別方法[J].激光雜志,2016(12):110-113.

        [12]謝忠紅,張穎,張琳.基于邏輯回歸算法的微博水軍識別[J].微型機與應(yīng)用,2017(16):67-69.

        [13]韓忠明,許峰敏,段大高.面向微博的概率圖水軍識別模型[J].計算機研究與發(fā)展,2013,50(s2):180-186.

        猜你喜歡
        水軍賬號向量
        “網(wǎng)絡(luò)水軍”作惡,該打!
        向量的分解
        彤彤的聊天賬號
        施詐計騙走游戲賬號
        派出所工作(2021年4期)2021-05-17 15:19:10
        聚焦“向量與三角”創(chuàng)新題
        網(wǎng)絡(luò)水軍
        方圓(2017年12期)2017-07-17 17:50:26
        向量垂直在解析幾何中的應(yīng)用
        水軍
        黃河之聲(2016年24期)2016-04-22 02:39:44
        Google Play游戲取消賬號綁定沒有Google賬號也能玩
        CHIP新電腦(2016年3期)2016-03-10 14:52:50
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        鲁一鲁一鲁一鲁一澡| 精品亚洲天堂一区二区三区| 国产精品无码av无码| 亚洲国产长腿丝袜av天堂| 国产在线不卡视频| 亚洲av成人久久精品| 蜜桃视频在线观看免费亚洲| 国产精成人品日日拍夜夜免费| 国产人成精品免费视频| 精品日本韩国一区二区三区| 99久久国内精品成人免费| 18禁无遮拦无码国产在线播放| 91精品福利观看| 一亚洲一区二区中文字幕| 丰满人妻猛进入中文字幕| 久激情内射婷内射蜜桃| 久久精品无码一区二区乱片子| 日韩色久悠悠婷婷综合| 大尺度免费观看av网站| 黑人巨大av在线播放无码| 精品一区二区三区免费爱| 亚洲国产女同在线观看| 国产av久久久久精东av| 欧美日韩中文国产一区| 国产黄片一区视频在线观看| 亚洲毛片在线观看免费| 久久久精品人妻无码专区不卡| 国产午夜亚洲精品不卡福利| 日本伦理视频一区二区| 亚洲色偷偷偷综合网| 精品熟女日韩中文十区| 国产精品香蕉网页在线播放| 日本国产精品久久一线 | 麻豆精品久久久久久久99蜜桃| 免费看一级a女人自慰免费| 蜜桃视频网址在线观看| 亚洲av无码一区东京热| 成全视频高清免费| 玩弄放荡人妻一区二区三区| 亚洲一区二区三区乱码在线中国| 国产国拍精品av在线观看按摩|