何 歡,朱 焱,李春平
(1.西南交通大學(xué) 信息科學(xué)及技術(shù)學(xué)院,成都 611756;2.清華大學(xué) 軟件學(xué)院,北京 100091)
Twitter、Facebook、YouTube、新浪微博等在線社交網(wǎng)絡(luò)(Online Social Network,OSN)的擴(kuò)散模式為“去中心化”,該模式能使用戶生成內(nèi)容(User Generated Content,UGC)在用戶間建立的“關(guān)注-被關(guān)注”社交網(wǎng)絡(luò)上廣泛傳播,并呈現(xiàn)出傳播速度快、覆蓋范圍廣、社會(huì)影響力大等特點(diǎn)[1]。但由于其自帶的開(kāi)放性、普適性、低成本、便捷性等優(yōu)勢(shì),容易成為攻擊目標(biāo)。
常見(jiàn)灰帽用戶(非正常用戶)有僵尸粉、營(yíng)銷號(hào)、垃圾用戶等,與白帽用戶(正常用戶)通過(guò)OSN 實(shí)時(shí)分享生活、交友聊天、獲取信息等不同,灰帽用戶利用OSN平臺(tái)不斷擴(kuò)大自身影響力以提高可信度,而后進(jìn)行推廣營(yíng)銷、引導(dǎo)輿論導(dǎo)向、散步謠言、盜取泄露他人信息、散布非法鏈接、釣魚攻擊等不友好甚至非法活動(dòng),嚴(yán)重威脅平臺(tái)安全性及性能。因此,檢測(cè)OSN 中的灰帽用戶至關(guān)重要,有利于OSN 管理、廣告、新聞媒體與讀者等之間的交互優(yōu)化。
為檢測(cè)OSN 中的灰帽用戶,ER?AHIN 等[2]通過(guò)分析用戶名、個(gè)人資料、背景圖片、朋友和關(guān)注者數(shù)量、推文內(nèi)容、用戶描述、推文的數(shù)量等用戶屬性信息進(jìn)行分類檢測(cè)。根據(jù)UGC 的靜態(tài)屬性信息,RAYMOND 等[3]基于自然語(yǔ)言處理的文本分類,通過(guò)分析評(píng)論文本與正常用戶評(píng)論的差異發(fā)現(xiàn)網(wǎng)絡(luò)用戶發(fā)布的虛假評(píng)論。ZHANG 等[4]使用基于鏈接相似性的方法關(guān)聯(lián)用戶活動(dòng),并采用基于機(jī)器學(xué)習(xí)的方法對(duì)可能的用戶活動(dòng)進(jìn)行檢測(cè)。以上方法簡(jiǎn)單有效,但需要UGC 中的垃圾信息(如廣告、非法字段等)含有明顯關(guān)鍵字或是惡意鏈接,因此灰帽用戶容易通過(guò)修改相關(guān)信息躲避檢測(cè)。此外,上述方法只能針對(duì)特定數(shù)據(jù)而無(wú)法應(yīng)對(duì)新的威脅,因此不具有普適性。
針對(duì)上述問(wèn)題,有研究人員從“用戶-關(guān)注-用戶”社會(huì)關(guān)系網(wǎng)絡(luò)入手提出有限攻擊邊緣假設(shè),該假設(shè)認(rèn)為白帽用戶很少與灰帽交朋友,即白帽用戶與灰帽用戶之間的友誼鏈接數(shù)量有限?;谠摷僭O(shè),研究人員提出大量檢測(cè)算法[5-7]。然而,有研究人員發(fā)現(xiàn)灰帽用戶能產(chǎn)生更多的攻擊邊緣[8-10],即有限攻擊邊緣假設(shè)在現(xiàn)實(shí)世界的OSN 中不成立。這導(dǎo)致基于該假設(shè)基礎(chǔ)提出的監(jiān)測(cè)方法存在缺陷,檢測(cè)精度有待提高[11-12]。因此,研究人員嘗試通過(guò)分析用戶關(guān)注、轉(zhuǎn)發(fā)、回復(fù)、提及、共享話題等更具可靠性的用戶交互行為的方法進(jìn)行檢測(cè)。ZHANG 等[13]開(kāi)發(fā)了社交活動(dòng)網(wǎng)絡(luò)(Social Activity Network,SAN),通過(guò)2 層超圖統(tǒng)一用戶的關(guān)注和行為,充分利用用戶的行為模式以描述灰帽用戶活動(dòng)到達(dá)其受眾的方式,并揭示主導(dǎo)信息傳播功能的因素。CRESCI 等[14]受生物學(xué)遺傳信息DNA 的啟發(fā),通過(guò)對(duì)垃圾收集器的集體行為進(jìn)行深入分析,提高了灰帽用戶檢測(cè)的有效性。理論上,與用戶關(guān)注誰(shuí)相比,用戶在選擇與誰(shuí)互動(dòng)上更具選擇權(quán)和可信度。但實(shí)際上,該類方法仍只適用于檢測(cè)具有明顯異常行為的灰帽用戶。
與單一視圖檢測(cè)方法局限于檢測(cè)特定種類灰帽用戶不同,多視圖融混合模型能在海量信息中綜合使用各類特征或算法,從而保證了低漏檢率。MATEENETAL 等[15]提出一種基于用戶、內(nèi)容和圖這3 類特征的混合檢測(cè)技術(shù),通過(guò)整合特征區(qū)分用戶,獲得更高的效率和精確度。與MATEENETAL 類似,LI 等[16]和LIU 等[17]分別針對(duì)融合多視圖特征提出了檢測(cè)機(jī)制。LI 提出一種半監(jiān)督混合模型,基于用戶、用戶社交信任網(wǎng)絡(luò)、UGC 和用戶評(píng)論轉(zhuǎn)發(fā)結(jié)構(gòu)這4 類特征檢測(cè)用戶,通過(guò)階梯網(wǎng)絡(luò)融合過(guò)濾各類特征區(qū)分用戶,并獲得更高的效率和精確度。結(jié)果表明,融合多類特征的混合模型檢測(cè)精度更高,其針對(duì)不同種類灰帽的檢測(cè)效果更具有魯棒性和穩(wěn)定性。然而,混合方法需要考慮多種視圖,檢測(cè)復(fù)雜且時(shí)空耗費(fèi)巨大,且當(dāng)出現(xiàn)新的種類時(shí)仍需重新考量評(píng)估參數(shù),不具有普適性。
用戶交互是OSN 中信息傳播的根本途徑,灰帽用戶雖然種類多樣、善于偽裝并極易衍生出新種類,但因其最終目的均是通過(guò)OSN 散布信息擴(kuò)大自身影響力,故在交互行為上具有共同特性。此外,因?yàn)榛颐庇脩襞c正常用戶的交互行為有明顯差異,所以從傳播交互角度出發(fā)進(jìn)行檢測(cè)將更簡(jiǎn)單有效且通用性更高。本文提出一種基于時(shí)空傳播的灰帽用戶檢測(cè)機(jī)制,從用戶UGC 傳播交互角度出發(fā),在時(shí)序、空間2 個(gè)維度挖掘正常用戶與灰帽用戶的本質(zhì)區(qū)別。同時(shí)在靜態(tài)屬性、社交網(wǎng)絡(luò)基礎(chǔ)上,進(jìn)一步利用傳播網(wǎng)絡(luò)信息尋找潛在灰帽用戶,使灰帽用戶識(shí)別算法更具普適性。
現(xiàn)階段社交網(wǎng)絡(luò)灰帽用戶檢測(cè)機(jī)制因檢測(cè)對(duì)象極易隱藏且類型多樣,目前存在2 個(gè)問(wèn)題:1)單一且普適性低,只能針對(duì)某一特定數(shù)據(jù);2)適配性低,當(dāng)灰帽用戶出現(xiàn)新種類時(shí),需重新評(píng)估并改變檢測(cè)模型。然而,灰帽用戶雖然種類多樣且善于偽裝,但因最終目的均是擴(kuò)大自身影響力,故在交互行為上具有共同特性,即在其UGC 或參與他人UGC 傳播過(guò)程中與白帽用戶相比有明顯差異。具體來(lái)講,灰帽用戶可通過(guò)偽裝諸如性別、年齡、愛(ài)好等屬性使自身與白帽用戶差異性減小,也能通過(guò)發(fā)布正常UGC 使之不包含垃圾關(guān)鍵字躲避平臺(tái)檢測(cè)。但研究數(shù)據(jù)表明,所有灰帽用戶的目的都是為了擴(kuò)大自身在整個(gè)社交網(wǎng)絡(luò)中的比重,以便達(dá)成自己營(yíng)銷、宣傳、發(fā)布廣告等最終目的,因此可以從用戶UGC 傳播角度考慮。一方面,社交網(wǎng)絡(luò)用戶影響力主要取決于用戶UGC 的傳播能力;另一方面,灰帽用戶經(jīng)常活躍在其他用戶UGC 傳播鏈中以便達(dá)到宣傳目的。此外,用戶UGC 在發(fā)布后越短時(shí)間內(nèi)(時(shí)序特性)影響的用戶人群(空間特性)越多,傳播能力就越強(qiáng),所以傳播特性可以從傳播時(shí)序和傳播空間兩方面體現(xiàn)。
本文提出一種基于傳播時(shí)空特性(Diffusion Spatio Temporal Characteristics,DSTC)的社交網(wǎng)絡(luò)灰帽用戶檢測(cè)機(jī)制,融合傳播時(shí)序和傳播空間2 類特性進(jìn)行最終檢測(cè),其具體過(guò)程如圖1 所示。
圖1 時(shí)空特性傳播過(guò)程Fig.1 Process of diffusion spatio temporal characteristics
由圖1 可知,對(duì)社交網(wǎng)絡(luò)用戶源數(shù)據(jù)集進(jìn)行擴(kuò)展并預(yù)處理,可得到用戶UGC 及UGC 傳播過(guò)程源數(shù)據(jù)?;贒STC 對(duì)預(yù)處理后社交網(wǎng)絡(luò)用戶UGC 傳播數(shù)據(jù)進(jìn)行的檢測(cè)具體可分為2 部分:1)對(duì)預(yù)處理后的源數(shù)據(jù)進(jìn)行時(shí)空特征提取工作并得到兩類傳播特征,包括時(shí)序特征和空間特征,時(shí)序特征即傳播過(guò)程在時(shí)序上的特性,空間特征即UGC 形成的傳播網(wǎng)絡(luò)圖所體現(xiàn)的特性;2)融合傳播時(shí)空兩類特征,并分別采用判別式模型代表(SVM)、生成式模型代表(Naive Bayes)、集成學(xué)習(xí)代表(AdaBoost)這3 類分類算法檢測(cè)灰帽用戶,得到最終檢測(cè)結(jié)果。
為更好定義傳播特征提取過(guò)程,現(xiàn)給出相關(guān)重要符號(hào)定義:用UUGC(u)表示用戶u的用戶生成內(nèi)容,u∈U,U?V。其中U表示評(píng)論過(guò)用戶u該條UGC的所有用戶,V表示整個(gè)網(wǎng)絡(luò)中的的所有用戶。假設(shè)用戶u的一條UGC 被發(fā)布后收到n-1 條UGC 評(píng)論,設(shè)三元組集合UUGC(u)={
白帽用戶發(fā)布的UGC 能達(dá)到的傳播范圍與自身在社交網(wǎng)絡(luò)中重要程度、UGC 內(nèi)容包含的模態(tài)、UGC 文本情感傾向等諸多因素有關(guān)。因此,白帽用戶UUGC(u)中體現(xiàn)的傳播時(shí)間與傳播范圍沒(méi)有具體的界限,隨機(jī)性較強(qiáng)。而灰帽用戶一般在在特定時(shí)間有目的性地發(fā)布UGC,過(guò)了特定時(shí)間段不再傳播,傳播時(shí)間上相似性更強(qiáng)。綜上所述,鑒別灰帽用戶可以從UUGC(u)的傳播時(shí)間角度考慮。
平均傳播AADT代表UUGC(u)傳播開(kāi)始至結(jié)束收到每個(gè)用戶評(píng)論所用的時(shí)間間隔?;颐庇脩鬉ADT較白帽而言更加穩(wěn)定,數(shù)值相差小。平均傳播時(shí)間的計(jì)算公式如式(1)所示:
首次傳播時(shí)間FFDT代表UUGC(u)從傳播開(kāi)始至收到第1 個(gè)用戶評(píng)論的時(shí)間間隔?;颐庇脩粼u(píng)論其他用戶UGC 的通道較單一,通常是經(jīng)過(guò)給定的鏈接直接進(jìn)入,且灰帽用戶UGC 一般只會(huì)收到灰帽用戶評(píng)論。所以,白帽用戶發(fā)布UGC 后,關(guān)注該白帽的其他用戶在接收推送后對(duì)其進(jìn)行評(píng)論互動(dòng)具有實(shí)時(shí)特性,灰帽則沒(méi)有。因此,灰帽用戶的FFDT一般要比白帽用戶更長(zhǎng)。首次傳播時(shí)間的計(jì)算公式如式(2)所示:
傳播啟動(dòng)時(shí)間的計(jì)算公式如式(3)所示:
其中:m為傳播啟動(dòng)的閾值,即當(dāng)UUGC(u)中n>m時(shí)(UGC 至少收到m條評(píng)論),認(rèn)為該條UGC 達(dá)到傳播認(rèn)定條件。本文設(shè)m=100(OSN 中UGC 評(píng)論數(shù)量中位數(shù)),即當(dāng)轉(zhuǎn)發(fā)量達(dá)到100 后UGC 被認(rèn)為是啟動(dòng)傳播,可以對(duì)整個(gè)OSN 存在影響。SSDT越小,影響范圍越大。過(guò)濾用戶發(fā)布的不重要UGC,只考慮傳播范圍較大能對(duì)OSN 產(chǎn)生影響的UGC。此外,m所花費(fèi)的時(shí)間大小表明UGC 的受歡迎程度,能側(cè)面體現(xiàn)用戶u在社交網(wǎng)絡(luò)中的重要性。灰帽用戶由于經(jīng)常發(fā)送重復(fù)相似垃圾UGC,不被大多數(shù)用戶認(rèn)可,被關(guān)注的可能性小,影響力一般較小。
平均傳播間隔如式(4)所示:
傳播間隔方差如式(5)所示:
其中:平均傳播間隔AADI和傳播間隔方差VVDI分別代表元組
以用戶ui為節(jié)點(diǎn),UUGC(u)={
基于圖結(jié)構(gòu)的檢測(cè)方法通常比其他檢測(cè)方法效率高,因?yàn)榛颐庇脩綦m然能偽造信息躲避檢測(cè),但是其行為模式卻不能輕易改變。本文從傳播空間上提取以下幾類特征。
2.2.1 傳播網(wǎng)絡(luò)結(jié)構(gòu)統(tǒng)計(jì)特征
直接由圖結(jié)構(gòu)統(tǒng)計(jì)計(jì)算獲取,諸如PageRank、clustering、betweenness 等常見(jiàn)圖節(jié)點(diǎn)結(jié)構(gòu)信息。
2.2.2 傳播網(wǎng)絡(luò)圖嵌入特征
圖嵌入技術(shù)能對(duì)網(wǎng)絡(luò)中的用戶節(jié)點(diǎn)進(jìn)行低維向量表示,且該低維特征向量能較好地保留原有網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)。Node2vec 模型[18]認(rèn)為網(wǎng)絡(luò)結(jié)構(gòu)上相似節(jié)點(diǎn)具有相似的嵌入表示,屬于同一社區(qū)的節(jié)點(diǎn)在低維空間的距離更相近。本文采用Node2vec 模型對(duì)傳播網(wǎng)絡(luò)圖進(jìn)行圖嵌入特征提取,得到用戶節(jié)點(diǎn)特征向量。
2.2.3 用戶傳播能力特征
用戶傳播特征由以下指標(biāo)表征:
1)一階自我中心網(wǎng)絡(luò)環(huán)路路徑數(shù)量,用以評(píng)估用戶傳播的量級(jí)程度。用戶一階傳播網(wǎng)絡(luò)如圖2所示。
圖2 用戶一階傳播網(wǎng)絡(luò)Fig.2 First order diffusion network of user
在圖2 中,白色為白帽用戶,黑色為灰帽用戶。可以看到,圖2(a)中有3 條環(huán)路,圖2(b)只有1 條環(huán)路,證明2 類用戶在自我一階傳播網(wǎng)絡(luò)之間確實(shí)存在差異。
一階自我中心網(wǎng)絡(luò)環(huán)路路徑數(shù)量是指由當(dāng)前用戶出發(fā)經(jīng)過(guò)一階鄰居后最終能回到用戶并構(gòu)成回路的數(shù)量。構(gòu)成環(huán)路的用戶集實(shí)際是社交網(wǎng)絡(luò)中的一個(gè)社區(qū),代表了因同一興趣形成的社交圈。白帽用戶的自我中心網(wǎng)絡(luò)通常呈現(xiàn)局部分散而整體聚集的狀態(tài),這是因?yàn)榘酌庇脩襞d趣多元交叉,擴(kuò)散開(kāi)后又形成多個(gè)社區(qū);而灰帽用戶由于不關(guān)心其他用戶,其社交圈也并非由興趣促使形成,因此其傳播網(wǎng)絡(luò)呈現(xiàn)整體、局部都分散的狀態(tài)。所以,灰帽用戶自我中心網(wǎng)絡(luò)所形成的回路路徑數(shù)量一般比白帽用戶少。
2)用戶傳播指數(shù),用以評(píng)估用戶在網(wǎng)絡(luò)中的傳播能力的指標(biāo)。借鑒微博傳播指數(shù)BCI(Blog Communication Index),通過(guò)微博的活躍度和傳播度反映用戶傳播能力和傳播效果,利用用戶傳播指數(shù)UUCI(u)評(píng)估用戶u的傳播能力,其計(jì)算公式如式(6)所示:
其中:W1代表用戶活躍度;W2代表用戶在傳播網(wǎng)絡(luò)中能達(dá)到的傳播度;計(jì)算公式如式(7)和式(8)所示:其中:X1為UGC(總數(shù)UGC 代表用戶傳播能力);X2為原創(chuàng)UGC數(shù);X3為轉(zhuǎn)發(fā)UGC數(shù);X4為評(píng)論UGC數(shù);X5為原創(chuàng)UGC轉(zhuǎn)發(fā)數(shù);X6為原創(chuàng)UGC評(píng)論數(shù);X7為原創(chuàng)UGC 點(diǎn)贊數(shù)。式(8)中每個(gè)X特征代表一類評(píng)價(jià)指標(biāo),對(duì)每個(gè)X特征進(jìn)行X=ln(X+1)的標(biāo)準(zhǔn)化處理后分配權(quán)重。
3)用戶傳播信任度,用以評(píng)估傳播用戶在網(wǎng)絡(luò)中傳播信任的能力。通過(guò)用戶傳播網(wǎng)絡(luò)中其一階鄰居用戶給予的信任度可大致判斷其種類。通常來(lái)說(shuō),白帽用戶更傾向與白帽交互,故傳播網(wǎng)絡(luò)中節(jié)點(diǎn)的一階出度鄰居為白帽的越多,該用戶為白帽的可能性就越大,即他人給予的信任度越高。反之,當(dāng)入度節(jié)點(diǎn)的灰帽節(jié)點(diǎn)越多,代表越信任灰帽用戶,自身為灰帽用戶的可能性越大,他人給予的不信任度越高。
借鑒PageRank 算法的思想,定義節(jié)點(diǎn)u的信任度ttrust(u)與不信任度ddistrust(u)的計(jì)算公式分別如式(9)和式(10)所示:
其中:p代表用戶u的出度節(jié)點(diǎn),即用戶u評(píng)論用戶p的UGC;ttrust(u)代表節(jié)點(diǎn)p擁有的信任值;iindegree(p)為p的所有入邊數(shù)量,代表u信任p;兩者相除代表p分配給u的信任值,求和得到u從自身一階鄰居所得到的信任值;s(u)代表用戶u的初始信任值,通過(guò)參數(shù)α調(diào)節(jié)自身信任值與從一階鄰居獲取分配的信任值,更新信任用戶u為白帽的信任值。不信任值計(jì)算原理與信任值一樣,不同的是不信任值從用戶u的出度節(jié)點(diǎn)q獲取,且q的不信任值分配通過(guò)q的出度數(shù)量ooutdegree(q)計(jì)算。
4)用戶傳播率,用以評(píng)估用戶傳播占整個(gè)OSN的比重。傳播率是指信息接受人群占傳播對(duì)象的百分比,即UGC 自身網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)與整個(gè)研究對(duì)象網(wǎng)絡(luò)的比率。
其中:AAll為所有UGC 傳播網(wǎng)絡(luò)中的節(jié)點(diǎn)數(shù);為用戶u的UGC 參與傳播的用戶數(shù)量。
將傳播時(shí)序和空間兩類特征結(jié)合后更能反映用戶特性,故借鑒早期先融合多層特征再訓(xùn)練預(yù)測(cè)的思想,選擇并行策略將時(shí)序、空間兩類特征向量組合成復(fù)向量。對(duì)于輸入的時(shí)序特征x和空間特征y,通過(guò)超參數(shù)β調(diào)節(jié)權(quán)重得到社交網(wǎng)絡(luò)用戶特征向量z=β×x+(1-β)×y。最終選取判別式模型代表SVM、生成式模型代表Naive Bayes 及集成學(xué)習(xí)分類算法代表AdaBoost 檢測(cè)社交網(wǎng)絡(luò)灰帽用戶,并對(duì)檢測(cè)結(jié)果進(jìn)行比較分析。
為分析驗(yàn)證DSTC 的適用性和有效性,本文實(shí)驗(yàn)共用了4 個(gè)數(shù)據(jù)集,各數(shù)據(jù)集統(tǒng)計(jì)信息如表1所示。
表1 DSTC 數(shù)據(jù)集數(shù)據(jù)分布Table 1 Distribution of DSTC dataset
在表1中,UGC 和diffusion分別表示數(shù)據(jù)集中是否包含用戶發(fā)布的UGC 及對(duì)應(yīng)傳播信息,√代表包含,×代表不包含。當(dāng)源數(shù)據(jù)不包含UGC 或UGC傳播信息時(shí),通過(guò)網(wǎng)絡(luò)爬蟲對(duì)社交網(wǎng)絡(luò)源數(shù)據(jù)進(jìn)行數(shù)據(jù)擴(kuò)展,根據(jù)源數(shù)據(jù)中的用戶信息匹配查找并確定用戶,爬取用戶最新的信息和最近50 條UGC 及其傳播過(guò)程,保證源數(shù)據(jù)最新且數(shù)量足夠用來(lái)分析UGC 及UGC 傳播過(guò)程信息。如果出現(xiàn)用戶已注銷或源UGC 已刪除等錯(cuò)誤,則忽略該用戶或該UGC。
Caverlee 數(shù)據(jù)集由RYUMINL 等[19]提供,包含從2009 年12 月30 日 至2010 年8 月2 日 在Twitter 上 收集的社交蜜罐數(shù)據(jù)集。該數(shù)據(jù)集包含用戶基本屬性信息,用戶粉絲數(shù)隨時(shí)間的變化及這段時(shí)間內(nèi)用戶發(fā)布的推文。
根據(jù)2018 年美國(guó)中期選舉期間收集的政治推文,美國(guó)印第安納大學(xué)復(fù)雜網(wǎng)絡(luò)與系統(tǒng)研究中心的YANG 等[20]篩選收集了相關(guān)用戶及數(shù)據(jù),并手動(dòng)確定了一些真正參與了有關(guān)選舉和在線討論的真實(shí)人類用戶及發(fā)現(xiàn)的機(jī)器人帳戶。在選舉后,大多數(shù)機(jī)器人程序帳戶都已被Twitter 暫停,證實(shí)了作者標(biāo)注標(biāo)簽的正確性。
CRESCI-17[14]和CRESCI-15[21]均 由CRESCI 團(tuán)隊(duì)提供。CRESCI-15 包含手動(dòng)標(biāo)注的真實(shí)和虛假Twitter 帳戶。CRESCI-17 數(shù)據(jù)集中的僵尸用戶包含更細(xì)粒度的分類:傳統(tǒng)的垃圾用戶、社交垃圾用戶和假粉絲。傳統(tǒng)的垃圾用戶監(jiān)聽(tīng)程序是簡(jiǎn)單的漫游器,會(huì)反復(fù)發(fā)布相同的內(nèi)容;社交垃圾用戶模仿普通用戶的個(gè)人資料和行為,可以躲避某些檢測(cè)方法;假粉絲是某用戶為了擴(kuò)大影響力而購(gòu)買的用戶。本文將3 類不同類標(biāo)的灰帽用戶統(tǒng)一為灰帽用戶(不區(qū)分灰帽類型,類標(biāo)一致)。
3.2.1 傳播特征有效性驗(yàn)證
為了驗(yàn)證所提傳播時(shí)空特征是否有效,另提取傳統(tǒng)方法所用的用戶屬性特征和UGC 文本特征。用戶屬性特征包括粉絲數(shù)量、關(guān)注數(shù)量、UGC 總數(shù)、F-F 比率、性別、年齡、是否為認(rèn)證用戶等特征;UGC 文本特征包括最近一周發(fā)布UGC 的數(shù)量、包含超鏈接的UGC 占UGC 總數(shù)的比率、評(píng)論他人的UGC 占UGC 總數(shù)的比率、轉(zhuǎn)發(fā)他人的UGC 占UGC 總數(shù)的比率、@他人的UGC 占UGC 總數(shù)的比率、參與話題的UGC 占UGC總數(shù)的比率、UGC 之間的相似性等特征。針對(duì)3 類特征分別采用SVM、Na?ve Bayes、Adaboost分類算法進(jìn)行檢測(cè),實(shí)驗(yàn)結(jié)果如表2 所示。評(píng)價(jià)指標(biāo)采用準(zhǔn)確率(Accuracy)、F1-score 和AUC(Area Under Curve)。其中F1-score 代表precision(正確預(yù)測(cè)的正樣本數(shù)占所有預(yù)測(cè)為正樣本的數(shù)量的比值)和recall(正確預(yù)測(cè)的正樣本數(shù)占真實(shí)正樣本總數(shù)的比值)的調(diào)和平均,F(xiàn)1-score 越高說(shuō)明試驗(yàn)方法越有效;AUC代表ROC 曲線(以假正率(FP_rate)和真正率(TP_rate)為軸的曲線)的面積,AUC 越高,分類性能越好。
表2 不同分類器在不同數(shù)據(jù)集下特征分類性能對(duì)比Table 2 Comparison of feature classification performance of different classifiers on different datasets
表2 中加粗?jǐn)?shù)據(jù)表示不同分類方法針對(duì)同一分類器下在同一數(shù)據(jù)上分類指標(biāo)最優(yōu)的數(shù)據(jù)。由表2 可知,本文提出的DSTC 方法所提取的傳播時(shí)空特征在各個(gè)數(shù)據(jù)集上的分類效果均優(yōu)于傳統(tǒng)方法所用的用戶屬性和UGC 文本特征,證明了DSTC 所提傳播時(shí)空特征的有效性。以研究應(yīng)用最廣且分類效果差別不大的Caverlee 數(shù)據(jù)集為例,選用集成學(xué)習(xí)AdaBoost 方法時(shí),通過(guò)對(duì)比用戶特征和文本特征,發(fā)現(xiàn)傳播特征在AUC值上也能分別提高0.000 8 和0.064 6。用戶特征性能優(yōu)于文本特征是因?yàn)橄啾扔脩籼卣鲉我贿x項(xiàng)更改性不強(qiáng),灰帽用戶更容易通過(guò)發(fā)布正常UGC 文本來(lái)隱藏自身,而傳播特征直接反映用戶行為特性,可以更好地揭示用戶之間的差異,故分類效果更好。
以差異最明顯的CRESCI-17 數(shù)據(jù)集為例,選用集成學(xué)習(xí)AdaBoost 方法對(duì)比用戶特征和文本特征,發(fā)現(xiàn)傳播特征在AUC 值上分別提高0.103 2和0.112 6。此外,雖然同樣是傳播特征且在不同數(shù)據(jù)集不同分類器中傳播特征分類表現(xiàn)有差異,但整體分類性能表現(xiàn)良好。而用戶屬性、文本特征的分類性能雖然在某個(gè)數(shù)據(jù)集上優(yōu)于DSTC 傳播特征,但在其他數(shù)據(jù)集的分類效果并不理想,證明傳統(tǒng)方法并不適合所有數(shù)據(jù)集,其魯棒性不高。本文DSTC 方法提出的傳播特征適用性更高。
3.2.2 DSTC 方法有效性驗(yàn)證
為驗(yàn)證本文DSTC 檢測(cè)方法的有效性,與其他同類檢測(cè)方法進(jìn)行對(duì)比,包括與傳統(tǒng)檢測(cè)方法和當(dāng)前較為流行或新穎的灰帽用戶檢測(cè)算法進(jìn)行對(duì)比,如CRESCI 提出關(guān)于用戶UGC 傳播相似性的社交指紋數(shù)字DNA 檢測(cè)方法(DDNA)、通過(guò)常用混合模型方法檢測(cè)的SSDMV 方法和最近提出的集成用戶社交網(wǎng)絡(luò)和活動(dòng)圖網(wǎng)絡(luò)的SAN 方法,AUC 值對(duì)比如圖3 所示,實(shí)驗(yàn)對(duì)比結(jié)果如表3 所示。
表3 不同方法在不同數(shù)據(jù)集下分類性能對(duì)比Table 3 Comparison of Classification performance of different methods on different datasets
圖3 不同方法在不同數(shù)據(jù)集下AUC 的對(duì)比Fig.3 Comparison of Area Under Curve of different methods on different datasets
由圖3 和表3 可以看出,DDNA 方法在其他數(shù)據(jù)集上的效果并不理想,這是因?yàn)镈DNA 通過(guò)作者自定義設(shè)計(jì)的數(shù)字DNA 轉(zhuǎn)換方法將用戶UGC 轉(zhuǎn)為DDNA 序列,并通過(guò)計(jì)算序列之間的相似性學(xué)習(xí)兩類用戶之間的差異。DDNA 方法雖簡(jiǎn)單高效,但因?yàn)樵O(shè)計(jì)主觀性太強(qiáng),普適性并不高,只在針對(duì)表現(xiàn)差異明顯的CRESCI 數(shù)據(jù)集時(shí)有較好表現(xiàn)。
SAN 方法通過(guò)統(tǒng)一用戶社交網(wǎng)絡(luò)與UGC 傳播活動(dòng)網(wǎng)絡(luò),并耦合3 種基于隨機(jī)游動(dòng)的算法檢測(cè)灰帽用戶,該方法在各個(gè)數(shù)據(jù)集上表現(xiàn)良好。但因SAN 所采取的半監(jiān)督信任傳播策略本身存在實(shí)驗(yàn)效果穩(wěn)定但精度不夠的問(wèn)題,雖然已解決普適性和適配性問(wèn)題,但該方法在各個(gè)數(shù)據(jù)集上的表現(xiàn)也并非最優(yōu)。
SSDMV 方法效果與DSTC 差異不大甚至在有些數(shù)據(jù)集上優(yōu)于DSTC,能解決普適性和適配性問(wèn)題,但SSDMV 方法需提取用戶、文本、社交網(wǎng)絡(luò)關(guān)注圖結(jié)構(gòu)、用戶回復(fù)圖結(jié)構(gòu)等4 類特征后將各個(gè)視圖特征通過(guò)階梯網(wǎng)絡(luò)設(shè)計(jì)過(guò)濾門組件融合訓(xùn)練,方法復(fù)雜且難于計(jì)算,時(shí)空耗費(fèi)太高。
基于DSTC 的用戶檢測(cè)性能在多個(gè)數(shù)據(jù)集上優(yōu)于其他方法,例如準(zhǔn)確率最高提升26.08%,AUC 值最高提升30.54%。這是因?yàn)镈STC 提取的基于傳播時(shí)序和空間特性能更好地反映各類灰帽與白帽用戶之間的差異,簡(jiǎn)化檢測(cè)算法的同時(shí)增強(qiáng)了檢測(cè)算法的魯棒性和普適性。
綜上所述,本文所提DSTC 方法能有效檢測(cè)社交網(wǎng)絡(luò)灰帽用戶,不僅解決了灰帽用戶檢測(cè)算法只能針對(duì)特定種類的問(wèn)題,而且更加簡(jiǎn)單,檢測(cè)精度和適用性更高。
本文針對(duì)社交網(wǎng)絡(luò)灰帽用戶檢測(cè)算法適用性較差的問(wèn)題,提出一種基于傳播時(shí)空特性的檢測(cè)算法。根據(jù)社交網(wǎng)絡(luò)UGC 傳播中的時(shí)空特性定義提取相關(guān)特征,從UGC 傳播角度區(qū)分灰帽白帽之間的差異性,并融合傳播時(shí)序和傳播空間特征進(jìn)行分類檢測(cè)。實(shí)驗(yàn)結(jié)果表明,該算法在CAVERLEE、CRESCI-15、CRESCI-17 等多個(gè)數(shù)據(jù)集上效果較好,在保證檢測(cè)精度的前提下,簡(jiǎn)化了檢測(cè)算法,提高了算法適用性。下一步將研究傳播序列的上下文關(guān)系特性,同時(shí)結(jié)合特征融合算法實(shí)現(xiàn)更好的分類性能。