亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于HMM-RF模型對新浪微博異常賬號的識別與檢測

2023-01-31 08:55:48徐建國劉夢凡劉泳慧

計算機應用與軟件 2022年12期

徐建國劉夢凡劉泳慧

(山東科技大學計算機科學與工程學院山東青島 266590)

0 引言

以去中心化、開放和共享為顯著特征的Web 2.0時代，為社交網(wǎng)絡的發(fā)展創(chuàng)造了優(yōu)異的環(huán)境。以Twitter、新浪微博和知乎等為代表的社交平臺方興未艾。用戶通過這些社交平臺可以同他人互動，不受時間和地域限制地發(fā)表自己的觀點，獲取感興趣的信息和知識等。社交網(wǎng)絡為人們日常生活、工作和學習帶來極大的便利。然而，有些不法分子則利用社交平臺發(fā)布廣告，甚至釣魚、色情和暴力等方面的惡意信息，給社會和公眾都造成了極大的損害。

新浪微博作為我國最具代表性的社交網(wǎng)絡平臺之一，截至2019年底，微博月活躍用戶總數(shù)達5.16億，與2019年同期相比增長19.36%。由于新浪微博的用戶數(shù)量龐大且信息傳播迅速，不法分子往往混跡其中，他們通常憑借創(chuàng)建大量虛假賬號以及盜用用戶原有賬號等手段獲得大量賬號，再利用這些異常賬號發(fā)布惡意信息或執(zhí)行惡意行為。由此可見，對社交網(wǎng)絡中異常賬號進行檢測、判定和處理，對人們在社交網(wǎng)絡平臺的正常交互活動具有重要意義。張玉清等[1]通過分析研究異常賬號的不同表現(xiàn)形式，對社交網(wǎng)絡中異常賬號的發(fā)展階段進行了詳細的劃分，包括創(chuàng)建階段、發(fā)展階段和應用階段。其中，在應用階段，攻擊者會大量使用這些異常賬號傳播釣魚、色情及反動等方面的惡意信息或進行惡意互粉、點贊和關注等行為獲利，給社交網(wǎng)絡用戶和平臺帶來巨大的經(jīng)濟和信譽上的損失?？紤]到異常賬號在應用階段對社交平臺及其用戶的影響和危害最大，且這一時期異常賬號往往具有明顯的行為特征和內容特征，故本文以新浪微博用戶賬號為研究對象，選取隱馬爾可夫模型和隨機森林算法進行建模分析，識別應用階段的異常賬號并對其進行詳細的劃分。

1 相關工作

目前，對社交網(wǎng)絡異常賬號的檢測主要包括基于行為特征的檢測方法、基于內容的檢測方法、基于圖的檢測方法以及無監(jiān)督學習的檢測方法四種典型類別[2]。其中，基于行為特征和基于內容的檢測方法都是通過特征選擇，提取具有代表性的行為或內容特征進行訓練，構造分類器，從而在大量賬號識別出異常賬號；基于圖的檢測方法關鍵在于識別異常賬號與正常賬號各自組成的圖中的結構差異；無監(jiān)督學習的檢測方法不僅減少了使用有監(jiān)督學習的方法在樣本標記過程中耗費的時間和精力，還避免了標記的樣本數(shù)量和質量對檢測結果的影響，主要包括聚類和模型兩類方案。

異常賬號的檢測方法并沒有明確的分類界限，在實際應用中，通常會選擇其中一種或采取多種檢測技術相結合的方法，以求實現(xiàn)更高的準確率。

袁麗欣等[3]通過XGBoost算法進行特征選擇，并構造分類器，對平衡數(shù)據(jù)集和非平衡和數(shù)據(jù)集均能達到較高的檢測精度。劉琛[4]在分析用戶行為特征的基礎上，提取用戶的粉絲數(shù)、關注數(shù)增量及微博中@的數(shù)量等特征進行建模并識別虛假粉絲、過度廣告、過度轉發(fā)以及發(fā)布惡意信息等異常賬號的行為。Egele等[5]選取了time、message source、message text/language、message topic、links in messages、direct user interaction和proximity這7個基于消息內容的特征構建COMPA檢測系統(tǒng)，對用戶發(fā)布的新消息與歷史消息特征進行對比，從而識別被劫持賬戶，也就是常說的被盜用賬號。Amleshwaram等[6]則提取了15個消息內容特征用于檢測Twitter中的垃圾郵件發(fā)送者，并對這些異常賬號進行k-means聚類，進而得到在集中時間段傳播相同或相似惡意信息以及執(zhí)行各種惡意行為的具有群體行為特征的spam campaign賬號[1]。周清清等[7]先用抽取的特征屬性構造分類器進行受害者預測，再將預測結果運用到社交網(wǎng)絡圖模型中，最后結合隨機游走算法將sybil賬號[1]從大量正常賬號中分離出來。

本文提出一種基于隱馬爾可夫模型和隨機森林算法相結合的異常賬號識別與分類方法。該方法是在對異常賬號的特征及表現(xiàn)進行詳盡的分析的基礎上，首先借助隱馬爾可夫模型，完成賬號一段時間內狀態(tài)序列的追溯，從而判斷其是否屬于異常賬號；然后使用隨機森林算法對判定為異常賬號的樣本進行分類；最后給出細致全面的分析結論，從而有效提升了異常賬號檢測工作的準確率。

2 基于HMM-RF的異常賬號識別與分類模型

現(xiàn)有異常賬號識別工作多為通過提取特征屬性構建分類器，利用分類器對樣本數(shù)據(jù)進行分類，從而直接得到正常賬號與各類異常賬號。本文提出的方法是將異常賬號的檢測工作分為兩個步驟：首先建立異常賬號識別模型，將正常賬號與異常賬號分離開來；然后再對判定為異常的賬號進行分類，得到具體的異常賬號類別。

2.1 模型概述

本文提出的模型主要由以下兩部分構成：異常賬號識別模型和異常賬號分類模型。數(shù)據(jù)集中數(shù)據(jù)經(jīng)過清洗、集成和規(guī)約等步驟并完成特征提取得到特征屬性后，選擇合適的特征屬性完成異常賬號的識別，將識別模型得到的結果用于分類，從而得到最終檢測結果，具體檢測流程如圖1所示。

圖1 異常賬號識別與分類流程

異常賬號識別模型采用了基于內容特征的異常賬號分析方法并結合隱馬爾可夫模型進行構建，從而實現(xiàn)對異常賬號的識別，其主要功能在于對輸入的樣本數(shù)據(jù)進行判定，若輸入樣本被判定為異常賬號，則由異常賬號分類模型進行進一步的分析。異常賬號分類模型則是考慮到隨機森林算法能夠較好地處理高維特征的樣本，且與其他算法相比，具有極好的準確率等特點，故本文選取隨機森林算法構建異常賬號分類模型，從而判斷異常賬號的具體類別。

2.2 特征選擇

微博賬號中包含的信息多種多樣，主要有用戶個人信息、用戶行為特征與用戶發(fā)布微博特的內容特征三個方面。每種信息類型包括的可用于檢測賬號狀態(tài)是否異常的特征屬性有很多，比較有代表性的特征屬性如表1所示。

表1 信息類型與特征屬性的對應關系

本文旨在檢測與鑒別發(fā)布廣告、釣魚、色情及暴力等垃圾信息的異常賬號。由于這類賬號通常發(fā)布上述垃圾信息，其發(fā)布的微博內容會同正常賬號之間存在很大差異，并且不法分子多致力于廣泛傳播其發(fā)布的垃圾信息，卻幾乎不會像正常用戶那樣存在評論、轉發(fā)和互動等社交行為。

由此可見，異常賬號在行為特征與內容特征方面會與正常賬號存在明顯差異，故本文將在上述兩類特征屬性中進行特征選擇。

本文采用基于網(wǎng)絡爬蟲的數(shù)據(jù)獲取技術[4，8]，可直接爬取微博用戶的ID、粉絲數(shù)、發(fā)博數(shù)和點贊數(shù)等特征值，對爬取到的用戶發(fā)布微博的內容采用提取特殊符號等文本處理技術獲得用戶微博內容中@的數(shù)量以及使用一對“#”標識的話題的數(shù)量等特征值[9]。將爬取的數(shù)據(jù)以每個賬號一條記錄的形式存儲在MySQL數(shù)據(jù)庫中，截圖如圖2所示。

圖2 爬取的微博賬號信息數(shù)據(jù)(部分)

本文通過多次試驗，統(tǒng)計多個特征對異常賬號判斷的貢獻值，從而得到每個特征在進行賬號異常檢測時的相對貢獻大小。選取用戶發(fā)微博頻率、微博中含URL的比率以及消息相似度三個相對貢獻最大的特征作為基本的特征屬性進行識別模型的構建。其中，發(fā)博頻率指的是最近兩次發(fā)博時間間隔的倒數(shù)。為了便于計算，本文使用用戶一天發(fā)微博條數(shù)代替發(fā)博頻率。URL比率則由用戶近期最新發(fā)布的100條微博中含URL鏈接微博與100(發(fā)博數(shù)量不足100則按實際發(fā)布微博總數(shù))的比值計算得到[10]。消息相似度的計算離不開文本向量化方法，考慮到微博字數(shù)限制、用戶發(fā)博習慣和垃圾信息文本本身特點等原因，本文采用TF-IDF[11]的統(tǒng)計方法，以詞為單位對消息文本進行向量化。通過文本向量化，計算兩個向量的余弦相似度，該值即為兩篇微博的消息相似度。

2.3 用戶隱私保護

由于識別、檢測異常賬號需要用到用戶的歷史行為信息，這就不可避免地帶來隱私泄露的問題?，F(xiàn)階段常用的隱私保護手段是基于聚類的K-匿名算法。K-匿名算法是通過對數(shù)據(jù)進行更概括、抽象的描述和隱匿某些數(shù)據(jù)項的手段，使每條記錄至少與數(shù)據(jù)表中其他k-1條記錄具有完全相同的準標識符屬性值，從而減少鏈接攻擊導致的隱私泄露。

采用K-匿名算法實現(xiàn)用戶隱私保護首先需要對用戶數(shù)據(jù)類型進行分類：

(1) 顯示標識符：用戶ID。

(2) 準標識符：昵稱、性別、年齡、生日和注冊時間等。

(3) 敏感屬性：真實姓名、聯(lián)系電話、郵箱和住址等。

(4) 非敏感屬性：粉絲數(shù)、點贊數(shù)、評論數(shù)、轉發(fā)數(shù)和發(fā)布微博數(shù)量等。

為了保護敏感信息不被泄露，需要對標識序列進行脫敏處理。本文采用數(shù)據(jù)泛化的技術將可標識列數(shù)據(jù)替換為語義一致但更通用的數(shù)據(jù)。如當用戶年齡為27歲時，可以用≥25表示。這樣年齡作為準標識屬性，相同的數(shù)值會關聯(lián)到多條記錄，同理，對其他準標識屬性進行泛化處理，從而使攻擊者無法確定與特定用戶相關的記錄，也就保護了用戶的隱私信息。

2.4 異常賬號識別模型建立

社交網(wǎng)絡中一段時間內賬號的不同狀態(tài)可以看作一個馬爾可夫鏈，基于這一特性，本文選取隱馬爾可夫模型對選取的特征屬性進行建模。構建隱狀態(tài)集S={S1：正常賬號，S2：異常賬號}和觀測變量集V={v1,v2,…,v8}。觀測變量集V中的8個觀測變量與特征屬性值對應關系如表2所示。

表2 觀測變量與特征屬性值的對應關系

其中，取μ=1，ρ=0.7，θ′=0.3。由此建立隱狀態(tài)樣本數(shù)M=2、觀測樣本數(shù)N=8的隱馬爾可夫模型，記為λ={M，N，π，A，B}，其中，π表示初始狀態(tài)分布，A表示狀態(tài)轉移概率矩陣，B表示觀測樣本概率[12]。

事先隨機選取300個新浪微博用戶，借助爬蟲技術爬取相關數(shù)據(jù)，經(jīng)過預處理，選取這些用戶20天的數(shù)據(jù)(即T=20)進行參數(shù)訓練，最終得到HMM的參數(shù)如下：

π=(0.624 6,0.375 4)

(1)

(2)

(3)

利用維特比算法追溯賬號的狀態(tài)序列需定義維特比變量δt(i)，表示t時刻之前的狀態(tài)序列為q1,q2,…,qt-1，且在t時刻的狀態(tài)為Si產(chǎn)生觀測序列為o1,o2,…,ot的最大概率，即：

(4)

設記憶變量φt(i)記錄的是概率最大路徑上當前狀態(tài)的前一個狀態(tài)，顯然，有遞歸關系：

(5)

(6)

最終可得到T時刻的狀態(tài)為：

(7)

再沿T時刻逆向進行狀態(tài)回溯，可得：

(8)

最終利用維特比算法求得的最優(yōu)路徑，也就是微博賬號的狀態(tài)序列即為：

(9)

綜上，根據(jù)得到的微博賬號狀態(tài)序列，判斷當前賬號是否異常，若屬異常，則進行分類，確定其所屬異常賬號類別。

2.5 異常賬號分類模型建立

社交網(wǎng)絡異常賬號的檢測實質上是一個分類任務，簡單而言，就是將數(shù)據(jù)集中大量樣本劃分為正常賬號和異常賬號的二分類任務，其中異常賬號再細分為多個類別，便于進一步處理。

2.5.1異常賬號分類

目前，尚無明確與統(tǒng)一的異常賬號分類類別與標準。本文根據(jù)異常賬號在其應用階段的表現(xiàn)與危害將其分為以下三類。

(1) 廣告散布者：發(fā)布的微博內容多為一些與產(chǎn)品、收費服務的網(wǎng)站、App等有關的信息，吸引用戶點擊鏈接，購買產(chǎn)品或服務，或下載其推薦的App，并從中獲利。這類異常賬號的主要特征表現(xiàn)為：微博發(fā)布頻率高，消息相似度較大且通常包含相關鏈接。

(2) 虛假粉絲：為實現(xiàn)某些博主在短時間內迅速獲得大量關注度的目的，該類賬號會根據(jù)用戶需求對其關注成為其粉絲，但通常僅限于作為粉絲而很少甚至不會與其進行交互。主要特征為：很少或幾乎不發(fā)布微博，幾乎不會與他人互動，關注數(shù)量增長異常迅速等。

(3) 垃圾營銷：發(fā)布包含暴力、色情、釣魚或反動等信息，以牟取不法利益。主要特征表現(xiàn)為：微博發(fā)布頻率較高，使用設備次數(shù)頻繁，更換登錄設備及地址頻繁，微博中多包含URL。

2.5.2異常賬號分類模型的構建

考慮到社交網(wǎng)絡賬號特征屬性多且復雜的特點，同時為了減少篩選特征屬性的工作量以及剔除屬性造成的信息流失等問題，本文采用處理高維度數(shù)據(jù)性能比較優(yōu)異的隨機森林算法[13]對異常賬號進行分類。隨機森林是通過建立多個決策樹，并由個別輸出樹結果的眾數(shù)決定最終分類結果的分類器[14]，該算法工作原理如圖3所示。

圖3 隨機森林算法原理示意圖

假設通過識別模型共檢測出的異常賬號共N個，特征屬性共有M個。在構建隨機森林時，借助Bagging策略生成不同的數(shù)據(jù)集，就可以構建多棵決策樹，繼而形成“森林”。Bagging策略[15]是指通過從樣本集中有放回的隨機抽取N次的方法生成一個新樣本；在M個特征屬性中隨機抽取m(m<

Cp=arg max(count(ci))

(10)

2.6 被盜用類異常賬號的識別

被盜用類異常賬號通常是指用戶正常使用的賬號被黑客入侵并占用，同時利用這些賬號牟利。諸如利用這部分賬號發(fā)布廣告或其他垃圾信息；利用該類賬號向原本用戶好友行騙；竊取他人私密信息從而盜用他人銀行卡、手機支付軟件等的賬號密碼。及時、準確地識別被盜用類異常賬號，并對用戶發(fā)出警示，以便用戶盡早采取賬號申訴、凍結等相應措施避免個人敏感信息以及經(jīng)濟方面的不可挽回損失，對用戶個人及新浪微博等社交平臺均具有重要意義。

通過對被盜用類異常賬號的描述可知，該類賬號通常初始狀態(tài)是正常的，后來突然在某個時間節(jié)點變?yōu)楫惓顟B(tài)。在2.4節(jié)中構建的基于HMM的異常賬號識別模型可以利用維特比算法追溯賬號在一段時間內的狀態(tài)變化序列。根據(jù)該序列，可以對被盜用的賬號進行初步判斷，即滿足上述條件的狀態(tài)序列對應的賬號將被標記為可疑賬號。

為了進一步對可疑賬號進行分析，本文采用COMPA檢測系統(tǒng)[5]確定可疑賬號中的被盜用賬號，該系統(tǒng)通過該用戶在線時長、消息來源、語言、主題、消息中的鏈接、直接用戶交互以及鄰近性七個方面分別構建相應的行為模型，其中任一特征發(fā)生變化，均會導致異常分數(shù)變化，當全局異常分數(shù)變化達到或超過設定的閾值時，可以認為該賬號被盜用。

通過HMM追溯賬號狀態(tài)變化路徑，在識別異常賬號的同時，將滿足被盜用賬號特征的異常賬號標記為可疑賬號，實現(xiàn)初步判斷，再由COMPA檢測系統(tǒng)對這部分可疑賬號做進一步分析，得到被盜用賬號。這樣可以大大減少COMPA系統(tǒng)的工作量，從而提升檢測效率。

考慮到攻擊者盜用用戶正常賬號最終目的是利用這部分賬號牟利，因此這部分賬號最終極大可能被用來發(fā)布惡意信息或執(zhí)行惡意行為。根據(jù)其在應用階段的最終表現(xiàn)與危害仍然可以將其歸為2.5.1節(jié)中劃分的三類異常賬號中的一種。故本文不將被盜用類異常賬號作為重點進行分析，下文的實驗僅針對使用HMM-RF模型對正常賬號與上述三類異常賬號的分類效果進行分析與評價。

3 實驗與結果分析

為驗證本文構建HMM-RF模型的有效性，從新浪微博上收集數(shù)據(jù)對模型進行檢測與評估。并采用隨機森林算法(RF)和貝葉斯神經(jīng)網(wǎng)絡(BNN)進行對比分析，以求全面、客觀地對本組合模型在異常賬號識別與分類能力作出分析和評價。

本次實驗用到的數(shù)據(jù)集是于2019年3月至6月利用網(wǎng)絡爬蟲技術在新浪微博爬取到的5 000條用戶的賬號及其相關信息。并在2019年12月對這些賬號進行了訪問，以驗證賬號是否仍在正常使用，其中部分賬號已被用戶自行注銷或半年以上未有使用痕跡。剔除這部分賬號后，得到有效數(shù)據(jù)4 437條。

本文實驗均在Python 3.7環(huán)境下進行。采用本文模型、隨機森林算法及貝葉斯神經(jīng)網(wǎng)絡三者在實驗環(huán)境、操作步驟完全相同的條件下，分別對數(shù)據(jù)集進行異常賬號檢測處理，并選取準確率、召回率和F1值[16-18]作為評價標準，為了避免偶然性帶來的實驗誤差，以下實驗結果均為重復相同實驗五次后取均值得到。

(11)

(12)

(13)

顯然，相比于將正常賬號判定為異常賬號的代價，將異常賬號誤判為正常賬號對平臺和公眾來說損失更大，因此，在模型評價指標中，三類異常賬號分類結果的召回率應該占據(jù)重要的地位[3]。最終三種模型各自得到分類結果如表3所示。

表3 HMM-RF、RF與BNN分類結果對比(%)

續(xù)表3

由表3的結果分析可知：

(1) HMM-RF模型對正常賬號劃分的準確率為96.61%，對異常賬號中的廣告散布者分類準確率高達92.83%，對虛假粉絲的分類準確率到達了81.31%，對垃圾營銷類賬號而言，準確率為72.05%，均顯著優(yōu)于使用RF和BNN的分類準確率。

(2) HMM-RF模型對正常賬號以及本文劃分的三類異常賬號的分類結果均優(yōu)于使用RF或BNN模型時的準確率，說明HMM-RF模型具有較強的分類性能。

(3) 對廣告散布者這類異常賬號而言，使用本文模型召回率為79.92%，而RF和BNN召回率分別達到75.89%和70.38%；虛假粉絲類異常賬號使用三種模型得到召回率分別為71.67%、68.66%和73.22%；最后一種垃圾營銷類異常賬號使用HMM-RF模型和BNN召回率分別能達到67.53%和68.75%，而使用RF的召回率僅有58.75%。

考慮到模型對異常賬號的識別能力遠比對正常賬號的識別能力更有意義，本文HMM-RF模型對三類異常賬號的召回率比RF模型分別高出約4百分點、3百分點和10百分點；相比于BNN、HMM-RF對廣告散布者和垃圾營銷兩類異常賬號的召回率更高，虛假粉絲中，雖然BNN召回率的值大于HMM-RF,但不足2百分點的優(yōu)勢對應的是17百分點的準確率差異，證明HMM-RF模型具有更好的分類性能和更強的泛化能力[19]，在今后應用中也更具使用價值。

4 結語

現(xiàn)有異常賬號檢測工作的實質多為將其看作多分類任務，使用分類器將數(shù)據(jù)集中的數(shù)據(jù)劃分為正常賬號和各類異常賬號。本文選取隱馬爾可夫模型與隨機森林算法相結合，構建HMM-RF模型實現(xiàn)了先識別、后分類的異常賬號檢測。與隨機森林算法和貝葉斯神經(jīng)網(wǎng)絡模型相比，本文模型能夠顯著提高分類精度，在微博異常賬號識別與檢測的應用方面更具應用價值和潛力。