亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于隨機森林的微博僵尸賬號檢測研究

        2020-12-07 06:46:52徐華露湯娟劉嘉勇
        現(xiàn)代計算機 2020年30期
        關(guān)鍵詞:特征用戶檢測

        徐華露,湯娟,劉嘉勇

        (四川大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,成都610225)

        0 引言

        僵尸賬號[1]通常指由程序操控,模仿人類在社交網(wǎng)絡(luò)上的行為,對正常的社交行為產(chǎn)生影響的特殊賬號。僵尸賬號作為社交機器人[4]的一種,活躍在各大社交平臺。它常常被用來擴散虛假信息、操縱輿論、竊取個人信息等[6],對社交網(wǎng)絡(luò)造成了負(fù)面影響[1]。

        在過去的研究中,通常關(guān)注于對僵尸賬號的檢測問題[1,11]。文獻(xiàn)[3,12]將用戶粉絲數(shù)、關(guān)注數(shù)、微博數(shù)等行為特征和機器學(xué)習(xí)方法相結(jié)合來檢測僵尸賬號。方明等人[8]對用戶名進行分類來檢測僵尸賬號。文獻(xiàn)[7,13]則著重于分析用戶粉絲結(jié)構(gòu)等網(wǎng)絡(luò)特征。文獻(xiàn)[12]從urls、@數(shù)等文本特征入手檢測僵尸賬號。研究者通過發(fā)現(xiàn)僵尸賬號與正常賬號間的特征差異性,如文本特征[12]、行為特征[13]或網(wǎng)絡(luò)結(jié)構(gòu)特征[9],結(jié)合機器學(xué)習(xí)的方法來檢測僵尸賬號。

        雖然已經(jīng)有許多研究者通過各種方法分析并檢測僵尸賬號,但僵尸賬號不斷發(fā)展,其檢測仍然是社交網(wǎng)絡(luò)安全研究的重難點。同時,目前針對僵尸賬號的研究并未針對不同類別的僵尸賬號,無法適應(yīng)不同僵尸賬號的多樣性。本文從不同類別的僵尸賬號的差異性入手,基于基礎(chǔ)特征和內(nèi)容特征,分析五類的僵尸賬號之間的差異性與其和正常賬號的差異性,結(jié)合隨機森林算法檢測僵尸賬號。實驗結(jié)果表明,各類僵尸賬號與正常賬號相似度各不相同,其中初級僵尸賬號與正常賬號差距最為明顯,檢測準(zhǔn)確率最高,而仿真僵尸賬號最接近正常賬號,準(zhǔn)確率最低。

        1 微博賬號收集及特征分析

        1.1 基于蜜罐的僵尸粉絲數(shù)據(jù)收集

        在泛娛樂化和商業(yè)化利益的驅(qū)動下,對虛假粉絲的買賣不斷增多,逐漸形成僵尸賬號買賣市場[5]。在目前的市場上,主要有以下五類僵尸賬號:

        初級僵尸賬號:注冊時間較短,僅在注冊后幾天發(fā)布微博,無粉絲及關(guān)注,購買后粉絲列表留存率為0,極易被微博系統(tǒng)識別為僵尸賬號。

        高級僵尸賬號:注冊時間較長,僅在注冊后幾年更新微博,且與其他僵尸賬號存在互動行為,購買后粉絲列表留存率為0,不易被系統(tǒng)識別。

        仿真僵尸賬號:小部分賬號部分定期更新微博,與其他僵尸賬號存在極少互動行為,購買后粉絲列表留存率幾乎為0,易于被系統(tǒng)識別。

        排名僵尸賬號:注冊時間長,用戶等級較高,部分賬號部分定期更新微博,與其他賬號存在更多的互動行為,粉絲列表留存低,部分難以被系統(tǒng)識別。

        達(dá)人僵尸賬號:注冊時間長,有大量粉絲,定期更新微博,購買后粉絲列表留存率較高,難以被系統(tǒng)識別。

        蜜罐是收集僵尸賬號的一種常用手段。本文注冊5 個微博賬號作為蜜罐頁面,并從一家提供僵尸賬號服務(wù)的公司購買了上述五類僵尸賬號,分別注入相應(yīng)蜜罐頁面,并使用爬蟲采集其個人信息等相關(guān)信息。表1提供了收集的五類僵尸賬號的信息。

        表1 蜜罐賬戶的匯總統(tǒng)計

        1.2 基礎(chǔ)特征分析

        本文從正常賬號中隨機抽取出500 個賬號,與五類僵尸賬號一同進行了基礎(chǔ)特征值分析,做出了相應(yīng)的CDF 比對圖。其中包括用戶名復(fù)雜度,用戶的粉絲數(shù),用戶的關(guān)注數(shù),注冊時間五方面的比對,并繪制了五類僵尸賬號的均值線。比對結(jié)果如下:

        用戶名復(fù)雜度:本文使用Jieba 算法對六組賬戶中的用戶名進行了分詞。設(shè)n為詞的數(shù)量,K為數(shù)詞的個數(shù),leni為第i個詞的長度。則有用戶名復(fù)雜度僵尸賬號的用戶名復(fù)雜度低于正常賬號。初級僵尸賬號的用戶名結(jié)構(gòu)為文字+隨機數(shù)字的形式,可讀性較差。達(dá)人僵尸賬號的用戶名中含有較少的符號,可讀性較強。

        注冊時間:正常僵尸賬號的注冊天數(shù)分布均勻,而五類僵尸賬號的注冊天數(shù)CDF 圖呈階梯型上升,絕大部分用戶的注冊時間具有一致性。其中初級僵尸賬號的注冊時間均在購買粉絲日期的前4 天,CDF 分布圖集中,達(dá)人僵尸賬號多于早期統(tǒng)一注冊。

        用戶的粉絲數(shù):達(dá)人僵尸賬號的粉絲數(shù)量分布遠(yuǎn)遠(yuǎn)高出正常賬號數(shù)倍,正常賬號的粉絲數(shù)量分布較為均衡,初級僵尸賬號幾乎沒有粉絲,其他幾類僵尸賬號粉絲分布較為集中。

        用戶的關(guān)注數(shù):正常用戶的關(guān)注數(shù)量多數(shù)小于500,且與僵尸賬號有明顯的差別。其中初級僵尸賬號幾乎沒有關(guān)注任何用戶,高級僵尸賬號長期進行粉絲買賣服務(wù),因此具有較大的關(guān)注量,關(guān)注數(shù)絕大部分高于2000。達(dá)人僵尸賬號的關(guān)注數(shù)集中于1000-2000之間。

        綜上所述,較為常見的初級僵尸賬號與正常賬號之間存在較大差異性。絕大多數(shù)達(dá)人僵尸賬號具有更多的粉絲數(shù)量、較為均衡的關(guān)注數(shù),更集中的注冊時間,更具可讀性的用戶名,普通用戶更難從海量賬號中區(qū)分出達(dá)人僵尸賬號。

        圖1 基礎(chǔ)特征CDF圖

        1.3 傳播特征分析

        為了了解五類僵尸賬號之間,五類僵尸賬號與正常賬號之間的傳播特性差異。本文比較分析了僵尸賬號與正常賬號的微博傳播特征和內(nèi)容特征。

        表2 比對了僵尸賬號與正常賬號的微博傳播特性。從表中可以看出,仿真僵尸賬號、初級僵尸賬號和達(dá)人僵尸賬號的微博被轉(zhuǎn)發(fā)概率、點贊概率以及微博的評論概率99%以上都為0,并且?guī)缀鯖]有數(shù)據(jù)在10以上,與正常賬號相比有明顯差異。排名僵尸賬號則被轉(zhuǎn)發(fā)率、點贊率,和評論率則更接近正常賬號。高級僵尸賬號其次。

        表2 微博傳播特征匯總

        表3 比對了僵尸賬號與正常賬號的微博傳播內(nèi)容特性。從表中可以看出,初級僵尸賬號與其他四類僵尸賬號之間具有明顯的傳播性差異,它們發(fā)布的微博數(shù)量較少,幾乎不存在URL,@或是#標(biāo)簽,且微博也較短。達(dá)人僵尸賬號的行為與初級僵尸賬號的行為類似,但其發(fā)布的微博較長,接近平均水平。超級僵尸賬號與排名僵尸賬號發(fā)布了大量的微博,且存在較多的URL、@和#標(biāo)簽。其中超級僵尸賬號的URL 的比例遠(yuǎn)高于正常賬號,甚至一條微博中帶有多個URL 連接。仿真僵尸賬號雖然微博較多,但其中含有的URL、@和#話題標(biāo)簽比率都較少,和達(dá)人僵尸賬號的傳播特征較為類似。

        表3 微博傳播內(nèi)容特征匯總

        綜上所述,在傳播特性方面,五類僵尸賬號之間具有較大的差異性。初級僵尸賬號、仿真僵尸賬號以及達(dá)人僵尸賬號的傳播行為較少,遠(yuǎn)低于正常值。而高級僵尸賬號以及排名僵尸賬號的各項傳播特征遠(yuǎn)高于正常值。五類僵尸賬號從事的業(yè)務(wù)不同,導(dǎo)致其產(chǎn)生差異性。

        2 基于隨機森林的僵尸賬號檢測方法

        2.1 檢測模型框架

        基于隨機森林的僵尸賬號檢測模型如圖2 所示,該模型主要包括兩部分:數(shù)據(jù)特征提取模塊以及隨機森林檢測模塊。本文使用Python 爬蟲獲取到原始數(shù)據(jù)集,對原始數(shù)據(jù)集進行清洗以及預(yù)處理后,進行基礎(chǔ)特征分析和傳播特征分析,轉(zhuǎn)化為特征集向量。最后,本文將數(shù)據(jù)集隨機分為80%的訓(xùn)練數(shù)據(jù)集和20%的測試數(shù)據(jù)集,根據(jù)特征集向量對數(shù)據(jù)進行訓(xùn)練和檢測。

        圖2 檢測模型框架

        2.2 隨機森林算法概述

        隨機森林是一個包含多個決策樹的分類器,隨機森林可以處理大量的輸入變數(shù),并且可以平衡誤差,產(chǎn)生高準(zhǔn)確度的分類器。本文提取出每個用戶的特征組,其中隨機選擇80%的樣本作為訓(xùn)練集N_train,余下部分為測試集N_test。要建立m 棵樹的隨機森林的具體步驟大致如下:

        (1)構(gòu)建訓(xùn)練集與測試集:通過Bogging 方法從N_train 中通過重采樣的方式產(chǎn)生n 個樣本。

        (2)構(gòu)建標(biāo)準(zhǔn)特征集:對特征樣本集F 進行標(biāo)準(zhǔn)化處理,將數(shù)據(jù)按比例縮放,使之落入(0,1)的特定區(qū)間內(nèi),得到標(biāo)準(zhǔn)特征集F_standard。

        (3)選取特征并構(gòu)建決策樹:F_standard 特征數(shù)目為11,用基尼指數(shù)選擇其中5 個最優(yōu)特征,若基尼值為則屬性a 的基尼指數(shù)為:根據(jù)使基尼指數(shù)最小的屬性進行選擇,決定最優(yōu)二值切分點進行分裂。

        (4)構(gòu)建隨機森林:重復(fù)步驟(3)m 次,產(chǎn)生m 棵決策樹。

        (5)測試數(shù)據(jù):每一棵決策樹都對N_test 中的每一條數(shù)據(jù)進行分類,統(tǒng)計m 個分類結(jié)果,票數(shù)最多的類別,即為該樣本的最終類別。

        3 僵尸賬號檢測試驗

        3.1 實驗數(shù)據(jù)

        本文通過Python 爬蟲,獲取了2,496 個僵尸賬號的數(shù)據(jù),10,000 個正常用戶的數(shù)據(jù),以及共12,496 條用戶相關(guān)數(shù)據(jù)。提取出的每個用戶的特征組如表4 所示,包括用戶名復(fù)雜度、用戶的粉絲數(shù)、用戶的關(guān)注數(shù)、用戶注冊時間、用戶發(fā)布微博數(shù)、用戶微博原創(chuàng)率、用戶微博轉(zhuǎn)發(fā)率、微博中所包含的url、話題和@比率、微博平均長度。

        表4 特征分類描述

        3.2 評估指標(biāo)

        本文在計算每類賬號評估指標(biāo)時,將該類作為正類,其他類別統(tǒng)一視為負(fù)類,將多分類問題轉(zhuǎn)換為二分類問題。實驗的采用的評估指標(biāo)如下:

        3.3 實驗結(jié)果及分析

        本文將數(shù)據(jù)集隨機分為80%的訓(xùn)練數(shù)據(jù)集和20%的測試數(shù)據(jù)集,根據(jù)上述特征使用隨機森林對僵尸賬號進行了檢測。在檢測過程中,將被檢測的一類僵尸賬號作為正類,其余類別的僵尸賬號和正常賬號一起作為負(fù)類,得到實驗結(jié)果如表5 所示。結(jié)果表明,初級僵尸賬號檢測準(zhǔn)確率最高,其精確率、召回率及F1 值也較高。說明初級僵尸賬號的特征較為明顯,更易于識別。而仿真僵尸賬號擁有最低的準(zhǔn)確率和精確率,說明其特征近似于正常賬號,因此較難檢測。

        表5 各類僵尸賬號檢測的性能指標(biāo)對比

        4 結(jié)語

        本文專注于研究五類微博僵尸賬號的特征與檢測。通過基于蜜罐的比較分析法,描繪出目前五類僵尸賬號的特征:僵尸賬號產(chǎn)業(yè)的控制者在不斷生產(chǎn)并培養(yǎng)僵尸賬號,根據(jù)業(yè)務(wù)需求提升僵尸賬號的仿真程度,因此導(dǎo)致不同種類的僵尸賬號具有不同的特征。最終,本文隨機森林對僵尸賬號進行檢測,其中初級僵尸賬號與正常賬號差異較為明顯,得到的準(zhǔn)確率最優(yōu),而仿真僵尸賬號則最接近于正常賬號,其準(zhǔn)確率最低。

        猜你喜歡
        特征用戶檢測
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        如何表達(dá)“特征”
        不忠誠的四個特征
        抓住特征巧觀察
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        小波變換在PCB缺陷檢測中的應(yīng)用
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        狼狼综合久久久久综合网| 久久av一区二区三区下| 国产亚洲精品综合一区二区| 国产成年人毛片在线99| 国产网红主播无码精品| 成人无码午夜在线观看| 国产精品日韩中文字幕| 亚洲不卡在线免费视频| 寂寞少妇做spa按摩无码| 色拍拍在线精品视频| 无码国产精品一区二区免费式芒果| 久久一区二区av毛片国产| 久久精品伊人久久精品伊人| 日本精品一区二区三区福利视频| 无码人妻av一二区二区三区| 欧美一级视频精品观看| 黑丝国产精品一区二区| 久久精品国产亚洲av麻豆瑜伽| 无码福利写真片视频在线播放| 麻豆AV免费网站| 日韩亚洲在线一区二区| 中文字幕无码中文字幕有码| 性色av 一区二区三区| 午夜亚洲国产精品福利| 中国亚洲av第一精品| 亚洲av无码国产精品色午夜软件| 国产天美传媒性色av| 国产中文字幕乱码在线| 国产精品一区二区久久蜜桃| 欧美综合天天夜夜久久| 亚洲国产综合人成综合网站| 国产女主播免费在线观看| 亚洲综合在线一区二区三区| 日本一本免费一二区| 久久99精品国产99久久6男男| 青草青草久热精品视频国产4| 久久中文字幕暴力一区| 欧美性猛交xxxx富婆| 午夜精品一区二区三区无码不卡| 国产成人av区一区二区三| 麻豆蜜桃av蜜臀av色欲av|