亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于統(tǒng)計(jì)特征的微博垃圾用戶檢測(cè)系統(tǒng)研究

        2019-03-20 14:37:35范雨萌易秀雙倪石建王興偉
        網(wǎng)絡(luò)空間安全 2019年10期
        關(guān)鍵詞:在線檢測(cè)

        范雨萌 易秀雙 倪石建 王興偉

        摘?? 要:微博作為國(guó)內(nèi)用戶規(guī)模較大的在線社交網(wǎng)絡(luò)平臺(tái)之一,面臨著來自垃圾用戶的困擾。垃圾用戶通過微博平臺(tái)發(fā)起網(wǎng)絡(luò)攻擊,污染網(wǎng)絡(luò)環(huán)境、威脅用戶隱私安全,甚至造成了經(jīng)濟(jì)損失,因此如何有效地檢測(cè)垃圾用戶是一個(gè)亟待解決的問題。目前,基于機(jī)器學(xué)習(xí)的檢測(cè)方法并沒有考慮時(shí)間的變化性,隨著時(shí)間推移其檢測(cè)性能下降。文章采用機(jī)器學(xué)習(xí)分類方法挖掘用戶信息與微博信息的統(tǒng)計(jì)特征,基于Spark大數(shù)據(jù)平臺(tái),設(shè)計(jì)并實(shí)現(xiàn)了一套微博垃圾用戶檢測(cè)系統(tǒng)。該系統(tǒng)結(jié)合傳統(tǒng)的離線檢測(cè)與在線檢測(cè),通過在線檢測(cè)解決時(shí)間的變化性問題,優(yōu)化了傳統(tǒng)離線檢測(cè)的性能。文章的實(shí)驗(yàn)結(jié)果表明該系統(tǒng)離線檢測(cè)部分的準(zhǔn)確率最高可達(dá)到93.4%,在線檢測(cè)部分的準(zhǔn)確率最高可達(dá)到94.8%,均高于微博反垃圾系統(tǒng)的67.4%。

        關(guān)鍵詞:垃圾用戶檢測(cè);離線檢測(cè);在線檢測(cè);半監(jiān)督學(xué)習(xí)檢測(cè);主動(dòng)學(xué)習(xí)檢測(cè)

        中圖分類號(hào):TP391????????? 文獻(xiàn)標(biāo)識(shí)碼:A

        Research on weibo spammer detection systembased on statistical features

        Fan Yumeng Yi Xiushuang Ni Shijian Wang Xingwei

        Abstract: As one of the large-scale online social networking platforms for domestic users, Weibo faces troubles from spammers. Spammers launch attacks through weibo platform, polluting the network environment,threatening users' security of privacy, and even causing economic losses. Therefore, how to effectively detect spammers is an urgent problem to be solved. Current detection methods based on machine learning do not take into account the variability of time, and their detection performance declines over time. In this paper, the machine learning classification method is used to mine the statistical characteristics of user information and microblog information,designed and implemented a set of Weibo spammer detection system based on Spark big data platform. The system combines traditional offline detection and online detection. Solving the problem of time variability through online detection, and optimizes the performance of traditional offline detection. The experimental results in this paper show that the accuracy of the off-line detection part of the system can reach 93.4%, and the accuracy of the online detection part can reach 94.8%, which is higher than 67.4% of Weibo anti-spam system.

        Key words: spammer detection; offline detection; online detection; semi-supervised learning detection ; active learning detection

        1 引言

        隨著互聯(lián)網(wǎng)的飛速發(fā)展,人們?cè)絹碓揭揽烤W(wǎng)絡(luò)進(jìn)行日?;顒?dòng)[1],微博等在線社交網(wǎng)絡(luò)已成為人們交流互動(dòng)的重要平臺(tái),同時(shí)也為垃圾用戶提供了傳播惡意消息的機(jī)會(huì)。大量垃圾用戶的評(píng)論和轉(zhuǎn)發(fā)淹沒了正常用戶的消息,影響用戶上網(wǎng)體驗(yàn)。有的垃圾用戶發(fā)布的消息含虛假信息,甚至還會(huì)鏈入含木馬的釣魚網(wǎng)站,威脅用戶的隱私和財(cái)產(chǎn)安全。因此,如何營(yíng)造一個(gè)可靠安全的網(wǎng)絡(luò)環(huán)境,有效地在微博社交平臺(tái)進(jìn)行垃圾用戶檢測(cè)成為一個(gè)關(guān)鍵的問題。

        目前檢測(cè)垃圾用戶的方案主要有三類。第一類是基于社交網(wǎng)絡(luò)圖的相關(guān)算法。Yang[2]等人應(yīng)用隨機(jī)游走方法對(duì)社交網(wǎng)絡(luò)上的虛假垃圾賬戶進(jìn)行了檢測(cè)識(shí)別。Gong[3]等人通過二進(jìn)制隨機(jī)變量將每個(gè)用戶標(biāo)記為正常用戶或垃圾用戶,然后使用馬爾可夫隨機(jī)場(chǎng)計(jì)算用戶良性的概率。第二類是基于文本內(nèi)容的檢測(cè)方法。Hu[4]等人利用E-Mail、短信息、Web等其他媒體中惡意垃圾用戶的文檔,與Twitter 中的文檔共同組成跨媒體知識(shí)庫(kù)模型來識(shí)別垃圾用戶。第三類是基于機(jī)器學(xué)習(xí)算法的檢測(cè)方法。Cao[5]等人提出轉(zhuǎn)發(fā)消息樹定義并從中提取特征來訓(xùn)練分類器,以找到將某些可疑消息轉(zhuǎn)發(fā)到一起的隱藏可疑帳戶。Fu[6]等人提出從用戶的時(shí)間演化模式中提取特征,然后將無監(jiān)督聚類和監(jiān)督分類相結(jié)合,以檢測(cè)不斷變化的垃圾用戶。Cao[7]等人通過分析轉(zhuǎn)發(fā)行為與惡意URL傳播之間的聯(lián)系,提出了三種基于轉(zhuǎn)發(fā)的特性,將這些功能與其他社交功能相結(jié)合,以訓(xùn)練分類器識(shí)別惡意URL,從而識(shí)別垃圾用戶。機(jī)器學(xué)習(xí)檢測(cè)是大數(shù)據(jù)時(shí)代使用最為廣泛的解決方案,但是一些檢測(cè)算法未考慮時(shí)間的變化性。

        本文通過對(duì)用戶信息和微博信息進(jìn)行挖掘,確定了四大類統(tǒng)計(jì)型數(shù)值特征,采用單分類機(jī)器學(xué)習(xí)檢測(cè)模型與集成機(jī)器學(xué)習(xí)檢測(cè)模型進(jìn)行離線垃圾用戶檢測(cè)。而針對(duì)離線檢測(cè)存在的問題,提出了對(duì)應(yīng)的解決方案,包括半監(jiān)督學(xué)習(xí)檢測(cè)方法、主動(dòng)學(xué)習(xí)檢測(cè)方法、離線數(shù)據(jù)更新機(jī)制,對(duì)這三種方法進(jìn)行融合得到微博垃圾用戶在線檢測(cè)方案。經(jīng)過實(shí)驗(yàn)證明本文系統(tǒng)比微博反垃圾系統(tǒng)檢測(cè)效果要好,有效、可行,具有一定的實(shí)際應(yīng)用價(jià)值。

        2 垃圾用戶檢測(cè)方法

        2.1 離線檢測(cè)方法

        (1)特征選擇

        本文通過對(duì)微博用戶文本內(nèi)容、互動(dòng)性信息、個(gè)人信息的特點(diǎn)進(jìn)行分析,提取了用戶行為特征、微博整體特征、原創(chuàng)微博特征、轉(zhuǎn)發(fā)微博特征四大統(tǒng)計(jì)特征。

        1)用戶行為特征包括用戶互動(dòng)性特征、注冊(cè)時(shí)間特征、用戶信息相關(guān)特征三大類。用戶互動(dòng)性特征包含關(guān)注數(shù)、粉絲數(shù)、微博數(shù)及相關(guān)組合特征微博數(shù)/粉絲數(shù)、關(guān)注數(shù)/粉絲數(shù)、用戶名譽(yù)度;注冊(cè)時(shí)間特征為微博注冊(cè)時(shí)間,垃圾用戶大多注冊(cè)時(shí)間很短;用戶信息相關(guān)特征包括0-1型特征,即是否含有生日信息、是否含有簡(jiǎn)介信息、是否含有興趣標(biāo)簽、是否是認(rèn)證用戶、是否包含教育工作信息與會(huì)員等級(jí)。

        2)微博整體性特征包括微博互動(dòng)性特征 、微博發(fā)表平臺(tái)特征、微博時(shí)間特征、內(nèi)容符號(hào)信息特征四大類。微博互動(dòng)性特征包括微博轉(zhuǎn)發(fā)平均數(shù)、微博評(píng)論平均數(shù)、微博點(diǎn)贊平均數(shù);微博平臺(tái)特征為使用互聯(lián)網(wǎng)平臺(tái)占比;內(nèi)容符號(hào)特征包括微博含有鏈接平均數(shù),含有@平均數(shù),含有熱門話題標(biāo)簽平均數(shù)。

        3)原創(chuàng)微博特征包括原創(chuàng)微博地址特征、原創(chuàng)微博圖片視頻特征、原創(chuàng)微博文本特征三大類。原創(chuàng)微博地址特征為原創(chuàng)微博含有地址占比;原創(chuàng)微博圖片視頻特征包括原創(chuàng)微博配圖平均數(shù)、原創(chuàng)微博秒拍視頻平均數(shù);原創(chuàng)微博文本特征為原創(chuàng)微博字?jǐn)?shù)平均數(shù)。

        4)轉(zhuǎn)發(fā)微博特征包括轉(zhuǎn)發(fā)理由特征、轉(zhuǎn)發(fā)原文特征、轉(zhuǎn)發(fā)時(shí)間特征三大類。轉(zhuǎn)發(fā)理由特征包括轉(zhuǎn)發(fā)理由平均字?jǐn)?shù)、轉(zhuǎn)發(fā)微博中無理由占比、轉(zhuǎn)發(fā)微博當(dāng)次轉(zhuǎn)發(fā)距原始微博轉(zhuǎn)發(fā)次數(shù)平均數(shù);轉(zhuǎn)發(fā)原文特征包括互動(dòng)性特征:原文轉(zhuǎn)發(fā)平均數(shù)、原文評(píng)論平均數(shù)、原文點(diǎn)贊平均數(shù)、原文微博字?jǐn)?shù)平均數(shù);轉(zhuǎn)發(fā)時(shí)間特征為轉(zhuǎn)發(fā)微博與原文時(shí)間間隔平均數(shù)。

        為了精簡(jiǎn)特征,提高檢測(cè)分類器分類性能,對(duì)與類標(biāo)簽相關(guān)性不是很強(qiáng)的特征進(jìn)行淘汰處理。方差選擇法作為預(yù)處理方法,Pearson相關(guān)系數(shù)、互信息選擇法、卡方檢驗(yàn)法作為特征選擇方法,每種方法均會(huì)產(chǎn)生特征重要性權(quán)重排名,取三種方法權(quán)重平均數(shù),進(jìn)行綜合排名,最后選擇k個(gè)排名較高特征,其中k根據(jù)實(shí)驗(yàn)結(jié)果選取為25。

        (2)檢測(cè)模型

        本文采用單分類檢測(cè)模型包括邏輯斯蒂回歸,支持向量機(jī)檢測(cè)分類模型,集成檢測(cè)模型包括隨機(jī)森林,梯度提升決策樹分類模型共四種分類器,對(duì)其相關(guān)參數(shù)進(jìn)行調(diào)優(yōu),使之更加高效適用于微博垃圾用戶離線檢測(cè)分類環(huán)境。最后,結(jié)合實(shí)驗(yàn)結(jié)果與各自檢測(cè)分類器的特點(diǎn),選擇檢測(cè)效果較好、模型訓(xùn)練復(fù)雜度適中、魯棒性較強(qiáng)的隨機(jī)森林檢測(cè)分類器作為最終的離線檢測(cè)分類器,同時(shí)也作為本文在線檢測(cè)訓(xùn)練的默認(rèn)檢測(cè)分類器。

        2.2 在線檢測(cè)方法

        (1)半監(jiān)督學(xué)習(xí)檢測(cè)

        為了解決離線檢測(cè)類標(biāo)注效率低的問題,引入半監(jiān)督學(xué)習(xí)可以為初始數(shù)據(jù)集中大量的未標(biāo)注的微博用戶樣本進(jìn)行類標(biāo)注[8]。本文的半監(jiān)督學(xué)習(xí)算法主要包含兩部分,基于圖的類標(biāo)簽傳播半監(jiān)督分類算法與離線檢測(cè)驗(yàn)證機(jī)制。采用半監(jiān)督分類方法后,初始微博用戶數(shù)據(jù)集全部均獲得了類標(biāo)簽,為了提高類標(biāo)簽的置信度,本文采用離線檢測(cè)驗(yàn)證機(jī)制。離線檢測(cè)分類器驗(yàn)證機(jī)制是對(duì)全部未獲得類標(biāo)注的微博用戶樣本采用離線檢測(cè)分類器進(jìn)行檢測(cè),留下強(qiáng)類型的微博用戶樣本,與半監(jiān)督分類方法獲得的類標(biāo)簽相結(jié)合,如果同時(shí)滿足,則加入到半監(jiān)督學(xué)習(xí)訓(xùn)練集中。將半監(jiān)督學(xué)習(xí)訓(xùn)練集與初始有類標(biāo)注訓(xùn)練集合并,形成在線檢測(cè)的初始訓(xùn)練集。

        (2)主動(dòng)學(xué)習(xí)檢測(cè)

        隨著時(shí)間的推移,由于后續(xù)沒有引入新的微博用戶數(shù)據(jù),離線檢測(cè)分類器檢測(cè)性能會(huì)有一定的下降。通過主動(dòng)學(xué)習(xí)可以實(shí)現(xiàn)引入少量?jī)r(jià)值度高的新的微博用戶樣本對(duì)分類器進(jìn)行更新迭代。本文結(jié)合基于不確定性采樣和基于委員會(huì)采樣兩種主動(dòng)學(xué)習(xí)采樣方法,采用基于最大不確定性的停止準(zhǔn)則,通過對(duì)微博用戶數(shù)據(jù)進(jìn)行分析和相關(guān)實(shí)驗(yàn)比較,停止準(zhǔn)則閾值選擇范圍為0.889~1.0。每種采樣方法得到對(duì)應(yīng)的用戶數(shù)據(jù)集,如果微博用戶樣本存在于兩種用戶數(shù)據(jù)集中,則將該用戶加入本次在線更新微博用戶數(shù)據(jù)集。最終將本次在線更新微博用戶數(shù)據(jù)集加入到上次檢測(cè)的微博用戶訓(xùn)練集中一起訓(xùn)練,從而得到本次的在線檢測(cè)分類器。

        (3)離線數(shù)據(jù)在線更新機(jī)制

        垃圾用戶特點(diǎn)會(huì)隨著時(shí)間發(fā)展發(fā)生變化,比如前幾年的惡意URL這種垃圾行為在當(dāng)今微博平臺(tái)中已經(jīng)很少見了。主動(dòng)學(xué)習(xí)檢測(cè)方法雖然會(huì)引入新的微博用戶數(shù)據(jù),但是老舊樣本仍占據(jù)著較大比例,嚴(yán)重影響分類模型的檢測(cè)效果,因此本文提出了離線數(shù)據(jù)在線更新機(jī)制。綜合考慮微博用戶發(fā)表微博頻率并結(jié)合數(shù)據(jù)獲取效率,選擇15天更新頻率進(jìn)行更新微博用戶數(shù)據(jù),包含兩個(gè)操作,更新操作與淘汰操作。

        更新操作包括采集最新用戶相關(guān)信息,采集用戶發(fā)表最新的50條微博,保存到本地?cái)?shù)據(jù)庫(kù)中。利用在線檢測(cè)分類器,計(jì)算出當(dāng)前用戶的檢測(cè)概率值。與上次檢測(cè)的概率值進(jìn)行比較,對(duì)于那些檢測(cè)概率值有較大變化的微博用戶,需要提交人工校驗(yàn),重新進(jìn)行類標(biāo)簽標(biāo)注。如果檢測(cè)概率值變化超過閾值時(shí),同樣需要供人工校驗(yàn)重新標(biāo)注。

        淘汰操作是對(duì)于一些老舊的微博用戶樣本,如果出現(xiàn)長(zhǎng)時(shí)間沒有更新、每次更新內(nèi)容較少者、當(dāng)前用戶被封禁這三種情況,那么就可以認(rèn)為這些用戶為不活躍用戶,對(duì)于這類的微博用戶樣本則需要進(jìn)行淘汰。對(duì)于每一個(gè)樣本,如果當(dāng)前未被封禁但是未更新次數(shù)達(dá)到四次,當(dāng)前被封禁且未更新次達(dá)到兩次,如果當(dāng)前未封禁但是每次更新微博數(shù)低于兩條且累計(jì)次數(shù)達(dá)到六次,那么當(dāng)前微博用戶需要從當(dāng)次在線檢測(cè)訓(xùn)練集中淘汰掉,不再參與后續(xù)在線檢測(cè)訓(xùn)練。

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)環(huán)境

        選擇五臺(tái)PC機(jī)作為集群節(jié)點(diǎn),其中一臺(tái)作為Master節(jié)點(diǎn),四臺(tái)作為Worker節(jié)點(diǎn)部署安裝Hadoop,之后在各自節(jié)點(diǎn)基礎(chǔ)上安裝Spark。HDFS集群在Master節(jié)點(diǎn)部署NameNode與ResourceManager,在Worker節(jié)點(diǎn)上部署DataNode與NodeManager。

        3.2 實(shí)驗(yàn)數(shù)據(jù)

        (1)初始數(shù)據(jù)集

        初始數(shù)據(jù)集為爬蟲獲取到的9萬條微博用戶共計(jì)約450萬條微博用戶數(shù)據(jù),之后隨機(jī)選擇1萬名微博用戶進(jìn)行類標(biāo)簽標(biāo)注,獲取到2168個(gè)垃圾用戶與7089個(gè)正常用戶,743個(gè)中間地帶用戶,而其余8萬條微博用戶數(shù)據(jù)沒有進(jìn)行標(biāo)注。

        (2)在線數(shù)據(jù)集

        由于后續(xù)需要有離線數(shù)據(jù)更新操作,因此每月在線獲取2萬微博用戶數(shù)據(jù)作為在線數(shù)據(jù)集,采集4個(gè)月共計(jì)8萬微博用戶約400萬條微博數(shù)據(jù)。每個(gè)月隨機(jī)選擇部分微博用戶數(shù)據(jù)進(jìn)行類標(biāo)注后,選出1400垃圾用戶與1400正常用戶作為相關(guān)檢測(cè)的驗(yàn)證數(shù)據(jù)集。

        (3)高級(jí)僵尸粉

        其他渠道購(gòu)買的高級(jí)粉絲數(shù)據(jù)共計(jì)5042名微博用戶約25萬條微博數(shù)據(jù),這部分大多為高級(jí)僵尸粉,主要用于微博平臺(tái)檢測(cè)與本文提出微博垃圾用戶檢測(cè)系統(tǒng)之間比較。

        3.3 離線檢測(cè)模型對(duì)比實(shí)驗(yàn)

        對(duì)離線檢測(cè)采用的兩種模型四種分類器的相關(guān)參數(shù)進(jìn)行調(diào)整優(yōu)化,經(jīng)過相關(guān)特征處理后,進(jìn)行訓(xùn)練得到離線檢測(cè)分類器。不同檢測(cè)分類器的檢測(cè)效果結(jié)果如圖1所示。

        通過結(jié)果可以發(fā)現(xiàn)集成模型檢測(cè)效果較好。而集成模型中,隨機(jī)森林與梯度提升決策樹檢測(cè)效率相當(dāng),但是隨機(jī)梯度提升決策樹模型訓(xùn)練較為復(fù)雜,模型訓(xùn)練收斂時(shí)間較長(zhǎng),與后續(xù)在線檢測(cè)所要求的高效準(zhǔn)確原則相沖突。且隨機(jī)森林具有隨機(jī)選取數(shù)據(jù)可避免過擬合、對(duì)數(shù)據(jù)不平衡不敏感、數(shù)據(jù)噪聲與缺失值較多情況下仍然表現(xiàn)較好等優(yōu)點(diǎn),這樣隨機(jī)森林檢測(cè)分類器可以很好地克服在線檢測(cè)中一些新的微博用戶數(shù)據(jù)問題。本文后續(xù)在線檢測(cè)訓(xùn)練使用隨機(jī)森林作為默認(rèn)檢測(cè)分類器。

        3.4 在線檢測(cè)實(shí)驗(yàn)

        (1)半監(jiān)督學(xué)習(xí)檢測(cè)與離線檢測(cè)對(duì)比試驗(yàn)

        實(shí)驗(yàn)選擇全部初始數(shù)據(jù)集作為訓(xùn)練集,選擇8月度進(jìn)行類標(biāo)記的微博數(shù)據(jù)作為測(cè)試集,采用離線檢測(cè)默認(rèn)的隨機(jī)森林檢測(cè)分類器與半監(jiān)督學(xué)習(xí)檢測(cè)分類器作比較,選擇F1值指標(biāo)作為展示結(jié)果如圖2所示??梢园l(fā)現(xiàn)半監(jiān)督學(xué)習(xí)檢測(cè)的效果比離線檢測(cè)方法的檢測(cè)效果要好,這是因?yàn)榘氡O(jiān)督學(xué)習(xí)檢測(cè)方法引入了大量的未標(biāo)注初始微博用戶數(shù)據(jù)集后為檢測(cè)分類器提供大量信息,使檢測(cè)分類器更趨于完善。

        (2)離線數(shù)據(jù)更新機(jī)制實(shí)驗(yàn)

        本次實(shí)驗(yàn)選擇四個(gè)月在線采集數(shù)據(jù)集中除去標(biāo)注用戶數(shù)據(jù)外全部微博用戶數(shù)據(jù)作為訓(xùn)練在線檢測(cè)訓(xùn)練數(shù)據(jù)集,而每個(gè)月單獨(dú)標(biāo)注的微博用戶數(shù)據(jù)作為測(cè)試數(shù)據(jù)集,采用離線檢測(cè)分類器、半監(jiān)督學(xué)習(xí)檢測(cè)得到的初始檢測(cè)分類器與在線檢測(cè)分類器進(jìn)行三種方法進(jìn)行對(duì)比實(shí)驗(yàn),選擇垃圾用戶與正常用戶的精準(zhǔn)率、召回率兩個(gè)指標(biāo)進(jìn)行展示,實(shí)驗(yàn)結(jié)果如圖3所示。

        通過實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn)在線檢測(cè)分類模型的檢測(cè)效果比離線檢測(cè)與半監(jiān)督學(xué)習(xí)檢測(cè)效果要好,而且隨著時(shí)間推移檢測(cè)分類性能基本維持在較高水平。反觀傳統(tǒng)檢測(cè)方法與半監(jiān)督檢測(cè)方法均會(huì)出現(xiàn)隨著時(shí)間推移檢測(cè)性能下降的問題。

        (3)與微博反垃圾平臺(tái)對(duì)比實(shí)驗(yàn)

        選擇四個(gè)月在線采集數(shù)據(jù)集除去標(biāo)注用戶數(shù)據(jù)外全部微博用戶數(shù)據(jù)作為訓(xùn)練在線檢測(cè)訓(xùn)練數(shù)據(jù)集,選擇2018年5月購(gòu)買的微博高級(jí)粉絲作為測(cè)試數(shù)據(jù)集a,2018年11月購(gòu)買的微博高級(jí)粉絲作為測(cè)試數(shù)據(jù)集b,測(cè)試數(shù)據(jù)集a中的微博用戶經(jīng)過每月兩次更新且同步更新至11月,如果期間被封禁則保留上月度數(shù)據(jù)。采用微博反垃圾系統(tǒng)檢測(cè)、離線檢測(cè)分類器、半監(jiān)督檢測(cè)得到的初始檢測(cè)分類器、在線檢測(cè)分類器,對(duì)預(yù)測(cè)數(shù)據(jù)集a在7月、9月、11月三個(gè)月度的檢測(cè)情況與預(yù)測(cè)數(shù)據(jù)b在12月初檢測(cè)情況進(jìn)行對(duì)比,結(jié)果如圖4所示。

        可以發(fā)現(xiàn),本文提出的微博垃圾用戶檢測(cè)系統(tǒng)有著較高的準(zhǔn)確率,可以很好地檢測(cè)微博垃圾用戶,且在線檢測(cè)分類器檢測(cè)效果十分顯著,隨著時(shí)間推移其檢測(cè)效果依然可以維持較高水平,可以很好的適應(yīng)數(shù)據(jù)的變化性。高級(jí)假粉絲這種垃圾用戶有著類似正常用戶轉(zhuǎn)發(fā)、發(fā)表微博、簽到等行為,因而微博反垃圾系統(tǒng)檢測(cè)效果不是很好,但是本文提出的微博垃圾用戶檢測(cè)系統(tǒng)可以很好地對(duì)之檢測(cè)。

        4 結(jié)束語

        本文針對(duì)微博用戶的特點(diǎn),并對(duì)微博用戶數(shù)據(jù)做相關(guān)統(tǒng)計(jì)分析,建立了基于四大類統(tǒng)計(jì)型數(shù)值特征,然后采用機(jī)器學(xué)習(xí)分類方法訓(xùn)練得到離線檢測(cè)分類器。為了解決時(shí)間的變化性,在其基礎(chǔ)上采用半監(jiān)督學(xué)習(xí)檢測(cè)方法、主動(dòng)學(xué)習(xí)檢測(cè)方法與離線數(shù)據(jù)更新機(jī)制三種方法構(gòu)成的在線檢測(cè)方案進(jìn)行微博垃圾用戶檢測(cè),并達(dá)到了很好的檢測(cè)效果。

        本系統(tǒng)雖然采用全面謹(jǐn)慎原則的類標(biāo)簽判定方法,但是實(shí)際檢測(cè)中還是會(huì)出現(xiàn)將正常用戶判成垃圾用戶的情況,僅依靠機(jī)器學(xué)習(xí)檢測(cè)分類不能完全解決這個(gè)問題,因此可以再探索添加一個(gè)模型對(duì)垃圾用戶進(jìn)一步處理,避免誤判。

        基金項(xiàng)目:

        1.國(guó)家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(項(xiàng)目編號(hào):2017YFB0801701);

        2.國(guó)家自然科學(xué)基金資助項(xiàng)目(項(xiàng)目編號(hào):61572123);

        3.遼寧省高校創(chuàng)新團(tuán)隊(duì)支持計(jì)劃資助項(xiàng)目(項(xiàng)目編號(hào):LT2016007);

        4.賽爾網(wǎng)絡(luò)創(chuàng)新項(xiàng)目(項(xiàng)目編號(hào):NGII20160616)。

        參考文獻(xiàn)

        [1]?Liu Yuchen, Wang Wei . Privacy mining and emotional intelligence portrait in social networks[J]. Cyberspace Security, 2019, 10(2): 1-8.

        [2] ?Yang Z, Xue J, Yang X, et al. VoteTrust: Leveraging Friend Invitation Graph to Defend against Social Network Sybils[J]. IEEE Transactions on Dependable & Secure Computing, 2016, 13(4):488-501.

        [3] ?Gong N Z , Frank M , Mittal P . SybilBelief: A Semi-Supervised Learning Approach for Structure-Based Sybil Detection[J]. IEEE Transactions on Information Forensics & Security, 2017, 9(6):976-987.

        [4] ?Hu X, Tang J, Liu H. Leveraging knowledge across media for spammer detection in microblogging[C]//Proceedings of the 37th international ACM SIGIR conference on Research & development in information retrieval. ACM, 2014: 547-556.

        [5] ?Cao J , Fu Q , Li Q , et al. Discovering hidden suspicious accounts in online social networks[J]. Information Sciences, 2017, 394-395(C):123-140.

        [6] ?Fu Q, Feng B, Guo D, et al. Combating the evolving spammers in online social networks[J]. Computers & Security, 2018, 72: 60-73.

        [7] ?Cao J, Li Q, Ji Y, et al. Detection of Forwarding-Based Malicious URLs in Online Social Networks[J]. International Journal of Parallel Programming, 2016, 44(1):163-180.

        [8] ?劉建偉,劉媛,羅雄麟.半監(jiān)督學(xué)習(xí)方法[J].計(jì)算機(jī)學(xué)報(bào), 2015(8):1592-1617.

        作者簡(jiǎn)介:

        范雨萌(1997-),女,漢族,遼寧鞍山人,東北大學(xué),碩士;主要研究方向和關(guān)注領(lǐng)域:大數(shù)據(jù)、分布式拒絕服務(wù)攻擊檢測(cè)。

        易秀雙(1969-),男,漢族,內(nèi)蒙古赤峰人,博士,東北大學(xué)教授;主要研究方向和關(guān)注領(lǐng)域:下一代互聯(lián)網(wǎng)、網(wǎng)絡(luò)安全及大數(shù)據(jù)分析。

        倪石建(1994-),男,漢族,安徽人,東北大學(xué),碩士;主要研究方向和關(guān)注領(lǐng)域:網(wǎng)絡(luò)安全和虛擬現(xiàn)實(shí)技術(shù)。

        王興偉(1968-),男,漢族,遼寧蓋州人,東北大學(xué),博士,教授,博士生導(dǎo)師;主要研究方向和關(guān)注領(lǐng)域:未來互聯(lián)網(wǎng)、云計(jì)算、網(wǎng)絡(luò)安全和信息安全。

        猜你喜歡
        在線檢測(cè)
        研究電力電纜線路運(yùn)行溫度在線檢測(cè)技術(shù)的應(yīng)用
        二次表在石油樹脂粘度檢測(cè)中的應(yīng)用
        基于度分布的流量異常在線檢測(cè)方法研究
        關(guān)于鉑熱電阻在線檢測(cè)方法的實(shí)踐探討
        四川省高速公路ETC聯(lián)網(wǎng)收費(fèi)系統(tǒng)技術(shù)研究
        科技資訊(2015年32期)2016-05-25 21:43:40
        新型過濾器箱體的國(guó)產(chǎn)化研發(fā)
        科技視界(2016年11期)2016-05-23 23:21:23
        變壓器局部放電在線檢測(cè)中的抗干擾技術(shù)研究
        基于可見光譜的非接觸式金屬離子水質(zhì)監(jiān)測(cè)原理研究
        科技視界(2016年4期)2016-02-22 12:32:54
        功能性涂層織物涂層克重在線檢測(cè)技術(shù)研究進(jìn)展
        基于DSP的磨削表面粗糙度在線檢測(cè)系統(tǒng)開發(fā)
        人妻av无码一区二区三区| 中文字幕精品人妻在线| 亚洲av日韩综合一区尤物| 国产目拍亚洲精品一区二区| 久久久久久久久久免免费精品| 亚洲AV永久无码精品表情包| 国产麻豆剧传媒精品国产av蜜桃 | 亚洲区精品久久一区二区三区女同| 亚洲精品国产av一区二区| 国产av区亚洲av毛片| 亚洲av高清一区三区三区| 中文字幕日韩高清乱码| 亚洲不卡高清av网站| 久久精品国产亚洲av麻豆图片| 久久视频在线| 欧洲人妻丰满av无码久久不卡| 好男人视频在线视频| 国产亚洲精品日韩综合网| 日韩少妇无码一区二区免费视频| 日韩久久免费精品视频| 亚洲中文字幕第15页| 国产高清在线观看av片 | 久久精品国产精品亚洲艾| 精品国产一区二区三区性色 | 亚洲国产免费公开在线视频| 亚洲专区路线一路线二网| 国产一区二区精品亚洲| 永久免费a∨片在线观看| 婷婷五月婷婷五月| 熟妇高潮一区二区三区| 色av综合av综合无码网站| 不打码在线观看一区二区三区视频| 日本成年少妇人妻中文字幕| 国产精品又湿又黄九九九久久嫩草 | 人妻少妇av无码一区二区| 久久久久久久妓女精品免费影院| 无码成年性午夜免费网站蜜蜂| 日本在线综合一区二区| 99噜噜噜在线播放| 日韩人妻一区二区三区蜜桃视频| 免费a级毛片无码无遮挡|