亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于流量摘要的僵尸網(wǎng)絡(luò)檢測(cè)①

2021-09-10 07:31:56肖喜生杜冠瑤魏金俠

計(jì)算機(jī)系統(tǒng)應(yīng)用 2021年8期

肖喜生,龍春,杜冠瑤,魏金俠,趙靜,萬巍

1(中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心,北京 100190)

2(中國(guó)科學(xué)院大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,北京 101408)

根據(jù)僵尸網(wǎng)絡(luò)威脅報(bào)告Spamhaus Botnet Threat Update Q1-2020[1]調(diào)研,傳統(tǒng)的C&C 相關(guān)的僵尸網(wǎng)絡(luò)數(shù)量減少了一半,但新的惡意軟件已大量涌現(xiàn),這些新興惡意軟件利用特定的云基礎(chǔ)設(shè)施進(jìn)行非法活動(dòng).黑客利用僵尸網(wǎng)絡(luò)進(jìn)行點(diǎn)擊欺詐、分布式拒絕服務(wù)攻擊(DDoS)、發(fā)送垃圾郵件和竊取個(gè)人信息等惡意活動(dòng),僵尸網(wǎng)絡(luò)中的主機(jī)通常在所有者不知情、未授權(quán)的情況下被黑客劫持.然后,黑客通過控制這些主機(jī)一起攻擊更多主機(jī).僵尸網(wǎng)絡(luò)也可以通過在網(wǎng)絡(luò)空間中傳播惡意軟件或勒索軟件達(dá)到攻擊的目的.因此,檢測(cè)僵尸網(wǎng)絡(luò)并防范其攻擊是網(wǎng)絡(luò)安全研究的重要任務(wù).

隨著技術(shù)的發(fā)展,用于感染主機(jī)和運(yùn)行僵尸網(wǎng)絡(luò)的惡意軟件為了逃避檢測(cè)也迅速發(fā)展,從而令許多常用的僵尸網(wǎng)絡(luò)檢測(cè)技術(shù)失效.例如,僵尸網(wǎng)絡(luò)通過改變其通信協(xié)議來逃避檢測(cè)[2].在一開始,僵尸網(wǎng)絡(luò)使用IRC (Internet Relay Chat)協(xié)議來控制其他主機(jī).此后,網(wǎng)絡(luò)空間中逐漸出現(xiàn)采用P2P 協(xié)議通信的僵尸網(wǎng)絡(luò),其中每個(gè)主機(jī)都充當(dāng)客戶端和服務(wù)器;然后基于HTTP協(xié)議的僵尸網(wǎng)絡(luò)開始流行[3].2016年,Methbot 僵尸網(wǎng)絡(luò)成為有史以來最大的數(shù)字廣告惡意軟件,該惡意軟件通過位于美國(guó)的ISP 獲得了數(shù)千個(gè)IP 地址.Mirai 僵尸網(wǎng)絡(luò)[4]在同年年底席卷了整個(gè)互聯(lián)網(wǎng),Mirai 發(fā)動(dòng)了幾次大規(guī)模DDoS 攻擊破壞了大量主流站點(diǎn).還有一些更復(fù)雜更隱蔽的僵尸網(wǎng)絡(luò)通過更改其通信模式來長(zhǎng)時(shí)間隱藏而不被發(fā)現(xiàn).因此,僵尸網(wǎng)絡(luò)檢測(cè)算法需要與時(shí)俱進(jìn),要能迅速適應(yīng)不斷進(jìn)化的僵尸網(wǎng)絡(luò).

現(xiàn)有的僵尸網(wǎng)絡(luò)檢測(cè)技術(shù)仍存在以下問題:

(1)大多數(shù)檢測(cè)方法能夠很好的擬合訓(xùn)練數(shù)據(jù),然而在測(cè)試數(shù)據(jù)上顯現(xiàn)出效果不佳的問題,普遍存在著模型過擬合的情況;

(2)檢測(cè)模型泛化能力差,針對(duì)已知的單一類型的僵尸網(wǎng)絡(luò)檢測(cè)效果較好,但面對(duì)未知類型僵尸網(wǎng)絡(luò)乏力;

(3)大部分檢測(cè)方法忽略了網(wǎng)絡(luò)流量中的時(shí)序通信模式,導(dǎo)致在實(shí)際網(wǎng)絡(luò)環(huán)境中檢測(cè)效果不佳,應(yīng)用性不強(qiáng);

考慮到上述問題,本文提出了基于流量摘要的僵尸網(wǎng)絡(luò)機(jī)器學(xué)習(xí)檢測(cè)方法,首先將原始流數(shù)據(jù)按照源主機(jī)IP 地址聚合,劃分適當(dāng)?shù)臅r(shí)間窗口,利用Spark 計(jì)算所選原始特征的統(tǒng)計(jì)特征生成流量摘要記錄,對(duì)時(shí)間窗口內(nèi)該主機(jī)的通信行為進(jìn)行建模,然后構(gòu)建機(jī)器學(xué)習(xí)分類模型用于檢測(cè)僵尸流量.最后利用CTU-13數(shù)據(jù)集對(duì)本文提出的方法進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果表明本文提出的方法能夠有效檢測(cè)僵尸流量,并且能夠檢測(cè)未知僵尸網(wǎng)絡(luò).

1 相關(guān)工作

目前,僵尸網(wǎng)絡(luò)檢測(cè)領(lǐng)域已有大量的國(guó)內(nèi)外學(xué)者開展了相關(guān)方面的研究,傳統(tǒng)的方法有人工分析或黑白名單過濾,或通過手動(dòng)維護(hù)相應(yīng)的簽名數(shù)據(jù)庫(kù)進(jìn)行簡(jiǎn)單的匹配.

Gadelrab 等[5]通過分析已知僵尸網(wǎng)絡(luò)的幾種惡意軟件樣本,確定了一組特征,這些特征可以幫助區(qū)分正常和僵尸網(wǎng)絡(luò)流量.Gu 等[6]在他們的工作中研究了僵尸網(wǎng)絡(luò)惡意軟件感染的生命周期.2008年,他們?cè)诤罄m(xù)的研究[7]中提出了一種基于網(wǎng)絡(luò)的異常檢測(cè)方法來識(shí)別局域網(wǎng)中的C&C 僵尸網(wǎng)絡(luò),而無需先驗(yàn)簽名數(shù)據(jù)庫(kù)和C&C 服務(wù)器地址.他們的方法能夠識(shí)別網(wǎng)絡(luò)中的C&C 服務(wù)器和受感染的主機(jī).他們通過部署蜜罐來驗(yàn)證其方法的有效性.其他一些文獻(xiàn)[2,8,9]論述了基于蜜罐的僵尸網(wǎng)絡(luò)檢測(cè)方法的局限性.蜜罐在檢測(cè)多種漏洞利用方面存在局限性,無法擴(kuò)展到其他惡意攻擊,也不能實(shí)時(shí)檢測(cè)攻擊.此外,在自己的環(huán)境中構(gòu)建的蜜罐不是開源的,并且由于公開僵尸網(wǎng)絡(luò)數(shù)據(jù)集的缺乏,無法比較實(shí)驗(yàn)的結(jié)果.Garcia 等[10]認(rèn)為先前僵尸網(wǎng)絡(luò)檢測(cè)方法沒有進(jìn)行任何對(duì)比,因此他們采集并開源了一個(gè)具有標(biāo)簽的僵尸網(wǎng)絡(luò)數(shù)據(jù)集CTU-13,其中包括僵尸流量、正常流量和背景流量.他們?yōu)榻┦W(wǎng)絡(luò)檢測(cè)方法設(shè)計(jì)了一種新的評(píng)價(jià)指標(biāo)并且比較了(BClus和CAMNEP)與BotHunter[6]的檢測(cè)結(jié)果.由于一些僵尸程序的預(yù)先編程性質(zhì),致使僵尸網(wǎng)絡(luò)流量表現(xiàn)出重復(fù)的行為模式,仍有大多數(shù)研究沒有考慮到網(wǎng)絡(luò)流量中的時(shí)序模式[11,12].盡管有其他一些論文考慮了時(shí)間模式,但仍然有一定的局限性.他們只考慮某些特定源IP 地址中的時(shí)間特征,而沒有考慮整體的網(wǎng)絡(luò)流量,使得在實(shí)時(shí)僵尸網(wǎng)絡(luò)檢測(cè)中效果不佳[13,14].另外,一些現(xiàn)有的研究?jī)H限于傳統(tǒng)的基于IRC、P2P和HTTP 協(xié)議的僵尸網(wǎng)絡(luò).因此,這些方法無法檢測(cè)各種類型的僵尸網(wǎng)絡(luò)或未知的僵尸網(wǎng)絡(luò).

基于機(jī)器學(xué)習(xí)的方法是最近比較流行的僵尸網(wǎng)絡(luò)檢測(cè)方法,安全管理員可以使用訓(xùn)練好的機(jī)器學(xué)習(xí)模型識(shí)別僵尸網(wǎng)絡(luò).基于機(jī)器學(xué)習(xí)的方法可從僵尸網(wǎng)絡(luò)數(shù)據(jù)集中自動(dòng)提取代表性和容易區(qū)分的特征,不需要有關(guān)僵尸網(wǎng)絡(luò)流量的任何先驗(yàn)信息.

支持向量機(jī)(SVM)由于其出色的泛化性能被廣泛用于許多安全應(yīng)用中[15,16].Hoang 等[17]提出了一個(gè)基于機(jī)器學(xué)習(xí)的僵尸網(wǎng)絡(luò)檢測(cè)模型,論文使用域名服務(wù)查詢數(shù)據(jù)并使用KNN、決策樹、隨機(jī)森林和樸素貝葉斯算法.實(shí)驗(yàn)結(jié)果表明,隨機(jī)森林算法的準(zhǔn)確率最高,達(dá)到了90.80%.但是同時(shí)假陽性率也相對(duì)較高.Haddadi 等[18]比較了5 種不同的僵尸網(wǎng)絡(luò)檢測(cè)方法,其中包括兩種基于簽名的方法BotHunter和Snort,其余方法將機(jī)器學(xué)習(xí)算法應(yīng)用于不同的特征集,包括基于數(shù)據(jù)包有效負(fù)載和基于網(wǎng)絡(luò)流的特征.他們?cè)诎?5 個(gè)僵尸網(wǎng)絡(luò)的數(shù)據(jù)集上執(zhí)行多分類和二進(jìn)制分類測(cè)試,實(shí)驗(yàn)結(jié)果表明,基于流的特征是對(duì)僵尸網(wǎng)絡(luò)通信進(jìn)行建模的最具代表性的特征,C4.5 算法則達(dá)到了最高的分類準(zhǔn)確性.Dra?ar 等[19]詳細(xì)說明了檢測(cè)異常的特征選擇方法,他們?cè)u(píng)估了基于流的特征對(duì)檢測(cè)精度的影響.Stevanovic 等[20]提出了基于流的僵尸網(wǎng)絡(luò)檢測(cè)方法,選擇了39 個(gè)流特征(例如源端口、目標(biāo)端口、數(shù)據(jù)包大小的標(biāo)準(zhǔn)差和流持續(xù)時(shí)間)用于對(duì)惡意流量進(jìn)行建模.他們?cè)u(píng)估了8 種監(jiān)督機(jī)器學(xué)習(xí)算法,包括樸素貝葉斯、決策樹、SVM、貝葉斯網(wǎng)絡(luò)分類器和邏輯回歸.結(jié)果表明,隨機(jī)森林算法識(shí)別僵尸網(wǎng)絡(luò)的準(zhǔn)確率最高,達(dá)到了95.7%.Chen 等[21]通過監(jiān)督式機(jī)器學(xué)習(xí)算法快速檢測(cè)復(fù)雜網(wǎng)絡(luò)中的僵尸網(wǎng)絡(luò).他們將基于流和基于會(huì)話的特征組合以建立分類模型,并在CTU-13 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),同時(shí)分析了各種算法的性能,其中隨機(jī)森林算法達(dá)到了94%的精度.Niu 等[22]使用XGBoost 算法在HTTP 流量上檢測(cè)受感染的主機(jī),檢測(cè)準(zhǔn)確率達(dá)到98.72%,假陽性率小于1%.

分析以上研究發(fā)現(xiàn),現(xiàn)有的檢測(cè)方法只針對(duì)特定的僵尸網(wǎng)絡(luò),并且會(huì)遺漏一些僵尸網(wǎng)絡(luò)主機(jī)之間特定的時(shí)序通信模式.此外,針對(duì)單條流或單個(gè)主機(jī)的處理會(huì)導(dǎo)致較高的時(shí)間和計(jì)算開銷,此類檢測(cè)技術(shù)也就無法應(yīng)用于實(shí)時(shí)僵尸網(wǎng)絡(luò)檢測(cè).如何更加有效地提取僵尸網(wǎng)絡(luò)流特征,如何提高檢測(cè)方法的泛化性并提高檢測(cè)效率及精度,需要進(jìn)一步研究.因此,本文提出基于流量摘要的僵尸網(wǎng)絡(luò)機(jī)器學(xué)習(xí)檢測(cè)方法,以改善上述問題.

2 基于流量摘要的僵尸網(wǎng)絡(luò)檢測(cè)方法

2.1 機(jī)器學(xué)習(xí)技術(shù)

機(jī)器學(xué)習(xí)是人工智能的一種應(yīng)用,它使學(xué)習(xí)系統(tǒng)能夠自動(dòng)學(xué)習(xí)并從歷史經(jīng)驗(yàn)中進(jìn)行改進(jìn).機(jī)器學(xué)習(xí)算法是一類從數(shù)據(jù)中自動(dòng)分析獲得規(guī)律,并利用規(guī)律對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測(cè)的算法[23].在本文中,僅考慮了監(jiān)督學(xué)習(xí)技術(shù)在僵尸網(wǎng)絡(luò)檢測(cè)中的性能,這里本文選擇在之前研究中被證明具有較好性能的監(jiān)督機(jī)器學(xué)習(xí)算法,包括決策樹、隨機(jī)森林和XGBoost.

(1)決策樹

決策樹(Decision Tree,DT)是一種預(yù)測(cè)模型,代表的是對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系.決策樹通過創(chuàng)建一組決策規(guī)則來對(duì)對(duì)象進(jìn)行分類,這些規(guī)則是根據(jù)訓(xùn)練數(shù)據(jù)的特征集提取的.在決策樹中,葉子代表類,樹中的每個(gè)子節(jié)點(diǎn)及其分支代表導(dǎo)致分類的特征的組合.因此,對(duì)對(duì)象進(jìn)行分類時(shí)首先檢查根節(jié)點(diǎn)的值,然后在對(duì)應(yīng)于那些值的樹下繼續(xù)向下.對(duì)每個(gè)節(jié)點(diǎn)重復(fù)執(zhí)行此過程,直到遍歷到葉節(jié)點(diǎn)為止.決策樹通常使用信息增益(IG)和基尼系數(shù)來選擇決策樹的特征.本文的實(shí)驗(yàn)使用的決策樹算法是優(yōu)化的CART 算法.

(2)隨機(jī)森林

隨機(jī)森林(Random Forest,RF)是一個(gè)包含多個(gè)決策樹的分類器,并且其輸出的類別是由個(gè)別樹輸出的類別的眾數(shù)而定.該算法的核心思想是創(chuàng)建一系列決策樹,這些決策樹單獨(dú)訓(xùn)練并得出獨(dú)立的結(jié)果,隨機(jī)森林選擇選擇的結(jié)果即為最多的樹預(yù)測(cè)的結(jié)果.

(3)XGBoost

XGBoost 模型是為在不平衡的數(shù)據(jù)集上運(yùn)行而構(gòu)建的,因?yàn)橹匦虏蓸邮窃趦?nèi)部進(jìn)行的,因此它可以抵抗數(shù)據(jù)不平衡.XGBoost 被稱為極限梯度提升,是一種順序決策樹.通過不斷地添加樹,不斷地進(jìn)行特征分裂來生長(zhǎng)一棵樹,每次添加一個(gè)樹,擬合上次預(yù)測(cè)的殘差.XGBoost 方法不同于傳統(tǒng)的基于決策樹的集成學(xué)習(xí)方法,它在損失函數(shù)里加入了葉子結(jié)點(diǎn)權(quán)重和單個(gè)決策樹模型復(fù)雜度等正則項(xiàng),這樣可以防止決策樹模型過于復(fù)雜,進(jìn)而防止過擬合.

2.2 流量摘要

為了準(zhǔn)確地描述特定時(shí)間窗口內(nèi)主機(jī)的流量行為,本文提出了一種基于統(tǒng)計(jì)特征的網(wǎng)絡(luò)流量摘要方法,利用該方法得到的流量摘要記錄包括特定時(shí)間窗口內(nèi)主機(jī)發(fā)送流量的統(tǒng)計(jì)特征.

首先,根據(jù)網(wǎng)絡(luò)流數(shù)據(jù)集中的源IP 地址對(duì)流進(jìn)行分組.然后,提取傳輸層協(xié)議的特征,包括TCP和UDP協(xié)議,這是上層應(yīng)用層協(xié)議的基礎(chǔ).本文選擇的4 個(gè)流特征為:Dur,TotPkts,TotBytes和SrcBytes.表1列出了從網(wǎng)絡(luò)流量數(shù)據(jù)中提取的基于TCP 協(xié)議的流特征及其描述.針對(duì)UDP 協(xié)議的流特征提取這里不再贅述.

表1 基于TCP的流特征集描述

針對(duì)根據(jù)源IP 地址聚合后的網(wǎng)絡(luò)流,具體的流量摘要方法如下:給定一個(gè)時(shí)間窗口值t,計(jì)算t內(nèi)基于TCP和UDP 協(xié)議選擇的上述4 個(gè)特征計(jì)算4 個(gè)統(tǒng)計(jì)值,包括最小、最大、均值和標(biāo)準(zhǔn)差值.對(duì)于每個(gè)新特征名稱,其前綴反映其統(tǒng)計(jì)特征,然后描述協(xié)議類型.例如,特征名稱Mean_TCP_Dur 表示在時(shí)間窗口t內(nèi)使用TCP 協(xié)議通信的持續(xù)時(shí)長(zhǎng)平均值.在處理了每個(gè)源IP 地址的每個(gè)時(shí)間窗口之后,獲得了流量摘要記錄的集合,其中共包含32 個(gè)提取的特征.圖1詳細(xì)描述了流程摘要過程.通過對(duì)給定時(shí)間窗口的網(wǎng)絡(luò)流進(jìn)行流量摘要,計(jì)算傳輸層協(xié)議統(tǒng)計(jì)特征,以獲取時(shí)間窗口內(nèi)該主機(jī)的時(shí)序通信行為模式,為之后的僵尸流量檢測(cè)提供數(shù)據(jù)支撐.

圖1 流量摘要過程描述

上述的流量摘要任務(wù)涉及到復(fù)雜的聚合和統(tǒng)計(jì)任務(wù),使用傳統(tǒng)的單機(jī)處理方法非常耗時(shí),一種有效的方法是使用分布式大數(shù)據(jù)處理技術(shù)[24],將任務(wù)分配給不同的計(jì)算節(jié)點(diǎn),然后對(duì)結(jié)果進(jìn)行匯總.因此本文使用流行的大數(shù)據(jù)處理框架Apache Spark 來進(jìn)行流量摘要任務(wù)處理.

2.3 基于流量摘要的僵尸網(wǎng)絡(luò)檢測(cè)方法

本文提出了一種基于流量摘要的僵尸網(wǎng)絡(luò)機(jī)器學(xué)習(xí)檢測(cè)方法,如圖2所示.本文的方法分5 個(gè)步驟:流采集、流量摘要、數(shù)據(jù)預(yù)處理、分類和評(píng)估.第1 步,流采集可以從某些路由器或其他網(wǎng)絡(luò)流采集器(例如NetFlow 采集設(shè)備)收集網(wǎng)絡(luò)流數(shù)據(jù).本文使用開源的僵尸網(wǎng)絡(luò)數(shù)據(jù)集.在第2 步,本文為流量摘要任務(wù)部署了一個(gè)Spark 集群環(huán)境,利用Spark 技術(shù)快速完成流量摘要記錄生成.第3 步,將流量摘要記錄匯總成新數(shù)據(jù)集,并對(duì)其進(jìn)行重新標(biāo)記,然后進(jìn)行特征預(yù)處理,這里由于生成的特征都是數(shù)值型特征,因此進(jìn)行歸一化處理,特征預(yù)處理后將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集.在第4 步,基于流量摘要記錄數(shù)據(jù)集訓(xùn)練不同的機(jī)器學(xué)習(xí)分類模型,所用的分類算法為決策樹,隨機(jī)森林和XGBoost,用于分類僵尸流量和非僵尸流量.最后一步,通過實(shí)驗(yàn)驗(yàn)證本文提出的檢測(cè)方法,利用分類評(píng)價(jià)指標(biāo)評(píng)估比較不同分類算法在流量摘要數(shù)據(jù)集的檢測(cè)性能,并討論不同時(shí)間窗口值對(duì)檢測(cè)結(jié)果的影響.

圖2 基于流量摘要的僵尸網(wǎng)絡(luò)檢測(cè)流程

3 實(shí)驗(yàn)分析

為了驗(yàn)證本文檢測(cè)方法的效果,本節(jié)在流量摘要生成的新數(shù)據(jù)集上比較了決策樹、隨機(jī)森林和XGBoost算法的分類性能,然后驗(yàn)證了不同時(shí)間窗口值對(duì)分類結(jié)果的影響.

3.1 數(shù)據(jù)集

本文使用開源的僵尸網(wǎng)絡(luò)數(shù)據(jù)集CTU-13[10],該數(shù)據(jù)集包含13 種僵尸程序感染場(chǎng)景.原始流量為PCAP格式,由多個(gè)數(shù)據(jù)包組成,對(duì)PCAP 文件進(jìn)行進(jìn)一步處理可以獲得NetFlow 文件,這些文件包含標(biāo)簽并可以很好地區(qū)分客戶端和服務(wù)器.文獻(xiàn)[10]使用單向NetFlow表示流量并標(biāo)記標(biāo)簽,但作者認(rèn)為不應(yīng)該使用這些單向NetFlow 文件,因?yàn)槭褂秒p向NetFlow 文件效果更好.雙向NetFlow 相對(duì)于單向NetFlow 具有幾個(gè)優(yōu)點(diǎn).雙向NetFlow 文件解決了客戶端和服務(wù)器的區(qū)分問題,包含了更多的信息,并且包含了更詳細(xì)的標(biāo)簽.因此,本文也使用雙向NetFlow 文件進(jìn)行實(shí)驗(yàn).

3.2 數(shù)據(jù)預(yù)處理

根據(jù)前文對(duì)流量摘要的描述,原始流數(shù)據(jù)首先根據(jù)預(yù)先給定的時(shí)間窗口(例如10 s的時(shí)間窗口)按源IP 地址進(jìn)行分組,此過程還包括計(jì)算該時(shí)間窗口下不同的協(xié)議的統(tǒng)計(jì)特征生成流量摘要記錄.分別處理了13 個(gè)CTU-13 數(shù)據(jù)集的攻擊場(chǎng)景之后,獲得了13 個(gè)流量摘要記錄組.然后根據(jù)源IP對(duì)流量摘要記錄重新標(biāo)記.例如在場(chǎng)景1中,主機(jī)147.32.84.165是被感染的僵尸主機(jī),因此由該IP 聚合的流量摘要記錄將被標(biāo)記為僵尸流量.本文選擇不同的時(shí)間窗口進(jìn)行聚合,包括5 s、10 s、15 s、30 s和60 s,以驗(yàn)證不同時(shí)間窗口值對(duì)分類結(jié)果的影響.表2顯示了整個(gè)CTU-13 數(shù)據(jù)集進(jìn)行流量摘要后標(biāo)簽分布結(jié)果,其中數(shù)字0 表示正常流量或背景流量,數(shù)字1 表示僵尸流量.

表2 流量摘要數(shù)據(jù)集標(biāo)簽分布

由于流量摘要數(shù)據(jù)集包含的32 個(gè)特征都是數(shù)值型特征,在數(shù)據(jù)處理過程中需要處理數(shù)值分布區(qū)間較大的情形,因此需要對(duì)數(shù)據(jù)進(jìn)行歸一化處理,將原本隨機(jī)分散的數(shù)據(jù)經(jīng)過處理壓縮到一個(gè)較小的分布區(qū)間,避免離散點(diǎn)對(duì)檢測(cè)結(jié)果產(chǎn)生較大的影響.

3.3 數(shù)據(jù)集過采樣

CTU-13 數(shù)據(jù)集存在嚴(yán)重的類別不平衡問題,尤其是在流量摘要處理之后,這種不平衡現(xiàn)象更加嚴(yán)重,如表2所示,僵尸流量在整個(gè)網(wǎng)絡(luò)流量中占比極少.為了解決類別不平衡的問題,本文采用了一種稱為SMOTE(Synthetic Minority Oversampling TEchnique)[25]的過采樣技術(shù)來克服極端的類別不平衡問題.SMOTE的核心思想是在少數(shù)類樣本及其鄰居之間插入隨機(jī)生成的新樣本,這可以增加少數(shù)類樣本的數(shù)量并改善類別不平衡的狀況.

3.4 結(jié)果與分析

本文實(shí)驗(yàn)在準(zhǔn)確率(Acc)、精確率(Pre)、召回率(Rec)和F1 值上進(jìn)行對(duì)比,各性能指標(biāo)公式如下所示:

其中,TP代表著真實(shí)值屬于正類,預(yù)測(cè)值屬于正類的數(shù)量;TN代表著真實(shí)值屬于負(fù)類,預(yù)測(cè)值屬于負(fù)類的數(shù)量;FP代表著真實(shí)值屬于負(fù)類,預(yù)測(cè)值屬于正類的數(shù)量;FN代表著真實(shí)值屬于正類,預(yù)測(cè)值屬于負(fù)類的數(shù)量.

本文首先分別在數(shù)據(jù)集的所有場(chǎng)景上進(jìn)行實(shí)驗(yàn),時(shí)間窗口為10 s,3 種機(jī)器學(xué)習(xí)算法的分類結(jié)果如表3所示.結(jié)果表明,所有算法均具有較好的分類效果,其中XGBoost 在各種指標(biāo)上具有最穩(wěn)定的性能.

表3 各個(gè)場(chǎng)景下的分類結(jié)果

為了進(jìn)一步驗(yàn)證本文方法的檢測(cè)性能,對(duì)比文獻(xiàn)[26]中使用隨機(jī)森林對(duì)Neris 僵尸網(wǎng)絡(luò)進(jìn)行檢測(cè)的結(jié)果,本文同樣使用隨機(jī)森林算法進(jìn)行對(duì)比實(shí)驗(yàn),Neris 僵尸網(wǎng)絡(luò)包括場(chǎng)景1、2和9,輪流選擇1 個(gè)場(chǎng)景用于測(cè)試,剩下兩個(gè)場(chǎng)景用于訓(xùn)練,10 s 時(shí)間窗口的實(shí)驗(yàn)結(jié)果如表4所示,其中本文的實(shí)驗(yàn)結(jié)果用*標(biāo)記.

從表4可見,本文的方法在所有分類指標(biāo)上均有提升,上文的實(shí)驗(yàn)在單一類型惡意軟件的僵尸網(wǎng)絡(luò)檢測(cè)上具有良好的效果,為了檢測(cè)未知的僵尸網(wǎng)絡(luò),必須考慮更多類型惡意軟件的僵尸網(wǎng)絡(luò).參考文獻(xiàn)[9]建議,本文將場(chǎng)景1、2、6、8、9 組合用于測(cè)試,將其他場(chǎng)景用于訓(xùn)練.訓(xùn)練集中的僵尸程序包括Rbot,Virut,Sogou和NSIS.ay,測(cè)試集中的僵尸程序Neris,Menti和Murlo.以10 s的時(shí)間窗口對(duì)整個(gè)數(shù)據(jù)集進(jìn)行的實(shí)驗(yàn)結(jié)果如圖3所示.

表4 Neris 僵尸網(wǎng)絡(luò)分類結(jié)果

從圖3可以看出,XGBoost 分類器在檢測(cè)未知僵尸流量上具有最優(yōu)的檢測(cè)性能,其中精確率達(dá)到了96.50%,F1 值也達(dá)到了79.55%,由于使用分類器的默認(rèn)參數(shù),因此以后的工作可以研究針對(duì)參數(shù)進(jìn)行優(yōu)化,進(jìn)一步提升分類器的檢測(cè)性能.

圖3 全數(shù)據(jù)集分類結(jié)果(10 s 時(shí)間窗口)

為了進(jìn)一步驗(yàn)證不同時(shí)間窗口值對(duì)分類結(jié)果的影響,本文選擇了5 s,10 s,15 s,30 s和60 s 等不同的時(shí)間窗口,利用分類性能較好的XGBoost 進(jìn)行實(shí)驗(yàn).結(jié)果如表5所示.

從表5可以看出,10 秒的時(shí)間窗口下進(jìn)行流量摘要得到的綜合結(jié)果最好,其中準(zhǔn)確率(Acc) 達(dá)到了82.60%,召回率(Rec) 達(dá)到了67.66%,F1 值達(dá)到了79.55%,這3 項(xiàng)指標(biāo)為所有時(shí)間窗口實(shí)驗(yàn)下的最大值.綜上所述,由于時(shí)間窗口較小,無法捕獲僵尸網(wǎng)絡(luò)流量的時(shí)序特征,時(shí)間窗口較大則無法滿足現(xiàn)實(shí)應(yīng)用中近實(shí)時(shí)檢測(cè)的需要,導(dǎo)致檢測(cè)結(jié)果不佳,在實(shí)際應(yīng)用中可劃分更加細(xì)粒度的時(shí)間區(qū)間進(jìn)行實(shí)驗(yàn)以確定最佳的時(shí)間窗口值.

表5 不同時(shí)間窗口下的全數(shù)據(jù)集分類結(jié)果

4 總結(jié)

本文提出了基于流量摘要的僵尸網(wǎng)絡(luò)機(jī)器學(xué)習(xí)檢測(cè)方法,首先將原始流數(shù)據(jù)按照源主機(jī)地址聚合,劃分適當(dāng)?shù)臅r(shí)間窗口生成流量摘要記錄,然后構(gòu)建決策樹、隨機(jī)森林和XGBoost 機(jī)器學(xué)習(xí)分類模型.在CTU-13 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文提出的方法能夠有效檢測(cè)僵尸流量,并且能夠檢測(cè)未知僵尸網(wǎng)絡(luò),此外,借助Spark 大數(shù)據(jù)技術(shù)也能滿足現(xiàn)實(shí)應(yīng)用中快速檢測(cè)的需要.未來的工作將研究針對(duì)分類器參數(shù)的優(yōu)化方法,以進(jìn)一步提高檢測(cè)未知僵尸網(wǎng)絡(luò)的檢測(cè)能力.