亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        BotCatcher:基于深度學(xué)習(xí)的僵尸網(wǎng)絡(luò)檢測(cè)系統(tǒng)?

        2018-09-12 02:50:58吳迪方濱興崔翔劉奇旭
        通信學(xué)報(bào) 2018年8期
        關(guān)鍵詞:特征檢測(cè)模型

        吳迪,方濱興,崔翔,劉奇旭

        ?

        BotCatcher:基于深度學(xué)習(xí)的僵尸網(wǎng)絡(luò)檢測(cè)系統(tǒng)?

        吳迪1,2,方濱興3,4,5,崔翔1,3,劉奇旭1,2

        (1. 中國(guó)科學(xué)院信息工程研究所,北京 100093;2. 中國(guó)科學(xué)院大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,北京 100049;3. 廣州大學(xué)網(wǎng)絡(luò)空間先進(jìn)技術(shù)研究院,廣東 廣州 510006;4. 電子科技大學(xué)廣東電子信息工程研究院,廣東 東莞 523808;5. 北京郵電大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,北京 100876)

        機(jī)器學(xué)習(xí)技術(shù)在僵尸網(wǎng)絡(luò)檢測(cè)領(lǐng)域具有廣泛應(yīng)用,但隨著僵尸網(wǎng)絡(luò)形態(tài)和命令控制機(jī)制逐漸變化,人工特征選取變得越來(lái)越困難。為此,提出基于深度學(xué)習(xí)的僵尸網(wǎng)絡(luò)檢測(cè)系統(tǒng)——BotCatcher,從時(shí)間和空間這2個(gè)維度自動(dòng)化提取網(wǎng)絡(luò)流量特征,通過(guò)結(jié)合多種深層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)建立分類(lèi)器。BotCatcher不依賴(lài)于任何有關(guān)協(xié)議和拓?fù)涞南闰?yàn)知識(shí),不需要人工選取特征。實(shí)驗(yàn)結(jié)果表明,該模型性能良好,能夠?qū)┦W(wǎng)絡(luò)流量進(jìn)行準(zhǔn)確識(shí)別。

        僵尸網(wǎng)絡(luò);深度學(xué)習(xí);檢測(cè);特征

        1 引言

        僵尸網(wǎng)絡(luò)(botnet)[1]是指一群可被攻擊者遠(yuǎn)程控制的非合作用戶(hù)終端。其中,被感染的終端稱(chēng)為僵尸主機(jī)(bot),控制者(botmaster)可以通過(guò)命令與控制(C&C, command and control)信道對(duì)僵尸主機(jī)進(jìn)行一對(duì)多的操控。作為一種大規(guī)模攻擊平臺(tái),攻擊者可以利用僵尸網(wǎng)絡(luò)發(fā)起分布式拒絕服務(wù)(DDoS, distributed denial of service)、垃圾郵件、釣魚(yú)攻擊、惡意軟件分發(fā)、加密勒索、虛擬貨幣挖掘等大規(guī)模攻擊活動(dòng),對(duì)互聯(lián)網(wǎng)造成了極大的安全威脅。2016年,Mirai僵尸網(wǎng)絡(luò)通過(guò)控制物聯(lián)網(wǎng)智能設(shè)備對(duì)OVH、Dyn等公司發(fā)起多次大規(guī)模DDoS攻擊,并引發(fā)了美國(guó)東海岸斷網(wǎng)事件和德國(guó)電信用戶(hù)訪(fǎng)問(wèn)網(wǎng)絡(luò)異常事件[2]。2017年,WannaCry通過(guò)MS17-010漏洞在全球范圍內(nèi)爆發(fā),影響近百個(gè)國(guó)家上千家企業(yè)及公共組織,該程序感染計(jì)算機(jī)后會(huì)植入敲詐者病毒,導(dǎo)致電腦大量文件被加密[3]。安天和電信云堤發(fā)布的《2017全球僵尸網(wǎng)絡(luò)DDoS攻擊威脅態(tài)勢(shì)報(bào)告》中指出,2017年,受到黑客DDoS攻擊的國(guó)家共130個(gè),其中,我國(guó)被攻擊總次數(shù)高達(dá)12 200萬(wàn)次,占全球受攻擊總數(shù)的84.79%。

        在僵尸網(wǎng)絡(luò)檢測(cè)領(lǐng)域,機(jī)器學(xué)習(xí)技術(shù)目前得到了廣泛應(yīng)用。尤其在異常檢測(cè)方面,研究人員利用分類(lèi)(如樸素貝葉斯[4]、支持向量機(jī)[5]、隨機(jī)森林[6])或聚類(lèi)(如DBSCAN[7]、-means[8])算法,依據(jù)多種特征建立模型,識(shí)別惡意網(wǎng)絡(luò)流量。這些檢測(cè)模型在論文實(shí)驗(yàn)中都具有較低的漏報(bào)率和誤報(bào)率,但是都面臨一個(gè)相同的問(wèn)題:依賴(lài)人工選取的特征。特征通常在模型建立前由研究者通過(guò)經(jīng)驗(yàn)設(shè)定,常見(jiàn)的角度包括網(wǎng)絡(luò)流屬性(如數(shù)據(jù)分組數(shù)量、數(shù)據(jù)分組平均字節(jié))、時(shí)間(如相鄰2條數(shù)據(jù)流平均間隔時(shí)間)、行為(如是否訪(fǎng)問(wèn)相同服務(wù)器)等。合理的特征可以有效地提高模型的性能,但是一方面,人工選取對(duì)設(shè)計(jì)者的先驗(yàn)知識(shí)有著較高要求,另一方面,固定的特征也為攻擊者提供了可乘之機(jī)。攻擊者可以利用對(duì)抗機(jī)器學(xué)習(xí)思想,針對(duì)性地改變僵尸網(wǎng)絡(luò)流量相關(guān)特征,借此逃避模型的檢測(cè)。文獻(xiàn)[9]指出攻擊者可以通過(guò)向僵尸網(wǎng)絡(luò)流量中注入特定數(shù)據(jù)分組和數(shù)據(jù)流噪聲的方法消除空間相似性以及在通信中加入隨機(jī)時(shí)延來(lái)消除時(shí)間相似性。文獻(xiàn)[10]指出攻擊者可以通過(guò)使僵尸主機(jī)隨機(jī)訪(fǎng)問(wèn)正常域名從而逃避防御人員對(duì)C&C服務(wù)器的聚類(lèi)。

        目前,深度學(xué)習(xí)技術(shù)在圖像分類(lèi)和文本識(shí)別領(lǐng)域有著廣泛的應(yīng)用[11-12],其通過(guò)多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與大量參數(shù)的調(diào)節(jié),可以對(duì)樣本的特征進(jìn)行逐層抽象和提取。因此,為了解決特征選取困難和容易被攻擊者針對(duì)的問(wèn)題,本文圍繞基于深度學(xué)習(xí)的僵尸網(wǎng)絡(luò)檢測(cè)系統(tǒng)展開(kāi)討論。本文的主要貢獻(xiàn)如下。

        1) 提出一種新型檢測(cè)模型——BotCatcher,利用深度學(xué)習(xí)技術(shù)自動(dòng)化學(xué)習(xí)網(wǎng)絡(luò)流量時(shí)間和空間這2個(gè)維度的特征,將特征提取與模型訓(xùn)練過(guò)程結(jié)合起來(lái),從全局的角度識(shí)別僵尸網(wǎng)絡(luò)流量。該檢測(cè)模型不依賴(lài)于任何有關(guān)協(xié)議和拓?fù)涞南闰?yàn)知識(shí),也不需要人工選擇特征。

        2) 提出2種深層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)用于時(shí)空特征的提取??臻g維度方面,借鑒卷積神經(jīng)網(wǎng)絡(luò)(CNN, convolutional neural network)在圖像識(shí)別領(lǐng)域的應(yīng)用方法,將網(wǎng)絡(luò)流量映射為灰度圖像,并利用多層CNN從中逐步抽取特征。時(shí)間維度方面,先對(duì)每條數(shù)據(jù)流進(jìn)行處理得到對(duì)應(yīng)的數(shù)據(jù)分組序列與字節(jié)序列,再分別送入長(zhǎng)短期記憶(LSTM, long short-term memory)網(wǎng)絡(luò)中學(xué)習(xí)特征。

        3) 實(shí)現(xiàn)BotCatcher原型系統(tǒng),構(gòu)造合理數(shù)據(jù)集進(jìn)行性能評(píng)估實(shí)驗(yàn)。實(shí)驗(yàn)研究表明,BotCatcher相比已有的深度學(xué)習(xí)檢測(cè)模型,具有更高的準(zhǔn)確性,能夠有效檢測(cè)大規(guī)模復(fù)雜的僵尸網(wǎng)絡(luò)流量。

        2 相關(guān)工作

        僵尸網(wǎng)絡(luò)檢測(cè)已有工作總結(jié)如表1所示。從公開(kāi)發(fā)表的文獻(xiàn)看,僵尸網(wǎng)絡(luò)檢測(cè)領(lǐng)域目前有如下具有代表性的工作。

        基于網(wǎng)絡(luò)流量的僵尸網(wǎng)絡(luò)檢測(cè)技術(shù)主要包括誤用檢測(cè)和異常檢測(cè)等。其中,誤用檢測(cè)基于通信特征碼,使用事先配置的特征匹配規(guī)則對(duì)網(wǎng)絡(luò)流量進(jìn)行篩選,相關(guān)的入侵檢測(cè)系統(tǒng)(IDS, intrusion detection system)包括USTAT[13]、NetSTAT[14]等。文獻(xiàn)[15]通過(guò)對(duì)Snort(一款著名的開(kāi)源IDS)進(jìn)行自定義規(guī)則配置,提出了一種以IDS為驅(qū)動(dòng)的基于狀態(tài)的僵尸網(wǎng)絡(luò)檢測(cè)系統(tǒng)Bothunter。文獻(xiàn)[16]通過(guò)在可控環(huán)境中觀(guān)察僵尸主機(jī)行為,自動(dòng)化提取特征,對(duì)不同協(xié)議的僵尸網(wǎng)絡(luò)分別建立檢測(cè)模型,并在實(shí)際檢測(cè)過(guò)程中自動(dòng)生成。誤用檢測(cè)技術(shù)雖然對(duì)已知的僵尸網(wǎng)絡(luò)的準(zhǔn)確率較高,但是對(duì)加密流量的識(shí)別能力較弱,而且無(wú)法檢測(cè)未知攻擊。

        異常檢測(cè)假設(shè)僵尸網(wǎng)絡(luò)中C&C服務(wù)器與僵尸主機(jī)之間的通信模式與正常用戶(hù)之間的通信模式有顯著差異,因此可通過(guò)流量分析來(lái)對(duì)僵尸網(wǎng)絡(luò)產(chǎn)生的異常流量進(jìn)行檢測(cè),典型的異常特征包括高網(wǎng)絡(luò)時(shí)延、非常規(guī)端口流量等。異常檢測(cè)方法多使用機(jī)器學(xué)習(xí)技術(shù),針對(duì)使用模型的不同,主要可以分為2種:無(wú)監(jiān)督的聚類(lèi)模型和有監(jiān)督的分類(lèi)模型。

        聚類(lèi)模型方面,文獻(xiàn)[8]提出了一種與協(xié)議拓?fù)錈o(wú)關(guān)的僵尸網(wǎng)絡(luò)檢測(cè)模型Botminer,其基于僵尸網(wǎng)絡(luò)具有時(shí)空相似性(space-time similarity)的假設(shè),從主機(jī)行為與通信模式這2個(gè)層面對(duì)具有相似性的網(wǎng)絡(luò)流量分別聚類(lèi),通過(guò)對(duì)聚類(lèi)結(jié)果進(jìn)行關(guān)聯(lián)分析得出可疑的僵尸網(wǎng)絡(luò)流量。文獻(xiàn)[17]提出的檢測(cè)模型與Botminer原理相似,在關(guān)聯(lián)分析階段采用了時(shí)間窗模式,并增加了實(shí)時(shí)檢測(cè)功能。文獻(xiàn)[10]提出了一種系統(tǒng)化的相關(guān)服務(wù)器挖掘模型,該模型沒(méi)有對(duì)僵尸主機(jī)進(jìn)行水平關(guān)聯(lián),而是通過(guò)流量聚類(lèi)挖掘具有相似性的可疑服務(wù)器,所用的特征包括與服務(wù)器通信的客戶(hù)端集合、服務(wù)器IP地址、whois信息等。

        表1 僵尸網(wǎng)絡(luò)檢測(cè)已有工作總結(jié)

        分類(lèi)模型方面,文獻(xiàn)[4]針對(duì)IRC僵尸網(wǎng)絡(luò),利用J48、樸素貝葉斯和貝葉斯網(wǎng)絡(luò)算法設(shè)計(jì)了分類(lèi)器,具有較低的漏報(bào)率。文獻(xiàn)[18]針對(duì)P2P僵尸網(wǎng)絡(luò),比較了SVM、KNN等5種分類(lèi)器在實(shí)時(shí)檢測(cè)中的表現(xiàn)。文獻(xiàn)[6]提出一種面向NetFlow數(shù)據(jù)的大規(guī)模高速檢測(cè)系統(tǒng)DISCLOSURE,通過(guò)采用隨機(jī)森林模型動(dòng)態(tài)選取特征,在不同的應(yīng)用場(chǎng)景中可自適應(yīng)地平衡漏報(bào)率和誤報(bào)率。文獻(xiàn)[19]提出了一種新型的隨機(jī)化數(shù)據(jù)分割學(xué)習(xí)模型,采用改良的正向選擇排序技術(shù)從特征集中過(guò)濾多余無(wú)關(guān)的特征,并通過(guò)基于泰森多邊形的數(shù)據(jù)剪枝方法來(lái)減小龐大的訓(xùn)練數(shù)據(jù)集。

        隨著人工智能理念以及深度學(xué)習(xí)技術(shù)的發(fā)展,神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)算法被逐漸應(yīng)用于僵尸網(wǎng)絡(luò)檢測(cè)領(lǐng)域。文獻(xiàn)[20]提出利用帶有反向傳播機(jī)制的多層前饋神經(jīng)網(wǎng)絡(luò)建立分類(lèi)器,并對(duì)算法進(jìn)行改進(jìn)使其在更新權(quán)值時(shí)可以動(dòng)態(tài)調(diào)整模型的學(xué)習(xí)速率。文獻(xiàn)[21]提出將僵尸網(wǎng)絡(luò)流量轉(zhuǎn)化成隨時(shí)間變化的狀態(tài)序列特征,采用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN, recurrent neural network)對(duì)這些特征進(jìn)行學(xué)習(xí)來(lái)建立檢測(cè)模型。文獻(xiàn)[22-23]提出利用CNN學(xué)習(xí)網(wǎng)絡(luò)流量的特征,利用圖形分類(lèi)的方法來(lái)實(shí)現(xiàn)流量分類(lèi)。

        不同于上述已有工作,本文結(jié)合多種深度學(xué)習(xí)算法來(lái)建立模型,通過(guò)多層神經(jīng)網(wǎng)絡(luò)逐步抽象,自動(dòng)化地學(xué)習(xí)網(wǎng)絡(luò)流量時(shí)間與空間這2個(gè)維度的特征,從而實(shí)現(xiàn)對(duì)大規(guī)模復(fù)雜僵尸網(wǎng)絡(luò)的準(zhǔn)確檢測(cè)。

        3 模型設(shè)計(jì)

        3.1 BotCatcher概述

        BotCatcher的目標(biāo)為通過(guò)深度學(xué)習(xí)算法,從網(wǎng)絡(luò)流量中自動(dòng)化地提取時(shí)間與空間這2個(gè)維度的特征,并依此訓(xùn)練分類(lèi)器。在特征學(xué)習(xí)模塊中,空間維度特征提取采用CNN算法,主要方法為將數(shù)據(jù)流轉(zhuǎn)換為二維灰度圖像,然后利用CNN在圖像識(shí)別領(lǐng)域應(yīng)用的方法對(duì)流量特征進(jìn)行學(xué)習(xí);時(shí)間維度特征提取采用RNN算法,本系統(tǒng)具體選擇LSTM神經(jīng)網(wǎng)絡(luò)對(duì)網(wǎng)絡(luò)流中依時(shí)序排列的數(shù)據(jù)分組序列和字節(jié)序列進(jìn)行特征學(xué)習(xí)。整體框架如圖1所示。

        3.1.1 數(shù)據(jù)預(yù)處理

        原始數(shù)據(jù)集文件為pcap格式,由多個(gè)數(shù)據(jù)分組(packet)構(gòu)成,而B(niǎo)otCatcher進(jìn)行特征學(xué)習(xí)的對(duì)象為數(shù)據(jù)流(flow),因此在進(jìn)行特征提取建立模型之前需要對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,將其聚合為數(shù)據(jù)流形式。相關(guān)概念定義如下。

        圖1 BotCatcher整體框架

        定義1數(shù)據(jù)分組。數(shù)據(jù)分組定義為=(x,s,t),其中,x表示五元組<,,,,>,即源IP、源端口、目的IP、目的端口和傳輸協(xié)議,s表示數(shù)據(jù)分組的大小,t表示數(shù)據(jù)分組的起始時(shí)間。原始數(shù)據(jù)集可以表示為數(shù)據(jù)分組的集合={1,2,…,p},為數(shù)據(jù)集包含的數(shù)據(jù)分組數(shù)量。

        定義2數(shù)據(jù)流。數(shù)據(jù)流由數(shù)據(jù)集中五元組相同的數(shù)據(jù)分組組合而成,且流中的數(shù)據(jù)分組按照時(shí)間順序排列,即{1=(1,1,1),2=(2,2,2),…,p=(x,s,t)},其中,1=2=…=x,1<2<…<t。單個(gè)數(shù)據(jù)流定義為=(x,s,d,t),其中,x表示流中所有數(shù)據(jù)分組相同的五元組,s表示流中所有數(shù)據(jù)分組的大小之和,d表示流的持續(xù)時(shí)間,t表示流中第一個(gè)數(shù)據(jù)分組的起始時(shí)間。

        因此,網(wǎng)絡(luò)流量呈層次化結(jié)構(gòu),如圖2所示。最底層為按照時(shí)間順序排列的字節(jié)序列,這些字節(jié)序列根據(jù)不同的網(wǎng)絡(luò)協(xié)議聚合形成不同的數(shù)據(jù)分組,數(shù)據(jù)分組序列根據(jù)五元組是否相同聚合形成數(shù)據(jù)流。

        圖2 網(wǎng)絡(luò)流量層次化結(jié)構(gòu)

        3.1.2 交叉驗(yàn)證

        為了提高檢測(cè)模型的泛化能力,同時(shí)更準(zhǔn)確地評(píng)估模型的分類(lèi)性能,BotCatcher對(duì)數(shù)據(jù)流采用-折交叉驗(yàn)證(-fold cross validation)方法構(gòu)造訓(xùn)練集。-折交叉驗(yàn)證指將樣本數(shù)據(jù)集隨機(jī)劃分為個(gè)相同大小的子集,在每次模型訓(xùn)練迭代過(guò)程中,按順序選取其中的一個(gè)子集作為測(cè)試集,剩下的1個(gè)子集作為訓(xùn)練集。本文取=10,即將數(shù)據(jù)集分為10份,每次取其中9份進(jìn)行訓(xùn)練,根據(jù)損失函數(shù)(用來(lái)評(píng)估預(yù)測(cè)值與實(shí)際值的差距)進(jìn)行優(yōu)化后執(zhí)行下一次迭代。

        3.2 空間特征學(xué)習(xí)

        卷積神經(jīng)網(wǎng)絡(luò)是一種基于多層監(jiān)督學(xué)習(xí)的人工神經(jīng)網(wǎng)絡(luò),具有局部感知和權(quán)值共享等特點(diǎn),能夠自動(dòng)化地學(xué)習(xí)目標(biāo)的多尺度特征,相比傳統(tǒng)的模式識(shí)別方法,具有更好的自適應(yīng)性和容錯(cuò)能力,廣泛應(yīng)用于圖像分類(lèi)等領(lǐng)域,因此BotCatcher選擇采用CNN對(duì)數(shù)據(jù)流的空間特征進(jìn)行學(xué)習(xí)。

        3.2.1 數(shù)據(jù)規(guī)范化

        在學(xué)習(xí)前需要將每個(gè)數(shù)據(jù)流轉(zhuǎn)化為一張二維灰度圖像。為了提取出相同維度的特征,CNN要求輸入的圖片大小相同,而經(jīng)過(guò)數(shù)據(jù)預(yù)處理得到的訓(xùn)練集中,各個(gè)數(shù)據(jù)流大小不一,且方差可能很大。因此為了便于接下來(lái)的特征學(xué)習(xí),BotCatcher對(duì)所有的數(shù)據(jù)流進(jìn)行截取,取每個(gè)數(shù)據(jù)流前1 024 B(32×32)的數(shù)據(jù)(截取長(zhǎng)度在第4節(jié)中進(jìn)行評(píng)估),如果某條數(shù)據(jù)流長(zhǎng)度不夠1 024 B,則在末尾用0x00進(jìn)行填充。通常,一條數(shù)據(jù)流前面的數(shù)據(jù)主要包括連接信息(例如TCP連接中的三次握手、TLS連接中的密鑰交換)與少部分的內(nèi)容交換,可以較好地反映整條數(shù)據(jù)流的主要特征。

        3.2.2 圖片轉(zhuǎn)化

        為了驗(yàn)證CNN對(duì)流量分類(lèi)的科學(xué)性和可行性,本文從NETRESEC網(wǎng)站隨機(jī)選取了幾種惡意流量,同時(shí)捕獲了幾種常見(jiàn)的日常流量,并將其可視化。具體方法為:從某一類(lèi)的流量中隨機(jī)抽取若干條數(shù)據(jù)流,截取每個(gè)數(shù)據(jù)流中的前1 024 B的數(shù)據(jù),并將每個(gè)字節(jié)轉(zhuǎn)化為一個(gè)8位灰度像素(0x00表示黑色,0xff表示白色),最后形成一個(gè)32×32的灰度圖像,如圖3所示。

        圖3 不同類(lèi)別流量轉(zhuǎn)化成的灰度圖像

        從圖3可以看出,不同應(yīng)用種類(lèi)的pcap圖像之間具有較為明顯的差別,而每一類(lèi)中的數(shù)據(jù)流則具有極高的相似度。因此可以推測(cè)僵尸網(wǎng)絡(luò)數(shù)據(jù)流轉(zhuǎn)化生成的圖像與正常數(shù)據(jù)流的圖像具有顯著差異,即使用CNN對(duì)圖片分類(lèi)的方法進(jìn)行流量識(shí)別是有效的。

        3.2.3 CNN結(jié)構(gòu)設(shè)計(jì)

        本文流量預(yù)處理得到的圖片輸入尺寸以及訓(xùn)練模型所使用的數(shù)據(jù)量與經(jīng)典的LeNet-5結(jié)構(gòu)十分相似。LeNet-5共使用7層卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),包括卷積層、池化層、卷積層、池化層、卷積層、全連接層和輸出層,它避免了對(duì)圖像進(jìn)行復(fù)雜的預(yù)處理過(guò)程,在模式分類(lèi)領(lǐng)域獲得了廣泛應(yīng)用,尤其對(duì)于手寫(xiě)數(shù)字識(shí)別具有非常高的準(zhǔn)確率。因此BotCatcher借鑒LeNet-5結(jié)構(gòu),同時(shí)由于數(shù)據(jù)流灰度圖像相比于簡(jiǎn)單的手寫(xiě)數(shù)字具有更多復(fù)雜的細(xì)節(jié),因此在使用CNN時(shí)加入了更多的過(guò)濾器來(lái)全面學(xué)習(xí)樣本特征。BotCatcher共采用2個(gè)卷積層,并在每個(gè)卷積層后的池化層進(jìn)行最大池化(max-pooling)操作。

        圖4 CNN結(jié)構(gòu)設(shè)計(jì)

        CNN具體結(jié)構(gòu)如圖4所示,每層功能介紹如下。

        1) 卷積層C1:卷積操作共使用32個(gè)過(guò)濾器,卷積核大小為5×5,卷積步長(zhǎng)為1。該層由32個(gè)大小為28×28的特征圖組成。

        2) 池化層S1:C1層的每個(gè)特征圖在該層進(jìn)行一次大小為2×2的最大池化操作,即對(duì)每個(gè)特征圖進(jìn)行步長(zhǎng)為2的2×2過(guò)濾,取4個(gè)輸入中的最大值。該層由32個(gè)大小為14×14的特征圖組成。

        3) 卷積層C2:卷積操作共使用64個(gè)過(guò)濾器,卷積核大小為5×5,卷積步長(zhǎng)為1。該層由64個(gè)大小為10×10的特征圖組成,其中,每個(gè)特征圖連接S1層的所有32個(gè)或幾個(gè)特征圖。

        4) 池化層S2:與S1層進(jìn)行的池化操作相同,該層由64個(gè)大小為5×5的特征圖組成,特征圖中的每個(gè)單元與C2層中相對(duì)應(yīng)特征圖的2×2鄰域相連接。

        5) 全連接層D1:由1 024個(gè)神經(jīng)元構(gòu)成,與S2層全相連,輸出為1 024維向量。

        6) 全連接層D2:由10個(gè)神經(jīng)元構(gòu)成,與D1層全相連,輸出為10維向量。

        3.3 時(shí)間特征學(xué)習(xí)

        CNN只能對(duì)數(shù)據(jù)流的空間特征進(jìn)行學(xué)習(xí),無(wú)法提取鏈?zhǔn)浇Y(jié)構(gòu)的輸入集中各單元之間的依賴(lài)關(guān)系。為了更深層地挖掘數(shù)據(jù)流在時(shí)間序列上的特征,BotCatcher采用RNN中的LSTM神經(jīng)網(wǎng)絡(luò)進(jìn)行時(shí)間特征學(xué)習(xí)。相比于傳統(tǒng)的前向反饋神經(jīng)網(wǎng)絡(luò),RNN引入了定向循環(huán),能夠處理輸入之間前后關(guān)聯(lián)的問(wèn)題,目前,RNN在自然語(yǔ)言處理(NLP, natural language processing)領(lǐng)域已經(jīng)取得了巨大成功。如圖2所示,網(wǎng)絡(luò)流量中的每個(gè)數(shù)據(jù)流都由按照時(shí)間順序排列的數(shù)據(jù)分組序列構(gòu)成,因此可以使用RNN對(duì)其進(jìn)行序列挖掘。LSTM是一種特殊的RNN,主要解決了序列數(shù)據(jù)中“長(zhǎng)期依賴(lài)”的問(wèn)題。通常,網(wǎng)絡(luò)流量由于其協(xié)議的特殊性,數(shù)據(jù)流中的一些數(shù)據(jù)分組可能與在其之前的個(gè)數(shù)據(jù)分組存在依賴(lài)關(guān)系(例如TCP握手階段的超時(shí)重連),因此相比于簡(jiǎn)單循環(huán)神經(jīng)網(wǎng)絡(luò),LSTM更符合流量特征挖掘的場(chǎng)景需求。

        為了更準(zhǔn)確地提取特征,BotCatcher采用雙向LSTM,即對(duì)每個(gè)數(shù)據(jù)流進(jìn)行正向、反向2個(gè)方向的序列掃描。同時(shí)采用雙層LSTM架構(gòu),先以數(shù)據(jù)分組中的字節(jié)序列作為L(zhǎng)STM的輸入,將每個(gè)數(shù)據(jù)分組轉(zhuǎn)化為一個(gè)向量,再將得到的數(shù)據(jù)分組向量序列作為L(zhǎng)STM的輸入,生成最終的時(shí)間維度特征。

        3.3.1 輸入規(guī)范化

        與3.2節(jié)相同,為了進(jìn)行模型訓(xùn)練,需要對(duì)所有輸入的數(shù)據(jù)流進(jìn)行結(jié)構(gòu)規(guī)范化,統(tǒng)一格式。BotCatcher對(duì)每個(gè)數(shù)據(jù)流截取前8個(gè)數(shù)據(jù)分組,每個(gè)數(shù)據(jù)分組取前100個(gè)字節(jié)(截取長(zhǎng)度在第4節(jié)進(jìn)行評(píng)估),若長(zhǎng)度不夠,則在末尾用0x00填充。

        圖5 LSTM結(jié)構(gòu)設(shè)計(jì)

        3.3.2 LSTM結(jié)構(gòu)設(shè)計(jì)

        LSTM具體結(jié)構(gòu)如圖5所示,各層功能介紹如下。

        1) 獨(dú)熱編碼層One-Hot:首先將數(shù)據(jù)流分為8個(gè)數(shù)據(jù)分組,每個(gè)數(shù)據(jù)分組為100維向量=(1,2,…,a),=1,2,…,,a∈*且0≤a≤255。這樣,數(shù)字化的向量在進(jìn)行訓(xùn)練時(shí),模型會(huì)將字節(jié)這種離散值誤認(rèn)為連續(xù)值,從而影響權(quán)重學(xué)習(xí),降低準(zhǔn)確率。因此在進(jìn)行第一層LSTM學(xué)習(xí)之前,需要對(duì)數(shù)據(jù)分組向量進(jìn)行編碼。BotCatcher采用One-Hot編碼,將每個(gè)字節(jié)編碼為256維的向量,其中只有一位為1,其他位均為0,數(shù)據(jù)分組即變?yōu)?00×256的稀疏矩陣。

        2) LSTM層L1:由100個(gè)LSTM單元構(gòu)成,輸入為One-Hot編碼后的字節(jié)序列,輸出為100個(gè)256維向量。

        函數(shù)、方程都是刻畫(huà)現(xiàn)實(shí)世界中量與量之間變化規(guī)律的重要數(shù)學(xué)模型,運(yùn)用函數(shù)思想解決問(wèn)題時(shí)常需要構(gòu)造函數(shù),構(gòu)造法屬非常規(guī)思維,它適用于對(duì)某些常規(guī)方法不易解決的問(wèn)題.

        3) 全連接層D1:由256個(gè)神經(jīng)元構(gòu)成,輸出為256維向量。

        4) LSTM層L2:由8個(gè)LSTM單元構(gòu)成,輸入為D1層生成的數(shù)據(jù)分組序列,輸出為8個(gè)256維向量。

        5) 全連接層D2:由10個(gè)神經(jīng)元構(gòu)成,輸出為10維向量。

        3.4 分類(lèi)學(xué)習(xí)

        在進(jìn)行分類(lèi)之前,需要對(duì)數(shù)據(jù)流時(shí)間和空間這2個(gè)維度的特征進(jìn)行聚合。聚合過(guò)程有累加、累乘、取最大值等多種方式,為了盡可能地保留網(wǎng)絡(luò)流量的時(shí)空特性,BotCatcher采用串聯(lián)的方式進(jìn)行聚合,即將2個(gè)10維的特征向量相接,構(gòu)成一個(gè)20維的特征向量。

        1) 分類(lèi)器選擇:基于數(shù)據(jù)流特征,使用Softmax分類(lèi)器來(lái)判斷輸入的數(shù)據(jù)流為正常流量還是僵尸網(wǎng)絡(luò)流量,如式(1)所示。其中,V為向量的第個(gè)元素,該元素的Softmax值S

        Softmax會(huì)將多個(gè)神經(jīng)元的輸出映射到(0,1)內(nèi),各個(gè)輸出之和為1,符合概率形式,簡(jiǎn)單易用。本文的Softmax作為二分類(lèi)器,輸出結(jié)果為2類(lèi)。

        2) 損失函數(shù):模型訓(xùn)練時(shí),在分類(lèi)器后需要根據(jù)損失函數(shù)計(jì)算損失,繼而進(jìn)行反向傳播來(lái)進(jìn)行參數(shù)調(diào)整,即BP(back propagation)過(guò)程。BotCatcher選用多分類(lèi)交叉熵?fù)p失(categorical cross-entropy loss)函數(shù)作為模型的損失函數(shù)。此外,為了防止訓(xùn)練結(jié)果過(guò)擬合,使權(quán)重的分配更加均勻,在損失函數(shù)中加入了正則項(xiàng),如式(2)所示。

        3) 優(yōu)化算法:BotCatcher采取的優(yōu)化算法為基于mini-batch的隨機(jī)梯度下降法(SGD, stochastic gradient descent),并加入動(dòng)量參數(shù)來(lái)提高穩(wěn)定性,加快學(xué)習(xí)速度。參數(shù)更新過(guò)程如式(3)所示。

        模型訓(xùn)練過(guò)程如算法1所示。

        算法1 模型訓(xùn)練過(guò)程

        輸出 更新后的網(wǎng)絡(luò)權(quán)重矩陣,偏移量

        2) 從訓(xùn)練集中隨機(jī)選取對(duì)樣本

        8) end for

        9) 使用驗(yàn)證集進(jìn)行驗(yàn)證

        10) end while

        4 效果評(píng)估

        4.1 數(shù)據(jù)集

        本文實(shí)驗(yàn)采用的數(shù)據(jù)集由僵尸網(wǎng)絡(luò)流量、正常網(wǎng)絡(luò)流量和背景流量3個(gè)部分組成。其中,僵尸網(wǎng)絡(luò)流量取自CTU大學(xué)(布拉格捷克理工大學(xué))組織建立的Stratosphere IPS項(xiàng)目,該項(xiàng)目的一個(gè)姊妹項(xiàng)目Malware Capture Facility專(zhuān)門(mén)負(fù)責(zé)收集和捕獲各種類(lèi)型的惡意流量和正常流量,著名的CTU-13數(shù)據(jù)集[24]就由該項(xiàng)目建立。本文從中選擇了若干個(gè)具有代表性的僵尸網(wǎng)絡(luò)作為實(shí)驗(yàn)數(shù)據(jù)集,并對(duì)其中過(guò)大(超過(guò)1 GB)的pcap分組進(jìn)行了一定裁剪,如表2所示。正常網(wǎng)絡(luò)流量取自ISOT 2010數(shù)據(jù)集[25],該數(shù)據(jù)集混合了French chapter of Honeynet[26]、Ericsson Research in Hungray[27]等多個(gè)項(xiàng)目的公開(kāi)數(shù)據(jù)集,包括Storm和Zeus這2種P2P僵尸網(wǎng)絡(luò)以及HTTP、P2P應(yīng)用(例如bittorrent)、游戲等多種非惡意流量,本文選取其中未感染主機(jī)的流量作為本文實(shí)驗(yàn)的正常流量。

        此外,為了使實(shí)驗(yàn)數(shù)據(jù)更接近用戶(hù)日常上網(wǎng)環(huán)境,對(duì)本地10臺(tái)日常使用的電腦進(jìn)行了流量采集,生成流量作為本文實(shí)驗(yàn)的背景流量。

        表2 數(shù)據(jù)集

        4.2 評(píng)估指標(biāo)

        為了對(duì)檢測(cè)模型的表現(xiàn)進(jìn)行評(píng)估,本文共選取3個(gè)實(shí)驗(yàn)指標(biāo),分別為準(zhǔn)確率()、誤報(bào)率()和F值,如式(4)所示。

        其中,值為查準(zhǔn)率和查全率的加權(quán)調(diào)和平均值,由于在流量檢測(cè)中查準(zhǔn)率比查全率更加重要,因此應(yīng)介于0~1之間,本文將定為0.5。是將正類(lèi)預(yù)測(cè)為正類(lèi)的數(shù)量,是將負(fù)類(lèi)預(yù)測(cè)為負(fù)類(lèi)的數(shù)量,是將負(fù)類(lèi)預(yù)測(cè)為正類(lèi)的數(shù)量,為將正類(lèi)預(yù)測(cè)為負(fù)類(lèi)的數(shù)量。

        4.3 參數(shù)選擇

        第3節(jié)中,在對(duì)流量進(jìn)行特征學(xué)習(xí)時(shí),需要對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,通過(guò)截取相同大小的長(zhǎng)度將流量數(shù)據(jù)處理成深度學(xué)習(xí)框架需要的輸入形式,相關(guān)參數(shù)包括以下3個(gè)部分。

        1):空間特征學(xué)習(xí)模塊中,每條數(shù)據(jù)流的字節(jié)數(shù),即輸入圖片的大小。

        2):時(shí)間特征學(xué)習(xí)模塊中,每條數(shù)據(jù)流的數(shù)據(jù)分組數(shù)量。

        3):時(shí)間特征學(xué)習(xí)模塊中,每個(gè)數(shù)據(jù)分組的字節(jié)數(shù)。

        合理的模型輸入規(guī)格可以更好地保留流量數(shù)據(jù)自身特性,同時(shí)有助于構(gòu)造出學(xué)習(xí)能力更強(qiáng)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),加快模型學(xué)習(xí)的效率。因此,為了方便選擇合適的參數(shù),本文取Conficker、Neris、Zeus這3個(gè)較為典型的僵尸網(wǎng)絡(luò)數(shù)據(jù)集,對(duì)它們的流量特征進(jìn)行了3個(gè)方面的統(tǒng)計(jì),即每條數(shù)據(jù)流的字節(jié)數(shù)、每條數(shù)據(jù)流的數(shù)據(jù)分組數(shù)和每個(gè)數(shù)據(jù)分組的字節(jié)數(shù),統(tǒng)計(jì)數(shù)據(jù)分組包括總數(shù)、最大值、最小值、平均值和眾數(shù),如表3所示。

        表3 流量參數(shù)統(tǒng)計(jì)數(shù)據(jù)

        綜合表3提供的信息,本文將2個(gè)特征學(xué)習(xí)模塊作為單獨(dú)的模型分別進(jìn)行了模擬實(shí)驗(yàn)(即只用空間特征訓(xùn)練或只用時(shí)間特征訓(xùn)練),并根據(jù)結(jié)果對(duì)模型參數(shù)進(jìn)行了如下選擇。

        1) 對(duì)于空間特征學(xué)習(xí)模塊,本文對(duì)分別取25×25、26×26、…、37×37,構(gòu)造13組訓(xùn)練集對(duì)模型進(jìn)行訓(xùn)練,訓(xùn)練結(jié)果如圖6所示。從圖6可以看出,當(dāng)大小超過(guò)1 089(33×33)時(shí),模型準(zhǔn)確率不再有顯著上升。結(jié)合CNN模型的學(xué)習(xí)經(jīng)驗(yàn),本文將確定為與LeNet-5的輸入集大小相同,即1 024(32×32)。

        圖6 bpf參數(shù)選擇

        2) 對(duì)于時(shí)間特征學(xué)習(xí)模塊,雖然在一定范圍內(nèi)取更大的和可以更好地反映流量?jī)?nèi)部的時(shí)間關(guān)聯(lián),但是由于該模塊輸入的訓(xùn)練集格式為四維矩陣,隨著2個(gè)參數(shù)取值的增加,得到的訓(xùn)練集會(huì)成倍增大,并最終對(duì)模型訓(xùn)練速率造成很大的影響,因此該模塊的參數(shù)選擇在保證一定準(zhǔn)確率的前提下,訓(xùn)練時(shí)間成本與空間占用成本成為主要的考慮因素。此外,從表3可以看出,數(shù)據(jù)流所含的數(shù)據(jù)分組多數(shù)為6~10個(gè),數(shù)據(jù)分組中所含的字節(jié)數(shù)多數(shù)都不超過(guò)100 B,由此可以判斷較小的和即可反映大部分流量的時(shí)間特性。本文對(duì)分別取6、8、10、12,對(duì)分別取80、100、120,構(gòu)造12組訓(xùn)練集對(duì)模型進(jìn)行訓(xùn)練,在訓(xùn)練集大小為1 000個(gè)樣本的情況下,10輪epoch所需的訓(xùn)練時(shí)間(包括讀取訓(xùn)練數(shù)據(jù)的時(shí)間)與準(zhǔn)確率如圖7所示。從圖7可以看出,當(dāng)和分別為8和100時(shí),模型有較高的準(zhǔn)確度,且訓(xùn)練時(shí)間成本較小,隨著參數(shù)取值變大,準(zhǔn)確率不再有顯著增長(zhǎng),但是時(shí)間成本大幅度提高。因此本文將確定為8,確定為100。

        圖7 ppf和bpp參數(shù)選擇

        4.4 評(píng)估結(jié)果

        4.4.1 實(shí)驗(yàn)環(huán)境

        數(shù)據(jù)預(yù)處理階段,采用pkt2flow工具將原始pcap分組轉(zhuǎn)化為數(shù)據(jù)流。模型搭建階段,采用keras作為神經(jīng)網(wǎng)絡(luò)框架,計(jì)算機(jī)配置為8核16 GB內(nèi)存,搭載64位的Ubuntu 16.04,顯卡為AMD R7 350。參數(shù)方面,mini-batch大小為128,訓(xùn)練時(shí)間為30輪epoch。此外,為了提升訓(xùn)練速度、防止過(guò)擬合,模型采用dropout方法,丟棄率為0.25。

        4.4.2 實(shí)驗(yàn)結(jié)果

        正如本文第2節(jié)所述,僵尸網(wǎng)絡(luò)檢測(cè)方面已經(jīng)有利用CNN、RNN等深度學(xué)習(xí)技術(shù)構(gòu)建檢測(cè)模型的例子。本文為了更全面、更精確地刻畫(huà)網(wǎng)絡(luò)流量特征,沒(méi)有采用單一的方法,而是從數(shù)據(jù)流和數(shù)據(jù)分組等多種數(shù)據(jù)結(jié)構(gòu)出發(fā),結(jié)合CNN和LSTM技術(shù)提取流量中的時(shí)間和空間這2個(gè)維度的特征。因此,為了對(duì)BotCatcher的性能進(jìn)行對(duì)比評(píng)估,本文利用數(shù)據(jù)集對(duì)以下3種模型分別進(jìn)行了多輪訓(xùn)練,并觀(guān)察檢測(cè)結(jié)果指標(biāo)。

        1) 模型A:只使用CNN提取空間特征。

        2) 模型B:只使用LSTM提取時(shí)間特征。

        3) 模型C:同時(shí)使用CNN和LSTM提取時(shí)空特征,即BotCathcer模型。

        圖8和圖9顯示了3種模型在不同訓(xùn)練時(shí)間下測(cè)試得到的F值和,共進(jìn)行10次實(shí)驗(yàn),取10次結(jié)果的平均值作為最后結(jié)果。

        圖8 檢測(cè)結(jié)果Fβ值

        圖9 檢測(cè)結(jié)果FPR

        從圖8可以看出,在只使用一種特征的情況下,模型B的性能相對(duì)較差,30輪訓(xùn)練后的F值為0.977 8,模型A的性能相對(duì)較好,30輪訓(xùn)練后的F值為0.988 4,這說(shuō)明本文所用到的空間特征比時(shí)間特征可以更好地反映網(wǎng)絡(luò)流量特性。

        BotCatcher使用時(shí)間和空間這2種特征,從圖9可以看出,在同樣訓(xùn)練時(shí)間下,模型C的性能比模型A和模型B均有明顯提升,30輪訓(xùn)練后F值達(dá)到0.997 6,僅為0.012。綜上,在建立僵尸網(wǎng)絡(luò)檢測(cè)模型時(shí),利用CNN和LSTM提取出來(lái)的多維特征相比單一特征能夠取得更高的準(zhǔn)確率和更低的誤報(bào)率,得到的模型準(zhǔn)確率可以滿(mǎn)足實(shí)際使用需求。

        5 討論

        BotCatcher由2種深度神經(jīng)網(wǎng)絡(luò)構(gòu)成,模型結(jié)

        構(gòu)相比傳統(tǒng)機(jī)器學(xué)習(xí)模型要復(fù)雜得多,主要體現(xiàn)在以下2個(gè)方面。

        1) CNN和LSTM這2種深層模型并行工作,模型層數(shù)較多,共有近300萬(wàn)個(gè)參數(shù)可以調(diào)節(jié)。

        2)本文所提模型需要的2種輸入格式分別為三維和四維,多維輸入導(dǎo)致訓(xùn)練集數(shù)據(jù)龐大。

        以上2個(gè)原因?qū)е翨otCatcher雖然檢測(cè)準(zhǔn)確性較好,但是實(shí)際運(yùn)行速度較為緩慢,且對(duì)計(jì)算環(huán)境的配置要求較高。BotCatcher運(yùn)行的時(shí)間主要體現(xiàn)在神經(jīng)網(wǎng)絡(luò)特征的提取過(guò)程,尤其是輸入高維數(shù)據(jù)的RNN。由4.3節(jié)的結(jié)果可知,訓(xùn)練1 000個(gè)樣本所需時(shí)間大約在10~20 min,相比樸素貝葉斯、SVM等人工選取特征的常見(jiàn)機(jī)器學(xué)習(xí)算法具有較高的時(shí)間成本。但是計(jì)算機(jī)硬件對(duì)于深度學(xué)習(xí)的效率影響非常大,高性能的設(shè)備可以顯著提高深度學(xué)習(xí)的處理速度。本文的實(shí)驗(yàn)過(guò)程采用CPU進(jìn)行模型準(zhǔn)確性的評(píng)估,如果使用具有大容量顯存和高吞吐量的GPU將會(huì)大幅度降低時(shí)間成本??傊紤]到效率因素,BotCatcher可能暫時(shí)不適合實(shí)時(shí)檢測(cè)場(chǎng)景。接下來(lái)的工作中需要對(duì)其進(jìn)行優(yōu)化,在保證性能的同時(shí)提高檢測(cè)效率。

        此外,本文特征提取部分所用到的結(jié)構(gòu)還可以選擇其他深度神經(jīng)網(wǎng)絡(luò)進(jìn)行進(jìn)一步嘗試,例如,可以使用LSTM網(wǎng)絡(luò)的變體門(mén)控循環(huán)單元(GRU, gated recurrent unit)對(duì)時(shí)間特征進(jìn)行學(xué)習(xí),通過(guò)對(duì)比檢測(cè)效果進(jìn)一步優(yōu)化模型結(jié)構(gòu)。

        6 結(jié)束語(yǔ)

        由于僵尸網(wǎng)絡(luò)形態(tài)和機(jī)理的發(fā)展,基于機(jī)器學(xué)習(xí)的僵尸網(wǎng)絡(luò)檢測(cè)系統(tǒng)開(kāi)始面臨人工提取特征困難的問(wèn)題。本文提出一種基于深度學(xué)習(xí)的檢測(cè)模型并實(shí)現(xiàn)了其原型系統(tǒng)BotCatcher。該模型使用CNN和RNN這2種深層神經(jīng)網(wǎng)絡(luò)架構(gòu),對(duì)原始流量自動(dòng)化地提取時(shí)間與空間這2個(gè)維度的特征。其中,提取空間特征時(shí),先將每條數(shù)據(jù)流轉(zhuǎn)化為一張灰度圖像,然后利用CNN在圖像識(shí)別領(lǐng)域應(yīng)用的方法從中學(xué)習(xí)特征;提取時(shí)間特征時(shí),分別將每個(gè)數(shù)據(jù)分組中的字節(jié)序列以及每條數(shù)據(jù)流中的數(shù)據(jù)分組序列作為輸入建立雙層雙向LSTM神經(jīng)網(wǎng)絡(luò),并從中學(xué)習(xí)特征。

        BotCatcher通過(guò)結(jié)合時(shí)空特征對(duì)網(wǎng)絡(luò)流量進(jìn)行全面刻畫(huà),將特征提取與模型訓(xùn)練過(guò)程串聯(lián)起來(lái)。系統(tǒng)不依賴(lài)于任何有關(guān)協(xié)議和拓?fù)涞南闰?yàn)知識(shí),也不需要人工參與特征選擇。實(shí)驗(yàn)證明,該檢測(cè)系統(tǒng)性能良好,相比只使用單一神經(jīng)網(wǎng)絡(luò)的檢測(cè)模型具有更高的準(zhǔn)確率與更低的誤報(bào)率,能夠滿(mǎn)足實(shí)際使用需求。

        [1] CUI X, FANG B, SHI J, et al. Botnet triple-channel model: towards resilient and efficient bidirectional communication botnets[C]// International Conference on Security and Privacy in Communication Systems. 2013: 53-68.

        [2] KOLIAS C, KAMBOURAKIS G, STAVROU A, et al. DDoS in the IoT: mirai and other botnets[J]. Computer, 2017, 50(7): 80-84.

        [3] EHRENFELD J M. Wannacry, cybersecurity and health information technology: a time to act[J]. Journal of Medical Systems, 2017, 41(7): 104.

        [4] LIVADAS C, WALSH R, LAPSLEY D, et al. Usilng machine learning technliques to identify botnet traffic[C]//31st IEEE Conference on Local Computer Networks. 2006: 967-974.

        [5] KONDO S, SATO N. Botnet traffic detection techniques by C&C session classification using SVM[C]//International Workshop on Security. 2007: 91-104.

        [6] BILGE L, BALZAROTTI D, ROBERTSON W, et al. Disclosure: detecting botnet command and control servers through large-scale netflow analysis[C]//The 28th Annual Computer Security Applications Conference. 2012: 129-138.

        [7] FRAN?OIS J, WANG S, ENGEL T. BotTrack: tracking botnets using NetFlow and PageRank[C]//International Conference on Research in Networking. 2011: 1-14.

        [8] GU G, PERDISCI R, ZHANG J, et al. BotMiner: clustering analysis of network traffic for protocol-and structure-independent botnet detection[C]//USENIX Security Symposium. 2008: 139-154.

        [9] CUI X, FANG B X, YIN L H, et al. Andbot: towards advanced mobile botnets[C]//The 4th Usenix Workshop on Large-scale Exploits and Emergent Threats. 2011: 11.

        [10] ZHANG J, SAHA S, GU G, et al. Systematic mining of associated server herds for malware campaign discovery[C]//2015 IEEE 35th International Conference on Distributed Computing Systems (ICDCS). 2015: 630-641.

        [11] 崔鵬飛, 裘玥, 孫瑞. 面向網(wǎng)絡(luò)內(nèi)容安全的圖像識(shí)別技術(shù)研究[J]. 信息網(wǎng)絡(luò)安全, 2015(9): 154-157. CUI P F, QIU Y, SUN R. Research on image recognition technology for the network content security[J]. Netinfo Security, 2015(9): 154-157.

        [12] GUL K S Q, 尹繼澤, 潘麗敏, 等. 基于深度神經(jīng)網(wǎng)絡(luò)的命名實(shí)體識(shí)別方法研究[J]. 信息網(wǎng)絡(luò)安全, 2017(10): 29-35. GUL K S Q, YIN J Z, PAN L M, et.al. Research on the algorithm of named entity recognition based on deep neural network[J]. Netinfo Security, 2017(10): 29-35.

        [13] ILGUN K. USTAT: a real-time intrusion detection system for UNIX[C]// 1993 IEEE Computer Society Symposium on Research in Security and Privacy. 1993: 16-28.

        [14] VIGNA G, KEMMERER R A. NetSTAT: a network-based intrusion detection approach[C]//14th Annual Computer Security Applications Conference. 1998: 25-34.

        [15] GU G, PORRAS P A, YEGNESWARAN V, et al. BotHunter: detecting malware infection through IDS-driven dialog correlation[C]//USENIX Security Symposium. 2007: 1-16.

        [16] WURZINGER P, BILGE L, HOLZ T, et al. Automatically generating models for botnet detection[C]//European Symposium on Research in Computer Security. 2009: 232-249.

        [17] ARSHAD S, ABBASPOUR M, KHARRAZI M, et al. An anomaly-based botnet detection approach for identifying stealthy botnets[C]//2011 IEEE International Conference on Computer Applications and Industrial Electronics (ICCAIE). 2011: 564-569.

        [18] SAAD S, TRAORE I, GHORBANI A, et al. Detecting P2P botnets through network behavior analysis and machine learning[C]//2011 Ninth Annual International Conference on Privacy, Security and Trust (PST). 2011: 174-180.

        [19] AL-JARRAH O Y, ALHUSSEIN O, YOO P D, et al. Data randomization and cluster-based partitioning for botnet intrusion detection[J]. IEEE Transactions on Cybernetics, 2016, 46(8): 1796-1806.

        [20] VENKATESH G K, NADARAJAN R A. HTTP botnet detection using adaptive learning rate multilayer feed-forward neural network[C]//WISTP. 2012: 38-48.

        [21] TORRES P, CATANIA C, GARCIA S, et al. An analysis of recurrent neural networks for botnet detection behavior[C]//2016 IEEE Biennial Congress of Argentina (ARGENCON). 2016: 1-6.

        [22] WANG W, ZHU M, ZENG X, et al. Malware traffic classification using convolutional neural network for representation learning[C]//2017 International Conference on Information Networking (ICOIN). 2017: 712-717.

        [23] 王勇, 周惠怡, 俸皓, 等. 基于深度卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)流量分類(lèi)方法[J]. 通信學(xué)報(bào), 2018, 39(1): 14-23.WANG Y, ZHOU H Y, FENG H, et al. Network traffic classification method basing on CNN[J]. Journal on Communications, 2018, 39(1): 14-23.

        [24] HADDADI F, PHAN D T, ZINCIR-HEYWOOD A N. How to choose from different botnet detection systems?[C]//Network Operations and Management Symposium (NOMS). 2016: 1079-1084.

        [25] ZHAO D, TRAORE I, SAYED B, et al. Botnet detection based on traffic behavior analysis and flow intervals[J]. Computers & Security, 2013, 39: 2-16.

        [26] WATSON D, RIDEN J. The honeynet project: data collection tools, infrastructure, archives and analysis[C]//WOMBAT Workshop on Information Security Threats Data Collection and Sharing. 2008: 24-30.

        [27] SZABó G, ORINCSAY D, MALOMSOKY S, et al. On the validation of traffic classification algorithms[C]//International Conference on Passive and Active Network Measurement. 2008: 72-81.

        BotCatcher: botnet detection system based on deep learning

        WU Di1,2, FANG Binxing3,4,5, CUI Xiang1,3, LIU Qixu1,2

        1. Institute of Information Engineering, Chinese Academy of Sciences, Beijing 100093, China 2. School of Cyber Security, University of Chinese Academy of Sciences, Beijing 100049, China 3. Cyberspace Institute of Advanced Technology, Guangzhou University, Guangzhou 510006, China 4. Institute of Electronic and Information Engineering of UESTC in Guangdong, Dongguan 523808, China 5. School of Cyberspace Security, Beijing University of Posts and Telecommunications, Beijing 100876, China

        Machine learning technology has wide application in botnet detection. However, with the changes of the forms and command and control mechanisms of botnets, selecting features manually becomes increasingly difficult. To solve this problem, a botnet detection system called BotCatcher based on deep learning was proposed. It automatically extracted features from time and space dimension, and established classifier through multiple neural network constructions. BotCatcher does not depend on any prior knowledge which about the protocol and the topology, and works without manually selecting features. The experimental results show that the proposed model has good performance in botnet detection and has ability to accurately identify botnet traffic .

        botnet, deep learning, detection, feature

        TP309.5

        A

        10.11959/j.issn.1000?436x.2018135

        吳迪(1991?),男,遼寧撫順人,中國(guó)科學(xué)院大學(xué)博士生,主要研究方向?yàn)榫W(wǎng)絡(luò)攻防技術(shù)。

        方濱興(1960?),男,江西萬(wàn)年人,中國(guó)工程院院士,北京郵電大學(xué)教授、博士生導(dǎo)師,主要研究方向?yàn)橛?jì)算機(jī)體系結(jié)構(gòu)、計(jì)算機(jī)網(wǎng)絡(luò)與信息安全。

        崔翔(1978?),男,黑龍江訥河人,博士,廣州大學(xué)研究員,主要研究方向?yàn)榫W(wǎng)絡(luò)攻防技術(shù)。

        劉奇旭(1984?),男,江蘇徐州人,博士,中國(guó)科學(xué)院副研究員、中國(guó)科學(xué)院大學(xué)副教授,主要研究方向?yàn)榫W(wǎng)絡(luò)攻防技術(shù)、網(wǎng)絡(luò)安全評(píng)測(cè)。

        2018?03?13;

        2018?07?10

        崔翔,cuixiang@iie.ac.cn

        國(guó)家重點(diǎn)研發(fā)計(jì)劃基金資助項(xiàng)目(No.2016YFB0801604);東莞市引進(jìn)創(chuàng)新科研團(tuán)隊(duì)計(jì)劃基金資助項(xiàng)目(No.201636000100038);中國(guó)科學(xué)院網(wǎng)絡(luò)測(cè)評(píng)技術(shù)重點(diǎn)實(shí)驗(yàn)室和網(wǎng)絡(luò)安全防護(hù)技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室基金資助項(xiàng)目

        The National Key Research and Development Program of China (No.2016YFB0801604), Dongguan Innovative Research Team Program (No.201636000100038), The Key Laboratory of Network Assessment Technology at Chinese Academy of Sciences and Beijing Key Laboratory of Network Security and Protection Technology

        猜你喜歡
        特征檢測(cè)模型
        一半模型
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        重要模型『一線(xiàn)三等角』
        重尾非線(xiàn)性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀(guān)察
        3D打印中的模型分割與打包
        巨臀精品无码AV在线播放| 久久人妻少妇嫩草av无码专区| 久久久亚洲av成人乱码| 美女露出奶头扒开内裤的视频| 一区二区在线观看视频高清| 人妻少妇哀求别拔出来| 亚洲av国产av综合av卡| 亚洲中文字幕在线第二页| a级毛片无码免费真人| 激情亚洲一区国产精品| 日韩免费一区二区三区在线 | 91人妻一区二区三区蜜臀| 男奸女永久免费视频网站 | 在线观看国产av一区二区| 毛片精品一区二区二区三区| 青青草国产手机观看视频| 日韩精品无码熟人妻视频| 国内精品伊人久久久久网站| 国产精品久久久久久婷婷| 嫩草影院未满十八岁禁止入内| 免费AV一区二区三区无码| 无码高清视频在线播放十区| 国产精品综合色区av| 91中文在线九色视频| 人妻中文字幕日韩av| 久久久久亚洲av成人网人人网站| 午夜福利电影| 亞洲綜合一區二區三區無碼| 天天摸天天做天天爽天天舒服 | 91精品在线免费| 一区二区在线观看日本免费| 狼人伊人影院在线观看国产| 欧美性色黄大片手机版| 91av视频在线| 最全精品自拍视频在线| av无码一区二区三区| 亚洲日韩成人av无码网站| 久久韩国漫画无删减漫画歪歪漫画| 无码人妻精品一区二区三区下载| 日本最新一区二区三区视频| 岛国熟女精品一区二区三区|