亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的集成DGA域名檢測(cè)方法

        2018-10-22 11:50:50羅赟騫王艷偉
        關(guān)鍵詞:特征提取特征檢測(cè)

        羅赟騫,鄔 江,王艷偉,楊 鶴

        (中電長(zhǎng)城網(wǎng)際系統(tǒng)應(yīng)用有限公司,北京 102209)

        0 引言

        惡意軟件是為了進(jìn)行未經(jīng)授權(quán)的惡意活動(dòng)而感染計(jì)算機(jī)的軟件,如僵尸網(wǎng)絡(luò)、勒索軟件、間諜軟件等。惡意軟件通常與命令和控制中心(Command & Control,C2)之間建立通信連接,從而使控制者通過C2服務(wù)器遠(yuǎn)程控制目標(biāo)主機(jī)。為了提高惡意軟件與C2服務(wù)器之間通信的可靠性,惡意軟件常常采用動(dòng)態(tài)域名生成算法(Domain Generation Algorithm,DGA)自動(dòng)生成海量域名,然后從中選擇一個(gè)或多個(gè)有效域名解析出IP地址,實(shí)現(xiàn)與C2服務(wù)器的通信,規(guī)避常規(guī)的黑名單檢測(cè)。DGA域名是惡意軟件的一個(gè)重要特征,對(duì)其進(jìn)行有效檢測(cè)可以準(zhǔn)確、及時(shí)地發(fā)現(xiàn)惡意軟件,對(duì)于提升安全檢測(cè)水平進(jìn)而提高網(wǎng)絡(luò)空間安全防護(hù)能力具有重要的現(xiàn)實(shí)意義。

        DGA域名檢測(cè)經(jīng)過了黑名單過濾、淺層機(jī)器學(xué)習(xí)檢測(cè)階段,正在向深層機(jī)器學(xué)習(xí)檢測(cè)階段發(fā)展,傳統(tǒng)的黑名單檢測(cè)方法需要人工補(bǔ)充DGA域名,難以適應(yīng)DGA域名迅速增長(zhǎng)帶來的挑戰(zhàn)[1]。淺層機(jī)器學(xué)習(xí)檢測(cè)通過精心構(gòu)造特征,采用淺層機(jī)器學(xué)習(xí)方法構(gòu)建檢測(cè)模型,實(shí)現(xiàn)對(duì)DGA域名的自動(dòng)化檢測(cè)。但是,由于需要人工構(gòu)造特征,要求特征構(gòu)造者具有豐富的經(jīng)驗(yàn),并且當(dāng)DGA域名變種時(shí),需要對(duì)特征進(jìn)行重新構(gòu)造。深度學(xué)習(xí)方法可以自動(dòng)提取特征,解決了淺層機(jī)器學(xué)習(xí)面臨的問題,可以采用該方法實(shí)現(xiàn)對(duì)DGA域名的有效檢測(cè)。文獻(xiàn)[2]提出采用長(zhǎng)短時(shí)間記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)模型實(shí)現(xiàn)對(duì)DGA域名的檢測(cè);文獻(xiàn)[3]提出采用集成卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)模型對(duì)惡意字符串進(jìn)行檢測(cè);文獻(xiàn)[4]比較了Alex Net、VGG、Squeeze Net、Inception、Res Net結(jié)合遷移學(xué)習(xí)進(jìn)行DGA域名檢測(cè)時(shí)的性能;文獻(xiàn)[5]采用實(shí)際的域名數(shù)據(jù),對(duì)CNN模型和LSTM模型的檢測(cè)性能進(jìn)行了比較。上述檢測(cè)方法只是采用單種深度學(xué)習(xí)模型對(duì)DGA域名進(jìn)行檢測(cè),然而不同的深度學(xué)習(xí)模型自動(dòng)提取特征的角度不同,如果將不同類型的深度學(xué)習(xí)模型集成在一起,可以從多個(gè)角度提取特征,從而提升檢測(cè)效果。本文將采用CNN模型和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)模型相集成的CNN-RNN模型對(duì)DGA域名進(jìn)行檢測(cè)。

        1 CNN-RNN集成檢測(cè)模型

        1.1 CNN模型

        CNN模型由卷積層和池化層組成[6]。卷積層具有局部連接和權(quán)重共享的特征,可以減少模型的復(fù)雜性;池化層可以減小數(shù)據(jù)量,從而減小參數(shù)規(guī)模,降低計(jì)算復(fù)雜度,也可以防止過擬合。CNN模型可以有效地捕捉輸入的局部特征。

        (1)卷積層

        在卷積層中,上一層的特征圖被一個(gè)可學(xué)習(xí)的卷積核進(jìn)行卷積,然后通過一個(gè)激活函數(shù),可以得到輸出特征圖,每個(gè)輸出特征圖可以組合卷積多個(gè)輸入特征圖的值。卷積層的公式為:

        (1)

        (2)池化層

        池化層將生成輸入特征圖的下采樣版本。池化層的公式為:

        (2)

        1.2 RNN模型

        與深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)一樣,RNN模型將輸入序列x1,x2,x3,…,xt映射為隱含狀態(tài)序列h1,h2,h3,…,ht。但是,與DNN不同的是,隱含狀態(tài)ht是通過x1,x2,x3,…,xt的函數(shù)進(jìn)行計(jì)算的,而不是由xt單獨(dú)計(jì)算的。將ht置于一個(gè)序列的條件上進(jìn)行計(jì)算,而不是在單獨(dú)的現(xiàn)有輸入上進(jìn)行計(jì)算,可以捕獲輸入數(shù)據(jù)中的時(shí)間特征。RNN模型在理論上很完美,但隨著神經(jīng)網(wǎng)絡(luò)層數(shù)的增加,存在梯度消失或爆炸的問題,在RNN模型基礎(chǔ)上改進(jìn)的LSTM和GRU(Gated Recurrent Unit)等模型解決了這個(gè)問題。

        (1)LSTM模型

        LSTM模型是由許多LSTM單元組成的,一個(gè)LSTM單元中包含了輸入門、輸出門和遺忘門。通過這種特殊結(jié)構(gòu),使LSTM能夠選擇輸入的哪些信息被遺忘,哪些信息被記住。某時(shí)刻t,LSTM單元各組成部分的計(jì)算如下[7]:

        it=σ(Wixt+Uiht-1+bi)

        (3)

        ft=σ(Wfxt+Ufht-1+bf)

        (4)

        (5)

        (6)

        ot=σ(Woxt+Uoht-1+bo)

        (7)

        ht=ot⊙tanh(ct)

        (8)

        其中,xt表示t時(shí)刻的輸入向量;ht表示隱藏狀態(tài);it、ft、ct、ot分別表示輸入門、遺忘門、記憶單元狀態(tài)和輸出門;Wi、Wf、Wc、Wo為輸入數(shù)據(jù)的權(quán)重矩陣;Ui、Uf、Uc、Uo為隱藏狀態(tài)的權(quán)重矩陣;bi、bf、bc、bo為偏置;σ表示sigmoid激活函數(shù);⊙為元素乘。

        (2)GRU模型

        GRU模型與LSTM相比,合并了LSTM中的遺忘門和輸入門,模型中只存在更新門和重置門,計(jì)算如下[8]:

        zt=σ(Wzxt+Uzht-1+bz)

        (9)

        rt=σ(Wrxt+Urht-1+br)

        (10)

        (11)

        (12)

        其中,xt表示t時(shí)刻的輸入向量;ht表示隱藏狀態(tài);zt、rt分別表示了更新門、重置門;Wz、Wr、Wh為輸入數(shù)據(jù)的權(quán)重矩陣;Uz、Ur、Uh為隱藏狀態(tài)的權(quán)重矩陣;bz、br、bh為偏置;σ表示sigmoid激活函數(shù)。

        1.3 集成檢測(cè)模型

        CNN-RNN模型由字符嵌入層、特征提取層和分類層三部分組成。字符嵌入層主要實(shí)現(xiàn)將輸入的字符進(jìn)行數(shù)字化編碼,特征提取層結(jié)合CNN和RNN模型實(shí)現(xiàn)對(duì)輸入數(shù)據(jù)特征的自動(dòng)提取,分類層根據(jù)提取的特征使用三層全連接神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)DGA域名的自動(dòng)分類預(yù)測(cè)。其整個(gè)模型架構(gòu)如圖1所示。

        圖1 CNN-RNN集成檢測(cè)模型

        (1)字符嵌入層

        字符嵌入層對(duì)輸入的字符進(jìn)行預(yù)處理,包括字符串填充和截?cái)?、字符編碼等。字符嵌入層只處理固定長(zhǎng)度為L(zhǎng)的字符串,如果輸入字符串長(zhǎng)度大于L,那么需要將超出L的字符串截?cái)啵蝗绻斎胱址L(zhǎng)度小于L,那么需要將字符串進(jìn)行補(bǔ)齊。為了能夠?qū)⒆址畱?yīng)用于神經(jīng)網(wǎng)絡(luò),還需要將輸入的單個(gè)字符串編碼為長(zhǎng)度為d的向量;d是一個(gè)可變參數(shù),這里取值為128。

        (2)特征提取層

        特征提取層采用深度學(xué)習(xí)模型,對(duì)字符嵌入層輸出的二維矩陣進(jìn)行自動(dòng)處理,將高維的輸入數(shù)據(jù)編碼為低維的特征編碼,保留輸入數(shù)據(jù)中絕大多數(shù)的信息。本文在文獻(xiàn)[3]的基礎(chǔ)上,提出一種結(jié)合CNN模型和Bi-RNN模型的集成特征提取模型。

        CNN模型采用3種不同長(zhǎng)度過濾器的CNN模型檢測(cè)局部特征,本文使用的過濾器長(zhǎng)度為3、4、5,卷積核的數(shù)量為256。CNN卷積模型等效于傳統(tǒng)的n-grams特征提取。每個(gè)CNN模型輸出的結(jié)果將采用求平均的方法,輸出長(zhǎng)度為256的一維向量。

        Bi-RNN模型常用于自然語言處理,可以實(shí)現(xiàn)字符數(shù)據(jù)的正向和反向處理。與單獨(dú)的RNN模型相比,Bi-RNN可以捕獲更多的時(shí)序信息。Bi-RNN模型將輸出長(zhǎng)度為256的一維向量。

        CNN模型和Bi-RNN模型的輸出結(jié)果將進(jìn)入融合層,融合層將4個(gè)長(zhǎng)度為256的一維向量連接成長(zhǎng)度為1 024的一維向量。

        Bi-RNN模型在實(shí)施時(shí)采用Bi-LSTM模型和Bi-GRU模型。

        (3)分類層

        分類層采用3層全連接神經(jīng)網(wǎng)絡(luò)對(duì)輸入特征進(jìn)行分類預(yù)測(cè),判斷輸入字符串是惡意的還是良性的。模型進(jìn)行訓(xùn)練時(shí),使用Binary-cross熵衡量分類器的損失值。

        (13)

        2 實(shí)例分析

        2.1 數(shù)據(jù)來源及嵌入層處理

        文中使用的數(shù)據(jù)是文獻(xiàn)[2]在github上開源提供的公開數(shù)據(jù)[9]。惡意域名是模擬DGA算法生成的30多種類型約75萬個(gè)DGA域名,良性域名是來至Alexa的前100萬個(gè)域名。實(shí)驗(yàn)時(shí),隨機(jī)抽取11萬個(gè)DGA域名和11萬個(gè)良性域名組成22萬個(gè)樣本。

        實(shí)驗(yàn)時(shí),使用上節(jié)中字符嵌入層的方法對(duì)輸入字符串進(jìn)行預(yù)處理,輸入字符的最大編碼長(zhǎng)度為53,字符的編碼長(zhǎng)度為128,字符嵌入層輸出大小為53×128的矩陣編碼數(shù)據(jù)。

        2.2 輸入特征提取

        將文獻(xiàn)[3]中提出的方法作為基線參考,分析比較了本文提出的集成檢測(cè)模型的性能。比較的三種特征提取模型如表1所示。

        表1 三種特征提取模型

        表1中CNN(n,m)表示過濾器長(zhǎng)度為n,卷積核的數(shù)量為m的一維卷積Convolution1D;mean(256)表示對(duì)卷積的輸出進(jìn)行axis=1方向的均值計(jì)算,輸出長(zhǎng)度為256的向量;Merge(1 024)表示將第一層中各個(gè)深度學(xué)習(xí)模型的輸出連接成長(zhǎng)度為1 024位的向量。

        2.3 預(yù)測(cè)輸出

        采用精度(Precision)、召回率(Recall)、ROC(Receiver Operating Characteristic Curve)評(píng)估本文提出的模型的效果。

        精度是精確性的度量,指被分為正例的示例與實(shí)際正例的比例。精度的計(jì)算公式為:

        (14)

        召回率是覆蓋面的度量,度量有多少正例被實(shí)際分為正例。召回率的計(jì)算公式為:

        (15)

        ROC實(shí)現(xiàn)了對(duì)TPR(True Positive Rate)和FPR(False Positive Rate)的權(quán)衡度量,TPR和FPR計(jì)算如下:

        (16)

        (17)

        ROC是通過對(duì)分類器返回分?jǐn)?shù)在不同閾值下計(jì)算的TPR和FPR進(jìn)行評(píng)估而產(chǎn)生的。例如,針對(duì)某個(gè)分類器ROC在0.0~1.0的閾值范圍內(nèi),計(jì)算每個(gè)閾值下的FPR和TPR。曲線下面積(Area Under Curve,AUC)是比較ROC曲線的常用單一度量,顧名思義,就是ROC曲線下的面積。AUC=1表示完美的分類,AUC=0.5表示隨機(jī)的分類。AUC可以對(duì)分類性能進(jìn)行綜合評(píng)價(jià)。

        2.4 實(shí)驗(yàn)結(jié)果分析

        實(shí)驗(yàn)的硬件運(yùn)行環(huán)境為Intel?CoreTMi7-6700 CPU@3.40 GHz×4,32 GB內(nèi)存;操作系統(tǒng)為Ubuntu 16.04 LTS;程序開發(fā)環(huán)境為Anaconda4.4.0,Python版本為2.7.14,Tensorflow版本為1.8.0;使用Keras[10]進(jìn)行開發(fā),版本為2.1.6。

        用于模型的訓(xùn)練樣本數(shù)據(jù)占全部樣本數(shù)據(jù)的80%,用于模型的測(cè)試樣本數(shù)據(jù)占20%。模型訓(xùn)練時(shí)可以采用HoldOut檢驗(yàn)法和交叉驗(yàn)證方法選擇最優(yōu)模型,但由于計(jì)算資源有限,在模型訓(xùn)練時(shí)采用HoldOut檢驗(yàn)法,選擇最優(yōu)模型時(shí)使用95%的訓(xùn)練樣本數(shù)據(jù)構(gòu)建模型,使用5%的訓(xùn)練樣本數(shù)據(jù)進(jìn)行模型驗(yàn)證。模型訓(xùn)練時(shí),如果模型的AUC值連續(xù)5次沒有發(fā)生變化,就停止訓(xùn)練過程。實(shí)驗(yàn)時(shí),分別運(yùn)行模型10次,獲取相關(guān)指標(biāo)的統(tǒng)計(jì)值。

        三種模型在預(yù)測(cè)精度、召回率和AUC值比較如表2~表4所示。

        由表2~表4可知,從三個(gè)預(yù)測(cè)指標(biāo)看,CNN-BiLSTM和CNN-BiGRU模型的預(yù)測(cè)性能要優(yōu)于文獻(xiàn)[3]中的模型,說明CNN-RNN模型的有效性。CNN-BiLSTM模型在精度指標(biāo)方面要優(yōu)于CNN-BiGRU模型,在AUC指標(biāo)方面整體上也優(yōu)于CNN-BiGRU模型,只是在召回率指標(biāo)方面略遜于CNN-BiGRU模型。

        表2 三種模型的精度比較

        表3 三種模型的召回率比較

        表4 三種模型的AUC值比較

        在模型訓(xùn)練性能方面,文獻(xiàn)[3]中CNN-BiLSTM模型和CNN-BiGRU模型的平均訓(xùn)練時(shí)間分別為2 880 s、4 484 s、4 428 s。CNN-BiLSTM模型和CNN-BiGRU模型訓(xùn)練時(shí)間相近,但遠(yuǎn)長(zhǎng)于文獻(xiàn)[1]中模型的訓(xùn)練時(shí)間。

        3 結(jié)論

        本文提出了一種將CNN模型和RNN模型相集成的DGA域名檢測(cè)方法。實(shí)驗(yàn)結(jié)果表明,這種集成檢測(cè)方法與原有模型檢測(cè)方法相比,能夠有效提高檢測(cè)效果,但由于模型構(gòu)建較復(fù)雜,增加了訓(xùn)練時(shí)間,下一步的研究工作將考慮對(duì)RNN模型進(jìn)行改進(jìn),以減少模型訓(xùn)練時(shí)間,如采用SRU(Simple Recurrent Unit)模型。

        猜你喜歡
        特征提取特征檢測(cè)
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        如何表達(dá)“特征”
        基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
        電子制作(2019年15期)2019-08-27 01:12:00
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        一種基于LBP 特征提取和稀疏表示的肝病識(shí)別算法
        小波變換在PCB缺陷檢測(cè)中的應(yīng)用
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        在线观看亚洲AV日韩A∨| 中国精品18videosex性中国| 国产精品亚洲αv天堂无码| 亚洲国产一区二区三区亚瑟| 99在线无码精品秘 人口| 国产韩国一区二区三区| 亚洲国产精品成人精品无码区在线| 国产特级毛片aaaaaa高清| 制服丝袜视频国产一区| 久久熟女精品—区二区蜜臀| 国产精品视频自拍在线| 亚洲h在线播放在线观看h| 国产精品入口牛牛影视| 少妇人妻出水中文字幕乱码| 久久精品国产av一级二级三级| 成人国内精品久久久久一区| 国产精品爆乳在线播放| 激情偷拍视频一区二区| 漂亮人妻洗澡被公强 日日躁| 中国农村熟妇性视频| 国产免费看网站v片不遮挡| 亚洲中文字幕一区高清在线| 亚洲2022国产成人精品无码区| 中文字幕久无码免费久久| 激情中文丁香激情综合| 日本在线观看一二三区| 狠狠躁夜夜躁人人躁婷婷视频| 福利网址在线观看| 亚洲一区二区三区美女av| 欧美熟妇另类久久久久久多毛 | 人妻无码AⅤ不卡中文字幕| 久久色悠悠综合网亚洲| 国产黄大片在线观看画质优化| 亚洲尺码电影av久久| 日本肥老熟妇在线观看| 国产自拍偷拍精品视频在线观看| 国产精品无圣光一区二区| 亚洲一区二区三区久久蜜桃| 少妇被啪出水在线视频| 无码人妻精品一区二区蜜桃网站| 欧美一欧美一区二三区性|