亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于CNN CBAM-BiGRU Attention 的加密惡意流量識別

        2023-11-18 03:32:42劉朝暉歐陽燕陳建華
        計算機(jī)工程 2023年11期
        關(guān)鍵詞:時序特征提取加密

        鄧 昕,劉朝暉,,歐陽燕,陳建華

        (1.南華大學(xué) 計算機(jī)學(xué)院,湖南 衡陽 421001;2.南華大學(xué) 創(chuàng)新創(chuàng)業(yè)學(xué)院,湖南 衡陽 421001)

        0 概述

        近年來,隨著對隱私保護(hù)和數(shù)據(jù)安全需求的提高,越來越多的網(wǎng)絡(luò)應(yīng)用對流量進(jìn)行了加密處理。據(jù)《谷歌透明度報告》統(tǒng)計的數(shù)據(jù),截至2022 年9 月,在chrome 瀏覽器的所有流量中,https 加密流量占到了99%[1]。流量加密技術(shù)也為惡意流量提供了可乘之機(jī),惡意流量通過加密技術(shù)隱藏自己的惡意行為,從而躲避安全檢測,導(dǎo)致傳統(tǒng)的檢測方法失效。對加密后的網(wǎng)絡(luò)流量進(jìn)行解密,不僅需要消耗大量的計算資源和時間,而且難度較大,同時還存在侵犯隱私等問題。如何在不解密的前提下識別加密流量中的惡意流量,成為工業(yè)界與學(xué)術(shù)界的研究熱點(diǎn)與難點(diǎn)之一。

        對流量進(jìn)行加密后,IP 報文的明文變成密文,很多特征都發(fā)生了變化,使得基于深度包檢測和基于深度流檢測的方法失去效果[2]。研究人員通過對惡意加密流量的特征進(jìn)行分析,發(fā)現(xiàn)正常加密流量與惡意加密流量的行為特征有明顯差異,機(jī)器學(xué)習(xí)方法可以利用這些特征將惡意與正常的加密流量區(qū)分開來,但是如何選取特征則依賴專家經(jīng)驗(yàn),且深層特征難以直接發(fā)現(xiàn)。深度學(xué)習(xí)能夠自動地從原始數(shù)據(jù)中提取和選擇特征,避免了繁瑣的特征工程,因此,在加密惡意流量識別問題研究中,大量學(xué)者開始使用深度學(xué)習(xí)方法。

        本文提出一種加密惡意流量識別網(wǎng)絡(luò)模型,其使用1DCNN+CBAM(Convolutional Block Attention Module)[3]提取空 間特征,利 用BiGRU+Attention 提取時序特征,以改善現(xiàn)有方法存在的對加密流量特征表征能力不足等缺點(diǎn)。通過在公開數(shù)據(jù)集CTU-13和ISCX VPN-nonVPN 上進(jìn)行對比實(shí)驗(yàn),以驗(yàn)證該模型的有效性。

        1 相關(guān)工作

        現(xiàn)有的加密惡意流量識別方法主要分為機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法兩種。

        機(jī)器學(xué)習(xí)方法需要先人工進(jìn)行特征選取,再從原始流量中提取這些特征,然后利用這些特征進(jìn)行分類。文獻(xiàn)[4]首次提出在不解密的情況下利用機(jī)器學(xué)習(xí)技術(shù)從加密的網(wǎng)絡(luò)流量中識別出具有惡意行為的網(wǎng)絡(luò)流量。文獻(xiàn)[5]通過分析加密正常流量與加密惡意流量的TLS 流、DNS 流和HTTP 流,選擇加密惡意流量與正常流量有明顯不同的地方作為特征,利用SVM 算法進(jìn)行識別。文獻(xiàn)[6]規(guī)避了流量的五元組信息,利用報文負(fù)載和流指紋來識別加密惡意流量。但是,基于機(jī)器學(xué)習(xí)的方法特征工程耗時耗力,不同的數(shù)據(jù)集中有效特征不同,在特征選取上非常依賴專家經(jīng)驗(yàn),特征選取的好壞直接影響結(jié)果。此外,惡意軟件的更新迭代速度非??欤粽呖梢酝ㄟ^更新代碼使部分特征失效,從而繞過檢測。

        近年來,為了避免特征工程,研究人員開始在加密流量分類和惡意流量識別任務(wù)中使用深度學(xué)習(xí)這種端到端的方法來自動提取特征。文獻(xiàn)[7]將流量轉(zhuǎn)換為灰度圖,然后使用1D_CNN 模型與2D_CNN[8]進(jìn)行惡意流量與正常流量的二分類以及流量應(yīng)用類型的多分類,實(shí)驗(yàn)結(jié)果表明,1D_CNN 在加密流量分類中表現(xiàn)更好,這是在流量分類任務(wù)中首次嘗試端到端的表征學(xué)習(xí)方法,給加密流量分類和惡意流量識別引入了新的思路。文獻(xiàn)[9]使用CNN 和專家經(jīng)驗(yàn)特征混合神經(jīng)網(wǎng)絡(luò)來識別惡意TLS 流量。文獻(xiàn)[10]利用 Word2vec 對流量負(fù)載進(jìn)行詞嵌入,并通過多核一維卷積識別惡意軟件加密C&C 流量。文獻(xiàn)[11]利用堆棧式自動編碼器(SAE)模型進(jìn)行加密流量應(yīng)用類型的多分類。

        上述方法只關(guān)注了空間特征,缺少對流量上下文時序信息的表征,在面對復(fù)雜網(wǎng)絡(luò)流量時識別效果可能會出現(xiàn)嚴(yán)重下降[12]。文獻(xiàn)[13]使用LSTM 模型提取網(wǎng)絡(luò)層的傳輸包序列和時間序列特征以識別流量行為,完成加密惡意流量識別的二分類任務(wù)。文獻(xiàn)[14]利用BiGRU 和注意力機(jī)制進(jìn)行HTTPS 流量分類。文獻(xiàn)[15]提出BotCatcher檢測框架,使用CNN和雙向LSTM 組合來進(jìn)行僵尸網(wǎng)絡(luò)檢測的二分類任務(wù)。文獻(xiàn)[16]提出CNN-LSTM 檢測模型,CNN 學(xué)習(xí)底層空間特征,LSTM 學(xué)習(xí)高階時序特征。文獻(xiàn)[17]使用CNN-SIndRNN 模型識別使用TLS 協(xié)議加密的惡意流量,在訓(xùn)練時間和檢測時間上有大幅提升。文獻(xiàn)[18]修改卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),用卷積層代替池化層提高對流量的表征能力。文獻(xiàn)[19]使用TextCNN+BiLSTM 捕獲時空特征,再利用多頭注意力機(jī)制提取關(guān)鍵特征以進(jìn)行惡意應(yīng)用流量識別。文獻(xiàn)[20]把Inception 與Vision Transformer 兩個模型結(jié)合起來,在未知流量上進(jìn)行實(shí)驗(yàn)。文獻(xiàn)[21]提出一種ET-BERT 模型,在大規(guī)模無標(biāo)記流量中使用多層注意力來學(xué)習(xí)流量上下文關(guān)系和流量間的傳輸關(guān)系,在特別場景下進(jìn)行微調(diào)以完成加密流量分類任務(wù)。

        現(xiàn)有方法雖然效果良好,但是僅依靠神經(jīng)網(wǎng)絡(luò)模型提取特征,并未充分利用加密流量的時序和空間特征,導(dǎo)致對流量的表征有限。在現(xiàn)有研究的基礎(chǔ)上,本文提出一種同時考慮流量空間特征與時序特征的模型,并且在空間特征和時序特征提取中加入注意力機(jī)制來對重要特征進(jìn)行加權(quán),突出加密惡意流量與正常流量中差異性大的特征,從而提高識別的準(zhǔn)確性。

        2 方法設(shè)計

        本文提出的加密惡意流量檢測方法主要分為數(shù)據(jù)預(yù)處理、流量空間特征與時序特征提取、流量分類3 個步驟,模型結(jié)構(gòu)如圖1 所示。首先將原始流量數(shù)據(jù)預(yù)處理為灰度圖,然后再轉(zhuǎn)換為一維序列。特征提取層對輸入的序列自動提取時空特征:在空間特征提取模塊,選用不同大小的一維卷積核對輸入流量進(jìn)行特征提取,為了防止特征丟失,通過調(diào)整卷積層參數(shù)代替池化層進(jìn)行特征壓縮與去除冗余[22],再利用CBAM 注意力機(jī)制對提取到的不同尺度的空間特征進(jìn)行加權(quán)以提高分類準(zhǔn)確率;在時序特征提取模塊,選用雙層雙向GRU 網(wǎng)絡(luò),再利用注意力機(jī)制突出不同數(shù)據(jù)包之間的差異。流量識別是依靠不同類型流量之間的特征差異來判定的,因此,最后要把提取到的混合特征向量進(jìn)行融合,再利用Softmax 分類器進(jìn)行二分類和多分類。

        圖1 加密惡意流量檢測模型結(jié)構(gòu)Fig.1 Structure of encrypted malicious traffic detection model

        2.1 數(shù)據(jù)預(yù)處理

        數(shù)據(jù)預(yù)處理的目的是盡可能保留原始流量數(shù)據(jù)中特征差異最大的數(shù)據(jù),并把數(shù)據(jù)轉(zhuǎn)化為神經(jīng)網(wǎng)絡(luò)模型輸入所要求的向量類型。

        在流量粒度的選擇上,與單向流相比,通信雙方的雙向會話流含有更多的交互信息,選取流量所有層的信息能盡可能地保留原始流量[6]。預(yù)處理工作首先將原始pcap 文件按會話進(jìn)行拆分。原始數(shù)據(jù)集的每一類流量對應(yīng)一個pcap 文件,把原始數(shù)據(jù)按數(shù)據(jù)包進(jìn)行拆分,將一定時間內(nèi)具有相同五元組(傳輸協(xié)議,源端口號,源IP 地址,目的端口號,目的IP 地址)信息的數(shù)據(jù)包匯聚成流,再利用源IP 和目的IP將流組成會話,刪除空會話生成的空文件,相同會話生成的文件只保留一個,同時刪除MAC 地址、IP 地址等會對模型造成偏差的信息。

        由于模型只能輸入定長數(shù)據(jù),因此所有會話必須統(tǒng)一長度。參考文獻(xiàn)[7]的實(shí)驗(yàn)設(shè)計,本文將清洗后的會話長度統(tǒng)一修剪為784 Byte,長度不足的會話在末尾用零補(bǔ)齊。加密惡意流量和正常加密流量的主要差異存在于前面握手階段,因此選取前784 Byte 主要包含握手階段的協(xié)商信息,784 也方便轉(zhuǎn)換為28×28 的灰度圖。

        在統(tǒng)一長度后,每一個會話被轉(zhuǎn)化為灰度圖,網(wǎng)絡(luò)流量傳輸?shù)淖止?jié)在0~255 之間,把序列數(shù)據(jù)轉(zhuǎn)換成二維,生成png 格式的灰度圖,0 對應(yīng)黑色,255 對應(yīng)白色,通過灰度圖可以直觀感受到各類流量的不同,png 格式也方便讀入數(shù)據(jù)。在讀入數(shù)據(jù)后,為了提高模型的收斂速度,先將灰度圖轉(zhuǎn)換回一維序列,再利用Min-Max 標(biāo)準(zhǔn)化的方法對數(shù)據(jù)進(jìn)行歸一化。

        在進(jìn)行時序特征提取之前,需要對會話的字節(jié)進(jìn)行向量化。文獻(xiàn)[23]采用One-hot 編碼,但這種編碼方式會導(dǎo)致生成的二維矩陣過于稀疏,影響模型的擬合效果。本文采用Embedding 詞嵌入,將原始流量的前784 Byte 編碼成784×64 的稠密向量。

        2.2 特征提取

        特征提取模塊分成空間特征提取模塊和時序特征提取模塊,2 個模塊直接對原始數(shù)據(jù)進(jìn)行特征提取。2 個模塊并行,可以更好地表征流量,避免由串行帶來的信息丟失,從而提高識別準(zhǔn)確率。

        2.2.1 空間特征提取

        網(wǎng)絡(luò)通信中客戶端與服務(wù)器的會話類似于現(xiàn)實(shí)中2 個人的對話,會話的流量可以類比于對話的句子。一維卷積更適用于序列處理,如果采用高維卷積,則需要把序列變成高維向量,轉(zhuǎn)換過程中有可能把原有流量的連續(xù)數(shù)據(jù)變成毫不相干的兩部分[10],破壞了流量的原始信息。因此,本文采用一維卷積來提取流量的空間特征,不會破壞流量數(shù)據(jù)原來的相對位置,避免了信息丟失給模型識別準(zhǔn)確性帶來的影響。傳統(tǒng)的CNN 結(jié)構(gòu)由卷積層與池化層相互交替組成,池化層通過使用最大值或平均值代替池化核內(nèi)的值進(jìn)行特征壓縮及去除冗余[22],從而簡化網(wǎng)絡(luò)復(fù)雜度。但是在流量數(shù)據(jù)中,相鄰的字節(jié)之間關(guān)聯(lián)性較弱,若使用最大池化或平均池化,容易導(dǎo)致特征的丟失。如圖2 所示,在TCP 頭部,SYN、FIN、ACK、PSH、RST、URG 的每種信息僅使用一個二進(jìn)制位來表示,與前一位的信息并無聯(lián)系。

        圖2 TCP 頭部結(jié)構(gòu)Fig.2 Structure of the TCP header

        加密流量的空間特征包含多種特征,如果只采用單一大小的卷積核,容易忽略某些空間特征,因此,本文選取多種大小不同的一維卷積核進(jìn)行空間特征提取。為了盡可能地保留不同尺度的空間特征,將卷積層后的池化層使用卷積層代替,通過調(diào)整卷積層中卷積核尺寸、步長、填充等參數(shù)得到和池化層同樣大小的輸出,卷積層可以通過參數(shù)學(xué)習(xí)來防止特征丟失,同時也能達(dá)到壓縮特征和去除冗余的目的。

        識別惡意流量以及惡意流量種類需要依靠加密套件復(fù)雜程度、流量負(fù)載等特征,這些特征的差異度會有不同,差異度大的特征能幫助模型更好地識別出惡意流量。注意力機(jī)制能夠?qū)斎胩卣髻x予不同的權(quán)重,從而突出重要特征,提高分類的準(zhǔn)確性。CBAM 是一種輕量級的端到端注意力機(jī)制,由通道注意力模塊和空間注意力模塊串聯(lián)組成,有效結(jié)合了2 個模塊的優(yōu)勢。其中,通道注意力的作用是明確特征中什么是有意義的,空間注意力的作用是明確特征中重要的特征在哪里。CBAM 結(jié)構(gòu)如圖3所示。

        圖3 CBAM 結(jié)構(gòu)Fig.3 CBAM structure

        通道注意力結(jié)構(gòu)如圖4 所示。輸入的特征矩陣先同時進(jìn)行最大池化和平均池化,再經(jīng)過多層感知機(jī)處理得到2 個通道注意力的映射,最后把2 個結(jié)果相加再與原輸入相乘得到輸出。

        圖4 通道注意力結(jié)構(gòu)Fig.4 Channel attention structure

        空間注意力結(jié)構(gòu)如圖5 所示。輸入的特征矩陣先同時進(jìn)行最大池化和平均池化,把得到的矩陣先聚合再進(jìn)行一次激活函數(shù)為Sigmoid 的卷積,最后與原輸入相乘得到輸出。

        圖5 空間注意力結(jié)構(gòu)Fig.5 Spatial attention structure

        不同大小卷積核提取到的不同維度的空間向量,對于加密流量識別的重要性不同。為了能夠突出重要特征的作用,在卷積層后添加CBAM 模塊,通過對重要的特征賦予更高的權(quán)重,提高識別的準(zhǔn)確性,最后再經(jīng)過一層卷積層提取深層的空間特征。

        2.2.2 時序特征提取

        CNN 善于提取空間特征,但是難以捕捉流量的時序特征。網(wǎng)絡(luò)流量的字節(jié)-數(shù)據(jù)包-流量結(jié)構(gòu)可以類比于字-詞語-句子的結(jié)構(gòu)。字節(jié)、數(shù)據(jù)包、流量按時間順序排列,因此,網(wǎng)絡(luò)流量存在時間序列相關(guān)的特征。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是提取時序特征的常用方法,但是傳統(tǒng)的RNN 中由于后面的神經(jīng)元難以與前面輸入建立聯(lián)系,導(dǎo)致對長距離信息的學(xué)習(xí)能力較弱。LSTM 和GRU 能在一定程度上緩解傳統(tǒng)RNN 存在的梯度爆炸和梯度消失問題。與LSTM 相比,GRU 的結(jié)構(gòu)更簡單,參數(shù)更少,因此,本文模塊選取GRU 進(jìn)行時序特征提取。

        單向GRU 只能將當(dāng)前輸入與歷史信息建立聯(lián)系,無法捕捉到未來輸入對當(dāng)前輸入的影響,然而流量數(shù)據(jù)會話中的某個數(shù)據(jù)包與前后數(shù)據(jù)包都存在時序聯(lián)系,因此,本文選擇使用雙向GRU(BiGRU)模型來提取流量的時序特征。雙向GRU 由正向GRU和反向GRU 連接而成,正反2 個方向互補(bǔ)能夠建立當(dāng)前輸入與前后狀態(tài)的聯(lián)系,更好地表征流量時序特征。時序特征提取模塊結(jié)構(gòu)如圖6 所示。

        圖6 時序特征提取模塊結(jié)構(gòu)Fig.6 Temporal feature extraction module structure

        本文先對輸入流量進(jìn)行詞嵌入,再使用雙向GRU 模型進(jìn)行時序特征提取,網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計為串聯(lián)的兩層雙向GRU,通過加深網(wǎng)絡(luò)層次來提取深層時序特征。由于在會話中每個數(shù)據(jù)包對加密惡意流量識別的重要性不同,因此最后針對時序特征向量使用Attention 模塊來突出重要時序特征。

        2.3 流量識別

        時序特征和空間特征是完全不同的特征,2 種特征在識別中起到的作用也不相同,因此,本文在進(jìn)行特征融合時定義如下:

        其中:F是特征融合后的向量;fs是空間特征向量;ft是時序特征向量;w是一個超參數(shù),取值范圍為(0,1),用來調(diào)節(jié)各部分特征對最終結(jié)果的影響程度。最后,把融合的特征F輸入Softmax 分類器中。Softmax 分類器使用Softmax 激活函數(shù)得到識別為每種類別流量的概率,取最大值作為模型識別結(jié)果,其計算公式如式(2)所示:

        其中:pi表示輸入的一次會話被識別為第i種流量的概率;xi為對應(yīng)流量類別的分?jǐn)?shù)。

        3 實(shí)驗(yàn)驗(yàn)證

        3.1 實(shí)驗(yàn)環(huán)境與設(shè)置

        本文實(shí)驗(yàn)在Windows 操作系統(tǒng)中完成。在數(shù)據(jù)預(yù)處理階段,使用SplitCap 工具將原始數(shù)據(jù)以會話為單位進(jìn)行分割,使用numpy、PIL 等庫對會話進(jìn)行處理,生成灰度圖。在深度學(xué)習(xí)模型的搭建與訓(xùn)練階段,使用TensorFlow 和Keras2.7.0 框架進(jìn)行模型搭建與參數(shù)調(diào)優(yōu)。CPU 使用Intel 酷睿i7-12700F,內(nèi)存為32 GB,采用英偉達(dá)RTX3060 顯卡加速。為了增強(qiáng)實(shí)驗(yàn)的有效性,防止偶然性,取10 次實(shí)驗(yàn)結(jié)果的平均值作為最終結(jié)果,細(xì)粒度劃分實(shí)驗(yàn)進(jìn)行十折交叉驗(yàn)證,訓(xùn)練集、驗(yàn)證集、測試集的比例設(shè)置為8∶1∶1。

        在模型網(wǎng)絡(luò)結(jié)構(gòu)中,空間特征提取模塊中2 個卷積層的卷積核分別設(shè)置為32 和64,代替池化作用的卷積層的卷積核與上一層卷積核個數(shù)相同,步長設(shè)置為5,使用ReLU 激活函數(shù),經(jīng)過CBAM 塊后再經(jīng)過一個Flatten 層與全連接層變成128 維向量。2 層時序特征提取部分的雙向GRU 的unite 分別設(shè)置為32和64,神經(jīng)網(wǎng)絡(luò)的每一層設(shè)置Dropout 為0.5。選用交叉熵?fù)p失函數(shù),Adam 算法優(yōu)化,學(xué)習(xí)率設(shè)置為10-3,batch_size 設(shè)置為64。

        3.2 數(shù)據(jù)集

        文獻(xiàn)[2]指出,可用于異常加密流量識別和加密攻擊流量識別的公開數(shù)據(jù)集非常少,很難找到既包含加密惡意流量又有正常加密流量且以pcap 格式存儲的公共數(shù)據(jù)集。因此,本文的惡意加密流量數(shù)據(jù)集選取CTU-13[24],正常加密流量數(shù)據(jù)集選用ISCX VPN-nonVPN[25]。

        CTU-13 是由各種加密惡意流量組成的數(shù)據(jù)集,這些流量是由捷克理工大學(xué)開展的Malware Capture Facility 項(xiàng)目所收集的,本文從中選取10 種加密惡意流量,具體類型與數(shù)目如表1 所示。ISCX VPNnonVPN 是加密流量應(yīng)用和服務(wù)類型分類任務(wù)中常用的數(shù)據(jù)集,該數(shù)據(jù)集由7 種常規(guī)加密和7 種VPN 加密的應(yīng)用流量組成,本文從中選取10 種流量組成正常流量數(shù)據(jù)集,具體類型與數(shù)目如表2 所示。數(shù)據(jù)經(jīng)過預(yù)處理后,生成的部分流量灰度圖如圖7 所示,從圖7 可以直觀地感受到各種類型流量之間的差異。

        表1 加密惡意流量數(shù)據(jù)集Table 1 Encrypted malicious traffic dataset

        表2 正常加密流量數(shù)據(jù)集Table 2 Normal encrypted traffic dataset

        3.3 評估指標(biāo)

        實(shí)驗(yàn)使用準(zhǔn)確率(Accuracy)、查準(zhǔn)率(Precision)、查全率(Recall)、F1 值(F1)等常見指標(biāo)對模型性能進(jìn)行評估。各指標(biāo)的計算公式如式(3)~式(6)所示:

        其中:TTP,k表示正確識別的k類流量的數(shù)量;TTN,k表示正確識別的非k類流量的數(shù)量;FFN,k表示k類流量識別為非k類流量的數(shù)量;FFP,k表示非k類流量識別為k類流量的數(shù)量。

        3.4 結(jié)果分析

        在卷積核的選擇上,本文選取4 種常用尺寸的卷積核組合,在二分類任務(wù)中進(jìn)行實(shí)驗(yàn),結(jié)果如表3所示。從表3 可以看出,選用3、5、7 這3 種大小尺寸組合時準(zhǔn)確率和F1 值最高,因此,本文選用3、5、7 這3 種不同大小的卷積核組合。

        表3 不同卷積核組合的實(shí)驗(yàn)對比Table 3 Experimental comparison of different convolution kernel combinations

        圖8 反映了訓(xùn)練過程中模型準(zhǔn)確率與訓(xùn)練迭代次數(shù)的關(guān)系。由圖8 可見,訓(xùn)練5 輪時驗(yàn)證集準(zhǔn)確率達(dá)到99%,訓(xùn)練15 輪時模型基本收斂,準(zhǔn)確率達(dá)到99.5%,說明本文模型收斂速度較快,能夠提取出惡意加密流量的有效特征并識別出惡意流量。

        圖8 準(zhǔn)確率與迭代次數(shù)的關(guān)系Fig.8 Relationship between accuracy and number of iterations

        在融合層的超參數(shù)w設(shè)置上,選取從0.1~0.9 且間隔為0.1 的9 個數(shù)進(jìn)行實(shí)驗(yàn),結(jié)果如圖9 所示。由圖9 可知,將w取為0.6 時模型效果最佳,在本數(shù)據(jù)集中流量的空間特征差異略大于時序特征。

        圖9 不同參數(shù)w 下的F1 值Fig.9 F1 values under different parameters w

        3.4.1 二分類消融實(shí)驗(yàn)

        為了驗(yàn)證本文模型中各模塊的作用,進(jìn)行二分類消融實(shí)驗(yàn)。1DCNN 模型去除了時序特征提取模塊與CBAM 模塊,BiGRU 模型去除了空間特征提取模塊與Attention 模塊,1DCNN+BiGRU 模型是上述2 個模塊的拼接,1DCNN-BiGRU 去除了空間特征提取模塊中的CBAM 和時序特征提取模塊中的注意力部分。

        為了更真實(shí)地模擬現(xiàn)實(shí)網(wǎng)絡(luò)場景,更好地驗(yàn)證模型的魯棒性,在二分類實(shí)驗(yàn)中,訓(xùn)練集由加密惡意流量數(shù)據(jù)集中的前5 類各1 000 條和加密正常流量數(shù)據(jù)集中的前5 類各1 000 條會話組成,測試集由兩部分?jǐn)?shù)據(jù)集的剩下類別各選1 000 條會話組成,這樣能夠保證測試集中的流量類型在訓(xùn)練集中都沒有出現(xiàn)過,可以檢驗(yàn)?zāi)P妥R別未知類型加密惡意流量的性能。

        由表4 可以看出,本文模型的準(zhǔn)確率、召回率、F1 值均為5 種模型中最高的,說明本文模型在5 種模型中檢測惡意流量的能力最強(qiáng)。5 種模型的準(zhǔn)確率、召回率、F1 值都已達(dá)到94%以上,說明加密的惡意流量與正常流量在空間特征與時序特征上有較大差異,可以通過深度學(xué)習(xí)方法來進(jìn)行識別。從1DCNN 和BiGRU 的實(shí)驗(yàn)結(jié)果與CNN+BiGRU 和CNN-BiGRU的實(shí)驗(yàn)結(jié)果對比可以看出,同時考慮時序特征和空間特征的模型比只考慮單一特征的模型表現(xiàn)更好。從CNN+BiGRU 與CNN-BiGRU 的實(shí)驗(yàn)結(jié)果對比可以看出,本文模型的2 個模塊更適合并行,模塊并行能在一定程度上避免串行導(dǎo)致的部分特征丟失問題。本文模型在3 個指標(biāo)上都優(yōu)于CNN-BiGRU,說明注意力機(jī)制能夠提高模型對加密惡意流量的識別能力。

        表4 二分類實(shí)驗(yàn)結(jié)果對比Table 4 Comparison of results of binary classification experiments %

        3.4.2 十分類對比實(shí)驗(yàn)

        在現(xiàn)實(shí)場景中,除了需要識別網(wǎng)絡(luò)中的惡意流量,還需要對惡意流量的類別進(jìn)行細(xì)粒度劃分,將結(jié)果提供給網(wǎng)絡(luò)維護(hù)人員以采取準(zhǔn)確的防御措施。因此,本文選取10 類加密惡意流量進(jìn)行實(shí)驗(yàn),為了避免數(shù)據(jù)不平衡對實(shí)驗(yàn)的影響,從每一類加密惡意流量中隨機(jī)選 取5 000 條會話 組成數(shù)據(jù)集,將1D_CNN[7]、CNN-BiGRU、BotCatcher[15]模型與本文模型進(jìn)行對比,以檢驗(yàn)?zāi)P妥R別加密惡意流量具體類別的性能。BotCatcher 由含有2 個卷積層并且每個卷積層后加入最大池化層的2 維CNN 與雙層雙向LSTM 組成。

        圖10 所示為4 種模型的查準(zhǔn)率、召回率、F1 值以及整體準(zhǔn)確率。從圖10 可以看出:1D_CNN 由于缺乏對時序特征的表征,因此整體準(zhǔn)確率最低;本文模型在整體準(zhǔn)確率上比其他3 種模型分別高出4.20%、1.42%、0.12%,說明在此數(shù)據(jù)集中,本文模型對惡意加密流量的具體類型識別效果更好;與BotCatcher相比,本文模型對于提取到的特征經(jīng)過注意力層與特征融合層,更加有效地利用了加密流量的特征,因此,整體準(zhǔn)確率更好;CNN-BiGRU 由2 個模塊串聯(lián)組合而成,整體準(zhǔn)確率比本文模型低0.12%,在Zbot類別中查準(zhǔn)率比本文模型高2.5%,但是查全率和F1 值都低于本文模型,原因可能是串聯(lián)連接中前一個模塊的特征提取給后一個模塊造成了部分特征丟失;在Zbot 類別中,本文模型的識別效果相比其他3 種模型有明顯提升,在查準(zhǔn)率上分別提升5.57%、4.54%、4.05%,在F1 值上分別提升16.93%、5.41%、0.9%;在10 個類別的F1 值對比中,本文模型在Dridex、Miuref、Zbot、Htbot、Wannacry、TrickBot 這6 個類別中都大于等于其他3 種模型,剩下的4 類中比其他3 種模型中的最大值低不超過0.2%,說明本文模型在大多數(shù)類別中都有較好的穩(wěn)定性,能夠有效識別加密惡意流量的具體類型。

        圖10 5 種分類模型的實(shí)驗(yàn)結(jié)果對比Fig.10 Comparison of experimental results of five classification models

        本文模型某次實(shí)驗(yàn)的混淆矩陣如圖11 所示。結(jié)合圖10 可知,本文模型的查準(zhǔn)率在Dridex 類上低于CNN-BiGRU,在Zbot 類上高于其他3 種模型,查全率在Dridex 類上高于其他3 種模型,在Zbot 類上低于CNN-BiGRU,F(xiàn)1 值高于其他3 種模型。本文模型對Dridex 與Zbot 這兩類的混淆程度較高,查準(zhǔn)率和查全率比其他類別低,原因可能是這兩種流量行為相似,使得空間特征和時序特征差異不夠明顯。

        圖11 測試集結(jié)果的混淆矩陣Fig.11 Confusion matrix of test set results

        4 結(jié)束語

        本文提出一種端到端的加密惡意流量識別方法,利用CNN 與雙向GRU 模型分別提取流量的空間特征與時序特征,在每個模塊中利用注意力機(jī)制突出特征的差異性。在空間特征提取中,采用更加適合序列的一維卷積,基于不同大小的卷積核提取多視野空間特征,為了防止池化操作帶來的特征丟失,通過調(diào)整卷積的參數(shù)代替池化操作對特征進(jìn)行壓縮和去除冗余,從而加強(qiáng)對流量的表征,利用CBAM 注意力機(jī)制對提取到的多視野空間特征進(jìn)行加權(quán),以提高準(zhǔn)確率。在時序特征提取中,使用雙層雙向GRU 神經(jīng)網(wǎng)絡(luò)來表征流量的上下文信息,利用注意力機(jī)制突出不同數(shù)據(jù)包的重要程度。實(shí)驗(yàn)結(jié)果表明,該方法能達(dá)到較高的識別精度。下一步工作將從3 個方面展開:本文模型參數(shù)較多,檢測實(shí)時性不強(qiáng),需要進(jìn)一步提高模型在時間維度的檢測效率;在實(shí)際的網(wǎng)絡(luò)攻擊中,攻擊與攻擊之間可能存在聯(lián)系,本文模型只考慮了會話內(nèi)部的特征,沒有考慮會話與會話之間的關(guān)系,從而忽略了攻擊之間的聯(lián)系,后續(xù)可以通過圖神經(jīng)網(wǎng)絡(luò)來建立會話與會話之間的關(guān)系;對特征聚合進(jìn)行深入研究,探索一種更優(yōu)的時序特征和空間特征融合方式,以更好地利用這2 種特征進(jìn)行加密惡意流量識別。

        猜你喜歡
        時序特征提取加密
        時序坐標(biāo)
        基于Sentinel-2時序NDVI的麥冬識別研究
        一種基于熵的混沌加密小波變換水印算法
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        Bagging RCSP腦電特征提取算法
        一種毫米波放大器時序直流電源的設(shè)計
        電子制作(2016年15期)2017-01-15 13:39:08
        認(rèn)證加密的研究進(jìn)展
        基于ECC加密的電子商務(wù)系統(tǒng)
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        基于格的公鑰加密與證書基加密
        毛片免费在线播放| 天堂网站一区二区三区| 日韩日韩日韩日韩日韩| 丰满人妻av无码一区二区三区| 91天堂素人精品系列全集亚洲| 性色av成人精品久久| 亚洲成年国产一区二区| 国产免费一区二区三区免费视频 | 在线你懂| 国产亚洲一本二本三道| 夜夜爽妓女8888888视频| 亚洲中文字幕无码永久在线| 国产思思久99久精品| 久久综合五月天啪网亚洲精品| 国产 高潮 抽搐 正在播放| 国内精品久久久久久中文字幕| 久久99精品久久久66| 自拍情爱视频在线观看| 男女18禁啪啪无遮挡激烈网站| 午夜不卡av免费| 精品无人区无码乱码大片国产| 久久亚洲精品一区二区三区| 真实国产乱子伦精品视频| 久久精品人成免费| 国产av一区二区凹凸精品| 女人被躁到高潮嗷嗷叫免| 国产精品亚洲在钱视频| 国产一区资源在线播放| 呦系列视频一区二区三区 | 少妇AV射精精品蜜桃专区| av在线手机中文字幕| 亚洲av熟女少妇久久| 蜜桃麻豆www久久囤产精品| 久久精品国产亚洲5555| 亚洲青青草视频在线播放| 青青青免费在线视频亚洲视频| 四虎国产精品永久在线国在线| 四虎国产精品视频免费看| 亚洲日本人妻中文字幕| 宅男亚洲伊人久久大香线蕉| 极品成人影院|