王 婷 王其兵 何志方 閆 磊 李 遠(yuǎn) 趙文娜 郝 偉* 張婭楠
1(國(guó)網(wǎng)山西省電力公司電力科學(xué)研究院 山西 太原 030000)
2(國(guó)網(wǎng)山西省電力公司 山西 太原 030000)
3(太原理工大學(xué)信息與計(jì)算機(jī)學(xué)院 山西 晉中 030600)
隨著計(jì)算機(jī)技術(shù)的高速發(fā)展,信息網(wǎng)絡(luò)已經(jīng)成為社會(huì)發(fā)展的重要保障。《2018年中國(guó)互聯(lián)網(wǎng)網(wǎng)絡(luò)安全報(bào)告》匯總分析了CNCERT自有網(wǎng)絡(luò)安全監(jiān)測(cè)數(shù)據(jù)和CNCERT網(wǎng)絡(luò)安全應(yīng)急服務(wù)支撐單位報(bào)送的數(shù)據(jù),該報(bào)告指出,2018年網(wǎng)絡(luò)安全形勢(shì)日益嚴(yán)峻,惡意網(wǎng)絡(luò)行為持續(xù)活躍。同時(shí),隨著業(yè)務(wù)數(shù)據(jù)的價(jià)值越來越高,數(shù)據(jù)泄露、頁(yè)面篡改、黑鏈等安全事件使得企業(yè)系統(tǒng)面臨的無法估計(jì)的安全威脅,嚴(yán)重影響生產(chǎn)運(yùn)行。因此,維持網(wǎng)絡(luò)的安全運(yùn)行就顯得格外重要。異常檢測(cè)是網(wǎng)絡(luò)安全的研究趨勢(shì),根據(jù)對(duì)流量數(shù)據(jù)的分析,可以檢測(cè)出網(wǎng)絡(luò)中是否存在攻擊?;谔卣鞯木W(wǎng)絡(luò)流量異常檢測(cè)方法為網(wǎng)絡(luò)管理者提供了寶貴的幫助,成為網(wǎng)絡(luò)異常流量檢測(cè)的重要組成部分。其主要思想是以模式或者特征的形式來表示攻擊,通過描述每個(gè)已知攻擊的大量規(guī)則來檢測(cè)攻擊[1-2], 進(jìn)而建立一個(gè)描述正常流量的統(tǒng)計(jì)模型,任何偏離此模型的行為都可以被視為異常,并被視為攻擊。該異常檢測(cè)方法是機(jī)器學(xué)習(xí)領(lǐng)域中一個(gè)非常活躍的研究課題,近年來已經(jīng)成為很多文章的主題[3-4]。通常的方法是只從網(wǎng)絡(luò)正常運(yùn)行中收集數(shù)據(jù),并基于正態(tài)性的網(wǎng)絡(luò)流量數(shù)據(jù),提出表征正態(tài)性概念不同的方法[5-7],任何偏差都將被視為異常。然而,在實(shí)踐中驗(yàn)證訓(xùn)練數(shù)據(jù)中不存在任何攻擊可能是一項(xiàng)非常困難的任務(wù),特別是對(duì)于數(shù)據(jù)量大的樣本,這根本是不可行的。文獻(xiàn)[8]提出了一種基于小波分析的網(wǎng)絡(luò)流量異常檢測(cè)模型,然而該方法實(shí)現(xiàn)起來非常復(fù)雜,需要使用小波分析將網(wǎng)絡(luò)流量數(shù)據(jù)分解為5階尺度分量,然后送入支持向量機(jī)中進(jìn)行學(xué)習(xí)(Support Vector Machine,SVM)[9],并且使用SVM進(jìn)行分類訓(xùn)練需要反復(fù)地調(diào)參以避免過擬合與欠擬合情況的發(fā)生。Jha等[10]使用馬爾可夫模型(Markov Model)研究網(wǎng)絡(luò)入侵檢測(cè)。Pan等[11]結(jié)合了 k 近鄰(k-Nearest Neighbor, kNN)和 SVM 來對(duì)網(wǎng)絡(luò)入侵進(jìn)行分類。傳統(tǒng)機(jī)器學(xué)習(xí)方法是一種典型的以某種優(yōu)化準(zhǔn)則逼近目標(biāo)標(biāo)簽的方法,對(duì)于特征數(shù)據(jù)具有很強(qiáng)的依賴性,在短中時(shí)的流量數(shù)據(jù)預(yù)測(cè)中不適用。
近幾年,由于深度學(xué)習(xí)技術(shù)發(fā)展迅猛,并且可以從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)捕捉特征信息,部分學(xué)者也開始將深度學(xué)習(xí)方法應(yīng)用于入侵檢測(cè)領(lǐng)域。Salama等[12]提出使用深度置信網(wǎng)絡(luò)(Deep Belief Network, DBN)用來提取流量特征。Javaid等[13]通過引入稀疏自編碼器(Sparse Autoencoder)提出了一種“自學(xué)習(xí)”分類機(jī)制識(shí)別異常流量數(shù)據(jù)。賈凡等[14]將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于入侵檢測(cè)領(lǐng)域中,實(shí)現(xiàn)了一種基于卷積神經(jīng)網(wǎng)絡(luò)的入侵檢測(cè)識(shí)別算法。Kumar等[15]通過搭建 CNN 模型,檢測(cè)基于模式識(shí)別的惡意網(wǎng)絡(luò)行為。也有一些研究人員使用長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)[19]提取流量數(shù)據(jù)包之間的時(shí)間序列特征,問題在于一旦LSTM的時(shí)間跨度較大,并且網(wǎng)絡(luò)結(jié)構(gòu)較深,將會(huì)導(dǎo)致訓(xùn)練時(shí)間長(zhǎng),計(jì)算量過大。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種經(jīng)典的深度學(xué)習(xí)算法,通過共享卷積核權(quán)重信息減少了參數(shù)數(shù)量和計(jì)算時(shí)間。然而,大多數(shù)基于深度學(xué)習(xí)的方法每一層網(wǎng)絡(luò)的輸出特征信息并沒有被充分利用,限制了網(wǎng)絡(luò)的代表性能力?;诖?本文提出了一種改進(jìn)的一維級(jí)聯(lián)神經(jīng)網(wǎng)絡(luò)模型(ICNN)對(duì)網(wǎng)絡(luò)中的異常網(wǎng)絡(luò)流量進(jìn)行檢測(cè)。改進(jìn)的級(jí)聯(lián)神經(jīng)網(wǎng)絡(luò)模型由若干個(gè)密集特征聚合模塊(Dense Feature Aggregation,DFA)組成,對(duì)每一層網(wǎng)絡(luò)的輸出特征進(jìn)行充分利用,最大限度地保證不損失特征信息,其次,為了進(jìn)一步提升DFA模塊的性能,設(shè)計(jì)了增強(qiáng)特征注意力模塊(Enhanced Feature Attention, EFA)。最后將得到的網(wǎng)絡(luò)流量特征數(shù)據(jù)送入Softmax進(jìn)行異常數(shù)據(jù)分類。仿真結(jié)果表明,該模型對(duì)于異常網(wǎng)絡(luò)流量數(shù)據(jù)分類具有較高的分類精度。
傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)通常由“卷積-池化-Softmax或其他分類器”部分構(gòu)成,其數(shù)學(xué)過程可以通過以下示例說明。假設(shè)一幅圖像x,其大小為M×N,卷積核大小為m×n,涉及到的權(quán)重矩陣與偏置分別用w與b進(jìn)行表示,如式(1)所示,卷積神經(jīng)網(wǎng)絡(luò)對(duì)該圖像進(jìn)行處理。
h=g(x*w+b)
(1)
式中:*代表卷積操作;g(·)為激活函數(shù);h與x在這里也可以看作是卷積操作之后的輸出映射和卷積操作之前的輸入映射。卷積操作過后,通常使用校正線性單元(Rectified Linear Unit, ReLU)來增加神經(jīng)網(wǎng)絡(luò)各層之間的非線性關(guān)系。該激活函數(shù)描述為:
ReLU(x)=max(0,x)
(2)
ReLU實(shí)現(xiàn)稀疏后的模型能夠更好地挖掘相關(guān)特征,擬合訓(xùn)練數(shù)據(jù)。在激活函數(shù)后是池化層,池化層主要有兩種:平均池化和最大池化。最大池化的公式如下:
H=maxdowno,p(C)
(3)
式中:C代表特征圖;maxdowno,p代表對(duì)特征圖進(jìn)行大小為o,p的下采樣。使用池化層的主要作用是保留網(wǎng)絡(luò)流量特征的同時(shí)減少參數(shù)(降維)和計(jì)算量,防止過擬合,提高網(wǎng)絡(luò)模型的泛化能力。然后通過Softmax等分類器對(duì)抽象出的高級(jí)特征進(jìn)行分類。
Softmax函數(shù)[17]通常用于基于神經(jīng)網(wǎng)絡(luò)的分類器的最后一層,它計(jì)算多類問題的概率分布,神經(jīng)網(wǎng)絡(luò)使用此概率分布來預(yù)測(cè)輸出類別。由于Softmax函數(shù)可計(jì)算任何矢量的概率分布,因此它通常用于機(jī)器學(xué)習(xí),深度學(xué)習(xí)和數(shù)據(jù)科學(xué)領(lǐng)域的各種多類分類方法中。Softmax計(jì)算所有可能的目標(biāo)類別上每個(gè)目標(biāo)類別的概率,計(jì)算出的概率有助于確定給定輸入集的正確目標(biāo)類別。
(4)
式中:z是上一層網(wǎng)絡(luò)的輸出,也就是Softmax二元分類器的輸入,維度為C;y表示網(wǎng)絡(luò)流量為正?;蛘弋惓5母怕手?范圍為(0,1),但輸出數(shù)值的總和為1。由式(4)可以看出,Softmax具有以下特性:將所有數(shù)值轉(zhuǎn)化為正數(shù);將數(shù)值較高的值凸顯出來,即輸出數(shù)值接近1,反之接近0;將輸出結(jié)果映射到(0,1)之間,從而轉(zhuǎn)換為概率。
密集連接網(wǎng)絡(luò)由Huang等[16]在2018年提出,它引入了具有相同特征圖大小的任意兩個(gè)層之間的拼接操作。解決了網(wǎng)絡(luò)深度加深產(chǎn)生的梯度消失問題,并充分利用特征圖信息,鼓勵(lì)特征重用,大大減少了參數(shù)量。在保證網(wǎng)絡(luò)中層與層之間最大程度的信息傳輸?shù)那疤嵯?為了能夠保留前饋的特性,每一層對(duì)之前所有層的輸入進(jìn)行拼接,并將輸出的特征圖傳遞給之后的所有層。詳細(xì)過程為,假設(shè)[x0,x1,…,xL-1]代表0到L-1層的特征圖輸出,對(duì)這些特征圖進(jìn)行拼接操作,數(shù)學(xué)過程如下:
xi=Hl([x0,x1,…,xl-1])
(5)
式中:xi代表經(jīng)過拼接操作后第l層的網(wǎng)絡(luò)輸出;Hl(·)代表拼接之后的特征圖張量。該連接方式使得特征和梯度的傳遞更加有效,網(wǎng)絡(luò)也就更加容易訓(xùn)練,每一層都可以直接利用損失函數(shù)的梯度以及最開始的輸入信息。
本文提出的基于改進(jìn)的一維級(jí)聯(lián)神經(jīng)網(wǎng)絡(luò)的異常流量檢測(cè)模型(ATD-ICNN)具體過程如圖1所示,DFA模塊的詳細(xì)結(jié)構(gòu)可以在圖中清楚地看到:該模塊由3個(gè)卷積層、1個(gè)ReLU層、1個(gè)池化層、1個(gè)EFA模塊構(gòu)成,前4個(gè)網(wǎng)絡(luò)層提取到深層次的特征之后,DFA模塊初始地輸入拼接在一起,這樣可以充分利用網(wǎng)絡(luò)特征,防止后續(xù)的池化操作造成重要特征信息的丟失。模塊的最后使用1×1的卷積來融合這些特征,有用的特征信息可以傳播到DFA模塊的末尾而沒有任何的損失或干擾。該模塊對(duì)于網(wǎng)絡(luò)流量數(shù)據(jù)的處理過程可以表示為:
圖1 基于改進(jìn)的一維級(jí)聯(lián)神經(jīng)網(wǎng)絡(luò)的異常 流量檢測(cè)模型(ATD-ICNN)
Ft=βt(βt-1(…β0(t)))
(6)
式中:Ft經(jīng)過t個(gè)模塊數(shù)據(jù)處理之后得到深層次網(wǎng)絡(luò)流量特征:βt代表第t個(gè)DFA模塊函數(shù)。
為了能夠充分發(fā)揮DFA模塊的效果,我們?cè)O(shè)計(jì)增強(qiáng)注意力模塊將流量特征集中在關(guān)鍵重要的內(nèi)容上,它比普通的網(wǎng)絡(luò)卷積模塊更強(qiáng)大,主要結(jié)構(gòu)如圖2所示。EFA模塊在DFA模塊的末端起作用,迫使流量特征集中于更加能夠決定正常或者異常結(jié)果的感興趣的區(qū)域。在EFA模塊中,有幾個(gè)重點(diǎn)的因素需要仔細(xì)考慮,首先該模塊必須足夠輕,因?yàn)樗鼘⒈磺度氲骄W(wǎng)絡(luò)的每個(gè)密集特征聚合模塊中;其次,一個(gè)大的感受野對(duì)于流量分類任務(wù)是至關(guān)重要的。從圖2中可以清楚地看到EFA模塊詳細(xì)的網(wǎng)絡(luò)結(jié)構(gòu),從1×1的卷積層開始減少流量特征的維度大小,使得整個(gè)模塊可以非常的輕量化。為了擴(kuò)大感受野,我們使用了一個(gè)帶狀卷積(步長(zhǎng)為2),可以在網(wǎng)絡(luò)開始時(shí)快速降低特征空間維數(shù),然后,對(duì)特征維度進(jìn)行池化操作,在1×1的卷積層后使用上采樣層恢復(fù)特征維度,另外,我們還使用密集連接將一開始輸入到EFA模塊的網(wǎng)絡(luò)特征與模塊處理后的流量特征數(shù)據(jù)進(jìn)行拼接,最后通過1×1的卷積對(duì)這些特征進(jìn)行融合。
圖2 EFA模塊主要結(jié)構(gòu)
由于網(wǎng)絡(luò)流量存在噪聲(應(yīng)用類別標(biāo)記錯(cuò)誤)[18]流量的情況,為了減少噪聲特征的提取,以及規(guī)范化輸入目標(biāo)數(shù)據(jù),在對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練之前,需要對(duì)學(xué)習(xí)樣本數(shù)據(jù)進(jìn)行預(yù)處理。
假設(shè)所有網(wǎng)絡(luò)流量數(shù)據(jù)樣本為x={x1,x2,…,xM},其中xi代表一組網(wǎng)絡(luò)流量數(shù)據(jù)。對(duì)于訓(xùn)練與測(cè)試樣本數(shù)據(jù),本文采用4個(gè)步驟進(jìn)行歸一化:計(jì)算均值、計(jì)算方差、白化和歸一化,公式如下:
(7)
(8)
(9)
(10)
式中:max{x}指所有網(wǎng)絡(luò)流量數(shù)據(jù)中的最大值;min{x}指網(wǎng)絡(luò)流量數(shù)據(jù)樣本中的最小值。
圖3顯示了本文提出的端到端流量分類方法的概述。其中包含數(shù)據(jù)預(yù)處理過程,模型訓(xùn)練過程和測(cè)試過程。這里提出的方法可以直接對(duì)流量進(jìn)行分類,中間的學(xué)習(xí)過程不需要人為干涉,最終確定輸入與期望輸出之間的非線性關(guān)系。
圖3 所提方法端到端訓(xùn)練框架結(jié)構(gòu)
本實(shí)驗(yàn)采集隧道協(xié)議進(jìn)行傳輸,所以流量比較干凈,幾乎不含有異常。網(wǎng)絡(luò)流量的數(shù)據(jù)結(jié)構(gòu)如表1 所示。在本文中,將2019年10月山西國(guó)家電網(wǎng)機(jī)房調(diào)度數(shù)據(jù)中心網(wǎng)絡(luò)流量作為訓(xùn)練樣本, 將2019年11月機(jī)房調(diào)度數(shù)據(jù)中心網(wǎng)絡(luò)流量作為測(cè)試樣本,由于采集到的機(jī)房網(wǎng)絡(luò)流量數(shù)據(jù)比較干凈,所以采用人工注入異常數(shù)據(jù)的方式可控地注入DDoS、Heartbleed和鏈路失敗異常。DDoS是指利用大量合法的分布式服務(wù)器對(duì)目標(biāo)發(fā)送請(qǐng)求,從而導(dǎo)致服務(wù)器擁塞無法對(duì)外提供正常服務(wù)。Heartbleed是一個(gè)出現(xiàn)在加密程序庫(kù)OpenSSL中的安全漏洞,無論是服務(wù)器還是客戶端,都可能因此而受到攻擊,詳細(xì)表現(xiàn)為實(shí)際讀取數(shù)據(jù)比應(yīng)該允許讀取的數(shù)據(jù)多。鏈路失敗是指去除間隔內(nèi)流經(jīng)被監(jiān)測(cè)鏈路的所有流。分別對(duì)訓(xùn)練集與測(cè)試集的樣本進(jìn)行混洗,訓(xùn)練集與測(cè)試集的比例為3∶2。此外,我們還采集了2019年12月份的一個(gè)月的機(jī)房網(wǎng)絡(luò)流量真實(shí)數(shù)據(jù)樣本并且進(jìn)行標(biāo)記來衡量所提方法的準(zhǔn)確性。
表1 數(shù)據(jù)結(jié)構(gòu)說明表
ATD-ICNN網(wǎng)絡(luò)結(jié)構(gòu)中的卷積參數(shù)初始化方式均滿足均值為0,方差為0.01的高斯隨機(jī)分布。DFA模塊的數(shù)量為2,總的訓(xùn)練步數(shù)為2 000,學(xué)習(xí)率初始設(shè)置為10-4,隨著訓(xùn)練步長(zhǎng)的增加慢慢降到10-5。采用Adam優(yōu)化器[18]進(jìn)行梯度優(yōu)化。所有實(shí)驗(yàn)均在PC(Intel i7 6 700K CPU,主存16 GB)上用PyCharm Professional 2017編程完成。由于單獨(dú)使用傳統(tǒng)的DPU進(jìn)行網(wǎng)絡(luò)訓(xùn)練非常耗時(shí),所以在我們的工作中,ATD-ICNN使用GPU(Nvidia Tesla K80C)進(jìn)行加速訓(xùn)練。采用的編程語(yǔ)言是Python 3.6。
研究者通常通過加深的網(wǎng)絡(luò)模型設(shè)計(jì)來得到更高級(jí)的特征,但不可避免的是,隨著參數(shù)的增多,容易出現(xiàn)過擬合情況。根據(jù)多次實(shí)驗(yàn),所提方法詳細(xì)網(wǎng)絡(luò)結(jié)構(gòu)如表2所示。
本文采用以下4個(gè)指標(biāo)對(duì)網(wǎng)絡(luò)異常流量的分類性能進(jìn)行客觀評(píng)價(jià),分別為正確率(Accuracy, A)、精確率 (Precision, P)、召回率(Recall, R)、F1-score。A用來判斷方法的整體效果,P、R,F1-score用來判斷某一種流量異常的識(shí)別效果:
(11)
式中:TP代表被正確劃分為目標(biāo)流量的樣本數(shù);TN表示被正確的識(shí)別出異常目標(biāo)流量的樣本數(shù)目;FP代表異常的流量樣本被劃分為正常的流量樣本的數(shù)目;FN代表異常的流量樣本被識(shí)別為正常的流量樣本的數(shù)目。
網(wǎng)絡(luò)流量本質(zhì)上是一種時(shí)序數(shù)據(jù),是按照層次化結(jié)構(gòu)組織起來的一維字節(jié)流,從低層次到高層次依次為字節(jié)、幀、會(huì)話、整個(gè)流量。分別通過一段隨機(jī)抽取的長(zhǎng)度為1 000的序列,按照不同異常事件的特征向量生成人工異常流量,異常流量持續(xù)時(shí)間為2min,并且異常流量的數(shù)量是正常流量數(shù)量的15%。
ATD-ICNN算法分別對(duì)DDoS、Heartbleed、鏈路失敗這三種異常網(wǎng)絡(luò)流量即網(wǎng)絡(luò)攻擊類型,進(jìn)行分類識(shí)別,分類結(jié)果如表3所示,可以發(fā)現(xiàn)本文所提方法,對(duì)于三種異常網(wǎng)絡(luò)精度都表現(xiàn)出了較高的分類精度。
表3 模擬三種異常網(wǎng)絡(luò)流量分類結(jié)果(%)
表3中,第一列是實(shí)際使用的攻擊類型,表內(nèi)每一行代表每一次使用分類模型所得到的結(jié)果,一共運(yùn)行了三次分類模型,每一次運(yùn)行分類模型的數(shù)據(jù)類型是DDos、Heartbleed和鏈路失敗三種,通過分類模型,得到了結(jié)果,例如圖中數(shù)據(jù)所顯示,150條DDos攻擊,識(shí)別正確98%,識(shí)別錯(cuò)誤0,未能識(shí)別分類占比2%。
為驗(yàn)證算法的有效性,計(jì)算了綜合指標(biāo)下算法的分類性能,如表4所示,對(duì)于三種異常網(wǎng)絡(luò)流量,ATD-ICNN達(dá)到了上佳的分類性能。其中,對(duì)于鏈路失敗的異常網(wǎng)絡(luò)流量分類性能達(dá)到98%,說明所提方法能夠較好地選取鏈路失敗的特征向量,從而更加準(zhǔn)確地描述其特性。
表4 綜合指標(biāo)下算法的分類性能(%)
基于本文中介紹的數(shù)據(jù)集,與已有的異常檢測(cè)方法如隨機(jī)森林(Radom Forests, RF)、AdaBost迭代算法、多層感知機(jī)(Multi-Layer Perceptron, MLP)、樸素貝葉斯(Na?ve-Bayes)、CNN、小波分解+SVM方法相比較,得到的結(jié)果如表5所示,可以發(fā)現(xiàn),本文方法的4個(gè)指標(biāo)皆為最優(yōu)解。
表5 其他異常檢測(cè)方法的Accuracy、
圖4給出了ATD-ICNN算法中分別使用Softmax分類器、SVM分類器[9]、K均值分類器的分類性能的比較??梢钥闯?Softmax 分類器在訓(xùn)練集與測(cè)試集上的準(zhǔn)確率最高,達(dá)到了85%以上。其中,訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)的分類結(jié)果有一定差距的原因可能是劃分的訓(xùn)練集所包含的流量數(shù)據(jù)特征不平衡,導(dǎo)致模型沒有完全學(xué)習(xí)到所有的特征,但是這并不影響所提方法最終對(duì)于異常網(wǎng)絡(luò)流量的檢測(cè)結(jié)果。對(duì)于SVM分類方法,Softmax的分類精度要比SVM的分類精度高5%,整體上,對(duì)于3個(gè)分類指標(biāo)都取得了更好的性能表現(xiàn),驗(yàn)證了本文所提出ATD-ICNN異常網(wǎng)絡(luò)流量分類效果的有效性。該結(jié)果也表明流量是一維的序列數(shù)據(jù),用更適合序列數(shù)據(jù)分類的Softmax分類器能夠取得更好的分類結(jié)果。相比之下,K均值分類算法屬于聚類算法,對(duì)訓(xùn)練數(shù)據(jù)數(shù)量敏感,無法確定哪個(gè)屬性對(duì)聚類的貢獻(xiàn)更大,并且由于需要實(shí)現(xiàn)指定聚類數(shù)目,而在實(shí)際情況中,網(wǎng)絡(luò)出現(xiàn)的異常數(shù)據(jù)情況通常是不可知的,因此實(shí)用性不高。
圖4 Softmax分類器與支持向量機(jī)、K均值算法的 關(guān)于不同分類指標(biāo)的分類性能
為了進(jìn)一步說明DFA模塊的有效性,我們還設(shè)計(jì)消融實(shí)驗(yàn)來研究DFA模塊的級(jí)聯(lián)迭代次數(shù)對(duì)于異常網(wǎng)絡(luò)流量分類準(zhǔn)確率的影響,結(jié)果如表6所示。其中,ATD-ICNN-C1代表只有一個(gè)DFA模塊,即級(jí)聯(lián)次數(shù)為1;ATD-ICNN-C2代表有2個(gè)級(jí)聯(lián)模塊,代表級(jí)聯(lián)次數(shù)為2??梢园l(fā)現(xiàn),隨著級(jí)聯(lián)次數(shù)的增加,準(zhǔn)確率也在不斷提高,這說明融合了拼接操作的DFA模塊能夠充分地利用流量深層次特征信息,嵌入其中的EFA模塊可以輔助網(wǎng)絡(luò)更好地對(duì)決定網(wǎng)絡(luò)異常的特征分配更大的權(quán)重,更好地對(duì)異常網(wǎng)絡(luò)流量進(jìn)行識(shí)別。
表6 綜合指標(biāo)下不同級(jí)聯(lián)次數(shù)的算法的分類性能(%)
為衡量ATD-ICNN在真實(shí)情況下的有效性,采集了真實(shí)流量數(shù)據(jù)進(jìn)行標(biāo)記并測(cè)試,結(jié)果如圖5所示??梢钥闯?超過90%的流量數(shù)據(jù)都能夠被正常分類,只有很小的一部分(淺灰色所示區(qū)域)沒有被正確識(shí)別,主要是由于訓(xùn)練數(shù)據(jù)的網(wǎng)絡(luò)流量中沒有包含真實(shí)數(shù)據(jù)中的異常網(wǎng)絡(luò)流量,因此算法無法識(shí)別真實(shí)數(shù)據(jù)中異常網(wǎng)絡(luò)數(shù)據(jù)流量特征,從而無法做出判別。
針對(duì)當(dāng)前網(wǎng)路環(huán)境日益復(fù)雜、攻擊方式越來越隱蔽、網(wǎng)絡(luò)取證中特征提取和分類分析的局限性等情況,本文提出了基于改進(jìn)的級(jí)聯(lián)神經(jīng)網(wǎng)絡(luò)的異常流量識(shí)別方法。仿真結(jié)果表明,該方法建模簡(jiǎn)潔實(shí)用, 預(yù)測(cè)效果比較滿意,說明該方法對(duì)于處理類似問題是有效的。本項(xiàng)研究通過構(gòu)建改進(jìn)的級(jí)聯(lián)深度網(wǎng)絡(luò)模型并采用人工注入異常流量數(shù)據(jù)的方式制作訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練,結(jié)合Softmax方法進(jìn)行異常流量分類,更好地對(duì)網(wǎng)絡(luò)流量進(jìn)行監(jiān)督管理探索到新的研究手段。在未來的工作中,我們將致力于研究對(duì)于特定類型的異常事件進(jìn)行準(zhǔn)確識(shí)別,即提高常見異常網(wǎng)絡(luò)流量的分類準(zhǔn)確率。