燕昺昊,韓國(guó)棟
?
基于深度循環(huán)神經(jīng)網(wǎng)絡(luò)和改進(jìn)SMOTE算法的組合式入侵檢測(cè)模型
燕昺昊,韓國(guó)棟
(國(guó)家數(shù)字交換系統(tǒng)工程技術(shù)研究中心,河南 鄭州 450002)
已有入侵檢測(cè)模型普遍只針對(duì)網(wǎng)絡(luò)入侵行為的靜態(tài)特征進(jìn)行分析檢測(cè),造成檢測(cè)率低及誤報(bào)率高等缺陷,且無法有效應(yīng)用低頻攻擊。為此提出一種新的基于深度循環(huán)神經(jīng)網(wǎng)絡(luò)(DRNN)和區(qū)域自適應(yīng)合成過采樣算法(RA-SMOTE)的組合式入侵檢測(cè)模型(DRRS)。首先,RA-SMOTE對(duì)數(shù)據(jù)集中低頻攻擊樣本進(jìn)行自適應(yīng)區(qū)域劃分,實(shí)現(xiàn)差別樣本增量,從數(shù)據(jù)層面提升低頻攻擊樣本數(shù)量;其次,利用DRNN特有的層間反饋單元,完成多階段分類特征的時(shí)序積累學(xué)習(xí),同時(shí)多隱層網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)對(duì)原始數(shù)據(jù)分布的最優(yōu)非線性擬合;最后,使用訓(xùn)練好的DRRS模型完成入侵檢測(cè)。實(shí)驗(yàn)結(jié)果表明,相比已有入侵檢測(cè)模型,DRRS在改善整體檢測(cè)效果的同時(shí)顯著提高了低頻攻擊檢測(cè)率,且對(duì)未知新型攻擊具有一定檢出率,適用于實(shí)際網(wǎng)絡(luò)環(huán)境。
網(wǎng)絡(luò)安全;深度學(xué)習(xí);入侵檢測(cè);循環(huán)神經(jīng)網(wǎng)絡(luò);過采樣算法
隨著互聯(lián)網(wǎng)應(yīng)用不斷向移動(dòng)端擴(kuò)展,網(wǎng)絡(luò)智能技術(shù)已服務(wù)于各行各業(yè)。但同時(shí)針對(duì)網(wǎng)絡(luò)發(fā)動(dòng)的攻擊愈加頻繁,據(jù)國(guó)家互聯(lián)網(wǎng)應(yīng)急中心[1]統(tǒng)計(jì),僅2017年7月,我國(guó)境內(nèi)便發(fā)生3 000余起針對(duì)銀行、民航以及通信等重點(diǎn)服務(wù)領(lǐng)域的漏洞攻擊事件,網(wǎng)絡(luò)安全的重要性愈發(fā)凸顯。入侵檢測(cè)技術(shù)作為網(wǎng)絡(luò)主動(dòng)防御技術(shù)之一,其性能優(yōu)劣直接決定受保護(hù)設(shè)備及領(lǐng)域的安全程度。
入侵檢測(cè)技術(shù)根據(jù)其檢測(cè)方式的差異,可分為誤用檢測(cè)和異常檢測(cè)。誤用檢測(cè)通過維護(hù)特定的規(guī)則庫,基于特征匹配實(shí)現(xiàn)對(duì)已知攻擊行為的檢測(cè),檢測(cè)速度快且準(zhǔn)確度高,但其檢測(cè)性能依賴于規(guī)則庫大小及更新頻率,且無法檢測(cè)未知攻擊。異常檢測(cè)則通過對(duì)網(wǎng)絡(luò)數(shù)據(jù)記錄進(jìn)行分析,建立系統(tǒng)正常行為模型,將任何偏離模型正常值的異常行為標(biāo)記為攻擊行為。異常檢測(cè)優(yōu)點(diǎn)在于可檢測(cè)出未知攻擊,但存在誤報(bào)率較高等缺陷。隨著人工智能技術(shù)的興起,基于機(jī)器學(xué)習(xí)的入侵檢測(cè)技術(shù),如神經(jīng)網(wǎng)絡(luò)[2]、支持向量機(jī)(SVM, support vector machine)[3]、仿生算法[4]等,成為領(lǐng)域研究熱點(diǎn)。機(jī)器學(xué)習(xí)模型將檢測(cè)問題轉(zhuǎn)化為分類問題,通過大量原始數(shù)據(jù)樣本訓(xùn)練,自適應(yīng)學(xué)習(xí)正常行為與異常行為之間的差異,避免復(fù)雜的人工干預(yù)及領(lǐng)域?qū)<抑R(shí),有效增強(qiáng)了入侵處理實(shí)時(shí)性。但傳統(tǒng)的機(jī)器學(xué)習(xí)模型仍存在以下問題。
1) 低頻攻擊檢測(cè)困難。機(jī)器學(xué)習(xí)模型通常以最大化整體分類精確度為目標(biāo),低頻攻擊由于實(shí)際樣本數(shù)量稀少,分類特征難以捕捉,故對(duì)模型無法形成有效訓(xùn)練,導(dǎo)致低頻攻擊檢測(cè)難度大且檢測(cè)率低。
2) 模型擬合能力差。傳統(tǒng)機(jī)器學(xué)習(xí)模型結(jié)構(gòu)簡(jiǎn)單,特征提取及學(xué)習(xí)能力有限,僅對(duì)小批量數(shù)據(jù)具有良好的擬合效果,當(dāng)面臨大規(guī)模數(shù)據(jù)集時(shí)無法對(duì)數(shù)據(jù)分布形成有效的非線性映射。
3) 動(dòng)態(tài)特性不足。已有機(jī)器學(xué)習(xí)模型普遍忽視入侵事件之間的關(guān)聯(lián)性,即假定入侵行為之間具有獨(dú)立不相關(guān)性并據(jù)此進(jìn)行建模,造成模型缺乏必要的動(dòng)態(tài)特性,檢測(cè)率偏低,同時(shí)對(duì)于未知攻擊無法形成有效檢測(cè)[5]。
針對(duì)存在問題,文獻(xiàn)[6]將合成過采樣算法(SMOTE, synthetic minority oversampling technique algorithm)與最近鄰聚類算法(CCNN, cluster center and nearest neighbor)結(jié)合進(jìn)行入侵檢測(cè),同時(shí)引入特征選擇機(jī)制,從數(shù)據(jù)層面提高了低頻樣本檢測(cè)率。文獻(xiàn)[7]則從算法層面出發(fā),提出了一種新的基于支持向量機(jī)和遺傳規(guī)劃(GP, genetic programming)的組合式GPSVM分類器,同樣對(duì)低頻樣本取得不錯(cuò)的檢測(cè)效果。文獻(xiàn)[8-9]分別利用基于深度學(xué)習(xí)理論的自編碼網(wǎng)絡(luò)(AEN, auto encoder network)和深度神經(jīng)網(wǎng)絡(luò)(DNN, deep neural network)中多隱層結(jié)構(gòu),有效實(shí)現(xiàn)了輸入特征提取與模型非線性映射,提高檢測(cè)速率的同時(shí)對(duì)未知攻擊具有一定檢出效果。但上述解決方法并未考慮入侵行為之間存在時(shí)序維度上的關(guān)聯(lián)性。文獻(xiàn)[10]采用基于樣本序列分析的層次化隱馬爾可夫模型(LHMM, layered hidden markov model),根據(jù)輸入不同,該模型更新狀態(tài)概率分布值并計(jì)算轉(zhuǎn)移概率,實(shí)現(xiàn)時(shí)序狀態(tài)預(yù)測(cè)并最終完成入侵檢測(cè)。但模型更新過程需要對(duì)每一項(xiàng)輸入計(jì)算其多個(gè)概率分布值,且需要特定算法來實(shí)現(xiàn)特征維度縮減,復(fù)雜度較高。
為解決上述問題,本文提出一種基于深度循環(huán)神經(jīng)網(wǎng)絡(luò)(DRNN, deep recurrent neural network)和區(qū)域自適應(yīng)合成過采樣算法(RA-SMOTE, region adaptive SMOTE)的組合式入侵檢測(cè)模型DRRS。首先,利用RA-SMOTE算法對(duì)已有非平衡數(shù)據(jù)集中低頻樣本實(shí)現(xiàn)增量處理與時(shí)序注入。其次,在新數(shù)據(jù)集上對(duì)DRNN網(wǎng)絡(luò)進(jìn)行時(shí)序權(quán)重訓(xùn)練,直到網(wǎng)絡(luò)穩(wěn)定且誤差達(dá)到預(yù)定要求。最后,使用訓(xùn)練好的DRNN完成入侵檢測(cè),同時(shí)將檢測(cè)出的低頻攻擊樣本返回低頻樣本處理單元進(jìn)行再處理,輸入網(wǎng)絡(luò)進(jìn)行權(quán)值再調(diào)優(yōu),增強(qiáng)模型穩(wěn)定性與頑健性。
與已有方法相比,本文所提模型優(yōu)勢(shì)如下。首先,RA-SMOTE算法解決了低頻攻擊檢測(cè)率較低的問題,且其特有的自適應(yīng)性可以更高效地合成新樣本,加速后續(xù)模型訓(xùn)練過程;其次,DRNN特有的時(shí)序循環(huán)結(jié)構(gòu)可充分挖掘并利用樣本之間的時(shí)序相關(guān)性實(shí)現(xiàn)入侵檢測(cè),同時(shí)多隱層網(wǎng)絡(luò)結(jié)構(gòu)提升模型數(shù)據(jù)刻畫能力,提升模型檢測(cè)性能。仿真結(jié)果驗(yàn)證了模型有效性,適用于實(shí)際網(wǎng)絡(luò)。
DRRS入侵檢測(cè)模型主要由低頻樣本處理單元和時(shí)序?qū)W習(xí)單元組成,其中,低頻樣本處理單元基于改進(jìn)后的區(qū)域自適應(yīng)合成過采樣算法(RA-SMOTE)實(shí)現(xiàn),完成對(duì)低頻樣本的過采樣增量處理;時(shí)序?qū)W習(xí)單元基于深度循環(huán)神經(jīng)網(wǎng)絡(luò)(DRNN)實(shí)現(xiàn),完成對(duì)輸入樣本的時(shí)序積累建模與異常檢測(cè)。
盡管當(dāng)前網(wǎng)絡(luò)攻擊常有發(fā)生且出現(xiàn)日益增長(zhǎng)的趨勢(shì),但相比網(wǎng)絡(luò)中存在的海量正常數(shù)據(jù),其數(shù)量依然微乎其微。因此,由于攻擊數(shù)據(jù)流或行為樣本與正常數(shù)據(jù)流量相比處于低頻范疇,導(dǎo)致其分類特征難以捕捉與記錄,從而進(jìn)一步造成機(jī)器學(xué)習(xí)模型無法對(duì)攻擊樣本建立準(zhǔn)確的檢測(cè)模型并實(shí)現(xiàn)有效的訓(xùn)練;另外,大多數(shù)機(jī)器學(xué)習(xí)模型及算法以最大化樣本整體分類準(zhǔn)確率為目的,致使低頻攻擊樣本在訓(xùn)練及分類過程中被忽視,進(jìn)而導(dǎo)致訓(xùn)練完成的模型具有明顯的分類偏向性,在實(shí)際應(yīng)用中產(chǎn)生錯(cuò)誤檢測(cè)結(jié)果。本文基于已有的非平衡數(shù)據(jù)處理方式進(jìn)行改進(jìn),提出新的區(qū)域自適應(yīng)合成過采樣算法,主要分為低頻樣本增量與新樣本時(shí)序關(guān)系處理2個(gè)步驟。
2.1.1 低頻樣本增量
根據(jù)處理層面不同,低頻樣本處理方法可分為算法層面和數(shù)據(jù)層面。算法層面方法主要通過為分類決策函數(shù)添加調(diào)控系數(shù)或懲罰因子,使低頻樣本具有更高分類權(quán)值,提高檢測(cè)率。相比算法層面,數(shù)據(jù)層面處理方法復(fù)雜度更低,應(yīng)用更為廣泛。數(shù)據(jù)層面方法主要包括過采樣方式和減采樣方式,但傳統(tǒng)的過采樣方式只是對(duì)已有數(shù)據(jù)樣本的簡(jiǎn)單重復(fù)復(fù)制,造成特征多樣性不足;而減采樣通過對(duì)高頻樣本抽樣,易損失樣本內(nèi)在特性。
針對(duì)上述問題,文獻(xiàn)[11]提出SMOTE算法,通過在已知低頻樣本與其最近鄰之間隨機(jī)線性插值,實(shí)現(xiàn)樣本增量的同時(shí)有效解決特征不足的問題。但SMOTE算法并未考慮樣本分布邊緣化及離群點(diǎn)處理等問題,同時(shí)對(duì)所有低頻樣本采用統(tǒng)一增量方法,造成部分計(jì)算資源浪費(fèi)且分類效果較差。為此,本文提出了改進(jìn)的RA-SMOTE算法。首先,設(shè)置低頻樣本最近鄰半徑,半徑大小用最近鄰樣本個(gè)數(shù)表示。其次,根據(jù)半徑內(nèi)所包含的高頻樣本數(shù)量的差異,將低頻攻擊樣本劃分為不同區(qū)域集合,包括離群點(diǎn)域(IPR, independence point region)、安全點(diǎn)域(SPR, safety point region)和危險(xiǎn)點(diǎn)域(DPR, danger point region)。區(qū)域不同表示分類難度不同,因此對(duì)不同區(qū)域內(nèi)低頻樣本采用不同的樣本增量方式,在保證分類準(zhǔn)確度的前提下,減少了樣本增加數(shù)量,從而降低后續(xù)DRNN訓(xùn)練量及訓(xùn)練時(shí)間。RA-SMOTE算法樣本增量過程偽代碼如下所示。
算法 RA-SMOTE算法樣本增量過程
13) End If
14) End If
15) End For
2.1.2 新樣本時(shí)序關(guān)系處理
DRNN中訓(xùn)練樣本需根據(jù)時(shí)序特征串行輸入,使網(wǎng)絡(luò)可以學(xué)習(xí)并記憶樣本間時(shí)序連接關(guān)系。而RA-SMOTE算法生成新樣本為隨機(jī)模擬樣本,樣本間不存在特定時(shí)序關(guān)系。因此,為使新樣本適用于DRNN,需要對(duì)新樣本進(jìn)行時(shí)序添加。首先進(jìn)行如下定義。
因此時(shí)序添加過程表示為
2.2.1 深度神經(jīng)網(wǎng)絡(luò)
深度神經(jīng)網(wǎng)絡(luò)是指區(qū)別于傳統(tǒng)淺層神經(jīng)網(wǎng)絡(luò)三層架構(gòu)的、具有多隱層的人工神經(jīng)網(wǎng)絡(luò)(ANN, artificial neural network)。對(duì)于人工神經(jīng)網(wǎng)絡(luò)的研究最早可追溯至20世紀(jì)40年代,但由于硬件水平受限且無法克服多層結(jié)構(gòu)帶來的大數(shù)據(jù)量與高維參數(shù)訓(xùn)練等問題,ANN一直處于淺層階段。2006年,Hinton等[12]在《Science》上發(fā)表著作,重新掀起了DNN研究浪潮。文章指出,DNN特有的多隱層架構(gòu)具有出眾的非線性學(xué)習(xí)能力與特征表達(dá)能力,可有效提高神經(jīng)網(wǎng)絡(luò)分類結(jié)果。同時(shí)Hinton等提出分層預(yù)訓(xùn)練與微調(diào)機(jī)制,很好地解決了DNN訓(xùn)練缺陷。
DNN通常包括輸入層、輸出層及三層以上隱層,如圖1所示。DNN中各節(jié)點(diǎn)表示網(wǎng)絡(luò)激活函數(shù),連接權(quán)值表示信息傳遞激勵(lì)強(qiáng)度。各層神經(jīng)元之間為全連接或稀疏連接狀態(tài),并在學(xué)習(xí)過程中不斷調(diào)整連接權(quán)值使網(wǎng)絡(luò)收斂,存儲(chǔ)數(shù)據(jù)分布特征。輸入層完成預(yù)處理數(shù)據(jù)的讀取,多隱層架構(gòu)實(shí)現(xiàn)對(duì)輸入向量的逐層特征提取與樣本學(xué)習(xí),輸出層則根據(jù)需求完成回歸或分類任務(wù)。
2.2.2 深度循環(huán)神經(jīng)網(wǎng)絡(luò)
雖然DNN在分類與特征提取方面突破淺層網(wǎng)絡(luò)限制,擁有極強(qiáng)的非線性模擬能力,但主流DNN架構(gòu)并未考慮分類樣本之間存在的時(shí)序連接關(guān)系,造成部分關(guān)聯(lián)信息損失。近年來,結(jié)合深度學(xué)習(xí)理論的循環(huán)神經(jīng)網(wǎng)絡(luò)(DRNN)在圖像目標(biāo)提取[13]、語音識(shí)別[14]、機(jī)器翻譯[15]中都取得不錯(cuò)效果。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN, recurrent neural network)思想起源于Jordan等[16]提出的連接序列機(jī),通過在神經(jīng)網(wǎng)絡(luò)中引入自反饋神經(jīng)元,使網(wǎng)絡(luò)對(duì)輸入數(shù)據(jù)產(chǎn)生記憶功能,充分挖掘樣本之間存在的相關(guān)性特征。文獻(xiàn)[17]曾捕獲3年內(nèi)某城市主干網(wǎng)絡(luò)中入侵事件并進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)不同入侵行為具有明顯的時(shí)間分布特性,且同一入侵行為也具有持續(xù)性等特點(diǎn),如拒絕服務(wù)攻擊(DoS, denial of service),攻擊者在短時(shí)間內(nèi)反復(fù)高頻地發(fā)送服務(wù)請(qǐng)求,占用大量網(wǎng)絡(luò)帶寬資源,造成用戶合法請(qǐng)求無法完成。針對(duì)此類攻擊,利用已有事件與當(dāng)前事件之間時(shí)序相關(guān)性進(jìn)行入侵檢測(cè)及預(yù)測(cè)至關(guān)重要。
(2)
一般無初始值情況下
圖2 RNN結(jié)構(gòu)示意
輸出層為全連接層,利用Softmax函數(shù)實(shí)現(xiàn)特征向量到類別概率分布的轉(zhuǎn)化,為偏置向量。
此時(shí)
本文使用實(shí)時(shí)循環(huán)學(xué)習(xí)(RTRL,real-time recurrent learning)算法對(duì)DRNN連接權(quán)重進(jìn)行調(diào)優(yōu)。RTRL通過梯度信息前向傳播,保證模型學(xué)習(xí)與調(diào)優(yōu)過程同步進(jìn)行,同時(shí)避免了傳統(tǒng)反向梯度傳播算法在深層網(wǎng)絡(luò)訓(xùn)練時(shí)面臨的梯度消失和梯度爆炸問題。
圖3 DRNN結(jié)構(gòu)示意
DRNN損失函數(shù)為所有時(shí)刻損失函數(shù)之和。
式(11)更新為
本文實(shí)驗(yàn)流程如圖4所示,首先對(duì)實(shí)驗(yàn)所用入侵檢測(cè)標(biāo)準(zhǔn)NSL-KDD數(shù)據(jù)集(見3.1節(jié))進(jìn)行數(shù)據(jù)預(yù)處理(見3.2節(jié)),包括特征數(shù)值化和歸一化兩項(xiàng)過程。同時(shí)為簡(jiǎn)化實(shí)驗(yàn)過程,對(duì)原始數(shù)據(jù)及進(jìn)行隨機(jī)獨(dú)立抽樣組成多個(gè)新數(shù)據(jù)集,并分為訓(xùn)練集和測(cè)試集。其次,對(duì)訓(xùn)練集完成低頻樣本增量與時(shí)序注入過程,形成新的訓(xùn)練數(shù)據(jù)集并使用新數(shù)據(jù)集對(duì)時(shí)序網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練調(diào)優(yōu),獲取最優(yōu)參數(shù)網(wǎng)絡(luò)模型。測(cè)試集則用于驗(yàn)證最終實(shí)驗(yàn)結(jié)果有效性。實(shí)驗(yàn)中對(duì)每個(gè)數(shù)據(jù)集上進(jìn)行多次獨(dú)立重復(fù)實(shí)驗(yàn),且測(cè)試集之間交叉驗(yàn)證,以保證結(jié)果無偏性,最終實(shí)驗(yàn)結(jié)果取每個(gè)數(shù)據(jù)集上檢測(cè)結(jié)果之和的平均值。
圖4 DRRS入侵檢測(cè)實(shí)驗(yàn)流程
本文實(shí)驗(yàn)基于入侵檢測(cè)標(biāo)準(zhǔn)NSL-KDD[18]數(shù)據(jù)集仿真實(shí)現(xiàn)。NSL-KDD數(shù)據(jù)集改進(jìn)于KDD 99數(shù)據(jù)集,KDD 99數(shù)據(jù)集模擬了美國(guó)空軍局域網(wǎng)環(huán)境,但其中包含過多冗余數(shù)據(jù),增加計(jì)算負(fù)擔(dān)的同時(shí)會(huì)對(duì)分類結(jié)果造成誤導(dǎo),因此NSL-KDD數(shù)據(jù)集更適用于仿真實(shí)驗(yàn)。
NSL-KDD訓(xùn)練集和測(cè)試集分別包含125 973和22 543條連接記錄,其中主要包括4種類型的攻擊:拒絕服務(wù)攻擊,端口漏洞掃描攻擊(Probing)、遠(yuǎn)程控制攻擊(R2L, remote to local)、越權(quán)訪問攻擊(U2R, user to root),具體分布如表1所示。4種攻擊類別具體又可分為37種不同攻擊,訓(xùn)練集包含21種,測(cè)試集包含37種,其中有16種新型攻擊未出現(xiàn)在訓(xùn)練集中。
表1 NSL-KDD數(shù)據(jù)類型分布
NSL-KDD數(shù)據(jù)集中每一條連接記錄都由41種分類特征組成,其中包括3種符號(hào)型特征,10種0-1型特征,15種百分比型特征和13種十進(jìn)制型特征。通過分析數(shù)據(jù)集,發(fā)現(xiàn)特征Num_ outbound_cmds數(shù)值全部為0,故將此特征移除,因此可用特征共40種。數(shù)據(jù)預(yù)處理過程分為兩步:特征數(shù)值化和數(shù)值歸一化,具體過程如下所示。
1) 特征數(shù)值化
特征數(shù)值化主要針對(duì)Protocol_type、Service和Flag這3種符號(hào)型特征,本文將其映射為二進(jìn)制值。以Protocol_type特征為例,其包括TCP、UDP、ICMP 這3種協(xié)議類型,可分別映射為(0,0,1),(0,1,0),(1,0,0)。同理,Service和Flag分別包括70種和11種符號(hào),因此數(shù)值化完成后數(shù)據(jù)集特征維度增加至121維。除此以外,攻擊類別標(biāo)簽同樣需要數(shù)值化,方法同理,不再贅述。
2) 數(shù)值歸一化
為簡(jiǎn)化實(shí)驗(yàn)過程,對(duì)訓(xùn)練集和測(cè)試集隨機(jī)獨(dú)立抽樣組成多個(gè)新數(shù)據(jù)集,如表2所示,并保留抽取樣本在原數(shù)據(jù)集上時(shí)序排列關(guān)系。由于原始訓(xùn)練集中U2R樣本數(shù)量稀少,全部保留到新數(shù)據(jù)集中不進(jìn)行抽樣。每個(gè)新數(shù)據(jù)集上進(jìn)行多次獨(dú)立重復(fù)試驗(yàn),且測(cè)試集之間交叉驗(yàn)證,以保證結(jié)果無偏性,最終實(shí)驗(yàn)結(jié)果取每個(gè)數(shù)據(jù)集結(jié)果之和的平均值。
表2 實(shí)驗(yàn)數(shù)據(jù)集
本文實(shí)驗(yàn)使用計(jì)算機(jī)硬件配置為Inter Core i7-7700四核處理器,8 GB內(nèi)存,256 GB固態(tài)硬盤。操作系統(tǒng)為64位Windows 10系統(tǒng)。其中,RA-SMOTE算法基于R語言編程實(shí)現(xiàn),DRNN基于Google開源深度學(xué)習(xí)框架TensorFlow實(shí)現(xiàn),編程語言為python。
DRRS模型主要的參數(shù)變量包括RA-SMOTE算法中最近鄰半徑和樣本合成過采樣率,DRNN結(jié)構(gòu)層數(shù)和隱層單元數(shù),RTRL算法中權(quán)重更新學(xué)習(xí)率等。變量參數(shù)值如表3所示,具體參數(shù)選擇過程見4.1節(jié)。
表3 實(shí)驗(yàn)變量參數(shù)值
實(shí)驗(yàn)所用評(píng)價(jià)指標(biāo)基于混淆矩陣表示,包括正確率(ACC, accuracy rate),精確率(PRE, precision),虛警率(FAR,false alarm rate),具體定義如式(16)~式(18)所示。TP(true positive)表示分類正確的正類樣本數(shù),F(xiàn)P(false positive)表示分類錯(cuò)誤的正類樣本數(shù),TN(true negative)表示分類正確的負(fù)類樣本數(shù),F(xiàn)N(false negative)表示分類錯(cuò)誤的負(fù)類樣本數(shù)。
實(shí)驗(yàn)仿真驗(yàn)證過程分為2個(gè)部分:4.1節(jié)采用控制變量法對(duì)DRRS模型算法最優(yōu)參數(shù)進(jìn)行測(cè)定,探究RA-SMOTE算法最近鄰半徑、采樣率、DRNN層數(shù)及隱層神經(jīng)元數(shù)對(duì)模型最終檢測(cè)結(jié)果的影響,并選出最優(yōu)參數(shù),構(gòu)建最優(yōu)參數(shù)模型;4.2節(jié)則采用4.1節(jié)測(cè)定的最優(yōu)參數(shù)構(gòu)建DRRS模型,并在整體正確率、虛警率、訓(xùn)練及測(cè)試時(shí)間等方面與已有入侵檢測(cè)法進(jìn)行對(duì)比實(shí)驗(yàn),驗(yàn)證本文模型有效性。
1) RA-SMOTE算法最近鄰半徑的影響
RA-SMOTE算法樣本增量過程需要對(duì)每個(gè)低頻攻擊樣本劃定最近鄰半徑,根據(jù)半徑內(nèi)高頻樣本數(shù)量差異,選擇不同增量方式。因此最近鄰半徑的大小將影響樣本區(qū)域劃分,進(jìn)而改變樣本增量方式。半徑過大,高頻樣本比例升高,可能導(dǎo)致原本屬于SPR區(qū)域集合內(nèi)的低頻樣本被劃分為DPR區(qū)域集合,從而合成不必要的新樣本,造成虛警率上升;反之,半徑過小將導(dǎo)致DPR區(qū)域集合內(nèi)低頻樣本點(diǎn)劃分為SPR區(qū)域集合,無法有效合成新樣本。
實(shí)驗(yàn)中對(duì)最近鄰半徑取值在[0,100]范圍內(nèi)的模型檢測(cè)正確率及虛警率進(jìn)行統(tǒng)計(jì),結(jié)果如圖5所示,可知當(dāng)最近鄰半徑取值范圍在[50,60]內(nèi)時(shí),檢測(cè)正確率達(dá)到平穩(wěn),此后不再顯著增加,且最近鄰半徑大于60時(shí),虛警率逐漸增加,因此綜合考慮,取最近鄰半徑55為最優(yōu)值。
圖5 最近鄰半徑對(duì)模型性能指標(biāo)的影響
2) RA-SMOTE算法采樣率的影響
模型檢測(cè)結(jié)果同樣受到RA-SMOTE算法采樣率的影響:采樣率過低將導(dǎo)致新生成樣本數(shù)量不足,影響后續(xù)DRNN對(duì)樣本特征的學(xué)習(xí);采樣率過高則造成樣本數(shù)量上的浪費(fèi)。圖6為檢測(cè)率百分比在[100,1 000]范圍內(nèi)取100整數(shù)倍時(shí)的模型檢測(cè)正確率及虛警率。由實(shí)驗(yàn)結(jié)果可知,當(dāng)采樣率為600%時(shí),正確率及虛警率處于綜合最佳狀態(tài)。百分比繼續(xù)升高,正確率與虛警率無明顯改善,表明此時(shí)新生成的樣本屬于過量樣本。
3) DRNN層數(shù)及隱層單元數(shù)的影響
DRNN模型層數(shù)及隱層單元數(shù)對(duì)模型檢測(cè)正確率等指標(biāo)具有重要影響。已有研究表明,深層網(wǎng)絡(luò)結(jié)構(gòu)模型層數(shù)及隱層單元數(shù)越多,模型對(duì)于數(shù)據(jù)的非線性擬合能力越強(qiáng)。同時(shí)深層結(jié)構(gòu)更有利于實(shí)現(xiàn)原始高維分類特征向其低維表示的抽象轉(zhuǎn)化,加速后續(xù)分類過程。但模型層數(shù)及隱層單元數(shù)過多,將導(dǎo)致訓(xùn)練時(shí)間急劇增加,網(wǎng)絡(luò)連接權(quán)重調(diào)優(yōu)過程復(fù)雜度升高,模型難以收斂。因此如何在模型結(jié)構(gòu)與復(fù)雜度之間找到平衡點(diǎn)至關(guān)重要。
實(shí)驗(yàn)通過對(duì)已有文獻(xiàn)中深層網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行統(tǒng)計(jì),選擇其中5種不同模型結(jié)構(gòu)進(jìn)行實(shí)驗(yàn),獲取最優(yōu)結(jié)構(gòu)。模型結(jié)構(gòu)分別為RNN2(121-5,二層),RNN3(121-60-5,三層),RNN4(121-90-45-5,四層),RNN5(121-100-65-35-5,五層),RNN6(121-110-80-55-30-5,六層)。實(shí)驗(yàn)結(jié)果如圖7和圖8所示,由圖可知模型層數(shù)到達(dá)五層時(shí)檢測(cè)正確率已達(dá)99%以上,且繼續(xù)增加層數(shù)正確率無明顯提升,而此時(shí)模型訓(xùn)練時(shí)間和測(cè)試時(shí)間隨著層數(shù)增加,增長(zhǎng)率不斷升高,呈非線性增長(zhǎng)趨勢(shì),因此[121-100-65-35-5]五層結(jié)構(gòu)適用于本文DRRS入侵檢測(cè)模型。
圖6 采樣率對(duì)模型性能指標(biāo)的影響
圖7 RNN結(jié)構(gòu)對(duì)模型性能指標(biāo)的影響
圖8 RNN結(jié)構(gòu)對(duì)模型訓(xùn)練測(cè)試時(shí)間的影響
在4.1節(jié)最優(yōu)參數(shù)選擇實(shí)驗(yàn)的基礎(chǔ)上,采用選擇出的最優(yōu)參數(shù)建立檢測(cè)模型并與已有入侵檢測(cè)算法在PRE、FAR等參數(shù)方面進(jìn)行實(shí)驗(yàn)對(duì)比,驗(yàn)證本文所提出的DRRS模型的有效性。
1) 表4為RA-SMOTE算法有效性的對(duì)比驗(yàn)證實(shí)驗(yàn)。分別在對(duì)原始數(shù)據(jù)集不采用過采樣算法、采用SMOTE算法和采用RA-SMOTE算法的基礎(chǔ)上訓(xùn)練DRNN模型并進(jìn)行驗(yàn)證。從表中可以看出,對(duì)于Normal、DoS和Probing這3類高頻樣本集合,3種DRNN模型在檢測(cè)精確率與虛警率指標(biāo)上并無過大差異。然而對(duì)于R2L和U2L低頻樣本集合,過采樣算法的使用對(duì)檢測(cè)精確度的提升和虛警率的抑制都起到了明顯的效果。雖然相比于單獨(dú)DRNN模型,SMOTE算法和RA-SMOTE算法時(shí)間消耗分別增長(zhǎng)了20.90%和9.33%,但由此換來的性能改善是值得的。更進(jìn)一步地,RA-SMOTE算法比SMOTE算法對(duì)模型訓(xùn)練時(shí)間的影響縮短了9.29%,表明RA-SMOTE算法以更高效的方式合成了訓(xùn)練所需的新樣本。
表4 過采樣算法實(shí)驗(yàn)性能對(duì)比
2) 本文選擇已有文獻(xiàn)中提出的6種入侵檢測(cè)模型與DRRS進(jìn)行對(duì)比實(shí)驗(yàn)[3,5,7-10],檢測(cè)指標(biāo)包括整體正確率與虛警率,結(jié)果如圖9和圖10所示。由結(jié)果可知,在整體檢測(cè)正確率方面,DRRS模型實(shí)驗(yàn)結(jié)果優(yōu)于其他檢測(cè)模型,說明DRRS模型充分挖掘出了樣本集數(shù)據(jù)之間存在的時(shí)序關(guān)系,并對(duì)其進(jìn)行了有效的學(xué)習(xí)訓(xùn)練,從而提高了模型整體檢測(cè)正確率。在整體虛警率指標(biāo)上,DRRS模型同樣獲得了不錯(cuò)的效果,僅略高于文獻(xiàn)[3]中提出的CHI-SVM模型。
圖9 不同檢測(cè)模型整體正確率對(duì)比
圖10 不同檢測(cè)模型整體虛警率對(duì)比
3) 不同入侵檢測(cè)模型在5種樣本類型上的單項(xiàng)檢測(cè)精確度對(duì)比結(jié)果如表5所示。對(duì)于Normal、DoS和Probing這3類高頻樣本,DRRS模型檢測(cè)精確度與已有模型基本持平,表明本文模型對(duì)于高頻樣本檢測(cè)精確度已達(dá)到平均標(biāo)準(zhǔn),滿足預(yù)期要求。對(duì)于R2L和U2L兩類低頻攻擊樣本,DRRS模型檢測(cè)精確度優(yōu)勢(shì)明顯,除U2L檢測(cè)精確度略低于CHI-SVM模型外,均高于其余模型精確度。
表5 不同檢測(cè)模型單項(xiàng)檢測(cè)精確度對(duì)比
綜合上述各項(xiàng)實(shí)驗(yàn)結(jié)果,說明本文提出的DRRS模型不僅可以有效處理低頻攻擊樣本檢測(cè)率低的問題,且RA-SMOTE算法以更小的時(shí)間代價(jià)實(shí)現(xiàn)了樣本增量過程。同時(shí)DRRS模型在整體檢測(cè)正確率及虛警率等指標(biāo)上均取得不錯(cuò)的效果,對(duì)于測(cè)試數(shù)據(jù)集中存在的未知攻擊樣本同樣具有檢出能力。
傳統(tǒng)入侵檢測(cè)模型無法有效處理低頻攻擊樣本,且模型構(gòu)建過程未考慮樣本間時(shí)序關(guān)系。本文提出了一種新的基于深度循環(huán)神經(jīng)網(wǎng)絡(luò)和區(qū)域自適應(yīng)合成過采樣算法的組合式入侵檢測(cè)模型DRRS。首先,DRRS利用RA-SMOTE算法自適應(yīng)的對(duì)低頻樣本實(shí)現(xiàn)樣本增量及時(shí)序注入過程,以更少的時(shí)間消耗改善了原始數(shù)據(jù)集中數(shù)據(jù)非平衡分布狀況。然后,利用DRNN模型特有的內(nèi)部循環(huán)結(jié)構(gòu),完成對(duì)新樣本集的時(shí)序積累學(xué)習(xí)與檢測(cè)。在NSL-KDD數(shù)據(jù)集上,實(shí)驗(yàn)結(jié)果表明本文提出的DRRS模型有效解決了上述問題,且各項(xiàng)指標(biāo)均優(yōu)于已有入侵檢測(cè)模型,對(duì)于模型復(fù)雜度需求較低的輕量級(jí)入侵檢測(cè)模型具有很好的實(shí)用性,適用于實(shí)際網(wǎng)絡(luò)環(huán)境,為入侵檢測(cè)問題提出了新的研究思路。
[1] 國(guó)家互聯(lián)網(wǎng)應(yīng)急中心. 2017年7月我國(guó)互聯(lián)網(wǎng)安全威脅報(bào)告[R]. 2017.
National Internet Emergency Center. The report of China’s Internet security threat in July[R]. 2017.
[2] LEI Y, LIU J, YIN H. Intrusion detection techniques based on improved intuitionist fuzzy neural networks[J]. Applied Mechanics & Materials, 2014, 713-715(1): 2507-2510.
[3] THASEEN I S, KUMAR C A. Intrusion detection model using fusion of chi-square feature selection and multi class SVM[J]. Journal of King Saud University-Computer and Information Sciences, 2016, 29(4):462-472.
[4] DASTANPOUR A, IBRAHIM S, MASHINCHI R. Comparison of genetic algorithm optimization on artificial neural network and support vector machine in intrusion detection system[C]//IEEE International Conference on Open Systems, 2014: 72-77.
[5] ABDLHAMED M, KIFAYAT K, SHI Q. Intrusion prediction systems[J]. Information Fusion for Cyber-Security Analytics, 2017, 69(1): 155-174.
[6] PARSAEI M, ROSTAMI S, JAVIDAN R. A hybrid data mining approach for intrusion detection on imbalanced NSL-KDD dataset[J]. International Journal of Advanced Computer Science and Applications, 2016, 7(6): 20-25.
[7] POZI M, SULAIMAN M, MUSTAPHA N. Improving anomalous rare sttack detection rate for intrusion detection system using support vector machine and genetic programming[J]. Neural Processing Letters, 2016, 44(2): 279-290.
[8] 高妮, 高嶺, 賀毅岳. 基于自編碼網(wǎng)絡(luò)特征降維的輕量級(jí)入侵檢測(cè)模型[J]. 電子學(xué)報(bào), 2017, 45(3):730-739.
GAO N, GAO L, HE Y Y. A lightweight intrusion detection model based on autoencoder network with feature reduction[J]. Acta Electronica Sinica, 2017, 45(3): 730-739.
[9] DIRO A, CHILAMKURTI N. Distributed attack detection scheme using deep learning approach for Internet of Things[J]. Future Generation Computer Systems, 2018, 82(1):761-768.
[10] CHINCHORE R, SAMBARE S. Intrusion detection system by layered approach and hidden Markov model[J]. International Journal of Computer Application, 2015, 5(2):7-14.
[11] CHAWLA NV, BOWYER KW, HALL LO, et al. SMOTE: synthetic minority over-sampling technique[J]. Journal of Artificial Intelligence Research, 2002, 16(1):321-357.
[12] HINTON G, SALAKHUTDINOV R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(28): 504-507.
[13] 徐彬, 陳渤, 劉宏偉. 基于注意循環(huán)神經(jīng)網(wǎng)絡(luò)模型的雷達(dá)高分辨率距離像目標(biāo)識(shí)別[J]. 電子與信息學(xué)報(bào), 2016, 38(12): 2988-2995.
XU B, CHEN B, LIU H W. Attention-based recurrent neural network model for radar high-resolution range prfile target recognition[J]//Journal of Electronics & Information Technology, 2016, 38(12): 2988-2995.
[14] THANDA A, VENKATESAN S M. Audio visual speech recognition using deep recurrent neural networks[C]. IAPR Workshop on Multimodal Pattern Recognition of Social Signals in Human-Computer Interaction, 2016: 98-109.
[15] GUAMAN F, JOTY S, MARQUEZ L, et al. Machine translation evaluation with neural networks[J]. Computer Speech & Language, 2017, 45(1): 180-200.
[16] JORDAN MI. Attractor dynamics and parallelism in connectionist sequential machine[C]//Eighth Conference of the Cognitive Science Society, 1986:531-546.
[17] SONG J, TAKAKURA H, OKABE Y. Statistical analysis of honeypot data and building of Kyoto 2006+ dataset for NIDS evaluation[C]//The Workshop on Building Analysis Datasets & Gathering Experience Returns for Security. 2011:29-36.
[18] TAVALLAEE M, BAGHERI E, LU W. A detailed analysis of the KDD CUP 99 data set[C]//IEEE International Conference on Computational Intelligence for Security and Defense Applications. 2009:53-58.
Combinatorial intrusion detection model based on deep recurrent neural network and improved SMOTE algorithm
YAN Binghao, HAN Guodong
National Digital Switching System Engineering and Technological Research Center, Zhengzhou 450002, China
Existing intrusion detection models generally only analyze the static characteristics of network intrusion actions, resulting in low detection rate and high false positive rate, and cannot effectively detect low-frequency attacks. Therefore, a novel combinatorial intrusion detection model (DRRS) based on deep recurrent neural network (DRNN) and region adaptive synthetic minority oversampling technique algorithm (RA-SMOTE) was proposed. Firstly, RA-SMOTE divided the low frequency attack samples into different regions adaptively and improved the number of low-frequency attack samples with different methods from the data level. Secondly, the multi-stage classification features were learned by using the level feedback units in DRNN, at the same time, the multi-layer network structure achieved the optimal non-linear fitting of the original data distribution. Finally, the intrusion detection was completed by trained DRRS. The empirical results show that compared with the traditional intrusion detection models, DRRS significantly improves the detection rate of low-frequency attacks and overall detection efficiency. Besides, DRRS has a certain detection rate for unknown new attacks. So DRRS model is effective and suitable for the actual network environment.
network security, deep learning, intrusion detection, DRNN, oversampling algorithm
TP393.08
A
10.11959/j.issn.2096-109x.2018056
燕昺昊(1994-),男,山西呂梁人,國(guó)家數(shù)字交換系統(tǒng)工程技術(shù)研究中心碩士生,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)、入侵檢測(cè)、網(wǎng)絡(luò)安全。
韓國(guó)棟(1964-),男,山東萊西人,博士,國(guó)家數(shù)字交換系統(tǒng)工程技術(shù)研究中心副教授、碩士生導(dǎo)師,主要研究方向?yàn)閷拵畔⑻幚?、信息安全、芯片設(shè)計(jì)技術(shù)。
2018-06-13;
2018-07-05
燕昺昊,ndscybh@qq.com
國(guó)家科技重大專項(xiàng)基金資助項(xiàng)目(No.2016ZX01012101);國(guó)家自然科學(xué)基金資助項(xiàng)目(No.61572520);國(guó)家自然科學(xué)基金創(chuàng)新群體資助項(xiàng)目(No.61521003)
The National Science Technology Major Project of China (No.2016ZX01012101),The National Natural Science Foundation Project of China (No.61572520),The National Natural Science Foundation Innovation Group Project of China (No.61521003)