杜 坤,黃永林,羅振宇
(重慶科技學(xué)院 智能技術(shù)與工程學(xué)院,重慶 401331)
隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)信息技術(shù)已經(jīng)覆蓋到民生、經(jīng)濟(jì)、政務(wù)、軍事等社會(huì)各個(gè)方面,對(duì)人們的生活產(chǎn)生了重要的影響,并成為推動(dòng)國(guó)家發(fā)展的新動(dòng)力。網(wǎng)絡(luò)技術(shù)的發(fā)展,大大方便了人們的生活,但是復(fù)雜的網(wǎng)絡(luò)空間環(huán)境和日新月異的網(wǎng)絡(luò)攻擊也對(duì)人們的生活造成了一定的困擾。網(wǎng)絡(luò)安全成為一個(gè)研究熱點(diǎn),入侵檢測(cè)系統(tǒng)可以通過監(jiān)視網(wǎng)絡(luò)流量來檢測(cè)是否存在網(wǎng)絡(luò)攻擊行為,從而防止網(wǎng)絡(luò)入侵行為,網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)在網(wǎng)絡(luò)信息安全方面發(fā)揮著重要作用。近年來,基于人工智能的入侵檢測(cè)系統(tǒng)[1]成為研究熱點(diǎn),將入侵檢測(cè)問題轉(zhuǎn)化為分類問題,利用機(jī)器學(xué)習(xí)[2]技術(shù)構(gòu)建分類器模型,對(duì)網(wǎng)絡(luò)流量進(jìn)行分類,有效提高了入侵檢測(cè)系統(tǒng)的檢測(cè)率,降低了誤報(bào)率。
基于深度學(xué)習(xí)算法的發(fā)展,本文提出一個(gè)基于CNNBiLSTM與注意力機(jī)制的網(wǎng)絡(luò)入侵檢測(cè)方法,通過多層CNN-BiLSTM網(wǎng)絡(luò)提取數(shù)據(jù)的空間特征和時(shí)間特征,注意力機(jī)制篩選出關(guān)鍵特征,最后通過分類器得到分類結(jié)果。在NSL-KDD數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)以驗(yàn)證模型的有效性。
BiLSTM網(wǎng)絡(luò)由正向LSTM和后向LSTM組合而成,其中,LSTM是RNN的變體,引入遺忘門、輸入門、輸出門結(jié)構(gòu)來控制細(xì)胞狀態(tài)信息,有效地緩解了RNN的優(yōu)化難題,可以有效捕捉時(shí)序數(shù)據(jù)間的關(guān)系特征。BiLSTM網(wǎng)絡(luò)的輸出由兩個(gè)方向相反的LSTM的狀態(tài)共同決定。
注意力機(jī)制源于人類視覺的研究,人類觀察事物時(shí),由于視覺局限總是重點(diǎn)關(guān)注于局部關(guān)鍵區(qū)域,忽略次要無關(guān)區(qū)域。人類視覺注意力機(jī)制能夠使人類快速篩選出重要信息,極大地加快了對(duì)視覺信息處理的效率,提高了準(zhǔn)確性。研究人員提出了深度學(xué)習(xí)中的注意力機(jī)制,通過對(duì)計(jì)算資源的有效分配,快速?gòu)暮A康臄?shù)據(jù)信息中篩選出當(dāng)前任務(wù)的關(guān)鍵信息,減小模型的計(jì)算壓力,提高性能。近年來,注意力機(jī)制已被廣泛應(yīng)用于各個(gè)領(lǐng)域。在網(wǎng)絡(luò)入侵檢測(cè)中引入注意力機(jī)制對(duì)流量數(shù)據(jù)特征基于重要度分配不同的權(quán)重值,有助于分類器完成更迅捷準(zhǔn)確的分類。在本文中,經(jīng)過預(yù)處理后的網(wǎng)絡(luò)流量數(shù)據(jù)經(jīng)過CNN-BiLSTM模塊提取出細(xì)粒度流量特征,注意力層給不同特征分配權(quán)重值,使模型更加關(guān)注重要特征。其計(jì)算公式為:
其中WW,bW,Wh,bh為可訓(xùn)練的參數(shù),ht為BiLSTM層提取輸出的特征向量,經(jīng)過非線性激活函數(shù)計(jì)算得到隱藏表示ut,uW表示上下文向量,αt為特征重要程度權(quán)重系數(shù),s為經(jīng)過重要性加權(quán)和得到的關(guān)鍵特征,y為輸出結(jié)果。
網(wǎng)絡(luò)流量數(shù)據(jù)屬于時(shí)間序列數(shù)據(jù),各個(gè)特征之間可能存在著依賴關(guān)系,本文利用CNN和BiLSTM的協(xié)同作用提取數(shù)據(jù)的時(shí)空特征,使用注意力機(jī)制層篩選關(guān)鍵特征,提出融合CNN-BiLSTM和注意力機(jī)制的入侵檢測(cè)方法。該方法模型由數(shù)據(jù)預(yù)處理部分、CNN-BiLSTM模塊、注意力層、全連接層、輸出層5部分組成,模型結(jié)構(gòu)如圖1所示。
圖1 融合CNN-BiLSTM和注意力機(jī)制的網(wǎng)絡(luò)入侵檢測(cè)模型結(jié)構(gòu)
原始數(shù)據(jù)在數(shù)據(jù)預(yù)處理部分經(jīng)過one-hot編碼和歸一化處理后,轉(zhuǎn)變?yōu)闈M足CNN-BiLSTM模塊的輸入數(shù)據(jù)格式,CNN-BiLSTM模塊作為特征提取器,通過CNN和BiLSTM的協(xié)同作用提取時(shí)空特征,注意力層分析特征重要程度,篩選出關(guān)鍵特征,經(jīng)過全連接層進(jìn)行特征融合,最終輸入到分類器中得到分類結(jié)果。
本文選用NSL-KDD數(shù)據(jù)集來評(píng)估模型的性能。NSKKDD數(shù)據(jù)集是KDDCup99數(shù)據(jù)集的改進(jìn),也是網(wǎng)絡(luò)入侵檢測(cè)領(lǐng)域的基準(zhǔn)數(shù)據(jù)集之一。該數(shù)據(jù)集有41維固定特征屬性和1個(gè)類別標(biāo)簽,主要分為拒絕服務(wù)(DOS)、監(jiān)視窺探(Probe)、越權(quán)攻擊(U2R)、遠(yuǎn)程攻擊(R2L)四大攻擊行為和普通行為(Normal)數(shù)據(jù)。
神經(jīng)網(wǎng)絡(luò)無法直接處理文本信息,NSL-KDD數(shù)據(jù)集中有字符型數(shù)據(jù),不符合神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)格式。首先需要將原始數(shù)據(jù)中非數(shù)值數(shù)據(jù)轉(zhuǎn)化為數(shù)值型數(shù)據(jù),使用onehot編碼方式將其映射為二進(jìn)制向量。原始數(shù)據(jù)中部分特征間可能有不同的數(shù)據(jù)分布方式,這樣的原始數(shù)據(jù)可能影響學(xué)習(xí)效率,需要對(duì)其進(jìn)行歸一化處理,將特征值映射到[0,1]區(qū)間。
實(shí)驗(yàn)結(jié)果選用準(zhǔn)確率(ACC)、檢測(cè)率(DR)、誤報(bào)率(FPR)來評(píng)估模型的性能。本文在NSL-KDD數(shù)據(jù)集上進(jìn)行了五分類實(shí)驗(yàn),其實(shí)驗(yàn)結(jié)果如表1所示。
表1 NSL-KDD不同類別的分類結(jié)果
將提出的模型與其他算法模型做對(duì)比實(shí)驗(yàn),其實(shí)驗(yàn)結(jié)果如表2所示。
表2 與其他算法實(shí)驗(yàn)結(jié)果比較
本文提出了一種基于融合CNN-BiLSTM和注意力機(jī)制的網(wǎng)絡(luò)入侵檢測(cè)算法,通過CNN及BiLSTM構(gòu)成的分層網(wǎng)絡(luò)提取流量數(shù)據(jù)的時(shí)空特征,引入注意力機(jī)制,使網(wǎng)絡(luò)可以識(shí)別分類關(guān)鍵特征,提升其分類準(zhǔn)確性。在NSL-KDD數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,該方法具有較高的準(zhǔn)確率、檢測(cè)率和較低的誤報(bào)率。然而該方法存在訓(xùn)練時(shí)間較長(zhǎng),對(duì)不平衡數(shù)據(jù)集的檢測(cè)性能還有優(yōu)化空間,未來還需進(jìn)一步優(yōu)化模型,使其有更好的性能和泛化能力。