魏嘉毅,安琪,周超
?
基于DBN和SOFTMAX的網(wǎng)絡入侵檢測模型
魏嘉毅,安琪,周超
北方自動控制技術研究所, 山西 太原 030006
針對目前對于網(wǎng)絡入侵檢測準確率不高的問題,本文提出一種基于深度置信網(wǎng)絡(Deep Belief Networks,DBN)和SOFTMAX的入侵檢測模型。該模型可以自動地對網(wǎng)絡信息進行攔截、處理并進行入侵檢測。為了驗證該模型的有效性,本文將KDD CUP 99-10%和KDD CUP 99-Correct數(shù)據(jù)集作為實驗對象,總正確率分別達到了99.67%和99.42%。通過對比實驗,將DBN和BP神經(jīng)網(wǎng)絡,TANN等算法進行對比,實驗結果證明DBN-SOFTMAX相較于其他算法具有更高的檢測效果。
網(wǎng)絡安全; 入侵檢測模型; 深度置信網(wǎng)絡; SOFTMAX
在現(xiàn)代戰(zhàn)爭中,網(wǎng)絡戰(zhàn)這種高科技作戰(zhàn)式樣正在越來越被各國所重視,網(wǎng)絡入侵行為不僅數(shù)量大而且類型復雜,因此需要一個具有更強大的處理能力的入侵檢測系統(tǒng)來與之進行對抗。目前的入侵檢測面臨的問題有兩個,一是誤報問題,入侵檢測系統(tǒng)需要很好的識別出用戶的正常行為和入侵行為[1]。二是如何處理瞬時的高數(shù)據(jù)量的入侵行為,因此如何更高效的處理以上兩個問題成了當前入侵檢測研究的熱點。近年來隨著神經(jīng)網(wǎng)絡的發(fā)展,深度置信網(wǎng)絡(Deep Belief Networks,后文都統(tǒng)稱為DBN)的提出為解決復雜數(shù)據(jù)的學習問題提供了一種很好的思路。DBN的擬合能力強,表征能力高,可以快速準確的識別出入侵行為并對其作出相應的處理。從1980年James PA提出入侵檢測的概念以來[2],越來越多的學者將機器學習應用于入侵檢測,比如Guevara C提出的與知識提取相結合[3],Dash T提出的將進化算法用于入侵檢測以提高其實時性[4]。國內(nèi)方面對于入侵檢測的研究近年來也有了很多成果,葉煉煉利用BBO算法來優(yōu)化KELM以提高檢測效果[5],閆新娟在入侵檢測分析中加入了隱馬爾科夫模型[6],劉莘等人驗證決策樹在入侵檢測中也可以達到很好的效果[7]。但是目前還很少有人在入侵檢測數(shù)據(jù)分析中使用DBN,所以本文將嘗試把DBN用于入侵檢測的分析中,希望提高分類的準確性和模型識別能力。
DBN是神經(jīng)網(wǎng)絡的一種,他的特點是分類的錯誤率小,可以得到很好的特征表達,因此選擇DBN作為入侵檢測的核心處理模塊。作為神經(jīng)網(wǎng)絡,DBN是由以受限玻爾茲曼機為組成元件的若干層神經(jīng)元所組成。受限玻爾茲曼機(RBM)是隨機生成的神經(jīng)網(wǎng)絡的一種,他通過輸入數(shù)據(jù)集學習概率分布,本質(zhì)上是為網(wǎng)絡狀態(tài)定義一個“能量”,能量最小化時網(wǎng)絡達到理想狀態(tài),而網(wǎng)絡的訓練就是在最小化這個函數(shù),對于一組給定的狀態(tài)(,),可以定義能量函數(shù)為公式1。
其中和分別表示可見神經(jīng)元節(jié)點數(shù)和隱藏神經(jīng)元節(jié)點數(shù),和分別表示顯層和隱層的狀態(tài)向量,和分別表示顯層和隱層的閾值向量,記=(,,)表示RBM中的各參數(shù)向量的連接,w神經(jīng)元表示與之間的連接權。將(1)變換為矩陣向量形式:
這一步是整個模型的關鍵,這個公式可以得出在條件下可能出現(xiàn)的概率。通過對比剛剛推導出的P()和真實可見層的(),通過不斷的訓練來更改權重w和隱藏層h的值,便可以使得模型很好的擬合可見層的真實概率分布。
為了使RBM達到最佳狀態(tài),我們選擇采用對比散度算法(Contrastive Divergence)對其進行訓練,CD算法的基本思想是將RBM的隱藏層作為訓練樣本的起點,以通過少量的狀態(tài)轉移就可以達到RBM的分布狀態(tài)。CD算法一開始,將可見層的節(jié)點利用公式(6)計算出隱藏層的狀態(tài)值,之后帶入公式(7)中得到可視節(jié)點為1時的概率,然后將其作為真實的模型代入RBM的D中進行梯度下降算法。
在DBN中,每層都是一個受限玻爾茲曼機,即整個網(wǎng)絡可視為若干個RBM堆疊而成,使用無監(jiān)督逐層訓練后,再利用BP算法等對整個網(wǎng)絡進行訓練。因為BP網(wǎng)絡采用了梯度下降的思路,誤差會隨著網(wǎng)絡向前傳播,層數(shù)越高,誤差會越小,難以對參數(shù)修改起到足夠作用,而RBM將除最后層的權重變?yōu)殡p向,這樣最后層仍為單層BP網(wǎng)絡,而其他層變?yōu)榱藞D模型。這樣的結構設計解決了BP神經(jīng)網(wǎng)絡收斂速度慢訓練時間長和不保證其權值為誤差平面的全局最小值的問題??紤]到在軍用網(wǎng)絡系統(tǒng)中要求快速準確的識別并處理入侵,我們參考相關文獻后選擇使用三層RBM的堆疊、一層BP神經(jīng)網(wǎng)絡和一層SOFTMAX分類器作為入侵檢測模型。
我們仿照入侵檢測通用模型嘗試設計了基于DBN-SOFTMAX的入侵檢測模型,通用模型如圖1所示,在通用模型的基礎上調(diào)整了具體模塊間的結構,并且使用DBN-SOFTMAX作為核心處理模塊。整個模型包括網(wǎng)絡探測單元、數(shù)據(jù)預處理單元、數(shù)據(jù)存儲單元和DBN異常處理單元。具體單元間關系如圖2所示。
圖 1 通用入侵檢測模型
Fig.1 The general intrusion detection model
圖2 基于DBN-SOFTMAX入侵檢測模型
● 網(wǎng)絡探測器:是入侵檢測系統(tǒng)的基本模塊,該模塊的功能是攔截和采集網(wǎng)絡中所有流量信息,并在數(shù)據(jù)預處理模塊中對截獲信息進行處理,在本實驗中主要采用對于路由器端口的監(jiān)聽手段。
● 數(shù)據(jù)預處理單元:在該單元中共有三種需要處理的數(shù)據(jù),根據(jù)來源和類型分為本地信息和網(wǎng)絡信息,現(xiàn)有入侵類型和新型入侵類型。在本單元中,將數(shù)據(jù)通過數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約將數(shù)據(jù)處理后輸入到DBN單元。
● 數(shù)據(jù)存儲單元:數(shù)據(jù)庫是用于存儲數(shù)據(jù)預處理模塊形成的標準數(shù)據(jù)集。其中,實際網(wǎng)絡標準數(shù)據(jù)集、本地網(wǎng)絡數(shù)據(jù)標準數(shù)據(jù)集、本地新型異常標準數(shù)據(jù)集分別在數(shù)據(jù)庫中存儲。
● 異常處理單元:是模型中的核心單元,它的主要功能是訓練和抽象上一個單元中預處理后的數(shù)據(jù)。在本異常處理單元中,分別將本地和網(wǎng)路中采集到的各種攻擊類型的數(shù)據(jù)作為DBN的訓練集,訓練該單元對于攻擊的識別效果,并將新數(shù)據(jù)加入至數(shù)據(jù)庫中,當數(shù)據(jù)庫累計至一定數(shù)值的時候重新將數(shù)據(jù)庫中的網(wǎng)絡數(shù)據(jù)作為輸入進行訓練,從而進一步提高對于現(xiàn)實入侵數(shù)據(jù)的識別率。
本文采用KDD CUP99-10%和KDD CUP99-Correct作為數(shù)據(jù)集[8]。該數(shù)據(jù)集模仿真實的網(wǎng)絡環(huán)境仿真了各種攻擊類型,其中被分成了有標識的訓練數(shù)據(jù)和無標識的測試數(shù)據(jù),測試數(shù)據(jù)中包括了之前未出現(xiàn)的異常類型。在這個數(shù)據(jù)集中,包括一種正常數(shù)據(jù)Normal類和22種出現(xiàn)在訓練集中的攻擊類型,另外還有14種是只出現(xiàn)在測試集中。在該數(shù)據(jù)集中,異常數(shù)據(jù)被標示為四大異常類型,其中分別是DOS(拒絕服務)、R2L(遠程用戶攻擊)、U2R(提權攻擊)、PROBING(端口攻擊)。因KDD CUP99-10%數(shù)據(jù)集共有49萬多條數(shù)據(jù),該數(shù)據(jù)集中Normal類數(shù)據(jù)占19.8%,Dos類數(shù)據(jù)占79.89%,Probe類數(shù)據(jù)占比8%,R2L類數(shù)據(jù)占比0.2%,U2R類數(shù)據(jù)占比0.0016%,為了提高訓練效率,對數(shù)據(jù)進行篩選。我們隨機選取實驗數(shù)據(jù)集中的70%數(shù)據(jù)作為訓練集,剩下的30%作為測試集。
在MATLAB環(huán)境下,通過多次改變RBM和BP神經(jīng)網(wǎng)絡的迭代次數(shù)并觀察訓練效果,發(fā)現(xiàn)當DBN模型的參數(shù)為118-59-20-20-5時,將RBM的迭代次數(shù)設置為150次,BP神經(jīng)網(wǎng)絡設置為75次時,訓練時間和訓練效果可以達到最佳,圖3為本模型訓練后對上一節(jié)中測試集的測試結果。
圖 3 新型入侵檢測識別率
為驗證本文提出的入侵檢測模型,我們將本模型與別的同樣使用了KDD CUP99-10%數(shù)據(jù)集的入侵檢測模型進行試驗模擬。因為本模型是在BP神經(jīng)網(wǎng)絡的基礎上的改進,所以再加上BP神經(jīng)網(wǎng)絡對比。與上一節(jié)相同,將本模型的參數(shù)設置為118-59-20-20-5,RBM的迭代次數(shù)設置為150次,BP神經(jīng)網(wǎng)絡的迭代次數(shù)設置為75次。表1展示了各個模型在面對不同的入侵類型數(shù)據(jù)時的表現(xiàn)。
表 1 各入侵檢測模型分類正確率
Table 3 Classification accuracy of each intrusion detection model
從上表中的實驗結果可以看到相比于其他的檢測方法,本文提出的方法的總分類正確率是最高的,在除了對U2R的39.53%以外,對其他三種入侵檢測類型都到了很高的水準,基本上也都高于其他四種方法。DBN-SOFTMAX和BP對于U2R的分類正確率遠遠低于其他三種模型,通過分析其原因為由于我們的模型需要大量的數(shù)據(jù)進行訓練以優(yōu)化參數(shù),而原數(shù)據(jù)集中U2R類入侵數(shù)據(jù)只有52條,這遠遠達不到模型訓練的最低要求。但是從總分類正確率來看,DBN還是達到了很高的正確率并且相比于其他模型都有提升,因此可以認為假如U2R的數(shù)據(jù)量達到要求,對其的識別也可以達到很高的水準。所以從上述分析可以得出結論,本文提出的模型是可行并且優(yōu)秀的。
[1] 齊斌,鄒紅霞,王宇,等.自適應網(wǎng)絡安全意識測評系統(tǒng)研究綜述[J].兵器裝備工程學報,2018,39(11):140-146
[2] 薛靜峰,祝烈煌.入侵檢測技術[M].北京:人民郵電出版社,2016
[3] Guevara C, Santos M, López V. Intrusion Detection with Neural Networks Based on Knowledge Extraction by Decision Tree[C]// International Joint Conference SOCO’16-CISIS’16-ICEUTE’16, 2016:508-517
[4] Dash T. A study on intrusion detection using neural networks trained with evolutionary algorithms[J]. Soft Computing, 2017,21(10):2687-2700
[5] 葉煉煉.基于云模型BBO算法優(yōu)化KELM的網(wǎng)絡入侵檢測[J].山東農(nóng)業(yè)大學學報:自然科學版,2018,49(05):135-139
[6] 閆新娟,譚敏生,嚴亞周,等.基于隱馬爾科夫模型和神經(jīng)網(wǎng)絡的入侵檢測研究[J].計算機應用與軟件,2012,29(2):294-297
[7] 劉莘,張永平,萬艷麗.決策樹算法在入侵檢測中的應用分析及改進[J].計算機工程與設計,2006,27(19):3641-3643
[8] Janarthanan T, Zargari S. Feature selection in UNSW-NB15 and KDDCUP'99 datasets[C]. IEEE, International Symposium on Industrial Electronics, 2017:1881-1886
The Model of Internet Intrusion Detection DBN and SOFTMAX
WEI Jia-yi, AN Qi, ZHOU Chao
030006,
In view of a present low accuracy in network intrusion detection, this paper proposed a model of internet intrusion detection on Deep Belief Network (DBN) and SOFTMAX to be able to automatically intercept and detect an intrusion. In order to verify the validity of the model, the total accuracy of KDD cup 99-10% and KDD cup 99-correct data set was 99.67% and 99.42% respectively. Compared with DBN and BP neural network and TANN, the DBN-SOFTMAX had the better effect than other algorithms in internet intrusion detection.
Internet security; intrusion detection model; DBN; SOFTMAX
TP393.08
A
1000-2324(2019)02-0274-03
10.3969/j.issn.1000-2324.2019.02.022
2018-04-13
2018-05-21
軍委裝備發(fā)展部預研基金資助項目(YYZF1707-07)
魏嘉毅(1992-),男,碩士研究生,主要研究方法為系統(tǒng)工程. E-mail:404364142@qq.com