摘 要: 研究一種基于群智能算法優(yōu)化神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)安全事件分析模型,使用遺傳算法和LMS算法對常規(guī)RBF神經(jīng)網(wǎng)絡(luò)中的隱含層神經(jīng)元個數(shù)、基函數(shù)中心以及各層連接閾值和權(quán)值進(jìn)行優(yōu)化,得到最優(yōu)解,從而提高RBF神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練效率和精度,提高基于RBF神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)安全事件分析效率和準(zhǔn)確度。使用KDD CUP99數(shù)據(jù)集中的網(wǎng)絡(luò)入侵事件數(shù)據(jù)對研究的網(wǎng)絡(luò)安全入侵事件分析模型進(jìn)行實例研究,測試結(jié)果表明,該分析模型相比常規(guī)神經(jīng)網(wǎng)絡(luò)算法建立的模型具有更高的識別準(zhǔn)確率,能夠準(zhǔn)確識別分析正常事件和四種網(wǎng)絡(luò)攻擊入侵事件。
關(guān)鍵詞: 遺傳算法; LMS算法; RBF神經(jīng)網(wǎng)絡(luò); 入侵識別; 網(wǎng)絡(luò)安全事件分析
中圖分類號: TN915.08?34; TP393 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2016)21?0123?04
Network security event analysis based on swarm intelligence
algorithm optimizing neural network
GAO Feng
(Software Engineering Institute, Chongqing University of Arts and Sciences, Chongqing 402160, China)
Abstract: A network security event analysis model based on swarm intelligence algorithm optimizing neural network is stu?died. The genetic algorithm and LMS algorithm are used to optimize the hidden layer neurons quantity, basis function center, connection threshold and weight of each layer of the conventional RBF neural network, so as to obtain the optimal solution, improve the training efficiency and accuracy of the RBF neural network model, and the efficiency and accuracy of the network security event analysis based on RBF neural network. The network intrusion event data in KDD CUP99 dataset is used to perform the instance study for the network security intrusion events analysis model. The test results show that the analysis model has more recognition accuracy than the model established by the conventional neural network algorithm, and can accurately identify and analyze the normal events and four network attack events.
Keywords: genetic algorithm; LMS algorithm; RBF neural network; intrusion detection; network security event analysis
隨著計算機(jī)和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展和普及,計算機(jī)網(wǎng)絡(luò)安全日益受到入侵、病毒的威脅,對網(wǎng)絡(luò)安全事件進(jìn)行及時有效識別和分析對于提高計算機(jī)網(wǎng)絡(luò)安全具有重要作用[1?3]。目前專家學(xué)者針對使用神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等機(jī)器學(xué)習(xí)算法建立了網(wǎng)絡(luò)安全事件分析模型。本文通過遺傳算法對RBF神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化,再利用LMS算法進(jìn)一步學(xué)習(xí)連接權(quán)值,最后得到基于最小均方差算法以及遺傳算法的RBF神經(jīng)網(wǎng)絡(luò)安全事件分析模型。
1 事件分析及數(shù)據(jù)特征提取
本文主要針對影響網(wǎng)絡(luò)安全的入侵事件進(jìn)行識別分類,使用神經(jīng)網(wǎng)絡(luò)建立分析模型,使用已知的正常事件和入侵事件數(shù)據(jù)作為訓(xùn)練樣本對入侵事件分析模型進(jìn)行訓(xùn)練,提高其泛化能力,然后使用已知的正常事件和入侵事件類型的測試樣本對入侵事件分析模型進(jìn)行測試,檢驗其分析效果。
本文研究的影響網(wǎng)絡(luò)安全的入侵事件類型主要有DOS攻擊、U2R攻擊、R2L攻擊以及Probing攻擊四種入侵類型[4?6]。需要從龐大繁雜的采集數(shù)據(jù)中分類識別網(wǎng)絡(luò)入侵事件,需要對入侵事件數(shù)據(jù)的特征進(jìn)行提取、處理,以使得識別模型能夠準(zhǔn)確對入侵事件進(jìn)行分類和分析。本文使用如下15種入侵事件的特征數(shù)據(jù)[7]:
連續(xù)的服務(wù)持續(xù)時間:service_continua nce;離散的連續(xù)協(xié)議:continued_protocol;離散的服務(wù)類型:type_service;離散的正常事件或攻擊行為:regular or assault;離散的連接狀態(tài):connection_state;連續(xù)的分片錯誤個數(shù):error_num_fragmentation;連續(xù)的失敗登陸次數(shù):num_failed_attempts;連續(xù)的由數(shù)據(jù)源到目標(biāo)的數(shù)據(jù)比特數(shù):src_dst_bytes;連續(xù)的目前和過去2 s時間內(nèi)一樣目標(biāo)地址的連接個數(shù):same_dst_count;連續(xù)的目前和過去2 s時間內(nèi)一樣服務(wù)類型的連接個數(shù):same_service_count;連續(xù)的目前和過去2 s時間內(nèi)一樣目標(biāo)地址中錯誤SYN連接的占比:syn_error_proportion;連續(xù)的目前和過去2 s時間內(nèi)一樣服務(wù)類型中錯誤SYN連接的占比:srv_error_proportion;連續(xù)的目前和過去2 s時間內(nèi)一樣服務(wù)類型中不同目標(biāo)地址連接的占比:dst_diff_host_proportion;連續(xù)的前100個連接中與目前地址和服務(wù)均相同的連接的占比:service_host_same_srv_proportion;連續(xù)的創(chuàng)建文件次數(shù):num_file_operations。
按照文獻(xiàn)[7]中的方法對離散的數(shù)據(jù)進(jìn)行連續(xù)化,以避免采用兩種衡量標(biāo)準(zhǔn)產(chǎn)生的干擾,主要針對不同協(xié)議類型、不同網(wǎng)絡(luò)服務(wù)類型和入侵事件進(jìn)行處理,具體連續(xù)化方法如表1所示。
2 事件分析模型
本文在設(shè)計網(wǎng)絡(luò)安全入侵事件分析模型時應(yīng)用了RBF神經(jīng)網(wǎng)絡(luò)模型,這種模型能夠應(yīng)用線性學(xué)習(xí)算法完成以往需要采用非線性學(xué)習(xí)算法才能夠完成的工作,而且在精度上和非線性算法一致,具有收斂速度快、全局最優(yōu)以及最佳逼近的優(yōu)勢。因此在對一些分類識別問題進(jìn)行解決時,對于RBF神經(jīng)網(wǎng)絡(luò)的應(yīng)用比較廣泛。但是在應(yīng)用RBF神經(jīng)網(wǎng)絡(luò)時容易出現(xiàn)學(xué)習(xí)率偏低、中心難以確定以及出現(xiàn)過擬合的缺點,這對識別精度以及運行效率產(chǎn)生了消極的影響[8?9]。
遺傳算法開始于代表問題可能潛在解集的一個種群。一定數(shù)量的經(jīng)過基因編碼得到的個體組成了種群,個體是染色體帶有特征的實體。在每次迭代過程中GA都會保留一組候選解,根據(jù)解的優(yōu)劣進(jìn)行排序,按照相應(yīng)的指標(biāo)進(jìn)行解的選擇,同時使用遺傳算子進(jìn)行運算,得到新的候選解,經(jīng)過多次的運算就能夠達(dá)到相應(yīng)的收斂指標(biāo)[10]。
利用遺傳算法對RBF神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化,傳統(tǒng)的優(yōu)化方法是對隱層神經(jīng)元個數(shù)以及連接權(quán)值進(jìn)行單獨的優(yōu)化,盡管能夠發(fā)揮較好的作用,但是仍然存在一些需要完善的地方。本文研究使用新的優(yōu)化方法以獲得最優(yōu)的RBF神經(jīng)網(wǎng)絡(luò)模型,同時優(yōu)化隱層神經(jīng)元格式以及連接權(quán)值。其中采用實數(shù)對連接權(quán)值進(jìn)行編碼,使用二進(jìn)制對隱層神經(jīng)元進(jìn)行編碼。在完成連接權(quán)值學(xué)習(xí)的過程中自適應(yīng)地對網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行調(diào)整。局部高斯函數(shù)是RBF的激活函數(shù),盡管能夠解決局部最小問題,但是不具有較強(qiáng)的全局搜索能力。采用遺傳算法進(jìn)行優(yōu)化能夠得到最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu),但是無法充分的優(yōu)化輸出神經(jīng)元與隱層神經(jīng)元之間的權(quán)值,在經(jīng)過二次優(yōu)化以后再利用LMS算法進(jìn)一步的學(xué)習(xí)連接權(quán)值。最后就能夠基于最小均方差算法以及遺傳算法得到RBF神經(jīng)網(wǎng)絡(luò)分類算法,簡稱GA?RBF?LMS[11]。
遺傳算子的構(gòu)造、適應(yīng)度函數(shù)定義以及染色體編碼是采用GA對RBF網(wǎng)絡(luò)進(jìn)行優(yōu)化的主要內(nèi)容,通過對遺傳算法的應(yīng)用,可以自動地對連接權(quán)值以及網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行調(diào)整,進(jìn)而對神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化,將神經(jīng)網(wǎng)絡(luò)和遺傳算法有效融合起來。
(1) 編碼染色體
遺傳算法構(gòu)造出染色體編碼:
[c1c2…csw11w21…ws1w12w22…ws2…w1lw2l…wslθ1θ2…θl] (1)
式中:[l]為神經(jīng)網(wǎng)絡(luò)輸出層的神經(jīng)元個數(shù);[s]為神經(jīng)網(wǎng)絡(luò)隱含層神經(jīng)元個數(shù);[ci]為二進(jìn)制編碼隱含層神經(jīng)元個數(shù),若值為1表示存在神經(jīng)元,若值為0表示不存在該神經(jīng)元;[θj]為第[j]個輸出層神經(jīng)元的閾值,該閾值使用實數(shù)方式進(jìn)行編碼;[wpj]為第[p]個輸出層神經(jīng)元到第[j]個隱含層使用神經(jīng)元的連接權(quán)值,該權(quán)值使用實數(shù)方式進(jìn)行編碼。
(2) 構(gòu)造遺傳算子
使用輪盤賭選擇法進(jìn)行算子的選擇,通常所選擇的大部分個體具有較高的適應(yīng)度,同時也可以選擇一些適應(yīng)度低的個體,采用該選擇方法能夠保證種群的多樣性。
將單點交叉算子作為交叉算子,2 個新個體可以通過交叉操作獲取,并將其放置在新一代的種群中,在重復(fù)進(jìn)行交叉操作的過程中種群的規(guī)模逐漸增大。利用經(jīng)營保留策略能夠避免最優(yōu)個體在進(jìn)化過程中丟失。
(3) 計算適應(yīng)度
染色體的適應(yīng)度通過訓(xùn)練誤差和神經(jīng)網(wǎng)絡(luò)規(guī)模獲得:
[F=C-ensmax] (2)
式中:[e]為訓(xùn)練誤差;[C]為常數(shù);[n]為網(wǎng)絡(luò)隱含層節(jié)點個數(shù),其最大節(jié)點數(shù)為[smax。]
(4) 構(gòu)造RBF 神經(jīng)網(wǎng)絡(luò)
根據(jù)經(jīng)驗選取均勻分布的[q]個基函數(shù)中心,則高斯基函數(shù)寬度表示為[12]:
[σ=d2q] (3)
綜上,建立基于GA?RBF?LMS 神經(jīng)網(wǎng)絡(luò)模型的過程如下:
步驟1:初始RBF神經(jīng)網(wǎng)絡(luò),并對基函數(shù)寬度進(jìn)行計算。
步驟2:對遺傳算法的種群規(guī)模、交叉概率、變異概率以及算子進(jìn)行初始化。
步驟3:對網(wǎng)絡(luò)中個體進(jìn)行編碼。
步驟4:對初始RBF神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到網(wǎng)絡(luò)輸出誤差[e。]
步驟5:通過訓(xùn)練誤差計算遺傳算法中的適應(yīng)度值。
步驟6:對計算所得適應(yīng)度進(jìn)行排序,如果最優(yōu)適應(yīng)度[Fb]滿足[G≥Gmax,]或者[C-Fbsmaxn 步驟7:選取性能較優(yōu)的個體遺傳到下一代。 步驟8:通過反復(fù)單點交叉染色體,使得種群規(guī)模達(dá)到上限。 步驟9:變異操作新生成的種群,跳回步驟4。 步驟10:遺傳優(yōu)化RBF神經(jīng)網(wǎng)絡(luò)結(jié)束,網(wǎng)絡(luò)結(jié)構(gòu)為得到的優(yōu)化解。 步驟11:用LMS方法對神經(jīng)網(wǎng)絡(luò)中不夠充分的權(quán)值進(jìn)一步學(xué)習(xí)優(yōu)化,完成模型的建立。 3 網(wǎng)絡(luò)入侵事件分析實例 本文通過已有的網(wǎng)絡(luò)入侵事件數(shù)據(jù)對所研究的網(wǎng)絡(luò)入侵事件分析方法進(jìn)行實例研究。所使用的網(wǎng)絡(luò)入侵事件數(shù)據(jù)來源于KDD CUP99數(shù)據(jù)集。從KDD CUP99數(shù)據(jù)集選取10 000條包含了正常事件和DOS 攻擊、R2L 攻擊、U2R攻擊、Probing 攻擊這四種入侵事件的數(shù)據(jù)。將10 000條數(shù)據(jù)分為五組,各組數(shù)據(jù)樣本中包含的各類事件數(shù)量如表2所示。 使用常規(guī)RBF神經(jīng)網(wǎng)絡(luò)、常規(guī)GA?RBF神經(jīng)網(wǎng)絡(luò)與本文研究的GA?RBF?LMS 神經(jīng)網(wǎng)絡(luò)進(jìn)行對比,使用相同的數(shù)據(jù)進(jìn)行訓(xùn)練與測試。LMS算法中最大迭代次數(shù)為1 500,學(xué)習(xí)率為0.1。遺傳算法的最大迭代次數(shù)為500,種群規(guī)模為100,交叉和變異概率為0.9和0.1。得到針對五個測試樣本中各類事件的識別準(zhǔn)確率如圖1所示。 測試結(jié)果表明,本文研究的分析模型相比常規(guī)神經(jīng)網(wǎng)絡(luò)算法建立的模型具有更高的識別準(zhǔn)確率,能夠準(zhǔn)確識別分析正常事件和四種網(wǎng)絡(luò)攻擊入侵事件。 4 結(jié) 論 本文研究了一種基于群智能算法優(yōu)化神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)安全事件分析模型,使用遺傳算法和LMS算法對常規(guī)RBF神經(jīng)網(wǎng)絡(luò)中的隱含層神經(jīng)元個數(shù)、基函數(shù)中心以及各層連接閾值和權(quán)值進(jìn)行優(yōu)化,得到最優(yōu)解,從而提高RBF神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練效率和精度,提高基于RBF神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)安全事件分析效率和準(zhǔn)確度。 參考文獻(xiàn) [1] 張淑英.網(wǎng)絡(luò)安全事件關(guān)聯(lián)分析與態(tài)勢評測技術(shù)研究[D].長春:吉林大學(xué),2012. [2] 劉敬,谷利澤,鈕心忻,等.基于神經(jīng)網(wǎng)絡(luò)和遺傳算法的網(wǎng)絡(luò)安全事件分析方法[J].北京郵電大學(xué)學(xué)報,2015,38(2):50?54. [3] 賈偉寬,趙德安,劉曉洋,等.機(jī)器人采摘蘋果果實的K?means和GA?RBF?LMS神經(jīng)網(wǎng)絡(luò)識別[J].農(nóng)業(yè)工程學(xué)報,2015, 31(18):175?183. [4] 王紅艷.一種基于Hadoop架構(gòu)的網(wǎng)絡(luò)安全事件分析方法[J].信息網(wǎng)絡(luò)安全,2013(1):55?57. [5] 彭雪娜,趙宏.一個融合網(wǎng)絡(luò)安全信息的安全事件分析與預(yù)測模型[J].東北大學(xué)學(xué)報,2005(3):228?231. [6] 鄔開俊,王鐵君.基于RBF神經(jīng)網(wǎng)絡(luò)優(yōu)化的混沌時間序列預(yù)測[J].計算機(jī)工程,2013,39(10):208?211. [7] 宋玲,常磊.變異粒子群優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)在入侵檢測中的應(yīng)用[J].智能系統(tǒng)學(xué)報,2013,8(6):558?563. [8] 郭蘭平,俞建寧,張旭東,等.基于改進(jìn)RBF神經(jīng)網(wǎng)絡(luò)的混沌時間序列預(yù)測[J].云南民族大學(xué)學(xué)報(自然科學(xué)版),2011,20(1):63?70. [9] 李冬梅,王正歐.基于RBF神經(jīng)網(wǎng)絡(luò)的混沌時間序列預(yù)測[J].模式識別與人工智能,2001,14(2):231?234. [10] 張濤,費樹岷,李曉東.基于GA?RBF神經(jīng)網(wǎng)絡(luò)及邊界不變特征的車輛識別[J].智能系統(tǒng)學(xué)報,2009,4(3):278?282. [11] 王晗,楊衛(wèi)國,王湃.基于GA?RBF神經(jīng)網(wǎng)絡(luò)的電梯交通流模式識別的研究[C]//2007中國控制與決策學(xué)術(shù)年會論文集.無錫:東北大學(xué),2007:307?310. [12] 王靜.基于遺傳算法的板形缺陷識別的研究[D].鞍山:遼寧科技大學(xué),2012.