李 文
(廣東科貿(mào)職業(yè)學(xué)院 信息工程系,廣州 510640)
基于特征選擇的網(wǎng)絡(luò)入侵檢測模型研究
李 文
(廣東科貿(mào)職業(yè)學(xué)院 信息工程系,廣州 510640)
為了有效從收集的惡意數(shù)據(jù)中選擇特征去分析,保障網(wǎng)絡(luò)系統(tǒng)的安全與穩(wěn)定,需要進行網(wǎng)絡(luò)入侵檢測模型研究;但目前方法是采用遺傳算法找出網(wǎng)絡(luò)入侵的特征子集,再利用粒子群算法進行進一步選擇,找出最優(yōu)的特征子集,最后利用極限學(xué)習(xí)機對網(wǎng)絡(luò)入侵進行分類,但該方法準(zhǔn)確性較低;為此,提出一種基于特征選擇的網(wǎng)絡(luò)入侵檢測模型研究方法;該方法首先以增強尋優(yōu)性能為目標(biāo)對網(wǎng)絡(luò)入侵檢測進行特征選擇,結(jié)合分析出的特征選擇利用特征屬性的Fisher比構(gòu)造出特征子集的評價函數(shù),然后結(jié)合計算出的特征子集評價函數(shù)進行支持向量機完成對基于特征選擇的網(wǎng)絡(luò)入侵檢測模型研究方法;仿真實驗表明,利用支持向量機對網(wǎng)絡(luò)入侵進行檢測能有效地提高入侵檢測的速度以及入侵檢測的準(zhǔn)確性。
特征選擇;網(wǎng)絡(luò)入侵;Fisher比;支持向量機
隨著互聯(lián)網(wǎng)技術(shù)應(yīng)用的日漸廣泛,互聯(lián)網(wǎng)絡(luò)的安全性以及可靠性越來越受到人們的關(guān)注[1]?;ヂ?lián)網(wǎng)絡(luò)平臺是一個雙邊平臺,具有共享性與開放性的特點,由于互聯(lián)網(wǎng)絡(luò)的開放性,加上入侵手段的多樣化[2],網(wǎng)絡(luò)的惡意入侵越來越頻繁。在這種情況下,如何提高網(wǎng)絡(luò)入侵的檢測率和檢測速度,保證互聯(lián)網(wǎng)絡(luò)的正常通信與數(shù)據(jù)運輸安全成為了網(wǎng)絡(luò)管理領(lǐng)域中急需解決的主要問題[3]。對于現(xiàn)有的網(wǎng)絡(luò)惡意入侵的檢測方法有很多,這是在不斷更新、不斷發(fā)展的網(wǎng)絡(luò)主動式的自我防御策略技術(shù),利用網(wǎng)絡(luò)相互之間發(fā)生聯(lián)系時的動態(tài)特征來準(zhǔn)確描述此時網(wǎng)絡(luò)是否受到了入侵,這項技術(shù)在當(dāng)前網(wǎng)絡(luò)安全保護技術(shù)的發(fā)展中起著至關(guān)重要的作用[4]。隨著網(wǎng)絡(luò)復(fù)雜度的增高以及網(wǎng)絡(luò)需求速度的提升,惡意入侵行為日益增加,這是出現(xiàn)的明顯問題為不能對網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)進行實時處理,網(wǎng)絡(luò)入侵檢測的復(fù)雜混亂特征的提純以及對入侵過程信息處理分析導(dǎo)致了對入侵檢測過程復(fù)雜度的增高,致使檢測時間加長[5]。而有效地對特征選擇的網(wǎng)絡(luò)入侵進行檢測是解決上述問題的有效途徑。已引起了該領(lǐng)域?qū)<液蛯W(xué)者的關(guān)注與重視,由于網(wǎng)絡(luò)入侵檢測具有廣泛的發(fā)展空間,因此,成為了計算機網(wǎng)絡(luò)檢測研究的核心,具有較大的發(fā)展?jié)摿6]。
近年來取得了一定的成果,裴恩斯提出了網(wǎng)絡(luò)入侵檢測系統(tǒng)的創(chuàng)建模型,根據(jù)該模型對網(wǎng)絡(luò)惡意入侵行為進行有效快速的檢測,利用在入侵過程主動記錄下的數(shù)據(jù)信息來構(gòu)建關(guān)聯(lián)系統(tǒng)框架,通過對該框架的變化程度來對網(wǎng)絡(luò)入侵行為進行監(jiān)測[7]。郎恩提出了基于神經(jīng)網(wǎng)絡(luò)的檢測入侵系統(tǒng),該系統(tǒng)利用圖論對網(wǎng)絡(luò)執(zhí)行檢測入侵功能,解決大多數(shù)入侵識別檢測系統(tǒng)的穩(wěn)定性不夠的問題,利用數(shù)據(jù)信息統(tǒng)計表來對不同種類入侵攻擊行為下存在的聯(lián)系以及區(qū)別,創(chuàng)建不同攻擊類型之間關(guān)系模型。王宇航提出了基于數(shù)據(jù)挖掘框架自適應(yīng)的入侵檢測方法,通過審計程序?qū)W(wǎng)絡(luò)會話連接的特征集進行提取,然后利用數(shù)據(jù)挖掘算法在數(shù)據(jù)特征集上表達入侵行為模式,采用這種模式對入侵進行指導(dǎo)。文獻[8]提出一種基于遺傳算法選擇特征的網(wǎng)絡(luò)入侵檢測方法,通過遺傳算法找出網(wǎng)絡(luò)入侵的特征子集,再利用粒子群算法進行進一步選擇,找出最優(yōu)的特征子集,最后利用極限學(xué)習(xí)機對網(wǎng)絡(luò)入侵進行分類,但該方法存在準(zhǔn)確性較低的問題。文獻[9]提出一種參數(shù)優(yōu)化的特征選擇網(wǎng)絡(luò)入侵檢測方法。該方法首先將檢測的準(zhǔn)確率作為問題優(yōu)化的主要目標(biāo)函數(shù),網(wǎng)絡(luò)特征與參數(shù)作為約束條件建立檢測模型,通過對檢測模型進行求解,找出最優(yōu)的特征子集和最優(yōu)參數(shù),但該方法存在過程較為復(fù)雜的問題。文獻[10]提出一種特征優(yōu)化耦合的網(wǎng)絡(luò)入侵檢測模型。首先通過徑向函數(shù)將網(wǎng)絡(luò)特征映射到高維空間內(nèi)對此進行計算,建立網(wǎng)絡(luò)特征和網(wǎng)絡(luò)入侵分類器間的聯(lián)系,在特征提取階段解決了分類器參數(shù)的設(shè)計問題,建立網(wǎng)絡(luò)入侵的檢測模型,但該方法存在檢測速度較慢的問題。
針對上述問題,提出一種基于特征選擇的網(wǎng)絡(luò)入侵檢測模型研究方法。該方法首先以增強尋優(yōu)性能為目標(biāo)對網(wǎng)絡(luò)入侵檢測進行特征選擇,結(jié)合分析出的特征選擇利用特征屬性的 Fisher 比構(gòu)造出特征子集的評價函數(shù),然后結(jié)合計算出的特征子集評價函數(shù)結(jié)果進行支持向量機完成對基于特征選擇的網(wǎng)絡(luò)入侵檢測模型研究方法。仿真實驗表明,利用支持向量機對網(wǎng)絡(luò)入侵進行檢測能有效地提高入侵檢測的速度以及入侵檢測的準(zhǔn)確性。
首先以增強尋優(yōu)性能為目標(biāo)對網(wǎng)絡(luò)入侵檢測進行特征選擇,結(jié)合分析出的特征選擇利用特征屬性的 Fisher 比構(gòu)造出特征子集的評價函數(shù),然后結(jié)合計算出的特征子集評價函數(shù)結(jié)果進行支持向量機完成對基于特征選擇的網(wǎng)絡(luò)入侵檢測研究方法。具體步驟如下:
網(wǎng)絡(luò)入侵檢測的特征可用二進制字符來表示:S={s1,s2,…,sn},si∈{0,1},i=1,2,…,m,其中“1”代表較優(yōu)特征,且被選中,反之,“0”代表沒有被選擇上的特征,m代表網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)特征的整體維數(shù),因此特征選擇的數(shù)學(xué)模型為:
(1)
由該公式可以推斷出,在網(wǎng)絡(luò)受到入侵的情況下,對滿足約束的最優(yōu)特征子集的尋找是該問題中較為典型的組合優(yōu)化問題。對網(wǎng)絡(luò)入侵中特征求取過程無法實現(xiàn)對特征的選擇,所以需要先對網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)特征進行編碼。
特征選擇的目標(biāo)是選擇較少的特征,獲取更高的網(wǎng)絡(luò)入侵檢測的檢測率,由此適應(yīng)度函數(shù)的定義為:
(2)
公式(2)中,ωa為特征數(shù)量的權(quán)重,本文的取值是0.6,Nf為特征的總數(shù),Acc為驗證集網(wǎng)絡(luò)入侵檢測的正確率,ωf是權(quán)重,本文的取值是0.4,fi為特征選擇的狀態(tài),即:
(3)
(4)
(5)
(6)
(7)
為對特征選擇進行簡化計算,將網(wǎng)絡(luò)入侵檢測的數(shù)據(jù)樣本分為兩類:正常數(shù)據(jù)類與入侵?jǐn)?shù)據(jù)類,稱為正類樣本和負(fù)類樣本,將網(wǎng)絡(luò)入侵檢測問題簡化為二分類問題。對上述的網(wǎng)絡(luò)樣本數(shù)據(jù)集X={x1,x2,…,xn},將X正類數(shù)據(jù)樣本集記為X1,負(fù)類數(shù)據(jù)樣本集X2,n1為正類樣本數(shù),n2為負(fù)類數(shù)據(jù)樣本數(shù),依據(jù)公式(6),公式(7)得:
(8)
(9)
Fisher比可以反映出網(wǎng)絡(luò)入侵特征檢測對數(shù)據(jù)分類的影響以及作用,該比值可大可小,比值越大,那么相對應(yīng)的特征子集的分類能力就越強。因此,特征子集評價函數(shù)為:
(10)
結(jié)合上述分析出的網(wǎng)絡(luò)特征選擇為基礎(chǔ),利用支持向量機對選擇出的特征進行分類,支持向量機為訓(xùn)練數(shù)據(jù)集的子集,定義了超平面,把數(shù)據(jù)集分成2類。對于不能分成2類的情況,可把數(shù)據(jù)映射到高維特征空間中進行解決。支持向量機為凸優(yōu)化問題,局部的最優(yōu)解就是全局最優(yōu)解。
假設(shè)有2類線性可分的數(shù)據(jù)樣本集合:(xi,yi),i=1,2,…,n,xi∈Rd,yi∈{+1,-1},滿足條件:
yi[(ω·xi)+b]-1≥0,i=1,2,…,n
(11)
(12)
其中:
a1≥0,i=1,2,…,n
(13)
約束條件為:
(14)
公式(14)中,a1表示Lagrange乘子,為二次函數(shù)尋優(yōu)的問題,存在唯一的解。可證明,在方程解中存在部位0的a1,且不唯一,這些a1所對應(yīng)的向量即為是支持向量機。根據(jù)以上的求解,得出最優(yōu)分類面函數(shù)為:
(15)
假設(shè)最優(yōu)分類面不能把2類點分開時,可通過引入松弛因子ξ(ξ≥0),這種情況下允許錯分?jǐn)?shù)據(jù)樣本的存在。此時:
(16)
公式(16)中,C表示懲罰因子,可得出廣義的最優(yōu)分類面。廣義最優(yōu)分類面的對偶問題與線性分類情況完全相同,只是把公式(13)改為:
0≤ai≤C,I=1,2,…,n
(17)
對于分線性分類問題,可把相關(guān)關(guān)聯(lián)數(shù)據(jù)組進行映射處理,映射到高維空間后,進而實現(xiàn)關(guān)聯(lián)特征的線性分類來解決問題。此時特征相對應(yīng)的分類函數(shù)為:
(18)
為了證明基于選擇特征的網(wǎng)絡(luò)入侵檢測模型研究方法的有效性,需要進行一次仿真實驗。選擇KDD2016數(shù)據(jù)集作為仿真對象,數(shù)據(jù)集包括拒絕攻擊(DoS)、未授權(quán)遠(yuǎn)程訪問(Probe)、掃描與探測(R2L)以及對本地用戶非法訪問(R2R)4種攻擊方式,其余數(shù)據(jù)為正常數(shù)據(jù)。實驗采用Intel奔騰43.0CPU、內(nèi)存為2 G的計算機上進行,在Matlab2016上進行編程實現(xiàn)。
為了使檢測結(jié)果更具有說服力,在相同的實驗下與相同的數(shù)據(jù)集進行對比實驗,在實驗中主要對文獻[8]給出的遺傳算法和文獻[9]給出的方法和本文方法進行特征選擇時的性能差異。在測試實驗中選取100次運行的平均值作為性能差異對比結(jié)果。
利用下述公式計算檢測率:
WA=NBce/NBei×100%
(19)
利用下述公式計算漏檢率:
CN=BAsd/BAfg×100%
(20)
其中:NBce表示網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)次數(shù)、NBei表示網(wǎng)絡(luò)入侵異常次數(shù)、BAsd表示網(wǎng)絡(luò)入侵漏檢次數(shù)、BAfg表示網(wǎng)絡(luò)入侵全部次數(shù)。
表1 不同方法性能對比
圖1 不同方法的檢測率(%)
從表1和圖1 可看出,本文提出的基于特征選擇的網(wǎng)絡(luò)入侵檢測方法與文獻[8]中給出的遺傳算法和文獻[9]中給出方法相比較,在檢測時間方面,本文方法的時間最少、表現(xiàn)最好,網(wǎng)絡(luò)入侵的檢測率明顯高于文獻[8]和文獻[9]兩種方法,區(qū)別很明顯,能看出本文的方法能更有效地對網(wǎng)絡(luò)數(shù)據(jù)進行精簡,在檢測的時間以及檢測的準(zhǔn)確性方面的表現(xiàn)明顯優(yōu)于文獻[8]和文獻[9]中的方法,能有效地解決網(wǎng)絡(luò)入侵檢測特征選擇存在的問題,保證較高的準(zhǔn)確率。
圖2 不同方法的網(wǎng)絡(luò)入侵適應(yīng)度對比
由圖2可知,文獻[8]中給出的遺傳算法的適應(yīng)度較差,雖然浮動很均勻,但隨著數(shù)據(jù)數(shù)目的增加,適應(yīng)度越來越低,文獻[9]給出的方法雖然比文獻[8]的適應(yīng)度會高一些,但總體來說可行性較差,本文所提方法的適應(yīng)度較強,隨著數(shù)據(jù)數(shù)目的增加適應(yīng)度也越來越高,雖然也略有波動,但和文獻[8]、文獻[9]相比,本文方法的網(wǎng)絡(luò)入侵檢測的適應(yīng)度較高。
圖3 不同方法的數(shù)據(jù)漏檢率(%)對比
由圖3可看出文獻[8]給出方法的漏檢率隨著數(shù)據(jù)數(shù)目的增加,漏檢率越來越高,那么該方法檢測的準(zhǔn)確性就會降低,文獻[9]給出方法的漏檢率相對于文獻[8]較低,但隨著數(shù)據(jù)數(shù)目的增加,漏檢率也在逐漸的提高,由此看出文獻[8]和文獻[9]給出的方法可行性較低,而本文方法隨著數(shù)據(jù)數(shù)目的增加漏檢率越來越低,由此可說明本文方法的準(zhǔn)確性較高。
仿真實驗表明,本文所提方法能有效地提高對網(wǎng)絡(luò)入侵行為進行檢測,并且保證了入侵檢測的準(zhǔn)確率。
采用遺傳算法找出網(wǎng)絡(luò)入侵的特征子集,再利用粒子群算法進行進一步選擇,找出最優(yōu)的特征子集,最后利用極限學(xué)習(xí)機對網(wǎng)絡(luò)入侵進行分類,但該方法準(zhǔn)確性較低。為此,提出一種基于征選擇的網(wǎng)絡(luò)入侵檢測模型研究方法。并通過實驗證明,本文所提方法能有效地提高特征選擇的網(wǎng)絡(luò)入侵檢測模型的準(zhǔn)確性,具有廣泛的實用價值。
[1] 唐成華,劉鵬程,湯申生,等.基于特征選擇的模糊聚類異常入侵行為檢測[J].計算機研究與發(fā)展,2015,52(3):718-728.
[2] 張 拓,王建平.基于CQPSO-LSSVM的網(wǎng)絡(luò)入侵檢測模型[J].計算機工程與應(yīng)用,2015,51(2):113-116.
[3] 劉白璐,楊雅輝,沈晴霓.一種基于遺傳算法的入侵早期特征選擇方法[J].小型微型計算機系統(tǒng),2015,36(1):111-115.
[4] 黃春虎,努爾布力,解男男,等.基于Re-FCBF的入侵特征選擇算法研究[J].激光雜志,2016,37(1):103-107.
[5] 唐 喆,曹旭東.網(wǎng)頁分類中特征選擇方法的研究[J].電子設(shè)計工程,2016,24(5):120-122.
[6] 武小年,彭小金,楊宇洋,等.入侵檢測中基于SVM的兩級特征選擇方法[J].通信學(xué)報,2015,36(4):19-26.
[7] 姜 宏,陳庶樵,扈紅超,等.基于GAIG特征選擇算法的輕量化DDoS攻擊檢測方法[J].計算機應(yīng)用研究,2016,33(2):502-506.
[8] 黃 亮,吳 帥,譚國律,等.基于EPSO-RVM的網(wǎng)絡(luò)入侵檢測模型[J].計算機工程與應(yīng)用,2015,51(3):85-88.
[9] 梁 辰,李成海,周來恩.PCA-BP神經(jīng)網(wǎng)絡(luò)入侵檢測方法[J].空軍工程大學(xué)學(xué)報:自然科學(xué)版,2016,17(6):93-98.
[10] 余文利,余建軍,方建文.一種新的基于KPCA和改進ε-SVM的入侵檢測模型[J].計算機工程與應(yīng)用,2015,51(11):93-98.
Network Intrusion Model Based on Feature Selection Research
Li Wen
(Department of information Engineering, Guangdong Polytechnic of Science and Trade,Guangzhou 510640,China)
In order to effectively extract features from the malicious data collected to analyze, security network system security and stability, the need for network intrusion detection model is studied. But the current approach is to use genetic algorithm to find out the characteristics of the network intrusion subset of recycled for further selection of particle swarm optimization (pso), find out the optimal feature subset, finally using extreme learning machine classifying network intrusion, but this method has the problem of accuracy is low. Therefore, proposes a network intrusion detection methods based on feature selection. This method firstly in order to enhance optimal performance as the goal to feature selection of network intrusion detection, combined with analysis of characteristics of feature selection using the attributes of the Fisher than feature subset evaluation function is constructed, and combining with the feature subset of calculated results of evaluation function for support vector machine (SVM) to network intrusion detection based on feature selection methods. Simulation experiments show that support vector machine (SVM) is used to analyse the network intrusion detection can effectively improve the accuracy of the speed of intrusion detection and intrusion detection.
mobile application platform; Network security; Assessment
2017-04-15;
2017-04-26。
醫(yī)學(xué)院校課程考試與學(xué)業(yè)評價管理通用系統(tǒng)的改革與研究(桂教科研[2003]22號)。
李 文(1963-),男,廣西欽州人,碩士研究生,副教授,主要從事計算機網(wǎng)絡(luò)應(yīng)用、軟件應(yīng)用、網(wǎng)絡(luò)安全、大數(shù)據(jù)、云安全、軟件開發(fā)等方向的研究。
1671-4598(2017)08-0214-04
10.16526/j.cnki.11-4762/tp.2017.08.055
TP393
A