張寶華 趙瑩
摘要:隨著網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,網(wǎng)絡(luò)信息安全成為一個(gè)極具挑戰(zhàn)性的研究領(lǐng)域。入侵檢測(cè)系統(tǒng)(IDS)作為網(wǎng)絡(luò)防御的一個(gè)重要角色,它對(duì)網(wǎng)絡(luò)中流量進(jìn)行實(shí)時(shí)監(jiān)視,以識(shí)別各種網(wǎng)絡(luò)安全漏洞。本文提出了基于對(duì)稱不確定性特征提取和遺傳算法優(yōu)化參數(shù)組合的支持向量機(jī)(SU-GA-SVM)模型,并將其應(yīng)用于KDDCUP99數(shù)據(jù)集進(jìn)行入侵檢測(cè)仿真實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明該分類器能夠有效地提高IDS的分類檢測(cè)精度,誤警率也明顯降低。
Abstract: With the rapid development of network technology, the security of network information has become a very challenging research field. As an important role of network defense, IDS monitors the traffic in the network in real time in order to identify various intrusions. This paper presents SU-GA-SVM model and uses it in KDDCUP'99 data set for intrusion detection simulation experiments. The experimental results show that the accuracy of the classifier can be effectively improved, and the false alarm rate is significantly reduced.
關(guān)鍵詞:入侵檢測(cè);分類器;對(duì)稱不確定性;遺傳算法
Key words: intrusion detection;classifier;SU;GA
中圖分類號(hào):TP393.0 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1006-4311(2018)19-0227-04
0 引言
近年來(lái),隨著網(wǎng)絡(luò)技術(shù)和規(guī)模的高速發(fā)展,人們?cè)絹?lái)越關(guān)注網(wǎng)絡(luò)信息安全。入侵檢測(cè)系統(tǒng)(Intrusion Detection System,IDS)是一種主動(dòng)的網(wǎng)絡(luò)安全防御工具,它通過(guò)收集和分析網(wǎng)絡(luò)行為、安全日志、審計(jì)數(shù)據(jù)以及計(jì)算機(jī)系統(tǒng)中若干關(guān)鍵點(diǎn)的信息,檢查網(wǎng)絡(luò)或者系統(tǒng)中是否存在被攻擊的跡象或者是否存在違法安全策略的行為。入侵檢測(cè)系統(tǒng)作為防火墻之后的第二道安全閘門,它能夠?qū)崟r(shí)保護(hù)網(wǎng)絡(luò)系統(tǒng),讓其在受到各類內(nèi)部攻擊、外部攻擊和誤操作危害之前攔截和響應(yīng)入侵[1]。
近些年來(lái),將機(jī)器學(xué)習(xí)的方法引入到入侵檢測(cè)系統(tǒng)中是一種趨勢(shì)。目前,出現(xiàn)了許多基于神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、樸素貝葉斯、決策樹等機(jī)器學(xué)習(xí)方法的入侵檢測(cè)系統(tǒng)。這些入侵檢測(cè)系統(tǒng)的功能是對(duì)網(wǎng)絡(luò)和計(jì)算機(jī)系統(tǒng)進(jìn)行實(shí)時(shí)監(jiān)測(cè),發(fā)現(xiàn)和識(shí)別系統(tǒng)中的入侵行為,并做出響應(yīng)[2]。
支持向量機(jī)(Support Vector Machine,SVM)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的采用結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則的機(jī)器學(xué)習(xí)方法,它通過(guò)構(gòu)造最優(yōu)分類面,將未知樣本的分類誤差降到最小,且具備較強(qiáng)的泛化能力。有效解決了傳統(tǒng)學(xué)習(xí)方法中存在的非線性、小樣本、過(guò)擬合等問(wèn)題。將支持向量機(jī)應(yīng)用于入侵檢測(cè)中,能夠充分發(fā)揮SVM的優(yōu)勢(shì),有效地實(shí)現(xiàn)了IDS的檢測(cè)功能。但是,目前的網(wǎng)絡(luò)數(shù)據(jù)中存在大量冗余和噪聲變量,并且網(wǎng)絡(luò)環(huán)境中的正常樣本和入侵樣本是極度不平衡的,這些勢(shì)必會(huì)影響檢測(cè)模型的檢測(cè)性能[3]。另外,網(wǎng)絡(luò)連接數(shù)據(jù)是動(dòng)態(tài)的,用單一的分類器參數(shù)對(duì)其分類,存在很大的不確定因素。因此,在本文中提出了基于對(duì)稱不確定性特征提取和遺傳算法優(yōu)化參數(shù)組合的支持向量機(jī)(SU-GA-SVM)模型,并利用KDDCUP99數(shù)據(jù)集對(duì)該模型進(jìn)行模擬實(shí)驗(yàn)。實(shí)驗(yàn)表明,該方法能夠有效地提高檢測(cè)精度,降低誤警率。
1 相關(guān)工作
1.1 對(duì)稱不確定性(SU)
在香農(nóng)信息熵理論中,H(X|Y)表示在給定隨機(jī)變量Y={y1,y2,…,yj}下變量X的條件熵,H(X)表示隨機(jī)變量X={x1,x2,…,xi}的信息熵,分別定義為
信息增益值越大,表示兩個(gè)隨機(jī)變量X和Y之間的相關(guān)性越強(qiáng)。但實(shí)際上,由于隨機(jī)變量及其值會(huì)影響到IG(X|Y),需在此基礎(chǔ)上進(jìn)一步同質(zhì)化,一個(gè)有效措施便是采用規(guī)范化的信息增益,即對(duì)稱不確定性SU(X,Y)。
給定兩個(gè)隨機(jī)變量X和Y,
通過(guò)統(tǒng)一規(guī)范化后,SU(X,Y)取值范圍為[0,1]。當(dāng)SU(X,Y)=0時(shí),表示X和Y為兩個(gè)相互獨(dú)立的變量,而當(dāng)SU(X,Y)=1時(shí),表示X和Y為兩個(gè)完全相關(guān)的變量。
通過(guò)對(duì)稱不確定性(SU)相關(guān)性度量,特征g和類別C之間的相關(guān)性(C相關(guān))可表示為SU(g,C),兩個(gè)不同特征gi和gj(i≠j)之間的相關(guān)性(F相關(guān))可表示為SU(gi,gj)。給定特征gi和gj,若SU(gi,C)>SU(gj,C),表示gi比gj包含的分類信息更多[4]。
1.2 支持向量機(jī)(SVM)
Vapnik等提出的基于統(tǒng)計(jì)學(xué)VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理的支持向量機(jī)機(jī)器學(xué)習(xí)方法,在解決小樣本、非線性和高維模式識(shí)別中都便顯出特有的優(yōu)勢(shì)。SVM的工作原理是:首先通過(guò)適當(dāng)?shù)姆蔷€性變換,把低維空間的輸入變量變換到一個(gè)更高維的特征空間,然后構(gòu)造出一個(gè)最優(yōu)分類超平面,把輸入的兩類數(shù)據(jù)用此超平面盡可能多地正確分割開來(lái)。為此,構(gòu)造一個(gè)有約束的凸二次規(guī)劃問(wèn)題:
將樣本集設(shè)為{(x1,y1),(x2,y2),…,(x2l,yl)}∈(x·y)l,其中,xi∈x?奐Rn為輸入向量,yi={-1,1}為xi的輸出向量,i=1,2,…,l。
如果樣本集近似滿足線性分類,問(wèn)題將轉(zhuǎn)化為: