陳洪泉
(海軍大連艦艇學(xué)院,大連116018)
計(jì)算機(jī)網(wǎng)絡(luò)安全已經(jīng)越來(lái)越多地被人關(guān)注,作為網(wǎng)絡(luò)安全的一個(gè)重要組成部分,入侵檢測(cè)[1]受到越來(lái)越多的重視。目前的入侵檢測(cè)模型可以分為2類(lèi):誤用檢測(cè)和異常檢測(cè),誤用檢測(cè)通過(guò)識(shí)別入侵特征來(lái)檢測(cè)入侵,如參考文獻(xiàn)[2]、[3]、[4]。誤用檢測(cè)能夠較為準(zhǔn)確地檢測(cè)出已知模式的入侵,但在檢測(cè)未知入侵方面則無(wú)能為力。而異常檢測(cè)則基于對(duì)正常數(shù)據(jù)的建模,通過(guò)實(shí)際數(shù)據(jù)對(duì)正常輪廓的偏離來(lái)識(shí)別異常,它能檢測(cè)出未知入侵,但不能準(zhǔn)確識(shí)別出是何種入侵,且具有一定的誤報(bào)率,異常檢測(cè)例子為參考文獻(xiàn)[5]和[6]。入侵識(shí)別需要綜合異常檢測(cè)和誤用檢測(cè)的優(yōu)點(diǎn),通過(guò)異常檢測(cè)來(lái)確定檢測(cè)樣本是否為異常數(shù)據(jù),并通過(guò)誤用檢測(cè)技術(shù)來(lái)識(shí)別出該樣本對(duì)應(yīng)的入侵類(lèi)別。
目前,基于機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的入侵識(shí)別方法成為研究的熱點(diǎn),其中較為關(guān)鍵的一步是特征的選取,特征選取的方法主要集中在特征選擇和特征提取。目前公開(kāi)的文獻(xiàn)主要集中在單獨(dú)利用特征選擇方法或特征提取方法來(lái)進(jìn)行入侵識(shí)別,并沒(méi)有對(duì)基于2種特征選取方法的識(shí)別效果進(jìn)行比較分析。本文利用同樣的訓(xùn)練樣本集和檢驗(yàn)樣本集對(duì)基于信息增益特征選擇的識(shí)別方法和基于主成分分析(PCA)特征提取的識(shí)別方法的識(shí)別效果進(jìn)行比較分析,為入侵識(shí)別的進(jìn)一步研究提供借鑒。
信息熵是信息不純度的最佳評(píng)估方法,信息增益則是指信息熵的有效減少量。設(shè)特征A具有v個(gè)不同值{a1,a2,…,av},訓(xùn)練樣本被劃分為n類(lèi),S為訓(xùn)練集中樣本的總數(shù),可以用特征A把樣本S分成v 個(gè)子集{S1,S2,…,Sv}。其中,Sj包含S 中的這樣一些樣本,它們?cè)贏上具有值aj。設(shè)Sij是子集Sj中類(lèi)為Ci(i=1,2,…,n)的記錄個(gè)數(shù)。那么,這時(shí)根據(jù)A劃分成子集的熵或期望信息為:
熵值越小,子集劃分的純度越高。對(duì)于給定的子集Sj,有:
在A上將獲得的信息增益是:
主成分分析方法能夠較好地處理高維數(shù)據(jù),使得低維數(shù)據(jù)能夠在平方和最小的意義下描述高維原始數(shù)據(jù),它利用輸入樣本點(diǎn)空間的主成分元素,歸納和提取其中的結(jié)構(gòu)信息,從而最終實(shí)現(xiàn)降維。給定樣本x1,x2,…,xn,每個(gè)樣本為m 維向量,則數(shù)據(jù)集合可以表示為矩陣Xn×m:
通過(guò)計(jì)算樣本協(xié)方差矩陣C的特征值和特征向量,依次選擇最大特征值對(duì)應(yīng)的k個(gè)特征向量,就可以得到m×k的矩陣U,其列為k個(gè)特征向量,原始數(shù)據(jù)就可以通過(guò)公式:
向k維特征子空間投影得到,從而達(dá)到了降維的目的。
使用50近鄰的KNN算法來(lái)以離群點(diǎn)檢測(cè)的方式進(jìn)行入侵識(shí)別。識(shí)別的基本步驟為:
(1)特征生成,將待識(shí)別數(shù)據(jù)通過(guò)IG特征選擇或PCA轉(zhuǎn)換到新的數(shù)據(jù)表示空間。
(2)異常檢測(cè),用KNN方法判斷該樣本是否為normal類(lèi)數(shù)據(jù),區(qū)分其正常或異常性。
(3)誤用檢測(cè),對(duì)于非normal類(lèi)的樣本,通過(guò)KNN方法判斷其是否為具體的各種入侵樣式,此為具體的識(shí)別階段。
注意在基于PCA的識(shí)別方法中,在判斷其是否為各類(lèi)數(shù)據(jù)時(shí),待檢測(cè)樣本需要分別向相關(guān)類(lèi)的特征空間進(jìn)行投影。
本文采用MIT林肯實(shí)驗(yàn)室的KDD99數(shù)據(jù)集進(jìn)行測(cè)試,此數(shù)據(jù)集為入侵檢測(cè)的標(biāo)準(zhǔn)數(shù)據(jù)集,已經(jīng)被廣泛地應(yīng)用到入侵檢測(cè)方法的評(píng)估中。數(shù)據(jù)包括41個(gè)特征,其中34個(gè)為數(shù)值特征,7個(gè)為符號(hào)特征。
為計(jì)算簡(jiǎn)便,在特征選擇中,選擇了信息增益不為零的特征作為新的特征集合;在PCA特征提取中,選擇了大于零的特征值對(duì)應(yīng)的特征向量作為新的特征空間。在KDD99的訓(xùn)練樣本集中抽取出normal類(lèi)數(shù)據(jù)1 000條、ipsweep類(lèi)數(shù)據(jù)300條、portsweep類(lèi)數(shù)據(jù)300條、satan類(lèi)數(shù)據(jù)300條、smurf類(lèi)數(shù)據(jù)800條、back類(lèi)數(shù)據(jù)500條來(lái)作為訓(xùn)練用數(shù)據(jù)樣本。測(cè)試數(shù)據(jù)集共4 172條,其中包括normal類(lèi)1 000條、back類(lèi)500條、ipsweep類(lèi)306條、portsweep類(lèi)354條、satan類(lèi)500條、smurf類(lèi)1 000條、neptune類(lèi)500條、teardrop類(lèi)12條。在選定新的特征空間后,使用weka工具對(duì)檢驗(yàn)樣本進(jìn)行入侵識(shí)別后的接收機(jī)操作特征(ROC)曲線繪制見(jiàn)圖1~圖6。
從實(shí)驗(yàn)結(jié)果可以看出,基于信息增益的特征選擇方法在入侵識(shí)別方面較之PCA方法具有明顯的優(yōu)勢(shì),且由于其計(jì)算量大大低于基于PCA的識(shí)別方法,因此更適合于對(duì)KDD99數(shù)據(jù)集合的入侵識(shí)別。在試驗(yàn)中也發(fā)現(xiàn),PCA在閾值較小時(shí)即可達(dá)到較高的檢測(cè)率,但同時(shí)具有較高的虛警率,其對(duì)各類(lèi)數(shù)據(jù)的區(qū)分性并不好,該識(shí)別結(jié)果同文獻(xiàn)[7]中得到的結(jié)果并不十分符合,值得進(jìn)一步研究。
圖1 Normal類(lèi)樣本識(shí)別ROC曲線
圖2 back類(lèi)樣本識(shí)別ROC曲線
圖3 ipsweep類(lèi)樣本識(shí)別ROC曲線
圖4 portsweep類(lèi)樣本識(shí)別ROC曲線
總而言之,通過(guò)分析比較發(fā)現(xiàn):基于信息增益的特征選擇方法在檢測(cè)率和虛警率方面有較好的表現(xiàn),較之直接使用PCA特征提取的入侵識(shí)別方法在KDD99的各類(lèi)數(shù)據(jù)之間具有更好的區(qū)分性能,在各類(lèi)入侵的檢測(cè)識(shí)別中,均能夠達(dá)到檢測(cè)率96%以上且虛警率保持在0.5%以下的較好效果,下一步的主要工作是利用多種入侵識(shí)別方法進(jìn)一步比較特征選擇和提取在KDD99數(shù)據(jù)集上的識(shí)別性能。
圖5 satan類(lèi)樣本識(shí)別ROC曲線
圖6 smurf類(lèi)樣本識(shí)別ROC曲線
[1]Denning D E.An intrusion detection model[J].IEEE Transaction on Software Engineering,1987,13(2):222-232.
[2]Kumar S,Spafford E H.A Software architecture to support misuse intrusion detection[A].Proceedings of The 18th National Information Security Conference[C],1995:194-204.
[3]Ilgun K,Kemmerer R A,Porras P A.State transition analysis:a rule-based intrusion detection approach[J].IEEE Transactions on Software Engineering,1995,21(3):181-199.
[4]Caswell Beale J.Snort 2.1Intrusion Detection[M].Waltham:Syngress publishing Inc,2004.
[5]Lunt T,Tamaru A,Gilham F,et al.A Real-time Intrusion Detection Expert System (IDES)[R].California:Computer Science Laboratory,SRI International,1992.
[6]Porras P A,Neumann P G.ERALD:Eventmon-itoring enabling responses to anomalous live disturbances[A].Proceedings of National Information Systems Security Conference[C].Bal-timore MD,1997.
[7]Wei Wang,Roberto Battiti.Identifying intrusions in computer networks with principal component analys[A].Proceedings of The First International Conference on Availiability Reliability and Security[C],2006:270-277.