◆賈俊星
?
基于CFS-SAMME集成算法的入侵檢測(cè)應(yīng)用研究
◆賈俊星
(沈陽(yáng)理工大學(xué)信息科學(xué)與工程學(xué)院 遼寧 110000)
針對(duì)當(dāng)前網(wǎng)絡(luò)入侵隱蔽性強(qiáng)、危害大、手段高,傳統(tǒng)的入侵檢測(cè)方法已經(jīng)難以有效防范的問(wèn)題,本文進(jìn)行了基于CFS和SAMME多分類(lèi)集成算法的入侵檢測(cè)的應(yīng)用研究。實(shí)驗(yàn)結(jié)果表明:經(jīng)過(guò)相關(guān)性特征選擇后的SAMME多分類(lèi)集成算法不僅提升了檢測(cè)準(zhǔn)確率,也大幅度提高了入侵檢測(cè)效率,為入侵檢測(cè)提供了有效的思路和方法。
CFS;最佳優(yōu)先搜索;SAMME多分類(lèi)集成算法
由于互聯(lián)網(wǎng)攻擊行為的增加給國(guó)家、社會(huì)、個(gè)人造成了大量的損失,網(wǎng)絡(luò)活動(dòng)的安全性在計(jì)算機(jī)網(wǎng)絡(luò)中得到了高度重視[1]。因此使用各種安全系統(tǒng)(如IDS)來(lái)防御檢測(cè)多種多樣的網(wǎng)絡(luò)攻擊行為。IDS通常與防火墻一起使用,并作為它們的補(bǔ)充。IDS安全系統(tǒng)已用于觀察和分析嚴(yán)重違反或威脅計(jì)算機(jī)和網(wǎng)絡(luò)中的計(jì)算機(jī)安全策略的事件[2]。通常,IDS的目的是檢測(cè)攻擊和安全漏洞并將其通知給管理員。IDS應(yīng)該能夠使用監(jiān)視,檢測(cè)和響應(yīng)系統(tǒng)內(nèi)的未授權(quán)活動(dòng)來(lái)識(shí)別所有異常模式和流量。但是,對(duì)于網(wǎng)絡(luò)流量中龐大且不均衡的數(shù)據(jù)[3],IDS面臨著大流量數(shù)據(jù)所帶來(lái)的挑戰(zhàn),檢測(cè)出惡意攻擊行為的準(zhǔn)確性通常很低,檢測(cè)時(shí)間過(guò)長(zhǎng)。因此,提升惡意攻擊行為的檢測(cè)精度和檢測(cè)時(shí)間已成為入侵檢測(cè)技術(shù)中的重中之重。
相關(guān)性特征選擇[4](correlation -based feature selection,簡(jiǎn)稱 CFS) 是一種經(jīng)典的過(guò)濾器模式的特征選擇方法,采用基于相關(guān)性的啟發(fā)式方法來(lái)評(píng)估特征的價(jià)值。這種啟發(fā)式的方法考慮到了數(shù)據(jù)集中單個(gè)特征對(duì)預(yù)測(cè)屬性標(biāo)簽的有用性以及它們之間的相互關(guān)聯(lián)程度,CFS通過(guò)它們之間的相關(guān)性,能夠快速識(shí)別冗余特征以及相關(guān)性小的特征,在提升檢測(cè)準(zhǔn)確率的同時(shí)達(dá)到降低數(shù)據(jù)維數(shù)和約簡(jiǎn)數(shù)據(jù)集的目的。
特征的相關(guān)性計(jì)算應(yīng)用了Pearson[5]系數(shù),Pearson系數(shù)作為相關(guān)性的評(píng)價(jià)指標(biāo)已經(jīng)被廣泛應(yīng)用。通過(guò)計(jì)算特征與特征,特征與屬性標(biāo)簽之間的Pearson系數(shù),選取出特征集之間相關(guān)性差且特征與屬性標(biāo)簽相關(guān)性強(qiáng)的特征。一個(gè)好的特征集通常情況下只包含與屬性標(biāo)簽高度相關(guān)但彼此不相關(guān)的特征。
目前,特征搜索的策略有很多種,本文選取了最佳優(yōu)先搜索算法[6](best first)用作特征搜索。首先通過(guò)CFS計(jì)算出特征與特征、特征與屬性標(biāo)簽之間的相關(guān)性矩陣,然后利用啟發(fā)式評(píng)估函數(shù)對(duì)將要遍歷點(diǎn)進(jìn)行估價(jià),最后選擇代價(jià)小的進(jìn)行遍歷,直到遍歷完所有的點(diǎn)。最佳優(yōu)先搜索是從一組空特征集開(kāi)始的,并且同時(shí)生成所有可能的單個(gè)特征子集。通過(guò)添加單個(gè)特征,使用Merit[7]作為衡量標(biāo)準(zhǔn),以相同的方式選擇和擴(kuò)展具有最高評(píng)估的特征子集。如果擴(kuò)展的一個(gè)特征集性能沒(méi)有任何改進(jìn)和提升,搜索將轉(zhuǎn)變到下一個(gè)最佳未進(jìn)行搜索的特征子集,開(kāi)始新的搜索。最佳優(yōu)先搜索將探索整個(gè)特征集空間,直到找到最大相關(guān)性的特征子集,當(dāng)搜索終止時(shí),返回找到的最佳特征子集。
Adaboost算法的思想起源于PAC[8](Probably Approximately Correct)學(xué)習(xí)理論,它的基本思想是一種基于boosting算法的迭代算法。多類(lèi)指數(shù)損失函數(shù)逐步添加模型[9](SAMME)是一種多分類(lèi)的Adaboost算法模型,它的原理是通過(guò)擴(kuò)展指數(shù)損失函數(shù),以達(dá)到多分類(lèi)集成算法對(duì)弱分類(lèi)器準(zhǔn)確率大于1/n的基本使用要求,它是通過(guò)改變數(shù)據(jù)分布來(lái)實(shí)現(xiàn)基分類(lèi)器的迭代,從而使分類(lèi)性能越來(lái)越強(qiáng)。它根據(jù)每次訓(xùn)練集之中每個(gè)樣本的分類(lèi)是否正確,以及前一次總體分類(lèi)的準(zhǔn)確率,重新確定每個(gè)樣本的權(quán)值。將重新確定過(guò)權(quán)值的新數(shù)據(jù)集在后一個(gè)分類(lèi)器中繼續(xù)進(jìn)行分類(lèi)訓(xùn)練,最后將所有訓(xùn)練得到的基分類(lèi)器加權(quán)融合起來(lái),生成最終的決策分類(lèi)器。而權(quán)值的調(diào)整主要依靠前一次分類(lèi)器的樣本,若前一次樣本分類(lèi)正確,則降低分類(lèi)正確樣本的權(quán)值;若前一次分類(lèi)錯(cuò)誤的樣本,則提高分類(lèi)錯(cuò)誤樣本的權(quán)值。由于最終的決策分類(lèi)器準(zhǔn)確率比傳統(tǒng)的單分類(lèi)器(決策樹(shù)、KNN)要高很多,因此在多分類(lèi)問(wèn)題上SAMME算法得到了廣泛的應(yīng)用。
為了更好保證實(shí)驗(yàn)的權(quán)威性和說(shuō)服力,本文使用著名的網(wǎng)絡(luò)流量數(shù)據(jù)集NSL-KDD[10]作為實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)分析論證。該數(shù)據(jù)集包含41種屬性以及對(duì)應(yīng)的1種屬性標(biāo)簽,NSL-KDD數(shù)據(jù)集是對(duì)KDD CUP99數(shù)據(jù)集的改良,除去了KDD CUP99數(shù)據(jù)集里面的大量冗余數(shù)據(jù),重新劃分了正常數(shù)據(jù)和異常數(shù)據(jù)的比例,使得NSL-KDD數(shù)據(jù)集中訓(xùn)練和測(cè)試數(shù)據(jù)數(shù)量更加合理,更加適合用于網(wǎng)絡(luò)入侵檢測(cè)實(shí)驗(yàn)中。
實(shí)驗(yàn)環(huán)境為Windows7操作系統(tǒng),內(nèi)存為4GB,Weka3.8,Python,Spyder。
由于NSL-KDD數(shù)據(jù)集中包含有字符型的數(shù)據(jù)特征,在進(jìn)行特征相關(guān)性計(jì)算和SAMME集成算法分類(lèi)時(shí),導(dǎo)致實(shí)驗(yàn)出現(xiàn)錯(cuò)誤。因此必須對(duì)NSL-KDD數(shù)據(jù)集進(jìn)行預(yù)處理,將數(shù)據(jù)集里面字符型的數(shù)據(jù)特征轉(zhuǎn)換為數(shù)值型特征。
將經(jīng)過(guò)預(yù)處理后的41種特征屬性,用Vn(n=1,2,……,41)來(lái)表示,如V1=duration,V2=protocol_type,V3=service,…,V41=dst_host_srv_rerror_rate等。在進(jìn)行相關(guān)性特征選擇時(shí),首先在Weka中將41種特征屬性進(jìn)行離散化,將離散化的數(shù)據(jù)集采用十折交叉校驗(yàn)的測(cè)試方法進(jìn)行相關(guān)性特征選擇,NSL-KDD數(shù)據(jù)集在經(jīng)過(guò)相關(guān)性特征選擇后,從41個(gè)特征屬性中選取出V2,V3,V4,V5,V7,V8,V10,V12,V25,V29,V30,V35,V36,V37,V38,共15個(gè)特征作為最佳特征子集,將未經(jīng)過(guò)特征選擇的全部數(shù)據(jù)集和經(jīng)過(guò)相關(guān)性特征選擇的最佳特征子集分別使用Spyder導(dǎo)入進(jìn)SAMME多分類(lèi)算法中,并且分別取迭代次數(shù)為10,20,30,40,50,60,70,80,90,100的情況進(jìn)行實(shí)驗(yàn)驗(yàn)證。實(shí)驗(yàn)結(jié)果如表1所示:
表1 NSL-KDD數(shù)據(jù)集下的檢測(cè)效果
圖1,2分別表示SAMME和CFS-SAMME的檢測(cè)準(zhǔn)確率和檢測(cè)時(shí)間的對(duì)比。
從上述實(shí)驗(yàn)結(jié)果可以得出,經(jīng)過(guò)本文相關(guān)性特征選擇方法后,相比于未使用特征選擇的方法,檢測(cè)準(zhǔn)確率有了明顯的提升。從檢測(cè)效率方面來(lái)看,顯著降低了檢測(cè)模型的復(fù)雜度,檢測(cè)時(shí)間將近減少了二分之一,檢測(cè)效率更加高效,除此之外,隨著CFS-SAMME多分類(lèi)器迭代次數(shù)的增加,準(zhǔn)確率也隨之增長(zhǎng),但是,當(dāng)CFS-SAMME迭代次數(shù)為80次時(shí),檢測(cè)準(zhǔn)確率達(dá)到峰值96.2%,檢測(cè)準(zhǔn)確率就開(kāi)始下降。實(shí)驗(yàn)結(jié)果表明,本文方法CFS-SAMME在網(wǎng)絡(luò)入侵檢測(cè)精度和檢測(cè)效率上有一定提高,證明了CFS-SAMME的有效性。
針對(duì)目前網(wǎng)絡(luò)流量大,數(shù)據(jù)量多,各種網(wǎng)絡(luò)攻擊愈發(fā)隱蔽,更難被入侵檢測(cè)系統(tǒng)檢測(cè)到的問(wèn)題,本文進(jìn)行了基于CFS-SAMME多分類(lèi)集成入侵檢測(cè)的應(yīng)用研究,利用數(shù)據(jù)集中屬性彼此之間的相關(guān)性,選取出對(duì)判定結(jié)果起重大作用的特征且彼此間相關(guān)性小的特征組成最佳特征子集,采用SAMME多分類(lèi)集成方法進(jìn)行迭代訓(xùn)練,生產(chǎn)最終的入侵檢測(cè)模型。通過(guò)實(shí)驗(yàn)結(jié)果可以清晰看出,CFS-SAMME在一定程度上提高了算法的檢測(cè)精確度和檢測(cè)效率,更加適用于當(dāng)前復(fù)雜網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)中。
圖1 檢測(cè)準(zhǔn)確率對(duì)比
圖2 檢測(cè)時(shí)間對(duì)比
[1]張浩.一種新型分類(lèi)算法及其在網(wǎng)絡(luò)入侵檢測(cè)中的應(yīng)用研究[D].北京郵電大學(xué),2018.
[2]郭春.基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)入侵檢測(cè)關(guān)鍵技術(shù)研究[D].北京郵電大學(xué),2014.
[3]朱小剛,ZHANG Ji-dong.不均衡數(shù)據(jù)分類(lèi)下特征有效識(shí)別分析[J].計(jì)算機(jī)仿真,2018,35(04):145-148.
[4]Hall M A .Correlation-based Feature Selection for Discrete and Numeric Class Machine Learning[C]// Proceedingsof the Seventeenth International Conference on Machine Learning (ICML 2000), Stanford University, Stanford, CA,USA,June 29-July 2, 2000. Morgan Kaufmann Publishers Inc.2000.
[5]Pearson K,F.R S.NOTES ON THE HISTORY OF CORRELATION[J].Biometrika,1920,13(1):25-45.
[6]Lu B , Liu Z .PROLOG WITH BEST FIRST SEARCH[C]// 第25屆中國(guó)控制與決策會(huì)議.
[7]魏浩,丁要軍.屬性相關(guān)選擇和AdaBoost算法在入侵檢測(cè)中的應(yīng)用[J].信息技術(shù),2014(07):29-32.
[8]Valiant L G.A theory of the learnable.Communications of the ACM 1984,27(22):1134-1142.
[9]Ji Zhu,Hui Zou.Multi-class AdaBoost.Statistics and ItsInterface Volume 2(2009)349-360.
[10]DARPA Intrusion Detection Evaluation.http://www.11.mit.edu/IST/ideval/index.html.