亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于CFS-SAMME集成算法的入侵檢測(cè)應(yīng)用研究

2019-06-11 09:23:52賈俊星

網(wǎng)絡(luò)安全技術(shù)與應(yīng)用 2019年6期

關(guān)鍵詞：特征選擇分類(lèi)器準(zhǔn)確率

◆賈俊星

◆賈俊星

（沈陽(yáng)理工大學(xué)信息科學(xué)與工程學(xué)院遼寧 110000）

針對(duì)當(dāng)前網(wǎng)絡(luò)入侵隱蔽性強(qiáng)、危害大、手段高，傳統(tǒng)的入侵檢測(cè)方法已經(jīng)難以有效防范的問(wèn)題，本文進(jìn)行了基于CFS和SAMME多分類(lèi)集成算法的入侵檢測(cè)的應(yīng)用研究。實(shí)驗(yàn)結(jié)果表明：經(jīng)過(guò)相關(guān)性特征選擇后的SAMME多分類(lèi)集成算法不僅提升了檢測(cè)準(zhǔn)確率，也大幅度提高了入侵檢測(cè)效率，為入侵檢測(cè)提供了有效的思路和方法。

CFS；最佳優(yōu)先搜索；SAMME多分類(lèi)集成算法

0 引言

由于互聯(lián)網(wǎng)攻擊行為的增加給國(guó)家、社會(huì)、個(gè)人造成了大量的損失，網(wǎng)絡(luò)活動(dòng)的安全性在計(jì)算機(jī)網(wǎng)絡(luò)中得到了高度重視[1]。因此使用各種安全系統(tǒng)（如IDS）來(lái)防御檢測(cè)多種多樣的網(wǎng)絡(luò)攻擊行為。IDS通常與防火墻一起使用，并作為它們的補(bǔ)充。IDS安全系統(tǒng)已用于觀察和分析嚴(yán)重違反或威脅計(jì)算機(jī)和網(wǎng)絡(luò)中的計(jì)算機(jī)安全策略的事件[2]。通常，IDS的目的是檢測(cè)攻擊和安全漏洞并將其通知給管理員。IDS應(yīng)該能夠使用監(jiān)視，檢測(cè)和響應(yīng)系統(tǒng)內(nèi)的未授權(quán)活動(dòng)來(lái)識(shí)別所有異常模式和流量。但是，對(duì)于網(wǎng)絡(luò)流量中龐大且不均衡的數(shù)據(jù)[3]，IDS面臨著大流量數(shù)據(jù)所帶來(lái)的挑戰(zhàn)，檢測(cè)出惡意攻擊行為的準(zhǔn)確性通常很低，檢測(cè)時(shí)間過(guò)長(zhǎng)。因此，提升惡意攻擊行為的檢測(cè)精度和檢測(cè)時(shí)間已成為入侵檢測(cè)技術(shù)中的重中之重。

1 相關(guān)性特征選擇

相關(guān)性特征選擇[4](correlation -based feature selection,簡(jiǎn)稱 CFS) 是一種經(jīng)典的過(guò)濾器模式的特征選擇方法，采用基于相關(guān)性的啟發(fā)式方法來(lái)評(píng)估特征的價(jià)值。這種啟發(fā)式的方法考慮到了數(shù)據(jù)集中單個(gè)特征對(duì)預(yù)測(cè)屬性標(biāo)簽的有用性以及它們之間的相互關(guān)聯(lián)程度，CFS通過(guò)它們之間的相關(guān)性，能夠快速識(shí)別冗余特征以及相關(guān)性小的特征，在提升檢測(cè)準(zhǔn)確率的同時(shí)達(dá)到降低數(shù)據(jù)維數(shù)和約簡(jiǎn)數(shù)據(jù)集的目的。

特征的相關(guān)性計(jì)算應(yīng)用了Pearson[5]系數(shù)，Pearson系數(shù)作為相關(guān)性的評(píng)價(jià)指標(biāo)已經(jīng)被廣泛應(yīng)用。通過(guò)計(jì)算特征與特征，特征與屬性標(biāo)簽之間的Pearson系數(shù)，選取出特征集之間相關(guān)性差且特征與屬性標(biāo)簽相關(guān)性強(qiáng)的特征。一個(gè)好的特征集通常情況下只包含與屬性標(biāo)簽高度相關(guān)但彼此不相關(guān)的特征。

目前，特征搜索的策略有很多種，本文選取了最佳優(yōu)先搜索算法[6](best first)用作特征搜索。首先通過(guò)CFS計(jì)算出特征與特征、特征與屬性標(biāo)簽之間的相關(guān)性矩陣，然后利用啟發(fā)式評(píng)估函數(shù)對(duì)將要遍歷點(diǎn)進(jìn)行估價(jià)，最后選擇代價(jià)小的進(jìn)行遍歷，直到遍歷完所有的點(diǎn)。最佳優(yōu)先搜索是從一組空特征集開(kāi)始的，并且同時(shí)生成所有可能的單個(gè)特征子集。通過(guò)添加單個(gè)特征，使用Merit[7]作為衡量標(biāo)準(zhǔn)，以相同的方式選擇和擴(kuò)展具有最高評(píng)估的特征子集。如果擴(kuò)展的一個(gè)特征集性能沒(méi)有任何改進(jìn)和提升，搜索將轉(zhuǎn)變到下一個(gè)最佳未進(jìn)行搜索的特征子集，開(kāi)始新的搜索。最佳優(yōu)先搜索將探索整個(gè)特征集空間，直到找到最大相關(guān)性的特征子集，當(dāng)搜索終止時(shí)，返回找到的最佳特征子集。

2 多類(lèi)指數(shù)損失函數(shù)逐步添加模型(SAMME)

Adaboost算法的思想起源于PAC[8](Probably Approximately Correct)學(xué)習(xí)理論，它的基本思想是一種基于boosting算法的迭代算法。多類(lèi)指數(shù)損失函數(shù)逐步添加模型[9](SAMME)是一種多分類(lèi)的Adaboost算法模型，它的原理是通過(guò)擴(kuò)展指數(shù)損失函數(shù)，以達(dá)到多分類(lèi)集成算法對(duì)弱分類(lèi)器準(zhǔn)確率大于1/n的基本使用要求，它是通過(guò)改變數(shù)據(jù)分布來(lái)實(shí)現(xiàn)基分類(lèi)器的迭代，從而使分類(lèi)性能越來(lái)越強(qiáng)。它根據(jù)每次訓(xùn)練集之中每個(gè)樣本的分類(lèi)是否正確，以及前一次總體分類(lèi)的準(zhǔn)確率，重新確定每個(gè)樣本的權(quán)值。將重新確定過(guò)權(quán)值的新數(shù)據(jù)集在后一個(gè)分類(lèi)器中繼續(xù)進(jìn)行分類(lèi)訓(xùn)練，最后將所有訓(xùn)練得到的基分類(lèi)器加權(quán)融合起來(lái)，生成最終的決策分類(lèi)器。而權(quán)值的調(diào)整主要依靠前一次分類(lèi)器的樣本，若前一次樣本分類(lèi)正確，則降低分類(lèi)正確樣本的權(quán)值；若前一次分類(lèi)錯(cuò)誤的樣本，則提高分類(lèi)錯(cuò)誤樣本的權(quán)值。由于最終的決策分類(lèi)器準(zhǔn)確率比傳統(tǒng)的單分類(lèi)器（決策樹(shù)、KNN）要高很多，因此在多分類(lèi)問(wèn)題上SAMME算法得到了廣泛的應(yīng)用。

3 實(shí)驗(yàn)

3.1 數(shù)據(jù)集與預(yù)處理

為了更好保證實(shí)驗(yàn)的權(quán)威性和說(shuō)服力，本文使用著名的網(wǎng)絡(luò)流量數(shù)據(jù)集NSL-KDD[10]作為實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)分析論證。該數(shù)據(jù)集包含41種屬性以及對(duì)應(yīng)的1種屬性標(biāo)簽，NSL-KDD數(shù)據(jù)集是對(duì)KDD CUP99數(shù)據(jù)集的改良，除去了KDD CUP99數(shù)據(jù)集里面的大量冗余數(shù)據(jù)，重新劃分了正常數(shù)據(jù)和異常數(shù)據(jù)的比例，使得NSL-KDD數(shù)據(jù)集中訓(xùn)練和測(cè)試數(shù)據(jù)數(shù)量更加合理，更加適合用于網(wǎng)絡(luò)入侵檢測(cè)實(shí)驗(yàn)中。

3.2 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)環(huán)境為Windows7操作系統(tǒng)，內(nèi)存為4GB，Weka3.8，Python，Spyder。

3.3 數(shù)據(jù)預(yù)處理

由于NSL-KDD數(shù)據(jù)集中包含有字符型的數(shù)據(jù)特征，在進(jìn)行特征相關(guān)性計(jì)算和SAMME集成算法分類(lèi)時(shí)，導(dǎo)致實(shí)驗(yàn)出現(xiàn)錯(cuò)誤。因此必須對(duì)NSL-KDD數(shù)據(jù)集進(jìn)行預(yù)處理，將數(shù)據(jù)集里面字符型的數(shù)據(jù)特征轉(zhuǎn)換為數(shù)值型特征。

3.4 實(shí)驗(yàn)結(jié)果

將經(jīng)過(guò)預(yù)處理后的41種特征屬性，用Vn（n=1,2，……，41）來(lái)表示，如V1=duration，V2=protocol_type，V3=service，…，V41=dst_host_srv_rerror_rate等。在進(jìn)行相關(guān)性特征選擇時(shí)，首先在Weka中將41種特征屬性進(jìn)行離散化，將離散化的數(shù)據(jù)集采用十折交叉校驗(yàn)的測(cè)試方法進(jìn)行相關(guān)性特征選擇，NSL-KDD數(shù)據(jù)集在經(jīng)過(guò)相關(guān)性特征選擇后，從41個(gè)特征屬性中選取出V2,V3,V4,V5,V7,V8,V10,V12,V25,V29,V30,V35,V36,V37,V38,共15個(gè)特征作為最佳特征子集，將未經(jīng)過(guò)特征選擇的全部數(shù)據(jù)集和經(jīng)過(guò)相關(guān)性特征選擇的最佳特征子集分別使用Spyder導(dǎo)入進(jìn)SAMME多分類(lèi)算法中，并且分別取迭代次數(shù)為10,20,30,40,50,60,70,80,90,100的情況進(jìn)行實(shí)驗(yàn)驗(yàn)證。實(shí)驗(yàn)結(jié)果如表1所示：

表1 NSL-KDD數(shù)據(jù)集下的檢測(cè)效果

圖1，2分別表示SAMME和CFS-SAMME的檢測(cè)準(zhǔn)確率和檢測(cè)時(shí)間的對(duì)比。

從上述實(shí)驗(yàn)結(jié)果可以得出，經(jīng)過(guò)本文相關(guān)性特征選擇方法后，相比于未使用特征選擇的方法，檢測(cè)準(zhǔn)確率有了明顯的提升。從檢測(cè)效率方面來(lái)看，顯著降低了檢測(cè)模型的復(fù)雜度，檢測(cè)時(shí)間將近減少了二分之一，檢測(cè)效率更加高效，除此之外，隨著CFS-SAMME多分類(lèi)器迭代次數(shù)的增加，準(zhǔn)確率也隨之增長(zhǎng)，但是，當(dāng)CFS-SAMME迭代次數(shù)為80次時(shí)，檢測(cè)準(zhǔn)確率達(dá)到峰值96.2%，檢測(cè)準(zhǔn)確率就開(kāi)始下降。實(shí)驗(yàn)結(jié)果表明，本文方法CFS-SAMME在網(wǎng)絡(luò)入侵檢測(cè)精度和檢測(cè)效率上有一定提高，證明了CFS-SAMME的有效性。

4 結(jié)束語(yǔ)

針對(duì)目前網(wǎng)絡(luò)流量大，數(shù)據(jù)量多，各種網(wǎng)絡(luò)攻擊愈發(fā)隱蔽，更難被入侵檢測(cè)系統(tǒng)檢測(cè)到的問(wèn)題，本文進(jìn)行了基于CFS-SAMME多分類(lèi)集成入侵檢測(cè)的應(yīng)用研究，利用數(shù)據(jù)集中屬性彼此之間的相關(guān)性，選取出對(duì)判定結(jié)果起重大作用的特征且彼此間相關(guān)性小的特征組成最佳特征子集，采用SAMME多分類(lèi)集成方法進(jìn)行迭代訓(xùn)練，生產(chǎn)最終的入侵檢測(cè)模型。通過(guò)實(shí)驗(yàn)結(jié)果可以清晰看出，CFS-SAMME在一定程度上提高了算法的檢測(cè)精確度和檢測(cè)效率，更加適用于當(dāng)前復(fù)雜網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)中。

圖1 檢測(cè)準(zhǔn)確率對(duì)比

圖2 檢測(cè)時(shí)間對(duì)比

[1]張浩.一種新型分類(lèi)算法及其在網(wǎng)絡(luò)入侵檢測(cè)中的應(yīng)用研究[D].北京郵電大學(xué)，2018.

[2]郭春.基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)入侵檢測(cè)關(guān)鍵技術(shù)研究[D].北京郵電大學(xué),2014.

[3]朱小剛,ZHANG Ji-dong.不均衡數(shù)據(jù)分類(lèi)下特征有效識(shí)別分析[J].計(jì)算機(jī)仿真,2018,35(04):145-148.

[4]Hall M A .Correlation-based Feature Selection for Discrete and Numeric Class Machine Learning[C]// Proceedingsof the Seventeenth International Conference on Machine Learning (ICML 2000), Stanford University, Stanford, CA,USA,June 29-July 2, 2000. Morgan Kaufmann Publishers Inc.2000.

[5]Pearson K,F.R S.NOTES ON THE HISTORY OF CORRELATION[J].Biometrika，1920,13（1）：25-45.

[6]Lu B , Liu Z .PROLOG WITH BEST FIRST SEARCH[C]// 第25屆中國(guó)控制與決策會(huì)議.

[7]魏浩，丁要軍.屬性相關(guān)選擇和AdaBoost算法在入侵檢測(cè)中的應(yīng)用[J].信息技術(shù)，2014（07）:29-32.

[8]Valiant L G.A theory of the learnable.Communications of the ACM 1984,27(22):1134-1142.

[9]Ji Zhu,Hui Zou.Multi-class AdaBoost.Statistics and ItsInterface Volume 2(2009)349-360.

[10]DARPA Intrusion Detection Evaluation.http://www.11.mit.edu/IST/ideval/index.html.