張艷敏+楊娜
摘要:隨著互聯(lián)網(wǎng)應(yīng)用技術(shù)的發(fā)展,網(wǎng)絡(luò)安全問題一直是人們重點(diǎn)關(guān)注的問題。網(wǎng)絡(luò)入侵的檢測可以分為對(duì)網(wǎng)絡(luò)誤用的檢測和對(duì)網(wǎng)絡(luò)異常的檢測,網(wǎng)絡(luò)誤用檢測僅僅適用于已知類型的網(wǎng)絡(luò)攻擊,對(duì)于新型攻擊行為無法達(dá)到檢測目的,而網(wǎng)絡(luò)異常檢測則可以通過模型判別出攻擊行為,具有更精確的檢測精度和更廣泛的檢測范圍。傳統(tǒng)的網(wǎng)絡(luò)異常檢測方法檢測效率較低,需要處理的數(shù)據(jù)量較大,為此本文提出一種采用支持向量機(jī)的基于粗糙集的分布式網(wǎng)絡(luò)異常檢測方法,采用該方法對(duì)KDD99數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行了仿真實(shí)驗(yàn)。結(jié)果表明,該方法可以對(duì)網(wǎng)絡(luò)異常進(jìn)行及時(shí)的檢測,在保證檢測精度的同時(shí),可以有效縮短檢測時(shí)間,網(wǎng)絡(luò)異常檢測性能良好。
關(guān)鍵詞:粗糙集;分布式;網(wǎng)絡(luò)異常檢測;支持向量機(jī)
引言
當(dāng)前互聯(lián)網(wǎng)應(yīng)用技術(shù)的發(fā)展日漸趨于成熟,各種基于互聯(lián)網(wǎng)技術(shù)的應(yīng)用程序逐步融合到人們的日常生活當(dāng)中。由于互聯(lián)網(wǎng)的普及性和使用的頻繁性,網(wǎng)絡(luò)安全問題面臨著巨大挑戰(zhàn)。網(wǎng)絡(luò)攻擊嚴(yán)重影響了使用者對(duì)計(jì)算機(jī)網(wǎng)絡(luò)的使用,嚴(yán)重時(shí)甚至?xí)斐刹豢赏旎氐木薮蟮慕?jīng)濟(jì)損失。目前經(jīng)常采用的安全防護(hù)方法是防火墻技術(shù),但隨著網(wǎng)絡(luò)攻擊手段和類型的多樣性變化,單一的防火墻技術(shù)已無法滿足現(xiàn)有網(wǎng)絡(luò)安全要求。在防火墻后設(shè)置第二道安全保障,即網(wǎng)絡(luò)入侵檢測,可以有效地解決這個(gè)問題。網(wǎng)絡(luò)入侵的檢測可以分為對(duì)網(wǎng)絡(luò)誤用的檢測和對(duì)網(wǎng)絡(luò)異常的檢測,前者僅僅適用于已知類型的網(wǎng)絡(luò)攻擊,無法對(duì)新出現(xiàn)的網(wǎng)絡(luò)攻擊形式進(jìn)行檢測,而后者則可以通過模型判別出攻擊行為,具有更精確的檢測精度和更廣泛的檢測范圍。本文提出了一種采用支持向量機(jī)(SVM)的基于粗糙集的分布式網(wǎng)絡(luò)異常檢測方法,對(duì)檢測時(shí)間和精度進(jìn)行了研究。
1基于粗糙集的檢測方法
1.1粗糙集
粗糙集作為一種對(duì)不完整性、不確定性進(jìn)行描述的數(shù)學(xué)手段,在數(shù)據(jù)挖掘中得到普遍應(yīng)用。這種理論可以對(duì)精確性、一致性和完整性較差的信息進(jìn)行高效處理并分析,進(jìn)而發(fā)掘出隱藏的知識(shí)和規(guī)律。粗糙集理論的一個(gè)信息系統(tǒng)由四元組進(jìn)行表述,如式1所示:
假定X U,R屬于U上等價(jià),那么A=(U,R)則為近似的空間,可以得到X的R上近似和下近似,分別如式2和式3所示:
假設(shè)P和S在U中的關(guān)系為等價(jià),S為P的正域,以
1.2支持向量機(jī)
支持向量機(jī)(SVM)分為線性支持向量機(jī)和非線性支持向量機(jī),當(dāng)訓(xùn)練樣本為線性時(shí),分類判別函數(shù)如式6所示:
式中a是拉格朗日乘子。
對(duì)于非線性的分類,核函數(shù)K(X,X)與輸入空間變化到高維特征空間后的內(nèi)積,而函數(shù)w:X-F則表示非線性的輸入空間映射到高維特征空間。將式6重寫可得式7:
1.3檢測方法的原理
本實(shí)驗(yàn)采取的檢測方法其原理是利用粗糙集約簡數(shù)據(jù),獲取條件最小的屬性集,由此對(duì)訓(xùn)練樣本進(jìn)行約簡獲得新訓(xùn)練樣本,歸一化處理后以SVM訓(xùn)練,之后仍采用上述屬性集約簡測試樣本獲取新樣本,歸一化后以已經(jīng)完成訓(xùn)練的SVM檢測。具體過程為首先對(duì)數(shù)據(jù)進(jìn)行離散化處理,之后基于約簡算法約簡訓(xùn)練樣本獲取新樣本,構(gòu)建檢測模型,獲得測試數(shù)據(jù)集,最后采用完成訓(xùn)練的檢測模型預(yù)測數(shù)據(jù)集。
2檢測系統(tǒng)的結(jié)構(gòu)
圖1所示為基于粗糙集的分布式網(wǎng)絡(luò)異常檢測系統(tǒng)的結(jié)構(gòu)圖,其結(jié)構(gòu)由網(wǎng)絡(luò)內(nèi)呈現(xiàn)分布式的節(jié)點(diǎn)和網(wǎng)絡(luò)外部的服務(wù)器構(gòu)成。外部服務(wù)器包括控制、數(shù)據(jù)挖掘規(guī)則和日志等。對(duì)于網(wǎng)內(nèi)節(jié)點(diǎn)來說,其主要作用是保存不同種類的異常檢測,各節(jié)點(diǎn)協(xié)作通過對(duì)進(jìn)出該子網(wǎng)的流量進(jìn)行分析,進(jìn)而識(shí)別出異常行為,將結(jié)果發(fā)送至日志服務(wù)器,當(dāng)異?,F(xiàn)象嚴(yán)重時(shí),由節(jié)點(diǎn)發(fā)出警報(bào)。同時(shí)分析器以外部挖掘規(guī)則庫為依據(jù)定時(shí)更新本身規(guī)則庫,然后反饋檢測結(jié)果至日志服務(wù)器。網(wǎng)絡(luò)外部的挖掘數(shù)據(jù)規(guī)則服務(wù)器將基于粗糙集的規(guī)則進(jìn)行保存,而控制服務(wù)器則負(fù)責(zé)運(yùn)行整個(gè)網(wǎng)絡(luò)。
3結(jié)果分析
本實(shí)驗(yàn)采用的數(shù)據(jù)選自KDD99數(shù)據(jù)集為采用量約占總數(shù)據(jù)量的10%左右,主要選取了5種類型,分別為Normal、Probe、Dos、R2L和U2R等。表1基于粗糙集的分布式網(wǎng)絡(luò)異常檢測方法和傳統(tǒng)方法的檢測結(jié)果,與傳統(tǒng)方法相比,采用本實(shí)驗(yàn)提出的方法進(jìn)行網(wǎng)絡(luò)異常檢測,在訓(xùn)練和檢測方面的耗時(shí)均較小,這是因?yàn)楸痉椒ǖ奶卣骶S度數(shù)目較少,導(dǎo)致SVM需要處理的計(jì)算量減少,從而縮短了耗費(fèi)的時(shí)間;對(duì)于檢測率方面采用本實(shí)驗(yàn)提出的方法,Dos、R2L和U2R三種類型的攻擊檢測率高于傳統(tǒng)方法,這是由于粗糙集特征簡約可以去掉冗余的樣本特征,因而檢測精度較高。圖2為兩種方法的迭代次數(shù)和預(yù)測精度之間的關(guān)系圖,從圖中可以看出,隨著迭代次數(shù)的增加兩種方法的預(yù)測精度均有所上升,但基于粗糙集的分布式網(wǎng)絡(luò)異常檢測方法預(yù)測精度要高于傳統(tǒng)方法,當(dāng)?shù)螖?shù)超過100次后預(yù)測精度趨于平緩,而傳統(tǒng)方法在迭代次數(shù)超過100次后,預(yù)測精度仍有波動(dòng)。
4結(jié)束語
本文提出采用支持向量機(jī)(SVM)的基于粗糙集的分布式網(wǎng)絡(luò)異常檢測方法,對(duì)KDD99數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行仿真,與傳統(tǒng)方法相比在樣本訓(xùn)練時(shí)間和檢測時(shí)間方面均有縮短,同時(shí)在檢測精度方面也有所提高。從結(jié)果分析中可以看出,本文提出的方法具有良好的分布式網(wǎng)絡(luò)異常檢測性能,是一種快速有效的網(wǎng)絡(luò)異常檢測方法。