陳 實(shí),黃芝平,劉純武
(國防科學(xué)技術(shù)大學(xué)機(jī)電工程與自動化學(xué)院,長沙 410073)
基于可視化圖形特征的入侵檢測方法
陳 實(shí),黃芝平,劉純武
(國防科學(xué)技術(shù)大學(xué)機(jī)電工程與自動化學(xué)院,長沙 410073)
入侵檢測是保障網(wǎng)絡(luò)安全的重要措施,網(wǎng)絡(luò)攻擊手段的多樣性和隱蔽性不斷增強(qiáng)導(dǎo)致入侵檢測愈加困難,迫切需要研究新的入侵檢測方法;結(jié)合可視化技術(shù)和k近鄰分類算法,提出一種基于圖形特征的入侵檢測方法;采用信息增益方法對原始特征進(jìn)行排序選擇,并進(jìn)行雷達(dá)圖可視化表示,提取雷達(dá)圖的圖形特征構(gòu)成新的數(shù)據(jù)集并送入k近鄰分類器進(jìn)行訓(xùn)練和測試;通過KDDCUP99數(shù)據(jù)集仿真實(shí)驗(yàn)表明,該方法不僅能直觀顯示攻擊行為,而且獲得較好的攻擊檢測性能,對DOS攻擊的檢測率可達(dá)97.9%,誤報率為1.5%。
入侵檢測;雷達(dá)圖;圖形特征;可視化
隨著計(jì)算機(jī)網(wǎng)絡(luò)的高速發(fā)展,網(wǎng)絡(luò)安全問題也顯得越加突出。雖然許多網(wǎng)絡(luò)安全技術(shù)已經(jīng)被運(yùn)用于提高網(wǎng)絡(luò)的安全水平,比如防火墻技術(shù)、防病毒軟件、安全掃描技術(shù)等,但仍有一些安全問題未能解決,所以從上世紀(jì)八十年代開始,許多研究人員致力于研究一種新的安全系統(tǒng)——入侵檢測系統(tǒng)(IDS)[1]。為了提高入侵檢測的準(zhǔn)確性和穩(wěn)定性,模式識別的方法被廣泛地應(yīng)用于入侵檢測系統(tǒng),比如模糊邏輯方法[2]、支持向量機(jī)[3]、人工神經(jīng)網(wǎng)絡(luò)[4]、貝葉斯網(wǎng)絡(luò)[5]等。將模式識別引入到入侵檢測系統(tǒng)中,不但能夠?qū)σ阎娜肭诌M(jìn)行檢測,而且能夠檢測未知的攻擊行為,極大地提高了入侵檢測系統(tǒng)的實(shí)時性和有效性。這些典型的模式識別方法中,特征通常包括物理特征、統(tǒng)計(jì)特征和結(jié)構(gòu)特征。本文中,我們使用圖形特征來描述模式識別中的數(shù)據(jù)。
另外,多維數(shù)據(jù)的可視化技術(shù)隨著大數(shù)據(jù)時代的帶來越來越顯得重要。目前,在模式識別領(lǐng)域主要形成了星座圖、散點(diǎn)圖、平行坐標(biāo)系、雷達(dá)圖等繪制高維數(shù)據(jù)的可視化表示方法[6]。通常,可視化圖形特征表示和分析方法主要有兩方面的優(yōu)勢[7]:1)可以將高維特征數(shù)據(jù)變換為簡單有效的2D或3D圖形化特征數(shù)據(jù);2)提供一種直觀且易于理解的方式來直接分析數(shù)據(jù)集中的有效信息。其中,雷達(dá)圖常常被用于分析經(jīng)濟(jì)、銀行利率、企業(yè)風(fēng)險等。而在模式識別領(lǐng)域,雷達(dá)圖被用于表示數(shù)據(jù),并取得了一系列成果[8-10]。因此,本文基于雷達(dá)圖表示原理,結(jié)合可視化技術(shù)和k近鄰(k-Nearest Neighbor,k-NN)分類算法,提出一種基于可視化圖形特征的入侵檢測方法,并通過仿真實(shí)驗(yàn)對算法有效性和可行性進(jìn)行驗(yàn)證。
1.1 多維數(shù)據(jù)的雷達(dá)圖繪制
雷達(dá)圖表示法是一種表達(dá)多維空間中數(shù)據(jù)點(diǎn)的幾何投影方法[11]。假設(shè)多維數(shù)據(jù)集D={D1,D2,…,Di,…,Dn}中的數(shù)據(jù)Di為一個N維向量,即Di=(di1,di2,…,diN),N≥3,則雷達(dá)圖的幾何作圖方法如下:
1)先作一個單位圓,圓心代表0,圓周代表1;
2)將圓周2π弧度等分為N個部分,并畫出這N個半徑,相鄰半徑之間的角度用弧度ωi=2π/N(i=1,2,…,N)來表示,這N個半徑就作為N個變量的坐標(biāo)軸;
3)將第i個樣本的歸一化特征D′i的N維變量值d′i1,d′i2,…,d′iN依次畫在N個均勻刻度的半徑上;
4)將所有半徑上的N維變量值所產(chǎn)生的點(diǎn)依次連接起來得到一個N邊形,這樣就產(chǎn)生了一個樣本的雷達(dá)圖。n個樣本數(shù)據(jù)能夠產(chǎn)生n個N邊形。
1.2 雷達(dá)圖特征提取
雷達(dá)圖圍成了二維平面里的一個封閉的不規(guī)則多邊形。明顯的一個結(jié)構(gòu)特征就是有多個三角形組成的多邊形,每個三角形都是由相鄰變量組成。還有一個明顯的視覺特征就是多邊形的面積和重心,此外,三角形還有很多特殊點(diǎn),如垂心、內(nèi)心、外心等,以及雷達(dá)圖圓心到各點(diǎn)的幅值都可以作為圖形特征。
在入侵檢測系統(tǒng)中,所獲得的數(shù)據(jù)集的維數(shù)比較高,若采用各個三角形的面積或重心來形成新的特征數(shù)據(jù),那么新數(shù)據(jù)的維數(shù)并沒有降低。為了達(dá)到數(shù)據(jù)降維、降低算法計(jì)算量的目的,本文選取新數(shù)據(jù)的平均值ˉdi、雷達(dá)圖中多邊形的總面積S以及周長L構(gòu)成新的特征數(shù)據(jù)集,從而將維數(shù)降為3維。其中,多邊形的面積和周長可由式(1)和(2)求出。
本文提出的入侵檢測模型如圖1所示。主要包括數(shù)據(jù)預(yù)處理、特征排序、雷達(dá)圖特征提取、訓(xùn)練和測試等階段。
圖1 基于雷達(dá)圖特征的入侵檢測模型
2.1 數(shù)據(jù)集
本文實(shí)驗(yàn)采用的數(shù)據(jù)集是目前入侵檢測領(lǐng)域比較權(quán)威的數(shù)據(jù)集KDDCUP99(下載于Http://kdd.ics.uci.edu/databases/kddcup99)。完整的KDDCUP99數(shù)據(jù)集含有大概包含5,000,000多個網(wǎng)絡(luò)連接記錄,每條數(shù)據(jù)具有41個特征屬性和一個決策屬性。考慮到實(shí)驗(yàn)的便利性,本文只采用一個10%的子集——kddcup.data_10_percent,該子集包含494,021個樣本。除了標(biāo)記為正常(Normal)的樣本外,該子集還包括4類攻擊樣本:拒絕服務(wù)攻擊(DOS);遠(yuǎn)程用戶未授權(quán)訪問攻擊(U2R);未授權(quán)使用本地超級權(quán)限訪問攻擊(U2L);掃描攻擊(Probe)。
2.2 數(shù)據(jù)預(yù)處理
在進(jìn)行圖形特征提取之前,需要對原始數(shù)據(jù)集進(jìn)行預(yù)處理。首先將10%KDDcup99數(shù)據(jù)集中的大量冗余重復(fù)的樣本刪除,得到只有145,585個樣本的子集,但該子集中仍含有87,832個正常樣本和54,572個DOS樣本,為了減少實(shí)驗(yàn)時間,本文分別隨機(jī)選取10%的正常樣本和DOS樣本,而另外3種攻擊樣本保持不變。最后,用于實(shí)驗(yàn)的樣本數(shù)量減少為17,421個,見表1所示。
表1 用于實(shí)驗(yàn)的各類樣本的數(shù)量
因?yàn)?0%KDDcup99數(shù)據(jù)集中各特征屬性的取值范圍各異,比如“l(fā)ogged in”只有0和1值,而“source bytes”的取值范圍為0到693,375,640。為了消除屬性之間的差異性對分類性能的影響,本文采用歸一化方法對數(shù)據(jù)集的樣本進(jìn)行處理。首先將標(biāo)稱型的屬性轉(zhuǎn)換為數(shù)值型屬性,即將每個標(biāo)稱型屬性下的m個標(biāo)稱值依次轉(zhuǎn)換為0,1,2,…,m的數(shù)值。然后根據(jù)式(3)將所有屬性的值映射到區(qū)間[a,1]。
式中,a=0.2,1≤j≤N,n為樣本數(shù),N 為每個樣本向量的維數(shù)。
2.3 特征排序
由于KDDcup99數(shù)據(jù)集含有41個特征屬性,文獻(xiàn)[11]對圖形分類器分析研究發(fā)現(xiàn):當(dāng)所要研究的數(shù)據(jù)集維數(shù)在3~20維時,采用雷達(dá)圖不僅可以確保在不丟信息的情況下對數(shù)據(jù)分類,而且可以提高分類精度。因此,在進(jìn)行雷達(dá)圖繪制前需要進(jìn)行特征選擇。本文通過衡量相對于分類的信息增益,來評估每個屬性的價值,根據(jù)信息增益的大小對41個特征屬性進(jìn)行排序。然后選擇前M個屬性繪制雷達(dá)圖,通過實(shí)驗(yàn)分析所獲得最好分類性能的最佳M值。
若D為訓(xùn)練集,則信息熵:
式中,pi(i=1,2,…,m)為具有m個類別屬性C在所有樣本中出現(xiàn)的頻率。假設(shè)用屬性A來劃分D中的數(shù)據(jù),因?yàn)榻?jīng)過預(yù)處理后數(shù)據(jù)變成連續(xù)型數(shù)據(jù),所以按屬性A的取值遞增排序,將每對相鄰值的中點(diǎn)看作可能的分裂點(diǎn),對每個分裂點(diǎn),計(jì)算:
式中,|DL|和|DR|分別對應(yīng)于該分裂點(diǎn)劃分的左右兩部分子集。則信息增益定義為按屬性A劃分?jǐn)?shù)據(jù)集D的信息增益Gain(D,A)為樣本集D的熵減去按屬性A劃分D后的樣本子集的熵,即:
2.4 基于雷達(dá)圖特征的k-NN分類器
基于特征排序結(jié)果,通過選取排序靠前的不同數(shù)量特征屬性進(jìn)行雷達(dá)圖表示,然后提取雷達(dá)圖特征構(gòu)成新的數(shù)據(jù)集。在新的數(shù)據(jù)集上,采用k-NN分類算法對樣本進(jìn)行訓(xùn)練和測試,采用十折交叉試驗(yàn)對模型的性能進(jìn)行評估和驗(yàn)證。
k-NN分類算法是一種理論上比較成熟的方法,也是最簡單的機(jī)器學(xué)習(xí)算法之一。所謂k-NN算法,即是給定一個訓(xùn)練數(shù)據(jù)集,對新的輸入樣本,在訓(xùn)練數(shù)據(jù)集中找到與該樣本最鄰近的k個樣本,這k個樣本的多數(shù)屬于某個類,則把該輸入樣本分類帶著個類中。具體算法可參考文獻(xiàn)[12]。
實(shí)驗(yàn)平臺采用主頻為2.90 GHz,內(nèi)存為4 GB的計(jì)算機(jī),操作系統(tǒng)為Window7,采用開源軟件Weka進(jìn)行實(shí)驗(yàn)仿真。實(shí)驗(yàn)中采用攻擊檢測率 (Detection Rate,DR)、誤報率(False Positive Rate,F(xiàn)PR)來評估實(shí)驗(yàn)結(jié)果。
表2 基于信息增益的特征排序結(jié)果
表2給出了基于信息增益的特征屬性排序結(jié)果,只給出了排在前25位的特征屬性。限于篇幅,本文針對每種類型各選取一個樣本進(jìn)行25維特征的雷達(dá)圖繪制,雷達(dá)圖見圖2。
從圖2可看出,25維的特征數(shù)據(jù)可以在雷達(dá)圖上圍成一個封閉的不規(guī)則多邊形,而且不同攻擊類型雷達(dá)圖差異明顯。
基于表2的排序結(jié)果,分別選取不同數(shù)量的特征屬性進(jìn)行雷達(dá)圖繪制,然后根據(jù)1.2節(jié)所述提取圖形特征構(gòu)成新的數(shù)據(jù)集,在新的數(shù)據(jù)集上采用k-NN算法進(jìn)行十折交叉驗(yàn)證,所獲得的結(jié)果見圖3和圖4。
從圖3可以看出,該方法對DOS攻擊的檢測率能夠保持在95%左右,對R2L和Probe攻擊的檢測率低于對DOS攻擊的檢測率,而且隨著特征屬性數(shù)量的增加而有所降低。同時,雖然對U2R攻擊的檢測率相對最低,這主要是因?yàn)閁2R的樣本數(shù)只有52個,只占到了總樣本數(shù)的0.3%,但在屬性數(shù)量為14個時,對U2R的檢測率也達(dá)到了最大值(61.5%)。圖4給出了不同特征屬性數(shù)量下的誤報率,在屬性數(shù)量為14個時,4種攻擊的誤報率都低于1.5%。以上分析說明了,基于不同數(shù)量特征屬性構(gòu)成的雷達(dá)圖特征會對攻擊檢測性能產(chǎn)生較大影響,選取的特征屬性數(shù)量達(dá)到一定個數(shù)時,檢測性能會降低。表3給出了在特征屬性數(shù)量為14時的詳細(xì)檢測結(jié)果。
圖2 正常和攻擊樣本雷達(dá)圖
圖3 不同數(shù)量特征屬性情況下的攻擊檢測率
圖4 不同數(shù)量特征屬性情況下的誤報率
表3 特征屬性數(shù)量為14時的檢測結(jié)果
結(jié)合可視化技術(shù)與k-NN分類算法,提出了一種基于雷達(dá)圖特征的入侵檢測方法。通過該方法將高維數(shù)據(jù)維數(shù)降低為3維。從實(shí)驗(yàn)結(jié)果表明,雷達(dá)圖不僅能夠?qū)崿F(xiàn)入侵?jǐn)?shù)據(jù)的可視化顯示,而且根據(jù)其提取的圖形特征能夠獲得較好的攻擊檢測性能,其中對DOS攻擊的檢測率能夠達(dá)到97.9%,四類攻擊的誤報率不高于1.4%。但是,本文只選取了數(shù)據(jù)平均值、多邊形面積和周長作為新特征屬性,其它圖形特征未予考慮,是否存在其它更好的圖形特征組合,有待于進(jìn)一步研究。
[1]Liao H J,Lin C H R,Lin Y C,et al.Intrusion detection system:a comprehensive review[J].Journal of Network and Computer Applications,2013,36(1):16-24.
[2]Tajbakhsh A,Rahmati M,Mirzaei A.Intrusion detection using fuzzy association rules[J].Applied Soft Computing Journal,2009,9(2):462-469.
[3]康松林,周玖玖,李 瓊.入侵檢測中支持向量機(jī)參數(shù)選擇方法[J].中國科技論文,2012,7(10):762-765.
[4]Fisch D,Hofmann A,Sick B.On the versatility of radial basis function neural networks:a case study in the field of intrusion detection [J].Information Sciences,2010,180(12):2421-2439.
[5]Baig Z A,Sait S M,Shaheen A.Gmdh-based networks for intelligent intrusion detection[J].Engineering Applications of Artificial Intelligence,2013,26(7):1731-1740.
[6]洪文學(xué),王金甲,李 昕,等.可視化模式識別[M].北京:國防工業(yè)出版社,2014.
[7]Luo B,Xia J B.A novel intrusion detection system based on feature generation with visualization strategy[J].Expert Systems with Applications,2014,41(9):4139-4147.
[8]劉文遠(yuǎn),李 芳,洪文學(xué).基于多維數(shù)據(jù)雷達(dá)圖表示的圖形分類器研究[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(22):161-164.
[9]李惠君,李志全.基于改進(jìn)雷達(dá)圖的可視化聚類方法研究[J].燕山大學(xué)學(xué)報,2013,37(1):58-62.
[10]陸汝華,李盛欣,段 盛.基于雷達(dá)圖重心特征提取的軸承故障診斷方法[J].軸承,2014,(12):54-57.
[11]劉文遠(yuǎn),李芳,王寶文,等.基于雷達(dá)圖表示的多維數(shù)據(jù)可視化分類方法[J].系統(tǒng)工程理論與實(shí)踐,2010,30(1):178-183.
[12]Liao YH,Vemuri V R.Use of K-Nearest Neighbor Classifier for IntrusionDetection[J].Computers& Security,2002,21 (5):439-448.
An Intrusion Detection Method Based on Visualization Graphical Feature
Chen Shi,Huang Zhiping,Liu Chunwu
(College of Mechatronics Engineering and Automation,National University of Defense Technology,Changsha 410073,China)
Intrusion detection is one of the important measures to guarantee the security of network.The growing diversity and concealment of network attacks lead to the difficult of intrusion detection,which make the research for new intrusion detection method is urgent.Combined with visualization technology and k-Nearest Neighbor classifier,an intrusion detection method based on graphical feature is proposed in this paper.The information gain method is used to rank the original features,and the front features are selected for radar chart visualization presentation.After a new dataset based on the graphical features is generated,k-Nearest Neighbor classifier is applied to train and test it.The results of experiment based on KDDCUP99 dataset show that the proposed method can not only visualize the attacks,but also has really satisfactory performance of intrusion detection,with 97.9%detection rate and 1.4%false positive rate for DOS.
intrusion detection;radar chart;graphical feature;visualization
1671-4598(2016)08-0049-03
10.16526/j.cnki.11-4762/tp.2016.08.013
:TP393.08
:A
2016-03-11;
:2016-04-09。
國家自然科學(xué)基金(61374008);“863”項(xiàng)目(2015AA7115089)。
陳 實(shí)(1986-),男,廣西玉林市人,博士研究生,主要從事網(wǎng)電空間測控方向的研究。
黃芝平(1965-),男,湖南郴州人,教授,博士研究生導(dǎo)師,主要從事網(wǎng)電空間測控方向的研究。