趙冬梅,李 紅
1.河北師范大學 信息技術學院, 石家莊 050024; 2.河北省網(wǎng)絡與信息安全重點實驗室, 石家莊 050024;3.河北師范大學 數(shù)學與信息科學學院,石家莊 050024)(*通信作者電子郵箱heblihong@126.com)
基于并行約簡的網(wǎng)絡安全態(tài)勢要素提取方法
趙冬梅1,2,李 紅2,3*
1.河北師范大學 信息技術學院, 石家莊 050024; 2.河北省網(wǎng)絡與信息安全重點實驗室, 石家莊 050024;3.河北師范大學 數(shù)學與信息科學學院,石家莊 050024)(*通信作者電子郵箱heblihong@126.com)
網(wǎng)絡安全態(tài)勢要素選取的質量對網(wǎng)絡安全態(tài)勢評估的準確性起到至關重要的作用,而現(xiàn)有的網(wǎng)絡安全態(tài)勢要素提取方法大多依賴先驗知識,并不適用于處理網(wǎng)絡安全態(tài)勢數(shù)據(jù)。為提高網(wǎng)絡安全態(tài)勢要素提取的質量與效率,提出一種基于屬性重要度矩陣的并行約簡算法,在經(jīng)典粗糙集基礎上引入并行約簡思想,在保證分類不受影響的情況下,將單個決策信息表擴展到多個,利用條件熵計算屬性重要度,根據(jù)約簡規(guī)則刪除冗余屬性,從而實現(xiàn)網(wǎng)絡安全態(tài)勢要素的高效提取。為驗證算法的高效性,利用Weka軟件對數(shù)據(jù)進行分類預測,在NSL-KDD數(shù)據(jù)集中,相比利用全部屬性,通過該算法約簡后的屬性進行分類建模的時間縮短了16.6%;對比評價指標發(fā)現(xiàn),相比現(xiàn)有的三種態(tài)勢要素提取算法(遺傳算法(GA)、貪心式搜索算法(GSA)和基于條件熵的屬性約簡(ARCE)算法),該算法具有較高的召回率和較低的誤警率。實驗結果表明,經(jīng)過該算法約簡的數(shù)據(jù)具有更好的分類性能,實現(xiàn)了網(wǎng)絡安全態(tài)勢要素的高效提取。
網(wǎng)絡安全態(tài)勢;要素提取;屬性重要度矩陣;粗糙集
網(wǎng)絡安全態(tài)勢感知(Situation Awareness, SA)技術作為一種主動防御的網(wǎng)絡安全技術彌補了傳統(tǒng)安全技術更新周期繁瑣、數(shù)據(jù)源單一、速度慢等缺點,網(wǎng)絡安全態(tài)勢要素作為網(wǎng)絡安全態(tài)勢感知系統(tǒng)的基礎,其質量的優(yōu)劣直接影響整個安全系統(tǒng)的性能,如何從繁雜的網(wǎng)絡安全事件中提取態(tài)勢要素是國內外學者研究的重點問題。國外對網(wǎng)絡安全態(tài)勢要素的提取技術的研究伴隨著網(wǎng)絡態(tài)勢感知概念的提出而開始,美國科學應用國際公司信息保護中心的Bass[1]首次提出網(wǎng)絡態(tài)勢感知概念,通過數(shù)據(jù)精煉、對象精練、態(tài)勢精練三次抽象來獲取網(wǎng)絡安全態(tài)勢要素;美國國家能源研究科學計算中心的Lawrence Berkeley National Labs開發(fā)的“The Spinning Cube of Potential Doom”系統(tǒng)[2]以簡單網(wǎng)絡管理協(xié)議(Simple Network Management Protocol, SNMP)數(shù)據(jù)源為基礎,用旋轉的3D立體中點的顏色展示惡意的網(wǎng)絡流量,通過分析網(wǎng)絡連接狀況實現(xiàn)態(tài)勢要素的提取;但該系統(tǒng)態(tài)勢要素信息源單一,難以全面的評估網(wǎng)絡態(tài)勢狀況。美國國家高級安全系統(tǒng)研究中心將開發(fā)的Security Incident Fusion Tools[3]與專業(yè)人員的認知能力相結合從而實現(xiàn)網(wǎng)絡安全態(tài)勢要素提?。坏摲椒ㄈ菀资艿街饔^因素影響。國內對網(wǎng)絡安全態(tài)勢要素提取相關研究起步較晚,前期在入侵檢測方面所做的相關工作為網(wǎng)絡安全態(tài)勢要素提取技術的研究奠定了基礎。為去除冗余特征、提高運算準確度,哈爾濱工程大學的王慧強等[4]提出一種基于進化神經(jīng)網(wǎng)絡的態(tài)勢要素提取模型,通過將進化策略引入神經(jīng)網(wǎng)絡提高模型的收斂速度和分類精度;李冬銀[5]建立了基于改進的粒子群優(yōu)化(Improved Particle Swarm Optimization, IPSO)算法和邏輯斯諦回歸(Logistic Regression, LR)算法的態(tài)勢要素提取模型(LR-IPSO),利用IPSO全局尋優(yōu)能力對LR的參數(shù)進行估算,從而提高學習精度與速度。針對網(wǎng)絡安全態(tài)勢要素多源異構的特點,司成等[6]提出一種基于本體的網(wǎng)絡安全態(tài)勢要素知識庫模型對態(tài)勢要素進行分類和提取;劉效武等[7]提出一種基于融合的網(wǎng)絡安全態(tài)勢認知感控模型,在模型中通過引入權系數(shù)生成理論對攻擊威脅因子進行排序從而實現(xiàn)態(tài)勢要素的提取。
上述研究方法在某些特定領域取得了一定的成效,但態(tài)勢要素提取過程中需要大量的先驗知識,而網(wǎng)絡安全領域中較難獲取先驗知識。為解決這一問題,網(wǎng)絡安全工作者提出將粗糙集(Rough Set, RS)理論引入網(wǎng)絡安全態(tài)勢感知研究中[8-12],充分利用粗糙集理論學習能力強,無需數(shù)據(jù)集以外的任何先驗知識的優(yōu)勢進行安全態(tài)勢要素提取[13];然而經(jīng)典的粗糙集模型只能處理少量的靜態(tài)數(shù)據(jù),新增數(shù)據(jù)后往往需要對全部的數(shù)據(jù)進行重新計算,效率明顯降低,尤其面對巨大的數(shù)據(jù)量時,很難保證要素提取的實時性。能否及時準確提取要素直接影響網(wǎng)絡安全態(tài)勢評估質量,因此本文提出一種基于屬性重要度矩陣并行約簡算法,在經(jīng)典粗糙集基礎上引入并行約簡思想[14],將單個決策信息表擴展到多個,利用條件熵構建屬性重要度矩陣,根據(jù)約簡規(guī)則刪除冗余屬性,從而實現(xiàn)網(wǎng)絡安全態(tài)勢要素的高效提取。
1.1 網(wǎng)絡安全態(tài)勢感知概念
態(tài)勢感知(SA)思想源于軍事中對敵我攻防態(tài)勢的評估,此后在空中交通監(jiān)管領域[15]、醫(yī)療應急調度領域[16]及電力系統(tǒng)領域[17]等得到了廣泛的應用。網(wǎng)絡安全態(tài)勢感知概念[1]是將交通監(jiān)管態(tài)勢感知的成熟理論與技術運用到網(wǎng)絡安全領域中,它是一個多方面的推理過程,獲取網(wǎng)絡安全態(tài)勢要素是該過程的基礎。
1.2 網(wǎng)絡安全態(tài)勢要素概念
網(wǎng)絡安全態(tài)勢要素指的是在多源異構數(shù)據(jù)源中大量存在的能夠引起網(wǎng)絡安全狀態(tài)發(fā)生變化的一系列基本元素[6],作為一個綜合性的概念網(wǎng)絡安全態(tài)勢要素涉及到大量異構格式的信息,根據(jù)數(shù)據(jù)來源的不同可以將網(wǎng)絡安全態(tài)勢要素分為網(wǎng)絡環(huán)境、網(wǎng)絡漏洞和網(wǎng)絡攻擊三種類別。其中網(wǎng)絡環(huán)境是網(wǎng)絡安全態(tài)勢要素發(fā)揮作用的基礎,由網(wǎng)絡安全設備和與網(wǎng)絡安全狀況相關的網(wǎng)絡拓撲與應用配置組成;網(wǎng)絡漏洞是網(wǎng)絡安全態(tài)勢要素的重要組成部分,包括漏洞屬性、漏洞對象,攻擊者通過掃描系統(tǒng)存在的缺陷,黑客利用這些缺陷實現(xiàn)非法訪問或侵權;網(wǎng)絡攻擊是網(wǎng)絡安全態(tài)勢要素的核心內容,也是網(wǎng)絡安全態(tài)勢面臨的主要威脅,包括攻擊工具、攻擊方法和攻擊結果等。網(wǎng)絡環(huán)境與網(wǎng)絡漏洞是網(wǎng)絡本身固有特征,對網(wǎng)絡安全態(tài)勢具有一定影響,但決定網(wǎng)絡安全態(tài)勢的關鍵在于網(wǎng)絡攻擊,因此本文研究的網(wǎng)絡安全要素提取主要針對網(wǎng)絡攻擊類型。
1.3 網(wǎng)絡安全態(tài)勢要素的選取
在真實的信息網(wǎng)絡實體中態(tài)勢感知的數(shù)據(jù)來源要全面和豐富[18-19],網(wǎng)絡安全態(tài)勢要素應涵蓋信息網(wǎng)絡的各個層次,從而為整個網(wǎng)絡安全態(tài)勢提供全面、準確的信息支持,選取的態(tài)勢要素應該具有以下特點:
1)覆蓋全面。從諸多的網(wǎng)絡安全態(tài)勢要素中選取的特征要素必須能全面反映網(wǎng)絡安全態(tài)勢的狀況,即依據(jù)所選取出來的態(tài)勢要素即可對整體網(wǎng)絡安全態(tài)勢狀況進行感知分析。
2)特征顯著。所選取的態(tài)勢要素要具有典型代表性,即根據(jù)態(tài)勢要素可以清晰準確地對樣本進行分類,且保證不同類別的樣本之間具有較大區(qū)分度。
3)易于提取。在保證分類性能不變的前提下,所提取的態(tài)勢要素的個數(shù)不宜過多,從而可以減少運算量,提高整體態(tài)勢感知的效率。
4)強魯棒性。當網(wǎng)絡安全態(tài)勢發(fā)生變化時,僅僅需要更新那些對應單元中的態(tài)勢要素值即可,且對于網(wǎng)絡安全態(tài)勢中的噪聲數(shù)據(jù)具有一定的處理能力。
網(wǎng)絡安全態(tài)勢要素提取是實現(xiàn)網(wǎng)絡安全態(tài)勢感知的基礎,網(wǎng)絡安全態(tài)勢要素選取的質量對網(wǎng)絡安全態(tài)勢評估的準確性起到至關重要的作用,從繁雜的網(wǎng)絡安全態(tài)勢信息中提取出符合要求的態(tài)勢要素是本文研究的重點內容,圖1展示的是網(wǎng)絡安全態(tài)勢要素提取的一般過程。
圖1 態(tài)勢要素提取的一般過程
網(wǎng)絡安全態(tài)勢要素提取的關鍵是能準確發(fā)現(xiàn)網(wǎng)絡中的異常信息,提取態(tài)勢要素的本質是一個屬性篩選過程,即通過約簡算法去除冗余屬性,從而提取出必要的網(wǎng)絡安全態(tài)勢要素[20]。網(wǎng)絡完全態(tài)勢要素信息具有數(shù)據(jù)量大且屬性數(shù)目多等特點[21]且不同屬性的類型混雜多樣,面對大量異構的網(wǎng)絡安全態(tài)勢要素信息,提取屬性集合成為網(wǎng)絡安全態(tài)勢要素提取的必要過程?,F(xiàn)有的提取屬性集合的方法有主成分分析(Principal Component Analysis, PCA)法、奇異值分解(Singular Value Decomposition, SVD)法和粗糙集(RS)等,其中PCA和SVD不可避免地會損失一部分決策信息[20],而基于粗糙集的屬性約簡則沒有改變原始數(shù)據(jù)的決策規(guī)則?;诖植诩膽B(tài)勢要素提取過程如圖2所示。經(jīng)典粗糙集模型是基于正域定義的[13],只能處理靜態(tài)且數(shù)據(jù)量較少的數(shù)據(jù),為適應網(wǎng)絡安全態(tài)勢要素特點,本文通過對基于條件熵的屬性約簡算法進行改進,提出一種基于并行約簡的態(tài)勢要素提取方法。
圖2 基于粗糙集的態(tài)勢要素提取流程
原始網(wǎng)絡安全態(tài)勢數(shù)據(jù)經(jīng)過連續(xù)屬性離散化、數(shù)據(jù)歸一化標準處理等預處理過程,形成態(tài)勢要素信息集合,即建立態(tài)勢要素決策表;根據(jù)約簡算法求取態(tài)勢要素核屬性,即態(tài)勢要素中不可刪除的屬性集合;之后對其余屬性根據(jù)約簡規(guī)則進行篩選,去除冗余屬性保留重要屬性,最終確定優(yōu)化后的特征子集。
2.1 構建態(tài)勢要素信息集合
態(tài)勢要素信息決策系統(tǒng)T被定義為一個四元組T=〈U,R,V, f〉,其中:U表示態(tài)勢要素的樣本集合;R=C∪D是態(tài)勢要素屬性集合,C={C1,C2,…,Cn}為特征屬性集合;D={D1,D2,…,Dm}為決策屬性集合;V表示屬性的值域; f:U*R→V表示信息函數(shù),它指定U中每一個對象x的屬性值。任意一個決策表S=〈U′,C∪D,V, f〉,如果滿足U′?U,稱為T的決策子表。
對于特征屬性集合C的一個子集A,刪除屬性a(?a∈A)或者添加任意一個其他屬性后未對原來的決策產生影響,那么該屬性為非必要屬性,可以進行約簡。具體描述如下:
對于特征屬性集合C的一個子集A,屬性a∈A,如果滿足刪除屬性a后對于屬性子集A的條件熵未受影響,即G(D|A)=G(D|A-{a}),或者屬性a∈C且a?A,往屬性子集A中增加屬性a,使得G(D|A∪{a})=G(D|A),那么屬性a在屬性子集A中是冗余的,可以約簡。
當且僅當特征屬性子集A?C滿足條件:1)對于任何子表S∈F,G(S,A;D)=G(S,C;D);2)對于任意的B?A至少存在一個子表S∈F使得G(S,B;D) 對于態(tài)勢要素信息的決策系統(tǒng)T,包含態(tài)勢要素特征屬性集合C相對于決策屬性D的全部必要特征屬性組成的集合稱為C相對于D的核,表示為CORED(C)。 2.2 建立態(tài)勢要素屬性重要度矩陣 如果屬性集合A是用來描述態(tài)勢要素信息樣本U中的條件屬性的子集之一,則Q在U上的劃分為: U/IND(A)={Y1,Y2,…,Ym} (1) 如果屬性集合r5rr5zj是態(tài)勢要素決策屬性的子集之一,則P在U上的劃分為: U/IND(d)={X1,X2,…,Xn} (2) 則D關于A的條件熵G(D|A)定義為: (3) 態(tài)勢要素信息的決策系統(tǒng)T=〈U,C∪D〉,P(T)表示T的所有子表,F?P(T),特征屬性子集A?C,A關于F的相對于D的屬性重要度矩陣為: (4) 其中:σij=σ(aj,Ui)=Gi(A;D)-Gi(A-{aj};D),aj∈B,(Ui,C,D)∈F,F中子決策表的個數(shù)為n,T中屬性的個數(shù)為m。 (5) 在矩陣M(A,D,F)或M′(A,D,F)中每一行表示同一個決策子表中不同屬性相對于決策屬性D的分類能力,每一列表示不同決策子表上同一個屬性相對于決策屬性D的分類能力。由上述理論可知M(C,D,F)矩陣中任意大于0的元素對應的屬性是其子表的核屬性,因此M(A,D,F)矩陣中某一列元素全大于0,則該列對應的屬性為并行約簡的核屬性,即必要特征屬性集合。 2.3 算法描述 基于并行約簡的態(tài)勢要素提取算法的主要思想:首先根據(jù)態(tài)勢要素特征屬性集合C建立的屬性重要度矩陣M(C,D,F)計算并行約簡的核屬性B,之后計算矩陣M′(B,D,F),并將M′(B,D,F)中不為0元素個數(shù)最多的列對應的特征屬性加入到核屬性B中形成屬性集合P,重復以上步驟,直到M′(A,D,F)中的元素均為0,此時集合P為次優(yōu)約簡結果,然后依次刪除次優(yōu)約簡集合P中的每個屬性并計算刪除屬性后的條件熵,如果仍等于G(D|P),則刪除該屬性,重復此步驟直到遍歷次優(yōu)約簡集合P中的每一個屬性,此時得到的屬性集合即為最優(yōu)約簡集合,即所求的必要的特征屬性集合?;趯傩灾匾染仃嚨牟⑿屑s簡算法(ParallelReductionAlgorithmbasedonMatrixofAttributeImportance,PRAMAI)具體實現(xiàn)步驟如下所示: 1)求態(tài)勢要素信息系統(tǒng)的核屬性B。 態(tài)勢要素信息系統(tǒng)的核屬性中的每一個屬性都是某兩個屬于不同決策類別的對象的唯一不同的條件屬性,是約簡集合中必不可少的屬性集合。具體步驟見算法1。 算法1 求核屬性。 輸入:態(tài)勢要素信息系統(tǒng)T=〈U,R,V,f〉,P(T)表示T的所有子表P(T),F?P(T)。 輸出:核屬性集合B。 a)根據(jù)式(4)計算屬性重要度矩陣M(C,D,F)。 b)計算F中所有決策子表的屬性核core(B): (6) c)輸出核屬性集合B,算法結束。 2)求態(tài)勢要素信息系統(tǒng)的次優(yōu)約簡屬性P。 求態(tài)勢要素信息系統(tǒng)的次優(yōu)約簡是整個算法的關鍵步驟,次優(yōu)約簡P的屬性個數(shù)直接影響求取最優(yōu)約簡屬性集合的工作量。具體步驟見算法2。 算法2 求次優(yōu)約簡屬性集合。 輸入:態(tài)勢要素信息系統(tǒng)T=〈U,R,V,f〉,T的所有子表P(T),F?P(T),核屬性B。 輸出:次優(yōu)約簡屬性集合P。 a)令P=B。 b)E=C-P。 c)重復以下步驟,直到E=?或者G(D|P)=G(D|C): 對于?ak∈E(k=1,2,…,n),計算M′(P,D,F); 選擇屬性重要度非零且值最大的屬性ak∈E,P=P∪{ak},E=E-{ak}(將屬性重要度非零且值最大的屬性添加到集合P中)。 d)輸出次優(yōu)約簡屬性集合P,算法結束。 3)求態(tài)勢要素信息系統(tǒng)的最優(yōu)約簡V。 為進一步刪除態(tài)勢要素信息系統(tǒng)冗余屬性,在次優(yōu)約簡基礎上重新掃描并依次刪除冗余屬性。具體步驟見算法3。 算法3 求最優(yōu)約簡屬性集合。 輸入:態(tài)勢要素信息系統(tǒng)T=〈U,R,V,f〉,次優(yōu)約簡屬性P。 輸出:最優(yōu)約簡屬性集合V。 a)令V=P。 b)計算G(D|P)。 c)對于?vi∈V,重復以下步驟: 計算G(D|V-{vi}); 如果G(D|V-{vi})=G(D|P),V=V-{vi}。 d)輸出最優(yōu)約簡屬性集合V,算法結束。 2.4 實例分析 假設態(tài)勢要素信息系統(tǒng)T={T1,T2},決策子系統(tǒng)T1=〈U1,C∪D,V,f〉,決策子系統(tǒng)T2=〈U2,C∪D,V,f〉,U1={x1,x2,x3,x4},U2={x5,x6,x7,x8,x9,x10},分別表示4個、6個網(wǎng)絡安全態(tài)勢狀況,特征屬性C={a1,a2,a3},表示網(wǎng)絡狀況;決策屬性D=xdfjhp5,表示網(wǎng)絡安全是否受到威脅;T1、T2如表1~2所示。 第1步 求態(tài)勢要素信息系統(tǒng)的核屬性B。 1)計算屬性重要度σij,得 2)從屬性重要度矩陣可以明顯看出,兩個決策子系統(tǒng)中屬性a1的重要度均不為0,根據(jù)式(6)可以判定核屬性為B={a1},即屬性a1為不可刪除屬性,此時G(D|B)≠G(D|C)。 第2步 求態(tài)勢要素信息系統(tǒng)的次優(yōu)約簡。 2)屬性a3屬性重要度為0,因此將屬性a3從集合中刪除,屬性a2重要度不為0且值最大,因此將屬性a2加入到P中,此時E=?,P={a1,a2}且G(D|P)=G(D|C),此時P={a1,a2}就是C相對于D的一個次優(yōu)約簡結果。 第3步 求態(tài)勢要素信息系統(tǒng)的最優(yōu)約簡V。 1)P={a1,a2},根據(jù)式(3)計算得G(D|P)=0,令V=P。 2)G(D|V-{a1})=G(D|{a2})=0.240 82≠G(D|P), 所以a1是必要屬性。 G(D|V-{a2})=G(D|{a1})=0.165 86≠G(D|P),所以a2是必要屬性。 3)V={a1,a2}中所有屬性都是必要屬性,即V是獨立的;又因為G(D|V)=G(D|C),因此集合V為態(tài)勢要素信息系統(tǒng)的一個約簡,且其中不含任何冗余屬性,因此V={a1,a2}為態(tài)勢要素信息系統(tǒng)的一個最優(yōu)約簡。 表1 決策子系統(tǒng)T1 表2 決策子系統(tǒng)T2 3.1 實驗數(shù)據(jù)集及環(huán)境 本文實驗數(shù)據(jù)選自數(shù)據(jù)集NSL-KDD數(shù)據(jù)集,NSL-KDD數(shù)據(jù)集是KDD99數(shù)據(jù)集的精煉數(shù)據(jù)集,共包含41個條件屬性和1個標簽屬性。標簽屬性為:Probe、DoS、U2R、R2L和Normal五種類型。實驗環(huán)境為:Windows7操作系統(tǒng),2.13GHz處理器,4GB內存。實驗工具包括:ROSETTA、Matlab2010a、WEKA3.9。 3.2 性能指標 本文將召回率Recall和誤警率FalsePositive作為檢測性能的評價指標: (7) (8) 其中:TP為正樣本個數(shù),FN為負樣本個數(shù),FP為分類到正樣本中負樣本的個數(shù)。 3.3 實驗結果分析 NSL-KDD數(shù)據(jù)集中數(shù)據(jù)類型為混合型,實驗前需要對數(shù)據(jù)進行預處理,為消除各屬性量綱不一致的影響,首先對數(shù)據(jù)進行標準歸一化處理,其次利用ROSETTA中的BooleanReasoning算法對數(shù)據(jù)集中32個連續(xù)型屬性進行離散化處理。經(jīng)本文算法篩選后特征屬性為10個,用全部屬性數(shù)據(jù)集與約簡后屬性數(shù)據(jù)集分別訓練分類器,表3 中展示的是使用全部屬性(包含41個屬性和1個決策屬性)、經(jīng)過本文算法約簡后的屬性對NSL-KDD數(shù)據(jù)集進行檢測的對比結果。 表3 全部屬性和約簡后屬性檢測性能對比結果 由表3可以看出:本文算法約簡后的屬性集合訓練的分類器與用全部屬性集合訓練的分類器相比,在對攻擊類型的檢測上均有較高的召回率和較低的誤警率,且經(jīng)過約簡后的數(shù)據(jù)集在建立分類模型時時間縮短16.6%。在NSL-KDD數(shù)據(jù)集中DoS攻擊類型的數(shù)據(jù)通常具有連接持續(xù)時間較長且源主機與目的主機之間的數(shù)據(jù)字節(jié)數(shù)較大等特點,這是由于攻擊對象持續(xù)對目標主機進行資源侵占,但現(xiàn)實網(wǎng)絡中由于對目標主機或服務器的訪問量大也會出現(xiàn)上述數(shù)據(jù)特點,因此模型在分類時容易將正常的數(shù)據(jù)歸為DoS類型攻擊,導致召回率較低,但在其余四種攻擊類型的判斷中均具有較好的性能??傮w上來看經(jīng)過本文算法約簡后的數(shù)據(jù)集合在分類性能上更優(yōu)越,并且對于攻擊類型的檢測上耗時少、準確率高,這說明該算法可以有效去除冗余屬性,提高分類性能。 圖3中展示的是通過遺傳算法(GeneticAlgorithm,GA)、貪心式搜索算法(GreedySearchAlgorithm,GSA)、基于條件熵的屬性約簡(AttributeReductionbasedonConditionalEntropy,ARCE)算法和本文算法選擇的屬性分別對網(wǎng)絡數(shù)據(jù)進行檢測的對比結果,分類器分別采用了Lib-SVM和BayerNet。 圖3 幾種算法分類器分類結果對比 從圖3可看出,經(jīng)過本文算法處理過的數(shù)據(jù)相比其他約簡算法處理過的數(shù)據(jù)在不同的分類器下都表現(xiàn)出了較高的召回率,實驗結果表明,本文算法適用于不同的分類器,并且網(wǎng)絡安全態(tài)勢要素提取性能更好。 本文對國內在網(wǎng)絡安全態(tài)勢要素提取方面所做的工作進行了研究分析,并從中總結發(fā)現(xiàn)現(xiàn)有的研究方法在要素提取過程中過多依賴先驗知識。為此,在分析網(wǎng)絡安全態(tài)勢要素的特點基礎上提出一種基于屬性重要度矩陣的并行約簡算法進行網(wǎng)絡安全態(tài)勢要素提取,該方法解決了經(jīng)典粗糙集模型在屬性約簡過程中只能處理少量靜態(tài)數(shù)據(jù)的問題,經(jīng)過本文算法處理的數(shù)據(jù)集與原數(shù)據(jù)集相比在對攻擊類型的建模上時間明顯縮短,且具有較高的召回率與較低的誤警率,實現(xiàn)了對網(wǎng)絡安全態(tài)勢要素的高效提取。 ) [1]BASST.Multisensordatafusionfornextgenerationdistributedintrusiondetectionsystems[EB/OL]. [2016- 03- 10].http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.51.1753. [2]STEPHENL.Thespinningcubeofpotentialdoom[J].CommunicationsoftheACM, 2004,47(6):25-26. [3]YURCIKW.VisualizingNetFlowsforsecurityatlinespeed:theSIFTtoolsuite[C]//LISA2005:Proceedingsofthe19thConferenceonLargeInstallationSystemAdministrationConference.Berkeley,CA,USA:USENIXAssociation, 2005:169-176. [4]WANGH,LIANGY,YEH.Anextractionmethodofsituationalfactorsfornetworksecuritysituationalawareness[C]//ICICSE2008:InternationalConferenceonInternetComputinginScienceandEngineering.Washington,DC:IEEEComputerSociety, 2008:317-320. [5] 李冬銀. 基于Logistic回歸的網(wǎng)絡安全態(tài)勢要素獲取研究[D]. 福州:福州大學, 2014.(LIDY.Theresearchonsituationelementextractionofnetworksecuritybasedonlogisticregression[D].Fuzhou:FuzhouUniversity, 2014.) [6] 司成, 張紅旗, 汪永偉, 等. 基于本體的網(wǎng)絡安全態(tài)勢要素知識庫模型研究[J]. 計算機科學, 2015, 42(5):173-177.(SIC,ZHANGHQ,WANGYW,etal.Researchonnetworksecuritysituationalelementsknowledgebasemodelbasedonontology[J].ComputerScience, 2015, 42(5):173-177.) [7] 劉效武, 王慧強, 呂宏武, 等.網(wǎng)絡安全態(tài)勢認知融合感控模型[J]. 軟件學報, 2016, 27(8):2099-2114.(LIUXW,WANGHQ,LYUHB,etal.Fusion-basedcognitiveawareness-controlmodelfornetworksecuritysituation[J].JournalofSoftware, 2016, 27(8):2099-2114.) [8]LIN,CHENZ,ZHOUG.Networktrafficclassificationusingroughsettheoryandgeneticalgorithm[C]//ICIC2006:Proceedingsofthe2006InternationalConferenceonIntelligentComputing.Berlin:Springer, 2006:945-950. [9] 梁穎, 王慧強, 賴積保. 一種基于粗糙集理論的網(wǎng)絡安全態(tài)勢感知方法[J]. 計算機科學, 2007, 34(8):95-97.(LIANGY,WANGHQ,LAIJB.Amethodofnetworksecuritysituationawarenessbasedonroughsettheory[J].ComputerScience, 2007, 34(8):95-97.) [10] 費洪曉, 胡琳. 一種粗糙集-決策樹結合的入侵檢測方法[J]. 計算機工程與應用, 2012, 48(22):124-128.(FEIHX,HUL.Combinedroughsetanddecisiontreemethodforintrusiondetection. [J].ComputerEngineeringandApplications, 2012, 48(22):124-128.) [11] 何偉娜, 褚龍現(xiàn), 姜建國. 混合型數(shù)據(jù)庫中入侵檢測技術仿真[J]. 計算機仿真, 2015, 32(11):425-428.(HEWN,CHULX,JIANGJG.Simulationofintrusiondetectiontechnologyforhybriddatabase[J].ComputerSimulation, 2015, 32(11): 425-428.) [12]LUANX,LIZ,LIUT.Anovelattributereductionalgorithmbasedonroughsetandimprovedartificialfishswarmalgorithm[J].Neurocomputing, 2015, 174:522-529. [13] 李洪成, 付鈺, 葉清, 等.基于粗糙集定權的網(wǎng)絡安全態(tài)勢要素提取方法[J]. 計算機與數(shù)字工程, 2014, 42(3):436-439.(LIHC,FUY,YEQ,etal.Networksecuritysituationelementextractionmethodbasedonroughset[J].Computer&DigitalEngineering, 2015, 42(3):436-439.) [14] 陳林.粗糙集中不同粒度層次下的并行約簡及決策[D]. 金華:浙江師范大學, 2013.(CHENL.Parallelreductsanddecisioninvariouslevelsofgranularity[D].Jinhua:ZhejiangNormalUniversity, 2013.) [15]KRAEMERJ,Sü?HM.Realtimevalidationofonlinesituationawarenessquestionnairesinsimulatedapproachairtrafficcontrol[J].ProcediaManufacturing, 2015, 3:3152-3159. [16]AFKARIH,BEDNARIKR,MKELS,etal.Mechanismsformaintainingsituationawarenessinthemicro-neurosurgicaloperatingroom[J].InternationalJournalofHuman-ComputerStudies, 2016, 95:1-14. [17]PANTELIM,KIRSCHENDS.Situationawarenessinpowersystems:theory,challengesandapplications[J].ElectricPowerSystemsResearch, 2015, 122:140-151. [18] 劉玉嶺, 馮登國, 連一峰, 等.基于時空維度分析的網(wǎng)絡安全態(tài)勢預測方法[J]. 計算機研究與發(fā)展, 2014, 51(8): 1681-1694.(LIUYL,FENGDG,LIANYF,etal.Networksituationpredictionmethodbasedonspatial-timedimensionanalysis[J].JournalofComputerResearchandDevelopment, 2014, 51(8): 1681-1694.) [19] 姚書科. 網(wǎng)絡安全態(tài)勢要素指標體系研究[J]. 電子設計工程, 2012, 20(13):85-88.(YAOSK.Networksecuritysituationfactorindexsystemresearch[J].ElectronicDesignEngineering, 2012, 20(13): 85-88.) [20] 郭劍. 網(wǎng)絡安全態(tài)勢感知中態(tài)勢要素獲取技術的研究[D]. 沈陽:東北大學, 2011.(GUOJ.Studythetechnologyofextractionsituationfactorfornetworksecuritysituationawareness[D].Shenyang:NortheasternUniversity, 2011.) [21] 賴積保, 王穎, 王慧強, 等. 基于多源異構傳感器的網(wǎng)絡安全態(tài)勢感知系統(tǒng)結構研究[J]. 計算機科學, 2011, 38(3):144-149, 158.(LAIJB,WANGY,WANGHQ,etal.Researchonnetworksecuritysituationawarenesssystemarchitecturebasedonmulti-sourceheterogeneoussensors[J].ComputerScience, 2011, 38(3): 144-149, 158.) ThisworkispartiallysupportedbytheNationalNaturalScienceFoundationofChina(61672206),theScienceandTechnologyProjectofHebeiProvince(15214706D). ZHAO Dongmei, born in 1966, Ph. D., professor. Her research interests include network security, information security. LI Hong, born in 1990, M. S. candidate. Her research interests include information security. Approachtonetworksecuritysituationalelementextractionbasedonparallelreduction ZHAODongmei1,2,LIHong2,3* (1.CollegeofInformationTechnology,HebeiNormalUniversity,ShijiazhuangHebei050024,China;2.HebeiKeyLaboratoryofNetworkandInformationSecurity,ShijiazhuangHebei050024,China;3.CollegeofMathematicsandInformationScience,HebeiNormalUniversity,ShijiazhuangHebei050024,China) The quality of network security situational element extraction plays a crucial role in network security situation assessment. However, most of the existing network security situational element extraction methods rely on prior knowledge, and are not suitable for processing network security situational data. For effective and accurate extraction of network security situational elements, a parallel reduction algorithm based on matrix of attribute importance was proposed. The parallel reduction was introduced into classical rough set, then a single decision information table was expanded to multiple ones without affecting the classification. The conditional entropy was used to calculate attribute importance, and the redundant attributes were deleted according to reduction rules, thus the network security situational elements were extracted efficiently. In order to verify the efficiency of the proposed algorithm, the classification prediction was implemented on Weka. Compared with the usage of all the attributes, the classification modeling time on NSL-KDD dataset was reduced by 16.6% by using the attributes reduced by the proposed algorithm. Compared with the existing three element extraction algorithms (Genetic Algorithm (GA), Greedy Search Algorithm (GSA), and Attribute Reduction based on Conditional Entropy (ARCE) algorithm), the proposed algorithm has higher recall rate and low false positive rate. The experimental results show that the data set reduced by the proposed algorithm has better classification performance, which realizes an efficient extraction of network security situational elements. network security situation; element extraction; matrix of attribute importance; Rough Set (RS) 2016- 11- 04; 2016- 12- 21。 國家自然科學基金資助項目(61672206); 河北省科技計劃項目(15214706D)。 趙冬梅(1966—),女,河北深州人,教授,博士,CCF會員,主要研究方向:網(wǎng)絡安全、信息安全; 李紅(1990—),女,河北衡水人,碩士研究生,CCF會員,主要研究方向:信息安全。 1001- 9081(2017)04- 1008- 06 10.11772/j.issn.1001- 9081.2017.04.1008 TP A3 實驗與分析
4 結語