馬 姝 商美妮
[摘要]數(shù)據(jù)挖掘能從大量數(shù)據(jù)中提取出潛在的有應用價值的模式,而粗糙集理論作為一種分析不確定知識的強有力的數(shù)學工具,為數(shù)據(jù)挖掘提供一種嶄新的工具。建立網(wǎng)絡入侵檢測的系統(tǒng)結(jié)構(gòu),通過粗糙集方法在預處理中屬性約簡的應用,減小處理數(shù)據(jù)的規(guī)模,通過測試集上的實驗得到驗證粗糙集適用于入侵檢測這樣大數(shù)據(jù)集的問題。
[關(guān)鍵詞]粗糙集理論入侵檢測屬性約簡
中圖分類號:TP3文獻標識碼:A文章編號:1671-7597(2009)0710119-01
一、引言
互聯(lián)網(wǎng)正在不斷地高速發(fā)展,與此同時互聯(lián)網(wǎng)的開放性和安全漏洞帶來的安全風險也無處不在,網(wǎng)絡安全問題變得更加錯綜復雜。為了保證網(wǎng)絡系統(tǒng)的安全,就需要有一種能夠及時發(fā)現(xiàn)并報告系統(tǒng)中未授權(quán)或異?,F(xiàn)象的技術(shù),即入侵檢測系統(tǒng)(Intrusion Detection System,簡稱IDS),它可在一定程度上預防和檢測來自系統(tǒng)內(nèi)、外的入侵。
二、粗糙集理論的基本概念
粗糙集理論是一種刻畫不完整性和不確定性的數(shù)學工具,能有效地分析不精確(imprecise)、不一致(inconsistent)、不完整(incomplete)等各種不完備的信息,還可以對數(shù)據(jù)進行分析和推理,從中發(fā)現(xiàn)隱含的知識,揭示潛在的規(guī)律。
(一)知識的含義與表示方法
定義1 設(shè)U是我們感興趣的對象組成的非空有限集合,稱為論域(全域)。任何子集XU,稱為U中的一個概念或范疇。U的一組概念稱為U上的抽象知識,簡稱為知識。
定義2 U上的一個劃分稱為關(guān)于U的一個知識庫(Knowledge Base)。一個知識庫就是一個關(guān)系系統(tǒng)K=(U,R),(U,R)稱為近似空間,其中U是非空有限集,R為U上等價關(guān)系的一個族集。U/R表示R的所有等價類(或者U上的分類)構(gòu)成的集合,稱為關(guān)于U的一個知識,[X]R表示的是包含元素x∈U的R等價類。
(二)粗糙集
定義3 令x U,當X能用屬性子集P確切的描述(即是屬性子集P所確定的U上的不可分辨集的并)時,稱X是P可定義的,否則稱X是P不可定義的。P可定義集也稱作P精確集,P不可定義集也稱為P非精確集或P粗糙集。
定義4 設(shè)集合X U,RIND(K),定義兩個子集: X=∪{Y∈U/R|Y
X},X=∪{Y∈U/R|Y∩X≠?}。
分別稱它們?yōu)閄的R下近似集和R上近似集。
集合BNR(X)=X-X稱為X的R邊界域;
POSR(X)=X稱為X的R正域;
NEGR(X)=U-X稱為X的R負域。
(三)知識的約簡與核
定義5 知識約簡就是在保持知識庫分類能力不變的條件下,刪除其中不必要的知識。
定義6 令P為一族等價關(guān)系,R∈P,如果IND(P-{R})=IND(P),則稱關(guān)系R在P中是不必要的;否則稱關(guān)系R在P中是必要的。
定義7 設(shè)U是一個論域,P為定義在U上的一個等價關(guān)系族,P中所有必要關(guān)系組成的集合,稱為族集P的核(core),記作core(P)。
三、基于粗糙集理論的網(wǎng)絡入侵檢測系統(tǒng)模型及工作流程
(一)訓練階段
訓練數(shù)據(jù)是帶有攻擊類型的網(wǎng)絡連接記錄,首先由數(shù)據(jù)預處理模塊對訓練數(shù)據(jù)進行預處理,產(chǎn)生符合數(shù)據(jù)挖掘要求的特定格式的記錄;屬性約簡模塊消除冗余的記錄和無關(guān)的屬性,以加快系統(tǒng)的效率;然后進入規(guī)則挖掘階段,可以利用數(shù)據(jù)挖掘的不同算法形成新的規(guī)則,為了使規(guī)則更具有一般性,可以進行規(guī)則合并,來減少規(guī)則的數(shù)目,從而提高匹配的效率。
(二)監(jiān)測階段
從網(wǎng)絡上捕獲的當前行為記錄首先經(jīng)過數(shù)據(jù)預處理、與已建立的入侵模式庫中的規(guī)則進行匹配,如果匹配成功,說明此種入侵發(fā)生。
四、實驗測試(在入侵檢測中應用粗糙集理論進行屬性約簡)
屬性約簡可以去除大量信息中的多余屬性,降低信息空間的維數(shù)和屬性數(shù)量,既大大簡化了樣本數(shù)量,又縮短了訓練時間。本文運用約簡算法,把原來的42個屬性約簡為15個屬性。
為了驗證約簡以后數(shù)據(jù)集的分類能力并沒有降低,我們采用以下方法驗證:
實驗采用Weka系統(tǒng)提供的分類器,選取了4個分類器RBF Network、Bayes Net、ID3、Decision Table,依次編號。每個分類器的檢測率是在測試集上成功預測的實例占總實例的百分比,采用訓練集方法估計分類器的檢測率,結(jié)果見表4-1。
約簡后的數(shù)據(jù)集的分類檢測率與約簡前不相上下甚至略高,說明屬性約簡對檢測準確度并沒有太大的影響。但是運行時間卻縮短了很多。
五、總結(jié)及展望
本文討論了粗糙集理論在網(wǎng)絡入侵檢測中的應用,用粗糙集理論對條件屬性進行約簡,從眾多的狀態(tài)屬性中選擇了最有效的條件屬性,簡化了網(wǎng)絡入侵檢測需要處理的數(shù)據(jù)。實踐表明,基于粗糙集理論的網(wǎng)絡入侵檢測方法提高了入侵檢測的速度。但是在利用粗糙集理論尋找較優(yōu)約簡數(shù)據(jù)表時仍存在計算量較大的問題,同時,怎樣優(yōu)選屬性還需在理論上進一步論證和探討。
參考文獻:
[1]苗奪謙、李道國,粗糙集理論、算法與應用,清華大學出版社,2008.4.
[2]張文修、仇國芳,基于粗糙集的不確定決策,清華大學出版社.
[3]羅敏、張煥國、王麗娜,基于數(shù)據(jù)挖掘的網(wǎng)絡入侵檢測技術(shù):研究綜述,計算機科學,2003,30(2):105-107,117.