乜國雷
(青海民族大學,青海西寧 810003)
入侵檢測系統 (intrusion detection system,IDS)是用于檢測計算機異常行為操作的一種主動安全防護措施,它從系統的各種資源主動采集數據信息來分析其中可能存在的入侵行為[1].對于它的研究,呂志軍等[2]提出了基于強規(guī)則和基于弱規(guī)則的關聯規(guī)則挖掘方法來檢測那些異常操作較少和分布時間長等不易的網絡攻擊.楊向榮等[3]提出了一種具有自主學習、自主完善功能的入侵監(jiān)測模型,可發(fā)現已知和未知的異常入侵活動.有研究者[4]為了實現高速網絡環(huán)境下的入侵檢測,對入侵檢測的機理進行探討,將入侵檢測歸結于不完備數據集上的推理過程,提出知識庫的相似度、完備度等概念,并用其對知識庫的規(guī)模和增長速度進行控制,從而保證入侵檢測在有限規(guī)模的空間中進行搜索.錢鵬程[5]為了解決關系數據庫模式和本體間的集成問題,存在映射關系,針對模式映射算法,提出了一種基于概念間相似度的計算策略.基于以上研究,筆者提出了一種基于本體映射的網絡自適應入侵檢測系統模型 ANDIDSMOM (A network adaptive intrusion detection system model based on ontology mapping).
在ANDIDSMOM模型中,待測數據集是否異常,由數據評估決定,當數據評估通過本體映射時,若相似度在閾值范圍內,才被認為是正常的、可靠的數據集.
數據集可能是位于主機的,也可能是正在網絡中傳輸的,也可能是混合型的數據包[6],該模型采取基于網絡的數據為采集對象,對計算機網絡中所有信息資源進行檢測,挖掘潛在數據集的安全性,使整個網絡健壯性有一定的提高.當數據集采集完成后,需要對數據集進行預處理,該模型即對數據集進行本體抽取,按照本體的概念,對所有數據集的知識主體進行獲取,構建本體知識庫,以作為本體映射的參考.同時針對已知的異常數據集和挖掘的預測數據集建立特征庫,作為待測數據集被數據評估集認定為入侵時,予以特征檢測.
檢測開始時,待測數據集首先進行本體獲取,對待測數據集所涉及的知識進行抽取,形成本體,然后和本體知識庫進行映射,若相似度在閾值范圍內,則認為屬于可靠行為,否則,置放進數據評估集.然后根據特征庫進行相似度判定,若屬于用戶誤操作,對用戶提供建議,否則,若屬于異常入侵,予以報警,同時對本題庫和特征庫進行更新.
定義1: 本體.本體由一個5元組[7]{C,R,H,Rel,A}來表示,其中C和R表示2個不相交的集合,C中的元素為概念,R中的元素為關系,H為概念層次,即概念間的分類關系,Rel為概念間的非分類關系,A表示本體公理.構造本體的任務即概念的獲取,概念間分類關系和非分類關系的提取和公理的抽象表達.
定義2:信息共享含量.2個對象對同一知識領域和范圍內數據元或知識元的包含程度,設數據元為E,則:
式(1)中K為信息含量樹Y的節(jié)點集合,A和B為具體含有數據元E的信息含量節(jié)點,P(E)表示數據信息E被訪問的頻率,Dep(A,B)為節(jié)點含量樹Y中深度最大的2個具體節(jié)點.信息含量樹Y自頂向下按照信息含量排列,共享信息含量節(jié)點集合D中包含持有數據元E的節(jié)點,其深度越大,訪問的頻率越大,該函數是一個單調遞增函數,即被訪問到的頻率越大,信息含量X對數據元E包含越充足.
定義3:本體映射.本體之間共享信息含量的接近程度,即信息含量樹Y中節(jié)點與搜索語句的最短查詢路徑.
式 (2)引入Li在文獻[9]中提出的一種有效地度量IS-A概念樹上2個概念之間相似度的函數.該模型采取信息含量樹和待測數據集本體所包含信息含量的最短查詢路徑衡量本體的映射程度,所以將其引入信息含量樹Y中節(jié)點與搜索語句的最短查詢路徑的計算中,其中A和B是信息含量樹上的任意兩個概念,是它們在興趣樹上的最短路徑,h是它們的深度,公式 (2)表示2個對象的接近程度關于單調遞減,關于h單調遞增.其中和用來調整和h對接近程度的影響,根據 Li的測試, α=0.2, β=0.6 是獲得最佳度量效果的優(yōu)化值.
該模型可用1個14元組 {Z,S,X,Y,K,M, T, E, σ, ζ, ω, φ, P, W}來表示.其中 Z為知識庫,S為本體知識庫,X為信息含量,Y為信息含量樹,K為其樹的節(jié)點集合,M為本體分析,T為特征庫,E為數據元或者某一知識元,σ為本體映射閥值,ζ為特征分析值,其值{0,1},賦值為1時表示屬于入侵數據,予以報警,否則賦值為0時,認為是誤操作,給用戶以建議.ω為本體映射接近程度值.φ為特征分析中預設警戒值.P為數據評估集.W為誤操作行為.
本體映射算法目前常用的是基于相似度的計算,不同學者針對相似度計算提出了不同的模型,如基于語義距離、基于信息內容、基于特征和混合模型.一部分學者對模型算法進行了改進,如文獻 [7],該模型中基于以上算法研究,提出一種共享信息含量的算法,即對待測數據集的本體所含有的信息含量與本體知識庫中本體元所含有的信息含量進行映射,在本體知識庫中,本體按照某一知識板塊中信息含量關于某一知識元或者其中的某個數據元共享信息含量的高低,形成信息含量樹,該樹是按照信息含量的大小自頂向下排列的,那么頂層范圍樹節(jié)點的相似性越大,共享的信息含量越接近,從而本體所表達的領域和范圍與用戶所搜索的實際需求越接近.若接近程度在閾值范圍內,認為是正常操作,否則置放進數據評估集,進行特征分析,若接近度趨于誤操作,提供給用戶操作建議,否則報警.
試驗環(huán)境為服務器一臺IBM3650, 基本配置為2×4 core 2 G CPU;2 G內存;300 G磁盤;操作系統為WIN2003 SERVER標準版;編程環(huán)境為VC++2005.試驗數據參考MIT林肯實驗的DARPA 1999年評測數據集,由于目前無法獲取純凈數據,故需要對數據經過多次訓練來降低噪音影響.本系統分為2個階段,第一階段進行本體庫和特征庫的訓練,對數據集進行本體抽取建立本體庫,對已知攻擊類型的數據集建立特征庫.第二階段為檢測階段,首先對待測數據集進行本體抽取,然后和本體庫進行映射,若低于閾值,則置放與數據評估集,進行特征庫匹配,若和特征庫中某個特征相似度大,則予以報警,否則提供給用戶誤操作建議.
本試驗中取σ=0.6,φ=0.4.通過5種常見攻擊和100次誤操作,對系統進行測試, Land、Neptune、 Pod、 Teardrop、 Nmap、 W1 的檢測率分別為100%、97.50%、99.30%、98.01%、98.00%.
通過實驗測試可知,該系統具有良好的檢測率和報警率,并且對誤操作和可疑操作能予以識別.
[1]Mukkamala S,Sung A H,Abraham A.Intrusion detection using all ensemble of intelligent paradigms[J].Journal of Network and Computer Application,2005,28(2):167-182.
[2]呂志軍,袁衛(wèi)忠,仲海駿,等.基于數據挖掘的異常入侵檢測系統研究[J].計算機科學,2004,31(10):61-65.
[3]楊向榮,宋擒豹,沈鈞毅,等.基于數據挖掘的智能化入侵檢測系統[J].計算機工程,2001,27(9):17-102.
[4]Shi Zhi cai.Research on intrusion detection with selfadaptability for high speed network [J].Computer Engineering and Applications,2009,45(17):88-90.
[5]錢鵬程,王英林,李鵬.基于相似度的關系模式和本體間映射算法[J].計算機仿真,2009,26(11):102-105.
[6]Barford P,HIine J,Plonka D,et al.A signal analysis of network traffic anomalies [J].Internet Measurement Workshop,2002(1):7 1-82.
[7]Maedche A.Ontology Learning for the Semantic Web[M].Boston: Kluwer Academic Publishers, 2002.
[8]Chen Han Hua, Jin Hai, Ning XiaoMin.SemreX:A Semantic Similarity Based P2P Overlay Network [J].Journal of Software,2006,17(5):1170-1181.
[9]Yuhua L, Bandar Z A, McLean D.An approach for measuring semantic similarity between words using multiple information sources[J].IEEE Trans.on Knowledge and Data Engineering,2003,15(4):871-882.