【摘 要】如何對(duì)入侵檢測(cè)的現(xiàn)狀進(jìn)行了分析,在此基礎(chǔ)上重點(diǎn)研究了數(shù)據(jù)挖掘算法在異常檢測(cè)和誤用檢測(cè)中的具體應(yīng)用。對(duì)于異常檢測(cè),主要研究分類算法、模式比較和聚類算法、目前數(shù)據(jù)挖掘算法在入侵檢測(cè)中應(yīng)用所面臨的難點(diǎn)進(jìn)行了分析,并指明了今后的研究方向。
【關(guān)鍵詞】入侵檢測(cè) 數(shù)據(jù)挖掘 異常檢測(cè) 誤用檢測(cè) 分類算法
用于加強(qiáng)網(wǎng)絡(luò)安全的手段目前有很多,如加密,VPN ,防火墻等,但這些技術(shù)都是靜態(tài)的,不能夠很好的實(shí)施有效的防護(hù)。而入侵檢測(cè)(Intrusion Detection)技術(shù)是一種動(dòng)態(tài)的防護(hù)策略,它能夠?qū)W(wǎng)絡(luò)安全實(shí)施監(jiān)控、攻擊與反攻擊等動(dòng)態(tài)保護(hù),在一定程度上彌補(bǔ)了傳統(tǒng)靜態(tài)策略的不足。
一、入侵檢測(cè)中數(shù)據(jù)挖掘技術(shù)的引入
(一)入侵檢測(cè)技術(shù)介紹
入侵檢測(cè)技術(shù)是對(duì)(網(wǎng)絡(luò))系統(tǒng)的運(yùn)行狀態(tài)進(jìn)行監(jiān)視,發(fā)現(xiàn)各種攻擊企圖、攻擊行為或者攻擊結(jié)果,以保證系統(tǒng)資源的機(jī)密性、完整性與可用性。
根據(jù)數(shù)據(jù)分析方法(也就是檢測(cè)方法)的不同,我們可以將入侵檢測(cè)系統(tǒng)分為兩類:
1.誤用檢測(cè)(Misuse Detection)。又稱為基于特征的檢測(cè),它是根據(jù)已知的攻擊行為建立一個(gè)特征庫(kù),然后去匹配已發(fā)生的動(dòng)作,如果一致則表明它是一個(gè)入侵行為。
2.異常檢測(cè)(Anomaly Detection)。又稱為基于行為的檢測(cè),它是建立一個(gè)正常的特征庫(kù),根據(jù)使用者的行為或資源使用狀況來(lái)判斷是否入侵。
將這兩種分析方法結(jié)合起來(lái),可以獲得更好的性能。異常檢測(cè)可以使系統(tǒng)檢測(cè)新的、未知的攻擊或其他情況;誤用檢測(cè)通過(guò)防止耐心的攻擊者逐步改變行為模式使得異常檢測(cè)器將攻擊行為認(rèn)為是合法的,從而保護(hù)異常檢測(cè)的完整性。
(二)數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘通過(guò)預(yù)測(cè)未來(lái)趨勢(shì)及行為,做出預(yù)測(cè)性的、基于知識(shí)的決策。數(shù)據(jù)挖掘的目標(biāo)是從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)隱含的、有意義的知識(shí),按其功能可分為以下幾類:
1.關(guān)聯(lián)分析。關(guān)聯(lián)分析能尋找數(shù)據(jù)庫(kù)中大量數(shù)據(jù)的相關(guān)聯(lián)系,常用的2種技術(shù)為關(guān)聯(lián)規(guī)則和序列模式。關(guān)聯(lián)規(guī)則是發(fā)現(xiàn)一個(gè)事物與其他事物間的相互關(guān)聯(lián)性或相互依賴性。
2.聚類。輸入的數(shù)據(jù)并無(wú)任何類型標(biāo)記,聚類就是按一定的規(guī)則將數(shù)據(jù)劃分為合理的集合,即將對(duì)象分組為多個(gè)類或簇,使得在同一個(gè)簇中的對(duì)象之間具有較高的相似度,而在不同簇中的對(duì)象差別很大。
3.自動(dòng)預(yù)測(cè)趨勢(shì)和行為。數(shù)據(jù)挖掘自動(dòng)在大型數(shù)據(jù)庫(kù)中進(jìn)行分類和預(yù)測(cè),尋找預(yù)測(cè)性信息,自動(dòng)地提出描述重要數(shù)據(jù)類的模型或預(yù)測(cè)未來(lái)的數(shù)據(jù)趨勢(shì)。
4.概念描述。對(duì)于數(shù)據(jù)庫(kù)中龐雜的數(shù)據(jù),人們期望以簡(jiǎn)潔的描述形式來(lái)描述匯集的數(shù)據(jù)集。概念描述就是對(duì)某類對(duì)象的內(nèi)涵進(jìn)行描述并概括出這類對(duì)象的有關(guān)特征。
5.偏差檢測(cè)。偏差包括很多潛在的知識(shí),如分類中的反常實(shí)例、不滿足規(guī)則的特例、觀測(cè)結(jié)果與模型預(yù)測(cè)值的偏差、量值隨時(shí)間的變化等。
二、算法在入侵檢測(cè)中的具體使用
(一)基于誤用的檢測(cè)模型
·ID3、C4.5算法:ID3算法是一種基本的決策樹(shù)生成算法,該算法不包括規(guī)則剪除部分。C4.5算法作為ID3算法的后繼版本,就加入了規(guī)則剪除部分,使用訓(xùn)練樣本來(lái)估計(jì)每個(gè)規(guī)則的準(zhǔn)確率。也是分類模型的主要運(yùn)用算法。
對(duì)于已知的攻擊類型的檢測(cè),分類模型具有較高的檢準(zhǔn)率,但是對(duì)于未知的、新的攻擊,分類模型效果就不是很理想。這個(gè)是由誤用檢測(cè)本身的特點(diǎn)所決定的,誤用檢測(cè)誤報(bào)率低,但是它在對(duì)已知攻擊模式特征屬性構(gòu)建和選取上往往要花費(fèi)大量的精力,這也是分類檢測(cè)的難點(diǎn)所在。所以這種檢測(cè)模型只能有限的檢測(cè)已知的攻擊,而要更好的檢測(cè)未知的攻擊,就要使用到異常檢測(cè)技術(shù),但是,異常檢測(cè)卻比誤用檢測(cè)負(fù)責(zé)的多,因?yàn)閷?duì)于系統(tǒng)正常使用模式的構(gòu)建本身就是一件非常復(fù)雜的事情。
(二)基于異常的入侵模型
異常檢測(cè)的主要工作就是通過(guò)構(gòu)造正常活動(dòng)集合,然后利用得到的一組觀察數(shù)值的偏離程度來(lái)判斷用戶行為的變化,以此來(lái)覺(jué)得是否屬于入侵的一種檢測(cè)技術(shù)。異常檢測(cè)的優(yōu)點(diǎn)在于它具有檢測(cè)未知攻擊模式的能力,不論攻擊者采用什么樣的攻擊策略,異常檢測(cè)模型依然可以通過(guò)檢測(cè)它與已知模式集合之間的差異來(lái)判斷用戶的行為是否異常。
在異常檢測(cè)中主要用到的兩個(gè)算法就是模式比較和聚類算法:
1.模式比較。在模式比較算法中首先通過(guò)關(guān)聯(lián)規(guī)則和序列規(guī)則建立正常的行為模式,然后通過(guò)模式比較算法來(lái)區(qū)別正常行為和入侵行為。
(1)關(guān)聯(lián)規(guī)則。它主要經(jīng)過(guò)兩步過(guò)程:首先識(shí)別所有支持度不低于用戶規(guī)定的最小支持度域值的項(xiàng)目集,即頻繁項(xiàng)目集;然后從得到的頻繁項(xiàng)目集中構(gòu)造出可信度不低于用戶規(guī)定的最小可信度域值的規(guī)則?,F(xiàn)在已有多種關(guān)聯(lián)規(guī)則算法如Apriori算法等用于入侵檢測(cè)。
(2)序列分析。序列模式挖掘有幾個(gè)重要的參數(shù),如時(shí)間序列的持續(xù)時(shí)間,事件重疊窗口和被發(fā)現(xiàn)的模式中時(shí)間之間的時(shí)間間隔。還可以在要挖掘的序列模式上指定約束,方法是提供“模式模板“,其形式可以是系列片段(Serial Episode),并行片段(Parallel Episode),或正則表達(dá)式。序列分析使用于發(fā)現(xiàn)分布式攻擊和插入噪聲的攻擊。由于各種攻擊方法的規(guī)模的擴(kuò)大和時(shí)間持久,序列分析變得越來(lái)越重要。
2.聚類算法?;诰垲惖娜肭謾z測(cè)是一種無(wú)監(jiān)督的異常檢測(cè)算法,通過(guò)對(duì)未標(biāo)識(shí)數(shù)據(jù)進(jìn)行訓(xùn)練來(lái)檢測(cè)入侵。該方法不需要手工或其他的分類,也不需要進(jìn)行訓(xùn)練。因此呢功能發(fā)現(xiàn)新型的和未知的入侵類型。
三、結(jié)論
入侵檢測(cè)中數(shù)據(jù)挖掘技術(shù)方面的研究已經(jīng)有很多,發(fā)表的論文也已經(jīng)有好多,但是應(yīng)用難點(diǎn)在于如何根據(jù)具體應(yīng)用的要求,從用于安全的先驗(yàn)知識(shí)出發(fā),提取出可以有效反映系統(tǒng)特性的屬性,并應(yīng)用合適的算法進(jìn)行數(shù)據(jù)挖掘。另一技術(shù)難點(diǎn)在于如何將數(shù)據(jù)挖掘結(jié)果自動(dòng)應(yīng)用到實(shí)際IDS中。
入侵檢測(cè)采用的技術(shù)有多種類型,其中基于數(shù)據(jù)挖掘技術(shù)的入侵檢測(cè)技術(shù)成為當(dāng)前入侵檢測(cè)技術(shù)發(fā)展的一個(gè)熱點(diǎn),但數(shù)據(jù)挖掘還處于發(fā)展時(shí)期,因此有必要對(duì)它進(jìn)行更深入的研究。
參考文獻(xiàn):
[1]張銀奎,廖麗,宋俊等.數(shù)據(jù)挖掘原理[M].北京:機(jī)械工業(yè)出版社,2003 : 93-105
[2]戴英俠,連一峰,王航等.系統(tǒng)安全與入侵檢測(cè)[M].北京:清華大學(xué)出版社,2002 : 99-137
[3]許卓群.數(shù)據(jù)結(jié)構(gòu)[M].北京:中國(guó)廣播電視大學(xué)出版社,2001 : 260- 272