汪莉
(長(zhǎng)江大學(xué)工程技術(shù)學(xué)院 湖北 荊州 434020)
入侵檢測(cè)的目的是為了發(fā)現(xiàn)系統(tǒng)或用戶行為的異常,其實(shí)質(zhì)歸結(jié)為對(duì)從各種渠道獲得的反映網(wǎng)絡(luò)狀況和網(wǎng)絡(luò)行為的安全審計(jì)數(shù)據(jù)的分析處理。然而,操作系統(tǒng)的日益復(fù)雜化和網(wǎng)絡(luò)數(shù)據(jù)流量的急劇膨脹,導(dǎo)致了安全審計(jì)數(shù)據(jù)同樣以驚人的速度遞增。驟增的數(shù)據(jù)背后隱藏著許多與安全有關(guān)的重要信息,如何從包含大量冗余信息的數(shù)據(jù)中提取出具有代表性的入侵模式是入侵檢測(cè)的關(guān)鍵,而靠傳統(tǒng)數(shù)據(jù)檢索機(jī)制和統(tǒng)計(jì)分析方法不能滿足安全信息有效提取的需要。數(shù)據(jù)挖掘能夠從海量數(shù)據(jù)中提取出隱含的、事先未知的、潛在有用的信息和知識(shí),很好地解決了這些問(wèn)題。
盡管將數(shù)據(jù)挖掘引入入侵檢測(cè)研究,以此建立的檢測(cè)模型在適應(yīng)性和可擴(kuò)展性方面具有優(yōu)勢(shì)并得到實(shí)驗(yàn)驗(yàn)證,但進(jìn)行檢測(cè)時(shí)仍存在一定困難:
此類模型通過(guò)訓(xùn)練集中的行為特征學(xué)習(xí),對(duì)已知入侵和攻擊行為具備較高的檢測(cè)率和較低的誤報(bào)率;而對(duì)于未在訓(xùn)練集出現(xiàn)的和全新的入侵行為,則出現(xiàn)較低的檢測(cè)率和較高的誤檢率,這種現(xiàn)象對(duì)于大多數(shù)檢測(cè)模型有普遍性。
由于現(xiàn)有入侵檢測(cè)中的數(shù)據(jù)挖掘算法需要對(duì)大量已標(biāo)識(shí)的歷史數(shù)據(jù)進(jìn)行訓(xùn)練學(xué)習(xí),然后才能進(jìn)行測(cè)試數(shù)據(jù)集的檢測(cè),造成了對(duì)訓(xùn)練集數(shù)據(jù)的強(qiáng)烈依賴性,訓(xùn)練集數(shù)據(jù)的分布特征決定了檢測(cè)算法的性能;而訓(xùn)練集數(shù)據(jù)的獲取及其真實(shí)性在現(xiàn)實(shí)環(huán)境中不能完全保證,造成了檢測(cè)模型較高的計(jì)算成本和相對(duì)局限性。
現(xiàn)在國(guó)內(nèi)外已有一些研究機(jī)構(gòu)利用數(shù)據(jù)挖掘進(jìn)行入侵檢測(cè),針對(duì)一些入侵行為獲得了較為理想的結(jié)果。采用數(shù)據(jù)挖掘技術(shù)來(lái)構(gòu)造入侵檢測(cè)模型,優(yōu)勢(shì)在于:
基于數(shù)據(jù)挖掘的檢測(cè)方法可以從大量數(shù)據(jù)中挖掘出不易被明顯看出的重要特征和規(guī)則,能分析大量審計(jì)數(shù)據(jù)并提取對(duì)入侵行為的最具概括性的描述,使得構(gòu)造出的特征能夠更加精確、有效地區(qū)分用戶的正常行為和異常行為。
在入侵檢測(cè)中,收集到的數(shù)據(jù)越多,分析結(jié)果就越準(zhǔn)確。如何從海量數(shù)據(jù)中提取出入侵行為和正常行為的最顯著區(qū)別,傳統(tǒng)方法對(duì)此無(wú)能為力,而數(shù)據(jù)挖掘技術(shù)能從海量數(shù)據(jù)中提取有價(jià)值的信息,很好地解決了這個(gè)問(wèn)題。
應(yīng)用數(shù)據(jù)挖掘方法的檢測(cè)系統(tǒng)不是基于預(yù)定義的檢測(cè)模型,而是通過(guò)機(jī)器學(xué)習(xí)算法從審計(jì)數(shù)據(jù)中學(xué)習(xí)到的模型,因此對(duì)于新型攻擊及已知攻擊的變種具有適應(yīng)性。
同樣的數(shù)據(jù)挖掘工具能用于多個(gè)數(shù)據(jù)源,不依賴于任何系統(tǒng)而存在,因而當(dāng)檢測(cè)環(huán)境變化時(shí)檢測(cè)系統(tǒng)不需要做什么改動(dòng),具有較強(qiáng)的可擴(kuò)展性。
近年來(lái)數(shù)據(jù)挖掘技術(shù)的快速發(fā)展已從很多領(lǐng)域中得到了大量的算法,一些算法尤其適用于入侵檢測(cè)。目前有以下幾種常用于入侵檢測(cè)的數(shù)據(jù)挖掘算法:
關(guān)聯(lián)規(guī)則分析方法的目的是以規(guī)則的形式給出隱藏在數(shù)據(jù)中各屬性間的相互關(guān)系。在入侵檢測(cè)系統(tǒng)中,用戶的正常行為和惡意的入侵行為都將反映到審計(jì)記錄數(shù)據(jù)中,不論是正常行為還是異常行為,都將留下一條或多條記錄。這些記錄都不是孤立的,記錄內(nèi)部的屬性或記錄之間都存在某些必然的聯(lián)系。利用關(guān)聯(lián)分析找出入侵行為的各種屬性之間的相關(guān)特性,或者是提取出某種操作和入侵行為之間或各種入侵行為之間的相互關(guān)系等知識(shí)。
序列分析發(fā)現(xiàn)不同數(shù)據(jù)記錄之間的相關(guān)性,獲取序列模式模型。序列模式分析和關(guān)聯(lián)分析相似,其目的也是為了挖掘數(shù)據(jù)的聯(lián)系,但序列模式分析的側(cè)重點(diǎn)在于分析數(shù)據(jù)間的前后關(guān)系,發(fā)現(xiàn)系統(tǒng)審計(jì)事件中頻繁發(fā)生的事件序列。可以為最后生成入侵檢測(cè)模型提供時(shí)間統(tǒng)計(jì)屬性,即使用序列分析方法對(duì)各種入侵行為和某些操作發(fā)生的先后關(guān)系做出歸納。
分類分析是一種有監(jiān)督的學(xué)習(xí)方法,它通過(guò)分析實(shí)例數(shù)據(jù),提取數(shù)據(jù)項(xiàng)的特征屬性,并建立一個(gè)分類函數(shù)或分類模型,該函數(shù)或模型能把數(shù)據(jù)集中的數(shù)據(jù)映射到某個(gè)給定的類上。分類過(guò)程首先考察分類數(shù)據(jù)的屬性,通過(guò)訓(xùn)練數(shù)據(jù)集對(duì)系統(tǒng)進(jìn)行訓(xùn)練,找出描述并區(qū)分?jǐn)?shù)據(jù)類或概念的模型,以便將收集到的數(shù)據(jù)歸類到某個(gè)預(yù)定義的類標(biāo)記下。為了構(gòu)建這樣的一個(gè)分類模型,需要一個(gè)樣本數(shù)據(jù)庫(kù)作為訓(xùn)練集,樣本數(shù)據(jù)庫(kù)中的每一個(gè)元組與大型數(shù)據(jù)庫(kù)中的元組包含著同樣的屬性集,并且每一個(gè)元組有一個(gè)已知的類標(biāo)記。
聚類分析是將數(shù)據(jù)集分成由類似的對(duì)象組成的多個(gè)類的過(guò)程,由聚類所生成的同一類中的對(duì)象彼此相似,不同類中的對(duì)象相異。聚類算法用于對(duì)未經(jīng)標(biāo)記的訓(xùn)練數(shù)據(jù)進(jìn)行特征分析,把具有相似特征的數(shù)據(jù)歸于一類,可以在不具備完整領(lǐng)域知識(shí)背景的情況下執(zhí)行入侵檢測(cè)功能。與分類分析方法不同,聚類分析的輸入集是一組未標(biāo)定的記錄,也就是說(shuō)此時(shí)輸入的記錄沒(méi)有被進(jìn)行任何分類,而是通過(guò)聚類算法采用全自動(dòng)方式獲得的,而所依據(jù)的這些規(guī)則是由聚類分析工具定義的。
在網(wǎng)絡(luò)安全問(wèn)題日益突出的今天,如何迅速而有效地利用基于數(shù)據(jù)挖掘的入侵檢測(cè)系統(tǒng)發(fā)現(xiàn)各種入侵行為,對(duì)于保證系統(tǒng)和網(wǎng)絡(luò)資源的安全十分重要。傳統(tǒng)的基于人工建模的入侵檢測(cè)技術(shù)已經(jīng)越來(lái)越無(wú)法適應(yīng)新的網(wǎng)絡(luò)環(huán)境,而基于數(shù)據(jù)挖掘的入侵檢測(cè)系統(tǒng)能從大量的審計(jì)數(shù)據(jù)中自動(dòng)產(chǎn)生精確適用的檢測(cè)模型,使入侵檢測(cè)系統(tǒng)適用于任何計(jì)算環(huán)境。
[1]唐正軍.網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[M].北京:電子工業(yè)出版社,2002.
[2]李守國(guó).數(shù)據(jù)挖掘技術(shù)在入侵檢測(cè)中應(yīng)用研究[D].南京航空航天大學(xué),2005.
[3]郭愛偉.入侵檢測(cè)系統(tǒng)分類算法的研究[D].中北大學(xué),2006.