【摘 要】在深入分析現(xiàn)有入侵檢測(cè)系統(tǒng)模型運(yùn)行機(jī)制的基礎(chǔ)上,針對(duì)已有檢測(cè)機(jī)制存在的對(duì)于未知攻擊行為無(wú)能為力、漏報(bào)率較高、檢測(cè)效率低以及缺少規(guī)則庫(kù)自動(dòng)擴(kuò)充機(jī)制等問(wèn)題,結(jié)合數(shù)據(jù)挖掘技術(shù)的相關(guān)知識(shí),對(duì)于提高入侵檢測(cè)系統(tǒng)的準(zhǔn)確性及完備性有很大的參考價(jià)值。
【關(guān)鍵詞】入侵檢測(cè) 數(shù)據(jù)挖掘 數(shù)據(jù)價(jià)值
一、數(shù)據(jù)入侵檢測(cè)的分析方法及缺陷
數(shù)據(jù)入侵檢測(cè)作為繼“數(shù)據(jù)加密”、“防火墻”等傳統(tǒng)安全防護(hù)措施之后的新一代安全保障技術(shù),已有效地補(bǔ)充和完善了其他安全技術(shù)和手段的不足。然而,隨著網(wǎng)絡(luò)帶寬的不斷增加以及網(wǎng)絡(luò)處理速度的不斷加快,現(xiàn)有入侵檢測(cè)系統(tǒng)會(huì)出現(xiàn)檢測(cè)率低和漏報(bào)率高的問(wèn)題。因此,研究現(xiàn)有入侵檢測(cè)模型,改善現(xiàn)有入侵檢測(cè)系統(tǒng)存在的問(wèn)題,對(duì)于增強(qiáng)現(xiàn)代網(wǎng)絡(luò)的網(wǎng)絡(luò)安全具有重要的理論和現(xiàn)實(shí)意義。
入侵檢測(cè)歸根結(jié)底處理的是數(shù)據(jù),因此,實(shí)際上入侵檢測(cè)的過(guò)程完全可以看作是一個(gè)數(shù)據(jù)處理的過(guò)程[1]。入侵檢測(cè)的分析方法主要有以下三種類(lèi)型:
(一)基于主機(jī)的數(shù)據(jù)入侵檢測(cè)分析方法
數(shù)據(jù)源一般都是使用操作系統(tǒng)的審計(jì)以及跟蹤日志?;谥鳈C(jī)的檢查分析方法會(huì)主動(dòng)與主機(jī)系統(tǒng)進(jìn)行交互,從而獲得不存在于系統(tǒng)日志中的信息來(lái)檢測(cè)入侵。這種類(lèi)型的數(shù)據(jù)檢測(cè)系統(tǒng)對(duì)網(wǎng)絡(luò)流量不敏感,不需要額外的硬件.效率高,并且能準(zhǔn)確定位入侵,及時(shí)進(jìn)行反應(yīng),但是其弊端是占用主機(jī)資源,依賴(lài)于主機(jī)的可靠性,所能檢測(cè)的攻擊類(lèi)型有限,并不能檢測(cè)網(wǎng)絡(luò)攻擊。
(二)基于網(wǎng)絡(luò)的數(shù)據(jù)入侵檢測(cè)分析方法
基于網(wǎng)絡(luò)的數(shù)據(jù)入侵檢測(cè)分析方法一般都是通過(guò)監(jiān)聽(tīng)網(wǎng)絡(luò)上傳輸?shù)臄?shù)據(jù)流,處理獲取的網(wǎng)絡(luò)數(shù)據(jù),從中提取有用的信息。然后通過(guò)匹配已知的攻擊特征,或者與正常網(wǎng)絡(luò)行為原型來(lái)相比較,從而識(shí)別攻擊事件。這種檢測(cè)系統(tǒng)可應(yīng)用于不同的操作系統(tǒng)平臺(tái),不依賴(lài)于某一操作系統(tǒng);其配置簡(jiǎn)單,并不需要任何特殊登錄機(jī)制及審計(jì);其可檢測(cè)協(xié)議攻擊、及特定環(huán)境的攻擊等多種攻擊。它的弊端是只能監(jiān)視本網(wǎng)段的活動(dòng),不能監(jiān)控主機(jī)系統(tǒng)的實(shí)時(shí)狀態(tài),精確度不夠準(zhǔn)確。
(三)分布式的數(shù)據(jù)入侵檢測(cè)分析方法。
分布式入侵檢測(cè)系統(tǒng)一般都是由多個(gè)部件組成的分布式結(jié)構(gòu)。關(guān)鍵主機(jī)上利用的是主機(jī)入侵檢測(cè),網(wǎng)絡(luò)關(guān)鍵節(jié)點(diǎn)上利用的是網(wǎng)絡(luò)入侵檢測(cè)。這種入侵檢測(cè)分析方法是一并分析主機(jī)系統(tǒng)的審計(jì)日志和網(wǎng)絡(luò)的數(shù)據(jù)流,從而判斷被保護(hù)系統(tǒng)是否受到攻擊[2]。
二、利用數(shù)據(jù)挖掘技術(shù)方法分析入侵檢測(cè)結(jié)果
(一)數(shù)據(jù)挖掘技術(shù)方法
數(shù)據(jù)挖掘技術(shù)是數(shù)據(jù)庫(kù)研究領(lǐng)域一個(gè)很有應(yīng)用價(jià)值的新領(lǐng)域,它融合了人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、以及可視化和信息科學(xué)等多個(gè)領(lǐng)域的理論和技術(shù)。數(shù)據(jù)挖掘的最終目的是在大量難以處理的數(shù)據(jù)中發(fā)現(xiàn)隱含的、或未知的、或非平凡的及有潛在應(yīng)用價(jià)值的信息或模式,并將其以可理解的方式表達(dá)出來(lái),從而為用戶的決策提供支持。目前,數(shù)據(jù)挖掘技術(shù)的發(fā)展已經(jīng)成為一個(gè)熱門(mén)的研究領(lǐng)域,具有緊迫的現(xiàn)實(shí)需求。
目前數(shù)據(jù)挖掘方法主要有以下四類(lèi),分為分類(lèi)挖掘、聚類(lèi)挖掘、關(guān)聯(lián)挖掘和序列挖掘。利用這四類(lèi)方法來(lái)進(jìn)行入侵檢測(cè)的方式分別為:
第一,將分類(lèi)挖掘的方法應(yīng)用于入侵檢測(cè),可以先使用帶有正常數(shù)據(jù)和異常數(shù)據(jù)分類(lèi)標(biāo)記的訓(xùn)練數(shù)據(jù)集,再選取某種方法來(lái)構(gòu)造出適用于入侵檢測(cè)的分類(lèi)器。最后再采用此分類(lèi)器對(duì)捕獲的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行歸類(lèi),將數(shù)據(jù)歸類(lèi)為正常和異常兩種,這樣就可以判斷是否有入侵發(fā)生了。
需要注意的是,分類(lèi)器對(duì)于最終判斷入侵發(fā)揮著重要作用,因此分類(lèi)器分類(lèi)性能的好壞,直接關(guān)系到入侵檢測(cè)的準(zhǔn)確率,因此,在使用分類(lèi)器檢測(cè)入侵之前,要反復(fù)對(duì)分類(lèi)器準(zhǔn)確率進(jìn)行評(píng)估,以期望得到最佳效果的分類(lèi)器[8]。
第二,要將聚類(lèi)挖掘應(yīng)用到入侵檢測(cè)當(dāng)中,那么檢測(cè)數(shù)據(jù)中正常數(shù)據(jù)與異常數(shù)據(jù)要滿足兩個(gè)條件:一是在數(shù)量上正常數(shù)據(jù)要遠(yuǎn)遠(yuǎn)大于異常數(shù)據(jù),二是正常數(shù)據(jù)與異常數(shù)據(jù)存在很大差異。而現(xiàn)實(shí)中的網(wǎng)絡(luò)數(shù)據(jù)基本上都能滿足這兩個(gè)條件。因此,聚類(lèi)挖掘也是可以應(yīng)用到入侵檢測(cè)當(dāng)中的??梢岳貌患宇?lèi)標(biāo)識(shí)的數(shù)據(jù)進(jìn)行訓(xùn)練,根據(jù)數(shù)據(jù)的特點(diǎn)對(duì)其進(jìn)行分類(lèi)。然后得出正常類(lèi)數(shù)據(jù)存在的特點(diǎn),以此判斷某一行為是否是入侵。
第三,關(guān)聯(lián)挖掘是最早被應(yīng)用到入侵檢測(cè)中的數(shù)據(jù)挖掘方法。關(guān)聯(lián)規(guī)則最大的優(yōu)勢(shì)是發(fā)現(xiàn)數(shù)據(jù)庫(kù)中記錄不同特征屬性之間的聯(lián)系。因此最直接的可以用關(guān)聯(lián)規(guī)則來(lái)建立基于特征匹配的入侵檢測(cè)系統(tǒng)規(guī)則庫(kù)的建立。此外,還可以將關(guān)聯(lián)挖掘與其它挖掘方法結(jié)合起來(lái)。例如與分類(lèi)挖掘相結(jié)合,由于分類(lèi)挖掘通常是基于數(shù)據(jù)對(duì)象的屬性來(lái)分類(lèi)的,因此分類(lèi)屬性的選擇對(duì)建立的分類(lèi)器性能的好壞有著很大的影響。如果事先用關(guān)聯(lián)挖掘的方法發(fā)掘出屬性之間的關(guān)聯(lián)關(guān)系,用它來(lái)指導(dǎo)對(duì)屬性的選擇,會(huì)在很大程度上提高分類(lèi)器的準(zhǔn)確性。
第四,序列挖掘關(guān)注的是事件出現(xiàn)的先后次序,主要解決類(lèi)似“在某段事件內(nèi),首先具有特征屬性M的事件發(fā)生了,接著具有特征屬性N的事件發(fā)生,最后具有特征屬性P的事件也發(fā)生了,即出現(xiàn)了特征屬性出現(xiàn)序列M→N→P,且頻度較高”這類(lèi)含有高頻度序列的問(wèn)題。而入侵檢測(cè)中也存在這樣的攻擊,如某些攻擊行為的發(fā)生往往蘊(yùn)含著一定的規(guī)律,某些黑客在對(duì)系統(tǒng)發(fā)起攻擊之前多是要先掃描端口,接著試驗(yàn)密碼,這樣就可以據(jù)此判斷可能有攻擊發(fā)生。而且,序列挖掘也可與其它挖掘方法結(jié)合,可以是檢測(cè)更加準(zhǔn)確。
(二)利用數(shù)據(jù)挖掘技術(shù)來(lái)優(yōu)化ERP系統(tǒng)中入侵檢測(cè)
ERP系統(tǒng)是中石油集團(tuán)公司“十一五”信息技術(shù)總體規(guī)劃的核心,涉及面廣、跨專(zhuān)業(yè)、跨部門(mén)、跨系統(tǒng),與油田勘探、開(kāi)發(fā)、生產(chǎn)經(jīng)營(yíng)管理等各業(yè)務(wù)領(lǐng)域緊密聯(lián)系,通過(guò)規(guī)范計(jì)劃、物資、設(shè)備、財(cái)務(wù)以及油氣銷(xiāo)售的業(yè)務(wù)流程,搭建財(cái)務(wù)與業(yè)務(wù)集成的經(jīng)營(yíng)管理平臺(tái),來(lái)實(shí)現(xiàn)項(xiàng)目的獨(dú)立核算及考核,從而實(shí)現(xiàn)人、財(cái)、物等資源的有效調(diào)配,為勘探與生產(chǎn)主體經(jīng)營(yíng)管理需求來(lái)提供有力的技術(shù)支撐。正因?yàn)槠涞臓可婷嫔鯊V,其對(duì)信息的安全性要求特別得高。
但是,也因?yàn)槠渖婕暗牟块T(mén)、專(zhuān)業(yè)、系統(tǒng)多,ERP系統(tǒng)出現(xiàn)的入侵也是非常復(fù)雜的,想要通過(guò)傳統(tǒng)的基于誤用檢測(cè)方法的模式匹配方式來(lái)及時(shí)檢測(cè)攻擊入侵的發(fā)展是很難實(shí)現(xiàn)的。
然而ERP系統(tǒng)可以使用基于異常檢測(cè)的方法檢測(cè)來(lái)入侵。因?yàn)樗皇沁M(jìn)行模式匹配,而是建立了系統(tǒng)正常工作時(shí)的模式,而不就每一個(gè)信號(hào)進(jìn)行檢測(cè),所以不存在由于無(wú)該攻擊規(guī)則而無(wú)法檢測(cè)的問(wèn)題,能夠表現(xiàn)出較好的自適應(yīng)性。比如,有一個(gè)來(lái)自某地址的遠(yuǎn)程呼叫程序,采用信號(hào)匹配的話,可能很容易迷惑檢測(cè)系統(tǒng),但如果采用異常檢測(cè)的話,因?yàn)橄到y(tǒng)會(huì)發(fā)現(xiàn)以前從未有來(lái)自這個(gè)地址的RPC連接,所以它就很容易地被檢測(cè)出來(lái)。
另外,在ERP系統(tǒng)應(yīng)用的過(guò)程當(dāng)中,將數(shù)據(jù)挖掘應(yīng)用于入侵檢測(cè),可以采用序列挖掘的方法,提取出從正常行為是發(fā)生時(shí)的某種序列規(guī)律,從而排除那些因正常的行為而產(chǎn)生的信號(hào),因而具有較低的誤警率。與此同時(shí)還采用異常檢測(cè)方法,能夠發(fā)現(xiàn)新的攻擊,從而減少的漏報(bào)的產(chǎn)生。
數(shù)據(jù)挖掘技術(shù)在ERP系統(tǒng)的入侵檢測(cè)的應(yīng)用,主要通過(guò)分析有用的歷史數(shù)據(jù)、提取用戶的行為特征、歸納入侵行為的規(guī)律,進(jìn)而為入侵檢測(cè)建立比較完備的規(guī)則庫(kù)。此過(guò)程主要分為以下幾步:1.數(shù)據(jù)的收集,ERP入侵檢測(cè)系統(tǒng)的數(shù)據(jù)主要來(lái)源于網(wǎng)絡(luò)。2.數(shù)據(jù)的預(yù)處理,是指在主要的處理前對(duì)數(shù)據(jù)進(jìn)行的一些處理。例如將不規(guī)則分布的測(cè)網(wǎng)經(jīng)過(guò)插值轉(zhuǎn)換為規(guī)則網(wǎng)的處理,從而便于計(jì)算機(jī)的下一步運(yùn)算。這一過(guò)程的好壞直接影響規(guī)則的準(zhǔn)確性以及用戶行為特征的定性。3.數(shù)據(jù)的挖掘,是在通過(guò)分析預(yù)處理過(guò)數(shù)據(jù),來(lái)提取用戶的行為特征,歸納并更新入侵行為規(guī)則,最終建立起規(guī)則庫(kù)。
下面是基于數(shù)據(jù)挖掘的ERP網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)的模型結(jié)構(gòu)
(如下圖所示)
此過(guò)程是將ERP系統(tǒng)從網(wǎng)絡(luò)中所獲取的網(wǎng)絡(luò)數(shù)據(jù)包全部發(fā)送到數(shù)據(jù)預(yù)處理器,通過(guò)數(shù)據(jù)預(yù)處理器對(duì)網(wǎng)絡(luò)數(shù)據(jù)包進(jìn)行再加工,利用關(guān)聯(lián)規(guī)則確定具有代表性的規(guī)則后放人關(guān)聯(lián)規(guī)則集,并利用聚類(lèi)規(guī)則進(jìn)行聚類(lèi)優(yōu)化??赏ㄟ^(guò)規(guī)定的閉值,從而剔除正常的數(shù)據(jù),再通過(guò)誤用檢測(cè)器進(jìn)行數(shù)據(jù)檢測(cè)。若誤用檢測(cè)器沒(méi)有檢測(cè)到攻擊,再將數(shù)據(jù)發(fā)送到異常檢測(cè)器來(lái)檢測(cè)。通過(guò)這一步操作將過(guò)濾掉大量正常數(shù)據(jù),從而便于以后的數(shù)據(jù)挖掘。其優(yōu)點(diǎn)是通過(guò)對(duì)數(shù)據(jù)倉(cāng)庫(kù)的不斷更新,來(lái)不斷地完善異常檢測(cè)器和誤用檢測(cè)器,從而避免了重復(fù)檢測(cè)同一類(lèi)型的數(shù)據(jù),大大減輕了入侵檢測(cè)系統(tǒng)的負(fù)荷。
由于勘探與生產(chǎn)ERP涵蓋總部、勘探與生產(chǎn)分公司和16家油氣田企業(yè),入侵檢測(cè)系統(tǒng)的數(shù)據(jù)處理負(fù)擔(dān)也在不斷加大,包括各種網(wǎng)絡(luò)流量,警報(bào)記錄,日志記錄等。而數(shù)據(jù)挖掘技術(shù)的最大特點(diǎn)就是處理海量數(shù)據(jù),因此采用它可以很好解決入侵檢測(cè)面臨的高數(shù)據(jù)量的問(wèn)題。從網(wǎng)絡(luò)流量上可以過(guò)濾大部分正常數(shù)據(jù),減輕攻擊檢測(cè)的負(fù)擔(dān);同時(shí)可以對(duì)大量告警記錄進(jìn)行整理,減輕管理員的負(fù)擔(dān)。
三、結(jié)論
總之,應(yīng)用數(shù)據(jù)挖掘技術(shù)改善了入侵檢測(cè)系統(tǒng)的系統(tǒng)性能,改善了傳統(tǒng)檢測(cè)技術(shù)存在的缺點(diǎn),使其成為一個(gè)集智能性、實(shí)時(shí)性于一體的智能化系統(tǒng),具有很好的發(fā)展前景。
參考文獻(xiàn):
[1]高立麗,張婭,劉海梅. 網(wǎng)絡(luò)入侵檢測(cè)發(fā)展現(xiàn)狀及應(yīng)用研究[J]. 科技信息,2011,(1),92.
[2]譚建豪,章兢,黃耀,等. 數(shù)據(jù)挖掘技術(shù)[M]. 北京:中國(guó)水利水電出版社,2009.
[3]呂曉玲,謝邦昌. 數(shù)據(jù)挖掘方法與應(yīng)用[M]. 北京:中國(guó)人民大學(xué)出版社,2009,1-2.
[4]薛惠鋒. 智能數(shù)據(jù)挖掘技術(shù)[M]. 西安:西北工業(yè)大學(xué)出版社,2005,2.
[5]紀(jì)希禹. 數(shù)據(jù)挖掘技術(shù)應(yīng)用實(shí)例[M]. 北京:機(jī)械工業(yè)出版社,2009,4.
[6]Song Jiali. Extracting Network Intrusion Detection Model Based on Classification Mining [J]. Network Security Technology Application, 2006, (9), 21-23.