岳強++胡中玉++劉渝妍
摘要:針對當前入侵檢測系統(tǒng)的局限性,提出將數(shù)據(jù)挖掘技術引入到入侵檢測中,研究了Apriori關聯(lián)算法、ID3分類算法和FHCAM聚類算法在入侵檢測中的應用,建立了一個基于數(shù)據(jù)挖掘的自適應入侵檢測模型。該模型能夠識別已知和未知的入侵,降低檢測的漏報率和誤報率,有效的提高檢測效率。
關鍵詞:入侵檢測;數(shù)據(jù)挖掘;關聯(lián);聚類
中圖分類號:TP393
文獻標識碼:A
DOI:10.3969/j.issn.1003-6970.2015.09.013
0 引言
隨著計算機網(wǎng)絡和互聯(lián)網(wǎng)的迅速發(fā)展,網(wǎng)絡安全問題日益突出,網(wǎng)絡安全機制在信息社會中扮演著極其重要的角色,它直接關系到個人隱私、企業(yè)經(jīng)營和國家安全?;ヂ?lián)網(wǎng)所具有的開放性和自由性在增加應用自由度的同時,對安全提出了更高的要求。入侵檢測系統(tǒng)是近年來發(fā)展起來的一種動態(tài)監(jiān)控和預防網(wǎng)絡入侵行為的安全機制。與傳統(tǒng)的安全機制相比,入侵檢測具有明顯的優(yōu)勢,它所具備的智能監(jiān)控、配置簡單、實時探測等特點使得網(wǎng)絡的安全性得到進一步的提高。當前網(wǎng)絡安全研究機構(gòu)提出了很多入侵檢測的解決方案,如統(tǒng)計分析、模式匹配、專家系統(tǒng)和數(shù)據(jù)挖掘等方法,其中數(shù)據(jù)挖掘方法因其具有良好的可擴展性和自適應性,得到了廣泛的重視,將數(shù)據(jù)挖掘的核心方法和技術應用于入侵檢測已成為入侵檢測技術領域研究的熱點。
1 入侵檢測系統(tǒng)
入侵檢測系統(tǒng)(Intrusion Detection System,IDS)是檢測入侵行為,實現(xiàn)安全監(jiān)視的技術。由于防火墻無法防御來自內(nèi)部的攻擊,入侵檢測技術成為防火墻的合理補充,幫助系統(tǒng)預防網(wǎng)絡入侵,擴展了系統(tǒng)管理員的安全管理范圍。入侵檢測系統(tǒng)按照檢測方法劃分,可以分為基于誤用的入侵檢測系統(tǒng)和基于異常的入侵檢測系統(tǒng)。
基于誤用的入侵檢測系統(tǒng)優(yōu)點是可以有效地檢測到已知入侵,誤報率比較低,缺點是只能檢測到已知的攻擊類型,當出現(xiàn)針對新漏洞的攻擊手段或針對舊漏洞的新攻擊方式時,就需要添加新的入侵規(guī)則,才能夠檢測出新的入侵行為,因此系統(tǒng)的靈活性和自適應性比較差。目前,異常檢測是入侵檢測系統(tǒng)的主要研究方向,其特點是根據(jù)使用者的行為或資源使用狀況來判斷是否存在入侵行為,這種檢測系統(tǒng)的基本思想是分析系統(tǒng)的正常行為,建立一個正常特征狀態(tài)模型,檢測時將用戶當前的行為與這個正常特征狀態(tài)模型進行模式比較,如果存在較大的出入,則認為系統(tǒng)遭到入侵。異常檢測的優(yōu)點是能夠檢測到未知的攻擊,缺點是檢測的誤報率和漏報率比較高。近年來,由于入侵方法和入侵特征的不斷變化,入侵檢測系統(tǒng)必修不斷自學習,以便更新檢測模型,一方面能及時檢測出未知的攻擊,另一方面要降低檢測的誤報率和漏報率。
2 數(shù)據(jù)挖掘技術
為了克服傳統(tǒng)的入侵檢測系統(tǒng)的缺陷,現(xiàn)有的入侵檢測系統(tǒng)大都利用數(shù)據(jù)挖掘、機器學習等智能方法來分析和處理網(wǎng)絡數(shù)據(jù),在看似雜亂的數(shù)據(jù)中找出內(nèi)在的聯(lián)系,從而發(fā)現(xiàn)網(wǎng)絡和系統(tǒng)的不安全之處,提出決策建議。數(shù)據(jù)挖掘是從海量的、不規(guī)則的數(shù)據(jù)集中識別有效的、可信的以及隱含信息的處理過程,其本身是一項通用的知識發(fā)現(xiàn)技術。數(shù)據(jù)挖掘的內(nèi)涵非常豐富,是一個多學科交叉領域。本文將數(shù)據(jù)挖掘的常用技術應用于入侵檢測領域,利用數(shù)據(jù)挖掘中的關聯(lián)、分類和聚類等算法提取出與網(wǎng)絡安全相關的特征屬性,然后根據(jù)這些特征屬性建立起劃分網(wǎng)絡行為的分類模型,用于對安全事件的鑒別,準確的區(qū)分實際的入侵和正常行為模式。這種自動化的方法不需再手工分析和添加入侵行為模式,從而更加有利于建立適應性強的入侵檢測系統(tǒng)。
2.1 Apriori關聯(lián)算法
關聯(lián)規(guī)則是描述在一個事務中項目之間同時出現(xiàn)的規(guī)律的知識模式。一個事務中的關聯(lián)規(guī)則挖掘可以描述如下:遞歸方法。首先選擇訓練數(shù)據(jù)的某個屬性作為根結(jié)點,對測試屬性的每個值(離散化),創(chuàng)建一個分支,并據(jù)此劃分樣本。算法使用同樣的過程,遞歸形成每個分支下的子分支。一旦一個屬性出現(xiàn)在一個結(jié)點上,就不必考慮該結(jié)點的子結(jié)點。構(gòu)造出的決策樹的好壞關鍵在于如何選擇合適的產(chǎn)生分支的屬性,我們稱之為分裂屬性,ID3算法選擇信息增益值最大的屬性做為分裂屬性。決策樹剪枝是一種克服噪聲的有效手段,同時能使決策樹得到簡化,更利于進行新的數(shù)據(jù)分類,可以采用預先剪枝策略,在生成決策樹的同時決定是繼續(xù)對不純的訓練子集進行劃分還是停機。ID3分類算法可以利用大量的入侵數(shù)據(jù)加以訓練,生成表示入侵規(guī)則的決策樹。
2.3 FHCAM聚類算法
聚類是將數(shù)據(jù)對象分成為多個類或簇,劃分的原則是在同一個類中的對象之間具有較高的形似度,而不同類中的對象差別較大。與分類不同,聚類劃分的類是未知的,類的的形成是由數(shù)據(jù)分析得到的。
在網(wǎng)絡訪問中,正常訪問行為記錄數(shù)要遠高于異常訪問行為記錄數(shù),把記錄對象多的類歸為正常行為集合,把記錄對象少的類歸為異常行為集合,就可以采用聚類算法區(qū)分不同的類。針對當前的一些聚類算法對非數(shù)值類型數(shù)據(jù)屬性無處理、對先驗知識的過多依賴等問題,本文采用了一種新的融合數(shù)值和字符類型數(shù)據(jù)的快速啟發(fā)式聚類算法(Fast Heuristic Clus-tering Algorithm for Mixed data,F(xiàn)HCAM)。FHCAM算法在分析了傳統(tǒng)聚類算法在劃分系統(tǒng)和網(wǎng)絡訪問行為記錄時存在的缺陷的基礎上,結(jié)合行為記錄的特征提出的一種改進聚類算法。FHCAM算法對數(shù)值型屬性采用歐幾里德距離的度量方法,對字符型屬性采用相異度的度量方法,然后計算記錄中所有數(shù)值型屬性和字符型屬性間的相異度來對大流量的系統(tǒng)和網(wǎng)絡行為記錄劃分聚類,將挖掘入侵模式所需要的正常行為庫和異常行為庫劃分出來。
各部分功能詳細列下:
1.事件處理引擎
首先,按照一定策略提取關鍵主機上的事務日志或捕獲網(wǎng)絡數(shù)據(jù)報文,其次通過解碼器進行解析后轉(zhuǎn)換成具有特定格式的數(shù)據(jù)結(jié)構(gòu),最后對解碼后的數(shù)據(jù)包進行預處理,轉(zhuǎn)換成適合模式匹配和挖掘的系統(tǒng)數(shù)據(jù)格式。采用分類算法ID3對訓練數(shù)據(jù)進行挖掘,將挖掘到的規(guī)則添加到入侵模式庫中。
2.行為庫劃分模塊
采用面向混合類型數(shù)據(jù)的快速啟發(fā)式聚類算法FHCAM對系統(tǒng)網(wǎng)絡行為記錄進行聚類劃分,自動構(gòu)造正常行為庫和異常行為庫。
3.規(guī)則挖掘模塊
使用關聯(lián)算法Apriori對正常行為庫進行挖掘,將挖掘出的關聯(lián)模式和入侵模式庫進行模式比較,無異常的情況下再添加正常模式庫,這樣能降低檢測的漏報率;同時,對異常行為庫也進行關聯(lián)規(guī)則挖掘,挖掘出的模式與正常模式庫進行模式比較,如不匹配則生成新的入侵模式,添加到入侵模式庫中,這樣能降低檢測的誤報率。通過Apriori算法挖掘頻繁項集,智能構(gòu)建和維護入侵模式庫,挖掘出的模式可利用主子表的結(jié)構(gòu)存儲在關系數(shù)據(jù)庫中,這樣可以減少數(shù)據(jù)存儲的冗余。
4 結(jié)束語
本文將數(shù)據(jù)挖掘技術和入侵檢測技術相結(jié)合,詳細分析了3種數(shù)據(jù)挖掘中的常用算法:Apriori關聯(lián)算法、ID3分類算法和FHCAM聚類算法。ID3分類算法可以利用大量的入侵數(shù)據(jù)加以訓練,生成表示入侵規(guī)則的決策樹,用于入侵檢測。FHCAM聚類算法可以對系統(tǒng)網(wǎng)絡行為進行聚類劃分,自動構(gòu)造正常行為庫和異常行為庫。Apriori關聯(lián)算法則可用來從異常行為庫中挖掘出表示入侵模式的關聯(lián)規(guī)則,通過這些規(guī)則識別入侵。建立了基于數(shù)據(jù)挖掘技術的自適應入侵檢測模型,該模型能夠智能構(gòu)建和維護入侵模式庫,有效的識別已知和未知的攻擊,降低入侵檢測的誤報率和漏報率,是一種具有白適應性和可擴展性的入侵檢測系統(tǒng)模型。