王春霞,侯艷麗
(商丘師范學院 計算機與信息技術學院,河南 商丘 476000)
隨著Internet的快速發(fā)展,越來越多的信息通過網絡來傳輸和存儲,網絡安全顯得越來越重要。目前常見的網絡安全技術主要有加密、數字簽名、身份認證、訪問控制、防火墻技術和入侵檢測技術等。
入侵檢測作為模式識別的分支,其主要任務是通過監(jiān)視系統(tǒng)或網絡流量、系統(tǒng)審計記錄等來發(fā)現與識別對系統(tǒng)和網絡的入侵企圖和入侵行為[1]。將數據挖掘技術應用于入侵檢測以提高系統(tǒng)性能,已成為入侵檢測技術研究和發(fā)展的重要趨勢,當前的挖掘方法,通常建立在對整個數據集進行等同學習的基礎上,而實際的檢測數據是連續(xù)到達、快速更新的,基于數據集難以真實反映當前網絡數據的行為特征,所以需要面向入侵檢測的數據流進行數據挖掘。聚類作為無監(jiān)督模式識別的一個組成部分,可作為一種數據壓縮技術用于大型數據庫,它不需要任何先驗知識的特性,適合面向大量數據的入侵檢測需求。因此,基于聚類的入侵檢測得到廣泛研究,文中基于模糊C均值聚類提出了一種的數據流入侵檢測算法。
近年來,利用聚類技術進行數據流入侵檢測的研究有許多,如OH-S等人利用聚類技術建立用戶的正常行為規(guī)則[2],俞研等人利用K均值聚類算法進行數據流的異常入侵檢測[3],李建國等人利用高效的混合聚類算法進行數據流的異常檢測[4],周剛等人利用聚類技術和小波技術進行DDos的入侵流分析[5],這些方法在一定程度上可以有效的檢測數據流入侵,但它們都是將待處理數據嚴格劃分到某個類中,而實際上的數據在性態(tài)和類屬方面存在不確定性,更適合進行模糊聚類。但模糊聚類存在下不足之處:1)需要多次迭代,無法直接運用到大數據集特別是數據流中;2)需事先確定聚類數目,為此,文中提出一種基于加權模糊聚類的數據流入侵檢測算法,該算法首先利用增量聚類得到概要信息和類數,在此基礎上定義新的加權模糊特征并對其模糊聚類。
當前的入侵檢測算法通常是在整個數據集上進行計算的,由于網絡數據的海量和快速到達等特性,使得現有入侵檢測算法易受系統(tǒng)資源的限制,效率不高同時,網絡數據的行為特征隨時間不斷的變化,對當前入侵行為的檢測往往更加依賴于近期的網絡數據作出判斷,而基于整個數據集進行入侵檢測,收歷史數據的影響,不利用準確的檢測入侵行為。因為,文中采用了一種兩階段的入侵檢測模型。圖1給出了系統(tǒng)模型的示意圖,它由概要信息生成模塊和入侵檢測兩大模塊組成。文中利用文獻[6]提出的方法來提取類的概要信息,然后利用模糊聚類算法對數據流入侵檢測進行分析。
圖1 基于數據流聚類分析的入侵檢測模型Fig.1 Intrusion detection model of data stream based on clustering analysis
在概要信息生成模塊中,通過對不斷到達的網絡數據流進行單次掃描聚類,生成了描述原始網絡數據流的概要信息[6]。事實上,用戶對于最近的數據更感興趣。因此,只需要對少量的近期數據進行細節(jié)分析,而對大量的歷史數據,僅給出一個概要。在存儲概要信息時,采用文獻[5]中提出的基于時間窗口模型的金字塔時間框架的結構。這樣,只需要一個較小的數據窗口,就可以存儲概要信息,大大減少了系統(tǒng)對內存的需求。
概要信息用聚類得到的子聚類及其特征值CF來表示。CF定義為描述包含 d維數據集的{…Xi,Xi+1,Xi+2}的聚類信息的(2d+2)元組,即設給定一個子類中的 d維數據集,則有聚類特征矢量 CF=(S,D,n,t),其中,n為子類中數據的數量,t為該特征矢量的存儲時刻。
設x為數據點ot的屬性值,y為子類Ci中心的屬性值,則數據點ot至子類Ci中心的距離為:
文中算法首先對順序到達的數據流做增量聚類,生成m個簇,當接受到檢測請求時,統(tǒng)計c個簇中包含記錄條數大于閾值θ的聚類數目c,把該值作為模糊C均值聚類的簇數,將c簇的代表信息作為模糊聚類的初始簇特征CF1,將m個簇作為m條虛擬記錄,根據最大隸屬度原則,人工標記各個簇類型。
1)置t=1,根據公式(1)計算n條虛擬記錄到CF1中每個初始簇特征的距離,并由公式(2)得到每條記錄屬于每個簇的隸屬度矩陣 U(t)。
2)根據 U(t)利用公式(3)計算每個簇的質心 V(k)。
3)若‖Jm(U(k),V(k)-Jm(U(k-1),V(k-1))‖≤ε(ε 為事先設定的迭代誤差閾值),算法停止;否則,t=t+1,轉公式(2)。
文中采用的實驗數據是基于KDD CUP’99數據集[7]作為實驗數據集,此數據集包含了500萬條網絡連接記錄,每條網絡連接記錄有7個分類屬性和34個數值屬性。數據集包含4種主要的攻擊類型:DoS:拒絕服務攻擊;Probe:掃描與探測行為;R2L:對遠程主機的未授權訪問;U2R:對超級用戶權限的未授權的訪問。
表1給出了對KDD CUP’99數據集整體的檢測結果。從表中可以看出,對DoS攻擊、R2L和U2R攻擊,文中算法和文獻[4]算法的誤報率相差不大,但檢測率明顯優(yōu)于文獻[4]算法。而對于Probe攻擊,兩種算法的檢測率相差不大,但文中算法誤報率稍微低于文獻[4]算法。
表1 入侵檢測結果Tab.1 Experimental result of intrusion detection
文中提出一種基于模糊聚類的兩階段數據流入侵檢測算法,首先采用增量聚類算法對數據流中的記錄進行聚類,以對數據流的分布特征進行準確描述,然后用模糊 C均值算法對代表信息進行聚類,檢測不同階段的入侵行為。模糊聚類通過多次迭代,能更準確地反映數據特性,簇數由增量聚類的結果決定。實驗證實該算法可以有效檢測數據流入侵。
[1]正軍,李建華.入侵檢測技術[M].北京:清華大學出版社,2004.
[2]Oh S,Kang J,Byun Y.Intrusion detection based on clustering a data stream[C]//Proc.of the 3rd ACIS int’l Conf.on software engineering research,management and applicatioin.Mount pleasant,2005:220-227.
[3]俞研,郭山清,黃皓.基于數據流的異常入侵檢測[J].計算機科學,2007,34(5):66-71.
YU Yan,GUO Shan-qing,HUANG Hao.Anomaly intrusion detection based on data stream[J].Computer Science,2007,34(5):66-71.
[4]李建國,胡學鋼.高效的混合聚類算法及其在異常檢測中的應用[J].計算機應用, 2010, 30(7):75-78.
LI Jian-guo,HU Xue-gang.Efficient mixed clustering algorithm and its application in anomaly detection[J].Computer Application,2010,30(7):75-78.
[5]周剛,劉淵,陳曉光.基于小波的DDos入侵流分析[J].計算機工程,2008,34(15):156-158.
ZHOU Gang,LIU Yuan,CHEN Xiao-guang.Analysis of DDos traffic based on wavelet[J].Computer Engineering,2008,34(15):156-158.
[6]Aggarwal C C,HAN Jia-wei,WANG Jian-yong,et al.A framework for clustering evolving data streams[C]//Proc.of the 29th Int’l Conf.on Very Large Data Bases,2003:81-92.
[7]KDD99.KDD99 Cup Dataset[EB/OL]. (1999-06-05.)http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html.