姜巍 云南大學
基于樸素貝葉斯的入侵檢測優(yōu)化設計
姜巍 云南大學
入侵檢測系統(tǒng)是一種對網(wǎng)絡傳輸進行即時監(jiān)視,在發(fā)現(xiàn)可疑傳輸時發(fā)出警報或者采取主動反應措施的網(wǎng)絡安全設備。它與其他網(wǎng)絡安全設備的不同之處便在于,IDS是一種積極主動的安全防護技術。入侵檢測就是根據(jù)網(wǎng)絡流的數(shù)據(jù)屬性區(qū)分出正常流量和攻擊流量。
入侵檢測系統(tǒng) 樸素葉貝葉斯
防火墻是最常見的保護網(wǎng)絡安全的方法,它的作用是可以對外來攻擊進行有效的攔截,然而對內部入侵卻毫無辦法,所以在一定程度上,防火墻的作用是有局限性的,而入侵檢測可以說是有效地彌補了防火墻的不足和缺陷。入侵檢測系統(tǒng)根據(jù)入侵檢測的行為分為兩種模式:異常檢測和誤用檢測。前者先要建立一個系統(tǒng)訪問正常行為的模型,凡是訪問者不符合這個模型的行為將被斷定為入侵;后者則相反,先要將所有可能發(fā)生的不利的不可接受的行為歸納建立一個模型,凡是訪問者符合這個模型的行為將被斷定為入侵。
數(shù)據(jù)挖掘的原理很簡單,就是可以在已有的數(shù)據(jù)集中,識別相關的信息,可以找到之前沒有的并且是新的信息類型。數(shù)據(jù)挖掘覆蓋面相當廣泛,尤其是當前的新興技術,滲透到我們的生活當中,也廣泛的應用到我們的生活當中。其中,數(shù)據(jù)挖掘的應用方面占主導地位的方法之一就是分類(Classification)。數(shù)據(jù)分析中最為重要的一個過程也就是分類。一般有以下步驟:
(1)數(shù)據(jù)的收集:對所需數(shù)據(jù)的收集有很多方式,如制作網(wǎng)絡爬蟲從網(wǎng)站爬取數(shù)據(jù)、設備發(fā)送的實測數(shù)據(jù)等。
(2)輸入數(shù)據(jù)的準備:搜集到數(shù)據(jù)要提前變換為符合要求的格式。
(3)輸入數(shù)據(jù)的分析:在這其中不免有一些異常值的數(shù)據(jù),要提前預處理這些數(shù)據(jù)。
(4)訓練算法:在算法中輸入得到的數(shù)據(jù),并汲取有用信息,得到規(guī)律。
(5)算法的測試:通過已經(jīng)得到的測試集,來檢測算法;來觀察算法測試后的結果,進而發(fā)現(xiàn)其效果。
(6)算法的使用:通過完成的算法去在新的工作中進行驗證,觀察其可否在具體的現(xiàn)實工作環(huán)境中進行應用。
樸素貝葉斯方法即在已知一些概率的情況下,基于這些概率選擇最佳的類別標簽,所以它非常便于應用,是一個基于概率論的算法。
貝葉斯分類器的方法和原理:首先要知道其中對象的先驗概率,其后驗概率可以通過貝葉斯公式計算出來,最后得到的結果就是該對象屬于某一類別標簽的概率,通過結果的比較,后驗概率最大類別標簽就是該對象的類別標簽。
設數(shù)據(jù)集中的元組為X,分類標簽集合為C,任意Ci屬于C,求任意元組X的分類標簽即求P(C|X).由概率公式可知:
我們的分類問題:已知特征向量求其標簽,轉化為概率問題就是在已知特征的條件下,求屬于每個類別的概率,哪個類別的概率最大就分類到那個類別。即求p(C|X)。而求這個概率需要求向量X與類別的聯(lián)合概率,由于x的維度較高,這是一個非常難求的概率。因此使用貝葉斯準則,將其展開為一個先驗概率與另一個條件概率的乘積除以X的先驗概率。由于我們求概率的目的是為了比較大小,因此可以將分母看作一個歸一化因子不去計算。而另一個條件概率仍涉及聯(lián)合概率的問題。這里作了一個條件獨立性假設,即屬性之間相互獨立,因此該條件概率就可以轉化為每個屬性取值下條件概率的乘積,這就是樸素貝葉斯算法的樸素之處。
實現(xiàn)入侵檢測的方法從根本意義上講就是設計一個事件分類器來將數(shù)據(jù)流中的正常與異常數(shù)據(jù)區(qū)分出來,從而實現(xiàn)對攻擊行為的報警功能。
圖4 -1 入侵檢測流程
通過入侵檢測流程圖可以看到,整個系統(tǒng)需要兩個數(shù)據(jù)集一個是訓練集即樣本數(shù)據(jù),另一個是測試集即待測數(shù)據(jù)。首先通過數(shù)據(jù)挖掘對數(shù)據(jù)集作預處理,因為不管是訓練集還是測試集中的數(shù)據(jù)都是復雜且冗余的,我們需要劃分數(shù)據(jù)集中的屬性,劃分屬性特征。當測試集輸入后,還是需要先進行預處理,將測試集中的網(wǎng)絡流量進行分類,然后通過映射關系函數(shù)匹配未知事件與樣本標記事件,進而得出網(wǎng)絡流量所屬類別的概率。相比較于其他類型的入侵檢測系統(tǒng),使用樸素貝葉斯的優(yōu)勢在于準確度更高,配合數(shù)據(jù)挖掘對現(xiàn)在海量的網(wǎng)絡流量更具有針對性,并且將流量屬性復雜度大大降低,系統(tǒng)處理速度更快,誤警率大大降低。
整個優(yōu)化設計還有需要完善的地方,比如說可以通過對流量屬性的細化控制提高整個系統(tǒng)的效率和準確度;可以加入機器學習技術,將大量的網(wǎng)絡流量作為學習樣本,提升對流量概率的判斷準確度,這樣可以使整個系統(tǒng)的準確度越來越高。
[1]百度百科“入侵檢測系統(tǒng)”詞條[EB]/[OL].http://baike.baidu.com/item/入侵檢測系統(tǒng).2017-06-18
[2]王輝,陳泓予,劉淑芬.基于改進樸素貝葉斯算法的入侵檢測系統(tǒng)[J].河南理工大學計算機科學與技術學院,吉林大學計算機科學與技術學院.2014-04-15
[3]張亞萍,胡學鋼,方振國,姜恩華.數(shù)據(jù)缺失條件下的貝葉斯優(yōu)化算法[J].淮北師范大學物理與電子信息學院,合肥工業(yè)大學計算機與信息學院.2012-04-11
[4]吳為勝,武友新,游建平,萬敏.一種基于線性的樸素貝葉斯分類器知識庫的組織方法[J].南昌大學信息工程學院.2009-10-15
[5]王輝,陳泓予,劉淑芬.基于改進樸素貝葉斯算法的入侵檢測系統(tǒng)[J].河南理工大學計算機科學與技術學院,吉林大學計算機科學與技術學院.2014-04-15