亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        入侵檢測分類技術的比較研究

        2017-09-03 09:17:12郝曉弘張曉峰
        網絡安全與數據管理 2017年15期
        關鍵詞:元組決策樹貝葉斯

        郝曉弘,張曉峰

        (蘭州理工大學 計算機與通信學院,甘肅 蘭州 730050)

        入侵檢測分類技術的比較研究

        郝曉弘,張曉峰

        (蘭州理工大學 計算機與通信學院,甘肅 蘭州 730050)

        入侵檢測是網絡安全研究的主要問題之一,有效的檢測方法在開發(fā)入侵檢測系統(tǒng)中發(fā)揮著至關重要的作用。通過對數據挖掘中的分類算法進行深入研究,選取四種常用的分類算法如決策樹、貝葉斯、K最近鄰法和神經網絡來分別構建入侵檢測系統(tǒng),旨在找到最有效的分類算法。仿真實驗在Weka環(huán)境下使用KDD CUP99數據集進行測試。實驗表明,采用C4.5決策樹構建的入侵檢測系統(tǒng)具有良好的檢測性能,是一種非常有效的網絡入侵檢測方法。

        入侵檢測;數據挖掘;Weka ;KDD CUP99

        0 引言

        隨著計算機技術與互聯(lián)網的快速發(fā)展,使得人們對網絡的依賴愈加強烈。而隨之而來的網絡安全問題已成為當下社會關注的焦點,其中網絡入侵是網絡安全最主要的威脅[1]。盡管諸如訪問控制、信息加密和入侵防御等安全技術可以用來保護網絡系統(tǒng),但仍然存在很多無法檢測到的入侵[2],比如,防火墻不能夠防御內部攻擊。因此,在網絡安全中入侵檢測系統(tǒng)起著非常重要的作用。

        入侵檢測的概念開始于James P. Anderson[3]的信息安全技術研究報告,他提出了一種將計算機系統(tǒng)存在的威脅和風險進行分類的方法,將威脅分為3種類型:外部滲透、內部滲透和不法行為,還提出通過審計跟蹤數據對攻擊行為進行監(jiān)視的思想。入侵檢測技術可以定義為識別和處理計算機網絡資源被惡意使用的系統(tǒng),包括內部用戶的未授權和外部系統(tǒng)入侵行為,它也是一種確保計算機系統(tǒng)安全性的技術,能夠發(fā)現(xiàn)非授權和異常行為,用于檢測威脅網絡安全的情況[4]。入侵檢測技術可以分為兩類:誤用檢測和異常檢測。誤用檢測是指通過攻擊行為與特征庫匹配來確認攻擊事件,具有較低的漏報率。但是它不能發(fā)現(xiàn)未知的攻擊。異常檢測是指將用戶正常行為的特征存儲到數據庫中,然后將用戶的當前行為與數據庫中的行為進行對比。如果分歧足夠大,則認為該行為是異常。它最大的優(yōu)點是能夠檢測到未知的攻擊。但是,由于正常的行為特征庫不能給出系統(tǒng)中所有用戶行為的完整描述,而且每個用戶的行為隨時在變化,因此,它具有較高的誤報率。

        Wenke Lee首次提出了一種使用數據挖掘技術進行入侵檢測的系統(tǒng)框架[5],通過將數據挖掘中的分類、關聯(lián)規(guī)則和序列等算法應用于入侵檢測,形成有效的檢測模型。數據挖掘技術能夠有效地提取用于誤用檢測的入侵模式,建立用于異常檢測的正常網絡行為庫,并且構建分類器來檢測攻擊,尤其針對大量的審計數據[6]。其中基于分類的入侵檢測系統(tǒng)將所有的流量數據分為正?;虍惓?,它不僅節(jié)省時間,而且也能有效分析攻擊數據。

        在本文中,將數據挖掘的4種分類算法應用于入侵檢測,采用KDD CUP99數據集[7]在Weka環(huán)境下測試不同的分類算法,通過分析各算法的準確度、靈敏度、特異性和計算時間等性能,從而找到在其性能度量方面表現(xiàn)最好的算法。

        1 數據挖掘與分類算法描述

        數據挖掘也稱為數據庫中的知識發(fā)現(xiàn),是指從大量數據中提取或挖掘知識?;跀祿诰虻娜肭謾z測系統(tǒng)僅需要標記流量數據來指示入侵而不用手動編碼規(guī)則。其中,分類是最常用的有監(jiān)督的數據挖掘技術之一。分類的任務是從分類對象構建分類器,以便對先前未知的對象盡可能準確地進行分類。根據類別上可用的信息和分類類型,分類器的輸出可以用不同的形式呈現(xiàn)。

        1.1 決策樹算法

        決策樹是數據挖掘中使用最廣泛并且非常有效的分類算法。它以自上而下、分類治之的方式進行操作,通過一組無序、無規(guī)則的事例推理出決策樹的分類規(guī)則,是基于實例的歸納學習方法,能夠完成對位置數據的預處理、分類以及預測[8]。決策樹是通過信息理論的原則采用分析與歸納的方法來構建。

        決策樹算法將樣本屬性值與構建的決策樹進行類比,從而實現(xiàn)對未知的樣本進行準確分類。Quinlan推廣了決策樹的使用方法,并且提出了C4.5決策樹,成為新的監(jiān)督學習算法的性能比較基準[9]。決策樹算法最主要的問題就是找到最佳的將數據劃分為其相應類的屬性。C4.5采用信息熵的概念通過訓練數據集來構建決策樹。也就是說,它是基于每個屬性的最高增益。信息增益定義為原來信息需求與新的需求之間的差值,增益公式如下:

        Gain(A)=Info(D)-InfoA(D)

        這里,熵計算公式如下:

        其中,pi是D中任意元組屬于Ci的概率。由于信息使用的是二進制編碼,因此,使用以2為底的對數函數。Info(D)是識別D中元組的類標號所需的平均信息量。

        在通過最大化增益創(chuàng)建樹之后,C4.5模型分解數據空間,使得某些分解區(qū)域變得均勻。由于在決策樹建立時,數據中存在噪聲和離群點,很多分枝反映出了訓練數據中的異常,通過C4.5執(zhí)行修剪步驟來處理數據過分擬合的問題,使決策樹變得更為普遍。

        1.2 樸素貝葉斯算法

        目前,存在很多變化的貝葉斯模型,這些都是基于貝葉斯定理構造的。本文描述一種典型的樸素貝葉斯模型。樸素貝葉斯分類法又稱為簡單貝葉斯分類法[10],它的過程如下:

        (1)令D是元組及其相關聯(lián)的類標簽的訓練集合。每個元組由n維屬性向量X=(x1,x2,…,xn)表示,描述分別從n個屬性A1,A2,…,An對該元組進行的n個測量。

        (2)假設有m個類C1,C2,…,Cm,給定一個元組x,分類器將能夠預測出x屬于具有最高后驗概率的類,它是以x為條件來預測的。換句話說,樸素貝葉斯分類器預測元組x屬于類Ci,如果僅當

        因此,需要最大化P(Ci|X)。 將P(Ci|X)最大化的類Ci稱作最大后驗假設。 按照貝葉斯定理方程,有:

        (3)由于P(X)對于所有情況都是常數,因此,只要使P(X|Ci)P(Ci)最大化即可。假如類先驗概率不為已知的,則通常假設這些類具有相同的概率,即P(C1)=P(C2)=…=P(Cm),因此只要使P(X|Ci)最大化。反之,需要最大化P(X|Ci)P(Ci)。

        (4)當給定的數據集具有許多屬性時,計算P(X|Ci)將是非常復雜的。為了在評估P(X|Ci)時減少計算,進行類條件獨立的假設。給定各元組的類標簽,假定屬性的值有條件地互相獨立,從而有:

        ②如果Ak是連續(xù)屬性值,則需要做更多的工作,但計算是非常簡單的。連續(xù)屬性值通常假定為具有平均值和標準偏差的Guassian分布,定義為:

        1.3 人工神經網絡算法

        人工神經網絡是一種能夠進行信息處理的數學模型,人工神經網絡是基于模擬生物神經系統(tǒng)來處理信息[11]。神經網絡是通過互相連接的節(jié)點和有向的邊組合而成,每一個神經元代表一個信息處理單元,其中包括一組與其他神經元相互連接的突觸權值(又稱權重w)、一個用來將所有的輸入信號迭加到加法器的求和裝置、用于控制神經元輸出的激活函數f(·)以及一個用來減小對激活函數累計輸入的閾值θ。神經網絡輸出的結果會隨連接方式、權重值以及激勵函數的變化而變化,因此,可以把網絡本身看作是對某一種算法的實現(xiàn)[12]。神經元數學模型如圖1所示。

        圖1 神經元數學模型

        其中,x1,x2,…,xn代表神經元的輸入,即來自前一級的n個神經元的軸突信息,w1j,w2j,…,wnj分別表示j神經元對x1,x2,…,xn的權重系數,即為突觸的傳遞效率,f(·)是激發(fā)函數,它決定了j神經元受輸入x1,x2,…,xn的共同刺激所達到的閾值使用哪種方式輸出。

        神經元的激發(fā)函數f(·)是非線性函數,它有很多表示形式,典型的有閾值函數、階躍函數以及Sigmoid型函數(簡稱S型函數)。目前,S型函數使用最廣泛,它的輸出是非線性的,因此,稱這種神經元為非線性連續(xù)模型。其表達式為:

        假設Ij代表一個神經元,它的數學表達式如下:

        其中,wij是由上一層的單元i到單元j的連接權重,oi是上一層的單元i的輸出,而θj是單元j的偏倚,用來充當閾值,改變單元的活性。

        1.4 K最近鄰算法

        K最近鄰是一種簡單有效的技術,該算法是基于類比的學習分類法,它將給定的目標元組和與它相似的訓練元組進行類比來分類。用n個屬性來描述訓練元組,其中,每個元組表示n維空間中的一個點,這樣就將所有訓練元組存放于N維的模式空間中。在給定某個未知的元組時,k最近鄰分類方法搜尋整個模式空間,找到與未知元組最接近的K個訓練元組,那么這K個訓練元組就是該未知元組的K個近鄰。

        考慮一組觀察值和目標值(x1,y1),…,(xn,yn),其中觀測值xi∈Rd,目標值yi∈{0,1},則對于給定的i,k近鄰對訓練樣本中的測試序列的鄰居進行速率估計,并使用最近鄰的類別標簽來預測測試向量類。因此,k最近鄰取新點,并根據對訓練數據中的K個最近點獲得的大部分投票將它們分類。在k最近鄰中,歐幾里得距離通常用作距離度量,以測量兩個向量[13]:

        其中,(xi,xj)∈Rd,xi=(xi1,xi2,…,xid)。

        2 實驗與結果分析

        在Weka環(huán)境中使用KDD CUP99數據集進行實驗。KDD CUP99是入侵檢測方法中最常用的數據集,包含測試數據中約200萬條記錄和訓練數據集中約490萬條記錄,每個記錄包含41個特征和一個決策屬性[14]。由于原始數據集數量龐大,因此,本文從KDD CUP99 10%數據集中隨機抽取數據樣本來進行仿真實驗,并采用十折交叉驗證來測試和評估四種分類算法[15]。在十折交叉驗證過程中,數據集被分為10個子集。在每一次測試時,10個子集中的一個被用作測試數據集,剩余的子集構成訓練集。本文基于準確度、靈敏度、特異性和時間來比較各分類器的性能,測試結果如表1、圖2、圖3所示。

        表1 分類器性能指標

        圖2 四種分類器的性能

        圖3 四種分類器建模時間

        由圖2可以看出,在對入侵行為進行檢測時,由決策樹構成的分類器具有很好的分類效果。其次是神經網絡,它具有很高的準確率,達到98.63%,但是該算法計算復雜度比較高,因此,需要消耗更多的時間來建模。從圖3可以看出,由于K最近鄰法是一種惰性學習,再加上更快的訓練階段,所以,需要最短的時間約0.8 s,相比于其他三種算法在訓練階段具有較低的耗時。通過綜合分析四種分類器的準確度、靈敏度、特異性以及建模時間等性能指標不難看出,由C4.5決策樹算法構建的分類器具有很好的分類能力,能夠有效地檢測入侵行為,是一種非常有效的網絡入侵檢測方法。

        3 結論

        本文的研究目的是通過仿真實驗來找出應用于網絡入侵檢測系統(tǒng)的最佳可用分類技術。通過使用KDD CUP99數據集在Weka平臺進行測試,并觀察各個分類算法的性能。實驗表明,C4.5決策樹分類算法具有良好的分類性能。其中由神經網絡構建的分類器在準確度、靈敏度和特異性等方面的表現(xiàn)優(yōu)于K最近鄰算法,而K最近鄰算法與其他分類方法相比具有最少的消耗時間。在將來的研究工作中,可以通過混合應用不同的數據挖掘算法和數據縮減技術來提高檢測的準確率,實現(xiàn)對入侵行為的檢測。

        [1] 樓文高,姜麗,孟祥輝. 計算機網絡安全綜合評價的神經網絡模型[J]. 計算機工程與應用,2007,43(32):128-131.

        [2] ZHU D, PREMKUMAR G, ZHANG X, et al. Data mining for network intrusion detection: a comparison of alternative methods[J]. Decision Sciences, 2001, 32(4): 635-660.

        [3] ANDERSON J P. Computer security threat monitoring and surveillance[R]. James P. Anderson Company, Fort Washington, Pennsylvania, 1980.

        [4] MOHAMMAD M N, SULAIMAN N, MUHSIN O A. A novel intrusion detection system by using intelligent data mining in weka environment[J]. Procedia Computer Science, 2011, 3(1): 1237-1242.

        [5] LEE W, STOLFO S J. Data mining approaches for intrusion detection[C].Usenix security, 1998.

        [6] CHAUHAN H, KUMAR V, PUNDIR S, et al. A comparative study of classification techniques for intrusion detection[C]. 2013 International Symposium on Computational and Business Intelligence (ISCBI), IEEE, 2013: 40-43.

        [7] BHAVSAR Y B, WAGHMARE K C. Intrusion detection system using data mining technique: support vector machine[J]. International Journal of Emerging Technology and Advanced Engineering, 2013, 3(3): 581-586.

        [8] SINDHU S S S, GEETHA S, KANNAN A. Decision tree based light weight intrusion detection using a wrapper approach[J]. Expert Systems with Spplications, 2012, 39(1): 129-141.

        [9] KOSHAL J, BAG M. Cascading of C4.5 decision tree and support vector machine for rule based intrusion detection system[J]. International Journal of Computer Network and Information Security, 2012, 8(8): 394-400.

        [10] 李玲俐. 數據挖掘中分類算法綜述[J]. 重慶師范大學學報(自然科學版),2011,28(4):44-47.

        [11] LI J, ZHANG G Y, GU G C. The research and implementation of intelligent intrusion detection system based on artificial neural network[C]. Proceedings of 2004 International Conference on Machine Learning and Cybernetics, IEEE, 2004: 3178-3182.

        [12] 談恒貴,王文杰,李游華. 數據挖掘分類算法綜述[J]. 微型機與應用,2005,24(2):4-6,9.

        [13] ABUROMMAN A A, REAZ M B I. A novel SVM-kNN-PSO ensemble method for intrusion detection system[J]. Applied Soft Computing, 2016(38): 360-372.

        [14] 張新有,曾華燊,賈磊.入侵檢測數據集KDD CUP99研究[J]. 計算機工程與設計,2010,31(22):4809-4812,4816.

        [15] BAMAKAN S M H, WANG H D, TIAN Y J, et al. An effective intrusion detection framework based on MCLP/SVM optimized by time-varying chaos particle swarm optimization[J]. Neurocomputing, 2016(199): 90-102.

        A comparative study of intrusion detection classification technology

        Hao Xiaohong, Zhang Xiaofeng

        (School of Computer and Communication, Lanzhou University of Technology, Lanzhou 730050, China)

        Intrusion detection is one of the main problems in network security research. Effective detection method plays an important role in the development of intrusion detection system.In this paper, through the in-depth study of classification algorithms of data mining, four kinds of commonly used classification algorithms, such as decision tree, Bayesian, K nearest neighbor method and neural network, are selected to construct the intrusion detection system respectively, and the most effective classification algorithm is found.Simulation experiments are performed using the KDD CUP99 data set in the Weka environment. The results show that the intrusion detection system constructed by C4.5 decision tree has a good detection performance and is a very effective method of network intrusion detection.

        intrusion detection; data mining; Weka; KDD CUP99

        TP31

        A

        10.19358/j.issn.1674- 7720.2017.15.003

        郝曉弘,張曉峰.入侵檢測分類技術的比較研究[J].微型機與應用,2017,36(15):8-11,15.

        2017-04-12)

        郝曉弘(1960-),男,碩士,教授,主要研究方向:智能信息處理、電子信息系統(tǒng)、控制網絡與分布式系統(tǒng)、嵌入式系統(tǒng)。

        張曉峰(1991-),男,碩士研究生,主要研究方向:智能信息處理、數據挖掘、網絡安全。

        猜你喜歡
        元組決策樹貝葉斯
        Python核心語法
        電腦報(2021年14期)2021-06-28 10:46:22
        一種針對不均衡數據集的SVM決策樹算法
        海量數據上有效的top-kSkyline查詢算法*
        決策樹和隨機森林方法在管理決策中的應用
        電子制作(2018年16期)2018-09-26 03:27:06
        基于減少檢索的負表約束優(yōu)化算法
        貝葉斯公式及其應用
        基于決策樹的出租車乘客出行目的識別
        基于貝葉斯估計的軌道占用識別方法
        一種基于貝葉斯壓縮感知的說話人識別方法
        電子器件(2015年5期)2015-12-29 08:43:15
        基于肺癌CT的決策樹模型在肺癌診斷中的應用
        青青草是针对华人绿色超碰| 成人免费xxxxx在线视频| www.日本一区| 清纯唯美亚洲经典中文字幕| 精品国产粉嫩内射白浆内射双马尾| 日本japanese丰满多毛| 二区在线视频| 蜜臀av一区二区三区精品| 日本人妻免费在线播放| 人妻无码一区二区视频| 亚洲AV无码资源在线观看| 麻豆夫妻在线视频观看| 91九色老熟女免费资源| 性色av无码久久一区二区三区| 欧洲亚洲第一区久久久| 翘臀诱惑中文字幕人妻| 五月天激情电影| 婷婷成人基地| 18禁黄无遮挡免费网站| 人妻中文久久人妻蜜桃| 亚洲a∨无码一区二区三区| 亚欧国产女人天堂Av在线播放| 国内精品人人妻少妇视频| 亚洲国产精品一区二区毛片| 亚洲av无码专区在线播放中文 | 久久亚洲色一区二区三区| 女同久久精品国产99国产精品| 国产免费午夜福利蜜芽无码| 亚洲国产成人久久精品一区| 又黄又硬又湿又刺激视频免费| 成人毛片18女人毛片免费| 男女后入式在线观看视频| 大陆国产乱人伦| 丰满人妻妇伦又伦精品国产| 国产喷白浆精品一区二区| 日本伊人精品一区二区三区| 亚洲av无码xxx麻豆艾秋| 2022国内精品免费福利视频| 国产精品自拍视频在线| 成午夜精品一区二区三区| 日韩区在线|