亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網(wǎng)絡(luò)入侵檢測系統(tǒng)中的漂移檢測

        2015-12-31 12:50:18錢亞冠關(guān)曉惠
        電信科學(xué) 2015年3期
        關(guān)鍵詞:概率密度距離流量

        錢亞冠,關(guān)曉惠

        (1.浙江科技學(xué)院 杭州310023;2.浙江水利水電學(xué)院 杭州310018)

        1 引言

        近些年,網(wǎng)絡(luò)攻擊手段的多樣化以及新型攻擊方式的不斷出現(xiàn),使得基于機器學(xué)習(xí)的網(wǎng)絡(luò)入侵檢測技術(shù)開始成為研究熱點[1~6]?;跈C器學(xué)習(xí)的網(wǎng)絡(luò)入侵檢測技術(shù)主要分為兩類:通過正常流量數(shù)據(jù)訓(xùn)練模型,識別出異常流量(稱異常檢測);通過異常流量數(shù)據(jù)訓(xùn)練分類模型,識別出不同的異常流量(稱誤用檢測)。盡管已發(fā)表的論文成果顯示,機器學(xué)習(xí)方法具有良好的檢測率,但這種高檢測率大都建立在訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)均保持統(tǒng)計平穩(wěn)的假設(shè)之上,即訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)都來自同一樣本總體。而事實上,由于攻擊者對攻擊數(shù)據(jù)特性的有意改變或新型攻擊方式的出現(xiàn),都將導(dǎo)致異常流量的統(tǒng)計特性發(fā)生改變。這種改變對基于機器學(xué)習(xí)的誤用檢測影響尤其明顯,并已引起研究人員的極大關(guān)注[7~10]。

        UC Berkeley的 Kantchelian A等人[9]提出攻擊漂移(adversarial drift)的概念來描述網(wǎng)絡(luò)對抗環(huán)境下的這種異常數(shù)據(jù)分布改變的情況。他們意識到攻擊者通過人為地改變攻擊流量的特征分布,從而繞過分類器的檢測;或通過錯誤的訓(xùn)練分類器[11],達到將來攻擊時不被檢測到的目的,于是提出利用分類器集成的方式來克服攻擊漂移。Singh A等人[8]指出,惡意軟件具有恒定的進化能力,這種進化會導(dǎo)致其流量特征的統(tǒng)計分布不平穩(wěn),正是這種不平穩(wěn)性給基于機器學(xué)習(xí)的入侵檢測系統(tǒng)提出了極大的挑戰(zhàn)。Singh A將這種流量特征分布的不平穩(wěn)性歸入機器學(xué)習(xí)領(lǐng)域中的概念漂移(concept drift)[12,13]。無論是 Kantchelian A 提出的攻擊漂移,還是Singh A認為的概念漂移,從統(tǒng)計學(xué)角度看都是數(shù)據(jù)特征分布的改變。如何在惡意網(wǎng)絡(luò)環(huán)境下及時檢測到這種漂移現(xiàn)象的發(fā)生,是保證入侵檢測系統(tǒng)效率的關(guān)鍵[8,9]。因此,本文在Bayes決策理論框架下,專門針對惡意流量的攻擊漂移提出有效的檢測方法,具體如下:

        · 將Rényi距離應(yīng)用到惡意流量的漂移度量中,利用其可調(diào)參數(shù)提高檢測的靈敏性;

        · 應(yīng)用最大熵方法估計的概率模型,降低Rényi距離的計算復(fù)雜性;

        · 提出基于信息熵的加權(quán)Rényi距離,解決多個特征的Rényi距離的表征問題。

        2 問題描述及相關(guān)概念

        2.1 攻擊流量漂移

        假設(shè)X∈Rm是m維特征空間的異常流量,由m個統(tǒng)計特征組成,X=(a1,a2,…,am),C=(c1,c2,…,ck)是 攻 擊類型集合。由Bayes決策理論可知,一個優(yōu)化的分類模型f(X)→ci可由先驗概率P(ci)和條件概率密度p(X|ci)決定[14]:

        定義1 假設(shè)在某個測量時間段t內(nèi)獲得的ci類型攻擊流量為X,定義其概率狀態(tài)為ci的先驗概率P(ci)與條件概率p(X|ci)的聯(lián)合表示為:St(ci)=(P(ci),p(X|ci))。

        定義2 (網(wǎng)絡(luò)攻擊流量漂移)經(jīng)過時間段D后,攻擊流量類ci的概率狀態(tài)發(fā)生顯著改變的過程,即表現(xiàn)為St+Δ(ci)≠St(ci)。

        很明顯,這種攻擊流量的漂移會影響到分類檢測統(tǒng)計模型的準確率[15]。但是目前的機器學(xué)習(xí)分類方法往往只用時間段t內(nèi)獲得的數(shù)據(jù)訓(xùn)練學(xué)習(xí)器,對于時間段D后的攻擊流量的概率分布狀況毫無感知。這種缺乏反饋機制的方法將導(dǎo)致在分類準確率下降的情況下,分類模型仍然誤認為自己還具有時刻t的分類效率。為了能自動發(fā)現(xiàn)攻擊流量的漂移,提出了利用Rényi距離[16]作為網(wǎng)絡(luò)攻擊流量漂移的度量。

        2.2 Rényi距離

        定義3 Rényi熵R(A)是Shannon熵H(A)的廣義形式:

        其中,α 是一個可調(diào)參數(shù),當(dāng) α→1 時,R(A)→H(A)。

        定義4 假設(shè)P和Q是可測空間(X,F)上的概率測度,p和q分別是它們的概率密度,則α(α≥0)階Rényi距離定義為:

        當(dāng)P=Q時,Dα(P||Q)=0。

        Rényi距離用于表征概率之間的差異度,又稱Rényi離散度。當(dāng) α→1 時,Dα(P||Q)就退化為 K-L(Kullback-Leibler)距離[11]。由于Rényi距離具有可調(diào)參數(shù)α,它比K-L距離具有更好的一般性和靈活性。但是Rényi距離與K-L距離一樣具有不對稱性 (具體見定理1),因此將其進行必要的修改,使其成為適合作為概率分布差異的度量,本文將對稱的Rényi距離作為漂移的度量,在以后內(nèi)容中不再做特別說明。

        定理 1 如果P≠Q(mào),那么Dα(P||Q)通常不等于Dα(Q||P)。

        3 識別方法

        本文利用Rényi距離檢測攻擊流量的漂移。理想情況下,如果攻擊流量沒有發(fā)生漂移,則兩個時間段的攻擊流量的Rényi距離為0。但實際情況下,由于獲取的流量樣本有限,即使攻擊流量沒有發(fā)生漂移,Rényi距離也會在一個范圍內(nèi)波動。因此定義如下的指示函數(shù):

        其中,δ是判決門限,根據(jù)經(jīng)驗設(shè)置。計算式(4)的關(guān)鍵是準確快速地估計p、q和解決多個特征的Rényi距離融合問題。以往文獻計算K-L距離通常是直接利用樣本得到的經(jīng)驗概率(empirical probability)[17],利用最大熵原理估計p、q,可獲得更精確的估計,并可避免事先假設(shè)概率模型的不足。同時,利用信息增益作為加權(quán)系數(shù),將多個特征的Rényi距離統(tǒng)一為單一的統(tǒng)計量。

        3.1 概率密度估計

        從實際流量數(shù)據(jù)中可以事先獲得樣本均值μ,由大數(shù)定律可知,樣本均值依概率收斂于總體均值。因此,希望最終估計獲得的概率分布的均值與樣本均值保持一致。由最大熵原理[18]可知,上述概率密度估計問題可以等價為如下有約束的優(yōu)化問題:

        其中,0(x)=x,μ0=1,即滿足概率的歸一條件。理論上,n(x)可以是定義在隨機變量x上的任意函數(shù)。μn是常量,可通過樣本數(shù)據(jù)計算獲得。利用拉格朗日乘數(shù)法求解可獲得如下指數(shù)形式的解:

        其中,λ=[λ0,…,λn]為拉格朗日系數(shù)。將式(7)代入式(6)可得:

        將Gn(λ)進一步展開成泰勒級數(shù),并丟棄二階以上的高階項,變?yōu)榍蠼饩€性方程組的問題:

        采用牛頓法求解此非線性方程組的數(shù)值解λ。

        令:

        則式(9)可表示為:

        利用式(10)不斷迭代 λ=δ+λ0,用新的 λ 替代 λ0,直到δ滿足終止條件。

        利用最大熵估計概率密度的關(guān)鍵是確定式(6)中的樣本函數(shù)n(x)。不同的樣本函數(shù)代表不同的已知知識,最終得到的概率密度也會有所差異。考慮到通用性和易解性,將n(x)定義為n階原點矩:

        本文采用最高6階原點矩,即M=6,完全滿足擬合度的要求。

        3.2 檢測算法

        通過樣本估計獲得概率密度p、q,利用式(3)可計算得到某個特征的Rényi距離。但機器學(xué)習(xí)分類中的數(shù)據(jù)流通常由多個特征組成,采用信息增益作為特征的權(quán)重,并加權(quán)求和成單個變量。首先給出數(shù)據(jù)集S的分類信息熵定義[19]:

        其中,pi是S中任意實例在類Ci中的概率,可由|Ci,S|/|S|估計得到。假設(shè)特征A可將S按決策樹原理劃分為v個子集{S1,S2,…,Sv},定義特征A對S的分類信息熵為:

        進一步定義信息增益為:

        顯然Gain(A)≥0,因為通過特征A對數(shù)據(jù)集進行劃分后,實例在各子集中的分布更均勻,信息熵變小。由于各特征的信息增益不滿足歸一條件,特征Ai的權(quán)重系數(shù)αi可由Gain(Ai)/∑Gain(Ai)確定。最后將第k個類的加權(quán)Rényi距離WDk表示為:

        算法:traffic_evolution_detect

        輸入:TS1是原來模型的訓(xùn)練數(shù)據(jù)集;

        TS2是最近獲取的數(shù)據(jù)集;

        A為攻擊流量的特征集合,通常通過某種特征選擇算法得到;

        C是所有可能的分類集合;

        δ為Rényi距離的門限值,如果超過該門限值,則判斷為漂移發(fā)生;

        α為Rényi熵的可調(diào)參數(shù)。

        輸出:R,當(dāng)類ci發(fā)生漂移時Ri輸出1,否則輸出0。

        具體步驟如下。

        4 實驗評估

        利用KDD Cup99[20]入侵數(shù)據(jù)集對上述方法進行實驗評估。KDD Cup99數(shù)據(jù)集源于MIT林肯實驗室收集的網(wǎng)絡(luò)入侵數(shù)據(jù),目前已被廣泛應(yīng)用于入侵檢測方面的實驗評估。該數(shù)據(jù)集包含四大類攻擊,分別標記為DoS、PROBE、U2R、R2L。同時,該數(shù)據(jù)集分為D1、D2兩個部分,采集時間分別相距6個月。與D1相比,D2增加了多種攻擊方法:DoS攻擊增加了4種,從最初的6種攻擊方法增加到10種(見表1);U2R攻擊方法增加了4種 (見表2);Probe攻擊方法增加了2種(見表3),上述變化提示網(wǎng)絡(luò)攻擊方法在隨時間不斷地演進變化;R2L的攻擊方法數(shù)量沒有變化,只是guess_passwd的攻擊流量有所增加(見表4)。通過上述分析可知,盡管D2中的攻擊類型仍然只有4種,但其包含數(shù)量在增多;直接用D1訓(xùn)練的分類模型對D2進行分類,發(fā)現(xiàn)誤分類率很高,原因就是攻擊方法的衍生導(dǎo)致攻擊漂移的發(fā)生。因此,通過本文提出的加權(quán)Rényi距離來檢測D1與D2的漂移是否發(fā)生及程度。實驗過程中采用MATLAB實現(xiàn)了上述算法,并通過調(diào)用機器學(xué)習(xí)軟件Weka3.6的接口,實現(xiàn)多種分類器的性能比較,參數(shù)設(shè)置采用系統(tǒng)默認值。

        表1 DoS攻擊方法的類型增加情況

        表2 U2R攻擊方法的類型增加情況

        表3 Probe攻擊方法的類型增加情況

        表4 R2L攻擊方法的類型構(gòu)成情況

        4.1 KDD Cup99數(shù)據(jù)的密度估計

        準確地估計數(shù)據(jù)的概率密度是獲得合理Rényi距離的關(guān)鍵。圖1~圖3給出了利用最大熵方法估計出的U2R類的3種特征的概率密度。由于篇幅有限,僅給出3種特征的概率密度估計。圖1~圖3中的虛線為估計出的概率密度,直方圖為數(shù)據(jù)的頻率統(tǒng)計。通過擬合優(yōu)度檢驗,R-square值均達到0.98以上??梢园l(fā)現(xiàn),利用最大熵方法估計出的概率密度可以很好地擬合實際數(shù)據(jù),包括數(shù)據(jù)尖峰部分。

        4.2 加權(quán)Rényi距離

        圖1 U2R的source byte特征的概率密度

        圖2 U2R的dst_host_count特征的概率密度

        圖3 U2R的dst_host_srv_count特征的概率密度

        Rényi距離與K-L距離都可表征概率之間的差異度。當(dāng)α→1時,Rényi距離就退化為K-L距離。在KDD Cup99的兩個數(shù)據(jù)集D1、D2上分別計算K-L距離與不同參數(shù)的Rényi距離,并比較它們檢測攻擊漂移的效果。4種攻擊類型的加權(quán) K-L 距離分別為 0.39(Probe)、0.54(DoS)、0.85(U2R)和 0.13(R2L);參數(shù)的加權(quán) Rényi距離分別為 0.48(Probe)、0.80(DoS)、1.52(U2R)和 0.14(R2L);參數(shù) α=1.8 的加權(quán)Rényi距離分別為 0.62(Probe)、1.78(DoS)、3.14(U2R)和0.16(R2L)。圖4顯示了4種攻擊類型的上述距離值??梢园l(fā)現(xiàn),U2R攻擊的距離值最大,漂移最顯著;而R2L攻擊的距離值最小,漂移最不顯著;同時發(fā)現(xiàn)R2L攻擊的K-L距離與Rényi距離非常接近;而在U2R攻擊上,Rényi距離明顯大于K-L距離,且α值越大,距離值越大。與K-L距離相比,Rényi距離對于漂移檢測具有放大作用,且大的α值比小的α值的放大效果更明顯,即對漂移具有更高的敏感性。利用Rényi距離的漂移敏感性,比K-L距離更容易設(shè)置檢測算法的閾值。在本文中,根據(jù)經(jīng)驗值設(shè)置檢測算法的閾值 δ=1.5。

        圖4 Rényi距離與傳統(tǒng)的K-L距離的漂移檢測效果比較

        4.3 重訓(xùn)練后的分類性能評估

        在檢測到攻擊漂移后,采用模型重訓(xùn)練機制來更新分類模型。分別選取核估計 Na觙ve Bayes (NB+kernel)、Bayes網(wǎng)絡(luò) (BN)、決策樹 (C4.5)、支持向量機 (SVM)、k近鄰(k-NN)、神經(jīng)網(wǎng)絡(luò)(NN)、隨機森林(RF)與分類器組合方法(Bagging)進行實驗對比。圖5~圖8給出了在檢測到概念漂移后,采用新的樣本數(shù)據(jù)重新訓(xùn)練模型后的分類準確率與重新訓(xùn)練前的模型進行比較的結(jié)果。

        可以看出,各種方法在模型重訓(xùn)練后,其準確率得到了很大程度的提高,而這些方法又以決策樹算法C4.5的分類性能最好。對于每種攻擊類型的識別率,又以漂移最明顯的U2R的提升最顯著。由此可見,在攻擊漂移發(fā)生后,用新的樣本數(shù)據(jù)進行模型的重新訓(xùn)練,可以有效地改善攻擊流量分類的準確率。

        5 結(jié)束語

        圖5 分類模型進行重訓(xùn)練后,Probe攻擊的召回率與精度的比較

        圖6 分類模型進行重訓(xùn)練后,DoS攻擊的召回率與精度的比較

        圖7 分類模型進行重訓(xùn)練后,U2R攻擊的召回率與精度的比較

        機器學(xué)習(xí)方法目前被廣泛地應(yīng)用到互聯(lián)網(wǎng)流量分類、異常流量檢測等領(lǐng)域,取得了不少成果。但由于目前網(wǎng)絡(luò)攻擊手段不斷變化更新,傳統(tǒng)上基于靜態(tài)批量學(xué)習(xí)的方法不能很好地適應(yīng)這種攻擊動態(tài)演進的環(huán)境。因此,需要能及時檢測到攻擊漂移的發(fā)生,并及時重新訓(xùn)練模型,使其保持較高的識別率。本文提出的漂移檢測方法從攻擊流量的特征概率密度出發(fā),通過Rényi距離對漂移的放大作用檢測其是否發(fā)生,具有比K-L距離對漂移更敏感的優(yōu)點。

        圖8 分類模型進行重訓(xùn)練后,R2L攻擊的召回率與精度的比較

        1 陸悠,李偉,羅軍舟等.一種基于選擇性協(xié)同學(xué)習(xí)的網(wǎng)絡(luò)用戶異常行為檢測方法.計算機學(xué)報,2014,37(1):28~40

        Lu Y,Li W,Luo J Z,et al.A network user’s abnormal behavior detection approach based on selective collaborative learning.Chinese Journal of Computers,2014,37(1):28~40

        2 張曉惠,林柏鋼.基于特征選擇和多分類支持向量機的異常檢測.通信學(xué)報,2009,30(10A):68~73

        Zhang X H,Lin B G.Anomaly detection based on feature selection and multi-class support vector machines.Journal on Communications,2009,30(10A):68~73

        3 李洋,方濱興,郭莉等.基于主動學(xué)習(xí)和 TCM-KNN方法的有指導(dǎo)入侵檢測技術(shù).計算機學(xué)報,2007,30(8):1464~1473

        Li Y,Fang B X,Guo L,et al.Supervised intrusion detection based on active learning and TCM-KNN algorithm.Chinese Journal of Computers,2007,30(8):1464~1473

        4 Li Y,Li W,Wu G.An intrusion detection approach using SVM and multiple kernel method.International Journal of Advancements in Computing Technology,2012,4(1):463~469

        5 Biggio B,Corona I,Nelson B,et al.Security Evaluation of Support Vector Machines in Adversarial Environments.Berlin:Springer International Publishing,2014

        6 DamopoulosD,Menesidou S A,KambourakisG,etal.Evaluation ofanomaly-based IDS formobiledevicesusing machine learning classifiers.Security and Communication Networks,2012,5(1):3~14

        7 Laskov P,Lippmann R.Machine learning in adversarial environments.Machine Learning,2010,81(2):115~119

        8 Singh A,Walenstein A,Lakhotia A.Tracking concept drift in malware families.Proceedings of the 5th ACM Workshop on Security and Artificial Intelligence,Raleigh,USA,2012:81~92

        9 Kantchelian A,AfrozS,Huang L,etal.Approachesto adversarial drift.Proceedings of the 2013 ACM Workshop on Artificial Intelligence and Security,2013:99~110

        10 Barreno M,Nelson B,Joseph A D,et al.The security of machine learning.Machine Learning,2010,81(2):121~148

        11 Newsome J,Karp B,Song D.Paragraph:Thwarting Signature Learning by Training Maliciously.Berlin: Springer Berlin Heidelberg,2006

        12 Tsymbal A.The problem of concept drift:definitions and related work.Computer Science Department,Trinity College Dublin,2004

        13 Widmer G,Kubat M.Learning in the presence of concept drift and hidden contexts.Machine Learning,1996,23(1):69~101

        14 Zliobaite I.Learning Under ConceptDrift:an Overview.Technical Report,Vilnius University,2009

        15 Kelly M G,Hand D J,Adams N M.The impact of changing populations on classifier performance.Proceedings of the Fifth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,San Diego,1999:367~371

        16 Van Erven T,Harremo觕s P.Rényi divergence and majorization.Proceedings of 2010 IEEE International Symposium on Information Theory(ISIT),Austin,Texas,USA,2010:1335~1339 17 Yu S,Zhou W,Doss R.Information theory based detection against network behavior mimicking DDoS attacks.Communications Letters,2008,12(4):318~321

        18 JaynesE T.Information theory and statisticalmechanics.Physical Review,1957,106(4)

        19 Shannon C E.A mathematical theory of communication.The Bell System Technical Journal,1948(27):379~423,623~656

        20 Hettich S,Bay S D.KDD cup 1999.http://kdd.ics.uci.edu/databases/kddcup 99/kddcup99.html,2007

        猜你喜歡
        概率密度距離流量
        冰墩墩背后的流量密碼
        玩具世界(2022年2期)2022-06-15 07:35:36
        張曉明:流量決定勝負!三大流量高地裂變無限可能!
        連續(xù)型隨機變量函數(shù)的概率密度公式
        尋找書業(yè)新流量
        出版人(2020年4期)2020-11-14 08:34:26
        算距離
        每次失敗都會距離成功更近一步
        山東青年(2016年3期)2016-02-28 14:25:55
        Hunt過程在Girsanov變換下的轉(zhuǎn)移概率密度的表示公式
        隨機變量線性組合的分布的一個算法
        隨機結(jié)構(gòu)-TMD優(yōu)化設(shè)計與概率密度演化研究
        愛的距離
        母子健康(2015年1期)2015-02-28 11:21:33
        国产一区精品二区三区四区| 娇小女人被黑人插免费视频| (无码视频)在线观看| 久久久精品456亚洲影院| 日本熟妇色xxxxx欧美老妇| 99re6热在线精品视频播放6| 国产成人久久精品77777综合| 一区二区三区中文字幕在线观看| 日韩乱码人妻无码系列中文字幕| 亚洲人成未满十八禁网站| 日韩AV无码一区二区三区不卡毛片| 产国语一级特黄aa大片| 国产成人亚洲合色婷婷| 青青草免费手机视频在线观看| 亚洲国产精品ⅴa在线观看| 欧美日韩国产一区二区三区地区| 极品视频一区二区三区在线观看| 亚洲国产精品一区二区久久恐怖片| 免费无遮挡禁18污污网站| 国产午夜精品理论片| 国产成人久久精品二区三区| 午夜人妻久久久久久久久| 国产免费丝袜调教视频| 久久婷婷综合色拍亚洲| 国产一区三区二区视频在线观看| 亚洲欧洲成人精品香蕉网| a级黑人大硬长爽猛出猛进| 亚洲AV无码中文AV日韩A| 一二三四在线观看视频韩国| 人人爽人人爽人人片av| 男女边吃奶边做边爱视频| 国产免费的视频一区二区| 偷拍美女一区二区三区视频| 大奶白浆视频在线观看| 在线亚洲午夜理论av大片| 福利视频一二区| 日本五十路熟女在线视频| 国产女主播一区二区久久| 免费人成网ww555kkk在线| 国产成人美女AV| 亚洲av综合av国一区二区三区|