亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        利用互信息進(jìn)行網(wǎng)絡(luò)異常檢測的熵特征優(yōu)選

        2012-06-13 02:30:54易勝藍(lán)
        電訊技術(shù) 2012年6期
        關(guān)鍵詞:總流量互信息端口

        易勝藍(lán)

        (中國西南電子技術(shù)研究所,成都 610036)

        利用互信息進(jìn)行網(wǎng)絡(luò)異常檢測的熵特征優(yōu)選

        易勝藍(lán)

        (中國西南電子技術(shù)研究所,成都 610036)

        首先討論了傳統(tǒng)流量統(tǒng)計分析的缺點,指出熵分析能夠反映更多潛在的信息,發(fā)現(xiàn)傳統(tǒng)流量統(tǒng)計分析不能發(fā)現(xiàn)的網(wǎng)絡(luò)異常。其次,討論了流量熵和計數(shù)熵的不同,指出兩者應(yīng)該配合使用,不能如現(xiàn)有研究中一樣片面地使用其中一種。最后,用互信息法分析了兩種熵的常用特征,實驗發(fā)現(xiàn)兩者分別呈現(xiàn)冗余狀態(tài),在剔除冗余之后檢測的效率有明顯提高,且不失檢測準(zhǔn)確率。

        網(wǎng)絡(luò)異常檢測;網(wǎng)絡(luò)流量;互信息;熵特征優(yōu)選

        1 引 言

        傳統(tǒng)的流量(Traffic Volume)分析僅僅對總體流量的變化敏感,在總體流量平穩(wěn)的背景下對其中各個流量特征的異常不敏感。例如,總流量不變的情況下,個別IP的流量變大甚至擠占其他IP正常使用的帶寬。出現(xiàn)這種情況多是在白天流量高峰,本來總流量就將近滿載沒有上升空間。這種情況下發(fā)生分布式拒絕服務(wù)(DDoS)攻擊,因為總流量沒有變化不能為一般的流量異常檢測方法探知。

        鑒于該缺陷,研究者們[1-4]提出了基于熵理論的流量特征分析?!办?Entropy)”這個概念最先由魯?shù)婪颉た藙谛匏?Rudolf Clausius)提出,并應(yīng)用于熱力學(xué)中。后來香農(nóng)(Shannon)第一次將熵的概念引入到信息論中來。簡單來說,熵代表一個系統(tǒng)的混亂程度,系統(tǒng)內(nèi)各組成部分越混亂熵值就越大(最大值為1),系統(tǒng)內(nèi)部越有序則熵值就越小(最小值為0)。就上述的例子來說,總流量不變的情況下,總流量的組成是在發(fā)生變化的。如果一個IP的流量變大擠占了帶寬,這種情況可以看作是整個流量系統(tǒng)向有序發(fā)展,極限情況是總流量就等于這個IP的流量達(dá)到流量系統(tǒng)的最有序狀態(tài),這時候的熵達(dá)到最小值0??梢?當(dāng)某個IP的流量突然變大,整體的流量熵應(yīng)該是在減小,我們可以通過熵值變化的程度來判讀異常的發(fā)生。

        目前,在網(wǎng)絡(luò)異常檢測中使用的熵特征分為“流量熵”和“計數(shù)熵”兩大類。這兩種定義的熵都有人使用,但是兩者之間的區(qū)別與聯(lián)系還沒有公開文獻(xiàn)進(jìn)行分析,導(dǎo)致在實際中被隨意選用。但是不同實驗顯示這兩種定義的熵其實是有不同的特點和應(yīng)用場景的,不能隨意選用,相互替換。其次,熵的計算復(fù)雜度大大高于傳統(tǒng)的統(tǒng)計分析,有必要對現(xiàn)有的多個熵特征進(jìn)行優(yōu)化和篩選,剔除冗余的特征以提高計算效率。針對以上兩個問題,本文首先從理論和實驗兩方面分析了這兩種不同定義的熵的適用范圍,進(jìn)而設(shè)計了一種基于互信息的熵特征優(yōu)化方法,剔除了冗余的特征。實驗表明,在優(yōu)選特征的條件下,熵分析的網(wǎng)絡(luò)流量異常檢測在不失準(zhǔn)確率的情況下,檢測的效率有較明顯的提高。

        2 基于互信息的熵特征優(yōu)選

        2.1 流量熵與計數(shù)熵分析

        熵的定義為

        式中,Np(xi)為主機、端口(源、目的)、協(xié)議或應(yīng)用所占包數(shù),np為總包數(shù)。

        使用該定義的熵被稱為流量熵。這并非唯一定義方式,網(wǎng)絡(luò)異常研究中還有另外一種以分量出現(xiàn)次數(shù)為準(zhǔn)的定義方式(定義2)[2]:

        式中,Nr(xi)為主機、端口(源、目的)、協(xié)議或應(yīng)用所占netflow記錄數(shù),nr為netflow總記錄數(shù)。

        使用這種概率定義的熵被稱為計數(shù)熵。仍以主機為例,這種定義下,總量 V就是計算熵的時段出現(xiàn)的的主機地址的總數(shù)(可重復(fù)),而分量v則是某個主機地址在該時段重復(fù)出現(xiàn)的次數(shù)。

        下面我們以源IP地址這個流量特征為例來研究兩者的不同與聯(lián)系。首先從定義來看,定義1是用每個不同IP所占用的報文數(shù)占總報文數(shù)的比例??梢岳斫鉃椴煌琁P地址發(fā)出流量大小占總流量的比例。而定義2是不同IP地址重復(fù)的次數(shù)占總IP出現(xiàn)次數(shù)(可重復(fù))的比例。前者著重不同IP在流量上表現(xiàn)出來的混亂程度,而后者主要是各個不同IP出現(xiàn)次數(shù)表現(xiàn)出來的混亂程度。

        我們可以推論,定義1對那些流量很小但是數(shù)量眾多的IP值不敏感,對那些小包的掃描攻擊、小包的蠕蟲擴散攻擊識別能力較弱,優(yōu)點在于能具體感知流量突然增大的IP,對大規(guī)模DDoS的目標(biāo)等涉及流量改變的攻擊敏感。而定義2則對IP重復(fù)次數(shù)敏感,對流量信息不敏感。即某個IP即便異常地產(chǎn)生了大量流量,但是出現(xiàn)次數(shù)不多,根據(jù)該定義計算出來的熵值不能感知該IP的異常。相對地,對定義1不能感知的小數(shù)據(jù)包掃描、蠕蟲擴散等影響多個IP地址的攻擊。這兩種定義,單獨使用其中一種是很片面的,兩者的結(jié)合能提供發(fā)現(xiàn)更多不同類型的流量異常。于是需要檢查的熵特征從4個擴展到8個,即源地址流量熵、目的地址流量熵、源端口流量熵、目的端口流量熵、源地址計數(shù)熵、目的地址計數(shù)熵、源端口計數(shù)熵、目的端口計數(shù)熵。

        實際還有其他關(guān)于協(xié)議和應(yīng)用等的熵,但是它們一般都可以用端口的熵來代替,因為大多數(shù)的協(xié)議和應(yīng)用都有對應(yīng)的端口。因此,實際研究和使用中的還是地址和端口的熵值。

        2.2 基于互信息的熵特征優(yōu)選

        熵分析的計算復(fù)雜度遠(yuǎn)遠(yuǎn)高于傳統(tǒng)的簡單統(tǒng)計的分析方法,在高速網(wǎng)絡(luò)環(huán)境下,熵值特征獲取的效率遠(yuǎn)低于傳統(tǒng)方法,使得實際應(yīng)用受到一定限制。針對這種情況,研究者一方面采用一些經(jīng)典方法,例如抽樣,另一方面也積極地尋找有針對性的解決方法,例如將流挖掘的相關(guān)方法進(jìn)入網(wǎng)絡(luò)熵分析中。實驗發(fā)現(xiàn),使用相同概率定義的熵特征具有非常大的相關(guān)性。其中一個出現(xiàn)異常往往連帶其余3個同時出現(xiàn)異常,據(jù)此推測這些特征其實存在內(nèi)部相關(guān)性。下面用信息論中的互信息理論來剔除冗余特征,特征數(shù)量的減少可以極大提高檢測的效率。

        互信息(Mutual Information,MI)在信息論中是作為一種衡量兩個信號關(guān)聯(lián)程度的尺度,后來引申為對兩個隨機變量間的關(guān)聯(lián)程度進(jìn)行統(tǒng)計描述。設(shè)MI(x,y)為隨機變量x和y的互信息,則:

        式中,p(x)和p(y)分別是x和y獨立出現(xiàn)的概率,p(x,y)是 x和 y同時出現(xiàn)的概率。當(dāng)MI(x,y)>>0時,表明 x和y高度相關(guān);當(dāng) MI(x,y)≈0時,表明 x和y是弱相關(guān),它們的同現(xiàn)屬于偶然現(xiàn)象;MI(x,y)<<0時,表明 x和y互補分布,不存在關(guān)聯(lián)關(guān)系。

        在本應(yīng)用環(huán)境中,x、y分別代表同定義的4個流量特征中的兩個。用互信息法考察它們兩兩間的關(guān)系。在這里重要的是要判斷4個指標(biāo)間上升下降的關(guān)系(包括其上升下降的程度)。取一段時間4個特征的熵流,統(tǒng)計其上升下降的數(shù)目,上升為1,下降為0。以考察上升點為例,特征 index的上升點數(shù)目被記為CNTup(index)。在同一時間點同時上升并且兩個特征上升值之間的差異在可接受范圍內(nèi),則計入同現(xiàn)次數(shù),記為CNTup(index1,index2)。所謂可接受范圍由所指定的判斷因子β確定:在t時刻兩個特征的熵值 index1和 index2,如果index1-index2 <β則被認(rèn)為在可接受范圍內(nèi)。受考察的熵流總點數(shù)為size(index),則特征 index1和index2獨立出現(xiàn)的概率為

        MIdown的獲取方法類似。

        當(dāng)考察的變量獨立的時候,兩者的互信息為0,互信息的絕對值越大表明兩者越相關(guān),完全相關(guān)時,互信息為1。在實際應(yīng)用中,一般認(rèn)為大于0.1以上就是相關(guān)的。

        3 實驗與分析

        從單位網(wǎng)絡(luò)中心提取了大約一周的流量數(shù)據(jù)和報警記錄進(jìn)行實驗。前者是Netflow格式的流量統(tǒng)計信息,后者是Snort格式的報警記錄。從流量信息中提取熵特征,并做互相關(guān)檢測,結(jié)果如表1~3所示,其中src代表源,dst代表目的,ip代表地址,port代表端口。

        表1 總同現(xiàn)概率Table 1 The summary probability of appearring at the same time

        表2 同現(xiàn)概率(DOWN:下降,UP:上升)Table 2 The probability of appearring at the same time

        表3 互信息值Table 3The mutual information

        由上可知,這4個流量熵的特征互信息遠(yuǎn)遠(yuǎn)大于0,呈強相關(guān)性,只需要檢測其中一個就可以代表其余。計數(shù)熵表現(xiàn)出同樣特性,如表4所示(限于篇幅,略去了中間結(jié)果)。

        表4 計數(shù)熵的互信息Table 4 The mutual information of count entropy

        實驗結(jié)果表明,在使用熵分析進(jìn)行有無異常檢驗時,只需要進(jìn)行流量熵和計數(shù)熵其中一個特征的檢測即可。這里推薦用“目的地址”特征,從報警記錄的相關(guān)標(biāo)記來看,影響目的地址的異常較多。于是,剔除冗余后的檢測特征就剩下兩個:{流量目的地址熵,計數(shù)目的地址熵}。表5是剔除冗余特征前后的檢測效率和準(zhǔn)確率的比較,同一數(shù)據(jù)集同樣的檢查算法,具體算法參見文獻(xiàn)[5]。

        表5 特征優(yōu)選前后Table 5 Detection efficiency and accuracy before and after feature selection

        由表5可以看出,進(jìn)行特征優(yōu)選后,在準(zhǔn)確率基本保持不變的情況下,大大提高了檢測的效率,這對大規(guī)模高速網(wǎng)絡(luò)具有重要意義。

        4 結(jié) 論

        熵分析可以提供比傳統(tǒng)流量分析具有更加精確的檢測結(jié)果,但是其計算復(fù)雜度大大高于傳統(tǒng)的簡單統(tǒng)計分析,在高速大規(guī)模網(wǎng)絡(luò)中這種低效果尤其不可接受。本文從保障檢測的準(zhǔn)確率和提高計算效率兩方面出發(fā),將流量熵和計數(shù)熵綜合使用并用互信息優(yōu)選特征,減少冗余特征。實驗表明,用互信息法剔除冗余特征能夠有效提高檢測的效率,而不損失準(zhǔn)確率。

        [1]Nychis G,Sekar V,Andersen D G,et al.An Empirical E-valuation of Entropy-based Traffic Anomaly Detection[C]//Proceedings of the 8th ACM SIGCOMM Conference on Internet Measurement.New York,USA:ACM,2008:151-156.

        [2]LallA,Sekar V,Ogihara M,et al.Data streaming algorithms for estimating entropy of network traffic[J].ACM Sigmetrics Performance Evaluation Review,2006,34(1):145-156.

        [3]Wagner A,Plattner B.Entropy Based Worm and Anomaly Detection in Fast IP Networks[C]//Proceedings of the 14th IEEE International Workshops on Enabling Technologies:Infrastructure for Collaborative Enterprise.Washington,DC,USA:IEEE,2005:145-156.

        [4]王海龍,楊岳湘.基于信息熵的大規(guī)模網(wǎng)絡(luò)流量異常檢測[J].計算機工程,2007,33(18):130-133.

        WANG Hai-long,YANG Yue-xiang.Network-wide Traffic Anomaly Detection Based on Entropy[J].Computer Engineering,2007,33(18):130-133.(in Chinese)

        [5]王娟,靳京,錢偉中,等.基于小波分解的群落流量異常檢測[J].電子測量與儀器學(xué)報,2010,24(4):365-370.

        WANG Juan,JIN Jing,QIAN Wei-zhong,et al.Community Traffic Anomaly DetectionUsing Wavelet Analysis[J].Journal of Electronic Measurement and Instrument,2010,24(4):365-370.(in Chinese)

        YI Sheng-lan was born in Changning,Hunan Province,in 1981.She received the B.S.degree in 2003.She is now an engineer.Her research concerns aviation communication.

        Email:sly-lan@163.com

        Entropy Feature Selection of Network Anomaly Detection by Using Mutual Information

        YI Sheng-lan
        (Southwest China Institute of Electronic Technology,Chengdu 610036,China)

        Firstly,the shortcomings of traditional statistical analysis using network flow data are discussed,and it is pointed out that the entropy analysis can reflect more potential information to find out more network anomaly that can not be found by the traditional statistical analysis.Secondly,the difference between the flow entropy and count entropy is discussed and it is proposed that they should be used cooperatively and that using one of them just as existing studiesis not recommended.Finally,features of the two kindsof entropy are studied bymutual information analysis.The simulations show that there is redundant in them.After redundant features are eliminated,the detection efficiency is increased significantly while the detection accuracy is maintained.

        network anomaly detection;network traffic;mutual information;entropy feature selection

        TN915;TP393

        A

        10.3969/j.issn.1001-893x.2012.06.038

        1001-893X(2012)06-1018-04

        2011-11-01;

        2012-04-09

        易勝藍(lán)(1981—),女,湖南常寧人,2003年獲工學(xué)學(xué)士學(xué)位,現(xiàn)為工程師,主要從事航空通信領(lǐng)域的研究工作。

        猜你喜歡
        總流量互信息端口
        4 月CERNET 國內(nèi)互聯(lián)互通總流量增15.86G
        7 月CERNET 主干網(wǎng)總流量降356.66G
        NOC2022年4月 4月CERNET主干網(wǎng)總流量增10.42G
        CERNET主干網(wǎng)總流量平穩(wěn)上升
        一種端口故障的解決方案
        端口阻塞與優(yōu)先級
        基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        初識電腦端口
        電腦迷(2015年6期)2015-05-30 08:52:42
        生成樹協(xié)議實例探討
        麻豆精品国产精华精华液好用吗| 中文乱码字幕在线中文乱码 | 一本之道久久一区二区三区| 91九色中文视频在线观看| 国产精品18久久久白浆| 久久精品国产亚洲av麻豆瑜伽| 亚洲国产精品无码久久| 色哟哟网站在线观看| 亚洲性综合网| 在线观看av手机网址| 91亚洲人成手机在线观看| 一区二区久久精品66国产精品| 蕾丝女同一区二区三区| 手机在线看片| 亚洲av无码国产综合专区| 中文字幕一区在线观看视频| 国产自偷自偷免费一区| 亚洲一区二区婷婷久久| 久久久国产不卡一区二区| 青青手机在线视频观看| 亚洲综合在不卡在线国产另类| 优优人体大尺大尺无毒不卡| 精品亚洲一区二区三区在线观看 | 国内大量揄拍人妻在线视频| 在线视频一区二区亚洲| 冲田杏梨av天堂一区二区三区| 视频女同久久久一区二区| 漂亮丰满人妻被中出中文字幕| 无码人妻丰满熟妇区免费| 国产超碰人人做人人爽av大片| 无码人妻丰满熟妇片毛片| 音影先锋色天堂av电影妓女久久| 日韩精品视频中文字幕播放| 懂色av一区二区三区尤物| 无码任你躁久久久久久老妇| 免费毛片在线视频| 精品人妻久久av中文字幕| 亚洲成人av一区二区| 亚洲中文字幕乱码第一页| 成人区人妻精品一区二区三区| 国产精品综合一区二区三区|