亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于特征加權(quán)的樸素貝葉斯流量分類(lèi)方法研究①

        2016-12-06 07:21:16張澤鑫常向青
        高技術(shù)通訊 2016年2期
        關(guān)鍵詞:特征選擇樸素貝葉斯

        張澤鑫 李 俊 常向青

        (*中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心 北京 100190) (**中國(guó)科學(xué)院大學(xué) 北京 100049)

        ?

        基于特征加權(quán)的樸素貝葉斯流量分類(lèi)方法研究①

        張澤鑫②***李 俊*常向青*

        (*中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心 北京 100190) (**中國(guó)科學(xué)院大學(xué) 北京 100049)

        研究了被廣泛應(yīng)用于互聯(lián)網(wǎng)流量分類(lèi)的樸素貝葉斯分類(lèi)方法的性能特點(diǎn),針對(duì)此方法在給定類(lèi)別下給出的所有流量特征同等重要并且是獨(dú)立的假設(shè)在現(xiàn)實(shí)中難以滿足,致使分類(lèi)準(zhǔn)確率不高的問(wèn)題,提出一種基于特征加權(quán)的樸素貝葉斯流量分類(lèi)算法。該算法基于NetFlow記錄的特征信息,采用特征選擇算法ReliefF和相關(guān)系數(shù)方法計(jì)算每個(gè)特征的權(quán)重值,然后將網(wǎng)絡(luò)流量分配至后驗(yàn)概率最大的應(yīng)用類(lèi)別中。實(shí)驗(yàn)結(jié)果表明,這種基于特征加權(quán)的樸素貝葉斯算法具有超過(guò)94%的分類(lèi)準(zhǔn)確率,并且維持了樸素貝葉斯方法簡(jiǎn)單高效、分類(lèi)穩(wěn)定的特性,可以滿足當(dāng)前高帶寬網(wǎng)絡(luò)流量分類(lèi)的需求。

        流量分類(lèi)(TC), ReliefF, 相關(guān)系數(shù), 特征加權(quán)(AW), 樸素貝葉斯(NB), NetFlow

        0 引 言

        隨著互聯(lián)網(wǎng)的迅猛發(fā)展,越來(lái)越多的新型網(wǎng)絡(luò)應(yīng)用不斷興起,網(wǎng)絡(luò)規(guī)模不斷擴(kuò)大,網(wǎng)絡(luò)組成也越來(lái)越復(fù)雜。音頻、視頻等實(shí)時(shí)應(yīng)用的興起,更是從根本上改變了人們對(duì)網(wǎng)絡(luò)的使用方式,網(wǎng)絡(luò)復(fù)雜性上升的同時(shí),網(wǎng)絡(luò)的異構(gòu)性也愈來(lái)愈強(qiáng),各種新的應(yīng)用和未知協(xié)議使網(wǎng)絡(luò)日益復(fù)雜、多樣化和難以管理。進(jìn)行網(wǎng)絡(luò)管理離不開(kāi)互聯(lián)網(wǎng)流量分類(lèi)(traffic classification, TC),互聯(lián)網(wǎng)流量分類(lèi)是認(rèn)識(shí)、管理和優(yōu)化各種網(wǎng)絡(luò)資源的重要依據(jù)。網(wǎng)絡(luò)服務(wù)提供商(ISP)通過(guò)對(duì)網(wǎng)絡(luò)流進(jìn)行分類(lèi),獲悉各類(lèi)網(wǎng)絡(luò)應(yīng)用所占的比例,預(yù)測(cè)網(wǎng)絡(luò)業(yè)務(wù)的發(fā)展趨勢(shì),對(duì)不同的網(wǎng)絡(luò)業(yè)務(wù)實(shí)行差異化收費(fèi)標(biāo)準(zhǔn)。流量分類(lèi)在網(wǎng)絡(luò)安全性檢測(cè)方面也發(fā)揮著巨大的作用,可以實(shí)現(xiàn)更精確的異常檢測(cè),入侵檢測(cè)等。因此,開(kāi)展互聯(lián)網(wǎng)流量分類(lèi)研究具有重要實(shí)際意義和應(yīng)用價(jià)值。

        由于很多新的網(wǎng)絡(luò)應(yīng)用采用動(dòng)態(tài)端口、數(shù)據(jù)載荷字段加密,導(dǎo)致傳統(tǒng)的基于端口和基于有效載荷分析的流量分類(lèi)方法變得越來(lái)越受限制,分類(lèi)準(zhǔn)確率下降。因此,基于流量行為特征,采用機(jī)器學(xué)習(xí)的方法處理流量分類(lèi)問(wèn)題逐漸成為國(guó)內(nèi)外學(xué)者研究的熱點(diǎn)。樸素貝葉斯(Naive Bayes, NB)分類(lèi)方法因其實(shí)現(xiàn)簡(jiǎn)單、處理高效的特征被很多學(xué)者用于流量分類(lèi)領(lǐng)域[1,2]。然而,樸素貝葉斯(NB)方法在估計(jì)類(lèi)條件概率時(shí),假設(shè)流量特征之間是同等重要且條件獨(dú)立的,該假設(shè)在實(shí)際情況中很難滿足,流量特征之間往往存在著相關(guān)性。解決該問(wèn)題的一個(gè)方法是特征過(guò)濾,從流量特征集中刪除冗余的特征,使用過(guò)濾后的特征子集進(jìn)行分類(lèi)模型訓(xùn)練。該方法提高了樸素貝葉斯進(jìn)行流量分類(lèi)的準(zhǔn)確率,但是,并沒(méi)有考慮不同流量特征對(duì)分類(lèi)的重要性不同。因此,本文提出了一種特征加權(quán)(attribute weighting, AW)的樸素貝葉斯流量分類(lèi)方法,該方法賦予每個(gè)特征一個(gè)權(quán)重,越重要的特征權(quán)重值越大,然后將流量分至后驗(yàn)概率最大的應(yīng)用類(lèi)別中。特征加權(quán)是特征選擇的一種擴(kuò)展方法,賦予冗余度高的特征較小的權(quán)重,賦予對(duì)網(wǎng)絡(luò)應(yīng)用區(qū)分度大的特征較高的權(quán)重,既能解決流量特征之間存在冗余的問(wèn)題,也考慮了不同流量特征對(duì)分類(lèi)重要性不同。

        1 相關(guān)研究

        早期,網(wǎng)絡(luò)應(yīng)用通過(guò)周知的端口來(lái)進(jìn)行分類(lèi),根據(jù)互聯(lián)網(wǎng)編號(hào)分配機(jī)構(gòu)(IANA)預(yù)定義和分配的端口映射表[3],每個(gè)端口號(hào)對(duì)應(yīng)一個(gè)應(yīng)用,比如眾所周知的web應(yīng)用的端口號(hào)是80。然而,隨著網(wǎng)絡(luò)應(yīng)用的層出不窮,大量的隨機(jī)端口被用于數(shù)據(jù)通信,有些協(xié)議甚至封裝后通過(guò)周知的端口進(jìn)行通信。Moore和Papagiannaki[4]通過(guò)實(shí)驗(yàn)研究發(fā)現(xiàn)使用IANA列表進(jìn)行基于端口號(hào)的流量識(shí)別,準(zhǔn)確率不超過(guò)70%?;诙丝诘膽?yīng)用識(shí)別方法變得越來(lái)越受限[5-8]。

        為了提高分類(lèi)的準(zhǔn)確率,很多學(xué)者開(kāi)始關(guān)注網(wǎng)絡(luò)流量的負(fù)載特征。劍橋大學(xué)的Moore等人[4]、AT&T實(shí)驗(yàn)室的Sen等[9]在他們的論文中都提出了采用基于有效載荷特征匹配的方法來(lái)對(duì)互聯(lián)網(wǎng)的業(yè)務(wù)流量進(jìn)行分類(lèi)。基于載荷的流量分類(lèi)方法準(zhǔn)確度非常高,但是需要檢索每個(gè)數(shù)據(jù)包中的Payload字段,需要的計(jì)算資源非常大,并且有效載荷的分析侵犯了用戶的隱私和安全性,其發(fā)展受到了很大的阻力。

        隨著研究的不斷深入,基于行為特征的流量分類(lèi)方法逐漸成為國(guó)內(nèi)外研究的熱點(diǎn)。該方法從不同的觀測(cè)角度發(fā)現(xiàn)網(wǎng)絡(luò)應(yīng)用的不同行為特征,例如包大小、包時(shí)間間隔、字節(jié)數(shù)、持續(xù)時(shí)間等作為流量特征,應(yīng)用機(jī)器學(xué)習(xí)方法對(duì)其建立相應(yīng)的模型,然后應(yīng)用于分類(lèi)?;诹髁康慕y(tǒng)計(jì)行為特征,各研究機(jī)構(gòu)提出了基于機(jī)器學(xué)習(xí)的流量分類(lèi)方法[10],通過(guò)統(tǒng)計(jì)流持續(xù)時(shí)間、分組到達(dá)間隔等流統(tǒng)計(jì)特性,采用有監(jiān)督或者無(wú)監(jiān)督的機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)業(yè)務(wù)分類(lèi)。McGregor等[11]采用基于EM(expectation-maximization)算法無(wú)監(jiān)督的學(xué)習(xí)方法對(duì)基于連接層統(tǒng)計(jì)特征的“流”進(jìn)行分類(lèi)。文獻(xiàn)[12]提出將P個(gè)特征屬性轉(zhuǎn)換為P維向量,通過(guò)定義距離函數(shù),采用聚類(lèi)的方法對(duì)網(wǎng)絡(luò)流進(jìn)行分類(lèi)。無(wú)監(jiān)督的聚類(lèi)方法分類(lèi)精度不高,在類(lèi)別數(shù)比較多的情況下,分類(lèi)復(fù)雜度較大。同時(shí)有監(jiān)督的機(jī)器學(xué)習(xí)方法也被用于流量分類(lèi)中,Moore等[1]通過(guò)傅里葉變換構(gòu)建了248個(gè)流特征,并采用FCBF(fast correlation-based filter)進(jìn)行特征選擇,最后采用樸素貝葉斯方法來(lái)區(qū)分各應(yīng)用。該方法的流量特征過(guò)多,增加了時(shí)間和空間復(fù)雜度,無(wú)法應(yīng)用于流量的在線識(shí)別。樸素貝葉斯分類(lèi)模型具有簡(jiǎn)單高效的特點(diǎn),因此被很多研究者應(yīng)用于流量分類(lèi)中。文獻(xiàn)[13]采用多種特征選擇方法,結(jié)合不同的訓(xùn)練數(shù)據(jù)集預(yù)處理方法,評(píng)估樸素貝葉斯分類(lèi)器在檢測(cè)網(wǎng)絡(luò)異常時(shí)的性能差異。文獻(xiàn)[14]提出了一種新的特征選擇方法對(duì)流量特征過(guò)濾,該方法能有效緩解多類(lèi)不平衡的問(wèn)題,最后采用樸素貝葉斯分類(lèi)器對(duì)流量進(jìn)行分類(lèi)。Antonio等[15]為了改進(jìn)樸素貝葉斯分類(lèi)器的分類(lèi)準(zhǔn)確率,采用主成分分析法和關(guān)聯(lián)特征法對(duì)網(wǎng)絡(luò)流量特征進(jìn)行了選擇,結(jié)果顯示這兩種特征選擇方法都提高了樸素貝葉斯的分類(lèi)準(zhǔn)確率。文獻(xiàn)[16,17]也分別使用樸素貝葉斯分類(lèi)算法對(duì)網(wǎng)絡(luò)流量進(jìn)行分類(lèi)。

        國(guó)內(nèi)方面,徐鵬等人[18]采用C4.5決策樹(shù)方法對(duì)流量進(jìn)行分類(lèi),實(shí)驗(yàn)證明決策樹(shù)分類(lèi)方法在處理動(dòng)態(tài)變化的樣本和大規(guī)模流量分類(lèi)時(shí)具有較好的性能,然而采用的流量屬性還無(wú)法實(shí)時(shí)獲取,不適合用于網(wǎng)絡(luò)流在線識(shí)別。陳亮等人[19]首先采用簡(jiǎn)單相關(guān)系數(shù)方法進(jìn)行流量特征選擇,然后基于Bayes判別法進(jìn)行流量分類(lèi)。該方法雖然整體的分類(lèi)準(zhǔn)確率較高,但是有些應(yīng)用的分類(lèi)結(jié)果卻不佳,例如P2P、ATTACK等。

        2 特征加權(quán)的樸素貝葉斯流量分類(lèi)方法

        2.1 特征加權(quán)的樸素貝葉斯流量分類(lèi)算法

        樸素貝葉斯分類(lèi)器具有穩(wěn)定的分類(lèi)效率,對(duì)缺失數(shù)據(jù)也不敏感,并且算法簡(jiǎn)單,因此,被廣泛地應(yīng)用在分類(lèi)領(lǐng)域。樸素貝葉斯分類(lèi)器利用貝葉斯定理計(jì)算待分類(lèi)實(shí)例的最大后驗(yàn)概率,在估計(jì)類(lèi)條件概率時(shí)假設(shè)屬性之間條件獨(dú)立,形式化描述為

        (1)

        其中A代表屬性集A={A1,A2,…,Ad},包含d個(gè)屬性。

        在條件獨(dú)立假設(shè)下,只需對(duì)給定的Y,計(jì)算每一個(gè)Ai的條件概率。假設(shè)有N條網(wǎng)絡(luò)流X={X1,X2,…,Xn},每條網(wǎng)絡(luò)流Xi由d個(gè)屬性值描述{A1,A2,…,Ad},有m個(gè)網(wǎng)絡(luò)應(yīng)用類(lèi)別,Y={Y1,Y2,…,Ym}。對(duì)于網(wǎng)絡(luò)流Xi,屬于類(lèi)別Yj的概率為:

        (2)

        其中,先驗(yàn)概率P(Yj)代表網(wǎng)絡(luò)應(yīng)用類(lèi)別Yj在整個(gè)網(wǎng)絡(luò)流中占有的比例,P(Xi|Yj)為類(lèi)條件概率,表示在應(yīng)用類(lèi)別為Yj時(shí),Xi出現(xiàn)的概率。樸素貝葉斯分類(lèi)器的目標(biāo)是找出使得P(Xi|Yj)P(Yj)(j=1,2…,m)最大的類(lèi)Yj,此時(shí),流量Xi對(duì)應(yīng)的類(lèi)別即為Yj。根據(jù)式(1)、(2),樸素貝葉斯分類(lèi)器的后驗(yàn)概率計(jì)算公式為

        (3)

        樸素貝葉斯分類(lèi)器對(duì)網(wǎng)絡(luò)流量進(jìn)行分類(lèi)時(shí),假定每條流的特征是相互獨(dú)立的,并且每個(gè)特征對(duì)分類(lèi)的貢獻(xiàn)度都是一樣的。然而,在真實(shí)的網(wǎng)絡(luò)環(huán)境中,這些假設(shè)條件都是難以滿足的,結(jié)果導(dǎo)致分類(lèi)準(zhǔn)確率降低。針對(duì)這個(gè)問(wèn)題,文獻(xiàn)[1]中采用FCBF方法進(jìn)行流量特征選擇,選擇一個(gè)與類(lèi)別相關(guān)性高,特征之間冗余度低的特征子集進(jìn)行分類(lèi)模型訓(xùn)練,削弱了流量特征之間的相關(guān)性,提高了分類(lèi)的準(zhǔn)確率。特征加權(quán)是另一種可以保留或刪除特征的方法,特征越重要,賦予的權(quán)值越大,而不太重要的特征賦予較小的權(quán)值。特征加權(quán)是特征選擇的普適化方法,特征選擇是特征加權(quán)方法的一個(gè)特例,權(quán)值等于0或1。特征加權(quán)的樸素貝葉斯分類(lèi)器后驗(yàn)概率計(jì)算公式為

        (4)

        其中ωk∈R+,代表特征的重要程度。

        2.2 基于ReliefF和相關(guān)系數(shù)的流量特征加權(quán)算法

        特征加權(quán)的樸素貝葉斯流量分類(lèi)方法的關(guān)鍵是特征權(quán)值的計(jì)算,給每個(gè)流量特征分配合適的權(quán)重不僅能夠區(qū)分特征之間的預(yù)測(cè)能力,也能降低違背特征獨(dú)立性假設(shè)所帶來(lái)的影響,提高樸素貝葉斯分類(lèi)器的分類(lèi)準(zhǔn)確率。因此,本文從兩個(gè)方面考慮流量特征權(quán)重的計(jì)算,首先,認(rèn)為與類(lèi)別相關(guān)性高的特征具有較高的權(quán)重,采用ReliefF[20]方法計(jì)算每個(gè)特征的權(quán)重值;其次,認(rèn)為與其它特征冗余度高的特征具有較低的權(quán)重,采用相關(guān)系數(shù)方法修正每個(gè)特征的權(quán)重值。

        ReliefF是由Kononenko提出的一種多類(lèi)別特征選擇算法,其基本思想是給特征集中的每個(gè)特征賦予一個(gè)權(quán)重值,賦予和類(lèi)別相關(guān)性高的特征較高的權(quán)重,最后根據(jù)這些權(quán)重值進(jìn)行特征子集選擇。本文則根據(jù)這些權(quán)重值對(duì)流量特征進(jìn)行加權(quán),權(quán)重向量為ω=(ω1,ω2,…,ωd),算法見(jiàn)表1。Class(Xi)表示樣本Xi所屬的類(lèi)別,函數(shù)diff(A,I1,I2)計(jì)算樣本I1和樣本I2在特征A上的距離,P(Y)表示網(wǎng)絡(luò)應(yīng)用Y的先驗(yàn)概率。

        表1 基于ReliefF的流量特征權(quán)重計(jì)算算法

        ReliefF算法沒(méi)有限定特征權(quán)值的取值范圍,有可能為負(fù)值,所以,為了避免發(fā)生這種情況,根據(jù)Han等人[21]提出的min-max方法對(duì)權(quán)值進(jìn)行標(biāo)準(zhǔn)化操作。假設(shè)流量特征的權(quán)值向量為[ω1,ω2,…,ωk],采用公式

        +new_minω

        (5)

        ReliefF算法僅考慮了特征與類(lèi)別之間的相關(guān)性程度,沒(méi)有考慮特征之間的相關(guān)性,本文采用相關(guān)系數(shù)來(lái)度量特征之間的相關(guān)性程度,如下式所示:

        (6)

        3 實(shí) 驗(yàn)

        為了驗(yàn)證特征加權(quán)的樸素貝葉斯流量分類(lèi)算法的有效性,設(shè)置了兩組對(duì)比實(shí)驗(yàn)。第一組采用標(biāo)準(zhǔn)的樸素貝葉斯分類(lèi)方法進(jìn)行流量分類(lèi);第二組首先采用文獻(xiàn)[22]中提出的FCBF方法對(duì)流量特征過(guò)濾,然后使用過(guò)濾的訓(xùn)練數(shù)據(jù)集運(yùn)行樸素貝葉斯分類(lèi)器,構(gòu)造分類(lèi)模型。

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        實(shí)驗(yàn)的數(shù)據(jù)集來(lái)自中國(guó)科技網(wǎng)(China Science and Technology Network,CSTNET)。為了驗(yàn)證不同時(shí)間段算法的性能,采集了2014年12月16日上午10:00~11:00,下午14:00~15:00,晚上19:00~20:00之間經(jīng)過(guò)該出口的所有Netflow網(wǎng)絡(luò)流量,分別為CSTNET_1,CSTNET_2,CSTNET_3。經(jīng)分析,TCP流量仍為中國(guó)科技網(wǎng)的主要流量,所以本文僅對(duì)完整的TCP流進(jìn)行分類(lèi)。

        為了避免用每種應(yīng)用的訓(xùn)練樣本過(guò)少而影響分類(lèi)準(zhǔn)確率,抽樣時(shí)使得每種應(yīng)用的流數(shù)基本保持一致,即采用均勻無(wú)放回抽樣方法,從每個(gè)數(shù)據(jù)集中抽取約3萬(wàn)條數(shù)據(jù),每種應(yīng)用約3000條流數(shù)據(jù)作為樣本集。經(jīng)分析,表2中的10種應(yīng)用為科技網(wǎng)TCP流量中的主要部分,所以本文選取這10種應(yīng)用進(jìn)行分類(lèi)。每組數(shù)據(jù)集輪流作為訓(xùn)練集對(duì)分類(lèi)器進(jìn)行訓(xùn)練,剩余兩組作為測(cè)試集。

        表2 數(shù)據(jù)集

        文獻(xiàn)[1]采用傅里葉變換得到249項(xiàng)網(wǎng)絡(luò)流特征,在這些特征中存在著大量的冗余特征,對(duì)分類(lèi)器進(jìn)行訓(xùn)練時(shí),不但增加了分類(lèi)的時(shí)間復(fù)雜度,也降低了分類(lèi)的準(zhǔn)確率,并且不適合用于網(wǎng)絡(luò)流的在線分類(lèi)。為了降低分類(lèi)系統(tǒng)采集報(bào)文、計(jì)算流量特征的開(kāi)銷(xiāo),本文采用NetFlow的統(tǒng)計(jì)特征作為網(wǎng)絡(luò)流的屬性,見(jiàn)表3。對(duì)于不同的網(wǎng)絡(luò)應(yīng)用,這些屬性特征通常表現(xiàn)出較大的差異性,因此,可以利用NetFlow的流記錄信息對(duì)網(wǎng)絡(luò)應(yīng)用進(jìn)行識(shí)別。

        表3 網(wǎng)絡(luò)流屬性集合

        3.2 評(píng)估指標(biāo)

        評(píng)價(jià)一個(gè)網(wǎng)絡(luò)流量分類(lèi)器的好壞需要在一定指標(biāo)下測(cè)試其分類(lèi)結(jié)果,然后通過(guò)測(cè)試結(jié)果得出結(jié)論。分類(lèi)器首先通過(guò)訓(xùn)練集進(jìn)行模型的學(xué)習(xí),擬合訓(xùn)練集數(shù)據(jù)中類(lèi)標(biāo)號(hào)和屬性集之間的聯(lián)系,建立分類(lèi)模型。隨后將該模型應(yīng)用于測(cè)試集數(shù)據(jù),分類(lèi)模型的性能根據(jù)測(cè)試集數(shù)據(jù)的運(yùn)行結(jié)果進(jìn)行評(píng)估,運(yùn)行結(jié)果計(jì)數(shù)存放在混淆矩陣中,如表4。表中每項(xiàng)fij表示實(shí)際類(lèi)標(biāo)號(hào)為i,但被預(yù)測(cè)為類(lèi)j的記錄數(shù)。

        表4 多類(lèi)問(wèn)題的混淆矩陣

        根據(jù)混淆矩陣,分類(lèi)器性能評(píng)價(jià)指標(biāo)計(jì)算公式如下:

        3.3 樸素貝葉斯網(wǎng)絡(luò)流量分類(lèi)

        本節(jié)僅采用標(biāo)準(zhǔn)的樸素貝葉斯方法對(duì)網(wǎng)絡(luò)流量進(jìn)行分類(lèi),分別選取數(shù)據(jù)集中的一組數(shù)據(jù)作為訓(xùn)練集,另外兩組數(shù)據(jù)作為測(cè)試集,每組實(shí)驗(yàn)重復(fù)10次,取每組實(shí)驗(yàn)的平均值作為分類(lèi)結(jié)果。如表5所示,三組實(shí)驗(yàn)的平均分類(lèi)準(zhǔn)確率分別為80.7%,81.0%,81.2%。從表5可以看出,樸素貝葉斯分類(lèi)器的分類(lèi)結(jié)果較差,整體的分類(lèi)準(zhǔn)確率較低,主要是由于樸素貝葉斯分類(lèi)器在估計(jì)類(lèi)條件概率時(shí)假設(shè)流量特征之間是條件獨(dú)立的,流量特征之間的相關(guān)性違背了條件獨(dú)立性假設(shè),降低了樸素貝葉斯分類(lèi)器的分類(lèi)準(zhǔn)確率。

        表5 基于樸素貝葉斯流量分類(lèi)方法的整體分類(lèi)準(zhǔn)確率

        3.4 基于FCBF特征選擇的樸素貝葉斯(FCBF_NB)網(wǎng)絡(luò)流量分類(lèi)

        由于流量特征之間存在冗余,導(dǎo)致樸素貝葉斯分類(lèi)器的分類(lèi)準(zhǔn)確率降低,所以采用文獻(xiàn)[22]提出的FCBF方法對(duì)流量特征進(jìn)行選擇,選擇與類(lèi)別相關(guān)性高且特征之間冗余度低的流量特征用于構(gòu)建樸素貝葉斯分類(lèi)器模型。選出的特征集為M={dest_port, packet_size, duration, IAT, pps},然后在完成過(guò)濾的訓(xùn)練數(shù)據(jù)集上運(yùn)行樸素貝葉斯分類(lèi)器,構(gòu)建分類(lèi)模型,并使用數(shù)據(jù)集中的另外兩組數(shù)據(jù)測(cè)試模型。每組實(shí)驗(yàn)重復(fù)10次,取每組實(shí)驗(yàn)的平均值為分類(lèi)結(jié)果,如表6所示。采用FCBF方法對(duì)流量特征過(guò)濾之后,每組實(shí)驗(yàn)的整體分類(lèi)準(zhǔn)確率較特征過(guò)濾之前有了一定的提高,每組實(shí)驗(yàn)分別增長(zhǎng)了3.6%,3.7%,3.2%,但是整體的分類(lèi)準(zhǔn)確率仍然較低。主要是由于采用FCBF方法選出的特征子集,雖然使得特征之間的冗余度降低了,但是并不能完全消除,并且認(rèn)為每個(gè)特征對(duì)分類(lèi)是同等重要的,從而導(dǎo)致較低的分類(lèi)準(zhǔn)確率。

        表6 基于特征選擇的樸素貝葉斯流量分類(lèi)方法 整體分類(lèi)準(zhǔn)確率

        3.5 特征加權(quán)的樸素貝葉斯網(wǎng)絡(luò)流量分類(lèi)

        考慮到不同的流量特征對(duì)分類(lèi)的重要程度不同,越重要的特征賦予的權(quán)值越大,不太重要的特征賦予較小的權(quán)值。首先通過(guò)ReliefF和相關(guān)系數(shù)方法對(duì)流量特征計(jì)算權(quán)值。然后在訓(xùn)練數(shù)據(jù)集上運(yùn)行特征加權(quán)的樸素貝葉斯分類(lèi)器,構(gòu)建分類(lèi)模型,并使用數(shù)據(jù)集中的另外兩組數(shù)據(jù)測(cè)試模型。每組實(shí)驗(yàn)重復(fù)10次,取每組實(shí)驗(yàn)的平均值為分類(lèi)結(jié)果,如表7 所示。較上述兩種方法,特征加權(quán)(AW)的樸素貝葉斯(NB)流量分類(lèi)(TC)算法(簡(jiǎn)稱AWNBTC算法)的整體分類(lèi)準(zhǔn)確率有了顯著提高,每組實(shí)驗(yàn)結(jié)果較樸素貝葉斯分類(lèi)方法分別增長(zhǎng)了13.8%,13.2%,13.0%,較基于FCBT特征選擇的樸素貝葉斯(FCBF_NB)方法分別增長(zhǎng)了10.2%,9.5%,9.8%。

        表7 基于特征加權(quán)的樸素貝葉斯流量分類(lèi)方法 整體分類(lèi)準(zhǔn)確率

        為進(jìn)一步分析AWNBTC算法的分類(lèi)準(zhǔn)確性,通過(guò)圖1和圖2描述了每種網(wǎng)絡(luò)應(yīng)用的分類(lèi)精度和召回率。從圖中看出,較樸素貝葉斯(NB)方法和FCBF_NB方法,AWNBTC算法每種應(yīng)用的分類(lèi)精度

        圖1 網(wǎng)絡(luò)應(yīng)用類(lèi)精度

        圖2 網(wǎng)絡(luò)應(yīng)用類(lèi)召回率

        和召回率都提高了,除了Http、Https和SMTP,其他應(yīng)用的分類(lèi)精度和召回率超過(guò)了96%,MSN和BT的分類(lèi)精度和召回率達(dá)到了99%。SMTP的分類(lèi)精度改善得最多,較NB算法和FCBF_NB算法分別增長(zhǎng)了18.7%和16.6%,Datatransfer、Jabber、IMAP和BT應(yīng)用的分類(lèi)精度較NB算法和FCBF_NB算法也平均提高了約14.9%和12.6%。關(guān)于應(yīng)用的召回率,Https和SSH應(yīng)用增長(zhǎng)得最多,Https分別提高了20.8%和15.2%,SSH則分別提高了26.1%和14.3%。其他應(yīng)用的召回率也有顯著增長(zhǎng),Http、Datatransfer、Jabber和IMAP較NB算法和FCBF_NB算法平均提高了約13.2%和8.2%。由此可見(jiàn),特征加權(quán)的樸素貝葉斯分類(lèi)方法較NB和FCBF_NB方法,不僅具有較高的整體分類(lèi)準(zhǔn)確率,而且每類(lèi)應(yīng)用的分類(lèi)準(zhǔn)確性也很高。

        4 算法評(píng)估

        4.1 時(shí)效性

        樸素貝葉斯分類(lèi)器的實(shí)現(xiàn)主要包括模型訓(xùn)練和流量分類(lèi)兩部分,其中模型訓(xùn)練部分由流量特征離散化和樸素貝葉斯模型構(gòu)建組成。首先采用基于等寬的離散化方法將各個(gè)流量特征的值域劃分成具有相同寬度的區(qū)間,并用離散化后所在區(qū)間的標(biāo)稱值代替原來(lái)的值,其算法時(shí)間復(fù)雜度為O(N);模型構(gòu)造主要為計(jì)算每個(gè)分類(lèi)屬性的類(lèi)條件概率,時(shí)間復(fù)雜度為O(N),因此整個(gè)模型訓(xùn)練的時(shí)間復(fù)雜度為O(N),其中N為整個(gè)訓(xùn)練樣本規(guī)模。流量分類(lèi)部分首先對(duì)一條流的流量特征進(jìn)行離散化,時(shí)間復(fù)雜度為O(1)。然后通過(guò)樸素貝葉斯概率公式對(duì)每個(gè)網(wǎng)絡(luò)應(yīng)用計(jì)算后驗(yàn)概率,并找出最大的后驗(yàn)概率,由于樣本特征屬性和協(xié)議類(lèi)型是有限的,因此其時(shí)間復(fù)雜度也可以近似看成是常數(shù)O(1)。所以,樸素貝葉斯分類(lèi)器處理每一條流的時(shí)間復(fù)雜度都是常數(shù),對(duì)于n個(gè)樣本的分類(lèi)處理,整個(gè)時(shí)間復(fù)雜度為O(N)。

        特征加權(quán)的樸素貝葉斯分類(lèi)器僅在計(jì)算后驗(yàn)概率時(shí)為每個(gè)特征賦予一個(gè)權(quán)重,時(shí)間復(fù)雜度與樸素貝葉斯分類(lèi)器一樣,處理單條流的時(shí)間復(fù)雜度為O(1),n個(gè)樣本的分類(lèi)處理時(shí)間復(fù)雜度也為O(N)。為了測(cè)試AWNBTC方法的準(zhǔn)確時(shí)間,使用三組數(shù)據(jù)分別對(duì)特征加權(quán)的樸素貝葉斯分類(lèi)器進(jìn)行訓(xùn)練,得到分類(lèi)模型,然后,使用另外兩組流量數(shù)據(jù)對(duì)分類(lèi)模型進(jìn)行測(cè)試,每組實(shí)驗(yàn)重復(fù)10次,得到的實(shí)驗(yàn)結(jié)果如表8。從表中可以看出,AWNBTC方法可每秒約處理15000條網(wǎng)絡(luò)流,而中國(guó)科技網(wǎng)國(guó)際出口在一天當(dāng)中高峰時(shí)刻的流約為14000條/s,AWNBTC方法完全能夠滿足實(shí)時(shí)處理該出口的流量。

        表8 AWNBTC方法的分類(lèi)時(shí)間

        4.2 時(shí)間穩(wěn)定性

        當(dāng)前的網(wǎng)絡(luò)應(yīng)用可謂是百花齊放,層出不窮,時(shí)時(shí)刻刻都在發(fā)生著變化。為了測(cè)試分類(lèi)器的時(shí)間穩(wěn)定性,即舊的分類(lèi)模型是否適用于新數(shù)據(jù)的分類(lèi),使用三組原數(shù)據(jù)分別進(jìn)行模型訓(xùn)練,一個(gè)月后的流量數(shù)據(jù)(CSTNET_set4)進(jìn)行模型測(cè)試,每組實(shí)驗(yàn)重復(fù)10次。實(shí)驗(yàn)結(jié)果表明整體的平均分類(lèi)準(zhǔn)確率為94.2%,保持穩(wěn)定。應(yīng)用的分類(lèi)精度和召回率如表9所示,雖然每類(lèi)應(yīng)用的分類(lèi)精度和召回率都有些波動(dòng),但總體仍保持較高的分類(lèi)準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明,AWNBTC算法具有很強(qiáng)的動(dòng)態(tài)適應(yīng)性,不需經(jīng)常更新樣本和對(duì)模型進(jìn)行重新訓(xùn)練,適合于流量的在線識(shí)別。

        表9 AWNBTC算法時(shí)間穩(wěn)定性測(cè)試結(jié)果

        5 結(jié) 論

        實(shí)際網(wǎng)絡(luò)中流量特征無(wú)法滿足樸素貝葉斯分類(lèi)方法的特征同等重要和條件獨(dú)立性假設(shè),從而導(dǎo)致分類(lèi)準(zhǔn)確率低,為此本文提出了一種特征加權(quán)的樸素貝葉斯流量分類(lèi)算法。該算法有如下優(yōu)勢(shì):(1)僅使用NetFlow記錄的統(tǒng)計(jì)特征便得到很高的分類(lèi)準(zhǔn)確率,減少了基于數(shù)據(jù)報(bào)文計(jì)算流量特征的開(kāi)銷(xiāo),提高了分類(lèi)速度,節(jié)約了存儲(chǔ)空間,更適合用于流量的在線識(shí)別。(2)具有樸素貝葉斯算法簡(jiǎn)單高效的分類(lèi)特點(diǎn),又不依賴于樸素貝葉斯的條件獨(dú)立性假設(shè),并且較樸素貝葉斯算法在整體的分類(lèi)準(zhǔn)確率、每類(lèi)應(yīng)用的分類(lèi)精度和召回率上都有了很大的改進(jìn)。理論分析和實(shí)驗(yàn)結(jié)果表明,本文算法具有超過(guò)94%的分類(lèi)準(zhǔn)確率,并且能適應(yīng)網(wǎng)絡(luò)的動(dòng)態(tài)變化,可以滿足當(dāng)前高帶寬網(wǎng)絡(luò)流量分類(lèi)準(zhǔn)確性、實(shí)時(shí)性和穩(wěn)定性的需求。

        [1] Moore A W, Zuev D. Internet traffic classification using Bayesian analysis techniques.ACMSIGMETRICSPerformanceEvaluationReview,2005, 33(1):50-60

        [2] Williams N,Zander S,Armitage G. A preliminaryperformance comparison of five machine learning algorithms forpractical IP traffic flowclassification.ACMSIGCOMMComputerCommunicationReview, 2006, 36(5):5-16

        [3] Internet Assigned Numbers Authority.http://www.iana.org.

        [4] Moore A W, Papagiannaki K. Toward the accurate identification of network applications. In: Proceedings of the 6th Passive and Active Measurement Workshop, Boston, USA, 2005. 41-54

        [5] Zander S, Nguyen T, Armitage G. Automated trafficclassification and application identification using machine learning. In: Proceedings of the 30th IEEE Conference on Local Computer Networks, Sydney, Australia, 2005. 250-257

        [6] Karagiannis T, Papagiannaki K, Faloutsos M. BLINC: multilevel traffic classification in the dark.ACMSIGCOMMComputerCommunicationReview, 2005, 35(4):229-240

        [7] Tavallaee M, Lu W, Ghorbani A. Online classification ofnetwork flows. In: Proceedings of the 7th Communication Networks and Services Research Conference, Moncton, Canada, 2009. 78-85

        [8] Crotti M, Dusi M, Gringoli F, et al. Trafficclassification through simple statistical fingerprinting.ACMSIGCOMMComputerCommunicationReview, 2007, 37(1):5-16

        [9] Sen S, Spatscheck O, Wang D. Accurate, scalable in network identification of P2P traffic using application signatures. In: Proceedings of the 13th International Conference on World Wide Web, New York, USA, 2004. 512-521

        [10] Nguyen T T T, Armitage G. A survey of techniques for Internet traffic classification using machine learning.IEEECommunicationsSurveysandTutorials, 2008, 10(4):56-76

        [11] McGregor A, Hall M, Lorier P, et al. Flow clustering using machine learning techniques. In: Proceedings of the 5th Passive and Active Measurement Workshop,Antibes Juan-les-Pins, France, 2004. 205-214

        [12] Bernaille L,Teixeira R, Akodkenou I, et al. Traffic classification on the fly.ACMSIGCOMMComputerCommunicationReview,2006, 36(2):23-26

        [13] Katkar V D, Kulkarni S V. Experiments on detection of denial of service attacks using Naive Bayesian classifier. In: Proceedings of the 2013 IEEE International Conference on Green Computing, Communication and Conservation of Energy, Chennal, India, 2013. 725-730

        [14] Zhen L, Qiong L. A new feature selection method for internet traffic classification using ml.PhysicsProcedia, 2012, 33: 1338-1345

        [15] Antonio T, Paramita A S. Feature selection technique impact for Internet traffic classification using Naive Bayesian.JurnalTeknologi, 2015, 72(5):141-145

        [16] Raveendran R, Menon R. An efficient method for Internet traffic classification and identification using statistical features.InternationalJournalofEngineeringResearchandTechnology,2015, 4(7):297-303

        [17] Ghofrani F, Jamshidi A, Keshavarz-Haddad A. Internet traffic classification using hidden naive Bayes model. In: Proceedings of the 23rd Iranian Conference on Electrical Engineering, Tehran, Iran, 2015. 235-240

        [18] 徐鵬,林森. 基于C4.5決策樹(shù)的流量分類(lèi)方法. 軟件學(xué)報(bào), 2009, 20(10):2692-2704

        [19] 陳亮,龔儉. 基于NetFlow記錄的高速應(yīng)用流量分類(lèi)方法. 通信學(xué)報(bào), 2012, 33(1):145-152

        [20] Kononenko I. Estimating attributes: analysis and extensions of Relief. In: Proceedings of the 1994 European Conference on Machine Learning, Catania, Italy, 1994. 171-182

        [21] Han J, Kamber M. Data Mining:Concepts and Techniques.San Francisco:Morgan Kaufmann, 2001

        [22] Yu L, Liu H. Feature selection for high-dimensionaldata: A fast correlation-based filter solution. In: Proceedings of the 20th International Conference on Machine Learning, Washington D.C, USA, 2003. 856-863

        Internet traffic classification using the attribute weighted naive Bayes algorithm

        Zhang Zexin***, Li Jun*, Chang Xiangqing*

        (*Computer Network Information Center, Chinese Academy of Sciences, Beijing 100190) (**University of Chinese Academy of Sciences, Beijing 100049)

        Based on the analysis of the performance characteristics of the Naive Bayes (NB) method in wide use for network traffic classification, a novel attribute weighted Na?ve Bayes classification algorithm was proposed to overcome the NB method’s problem of low classification accuracy caused by its assumption that traffic attributes are of equal importance and independence is hard to satisfy in practice. The proposed algorithm uses the attribute selection algorithm of ReliefF and the correlation coefficient method to calculate the attribute weights based on the attribute information recorded by NetFlow. Then, it assigns a new instance to the most probable class, which has the largest posterior probability. The experiment showed that the classification accuracy of the proposed algorithm was over 94%, and the algorithm maintained simpleness, high efficiency and stability of the NB method. In short, this algorithm can fully meet the traffic classification demands of high-bandwidth networks.

        traffic classification (TC), ReliefF, correlation coefficient, attribute weighting (AW), Naive Bayes (NB), NetFlow

        10.3772/j.issn.1002-0470.2016.02.002

        ①973計(jì)劃(2012CB315803)和中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心“一三五”計(jì)劃(CNIC_PY-1401)資助項(xiàng)目。

        2015-08-24)

        ②女,1987年生,博士生;研究方向:流量測(cè)量與特性分析,流量分類(lèi)等;聯(lián)系人,E-mail: zhangzexin@cstnet.cn

        猜你喜歡
        特征選擇樸素貝葉斯
        隔離樸素
        樸素的安慰(組詩(shī))
        他是那樣“笨拙”和樸素——30多年后,我們?yōu)槭裁催€需要讀路遙?
        最神奇最樸素的兩本書(shū)
        貝葉斯公式及其應(yīng)用
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        基于貝葉斯估計(jì)的軌道占用識(shí)別方法
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        一種基于貝葉斯壓縮感知的說(shuō)話人識(shí)別方法
        電子器件(2015年5期)2015-12-29 08:43:15
        IIRCT下負(fù)二項(xiàng)分布參數(shù)多變點(diǎn)的貝葉斯估計(jì)
        丰满人妻一区二区三区52| 国产福利97精品一区二区| 91精品久久久久含羞草| 国产呦系列视频网站在线观看 | 国产艳妇av在线出轨| 亚洲无码中文字幕日韩无码| 国产性感丝袜美女av| 亚洲福利网站在线一区不卡 | 亚洲AV秘 无套一区二区三区| 亚洲综合一区二区三区在线观看| 亚洲欧美在线视频| 亚洲天堂免费av在线观看| 国产精品黑丝美女av| av在线观看一区二区三区| 日本又色又爽又黄的a片18禁| 国产特级毛片aaaaaa| 在教室伦流澡到高潮h麻豆 | 麻豆AV免费网站| 美女极度色诱视频国产免费| 白嫩少妇高潮喷水av| 亚洲欧洲国产成人综合在线| 极品美女aⅴ在线观看| av在线色| 丰满人妻AV无码一区二区三区| 亚洲一区二区三区熟妇| 亚洲精品国产精品国自产| 久久国产36精品色熟妇| 99久久国产亚洲综合精品| 亚洲中文字幕一二区精品自拍| 日韩av在线播放人妻| 国产精品毛片无遮挡| 国产精品户露av在线户外直播| 国产熟女精品一区二区三区| 91大神蜜桃视频在线观看| 日本视频在线观看一区二区| 一区二区三区内射美女毛片| 久久99精品国产麻豆不卡| 欲妇荡岳丰满少妇岳| 国内精品国产三级国产av另类| 午夜桃色视频在线观看| 亚洲精品宾馆在线精品酒店|