亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于NetFlow記錄的高速應(yīng)用流量分類方法

        2012-11-06 11:40:12陳亮龔儉
        通信學(xué)報(bào) 2012年1期
        關(guān)鍵詞:樣本空間測(cè)度類別

        陳亮,龔儉

        (1. 東南大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,江蘇 南京 210096;

        2. 江蘇省計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210096)

        1 引言

        實(shí)時(shí)準(zhǔn)確地識(shí)別 Internet流量所使用的應(yīng)用層協(xié)議是網(wǎng)絡(luò)QoS、網(wǎng)絡(luò)流量和用戶行為等監(jiān)控的前提和基礎(chǔ),在網(wǎng)絡(luò)性能管理、計(jì)費(fèi)管理、流量工程和入侵檢測(cè)等研究領(lǐng)域有著重要作用。然而由于包括各種P2P協(xié)議在內(nèi)的越來越多的應(yīng)用不遵守默認(rèn)端口約定或使用動(dòng)態(tài)端口通信等原因,早期以IANA中注冊(cè)的常用端口號(hào)區(qū)分應(yīng)用協(xié)議流量的方法準(zhǔn)確率已低于50%[1,2],嚴(yán)重影響分析結(jié)果的可信性。依據(jù)報(bào)文負(fù)載內(nèi)容識(shí)別應(yīng)用協(xié)議的方法在主干網(wǎng)絡(luò)帶寬增長(zhǎng)到10Gbit/s以上后是一個(gè)巨大的技術(shù)挑戰(zhàn),且該種方法無法處理流量加密的情況。

        因此,自 2004年開始基于行為特征識(shí)別應(yīng)用流量的方法逐漸成為國(guó)際上研究的熱點(diǎn)。這類方法首先歸納出各應(yīng)用交互過程中在流/主機(jī)上表現(xiàn)出的不同行為特征,并以此為依據(jù)判別待分類流量所使用的應(yīng)用協(xié)議。由于尚處于起步階段,目前基于行為識(shí)別應(yīng)用協(xié)議的方法不能精確識(shí)別單一的應(yīng)用協(xié)議,而只能將流量分至大致的應(yīng)用類別中。所謂應(yīng)用類別,是對(duì)具有類似功能或行為的應(yīng)用層協(xié)議的抽象概括,如BitTorrent、eDonkey等應(yīng)用協(xié)議都屬于P2P應(yīng)用類別。

        基于行為識(shí)別應(yīng)用協(xié)議的方法可分為事先無訓(xùn)練集和有訓(xùn)練集2類,分別對(duì)應(yīng)數(shù)理統(tǒng)計(jì)中的聚類分析和判別分析。使用聚類算法方面,A.McGregor[3]和Jeffrey Erman[4,5]等人分別使用EM和AutoClass等方法考慮流之間的相似性將流量分組,而后利用端口號(hào)或負(fù)載檢查的方法分析其準(zhǔn)確性。但聚類方法不能解釋為什么流量會(huì)進(jìn)行這樣的分類,因此只能使用在對(duì)分類沒有先驗(yàn)知識(shí)、沒有訓(xùn)練集時(shí),對(duì)類別進(jìn)行初步探索上。判別算法方面,Thomas Karagiannis[6]等人分析應(yīng)用類別在空間維上的行為特征(端口分布、鏈接數(shù)等),構(gòu)造主機(jī)交互關(guān)系圖,并以此識(shí)別貢獻(xiàn)流量的主機(jī)正在使用的應(yīng)用協(xié)議類別。但該方法須對(duì)流量進(jìn)行一定的累積,不僅有滯后性,而且在高速主干網(wǎng)絡(luò)下,如何有效地存儲(chǔ)流量,快速構(gòu)造及匹配圖本身就是一個(gè)仍待解決的問題。M. Roughan[7]和 Sebastian Zander[8,9]等人基于k-NN和C4.5等機(jī)器學(xué)習(xí)方法,利用應(yīng)用流在時(shí)間維上的傳輸特征(流長(zhǎng)、持續(xù)時(shí)間等)將流量分至4~8個(gè)應(yīng)用類別,然而這些早期方法的精度都不夠高。

        目前,最全面準(zhǔn)確的方法是Andrew W. Moore等人于2005年提出的[11]。該方法使用TCP流的248個(gè)測(cè)度值[12],通過對(duì)稱不確定性推導(dǎo)測(cè)度間相關(guān)關(guān)系并進(jìn)行篩選,而后利用基于核密度估計(jì)的 Na?ve Bayes分類法將TCP流分至10個(gè)應(yīng)用類別中。雖然該方法較之前研究更多地考慮了測(cè)度的選擇和分布,但存在以下很嚴(yán)重的效率問題。1) 所選用的248個(gè)流測(cè)度過多,且其中一些計(jì)算過于復(fù)雜。2)使用熵和對(duì)稱不確定性(SU, symmetric uncertainty)作為兩變量相關(guān)性的度量,計(jì)算變量取值概率、條件概率的時(shí)空復(fù)雜度都非常高,樣本空間較大時(shí)分類器訓(xùn)練時(shí)間過長(zhǎng),而樣本空間較小時(shí)不足以代表流量總體行為,影響識(shí)別精度。3) 使用核密度估計(jì)(KE, kernel estimation)需要當(dāng)每一個(gè)新流到達(dá)時(shí)都對(duì)樣本空間中的每一個(gè)樣本計(jì)算一次密度函數(shù),開銷非常大。由于上述缺點(diǎn),雖然其實(shí)驗(yàn)表明方法準(zhǔn)確率超過90%,但不能用于實(shí)時(shí)環(huán)境下,更不可能在線處理10Gbit/s以上的主干帶寬流量。

        國(guó)內(nèi)目前對(duì)通用應(yīng)用層流量分類的研究還處于匹配應(yīng)用協(xié)議特征串的階段[13]?;谛袨樽R(shí)別流量的方法目前只針對(duì)于P2P流量的發(fā)現(xiàn)[14,15],這些研究不僅通用性不好,準(zhǔn)確率不高,而且都沒有放在實(shí)際環(huán)境中進(jìn)行識(shí)別率及性能的測(cè)試與分析。

        故從發(fā)展現(xiàn)狀看,目前基于行為特征的應(yīng)用流量分類算法在精度和速度上都達(dá)不到令人滿意的效果。尤其先前各算法在效率上無法實(shí)時(shí)處理吉比特以上的信道流量,并且各算法輸入均為信道原始報(bào)文首部,前期報(bào)文采集、組流、測(cè)度計(jì)算的開銷甚至遠(yuǎn)超過算法本身的計(jì)算開銷。因此為了提高應(yīng)用流量分類的效率,滿足10Gbit/s以上高速主干網(wǎng)絡(luò)管理和安全監(jiān)測(cè)的需要,必須在保證足夠準(zhǔn)確率的前提下降低當(dāng)前應(yīng)用流量分類前期工作及算法本身各階段的時(shí)空開銷,以較以往研究更為簡(jiǎn)單有效的計(jì)算方法處理高速流量。

        Cisco公司提出的 NetFlow[16]是目前實(shí)際主要使用的IP流測(cè)量系統(tǒng),已實(shí)現(xiàn)在多種路由器中,被業(yè)界廠商廣泛支持。若能利用NetFlow已統(tǒng)計(jì)的流記錄信息進(jìn)行應(yīng)用類別行為特征分析與流量分類,則不僅可以省略應(yīng)用分類前期報(bào)文采集、組流、測(cè)度計(jì)算的時(shí)空開銷,提高算法效率,而且基于Netflow流記錄的標(biāo)準(zhǔn)性和廣泛可用性,可以使其像SNMP一樣支持現(xiàn)有的網(wǎng)絡(luò)監(jiān)控與管理應(yīng)用,滿足管理者全面了解網(wǎng)絡(luò)活動(dòng)方式,對(duì)各種業(yè)務(wù)流進(jìn)行實(shí)時(shí)監(jiān)測(cè)與管理的需求。

        據(jù)此,本文提出一種以 NetFlow記錄統(tǒng)計(jì)信息作為輸入的高速應(yīng)用流量分類(FATC, fast application-level traffic classification)算法。算法分為基于簡(jiǎn)單相關(guān)系數(shù)的測(cè)度選擇算法和基于 Bayes多元判別分析的流量分類算法 2部分。前者衡量測(cè)度變量之間的相關(guān)關(guān)系,在實(shí)際分類之前選擇出能揭示網(wǎng)絡(luò)應(yīng)用類別行為特征的測(cè)度,刪除對(duì)分類無用及相互冗余的測(cè)度;后者以測(cè)度選擇的結(jié)果作為分類的依據(jù),將流量分類至誤判損失最小的應(yīng)用類別中。FATC算法優(yōu)點(diǎn)在于:1) 僅使用 NetFlow統(tǒng)計(jì)的流測(cè)度作為判別的依據(jù),不僅省略采集報(bào)文、組流、測(cè)度計(jì)算的巨大開銷,且提高了方法的實(shí)用性;2) 使用相關(guān)系數(shù)作為變量間最本質(zhì)的相關(guān)性判別依據(jù),計(jì)算量小,且事前刪除對(duì)判別無效或冗余的測(cè)度,優(yōu)化后期分類過程;3) 使用Bayes判別法對(duì)應(yīng)用流量分類,時(shí)間復(fù)雜度小,且實(shí)踐證明:當(dāng)樣本空間足夠大后,可以克服樣本變量不服從多元正態(tài)分布的事實(shí),使得基本的 Bayes方法能夠達(dá)到很好的效果;4)算法具有超過 95%的分類準(zhǔn)確率,且能實(shí)時(shí)處理當(dāng)前10Gbit/s主干網(wǎng)絡(luò)信道的流量。

        2 高速應(yīng)用流量分類(FATC)算法

        2.1 基于相關(guān)系數(shù)的流測(cè)度選擇算法

        變量選擇對(duì)判別方法的實(shí)施有著重要意義,過多的變量不僅影響判別方法的效率,無效或冗余的變量還會(huì)成為噪聲影響判別方法的效果。因此,若能在實(shí)際流量分類前刪除對(duì)分類無效的和相互冗余的測(cè)度,則不僅可以提高分類的精度和效率,還可以揭示出對(duì)流量分類有實(shí)際意義的測(cè)度,即那些能表示應(yīng)用類別行為特征的測(cè)度。

        目前只有文獻(xiàn)[11]考慮了在實(shí)際分類之前對(duì)測(cè)度進(jìn)行選擇,但其采用的對(duì)稱不確定性作為測(cè)度相關(guān)性依據(jù)需計(jì)算測(cè)度取值的概率和相互間的條件概率,方法時(shí)空復(fù)雜度都很高,訓(xùn)練及重訓(xùn)練分類器所用的時(shí)間開銷太大。因此為了提高算法的效率,需采用計(jì)算過程更為簡(jiǎn)易的相關(guān)性計(jì)算方法。既然流測(cè)度(包括流所屬的應(yīng)用層協(xié)議類別)是隨機(jī)變量,完全可以用經(jīng)典統(tǒng)計(jì)分析中的簡(jiǎn)單相關(guān)系數(shù)來表示測(cè)度間的相關(guān)程度[17]:

        其中,X和Y為2個(gè)待研究流測(cè)度,(xi, yi) (i =1,2,…,n)為兩變量的n對(duì)觀察值,和分別為n越大表示相關(guān)程度越強(qiáng),反之則越弱。令集合M={M1, M2, …, Mn}為全部可選用的流測(cè)度組成的集合,C為流所屬的應(yīng)用層類別。若某流測(cè)度Mi與類別C之間的相關(guān)系數(shù)小于某事先設(shè)定的閾值,則認(rèn)為該測(cè)度不能提供對(duì)分類有用的信息,屬于無效測(cè)度;若兩測(cè)度之間的相關(guān)系數(shù)大于另一閾值,則認(rèn)為這2個(gè)測(cè)度相互冗余,需刪除其中貢獻(xiàn)較小的測(cè)度。據(jù)此,基于相關(guān)系數(shù)的特征選擇算法如下:

        最終測(cè)度集合M={M1,M2,…,Mm}只包含了能對(duì)分類提供有用信息且相互獨(dú)立的測(cè)度。另外,測(cè)度選擇算法中閾值 δ1和 δ2的不同取值會(huì)影響入選的測(cè)度,繼而影響分類算法的準(zhǔn)確性和效率。二者的設(shè)置依賴于經(jīng)驗(yàn)和實(shí)驗(yàn)的效果,本文第3節(jié)中將進(jìn)一步分析不同閾值取值對(duì) FATC算法準(zhǔn)確率的影響。

        2.2 基于Bayes判別分析的流量分類算法

        在利用相關(guān)系數(shù)對(duì)流測(cè)度進(jìn)行篩選的基礎(chǔ)上,本節(jié)給出以最終集合 M 中的測(cè)度為分類依據(jù)的基于Bayes判別分析的應(yīng)用流量分類算法。

        多元統(tǒng)計(jì)分析的Bayes判別方法建立在Bayes準(zhǔn)則的基礎(chǔ)上,偏重于集群分布的統(tǒng)計(jì)特性,分類原理是假定訓(xùn)練樣本數(shù)據(jù)的光譜空間服從某類分布,做出樣本的概率密度等值線,確定分類,然后通過計(jì)算待判別樣本屬于各類別的概率,將新樣本歸屬于概率最大的一組。Bayes判別方法由于需要對(duì)所研究的對(duì)象在抽樣前已有一定的認(rèn)識(shí)(先驗(yàn)分布),且考慮誤判后的損失,故判別精度往往高于其他線性判別方法[17]。

        令應(yīng)用類別總數(shù)為k,則Bayes判別方程為

        式(1)中qj為第j類別的先驗(yàn)概率,pj(x)為待判別對(duì)象x屬于第j類別的概率,C(i|j)稱為損失函數(shù),表示本應(yīng)屬于第j類別的對(duì)象誤判給第i類別的損失:當(dāng) i=j時(shí),有 C(i|j)=0;當(dāng) i≠j時(shí),有 C(i|j)>0。顯然式(1)是對(duì)損失函數(shù)依概率的加權(quán)平均,即hi(x)為把x判給第i類別的損失期望。式(2)表明以誤判損失最小作為分類的依據(jù),即使得hi(x)最小的i即是對(duì)象x應(yīng)屬的類別號(hào)。

        原則上說,考慮損失函數(shù)更為合理,誤判損失C(i|j)可以根據(jù)網(wǎng)絡(luò)管理的不同需求來設(shè)置。如若當(dāng)前較為關(guān)注P2P流量情況,則可將P2P流誤判給其他類別的損失相應(yīng)增大。由于本文公平考慮各應(yīng)用類別,此處假定各種誤判的損失皆相等,即

        則判別方程簡(jiǎn)化為

        故判別方程等價(jià)于

        假設(shè)流對(duì)象 X = ( M1, M2,… ,Mm)T服從多元正態(tài)分布(3.5節(jié)將通過實(shí)驗(yàn)說明只要樣本空間足夠大,就可以克服流測(cè)度不服從正態(tài)分布的事實(shí)),其中流屬性 M1~ Mm對(duì)應(yīng)于應(yīng)用第2.1節(jié)的測(cè)度選擇算法所得到的最終測(cè)度。X的分布密度函數(shù)為其中,先驗(yàn)概率 qi、均值向量μ和方差陣∑可利用樣本通過無偏估計(jì)得到:

        其中,n為樣本空間大小,即總樣本流個(gè)數(shù)。ni為屬于第i類別的樣本流個(gè)數(shù)。根據(jù)微分中值定理,有

        由于n和ε為定值,故判別方程可化為

        其中,未知數(shù)只有待判別流對(duì)象x。

        據(jù)此,基于Bayes判別分析的流量分類算法如下:

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)及流測(cè)度

        為便于對(duì)比算法效果,本文采用和 Andrew相同的實(shí)驗(yàn)TRACE[11]:采集信道為一條吉比特全雙工以太網(wǎng),在一天內(nèi)隨機(jī)選取了10個(gè)持續(xù)時(shí)間約為1 680s的時(shí)間片,提取其中完整的TCP流,計(jì)算出每個(gè)TCP流的248種流測(cè)度及所屬的應(yīng)用層協(xié)議類別,作為TRACE中的記錄。表1詳細(xì)列舉了 TRACE中的各應(yīng)用層協(xié)議類別及屬于該類別的流數(shù)。

        表1 應(yīng)用層類別及相應(yīng)流數(shù)

        Andrew使用248種測(cè)度作為可用測(cè)度集合,從簡(jiǎn)單的TCP端口號(hào)至復(fù)雜的傅里葉變換。這不僅要求系統(tǒng)采集所監(jiān)聽網(wǎng)絡(luò)上的每個(gè)報(bào)文并組流,且需占用很大的資源計(jì)算這些測(cè)度。而本文提出的FATC算法的可用測(cè)度僅限定為 NetFlow V5統(tǒng)計(jì)可得的(如表2所示),不僅省去采集報(bào)文、組流、計(jì)算測(cè)度的前期工作,降低了系統(tǒng)開銷,而且簡(jiǎn)化后期測(cè)度選擇算法和流量分類算法的輸入,使分類更高效。

        表2 可用流測(cè)度集合

        算法測(cè)試前期工作還包括將Andrew的TRACE轉(zhuǎn)換至NetFlow V5流記錄格式,其中IP地址、AS號(hào)等FATC算法的無用字段可忽略。

        3.2 算法準(zhǔn)確率分析

        首先給出2個(gè)評(píng)價(jià)算法準(zhǔn)確率的標(biāo)準(zhǔn)。

        算法測(cè)試時(shí),本文在實(shí)驗(yàn)TRACE的10個(gè)時(shí)間片內(nèi)任取5個(gè)作為訓(xùn)練集,另5個(gè)作為測(cè)試集,取該類組合共C(10, 5) = 252組中隨機(jī)20組實(shí)驗(yàn)后的均值作為最后結(jié)果。取δ1=0.06,δ2=0.6(第3.4節(jié)將說明二者不同取值對(duì)FATC算法的影響),則最終測(cè)度集合M={s_port, pkt_size, IAT, duration}。FATC算法準(zhǔn)確率如表3所示。

        表3 算法準(zhǔn)確率比較

        由表3可見,F(xiàn)ATC算法準(zhǔn)確率遠(yuǎn)高于基于端口分類流量的方法,在大多數(shù)類別上也高于Andrew所提出的流分類算法,然而總準(zhǔn)確率略低于Andrew算法。造成差異的原因有2個(gè):1)由于WWW類別流數(shù)量占據(jù)了流總數(shù)的87%,對(duì)其略低的識(shí)別率將極大地影響總準(zhǔn)確率;2)由于FATC算法的輸入來自NetFlow流統(tǒng)計(jì)信息,相較于Andrew所用的248個(gè)測(cè)度,極大地減少了所提供的類別行為特征信息。但是,一方面如3.5節(jié)所示,隨著訓(xùn)練集空間的增長(zhǎng)FATC算法準(zhǔn)確率上升,9個(gè)時(shí)間片時(shí)準(zhǔn)確率已為95.7%,可以彌補(bǔ)缺少測(cè)度信息帶來的不足;更重要的一方面,如3.3節(jié)所示,F(xiàn)ATC算法極大的降低了以往分類算法的時(shí)空復(fù)雜度,使得在可接受的精度損失下分類效率有極大的提高。表3還表明兩算法對(duì) GAMES、INTERACTIVE和 P2P、ATTACK的識(shí)別率都非常低。Andrew并未對(duì)此現(xiàn)象作出解釋。分析如下。1) 由于 INTERACTIVE和GAMES 2種類別的流數(shù)非常少(如表1所示),不足以提供該類別的行為特征信息,造成這2類流量識(shí)別率極低。2) 對(duì)于 P2P和 ATTACK,由表 1可知這2類應(yīng)用的流數(shù)并不少。是由于這2種應(yīng)用涵蓋范圍很廣,各協(xié)議間行為差異較大,造成算法很難對(duì)其進(jìn)行類別的行為特征歸納,致使判別出現(xiàn)偏差。更進(jìn)一步的證據(jù)和處理方法將是下一步研究的重點(diǎn)。

        3.3 算法時(shí)空效率分析

        3.3.1 時(shí)間效率

        訓(xùn)練算法中,Andrew使用的SU算法需多遍掃描樣本空間或內(nèi)存空間以統(tǒng)計(jì)測(cè)度取值概率和條件概率,而FATC算法中的簡(jiǎn)單相關(guān)系數(shù)僅需單遍遍歷樣本空間。識(shí)別算法中,Andrew使用的KE算法在每個(gè)新流到達(dá)時(shí)需對(duì)樣本空間中的每個(gè)樣本計(jì)算一次密度函數(shù),而FATC算法只需計(jì)算應(yīng)用類別數(shù)次的密度函數(shù)。故即使樣本空間中只有104條流記錄,分為10類,則使用KE的Andrew算法在分類過程的時(shí)間開銷是FATC算法的103倍。

        由上可見,為了提高Andrew算法的效率必須使用較小的樣本集。而小樣本空間不足以提供完全的行為分布信息,會(huì)使算法的結(jié)果產(chǎn)生很大的偏差。因此Andrew算法存在著性能—效率的矛盾。文獻(xiàn)[11]表明,分別使用不足25 000條流記錄訓(xùn)練并測(cè)試的情況下,其算法時(shí)間開銷約300s,而同樣條件下FATC算法僅需4s。更嚴(yán)重的是,實(shí)際使用時(shí)Andrew算法還需采集原始報(bào)文、組流、計(jì)算248個(gè)測(cè)度,這更使得該算法不可能應(yīng)用于超過1Gbit/s的網(wǎng)絡(luò)環(huán)境中。

        FATC算法現(xiàn)每秒約能處理18 000條流記錄。據(jù)華東(北)地區(qū)網(wǎng)絡(luò)中心日常統(tǒng)計(jì),地區(qū)主干到國(guó)家主干的10Gbit/s信道一天內(nèi)的流數(shù)不足800MB,即FATC算法理論上能在不到12h內(nèi)處理完目前該10Gbit/s信道24h的流量??紤]到當(dāng)前實(shí)驗(yàn)為讀取硬盤上的 TRACE,速度較慢,實(shí)際使用直接從路由器接收NetFlow格式的流記錄時(shí)FATC算法效率會(huì)有更為明顯的提高,完全滿足實(shí)時(shí)分類當(dāng)前10Gbit/s主干網(wǎng)絡(luò)流量的需求。

        3.3.2 空間效率

        樣本存儲(chǔ)空間:由于Andrew算法可用測(cè)度集合龐大,若樣本數(shù)相同,則其所需的樣本存儲(chǔ)空間約為FATC算法的30倍(248/8)。因此使用同樣的磁盤或內(nèi)存空間,F(xiàn)ATC算法可以較Andrew算法多存儲(chǔ)約30倍的樣本流記錄。

        計(jì)算內(nèi)存空間:在應(yīng)用類別數(shù)目一定的情況下,Andrew的SU算法在統(tǒng)計(jì)樣本取值概率p(xi)和條件概率 p(xi|yj)時(shí)所需內(nèi)存空間隨樣本數(shù)和測(cè)度數(shù)的增長(zhǎng)而增長(zhǎng)。同時(shí)由于KE算法在每個(gè)新流到達(dá)時(shí)需對(duì)樣本空間中的每個(gè)樣本計(jì)算一次密度函數(shù),出于效率考慮顯然應(yīng)將每條樣本記錄都放在內(nèi)存中。文獻(xiàn)[11]表明使用全部測(cè)度,在樣本空間不足25 000條流記錄的條件下(僅2/3個(gè)時(shí)間片大小),其內(nèi)存使用達(dá)到256MB。而 FATC中的測(cè)度選擇算法和分類算法所需內(nèi)存空間不隨樣本數(shù)和測(cè)度數(shù)的增長(zhǎng)而增長(zhǎng),僅需記錄各應(yīng)用類別樣本的均值和方差,運(yùn)行總內(nèi)存不足70kB,為Andrew算法的約1/104。

        3.4 測(cè)度選擇閾值對(duì)算法的影響

        任何測(cè)度選擇算法的效果都和其篩選測(cè)度的閾值相關(guān)?;诤?jiǎn)單相關(guān)系數(shù)的測(cè)度選擇算法的效果好壞也很大程度上取決于2個(gè)參數(shù)的取值:有效測(cè)度選擇閾值δ1和冗余測(cè)度選擇閾值δ2。δ1取值過小會(huì)將某些對(duì)分類無效的測(cè)度引入分類算法中,δ2取值過大會(huì)將本身冗余的測(cè)度認(rèn)定為彼此獨(dú)立,二者不僅增加分類算法的計(jì)算復(fù)雜度,而且可能影響分類算法的效果;而δ1取值過大可能會(huì)淘汰掉某些對(duì)分類有用的測(cè)度,δ2的取值過小會(huì)使本身互相獨(dú)立的測(cè)度被認(rèn)定成冗余而被刪除,這更會(huì)極大地降低分類算法的準(zhǔn)確率。

        圖1表現(xiàn)了2參數(shù)的不同取值對(duì)FATC算法準(zhǔn)確率的影響。由圖1可見FATC算法對(duì)2個(gè)參數(shù)取值的選擇,即測(cè)度的選擇要求很高。選擇不適宜的測(cè)度將導(dǎo)致算法的準(zhǔn)確率一直非常低(10%~20%),而合適的參數(shù)取值則能夠選中最能表現(xiàn)應(yīng)用類別行為特征的測(cè)度,使算法準(zhǔn)確率有很大提高(大于90%)。另外,由測(cè)度選擇算法可知圖中δ1=0,δ2=1的點(diǎn)為未對(duì)測(cè)度進(jìn)行篩選,使用表2中所有測(cè)度進(jìn)行流量分類的效果,其準(zhǔn)確率只有約25%??梢娛褂煤线m的方法在流量分類之前剔除雜音與冗余特征,不僅可以精簡(jiǎn)分類器的結(jié)構(gòu),同時(shí)也極大提高了分類器的準(zhǔn)確率。然而就如何決定測(cè)度的取值,目前的研究還沒有很好的方法,仍只能通過平時(shí)的經(jīng)驗(yàn)和實(shí)驗(yàn)得出,這也是今后需要繼續(xù)考慮的內(nèi)容之一。

        圖1 參數(shù)對(duì)FATC算法準(zhǔn)確率的影響

        3.5 訓(xùn)練集大小對(duì)算法的影響

        圖2 顯示了FATC算法準(zhǔn)確率隨訓(xùn)練集大小的變化情況。由圖可見如下。1) 過小的訓(xùn)練集不能體現(xiàn)各應(yīng)用流量總體分布的情況,導(dǎo)致使用不全面的信息訓(xùn)練判別算法,從而影響FATC算法分類的精度。隨著訓(xùn)練集中樣本數(shù)量的增加,訓(xùn)練集所能提供的流量分布信息增多,分類算法就越能根據(jù)已知的正確信息判斷新流的所屬類別,算法準(zhǔn)確率不斷上升。2) 當(dāng)訓(xùn)練集大小超過4個(gè)時(shí)間片時(shí),F(xiàn)ATC算法準(zhǔn)確率的增加逐漸緩慢。此時(shí)再增加訓(xùn)練樣本的效果并不明顯。同時(shí),較小的訓(xùn)練集不僅可以降低手動(dòng)構(gòu)造訓(xùn)練集所需的前期工作量,而且可以減少算法在訓(xùn)練及重訓(xùn)練過程的時(shí)間開銷。因此實(shí)際中可根據(jù)所要求的準(zhǔn)確率調(diào)整初始訓(xùn)練集大小,以較小的工作量得到所需的精度。當(dāng)精度需求提高時(shí),可以相應(yīng)增大樣本空間,以補(bǔ)充信息。3) 當(dāng)訓(xùn)練集大小達(dá)到8個(gè)時(shí)間片時(shí),F(xiàn)ATC算法準(zhǔn)確率已超過95%,9個(gè)時(shí)間片時(shí)的準(zhǔn)確率為95.7%,非常接近Andrew所提出的算法。由此可見,只要訓(xùn)練樣本空間滿足一定大小,就可以破除Bayes判別中對(duì)樣本正態(tài)分布的假設(shè),達(dá)到Andrew使用KE算法相同的效果;另一方面,實(shí)驗(yàn)表明即使訓(xùn)練集包含9個(gè)時(shí)間片,F(xiàn)ATC算法在訓(xùn)練階段的時(shí)間開銷仍只有 12s,遠(yuǎn)小于訓(xùn)練集只包含 2/3個(gè)時(shí)間片的Andrew算法,且不影響分類過程的時(shí)間復(fù)雜度。

        圖2 FATC算法準(zhǔn)確率隨樣本集大小變化曲線

        3.6 流量行為變化對(duì)算法的影響

        基于流量行為特征的應(yīng)用流量分類算法都會(huì)面臨網(wǎng)絡(luò)流量行為隨著時(shí)間推移發(fā)生變化的問題。其是由新應(yīng)用協(xié)議的加入、網(wǎng)絡(luò)管理策略的改變、用戶習(xí)慣的轉(zhuǎn)變等原因所造成,包括各應(yīng)用類別流量在總體流量中所占比重的變化和流測(cè)度分布的改變2個(gè)方面。對(duì)FATC算法而言,前者改變判別方程中各類別的先驗(yàn)概率,后者影響各類別的均值和方差。故使用舊樣本訓(xùn)練的分類器精度會(huì)隨著時(shí)間的推移逐漸降低。表4為使用原樣本進(jìn)行訓(xùn)練,并使用12個(gè)月之后的另一組TRACE進(jìn)行測(cè)試所得的FATC算法準(zhǔn)確率,其中3個(gè)類別對(duì)應(yīng)的N/A表示該測(cè)試TRACE中沒有該類別的流量,同時(shí)FATC算法也未將任何其他類別的流量誤分至該類別。由表可見雖然基本各類別準(zhǔn)確率都稍有下降,但總體仍保持有較高的精度,總準(zhǔn)確率在一年之后仍維持在90%以上,只下降了不到3%。實(shí)驗(yàn)結(jié)果表明FATC算法具有很強(qiáng)的時(shí)間適應(yīng)性,可以長(zhǎng)時(shí)間穩(wěn)定的監(jiān)測(cè)網(wǎng)絡(luò)流量,在必要時(shí)只需稍加新樣本進(jìn)行重訓(xùn)練就可恢復(fù)算法原先的精度。

        表4 使用較晚采集的TRACE對(duì)算法的測(cè)試結(jié)果

        4 結(jié)束語

        針對(duì)目前應(yīng)用流量分類算法效率不高,不能滿足主干網(wǎng)中流量監(jiān)測(cè)需求的現(xiàn)狀,本文提出一種以NetFlow統(tǒng)計(jì)信息作為輸入,利用不同應(yīng)用類別在交互過程中表現(xiàn)出的行為測(cè)度差異區(qū)分各應(yīng)用類別流量的高速應(yīng)用流量分類算法——FATC。算法使用多元數(shù)理統(tǒng)計(jì)中的簡(jiǎn)單相關(guān)系數(shù)作為測(cè)度間相關(guān)性依據(jù),在分類之前選擇對(duì)分類有效且彼此獨(dú)立的測(cè)度,并以這些測(cè)度為依據(jù)使用Bayes判別法將流量分至誤判損失最小的應(yīng)用類別。相較于之前的研究,F(xiàn)ATC算法有以下改進(jìn)。1) 首次使用NetFlow記錄信息作為輸入,消除了前期報(bào)文采集、組流、測(cè)度計(jì)算的開銷,減少了輸入數(shù)據(jù)量,且使算法更具實(shí)用性。2) 極大降低分類算法在訓(xùn)練及分類過程的時(shí)空復(fù)雜度,使算法具有極高的效率。理論分析和實(shí)驗(yàn)結(jié)果表明,F(xiàn)ATC算法具有超過95%的分類準(zhǔn)確率,在保持當(dāng)前最全面準(zhǔn)確的Andrew方法準(zhǔn)確率的基礎(chǔ)上,將其時(shí)空開銷降低至少103倍,能實(shí)時(shí)穩(wěn)定地分類當(dāng)前10Gbit/s主干信道的流量。

        下一步工作將深入地分析應(yīng)用層協(xié)議分類中流測(cè)度的選擇問題,進(jìn)一步借鑒文獻(xiàn)[10]和文獻(xiàn)[18~20]中所述的流量統(tǒng)計(jì)屬性揭示應(yīng)用層流量分類與流記錄詳細(xì)程度之間的關(guān)系,研究流測(cè)度的種類、個(gè)數(shù)和應(yīng)用類別分類粒度之間的對(duì)應(yīng)關(guān)系,以及不同流測(cè)度對(duì)識(shí)別不同應(yīng)用類別流量的重要程度,從而為當(dāng)前流信息統(tǒng)計(jì)系統(tǒng)和網(wǎng)絡(luò)監(jiān)測(cè)系統(tǒng)的改進(jìn)提供信息。

        [1] MOORE A W, PAPAGIANNAKI K. Toward the accurate identification of network applications[A]. Proc of PAM 2005[C]. Boston, USA,2005. 41-54.

        [2] KIM M S, WON Y J, HONG J W K. Application-level traffic monitoring and an analysis on IP networks[J]. ETRI Journal, 2005, 27(11): 22-42.

        [3] MCGREGOR A, HALL M, LORIER P, et al. Flow clustering using machine learning techniques[A]. Proc of PAM 2004[C]. Antibes Juan-les-Pins, France, 2004. 205-214.

        [4] ERMAN J, ARLITT M, MAHANTI A. Traffic classification using clustering algorithms[A]. Proc of ACM SIGCOMM Workshop on Mining Network Data 2006[C]. Pisa, Italy, 2006.281-286.

        [5] ERMAN J, MAHANTI A, ARLITT M. Internet traffic identification using machine learning[A]. Proc of 49th IEEE Global Telecommunications Conference[C]. San Francisco, USA, 2006. 1-6.

        [6] KARAGIANNIS T, PAPAGIANNAKI K, FALOUTSOS M. BLINC:multilevel traffic classification in the dark[A]. Proc of ACM SIGCOMM 2005[C]. Philadelphia, USA, 2005.229-240.

        [7] ROUGHAN M, SEN S, SPATSCHECK O, et al. Class-of-service mapping for QoS: a statistical signature-based approach to IP traffic classification[A]. Proc of ACM SIGCOMM IMC 2004[C]. Taormina,Italy, 2004. 135-148.

        [8] ZANDER S, NGUYEN T, ARMITAGE G J. Self-learning IP traffic classification based on statistical flow characteristics[A]. Proc of PAM2005[C]. Boston, USA, 2005. 325-328.

        [9] ZANDER S, WILLIAMS N, ARMITAGE G. Internet archeology:estimating individual application trends in incomplete historic traffic traces[A]. Proc of PAM 2006[C]. Adelaide, Australia, 2006.205-206.

        [10] LI M, ZHAO W. Representation of a stochastic traffic bound[J]. IEEE Transactions on Parallel and Distributed Systems, 2010, 21(9):1368-1372.

        [11] MOORE A W, ZUEV D. Internet traffic classification using bayesian analysis techniques[A]. Proc of ACM SIGMETRICS 2005[C]. Banff,Canada, 2005. 50-60.

        [12] MOORE A W, ZUEV D. Discriminators for Use in Flow-Based Classification[R]. RR-05-13, London: Intel Research, Cambridge, 2005.

        [13] 劉元?jiǎng)? 徐秋亮, 云曉春. 面向入侵檢測(cè)系統(tǒng)的通用應(yīng)用層協(xié)議識(shí)別技術(shù)研究[J]. 山東大學(xué)學(xué)報(bào)(工學(xué)版), 2007, 37(1): 65-69.LIU Y X, XU Q L, YUN X C. Research on IDS-faced general-purpose application-level protocol identification technology[J]. Journal of Shandong University(Engineering Science), 2007, 37(1): 65-69.

        [14] 宮婧, 孫知信, 顧強(qiáng). 基于行為特征描述的P2P流識(shí)別方法的研究[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2007, 28(1): 48-53.GONG J, SUN Z X, GU Q. Research of identification method based on P2P flow behavior characterization [J]. Journal of Chinese Computer Systems, 2007, 28(1): 48-53.

        [15] 劉斌, 李之棠, 李佳. 一種基于流特征的P2P流量實(shí)時(shí)識(shí)別方法[J].廈門大學(xué)學(xué)報(bào)(自然科學(xué)版), 2007, 46(2): 132-135.LIU B, LI Z T, LI J. A new method on P2P traffic identification based on flow[J]. Journal of Xiamen University(Natural Science), 2007,46(2): 132-135.

        [16] Cisco. cisco IOS netflow introduction[EB/OL]. http://www.cisco.com/warp/public/ 732/Tech/NetFlow, 2006.

        [17] 朱道元, 吳誠(chéng)鷗, 秦偉良. 多元統(tǒng)計(jì)分析與軟件SAS[M]. 南京: 東南大學(xué)出版社, 1999.ZHU D Y, WU C O, QIN W L. Multivariate Statistical Analysis and SAS [M]. Nanjing: Southeast University Press,1999.

        [18] LI M, LIM S C. Modeling network traffic using generalized Cauchy process[J]. Physica A, 2008, 387(11): 2584-2594.

        [19] LI M. Change trend of averaged Hurst parameter of traffic under DDOS flood attacks[J]. Computers & Security, 2006, 25(3): 213-220.[20] LI M. An approach to reliably identifying signs of DDOS flood attacks based on LRD traffic pattern recognition [J]. Computers & Security,2004, 23(7): 549-558.

        猜你喜歡
        樣本空間測(cè)度類別
        高中數(shù)學(xué)新教材一個(gè)探究試驗(yàn)的商榷
        概率統(tǒng)計(jì)中樣本空間芻議
        三個(gè)數(shù)字集生成的自相似測(cè)度的乘積譜
        R1上莫朗測(cè)度關(guān)于幾何平均誤差的最優(yōu)Vornoi分劃
        非等熵Chaplygin氣體測(cè)度值解存在性
        Cookie-Cutter集上的Gibbs測(cè)度
        淺談高校古典概率的教學(xué)
        全概率公式的教學(xué)方法研究
        考試周刊(2016年26期)2016-05-26 20:19:51
        服務(wù)類別
        論類別股東會(huì)
        商事法論集(2014年1期)2014-06-27 01:20:42
        а√天堂资源官网在线资源| 亚洲精品天堂在线观看| 久久久久久久久久免免费精品| 国产精品久久久久久久y| 玩弄丝袜美腿超短裙校花| 麻豆国产精品久久天堂| 我要看免费久久99片黄色| 国产成人综合美国十次| 奇米影视777撸吧| 99精品视频在线观看免费 | 蜜桃传媒网站在线观看| 中国妇女做爰视频| 东北妇女肥胖bbwbbwbbw| 国产成人亚洲综合无码DVD| 吃下面吃胸在线看无码| 日本一区二区三区免费| 日本熟女中文字幕在线| 在线亚洲高清揄拍自拍一品区| 精品国产拍国产天天人 | 毛片大全真人在线| 99精品热6080yy久久| 日韩精品有码在线视频| 人妻精品一区二区三区蜜桃| 国产精品主播在线一区二区| 欧美精品亚洲精品日韩专区| 久久夜色精品国产噜噜麻豆| 亚洲综合一区无码精品| 亚洲高清视频在线播放| 少妇人妻在线伊人春色| 一本色道久久88加勒比一| 韩国三级中文字幕hd| 久久精品国产亚洲av成人| 日本韩国三级aⅴ在线观看| 亚洲国产成人久久精品美女av | 国产呦系列视频网站在线观看 | 国产专区一线二线三线码| 久久免费的精品国产v∧| 亚洲阿v天堂2018在线观看| 亚洲国产av自拍精选| 亚洲国产精品婷婷久久| 国产xxx69麻豆国语对白|