亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        P2P應(yīng)用流量的高效分類方法研究

        2017-04-24 10:40:18陳金富張永錚
        關(guān)鍵詞:數(shù)據(jù)包端口準(zhǔn)確率

        陳金富 趙 慧 常 鵬 張永錚

        1(中國(guó)科學(xué)院信息工程研究所 北京 100093)2(中國(guó)科學(xué)院大學(xué) 北京 100049)3(國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心 北京 100029)

        P2P應(yīng)用流量的高效分類方法研究

        陳金富1,2趙 慧3*常 鵬1張永錚1

        1(中國(guó)科學(xué)院信息工程研究所 北京 100093)2(中國(guó)科學(xué)院大學(xué) 北京 100049)3(國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心 北京 100029)

        隨著互聯(lián)網(wǎng)應(yīng)用的廣泛使用,網(wǎng)絡(luò)應(yīng)用已經(jīng)呈現(xiàn)出很多類別,尤其是P2P應(yīng)用流量的暴增。傳統(tǒng)的流量分類和應(yīng)用識(shí)別方法已經(jīng)達(dá)不到穩(wěn)定可觀的應(yīng)用識(shí)別率。為了提高P2P應(yīng)用流量分類準(zhǔn)確率和穩(wěn)定性,科學(xué)管理規(guī)劃網(wǎng)絡(luò),提出WMFA(滑動(dòng)窗口多流關(guān)聯(lián))分類算法,使用P2P應(yīng)用流量統(tǒng)計(jì)特征,通過降低流統(tǒng)計(jì)特征維數(shù),以及減少計(jì)算每個(gè)流中包的數(shù)量,利用C4.5決策樹算法對(duì)P2P主流應(yīng)用進(jìn)行一次分類,采用WMFA算法進(jìn)行誤識(shí)別流的挖掘,再進(jìn)行多流關(guān)聯(lián)進(jìn)行二次識(shí)別,從而提高P2P應(yīng)用流量分類準(zhǔn)確率。實(shí)驗(yàn)表明,在降低流特征維數(shù)以及減少每個(gè)流數(shù)據(jù)包的前提下,面向國(guó)內(nèi)主流P2P應(yīng)用WMFA算法對(duì)P2P應(yīng)用在線識(shí)別的分類正確率達(dá)到96%以上,在準(zhǔn)確率上比現(xiàn)有方法平均提高3%。

        P2P流量分類 應(yīng)用識(shí)別 WMFA算法 多流關(guān)聯(lián)

        0 引 言

        據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心統(tǒng)計(jì),截至2015年6月,我國(guó)網(wǎng)民規(guī)模達(dá)6.68億,互聯(lián)網(wǎng)普及率為48.8%。據(jù)思科最新統(tǒng)計(jì),對(duì)于劇增的流量,P2P流量占絕大部分。P2P網(wǎng)絡(luò)應(yīng)用流量的暴漲,占據(jù)了巨大的網(wǎng)絡(luò)帶寬,不利于高質(zhì)量的服務(wù),這些問題說明,研究如何提高P2P應(yīng)用流量分類準(zhǔn)確率迫在眉睫。P2P流量分類和應(yīng)用識(shí)別對(duì)于很多單位的網(wǎng)絡(luò)管理員、使用者都有很大的好處。準(zhǔn)確地分類P2P應(yīng)用流量可以為一些網(wǎng)絡(luò)管理員合理地分配網(wǎng)絡(luò)流量,科學(xué)地規(guī)劃網(wǎng)絡(luò)資源。同時(shí),應(yīng)用服務(wù)的提供商可以高效地管理流量計(jì)費(fèi)服務(wù),也方便消費(fèi)者查看已經(jīng)消耗的流量。

        以往的P2P網(wǎng)絡(luò)流量分類和應(yīng)用識(shí)別研究方法主要是基于端口、負(fù)載特征來(lái)判別,但是因?yàn)镻2P應(yīng)用的暴增,加上一些通信協(xié)議的不斷更新,以往研究方法分類準(zhǔn)確率越來(lái)越不穩(wěn)定。2005年,Moore等做了端口識(shí)別應(yīng)用的實(shí)驗(yàn),運(yùn)用端口來(lái)進(jìn)行應(yīng)用分類,結(jié)果表明準(zhǔn)確率不超過70%[1]。端口識(shí)別應(yīng)用存在過大的誤報(bào)率問題,接著提出基于數(shù)據(jù)包負(fù)載分析的技術(shù)[2],指解析數(shù)據(jù)包的負(fù)載,并判斷是否匹配已知應(yīng)用的指紋來(lái)進(jìn)行應(yīng)用分類。該分類方法識(shí)別率有很大的提升,但是對(duì)于P2P流量而言,很多加密流量,一些很難挖掘特征的應(yīng)用沒辦法進(jìn)行準(zhǔn)確的分類。后來(lái)提出基于主機(jī)網(wǎng)絡(luò)行為來(lái)進(jìn)行P2P應(yīng)用分類,網(wǎng)絡(luò)行為代表了大類應(yīng)用的交互特征,所以沒辦法進(jìn)行細(xì)粒度的應(yīng)用識(shí)別。由于機(jī)器學(xué)習(xí)算法的迅猛發(fā)展,研究者們提出使用機(jī)器學(xué)習(xí)的算法來(lái)進(jìn)行P2P應(yīng)用流量分類,通過離線網(wǎng)絡(luò)流的特征學(xué)習(xí),建立分類模型,然后對(duì)P2P流量進(jìn)行在線的分類,很多研究表明可以達(dá)到較高的分類準(zhǔn)確率。在以往的研究中,機(jī)器學(xué)習(xí)方法訓(xùn)練集是經(jīng)過大量計(jì)算的流特征,根據(jù)Moore等提出的249個(gè)流特征[3],選擇一定的特征子集。但是機(jī)器學(xué)習(xí)的方法比較依賴數(shù)據(jù)集,在計(jì)算一些流特征的時(shí)候,需要計(jì)算流中每個(gè)包的特征,在網(wǎng)絡(luò)流量暴漲情況下,應(yīng)用識(shí)別的性能有所下降,分類準(zhǔn)確率不穩(wěn)定。

        為了有效地提高P2P應(yīng)用流量分類準(zhǔn)確率,本文提出WMFA(滑動(dòng)窗口多流關(guān)聯(lián)算法)分類算法,可以在一個(gè)時(shí)間單位窗口中在線的實(shí)時(shí)識(shí)別P2P應(yīng)用流量。通過降低P2P應(yīng)用流特征維度,以及減少流中數(shù)據(jù)包個(gè)數(shù)的方式,利用C4.5的方法來(lái)對(duì)P2P應(yīng)用進(jìn)行一次識(shí)別,再用WMFA算法來(lái)去除C4.5誤識(shí)別的流,然后采用時(shí)空關(guān)聯(lián)來(lái)進(jìn)行多流關(guān)聯(lián)識(shí)別,從而提高P2P應(yīng)用流量分類準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明該方法可以在線實(shí)時(shí)對(duì)P2P應(yīng)用流量進(jìn)行有效分類,不僅分類穩(wěn)定,而且對(duì)P2P應(yīng)用識(shí)別具有較高準(zhǔn)確率。

        1 相關(guān)工作

        現(xiàn)有的P2P應(yīng)用流量分類方法主要包括基于端口、數(shù)據(jù)包負(fù)載、網(wǎng)絡(luò)行為以及機(jī)器學(xué)習(xí)的分類方法,本節(jié)主要介紹各種分類方法并總結(jié)各種方法存在的問題。

        1.1 基于端口的P2P應(yīng)用分類方法

        在P2P網(wǎng)絡(luò)通信過程中,無(wú)論是客戶端還是服務(wù)端,或者是一個(gè)Peer節(jié)點(diǎn),必須提供IP地址和端口和另一方進(jìn)行通信,在一定的時(shí)間內(nèi),主機(jī)某個(gè)端口關(guān)聯(lián)一個(gè)網(wǎng)絡(luò)應(yīng)用,端口小于1 024的一般作保留使用。一些常見的有RFC文檔描述的網(wǎng)絡(luò)協(xié)議基本有固定的端口,識(shí)別傳統(tǒng)的協(xié)議較簡(jiǎn)單,只需解析端口號(hào),然后和IANA機(jī)構(gòu)頒布的端口進(jìn)行比對(duì),有比較高的識(shí)別率,而且基于端口識(shí)別方法簡(jiǎn)單,容易實(shí)現(xiàn),分類性能很高。但是對(duì)于P2P應(yīng)用來(lái)說,大多采用了端口跳變技術(shù)。隨著P2P網(wǎng)絡(luò)應(yīng)用端口的動(dòng)態(tài)使用,基于端口的P2P應(yīng)用識(shí)別和流量分類很不穩(wěn)定,有的研究表明采用固定端口的P2P流量?jī)H僅占30%左右[4-5]。

        1.2 基于負(fù)載的P2P應(yīng)用分類方法

        因?yàn)镻2P網(wǎng)絡(luò)應(yīng)用采用端口跳變的技術(shù),所以基于端口的P2P應(yīng)用分類具有很高的誤報(bào)率。為了有效提高P2P應(yīng)用流量分類準(zhǔn)確率,提出了基于數(shù)據(jù)包負(fù)載的識(shí)別方法。通過分析數(shù)據(jù)包的有效負(fù)載,并判斷是否匹配已知應(yīng)用的指紋來(lái)進(jìn)行應(yīng)用分類,研究表明該方法分類有比較高的準(zhǔn)確性。Sen等[6]使用負(fù)載分析方法來(lái)識(shí)別P2P應(yīng)用,實(shí)驗(yàn)結(jié)果顯示分類中誤報(bào)率小于5%。Liu等[7]使用深度流負(fù)載識(shí)別迅雷流量,TCP流量的識(shí)別準(zhǔn)確率僅有87%?;跀?shù)據(jù)包負(fù)載進(jìn)行P2P應(yīng)用分類準(zhǔn)確率得到一定的提升,而且可以達(dá)到細(xì)粒度的識(shí)別。但是對(duì)于P2P流量而言,很多是私有協(xié)議以及加密流量,比如迅雷就采用了私有協(xié)議來(lái)傳輸數(shù)據(jù),很難挖掘負(fù)載特征。所以使用該方法還是無(wú)法有效的識(shí)別P2P應(yīng)用,無(wú)法確保一些特征的有效性和實(shí)時(shí)性。

        1.3 基于網(wǎng)絡(luò)行為的P2P應(yīng)用分類方法

        私有協(xié)議和加密的流量無(wú)法挖掘有效負(fù)載特征,為了保證分類準(zhǔn)確率穩(wěn)定性,繼而提出通過P2P應(yīng)用的交互行為來(lái)進(jìn)行應(yīng)用分類。Karagiannis等[8]利用應(yīng)用交互過程的行為特征來(lái)分類,提出盲分類方法,方法沒有考慮端口號(hào),而且不用解析數(shù)據(jù)包的有效負(fù)載,實(shí)驗(yàn)結(jié)果表明該分類方法能夠達(dá)到95%的精度,但是盲分類方法實(shí)踐比較困難,無(wú)法滿足實(shí)時(shí)性的分類要求。Collins等[9]采用P2P應(yīng)用TCP連接特征來(lái)識(shí)別P2P應(yīng)用的TCP流量,該方法沒有給出UDP流量分類的方案,而且容易和別的一些流量混淆。Wang等[10]使用應(yīng)用行為特征來(lái)對(duì)P2P流量分類,但是平均分類準(zhǔn)確率只有90%。主機(jī)交互行為方法不用考慮端口號(hào),而且不用對(duì)數(shù)據(jù)包進(jìn)行深度解析,有效提高了分類性能。但是它不能精細(xì)化分類P2P應(yīng)用,也因?yàn)镻2P應(yīng)用在交互過程中路由具有動(dòng)態(tài)性,致使該方法分類穩(wěn)定性不高。

        1.4 基于機(jī)器學(xué)習(xí)的P2P應(yīng)用分類方法

        目前研究熱點(diǎn)主要在基于機(jī)器學(xué)習(xí)的分類方法,不同應(yīng)用網(wǎng)絡(luò)流量具有一定的流特征,將流特征提取出來(lái)并用機(jī)器學(xué)習(xí)算法來(lái)訓(xùn)練建立分類模型,然后對(duì)在線應(yīng)用流量進(jìn)行分類。Zuev等[11]采用樸素貝葉斯方法,提取網(wǎng)絡(luò)流特征訓(xùn)練,但是分類準(zhǔn)確率僅有60%左右, 而且分類算法依賴數(shù)據(jù)流特征之間的獨(dú)立性。在2009年,Huang等[12]用KNN(K最近鄰)分類算法來(lái)對(duì)網(wǎng)絡(luò)流量進(jìn)行分類,實(shí)驗(yàn)結(jié)果表明分類準(zhǔn)確率達(dá)到90%,但是KNN算法計(jì)算復(fù)雜度高,每有數(shù)據(jù)包到來(lái)就需要計(jì)算訓(xùn)練集中所有的流,性能比較低。同時(shí)在2009年,徐鵬等[13]采用C4.5決策樹對(duì)流量進(jìn)行分類,分類準(zhǔn)確率能達(dá)到94%,但是該算法需要的流特征較多,需要的數(shù)據(jù)分組較多,計(jì)算復(fù)雜度偏高。2013年,周文剛等[14]使用譜聚類算法對(duì)網(wǎng)絡(luò)流量進(jìn)行分類,總體準(zhǔn)確率達(dá)到94.62%,該方法對(duì)協(xié)議進(jìn)行分類,沒有精細(xì)化到應(yīng)用分類。2014年,Patel等[15]采用迭代式調(diào)整的SVM算法對(duì)網(wǎng)絡(luò)流量進(jìn)行分類,該方法對(duì)一般的協(xié)議分類準(zhǔn)確率達(dá)到90%,但是對(duì)于P2P和多媒體流量分類準(zhǔn)確率在70%左右。2015年,Hong等[16]使用SVM對(duì)網(wǎng)絡(luò)流量進(jìn)行粗粒度分類,P2P流量分類準(zhǔn)確率僅有80%左右。

        目前已有的流量分類和應(yīng)用識(shí)別研究往往具有一定的局限性,當(dāng)前研究大都針對(duì)粗粒度分類,面向P2P應(yīng)用細(xì)粒度分類研究較少。采用基于機(jī)器學(xué)習(xí)的流量分類方法,識(shí)別率不穩(wěn)定,算法計(jì)算復(fù)雜性比較高等,從而影響網(wǎng)絡(luò)流量的管理和應(yīng)用類別的監(jiān)控。與上述研究工作相比,本文面向主流P2P類應(yīng)用流量分類,提出WMFA算法進(jìn)行P2P流量的在線實(shí)時(shí)分類,實(shí)時(shí)的粒度體現(xiàn)在一個(gè)時(shí)間單位窗口上。在減少流統(tǒng)計(jì)特征,減少會(huì)話開始的數(shù)據(jù)包數(shù)量,利用C4.5決策樹算法對(duì)P2P主流應(yīng)用進(jìn)行一次分類,用WMFA算法進(jìn)行誤識(shí)別流的挖掘,再進(jìn)行多流關(guān)聯(lián)進(jìn)行二次識(shí)別,可以達(dá)到較高的分類準(zhǔn)確率。

        2 P2P應(yīng)用流量WMFA分類方法

        P2P應(yīng)用流量分類中,機(jī)器學(xué)習(xí)比較依賴數(shù)據(jù)集所以識(shí)別率有時(shí)候不穩(wěn)定。面向主流P2P應(yīng)用分類,本文提出基于WMFA算法的應(yīng)用在線實(shí)時(shí)分類方法,基于滑動(dòng)時(shí)間窗口的多流在線關(guān)聯(lián)方法集成了C4.5和多元離群點(diǎn)檢測(cè)方法,采用信息增益率來(lái)選擇P2P流特征,然后使用C4.5對(duì)P2P進(jìn)行一次識(shí)別,挖掘誤識(shí)別流,利用時(shí)空關(guān)聯(lián)將已識(shí)別的流來(lái)關(guān)聯(lián)未識(shí)別的流作二次精確識(shí)別。

        通過信息增益率來(lái)篩選P2P網(wǎng)絡(luò)應(yīng)用行為特征,在特征提取方面,本文提出的優(yōu)化方案是將TCP流和UDP流分開進(jìn)行處理,在性能方面,每個(gè)流僅選取前9個(gè)報(bào)文進(jìn)行分析。

        2.1 特征選擇

        2005年,Moore等[3]提出了249個(gè)對(duì)流量分類的流統(tǒng)計(jì)特征。在實(shí)際分類中考慮到計(jì)算復(fù)雜度問題,通常只選擇部分流統(tǒng)計(jì)特征來(lái)對(duì)流量進(jìn)行分類。在特征選擇方面,潘吳斌等[17]提出選擇性集成的嵌入式特征選擇算法,分類準(zhǔn)確率達(dá)到95%,但是分類沒有精細(xì)化到應(yīng)用。特征選擇的目的是在保持較高分類準(zhǔn)確率的條件下,盡量的降低流統(tǒng)計(jì)特征的維數(shù)。

        本文采用信息增益率方法來(lái)選擇P2P流特征,不考慮應(yīng)用中攜帶的廣告流量和DNS流量。優(yōu)化方案體現(xiàn)在分開處理P2P應(yīng)用TCP和UDP流量,僅考慮通過每個(gè)P2P網(wǎng)絡(luò)流的前10個(gè)數(shù)據(jù)包來(lái)計(jì)算流統(tǒng)計(jì)特征。在該特征選擇算法,用GR代表信息增益率,Gain是信息增益,SpInfo表示分裂信息。那么在流統(tǒng)計(jì)特征屬性T上,針對(duì)訓(xùn)練數(shù)據(jù)集D的信息增益率的計(jì)算如式(1)所示:

        (1)

        信息增益表示兩個(gè)信息需求之間的差值。通過流統(tǒng)計(jì)特征T劃分前后類別期望信息的差值比較,這個(gè)差值越大說就表示流統(tǒng)計(jì)屬性T劃分越好,劃分后類別更純。信息增益的計(jì)算為Gain(T)=Info(D)-InfoT(D),通過信息熵的方式來(lái)計(jì)算信息增益。Info(D)就是數(shù)據(jù)集D的熵。令Ri表示D中網(wǎng)絡(luò)流屬于第i個(gè)應(yīng)用的概率,使用m代表P2P應(yīng)用類別的總數(shù),可以計(jì)算信息熵,則P2P應(yīng)用流量數(shù)據(jù)集中網(wǎng)絡(luò)流分類的信息熵計(jì)算如式(2)所示:

        (2)

        通過信息增益率選擇的分類屬性,按照增益率的大小排序,然后選擇增益率較大的前15個(gè)分裂屬性。在信息增益率算法的基礎(chǔ)上,通過卡方檢驗(yàn)來(lái)判斷信息增益選擇的流特征相關(guān)性,并去除具有相關(guān)性的特征。針對(duì)P2P應(yīng)用TCP和UDP流量,使用信息增益率作為度量標(biāo)準(zhǔn)選擇了10個(gè)最有效的流統(tǒng)計(jì)特征如表1所示。

        表1 P2P流量TCP和UDP流統(tǒng)計(jì)特征

        本文在Moore的特征基礎(chǔ)上,增加了P2P應(yīng)用的一些特有流特征,因?yàn)镻2P應(yīng)用大部分使用私有協(xié)議,每個(gè)流攜帶交互信息的數(shù)據(jù)包最大概率出現(xiàn)在前3個(gè)包,熵值是最大的。同時(shí),在分析P2P應(yīng)用中,我們發(fā)現(xiàn)交互過程中初始化窗口攜帶的分類信息很大。

        2.2 WMFA分類算法

        機(jī)器學(xué)習(xí)方法分類主要依賴數(shù)據(jù)集,使用C4.5對(duì)P2P流量進(jìn)行分類,結(jié)果大多數(shù)存在誤識(shí)別的流。為去除誤識(shí)別流提出WMFA算法(基于滑動(dòng)時(shí)間窗口多流關(guān)聯(lián)) ,主要目的是在線實(shí)時(shí)挖掘每個(gè)時(shí)間窗口中誤識(shí)別的流,再進(jìn)行時(shí)空關(guān)聯(lián)將未識(shí)別的流標(biāo)記為已識(shí)別的流。

        P2P通信應(yīng)用流量具有流量連續(xù)性、端口離散性、流大窗口連續(xù)性、流小窗口短暫性以及輸入輸出流量均衡性。使用滑動(dòng)時(shí)間窗口來(lái)量化流量的連續(xù)性。設(shè)定一個(gè)單位統(tǒng)計(jì)時(shí)間為一個(gè)窗口。根據(jù)經(jīng)驗(yàn)規(guī)則,單位時(shí)間設(shè)置為5分鐘。設(shè)置窗口尺寸為wn,這里的窗口尺寸設(shè)置為4。

        將一個(gè)時(shí)間窗口P2P流量分類結(jié)果數(shù)據(jù)集中同應(yīng)用的流作為輸入,挖掘誤識(shí)別的流并清除流標(biāo)記。本文運(yùn)用基于χ2統(tǒng)計(jì)量的多元分類結(jié)果離群點(diǎn)檢測(cè),這里的離群點(diǎn)是指誤識(shí)別的應(yīng)用流。使用多元屬性來(lái)度量P2P通信原理,多元屬性分別為f1端口離散性,f2輸入/輸出流量比,f3大窗口持續(xù)性,f4小窗口短暫性,四個(gè)屬性的量化如下。

        在線實(shí)時(shí)量化四個(gè)P2P通信屬性,這里實(shí)時(shí)粒度是一個(gè)時(shí)間窗口,本文設(shè)置為5分鐘。f1端口離散性記錄每個(gè)流客戶端端口ClientPort值,由于P2P應(yīng)用通信端口一般比較大,而其他三個(gè)屬性的量化結(jié)果在0到1區(qū)間范圍內(nèi),為平衡各屬性的權(quán)重,使用hash函數(shù)將客戶端端口hash到0到1區(qū)間內(nèi),f1的量化如式(3)所示:

        f1=Hash(ClientPort)

        (3)

        f2輸入/輸出流量比使用每條流的輸入字節(jié)數(shù)fbytes和輸出字節(jié)數(shù)bbytes量化,如式(4)所示:

        (4)

        f3大窗口連續(xù)屬性使用每條流中包負(fù)載大于初始化窗口大小包數(shù)量big_wins和整條流包數(shù)flow_packets來(lái)量化,如式(5)所示:

        (5)

        f4小窗口短暫屬性使用每條流中包負(fù)載小于流前三個(gè)包長(zhǎng)的數(shù)量small_wins和整條流包數(shù)flow_packets來(lái)量化,如式(6)所示。

        (6)

        基于χ2統(tǒng)計(jì)量的多元分類結(jié)果離群點(diǎn)檢測(cè),使用上述量化的P2P應(yīng)用流量特征,如計(jì)算式(7)所示:

        (7)

        其中fi是當(dāng)前窗口第i個(gè)屬性特征值,EiWn是前wn窗口內(nèi)被標(biāo)記為內(nèi)同一應(yīng)用第i屬性的均值,n代表屬性維度,這里n表示4。在識(shí)別過程中,時(shí)間窗口會(huì)不斷向后滑動(dòng),EiWn代表每個(gè)屬性的窗口尺寸平均值會(huì)不斷改變。如果在某個(gè)時(shí)間窗口中χ2統(tǒng)計(jì)量較大,則將該流視為誤識(shí)別并將該流的應(yīng)用分類標(biāo)記去除。

        通過離群點(diǎn)檢測(cè)算法,將誤報(bào)的流標(biāo)記被刪除并在一個(gè)時(shí)間單位窗口中使用在線實(shí)時(shí)多流時(shí)空關(guān)聯(lián),實(shí)時(shí)的粒度是一個(gè)時(shí)間窗口,空間是指該窗口中每條流中IP和端口PORT。如果在一個(gè)時(shí)間窗口上,同一個(gè)IP和端口PORT的流有未識(shí)別的流,則將該流標(biāo)記為對(duì)應(yīng)IP和PORT已識(shí)別的流,偽代碼如下:

        算法 多流時(shí)空關(guān)聯(lián)

        輸入:一次識(shí)別結(jié)果集Data,時(shí)間窗口win_time

        輸出:關(guān)聯(lián)后的識(shí)別結(jié)果

        1:foreach flow in Data do

        2: if flow.IP and flow.Port is same then

        3: if flow.TIME < win_time then

        4: AppNames.add(flow.AppName)

        5: AppName = Max(AppNames)

        6:endforeach

        7:foreach flow in Data do

        8: if flow.AppName == null then

        9: flow.AppName = AppName

        10:endforeach

        11:return Data

        算法的輸入是C4.5識(shí)別的結(jié)果集Data和時(shí)間窗口長(zhǎng)度win_time,時(shí)間窗口代表了在線實(shí)時(shí)的粒度,本文設(shè)置實(shí)時(shí)粒度是5分鐘。輸出是WMFA關(guān)聯(lián)識(shí)別的結(jié)果集。第2行中如果流的客戶端IP和端口PORT一樣,并且流的時(shí)間小于win_time,則將流中標(biāo)記的應(yīng)用名稱記錄。第5行中計(jì)算出現(xiàn)頻率最高的應(yīng)用編碼。采用了hash原理,將每條流的IP和PORT作為鍵key,每條流的應(yīng)用編號(hào)作為值value,在同一個(gè)時(shí)間窗口中客戶端IP和PORT一樣的流進(jìn)行關(guān)聯(lián)。AppName記錄了應(yīng)用編碼,將一次識(shí)別結(jié)果Data中未識(shí)別的流或者誤識(shí)別的流標(biāo)記成AppName已識(shí)別的應(yīng)用編碼。

        3 實(shí)驗(yàn)及分析

        3.1 實(shí)驗(yàn)評(píng)估

        本文實(shí)驗(yàn)的度量指標(biāo)分別是準(zhǔn)確率和召回率。準(zhǔn)確率和召回率使用下面三個(gè)變量來(lái)計(jì)算。

        (1) 真陽(yáng)率TP(True Positive):算法識(shí)別為某P2P應(yīng)用的網(wǎng)絡(luò)數(shù)據(jù)流,而且確實(shí)屬于該應(yīng)用的網(wǎng)絡(luò)數(shù)據(jù)流。

        (2) 假陽(yáng)率FP(False Positive):算法識(shí)別為某P2P應(yīng)用的網(wǎng)絡(luò)數(shù)據(jù)流,但是不屬于該應(yīng)用的網(wǎng)絡(luò)數(shù)據(jù)流。

        (3) 假陰率FN(False Negative):算法識(shí)別為非某P2P應(yīng)用的網(wǎng)絡(luò)數(shù)據(jù)流,但是屬于該協(xié)議或者應(yīng)用的網(wǎng)絡(luò)數(shù)據(jù)分組。

        準(zhǔn)確率與召回率度量在分類中廣泛使用。準(zhǔn)確率可以看作精確性的度量,而召回率是完全性的度量,二者的計(jì)算如式(8)和式(9)所示。

        (8)

        (9)

        3.2 數(shù)據(jù)集

        本文的數(shù)據(jù)集采自某局域網(wǎng)的網(wǎng)絡(luò)出口。在2015年9月和11月的不同時(shí)間段,我們用GT[18]工具采集了6個(gè)數(shù)據(jù)集,包含數(shù)據(jù)包負(fù)載的完整信息。數(shù)據(jù)集的情況如表2所示。

        表2 P2P應(yīng)用數(shù)據(jù)集描述

        數(shù)據(jù)集通過GT進(jìn)行流量標(biāo)注,主要考慮國(guó)內(nèi)常見P2P網(wǎng)絡(luò)應(yīng)用流量的分類。因?yàn)楸疚闹袃H考慮P2P應(yīng)用私有協(xié)議的流量,所以過濾掉HTTP流量和DNS流量,對(duì)剩下的TCP和UDP流進(jìn)行分類。P2P應(yīng)用實(shí)驗(yàn)數(shù)據(jù)集分別是迅雷,uTorrent,QQ旋風(fēng),優(yōu)酷,暴風(fēng)影音,騰訊視頻,LeTV,PPTV,愛奇藝和搜狐視頻,它們是國(guó)內(nèi)最常見的P2P應(yīng)用。這里主要是下載類和多媒體類P2P應(yīng)用。從圖中看出,迅雷在各個(gè)數(shù)據(jù)集中流量較大,搜狐和暴風(fēng)流量相對(duì)較小。

        3.3 每條流開始的數(shù)據(jù)包數(shù)目實(shí)驗(yàn)

        本實(shí)驗(yàn)?zāi)康氖潜容^每條流取前N個(gè)數(shù)據(jù)包來(lái)統(tǒng)計(jì)流特征時(shí),TCP和UDP流量分類準(zhǔn)確率的變化,從而找出在P2P流量中N的合適值。使用NetMate提取P2P應(yīng)用流特征,以及工具Weka-3.7.13[19]和sklearn[20]來(lái)完成特征選擇和流量分類任務(wù)。

        本節(jié)通過單因子均值實(shí)驗(yàn),驗(yàn)證四種分類算法使用流開始的不同數(shù)據(jù)包數(shù)目統(tǒng)計(jì)特征分類的準(zhǔn)確性,決定選擇統(tǒng)計(jì)分析合適的數(shù)據(jù)包數(shù)目?;?.1節(jié)提出的流統(tǒng)計(jì)特征進(jìn)行分類和上節(jié)的數(shù)據(jù)集,運(yùn)用KNN(K最近鄰分類算法)、NB(樸素貝葉斯分類算法)、C4.5決策樹和SVM支持向量機(jī)算法對(duì)數(shù)據(jù)集data3進(jìn)行學(xué)習(xí)建立模型,然后對(duì)數(shù)據(jù)集data1、data2、data4進(jìn)行預(yù)測(cè),實(shí)驗(yàn)結(jié)果如表3所示。

        表3 每條流前N包特征分類準(zhǔn)確率 %

        采用單因子均值分析方法驗(yàn)證統(tǒng)計(jì)每條流開始不同數(shù)據(jù)包個(gè)數(shù)下分類平均準(zhǔn)確率,這里的單因子是指數(shù)據(jù)包個(gè)數(shù),它統(tǒng)計(jì)每條流開始的5到10個(gè)數(shù)據(jù)包,均值取的是不同測(cè)試集下不同分類算法分類準(zhǔn)確率的平均值。

        從結(jié)果可以看出,分類單因子數(shù)據(jù)包個(gè)數(shù)從5到9分類準(zhǔn)確率均值基本呈遞增趨勢(shì)。取每條流開始5個(gè)數(shù)據(jù)包進(jìn)行特征提取并使用四種算法分類時(shí),TCP流量平均準(zhǔn)備率是90.68%,UDP流量分類平均準(zhǔn)確率為89.11%;6個(gè)數(shù)據(jù)包時(shí),TCP流量平均分類準(zhǔn)確率是89.5%,UDP流量平均分類準(zhǔn)確率為89.81%;取7個(gè)、8個(gè)和9個(gè)數(shù)據(jù)包時(shí),TCP流量分類平均準(zhǔn)確率分別為91.65%,91.03%和92.46%,UDP流量分類平均準(zhǔn)確率分別是90.56%,90.44%和92.19%;當(dāng)取10個(gè)數(shù)據(jù)包時(shí),TCP分類平均準(zhǔn)確率是92.02%。UDP流量分類平均準(zhǔn)確率為91.79%??梢钥闯?,TCP和UDP流量分類統(tǒng)計(jì)流前9個(gè)數(shù)據(jù)包平均分類準(zhǔn)確率較高。

        因此在本文實(shí)驗(yàn)數(shù)據(jù)集上,針對(duì)P2P應(yīng)用流量選定每條流開始的前9個(gè)數(shù)據(jù)包來(lái)統(tǒng)計(jì)特征是最合適的。

        3.4 WMFA算法分類實(shí)驗(yàn)對(duì)比

        本節(jié)實(shí)驗(yàn)是使用上節(jié)結(jié)論,統(tǒng)計(jì)P2P應(yīng)用流量每條流前9個(gè)數(shù)據(jù)包的流特征,使用data3離線訓(xùn)練流基本特征,在線回放data1、data2、data4、data5和data6流量,進(jìn)行在線實(shí)時(shí)分類,采用WMFA算法和其他四種分類算法進(jìn)行實(shí)驗(yàn)對(duì)比,分類準(zhǔn)確率和召回率作為評(píng)估指標(biāo)。P2P應(yīng)用TCP分類準(zhǔn)確率對(duì)比結(jié)果如圖1所示,UDP流量分類準(zhǔn)確率實(shí)驗(yàn)結(jié)果如圖2所示。

        圖1 P2P應(yīng)用TCP流量分類準(zhǔn)確率結(jié)果

        圖2 P2P應(yīng)用UDP流量分類準(zhǔn)確率結(jié)果

        由圖1和圖2看出,面向主流P2P流量的在線實(shí)時(shí)分類,WMFA算法的分類準(zhǔn)確率高于其他四種分類算法,在5個(gè)測(cè)試集上分類準(zhǔn)確率平均能達(dá)到96%以上,而且分類準(zhǔn)確率比較穩(wěn)定,不受數(shù)據(jù)集大小的影響。對(duì)于其他四種分類算法,C4.5分類方法識(shí)別準(zhǔn)確率相對(duì)較高,在不同數(shù)據(jù)集上,分類比較穩(wěn)定,準(zhǔn)確率基本在93%左右。KNN和NB分類算法分類準(zhǔn)確率相對(duì)較低,TCP流量分類平均準(zhǔn)確率分別為91.08%和91.11%,UDP流量分類平均準(zhǔn)確率分別為90.87%和90.75%。KNN分類方法是給出測(cè)試元組才處理訓(xùn)練元組,計(jì)算復(fù)雜度高,空間復(fù)雜度高;樸素貝葉斯分類方法需要條件獨(dú)立性假設(shè),識(shí)別準(zhǔn)確率也相對(duì)較低,基本低于91.5%;SVM分類方法準(zhǔn)確率比樸素貝葉斯和K-NN都要高,比C4.5決策樹分類準(zhǔn)確率低,但是需要建模的時(shí)間最長(zhǎng)。

        針對(duì)P2P應(yīng)用TCP和UDP流量,5種分類算法的召回率實(shí)驗(yàn)結(jié)果如圖3和圖4所示。

        圖3 P2P應(yīng)用TCP流量分類召回率結(jié)果

        圖4 P2P應(yīng)用UDP流量分類召回率結(jié)果

        從實(shí)驗(yàn)結(jié)果看出,召回率類似于準(zhǔn)確率,WMFA召回率較高,無(wú)論是TCP流量還是UDP流量召回率平均在95%以上,尤其在測(cè)試集data2上的TCP流量達(dá)到了97.2%的召回率,整個(gè)召回率曲線比較平穩(wěn)。C4.5決策樹對(duì)P2P流量分類的召回率維持在91%到94%之間,TCP流量的召回率相對(duì)UDP較高,但不是很穩(wěn)定。SVM和NB分類平均召回率差不多,落在區(qū)間88%到92%之間,和C4.5算法類似,TCP流量的召回率相對(duì)UDP較高,NB分類召回率不穩(wěn)定。KNN分類算法平均召回率最低,平均召回率在85%到91%之間,浮動(dòng)比較大。

        針對(duì)主流P2P應(yīng)用流量的在線實(shí)時(shí)分類,WMFA算法的分類準(zhǔn)確率和召回率都高于其他四個(gè)分類算法。WMFA算法根據(jù)P2P通信原理特征,在一個(gè)時(shí)間窗口中實(shí)時(shí)檢測(cè)離群點(diǎn)。挖掘C4.5分類結(jié)果中誤識(shí)別的流,再將未識(shí)別的流和已識(shí)別的流進(jìn)行關(guān)聯(lián),明顯的提高了P2P整體流量分類準(zhǔn)確率和召回率。

        用data3作為訓(xùn)練集時(shí),data2和data5數(shù)據(jù)集作為測(cè)試集。選擇data2和data5是因?yàn)閐ata2測(cè)試集大小為1.08 GB,是5個(gè)測(cè)試集中最小的,而data5測(cè)試集大小是5.32 GB,是5個(gè)測(cè)試集中流量最大的,通過兩個(gè)流量大小差距最大的測(cè)試集來(lái)實(shí)驗(yàn),測(cè)試分類算法在不同大小應(yīng)用分類準(zhǔn)確率的穩(wěn)定性。我們對(duì)比5種分類算法識(shí)別各種P2P應(yīng)用TCP和UDP流量細(xì)粒度的準(zhǔn)確率。data2作為測(cè)試集時(shí),各個(gè)P2P應(yīng)用TCP和UDP分類準(zhǔn)確率結(jié)果如圖5和圖6所示。

        圖5 data2 TCP應(yīng)用分類準(zhǔn)確率

        圖6 data2 UDP應(yīng)用分類準(zhǔn)確率

        data2測(cè)試集的應(yīng)用分類結(jié)果可以看出,WMFA應(yīng)用分類在線分類的平均準(zhǔn)確率達(dá)到96%以上,在不同的P2P應(yīng)用中分類準(zhǔn)確率比較穩(wěn)定。具體到細(xì)粒度P2P應(yīng)用上,每個(gè)P2P應(yīng)用TCP和UDP流量分類都是WMFA分類準(zhǔn)確率最高。下載類的P2P應(yīng)用迅雷和uTorrent以及QQ旋風(fēng)流量的分類平均準(zhǔn)確率相對(duì)較低在95.5%左右,而音視頻類的P2P應(yīng)用比如優(yōu)酷和暴風(fēng)以及搜狐視頻分類準(zhǔn)確率較高,最低也有96%,有的達(dá)到97.87%的分類準(zhǔn)確率。相比其它4個(gè)分類算法,C4.5分類平均準(zhǔn)確率相對(duì)KNN和NB以及SVM都較高,應(yīng)用分類準(zhǔn)確率平均在93%,KNN和NB分類準(zhǔn)確率較低,應(yīng)用分類平均準(zhǔn)確率在90.8%左右??梢钥吹終NN分類算法,除了優(yōu)酷和暴風(fēng)分類準(zhǔn)確率平均在92%以上,其它應(yīng)用分類準(zhǔn)確率在80%到91%之間。data2測(cè)試集流量比較小,5種分類算法分類都比較穩(wěn)定,各個(gè)應(yīng)用分類準(zhǔn)確率浮動(dòng)不大。

        當(dāng)使用data5作為測(cè)試集時(shí),各個(gè)P2P應(yīng)用TCP和UDP分類準(zhǔn)確率結(jié)果如圖7和圖8所示。

        圖7 data5 TCP應(yīng)用分類準(zhǔn)確率

        圖8 data5 UDP應(yīng)用分類準(zhǔn)確率

        在線回放測(cè)試集data5和data2,從實(shí)驗(yàn)結(jié)果可以看出,兩個(gè)測(cè)試集的分類有一些差別。相同點(diǎn)在于,WMFA在線分類P2P應(yīng)用的平均準(zhǔn)確率也達(dá)到96%以上,在不同的P2P應(yīng)用中分類準(zhǔn)確率比較穩(wěn)定。不同點(diǎn)在于,對(duì)其他四種分類算法,分類平均準(zhǔn)確率有所下滑。對(duì)于TCP流量,NB分類算法下滑了2點(diǎn)百分點(diǎn),UDP流量分類中,KNN分類算法下滑了1.5個(gè)百分點(diǎn)。同時(shí)單獨(dú)從測(cè)試集data5中實(shí)驗(yàn)結(jié)果看出,針對(duì)P2P應(yīng)用WMFA算法分類比較穩(wěn)定,而其它四種算法分類準(zhǔn)確率浮動(dòng)比較大??梢钥闯觯琄NN分類算法在識(shí)別迅雷應(yīng)用時(shí)分類準(zhǔn)確率只有85.3%,騰訊視頻TCP流量分類準(zhǔn)確率也僅有86%,NB算法在識(shí)別UTorrent的TCP流量是分類準(zhǔn)確率僅有87.02%,其他應(yīng)用分類準(zhǔn)確率基本在89%以上。同時(shí),SVM分類準(zhǔn)確率從87.02%到94.48%,浮動(dòng)較大。這說明NB和K-NN以及SVM分類算法受數(shù)據(jù)集大小的影響。

        綜合來(lái)看,針對(duì)主流P2P應(yīng)用流量在線分類,WMFA算法在P2P應(yīng)用分類準(zhǔn)確率上明顯高于其他分類算法,分類平均準(zhǔn)確率達(dá)到96%以上,而且分類比較穩(wěn)定,不受數(shù)據(jù)集大小的影響。WMFA算法中考慮了P2P應(yīng)用通信原理,在分類中挖掘出分類器誤識(shí)別的應(yīng)用流,并采用時(shí)空關(guān)聯(lián)方法進(jìn)行多流之間的關(guān)聯(lián),最終達(dá)到分類準(zhǔn)確率和召回率的明顯提升。

        4 結(jié) 語(yǔ)

        隨著P2P網(wǎng)絡(luò)流量的日益復(fù)雜多樣,有效的P2P應(yīng)用分類有利于科學(xué)管理規(guī)劃網(wǎng)絡(luò)流量。本文面向P2P主流應(yīng)用細(xì)粒度在線實(shí)時(shí)分類提出基于滑動(dòng)窗口多流關(guān)聯(lián)的算法WMFA,實(shí)時(shí)粒度是一個(gè)時(shí)間單位窗口,有效地提升了P2P應(yīng)用流量分類的準(zhǔn)確率和召回率。結(jié)合P2P應(yīng)用通信原理,提取出P2P應(yīng)用流量特征,可以有效的減少流特征的數(shù)量。在性能方面,沒有計(jì)算整個(gè)流的特征,而是通過計(jì)算每個(gè)流的前9個(gè)數(shù)據(jù)包來(lái)提升分類的性能。實(shí)驗(yàn)結(jié)果表明WMFA算法針對(duì)常見P2P應(yīng)用在線實(shí)時(shí)分類的平均準(zhǔn)確率達(dá)到96%以上,相比其他分類方法分類準(zhǔn)確率平均提高約3%,最高能提高7%,分類穩(wěn)定性較高。

        本文的主要貢獻(xiàn)在于:

        (1) 有效地減少了P2P應(yīng)用流統(tǒng)計(jì)特征維數(shù)。針對(duì)P2P應(yīng)用,在Moore流特征的基礎(chǔ)上,本文結(jié)合P2P網(wǎng)絡(luò)應(yīng)用通信原理,提取P2P應(yīng)用特有的流屬性,包括流的窗口屬性和前三個(gè)數(shù)據(jù)包負(fù)載長(zhǎng)度,將流特征維數(shù)降低至10維,有效的減少了流特征的維數(shù)。

        (2) P2P應(yīng)用流量統(tǒng)計(jì)特征提取只需考慮流前9個(gè)數(shù)據(jù)包,以往的研究一般是考慮從整條流提取流統(tǒng)計(jì)特征,本文僅考慮P2P應(yīng)用每條流前N包的統(tǒng)計(jì)特征,并通過實(shí)驗(yàn)確定N取9是最合適的,通過減少計(jì)算每條流開始的數(shù)據(jù)包數(shù)目,有效提高了分類性能。

        (3) 針對(duì)主流P2P應(yīng)用流量在線實(shí)時(shí)分類提出WMFA算法,有效的提升了P2P應(yīng)用流量分類準(zhǔn)確率和召回率。P2P應(yīng)用流量分類達(dá)到了較高的分類準(zhǔn)確率(平均在96%以上)。

        [1]MooreAW,PapagiannakiKP.Towardtheaccurateidentificationofnetworkapplications[C]//Proceedingsofthe6thInternationalWorkshoponPassiveandActiveMeasurement(PAM2005),Boston,MA,USA,2005:41-54.

        [2]DewesC,WichmannA,FeldmannA.AnanalysisofInternetchatsystems[C]//Proceedingsofthe3rdACMSIGCOMMConferenceonInternetMeasurement.NewYork:ACMPress,2003:51-64.

        [3]MooreA,ZuevD,CroganM.Discriminatorsforuseinflow-basedclassification[R].RR-05-13,DepartmentofComputerScienceResearchReports,QueenMaryUniversityofLondon,2005.

        [4]MadhukarA,WilliamsonC.AlongitudinalstudyofP2Ptrafficclassification[C]//Modeling,AnalysisandSimulationofComputerandTelecommunicationSystems,2006 14thIEEEInternationalSymposiumon.IEEE,2006:179-188.

        [5]RoughanM,SenS,SpatscheckO,etal.Class-of-servicemappingforQoS:astatisticalsignature-basedapproachtoIPtrafficclassification[C]//Proceedingsofthe4thACMSIGCOMMConferenceonInternetMeasurement.ACM,2004:135-148.

        [6]SenS,SpatscheckO,WangD.Accurate,scalablein-networkidentificationofp2ptrafficusingapplicationsignatures[C]//Proceedingsofthe13thInternationalConferenceonWorldWideWeb.ACM,2004:512-521.

        [7]LiuJ,LiuF,HeD.TheidentificationforP2PThundertrafficbasedondeepflowidentification[C]//CloudComputingandIntelligentSystems(CCIS),2012IEEE2ndInternationalConferenceon.IEEE,2012:504-507.

        [8]KaragiannisT,PapagiannakiK,FaloutsosM.BLINC:multileveltrafficclassificationinthedark[J].ACMSIGCOMMComputerCommunicationReview.ACM,2005,35(4):229-240.

        [9]CollinsMP,ReiterMK.Findingpeer-to-peerfile-sharingusingcoarsenetworkbehaviors[C]//Proceedingsofthe11thEuropeanConferenceonResearchinComputerSecurity.Springer,2006:1-17.

        [10]WangD,ZhangL,YuanZ,etal.CharacterizingApplicationBehaviorsforclassifyingP2Ptraffic[C]//Computing,NetworkingandCommunications(ICNC),2014InternationalConferenceon.IEEE,2014:21-25.

        [11]ZuevD,MooreAW.Trafficclassificationusingastatisticalapproach[C]//Proceedingsofthe6thInternationalWorkshoponPassiveandActiveMeasurement(PAM2005).Springer,2005:321-324.

        [12]HuangS,ChenK,LiuC,etal.Astatistical-feature-basedapproachtointernettrafficclassificationusingmachinelearning[C]//UltraModernTelecommunications&Workshops,2009InternationalConferenceon.IEEE,2009:1-6.

        [13] 徐鵬,林森.基于C4. 5決策樹的流量分類方法[J].軟件學(xué)報(bào),2009,20(10):2692-2704.

        [14] 周文剛,陳雷霆,董仕.基于譜聚類的網(wǎng)絡(luò)流量分類識(shí)別算法[J].電子測(cè)量與儀器學(xué)報(bào),2013,27(12):1114-1119.

        [15] Patel S,Sondhi J,Motvani A,et al.Improved Intrusion Detection Technique based on Feature Reduction and Classification using Support Vector Machine and Particle of Swarm Optimization[J].International Journal of Computer Applications,2014,100(18):34-37.

        [16] Hong Y,Huang C,Nandy B,et al.Iterative-tuning support vector machine for network traffic classification[C]//Integrated Network Management (IM),2015 IFIP/IEEE International Symposium on.IEEE,2015:458-466.

        [17] 潘吳斌,程光,郭曉軍,等.基于選擇性集成策略的嵌入式網(wǎng)絡(luò)流特征選擇[J].計(jì)算機(jī)學(xué)報(bào),2014,37(10):2128-2138.

        [18] Gringoli F,Salgarelli L,Dusi M,et al.GT:picking up the truth from the ground for internet traffic[J].ACM SIGCOMM Computer Communication Review,2009,39(5):12-18.

        [19] Hall M,Frank E,Holmes G,et al.The WEKA data mining software:an update[J].ACM SIGKDD Explorations Newsletter,2009,11(1):10-18.

        [20] Buitinck L,Louppe G,Blondel M,et al.API design for machine learning software:experiences from the scikit-learn project[DB].arXiv preprint arXiv:1309.0238,2013.

        RESEARCH ON EFFICIENT CLASSIFICATION METHOD OF P2P APPLICATION TRAFFIC

        Chen Jinfu1,2Zhao Hui3*Chang Peng1Zhang Yongzheng1

        1(InstituteofInformationEngineering,ChineseAcademyofSciences,Beijing100093,China)2(UniversityoftheChineseAcademyofScience,Beijing100049,China)3(NationalComputerNetworkEmergencyResponseTechnicalTeam/CoordinationCenterofChina,Beijing100029,China)

        Network application has been showing a lot of categories because of the widespread use of Internet applications, especially P2P applications traffic growth. Traditional traffic classification and application identification methods can’t considerable reach stable application classification precision. In order to improve classification accuracy and stability of P2P application traffic and manage network scientifically, this paper proposes WMFA (sliding window multi-flow association) algorithm. Using P2P application traffic statistics feature by reducing the flow statistics feature dimension and reducing the number of packets in each network traffic flow, C4.5 algorithm is used to classify P2P applications. We use WMFA algorithm to mine misrecognized flows, and carry on the multi-flow association on the second recognition to improve the P2P application traffic classification accuracy. Experimental results show that with a decrease in P2P traffic flow characteristics dimension and reducing the number of each flow data packets, WMFA algorithm average classification precision for the domestic mainstream P2P application is more than 96%, the average rate of accuracy than the existing method of 3%.

        P2P traffic classification Application recognition WMFA algorithm Multi-flow association

        2016-01-07。國(guó)家自然科學(xué)基金項(xiàng)目(61572496);國(guó)家高技術(shù)研究發(fā)展計(jì)劃基金項(xiàng)目(2013AA014703)。陳金富,碩士生,主研領(lǐng)域:網(wǎng)絡(luò)安全。趙慧,工程師。常鵬, 工程師。張永錚,研究員。

        TP3

        A

        10.3969/j.issn.1000-386x.2017.04.020

        猜你喜歡
        數(shù)據(jù)包端口準(zhǔn)確率
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        一種端口故障的解決方案
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        SmartSniff
        高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        端口阻塞與優(yōu)先級(jí)
        初識(shí)電腦端口
        電腦迷(2015年6期)2015-05-30 08:52:42
        生成樹協(xié)議實(shí)例探討
        基于Libpcap的網(wǎng)絡(luò)數(shù)據(jù)包捕獲器的設(shè)計(jì)與實(shí)現(xiàn)
        天天做天天躁天天躁| av色欲无码人妻中文字幕| 香港aa三级久久三级| 99国产精品无码| 国产剧情av麻豆香蕉精品| 9999精品视频| 老太脱裤让老头玩ⅹxxxx| 欧美一级人与嘼视频免费播放| 久久精品国产亚洲AV香蕉吃奶| 色视频日本一区二区三区| 亚洲一品道一区二区三区| 人妻少妇被粗大爽.9797pw| 国产农村乱辈无码| 亚洲另类自拍丝袜第五页| 国产精品深夜福利免费观看| 熟女少妇丰满一区二区| 极品夫妻一区二区三区| 国产亚洲欧美精品永久| 亚洲精品久久| 国产熟妇搡bbbb搡bb七区| 亚洲欧美国产精品久久久| 福利视频偷拍一区二区| 国语自产视频在线| 天天鲁在视频在线观看| 专区国产精品第一页| 国产免费一区二区av| 日韩精品一区二区亚洲观看av| 日日摸天天碰中文字幕你懂的| 最近日本免费观看高清视频| 国产一国产一级新婚之夜| 在线免费观看亚洲毛片| 国产自拍在线观看视频| 中文字幕人妻无码视频| 国产午夜精品一区二区三区不卡| 人妻在线中文字幕| 国产精品黄色av网站| 97精品一区二区三区| 精品少妇无码av无码专区| 亚洲av无码资源在线观看| 国产国拍亚洲精品永久69| 亚洲情久久久精品黄色|