趙小歡,夏靖波,連向磊,李巧麗
(1.空軍工程大學(xué)信息與導(dǎo)航學(xué)院,西安710071;2.解放軍71155部隊(duì),山東威海264200;3.解放軍94326部隊(duì),濟(jì)南250023)
基于AdaBoost的組合網(wǎng)絡(luò)流量分類方法?
趙小歡1,??,夏靖波1,連向磊2,李巧麗3
(1.空軍工程大學(xué)信息與導(dǎo)航學(xué)院,西安710071;2.解放軍71155部隊(duì),山東威海264200;3.解放軍94326部隊(duì),濟(jì)南250023)
針對單一分類方法在訓(xùn)練樣本不足的情況下對于小樣本網(wǎng)絡(luò)流分類效果差的特點(diǎn),通過自適應(yīng)增強(qiáng)(Adaptive Boosting,AdaBoost)算法進(jìn)行流量分類。算法首先使用CFS(Correlation-based Feature Selection)特征選擇方法從大量網(wǎng)絡(luò)流特征中提取出少量高效的分類特征,在此基礎(chǔ)上,通過AdaBoost算法組合決策樹、關(guān)聯(lián)規(guī)則和貝葉斯等5種單一分類方法實(shí)現(xiàn)流量分類。實(shí)際網(wǎng)絡(luò)流量數(shù)據(jù)測試表明,基于AdaBoost的組合分類方法的準(zhǔn)確率在所選的幾種算法中是最高的,其能夠達(dá)到98.92%,且相對于單一的分類算法,組合流量分類方法對于小樣本網(wǎng)絡(luò)流的分類效果具有明顯提升。
網(wǎng)絡(luò)流;流量分類;相關(guān)特征選擇;自適應(yīng)增強(qiáng)算法;組合分類器
隨著近年來互聯(lián)網(wǎng)的不斷發(fā)展,社交網(wǎng)絡(luò)、在線視頻、電子商務(wù)、即時(shí)通信、微博、P2P應(yīng)用等多種新興業(yè)務(wù)不斷涌現(xiàn)并迅速占據(jù)互聯(lián)網(wǎng)中主流應(yīng)用位置,互聯(lián)網(wǎng)流量在組成和性質(zhì)上發(fā)生了較大的變化,網(wǎng)絡(luò)的可控可管性變得越來越差。由于不同的網(wǎng)絡(luò)應(yīng)用對于帶寬、時(shí)延等指標(biāo)的需求不同,不同等級(jí)用戶占用的網(wǎng)絡(luò)資源不同,僅通過網(wǎng)絡(luò)層和傳輸層流量實(shí)現(xiàn)網(wǎng)絡(luò)流量管理是不夠充分的,而需要將網(wǎng)絡(luò)流量映射到特定的業(yè)務(wù),根據(jù)網(wǎng)絡(luò)業(yè)務(wù)實(shí)現(xiàn)網(wǎng)絡(luò)流量的精細(xì)劃分、分級(jí)管理和差異化服務(wù)。同時(shí),精確的流量分類對網(wǎng)絡(luò)安全、網(wǎng)絡(luò)計(jì)費(fèi)、網(wǎng)絡(luò)規(guī)劃等也具有重要的意義。
為了應(yīng)對互聯(lián)網(wǎng)流量數(shù)據(jù)龐大、結(jié)構(gòu)復(fù)雜、屬性動(dòng)態(tài)變化的特點(diǎn),利用機(jī)器學(xué)習(xí)方法挖掘流量數(shù)據(jù)從而實(shí)現(xiàn)流量分類成為網(wǎng)絡(luò)流量分類的研究熱點(diǎn),目前已有較多文獻(xiàn)將多種機(jī)器學(xué)習(xí)算法引入到網(wǎng)絡(luò)流量分類中。Thuy在文獻(xiàn)[1]中將網(wǎng)絡(luò)流量分類方法分為無監(jiān)督算法(聚類算法)、有監(jiān)督算法和半監(jiān)督算法3類,并詳細(xì)綜述了2004~2007年間網(wǎng)絡(luò)流量分類領(lǐng)域的18項(xiàng)重要工作,最后從時(shí)間復(fù)雜度與持續(xù)分類能力、方向無關(guān)性、存儲(chǔ)與計(jì)算復(fù)雜度、健壯性與魯棒性等方面探討了多種流量分類方法在實(shí)際應(yīng)用時(shí)面臨的挑戰(zhàn)。文獻(xiàn)[2]選取日本、韓國和美國的7組流量數(shù)據(jù)并通過實(shí)驗(yàn)全面對比了基于端口、基于主機(jī)行為和基于流特征的流量分類方法,文中指出各種流量分類方法均存在優(yōu)勢及不足,并且在所對比的幾種機(jī)器學(xué)習(xí)分類方法中,SVM算法具有最高的準(zhǔn)確性和魯棒性。文獻(xiàn)[3]通過對比C4.5、Naive Bayes、L7方法在相同時(shí)間段不同觀測點(diǎn)及不同時(shí)間段同一觀測點(diǎn)兩種情況下的流量分類效果,指出C4.5方法具有良好的時(shí)間空間適應(yīng)性。文獻(xiàn)[4]指出現(xiàn)有的機(jī)器學(xué)習(xí)流量分類方法只是在特定的條件和假設(shè)下具有良好的分類效果,在多種網(wǎng)絡(luò)環(huán)境及不同粒度的情況下,沒有哪一種機(jī)器學(xué)習(xí)算法能夠始終比其他算法分類效果好,文中通過最大似然組合、D-S證據(jù)理論、增強(qiáng)型D-S證據(jù)理論等理論融合流量分類中常見的幾種分類算法,改善了網(wǎng)絡(luò)流量分類的效果和魯棒性。文獻(xiàn)[5]也指出多種分類方法的有效組合是網(wǎng)絡(luò)流量分類發(fā)展的一個(gè)重要方向。
本文通過實(shí)際網(wǎng)絡(luò)流量數(shù)據(jù)對比了流量分類中常見的NBTree、PART、C4.5、B-Net(Bayes Net)、BKernel(Bayes Kernel)和SVM 6種分類方法,發(fā)現(xiàn)各種單一分類算法在訓(xùn)練樣本不足的情況下對于小樣本網(wǎng)絡(luò)流的分類效果較差,基于此,本文采用基于AdaBoost(Adaptive Boosting)的組合分類方法組合決策樹、關(guān)聯(lián)規(guī)則和貝葉斯等5種方法進(jìn)行流量分類。實(shí)驗(yàn)結(jié)果表明,相對于單一分類算法,基于AdaBoost的組合分類方法具有較高的準(zhǔn)確性,算法在一定程度上能夠有效降低單一分類算法過于依賴特定假設(shè)分布的要求,算法具有更好的魯棒性和適用性。
采用機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)網(wǎng)絡(luò)流量分類主要包括兩方面的工作:首先,需要按照不同粒度(常見的粒度包括TCP Connection、Flows、Biflows、Services、Hosts等)將網(wǎng)絡(luò)流量歸并成網(wǎng)絡(luò)流,從網(wǎng)絡(luò)流中選擇合適的流屬性構(gòu)建分類特征向量;其次,需要選擇合適的機(jī)器學(xué)習(xí)分類算法實(shí)現(xiàn)網(wǎng)絡(luò)流量分類。本文采用的基于AdaBoost的組合網(wǎng)絡(luò)流量分類方法的框架如圖1所示。
圖1 AdaBoost組合分類框架Fig.1 Framework of ensemble classification based on AdaBoost
2.1 網(wǎng)絡(luò)流量特征選擇
網(wǎng)絡(luò)流量分類特征的選擇對于機(jī)器學(xué)習(xí)分類方法至關(guān)重要,過度相關(guān)或冗余的特征會(huì)對機(jī)器學(xué)習(xí)算法的性能造成負(fù)面影響,同時(shí)流量特征的增加使得機(jī)器學(xué)習(xí)算法需要的空間和時(shí)間復(fù)雜度急劇增加,因此選擇足夠少、但能夠提供高效分類信息的特征子集十分必要[1]。
特征選擇方法主要分為兩種模式:過濾器方式和封裝器方式。過濾器方式利用數(shù)據(jù)本身的特征作為特征子集的度量指標(biāo),而封裝器方式利用機(jī)器學(xué)習(xí)算法的準(zhǔn)確率作為特征子集的度量指標(biāo)。考慮到機(jī)器學(xué)習(xí)算法的性能要求,按照Moore等在文獻(xiàn)[6]中定義的網(wǎng)絡(luò)流特征,本文首先采用NetMate[7]軟件從網(wǎng)絡(luò)流量中提取出TCP流特征,然后采用基于CFS(Correlation-based Feature Selection)的過濾器方式從大量冗余流特征中選擇合適的特征子集。
CFS方法是一種經(jīng)典的可以消除無關(guān)重復(fù)變量的基于過濾器方式的特征選擇方法,使用如下變量子集評估方法給變量子集排序:
其中,Merits表示一個(gè)包含k個(gè)特征的特征子集S的評價(jià),ˉrcf表示平均特征類別相關(guān)系數(shù)(f∈S),ˉrff表示平均特征特征相關(guān)系數(shù)。通過該評價(jià)指標(biāo)能夠有效地給出特征對于分類的貢獻(xiàn)度,從而清除貢獻(xiàn)度低的特征。表1描述了基于CFS方式選擇的TCP流分類時(shí)使用的流特征。
表1 TCP流特征描述Table 1 Characteristics of TCP flows
2.2 AdaBoost組合流量分類方法
根據(jù)“沒有免費(fèi)的午餐”法則可知,沒有一種學(xué)習(xí)算法可以在任何領(lǐng)域總是產(chǎn)生最準(zhǔn)確的學(xué)習(xí)器[8]。每一種機(jī)器學(xué)習(xí)算法都需要構(gòu)建一個(gè)基于一組假設(shè)的某種模型,當(dāng)假設(shè)在數(shù)據(jù)上不成立時(shí),這種歸納偏倚將導(dǎo)致誤差。學(xué)習(xí)是一個(gè)不適定問題,并且在有限的數(shù)據(jù)上,每種學(xué)習(xí)算法都收斂到不同的解,并在不同的情況下失效,可以通過性能調(diào)節(jié)使一個(gè)學(xué)習(xí)算法在確認(rèn)集上達(dá)到盡可能最高的準(zhǔn)確率,但即使對最好的學(xué)習(xí)算法也存在實(shí)例使其不能足夠準(zhǔn)確。同時(shí)由于不同地域、不同鏈路、不同應(yīng)用產(chǎn)生的網(wǎng)絡(luò)流量千差萬別,文獻(xiàn)[3]通過實(shí)驗(yàn)也指出即使是在特定時(shí)間、特定流量數(shù)據(jù)上性能最優(yōu)的分類算法,當(dāng)其適用于更長時(shí)間及不同地域的流量時(shí),算法的分類準(zhǔn)確性迅速降低,因此期望得到一種普遍適用的性能最優(yōu)的網(wǎng)絡(luò)流量分類算法是很難實(shí)現(xiàn)的。
通過多個(gè)單分類器組合能夠克服單一分類器中對于某些實(shí)例分類效果差的問題,從而提升系統(tǒng)的分類精度。多分類器組合有兩種常見類型:并聯(lián)組合和串聯(lián)組合。裝袋法(bagging)和提升法(boosting)是并聯(lián)與串聯(lián)兩種組合的典型代表。在Boosting算法中,首先需要根據(jù)已有的訓(xùn)練樣本集選擇一個(gè)準(zhǔn)確率比平均性能要好的基分類器,分類器對樣本正確分類后要降低該樣本的權(quán)重,而錯(cuò)誤分類時(shí),則要增加錯(cuò)誤分類樣本的權(quán)重,而后加入的基分類器著重處理比較難的訓(xùn)練樣本,最終得到一個(gè)分類準(zhǔn)確率較高的組合分類器。
AdaBoost算法是Freund和Schapire根據(jù)在線分配算法提出的一種利用大量分類能力一般的基分類器通過一定方法組合成分類能力強(qiáng)的組合分類器的方法,組合分類器為基分類器加權(quán)投票的線性組合。AdaBoost算法的弱分類器組合方法和訓(xùn)練方法的有效性已經(jīng)得到了證明并有大量應(yīng)用驗(yàn)證,其中基于AdaBoost算法的人臉檢測方法已經(jīng)成為目前人臉檢測最成功的方法之一[9]。本文選用AdBoost M1算法處理網(wǎng)絡(luò)流量分類問題,它可以處理兩種類別以上的分類問題。基于AdaBoost的組合流量分類算法的描述如下。
給定訓(xùn)練集
其中,xi表示網(wǎng)絡(luò)流對應(yīng)的特征向量,yi表示網(wǎng)絡(luò)流對應(yīng)的應(yīng)用類型,i=1,2,…,N,yi∈{1,2,…,J},令T表示基分類器的數(shù)目,令ht(x)表示第t個(gè)基分類器,其中t=1,…,T,令mt表示訓(xùn)練第t個(gè)基分類器ht(x)時(shí)使用的分類方法,其中分類方法包括C4.5、B-Kernel、PART、NBTree、B-Net 5種類型。
(1)對于t=1,初始化樣本權(quán)值Dt(i)=1/N,i=1,2,…,N,以概率分布Dt(i)從訓(xùn)練樣本集L中可放回重復(fù)抽樣得到樣本數(shù)為N的新的訓(xùn)練集L1,
使用分類方法m1對訓(xùn)練集L1進(jìn)行訓(xùn)練得到基分類器h1(x),應(yīng)用基分類器h1(x)對原始樣本集L上所有樣本進(jìn)行分類,計(jì)算錯(cuò)誤率
以概率分布Dt(i)從原始樣本集L中可放回重復(fù)抽樣得到樣本數(shù)為N的新的訓(xùn)練集Lt,使用分類方法mt對訓(xùn)練集Lt進(jìn)行訓(xùn)練得到基分類器ht(x),應(yīng)用基分類器ht(x)對原始樣本集L上所有樣本進(jìn)行分類,計(jì)算錯(cuò)誤率若εt≥0.5,T=t-1,結(jié)束;否則
(3)組合J個(gè)基分類器ht(x)得到組合分類器H(x),對于xi,使得
3.1 實(shí)驗(yàn)數(shù)據(jù)基本信息
早期的網(wǎng)絡(luò)流量分類方法中大部分采用的均是2003年的Moore數(shù)據(jù)集[6],主要原因是出于隱私的考慮,我們能夠得到的網(wǎng)絡(luò)流量基本上都去除了有效載荷,并且IP包頭信息也采用了匿名化技術(shù),導(dǎo)致研究者無法有效地獲得各網(wǎng)絡(luò)流對應(yīng)的應(yīng)用類型來評估自己的分類方法。一種可能的解決方案是網(wǎng)絡(luò)流量發(fā)布者在匿名處理流量之前先采用特定的流量標(biāo)記工具(如L7-Filter、GVTS(Ground Truth Verification System))標(biāo)記好網(wǎng)絡(luò)流對應(yīng)的應(yīng)用類型,然后將匿名化的流量及對應(yīng)的應(yīng)用類型共同發(fā)布,如UNIBS[10]數(shù)據(jù)庫就提供了部分標(biāo)記好的網(wǎng)絡(luò)流量數(shù)據(jù)。由于Moore數(shù)據(jù)集采集的時(shí)間較早,許多新出現(xiàn)的網(wǎng)絡(luò)應(yīng)用在Moore數(shù)據(jù)集中并沒有體現(xiàn),基于此,本文選用文獻(xiàn)[3]提供的一條吉比特鏈路2007年的流量數(shù)據(jù)集,該數(shù)據(jù)集為劍橋大學(xué)計(jì)算機(jī)實(shí)驗(yàn)室所提供,且該數(shù)據(jù)集提供了詳細(xì)的應(yīng)用類型標(biāo)記信息以供研究者評估自己的算法。從數(shù)據(jù)集中提取30 min的TCP流評估流量分類方法,其中TCP流對應(yīng)的分類結(jié)果、流數(shù)量和具體的網(wǎng)絡(luò)應(yīng)用情況如表2所示。
表2 TCP流組成Table 2 Composition of TCP flows
3.2 分類結(jié)果及對比
本文選用C4.5、NBTree、PART、B-Net、B-Kernel、SVM和AdaBoost組合分類方法共7種算法測試分類效果。其中C4.5與NBTree分類方法為基于決策樹的算法,PART分類方法為基于關(guān)聯(lián)規(guī)則的算法,B-Net與B-Kernel分類方法為基于貝葉斯原理的算法,SVM支持向量機(jī)方法通過非線性映射和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則實(shí)現(xiàn)分類,且SVM類型選為CSVM,核函數(shù)選為徑向基RBF函數(shù),AdaBoost方法通過AdBoost M1算法組合除SVM外其余5種分類算法實(shí)現(xiàn)分類(通過選擇不同原理、互有差異的分類方法構(gòu)造基分類器,有利于實(shí)現(xiàn)各種方法的優(yōu)勢互補(bǔ),提高組合分類模型的分類效果)。本文采用數(shù)據(jù)挖掘軟件Weka[11]實(shí)現(xiàn)6種單一的分類算法,而AdaBoost組合分類方法通過Matlab和Weka軟件共同實(shí)現(xiàn)。
由于在實(shí)際的網(wǎng)絡(luò)環(huán)境中獲取網(wǎng)絡(luò)流對應(yīng)的應(yīng)用類型是比較困難的,為了能夠更加貼近實(shí)際網(wǎng)絡(luò)環(huán)境,本文選用小訓(xùn)練樣本集測試流量分類效果。首先從整個(gè)數(shù)據(jù)集共248 362條TCP流中無放回等概率抽取1%共2 483條TCP流構(gòu)成訓(xùn)練集,以整個(gè)TCP數(shù)據(jù)集作為測試集,訓(xùn)練集中各種應(yīng)用類型對應(yīng)的流數(shù)如表2所示。同時(shí)采用AdaBoost算法計(jì)算出的組合分類方法中各基分類器的權(quán)值,如表3所示。
表3 AdaBoost方法基分類器權(quán)值Table 3 Weights of base classifiers for AdaBoost
表4顯示了7種分類算法在測試集上的分類效果,其中各種應(yīng)用類型對應(yīng)的單元格格式為:準(zhǔn)確率(Precision)/召回率(Recall),例如采用NBTree算法分類WWW類型得到的結(jié)果為0.996/0.998,該分類結(jié)果表示:分類結(jié)果為WWW的流中有99.6%的流是正確的WWW流,同時(shí)測試集全部WWW流中有99.8%的流被正確分類為WWW流。
表4 TCP流分類效果對比Table 4 Comparison of classification accuracy of TCP flows
從表4中可以看出,即使是在1%的抽樣率的情況下,7種算法的總體流分類準(zhǔn)確率仍然較高,效果最差的SVM算法其總體流準(zhǔn)確率也達(dá)到了85.723%,同時(shí)表中幾種單一的分類算法對于不同的應(yīng)用類型分類效果高低不一,很難準(zhǔn)確地評判出哪種算法優(yōu)于其他算法。各種單一分類算法對于訓(xùn)練集中小樣本網(wǎng)絡(luò)流的分類效果較差,對于訓(xùn)練集中流數(shù)為1的MULTIMEDIA流,NBTree、PART、C4.5 3種算法完全無法識(shí)別出TCP流測試集中對應(yīng)的應(yīng)用類型。
值得注意的是,與文獻(xiàn)[2]得出SVM算法具有最高準(zhǔn)確性和魯棒性的結(jié)論不同,本文實(shí)驗(yàn)中SVM算法的流準(zhǔn)確率是幾種單一分類算法中最低的。對于BULK、CHAT、MULTIMEDIA、SERVICES、INTERACTIVE、GRID 6種小樣本網(wǎng)絡(luò)流,SVM算法在測試集中檢測到的流數(shù)與訓(xùn)練集中檢測到的流數(shù)完全相等,這意味著SVM算法完全沒有識(shí)別出測試集中新出現(xiàn)的BULK、CHAT等6種應(yīng)用流??梢酝茢喑鯯VM算法在訓(xùn)練樣本分布不均衡的情況下為了尋求最優(yōu)分類平面導(dǎo)致出現(xiàn)了過擬合(overfitting)的現(xiàn)象。同時(shí),由于SVM算法的時(shí)間復(fù)雜度明顯高于其他5種單一分類算法,因此組合分類方法中并未采用SVM算法構(gòu)造基分類器。
通過對比各種單一分類算法以及組合分類方法可以看出,相比于單一的分類算法,基于AdaBoost的組合分類方法的分類準(zhǔn)確率在各種算法中是最高的,算法的總體流準(zhǔn)確率達(dá)到98.92%,算法的分類效果要優(yōu)于文獻(xiàn)[2-3]采用的SVM和C4.5分類方法;同時(shí)對于各種小樣本網(wǎng)絡(luò)流,如訓(xùn)練流數(shù)為1的MULTIMEDIA流及訓(xùn)練流數(shù)為4的SERVICES流等,AdaBoost組合分類方法的分類效果相對于單一分類方法具有明顯的提升。
由于數(shù)據(jù)分布不均衡是網(wǎng)絡(luò)流量的一個(gè)重要特征,在各種情況下獲取的流量數(shù)據(jù)中必然存在部分網(wǎng)絡(luò)流的規(guī)模遠(yuǎn)大于其他網(wǎng)絡(luò)流的現(xiàn)象,而各種單一分類方法對于小樣本網(wǎng)絡(luò)流的分類效果波動(dòng)較大,基于AdaBoost的組合流量分類方法通過賦予前一次分類錯(cuò)誤的樣本更高的權(quán)重實(shí)現(xiàn)多個(gè)基分類器的加權(quán)組合,算法能夠取得更加穩(wěn)定的分類效果。因此AdaBoost組合流量分類方法能夠在一定程度上克服單一分類算法過于依賴特定數(shù)據(jù)分布的缺點(diǎn),算法具有更好的實(shí)用性和魯棒性。
隨著互聯(lián)網(wǎng)規(guī)模的不斷擴(kuò)大和新興業(yè)務(wù)的持續(xù)涌現(xiàn),互聯(lián)網(wǎng)的可控可管性越來越差,精確的網(wǎng)絡(luò)流量分類是實(shí)現(xiàn)網(wǎng)絡(luò)可控可管的關(guān)鍵,同時(shí)流量分類對于網(wǎng)絡(luò)性能、網(wǎng)絡(luò)安全、網(wǎng)絡(luò)計(jì)費(fèi)、網(wǎng)絡(luò)規(guī)劃等也具有重要的作用?;跈C(jī)器學(xué)習(xí)的流量分類方法是近年來網(wǎng)絡(luò)流量分類領(lǐng)域的研究熱點(diǎn)之一,由于傳統(tǒng)的單一機(jī)器學(xué)習(xí)算法都需要構(gòu)建基于特定假設(shè)的某種模型,不能滿足復(fù)雜多變的網(wǎng)絡(luò)流量的分類要求,本文采用基于AdaBoost的組合流量分類方法組合決策樹、關(guān)聯(lián)規(guī)則和貝葉斯共5種方法進(jìn)行流量分類,算法在1%訓(xùn)練樣本的情況下能夠正確分類出測試集中98.92%的網(wǎng)絡(luò)流,算法的分類效果優(yōu)于常用的單一流量分類算法,同時(shí)AdaBoost組合流量分類方法能夠在一定程度上克服單一分類算法對于小樣本網(wǎng)絡(luò)流分類效果差的問題,算法對于待分類數(shù)據(jù)的分布要求低,具有更廣泛的實(shí)用性和更好的魯棒性。
然而AdaBoost組合流量分類方法同樣存在小樣本網(wǎng)絡(luò)流分類效果低于大樣本網(wǎng)絡(luò)流的問題,這是由于網(wǎng)絡(luò)流分布的不均衡以及多分類AdaBoost算法僅考慮錯(cuò)分代價(jià)總和最小而不區(qū)分不同類型代價(jià)的差異所致。為進(jìn)一步提高小樣本網(wǎng)絡(luò)流的分類效果,下一步可考慮引入重抽樣技術(shù)使得訓(xùn)練樣本集的不平衡度降低,或者對于某些關(guān)鍵的少數(shù)類引入較大的加權(quán)系數(shù)使得這些類被錯(cuò)分時(shí)產(chǎn)生較大的代價(jià)來改進(jìn)AdaBoost組合分類方法。
[1]Nguyen T T,Armitage G.A Survey of Techniques for Internet Traffic Classification using Machine Learning[J].IEEE Communications Surveys&Tutorials,2008,10(4):56-76.
[2]Kim H,Claffy K C,F(xiàn)omenkov M,et al.Internet traffic classification demystified:Myths,caveats,and the best practices[C]//Proceedings of 2008 ACM CoNEXT Conference.New York:ACM,2008:1-12.
[3]Li Wei,Canini M,Moore A W,et al.Efficient application identification and the temporal and spatial stability of classification schema[J].Computer Networks,2009,53(6):790-809.
[4]Callado A,Kelener J,Sadok D,et al.Better network traffic identification through the independent combination of techniques[J].Journal of Network and Computer Applications,2010,33(4):433-446.
[5]Dainotti A,Pescape A,Claffy K C.Issues and Future Directions in Traffic Classification[J].IEEE Network,2012,26(1):35-40.
[6]MooreA W,Zuev D.Internet traffic classification using Bayesian analysis techniques[C]//Proceedings of 2005 International Conference on Measurement and Modeling of Computer Systems.Banff,AB,Canada:ACM,2005:50-60.
[7]Schmoll C,Zander S.Network Measurement and Accounting Meter[EB/OL].[2013-04-08].http://sourceforge. net/projects/netmate-meter/.
[8]范明,昝紅英,牛常勇.機(jī)器學(xué)習(xí)導(dǎo)論[M].北京:機(jī)械工業(yè)出版社,2009:230-231. FAN Ming,ZAN Hong-ying,NIU Chang-yong.Introduction to Machine Learning[M].Beijing:China Machine Press,2009:230-231.(in Chinese)
[9]Viola P,Jones M.Robust real-time face detection[J].International Journal of Computer Vision,2004,57(2):137-154.
[10]Gringoli F,Salgarelli L,Dusi M,et al.GT:picking up the truth from the ground for Internet traffic[J].ACM SIGCOMM Computer Communication Review,2009,39(5):13-18.
[11]Witten I H,F(xiàn)rank E,Hall M A.Data Mining:Practical Machine Learning Tools and Techniques[M].3rd ed.San Francisco:Morgan Kaufmann Publishers,2011:424-438.
ZHAO Xiao-huan was born in Zaoyang,Hubei Province,in 1984.He received the M.S. degree from Air Force Engineering University in 2009.He is currently working toward the Ph.D.degree.His research concerns network traffic measurement.
Email:zxhzxh-2012@163.com
夏靖波(1963—),男,河北秦皇島人,教授、博士生導(dǎo)師,主要研究方向?yàn)檐娛滦畔⒕W(wǎng)絡(luò)管理與安全;
XIA Jing-bo was born in Qinhuangdao,Hebei Province,in 1963. He is now a professor and also the Ph.D.supervisor.His research concerns military information network management and security.
連向磊(1981—),男,山東榮城人,碩士,工程師,主要研究方向?yàn)檐娛滦畔⒕W(wǎng)絡(luò)管理;
LIAN Xiang-lei was born in Rongcheng,Shandong Province,in 1981.He is now an engineer with the M.S.degree.His research concerns military information network management.
李巧麗(1983—),女,山東聊城人,碩士,工程師,主要研究方向?yàn)榫W(wǎng)絡(luò)測量與管理。
LI Qiao-li was born in Liaocheng,Shandong Province,in 1983.She is now an engineer with the M.S.degree.Her research concerns network measurement and network management.
Ensemble Classification Overnetwork Traffic Based on AdaBoost
ZHAO Xiao-huan1,XIA Jing-bo1,LIAN Xiang-lei2,LI Qiao-li3
(1.Institute of Information and Navigation,Air Force Engineering University,Xi′an 710077,China;2.Unit 71155 of PLA,Weihai 264200,China;3.Unit 94326 of PLA,Jinan 250023,China)
To cope with the poor performance of single classification algorithms on minority flows when the train dataset is deficient,the AdaBoost(Adaptive Boosting)algorithm is introduced to classify network traffic.On the basis of selecting few but effective classification features with CFS(Correlation-based Feature Selection)method from a variety of flow′s features,the AdaBoost algorithm is used to combine five single classification algorithms which belong to Decision Tree,Rules and Bayes respectively for the sake of traffic classification.The experiment over real network traffic shows that the AdaBoost algorithm has the highest precision up to 98.92%among the selected classification algorithms.Moreover,the AdaBoost algorithm achieves great improvement on the performance of minority flows′classification compared with single classification algorithms.
network traffic;traffic classification;correlation-based feature selection;adaptive boosting algorithm;ensemble classifier
The Natural Science Basic Research Project of Shaanxi Province(2012JZ8005)
date:2013-04-09;Revised date:2013-06-18
陜西省自然科學(xué)基礎(chǔ)研究計(jì)劃重點(diǎn)項(xiàng)目(2012JZ8005)
??通訊作者:zxhzxh-2012@163.comCorresponding author:zxhzxh-2012@163.com
TP393
A
1001-893X(2013)09-1207-06
趙小歡(1984—),男,湖北棗陽人,2009年于空軍工程大學(xué)獲通信與信息系統(tǒng)專業(yè)碩士學(xué)位,現(xiàn)為博士研究生,主要研究方向?yàn)榫W(wǎng)絡(luò)流量測量;
10.3969/j.issn.1001-893x.2013.09.017
2013-04-09;
2013-06-18