亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)流量分類算法分析研究

        2017-05-15 03:47:51李曉明任慧顏金堯
        關(guān)鍵詞:分類

        李曉明,任慧,顏金堯

        (1.中國傳媒大學(xué)信息工程學(xué)院,北京 100024;2.視聽技術(shù)與智能控制系統(tǒng)文化部重點(diǎn)實驗室,北京 100024;3.現(xiàn)代演藝技術(shù)北京市重點(diǎn)實驗室,北京 100024)

        基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)流量分類算法分析研究

        李曉明1,2,3,任慧1,2,3,顏金堯1

        (1.中國傳媒大學(xué)信息工程學(xué)院,北京 100024;2.視聽技術(shù)與智能控制系統(tǒng)文化部重點(diǎn)實驗室,北京 100024;3.現(xiàn)代演藝技術(shù)北京市重點(diǎn)實驗室,北京 100024)

        基于應(yīng)用的流量分類在網(wǎng)絡(luò)安全和管理中具有非常重要的作用。傳統(tǒng)流量分類大部分是基于端口的預(yù)測方法和基于有效載荷的深度檢測方法。由于當(dāng)前網(wǎng)絡(luò)環(huán)境中各種隱私問題以及基于動態(tài)端口和加密的應(yīng)用,傳統(tǒng)的網(wǎng)絡(luò)流量分類策略的有效性已經(jīng)逐步下降,目前主要集中在基于機(jī)器學(xué)習(xí)技術(shù)的流量分類模型進(jìn)行研究。本文對各種基于機(jī)器學(xué)習(xí)算法的流量分類的比較,如貝葉斯網(wǎng)絡(luò)(BayesNet)、樸素貝葉斯(NaiveBayes)、基于RBF的SVM流量分類和基于遺傳算法的SVM(GaSVM)流量分類等。這些算法分別使用了全特征選擇和優(yōu)化后的特征集合,實驗結(jié)果表明基于遺傳算法的SVM流量分類精度較高,并在使用主成分特征也可以達(dá)到很高的精度。

        貝葉斯網(wǎng)絡(luò);樸素貝葉斯;機(jī)器學(xué)習(xí);遺傳算法;SVM;GaSVM

        1 引言

        網(wǎng)絡(luò)流量分類在過去幾年一直是互聯(lián)網(wǎng)應(yīng)用的重要分支。目前,互聯(lián)網(wǎng)中新的應(yīng)用模式(如P2P)與應(yīng)用需求不斷涌現(xiàn),網(wǎng)絡(luò)流量的井噴式增長以及基于http協(xié)議的應(yīng)用多樣化給網(wǎng)絡(luò)運(yùn)營商的服務(wù)質(zhì)量帶來了巨大的挑戰(zhàn)。實時網(wǎng)絡(luò)流量分類對幫助互聯(lián)網(wǎng)服務(wù)提供商了解網(wǎng)絡(luò)運(yùn)行狀態(tài)、優(yōu)化網(wǎng)絡(luò)運(yùn)營與管理具有重要的意義。一方面,網(wǎng)絡(luò)運(yùn)營商使用流量分類實時地將網(wǎng)絡(luò)中的流量按照網(wǎng)絡(luò)流的特征進(jìn)行分類、分析,根據(jù)實時的分析結(jié)果動態(tài)的部署服務(wù)質(zhì)量(QoS),從而避免網(wǎng)絡(luò)擁塞,提高關(guān)鍵業(yè)務(wù)的服務(wù)質(zhì)量,實現(xiàn)網(wǎng)絡(luò)的高效利用率;另一方面,網(wǎng)絡(luò)服務(wù)運(yùn)營商根據(jù)流量分類結(jié)果可以預(yù)測網(wǎng)絡(luò)中主要業(yè)務(wù)的發(fā)展趨勢,從而制定合理的網(wǎng)絡(luò)體系架構(gòu),為用戶提供更好的網(wǎng)絡(luò)體驗。而在網(wǎng)絡(luò)安全方面,由于有效載荷加密與新型應(yīng)用的不斷涌現(xiàn),數(shù)據(jù)包載荷明文難以獲取導(dǎo)致基于有效載荷的深度分析的有效性逐步下降。這使得傳統(tǒng)的入侵檢測系統(tǒng)(intrusion detection system,IDS)[1],難以發(fā)現(xiàn)網(wǎng)絡(luò)中的異常流量(如蠕蟲傳播、大規(guī)模分布式拒絕服務(wù)攻擊等)與未知協(xié)議流量,導(dǎo)致不能及時采取防御遏制措施。而傳統(tǒng)的流量分類主要基于端口[2]與基于分組深度解析兩種方法。在現(xiàn)有的網(wǎng)絡(luò)環(huán)境中,傳統(tǒng)的流量分類方法遭受了巨大的挑戰(zhàn),一些網(wǎng)絡(luò)應(yīng)用使用動態(tài)隨機(jī)的端口選擇算法[3-4](被動FTP和P2P),導(dǎo)致基于端口的分類算法失效。

        2 基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)流量分類分析研究

        2.1 基于有監(jiān)督機(jī)器學(xué)習(xí)的流量分類

        基于監(jiān)督的流量分類算法分為兩類:帶參數(shù)的分類,比如貝葉斯網(wǎng)絡(luò)(Bayes Net),ID3決策樹,SVM[5],樸素貝葉斯[6],貝葉斯網(wǎng)絡(luò)[7],無參數(shù)的分類器如K近鄰(KNN)[8]?;诒O(jiān)督的流量分類算法通過訓(xùn)練數(shù)據(jù)生成一個分類模型,后續(xù)的網(wǎng)絡(luò)流量根據(jù)該分類模型確定類別。有監(jiān)督分類算法是基于人工標(biāo)注的流量樣本集進(jìn)行訓(xùn)練,并將后續(xù)的未知的流量樣本根據(jù)分類器進(jìn)行分類。這種方法一般對于已知的流量類型檢測率較高,但無法對未知應(yīng)用類型的流量進(jìn)行分類;為了算法的泛化性能,需要大規(guī)模人工標(biāo)注數(shù)據(jù)提高算法性能。其中SVM具有較強(qiáng)的泛化能力。在實際應(yīng)用中由于業(yè)務(wù)的有效載荷所面臨的困難(如用戶隱私、應(yīng)用數(shù)據(jù)加密),Moore 和Zuev[9]實現(xiàn)了一種基于網(wǎng)絡(luò)數(shù)據(jù)流特征的樸素貝葉斯分類器。Bernaille[10]只使用SSL連接的數(shù)據(jù)包的大小來識別加密的應(yīng)用類型。文獻(xiàn)[11]應(yīng)用支持向量機(jī)作為流量分類器。這些算法都需要對算法中的超參數(shù)進(jìn)行交叉驗證,這需要一個不斷的訓(xùn)練過程來得到較理想的超參數(shù)。也有一些工作嘗試使用非參數(shù)的機(jī)器學(xué)習(xí)算法,Nguyen[12]以實時分類為目標(biāo),只使用一條流的最近的幾個包作為分類依據(jù)。Roughan[13]已經(jīng)證明使用LDA可以實現(xiàn)對流的五類統(tǒng)計特征進(jìn)行分類。

        2.2 基于無監(jiān)督的機(jī)器學(xué)習(xí)流量分類

        無監(jiān)督的機(jī)器學(xué)習(xí)聚類算法包括K-Means、DBSCAN(密度聚類算法)、EM期望最大化、SC譜聚類等,無監(jiān)督的方法(或聚類算法)從未標(biāo)記的流量數(shù)據(jù)中根據(jù)特征進(jìn)行聚合分簇,并將未標(biāo)記的測試流分配到距離最近的聚合簇中。Erman等人[14]通過流量聚類實驗比較K-Means,DBSCAN和EM算法,實驗結(jié)果表明當(dāng)聚類簇的數(shù)量高于實際應(yīng)用類型的數(shù)量時,流量聚類算法可以產(chǎn)生高純度的聚類簇。也就是說,聚類算法可以幫助我們找到一些未知的流量類型,但此類方法通常需要事先去設(shè)定一個聚類簇的數(shù)量,而且大規(guī)模樣本聚類時間通常較長。Bernaille等人[15]使用TCP連接特性中的前5個數(shù)據(jù)分組來區(qū)分不同的流量類型,通過實驗表明這樣可以實時識別流量的應(yīng)用類型。此方法采用離線訓(xùn)練模型,通過訓(xùn)練模型進(jìn)行在線的實時分類,離線訓(xùn)練時采用K-Means 算法進(jìn)行聚類分析,在線分類時計算未知流量與聚類中心的歐式距離確定應(yīng)用流量類型。但是為了滿足實時分類的有效性,該方法依賴于數(shù)據(jù)包分組的到達(dá)順序,而由于實際網(wǎng)絡(luò)的實時可變性往往會影響數(shù)據(jù)包的排列順序,因此在對網(wǎng)絡(luò)流量的實時分類中,該方法不能很好的保證分類的準(zhǔn)確性。

        2.3 基于遺傳參數(shù)尋優(yōu)的SVM流量分類模型

        支持向量機(jī)(SVM)是現(xiàn)階段泛化能力較好的分類算法之一,通過核函數(shù)的變化使得該算法可以處理高維特征。SVM 解決二值分類問題的方法是構(gòu)造特征空間上正例和反例兩類樣本最大間隙分隔平面y=wT·φ(x)+b。支持向量機(jī)理論的基礎(chǔ)是統(tǒng)計學(xué)習(xí)理論中的 VC維理論與結(jié)構(gòu)風(fēng)險最小化原理,在對網(wǎng)絡(luò)流量進(jìn)行分類時,使用較少的流量特征達(dá)到較好的分類效果,并在先驗知識相對不足的情況下,仍保持較高的分類準(zhǔn)確率。

        使用支持向量機(jī)時,定義不同的核函數(shù),以及松弛因子,可以實現(xiàn)較好泛化效果的分類器。支持向量機(jī)的優(yōu)化模型如下:

        (1)

        原函數(shù)的最優(yōu)化問題轉(zhuǎn)化為相應(yīng)的拉格朗日對偶函數(shù)的極大值:

        (2)

        分別對w,b,ε求偏導(dǎo)

        帶入公式(2)得到相應(yīng)的拉格朗日對偶函數(shù)的優(yōu)化模型如下:

        (3)

        c-ai-μi=0

        c≥ai≥0

        μi≥0

        注意公式中超參數(shù)松弛因子C,以及高斯核函數(shù)RBF中的gamma,在SVM中一般通過交叉驗證的方法對這些參數(shù)進(jìn)行尋優(yōu),本文采用遺傳算法進(jìn)行相應(yīng)的參數(shù)尋優(yōu)。基于遺傳算法的SVM分類算法系統(tǒng)模型如圖1所示。

        圖1 基于遺傳算法的SVM分類算法系統(tǒng)模型

        本文引用分類精確度(accuracy),訓(xùn)練時間(train-time),召回率(recall),查準(zhǔn)率(precision)作為評估算法性能的參數(shù),召回率和查準(zhǔn)率如表1所示進(jìn)行說明。

        表1 召回率和查準(zhǔn)率

        預(yù)測實值際值 PositiveNegtive正TPFN負(fù)FPTN

        TP(true positive):樣本所屬類型為正例,分類器預(yù)測類型也為正例;

        FN(false negative):樣本所屬類型為正例,但被分類器預(yù)測錯誤為負(fù)例;

        FP(false positive):樣本所屬類型為負(fù)例,但被分類器預(yù)測錯誤為正例;

        TN(true negative):樣本所屬類型為負(fù)例,分類器預(yù)測類型也為負(fù)例。

        (4)

        (5)

        (6)

        如公式(4)表示的是分類精確度,公式(5)表示的是查準(zhǔn)率,公式(6)表示的是召回率。

        3 實驗及結(jié)果分析

        3.1 實驗數(shù)據(jù)集

        目前大多數(shù)關(guān)于流量分類的研究都是以Moore_set為標(biāo)準(zhǔn)。在這個過程中,本文使用了前兩個數(shù)據(jù)子集,并通過全特征數(shù)據(jù)集,以及優(yōu)化特征選擇的方式減少特征維度,這些數(shù)據(jù)采集自同一個站點(diǎn)的流量數(shù)據(jù),采集間隔12h,每一個數(shù)據(jù)集包含幾萬條數(shù)據(jù)。每一個樣本包含了248項屬性,標(biāo)簽項為249項,即分類標(biāo)簽,表明該樣本的流量類型,流量類型如表2所示。

        這些數(shù)據(jù)集合被分為10個子集,本文使用了前兩個數(shù)據(jù)子集,如表3所示。

        本文中Moore_set數(shù)據(jù)集包含248個特征,如數(shù)據(jù)包的最小,最大值,平均數(shù)據(jù)包,數(shù)據(jù)包的大小,持續(xù)時間等。分別采用全特征以及主成分分析的方法選取特征,并使用貝葉斯網(wǎng)絡(luò)BayesNet、樸素貝葉斯分類器、SVM、以及基于遺傳算法對SVM超參數(shù)尋優(yōu)來對Set01和Set02進(jìn)行訓(xùn)練。試驗中我們將樣本數(shù)據(jù)的66%作為訓(xùn)練數(shù)據(jù),剩下的作為測試數(shù)據(jù),使用3折交叉驗證。其中SVM采用RBF函數(shù)作為核函數(shù)。

        表2 Moore_set數(shù)據(jù)集的流量應(yīng)用類型所占比例

        表3 Moore_set的前兩個子集

        3.2 實驗結(jié)果分析

        在全特征的情況下,BayesNet、SVM、GaSVM算法都取得了較好的準(zhǔn)確率,其中GaSVM的精度高達(dá)98.875%,而樸素貝葉斯的模型只能達(dá)到63.8285%,而訓(xùn)練時間基于RBF的GaSVM訓(xùn)練時間最長,高達(dá)123.09秒,如表4所示。

        減少特征后的分類準(zhǔn)確率與訓(xùn)練時間,本文采用了Weka3.8自帶的特征選擇模塊進(jìn)行特征選擇。經(jīng)過選擇后的分類器的訓(xùn)練時間與準(zhǔn)確率如表5所示。

        采用主成分的特征選擇算法后,Bayes Net、Naive Bayes、GaSVM的精確度都有所提高,而由于參數(shù)選擇的問題導(dǎo)致SVM算法本身精度有所下降,如圖2所示。

        表5 經(jīng)過特征選擇后的各個分類器準(zhǔn)確率

        圖2 全特征選擇和主要特征選擇后的分類算法精確率(Accuracy)

        當(dāng)c=10.278,gamma=0.86975的時候SVM分類器的分類精確率最高,約為98.8764%,如圖3所示。

        圖3 基于遺傳算法的SVM參數(shù)尋優(yōu)

        基于遺傳算法的SVM分類器提高了ATTACK和DATABASE流量類型的查準(zhǔn)率,在其他流量類型中的表現(xiàn)也是較好的,如圖4所示。

        圖4 各個分類器在不同流量類型上的查準(zhǔn)率(Precision)

        4 結(jié)論

        本文通過對比貝葉斯網(wǎng)絡(luò)、樸素貝葉斯、SVM、GaSVM分類算法的精度和查準(zhǔn)率,發(fā)現(xiàn)對于基于遺傳的GaSVM分類算法,通過使用主成分特征的降維技術(shù)后也可以達(dá)到較高的精度,并通過檢查計算性能指標(biāo),如建立時間和分類速度,貝葉斯網(wǎng)絡(luò)和樸素貝葉斯分類器的速度較快,但精度相對減低,而SVM和GaSVM的模型訓(xùn)練時間較長,精度較高。在針對不同應(yīng)用場所時,當(dāng)對分類結(jié)果精度要求較高時,可以采用線下GaSVM訓(xùn)練模型,線上使用模型進(jìn)行實時預(yù)測;當(dāng)對分類結(jié)果精度要求一般時,可以直接采用貝葉斯網(wǎng)絡(luò)來進(jìn)行流量的實時分類。

        [1]Snort[EB /OL]. http:/ /www. snort. org,2008.

        [2]Internet assigned numbers authority[EB /OL]. http:/ /www.iana.org,2008.

        [3]Karagiannis T,Broido A,Brownlee N. Is P2P dying or just hiding[J]. IEEE Globecom 2004 - Global Internet and Next Generation Networks,2004,(3):1532 - 1538

        [4]Madhukar A,Williamson C. A Longitudinal Study of P2P Traffic Classification[J].IEEE International Symposium on Modeling,Analysis,and Simulation, IEEE Computer Society,2006:179-188.

        [5]H Kim,K Claffy,M Fomenkov,D Barman,M Faloutsos,K Lee.Internet traffic classification demystified:myths,caveats,and the best practices[J].Proceedings of the ACM CoNEXT Con- ference,New York,NY,USA,2008,1-12.

        [6]R Kohavi.Scaling Up the Accuracy of Naive-Bayes Classifiers:a Decision-Tree Hybrid[J].in Proceedings of 2nd International Conference on Knowledge Discovery and Data Mining(KDD),1996.

        [7]A W Moore,D Zuev.Internet Traffic Classification using Bayesian analysis techniques[J].ACM SIGMETRICS 05,2005.

        [8]Huang S,Chen K,Liu C. A statistical-feature-based approach to internet traffic classification using Machine Learning[J].International Conference on Ultra Modern Telecommunications,Icumt 2009:12-14,Petersburg,Russia,2009:1 - 6.

        [9]A W Moore,D Zuev.Internet traffic classification using bayesian analysis techniques[J].SIGMETRICS Perform Eval Rev,(33):50-60,June,2005.

        [10]L Bernaille,R Teixeira.Early recognition of encrypted applications[J].Proceedings of the 8th international conference on Passive and active network measurement,Berlin,Heidelberg,2007,165-175.

        [11]A Este,F(xiàn) Gringoli,L Salgarelli.Support vector machines for tcp traffic classification[J]. Computer Networks,53(14):2476-2490,2009.

        [12]T Nguyen,G Armitage.Training on multiple sub-flows to optimise the use of machine learning classifiers in real-world ip networks[J].Local Computer Networks,Annual IEEE Conference on,Los Alamitos,CA,USA,2006,369-376.

        [13]M Roughan,S Sen,O Spatscheck,N Duffield.Class-ofservice mapping for QoS:a statistical signature-based approach to IP traffic classification[J].Proceedings of the 4th ACM SIGCOMM conference on Internet measurement,New York,NY,USA,2004,135-148.

        [14]Erman J,Mahanti A,Arlitt M. QRP05-4:Internet Traffic Identification using Machine Learning[J].IEEE Global Telecommunications Conference,2006:1-6.

        [15]Bernaille L,Teixeira R,Akodkenou I.Traffic classificationon the fly[J]. ACM Special Interest Group on Data Communica-tion(SIGCOMM)Computer Communication Review ,2006,36(2):23-26.

        (責(zé)任編輯:宋金寶)

        Research on Network Traffic Classification Algorithm Based on Machine Learning

        LI Xiao-ming1,2,3,REN Hui1,2,3,YAN Jin-yao1

        (1.Information Engineering School,Communication University of China Beijing 100024; 2.Key Laboratory of Acoustic Visual Technology and Intelligent Control System,Ministry of Culture,Beijing 100024; 3.Beijing Key Laboratory of Modern Entertainment Technology Beijing,Beijing 100024,China)

        Traffic classification based on their generation applications plays an important role in network security and management. The port-based prediction methods and payload-based deep inspection methods comes under traditional methods. The standard strategies in currentnetwork environment suffer from variety of privacy issues,dynamic ports and encrypted applications. Recent research efforts are focused on traffic classification based on Machine Learning Techniques,and made comparison the various Machine Learning(ML)techniques such as Bayes Net,Naive Bayes,SVM based on RBF,VM based on genetic algorithm for IP traffic classification.These classification algorithms used full feature selection and optimized feature set to classify network traffic. It can be seen from the experimental results that GaSVM traffic classification can achieve high accuracy,especially in the use of principal component features.

        Bayes Net;Naive Bayes;machine learning;genetic algorithm;SVM;GaSVM

        2017-1-05

        國家科技支撐計劃重大項目(2012BAH38F00)

        李曉明(1984-),男(漢族),山西朔州人,中國傳媒大學(xué)博士研究生.E-mail:290664743@qq.com

        TP

        A

        1673-4793(2017)02-0009-06

        猜你喜歡
        分類
        2021年本刊分類總目錄
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        星星的分類
        我給資源分分類
        垃圾分類,你準(zhǔn)備好了嗎
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        按需分類
        教你一招:數(shù)的分類
        亚洲综合一区二区三区天美传媒| 浪荡少妇一区二区三区| 国产精品一区区三区六区t区| 高清不卡av一区二区| 久久国产精品偷任你爽任你 | 亚洲熟妇中文字幕日产无码| 有码视频一区二区三区| 国产国产精品人在线视| 欧美猛男军警gay自慰| chinese国产在线视频| 国产情侣自拍偷拍精品| 尤物yw午夜国产精品视频| 国产乱人视频在线播放| 国产免费网站看v片元遮挡| 激情偷拍视频一区二区| 精品一区二区三区在线视频| 国产欧美日韩综合精品二区| 97福利视频| 成人爽a毛片免费网站中国| 97在线视频人妻无码| 18禁高潮出水呻吟娇喘蜜芽| 久久久久久免费播放一级毛片| 成人av一区二区三区四区| 亚洲中文字幕一区精品自拍| 欧洲熟妇乱xxxxx大屁股7| 宅男久久精品国产亚洲av麻豆 | 国产午夜视频在线观看| 黄 色 成 年 人 网 站免费| 美女与黑人巨大进入免费观看| 特黄熟妇丰满人妻无码| 日本高清www午色夜高清视频| 亚洲日韩成人av无码网站| 亚洲国产美女在线观看| 国产精品亚洲av一区二区三区 | 3d动漫精品啪啪一区二区下载 | 视频一区二区三区中文字幕狠狠| 亚洲婷婷久悠悠色悠在线播放| 在线欧美中文字幕农村电影| 亚洲日韩精品A∨片无码加勒比| 少妇人妻精品一区二区三区视| 丰满大爆乳波霸奶|