亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Netflow的流量分類方法研究

        2014-05-25 00:33:30錢亞冠
        浙江科技學院學報 2014年5期
        關鍵詞:分類特征方法

        錢亞冠

        (浙江科技學院 理學院,杭州 310023)

        基于Netflow的流量分類方法研究

        錢亞冠

        (浙江科技學院 理學院,杭州 310023)

        針對Netflow提供的流量信息有限的問題,在Netflow的基本信息基礎上構建更豐富的特征空間,通過機器學方法(決策樹、樸素Bayes方法和Bayes網絡)研究了Netflow用于流量分類的可行性。實驗結果表明,決策樹方法在Netflow數據上具有良好的分類效果;同時結合Netflow的廣泛性,提出的方法具有良好的實用意義和推廣價值。

        Netflow;機器學習;流量分類

        隨著互聯(lián)網應用的不斷增多與傳輸帶寬的持續(xù)增加,使得互聯(lián)網變得更加復雜,于是對互聯(lián)網管理提出了更高的要求。因此,需要更加有效的網絡管理工具實現對應用流量的監(jiān)控,而流量分類則是其中的核心技術。精確識別流量的應用類型,對實現分類計費、流量工程、容量規(guī)劃等管理具有十分重要的意義。

        基于TCP端口號的傳統(tǒng)分類方法在P2P應用出現后受到了嚴峻的挑戰(zhàn)。P2P應用采用隨機端口號的方法,甚至采用http協(xié)議的80端口躲避端口號的檢測。而深度包檢測(deep packet inspection,DPI)技術又遇到數據加密的難題。為了克服上述困難,近幾年的研究工作開始轉向流量的統(tǒng)計特征的研究[1-2],以期發(fā)現具體應用的特定流量模式[3-5],從而確定應用類型。

        目前,這類基于統(tǒng)計特征的方法通常需要很多的統(tǒng)計變量,有的甚至達到數百個[6]。對于實時性要求很高的網絡管理任務來說,這類復雜的計算模型往往會嚴重影響管理效率。如何在保持較高的分類正確率的情況下獲得精簡的特征空間?這個問題啟發(fā)人們研究是否可以利用Netflow信息進行流量分類[7]。筆者發(fā)現,思科的Netflow目前已得到廣泛的部署,并已成為IETF(intornet engineering task force)的標準。Netflow在數據流(flow)級別上實現了信息的匯集,包括源/目的IP地址、源/目的端口、字節(jié)總數、數據包總數等。由于Netflow中有關流量的信息有限,因此研究人員一直認為Netflow無法為分類提供足夠的特征空間。而筆者的研究表明,利用Netflow進行流量分類具有3個優(yōu)勢:一是Netflow已被廣泛部署在思科的路由器設備上,因此,采集數據變得非常方便,而不需要專門的流量采集設備;二是Netflow已經將數據包級的信息匯聚成了流級信息,可以免去大量的數據預處理工作;三是Netflow盡管提供的信息有限,但研究表明它完全可以支撐分類工作,并且可以滿足實時性的要求。本研究正是基于上述認識,利用機器學習的方法展開對Netflow數據的分類研究。

        1 相關工作

        近幾年,機器學習(machine learning,ML)方法開始被應用于流量分類領域,以便克服基于端口的方法及DPI方法的缺陷。機器學習是通過人工智能的學習理論,從大量的數據中獲取知識,建立相應的分類模型,從而使模型具有對未知數據的預測(分類)能力。在流量分類中,利用已經獲取的大量流量數據,通過機器學習,使得模型具有對未知流量的識別能力。目前,機器學習主要有基于監(jiān)督的和無監(jiān)督的學習方法2類。本研究采用基于監(jiān)督的學習方法,即事先需要對訓練數據進行分類標識,以便指導模型的建立。

        目前,已有相關工作利用有監(jiān)督的機器學習方法應用于互聯(lián)網流量分類[8-15],但這些工作均對數據包形式的流量進行處理,需要大量的模型訓練時間,因此,很難真正部署到營運網絡中。文獻[6,16]等提出基于數據流(flow)的特征進行分類研究。數據流的特征包括流的持續(xù)時間、流的字節(jié)數、流的數據包數、流內的包到達間隔等。通過將數據包的信息進一步匯聚到數據流級別,可以顯著減少數據量,從而有效地減少機器學習的模型訓練時間。但是,目前數據流級別的分類方法采用的特征數仍然很多,文獻[16]提出了248個可用的流特征,顯著地增加了模型建立的復雜性。由此啟發(fā)人們思考是否可以采用較少的特征來實現流級別的分類。最近研究發(fā)現Netflow具有流量特征空間簡單,又與當前網絡管理兼容的優(yōu)點,非常適合營運網絡的流量分類。據已有資料,目前還沒有在Netflow上進行有效的工作。

        2 基于Netflow的流量特征

        Netflow是思科公司為了收集網絡流量信息而設計開發(fā)的一種網絡協(xié)議,目前,它已成為IETF標準。Netflow將具有相同五元組(源IP地址,目的IP地址,源端口,目的端口,協(xié)議號)的數據包歸為同一數據流。Netflow的基本工作原理是:利用標準的交換模式處理數據流的第一個IP包數據,生成Netflow緩存;隨后,同樣的數據基于緩存信息在同一個數據流中進行傳輸,不再匹配相關的訪問控制等策略,Netflow緩存收集隨后數據流的統(tǒng)計信息。支持Netflow協(xié)議的路由器或交換機可以收集自身所有端口的流量統(tǒng)計信息,并以Netflow記錄的形式發(fā)送給服務器,用以分析處理。

        Netflow已經發(fā)展到第10版,但目前應用最廣泛的是第5版,該版本被限制于IPv4的流量??紤]到目前流量仍然以IPv4為主,本研究采用第5版的Netflow數據,使用的Netflow信息見表1。

        從表1可以看出,Netflow記錄中可用于分類的信息非常少,正因為信息有限,所以沒有引起研究者對Netflow在流量分類中的重視,甚至從根本上否定了它的意義。但筆者發(fā)現,從上述的基本信息中可以進一步推導出新的特征信息,如平均字節(jié)速率(B/s),平均數據包速率(Packets/s),平均數據包長度等,從而大大豐富了流量特征空間。

        表1 Netflow記錄中可用于分類的信息Table 1 Information of Netflow record used in classification

        3 基于機器學習的流量分類方法

        機器學習是研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。因此,將機器學習中的有監(jiān)督方法應用于流量分類中,可望獲得良好的分類效果。有監(jiān)督學習是指從給定的訓練數據集中學習出一個函數,當新的數據到來時,可以根據這個函數預測結果。有監(jiān)督學習的訓練集需要事先標注好分類標簽,用以指導機器學習。本研究采用樸素Bayes方法、Bayes網絡和決策樹算法對Netflow流量數據進行分類研究。

        3.1 樸素Bayes方法

        樸素Bayes方法源于概率論中的著名Bayes公式:

        式(1)中:H―假設;X―證據;P(H|X)―后驗概率;P(H)―先驗概率。

        樸素Bayes分類方法分類原理:

        1)假設D是用于訓練的Netflow流量數據集合,X是訓練集合的實例,X={x1,x2,…,xn},也稱為一個特征向量,其中xn為分類標簽。

        2)又假設有m個流量分類,如P2P,http等,標記為C1,C2,…,Cm。給定一個數據h流實例X,預測具有最大后驗概率的類,即預測X屬于類Ci當且僅當

        3.2 Bayes網絡

        圖1 流量分類的Bayes網絡Fig.1 Bayes networks applied in traffic classification

        樸素Bayes方法假定特征之間可以有條件的獨立,用于簡化計算。當該假設成立時,樸素Bayes方法可獲得很好的分類精度。但在實踐中,特征之間往往可能存在依賴關系。Bayes網絡為克服這一不足,允許在特征子集之間定義條件獨立性,并提供一種因果關系的圖模型來進行學習(圖1)。

        Bayes網絡由一個有向無環(huán)圖和條件概率表構成。網絡中的每個節(jié)點表示一個隨機變量,可以是連續(xù)或離散值。每條有向弧表示一個概率依賴,連接的節(jié)點分別稱為雙親和后代。每個變量關聯(lián)著一個條件概率表,P(Y|parents(Y)),其中parents(Y)是Y的雙親。設變量X={x1,x2,…,xn},每個變量有條件的獨立于網絡中的非后代,可得它的聯(lián)合概率:

        式(2)中:P(x1,x2,…,xn)-X的某個特征組合的概率。

        3.3 決策樹方法

        決策樹是一種基于判定的樹結構,樹中的每個分支節(jié)點表示在一個特征上的測試判定,而每個分支則表示一個測試判定的結果輸出。每個葉節(jié)點則表示最終的輸出,即分類標簽。決策樹從提出開始,已經產生了3種經典的算法:ID3,C4.5和CART,這些算法均采用貪心策略,自頂向下遞歸構造一棵決策樹。

        算法的核心思想是通過某種特征選擇度量(如信息增益),選擇“最佳”特征,將訓練集合D分裂,每個特征值將產生一個分裂子集Di。遞歸地選擇剩余候選特征中的“最佳”特征,繼續(xù)將分裂子集Di進行分裂,直到獲得一個分類標號均相同(或占絕對優(yōu)勢)的子集。不同的決策樹算法之間的差別在于創(chuàng)建樹時的特征選擇度量和剪枝策略。一旦一棵決策樹從訓練集合中構造成功,它就可以用來對未知實例進行預測分類。該過程非常直觀和高效,從決策樹的根節(jié)點出發(fā),自頂向下沿著某個路徑上的特征進行測試,直到到達葉節(jié)點(分類標簽)。

        4 Netflow數據集

        從浙江大學校園網中心的某臺路由器上獲得了Netflow數據,共計37 583條數據流,并利用DPI工具L7Filter對數據流的應用類型進行了標識。共標識了7種應用類型:http,bittorrent,ssl,pop3,edonkey,skype和smtp。各種應用的數據流比例如表2所示。從表2可以看出,http流量在字節(jié)總數上占絕對優(yōu)勢,這主要由于目前視頻共享應用利用http協(xié)議傳輸短視頻內容?;赑2P技術的bittorrent居第二大流量主體,盡管只有4.99%,但每個數據流的平均字節(jié)總量卻非常大,遠超過http流量。

        由表3可以明顯發(fā)現,bittorren和edonkey這2種P2P應用每個流產生的字節(jié)流量最大,具有大象流(elephant flow)的特征。從網絡管理的角度看,這種大象流對資源的占用很大,因此,識別該類流量具有十分重要的意義。

        表2 各種應用類型在數據集中的比重(以字節(jié)計算)Table 2 Percentage of each application in traffic dataset(in bytes)

        表3 各種應用類型在數據集中的總字節(jié)數與數據流平均字節(jié)數的對比Table 3 Comparison of total bytes and mean bytes of each application in traffic dataset

        5 研究方法與實驗結果

        采用樸素Bayes方法、Bayes網絡和決策樹算法對Netflow數據進行了實驗研究,具體研究方案如下:

        根據數據流數量的遞增次序,分別設定6個訓練數據集合:數量從3 000、5 000遞增到21 000,集合內容上前者分別是后者的子集,呈包含關系,余下16 000個數據流作為測試集合。分別在6個訓練集上用樸素Bayes、Bayes網絡和決策樹C4.5算法訓練模型,并用同一測試集測試,分別獲得圖2中3種方法的分類精度比較結果。

        圖2 3種不同機器學方法的分類精度比較Fig.2 Comparison of precision among three machine learning methods

        從圖2(a)中可以發(fā)現,隨著訓練集合的增大,決策樹方法的分類精度逐步提高。http,pop3和ssl的分類精度在訓練集超過9 000條記錄后,提高不再明顯,但均已超過95%的正確率。smtp與bittorrent隨著訓練集的增大,分類精度提升迅速,在訓練集合達到21 000條記錄時已超過98%的準確率。skype與edonkey雖然隨著訓練集的增大,精度也得到提高,但提高速度不大。在21 000條訓練記錄時,skype接近70%,而edonkey才達到40%的正確率。

        圖2(b)顯示了樸素Bayes方法在不同訓練集上的分類精度。從中可以看出,樸素Bayes方法對http應用的分類非常有效,只需3 000條Netflow記錄就可以實現大于90%的正確率。但對于其余應用的分類效果明顯不足,尤其對于ssl,smtp和skype,其分類精度隨著訓練集的增大幾乎沒有提升。而bittorrent與edonkey雖有提升,但提升速度緩慢。

        圖2(c)顯示的是Bayes網絡的分類效果??梢悦黠@發(fā)現,對于http,bittorrent,pop3和edonkey這4類應用,Bayes網絡可以在較小的訓練集上達到大于90%的分類精度。與決策樹相比,在訓練集容量達到21 000條記錄時,http,bittorrent,pop3這3類應用的分類精度均可在95%以上,但edonkey在決策樹下分類效率明顯不及Bayes網絡??梢?,Bayes網絡對于P2P應用(bittorrent,edonkey)的區(qū)分能力優(yōu)于決策樹方法。在ssl,smtp和skype應用上,Bayes網絡的分類能力卻不及決策樹方法。

        綜上所述,決策樹方法盡管在小的訓練集下分類效率不及Bayes網絡,但從圖2(a)中可以發(fā)現隨著訓練集合容量的增大,各種應用的分類精度呈現不斷上升的趨勢。而Bayes網絡在skype,smtp和ssl應用上的提升趨勢卻不是十分顯著。可見,決策樹方法在3種方法中具有較好的優(yōu)勢。

        除了從分類精度上對上述3種方法進行了比較外,還從模型的訓練時間上進行了對比(圖3)。從圖3中可以發(fā)現,樸素Bayes方法的模型訓練時間是最短的,在訓練集合增大到21 000條記錄時,訓練時間仍未超過0.5 s。決策樹方法與Bayes網絡的訓練時間基本接近,且與訓練集合的容量成線性增長關系,即算法的時間復雜度為O(n)。因此,從可計算理論的角度看,決策樹和Bayes網絡的算法復雜度是比較好的。

        圖3 3種機器學習方法在不同訓練集下的模型建立時間Fig.3 Time taken to build models with three machine learning methods

        6 結 語

        從Netflow數據出發(fā),利用樸素Bayes方法、Bayes網絡和決策樹算法3種機器學習方法對Netflow數據中的應用類型進行了分類。實驗仿真結果表明,這3種方法中決策樹方法和Bayes網絡具有較好的分類性能。在有足夠的訓練實例下,各種應用在決策樹方法中可達到理想的分類準確率。本研究的工作充分證明了Netflow數據應用于流量分類的可行性,從而改變了以往認為Netflow數據不適合流量分類的觀點。在Netflow的基礎上進行流量分類具有良好的實用性,與現有設備可保持良好的兼容性,因此,非常具有實際推廣意義。

        [1] Bernaille L,Teixeira R,Salamatian K.Early application identification[C]∥Proceedings of the 2006 ACM Co NEXT conference.New York:ACM,2006:6.

        [2] Kim H,Claffy K C,Fomenkov M,et al.Internet traffic classification demystified:myths,caveats,and the best practices[C]∥Proceedings of the 2008 ACM Co NEXT conference.New York:ACM,2008:11.

        [3] Iliofotou M,Kim H,Faloutsos M,et al.Graph-based P2P traffic classification at the internet backbone[C]. INFOCOM Workshops 2009,IEEE.Riode Janeiro:IEEE,2009:1-6.

        [4] Karagiannis T,Papagiannaki K,Faloutsos M.BLINC:multilevel traffic classification in the dark[J].ACM SIGCOMM Computer Communication Review,2005,35(4):229-240.

        [5] Valenti S,Rossi D,Meo M,et al.Accurate,fine-grained classification of P2P-TV applications by simply counting packets[M]∥Traffic Monitoring and Analysis.Papadopouli M,Owezarski P,Pras A.Berlin:Springer,2009:84-92.

        [6] Moore A W,Zuev D,Crogan M L.Discriminators for use in flow-based classification[EB/OL].(2012-10-09)[2014-03-10].http:∥www.cl.cam.ac.uk/~awm22/publications/RR-05-13.pdf.

        [7] Claise B.Cisco Systems NetFlow Services Export Version9:RFC 3954(Informational)[EB/OL].(2004-10-01)[2014-03-10].http:∥tools.ietf.org/html/rfc3954.html.

        [8] Auld T,Moore A W,Gull S F.Bayesian neural networks for internet traffic classification[J].IEEE Transactions on Neural Networks,2007,18(1):223-239.

        [9] Crotti M,Dusi M,Gringoli F,et al.Traffic classification through simple statistical fingerprinting[J].ACM SIGCOMM Computer Communication Review,2007,37(1):5-16.

        [10] Haffner P,Sen S,Spatscheck O,et al.ACAS:automated construction of application signatures[C]∥Proceedings of the 2005 ACM SIGCOMM workshop on mining network data.New York:ACM,2005:197-202.

        [11] Jiang H,Moore A W,Ge Z,et al.Lightweight application classification for network management[C]∥Proceedings of the 2007 SIGCOMM workshop on Internet network management.New York:ACM,2007:299-304.

        [12] Moore A W,Zuev D.Internet traffic classification using bayesian analysis techniques[C]∥ACM SIGMETRICS Performance Evaluation Review.New York:ACM,2005,33(1):50-60.

        [13] Roughan M,Sen S,Spatscheck O,et al.Class-of-service mapping for QoS:a statistical signature-based approach to IP traffic classification[C]∥Proceedings of the 4th ACM SIGCOMM conference on Internet measurement.New York:ACM,2004:135-148.

        [14] Zuev D,Moore A W.Traffic classification using a statistical approach[M]∥Passive and Active Network Measurement. Berlin:Springer,2005:321-324.

        [15] SzabóG,SzabóI,Orincsay D.Accurate traffic classification[C]∥World of Wireless,Mobile and Multimedia Networks,2007.Espoo:IEEE,2007:1-8.

        [16] Erman J,Mahanti A,Arlitt M,et al.Identifying and discriminating between web and peer-to-peer traffic in the network core[C]∥Proceedings of the 16th international conference on World Wide Web.New York:ACM,2007:883-892.

        Traffic classification based on netflow

        QIAN Yaguan
        (School of Sciences,Zhejiang University of Science and Technology,Hangzhou 310023,China)

        Due to the limited traffic information provided by Netflow,it is not considered as a suitable data set for traffic classification traditionally.We construct a richer feature space based on Netflow,and use machine learning methods(the decision tree,Navie Bayes and Bayes network)to explore the traffic classification.The experimental results show that the decision tree built on Netflow dataset has better precision than other two methods,and reinforce our suggestion that Netflow is fully appropriate for classification.

        Netflow;machine learning;traffic classification

        TN915.04

        A

        1671-8798(2014)05-0339-06

        10.3969/j.issn.1671-8798.2014.05.004

        2014-05-09

        浙江省網絡媒體云處理與分析工程技術中心開放課題(2012E10023-14)

        錢亞冠(1976― ),男,浙江省嵊州人,副教授,博士,主要從事互聯(lián)網流量建模、流量分類、流量異常檢測、機器學習與大數據處理等研究。

        猜你喜歡
        分類特征方法
        分類算一算
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        分類討論求坐標
        數據分析中的分類討論
        教你一招:數的分類
        抓住特征巧觀察
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        亚洲一区在线二区三区| 五月天丁香久久| 9丨精品国产高清自在线看| 日韩一区中文字幕在线| 国内精品免费一区二区三区 | 日韩字幕无线乱码免费| 国产精品一区二区三久久不卡 | 香蕉视频在线观看亚洲| 日本系列有码字幕中文字幕| 亚洲午夜久久久久久久久电影网| 日本高清视频www| 国产精品自在拍在线播放| av草草久久久久久久久久久| 在线亚洲精品中文字幕美乳色| 2019nv天堂香蕉在线观看| 夜夜高潮夜夜爽夜夜爱爱| 成人午夜视频一区二区无码| 国产一区二区三区在线影院| 人妻少妇精品久久久久久| 久久综合精品国产丝袜长腿 | 91麻豆精品激情在线观最新| 国产一区二区三区成人| 337p日本欧洲亚洲大胆| 日韩精品一区二区三区视频| 日韩国产自拍精品在线| 久久免费看的少妇一级特黄片| 18禁无遮拦无码国产在线播放| 亚洲免费视频播放| 天天综合色中文字幕在线视频 | 一本大道香蕉视频在线观看| 久久蜜臀av一区三区| 国产精品婷婷久久爽一下| 国产96在线 | 欧美| 99热这里只有精品久久6| 在教室轮流澡到高潮h免费视| 久久久久亚洲av成人网人人网站 | 在线中文字幕乱码英文字幕正常 | 亚洲精品无码久久久久去q| 伊人网综合在线视频| 久久夜色精品国产亚洲av老牛| 久久亚洲av成人无码国产最大|