亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的網(wǎng)絡(luò)流量分類研究

        2021-04-17 16:05:32顧玥李丹高凱輝
        電信科學(xué) 2021年3期
        關(guān)鍵詞:實(shí)時(shí)性字節(jié)數(shù)據(jù)包

        顧玥,李丹,,高凱輝

        (1. 清華大學(xué),北京 100084;2. 清華大學(xué)深圳國(guó)際研究生院,廣東 深圳 518055)

        1 引言

        隨著互聯(lián)網(wǎng)的不斷發(fā)展,不同類型的應(yīng)用程序不斷涌現(xiàn)。應(yīng)用程序會(huì)產(chǎn)生大量的網(wǎng)絡(luò)流量,而不同類型的流量會(huì)呈現(xiàn)出不同的特征。流量分類的目標(biāo)就是根據(jù)流量的區(qū)分性特征識(shí)別流量的類別[1]。網(wǎng)絡(luò)流量分類對(duì)網(wǎng)絡(luò)運(yùn)營(yíng)商是十分必要的:一方面,從用戶服務(wù)質(zhì)量(QoS)的角度來說,流量分類是保障QoS的第一步,是根據(jù)不同業(yè)務(wù)類型的要求為業(yè)務(wù)提供區(qū)分服務(wù)的前提[1];另一方面,從安全的角度來說,流量分類是異常網(wǎng)絡(luò)流量檢測(cè)的第一步,可以更好地保護(hù)網(wǎng)絡(luò)安全[2]。近幾年,隨著用戶對(duì)隱私保護(hù)需求的不斷增加,以及加密技術(shù)的不斷發(fā)展,越來越多的流量被加密處理,這對(duì)網(wǎng)絡(luò)流量分類提出了新的挑戰(zhàn)。

        傳統(tǒng)的流量分類方法有兩類:一類是基于端口號(hào)的識(shí)別方法,即根據(jù)端口號(hào)對(duì)應(yīng)的協(xié)議號(hào)進(jìn)行識(shí)別,但隨著端口混淆技術(shù)的出現(xiàn),這種方法漸漸失效[1];另一類是基于DPI的識(shí)別方法,即基于預(yù)定義的各個(gè)類別的正則表達(dá)式,匹配數(shù)據(jù)包負(fù)載以確定類別。但這種方法隨著流量加密也漸漸不可行[1]。

        隨著傳統(tǒng)的流量分類方法的失效,研究者開始探索新的流量分類方法。近年來不斷發(fā)展的機(jī)器學(xué)習(xí)技術(shù)受到了研究者的廣泛關(guān)注。機(jī)器學(xué)習(xí)技術(shù)相較于傳統(tǒng)分類方法更加自動(dòng)化和智能化,可以根據(jù)流的統(tǒng)計(jì)特征分類,避免了流量加密帶來的影響。鑒于這個(gè)優(yōu)勢(shì),研究者提出基于機(jī)器學(xué)習(xí)算法做流量分類的方法,目前廣泛使用的機(jī)器學(xué)習(xí)算法有決策樹算法、隨機(jī)森林算法、支持向量機(jī)算法等。這些分類方法都具有良好的分類準(zhǔn)確性,并且得到了學(xué)術(shù)界和工業(yè)界的廣泛認(rèn)可。然而基于機(jī)器學(xué)習(xí)的流量分類方法需要專家經(jīng)驗(yàn)提取和篩選流量的特征,這會(huì)消耗大量的人力資源??紤]到這一點(diǎn),研究者又提出了基于深度學(xué)習(xí)的端到端的流量分類方法[3]?;谏疃葘W(xué)習(xí)的方法可以直接基于原始的流量數(shù)據(jù)進(jìn)行分類,不需要人為提取特征,一方面節(jié)省了人力,另一方面保證了分類準(zhǔn)確性,成為學(xué)術(shù)界研究的熱點(diǎn)[3]。

        雖然目前有大量的流量分類研究工作,但大部分流量分類方法在線上部署時(shí)仍面臨著很多問題。首先,由于運(yùn)營(yíng)商傾向于在骨干網(wǎng)邊緣上進(jìn)行流量分類,無論在高速的骨干網(wǎng)絡(luò)中進(jìn)行流量采集還是在線下做骨干網(wǎng)流量數(shù)據(jù)標(biāo)注都非常困難。即使能夠在網(wǎng)絡(luò)邊緣設(shè)備上采集到流量數(shù)據(jù),也會(huì)因?yàn)闊o法控制采集的流量類型而出現(xiàn)樣本不均衡問題,影響分類的準(zhǔn)確性[4]。其次,如何將流量分類器部署到邊緣網(wǎng)絡(luò)設(shè)備中也是一個(gè)需要考慮的問題。在網(wǎng)絡(luò)設(shè)備中,存儲(chǔ)空間和CPU性能都非常有限[5],這對(duì)分類器的部署來說是很大的挑戰(zhàn)。最后,新應(yīng)用程序的層出不窮使得分類器應(yīng)該具有對(duì)新流量進(jìn)行準(zhǔn)確識(shí)別的能力[6],而新流量呈現(xiàn)的新特性加大了流量分類的難度。

        2 網(wǎng)絡(luò)流量分類問題概述

        2.1 問題定義

        (1)流

        網(wǎng)絡(luò)流是網(wǎng)絡(luò)數(shù)據(jù)包的集合。把具有相同五元組(源IP地址、源端口號(hào)、目的IP地址、目的端口號(hào)、協(xié)議號(hào))的數(shù)據(jù)包集合定義為一條流。流根據(jù)其方向性,可以分為單向流(源、目的不可互換)和雙向流(源、目的可互換)兩種。

        (2)流量分類

        流量分類的目標(biāo)就是根據(jù)流量的區(qū)分性特征將流量的類別識(shí)別出來[1]。

        (3)特征選擇

        流量的特征分為包級(jí)特征和流級(jí)特征兩種。包級(jí)特征即包大小、包時(shí)間間隔、包的原始字節(jié)(又分為包頭的原始字節(jié)和包負(fù)載的原始字節(jié))等。流級(jí)特征即流的長(zhǎng)度(即包的個(gè)數(shù))、流的持續(xù)時(shí)間等。

        以上是基本的流量特征選擇,不同的研究工作會(huì)在此基礎(chǔ)上進(jìn)行特征選擇。

        (4)分類粒度

        網(wǎng)絡(luò)流量分類問題有3種不同的分類粒度:應(yīng)用識(shí)別、大類識(shí)別、用戶行為識(shí)別。不同的流量分類場(chǎng)景要求不同的分類粒度。如果運(yùn)營(yíng)商想要監(jiān)測(cè)各應(yīng)用程序流量占比情況,或想要識(shí)別惡意應(yīng)用程序,那么分類粒度就是應(yīng)用識(shí)別,即識(shí)別應(yīng)用程序的名稱,例如微信、QQ、愛奇藝等應(yīng)用程序;如果運(yùn)營(yíng)商想要為不同類型應(yīng)用程序提供區(qū)分服務(wù),以滿足不同的需求,那么分類粒度就是大類識(shí)別,即識(shí)別不同應(yīng)用程序的類型,例如即時(shí)通信類應(yīng)用、文件傳輸類應(yīng)用、視頻類應(yīng)用;如果運(yùn)營(yíng)商想要掌握用戶在使用應(yīng)用程序時(shí)的用戶行為,那么分類粒度就是用戶行為識(shí)別,例如發(fā)送圖片、語音、文字等用戶行為。

        2.2 性能指標(biāo)

        流量分類的分類指標(biāo)有兩個(gè),一個(gè)是準(zhǔn)確性,另一個(gè)是實(shí)時(shí)性。準(zhǔn)確性是分類問題的重要指標(biāo),是評(píng)判分類效果的重要標(biāo)準(zhǔn)。準(zhǔn)確性度量指標(biāo)有4個(gè):準(zhǔn)確率(accuracy)、精度(precision)、召回率(recall)、F1分?jǐn)?shù)(F1-score)。計(jì)算過程如下。

        · 真正(true positive,TP):表示被分類模型正確預(yù)測(cè)的正樣本數(shù)。

        · 假負(fù)(false negative,F(xiàn)N):表示被分類模型錯(cuò)誤預(yù)測(cè)的正樣本數(shù)。

        · 假正(false positive,F(xiàn)P):表示被分類模型錯(cuò)誤預(yù)測(cè)的負(fù)樣本數(shù)。

        · 真負(fù)(true negative,TN):表示被分類模型正確預(yù)測(cè)的負(fù)樣本數(shù)。此外,有些應(yīng)用是時(shí)延敏感型應(yīng)用,例如在線搜索、社交網(wǎng)絡(luò)、在線零售等。這些應(yīng)用的服務(wù)時(shí)間直接影響應(yīng)用的用戶體驗(yàn)甚至運(yùn)營(yíng)商的效益。時(shí)延敏感型應(yīng)用的數(shù)據(jù)流大部分是短流,持續(xù)時(shí)間為幾十到幾百微秒。因此為了滿足這些時(shí)延敏感型應(yīng)用的性能需求,需要保證分類的實(shí)時(shí)性,即實(shí)現(xiàn)快速分類。實(shí)時(shí)性即對(duì)整個(gè)分類過程所花費(fèi)的時(shí)間進(jìn)行度量。整個(gè)流量分類的過程分為兩步:特征獲取和分類器分類。因此實(shí)時(shí)性指標(biāo)度量公式定義如下:

        3 網(wǎng)絡(luò)流量分類方法

        3.1 基于機(jī)器學(xué)習(xí)的方法

        基于機(jī)器學(xué)習(xí)的流量分類方法的分類過程包括兩個(gè)階段:特征提取和分類器分類。整個(gè)流程如圖1所示。

        特征提取/特征選擇階段通常是對(duì)數(shù)據(jù)流的包大小、包時(shí)間間隔等包級(jí)特征求取平均值、方差、中位數(shù)、分位數(shù)等統(tǒng)計(jì)特征,并進(jìn)一步做特征分析,選取有效特征。由于這一階段需要收集足夠多的數(shù)據(jù)包,并且往往都伴隨著一定時(shí)間的特征計(jì)算和特征選擇,因此不利于分類的實(shí)時(shí)性。

        圖1 基于機(jī)器學(xué)習(xí)的分類方法流程

        目前有大量基于機(jī)器學(xué)習(xí)的流量分類方法被提出。Auld等[7]提出了一種貝葉斯神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)經(jīng)過訓(xùn)練可以對(duì)包括Kazaa、BitTorrent、GnuTella等著名的P2P協(xié)議進(jìn)行分類,并實(shí)現(xiàn)99%的準(zhǔn)確率。Moore等[8]使用樸素貝葉斯分類器和核密度估計(jì)器,基于流的統(tǒng)計(jì)特征來分類,統(tǒng)計(jì)特征包括流內(nèi)包大小、包時(shí)間間隔的平均值、方差、中位數(shù)、分位數(shù)等特征,最終分類準(zhǔn)確率達(dá)到96%。Draper等[9]使用k-NN和C4.5決策樹算法,基于包的到達(dá)時(shí)間間隔最大最小值等時(shí)間相關(guān)特征表征網(wǎng)絡(luò)流量,最終分類召回率高達(dá)92%。使用C4.5算法,在VPN數(shù)據(jù)集上也達(dá)到了大約88%的召回率。Yamansavascilar等[10]手動(dòng)選擇了參考文獻(xiàn)[11]中描述的111個(gè)流特征,使用k-NN算法,在對(duì)14類應(yīng)用進(jìn)行分類的過程中獲得了94%的準(zhǔn)確率。然而在使用k-NN分類器用于預(yù)測(cè)時(shí),算法的執(zhí)行時(shí)間是需要考慮的問題。2016年Taylor等[12]則提出基于突發(fā)數(shù)據(jù)流進(jìn)行分類,考慮數(shù)據(jù)流傳輸?shù)膬蓚€(gè)方向(源、目的地址互換),分別統(tǒng)計(jì)流的包大小序列,對(duì)于每個(gè)序列分別計(jì)算平均值、最小值、最大值、分位數(shù)等18個(gè)統(tǒng)計(jì)特征,最后使用支持向量回歸算法和隨機(jī)森林算法取得了99%的分類準(zhǔn)確率。2019年Shen等[13]提出了一種去中心化應(yīng)用識(shí)別方法,提出在雙向數(shù)據(jù)流的統(tǒng)計(jì)特征的基礎(chǔ)上使用核函數(shù)進(jìn)行特征融合,再進(jìn)一步進(jìn)行特征篩選,最后實(shí)現(xiàn)92%的分類準(zhǔn)確率。

        基于機(jī)器學(xué)習(xí)的流量分類方法的主要缺點(diǎn)是需要專家經(jīng)驗(yàn)提取和篩選特征,因此這些方法既耗時(shí)又昂貴,而且容易出現(xiàn)人為錯(cuò)誤。于是,研究者漸漸把目光放到可以自主學(xué)習(xí)特征的深度學(xué)習(xí)上來。

        3.2 基于深度學(xué)習(xí)的方法

        基于深度學(xué)習(xí)的方法避免了根據(jù)專家經(jīng)驗(yàn)選擇特征的過程,可以通過訓(xùn)練自主學(xué)習(xí)特征。這一特點(diǎn)使得深度學(xué)習(xí)成為一種非常理想的流量分類方法。而且深度學(xué)習(xí)模型是端到端的模型,可以直接學(xué)習(xí)到原始輸入和對(duì)應(yīng)輸出之間的非線性關(guān)系,不需要將問題分解為特征獲取和分類器分類兩個(gè)問題。基于深度學(xué)習(xí)的分類過程如圖2所示。

        圖2 基于深度學(xué)習(xí)的分類過程

        基于深度學(xué)習(xí)的流量分類方法分為兩類:基于數(shù)據(jù)包的原始字節(jié)特征和基于流內(nèi)數(shù)據(jù)包序列特征?;跀?shù)據(jù)包的原始字節(jié)特征的方法指分類器的輸入是數(shù)據(jù)包原始字節(jié)內(nèi)容,基于流內(nèi)數(shù)據(jù)包序列特征的方法指分類器的輸入是流內(nèi)數(shù)據(jù)包包大小、包時(shí)間間隔序列等特征。

        Lotfollahi等[1]提出的 DeepPacket是基于數(shù)據(jù)包原始字節(jié)特征的深度學(xué)習(xí)方法的代表,它提出以每個(gè)數(shù)據(jù)包作為輸入樣本,不需要專家經(jīng)驗(yàn)提取特征,只需要把數(shù)據(jù)包的原始字節(jié)作為特征,分類模型為一維卷積神經(jīng)網(wǎng)絡(luò)(1DCNN)和稀疏自動(dòng)編碼機(jī)(SAE),最終取得98%的分類準(zhǔn)確率。Wang等[3]提出使用每條數(shù)據(jù)流(單向流/雙向流)的前784字節(jié)作為模型輸入,并分別基于一維卷積神經(jīng)網(wǎng)絡(luò)(1DCNN)和二維卷積神經(jīng)網(wǎng)絡(luò)(2DCNN)兩個(gè)模型做實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明:1DCNN的效果更好,可以達(dá)到90%以上的準(zhǔn)確率。Li等[14]將循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)引入網(wǎng)絡(luò)流量分類中,設(shè)計(jì)了一種新的神經(jīng)網(wǎng)絡(luò)——字節(jié)段神經(jīng)網(wǎng)絡(luò)(BSNN)。BSNN直接將數(shù)據(jù)包作為模型輸入,實(shí)驗(yàn)結(jié)果表明,在對(duì)5個(gè)協(xié)議分類的過程中,BSNN的F1-score平均值約為95.82%。Xie等[15]提出了一種基于自注意力機(jī)制的流分類方法SAM,把每個(gè)數(shù)據(jù)包的包頭原始字節(jié)作為模型輸入,這種方法在協(xié)議識(shí)別和應(yīng)用識(shí)別上分別取得了98.62%和98.93%的F1-score平均值。

        Liu等[16]提出的FS-Net是基于流內(nèi)數(shù)據(jù)包序列特征的深度學(xué)習(xí)方法的代表,時(shí)序特征采用的是流內(nèi)數(shù)據(jù)包大小序列,并基于此提出一種基于自動(dòng)編碼機(jī)(auto-encoder)的重構(gòu)機(jī)制,這種重構(gòu)機(jī)制使得模型能夠?qū)W習(xí)到最有利于分類且最能代表這條數(shù)據(jù)流的特征,最終的分類準(zhǔn)確率高達(dá)99%。Lopez-Martin等[17]提出基于數(shù)據(jù)流前20個(gè)數(shù)據(jù)包的端口號(hào)、包負(fù)載長(zhǎng)度、包間隔時(shí)間、窗口大小等屬性構(gòu)成20×6的矩陣,并輸入給卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長(zhǎng)短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)(LSTM)的組合模型,最終準(zhǔn)確率可以達(dá)到96%以上。Shapira等[18]提出根據(jù)單向數(shù)據(jù)流的包大小、包到達(dá)時(shí)間將數(shù)據(jù)流轉(zhuǎn)換成圖片,然后通過CNN模型做分類,最終分類準(zhǔn)確率可以達(dá)到99.7%。

        無論是基于數(shù)據(jù)包原始字節(jié)特征的深度學(xué)習(xí)方法還是基于流內(nèi)數(shù)據(jù)包序列特征的深度學(xué)習(xí)方法都有各自的優(yōu)缺點(diǎn)。基于數(shù)據(jù)包原始字節(jié)特征的深度學(xué)習(xí)方法的優(yōu)點(diǎn)是可以直接根據(jù)數(shù)據(jù)包的字節(jié)內(nèi)容做推理,做到實(shí)時(shí)分類,但分類結(jié)果依賴于數(shù)據(jù)包負(fù)載的內(nèi)容。當(dāng)流量加密時(shí),數(shù)據(jù)包負(fù)載部分不再可用;而數(shù)據(jù)包的IP地址和端口字段也會(huì)對(duì)分類效果造成極大的影響,帶來過擬合問題?;诹鲀?nèi)數(shù)據(jù)包序列特征的深度學(xué)習(xí)方法的優(yōu)點(diǎn)是不依賴于數(shù)據(jù)包原始內(nèi)容,對(duì)于加密流量更靈活,但需要等待一段時(shí)間的數(shù)據(jù)包以構(gòu)成時(shí)序序列,因此分類實(shí)時(shí)性差。

        通過對(duì)基于機(jī)器學(xué)習(xí)和基于深度學(xué)習(xí)的流量分類方法的闡述與分析,本文從是否需要人為特征提取、是否適用于加密流量、是否能夠滿足實(shí)時(shí)性和準(zhǔn)確性4個(gè)角度總結(jié)了這兩類方法的優(yōu)缺點(diǎn),見表1。

        基于機(jī)器學(xué)習(xí)的流量分類方法由于需要專家經(jīng)驗(yàn)提取和篩選特征,因此既耗時(shí)又昂貴,而且容易出現(xiàn)人為錯(cuò)誤。而基于深度學(xué)習(xí)的方法可以通過訓(xùn)練自主學(xué)習(xí)到原始輸入和對(duì)應(yīng)輸出之間的非線性關(guān)系,不需要將問題分解為特征獲取和分類器分類兩個(gè)問題,因此避免了依據(jù)專家經(jīng)驗(yàn)選擇特征的過程。然而無論是基于機(jī)器學(xué)習(xí)的方法還是基于流內(nèi)數(shù)據(jù)包序列特征的深度學(xué)習(xí)方法,由于都需要收集一段時(shí)間的數(shù)據(jù)包以計(jì)算統(tǒng)計(jì)特征或者獲取數(shù)據(jù)包時(shí)序序列,因此都無法做到實(shí)時(shí)分類。基于數(shù)據(jù)包原始字節(jié)特征的深度學(xué)習(xí)方法則可以對(duì)一個(gè)數(shù)據(jù)包進(jìn)行分類,滿足實(shí)時(shí)性的要求,但由于依賴包的字節(jié)內(nèi)容,因此容易導(dǎo)致過擬合,影響分類效果。

        從表1可以看出,當(dāng)考慮實(shí)時(shí)性、準(zhǔn)確性兩個(gè)指標(biāo)時(shí),無論是基于機(jī)器學(xué)習(xí)還是基于深度學(xué)習(xí)的流量分類方法都不是完美的,還有一定的改進(jìn)空間。與此同時(shí),運(yùn)營(yíng)商為了更好地提供服務(wù),需要將整個(gè)分類系統(tǒng)落地,這就會(huì)給分類系統(tǒng)帶來更多的問題和挑戰(zhàn)。

        4 網(wǎng)絡(luò)流量分類的線上部署及挑戰(zhàn)

        從運(yùn)營(yíng)商的角度來看,為了保障用戶的服務(wù)質(zhì)量,更好地做流的優(yōu)先級(jí)調(diào)度,運(yùn)營(yíng)商會(huì)選擇在骨干網(wǎng)的邊緣設(shè)備上部署流量分類模型,運(yùn)營(yíng)商流量分類模型部署點(diǎn)如圖3所示。

        表1 基于機(jī)器學(xué)習(xí)與基于深度學(xué)習(xí)的流量分類方法優(yōu)缺點(diǎn)

        圖3 運(yùn)營(yíng)商流量分類模型部署點(diǎn)(五角星位置)

        從圖3可以看出,運(yùn)營(yíng)商選擇將分類模型部署在網(wǎng)絡(luò)邊緣設(shè)備(交換機(jī)、路由器等)。這樣的部署方式會(huì)帶來3個(gè)問題:首先,由于模型的線下訓(xùn)練需要大量的流量數(shù)據(jù),因此需要在骨干網(wǎng)采集流量。一方面,骨干網(wǎng)的流量速率>40 Gbit/s[19],在這樣的高速網(wǎng)絡(luò)環(huán)境下對(duì)數(shù)據(jù)采集的要求極高,準(zhǔn)確的線下數(shù)據(jù)標(biāo)注也是難題;另一方面,對(duì)骨干網(wǎng)流量進(jìn)行采集時(shí),由于無法限制各類別流量的比例,因此會(huì)導(dǎo)致數(shù)據(jù)集樣本不均衡問題,影響分類的準(zhǔn)確率。其次,在網(wǎng)絡(luò)設(shè)備上部署分類模型需要考慮3個(gè)開銷:內(nèi)存開銷、時(shí)間開銷和計(jì)算開銷。一方面,設(shè)備的存儲(chǔ)空間有限,如果想達(dá)到快速分類的目的,模型和數(shù)據(jù)的存儲(chǔ)開銷需要小于CPU上緩存的存儲(chǔ)空間,也就是小于幾兆字節(jié)[20];另一方面,由于在骨干網(wǎng)中數(shù)據(jù)流的速度非???,并且需要應(yīng)對(duì)大量的并發(fā)流,因此對(duì)特征獲取速度和分類速度提出了更高的要求;而且,由于網(wǎng)絡(luò)設(shè)備的計(jì)算資源有限,因此也要求盡量減少特征處理和模型推理時(shí)導(dǎo)致的CPU資源開銷。最后,在線上分類時(shí),分類器會(huì)對(duì)各種各樣類型的流量分類,然而隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,越來越多的新應(yīng)用不斷涌現(xiàn),這就要求線上分類時(shí)能夠及時(shí)識(shí)別出新應(yīng)用的流量。由于新應(yīng)用的流量呈現(xiàn)出新的特性,因此給新應(yīng)用識(shí)別帶來了難度。

        雖然目前無論是基于機(jī)器學(xué)習(xí)方法還是基于深度學(xué)習(xí)方法已經(jīng)有大量的流量分類研究工作,但把現(xiàn)有的工作直接進(jìn)行線上部署是不可行的:根據(jù)表1可知,基于機(jī)器學(xué)習(xí)的流量分類方法和基于流內(nèi)數(shù)據(jù)包序列特征的深度學(xué)習(xí)方法都面臨分類實(shí)時(shí)性的問題,而且無論是哪種方法在訓(xùn)練時(shí)都是固定類別數(shù)進(jìn)行訓(xùn)練的,所以都無法應(yīng)對(duì)新應(yīng)用流量的識(shí)別問題。因此,有研究者提出在機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法的基礎(chǔ)上針對(duì)這3個(gè)問題做出一些改進(jìn)。

        4.1 數(shù)據(jù)集

        由于在骨干網(wǎng)絡(luò)中數(shù)據(jù)集采集是不可控的,無法控制采集的流量類別,因此會(huì)帶來數(shù)據(jù)集樣本分布不均衡的問題。目前針對(duì)流量數(shù)據(jù)集樣本不均衡問題有很多研究工作。除了傳統(tǒng)的欠采樣、過采樣方法,有研究者提出使用生成對(duì)抗網(wǎng)絡(luò)(GAN)解決樣本不均衡問題。Ly等[21]提出使用ACGAN為少樣本生成合成數(shù)據(jù)以達(dá)到數(shù)據(jù)均衡的效果,并基于這種方法使得流量分類的準(zhǔn)確性得到很大的改善。Zheng等[4]提出一種名為RBRN的框架,這個(gè)框架基于Glow模型[22]構(gòu)建一個(gè)名為“hallucinator”的流量生成器應(yīng)對(duì)樣本不均衡問題,并基于元學(xué)習(xí)(meta-learning)方法進(jìn)行小樣本學(xué)習(xí)。這兩個(gè)工作的對(duì)比結(jié)果見表2。

        表2 ACGAN與RBRN對(duì)比

        然而,事實(shí)上數(shù)據(jù)樣本不均衡只是數(shù)據(jù)集問題的一小部分,數(shù)據(jù)集最難也最關(guān)鍵的問題是如何在高速骨干網(wǎng)絡(luò)下進(jìn)行數(shù)據(jù)采集和做線下數(shù)據(jù)標(biāo)注。目前的骨干網(wǎng)流量標(biāo)注方法仍然是基于深度包檢測(cè)(deep packet inspection,DPI)的方法,這種方法隨著加密流量的逐漸增多而逐漸失效,因此目前并沒有任何工作能夠解決骨干網(wǎng)絡(luò)數(shù)據(jù)采集難和標(biāo)注難的問題。

        4.2 部署開銷

        目前流量分類的研究工作關(guān)注點(diǎn)有兩個(gè):如何獲取有效的流量特征和如何提高分類的準(zhǔn)確率。然而對(duì)于線上部署來說,一方面由于需要面對(duì)網(wǎng)絡(luò)中的高速并發(fā)流,另一方面由于網(wǎng)絡(luò)設(shè)備的存儲(chǔ)資源和CPU資源非常有限,因此流量分類的研究工作也應(yīng)該考慮存儲(chǔ)開銷、計(jì)算開銷和時(shí)間開銷。為了減少特征的計(jì)算開銷,實(shí)現(xiàn)更快速的流量分類,Garcia等[23]提出一種離散優(yōu)化算法KSD,通過基于統(tǒng)計(jì)特征數(shù)據(jù)分布構(gòu)建直方圖的方式將特征離散化,這種方式大大減少了計(jì)算資源,并實(shí)現(xiàn)了更快速的分類。在此之后,Garcia等[24]又進(jìn)一步基于KSD算法提出了一種基于離散優(yōu)化算法的分類器DISCO。除了特征離散化這種方式以外,Garcia等[25]也曾提出用低計(jì)算開銷特征(例如:給定包大小范圍的數(shù)據(jù)包比例)代替高階統(tǒng)計(jì)特征(例如:數(shù)據(jù)包大小的分位數(shù)),這種方式不但沒有影響分類準(zhǔn)確率,反而提高了分類速度,減小了計(jì)算資源的開銷。

        雖然這幾個(gè)工作于提高分類速度以及減少計(jì)算資源開銷起到了一定的作用,但是這幾個(gè)工作并不適合線上部署。由于KSD算法和使用低開銷替換特征的方式都需要大量的預(yù)處理時(shí)間,這不利于在網(wǎng)絡(luò)設(shè)備上的實(shí)時(shí)推理。

        4.3 新應(yīng)用識(shí)別

        目前已經(jīng)有研究工作關(guān)注到新應(yīng)用識(shí)別這個(gè)問題。RTC[6]是一種結(jié)合監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)方法的解決方案,RTC動(dòng)態(tài)訓(xùn)練一個(gè)新應(yīng)用類別判別器,隨著人為標(biāo)注動(dòng)態(tài)調(diào)整判別器。Zhang等[26]提出的方法和RTC方案相似,都是根據(jù)線上分類結(jié)果動(dòng)態(tài)訓(xùn)練一個(gè)新應(yīng)用類別判別器,區(qū)別在于此方法是基于深度學(xué)習(xí)的分類方法。無論是Zhang等[6]提出的方法還是RTC方案,都需要做兩次推理才能得到分類結(jié)果,這會(huì)嚴(yán)重影響分類的實(shí)時(shí)性。而且這兩種方法都要求已知訓(xùn)練集數(shù)據(jù)的應(yīng)用類別。Ede等[27]提出的FLOWPRINT則不要求任何的類別先驗(yàn)知識(shí),也無須訓(xùn)練過程。通過半監(jiān)督學(xué)習(xí)的方式基于數(shù)據(jù)流的目的IP地址聚類獲得應(yīng)用程序的“指紋”,從而達(dá)到區(qū)分各個(gè)應(yīng)用程序的目的,同時(shí)能夠很準(zhǔn)確地識(shí)別出新應(yīng)用的流量。但FLOWPRINT需要獲取足夠多的數(shù)據(jù)流(5 min內(nèi)的數(shù)據(jù)流)以得到應(yīng)用程序指紋,因此也不利于分類的實(shí)時(shí)性。

        通過對(duì)線上部署時(shí)面臨的3個(gè)問題的相關(guān)工作的闡述與分析,雖然目前很多工作試圖在解決這些問題,但解決辦法仍然不完善,這就給未來的流量分類工作帶來了挑戰(zhàn):如何在高速網(wǎng)絡(luò)下實(shí)現(xiàn)快速數(shù)據(jù)采集?如何在線下實(shí)現(xiàn)準(zhǔn)確數(shù)據(jù)標(biāo)注?如何減小分類模型的部署開銷?如何快速地識(shí)別出新應(yīng)用流量?這就是未來的研究工作在線上部署時(shí)亟須商榷和解決的問題。

        5 結(jié)束語

        網(wǎng)絡(luò)流量分類一直是網(wǎng)絡(luò)管理和網(wǎng)絡(luò)安全的重要任務(wù),準(zhǔn)確并快速地流量分類對(duì)保障用戶服務(wù)質(zhì)量和用戶安全是十分重要的。本文對(duì)網(wǎng)絡(luò)流量分類的研究工作進(jìn)行了梳理和總結(jié)。由于傳統(tǒng)的基于端口號(hào)和基于DPI的流量分類方法隨著端口混淆技術(shù)的使用和加密流量的出現(xiàn)逐漸失效,越來越多的研究工作選擇采取機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法解決流量分類問題。基于機(jī)器學(xué)習(xí)的流量分類方法雖然適用于加密流量,但其需要專家經(jīng)驗(yàn),且實(shí)時(shí)性差;基于深度學(xué)習(xí)的流量分類方法分為兩類:基于數(shù)據(jù)包原始字節(jié)特征的深度學(xué)習(xí)方法和基于流內(nèi)數(shù)據(jù)包序列特征的深度學(xué)習(xí)方法,這兩類方法在實(shí)時(shí)性和準(zhǔn)確性上也有著各自的優(yōu)缺點(diǎn)。雖然目前流量分類已經(jīng)有大量的研究工作,但是當(dāng)在高速網(wǎng)絡(luò)中線上部署時(shí)還是會(huì)遇到數(shù)據(jù)集采集難、部署開銷大以及新應(yīng)用識(shí)別實(shí)時(shí)性差的問題。由于目前還沒有任何一種方案能真正滿足線上部署的要求,因此如何實(shí)現(xiàn)合理有效的線上部署仍然是一個(gè)待解決的問題。

        猜你喜歡
        實(shí)時(shí)性字節(jié)數(shù)據(jù)包
        No.8 字節(jié)跳動(dòng)將推出獨(dú)立出口電商APP
        基于規(guī)則實(shí)時(shí)性的端云動(dòng)態(tài)分配方法研究
        No.10 “字節(jié)跳動(dòng)手機(jī)”要來了?
        SmartSniff
        基于虛擬局域網(wǎng)的智能變電站通信網(wǎng)絡(luò)實(shí)時(shí)性仿真
        簡(jiǎn)談MC7字節(jié)碼
        航空電子AFDX與AVB傳輸實(shí)時(shí)性抗干擾對(duì)比
        基于Libpcap的網(wǎng)絡(luò)數(shù)據(jù)包捕獲器的設(shè)計(jì)與實(shí)現(xiàn)
        一種車載Profibus總線系統(tǒng)的實(shí)時(shí)性分析
        視覺注意的數(shù)據(jù)包優(yōu)先級(jí)排序策略研究
        中文字幕亚洲综合久久菠萝蜜| 99久久亚洲国产高清观看| 成年人免费黄色h网| 日本高清免费播放一区二区| 国产在线av一区二区| 99久久无色码中文字幕人妻蜜柚 | 国产69久久精品成人看| 亚洲国产大胸一区二区三区| 国产三级黄色大片在线免费看 | 午夜理论片yy6080私人影院| 久久九九久精品国产| 亚洲不卡电影| 一区二区亚洲精美视频| 亚洲自拍偷拍色图综合| 国产尤物精品视频| 麻豆国产人妻欲求不满谁演的| 不卡无毒免费毛片视频观看| 亚洲综合中文一区二区| 亚洲精品中文字幕一区二区| 制服丝袜中文字幕在线| 中出人妻中文字幕无码| 欧美精品免费观看二区| 91在线无码精品秘 入口九色十| 国内精品毛片av在线播放| 国产精品久久久久久妇女| 国产一极内射視颍一| 免费中文熟妇在线影片| 中文字幕这里都是精品| 免费黄片小视频在线播放| 亚欧免费无码aⅴ在线观看| 亚洲av永久无码精品一区二区| 免费国产一级特黄aa大片在线| 亚洲第一女人天堂av| 华人免费网站在线观看| 又大又粗又爽18禁免费看| 色综合久久中文综合久久激情| 亚洲av日韩一区二三四五六七| 国产高潮流白浆视频在线观看 | 欧美大胆性生话| 亚洲日韩v无码中文字幕| 亚洲xx视频|