亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        流量的集成學(xué)習(xí)與重采樣均衡分類方法

        2020-03-19 10:45:58顧兆軍趙春迪周景賢
        關(guān)鍵詞:網(wǎng)絡(luò)流量準(zhǔn)確率流量

        顧兆軍,吳 優(yōu),2,趙春迪,3,周景賢

        1.中國(guó)民航大學(xué) 信息安全測(cè)評(píng)中心,天津300300

        2.中國(guó)民航大學(xué) 中歐航空工程師學(xué)院,天津300300

        3.中國(guó)民航大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津300300

        1 引言

        網(wǎng)絡(luò)流量分類是網(wǎng)絡(luò)監(jiān)管的基礎(chǔ)工作,隨著網(wǎng)絡(luò)環(huán)境的不斷擴(kuò)張發(fā)展,網(wǎng)絡(luò)信息監(jiān)管、服務(wù)質(zhì)量控制以及異常檢測(cè)等工作都需要基于流量分類來(lái)提高效率、降低成本。傳統(tǒng)的流量分類方法基于深度包檢測(cè)(Deep Packet Inspection,DPI),通過(guò)人工提取數(shù)據(jù)包中的特征序列并形成特征庫(kù),而隨著流量種類和數(shù)量的增加,特征庫(kù)的維護(hù)成本不斷提高,同時(shí)這種方法無(wú)法應(yīng)對(duì)未知和加密流量[1],因此,基于機(jī)器學(xué)習(xí)的流量分類方法開(kāi)始受到關(guān)注。機(jī)器學(xué)習(xí)是一類分類回歸算法的總稱,其核心思想是通過(guò)現(xiàn)有數(shù)據(jù)形成一個(gè)模型,從而實(shí)現(xiàn)后續(xù)數(shù)據(jù)識(shí)別。機(jī)器學(xué)習(xí)算法已經(jīng)在多個(gè)領(lǐng)域得到了應(yīng)用,并取得了卓越的成果[2]。

        圖1 RES-LGBM流量分類過(guò)程

        基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)流量分類研究起步于2005年,Moore 等人[3]完成了網(wǎng)絡(luò)流量的收集處理,從流量數(shù)據(jù)包中提取出了248 種用于訓(xùn)練的數(shù)據(jù)特征,并使用改進(jìn)核函數(shù)的樸素貝葉斯算法(NBKE)對(duì)流量進(jìn)行了分類,這一系列工作為此后的很多流量分類研究提供了參考。之后的研究中更多著眼于解決流量分類中特定的的問(wèn)題,如算法提速[4]、新型協(xié)議的識(shí)別[5],以及分類機(jī)制的改進(jìn)[6]等,還包含了流量數(shù)據(jù)的不平衡問(wèn)題。

        數(shù)據(jù)不平衡即樣本中不同類別的數(shù)量差距較大,該問(wèn)題于各類應(yīng)用場(chǎng)景中普遍存在,是機(jī)器學(xué)習(xí)領(lǐng)域的十大問(wèn)題之一[7]。由于某類樣本占比較大,在訓(xùn)練過(guò)程中算法會(huì)更偏重該類的分類效果,進(jìn)而導(dǎo)致模型產(chǎn)生偏向性,即對(duì)多數(shù)類的分類效果較好,但對(duì)少數(shù)類效果較差。在網(wǎng)絡(luò)流量數(shù)據(jù)中,正常樣本較多,異常和惡意樣本較少,數(shù)據(jù)不平衡的問(wèn)題十分突出,故需針對(duì)該問(wèn)題進(jìn)行優(yōu)化,以提高少數(shù)類樣本識(shí)別率。

        目前在機(jī)器學(xué)習(xí)領(lǐng)域中主要使用特征選擇的方法,基于代價(jià)敏感的方法以及重抽樣的方法來(lái)處理樣本不均衡問(wèn)題[8]。Zhong 等人[9]于2009 年將重采樣同決策樹(shù)和神經(jīng)網(wǎng)絡(luò)結(jié)合,對(duì)P2P流量進(jìn)行了分類,研究結(jié)果證明了重采樣方法在網(wǎng)絡(luò)流量分類問(wèn)題中的有效性。Liu等人[10]則于2012 年利用BFS 特征選擇方法結(jié)合各種機(jī)器學(xué)習(xí)算法進(jìn)行了流量分類,其中決策樹(shù)算法和BFS結(jié)合(BFS+DT)可以取得良好的分類效果,之后還于2014年[11]對(duì)三種數(shù)據(jù)不平衡的修正方法進(jìn)行了對(duì)比,并以此說(shuō)明了重采樣相對(duì)于另外兩種方法的優(yōu)勢(shì)。Dong 等人[12]于2016 年研究了基于多層概率神經(jīng)網(wǎng)絡(luò)(MPNN)的流量分類,取得了較好的效果。孫興斌等人[13]于2017年使用基于不確定性的混合型特征選擇(FSMID)方法,在一定程度上消除了數(shù)據(jù)不均衡帶來(lái)的影響。王勇等人[14]在2018年基于卷積神經(jīng)網(wǎng)絡(luò)算法(MMN-CNN),提出了一種無(wú)需進(jìn)行特征提取的流量分類方法。上述研究由于機(jī)器學(xué)習(xí)算法本身存在一定缺陷,無(wú)法取得理想的分類效果,特別是對(duì)于少數(shù)類的分類效果較差。針對(duì)該問(wèn)題,本文提出結(jié)合重采樣的梯度增強(qiáng)樹(shù)算法RESLGBM(Resampling in Light Gradient Boosting Ma‐chine),利用二者的優(yōu)勢(shì)互補(bǔ),實(shí)現(xiàn)了更加精確的流量分類。

        2 基于集成機(jī)器學(xué)習(xí)的流量分類方法

        集成學(xué)習(xí)算法的原理是將多個(gè)弱分類器進(jìn)行結(jié)合,即使每個(gè)分類器的準(zhǔn)確率不高,也能形成一個(gè)效果較強(qiáng)的分類器。集成學(xué)習(xí)算法的決策結(jié)果由多個(gè)分類器共同形成,因此能夠有效避免傳統(tǒng)算法存在的過(guò)擬合問(wèn)題,該決策機(jī)制也有效地削弱了噪聲的影響[15]。

        采用RES-LGBM 對(duì)網(wǎng)絡(luò)流量進(jìn)行分類的核心是對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,并采用重采樣算法修正數(shù)據(jù)的不平衡性,再利用LightGBM 算法對(duì)處理后的數(shù)據(jù)進(jìn)行訓(xùn)練,實(shí)現(xiàn)更準(zhǔn)確的流量分類,其過(guò)程如圖1 所示。為進(jìn)行本次實(shí)驗(yàn)研究,需要使用從真實(shí)網(wǎng)絡(luò)環(huán)境中采集,并且已標(biāo)注類別的不均衡流量樣本。

        2.1 機(jī)器學(xué)習(xí)在流量分類中的應(yīng)用

        機(jī)器學(xué)習(xí)方法通常使用樣本的特征向量作為輸入,并以樣本類別作為輸出,而在流量分類中,可用數(shù)據(jù)均為流量數(shù)據(jù)包,該數(shù)據(jù)無(wú)法直接作為算法的輸入,因此需對(duì)其進(jìn)行一定的加工處理。流量分類問(wèn)題中最有價(jià)值的信息為幾乎包含于IP數(shù)據(jù)包的報(bào)頭中,其格式如圖2所示。根據(jù)傳輸協(xié)議的工作方式,可以確定源IP 地址、目的IP 地址、源端口號(hào)、目的端口號(hào)以及傳輸層協(xié)議均相同的數(shù)據(jù)包屬于同一個(gè)流,通過(guò)將同一個(gè)流中的數(shù)據(jù)包頭信息進(jìn)行提取、整合和計(jì)算,便能得到一系列數(shù)據(jù)特征,作為機(jī)器學(xué)習(xí)算法的輸入。使用這類特征的優(yōu)點(diǎn)在于,在數(shù)據(jù)處理過(guò)程中只涉及數(shù)據(jù)包頭,沒(méi)有利用數(shù)據(jù)包本身的內(nèi)容,從而避免了侵犯用戶隱私。

        圖2 IP報(bào)頭格式

        本文使用的數(shù)據(jù)格式如圖3,每條數(shù)據(jù)代表一個(gè)網(wǎng)絡(luò)流,共有248種特征。

        2.2 LightGBM算法

        圖3 處理后數(shù)據(jù)格式

        LightGBM(LGBM)屬于梯度增強(qiáng)樹(shù)算法[16],是集成學(xué)習(xí)算法的一種,該算法主要優(yōu)化了運(yùn)行速度,同時(shí)幾乎沒(méi)有降低算法準(zhǔn)確率。梯度增強(qiáng)樹(shù)算法集成了多個(gè)回歸樹(shù),回歸樹(shù)由決策樹(shù)算法衍生而來(lái),其節(jié)點(diǎn)的分裂方式和決策樹(shù)相同,但對(duì)每個(gè)葉子節(jié)點(diǎn)賦予了分值。LightGBM 的決策機(jī)制如圖4 所示,每棵樹(shù)的生成過(guò)程中都隨機(jī)使用部分樣本和部分?jǐn)?shù)據(jù)特征進(jìn)行訓(xùn)練以確保樹(shù)的多樣性。通過(guò)將集合中多個(gè)回歸樹(shù)的分值相加,即可得到最終的分類結(jié)果[17]。由于需要對(duì)多個(gè)子樹(shù)進(jìn)行訓(xùn)練,梯度增強(qiáng)樹(shù)算法的運(yùn)行速度低于傳統(tǒng)的決策樹(shù),而LGBM 則通過(guò)一系列優(yōu)化手段,使其運(yùn)行速度到了很大提升,但當(dāng)數(shù)據(jù)樣本出現(xiàn)類間不平衡時(shí),仍會(huì)導(dǎo)致其產(chǎn)生分類偏差,需要針對(duì)該問(wèn)題進(jìn)行優(yōu)化。

        圖4 LightGBM分類原理

        2.3 重抽樣算法

        重抽樣就是利用數(shù)據(jù)之間的相關(guān)性,通過(guò)生成或刪除樣本的方式來(lái)改變樣本比例,可分為過(guò)采樣、欠采樣以及將二者相結(jié)合的方法。欠采樣方法是根據(jù)某種規(guī)則,剔除部分多數(shù)類樣本,該方法的優(yōu)點(diǎn)是可以在修正數(shù)據(jù)分布比例的同時(shí)降低運(yùn)算量。缺陷在于使用欠采樣可能丟失部分重要信息。與其相對(duì)的過(guò)采樣方法是指根據(jù)原有樣本生成數(shù)據(jù)來(lái)增加少數(shù)類樣本的比例。使用重采樣的方法能夠使得少數(shù)類的比例增加,從而保證該類樣本在多數(shù)子樹(shù)的生成過(guò)程中得到足夠的訓(xùn)練。雖然一些研究者認(rèn)為這種方法會(huì)改變樣本的分布,但樹(shù)算法的理論基礎(chǔ)是直接對(duì)分類可能性進(jìn)行建模,而無(wú)需對(duì)樣本分布進(jìn)行假設(shè),故樣本分布的改變并不影響LG‐BM的分類效果。本實(shí)驗(yàn)中使用的重采樣算法有ROS(隨機(jī)過(guò)采樣)、RUS(隨機(jī)欠采樣)以及SMOTE-Tomek 算法。

        (1)SMOTE算法

        SMOTE 算法[18]利用了樣本空間中同類樣本距離相近的特點(diǎn),以現(xiàn)有數(shù)據(jù)為參考,使用插值的方式生成數(shù)據(jù)。

        假設(shè)需要將某類樣本的數(shù)量提升為原來(lái)的N 倍,對(duì)其中的每個(gè)樣本,假設(shè)其向量為x,SMOTE 算法尋找與x 距離最近n 個(gè)的同類樣本并隨機(jī)選擇一個(gè)樣本xk,k ∈{1,2,…,n},并生成一個(gè)隨機(jī)數(shù)ξ,合成新樣本:

        x′=x+ξ·(xn-x)

        重復(fù)N-1次,即可使樣本量達(dá)到目標(biāo)數(shù)量。SMOTE算法多用于解決樣本量不足的問(wèn)題,當(dāng)生成的數(shù)據(jù)能夠擬合真實(shí)分布時(shí),將取得良好的效果。

        (2)Tomek-Link

        Tomek-Link 描述了一種樣本間關(guān)系[19],其定義如下。

        定義1假設(shè)樣本空間為X,樣本間距離為d,對(duì)于任意的xi,xj∈X,若不屬于同一類別,且對(duì)于任意的xk∈X,都有d(xi,xk)>d(xi,xj)且d(xj,xk)>d(xi,xj),則稱(xi,xj)為一個(gè)Tomek-link對(duì)。

        可以認(rèn)為一個(gè)Tomek-link 對(duì)中的兩個(gè)樣本中存在噪聲,會(huì)對(duì)模型的訓(xùn)練過(guò)程產(chǎn)生干擾,可以選擇剔除其中的多數(shù)類樣本。相對(duì)于單獨(dú)使用Tomek-link 欠采樣,將SMOTE 與Tomek-link 結(jié)合,可以在刪除更少樣本的條件下達(dá)成樣本量平衡,降低信息損失。

        LGBM 在與重抽樣結(jié)合時(shí)分類效果能夠得到顯著的提升。如圖5 所示,LGBM 算法中為了保證子樹(shù)的多樣性,在每個(gè)子樹(shù)的訓(xùn)練過(guò)程中會(huì)隨機(jī)抽取樣本。當(dāng)數(shù)據(jù)存在類間不平衡時(shí),直接進(jìn)行訓(xùn)練時(shí),由于少數(shù)類樣本在每次的訓(xùn)練中被抽取的概率較低,會(huì)使得大部分子樹(shù)無(wú)法對(duì)少數(shù)類樣本進(jìn)行有效學(xué)習(xí),使得子樹(shù)的結(jié)構(gòu)單一,缺乏對(duì)少數(shù)類的準(zhǔn)確分類能力。而使用重抽樣算法后,不同類樣本會(huì)以相當(dāng)?shù)母怕时怀槿〉?,子?shù)可以生成更多分支,有效提高分類效果。

        圖5 重抽樣對(duì)LGBM的改進(jìn)作用

        3 實(shí)驗(yàn)結(jié)果分析

        本文中實(shí)驗(yàn)利用Python編程實(shí)現(xiàn),實(shí)驗(yàn)程序運(yùn)行平臺(tái)為DELL臺(tái)式機(jī),系統(tǒng)為Ubuntu 64 bit,CPU為2.9 GHz Intel Core i5,內(nèi)存為8 Gb 1 867 MHz DDR3。實(shí)驗(yàn)比較了LGBM與其他算法各自的特點(diǎn),后確定了模型參數(shù)和最優(yōu)特征集合,將最終分類結(jié)果與現(xiàn)有流量分類方法進(jìn)行對(duì)比討論。

        3.1 網(wǎng)絡(luò)流量數(shù)據(jù)集

        本文使用的是于2005 年由劍橋大學(xué)的Moore 等人采集的流量數(shù)據(jù)[19],該數(shù)據(jù)分為兩部分。第一部分為1 000 個(gè)用戶在24 小時(shí)內(nèi)的流量數(shù)據(jù),對(duì)每條TCP 雙向流進(jìn)行特征提取,最終得到377 526個(gè)數(shù)據(jù)樣本,該部分樣本的分布信息如表1 所示。第二部分是一年后以同樣方法再次采集的少量數(shù)據(jù),可用于檢驗(yàn)算法的健壯性。樣本共分為12 類,每個(gè)樣本擁有249 個(gè)屬性[20],最后一項(xiàng)屬性為樣本的類別。該數(shù)據(jù)為多項(xiàng)研究工作提供了支持,并且由真實(shí)環(huán)境采集,數(shù)據(jù)樣本間存在較大數(shù)量差,符合本實(shí)驗(yàn)要求。

        表1 Moore數(shù)據(jù)集樣本比例

        為了得到更可靠的分類效果,在訓(xùn)練模型時(shí)將數(shù)據(jù)集分為訓(xùn)練集、測(cè)試集和驗(yàn)證集三部分,訓(xùn)練集用于訓(xùn)練模型,而驗(yàn)證集則用于優(yōu)化算法的參數(shù)和尋找最優(yōu)特征集合,測(cè)試集則用于最終測(cè)試算法的分類效果。之后根據(jù)此前的研究成果,確定了30 個(gè)候選特征用于初期實(shí)驗(yàn)。

        3.2 評(píng)價(jià)指標(biāo)

        對(duì)于分類效果的評(píng)價(jià)需要統(tǒng)一的標(biāo)準(zhǔn),機(jī)器學(xué)習(xí)中常用的評(píng)價(jià)指標(biāo)有準(zhǔn)確率、召回率以及精度。通過(guò)混淆矩陣,可以計(jì)算這些指標(biāo),混淆矩陣的形式如圖6 所示,四個(gè)灰色部分表示了樣本數(shù)量。

        圖6 混淆矩陣

        (1)準(zhǔn)確率

        準(zhǔn)確率即被正確分類的樣本比例,是一種較為直觀的評(píng)價(jià)指標(biāo),但在數(shù)據(jù)不均衡的場(chǎng)景中不能僅依賴準(zhǔn)確率進(jìn)行評(píng)價(jià)。準(zhǔn)確率的計(jì)算公式如下:

        (2)召回率

        對(duì)某類樣本來(lái)說(shuō),召回率就是其中被分類器識(shí)別出的樣本比例,反映了算法對(duì)該類數(shù)據(jù)的敏感程度,其計(jì)算公式如下:

        (3)精度

        精度又可以成為可信度,表示分類結(jié)果為某一類的樣本中,被正確分類的樣本比例,精度越高表示被誤分為此類的樣本越少,其計(jì)算方式如下:

        對(duì)于召回率和精度,可以通過(guò)計(jì)算幾何平均數(shù)來(lái)評(píng)價(jià)算法在數(shù)據(jù)集整體上的分類效果。

        3.3 與傳統(tǒng)算法對(duì)比

        本文進(jìn)行了不同類算法的初步對(duì)比,首先利用第一部分?jǐn)?shù)據(jù)進(jìn)行模型訓(xùn)練和測(cè)試,對(duì)第二部分?jǐn)?shù)據(jù)則不進(jìn)行訓(xùn)練,直接應(yīng)用得到的模型進(jìn)行測(cè)試以檢測(cè)算法對(duì)于樣本變動(dòng)的健壯性。為了確保對(duì)比結(jié)果的客觀性,沒(méi)有進(jìn)行過(guò)多的算法參數(shù)調(diào)整,各算法中數(shù)據(jù)特征也全部使用預(yù)選出的30 個(gè)特征,對(duì)比的指標(biāo)為算法的分類準(zhǔn)確率,對(duì)比結(jié)果如圖7所示,另外本文對(duì)樣本量為20萬(wàn)、30萬(wàn)和50萬(wàn)的情況下算法訓(xùn)練時(shí)間進(jìn)行了對(duì)比,如圖8所示,因各算法運(yùn)行時(shí)間差距較大,圖中縱坐標(biāo)為對(duì)數(shù)時(shí)間。

        圖7 各類算法準(zhǔn)確率對(duì)比

        圖8 各類算法運(yùn)行時(shí)間對(duì)比

        可以看出,LGBM 在各類算法中擁有較高的準(zhǔn)確率,即使數(shù)據(jù)發(fā)生變化,仍能保持較好的分類效果,擁有良好的健壯性。同時(shí),其運(yùn)行時(shí)間關(guān)于樣本量的變化較小,當(dāng)數(shù)據(jù)量較大時(shí)速度將領(lǐng)先其他算法。以上對(duì)比結(jié)果表明,在網(wǎng)絡(luò)流量的分類中,LGBM 算法能發(fā)揮更好的效果。

        生命起源于海洋,海洋生物中的一些即使是微量的物質(zhì),也可能是陸生動(dòng)物生長(zhǎng)、發(fā)育和繁殖所必須的營(yíng)養(yǎng)物質(zhì)或生理活性物質(zhì)。無(wú)論我們是否了解或定量分析出這些物質(zhì)的種類、化學(xué)結(jié)構(gòu)和含量,它們都是客觀存在的。這或許就是魚(yú)粉相比于陸生動(dòng)物蛋白質(zhì)原料和植物性蛋白質(zhì)原料,可以成為飼料中重要的動(dòng)物蛋白質(zhì)原料所具備的優(yōu)勢(shì),魚(yú)粉的替代物質(zhì)研究和魚(yú)粉的不可替代性機(jī)理研究一直就是動(dòng)物營(yíng)養(yǎng)與飼料領(lǐng)域研究的熱點(diǎn)[1]。

        在實(shí)驗(yàn)的過(guò)程中,由于數(shù)據(jù)的類間不平衡,導(dǎo)致算法對(duì)少數(shù)類的分類效果較差,針對(duì)這一點(diǎn),本文進(jìn)行了特征集合的優(yōu)化、算法參數(shù)的調(diào)整以及數(shù)據(jù)不平衡性的修正,以達(dá)到最佳分類效果。

        3.4 重采樣算法的對(duì)比

        本文針對(duì)梯度增強(qiáng)樹(shù)算法進(jìn)行了特征集合的優(yōu)化,由于LGBM中的子分類器為回歸樹(shù)算法,其節(jié)點(diǎn)分裂方式與決策樹(shù)相近,故本文在特征優(yōu)化中使用決策樹(shù)代替LGBM 以加快優(yōu)化過(guò)程。使用的特征優(yōu)化算法為加N去R 算法,該算法是一種帶回溯性質(zhì)的搜索算法,其過(guò)程如下。

        選擇一個(gè)特征構(gòu)成初始的特征集合,其余特征構(gòu)成備選集合,在每次迭代中都會(huì)向特征集合中隨機(jī)加入N個(gè)特征,再選擇R個(gè)特征移出,直至分類效果達(dá)到最優(yōu),最終得到的特征集合如表2所示。

        表2 數(shù)據(jù)特征集合

        參數(shù)優(yōu)化過(guò)程中,在大范圍對(duì)每個(gè)參數(shù)進(jìn)行搜索,再根據(jù)搜索結(jié)果,在最佳參數(shù)附近進(jìn)行網(wǎng)格搜索,并進(jìn)行交叉驗(yàn)證,最終取得一組最優(yōu)參數(shù),本實(shí)驗(yàn)中參數(shù)對(duì)算法各項(xiàng)指標(biāo)的影響在0.1%以內(nèi)。

        確定算法和數(shù)據(jù)特征后,本文使用不同的算法對(duì)數(shù)據(jù)進(jìn)行重采樣,并對(duì)比了各類別數(shù)據(jù)的分類精度、召回率,以及其集合平均值。本實(shí)驗(yàn)使用的算法包含RUS(Random Under Sampling)、ROS(Random Over Sam‐pling)以及結(jié)合過(guò)采樣與欠采樣的SMOTE-Tomek 算法,對(duì)比結(jié)果如表3、表4所示。

        根據(jù)以上結(jié)果可以看出,三種重采樣方法對(duì)于對(duì)分類效果均有所提升。雖然對(duì)WWW 類樣本的分類效果提升較小,但ROS和SMOTE-Tomek算法使LGBM 算法對(duì)于少數(shù)類的分類效果均得到了明顯改善,特別是P2P、ATTACK、MULTIMEDIA 以及INTERACTIVE 類,召回率和精度均提升了10%以上,整體準(zhǔn)確率也因此從95%提高到了99.8%。這兩種算法都提高了少數(shù)類樣本的比例,使其得到了充分學(xué)習(xí),故將過(guò)采樣與LGBM結(jié)合可以取得良好的效果。而相對(duì)地,應(yīng)用RUS 則無(wú)法帶來(lái)較明顯的提升,因?yàn)榍凡蓸铀惴▋H降低了多數(shù)類樣本的比例,無(wú)法解決少數(shù)類數(shù)據(jù)不充足的問(wèn)題。

        表3 重采樣后精度對(duì)比

        表4 重采樣后召回率對(duì)比

        最后,本文對(duì)比了RES-LGBM 與其他算法的分類效果。根據(jù)圖9 的結(jié)果顯示,其他算法雖然都有較高的整體準(zhǔn)確率,但精度和召回率較低,大多低于90%,相對(duì)地,RES-LGBM 則達(dá)到了90%以上,也因此使得整體準(zhǔn)確率更高。并且RES-LGBM 算法的計(jì)算時(shí)間也處于合理范圍內(nèi),綜合這兩方面,RES-LGBM 在流量分類中可以取得更好的效果。

        圖9 各改進(jìn)算法與RES-LGBM分類效果對(duì)比

        4 結(jié)束語(yǔ)

        本文介紹了各類網(wǎng)絡(luò)流量分類方法以及數(shù)據(jù)不均衡問(wèn)題的解決方法,并針對(duì)流量數(shù)據(jù)不平衡的問(wèn)題,在相關(guān)研究基礎(chǔ)上提出了RES-LGBM 的方法,之后對(duì)流量數(shù)據(jù)特征進(jìn)行優(yōu)化,并實(shí)現(xiàn)了流量分類。通過(guò)對(duì)各類機(jī)器學(xué)習(xí)算法進(jìn)行對(duì)比,驗(yàn)證了在網(wǎng)絡(luò)流量分類中,集成機(jī)器學(xué)習(xí)算法相較于傳統(tǒng)算法的優(yōu)勢(shì),提出利用LGBM算法和重采樣算法互補(bǔ)的特點(diǎn),避免過(guò)擬合并降低數(shù)據(jù)不均衡的影響,提高了流量分類效果。但該方法仍存在一定不足,之后將從以下三個(gè)方面進(jìn)行進(jìn)一步研究:(1)進(jìn)行多個(gè)機(jī)器學(xué)習(xí)算法相結(jié)合的流量分類,研究不同算法之間的互補(bǔ)性;(2)將機(jī)器學(xué)習(xí)進(jìn)一步用于網(wǎng)絡(luò)安全領(lǐng)域,通過(guò)流量分類來(lái)進(jìn)行惡意行為的檢測(cè)研究;(3)應(yīng)用分布式計(jì)算平臺(tái),提高算法的運(yùn)行速度,提升分類效率。

        猜你喜歡
        網(wǎng)絡(luò)流量準(zhǔn)確率流量
        基于多元高斯分布的網(wǎng)絡(luò)流量異常識(shí)別方法
        冰墩墩背后的流量密碼
        玩具世界(2022年2期)2022-06-15 07:35:36
        張曉明:流量決定勝負(fù)!三大流量高地裂變無(wú)限可能!
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        基于神經(jīng)網(wǎng)絡(luò)的P2P流量識(shí)別方法
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        尋找書(shū)業(yè)新流量
        出版人(2020年4期)2020-11-14 08:34:26
        高速公路車(chē)牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        AVB網(wǎng)絡(luò)流量整形幀模型端到端延遲計(jì)算
        亚洲国产综合性感三级自拍 | 日本韩国三级在线观看| 人妻少妇-嫩草影院| 熟女熟妇伦av网站| 国产亚洲精品A在线无码| av天堂在线免费播放| 91中文人妻熟女乱又乱| 人妻av乱片av出轨| 国产精品九九热| 蜜桃人妻午夜精品一区二区三区| 成人自慰女黄网站免费大全| 蜜臀av 国内精品久久久| 亚洲综合五月天欧美| 久久久精品网站免费观看| 亚洲日韩小电影在线观看| 亚洲av无码第一区二区三区| 久久精品国产只有精品96 | 国模91九色精品二三四| 中文字幕人妻熟在线影院| 毛片网站视频| 国产精品av网站在线| 麻豆亚洲一区| 中文人妻av久久人妻18| 亚洲综合一| 护士人妻hd中文字幕| 天堂网在线最新版www| 亚洲欧美日韩专区一| 国产精品黄页免费高清在线观看| 国产亚洲欧美精品永久| 性动态图av无码专区| 一区二区三区国产高潮| 久久伊人精品中文字幕有尤物| 超碰97资源站| 欧美 亚洲 国产 日韩 综AⅤ | 日本韩国三级aⅴ在线观看| 亚洲av成人一区二区| 亚洲精品无码国产| 国精品无码一区二区三区在线看| 大香蕉视频在线青青草| 国产黄大片在线观看| 99热在线精品播放|