亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于半監(jiān)督多視圖特征協(xié)同訓練的網(wǎng)絡惡意流量識別方法*

        2022-05-10 02:20:46盧宛芝丁要軍
        通信技術(shù) 2022年4期
        關(guān)鍵詞:特征模型

        盧宛芝,丁要軍

        (甘肅政法大學 網(wǎng)絡空間安全學院,甘肅 蘭州 730070)

        0 引言

        隨著互聯(lián)網(wǎng)應用的快速發(fā)展,加密技術(shù)和偽裝技術(shù)不斷升級,基于傳統(tǒng)深度報文解析(Deep Packet Inspection,DPI)的網(wǎng)絡流量識別方法準確率下降,使用機器學習和深度學習[1]進行網(wǎng)絡流量分類是目前較為準確的方法。傳統(tǒng)的有監(jiān)督機器學習需要大量標記樣本來訓練分類模型,但獲取準確標記的網(wǎng)絡惡意流量訓練樣本較困難,而現(xiàn)有的網(wǎng)絡流量采集設備很容易獲取到大量的未標記樣本,因此使用少量標記樣本和大量未標記樣本共同訓練分類模型的半監(jiān)督學習受到了學界的高度重視。

        2007 年Erman 等人[2]首次提出將半監(jiān)督學習應用到流量分類領(lǐng)域,解決了傳統(tǒng)流量分類方法無法對未知流量進行提取和分類的問題。Rezaei 等人[3]使用一維卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN)模型,通過無監(jiān)督預訓練和有監(jiān)督微調(diào),僅使用流的前幾個包就達到了比監(jiān)督學習更好的識別準確率。協(xié)同訓練[4]作為半監(jiān)督領(lǐng)域的重要分支之一,在圖像識別等領(lǐng)域取得了很好的成績。網(wǎng)絡流量識別領(lǐng)域中,Wu 等人[5]提出了基于Co-training 的入侵檢測算法,在訓練過程中可以提高檢測準確率,但訓練時間較長且算法穩(wěn)定性有待提高。

        目前網(wǎng)絡流量的特征表示方式[6]分為字節(jié)流特征、統(tǒng)計特征、數(shù)據(jù)包的時間序列特征和有效載荷數(shù)據(jù),但現(xiàn)有的研究成果大多是基于一種特征表示方式進行網(wǎng)絡流量識別。本文提出一種融合原始字節(jié)流特征和網(wǎng)絡流統(tǒng)計特征的多特征視圖,通過協(xié)同訓練結(jié)合大量未標記樣本進行網(wǎng)絡惡意流量識別,來提升模型的魯棒性。

        1 網(wǎng)絡流量特征表示

        1.1 字節(jié)流特征

        網(wǎng)絡流指具有相同五元組(源IP、源端口、目的IP、目的端口、傳輸層協(xié)議)的所有包。本文參考Wang 等人[7]對數(shù)據(jù)的處理方法,將原始流量pcap 切分為多個流,只選取每個流的前784 字節(jié),每個字節(jié)對應取值范圍在[0~255]之間,輸入堆疊自動編碼器(Stacked Auto Encoder,SAE)進行無監(jiān)督的自動特征提取,編碼器輸出一組編碼后的高級特征作為協(xié)同訓練的特征視圖a,如圖1 所示。

        圖1 SAE 生成字節(jié)流特征視圖a

        1.2 統(tǒng)計特征

        數(shù)據(jù)流可以通過IP 數(shù)據(jù)包統(tǒng)計特征[6],如包最小時間間隔、包總數(shù)、平均字節(jié)數(shù)等。定義數(shù)據(jù)集X=[X1,X2,…,XN]T是由N個網(wǎng)絡流量樣本組成的數(shù)據(jù)集,對于每個流量樣本Xi都有m個統(tǒng)計特征,即Xi=[xi1,xi2,…,xim],向量Y=[y1,y2,…,yN]T表示數(shù)據(jù)集中每個流樣本的類別,如Dos Hulk、Zeus 等。針對數(shù)據(jù)集81 個統(tǒng)計特征,為了降低訓練模型對端口信息的依賴,刪除目的端口和源端口兩個特征,用隨機森林算法[8]進行特征選擇,選擇40 個統(tǒng)計特征作為視圖b,其中部分特征如表1 所示。

        表1 部分網(wǎng)絡流統(tǒng)計特征

        2 基于半監(jiān)督多視圖特征協(xié)同訓練的網(wǎng)絡惡意流量識別方法

        2.1 基分類器

        本文使用極端隨機樹[9](Extremely Randomed Trees)作為協(xié)同訓練的基分類器,并作為一種集成算法,在節(jié)點分裂時隨機從M個特征中選擇m個特征,以基尼系數(shù)或信息增益熵選擇最優(yōu)屬性進行分裂,分裂過程中不剪枝,直到生成一個決策樹(基分類器),最后利用投票決策對所有基分類器統(tǒng)計產(chǎn)生最終分類結(jié)果。一般來說,極端隨機樹算法優(yōu)于決策樹,具有更好的平滑性,能有效減小偏差和方差,對于一個z維輸入空間,極端隨機樹的集合可以產(chǎn)生一個連續(xù)的分段多線性逼近樣本lsz,為了證明這一點,考慮大小為Z的樣本數(shù)。

        式中:sz代表樣本z的大小;是一個n維的特征向量;ni為對應輸出值

        設第j個屬性的樣本值通過增序取得,則樣本值可簡化為:

        特征函數(shù)I(i1,i2,…,in)(m)的區(qū)間為:

        基于此得出一個無限極端隨機樹的近似表示(m):

        式中:參數(shù)λM(i1,i2,…,in)由輸入樣本mi和輸出樣本ni決定。

        因此,分別使用原始字節(jié)流特征和網(wǎng)絡流統(tǒng)計特征兩種特征視圖,訓練兩個基分類器,保證了視圖的差異性,能進一步提升最終集成模型的準確率。

        2.2 基于協(xié)同訓練的網(wǎng)絡惡意流量識別

        協(xié)同訓練算法最初的思想是在兩個獨立的屬性集上訓練兩個分類器,并將其中一個分類器的預測樣本加入到另一個分類器的訓練集中,如此反復訓練,樣本得到擴充,分類界面得到修正。

        如圖2 所示,xi(i=1,2,3,…) 為有標簽數(shù)據(jù),xj(j=1,2,3,…)為無標簽數(shù)據(jù)。首先對標記的數(shù)據(jù)xi進行拆分,得到兩種不同視圖下的數(shù)據(jù)表示xi1,xi2;其次使用基分類器C1、C2 作為初始分類器訓練兩種視圖;最后利用初始分類器估計未標記樣本的標簽置信度,將可信樣本加入訓練數(shù)據(jù)集進行迭代訓練,優(yōu)化分類器,當所有未標記的樣本都完成自我標記時訓練結(jié)束。

        圖2 基于半監(jiān)督多視圖特征協(xié)同訓練的網(wǎng)絡惡意流量識別方法結(jié)構(gòu)

        2.3 協(xié)同訓練算法描述

        協(xié)同訓練算法首先定義標記數(shù)據(jù)集L由x1和x2組成,記為L(x1,x2),并在x1和x2分別訓練兩個分類器h1和h2;從未標記數(shù)據(jù)集U隨機選取u個樣本放入集合U中。算法如下:

        (1)有標簽的網(wǎng)絡流量訓練集L,無標簽的網(wǎng)絡流量訓練集U′;

        (2)循環(huán)K次用L的x1部分訓練一個分類器h1,用L的x2部分訓練一個分類器h2;

        (3)用h1對U′中的所有數(shù)據(jù)進行標記,從中選出p1,p2,p3個正標記和n個負標記,用h2對U′中的所有數(shù)據(jù)進行標記,從中選出p1,p2,p3個正標記和n個負標記;

        (4)選擇置信度(confidence score) 高 的2(p1+p2+p3)+2n個標記加入到L中;

        (5)隨機從U中選取2(p1+p2+p3)+2n個數(shù)據(jù)補充到U′中,直到所有的無標記數(shù)據(jù)全部加標記放入到L中時,結(jié)束循環(huán),訓練終止。

        3 實驗結(jié)果及分析

        3.1 數(shù)據(jù)集

        CIC-IDS2017[10]數(shù)據(jù)集由加拿大網(wǎng)絡安全研究所(Canadian Institute for Cybersecurity,CIC)于2017 年發(fā)布,USTC-TFC2016[11]數(shù)據(jù)集是捷克共和國的捷克理工大學(Czech Technical University,CTU)的研究人員采集,如表2 和表3 所示。

        表2 數(shù)據(jù)集CIC-IDS2017 介紹

        表3 數(shù)據(jù)集USTC-TFC2016 介紹

        3.2 評價指標

        本實驗采用總體準確率、查準率、召回率、F1值來作為評估性能的指標。

        3.3 實驗環(huán)境

        實驗平臺使用的軟件框架是Pytorch 1.3.1,運行在Windows10 系統(tǒng)環(huán)境下,16 GB 內(nèi)存,Intel(R)Core(TM) i5-9300H @ 2.40 GHz 處理器,實現(xiàn)Cotraining 框架。

        3.4 協(xié)同訓練雙視圖生成

        本文通過使用網(wǎng)絡原始流量的兩種特征表示方式,自然地將同一數(shù)據(jù)集分割成兩個相互獨立的視圖,分別作為協(xié)同訓練模型的視圖a 和視圖b,詳細過程如下所示。

        (1)視圖a 的生成:本文參考王偉對網(wǎng)絡流數(shù)據(jù)的處理方法,將原始流量pcap 切分為多個流,只選取每個流的前784 字節(jié),輸入SAE 進行無監(jiān)督的自動特征提取,編碼器輸出一組編碼后的高級特征作為協(xié)同訓練的特征視圖a。

        (2)視圖b 的生成:本文選用CICFlowMeter作為流特征提取工具,該工具能夠根據(jù)提交的pcap文件生成有81 個統(tǒng)計特征的字符分隔值(Comma-Separated Values,CSV)文件。由于實驗使用的兩個數(shù)據(jù)集中的CIC-IDS2017 已用CICFlowMeter 提取出了統(tǒng)計特征,本文即不再做相關(guān)的處理。對于數(shù)據(jù)集USTC-TFC2016,用CICFlowMeter 提取出81個統(tǒng)計特征。同時為了降低訓練模型對端口信息的依賴,刪除目的端口和源端口兩個特征,按照隨機森林算法特征重要性排序,選擇出最優(yōu)的前40 個統(tǒng)計特征作為視圖a。

        3.5 相關(guān)參數(shù)確定

        3.5.1 SAE 生成特征視圖維數(shù)確定

        實驗從時間效率和準確率兩個角度來考慮,對視圖a 選取的前784 字節(jié),分別選擇10 到100 維的10 種情況進行實驗,確定經(jīng)過SAE 編碼后特征數(shù)目為多少時,SAE 提取到的特征分類效果最佳,實驗結(jié)果如圖3 所示。

        圖3 特征視圖維數(shù)確定

        當特征維數(shù)為70 時,堆疊自動編碼器SAE 模型的準確率最高達到80.2%,此后隨著維數(shù)的增加,模型準確率趨于平緩。因此,視圖a選取特征維數(shù)70 來進行實驗。

        3.5.2 標記樣本比例確定

        選取2.5%、5%、10%和15%的數(shù)據(jù)作為標記樣本,進行對比實驗,剩余的作為未標記樣本。

        如圖4(a)所示,對于數(shù)據(jù)集CIC-IDS2017,在迭代次數(shù)epoch 為20,標記樣本數(shù)為15%時,模型的準確率最高是99.3%;如圖4(b)所示,對于數(shù)據(jù)集USTC-TFC2016,在迭代次數(shù)epoch 為20,標記樣本比例為15%時,模型準確率最高到99.06%。因此確定迭代次數(shù)為20,標記樣本比例為15%,作為后續(xù)實驗的基礎。

        圖4 標記樣本比例確定

        3.5.3 基分類器的選擇

        協(xié)同訓練通過兩個學習器之間的相互協(xié)作,在兩個不同的特征視圖上分別訓練,提高模型的泛化能力和魯棒性。由于不同模型學習機制的差異,選擇不同的基學習器進行協(xié)同訓練可以獲得更全面的數(shù)據(jù)信息。本文通過對比5 種基分類器選擇出最適用于網(wǎng)絡流量數(shù)據(jù)識別的協(xié)同訓練基分類器,表4 和表5 分別介紹了不同基分類器對于模型的分類準確率對比。

        表4 數(shù)據(jù)集CIC-IDS2017 不同基分類器的分類準確率 %

        表5 數(shù)據(jù)集USTC-TFC2016 不同基分類器的分類準確率 %

        如表4 和表5 所示,分類器極端隨機樹(Extra TreesClassifier)的分類效果最好,在準確率、查準率和召回率上都比其他4 種分類器高,因此選擇ExtraTreesClassifier 作為協(xié)同訓練框架的基分類器。

        3.6 與其他模型對比結(jié)果

        本文將提出的半監(jiān)督協(xié)同訓練(co-training)方法分別與兩種監(jiān)督學習[7-12]和兩種半監(jiān)督學習[13,14]結(jié)果進行對比。監(jiān)督學習使用卷積神經(jīng)網(wǎng)絡和決策樹;半監(jiān)督學習使用階梯網(wǎng)絡(Ladder Net-work) 和標簽傳播算法(Lp_SVM 和Lp_Xgboost)。由于協(xié)同訓練使用了兩種網(wǎng)絡流量特征,因此,在與其他半監(jiān)督和監(jiān)督學習對比時分別用兩種視圖進行實驗,選擇實驗結(jié)果最佳的視圖與協(xié)同訓練對比,其中卷積神經(jīng)網(wǎng)絡使用視圖a,決策樹使用視圖b,階梯網(wǎng)絡和標簽傳播算法選擇視圖b。

        表6 介紹了在數(shù)據(jù)集CIC-IDS2017 和數(shù)據(jù)集USTC-TFC2016 上,協(xié)同訓練模型與半監(jiān)督學習模型的對比結(jié)果。在CIC-IDS2017 上,協(xié)同訓練模型的準確率、查準率、召回率、F1 值均高于其他半監(jiān)督模型,與階梯網(wǎng)絡相比,分別提高了1.44%、0.34%、2.32%和2.03%;與標簽傳播算法(LP_SVM)相比,分別提高了1.85%、20.72%、3.12%和13.32%;與標簽傳播算法(LP_Xgboost)相比,分別提高了1.46%、19.12%、2.62%和14.02%。在數(shù)據(jù)集USTC-TFC2016 上,協(xié)同訓練模型的準確率、召回率均高于其他半監(jiān)督模型,與階梯網(wǎng)絡相比,分別提高了0.16%、0.19%;與標簽傳播算法相比,準確率、查準率、召回率和F1 值分別提高了2.4%、2.15%、2.21%和2.28%;與標簽傳播算法(LP_Xgboost)相比,分別提高了1.16%、0.9%、1.52%和1.47%。因此,通過上述對實驗結(jié)果的分析,驗證了本文提出的基于半監(jiān)督協(xié)同訓練的網(wǎng)絡惡意流量識別方法的可行性。

        表6 協(xié)同訓練模型與其他模型對比結(jié)果 %

        4 結(jié)語

        本文通過分析當前具有代表性的半監(jiān)督協(xié)同訓練算法,結(jié)合協(xié)同訓練的運行是建立在同一數(shù)據(jù)集中存在兩個充分冗余且獨立視圖的假設下,并考慮實際應用環(huán)境中受到很多限制等因素,針對網(wǎng)絡流量數(shù)據(jù)量大且未標記數(shù)據(jù)易獲取等特點,融合字節(jié)流特征和統(tǒng)計特征這兩種特征表示方式,生成協(xié)同訓練框架所需的視圖a 和視圖b,實現(xiàn)了基于半監(jiān)督的網(wǎng)絡惡意流量識別,保證了在少量標記樣本和大量未標記樣本下,半監(jiān)督協(xié)同訓練模型仍具有對惡意流量識別的良好效果。然而,文章還存在一些不足之處,如在協(xié)同訓練模型中訓練兩視圖的分類器時,可以嘗試更多種的組合和更優(yōu)的分類器。下一步工作將在基分類器的選擇上作出更優(yōu)的調(diào)整,以及在網(wǎng)絡流量的特征工程上開展更深層次的研究。

        猜你喜歡
        特征模型
        一半模型
        抓住特征巧觀察
        重要模型『一線三等角』
        新型冠狀病毒及其流行病學特征認識
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        在线亚洲综合| 最近中文字幕大全在线电影视频| 久久成人永久婷婷99精品| 国产老熟女伦老熟妇露脸| 国产成人高清在线观看视频| 丁香五月缴情在线| 领导边摸边吃奶边做爽在线观看 | 奶头又大又白喷奶水av| 性久久久久久久| 国产一级特黄无码免费视频| 狠狠干视频网站| 国产一区二区在线观看我不卡| 人妻少妇偷人精品久久人妻 | 欧美日韩国产乱了伦| 精品人妻夜夜爽一区二区| 一区二区高清视频免费在线观看| 人妻精品视频一区二区三区| 国产精品无码dvd在线观看| 黄色视频在线免费观看| 国产精品国产自线拍免费| 国产大全一区二区三区| 一级r片内射视频播放免费| 亚洲日韩国产一区二区三区| 亚洲精品无码成人a片| 牛牛本精品99久久精品88m| 国产在线欧美日韩一区二区| 国产亚洲一区二区毛片| 国产一级二级三级在线观看av| 国产精品白浆在线观看免费| 亚洲精品国产精品国自产观看| 欧美伊人亚洲伊人色综| 日本肥老熟妇在线观看| 中文字幕人妻一区二区二区| 一个少妇的淫片免费看| 男女啪啪无遮挡免费网站| 亚洲av无码成人yellow| 亚洲av网站首页在线观看| 91精品国产自拍视频| 亚洲男女内射在线播放| 国产l精品国产亚洲区久久| 八戒网站免费观看视频|