亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于半監(jiān)督多視圖特征協(xié)同訓練的網(wǎng)絡惡意流量識別方法*

2022-05-10 02:20:46盧宛芝丁要軍

通信技術(shù) 2022年4期

關(guān)鍵詞：特征模型

盧宛芝，丁要軍

（甘肅政法大學網(wǎng)絡空間安全學院，甘肅蘭州 730070）

0 引言

隨著互聯(lián)網(wǎng)應用的快速發(fā)展，加密技術(shù)和偽裝技術(shù)不斷升級，基于傳統(tǒng)深度報文解析（Deep Packet Inspection，DPI）的網(wǎng)絡流量識別方法準確率下降，使用機器學習和深度學習[1]進行網(wǎng)絡流量分類是目前較為準確的方法。傳統(tǒng)的有監(jiān)督機器學習需要大量標記樣本來訓練分類模型，但獲取準確標記的網(wǎng)絡惡意流量訓練樣本較困難，而現(xiàn)有的網(wǎng)絡流量采集設備很容易獲取到大量的未標記樣本，因此使用少量標記樣本和大量未標記樣本共同訓練分類模型的半監(jiān)督學習受到了學界的高度重視。

2007 年Erman 等人[2]首次提出將半監(jiān)督學習應用到流量分類領(lǐng)域，解決了傳統(tǒng)流量分類方法無法對未知流量進行提取和分類的問題。Rezaei 等人[3]使用一維卷積神經(jīng)網(wǎng)絡（Convolutional Neural Networks，CNN）模型，通過無監(jiān)督預訓練和有監(jiān)督微調(diào)，僅使用流的前幾個包就達到了比監(jiān)督學習更好的識別準確率。協(xié)同訓練[4]作為半監(jiān)督領(lǐng)域的重要分支之一，在圖像識別等領(lǐng)域取得了很好的成績。網(wǎng)絡流量識別領(lǐng)域中，Wu 等人[5]提出了基于Co-training 的入侵檢測算法，在訓練過程中可以提高檢測準確率，但訓練時間較長且算法穩(wěn)定性有待提高。

目前網(wǎng)絡流量的特征表示方式[6]分為字節(jié)流特征、統(tǒng)計特征、數(shù)據(jù)包的時間序列特征和有效載荷數(shù)據(jù)，但現(xiàn)有的研究成果大多是基于一種特征表示方式進行網(wǎng)絡流量識別。本文提出一種融合原始字節(jié)流特征和網(wǎng)絡流統(tǒng)計特征的多特征視圖，通過協(xié)同訓練結(jié)合大量未標記樣本進行網(wǎng)絡惡意流量識別，來提升模型的魯棒性。

1 網(wǎng)絡流量特征表示

1.1 字節(jié)流特征

網(wǎng)絡流指具有相同五元組（源IP、源端口、目的IP、目的端口、傳輸層協(xié)議）的所有包。本文參考Wang 等人[7]對數(shù)據(jù)的處理方法，將原始流量pcap 切分為多個流，只選取每個流的前784 字節(jié)，每個字節(jié)對應取值范圍在[0～255]之間，輸入堆疊自動編碼器（Stacked Auto Encoder，SAE）進行無監(jiān)督的自動特征提取，編碼器輸出一組編碼后的高級特征作為協(xié)同訓練的特征視圖a，如圖1 所示。

圖1 SAE 生成字節(jié)流特征視圖a

1.2 統(tǒng)計特征

數(shù)據(jù)流可以通過IP 數(shù)據(jù)包統(tǒng)計特征[6]，如包最小時間間隔、包總數(shù)、平均字節(jié)數(shù)等。定義數(shù)據(jù)集X=[X1,X2,…,XN]T是由N個網(wǎng)絡流量樣本組成的數(shù)據(jù)集，對于每個流量樣本Xi都有m個統(tǒng)計特征，即Xi=[xi1,xi2,…,xim]，向量Y=[y1,y2,…,yN]T表示數(shù)據(jù)集中每個流樣本的類別，如Dos Hulk、Zeus 等。針對數(shù)據(jù)集81 個統(tǒng)計特征，為了降低訓練模型對端口信息的依賴，刪除目的端口和源端口兩個特征，用隨機森林算法[8]進行特征選擇，選擇40 個統(tǒng)計特征作為視圖b，其中部分特征如表1 所示。

表1 部分網(wǎng)絡流統(tǒng)計特征

2 基于半監(jiān)督多視圖特征協(xié)同訓練的網(wǎng)絡惡意流量識別方法

2.1 基分類器

本文使用極端隨機樹[9]（Extremely Randomed Trees）作為協(xié)同訓練的基分類器，并作為一種集成算法，在節(jié)點分裂時隨機從M個特征中選擇m個特征，以基尼系數(shù)或信息增益熵選擇最優(yōu)屬性進行分裂，分裂過程中不剪枝，直到生成一個決策樹（基分類器），最后利用投票決策對所有基分類器統(tǒng)計產(chǎn)生最終分類結(jié)果。一般來說，極端隨機樹算法優(yōu)于決策樹，具有更好的平滑性，能有效減小偏差和方差，對于一個z維輸入空間，極端隨機樹的集合可以產(chǎn)生一個連續(xù)的分段多線性逼近樣本lsz，為了證明這一點，考慮大小為Z的樣本數(shù)。

式中：sz代表樣本z的大小；是一個n維的特征向量；ni為對應輸出值

設第j個屬性的樣本值通過增序取得，則樣本值可簡化為：

特征函數(shù)I(i1,i2,…,in)(m)的區(qū)間為：

基于此得出一個無限極端隨機樹的近似表示(m)：

式中：參數(shù)λM(i1,i2,…,in)由輸入樣本mi和輸出樣本ni決定。

因此，分別使用原始字節(jié)流特征和網(wǎng)絡流統(tǒng)計特征兩種特征視圖，訓練兩個基分類器，保證了視圖的差異性，能進一步提升最終集成模型的準確率。

2.2 基于協(xié)同訓練的網(wǎng)絡惡意流量識別

協(xié)同訓練算法最初的思想是在兩個獨立的屬性集上訓練兩個分類器，并將其中一個分類器的預測樣本加入到另一個分類器的訓練集中，如此反復訓練，樣本得到擴充，分類界面得到修正。

如圖2 所示，xi(i=1,2,3,…) 為有標簽數(shù)據(jù)，xj(j=1,2,3,…)為無標簽數(shù)據(jù)。首先對標記的數(shù)據(jù)xi進行拆分，得到兩種不同視圖下的數(shù)據(jù)表示xi1,xi2；其次使用基分類器C1、C2 作為初始分類器訓練兩種視圖；最后利用初始分類器估計未標記樣本的標簽置信度，將可信樣本加入訓練數(shù)據(jù)集進行迭代訓練，優(yōu)化分類器，當所有未標記的樣本都完成自我標記時訓練結(jié)束。

圖2 基于半監(jiān)督多視圖特征協(xié)同訓練的網(wǎng)絡惡意流量識別方法結(jié)構(gòu)

2.3 協(xié)同訓練算法描述

協(xié)同訓練算法首先定義標記數(shù)據(jù)集L由x1和x2組成，記為L(x1,x2)，并在x1和x2分別訓練兩個分類器h1和h2；從未標記數(shù)據(jù)集U隨機選取u個樣本放入集合U中。算法如下：

（1）有標簽的網(wǎng)絡流量訓練集L，無標簽的網(wǎng)絡流量訓練集U′；

（2）循環(huán)K次用L的x1部分訓練一個分類器h1，用L的x2部分訓練一個分類器h2；

（3）用h1對U′中的所有數(shù)據(jù)進行標記，從中選出p1，p2，p3個正標記和n個負標記，用h2對U′中的所有數(shù)據(jù)進行標記，從中選出p1，p2，p3個正標記和n個負標記；

（4）選擇置信度（confidence score）高的2(p1+p2+p3)+2n個標記加入到L中；

（5）隨機從U中選取2(p1+p2+p3)+2n個數(shù)據(jù)補充到U′中，直到所有的無標記數(shù)據(jù)全部加標記放入到L中時，結(jié)束循環(huán)，訓練終止。

3 實驗結(jié)果及分析

3.1 數(shù)據(jù)集

CIC-IDS2017[10]數(shù)據(jù)集由加拿大網(wǎng)絡安全研究所（Canadian Institute for Cybersecurity，CIC）于2017 年發(fā)布，USTC-TFC2016[11]數(shù)據(jù)集是捷克共和國的捷克理工大學（Czech Technical University，CTU）的研究人員采集，如表2 和表3 所示。

表2 數(shù)據(jù)集CIC-IDS2017 介紹

表3 數(shù)據(jù)集USTC-TFC2016 介紹

3.2 評價指標

本實驗采用總體準確率、查準率、召回率、F1值來作為評估性能的指標。

3.3 實驗環(huán)境

實驗平臺使用的軟件框架是Pytorch 1.3.1，運行在Windows10 系統(tǒng)環(huán)境下，16 GB 內(nèi)存，Intel(R)Core(TM) i5-9300H @ 2.40 GHz 處理器，實現(xiàn)Cotraining 框架。

3.4 協(xié)同訓練雙視圖生成

本文通過使用網(wǎng)絡原始流量的兩種特征表示方式，自然地將同一數(shù)據(jù)集分割成兩個相互獨立的視圖，分別作為協(xié)同訓練模型的視圖a 和視圖b，詳細過程如下所示。

（1）視圖a 的生成：本文參考王偉對網(wǎng)絡流數(shù)據(jù)的處理方法，將原始流量pcap 切分為多個流，只選取每個流的前784 字節(jié)，輸入SAE 進行無監(jiān)督的自動特征提取，編碼器輸出一組編碼后的高級特征作為協(xié)同訓練的特征視圖a。

（2）視圖b 的生成：本文選用CICFlowMeter作為流特征提取工具，該工具能夠根據(jù)提交的pcap文件生成有81 個統(tǒng)計特征的字符分隔值（Comma-Separated Values，CSV）文件。由于實驗使用的兩個數(shù)據(jù)集中的CIC-IDS2017 已用CICFlowMeter 提取出了統(tǒng)計特征，本文即不再做相關(guān)的處理。對于數(shù)據(jù)集USTC-TFC2016，用CICFlowMeter 提取出81個統(tǒng)計特征。同時為了降低訓練模型對端口信息的依賴，刪除目的端口和源端口兩個特征，按照隨機森林算法特征重要性排序，選擇出最優(yōu)的前40 個統(tǒng)計特征作為視圖a。

3.5 相關(guān)參數(shù)確定

3.5.1 SAE 生成特征視圖維數(shù)確定

實驗從時間效率和準確率兩個角度來考慮，對視圖a 選取的前784 字節(jié)，分別選擇10 到100 維的10 種情況進行實驗，確定經(jīng)過SAE 編碼后特征數(shù)目為多少時，SAE 提取到的特征分類效果最佳，實驗結(jié)果如圖3 所示。

圖3 特征視圖維數(shù)確定

當特征維數(shù)為70 時，堆疊自動編碼器SAE 模型的準確率最高達到80.2%，此后隨著維數(shù)的增加，模型準確率趨于平緩。因此，視圖a選取特征維數(shù)70 來進行實驗。

3.5.2 標記樣本比例確定

選取2.5%、5%、10%和15%的數(shù)據(jù)作為標記樣本，進行對比實驗，剩余的作為未標記樣本。

如圖4（a）所示，對于數(shù)據(jù)集CIC-IDS2017，在迭代次數(shù)epoch 為20，標記樣本數(shù)為15%時，模型的準確率最高是99.3%；如圖4（b）所示，對于數(shù)據(jù)集USTC-TFC2016，在迭代次數(shù)epoch 為20，標記樣本比例為15%時，模型準確率最高到99.06%。因此確定迭代次數(shù)為20，標記樣本比例為15%，作為后續(xù)實驗的基礎。

圖4 標記樣本比例確定

3.5.3 基分類器的選擇

協(xié)同訓練通過兩個學習器之間的相互協(xié)作，在兩個不同的特征視圖上分別訓練，提高模型的泛化能力和魯棒性。由于不同模型學習機制的差異，選擇不同的基學習器進行協(xié)同訓練可以獲得更全面的數(shù)據(jù)信息。本文通過對比5 種基分類器選擇出最適用于網(wǎng)絡流量數(shù)據(jù)識別的協(xié)同訓練基分類器，表4 和表5 分別介紹了不同基分類器對于模型的分類準確率對比。

表4 數(shù)據(jù)集CIC-IDS2017 不同基分類器的分類準確率 %

表5 數(shù)據(jù)集USTC-TFC2016 不同基分類器的分類準確率 %

如表4 和表5 所示，分類器極端隨機樹（Extra TreesClassifier）的分類效果最好，在準確率、查準率和召回率上都比其他4 種分類器高，因此選擇ExtraTreesClassifier 作為協(xié)同訓練框架的基分類器。

3.6 與其他模型對比結(jié)果

本文將提出的半監(jiān)督協(xié)同訓練（co-training）方法分別與兩種監(jiān)督學習[7-12]和兩種半監(jiān)督學習[13,14]結(jié)果進行對比。監(jiān)督學習使用卷積神經(jīng)網(wǎng)絡和決策樹；半監(jiān)督學習使用階梯網(wǎng)絡（Ladder Net-work）和標簽傳播算法（Lp_SVM 和Lp_Xgboost）。由于協(xié)同訓練使用了兩種網(wǎng)絡流量特征，因此，在與其他半監(jiān)督和監(jiān)督學習對比時分別用兩種視圖進行實驗，選擇實驗結(jié)果最佳的視圖與協(xié)同訓練對比，其中卷積神經(jīng)網(wǎng)絡使用視圖a，決策樹使用視圖b，階梯網(wǎng)絡和標簽傳播算法選擇視圖b。

表6 介紹了在數(shù)據(jù)集CIC-IDS2017 和數(shù)據(jù)集USTC-TFC2016 上，協(xié)同訓練模型與半監(jiān)督學習模型的對比結(jié)果。在CIC-IDS2017 上，協(xié)同訓練模型的準確率、查準率、召回率、F1 值均高于其他半監(jiān)督模型，與階梯網(wǎng)絡相比，分別提高了1.44%、0.34%、2.32%和2.03%；與標簽傳播算法（LP_SVM）相比，分別提高了1.85%、20.72%、3.12%和13.32%；與標簽傳播算法（LP_Xgboost）相比，分別提高了1.46%、19.12%、2.62%和14.02%。在數(shù)據(jù)集USTC-TFC2016 上，協(xié)同訓練模型的準確率、召回率均高于其他半監(jiān)督模型，與階梯網(wǎng)絡相比，分別提高了0.16%、0.19%；與標簽傳播算法相比，準確率、查準率、召回率和F1 值分別提高了2.4%、2.15%、2.21%和2.28%；與標簽傳播算法（LP_Xgboost）相比，分別提高了1.16%、0.9%、1.52%和1.47%。因此，通過上述對實驗結(jié)果的分析，驗證了本文提出的基于半監(jiān)督協(xié)同訓練的網(wǎng)絡惡意流量識別方法的可行性。

表6 協(xié)同訓練模型與其他模型對比結(jié)果 %

4 結(jié)語

本文通過分析當前具有代表性的半監(jiān)督協(xié)同訓練算法，結(jié)合協(xié)同訓練的運行是建立在同一數(shù)據(jù)集中存在兩個充分冗余且獨立視圖的假設下，并考慮實際應用環(huán)境中受到很多限制等因素，針對網(wǎng)絡流量數(shù)據(jù)量大且未標記數(shù)據(jù)易獲取等特點，融合字節(jié)流特征和統(tǒng)計特征這兩種特征表示方式，生成協(xié)同訓練框架所需的視圖a 和視圖b，實現(xiàn)了基于半監(jiān)督的網(wǎng)絡惡意流量識別，保證了在少量標記樣本和大量未標記樣本下，半監(jiān)督協(xié)同訓練模型仍具有對惡意流量識別的良好效果。然而，文章還存在一些不足之處，如在協(xié)同訓練模型中訓練兩視圖的分類器時，可以嘗試更多種的組合和更優(yōu)的分類器。下一步工作將在基分類器的選擇上作出更優(yōu)的調(diào)整，以及在網(wǎng)絡流量的特征工程上開展更深層次的研究。