亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Stacking 的網(wǎng)絡(luò)惡意加密流量識(shí)別方法*

        2022-08-23 01:53:20王天棋丁要軍
        通信技術(shù) 2022年7期
        關(guān)鍵詞:特征模型

        王天棋,丁要軍

        (甘肅政法大學(xué),甘肅 蘭州 730070)

        0 引言

        在安全和隱私保護(hù)需求的驅(qū)動(dòng)下,加密流量在網(wǎng)絡(luò)中占據(jù)了越來越重要的地位。根據(jù)谷歌在2020 年發(fā)布的透明度報(bào)告,已經(jīng)有80%的安卓應(yīng)用程序默認(rèn)使用傳輸層安全協(xié)議(Transport Layer Security,TLS)加密所有流量[1]。根據(jù)CISCO 2019年的報(bào)告,使用加密來隱藏遠(yuǎn)程控制以及數(shù)據(jù)泄露等惡意行為的惡意軟件占比超過70%,使用加密通信的惡意軟件幾乎覆蓋了所有常見類型[2]。因此,高效識(shí)別TLS 惡意加密流量有重要的現(xiàn)實(shí)意義。

        目前,已經(jīng)有國(guó)內(nèi)外研究人員對(duì)網(wǎng)絡(luò)惡意加密流量進(jìn)行了研究,并且取得了一定的成就。Canard等人[3]提出了對(duì)加密流量進(jìn)行深度包檢測(cè)(Deep Packet Inspection,DPI)而無需解密的技術(shù),但在設(shè)置階段需要大量的計(jì)算和較長(zhǎng)的檢測(cè)時(shí)間。Torroledo 等人[4]通過考慮TLS 協(xié)議中的證書,利用證書內(nèi)容對(duì)惡意流量進(jìn)行識(shí)別,但是此方法對(duì)無證書傳遞的加密會(huì)話惡意性檢測(cè)無效。Anderson 等人[5]提出了一種TLS 指紋識(shí)別系統(tǒng),該系統(tǒng)利用目標(biāo)地址、端口和服務(wù)器名精心構(gòu)造了指紋串。但是,Matou?ek 等人[6]發(fā)現(xiàn)以取證為目的創(chuàng)建唯一且穩(wěn)定的TLS 指紋并不容易,惡意用戶可以通過惡意行為改變TLS 版本、密碼套件等信息躲避檢測(cè),因此指紋的發(fā)展受到了限制。此外,Anderson等人在文獻(xiàn)[7]中研究利用TLS 握手階段的可用特征來識(shí)別加密惡意流量,但缺乏對(duì)握手階段外的特征考慮,且只使用了邏輯回歸分類器進(jìn)行驗(yàn)證。

        鑒于此,本文在TLS 加密流量特征分析的基礎(chǔ)上,提出了一種基于Stacking 的網(wǎng)絡(luò)惡意加密流量識(shí)別方法。該方法通過對(duì)惡意流量和正常流量進(jìn)行分析,提取出能識(shí)別惡意流量的會(huì)話特征、握手特征和證書特征,并在單一特征和多特征條件下對(duì)惡意加密流量識(shí)別進(jìn)行對(duì)比,發(fā)現(xiàn)多特征的檢測(cè)方法能有效提升識(shí)別效果。為解決單一的機(jī)器學(xué)習(xí)方法在不同環(huán)境下的分類準(zhǔn)確率難以保持穩(wěn)定且泛化能力差的問題,構(gòu)建Stacking 模型并選擇合適的基學(xué)習(xí)器和元學(xué)習(xí)器,最后在公開數(shù)據(jù)集上進(jìn)行訓(xùn)練,實(shí)驗(yàn)證明所提算法的識(shí)別效果優(yōu)于現(xiàn)有方法。

        1 TLS 加密流量分析

        1.1 TLS 協(xié)議分析

        TLS 協(xié)議是加密流量傳輸中常用的協(xié)議[8],也是保護(hù)許多明文應(yīng)用協(xié)議的主要協(xié)議。圖1 是一個(gè)完整的TLS 握手過程。如圖1 所示,首先,客戶端發(fā)送一條ClientHello 消息,該消息為服務(wù)器提供了一系列密碼套件和一組客戶端支持的TLS 擴(kuò)展;其次,服務(wù)器發(fā)送一個(gè)ServerHello 消息,其中包含從客戶端列表中選擇的加密套件,還包含服務(wù)器支持的擴(kuò)展列表以及證書鏈的Certificate 消息,該消息可用于對(duì)服務(wù)器進(jìn)行身份驗(yàn)證;再次,在客戶端發(fā)送ClientKeyExchange 消息給服務(wù)器端后,客戶端和服務(wù)器交換ChangeCipherSpec 消息,以后的消息將使用協(xié)商好的加密參數(shù)進(jìn)行加密;最后,客戶機(jī)和服務(wù)器開始交換應(yīng)用程序數(shù)據(jù)[9]。

        圖1 TLS 協(xié)議握手協(xié)商階段流程

        傳統(tǒng)的通過TLS 解密來查看流量密文內(nèi)容的方式,不僅耗時(shí),而且不能保護(hù)隱私。由于TLS 協(xié)商的過程是通過明文來進(jìn)行的,因此可以從未加密的消息中提取有用的信息。雖然證書是在TLS 握手階段得到的,但由于其對(duì)分類結(jié)果的影響明顯,因此本文將證書作為單獨(dú)特征向量進(jìn)行考慮。

        1.2 TLS 加密流量特征分析和提取

        1.2.1 TLS 握手特征分析和提取

        握手特征從客戶端發(fā)送明文Client Hello 消息和服務(wù)端反饋Server Hello 消息中提取。圖2 展示了惡意會(huì)話和正常會(huì)話的服務(wù)器對(duì)TLS 加密套件的選擇對(duì)比和客戶端支持的曲線對(duì)比。為了更清晰地表示,將密碼套件用16 進(jìn)制代碼表示。

        圖2 惡意會(huì)話和正常會(huì)話密碼套件和曲線對(duì)比

        服務(wù)器選擇的密碼套件針對(duì)大多數(shù)正常會(huì)話和惡意會(huì)話有嚴(yán)格劃分。大多數(shù)正常的加密會(huì)話服務(wù)器選擇的TLS 密碼套件為000a、c014。

        其中:

        從圖2(a)中可以看出,惡意軟件占比多的0004、0005 是比較弱的加密套件,安全性不足。從客戶端支持的曲線對(duì)比看出,除選用基于256 bits的素?cái)?shù)域P 上的橢圓曲線(secp256r1)外,有23%的惡意會(huì)話的客戶端依賴底層素?cái)?shù)域特征為2255-19的橢圓曲線(x25519),而有33%的正常會(huì)話選用基于384 bits 的素?cái)?shù)域P 上的橢圓曲線(secp384r1)。

        此外,觀察到正常加密流量客戶端支持的擴(kuò)展種類豐富,惡意流量客戶端擴(kuò)展種類較為單一。提取出的TLS 握手特征如表1 所示。

        表1 TLS 握手特征

        1.2.2 服務(wù)器證書特征分析和提取

        服務(wù)器證書是用于驗(yàn)證服務(wù)器身份的文件,普通認(rèn)證機(jī)構(gòu)(Certificate Authority,CA)證書由可信的CA 機(jī)構(gòu)頒發(fā)。自簽名證書任何人都可以頒發(fā),它的issuer 與subject 相同。

        在提取證書特征的過程中,證書的有效期、證書鏈的長(zhǎng)度、證書是否自簽名等重要特征指標(biāo)無法直接獲取,需要通過相應(yīng)的算法來獲得。圖3 展示了正常和惡意加密流量的服務(wù)器證書有效期時(shí)長(zhǎng)對(duì)比和服務(wù)器證書的issuer 長(zhǎng)度對(duì)比??梢钥闯?,正常的加密流量證書有效期較短,有58%的正常會(huì)話證書有效期是80 天左右。而惡意加密流量有效期時(shí)間相對(duì)較長(zhǎng),甚至有5.6%達(dá)到36 500 天。

        圖3 惡意和良性流量證書有效期和issuer 長(zhǎng)度對(duì)比

        從服務(wù)器證書的issuer 長(zhǎng)度可以看出,60%的正常加密會(huì)話的服務(wù)器證書issuer 長(zhǎng)度為1,而惡意流量證書issuer 長(zhǎng)度為2 和3 的占比86%。此外,觀察到TLS 服務(wù)器使用自簽名證書的頻率和使用公鑰的長(zhǎng)度等指標(biāo)在惡意和正常加密流量中也有明顯區(qū)別。提取出的服務(wù)器證書特征如表2 所示。

        表2 證書特征

        1.2.3 會(huì)話的特征分析和提取

        會(huì)話特征是現(xiàn)有文獻(xiàn)中的常見特征。通過觀察發(fā)現(xiàn),大部分惡意軟件的接收數(shù)據(jù)包數(shù)量為5~12個(gè),而正常流量數(shù)據(jù)包的數(shù)量變化范圍較大。惡意加密流量的連接狀態(tài)為連接已建立,發(fā)起方中止RSTO 的最多,占比43%,而正常加密流量的連接狀態(tài)以正常建立和終止SF 的居多。此外,包長(zhǎng)度、包到達(dá)時(shí)間等也是重要的會(huì)話統(tǒng)計(jì)特征。提取出的會(huì)話特征如表3 所示。

        表3 會(huì)話特征

        2 基于Stacking 集成學(xué)習(xí)的加密惡意流量檢測(cè)方法

        2.1 Stacking 集成模型

        Stacking 是組合異質(zhì)分類器的集成學(xué)習(xí)方法,它融合不同的學(xué)習(xí)算法實(shí)現(xiàn)高精度的分類任務(wù)[10],能夠有效降低泛化誤差,并通過元學(xué)習(xí)器來取代Bagging 的投票法,來綜合降低偏差和方差。同時(shí),Stacking 作為一種集成框架,往往采用兩層結(jié)構(gòu),第1 層組合多個(gè)基學(xué)習(xí)器輸出特征,第2 層使用元學(xué)習(xí)器組合第1 層的輸出特征,給出最終的預(yù)測(cè)結(jié)果。研究表明,Stacking 在增加有限計(jì)算開銷的同時(shí),有出色的性能和魯棒性[11]。

        Stacking 算法共分成3 個(gè)步驟:

        (1)根據(jù)原始數(shù)據(jù)D訓(xùn)練第一層分類器,一共有T個(gè)分類器,其中ht是第t次循環(huán)得到的分類器;

        (2)根據(jù)第一層分類器的輸出,構(gòu)造新的數(shù)據(jù)集,第一層的預(yù)測(cè)結(jié)果將作為數(shù)據(jù)的新特征,原始數(shù)據(jù)的標(biāo)簽成為新數(shù)據(jù)的標(biāo)簽;

        (3)根據(jù)新的數(shù)據(jù)集訓(xùn)練第二層分類器得到新的分類器h′,對(duì)于每一個(gè)數(shù)據(jù)實(shí)例x,分類器的預(yù)測(cè)結(jié)果為h′(h1(x),h2(x),…,hT(x)),其中,h1(x),h2(x),…,hT(x)表示第一層中的分類器[12]。

        Stacking 算法偽代碼如下:

        2.2 Stacking 模型構(gòu)建

        Stacking 集成方法通過將不同的算法結(jié)合在一起,發(fā)揮每個(gè)算法的優(yōu)勢(shì)來獲得更佳的預(yù)測(cè)性能。在構(gòu)建Stacking 集成模型中,首先需要確定基學(xué)習(xí)器的種類,而基學(xué)習(xí)器的選擇需從準(zhǔn)確性和多樣性兩個(gè)方面考慮。

        從基學(xué)習(xí)器的預(yù)測(cè)性能方面考慮,本文除了選擇隨機(jī)森林(Random Forest,RF)和LightGBM[13]模型作為基學(xué)習(xí)器,還選擇了其他預(yù)測(cè)性能優(yōu)異的模型。其中,XGBoost 針對(duì)傳統(tǒng)的梯度提升決策樹進(jìn)行改進(jìn),在訓(xùn)練時(shí)間等方面都有所提升。

        為了獲得最佳的集成模型,還需要考慮基學(xué)習(xí)器之間的相關(guān)性。選擇相關(guān)性較小的算法能夠充分發(fā)揮不同算法的優(yōu)勢(shì)[14],達(dá)到互補(bǔ)的目的。本文采用Pearson 相關(guān)系數(shù)衡量算法之間的相關(guān)性大小,其表達(dá)式為:

        式中:和分別為各向量中元素的平均值。最后,依據(jù)基分類器追求“準(zhǔn)而不同”的原則,初步選 擇RF、K 近 鄰(K-Nearest Neighbor,KNN)、XGBoost、支持向量機(jī)(Support Vector Machine,SVM)和LightGBM 作為基學(xué)習(xí)器。

        Wolpert 在提出Stacking 時(shí),就說明了元學(xué)習(xí)算法和新數(shù)據(jù)的屬性表示對(duì)Stacking 集成的泛化性能影響很大[15]。對(duì)于輸出類概率的初級(jí)分類器,分類器h對(duì)樣例x的預(yù)測(cè)是,x屬于所有可能類標(biāo)簽的概率為pht(cj|x),j=1,…,l,其中,l是指l個(gè)分類問題,pht(cj|x)定義了分類器h估計(jì)樣例x屬于類別cj的概率值。將基分類器對(duì)所有類預(yù)測(cè)的后驗(yàn)概率作為元層學(xué)習(xí)器的輸入屬性[16],乘以最大概率的概率分布,其表達(dá)式為:

        概率分布的熵為:

        元模型通常很簡(jiǎn)單,為了減輕過擬合,第二層元學(xué)習(xí)器選擇邏輯回歸模型。本文構(gòu)建的基于Stacking 的加密惡意流量檢測(cè)模型如圖4 所示。

        圖4 基于Stacking 的惡意加密流量識(shí)別算法流程

        3 實(shí)驗(yàn)結(jié)果及分析

        3.1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集

        本文采用scikit-learn 機(jī)器學(xué)習(xí)庫構(gòu)建Stacking模型并完成實(shí)驗(yàn)評(píng)估,在Windows 10 環(huán)境下運(yùn)行,處理器為AMD Ryzen 4800H,圖形處理器(Graphics Processing Unit,GPU)為RTX 2060,內(nèi)存為16 GB。

        本實(shí)驗(yàn)選用DataCon 開放數(shù)據(jù)集[17],源自2020年2—6 月收集的惡意軟件與正常軟件,經(jīng)奇安信技術(shù)研究院天穹沙箱運(yùn)行并采集其產(chǎn)生的流量篩選生成,數(shù)據(jù)集格式為pcap 文件。由于本文研究需要更精確的數(shù)據(jù)集,對(duì)數(shù)據(jù)進(jìn)行以下處理:

        (1)過濾未完成完整握手過程的會(huì)話;

        (2)過濾確認(rèn)包、重傳包及傳輸丟失的壞包;

        (3)借助Zeek[18]將pcap 包轉(zhuǎn)換為流量日志,進(jìn)行特征提?。?/p>

        (4)特征提取后對(duì)非數(shù)值型的特征流量使用One-Hot 編碼,滿足模型輸入的需要;

        (5)對(duì)特征的缺失值和異常值進(jìn)行處理,采用Z-score 對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。經(jīng)過數(shù)據(jù)預(yù)處理后,最終的數(shù)據(jù)集如表4 所示。

        表4 最終數(shù)據(jù)集構(gòu)成

        3.2 評(píng)價(jià)指標(biāo)

        本文采用精確率(Precision)、召回率(Recall)、F1 值和ROC 曲線下方的面積(Area Under Curve,AUC)值作為評(píng)價(jià)指標(biāo)來估計(jì)方法的分類效果。精確率(Precision)、召回率(Recall)和F1 值的定義分別為:

        式中:TP為被模型預(yù)測(cè)為正類的正樣本數(shù)量;FN為被模型預(yù)測(cè)為負(fù)類的正樣本數(shù)量;FP為被模型預(yù)測(cè)為正類的負(fù)樣本數(shù)量。

        3.3 特征性能對(duì)比

        本文提取出會(huì)話統(tǒng)計(jì)特征86 維,握手特征62維和證書特征31 維,共計(jì)179 維特征向量。為了分析不同特征組合的性能,使用隨機(jī)森林算法分別測(cè)試了3 種特征組合下的識(shí)別效果,實(shí)驗(yàn)結(jié)果如表5 所示。

        表5 不同的特征組合五折交叉驗(yàn)證結(jié)果

        為了減小特征冗余和噪聲,去除相關(guān)度高及有負(fù)影響的特征,使用特征篩選算法Correlation AttributeEval,分別選擇特征從10 到100 維的10 種情況進(jìn)行實(shí)驗(yàn),確定特征維數(shù)為多少時(shí),模型分類效果最佳,實(shí)驗(yàn)結(jié)果如圖5 所示。

        圖5 特征維數(shù)確定

        當(dāng)特征維數(shù)為30 時(shí),使用隨機(jī)森林算法分類時(shí),F(xiàn)1 最高,達(dá)到97.2%。此后隨著維數(shù)的增加,F(xiàn)1 值逐漸降低。因此,本文將特征維數(shù)縮減到30 來進(jìn)行實(shí)驗(yàn),在提高識(shí)別效果的同時(shí)縮短了運(yùn)行時(shí)間。

        不同特征組合下分類性能對(duì)比如圖6 所示。可以看出多特征識(shí)別顯著提升了模型精確率和召回率,特征篩選進(jìn)一步提升了模型的性能。

        3.4 元分類器選擇

        為了減輕過擬合,第二層元學(xué)習(xí)器一般選擇簡(jiǎn)單的模型,本文選擇邏輯回歸作為元分類器學(xué)習(xí)。表6 比較了常用于Stacking 模型中的K 近鄰(K-Nearest Neighbor,KNN)、支持向量機(jī)(Support Vector Machine,SVM)和邏輯回歸(Logistic Regression,LR)算法作為基分類器的差異。結(jié)果表明LR 算法作為元學(xué)習(xí)器時(shí),Stacking 模型表現(xiàn)最好。

        3.5 算法性能對(duì)比

        將本文構(gòu)建的Stacking 模型與SVM、RF、XGBoost、CNN 算法對(duì)比,實(shí)驗(yàn)結(jié)果如表7 所示。

        表7 算法性能對(duì)比

        由表7 可以看出,本文構(gòu)建的Stacking 模型的查準(zhǔn)率、召回率、F1 值和AUC值均高于其他算法模型。與SVM 相比,分別提高了3.4%,3.3%,3.4%和3.2%;與XGBoost 相比,分別提高了2.2%,2.1%,1.7%和0.3%;與CNN 相比,分別提高了1.5%,2.7%,2.1%和4.1%。因此,通過上述對(duì)實(shí)驗(yàn)結(jié)果的分析,驗(yàn)證了本文提出的基于Stacking 的網(wǎng)絡(luò)惡意加密流量識(shí)別方法的可行性。

        4 結(jié)語

        本文通過分析大量的正常和惡意加密流量,從中提取出具有顯著區(qū)分度的會(huì)話特征、握手特征和證書特征。對(duì)單一特征和多特征識(shí)別網(wǎng)絡(luò)惡意加密流量進(jìn)行對(duì)比,結(jié)果表明加入了握手和證書特征后可以顯著提升模型的識(shí)別效果。構(gòu)建基于Stacking集成學(xué)習(xí)的網(wǎng)絡(luò)惡意加密流量檢測(cè)模型,實(shí)驗(yàn)表明,在Datacon2020 數(shù)據(jù)集下,本文Stacking 模型效果比XGBoost 等4 種算法效果均有所提升,解決了單一的機(jī)器學(xué)習(xí)方法泛化能力弱的問題。此外,文章還存在一些不足之處,如在構(gòu)建Stacking 模型時(shí)可以嘗試更多基分類器和元分類器的組合,從而作出更優(yōu)的選擇,這也是今后進(jìn)一步研究的方向。

        猜你喜歡
        特征模型
        一半模型
        抓住特征巧觀察
        重要模型『一線三等角』
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        人人看人人做人人爱精品| 日本污ww视频网站| 色拍自拍亚洲综合图区| 亚洲综合婷婷久久| 蜜臀av国内精品久久久人妻| 日韩精品视频高清在线| 麻豆精品国产精华液好用吗| 婷婷四房播播| 绿帽人妻被插出白浆免费观看| 亚洲一区二区刺激的视频| 精品久久久久香蕉网| 国产极品美女高潮无套在线观看 | 一本久道竹内纱里奈中文字幕| 日本艳妓bbw高潮一19| 欧韩视频一区二区无码| 国产天堂av手机在线| 人妻中文字幕在线中文字幕| 国产成人涩涩涩视频在线观看 | 熟女白浆精品一区二区| 日韩高清不卡一区二区三区| 国产精品久久久久9999赢消| 亚洲午夜精品a区| 一区二区亚洲精美视频| 国产日产欧产精品精品蜜芽| 国产av电影区二区三区曰曰骚网| 国产亚洲欧美日韩国产片| 日本老熟妇五十路一区二区三区| 无码孕妇孕交在线观看| 99久久精品自在自看国产| 成人影院免费视频观看| 成人影片麻豆国产影片免费观看| 亚洲精品有码日本久久久| 国产又色又爽又刺激在线播放| 亚洲高清无码第一| 中文字幕视频一区二区| 在线播放五十路熟妇| 亚洲综合色丁香婷婷六月图片| 国产精品亚洲精品日产久久久| 久久精品色福利熟妇丰满人妻91| 亚洲男人的天堂在线aⅴ视频| 欧美黑人xxxx性高清版|