亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

密文惡意流量智能分類研究綜述

2023-07-17 14:50:13劉紫萱吳魏

計(jì)算機(jī)應(yīng)用文摘·觸控 2023年13期

劉紫萱吳魏

摘要：隨著加密流量技術(shù)的快速發(fā)展，越來(lái)越多網(wǎng)絡(luò)攻擊行為利用加密偽裝逃脫檢測(cè)。針對(duì)加密惡意流量檢測(cè)問(wèn)題，文章對(duì)現(xiàn)有的基于機(jī)器學(xué)習(xí)的密文惡意流量分類方法進(jìn)行了梳理，討論了這些方法的分類效果和優(yōu)缺點(diǎn)，總結(jié)了現(xiàn)有方法的不足．為密文惡意流量智能分類技術(shù)的發(fā)展提供了一定的借鑒。

關(guān)鍵詞：密文惡意流量分類；機(jī)器學(xué)習(xí)；加密偽裝

中圖法分類號(hào)：TP393 文獻(xiàn)標(biāo)識(shí)碼：A

１引言

近年來(lái)，學(xué)術(shù)界和工業(yè)界常用的惡意流量分類技術(shù)主要分為以下幾種。一是使用端口號(hào)進(jìn)行流量檢測(cè)，這種方法比較簡(jiǎn)單，但是隨著新的應(yīng)用程序不斷涌現(xiàn)，使用者可使用熟知端口號(hào)掩蓋或使用非注冊(cè)端口號(hào)，從而導(dǎo)致該方法檢測(cè)性能顯著下降。二是基于深度報(bào)文檢測(cè)的惡意流量分類方法分類準(zhǔn)確率高，但是特征提取難度大，且難以處理加密流量。這些傳統(tǒng)的流量分類方法在加密流量廣泛應(yīng)用的情況下，檢測(cè)性能受到了較大的影響。

隨著機(jī)器學(xué)習(xí)的快速發(fā)展，出現(xiàn)了基于機(jī)器學(xué)習(xí)的惡意流量分類方法，其分類準(zhǔn)確率較高且能夠處理加密流量。目前，常用于惡意流量分類的機(jī)器學(xué)習(xí)算法有隨機(jī)森林、ｋ近鄰、決策樹、邏輯回歸等。

然而，這些基于機(jī)器學(xué)習(xí)的惡意流量分類方法對(duì)輸入模型的特征有較大的依賴性，其性能優(yōu)劣受到特征提取和特征工程的限制，從而影響了該類方法在實(shí)際場(chǎng)景下的適用性。針對(duì)上述惡意流量分類方法存在的不足，本文對(duì)現(xiàn)有的基于機(jī)器學(xué)習(xí)的密文惡意流量分類方法進(jìn)行了梳理，討論了不同方法的效果和優(yōu)缺點(diǎn)，并總結(jié)了現(xiàn)有方法的不足。

２基于機(jī)器學(xué)習(xí)的密文惡意流量分類

近年來(lái)，機(jī)器學(xué)習(xí)被廣泛應(yīng)用于多個(gè)領(lǐng)域，如計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理等。此外，研究人員在網(wǎng)絡(luò)安全領(lǐng)域也將機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于網(wǎng)絡(luò)流量分類等任務(wù)中，以達(dá)到實(shí)現(xiàn)自動(dòng)化流量分類的目的。目前，常用于流量分類的機(jī)器學(xué)習(xí)算法有隨機(jī)森林、ｋ近鄰、決策樹、邏輯回歸算法等。下文將對(duì)使用上述算法實(shí)現(xiàn)密文惡意流量分類的文獻(xiàn)進(jìn)行總結(jié)和梳理。

２．１基于隨機(jī)森林的密文流量分類方法

在密文惡意流量分類研究中，隨機(jī)森林（ＲａｎｄｏｍＦｏｒｅｓｔ）是常用的一種機(jī)器學(xué)習(xí)方法，在流量分類方面有比較具體的體現(xiàn)，而且它還可以用于流量特征的選擇，可以選擇出流量重要特征，以提高流量分類的準(zhǔn)確率。

文獻(xiàn)［１］對(duì)１０種基于機(jī)器學(xué)習(xí)的加密惡意流量檢測(cè)算法進(jìn)行了對(duì)比分析，包括隨機(jī)森林、ｋ近鄰、線性回歸等算法，設(shè)計(jì)了一種基于機(jī)器學(xué)習(xí)的加密惡意流量檢測(cè)技術(shù)的通用框架，同時(shí)對(duì)高頻出現(xiàn)的特征進(jìn)行總結(jié)，進(jìn)一步優(yōu)化了統(tǒng)計(jì)特征集（ＦＯＳ特征集），提出了基于隨機(jī)森林算法和ＦＯＳ特征集組合的檢測(cè)模型。

文獻(xiàn)［２］針對(duì)加密惡意軟件流量問(wèn)題，在以文獻(xiàn)標(biāo)準(zhǔn)特征集中２２個(gè)常見特征和專家專為加密網(wǎng)絡(luò)會(huì)話定制的３１９個(gè)增強(qiáng)特征為特征集的基礎(chǔ)上，對(duì)比了用于加密惡意軟件流量分類的６種常見的機(jī)器學(xué)習(xí)算法，包括隨機(jī)森林、決策樹、支持向量機(jī)等算法，得出隨機(jī)森林集成方法優(yōu)于其他５種算法。

為解決網(wǎng)絡(luò)入侵檢測(cè)中數(shù)據(jù)不平衡的多分類問(wèn)題，周杰英等［３］提出了一種融合隨機(jī)森林模型進(jìn)行特征轉(zhuǎn)換、使用梯度提升決策樹模型進(jìn)行分類的入侵檢測(cè)模型框架ＲＦ?ＧＢＤＴ，其具有預(yù)測(cè)精度較高、收斂速度較快以及泛化性能好的特點(diǎn)，可以較好地解決網(wǎng)絡(luò)入侵檢測(cè)中數(shù)據(jù)不平衡的多分類問(wèn)題。

文獻(xiàn)［４］針對(duì)高維數(shù)據(jù)限制算法泛化能力從而影響網(wǎng)絡(luò)入侵檢測(cè)能力的問(wèn)題，提出了一種新的基于包裝的特征選擇算法，即禁忌搜索?隨機(jī)森林（ＴＳ?ＲＦ），其中禁忌搜索進(jìn)行特征搜索與選擇，隨機(jī)森林作為學(xué)習(xí)方法。該算法不僅提高了分類器精度，而且將特征空間減少了６０％以上，降低了模型的計(jì)算復(fù)雜性。

文獻(xiàn)［５］針對(duì)傳統(tǒng)基于深度包分析的加密惡意流量檢測(cè)方法帶來(lái)的精度下降和實(shí)時(shí)性不足等問(wèn)題，提出了一種結(jié)合多特征的加密惡意流量檢測(cè)方法，而且通過(guò)對(duì)比隨機(jī)森林、邏輯回歸、決策樹等４種機(jī)器學(xué)習(xí)算法，得出分類效果最好的是隨機(jī)森林算法的結(jié)論。

２．２基于ｋ近鄰的密文流量分類方法

在流量分類領(lǐng)域中，還有一種機(jī)器學(xué)習(xí)方法被頻繁使用，那就是ｋ近鄰節(jié)點(diǎn)算法（ｋＮＮ）。它同隨機(jī)森林算法一樣，常用于分類任務(wù)，在流量分類任務(wù)中發(fā)揮著重要的作用。該算法的思路簡(jiǎn)單直觀：若要判斷一個(gè)樣本所屬的類別，只需確定在特征空間中與它最鄰近的ｋ個(gè)樣本大多數(shù)所屬的類別，則該樣本也屬于這一類別。簡(jiǎn)而言之，該方法在分類決策上只依據(jù)最近鄰的ｋ個(gè)樣本的類別來(lái)決定待分類的樣本所屬類別。

文獻(xiàn)［６］針對(duì)基于傳統(tǒng)復(fù)雜特征的惡意流量檢測(cè)方法檢測(cè)率日益降低的問(wèn)題，提出了一種使用ＴＣＰ／ＩＰ數(shù)據(jù)包側(cè)信道特征的惡意流量檢測(cè)方法，該方法的主要優(yōu)點(diǎn)是：可以使用較少的特征集和較少的數(shù)據(jù)集同時(shí)，在較短的時(shí)間內(nèi)完成惡意流量檢測(cè)。在此基礎(chǔ)上，研究人員還對(duì)比了包括ｋ近鄰、支持向量機(jī)、邏輯回歸等在內(nèi)的７種機(jī)器學(xué)習(xí)算法，發(fā)現(xiàn)ｋ近鄰算法的性能較好，其提供了一種基于ＴＣＰ／ＩＰ數(shù)據(jù)包側(cè)信道特征與ｋ近鄰算法的惡意流量檢測(cè)方法新思路。

２．３基于決策樹的密文流量分類方法

除了上文提到的基于隨機(jī)森林和ｋ近鄰算法的密文惡意流量分類方法，目前還有許多其他機(jī)器學(xué)習(xí)方法可以實(shí)現(xiàn)密文惡意流量分類，雖然這些機(jī)器學(xué)習(xí)方法少見，但是分類結(jié)果也有意想不到的準(zhǔn)確率。決策樹就是代表方法之一，它是基于Ｂｏｏｓｔｉｎｇ框架的主流集成算法，也是隨機(jī)森林的基本組成，包括ＸＧＢｏｏｓｔ和ＬｉｇｈｔＧＢＭ。

文獻(xiàn)［７］針對(duì)流量加密影響惡意流量特征分析從而影響檢測(cè)效果的問(wèn)題，對(duì)比了使用ＸＧＢｏｏｓｔ、隨機(jī)森林、支持向量機(jī)３種機(jī)器學(xué)習(xí)算法區(qū)分惡意加密ｈｔｔｐ流量和良性加密流量的性能，得出ＸＧＢｏｏｓｔ性能較優(yōu)的結(jié)論，同時(shí)驗(yàn)證了基于模型自身選擇特征優(yōu)于基于人為專家選擇特征，最終提出了在不解密流量的情況下密文惡意流量分類方法，即基于模型自身選擇特征的ＸＧＢｏｏｓｔ密文惡意流量分類算法。

文獻(xiàn)［８］針對(duì)流量數(shù)據(jù)不平衡并且深度神經(jīng)網(wǎng)絡(luò)檢測(cè)方法的訓(xùn)練和檢測(cè)時(shí)間較長(zhǎng)等問(wèn)題，提出了一種基于自適應(yīng)合成（ＡＤＡＳＹＮ）過(guò)采樣技術(shù)和ＬｉｇｈｔＧＢＭ的網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)，其中ＡＤＡＳＹＮ過(guò)采樣技術(shù)增加了少數(shù)攻擊樣本，以解決由于訓(xùn)練數(shù)據(jù)不平衡導(dǎo)致的少數(shù)攻擊檢測(cè)率低的問(wèn)題。ＬｉｇｈｔＧＢＭ集成模型進(jìn)一步降低了系統(tǒng)的時(shí)間復(fù)雜度，同時(shí)確保了檢測(cè)的準(zhǔn)確性。

２．４基于邏輯回歸的密文流量分類方法

邏輯回歸是一個(gè)分類模型，廣泛應(yīng)用于各個(gè)領(lǐng)域，包括機(jī)器學(xué)習(xí)、醫(yī)學(xué)和社會(huì)科學(xué)。其最為突出的特點(diǎn)就是模型簡(jiǎn)單和模型的可解釋性強(qiáng)。邏輯回歸的優(yōu)點(diǎn)在于實(shí)現(xiàn)簡(jiǎn)單、易于理解，同時(shí)計(jì)算代價(jià)低、速度快、存儲(chǔ)資源低，但是也存在缺點(diǎn)，如易欠擬合、分類精度不高等。

文獻(xiàn)［９］針對(duì)ＴＬＳ協(xié)議為傳統(tǒng)網(wǎng)絡(luò)入侵檢測(cè)方法帶來(lái)的新挑戰(zhàn)進(jìn)行了詳細(xì)分析，對(duì)１８個(gè)惡意軟件家族和企業(yè)應(yīng)用在ＴＬＳ協(xié)議中的使用進(jìn)行了深入研究，發(fā)現(xiàn)企業(yè)應(yīng)用通常使用較新版本的ＴＬＳ協(xié)議，而惡意軟件一般使用較老版本的ＴＬＳ協(xié)議和較弱的密碼參數(shù)。基于此，本文提出了一種基于傳統(tǒng)特征與ＴＬＳ特征結(jié)合的Ｌ１邏輯回歸密文惡意流量分類方法。

文獻(xiàn)［１０］針對(duì)加密惡意流量包含的威脅給網(wǎng)絡(luò)入侵檢測(cè)帶來(lái)挑戰(zhàn)這一問(wèn)題，在沙盒中自收集的數(shù)據(jù)集上，通過(guò)對(duì)比實(shí)驗(yàn)證明了上下文流數(shù)據(jù)可用于流量分類并且有較好的效果，證明了Ｌ１邏輯回歸分類器的準(zhǔn)確性。最終提出了基于ＴＬＳ握手元數(shù)據(jù)和上下文流等特征與Ｌ１邏輯回歸分類器相結(jié)合的監(jiān)督機(jī)器學(xué)習(xí)流量分類方法。

目前，基于機(jī)器學(xué)習(xí)的惡意流量分類方法仍存在一定的局限性。例如，流量數(shù)據(jù)集不平衡和流量特征代表性不足影響了分類器的準(zhǔn)確性，以及當(dāng)前基于機(jī)器學(xué)習(xí)的流量檢測(cè)方法無(wú)法有效應(yīng)對(duì)未知網(wǎng)絡(luò)攻擊檢測(cè)。這些問(wèn)題影響了密文惡意流量智能檢測(cè)技術(shù)的發(fā)展，應(yīng)著重加以解決。

３結(jié)束語(yǔ)

本文對(duì)現(xiàn)有的基于機(jī)器學(xué)習(xí)的密文惡意流量分類方法進(jìn)行了梳理和總結(jié)，討論了不同機(jī)器學(xué)習(xí)算法，如隨機(jī)森林、ｋ近鄰等算法的分類效果和優(yōu)缺點(diǎn)，總結(jié)了現(xiàn)有惡意流量分類方法存在的不足，如流量數(shù)據(jù)非均衡、分類特征代表性不足、未知網(wǎng)絡(luò)攻擊檢測(cè)難等，進(jìn)而為該領(lǐng)域技術(shù)的發(fā)展提供了一定的參考和借鑒。

參考文獻(xiàn)：

［１］ＷＡＮＧＺ，ＦＯＫＫＷ，ＴＨＩＮＧＶＬＬ．Ｍａｃｈｉｎｅｌｅａｒｎｉｎｇｆｏｒｅｎｃｒｙｐｔｅｄｍａｌｉｃｉｏｕｓｔｒａｆｆｉｃｄｅｔｅｃｔｉｏｎ：Ａｐｐｒｏａｃｈｅｓ，ｄａｔａｓｅｔｓａｎｄｃｏｍｐａｒａｔｉｖｅｓｔｕｄｙ［Ｊ］．Ｃｏｍｐｕｔｅｒｓ＆Ｓｅｃｕｒｉｔｙ，２０２２，１１３：１０２５４２．

［２］ＡＮＤＥＲＳＯＮＢ，ＭＣＧＲＥＷＤ．Ｍａｃｈｉｎｅｌｅａｒｎｉｎｇｆｏｒｅｎｃｒｙｐｔｅｄｍａｌｗａｒｅｔｒａｆｆｉｃｃｌａｓｓｉｆｉｃａｔｉｏｎ：ａｃｃｏｕｎｔｉｎｇｆｏｒｎｏｉｓｙｌａｂｅｌｓａｎｄｎｏｎ?ｓｔａｔｉｏｎａｒｉｔｙ［Ｃ］∥Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２３ｒｄＡＣＭＳＩＧＫＤＤＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎｋｎｏｗｌｅｄｇｅｄｉｓｃｏｖｅｒｙａｎｄｄａｔａｍｉｎｉｎｇ，２０１７：１７２３?１７３２．

［３］周杰英，賀鵬飛，邱榮發(fā)，等．融合隨機(jī)森林和梯度提升樹的入侵檢測(cè)研究［Ｊ］．軟件學(xué)報(bào)，２０２１，３２（１０）：３２５４?３２６５．

［４］ＮＡＺＩＲＡ，ＫＨＡＮＲＡ．Ａｎｏｖｅｌｃｏｍｂｉｎａｔｏｒｉａｌｏｐｔｉｍｉｚａｔｉｏｎｂａｓｅｄｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｍｅｔｈｏｄｆｏｒｎｅｔｗｏｒｋｉｎｔｒｕｓｉｏｎｄｅｔｅｃｔｉｏｎ［Ｊ］．Ｃｏｍｐｕｔｅｒｓ＆Ｓｅｃｕｒｉｔｙ，２０２１，１０２：１０２１６４．

［５］李慧慧，張士庚，宋虹，等．結(jié)合多特征識(shí)別的惡意加密流量檢測(cè)方法［Ｊ］．信息安全學(xué)報(bào)，２０２１，６（２）：１２９?１４２．

［６］ＳＴＥＲＧＩＯＰＯＵＬＯＳＧ，ＴＡＬＡＶＡＲＩＡ，ＢＩＴＳＩＫＡＳＥ，ｅｔａｌ．ＡｕｔｏｍａｔｉｃｄｅｔｅｃｔｉｏｎｏｆｖａｒｉｏｕｓｍａｌｉｃｉｏｕｓｔｒａｆｆｉｃｕｓｉｎｇｓｉｄｅｃｈａｎｎｅｌｆｅａｔｕｒｅｓｏｎＴＣＰｐａｃｋｅｔｓ［Ｃ］∥ＥｕｒｏｐｅａｎＳｙｍｐｏｓｉｕｍｏｎＲｅｓｅａｒｃｈｉｎＣｏｍｐｕｔｅｒＳｅｃｕｒｉｔｙ，２０１８：３４６?３６２．

［７］ＳＨＥＫＨＡＷＡＴＡＳ，ＴＲＯＩＡＦＤ，ＳＴＡＭＰＭ．Ｆｅａｔｕｒｅａｎａｌｙｓｉｓｏｆｅｎｃｒｙｐｔｅｄｍａｌｉｃｉｏｕｓｔｒａｆｆｉｃ［Ｊ］．ＥｘｐｅｒｔＳｙｓｔｅｍｓＷｉｔｈＡｐｐｌｉｃａｔｉｏｎｓ，２０１９，１２５：１３０?１４１．

［８］ＬＩＵＪＭ，ＧＡＯＹＢ，ＨＵＦＪ．ＡｆａｓｔｎｅｔｗｏｒｋｉｎｔｒｕｓｉｏｎｄｅｔｅｃｔｉｏｎｓｙｓｔｅｍｕｓｉｎｇａｄａｐｔｉｖｅｓｙｎｔｈｅｔｉｃｏｖｅｒｓａｍｐｌｉｎｇａｎｄＬｉｇｈｔＧＢＭ［Ｊ］．Ｃｏｍｐｕｔｅｒｓ＆Ｓｅｃｕｒｉｔｙ，２０２１，１０６：３３?４８．

［９］ＡＮＤＥＲＳＯＮＢ，ＰＡＵＬＳ，ＭＣＧＲＥＷＤ．ＤｅｃｉｐｈｅｒｉｎｇｍａｌｗａｒｅｓｕｓｅｏｆＴＬＳ（ｗｉｔｈｏｕｔｄｅｃｒｙｐｔｉｏｎ）［Ｊ］．ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＶｉｒｏｌｏｇｙａｎｄＨａｃｋｉｎｇＴｅｃｈｎｉｑｕｅｓ，２０１８，１４（３）：１９５?２１１．

［１０］ＡＮＤＥＲＳＯＮＢ，ＭＣＧＲＥＷＤ．Ｉｄｅｎｔｉｆｙｉｎｇｅｎｃｒｙｐｔｅｄｍａｌｗａｒｅｔｒａｆｆｉｃｗｉｔｈｃｏｎｔｅｘｔｕａｌｆｌｏｗｄａｔａ［Ｃ］ ∥ Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１６ＡＣＭｗｏｒｋｓｈｏｐｏｎａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅａｎｄｓｅｃｕｒｉｔｙ，２０１６：３５?４６．

作者簡(jiǎn)介：劉紫萱（２００１—），本科，研究方向：計(jì)算機(jī)技術(shù)。