亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度生成對抗網(wǎng)絡的惡意TLS流量識別

        2022-05-05 13:38:08秦鳴樂
        計算機與現(xiàn)代化 2022年4期
        關鍵詞:數(shù)據(jù)包類別加密

        秦鳴樂,年 梅,張 俊,2

        (1.新疆師范大學計算機科學技術學院,新疆 烏魯木齊 830054; 2.中國科學院新疆理化技術研究所,新疆 烏魯木齊 830011)

        0 引 言

        隨著用戶隱私保護和安全意識的增強,TLS、IPSec、SSH和VPN之類的技術應用越來越廣泛,使網(wǎng)絡傳輸中加密流量的比例越來越高。據(jù)思科加密流量分析報告顯示:截止2019年5月,Google網(wǎng)頁流量中加密流量占比為94%[1];截止2020年7月,使用TLS加密的火狐瀏覽器占比為83%[2]。加密流量已成為互聯(lián)網(wǎng)中的主要流量。流量加密一方面加強了信息通信的保密性和可靠性,另一方面也給不法分子帶來可趁之機。很多網(wǎng)絡攻擊者通過加密信道和流量加密技術隱藏自己的惡意行為[3],來規(guī)避防火墻的檢測,給網(wǎng)絡安全監(jiān)測帶來巨大考驗。傳統(tǒng)的基于明文特征的DPI、DFI網(wǎng)絡流量識別檢測方法不再適用[4-5]。經(jīng)典的機器學習方法雖然可以解決基于端口和有效載荷方法無法解決的許多問題,但仍存在一定的局限性,包括:

        1)惡意加密流量類別不平衡。使用不平衡的數(shù)據(jù)集訓練模型,導致將小樣本應用錯誤地識別為類似的大樣本應用,從而影響分類結果。

        2)數(shù)據(jù)流量的特征需人工提取,依賴專家經(jīng)驗,耗時耗力,特征提取的準確度受專家主觀性影響。

        1 相關工作

        目前針對使用TLS等協(xié)議加密的網(wǎng)絡流量檢測和識別主要分為機器學習和深度學習2種。文獻[6]經(jīng)過深入分析,通過提取流量元數(shù)據(jù)和TLS頭部大量特征進行惡意軟件分類。文獻[7]提出從網(wǎng)絡流數(shù)據(jù)中提取256個特征,并將其轉換為灰度圖像,再將處理后的圖像輸入優(yōu)化的CNN中進行相關訓練和分類。文獻[8]使用LSTM網(wǎng)絡在KDD數(shù)據(jù)集中執(zhí)行了5種分類,分類效果較好。

        此外,針對流量數(shù)據(jù)不平衡問題,很多學者也提出了多種不同的解決方案,主要分為欠采樣和過采樣2類。通過改變數(shù)據(jù)集中多數(shù)類和少數(shù)類的樣本比例來降低不平衡程度。由于從次要類別復制相同的副本,因此過度擬合始終是過采樣的主要缺點。為解決過擬合問題,文獻[9]提出SMOTE算法,該算法通過人工合成少數(shù)類樣本來提升少數(shù)類樣本的占比。文獻[10]提出基于單邊選擇的欠采樣算法,該算法通過單邊采樣去除大類數(shù)據(jù)集中的噪聲樣本。文獻[11]提出SBC(Under-sampling Based on Clustering)算法,該算法利用聚簇后正負比例來確定抽樣比例。

        綜上可知,使用過采樣后的數(shù)據(jù)集會反復出現(xiàn)一些樣本,訓練出的模型會有一定的過擬合;欠采樣的數(shù)據(jù)使訓練集丟失數(shù)據(jù),模型只學到了總體模式的一部分,雖然基于SMOTE的合成方法在一定程度上解決了上述問題,但SMOTE一方面增加了類之間重疊的可能性,另一方面生成一些沒有提供有益信息的樣本?;诖?,本文提出在語言和圖像生成方面有優(yōu)異表現(xiàn)的深度生成對抗網(wǎng)絡(Deep Generative Adversarial Networks, DGAN)進行小類別數(shù)據(jù)樣本的生成和擴展,通過使用DGAN的生成模塊對少數(shù)類別的流量生成指定數(shù)量的加密流量,以此獲得質量高且平衡的數(shù)據(jù)集,使不均衡數(shù)據(jù)集中惡意TLS流量識別效率得到提升。

        此外,針對平衡后的數(shù)據(jù),本文提出使用雙向門控循環(huán)單元網(wǎng)絡(BiGRU)與注意力機制相融合的惡意加密流量識別模型,利用雙向GRU(Gate Recurrent Unit)進行特征學習,使用注意力機制改進對數(shù)據(jù)包重要特征的提取能力,減輕噪音特征影響,最后通過Softmax分類器進行惡意加密流量的多分類識別。

        2 相關知識

        2.1 GAN

        生成對抗網(wǎng)絡(Generative Adversarial Network, GAN)是由Goodfellow等人[12]在2014年提出。受博弈論中2人零和博弈思想的啟發(fā),GAN主要由生成器和鑒別器2部分組成。整個網(wǎng)絡模型如圖1所示。

        圖1 生成對抗網(wǎng)絡模型圖

        GAN的博弈過程可以看作是一位數(shù)據(jù)制假者和一位數(shù)據(jù)鑒別者的博弈。在博弈過程中,數(shù)據(jù)制假者會一直提高數(shù)據(jù)制假能力,使生成數(shù)據(jù)達到以假亂真的地步,成功騙過數(shù)據(jù)鑒別者。而數(shù)據(jù)鑒別者的任務是提高自己的鑒別能力,找出真假數(shù)據(jù)間的區(qū)別,通過對抗訓練來不斷提高各自的能力,最終達到納什均衡的狀態(tài)[13]。生成對抗網(wǎng)絡的目標函數(shù)如式(1)所示。

        minGmaxDV(D,G)=Ex~pdata(x)[logD(x)]+

        Ez~pz(z)[log(1-D(G(z)))]

        (1)

        式中G代表生成器,D代表判別器;V為價值函數(shù),V(D,G)相當于表示真實數(shù)據(jù)和生成數(shù)據(jù)的差異程度,maxDV(D,G)意思是固定住生成器G,盡可能地讓判別器D最大化地判別出樣本來自于生成數(shù)據(jù)還是真實數(shù)據(jù)。maxGV(D,G)表示固定住判別器D,訓練生成器G,模擬生成類似于真實樣本的模擬數(shù)據(jù)。z是服從高斯分布的隨機噪聲,pdata(x)表示真實數(shù)據(jù)的概率分布,pz(z)代表隨機噪聲的概率分布;x~pdata(x)表示從真實數(shù)據(jù)的分布中隨機抽取x;z~pz(z)表示從高斯分布的隨機噪聲中抽取噪聲z;D(x)和G(z)表示判別器和生成器在接收括號內輸入后所輸出的向量。利用GAN納什平衡時生成的數(shù)據(jù)擴展小樣本數(shù)據(jù)集,提高小類別樣本的識別性能。

        2.2 雙向門控循環(huán)單元層BiGRU

        圖2 GRU單元結構

        rt=σ(ωr·[ht-1,xt])

        (2)

        zt=σ(ωz·[ht-1,xt])

        (3)

        (4)

        (5)

        GRU雖然能夠很好地捕捉到行為序列的長距離信息,但是單向的GRU在t時刻只能捕捉到t時刻之前的歷史信息[16]。BiGRU(雙向GRU)是由前向GRU與后向GRU組合而成,其基本思想是將每個訓練序列根據(jù)前向和后向表示成2個獨立的遞歸神經(jīng)網(wǎng)絡,并連接到同一個輸出層。BiGRU可以更好地學習雙向序列特征,提高預測準確率。

        2.3 注意力機制

        近兩年,注意力機制[17](Attention Mechanism)被廣泛應用在自然語言處理、圖像識別及語音識別等任務中。Google機器翻譯團隊[18]在2017年提出使用自注意力及多頭自注意力機制的神經(jīng)網(wǎng)絡架構在機器翻譯任務中取得了較為出色的效果。因此,本文將注意力機制運用在惡意加密流量識別中,通過對不同時序特征分配不同的權重值,加強重要特征對識別效果的作用。

        3 惡意加密流量識別方法

        本文提出的惡意加密流量識別過程主要包括3個階段:流量數(shù)據(jù)預處理、基于小樣本數(shù)據(jù)集擴展的數(shù)據(jù)集平衡處理以及惡意加密流量識別模型構建和測試。

        3.1 數(shù)據(jù)預處理

        原始數(shù)據(jù)集文件為pcap格式,首先需要進行預處理。即將會話作為流量粒度[19],將pcap文件轉換為csv文件,轉換流程如圖3所示。首先使用Streamdump工具,根據(jù)五元組獲取TCP層非重復TLS流量,然后進行切割,重組為多個會話;接著刪除數(shù)據(jù)包數(shù)目少于3的無效會話;進一步去除MAC地址、IP地址等對分類產(chǎn)生干擾的特定信息;提取每條會話前N個數(shù)據(jù)包的前M個字節(jié),超出長度則截斷,不足則補充0,之后將所獲得的字節(jié)序列采用Z-score進行歸一化至(0,1),并標記該會話。Z-score標準化公式如公式(6)所示,其中xmean表示總體樣本空間的分值均值,xstd為總樣本空間的標準差。

        圖3 數(shù)據(jù)預處理流程圖

        (6)

        3.2 基于生成對抗網(wǎng)絡的小樣本數(shù)據(jù)集的擴展

        為了獲取質量較高且平衡的樣本,本文使用深度生成對抗網(wǎng)絡,通過訓練少量訓練數(shù)據(jù)集,獲取訓練數(shù)據(jù)集的特征,模擬生成接近訓練數(shù)據(jù)的模擬流量數(shù)據(jù),擴充小類數(shù)據(jù)集。DGAN模型訓練流程如圖4所示。

        圖4 DGAN訓練流程

        3.3 惡意加密流量識別模型

        本文的流量識別模型的網(wǎng)絡架構如圖5所示。將平衡數(shù)據(jù)集預處理后的N×M一維字節(jié)序列數(shù)據(jù)送入雙向GRU進行特征學習,同時使用注意力機制加強對會話層關鍵時序特征提取[20]。為防止過擬合,采用早停法技術[21](Early Stopping)提前結束訓練過程,避免網(wǎng)絡模型的過度擬合。最后使用Softmax分類器實現(xiàn)惡意加密流量識別。本文輸出網(wǎng)元數(shù)量為12個。假設輸入函數(shù)為x, Softmax輸出函數(shù)定義如公式(7)所示:

        圖5 模型架構圖

        (7)

        4 實驗結果與分析

        4.1 實驗數(shù)據(jù)及環(huán)境

        實驗中,使用CICIDS2017[22]數(shù)據(jù)集中的流量作為正常流量;Malware-Traffic-Analysis[23]、Stratosphere IPS[24]并集作為惡意流量。實驗環(huán)境為Windows 10系統(tǒng),CPU為i7-6700,主頻3.7 GHz,內存8 GB,Python 3.6環(huán)境,基于TensorFlow 2.3完成模型的構建以及訓練調優(yōu)。實驗數(shù)據(jù)集的內容分布如表1所示。

        表1 不平衡數(shù)據(jù)

        分析發(fā)現(xiàn),使用Streamdump切分并獲取的會話大都包含8個以上的數(shù)據(jù)包,且每個pcap文件的前8個數(shù)據(jù)包都包含了TLS的握手信息。為縮減計算規(guī)模并保留流量關鍵信息,本文選取數(shù)據(jù)包個數(shù)N=8,每個數(shù)據(jù)包的長度M=100 B。

        4.2 實驗評價指標

        本文采用準確率(Accuracy, A)、精確率(Precision, P)、召回率(Recall, R)以及F1值作為模型的評價指標。準確率是被分類的樣本的正確率,一般正確率越高,分類器效果越好,它主要反映分類器將正判別為正、負判別為負的能力。精確率表示正確預測為正的占全部預測為正的比例。召回率主要是指被正確分類的某類樣本占該類樣本的比例。準確率、精確率、召回率分別定義如下:

        (8)

        (9)

        (10)

        其中,TP表示把屬于某個類別的流量正確分類為該類別,F(xiàn)P表示把不屬于某個類別的流量分類為該類別,TN表示把不屬于某個類別的流量分類為不是該類別,F(xiàn)N表示把屬于某個類別的流量分類為不是該類別。

        F1-score是綜合考慮Precision和Recall的調和值,用于反映整體指標,計算公式為:

        (11)

        4.3 數(shù)據(jù)集平衡實驗

        由表1可知,惡意加密流量中的數(shù)據(jù)是不平衡的,部分惡意類別如Dridex類別樣本,占總數(shù)據(jù)集的36.14%,而Emotet、Reposfxg、Neris等類別的樣本僅占總數(shù)據(jù)集的0.1%~0.4%?;诖?,本文提出使用DGAN解決惡意加密流量分類識別中數(shù)據(jù)不平衡的問題。

        基本的GAN網(wǎng)絡訓練不穩(wěn)定,不易收斂,容易出現(xiàn)生成器產(chǎn)生無意義輸出的現(xiàn)象。Radford等人[25]提出使用深度卷積生成對抗網(wǎng)絡(DCGAN),該網(wǎng)絡創(chuàng)新地將基本的GAN網(wǎng)絡中生成器的全連接層替換為反卷積層,從而在圖像生成任務中實現(xiàn)了出色的性能。但針對一維字節(jié)序列的數(shù)據(jù),DCGAN的訓練效果較差,且生成器訓練極不穩(wěn)定,無法收斂。因此,針對一維字節(jié)序列數(shù)據(jù),本文選用DNN(深度神經(jīng)網(wǎng)絡)作為GAN中生成器和判別器的基模型,通過同時訓練生成模型和判別模型以達到對數(shù)據(jù)進行真假判別的二分類識別。

        4.3.1 生成對抗模型的參數(shù)設置

        深度學習模型調試時,調參技巧對生成數(shù)據(jù)質量的改進擁有不錯的效果,為此本文采用實驗進行參數(shù)設置。

        1)在判別器進行數(shù)據(jù)輸入時,進行歸一化處理,該技術使得非線性變換函數(shù)的輸入值落入到對輸入比較敏感的區(qū)域,避免梯度消失。同時,可提高學習過程的穩(wěn)定性,并解決權重值初始化效果差等問題。

        2)為獲得較好的結果進行了不同訓練比例的嘗試,當生成器與判別器的訓練比例為1∶2時,生成器Loss值的上升情況會相較1∶1有所減緩。因此,本文選用在訓練1次生成器后訓練2次判別器來平衡2個網(wǎng)絡。

        3)在訓練數(shù)據(jù)集時,如直接使用0.01的學習速率,判別網(wǎng)絡的損失將會銳減至很小,導致不能指導生成網(wǎng)絡的參數(shù)進行更新。因此,本文通過實驗逐步衰減,最終設置生成器與判別器的學習率為0.001和0.004。

        4)激活函數(shù)選擇使用LeakyReLU代替ReLU避免梯度稀疏,增強模型的穩(wěn)定性。

        5)使用隨機失活技術DropOut增加網(wǎng)絡的魯棒性,減少過擬合。

        圖6為使用上述參數(shù)對部分小樣本數(shù)據(jù)訓練5000次后生成器與判別器的損失情況。由圖6可知,在前1000次迭代中生成器損失一直處于較高水平,此時生成器還在學習真實樣本數(shù)據(jù)的特征,在迭代1000次后,生成器損失下降并逐漸趨于穩(wěn)定。此時,表明生成器已能夠快速生成與真實數(shù)據(jù)相似的虛擬樣本??傮w來說,2個函數(shù)震蕩變化,生成器與判別器這2個網(wǎng)絡結構相互制約,最終達到納什均衡。

        (a) Emotet Loss

        利用訓練好的深度生成對抗網(wǎng)絡模型的生成器生成數(shù)據(jù),使用高斯噪聲觸發(fā)生成器,產(chǎn)生加密流量樣本從而補充小類別的樣本。本文選擇5000條數(shù)據(jù)作為基準值,對不足5000條的樣本類別使用DGAN訓練生成。同時,使用隨機欠抽樣方法,對超過5000條的樣本進行平衡,從而使整個數(shù)據(jù)集趨于平衡。

        4.3.2 小樣本數(shù)據(jù)平衡實驗結果分析

        為驗證使用DGAN生成樣本的有效性,分別將平衡前與平衡后的小類別樣本數(shù)據(jù)導入到基模型GRU中,并對數(shù)據(jù)平衡前后的分類效果進行比較分析。表2為小樣本數(shù)據(jù)在基模型上平衡前后的Precision、Recall以及F1指標對比。由表2可知,在基于GRU的分類方法中,幾個小樣本類別的Precision、Recall以及F1指標與非平衡數(shù)據(jù)相比提升顯著。該結果表明,使用深度生成對抗網(wǎng)絡對小樣本數(shù)據(jù)進行擴充和平衡能有效降低小樣本類別被誤判的幾率,從而提高模型整體識別精度。同時也表明,本文所提模型DGAN經(jīng)過不斷訓練生成的樣本數(shù)據(jù)對惡意TLS流量識別是有效的。

        表2 小樣本數(shù)據(jù)平衡前后各項評價指標對比

        4.4 相關工作對比實驗

        為了進一步驗證本文模型A-BiGRU的有效性及可用性,在公開數(shù)據(jù)集上選取3種相關工作的模型1D-CNN、BiLSTM、GRU與本文模型進行對比實驗。在基于1D-CNN的分類實驗中,采用文獻[26]提出的模型分類結構,提取TLS會話流前784個字節(jié),輸入2層一維卷積神經(jīng)網(wǎng)絡提取字節(jié)序列局部特征組合。BiLSTM模型采用文獻[20]提出的分類模型,提取TLS會話流前8個數(shù)據(jù)包與每個數(shù)據(jù)包前100個字節(jié),輸入BiLSTM模型。GRU模型使用2層的網(wǎng)絡結構來提取字節(jié)序列的時序特征。

        訓練過程中,將數(shù)據(jù)集隨機地劃分為訓練集與測試集2部分,分別占比80%與20%。實驗選用categorical_crossentropy(交叉熵函數(shù))作為損失函數(shù),Adam作為優(yōu)化器。各模型在平衡前后測試集上的評價指標如表3所示。

        表3 數(shù)據(jù)集平衡前后各模型評價指標對比

        由表3可知,雖然各模型在不平衡數(shù)據(jù)集上的準確率較高,但精度、召回率以及F1值相對較低。平衡后的數(shù)據(jù)集在模型識別中的精度、召回率以及F1值等指標相較于不平衡數(shù)據(jù)集分別提升了20%~30%。此外,在使用DGAN生成的平衡數(shù)據(jù)集上,本文所提模型A-BiGRU相較于其它基模型在準確率上提升了2%~3%,召回率和F1提升了1%~3%。這表明該模型能成功從惡意TLS流量中區(qū)分惡意家族,對于復雜的網(wǎng)絡流量具有很好的分類效果。同時也表明,使用雙向GRU與注意力機制融合的模型效果要優(yōu)于使用單個模型的分類效果。

        5 結束語

        本文提出使用深度生成對抗網(wǎng)絡DGAN來解決流量識別中類別不平衡的問題,利用DGAN數(shù)據(jù)擴充的優(yōu)勢,為數(shù)量較小的數(shù)據(jù)類別進行補充,形成平衡的流量樣本。其次,本文提出使用雙向GRU與注意力機制相融合的模型對平衡后的數(shù)據(jù)集進行特征學習,該模型能夠充分利用深度神經(jīng)網(wǎng)絡挖掘深層數(shù)據(jù)包內與包間時序特征的學習能力,有效提升對惡意TLS流量的識別分類效果。未來將考慮設計一種多類別流量數(shù)據(jù)生成的網(wǎng)絡結構,可以滿足一個網(wǎng)絡訓練多種類別流量數(shù)據(jù)生成的任務。

        猜你喜歡
        數(shù)據(jù)包類別加密
        一種基于熵的混沌加密小波變換水印算法
        SmartSniff
        認證加密的研究進展
        服務類別
        新校長(2016年8期)2016-01-10 06:43:59
        基于ECC加密的電子商務系統(tǒng)
        基于Libpcap的網(wǎng)絡數(shù)據(jù)包捕獲器的設計與實現(xiàn)
        論類別股東會
        商事法論集(2014年1期)2014-06-27 01:20:42
        基于格的公鑰加密與證書基加密
        中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
        視覺注意的數(shù)據(jù)包優(yōu)先級排序策略研究
        91精品国产闺蜜国产在线| 在线中文字幕乱码英文字幕正常| 久久久久国产精品| 国产精品久久国产三级国不卡顿| 亚洲 欧美 国产 日韩 精品| 日韩欧美亚洲国产一区二区三区| 美国又粗又长久久性黄大片 | 亚洲国产精品激情综合色婷婷| 黄片视频免费在线观看国产| 国内成+人 亚洲+欧美+综合在线| 亚洲av无码精品色午夜蛋壳| 国产成人cao在线| 亚洲综合偷拍一区二区| 亚洲国产一区二区三区| 国产精品国三级国产av| 成熟人妻av无码专区| 国产传媒在线视频| 白色白色视频在线观看| 久久99热国产精品综合| 日韩中文字幕免费视频| 老太脱裤让老头玩ⅹxxxx| 免费无码AⅤ片在线观看| 蜜桃在线高清视频免费观看网址 | 国产精品亚洲片夜色在线 | 无码熟熟妇丰满人妻啪啪| 2022AV一区在线| 国产精品亚洲综合久久| 亚洲av无码日韩av无码网站冲| 精品一区二区三区免费播放| 久久99精品中文字幕在| 亚洲一级天堂作爱av| 日韩在线观看入口一二三四 | 欧美日韩亚洲一区二区精品| 国产三级在线观看高清| 青青草国产手机观看视频| 精品久久久久香蕉网| 99久久免费精品高清特色大片| 国产喷白浆精品一区二区| 顶级高清嫩模一区二区| 亚洲精品动漫免费二区| 永久免费av无码网站性色av|