亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        EB-GAN:基于BiGAN的網絡流量異常檢測方法

        2023-07-07 03:10:40胡夢娜賈俊鋮金映言那幸儀
        計算機應用與軟件 2023年6期
        關鍵詞:檢測方法模型

        胡夢娜 何 強 賈俊鋮 金映言 馬 標 那幸儀

        1(蘇州大學計算機科學與技術學院 江蘇 蘇州 215000) 2(新華社媒體融合生產技術與系統國家重點實驗室 北京 100803)

        0 引 言

        信息網絡的出現和更新迭代是現代社會進步和科技發(fā)展的標志。在當今網絡技術飛速發(fā)展的時代,互聯網已經覆蓋了我們生活的各個方面。但是,人們在享受著網絡帶來便利的同時,網絡攻擊可能造成的潛在破壞也急劇增加,各類網絡入侵攻擊事件不斷發(fā)生。其中,最常見的入侵攻擊[1]包括DDoS攻擊、DoS攻擊等。根據國家互聯網應急中心提供的數據統計,在2019年上半年,共有約3 200萬個新的惡意軟件樣本數量被捕獲,計算機惡意軟件每日傳播次數約998萬次,抽樣監(jiān)測發(fā)現,在中國境內峰值超過10 Gbit/s的DDoS攻擊平均每月約4 300起,較上一年同期增長了18%。

        從以上數據中可以看出,當前的網絡安全形勢十分緊張,這些網絡攻擊每年都會帶來巨大損失,保證計算機網絡系統以及信息基礎設施的安全迫在眉睫。近年來,入侵檢測系統作為保護關鍵網絡免受入侵攻擊的強制性防線,開始被重視,相關領域的現狀深受廣大研究者關注。入侵檢測系統[2]是一種監(jiān)控網絡流量惡意活動的應用軟件,旨在應對復雜和日益增長的網絡攻擊,它可以對入侵攻擊和惡意軟件等惡意行為提供預警以便及時采取進一步措施。

        入侵檢測可分為基于特征和基于異常兩大類。基于特征的檢測需要對網絡流量的各個特征進行研究和分析,并根據已知的攻擊行為獲取各維度特征的正常狀態(tài)范圍,該方法工作量大、不能識別新的網絡攻擊、需要實時更新并且缺乏靈活性;而基于異常的檢測的思想是對正常流量建模,找出真實流量與這些正常行為模式的偏差,從而區(qū)分正常流量和異常流量,該方法的模型靈活性高,通過對超參數進行調整可以適用于不同的數據集,泛化性較強。

        目前所提出的許多異常檢測方法[3],大致分為基于規(guī)則、基于統計和基于表示學習這三類?;谝?guī)則的異常檢測通過設定好的規(guī)則來識別異常流量,如果測試數據不包含在任何一個規(guī)則中,則被視作異常流量,該方法需要大量專業(yè)研究人員花費大量的人力和財力來設計規(guī)則表,虛警率高;基于統計分布的異常檢測采用統計學方法建立模型,考慮到目標擬合模型的最大可能性,該方法需要充足的數據和檢驗類型的先驗知識,該方法檢驗高維數據的性能可能較差;基于表示學習的異常檢測方法通過學習現實世界中的真實樣本進行學習其數據分布,從而將偏差值作為異常檢測的判別指標,可以高效地處理高維數據。

        目前對異常檢測的研究主要集中在提高檢出率和檢測效率上:一方面,通過降維等方法進行特征選擇以提高檢測速度,但往往會丟失原始數據集的一些重要特征,從而導致檢測率低下;另一方面,使用傳統機器學習(Machine Learning,ML)、深度學習(Deep Learning,DL)算法可以適當提高分類精度,但相對應的檢測效率無法得到保證,并且難以調參。此外,傳統的異常檢測系統很容易受到惡意干擾,攻擊者可以利用這個漏洞對網絡流量進行小的干擾從而規(guī)避IDS的檢測,這也是傳統的機器學習方法過時的原因所在。

        為了克服這些限制,本文的主要工作如下:(1) 提出一種基于BiGAN的增強異常檢測方法EB-GAN;(2) EB-GAN架構采用雙向長短期記憶網絡(Bi-LSTM)作為BiGAN的基礎模型來分析網絡流量的時序性,從而獲取時間依賴性;(3) 提出一種改進的損失函數使得模型穩(wěn)定并且高效。實驗結果表明,對于KDDCUP99 10%數據集,在不降低維度、保證數據完整性的基礎上,本文所提出的EB-GAN方法在檢測網絡流量異常方面不僅可以顯著提高檢出率,而且保證了較高的檢測效率和較低的誤報率。

        1 相關工作

        近年來,關于網絡安全領域的研究變得越來越火熱,由于互聯網上的敏感信息不斷吸引攻擊者,各種網絡安全問題層出不窮。Eltanbouly等[4]介紹了機器學習算法的最新研究進展,并應用于不同數據集中進行比較分析。就目前而言,網絡流量異常檢測系統[5]使用到的機器學習方法可分為淺層學習、深層學習和混合模型學習:淺層學習包括支持向量機(SVM)、隨機森林(RF)等;深層學習包括循環(huán)神經網絡(RNN)、卷積神經網絡(CNN)等;而最經典的混合模型學習是對抗生成網絡(GAN)[6]。

        連鴻飛等[7]為解決數據不平衡導致模型效果差的問題,采用合成少數類過采樣技術(SMOTE)和編輯最近鄰(ENN)方法對少數類的樣本進行過采樣并對生成數據進行洗滌,調節(jié)不平衡數據中不同類的比例,再利用CNN、LSTM和Attention的混合神經網絡進行檢測。這類檢測采用較為簡單的方法生成的數據效果不佳,實驗表明模型的檢測率不高,并沒有達到很好的效果提升。Lee等[8]利用自編碼器(AE)對數據進行特征提取,再基于CGAN的模型對稀有類進行過采樣,最后使用隨機森林進行分類,該模型實現了檢測率的一定提升,但在不良約束問題上的可行性有待考究。

        深度學習[9]雖被廣泛應用于各個領域,但它相當于一個黑匣子,具有很差的解釋性,然而模型的可解釋性對于管理員與分析人員來說至關重要。Brown等[10]介紹了五種Attention的改進機制應用到LSTM模型中,在不犧牲最先進性能的基礎上,提高深度學習模型的可解釋性。Tan等[11]提出基于Attention機制的新技術應用于實時攻擊檢測,對經典Transformer網絡結構模型進行改進和應用,并與Bi-LSTM和條件隨機場進行對比。LSTM和Bi-LSTM[12]起初應用于機器翻譯、文本生成領域,但近些年來LSTM也在其他領域得到了廣泛的應用,比如2016年谷歌應用LSTM做語音識別和文字翻譯,2017年蘋果應用LSTM進行Siri優(yōu)化等。程杰仁等[13]定義一種IP數據包統計特征來表示數據流特征,采用LSTM對時間序列進行建模識別DDoS攻擊,獲得較好的實驗結果,但模型中定義的異常偏差閾值很難設定,需要大量的實驗分析。Oak等[14]提出了Bidirectional Encoder Representations from Transformer(BERT)方法,并驗證在處理不平衡數據集方法上的有效性,F1值為0.919。Toupas等[15]使用MLP網絡結構在CICID2017數據集上進行驗證,著重于數據特征的處理:使用了皮爾遜相關系數、Yeo-Johnson等方法解決了數據特征傾斜等問題。

        由于GAN具有學習高維復雜真實數據分布的潛力,是數據生成和編輯的主要方法之一,因而在圖像翻譯、機器學習等領域引起了廣泛關注。它已經被證明在創(chuàng)建高度真實的數據方面非常成功,例如圖像、文本和音頻。Hong等[16]介紹了GAN的產生背景以及優(yōu)缺點,研究者們針對各自的需求對GAN做出了改進,現階段較為流行的GAN變種包括WGAN、DCGAN、EBGAN等。WGAN[17]在原始GAN的基礎上引入Wasserstein距離,由于其平滑性優(yōu)于應用到原始GAN中的KL散度和JS散度,可以解決傳統GAN訓練不穩(wěn)定的問題。相比于原始GAN,Bi-GAN添加了一個編碼器E,它將真實樣本映射到一個潛在向量表示z,從而避免測試過程中恢復潛在向量表示的計算開銷。GAN最初主要應用于圖像領域,但各個領域的研究者們通過引用GAN的思想和原理實現了模型性能的提升,使得GAN的應用受到越來越多研究者們的關注。Dowoo等[18]提出一種改進的GAN:PcapGAN用來擴充pcap數據并展示了生成數據和原始數據之間的相似性,被證明將生成的數據加到原始數據中可以提高檢測率。

        綜上所述,我們發(fā)現:實現數據生成的過程很復雜,往往會花費大量的人力和時間;使用淺層的機器學習方法雖說訓練時間短,但這些方法一般很難去學習高維特征數據,使用降維等數據處理也許會丟失原始數據集中一些重要的信息;使用深度學習需要復雜的調參過程,相對于淺層機器學習方法在檢測率上有一定的提升,但仍然存在一些模型復雜、解釋性差、耗時長等局限性。

        2 異常檢測網絡模型

        2.1 異常檢測框架

        本文所提出的異常檢測模型EB-GAN框架如圖1所示,它以BiGAN為基本模型框架,與LSTM和Attention機制相結合,使用一種改進的混合損失函數作為該模型的損失函數。

        圖1 EB-GAN框架

        圖1展示了整個EB-GAN網絡以及每個單獨的組件。EB-GAN包括三個組件:編碼器E、生成器G和鑒別器D。編碼器的主要功能是顯式地對數據分布進行建模,并且可以大大減少測試集恢復給定輸入樣本潛在表示的成本。我們可以將模型看作生成器、編碼器和鑒別器之間的對抗訓練。生成器和編碼器的效果提升意味著鑒別器的鑒別效果減弱;鑒別器的鑒別效果提升意味著編碼器-生成器的生成數據效果不佳。鑒別器D用來區(qū)分真實數據x、E(x)和來自潛在變量z的生成樣本G(z)、z,編碼器E和生成器G從G中生成近似真實樣本的假樣本,從而能夠“以假亂真”騙過D。

        和傳統的GAN不同,這里我們借鑒BiGAN添加了一個編碼器E,并設定E=G-1,優(yōu)化目標V(E,G,D)定義如式(1)所示。

        Ez~pz(z)[Ex~pG(·|z)[(1-D(x,z))]]

        (1)

        式中:pdata(x)和pz(z)分別表示真實數據和潛在空間向量的分布;pE(·|x)和pG(·|z)分別表示真實數據x輸入到編碼器產生的潛在空間向量和噪聲z輸入到生成器得到的生成數據向量的分布。

        生成器和編碼器均采取多層感知機(MLP)的網絡結構,它們的主要功能是還原真實數據的分布。編碼器實質上是實現從真實數據空間到潛在空間的映射:E(x):x→z,而生成器則是實現從潛在空間到真實數據空間的映射:G(z):z→x;針對鑒別器的功能特性,我們選擇Bi-LSTM作為鑒別器的網絡結構,并添加Attention機制使得網絡模型通過反向傳播有選擇地學習模型,再使用MLP網絡獲取樣本輸入到鑒別器被判別為正常樣本的概率。

        在測試階段,重構誤差LR和鑒別誤差LD是我們需要評估的兩個誤差。重構誤差是指真實樣本x和G(E(x))之間的誤差,而鑒別誤差表示鑒別器通過訓練可以從真實樣本中分辨出攻擊樣本的能力。我們定義異常分數函數fscore如式(2)所示。

        fscore=γLR(x)+(1-γ)LD(x)

        (2)

        2.2 鑒別器設計

        由于現有的網絡流量數據是在固定時間段內采集獲得,具有一定的時間關聯性,再加上近來有關異常檢測系統的研究很多使用各種深度學習混合算法實現了較好的效果提升。因此,本文使用Bi-LSTM+Attention+MLP作為鑒別器的網絡結構。采用Bi-LSTM作為鑒別器基本網絡框架,添加Attention機制使得網絡高效有選擇地學習,最后使用MLP網絡,實現網絡流量檢測分類。鑒別器D的網絡模型如圖2所示。

        圖2 鑒別器網絡模型

        該模型包含兩個輸入向量:x={x1,x2,…,xn}和z={z1,z2,…,zm},其中m<

        圖3 LSTM單元結構

        由于Bi-LSTM通常在序列建模問題中具有較高的性能,我們使用Bi-LSTM網絡作為模型基礎網絡。Bi-LSTM由Forward LSTM和Backward LSTM組成,它可以對時序結構進行雙向建模,能夠處理正向和反向的數據序列,從而捕獲更多的結構信息,因此優(yōu)于LSTM的性能。Bi-LSTM比LSTM更加穩(wěn)定,Bi-LSTM對網絡流量的時序特征信息捕捉更加精確。Bi-LSTM網絡框架如圖4所示。

        圖4 Bi-LSTM模型

        將Bi-LSTM得到的輸出值e3再輸入到Attention機制中。針對網絡流量,考慮到每一個特征對外部攻擊的貢獻不一樣,因此我們將Attention機制整合到上述Bi-LSTM網絡結構中,Attention機制的原理是對編碼器-解碼器模型進行改進,計算出輸入與輸出之間的匹配程度,通過匹配程度為每個編碼器的輸出結果都賦予一個權值。我們通過Attention獲取特征權值,對這些權值進行加權求和。權值越大,表示該特征向量對檢測系統的影響力越大。因此我們根據權值確定鑒別器的主導向量所在,抑制權值小的向量表示,從而篩選出有價值的信息,使得模型有選擇地學習這些輸入樣本。從可解釋性的層次來說,向量權值的獲取對模型的可解釋性能也有一定的提高。

        Attention模塊接收三個矩陣作為輸入,它們分別為“keys”:K∈RT×h、“values”:V∈RT×h、“queries”:Q∈RT×h,輸出是一個上下文矩陣C∈RT×h,一般化的Attention表示如式(3)所示。

        (3)

        Attention機制的具體形式多種多樣,本文所采用的是相對經典的BahdanauAttention算法[19],如式(4)-式(6)所示。

        ut=vtanh(W1h+W2dt)

        (4)

        at=softmax(ut)

        (5)

        (6)

        式中:v指輸入變量query;h指每一個時間步長的輸出向量;d指匹配解碼器中每一個時間步長的狀態(tài);a表示經過Softmax函數之后的匹配權值;s指作為解碼器輸入的權值和。

        最后,由于MLP網絡具有結構簡單、收斂快的特性,其本質是通過疊加線形分類器并傳遞到一個激活函數。因此我們最后添加MLP網絡得到y=fdense(Wcs+bc),其中fdense表示全連接層網絡;并設置最后的輸出維度為1。

        2.3 增強損失函數

        雖然原始的Bi-GAN模型具有學習真實樣本分布、預測能力強等優(yōu)點,但仍然存在訓練不穩(wěn)定、容易梯度崩潰等致命的弱點。

        一方面,我們考慮到WGAN中引入Earth Mover(EM)距離,在一定程度上可以克服原始GAN模型容易模型崩潰的問題。因此,我們借鑒這一方法,對模型的損失函數采取如下優(yōu)化:

        (1) 對鑒別器D的最后一層直接使用全連接層,并且不進行激活函數處理。

        (2) 將鑒別器的參數設置為:WD←(-c,c),其中c一般取值為0.01,從而抑制鑒別器的學習速度,鑒別器不至于訓練得太好導致生成器和編碼器無法繼續(xù)學習。

        (3) 使用RMSProp算法作為優(yōu)化算法。

        Ez~Pz(z)[log(1-D(G(z)))-log(1-D(x))]

        (7)

        綜上,我們所提出的EB-GAN模型中三個組塊生成器G、編碼器E和鑒別器D的損失函數分別如式(8)、式(9)、式(10)所示。

        Ez~Pz(z)[D(G(z),z)-D(x,E(x))]

        (8)

        (9)

        (10)

        模型在訓練和測試過程的時間都可以達到明顯的提升,訓練效果更好,并且模型更加穩(wěn)定,基本不會出現模型崩潰等問題。

        3 實驗與結果分析

        3.1 數據集介紹和預處理

        本文選擇的基準公開數據集是來自2013年UCI數據庫的KDDCUP99 10%數據集[21],它共有494 021條數據樣本,其中包括396 743條正常樣本和97 278條異常樣本。原始數據集的維度為42(41條特征數據和1條標簽數據),其中包括7條非連續(xù)性數據、34條連續(xù)性數據,我們將標簽數據轉換成0和1表示(0代表正常流量,1代表異常流量),然后將7條非連續(xù)性數據按獨熱(one-hot)編碼規(guī)則進行數據處理,最終經過預處理之后的數據維度為121(除去標簽數據)。最后,由于數據集上的不同特征數據的尺度可能不一致,為保證模型的可實施性和減少訓練時間,需要做歸一化處理,如式(11)所示。

        (11)

        我們將數據集按1∶1的比例分為兩部分,一部分只取正常流量作為訓練集,進行模型訓練;另一部分作為測試集,里面包含了所有正常和異常的樣本。由于原數據集中的正常流量和異常流量的比例約是4∶1,所以將測試集中異常分數最高的20%的樣本視為異常流量樣本,其余的則視為正常流量樣本。通過計算得出τ為測試集中異常分數第20%高的值,如式(12)所示。

        (12)

        3.2 評價指標

        為了驗證本文模型的有效性,我們介紹了四個評價指標。首先,混淆矩陣如表1所示。

        表1 類別混淆矩陣

        精確率是指在模型預測為攻擊樣本中,預測正確的樣本數的比重,如式(13)所示。

        (13)

        召回率是指在模型正確檢測出攻擊樣本占總攻擊樣本的比重,如式(14)所示。

        (14)

        F1值是精確率和召回率的諧波平均值,如式(15)所示:

        (15)

        誤報率是正常樣本被誤判為攻擊樣本數占總正常樣本數的比重,如式(16)所示。

        (16)

        我們更側重于召回率(Rec)和誤報率(FPR)的值,因為異常檢測的主要性能任務是考察攻擊流量是否能被檢測和是否將正常流量誤判成異常。因為虛警可能會對網絡安全的管理會造成負面的影響。

        3.3 模型超參數

        本文實驗基于32 GB內存,Intel Xeon Processor E5-2600 v4處理器,Ubuntu 16.04操作系統。實驗采用TensorFlow-1.6.0框架實現。

        在實驗中,設置學習率learning rate為1E-5,批次大小batch-size為32,γ值取0.9,并使用提前終止機制,如果訓練3個epoch測試集的Recall值都沒有提升,就選擇提早結束(Early_Stopping)訓練。數據每次訓練出的模型都會受到之前模型的影響,同時也會影響之后的模型訓練,因此我們在模型訓練時使用滑動平均模型(Moving Average)控制參數更新前后的差距,從而減緩參數的變化幅度,使得模型更穩(wěn)健,在本實驗中我們設置decay值為0.999 9。

        訓練模塊的核心是使用EB-GAN神經網絡模型從訓練數據中提出數據特征,利用RMSProp優(yōu)化迭代實現權值更新。E、G和D使用到的激活函數分別是LeakyReLU、ReLU和LeakyReLU,并使用Dropout和Batch Normalization,在一定程度上避免了神經網絡過擬合,提高了模型訓練速度。

        3.4 實驗結果分析

        在本文中,我們選擇EGAN[22]、ALAD[23]、MAD-GAN[24]、AnoGAN[25]、DAGMM[26]作為Baseline進行對比實驗。我們在表2中列出了全部的實驗結果。EB-GAN模型的總體準確率為95.30%、召回率為96.81%、F1得分為96.05%。除此之外,我們還計算了誤報率為1.17%。顯然,本文模型比其他五個模型效果好;在實驗過程中,EB-GAN模型網絡崩潰的概率小于其他模型,收斂迭代快;EGAN、ALAD等模型需要約50 epochs才能達到收斂,而EB-GAN只需要約30 epochs即可收斂;AnoGAN、DAGMM模型雖然收斂快,但模型性能不佳,并且AnoGAN測試集所需時間遠遠大于其他模型。綜上,EB-GAN模型優(yōu)于其他Baseline模型。

        表2 模型性能結果(%)

        此外,為了驗證Bi-LSTM和Attention的有效性,我們對使用LSTM或Bi-LSTM以及是否添加Attention進行了實驗對比,結果如表3所示。使用Bi-LSTM的模型性能優(yōu)于LSTM,添加了Attention的模型相對于no-Attention模型有了一定的提升。由此可見,Attention機制和Bi-LSTM在一定程度上都有效地提升了模型分類的性能。

        表3 Bi-LSTM+Attention對比LSTM和Bi-LSTM(%)

        4 結 語

        本文針對原始GAN模型檢測率不高、效率低等問題,對基于BiGAN的異常檢測模型EB-GAN進行了深入研究,在KDDCUP 99 10percent公開數據集上驗證了本文方法的有效性。實驗證明,與其他的模型相比,EB-GAN模型的召回率和F1值均超過96%,性能優(yōu)于現有的檢測方法。

        接下來的工作大致有兩個方向,首先,我們將進一步探究異常檢測的多分類問題,將所提出的模型擴展到多類版本,實現攻擊類型的識別,并驗證其在更大規(guī)模數據集如CICID2017[27]數據集上的性能;其次,我們將探究GAN的其他用途,比如使用GAN方法進行數據增強從而實現數據不平衡問題等。

        猜你喜歡
        檢測方法模型
        一半模型
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        可能是方法不對
        3D打印中的模型分割與打包
        小波變換在PCB缺陷檢測中的應用
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        久久精品国产亚洲av高清漫画| 精品人妻少妇一区二区中文字幕| 白白青青视频在线免费观看| 国产精品一二三区亚洲 | 中文字幕一区二区三区久久网| 18禁无遮拦无码国产在线播放| 国产欧美VA欧美VA香蕉在| 国产99精品精品久久免费 | 一区二区午夜视频在线观看| 亚洲av永久无码天堂网| 亚洲精品乱码8久久久久久日本| 亚洲色偷偷色噜噜狠狠99| 蜜桃av无码免费看永久| 少妇高潮精品在线观看| 天堂网www资源在线| 97人人超碰国产精品最新o| 亚洲一区精品中文字幕| 中文字幕人妻互换av| 亚洲精品色婷婷在线影院| 欧美va亚洲va在线观看| 亚洲av乱码国产精品色| 国产av一区二区亚洲精品| 人妻久久久一区二区三区| 狠狠色噜噜狠狠狠97影音先锋| 亚洲高清av一区二区| 欧美黑人巨大videos精品| 国产av电影区二区三区曰曰骚网| 日本高清不在线一区二区色| 伊人精品成人久久综合97| 综合色就爱涩涩涩综合婷婷| 这里有精品可以观看| 亚洲精品一区二区三区av| 高级会所技师自拍视频在线| 国产乱xxⅹxx国语对白| 在线视频99| 日本一本草久国产欧美日韩| 亚洲精品中字在线观看| 少妇真实被内射视频三四区| 蜜臀久久99精品久久久久久小说| 级毛片无码av| 男女av免费视频网站|