亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的網(wǎng)絡(luò)流量異常預(yù)測(cè)方法

        2020-03-19 10:45:38黎佳玥劉一凡鄒建文
        關(guān)鍵詞:網(wǎng)絡(luò)流量流量預(yù)測(cè)

        黎佳玥,趙 波,李 想,劉 會(huì),劉一凡,鄒建文

        武漢大學(xué) 國(guó)家網(wǎng)絡(luò)安全學(xué)院 空天信息安全與可信計(jì)算教育部重點(diǎn)實(shí)驗(yàn)室,武漢430072

        1 引言

        隨著近年來(lái)網(wǎng)絡(luò)安全和人工智能的重要性日益增加,越來(lái)越多關(guān)于入侵檢測(cè)系統(tǒng)(IDS)的研究正在積極研究如何結(jié)合深度學(xué)習(xí)的優(yōu)勢(shì)。

        網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)(NIDS)被創(chuàng)建用來(lái)有效地防御各種類(lèi)型的網(wǎng)絡(luò)攻擊,并進(jìn)一步保護(hù)網(wǎng)絡(luò)系統(tǒng)正常運(yùn)行。目前,NIDS 主要通過(guò)分析網(wǎng)絡(luò)關(guān)鍵節(jié)點(diǎn)的網(wǎng)絡(luò)流量來(lái)識(shí)別惡意攻擊行為。在過(guò)去幾年中,深度學(xué)習(xí)在解決語(yǔ)音圖像識(shí)別、對(duì)象檢測(cè)和語(yǔ)義翻譯等應(yīng)用場(chǎng)景下的人工智能問(wèn)題方面取得了重大進(jìn)展。許多研究表明,在異常檢測(cè)分類(lèi)和預(yù)測(cè)方面,深度學(xué)習(xí)的表現(xiàn)已經(jīng)能夠優(yōu)于傳統(tǒng)方法。但是,IDS 性能高度依賴(lài)于功能設(shè)計(jì),同時(shí)基于異常的IDS 具有較高的誤報(bào)率,在實(shí)際應(yīng)用中表現(xiàn)不佳。因此,針對(duì)NIDS 怎樣能夠準(zhǔn)確表征網(wǎng)絡(luò)流量仍是一個(gè)值得研究的問(wèn)題。

        同時(shí),當(dāng)下針對(duì)IDS 流量預(yù)測(cè)的研究較少,而在實(shí)際情況下,準(zhǔn)確的時(shí)間序列預(yù)測(cè)和對(duì)預(yù)測(cè)不確定性的可靠估計(jì)對(duì)于異常檢測(cè)至關(guān)重要。目前迫切需要采用有效的流量預(yù)測(cè)模型實(shí)現(xiàn)NIDS 網(wǎng)絡(luò)安全事件的預(yù)警功能,以防止攻擊事件對(duì)真實(shí)世界造成更加嚴(yán)重的危害。因此,一種能夠預(yù)測(cè)網(wǎng)絡(luò)狀態(tài)并提供詳細(xì)的流量特征信息的新機(jī)制應(yīng)該添加到當(dāng)前的NIDS 中,使得該NIDS在實(shí)時(shí)檢測(cè)中可以根據(jù)預(yù)測(cè)網(wǎng)絡(luò)安全事件發(fā)生的可能性做出相應(yīng)的響應(yīng)策略。

        為了解決上述問(wèn)題,本文提出了一種基于深度學(xué)習(xí)的網(wǎng)絡(luò)流量異常預(yù)測(cè)方法。該方法通過(guò)訓(xùn)練來(lái)自NIDS遭受典型攻擊事件的大規(guī)模網(wǎng)絡(luò)流量公共數(shù)據(jù)集,用以預(yù)測(cè)來(lái)自網(wǎng)絡(luò)流量信號(hào)的典型異常攻擊事件出現(xiàn)概率。網(wǎng)絡(luò)流量數(shù)據(jù)隨時(shí)間記錄,并包含時(shí)間和空間信息,因而可根據(jù)數(shù)據(jù)包時(shí)間戳排序成為連續(xù)性的時(shí)間序列。

        為了計(jì)算網(wǎng)絡(luò)安全事件發(fā)生的概率,本文提出的方法構(gòu)建了由三個(gè)主要階段組成的神經(jīng)網(wǎng)絡(luò)模型:在第一階段,對(duì)NIDS 中網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行時(shí)間序列預(yù)處理和長(zhǎng)期短期記憶(LSTM)網(wǎng)絡(luò)學(xué)習(xí)時(shí)間特征。在第二階段,卷積神經(jīng)網(wǎng)絡(luò)(CNN)學(xué)習(xí)網(wǎng)絡(luò)流量的空間特征。在第三階段,基于前面步驟得到訓(xùn)練后的LSTM 模型用以預(yù)測(cè)后續(xù)時(shí)間戳中的網(wǎng)絡(luò)流量時(shí)間序列,訓(xùn)練后的CNN 模型對(duì)該時(shí)間序列進(jìn)行安全事件分類(lèi),用以估計(jì)下一時(shí)間段中網(wǎng)絡(luò)安全事件的出現(xiàn)概率。整個(gè)特征學(xué)習(xí)過(guò)程是基于深度學(xué)習(xí)自動(dòng)進(jìn)行的。實(shí)驗(yàn)結(jié)果證明了NIDS 中對(duì)網(wǎng)絡(luò)安全事件預(yù)警功能實(shí)現(xiàn)的可行性,將本文設(shè)計(jì)的預(yù)測(cè)模塊加入到NIDS中能夠在系統(tǒng)運(yùn)行中有效減少異常網(wǎng)絡(luò)流量的誤報(bào)率,得到準(zhǔn)確度較高的網(wǎng)絡(luò)安全事件預(yù)測(cè)效果。

        2 相關(guān)工作

        2.1 入侵檢測(cè)技術(shù)

        入侵檢測(cè)的目的是識(shí)別各種活動(dòng),尤其是惡意活動(dòng),它是目前保護(hù)計(jì)算機(jī)網(wǎng)絡(luò)和系統(tǒng)最重要的策略。過(guò)去的三十年中,對(duì)IDS 的研究一直在積極進(jìn)行并產(chǎn)生了大量成熟的應(yīng)用,其中一些已經(jīng)商業(yè)化。目前,根據(jù)觀察對(duì)象的不同可分為兩種類(lèi)型的入侵檢測(cè)系統(tǒng)[1]。

        第一種技術(shù)是基于簽名的入侵檢測(cè),稱(chēng)為誤用檢測(cè)[2]。該技術(shù)是基于已知特征和模式的知識(shí)檢測(cè)攻擊,而這些特征和模型也稱(chēng)為簽名。它通過(guò)將這些簽名與新檢測(cè)到的網(wǎng)絡(luò)流量進(jìn)行比較來(lái)檢測(cè)入侵行為。誤用檢測(cè)的優(yōu)點(diǎn)在于它對(duì)已知攻擊具有高檢測(cè)率和低誤報(bào)率,但它無(wú)法檢測(cè)到任何未知攻擊。

        第二種技術(shù)是基于行為的入侵檢測(cè),稱(chēng)為異常檢測(cè)[3]。它通過(guò)將異常行為與正常行為進(jìn)行比較來(lái)捕獲攻擊,目前主要采用機(jī)器學(xué)習(xí)的方法實(shí)現(xiàn)。在這種方法中,首先設(shè)置目標(biāo)環(huán)境中的網(wǎng)絡(luò)流量,并用流量特性的數(shù)據(jù)結(jié)構(gòu)實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ),再基于特性結(jié)構(gòu)利用有監(jiān)督或無(wú)監(jiān)督的學(xué)習(xí)方法建立識(shí)別模型。異常檢測(cè)的優(yōu)點(diǎn)是能夠檢測(cè)未知攻擊,對(duì)于工業(yè)界和學(xué)術(shù)界都有很大的吸引力。

        根據(jù)輸入數(shù)據(jù)的來(lái)源,IDS 又通常被分類(lèi)為基于主機(jī)的入侵檢測(cè)系統(tǒng)(HIDS)和基于網(wǎng)絡(luò)的入侵檢測(cè)系統(tǒng)(NIDS)[4]。NIDS 收集并分析網(wǎng)絡(luò)流量數(shù)據(jù),并確定當(dāng)前事件是否是正?;顒?dòng)。HIDS 由主機(jī)上的代理組成,該代理通過(guò)分析系統(tǒng)調(diào)用、應(yīng)用程序日志、文件系統(tǒng)修改等方式來(lái)識(shí)別入侵。由于HIDS基本上使用存儲(chǔ)在主機(jī)中的審計(jì)數(shù)據(jù),因此它可以比NIDS 更準(zhǔn)確地檢測(cè)異?;顒?dòng)[5]。但日前互聯(lián)網(wǎng)攻擊變得越來(lái)越復(fù)雜,而NIDS可以使用關(guān)于系統(tǒng)整體網(wǎng)絡(luò)信息的安全策略來(lái)執(zhí)行入侵檢測(cè),更能有效地檢測(cè)這些攻擊,因此系統(tǒng)安全保障對(duì)它的依賴(lài)性更大。

        NIDS中基于異常的檢測(cè)方法是入侵檢測(cè)領(lǐng)域的主要研究方向。該方法通過(guò)分析網(wǎng)絡(luò)流量來(lái)學(xué)習(xí)正常和異常行為,并可以檢測(cè)未知和新的攻擊。近年來(lái),大多數(shù)研究人員嘗試將機(jī)器學(xué)習(xí)應(yīng)用到入侵檢測(cè)中,尤其是通過(guò)機(jī)器學(xué)習(xí)來(lái)解決高誤報(bào)率的問(wèn)題。同時(shí),一些研究試圖將深度學(xué)習(xí)應(yīng)用于網(wǎng)絡(luò)流量預(yù)測(cè)。許多研究表明,深度學(xué)習(xí)在異常識(shí)別和預(yù)測(cè)方面的表現(xiàn)已經(jīng)能夠優(yōu)于傳統(tǒng)方法。但是,NIDS性能高度依賴(lài)于功能設(shè)計(jì),同時(shí)基于異常的檢測(cè)方法具有較高的誤報(bào)率,在實(shí)際應(yīng)用中表現(xiàn)不佳。因此,針對(duì)NIDS 怎樣能夠準(zhǔn)確表征網(wǎng)絡(luò)流量仍是一個(gè)值得研究的問(wèn)題。

        同時(shí),由于互聯(lián)網(wǎng)攻擊的分階段廣泛傳播,NIDS具有預(yù)測(cè)網(wǎng)絡(luò)安全事件并提前警告攻擊功能變得愈加重要。但是,主流系統(tǒng)機(jī)制只有在網(wǎng)絡(luò)攻擊造成一定程度的破壞后才能進(jìn)行響應(yīng),當(dāng)前的NIDS 不能提前進(jìn)行攻擊檢測(cè)預(yù)警。同時(shí),目前針對(duì)NIDS 流量預(yù)測(cè)的研究較少,而在實(shí)際情況下,準(zhǔn)確的時(shí)間序列預(yù)測(cè)和對(duì)預(yù)測(cè)不確定性的可靠估計(jì)對(duì)于異常檢測(cè)至關(guān)重要。目前迫切需要采用有效的流量預(yù)測(cè)模型實(shí)現(xiàn)NIDS對(duì)未來(lái)網(wǎng)絡(luò)安全事件的預(yù)警功能,以防止攻擊事件對(duì)真實(shí)世界造成更加嚴(yán)重的危害。

        2.2 深度神經(jīng)網(wǎng)絡(luò)與入侵檢測(cè)

        近年來(lái),深度神經(jīng)網(wǎng)絡(luò)在需要大數(shù)據(jù)分析領(lǐng)域的各種場(chǎng)景中取得了大范圍推廣[6],引發(fā)了深度學(xué)習(xí)的熱潮[7]。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一種算法研究分支,通過(guò)將線性或非線性模型轉(zhuǎn)換序列組織為特定數(shù)據(jù)結(jié)構(gòu)并不斷地學(xué)習(xí)和收斂,訓(xùn)練出目標(biāo)特征模型。

        卷積神經(jīng)網(wǎng)絡(luò)(CNN)在圖像和語(yǔ)音領(lǐng)域表現(xiàn)優(yōu)異,其中實(shí)現(xiàn)手寫(xiě)數(shù)字識(shí)別的卷積神經(jīng)網(wǎng)絡(luò)LeNet-5模型在MNIST 測(cè)試集上取得了低誤報(bào)率[8]。同時(shí),循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)中長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)克服了原始RNN對(duì)時(shí)間序列建模訓(xùn)練后梯度消失或梯度爆炸的問(wèn)題,并通過(guò)長(zhǎng)期狀態(tài)保存和前向計(jì)算,使用基于反向傳播算法訓(xùn)練時(shí)間序列預(yù)測(cè)模型[9]。通過(guò)在多個(gè)維度上提供大量與時(shí)間相關(guān)的序列數(shù)據(jù),已經(jīng)表明LSTM 方法可以通過(guò)非線性特征融合來(lái)模擬復(fù)雜的極端事件[10-11]。

        近幾年,一些研究已經(jīng)在利用深度神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)來(lái)完成入侵檢測(cè)任務(wù)。Wang 等[12]使用CNN 來(lái)學(xué)習(xí)網(wǎng)絡(luò)流量的空間特征,并使用圖像分類(lèi)方法實(shí)現(xiàn)對(duì)惡意網(wǎng)絡(luò)流量分類(lèi)識(shí)別。Torres等[13]首次將網(wǎng)絡(luò)流量特征轉(zhuǎn)換為一系列字符,然后使用RNN 來(lái)了學(xué)習(xí)它們的時(shí)間特征,這些特征進(jìn)一步用于檢測(cè)惡意網(wǎng)絡(luò)流量。Wang等[14]進(jìn)一步使用CNN 和LSTM 學(xué)習(xí)流量的時(shí)空特征用以提高流量檢測(cè)率。這些研究方法的共同點(diǎn)是單獨(dú)使用CNN 或RNN 或兩者結(jié)合,學(xué)習(xí)了單一或多種類(lèi)型的網(wǎng)絡(luò)流量特征。

        2.3 時(shí)間序列模型與網(wǎng)絡(luò)流量預(yù)測(cè)

        在時(shí)間序列預(yù)測(cè)的研究工作中,以標(biāo)準(zhǔn)R 預(yù)測(cè)[15]包模型為代表的經(jīng)典時(shí)間序列模型提供了單變量序列預(yù)測(cè)的通用方法。雖然有時(shí)間序列模型可以包含外生變量[16],但通常這些模型不僅需要手動(dòng)設(shè)置時(shí)序和其他參數(shù),而且具有維度詛咒問(wèn)題和頻繁重訓(xùn)練問(wèn)題[17]。這對(duì)于數(shù)百萬(wàn)個(gè)時(shí)間序列來(lái)說(shuō)是無(wú)法完成的任務(wù),亟待解決。

        為克服自動(dòng)提取特征和頻繁訓(xùn)練序列模型,一些研究將機(jī)器學(xué)習(xí)運(yùn)用在流量預(yù)測(cè)的特征訓(xùn)練中。例如,Ye等[18]用馬爾可夫鏈模型來(lái)學(xué)習(xí)和評(píng)估EWMA方法對(duì)入侵檢測(cè)活動(dòng)的預(yù)測(cè)。Shin 等[19]使用馬爾可夫鏈對(duì)網(wǎng)絡(luò)系統(tǒng)中的異常事件概率進(jìn)行建模,有效地預(yù)測(cè)和檢測(cè)網(wǎng)絡(luò)入侵。但這些研究方法的共同點(diǎn)都是只能針對(duì)單一維度下的網(wǎng)絡(luò)流量特征進(jìn)行訓(xùn)練。

        近幾年,深度學(xué)習(xí)在時(shí)間序列預(yù)測(cè)領(lǐng)域上的成績(jī)也受到了人們?cè)絹?lái)越多的關(guān)注。RNN 在某些任務(wù)需要能夠處理序列信息時(shí),相比于全連接神經(jīng)網(wǎng)絡(luò)和CNN 的單個(gè)輸入處理,能發(fā)揮出對(duì)應(yīng)的時(shí)間序列處理優(yōu)勢(shì)。RNN 改進(jìn)結(jié)構(gòu)長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)是Hochreiter 和Schmidhuber[20]提出的一種體系結(jié)構(gòu)。LSTM 和原始RNN 一樣也具有循環(huán)連接,主要特點(diǎn)是在原始RNN 中添加隱藏層LSTM 單元,用于學(xué)習(xí)基于網(wǎng)絡(luò)包向量序列的時(shí)間特征。LSTM 神經(jīng)網(wǎng)絡(luò)中對(duì)序列數(shù)據(jù)進(jìn)行前向計(jì)算得到特征向量值,再反向計(jì)算出每個(gè)時(shí)刻的誤差項(xiàng)并向上傳播,最后使用梯度下降算法更新權(quán)重[21]。實(shí)驗(yàn)表明,LSTM通過(guò)算法結(jié)構(gòu)設(shè)計(jì)克服了RNN訓(xùn)練中梯度爆炸和梯度消失的困難[22]。當(dāng)前LSTM 主要應(yīng)用于股市走向預(yù)測(cè)[23]、交通流量預(yù)測(cè)[24]以及電力負(fù)荷預(yù)測(cè)[25]等領(lǐng)域。

        3 提出的方法

        本章將詳細(xì)介紹提出的網(wǎng)絡(luò)流量異常預(yù)測(cè)方法。該方法利用深度學(xué)習(xí)方法在時(shí)間序列預(yù)測(cè)和空間特征分類(lèi)中挖掘網(wǎng)絡(luò)流量數(shù)據(jù)特征,實(shí)現(xiàn)預(yù)測(cè)入侵檢測(cè)系統(tǒng)中攻擊事件的發(fā)生概率。首先介紹融合了時(shí)間序列和圖像數(shù)據(jù)的網(wǎng)絡(luò)流量預(yù)測(cè)方法模型,然后解釋了該結(jié)構(gòu)下的預(yù)測(cè)網(wǎng)絡(luò)模塊和分類(lèi)網(wǎng)絡(luò)模塊。

        3.1 方法概述

        本文所提出的預(yù)測(cè)方法模型主要由時(shí)間序列預(yù)測(cè)模型和攻擊分類(lèi)模型組成,如圖1 所示。其中時(shí)間序列預(yù)測(cè)模塊由LSTM 實(shí)現(xiàn),攻擊分類(lèi)模型由LetNet 實(shí)現(xiàn)。該方法自動(dòng)學(xué)習(xí)連續(xù)網(wǎng)絡(luò)流量數(shù)據(jù)的時(shí)空特征,將訓(xùn)練得到的模型用于流量序列數(shù)據(jù)的預(yù)測(cè)和分類(lèi),旨在提高網(wǎng)絡(luò)安全事件分類(lèi)效率并滿(mǎn)足NIDS對(duì)安全事件的預(yù)測(cè)要求。

        圖1 整體方法模型

        該模型主要包含三個(gè)步驟。首先,對(duì)實(shí)時(shí)收集到的t 時(shí)段下IDS 的實(shí)時(shí)流量數(shù)據(jù)進(jìn)行數(shù)據(jù)的預(yù)處理,基于時(shí)間序列的預(yù)測(cè)器根據(jù)Seq()t 預(yù)測(cè)下一時(shí)段網(wǎng)絡(luò)流量序列Seq_p( )t+1。然后,對(duì)預(yù)測(cè)的網(wǎng)絡(luò)流量序列做網(wǎng)絡(luò)安全事件分類(lèi),得到下一時(shí)間戳下網(wǎng)絡(luò)安全事件的發(fā)生概率,有助于系統(tǒng)提前做出響應(yīng)。具體模塊在后面進(jìn)行介紹。

        3.2 使用LSTM學(xué)習(xí)時(shí)間特征

        RNN 在傳統(tǒng)前饋神經(jīng)網(wǎng)絡(luò)進(jìn)行擴(kuò)展實(shí)現(xiàn)了循環(huán)連接,因而擅長(zhǎng)對(duì)序列進(jìn)行建模。其中,RNN 使用反向傳播算法(BTPP)來(lái)處理可變長(zhǎng)度序列輸入[26]。將輸入序列、隱藏向量序列和輸出向量序列分別用In、Hid 和Out表示,即輸入序列為,隱藏向量序列和 輸 出 向 量 序 列,序列計(jì)算方法如下:

        其中,t=1,2,…,T,σ 是非線性函數(shù),W 是權(quán)重矩陣,b是偏置項(xiàng)。訓(xùn)練過(guò)程中在每個(gè)時(shí)間步都保存輸出誤差梯度。但當(dāng)誤差傳遞很多時(shí)刻后在向前傳播,會(huì)導(dǎo)致誤差項(xiàng)的值增長(zhǎng)或縮小非???,這樣會(huì)導(dǎo)致相應(yīng)的梯度爆炸或梯度消失[27]。

        LSTM 神經(jīng)網(wǎng)絡(luò)在原始RNN 中添加隱藏層LSTM單元,用于學(xué)習(xí)基于網(wǎng)絡(luò)包向量序列的時(shí)間特征,如圖2所示。

        圖2 LSTM單元結(jié)構(gòu)

        LSTM 關(guān)鍵在于如何控制長(zhǎng)期狀態(tài)的添加和權(quán)重,它使用門(mén)來(lái)控制LSTM 單元輸入中信息流的加權(quán)函數(shù)。圖2 所示的LSTM 單元有三個(gè)門(mén),即輸入門(mén)、遺忘門(mén)和輸出門(mén),它們分別控制通過(guò)不同階段中神經(jīng)元和神經(jīng)網(wǎng)絡(luò)的信息流。

        在時(shí)刻t 下,輸入為xt,隱藏層輸出為ht,前輸出為ht-1,單元輸入狀態(tài)為,單元輸出狀態(tài)為Ct,前狀態(tài)為Ct-1,三個(gè)門(mén)的狀態(tài)為it、ft和ot。LSTM 單元中Ct和ht都被傳輸?shù)较乱粋€(gè)神經(jīng)元。為了計(jì)算Ct和ht,按順序使用以下等式。

        首先,計(jì)算三個(gè)門(mén)的狀態(tài)和單元輸入狀態(tài)。輸入門(mén)決定輸入中的哪些值以更新存儲(chǔ)器狀態(tài):

        遺忘門(mén)決定從單元格中丟棄哪些信息:

        輸入門(mén)和遺忘門(mén)用于更新內(nèi)部狀態(tài)。輸出門(mén)根據(jù)輸入和單元的內(nèi)存決定輸出內(nèi)容:

        輸出門(mén)限制了單元實(shí)際輸出。則當(dāng)前輸入的單元狀態(tài)為:

        其中,Wxi、Wxf、Wxo、WxC是連接xt到三個(gè)門(mén)和單元輸入的權(quán)重矩陣,Whi、Whf、Who、WhC是連接ht-1到三個(gè)門(mén)和單元輸入的權(quán)重矩陣,bi、bf、bo、bC是三個(gè)門(mén)和單元輸入的偏差項(xiàng)。σ 表示門(mén)使用的激活函數(shù),其中輸入門(mén)和遺忘門(mén)為sigmoid函數(shù),輸出門(mén)為tanh函數(shù)。

        然后,計(jì)算單元輸出狀態(tài):

        時(shí)間序列是在等時(shí)間間隔下某類(lèi)變量的有序序列,具有自相關(guān)性和時(shí)序性。序列預(yù)測(cè)正是利用了時(shí)間序列特點(diǎn),對(duì)訓(xùn)練模型按照時(shí)間順序保留學(xué)習(xí)結(jié)果并進(jìn)行排序,因而可從一組時(shí)間序列中估計(jì)數(shù)據(jù)流的未來(lái)變化行為和發(fā)生概率。

        為了進(jìn)行網(wǎng)絡(luò)流量預(yù)測(cè),該模型使用LSTM 單元構(gòu)建了如圖3所示的LSTM神經(jīng)網(wǎng)絡(luò)。在時(shí)間t,網(wǎng)絡(luò)的輸入是觀察到的歷史數(shù)據(jù)xt,輸出是預(yù)測(cè)的未來(lái)數(shù)據(jù)。通過(guò)上述LSTM計(jì)算,得到ht,計(jì)算網(wǎng)絡(luò)輸出:

        其中,W 是輸出層和隱藏層之間的權(quán)重矩陣,b是輸出層的偏置項(xiàng)。該網(wǎng)絡(luò)使用了具有多層LSTM 單元的編碼器-解碼器框架(圖3)[28]:將提取特征以時(shí)間序列{xt}輸t入,預(yù)測(cè)網(wǎng)絡(luò)由編碼器和解碼器組成,其中編碼器讀入前T 個(gè)時(shí)間戳{ x1, x2,…,xT}對(duì)LSTM 單元進(jìn)行訓(xùn)練,解碼器在{ xT-F+1,xT-F+2,…,xT}通過(guò)訓(xùn)練好的LSTM單元輸出預(yù)測(cè)的下一時(shí)間序列{ xT+1,xT+2,…,xT+F},將其作為預(yù)測(cè)結(jié)果輸出。

        圖3 LSTM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        綜上所述,本方法使用了雙層LSTM 神經(jīng)網(wǎng)絡(luò)作為該模型的預(yù)測(cè)網(wǎng)絡(luò),整體框架如圖4 所示。將NIDS 的網(wǎng)絡(luò)流量數(shù)據(jù)集通過(guò)數(shù)據(jù)預(yù)處理構(gòu)造為包含多個(gè)連續(xù)流量數(shù)據(jù)的時(shí)間序列,每個(gè)訓(xùn)練樣本由相鄰時(shí)間戳的兩個(gè)時(shí)間序列組成。通過(guò)構(gòu)造好的LSTM 神經(jīng)網(wǎng)絡(luò)模型對(duì)樣本集進(jìn)行訓(xùn)練,得到能夠預(yù)測(cè)下一時(shí)間戳的時(shí)間序列預(yù)測(cè)器。該預(yù)測(cè)方法可用于對(duì)NIDS實(shí)時(shí)流量的觀測(cè)進(jìn)行下一時(shí)間戳網(wǎng)絡(luò)流量數(shù)據(jù)的預(yù)測(cè)。

        3.3 使用CNN學(xué)習(xí)空間特征

        卷積神經(jīng)網(wǎng)絡(luò)(CNN)在計(jì)算機(jī)視覺(jué)領(lǐng)域中表現(xiàn)優(yōu)秀[29],在自然語(yǔ)言處理(NLP)領(lǐng)域也有一些成功的應(yīng)用[30],適用于訓(xùn)練多維數(shù)據(jù)和具有強(qiáng)烈局部相關(guān)性的數(shù)據(jù)[31]。其中,1D-CNN 適用于順序數(shù)據(jù)和語(yǔ)言等數(shù)據(jù),2D-CNN 適用于圖像和音頻譜圖等數(shù)據(jù),3D-CNN 適用于視頻或體積圖像等數(shù)據(jù)。

        CNN 能夠?qū)W習(xí)空間特征,由若干卷積層、池化層和全連接層組成,一般的網(wǎng)絡(luò)結(jié)構(gòu)如圖5 所示。經(jīng)典模型LeNet 是卷積神經(jīng)網(wǎng)絡(luò)的提出者LeCun 在1998 年提出,用于解決手寫(xiě)數(shù)字識(shí)別的視覺(jué)任務(wù)。如今各大深度學(xué)習(xí)框架中所使用的LeNet都是簡(jiǎn)化改進(jìn)過(guò)的LeNet-5(-5表示具有5個(gè)層)。

        在所提出的方法中,CNN 應(yīng)用于整個(gè)網(wǎng)絡(luò)流量識(shí)別,如圖6所示。本文方法中,將擁有n維特征項(xiàng)的流量數(shù)據(jù)通過(guò)獨(dú)熱編碼(OHE)后轉(zhuǎn)換為單個(gè)m×m 的流圖像,其中多余位數(shù)置0。圖像通過(guò)訓(xùn)練好的CNN 模型進(jìn)行識(shí)別,最終輸出代表分類(lèi)編碼的流向量:由多個(gè)標(biāo)簽向量組成,這些分組向量表示各流量包的分類(lèi)。

        3.4 方法分析

        本文提出的網(wǎng)絡(luò)流量異常預(yù)測(cè)方法,首先利用了卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像數(shù)據(jù)在空間特征提取上的優(yōu)勢(shì),將網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行圖像化處理后進(jìn)行空間特征訓(xùn)練和安全事件識(shí)別,解決NIDS 中異常網(wǎng)絡(luò)流量誤報(bào)率高的問(wèn)題;然后結(jié)合長(zhǎng)短期記憶網(wǎng)絡(luò)對(duì)時(shí)間序列的訓(xùn)練場(chǎng)景,將網(wǎng)絡(luò)流量預(yù)測(cè)處理為時(shí)間序列預(yù)測(cè)過(guò)程,進(jìn)行時(shí)間特征訓(xùn)練和流量數(shù)據(jù)走向預(yù)測(cè),提供了NIDS 對(duì)網(wǎng)絡(luò)流量進(jìn)行預(yù)測(cè)的可行性;最后將兩種訓(xùn)練模型結(jié)合,對(duì)當(dāng)前網(wǎng)絡(luò)流量進(jìn)行預(yù)測(cè)識(shí)別,實(shí)現(xiàn)實(shí)時(shí)自動(dòng)化監(jiān)控NIDS 的網(wǎng)絡(luò)流量異常預(yù)測(cè)功能。

        圖4 網(wǎng)絡(luò)流量預(yù)測(cè)網(wǎng)絡(luò)架構(gòu)

        圖5 CNN神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        圖6 攻擊事件分類(lèi)網(wǎng)絡(luò)架構(gòu)

        該方法中流量異常識(shí)別準(zhǔn)確度依賴(lài)于訓(xùn)練數(shù)據(jù)的數(shù)據(jù)規(guī)模大小,安全事件類(lèi)型識(shí)別準(zhǔn)確性依賴(lài)于訓(xùn)練數(shù)據(jù)中流量類(lèi)型的多樣性,流量變化預(yù)測(cè)的準(zhǔn)確度依賴(lài)于數(shù)據(jù)規(guī)模大小和時(shí)間步長(zhǎng)選取。當(dāng)NIDS中受到全新的攻擊模式時(shí),可以實(shí)現(xiàn)對(duì)當(dāng)前網(wǎng)絡(luò)流量異常識(shí)別的高準(zhǔn)確度,但無(wú)法識(shí)別安全事件類(lèi)型以及當(dāng)前攻擊時(shí)間下未來(lái)流量的變化,此時(shí)需要重新收集此類(lèi)安全事件流量數(shù)據(jù),更新預(yù)測(cè)方法模型。

        4 實(shí)驗(yàn)和分析

        本章實(shí)驗(yàn)是為證明本文所提出的網(wǎng)絡(luò)流量異常預(yù)測(cè)方法的可行性所設(shè)計(jì),對(duì)NIDS 中的網(wǎng)絡(luò)流量進(jìn)行了異常識(shí)別和預(yù)測(cè)模型訓(xùn)練和準(zhǔn)確性驗(yàn)證。所有研究實(shí)驗(yàn)均在個(gè)人筆記本電腦上進(jìn)行,該電腦具有Intel Core i5-5200U CPU@2.20 GHz,8 GB 內(nèi)存的配置,并且不使用GPU 加速。設(shè)計(jì)的兩組實(shí)驗(yàn)為基于LetNet 的安全事件分類(lèi)和基于LSTM 的流量特征預(yù)測(cè),它們分別對(duì)應(yīng)本文方法中的網(wǎng)絡(luò)安全事件識(shí)別和網(wǎng)絡(luò)流量預(yù)測(cè),流量類(lèi)型包括normal、DoS、DDoS和PortScan。

        4.1 數(shù)據(jù)集介紹

        2017 年,加拿大新布倫瑞克大學(xué)(UNB)信息安全卓越中心(ISCX)發(fā)布了一個(gè)名為CICIDS2017 的入侵檢測(cè)數(shù)據(jù)集。CICIDS2017 涵蓋了常見(jiàn)的安全網(wǎng)絡(luò)事件的所有11 個(gè)必要標(biāo)準(zhǔn),如DoS、DDoS、Bruteforce、XSS,SQL 注入、Infiltration、PortScan 和Botnet。通過(guò)使用加拿大網(wǎng)絡(luò)安全研究所網(wǎng)站公開(kāi)提供的CICFlowMeter 軟件,數(shù)據(jù)集被標(biāo)記為正常和異常并被提取出了80 多個(gè)網(wǎng)絡(luò)流量特征。根據(jù)ImanSharafaldin[32],在實(shí)驗(yàn)中選擇包含了表1 中顯示的每種攻擊對(duì)應(yīng)最佳選擇功能特征值,共計(jì)33個(gè)。

        在進(jìn)行實(shí)驗(yàn)之前,還需要對(duì)CICIDS2017 數(shù)據(jù)集進(jìn)行預(yù)處理。標(biāo)簽項(xiàng)為攻擊類(lèi)型的流量總數(shù)統(tǒng)計(jì)如圖7所示,其中Bruteforce、Web 攻擊和Botnet 流量數(shù)據(jù)較少,在實(shí)驗(yàn)中不單獨(dú)做訓(xùn)練。

        因?yàn)镃ICIDS2017未被提供商劃分為訓(xùn)練和測(cè)試數(shù)據(jù)集;因此,實(shí)驗(yàn)中分別使用80%和20%的比例將其劃分為訓(xùn)練和測(cè)試數(shù)據(jù)集。此外,這個(gè)比例最近被許多研究人員使用。表2 顯示了CICIDS2017 數(shù)據(jù)集的預(yù)處理結(jié)果。

        圖8~11 是該數(shù)據(jù)集中以四種流量特征項(xiàng)為代表的四種網(wǎng)絡(luò)流量特征隨時(shí)間變化的曲線圖,即分別對(duì)應(yīng)特征項(xiàng)Bwd Packet Length Std、SubflowFwd Bytes、Flow Duration和Init_Win_bytes_forward,每張圖中(a)~(d)分別對(duì)應(yīng)Benign、DoS、DDoS 和PortScan 四種類(lèi)型的時(shí)間連續(xù)的1 000 個(gè)網(wǎng)絡(luò)流量數(shù)據(jù)。從圖中可以看出,不同類(lèi)型的流量在相同特征項(xiàng)中呈現(xiàn)出了不同的分布規(guī)律。

        表1 特征選項(xiàng)

        圖7 CICIDS2017記錄的攻擊總數(shù)分布

        表2 CICIDS2017數(shù)據(jù)集預(yù)處理結(jié)果

        4.2 實(shí)驗(yàn)結(jié)果和討論

        4.2.1 基于LetNet的安全事件分類(lèi)

        圖8 特征項(xiàng)Bwd Packet Length Std下網(wǎng)絡(luò)流量數(shù)據(jù)變化

        圖9 特征項(xiàng)SubflowFwd Bytes下網(wǎng)絡(luò)流量數(shù)據(jù)變化

        圖10 特征項(xiàng)Flow Duration下網(wǎng)絡(luò)流量數(shù)據(jù)變化

        圖11 特征項(xiàng)Init_Win_bytes_forward下網(wǎng)絡(luò)流量數(shù)據(jù)變化

        表3 LetNet模型主要參數(shù)

        通常情況下,準(zhǔn)確度(ACC),檢測(cè)率(DR)和誤報(bào)率(FAR)被用作IDS 評(píng)估的度量。準(zhǔn)確度用于評(píng)估系統(tǒng)的整體性能。DR表示IDS模型檢測(cè)到的入侵實(shí)例的比率。而FAR是錯(cuò)誤分類(lèi)的正常情況的比率。基于混淆矩陣度量方程如下(TP:真陽(yáng)性,TN:真陰性,F(xiàn)P:假陽(yáng)性,F(xiàn)N:假陰性):

        因此,NIDS 能以較低的誤報(bào)率獲得高準(zhǔn)確度和檢測(cè)率。實(shí)驗(yàn)中使用多個(gè)卷積層和多個(gè)連接層來(lái)提取網(wǎng)絡(luò)流量特征并傳遞給全連接SoftMax 層,該層的輸出是輸入會(huì)話或輸入流的概率分布。表3 描述了實(shí)驗(yàn)使用的2D-CNN模型LetNet中每一層的主要參數(shù)。

        實(shí)驗(yàn)首先對(duì)網(wǎng)絡(luò)流量數(shù)據(jù)按照特征項(xiàng)進(jìn)行了歸一化處理,經(jīng)過(guò)OHE 模塊轉(zhuǎn)化為像素大小為m×m 的矩陣圖像。圖12 中顯示隨著輪詢(xún)次數(shù)增加,該CNN 模型對(duì)攻擊類(lèi)型分類(lèi)的loss值和acc值的變化趨勢(shì)。從圖中可以看到當(dāng)輪詢(xún)次數(shù)達(dá)到7 時(shí),該模型的分類(lèi)質(zhì)量趨于穩(wěn)定,到達(dá)20 次輪詢(xún)時(shí)loss值為0.031 2,acc 值為0.997 0,如表4所示。

        經(jīng)過(guò)測(cè)試評(píng)估分類(lèi)效果,表5 顯示了每種攻擊和整體攻擊分類(lèi)的準(zhǔn)確率、檢測(cè)率以及誤報(bào)率。實(shí)驗(yàn)中將為識(shí)別為Benign 的對(duì)象都分類(lèi)為anomaly,因此存在部分混淆矩陣變量有未出現(xiàn)對(duì)應(yīng)分類(lèi)實(shí)例的情況??偨Y(jié)了表5中的結(jié)果,總體準(zhǔn)確度為99.57%。在總攻擊實(shí)例中檢測(cè)到真實(shí)攻擊流量的百分比為99.52%,將正常流量分類(lèi)為異常的總體誤報(bào)率為0.26%,表現(xiàn)出了很好的網(wǎng)絡(luò)安全事件識(shí)別性能。

        圖12 CNN模型訓(xùn)練的時(shí)間分布

        表4 不同epoch變化下的模型評(píng)估值

        4.2.2 基于LSTM的流量特征預(yù)測(cè)

        為了保證預(yù)測(cè)性能,實(shí)驗(yàn)構(gòu)建時(shí)間序列預(yù)測(cè)LSTM需要定義每個(gè)主要神經(jīng)網(wǎng)絡(luò)參數(shù)。關(guān)鍵參數(shù)包括輸入向量和輸出向量維度、h的隱藏層數(shù)、每個(gè)隱藏層中的隱藏單元數(shù)以及訓(xùn)練的batch。每個(gè)時(shí)間步的網(wǎng)絡(luò)輸入和輸出的維度等于每個(gè)時(shí)間段中的行進(jìn)時(shí)間的維度。輸入層大小取決于用于預(yù)測(cè)的前一個(gè)時(shí)間間隔,其他參數(shù)也會(huì)顯著影響模型的精度。

        表5 使用CNN的不同攻擊類(lèi)型的檢測(cè)率比較%

        為確定每個(gè)步驟的隱藏層的維度,首先進(jìn)行實(shí)驗(yàn)精確度對(duì)比以確定,結(jié)果表明在給定輸入維度的情況下隱藏層數(shù)為2,隱藏單位的數(shù)量均為64 時(shí)R2平均值最大,即預(yù)測(cè)值最接近真實(shí)值??紤]到流量包時(shí)間序列收集的時(shí)間延遲,實(shí)驗(yàn)使用訓(xùn)練模型預(yù)測(cè)最近觀察到的多個(gè)時(shí)間段的流量特征時(shí)間序列以查看模型的執(zhí)行情況,觀測(cè)數(shù)據(jù)為{… , xt-1,xt} 以此預(yù)測(cè)下一個(gè)時(shí)間戳的時(shí)間序列xt+1。

        在實(shí)驗(yàn)中使用正常訓(xùn)練數(shù)據(jù)集時(shí),首先將所有實(shí)例進(jìn)行歸一化。輸入向量維度為(樣本數(shù)、時(shí)間步長(zhǎng)、特征數(shù)),輸出向量為下一時(shí)間戳的特征值。其中將LSTM體系結(jié)構(gòu)應(yīng)用于隱藏層,使用softmax輸出層,優(yōu)化器為Adam,損失函數(shù)為均方誤差(MSE)。

        為了評(píng)估所提出的模型的有效性,實(shí)驗(yàn)使用三個(gè)性能指標(biāo),即平均絕對(duì)誤差(MAE),均方根誤差(RMSE)和R-Squared(R2)。它們被定義為:

        在模型評(píng)估部分設(shè)置了預(yù)測(cè)多個(gè)時(shí)間間隔的LSTM 模型,其中的主要參數(shù)為:添加2 層隱藏層,每層有64 個(gè)神經(jīng)元,輸入變量和輸出變量是不同時(shí)間步長(zhǎng)( t-1) 和(t )的特征,損失函數(shù)采用l2_loss,優(yōu)化算法采用Adam。表6 是在不同輸入輸出時(shí)間步長(zhǎng)比例和batch下,以DDoS 為代表的4 個(gè)主要流量特征訓(xùn)練結(jié)果的R2值,結(jié)果顯示實(shí)驗(yàn)中模型batch 最優(yōu)設(shè)置為128,時(shí)間步長(zhǎng)(輸入步長(zhǎng)∶輸出步長(zhǎng))最優(yōu)為4∶1。

        為了查看LSTM 神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)性能,表7 中給出了實(shí)驗(yàn)預(yù)測(cè)包含不同異常流量類(lèi)型的RMSE、MRE 和R2,選取的流量特征項(xiàng)為Flow Duration、Bwd Packet Length Std、SubflowFwd Bytes、Init_Win_bytes_forward。從表中數(shù)據(jù)可以看出,在DoS流量數(shù)據(jù)中Flow Duration的R2為0.87,預(yù)測(cè)模型訓(xùn)練結(jié)果最優(yōu),而在DDoS 流量數(shù)據(jù)中為SubflowFwd Bytes,它的R2為0.695。因此,不同類(lèi)型的流量類(lèi)型應(yīng)該對(duì)流量特征項(xiàng)預(yù)測(cè)分配相應(yīng)的權(quán)重。

        在總體流量數(shù)據(jù)中Flow Duration 和Bwd Packet Length Std 的R2分別為0.735 和0.762,均高于其他單個(gè)流量類(lèi)型的預(yù)測(cè)效果。由此可得,流量數(shù)據(jù)類(lèi)型的規(guī)模和數(shù)據(jù)量的大小對(duì)預(yù)測(cè)模型的訓(xùn)練效果有顯著的影響。圖13~17為不同流量類(lèi)型中四種特征的預(yù)測(cè)效果。

        5 結(jié)束語(yǔ)

        隨著入侵預(yù)測(cè)在網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)中的重要性日益突出,本文提出了一種新的基于深度學(xué)習(xí)框架的網(wǎng)絡(luò)流量分類(lèi)預(yù)測(cè)方法,可以有效地預(yù)測(cè)潛在的網(wǎng)絡(luò)安全事件出現(xiàn)概率。該方法包括三個(gè)主要階段,使用深度學(xué)習(xí)進(jìn)行評(píng)估建模。首先,對(duì)網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行時(shí)間序列預(yù)處理和長(zhǎng)期短期記憶(LSTM)網(wǎng)絡(luò)學(xué)習(xí)時(shí)間特征。接下來(lái),卷積神經(jīng)網(wǎng)絡(luò)(CNN)學(xué)習(xí)網(wǎng)絡(luò)流量的空間特征。最后使用訓(xùn)練后的LSTM 模型預(yù)測(cè)出后續(xù)時(shí)間戳中的網(wǎng)絡(luò)流量時(shí)間序列,訓(xùn)練后的CNN 模型對(duì)該時(shí)間序列進(jìn)行網(wǎng)絡(luò)安全事件分類(lèi),用以估計(jì)下一時(shí)間段NIDS 受到攻擊的風(fēng)險(xiǎn)概率。通過(guò)使用CICIDS2017數(shù)據(jù)集的實(shí)驗(yàn)評(píng)估所提出方法的性能。本方法實(shí)現(xiàn)了對(duì)多種網(wǎng)絡(luò)攻擊具有高檢測(cè)性能的同時(shí),對(duì)未來(lái)安全事件出現(xiàn)概率進(jìn)行了有效地評(píng)估,為NIDS 預(yù)警安全事件功能證明了可行性。

        表6 DDoS的模型性能統(tǒng)計(jì)

        表7 模型性能統(tǒng)計(jì)

        圖13 Benign預(yù)測(cè)與實(shí)際的比較

        圖14 DoS預(yù)測(cè)與實(shí)際的比較

        圖15 DDoS預(yù)測(cè)與實(shí)際的比較

        圖16 PortScan預(yù)測(cè)與實(shí)際的比較

        圖17 所有類(lèi)別預(yù)測(cè)與實(shí)際的比較

        因此,未來(lái)的工作預(yù)計(jì)所提出的方法將與現(xiàn)有的NIDS有效地集成,能更好地實(shí)現(xiàn)安全事件的預(yù)警功能。同時(shí)未來(lái)還需要實(shí)現(xiàn)自動(dòng)找到本文模型的最佳參數(shù),并將組合各種概率技術(shù)以提高NIDS網(wǎng)絡(luò)安全事件預(yù)測(cè)和分類(lèi)的準(zhǔn)確性。

        猜你喜歡
        網(wǎng)絡(luò)流量流量預(yù)測(cè)
        無(wú)可預(yù)測(cè)
        黃河之聲(2022年10期)2022-09-27 13:59:46
        基于多元高斯分布的網(wǎng)絡(luò)流量異常識(shí)別方法
        冰墩墩背后的流量密碼
        玩具世界(2022年2期)2022-06-15 07:35:36
        選修2-2期中考試預(yù)測(cè)卷(A卷)
        選修2-2期中考試預(yù)測(cè)卷(B卷)
        張曉明:流量決定勝負(fù)!三大流量高地裂變無(wú)限可能!
        基于神經(jīng)網(wǎng)絡(luò)的P2P流量識(shí)別方法
        尋找書(shū)業(yè)新流量
        出版人(2020年4期)2020-11-14 08:34:26
        AVB網(wǎng)絡(luò)流量整形幀模型端到端延遲計(jì)算
        不必預(yù)測(cè)未來(lái),只需把握現(xiàn)在
        亚洲一区二区免费在线观看视频 | 女同av在线观看网站| 久久婷婷夜色精品国产| 久久精品国产亚洲av网| 天堂资源中文最新版在线一区| 亚洲夜夜骑| 一个人看的在线播放视频| 人妻少妇进入猛烈时中文字幕| 亚洲av片一区二区三区| 亚洲国产午夜精品乱码| av免费观看在线网站| 国产99一区二区三区四区| 国产裸拍裸体视频在线观看| 亚洲精品综合第一国产综合| 亚洲国内精品一区二区在线 | 亚洲av中文字字幕乱码软件| 天天做天天爱夜夜爽毛片毛片| 久久亚洲私人国产精品| 久久天堂av色综合| 亚洲成人av一区二区| 婷婷色香五月综合缴缴情| 中文字幕美人妻亅u乚一596| 国产精品人成在线观看| 亚洲一区二区三区高清在线观看| 久久精品国产亚洲av高清热| 亚洲免费观看网站| 国产成人久久精品二区三区| www国产亚洲精品久久麻豆| 最好看的最新高清中文视频| 亚洲色四在线视频观看| 久久伊人亚洲精品视频| 狠狠噜天天噜日日噜无码| 色综合久久无码中文字幕app| 91久久国产露脸国语对白| 性做久久久久久免费观看| 特级毛片a级毛片免费播放| 国产人成视频免费在线观看| 夜夜骚久久激情亚洲精品| 国产美女在线精品免费观看| 国产69口爆吞精在线视频喝尿| 精品成人av人一区二区三区|