亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的入侵檢測模型綜述

        2022-03-22 03:34:04張小雨張振友
        關(guān)鍵詞:深度特征檢測

        張 昊,張小雨,張振友,李 偉

        華北理工大學(xué) 人工智能學(xué)院,河北 唐山 063210

        隨著科學(xué)技術(shù)的發(fā)展,網(wǎng)絡(luò)幾乎成為了人們生活和工作中不可或缺的重要工具。但是,在當(dāng)今愈加復(fù)雜的網(wǎng)絡(luò)環(huán)境下,各種網(wǎng)絡(luò)攻擊手段接踵而來,攻擊頻率不斷增加,影響范圍不斷擴(kuò)大,全球因網(wǎng)絡(luò)安全引發(fā)的泄露事故呈日趨頻繁。尤其是零日攻擊[1-3],讓人防不勝防。因此對于入侵檢測(intrusion detection,ID)的研究已成為當(dāng)前網(wǎng)絡(luò)安全領(lǐng)域的重要研究方向之一,研究人員都在追求高效、穩(wěn)定的入侵檢測。入侵檢測的任務(wù)是發(fā)現(xiàn)可疑攻擊,采取相應(yīng)的措施,使網(wǎng)絡(luò)避免被攻擊,從而有效減少經(jīng)濟(jì)損失。入侵檢測系統(tǒng)(intrusion detection system,IDS)最早研究于1980年,到目前為止,入侵檢測系統(tǒng)經(jīng)過了幾十年的發(fā)展取得了一定的成果,通過不斷引入新想法、新技術(shù)(區(qū)塊鏈技術(shù)[4]等),使其充滿活力,但是對于入侵檢測系統(tǒng)的研究還有較大的提升空間。

        入侵檢測系統(tǒng)根據(jù)所檢測數(shù)據(jù)來源的不同,可以分為基于主機(jī)的入侵檢測系統(tǒng)和基于網(wǎng)絡(luò)的入侵檢測系統(tǒng)。由于互聯(lián)網(wǎng)的應(yīng)用越發(fā)廣泛,研究人員對網(wǎng)絡(luò)入侵檢測系統(tǒng)的研究也越來越重視,為此研究人員將深度學(xué)習(xí)算法應(yīng)用于網(wǎng)絡(luò)入侵檢測,以進(jìn)一步提高其性能,因此本文主要針對網(wǎng)絡(luò)入侵檢測進(jìn)行研究調(diào)查。另外,根據(jù)其檢測能力,入侵檢測方法又分為特征檢測方法和異常檢測方法。其中特征檢測方法通過將事件和流量與已知攻擊標(biāo)志數(shù)據(jù)庫相匹配,從而判斷是否存在攻擊行為,但是這種方法無法檢測未知的攻擊。另一方面,異常檢測方法試圖學(xué)習(xí)正常行為規(guī)律并將其他一切識別為異?;蛉肭?。但這種方法還存在著較高的誤報(bào)率,因此研究人員將深度學(xué)習(xí)技術(shù)應(yīng)用于異常入侵檢測的研究中,從而降低入侵檢測誤報(bào)率。

        雖然目前研究人員針對不同類型的網(wǎng)絡(luò)攻擊提出了各種入侵檢測模型,并將機(jī)器學(xué)習(xí)算法應(yīng)用到入侵檢測模型中,但是這些模型還存在著一系列的問題[5]。首先,基于機(jī)器學(xué)習(xí)的入侵檢測模型在準(zhǔn)確率上取得的效果并不是很理想,并且這種入侵檢測模型還有著較高的誤報(bào)率。其次,隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,如今的網(wǎng)絡(luò)流量越來越大,入侵檢測模型在運(yùn)行過程中需要對大量的網(wǎng)絡(luò)流量進(jìn)行分析和處理,而機(jī)器學(xué)習(xí)在分析和處理大量數(shù)據(jù)上并不能表現(xiàn)出良好的性能。

        近年來,深度學(xué)習(xí)模型在大數(shù)據(jù)分析中取得了很好的成效,許多研究人員開始將深度學(xué)習(xí)技術(shù)應(yīng)用在入侵檢測模型上,基于深度學(xué)習(xí)的入侵檢測模型被廣泛研究和應(yīng)用[6]。本文主要調(diào)查近年來深度學(xué)習(xí)技術(shù)在入侵檢測上的應(yīng)用成果,對其自身的優(yōu)點(diǎn)和不足進(jìn)行闡述,并對入侵檢測模型未來的挑戰(zhàn)進(jìn)行分析。

        1 數(shù)據(jù)預(yù)處理

        數(shù)據(jù)預(yù)處理是指在對數(shù)據(jù)進(jìn)行主要的操作之前的一系列處理操作,既保證數(shù)據(jù)的完整性和準(zhǔn)確性,也為后面對數(shù)據(jù)進(jìn)行操作提供方便。下面將介紹幾種常用于入侵檢測模型的數(shù)據(jù)預(yù)處理方法。

        1.1 數(shù)據(jù)標(biāo)準(zhǔn)化

        數(shù)據(jù)標(biāo)準(zhǔn)化是通過對原始數(shù)據(jù)進(jìn)行等比例縮放,經(jīng)過處理之后的數(shù)據(jù)處于同一數(shù)量級,從而使模型在訓(xùn)練過程中使用的數(shù)據(jù)都具有相同的標(biāo)度。使用數(shù)據(jù)標(biāo)準(zhǔn)化處理后的數(shù)據(jù)對深度學(xué)習(xí)模型進(jìn)行訓(xùn)練時,可以在一定程度上提高深度學(xué)習(xí)模型精度。并且對于使用梯度下降優(yōu)化的模型,可以有效地提高模型的收斂速度。下面介紹兩種常用的標(biāo)準(zhǔn)化方法,分別為Min-Max標(biāo)準(zhǔn)化和Z-score標(biāo)準(zhǔn)化。

        Min-Max標(biāo)準(zhǔn)化是通過對原始數(shù)據(jù)進(jìn)行線性變換,將原始數(shù)據(jù)映射到[0,1]之間[7]。該方法計(jì)算公式如下:

        其中,x為原始數(shù)據(jù),xnorm為標(biāo)準(zhǔn)化后的數(shù)據(jù),xmax和xmin分別為原始數(shù)據(jù)中的最大值和最小值。

        Z-score標(biāo)準(zhǔn)化是通過計(jì)算原始數(shù)據(jù)的均值和標(biāo)準(zhǔn)差來對其進(jìn)行標(biāo)準(zhǔn)化[8]。對于要使用Z-score標(biāo)準(zhǔn)化進(jìn)行處理的數(shù)據(jù),需要保證原始數(shù)據(jù)近似高斯分布,否則經(jīng)過處理后的數(shù)據(jù)反而會影響后續(xù)模型的訓(xùn)練。該方法計(jì)算公式如下:

        其中,μ和σ分別為原始數(shù)據(jù)的均值和方差。

        數(shù)據(jù)標(biāo)準(zhǔn)化在深度學(xué)習(xí)方法中非常有用,并且被用于大多數(shù)神經(jīng)網(wǎng)絡(luò)計(jì)算工作中,這與神經(jīng)元的激活特征和權(quán)重的更新有關(guān)。例如,Liu等人使用Min-Max標(biāo)準(zhǔn)化對KDD999數(shù)據(jù)集以及UNSW-NB15數(shù)據(jù)集進(jìn)行預(yù)處理,為后續(xù)模型的訓(xùn)練與測試做準(zhǔn)備[9]。

        1.2 特征編碼

        由于訓(xùn)練入侵檢測模型所使用的數(shù)據(jù)集中可能會帶有一些非數(shù)字的特征符號,但是對于深度學(xué)習(xí)模型而言,特殊符號并不能用作模型的訓(xùn)練,因?yàn)橹挥袛?shù)字類型的數(shù)據(jù)才能進(jìn)行計(jì)算。所以,對于數(shù)據(jù)集中這些特殊的特征值,通常會采用兩種編碼方式進(jìn)行解決,分別是標(biāo)簽編碼和One-Hot編碼[10]。而對于深度學(xué)習(xí)算法而言,采用One-Hot編碼方式更為適合。下面將對One-Hot編碼進(jìn)行詳細(xì)介紹。

        One-Hot編碼也被稱為一位有效編碼,其基本原理是通過多位狀態(tài)寄存器來對多個狀態(tài)進(jìn)行編碼。例如,Xiao等人在對KDD99數(shù)據(jù)集進(jìn)行預(yù)處理時,使用One-Hot編碼方法將數(shù)據(jù)集中的符號特征數(shù)值化[11]。通過One-Hot編碼處理后便可以將KDD99數(shù)據(jù)集中的三個符號特征映射成一個84維向量,從而使數(shù)據(jù)集符合深度學(xué)習(xí)所需的輸入類型。

        1.3 特征選擇

        特征選擇也被稱為特征子集選擇,該方法是在給定的特征集合中選擇出對于模型訓(xùn)練比較重要的特征組成特征子集[12-13]。通過特征選擇可以有效地降低數(shù)據(jù)集的維數(shù),緩解維數(shù)災(zāi)難問題,并且通過刪除不重要特征來降低后續(xù)模型學(xué)習(xí)的難度[14-15]。特征選擇包括三種選擇方式,分別是過濾式、包裹式以及嵌入式。過濾式特征選擇是先對數(shù)據(jù)集進(jìn)行特征選擇,然后再對分類器進(jìn)行訓(xùn)練。過濾式特征選擇算法復(fù)雜性低,可以快速去除大量不相關(guān)的特征,因此適用于大規(guī)模數(shù)據(jù)集。但是由于算法的評價標(biāo)準(zhǔn)獨(dú)立于特定的學(xué)習(xí)算法,其所選的特征子集在分類準(zhǔn)確率方面通常低于包裹式特征選擇。而包裹式特征選擇根據(jù)學(xué)習(xí)器的性能來對特征子集進(jìn)行評價,因此包裹式特征選擇具有更好的分類性能。但是包裹式特征選擇選出的特征子集通用性不強(qiáng),當(dāng)改變學(xué)習(xí)算法時,需要針對該學(xué)習(xí)算法重新進(jìn)行特征選擇。由于每次對子集的評價都要進(jìn)行分類器的訓(xùn)練和測試,所以算法計(jì)算復(fù)雜度很高,因此對于大規(guī)模數(shù)據(jù)集來說,算法的執(zhí)行時間過長。嵌入式特征選擇是指對原始數(shù)據(jù)的特征選擇是在學(xué)習(xí)器訓(xùn)練過程中完成的。

        1.4 采樣技術(shù)

        入侵檢測模型訓(xùn)練所使用的數(shù)據(jù)集通常存在著類別不平衡的問題。針對這個問題,可以使用采樣技術(shù)將存在類不平衡問題的數(shù)據(jù)集轉(zhuǎn)換為較平衡的數(shù)據(jù)集,以提高少數(shù)類別的預(yù)測精度。當(dāng)前,根據(jù)數(shù)據(jù)集中類別樣本數(shù)目的多少可以分為兩種采樣方法,分別是欠采樣方法和過采樣方法。

        欠采樣方法是對樣本數(shù)量過多的類別進(jìn)行“欠采樣”,通過減少其樣本數(shù)量從而使得正例、反例的樣本數(shù)量接近,然后再進(jìn)行學(xué)習(xí)。例如,Yang等人為避免數(shù)據(jù)集不平衡和數(shù)據(jù)冗余對檢測精度的影響,通過欠采樣方法對AWID數(shù)據(jù)集進(jìn)行處理,減少多數(shù)類數(shù)據(jù)樣本數(shù)量,使得攻擊樣本和正常樣本的數(shù)量基本相等[16]。實(shí)驗(yàn)證明,通過這種方法,可以有效地檢測潛在的攻擊并提高模型精度。

        過采樣方法是使用“過采樣”對樣本數(shù)量過多的類別進(jìn)行處理,通過增加其樣本數(shù)量從而使得正例、反例的樣本數(shù)量接近,然后再進(jìn)行學(xué)習(xí)。例如,Sun等人為解決數(shù)據(jù)集中攻擊樣本數(shù)量的較少的問題,對數(shù)據(jù)集中攻擊樣本進(jìn)行過采樣[17]。實(shí)驗(yàn)結(jié)果證明,過采樣方法在攻擊樣本數(shù)量較少的情況下,可以提高入侵檢測的準(zhǔn)確性。

        2 基于深度學(xué)習(xí)的入侵檢測模型

        近些年,深度學(xué)習(xí)從機(jī)器學(xué)習(xí)技術(shù)中脫穎而出,用于特征選擇、感知和無監(jiān)督學(xué)習(xí)。該算法使用多個后續(xù)層來實(shí)現(xiàn)其操作,通過開發(fā)多層人工神經(jīng)網(wǎng)絡(luò),并且其中許多隱藏層彼此堆疊,可以從基準(zhǔn)數(shù)據(jù)集中自主學(xué)習(xí),無需人為手動標(biāo)記,實(shí)現(xiàn)特征精簡提取,進(jìn)而提高準(zhǔn)確性和實(shí)時性。研究人員逐漸將深度學(xué)習(xí)應(yīng)用于多個領(lǐng)域:例如檢測鑒別物體;文字、語音、圖像的識別;網(wǎng)絡(luò)入侵檢測等。

        在過去的研究中,部分學(xué)者對基于深度學(xué)習(xí)的入侵檢測方法進(jìn)行了梳理總結(jié)[18-23],但是還不夠完善。本章首先對現(xiàn)有基于卷積神經(jīng)網(wǎng)絡(luò)、自編碼器、長短期記憶網(wǎng)絡(luò)、生成式對抗網(wǎng)絡(luò)等深度學(xué)習(xí)算法的入侵檢測模型進(jìn)行分類介紹。這四種深度學(xué)習(xí)算法是在當(dāng)前入侵檢測模型的研究中,被研究人員使用的最為廣泛幾種深度學(xué)習(xí)算法。另外,對于使用其他深度學(xué)習(xí)算法的入侵檢測模型將在本章最后進(jìn)行總結(jié)補(bǔ)充。

        2.1 基于卷積神經(jīng)網(wǎng)絡(luò)的入侵檢測模型

        卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)是一種含有卷積操作的深度結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò),由輸入層、卷積層、池化層、完全連接層和輸出層組成,其中卷積層和池化層是卷積神經(jīng)網(wǎng)絡(luò)的重要組成部分。卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)中的代表算法之一[24-25],根據(jù)卷積層和池化層層數(shù)的不同可以構(gòu)建不同結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)。

        卷積神經(jīng)網(wǎng)絡(luò)具有良好的泛化能力,能夠適用于多種分類任務(wù)。通過卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建的入侵檢測模型,能直接對灰度圖像進(jìn)行分析和識別。使用卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建入侵檢測模型時,需要對數(shù)據(jù)集進(jìn)行處理,將其轉(zhuǎn)換為符合卷積神經(jīng)網(wǎng)絡(luò)輸入的灰度圖,然后將灰度圖輸入卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,以此將流量分類問題轉(zhuǎn)換為圖片分類問題。通過卷積神經(jīng)網(wǎng)絡(luò)來提取流量的特征,能夠提取數(shù)據(jù)中具有影響力的特征,并且由于其權(quán)值共享的特性,可以有效地提高入侵檢測模型對數(shù)據(jù)處理時的效率,從而進(jìn)一步提高入侵檢測模型的性能。

        Xiao等人提出了一種基于特征降維和卷積神經(jīng)網(wǎng)絡(luò)的入侵檢測模型[11],該模型通過主成分分析[26](principal component analysis,PCA)或自編碼器(auto-encoder,AE)對處理后的數(shù)據(jù)集進(jìn)行降維,然后將降維后的數(shù)據(jù)轉(zhuǎn)換為灰度圖像輸入到卷積神經(jīng)網(wǎng)絡(luò)中,最后通過卷積神經(jīng)網(wǎng)絡(luò)提取和分析數(shù)據(jù)特征進(jìn)行分類。實(shí)驗(yàn)結(jié)果表明,模型的預(yù)測準(zhǔn)確率可達(dá)到94.00%。該方法在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,通過使用主成分分析和自編碼器對數(shù)據(jù)集進(jìn)行降維,減少了數(shù)據(jù)集的冗余,提高了入侵檢測模型的性能,減少了分類時間[11]。Khan等人通過對卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn),提出了一種入侵檢測模型。該模型所設(shè)置的卷積神經(jīng)網(wǎng)絡(luò)共有三個隱藏層,每個隱藏層都包含一個卷積層和一個池化層,并且卷積層的內(nèi)核數(shù)量是逐步增加的,分別為32、64、128。通過實(shí)驗(yàn)表明,該模型預(yù)測準(zhǔn)確率可達(dá)到99.23%[27]。該方法通過改變卷積神經(jīng)網(wǎng)絡(luò)中卷積層內(nèi)核的數(shù)量,將輸入的低維數(shù)據(jù)映射到高維空間,從而增強(qiáng)模型學(xué)習(xí)特征的能力,有效地提高模型的準(zhǔn)確率。Wu等人提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的大規(guī)模網(wǎng)絡(luò)入侵檢測模型,該模型與使用機(jī)器學(xué)習(xí)構(gòu)建的入侵檢測模型相比提高了準(zhǔn)確率,并且由于卷積神經(jīng)網(wǎng)絡(luò)具有權(quán)值共享的特性,能夠有效地減少訓(xùn)練的參數(shù)數(shù)目和計(jì)算量,從而使入侵檢測模型更快地從流量數(shù)據(jù)中識別攻擊類型[28]。但由于該方法并未對卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn),因此并未取得較好的效果。Ho等人使用卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建了一種入侵檢測模型,該模型選擇CICIDS2017數(shù)據(jù)集用作訓(xùn)練和測試,針對該數(shù)據(jù)集中所存在的問題,研究人員提出了在CICIDS2017數(shù)據(jù)集的基礎(chǔ)上創(chuàng)建一個適合訓(xùn)練的新數(shù)據(jù)集,以此解決CICIDS2017數(shù)據(jù)集中類不平衡和數(shù)據(jù)分散存儲的問題。通過實(shí)驗(yàn)證明,該模型在CICIDS2017數(shù)據(jù)集上準(zhǔn)確率可達(dá)99.78%[29]。Andresini等人基于卷積神經(jīng)網(wǎng)絡(luò)提出了一種新穎的入侵檢測模型[30]。該模型首先采用自編碼器提取輸入數(shù)據(jù)的特征,然后對輸出的特征執(zhí)行最近鄰搜索和聚類過程的組合來導(dǎo)出符合卷積神經(jīng)網(wǎng)絡(luò)輸入的灰度圖像,最后對卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。實(shí)驗(yàn)證明,該模型在KDD99數(shù)據(jù)集上的準(zhǔn)確率可達(dá)到93.58%。Andresini等人提出將生成式對抗網(wǎng)絡(luò)(generative adversarial network,GAN)和卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的入侵檢測模型[31]。該模型首先將輸入數(shù)據(jù)的一維特征向量表示映射到二維圖像表示,然后訓(xùn)練一個輔助分類器生成式對抗網(wǎng)絡(luò)來生成表示不可預(yù)見的網(wǎng)絡(luò)攻擊的新圖像,以此來得到類平衡的數(shù)據(jù)集。最后將數(shù)據(jù)集放入卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練和測試。實(shí)驗(yàn)證明,該模型在KDD99數(shù)據(jù)集上的準(zhǔn)確率達(dá)到93.29%。該方法通過將生成式對抗網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,解決了數(shù)據(jù)集中的類不平衡問題,并且通過生成式對抗網(wǎng)絡(luò)生成新的網(wǎng)絡(luò)攻擊,使得卷積神經(jīng)網(wǎng)絡(luò)得到更好的訓(xùn)練效果,有效地提高模型的準(zhǔn)確率。

        通過以上方法可以看出,基于卷積神經(jīng)網(wǎng)絡(luò)的入侵檢測模型可以有效地檢測攻擊行為。卷積神經(jīng)網(wǎng)絡(luò)可以很好地提取數(shù)據(jù)的特征,并且由于其權(quán)值共享的特性,能夠有效減少所要訓(xùn)練的參數(shù),從而減少訓(xùn)練所需時間。

        如圖1基于卷積神經(jīng)網(wǎng)絡(luò)入侵檢測模型結(jié)構(gòu)所示。在基于卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建的入侵檢測模型中,首先對原始流量數(shù)據(jù)進(jìn)行預(yù)處理,將其轉(zhuǎn)化為標(biāo)準(zhǔn)數(shù)據(jù)。然后,將標(biāo)準(zhǔn)數(shù)據(jù)進(jìn)行圖片化轉(zhuǎn)化為灰度圖像。最后,將獲得的流量灰度圖輸入到卷積神經(jīng)網(wǎng)絡(luò)中,利用卷積神經(jīng)網(wǎng)絡(luò)提取流量數(shù)據(jù)中的相關(guān)特征,并利用所得到的特征進(jìn)行分類,檢測是否存在異常流量。

        圖1 基于卷積神經(jīng)網(wǎng)絡(luò)的入侵檢測模型Fig.1 Intrusion detection model based on convolutional neural network

        2.2 基于長短期記憶網(wǎng)絡(luò)的入侵檢測模型

        長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)[32]是一種具有反饋連接的神經(jīng)網(wǎng)絡(luò),它是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)[33-34](recurrent neural network,RNN)。循環(huán)神經(jīng)網(wǎng)絡(luò)在處理序列數(shù)據(jù)上具有良好的效果,但其本身還存在著一些問題,其中最主要問題就是循環(huán)神經(jīng)網(wǎng)絡(luò)對梯度消失或爆炸的敏感性[35]。而長短期記憶網(wǎng)絡(luò)[36]體系結(jié)構(gòu)通過在其循環(huán)連接中提供存儲塊來解決此問題。每個存儲塊都包括存儲單元,用來存儲網(wǎng)絡(luò)時間狀態(tài)。此外,它還包含用于控制信息流的門控單元。因此長短期記憶網(wǎng)絡(luò)通常用于處理圖像、視頻或語音等。

        Althubiti等人使用長短期記憶網(wǎng)絡(luò)建立入侵檢測模型,并在CIDDS001數(shù)據(jù)集上評估了模型的性能,實(shí)驗(yàn)結(jié)果證明,該模型在CIDDS001數(shù)據(jù)集上的預(yù)測準(zhǔn)確率可達(dá)到84.83%[37]。Hassan等人提出了一種高效入侵檢測模型,該模型通過將卷積神經(jīng)網(wǎng)絡(luò)與長短期記憶網(wǎng)絡(luò)相結(jié)合來構(gòu)建入侵檢測模型。實(shí)驗(yàn)結(jié)果證明,該模型預(yù)測準(zhǔn)確率可達(dá)到97.17%,該方法又經(jīng)10倍交叉驗(yàn)證測試,準(zhǔn)確率達(dá)到96.975%[38]。該方法利用卷積神經(jīng)網(wǎng)絡(luò)提取數(shù)據(jù)的空間特征,并且通過長短期記憶網(wǎng)絡(luò)保留所提取的特征之間的依賴關(guān)系,以此來提取數(shù)據(jù)的時空特征。通過這種結(jié)合的方式,可以更好地提取數(shù)據(jù)的時空特征,從而提高模型準(zhǔn)確率。Yang等人提出了一種基于注意力機(jī)制的長短期記憶網(wǎng)絡(luò)入侵檢測模型,它通過長短期記憶網(wǎng)絡(luò)來保留數(shù)據(jù)間長期依賴關(guān)系,從而更好地提取數(shù)據(jù)的時間特征。通過實(shí)驗(yàn)表明,該模型的預(yù)測準(zhǔn)確率達(dá)到94.30%[39]。該方法在長短期記憶網(wǎng)絡(luò)的基礎(chǔ)上添加了注意力機(jī)制,通過注意力機(jī)制的優(yōu)勢解決了入侵檢測模型無法關(guān)注關(guān)鍵特征的問題,從而提高了模型的準(zhǔn)確率。Kim等人構(gòu)建了一個基于梯度下降優(yōu)化的長短期記憶網(wǎng)絡(luò)入侵檢測分類器,通過對長短期記憶遞歸神經(jīng)網(wǎng)絡(luò)模型的六種優(yōu)化算法進(jìn)行比較,選取最合適的優(yōu)化算法構(gòu)建入侵檢測模型,該模型最終的預(yù)測準(zhǔn)確率達(dá)到了97.54%[40]。Jiang等人提出了一種混合采樣與深度分層網(wǎng)絡(luò)相結(jié)合的網(wǎng)絡(luò)入侵檢測模型,首先通過單側(cè)選擇和過采樣技術(shù)創(chuàng)建一個均衡的數(shù)據(jù)集,使模型充分學(xué)習(xí)少數(shù)樣本的特征,大大減少模型的訓(xùn)練時間。其次,通過卷積神經(jīng)網(wǎng)絡(luò)來提取數(shù)據(jù)的空間特征,利用長短期記憶網(wǎng)絡(luò)提取數(shù)據(jù)的時間特征,形成了一個深層的層次化網(wǎng)絡(luò)模型。該模型在NSL-KDD數(shù)據(jù)集和UNSW-NB15數(shù)據(jù)集上得到的預(yù)測準(zhǔn)確率分別達(dá)到83.58%和77.16%[41]。Imrana等人提出了一種基于雙向長短期記憶網(wǎng)絡(luò)(bidirectional long short-term memory,BiLSTM)的入侵檢測模型[42]。該模型在輸入數(shù)據(jù)上訓(xùn)練兩個長短期記憶網(wǎng)絡(luò)。第一個長短期記憶網(wǎng)絡(luò)位于原始輸入數(shù)據(jù)上,另一個位于輸入數(shù)據(jù)的反向副本上。通過使用雙向長短期記憶網(wǎng)絡(luò),可以有效地提高模型在分類問題上的性能。實(shí)驗(yàn)結(jié)果表明,該模型在NSLKDD數(shù)據(jù)集上進(jìn)行二元分類的準(zhǔn)確率可達(dá)到87.46%。Kanna等人提出了一種基于優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)和分層多尺度長短期記憶網(wǎng)絡(luò)的入侵檢測模型[43]。在該模型中,獅群優(yōu)化算法(loin swarm optimization,LSO)用于調(diào)整卷積神經(jīng)網(wǎng)絡(luò)的超參數(shù),幫助模型更好地學(xué)習(xí)數(shù)據(jù)的空間特征。并使用分層多尺度長短期記憶網(wǎng)絡(luò)學(xué)習(xí)不同特征之間的層次關(guān)系并提取時間特征,這種分層多尺度長短期記憶網(wǎng)絡(luò)可以減少參數(shù)數(shù)量,提高訓(xùn)練效率。經(jīng)實(shí)驗(yàn)證明,該模型在NSL-KDD數(shù)據(jù)集上準(zhǔn)確率可達(dá)到90.67%。

        基于長短期記憶網(wǎng)絡(luò)的入侵檢測模型能夠有效地提取數(shù)據(jù)的時序特征,保持?jǐn)?shù)據(jù)間長期依賴關(guān)系。但通過以上方法可以發(fā)現(xiàn),基于長短期記憶網(wǎng)絡(luò)的入侵檢測模型普遍存在著較高的誤報(bào)率,可以使用長短期記憶網(wǎng)絡(luò)與其他深度學(xué)習(xí)算法相結(jié)合,準(zhǔn)確描繪數(shù)據(jù)的時空特征,從而降低模型誤報(bào)率。

        2.3 基于自編碼器的入侵檢測模型

        自編碼器(auto-encode,AE)是一種無監(jiān)督學(xué)習(xí)算法[44-45]。其作用是重新編碼輸入,讓輸出接近輸入,使得隱藏層深層較低維度的神經(jīng)元能夠代替淺層高維度的輸入層神經(jīng)元,從而達(dá)到降維和特征提取的作用。自動編碼器可以分成兩部分:一個由函數(shù)h=f(x)表示的編碼器和一個由函數(shù)x′=g(h)表示的重構(gòu)解碼器。第一個函數(shù)能將輸入數(shù)據(jù)進(jìn)行壓縮并提取特征,第二個函數(shù)則是對壓縮后的數(shù)據(jù)進(jìn)行重構(gòu)。

        通過編碼和解碼,自編碼器可以學(xué)習(xí)數(shù)據(jù)內(nèi)在的特征分布。如果僅用正常流量進(jìn)行訓(xùn)練,則能夠得到一個簡單的正常與異常流量分類器,分類器會根據(jù)重構(gòu)誤差(輸入和預(yù)測之間的誤差)是否在設(shè)定閾值范圍內(nèi)判定流量數(shù)據(jù)是正常流量還是異常流量。

        基于自編碼器的入侵檢測模型架構(gòu)如圖2所示,研究人員在其基礎(chǔ)上提出了各種各樣的入侵檢測模型。例如,Gurung等人提出了一種基于稀疏自編碼器的入侵檢測模型,通過其稀疏性減少特征向量之間的依賴關(guān)系。通過實(shí)驗(yàn)表明,該模型在NSL-KDD數(shù)據(jù)集上的準(zhǔn)確率可以達(dá)到87.2%[46]。Farahnakian等人將四個自編碼器進(jìn)行連接建立了一個深度自編碼器的入侵檢測模型,將上一個自編碼器的輸出作為下一個自編碼器的輸入。實(shí)驗(yàn)結(jié)果表明,該模型在KDD99數(shù)據(jù)集上的二類分類和多類分類的預(yù)測準(zhǔn)確率分別可達(dá)到96.53%和94.71%[47]。該方法通過將多個自編碼器組合構(gòu)建深度自編碼器,實(shí)現(xiàn)了數(shù)據(jù)的降維以及解決不平衡分類的問題,從而使入侵檢測模型性能得到有效提升。Shone等人采用非對稱多隱層自編碼器與隨機(jī)森林分類器相結(jié)合搭建了一種入侵檢測模型,其減少了計(jì)算成本和所需的訓(xùn)練數(shù)據(jù)量。實(shí)驗(yàn)結(jié)果表明,該模型在KDD99數(shù)據(jù)集上的預(yù)測準(zhǔn)確率達(dá)到97.85%[48]。Zavrak等人提出了一種基于變分編碼器的入侵檢測模型,實(shí)驗(yàn)結(jié)果表明,該方法的檢測率在大多數(shù)情況下要優(yōu)于自編碼器,但是由于方法的誤報(bào)率比較高,因此要使用受監(jiān)督的學(xué)習(xí)算法[49]。Wang等人提出了一種基于堆疊去噪自編碼器(stacked denoising auto encoder,SDAE)和極限學(xué)習(xí)機(jī)(extreme learning machine,ELM)相結(jié)合的集成深度入侵檢測模型[50]。該模型通過去噪自編碼器學(xué)習(xí)數(shù)據(jù)集的特征,然后將學(xué)習(xí)到的特征輸入到極限學(xué)習(xí)機(jī)中進(jìn)行微調(diào),最終得到訓(xùn)練好的模型。其中,極限學(xué)習(xí)機(jī)具有學(xué)習(xí)效率快、泛化性能好的優(yōu)點(diǎn),可以減少模型訓(xùn)練時間。通過多次實(shí)驗(yàn)證明,該模型對KDD99數(shù)據(jù)集進(jìn)行二類分類的準(zhǔn)確率可達(dá)到93%以上。Khan等人基于長短期記憶網(wǎng)絡(luò)以及自編碼器提出了一種混合智能入侵檢測模型[51]。該模型通過長短期記憶網(wǎng)絡(luò)來檢測時間特征,利用自編碼器更有效地檢測全局特征。通過實(shí)驗(yàn)表明,該模型在ISCX-UNB數(shù)據(jù)集的準(zhǔn)確率高達(dá)97.52%。該方法使用長短期記憶網(wǎng)絡(luò)以及自編碼器相結(jié)合,準(zhǔn)確地刻畫了數(shù)據(jù)的時空特征,使得模型在準(zhǔn)確率上取得了較大的提升。Vaiyapuri等人提出了一種無監(jiān)督的入侵檢測模型[52]。該模型利用深度自動編碼器的優(yōu)點(diǎn)來學(xué)習(xí)魯棒的特征表示,并使用一類支持向量機(jī)(one-class support vector machine,OCSVM)來尋找更緊湊的決策超平面來進(jìn)行入侵檢測。與現(xiàn)有方法不同的是,該模型結(jié)合重構(gòu)誤差和分類誤差定義了統(tǒng)一的目標(biāo)函數(shù),以確保學(xué)習(xí)到的特征表示具有魯棒性,從而最大限度地減少分類誤差并實(shí)現(xiàn)更高的入侵檢測精度。最終該模型在UNSW-NB15數(shù)據(jù)集上取得96.97%的準(zhǔn)確率。

        圖2 基于自編碼器的入侵檢測模型Fig.2 Intrusion detection model based on auto-encoder

        通過以上方法可以發(fā)現(xiàn)自編碼器在入侵檢測的研究中應(yīng)用得較為廣泛,研究人已經(jīng)將多個版本的自編碼器應(yīng)用于入侵檢測的研究,包括普通自編碼器、堆疊自編碼器、稀疏自編碼器和堆疊稀疏自編碼器。自編碼器已成為入侵檢測研究中降維和分類階段最常見的架構(gòu),其既可以作為一種數(shù)據(jù)處理方法,對維度較大的數(shù)據(jù)進(jìn)行降維,也可以作為分類器對網(wǎng)絡(luò)流量進(jìn)行檢測。

        2.4 基于生成式對抗網(wǎng)絡(luò)的入侵檢測模型

        生成式對抗網(wǎng)絡(luò)[53-54]是由Goodfellow等人提出的一種新穎的深度學(xué)習(xí)生成模型,是當(dāng)前最有研究價值的模型之一[55]。生成式對抗網(wǎng)絡(luò)由生成器和鑒別器兩個部分組成,其中生成器通過學(xué)習(xí)捕獲真實(shí)數(shù)據(jù)樣本的概率分布生成新的樣本數(shù)據(jù),然后通過鑒別器來判斷輸入樣本是真實(shí)數(shù)據(jù)樣本還是生成樣本數(shù)據(jù)。

        生成式對抗網(wǎng)絡(luò)在多個領(lǐng)域得到了廣泛的應(yīng)用,實(shí)現(xiàn)了強(qiáng)大的圖像、聲音和文本生成能力,同時也有助于改善入侵檢測模型的性能。生成式對抗網(wǎng)絡(luò)作為一種深層生成模型,基于交互和對抗的思想,可以將未標(biāo)記的數(shù)據(jù)轉(zhuǎn)化為有標(biāo)記的數(shù)據(jù)。因此,由生成器生成的樣本可以被視為假樣本,生成器將生成的樣本與訓(xùn)練集中的真實(shí)樣本進(jìn)行混合,然后將其隨機(jī)地輸入到鑒別器中,從而判斷樣本是真實(shí)樣本還是生成樣本。因此生成式對抗網(wǎng)絡(luò)能有效地解決數(shù)據(jù)集中標(biāo)簽數(shù)據(jù)樣本較少的問題。

        由于信息時代的到來,收集大量未標(biāo)記樣本很簡單,但是想要采集大量標(biāo)記樣本就需要消耗大量的人力物力。生成式對抗網(wǎng)絡(luò)有效地解決了這個問題,因此得以廣泛應(yīng)用。Liao等人將GAN的標(biāo)準(zhǔn)模型進(jìn)一步轉(zhuǎn)化為監(jiān)督學(xué)習(xí)模型,提出了一種基于GAN的網(wǎng)絡(luò)入侵檢測方法。分別選用LSTM網(wǎng)絡(luò)和人工神經(jīng)網(wǎng)絡(luò)作為信號生成器和鑒別器。在相同的測試集樣本下,將GAN與其他方法的原始分類模型在多個性能指標(biāo)上進(jìn)行了比較。實(shí)驗(yàn)結(jié)果表明,該方法能有效地提高網(wǎng)絡(luò)入侵檢測性能,精度達(dá)到82.3%[56]。Singla等人基于生成式對抗網(wǎng)絡(luò)提出了一種對抗域自適應(yīng)的入侵檢測模型,該模型通過將域自適應(yīng)和生成式對抗網(wǎng)絡(luò)相結(jié)合,降低了入侵檢測模型訓(xùn)練所需要的數(shù)據(jù)量,使得可以通過少量的樣本數(shù)據(jù)訓(xùn)練而達(dá)到更高的準(zhǔn)確率和精度,同時降低了訓(xùn)練所需時間。通過實(shí)驗(yàn)表明,該模型在相同特征空間下對源數(shù)據(jù)集預(yù)測準(zhǔn)確率可以穩(wěn)定在91%~94%[57]。Li等人基于GAN提出了一種新的入侵檢測模型,用于在正常流量和惡意流量不成比例的情況下提高攻擊檢測性能。通過信息增益和主成分分析進(jìn)行特征提取,通過DBSCAN(density-based spatial clustering of applications with noise)進(jìn)行數(shù)據(jù)聚類以及通過WGAN-DIV(wasserstein GAN divergence)進(jìn)行數(shù)據(jù)生成,最后使用六個入侵檢測分類器在三個數(shù)據(jù)集中分別進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,該模型使用XGBoost分類器使得準(zhǔn)確率在90%~98%,并且獲得了最佳的F1得分(F1 Score)[58]。Liu等人針對入侵檢測數(shù)據(jù)集的不平衡性和高維性的特點(diǎn),提出使用生成式對抗網(wǎng)絡(luò)對數(shù)據(jù)集進(jìn)行處理[59]。一方面通過生成式對抗網(wǎng)絡(luò)生成少數(shù)類樣本數(shù)據(jù),另一方面使用方差分析法進(jìn)行特征選擇,從而得到低維且平衡的數(shù)據(jù)集,最后將生成的類平衡數(shù)據(jù)集放入機(jī)器學(xué)習(xí)模型中進(jìn)行訓(xùn)練。該方法通過生成式對抗網(wǎng)絡(luò)的優(yōu)點(diǎn)來解決數(shù)據(jù)集不平衡問題,為接下來的模型提供平衡的數(shù)據(jù)集,有效地提高了模型的準(zhǔn)確性。

        生成式對抗網(wǎng)絡(luò)通過學(xué)習(xí)少量數(shù)據(jù)集從而產(chǎn)生新的不可預(yù)測的攻擊樣本,以此解決數(shù)據(jù)集不平衡問題。生成式對抗網(wǎng)絡(luò)適合在數(shù)據(jù)集較少的情況下使用,并與其他深度學(xué)習(xí)方法相結(jié)合,可以更好地提高入侵檢測模型性能。

        2.5 不同類型入侵檢測模型分析比較

        表1中列出了以上四種基于深度學(xué)習(xí)的入侵檢測模型的優(yōu)點(diǎn)和適用情況。

        表1 不同類型入侵檢測模型分析比較Table 1 Analysis and comparison of different types of intrusion detection models

        通過2.1~2.4節(jié)以及表1的介紹可以看出,現(xiàn)有的基于深度學(xué)習(xí)的入侵檢測模型可以歸為以下幾類:(1)采用卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建的入侵檢測模型可以更好地提取數(shù)據(jù)中的空間特征,提高模型的計(jì)算效率。并且由于其權(quán)值共享的特性,能夠有效減少所要訓(xùn)練的參數(shù),降低了模型的自由度,避免了在有限的數(shù)據(jù)集上花費(fèi)大量時間進(jìn)行擬合所造成的過擬合。(2)時序特征是數(shù)據(jù)的一個重要特征,長短期記憶網(wǎng)絡(luò)可以通過其特有的細(xì)胞結(jié)構(gòu)來保持?jǐn)?shù)據(jù)間的長期依賴關(guān)系??梢允褂瞄L短期記憶網(wǎng)絡(luò)和其他神經(jīng)網(wǎng)絡(luò)組合構(gòu)建入侵檢測模型,提取準(zhǔn)確描繪數(shù)據(jù)的時空特征,提高模型的準(zhǔn)確率。(3)自編碼器可以實(shí)現(xiàn)對數(shù)據(jù)的降維,適用于數(shù)據(jù)集中數(shù)據(jù)特征較多的情況,并且自編碼器還可以解決數(shù)據(jù)集中數(shù)據(jù)分類不平衡的問題,提高模型對少量分類數(shù)據(jù)的預(yù)測準(zhǔn)確率。(4)目前用于入侵檢測的數(shù)據(jù)集已經(jīng)不能代表當(dāng)前的網(wǎng)絡(luò)狀況,但在當(dāng)前復(fù)雜的網(wǎng)絡(luò)中獲取大量的標(biāo)記數(shù)據(jù)樣本也并不容易,面對這種問題,可以采用生成式對抗網(wǎng)絡(luò)構(gòu)建入侵檢測模型,只需要為模型提供少量的數(shù)據(jù)樣本便可以完成模型的訓(xùn)練。

        表2列出了多類入侵檢測模型的性能對比,可以看出大部分模型在數(shù)據(jù)集上的測試都取得了很好的準(zhǔn)確率,但這些模型還存在著一定的誤報(bào)率,這是當(dāng)前入侵檢測模型研究中需要解決的問題。

        表2 多類入侵檢測模型性能對比Table 2 Performance comparison of multiple types of intrusion detection models

        2.6 基于其他深度學(xué)習(xí)的入侵檢測模型

        以上是對卷積神經(jīng)網(wǎng)絡(luò)、長短期記憶網(wǎng)絡(luò)、自編碼器和生成式對抗網(wǎng)絡(luò)等當(dāng)前流行的基于深度學(xué)習(xí)的入侵檢測模型進(jìn)行的分析和比較。除去以上四種主要用于入侵檢測的深度學(xué)習(xí)方法,還有其他深度學(xué)習(xí)方法被應(yīng)用于入侵檢測中。例如,Duan等人提出了兩種入侵檢測模型進(jìn)行分析比較,包括基于反向傳播(back propagation,BP)神經(jīng)網(wǎng)絡(luò)和基于深度置信網(wǎng)絡(luò)(deep belief networks,DBN)的入侵檢測模型[26]。其中基于BP神經(jīng)網(wǎng)絡(luò)的入侵檢測模型首先通過主成分分析對數(shù)據(jù)集進(jìn)行處理,以消除冗余和無用信息,然后將獲得的低維標(biāo)記訓(xùn)練數(shù)據(jù)作為BP神經(jīng)網(wǎng)絡(luò)輸入,從而對分類器進(jìn)行訓(xùn)練。然而基于深度置信網(wǎng)絡(luò)的入侵檢測模型是在對大量未標(biāo)記訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)處理,得到高維未標(biāo)記訓(xùn)練數(shù)據(jù)后,直接將其作為初始深度置信網(wǎng)絡(luò)的輸入,從而對分類器進(jìn)行訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,深度置信網(wǎng)絡(luò)在特征學(xué)習(xí)方面有著獨(dú)特的優(yōu)勢和良好的效果,因此,可以將其應(yīng)用于入侵檢測研究中,通過從當(dāng)前高維冗余的網(wǎng)絡(luò)數(shù)據(jù)中提取有效特征,從而提高入侵檢測模型的檢測性能及其對當(dāng)前復(fù)雜高維網(wǎng)絡(luò)環(huán)境的適應(yīng)性。Jia等人提出了一種基于深度置信網(wǎng)絡(luò)的入侵檢測模型[64]。該模型使用信息增益技術(shù)(information gain,IG)對高維數(shù)據(jù)特征進(jìn)行降維并去除冗余特征,基于信息熵來確定深度置信網(wǎng)絡(luò)中隱藏神經(jīng)元的數(shù)量和網(wǎng)絡(luò)深度。并且采用過采樣技術(shù)對數(shù)據(jù)集進(jìn)行處理來解決數(shù)據(jù)不平衡問題。實(shí)驗(yàn)結(jié)果表明,與其他方法比較,該模型的預(yù)測準(zhǔn)確率可達(dá)到97.95%。Yang等人提出了一種用于入侵檢測系統(tǒng)的并行集成學(xué)習(xí)方法[65]。該方法使用集成學(xué)習(xí)將梯度提升決策樹(gradient boosting decision tree,GBDT)模型和門控循環(huán)單元(gate recurrent unit,GRU)模型結(jié)合為一個模型。其中GRU模型具有記憶結(jié)構(gòu),能夠捕獲數(shù)據(jù)間長期依賴關(guān)系,但是很難提取到數(shù)據(jù)的空間特征。所以通過加入GBDT模型來提取數(shù)據(jù)的空間特征。該方法使用集成學(xué)習(xí)來吸收兩種模型優(yōu)點(diǎn),使得其能有效地提取和處理數(shù)據(jù)的時空特征。此外,由于GBDT和GRU的基本思想完全不同,該集成方法可以最大限度地發(fā)揮兩種不同方法的優(yōu)點(diǎn)并避免過度擬合。該模型在CIC-IDS-2017數(shù)據(jù)集上的預(yù)測準(zhǔn)確率為99.90%。Singh等人提出了一種基于廣泛和深度遷移學(xué)習(xí)(transfer learning,TL)的堆疊GRU框架,以處理網(wǎng)絡(luò)入侵檢測中的多維數(shù)據(jù)和多變量時間序列回歸和分類問題[66]。經(jīng)實(shí)驗(yàn)證明,該模型在KDD99數(shù)據(jù)集上的準(zhǔn)確率可達(dá)到99.92%。

        3 常用數(shù)據(jù)集

        大量數(shù)據(jù)集的提出,是為了滿足入侵檢測模型的研究需求,如KDD99數(shù)據(jù)集[67]、NSL-KDD數(shù)據(jù)集[68]、UNSW-NB15數(shù)據(jù)集[9]、CIC-IDS-2017數(shù)據(jù)集[69]、CIDDS-001數(shù)據(jù)集[37]等。表3給出了數(shù)據(jù)集的詳細(xì)介紹[70]。下面對基于深度學(xué)習(xí)的入侵檢測模型研究中常用的數(shù)據(jù)集分別進(jìn)行介紹。

        表3 常用于入侵檢測的數(shù)據(jù)集Table 3 Data sets commonly used in intrusion detection

        KDD99數(shù)據(jù)集:該數(shù)據(jù)集包括有關(guān)TCP連接的屬性,但其中并不包括IP地址。并且數(shù)據(jù)集格式既不是標(biāo)準(zhǔn)數(shù)據(jù)包格式,也不是基于流的格式。KDD99數(shù)據(jù)集中具有41個特性以及4類主要攻擊,其中4類主要攻擊分別是拒絕服務(wù)攻擊(DOS)、端口掃描(Probe),來自遠(yuǎn)程主機(jī)的未授權(quán)訪問(R2L),未授權(quán)的本地超級用戶特權(quán)訪問(U2R)。KDD99數(shù)據(jù)集是最早用于入侵檢測模型訓(xùn)練與測試的公共數(shù)據(jù)集之一,也是目前在入侵檢測模型訓(xùn)練與測試中使用最為廣泛的數(shù)據(jù)集。盡管KDD99數(shù)據(jù)集被頻繁使用,但是該數(shù)據(jù)集還是存在許多缺陷,如重復(fù)記錄等,因此KDD99數(shù)據(jù)集不能準(zhǔn)確反映現(xiàn)代網(wǎng)絡(luò)流量和攻擊。

        NSL-KDD數(shù)據(jù)集:由于KDD99數(shù)據(jù)集中存在著一些問題,研究人員在其基礎(chǔ)上研發(fā)出新的數(shù)據(jù)集,也就是NSL-KDD數(shù)據(jù)集[71]。NSL-KDD數(shù)據(jù)集通過刪除KDD99數(shù)據(jù)集中的重復(fù)記錄和一些難以進(jìn)行分類的數(shù)據(jù)來進(jìn)行改進(jìn),雖然這種改進(jìn)消除了KDD99數(shù)據(jù)集的一些問題,但是該數(shù)據(jù)集仍然具有一定的局限性,因此它也不能夠代表現(xiàn)有真實(shí)網(wǎng)絡(luò)流量數(shù)據(jù)。但是在研究過程中仍然可以用它作為入侵檢測模型的訓(xùn)練和測試數(shù)據(jù)集,以幫助研究人員與其他入侵檢測模型進(jìn)行對比。

        UNSW-NB15數(shù)據(jù)集:該數(shù)據(jù)集包含基于數(shù)據(jù)包格式的正常和惡意網(wǎng)絡(luò)流量,這些流量是使用IXIA Perfect Storm工具在小型仿真環(huán)境中歷時31個小時創(chuàng)建的。其包含九種不同的攻擊系列。該數(shù)據(jù)集還可以使用具有附加屬性的基于流的格式。UNSW-NB15數(shù)據(jù)集帶有預(yù)定義的拆分,用于訓(xùn)練和測試。該數(shù)據(jù)集包含45個不同的IP地址,并且是公開可用的。

        CIC-IDS-2017數(shù)據(jù)集:研究人員通過建立一個模擬正常流量的小型網(wǎng)絡(luò)環(huán)境,從中采集數(shù)據(jù)形成該數(shù)據(jù)集,歷時5天,包含基于數(shù)據(jù)包和基于雙向流格式的網(wǎng)絡(luò)流量,其中數(shù)據(jù)更加接近真實(shí)世界數(shù)據(jù)。CIC-IDS-2017數(shù)據(jù)集中包括80多個網(wǎng)絡(luò)流特征以及包含多種攻擊類型,如SSH暴力攻擊、心血漏洞、僵尸網(wǎng)絡(luò)攻擊、DOS攻擊、DDos攻擊、Web攻擊和滲透攻擊。

        CIDDS-001數(shù)據(jù)集:該數(shù)據(jù)集是研究人員通過模擬小型企業(yè)環(huán)境獲得的,其包括基于單向流的網(wǎng)絡(luò)流量,并帶有詳細(xì)的技術(shù)報(bào)告和附加信息。該數(shù)據(jù)集是公開可用的,其中包括SSH暴力、DOS和端口掃描攻擊以及從野外捕獲的多個攻擊。

        以上便是對基于深度學(xué)習(xí)的入侵檢測模型研究中常用數(shù)據(jù)集的介紹。然而隨著攻擊場景的不斷增加,以及更復(fù)雜軟件和網(wǎng)絡(luò)結(jié)構(gòu)的出現(xiàn),要求數(shù)據(jù)集應(yīng)包含最新的和真實(shí)的網(wǎng)絡(luò)流量。一個完美的數(shù)據(jù)集應(yīng)該是最新的、正確標(biāo)記的、公開可用的,包含各種攻擊和正常用戶行為以及有效負(fù)載的真實(shí)網(wǎng)絡(luò)流量。但是,這樣的數(shù)據(jù)集并不存在。因此,每個數(shù)據(jù)集都有其適合的使用場景。其中KDD99和NSL-KDD數(shù)據(jù)集更適合研究人員在與其他模型對比時使用,雖然其已經(jīng)不能代表當(dāng)前網(wǎng)絡(luò)流量,但其廣泛的使用率可以使研究人員有更多的對比對象,更能確定新的模型是否在準(zhǔn)確率等方面取得了更好的效果。CIC-IDS-2017、CIDDS-001和UNSW-NB15等數(shù)據(jù)集可能適用于一般評估場景,這些數(shù)據(jù)集更能夠代表當(dāng)前的網(wǎng)絡(luò)流量。其中CIC-IDS-2017和UNSWNB15數(shù)據(jù)集包含多種攻擊場景,CIDDS-001數(shù)據(jù)集包含用于深入調(diào)查的詳細(xì)元數(shù)據(jù)。

        4 存在的問題和挑戰(zhàn)

        近年來,基于深度學(xué)習(xí)的入侵檢測模型取得了不錯的性能。與機(jī)器學(xué)習(xí)相比,其在提高準(zhǔn)確率、降低誤報(bào)率上得到改進(jìn)。但現(xiàn)有方法還有著如下不足:

        (1)用于訓(xùn)練與測試的數(shù)據(jù)集已經(jīng)不能代表當(dāng)今時代的數(shù)據(jù)流量?,F(xiàn)在的網(wǎng)絡(luò)流量狀況已不是當(dāng)初可以想象的,已經(jīng)進(jìn)入大數(shù)據(jù)時代。所以早期的數(shù)據(jù)集已經(jīng)不能滿足當(dāng)今的需求,比如,以往研究人員在訓(xùn)練與測試中使用的KDD99數(shù)據(jù)集,基于該數(shù)據(jù)集上所提出的模型往往可以得到很高的準(zhǔn)確率和很低的誤報(bào)率,但是這不能代表所提出的模型在當(dāng)前網(wǎng)絡(luò)狀況中也能達(dá)到良好的效果。

        (2)模型實(shí)時分析問題。實(shí)時分析對于在企業(yè)級別應(yīng)用的任何模型都是必不可少的。本文中介紹的入侵檢測模型通常是脫機(jī)的,并沒有在真實(shí)的網(wǎng)絡(luò)中進(jìn)行實(shí)際應(yīng)用。在惡意流量識別分類中,最大的挑戰(zhàn)在于模型對合法流量和惡意攻擊流量的區(qū)分。本文中的深度學(xué)習(xí)模型是在離線模式下完成測試的,也就是說入侵檢測模型在靜態(tài)數(shù)據(jù)集上進(jìn)行工作,而對于實(shí)際應(yīng)用,需要模型在網(wǎng)絡(luò)中實(shí)時分析在線數(shù)據(jù)流。到目前為止,對網(wǎng)絡(luò)流量的實(shí)時分析還沒有太多探索。

        (3)模型普適性問題。本文中的入侵檢測模型通常是在一個數(shù)據(jù)集上完成整個訓(xùn)練和測試過程,并沒有將訓(xùn)練好的模型使用其他數(shù)據(jù)集進(jìn)行測試,這種方法所訓(xùn)練的模型并不能表明它在其他數(shù)據(jù)集上也能夠普遍使用,并取得良好的效果,這是當(dāng)前研究的不足。

        (4)模型訓(xùn)練時間問題。目前大多數(shù)入侵檢測模型的訓(xùn)練時間較長,這會嚴(yán)重影響模型的性能,有時需要對系統(tǒng)的整體性能進(jìn)行折中,以減少訓(xùn)練時間。并且對于基于深度學(xué)習(xí)的入侵檢測模型來說,由于涉及深層次的結(jié)構(gòu),且所需訓(xùn)練的參數(shù)較多,需要大量時間,這將成為入侵檢測模型訓(xùn)練過程中的巨大挑戰(zhàn)。

        5 結(jié)束語

        通過對基于深度學(xué)習(xí)的入侵檢測模型當(dāng)前研究現(xiàn)狀的分析可知,深度學(xué)習(xí)技術(shù)為解決傳統(tǒng)入侵檢測模型的問題提供了更好的方法。本文從數(shù)據(jù)預(yù)處理、入侵檢測模型分類及數(shù)據(jù)集等方面總結(jié)并分析了近年來基于深度學(xué)習(xí)的入侵檢測模型的相關(guān)研究現(xiàn)狀,雖然各種新穎有效的方法被提出并應(yīng)用,但是其檢測性能還需要進(jìn)一步提升。因此,能夠準(zhǔn)確、高效、實(shí)時地對復(fù)雜的網(wǎng)絡(luò)流量進(jìn)行正確識別是未來基于深度學(xué)習(xí)入侵檢測模型的目標(biāo)。

        猜你喜歡
        深度特征檢測
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        深度理解一元一次方程
        如何表達(dá)“特征”
        不忠誠的四個特征
        深度觀察
        深度觀察
        深度觀察
        抓住特征巧觀察
        av网站韩日在线观看免费 | 又粗又硬又黄又爽的免费视频 | 日韩精品无码一本二本三本色| 国产做国产爱免费视频| 亚洲国产成人片在线观看无码| 久久男人av资源网站无码 | 亚洲一区二区在线观看免费视频| 国产精品刮毛| a级毛片内射免费视频| 精品国产亚洲一区二区三区演员表| 一本色道久久88综合亚精品| 深夜福利国产精品中文字幕| 亚洲精品国产成人片| 欧美老熟妇欲乱高清视频 | 麻豆久久五月国产综合| 美女裸体无遮挡免费视频国产| 日本道免费一区日韩精品| 性色国产成人久久久精品二区三区 | 日韩我不卡| 少妇裸淫交视频免费看| 中文字幕在线亚洲三区| 四虎成人精品国产永久免费无码| 久久乐国产精品亚洲综合| 亚欧乱色束缚一区二区三区 | 中国老熟女重囗味hdxx| 依依成人精品视频在线观看| 中文无码日韩欧免费视频| 加勒比久草免费在线观看| 亚洲一区二区二区视频| 国产精品无码av一区二区三区| 日本在线观看不卡| 久久婷婷综合色一区二区| 大奶白浆视频在线观看| 99精品国产一区二区三区不卡 | 久久亚洲精品无码va大香大香 | 柠檬福利第一导航在线| 四虎影视在线观看2413| 中文字幕日韩熟女av| 高清中文字幕一区二区三区| 免费人成年激情视频在线观看| japanesehd中国产在线看|