亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和三支決策的入侵檢測(cè)算法

        2022-07-13 01:51:42吳啟睿黃樹成
        關(guān)鍵詞:特征提取卷積決策

        吳啟睿,黃樹成

        江蘇科技大學(xué) 計(jì)算機(jī)學(xué)院,江蘇 鎮(zhèn)江 212003

        互聯(lián)網(wǎng)時(shí)代,計(jì)算機(jī)的網(wǎng)絡(luò)安全引起了越來越多的關(guān)注,如何識(shí)別網(wǎng)絡(luò)攻擊是其中非常關(guān)鍵的問題之一[1]。作為識(shí)別網(wǎng)絡(luò)攻擊的重要技術(shù),入侵檢測(cè)技術(shù)一直為國內(nèi)外學(xué)者廣泛研究。

        傳統(tǒng)的基于機(jī)器學(xué)習(xí)的入侵檢測(cè)技術(shù)已經(jīng)在入侵檢測(cè)中得到了大量的應(yīng)用[2]。常見的傳統(tǒng)機(jī)器學(xué)習(xí)算法有支持向量機(jī)算法(support vector machines,SVM)[3]、K近鄰算法(k-nearest neighbors,KNN)[4]以及隨機(jī)森林算法(random forest,RF)[5]。上述方法在一定程度上提高了入侵檢測(cè)的性能。然而,傳統(tǒng)的基于機(jī)器學(xué)習(xí)的算法不能自主地學(xué)習(xí)特征,不能很好地反映原始網(wǎng)絡(luò)數(shù)據(jù),并且檢測(cè)模型穩(wěn)定性不高,面對(duì)海量的網(wǎng)絡(luò)數(shù)據(jù)時(shí),并不能取得一個(gè)很好的識(shí)別效果。

        隨著深度學(xué)習(xí)在眾多領(lǐng)域取得了巨大的成功,越來越多的深度學(xué)習(xí)技術(shù)也被應(yīng)用到了入侵檢測(cè)當(dāng)中,常用的深度學(xué)習(xí)技術(shù)有深度信念網(wǎng)絡(luò)[6]、自編碼器[7]、循環(huán)神經(jīng)網(wǎng)絡(luò)[8]等。作為深度學(xué)習(xí)的有效算法,卷積神經(jīng)網(wǎng)絡(luò)是一種基于局部感受野和權(quán)值共享的特殊結(jié)構(gòu)的深度學(xué)習(xí)模型,這樣的結(jié)構(gòu)使得卷積神經(jīng)網(wǎng)絡(luò)的模型所需參數(shù)更少,復(fù)雜度更低,從而能夠很好地提取數(shù)據(jù)的深層特征。文獻(xiàn)[9]在經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)模型基礎(chǔ)上先通過神經(jīng)元映射得到新的特征矩陣,然后使用深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,提升了系統(tǒng)性能。文獻(xiàn)[10]將卷積神經(jīng)網(wǎng)絡(luò)提取的空間特征和循環(huán)神經(jīng)網(wǎng)絡(luò)提取的時(shí)間特征相融合并引入注意力機(jī)制,特征提取能力更強(qiáng)。文獻(xiàn)[11]采用多尺度卷積核進(jìn)行特征提取,并在卷積層中加入BN 方法進(jìn)行優(yōu)化,提高了準(zhǔn)確率降低了誤檢率。文獻(xiàn)[12]結(jié)合跨層聚合設(shè)計(jì)理念,改進(jìn)了傳統(tǒng)的基于卷積神經(jīng)網(wǎng)絡(luò)的入侵檢測(cè)模型,取得了不錯(cuò)的效果。

        在入侵檢測(cè)算法中,相較于其他深度學(xué)習(xí)方法,卷積神經(jīng)網(wǎng)絡(luò)特征提取能力強(qiáng),網(wǎng)絡(luò)模型所需參數(shù)少、復(fù)雜度低。因此,卷積神經(jīng)網(wǎng)絡(luò)被廣泛的用作特征提取。此外,現(xiàn)有的分類方法通常是傳統(tǒng)的二分類法。當(dāng)面對(duì)網(wǎng)絡(luò)行為時(shí),二分類法只取兩種可能性,即僅將網(wǎng)絡(luò)行為劃分為正常和入侵兩種狀態(tài)。這樣的劃分策略使得當(dāng)面對(duì)正?;蛉肭譅顟B(tài)模糊的網(wǎng)絡(luò)行為時(shí),二分類法會(huì)出現(xiàn)誤分類的風(fēng)險(xiǎn)。三支決策是在二支決策的基礎(chǔ)上發(fā)展而來,它是人類處理不確定問題普遍采用的有效方法。相較于二支決策,三支決策是在二支決策的基礎(chǔ)上引入邊界域的思想,即將網(wǎng)絡(luò)行為劃分為正常、入侵和待定三種狀態(tài)。對(duì)于處在邊界域上不確定的網(wǎng)絡(luò)行為,三支決策會(huì)采取延遲決策的方法,等待再次進(jìn)行特征提取,從而補(bǔ)充更多決策信息后,重新進(jìn)行判斷,直至可以將其劃分到正常或是入侵的網(wǎng)絡(luò)行為。正是通過引入邊界域的思想,三支決策減少了盲目決策的風(fēng)險(xiǎn),提高了分類的準(zhǔn)確率。

        針對(duì)上述情況,本文將卷積神經(jīng)網(wǎng)絡(luò)與三支決策理論相結(jié)合,建立了基于卷積神經(jīng)網(wǎng)絡(luò)和三支決策的入侵檢測(cè)模型,該模型繼承了卷積神經(jīng)網(wǎng)絡(luò)特征提取能力強(qiáng)的優(yōu)點(diǎn),同時(shí)將卷積神經(jīng)網(wǎng)絡(luò)提取后的特征進(jìn)行三支決策,對(duì)處于論域中信息不足的網(wǎng)絡(luò)行為進(jìn)行延時(shí)決策,獲取到更多信息之后,再進(jìn)行判斷,并得到最終的決策結(jié)果。采用延時(shí)決策的決策方式相比于二支決策更加合理[13],最后得到的分類結(jié)果置信度更高。并且減少了分類過程中所耗費(fèi)的時(shí)間。

        1 相關(guān)理論

        1.1 卷積神經(jīng)網(wǎng)絡(luò)

        卷積神經(jīng)網(wǎng)絡(luò)的構(gòu)建靈感來源于生物的視知覺。近年來,卷積神經(jīng)網(wǎng)絡(luò)以其強(qiáng)大的特征提取能力,引起了廣泛的重視[14]。卷積神經(jīng)網(wǎng)絡(luò)通常由卷積層和池化層的堆疊組合來構(gòu)建,這樣的結(jié)構(gòu)也使CNN 具有層特性和很強(qiáng)的映射能力,能夠充分地學(xué)習(xí)數(shù)據(jù)特征。卷積層是網(wǎng)絡(luò)最基本也是最重要的結(jié)構(gòu),卷積層輸出的結(jié)果是由濾波器通過遍歷特征圖而來的。在卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行卷積操作時(shí),濾波器每滑動(dòng)一個(gè)位置,就會(huì)得到相應(yīng)的映射,當(dāng)濾波器遍歷完整個(gè)特征矩陣,再加上網(wǎng)絡(luò)參數(shù)、經(jīng)過激活函數(shù),便形成了新的特征矩陣。當(dāng)所有的濾波器完成對(duì)特征圖的映射時(shí),將其堆疊組合就形成了該卷積層的特征圖。目前,在激活函數(shù)中,ReLU函數(shù)使用較多,它相較于其他激活函數(shù)性能較優(yōu)。卷積層的表達(dá)式可以整體表示為:

        池化層一般處于兩個(gè)連續(xù)的卷積層之間,池化層也可以稱為采樣層。當(dāng)卷積層輸出的特征圖經(jīng)過池化層的操作,數(shù)據(jù)的維度和復(fù)雜度將會(huì)進(jìn)一步降低。這樣的操作有效的避免了過擬合的問題,加強(qiáng)了網(wǎng)絡(luò)的魯棒性。從本質(zhì)上來說,池化層是對(duì)卷積輸出的特征圖進(jìn)行統(tǒng)計(jì)計(jì)算,用概率統(tǒng)計(jì)的數(shù)據(jù)特征代替全部特征。在對(duì)特征進(jìn)行降維的同時(shí),還能將特征數(shù)據(jù)中最有效的信息保留。常用的池化方式有兩種,分別是計(jì)算平均值以及選擇最大值,它們之間的區(qū)別是計(jì)算方式不同。常用的池化方式為平均值池化。

        在卷積神經(jīng)網(wǎng)絡(luò)中,網(wǎng)絡(luò)的訓(xùn)練包括前向傳播和反向傳播。當(dāng)完成一次前向傳播,可以獲得原始數(shù)據(jù)的特征輸出值。通過比較前向傳播得到輸出值與實(shí)際值之間的誤差,再經(jīng)過反向傳播來更新網(wǎng)絡(luò)參數(shù),通常使用梯度下降法來獲得損失函數(shù)的最優(yōu)解。輸出值與實(shí)際值之間的誤差,通常使用預(yù)測(cè)值和實(shí)際值的平方差的一半即:

        1.2 三支決策理論

        三支決策來源于粗糙集,在二支決策的基礎(chǔ)上引入了延時(shí)決策。當(dāng)現(xiàn)有的特征不足以充分做出判斷時(shí),為了避免將正常的流量錯(cuò)當(dāng)成攻擊流量的可能,延遲決策的出現(xiàn)是一種可靠的選擇。當(dāng)數(shù)據(jù)信息得到足夠的補(bǔ)充,再進(jìn)行決策,這樣的判斷方法避免了信息不足而盲目決策的風(fēng)險(xiǎn)[15]。

        誤分類通常會(huì)伴隨著一定的損失成本,在研究中,如果把一個(gè)正域的樣本錯(cuò)誤地歸為負(fù)域的樣本可能會(huì)造成一些麻煩,但是如果把負(fù)域的樣本錯(cuò)誤地分類成正域的樣本就有可能造成災(zāi)難性的后果。

        對(duì)于一個(gè)二分類問題,真實(shí)的分類標(biāo)簽可以表示為P(正),N(負(fù))即接受和拒絕,可以用一個(gè)狀態(tài)集Ω={X,?X}來表示,即用某個(gè)數(shù)據(jù)屬于X與某個(gè)數(shù)據(jù)不屬于X來表示一個(gè)數(shù)據(jù)的歸屬問題。三支決策的決策集可以表示為D={DP,DB,DN},分別表示正向決策、邊界決策以及負(fù)向決策。所有決策的代價(jià)損失函數(shù)如表1所示。記λPP、λBP、λNP分別表示當(dāng)前數(shù)據(jù)屬于X的時(shí)候,采取行動(dòng)DP、DB以及DN時(shí)的損失,λPN、λBN、λNN分別表示當(dāng)前數(shù)據(jù)不屬于X的時(shí)候,采取行動(dòng)DP、DB以及DN時(shí)的損失。

        表1 決策的代價(jià)損失函數(shù)Table 1 Cost loss function of decision making

        2 基于卷積神經(jīng)網(wǎng)絡(luò)和三支決策的入侵檢測(cè)方法

        2.1 入侵檢測(cè)算法的整體流程

        如圖1所示,基于卷積神經(jīng)網(wǎng)絡(luò)和三支決策的入侵檢測(cè)模型包括三個(gè)部分,它們分別是數(shù)據(jù)預(yù)處理、特征提取以及三支決策。

        圖1 基于CNN和三支決策的入侵檢測(cè)算法流程圖Fig.1 Intrusion detection algorithm flow chart based on CNN and three-way decisions

        第一部分是數(shù)據(jù)預(yù)處理,首先對(duì)原數(shù)據(jù)集進(jìn)行字符型特征數(shù)值化,接著對(duì)特征歸一化處理,使其具有相同量級(jí)。最后將歸一化后的特征進(jìn)行維度重組,使其能夠放入卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。

        第二部分是使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行特征提取,卷積神經(jīng)網(wǎng)絡(luò)具有局部感知和參數(shù)共享的特點(diǎn),模型所需參數(shù)少、復(fù)雜度低,特征提取能力強(qiáng)。具體的提取步驟在2.2節(jié)中詳細(xì)介紹。

        第三部分為三支決策模塊,通過引入邊界域,三支決策對(duì)信息不足的數(shù)據(jù)采取延遲決策的策略,對(duì)不確定的數(shù)據(jù)再次進(jìn)行特征提取,重新決策,規(guī)避了盲目決策的風(fēng)險(xiǎn)。

        整體流程通過卷積神經(jīng)網(wǎng)絡(luò)與三支決策理論的結(jié)合實(shí)現(xiàn)對(duì)預(yù)處理后數(shù)據(jù)的分類。數(shù)據(jù)首先經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)完成特征提取,再交由三支決策進(jìn)行判斷。三支決策模塊先獲得每條數(shù)據(jù)屬于正域的概率,如果滿足大于α或者小于β的條件,則直接劃分正負(fù)域。若不滿足則歸入邊界域,放入特征提取模塊,交由卷積神經(jīng)網(wǎng)絡(luò)再次特征提取并重新決策。在卷積神經(jīng)網(wǎng)絡(luò)中,邊界域樣本的每一次特征提取都會(huì)在前一次的特征提取的基礎(chǔ)上提取到不同的特征,這就為分類器提供了不同的數(shù)據(jù)信息,從而支撐分類器對(duì)邊界域中的樣本做出決策。流程中當(dāng)邊界域存在樣本數(shù)據(jù)時(shí),過程將一直持續(xù)下去。

        2.2 基于卷積神經(jīng)網(wǎng)絡(luò)的特征提取

        使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取時(shí),對(duì)網(wǎng)絡(luò)的卷積層和池化層進(jìn)行無監(jiān)督訓(xùn)練,建立BP 神經(jīng)網(wǎng)絡(luò)。通過將反向傳播將神經(jīng)網(wǎng)絡(luò)的輸出值與實(shí)際樣本值之間的誤差逐層傳到網(wǎng)絡(luò)中,實(shí)現(xiàn)對(duì)神經(jīng)網(wǎng)絡(luò)的參數(shù)迭代更新。具體算法步驟如下:

        輸入:數(shù)據(jù)集X(X1,,X2,…,Xi);權(quán)重W,偏置b

        輸出:數(shù)據(jù)集X的低維表示X′

        步驟:

        1. 通過前向傳播,計(jì)算預(yù)期值y?。

        2. 根據(jù)公式(2)計(jì)算卷積神經(jīng)網(wǎng)絡(luò)的實(shí)際輸出與實(shí)際樣本之間的誤差。

        3. 將誤差逐層傳到神經(jīng)網(wǎng)絡(luò)中,根據(jù)公式(4),使用梯度下降法來更新網(wǎng)絡(luò)參數(shù)。

        4. 更新所有訓(xùn)練樣本,選擇損失函數(shù)總代價(jià)最低的網(wǎng)絡(luò)參數(shù)。

        5. 根據(jù)上步驟求得的網(wǎng)絡(luò)參數(shù),輸出測(cè)試數(shù)據(jù)的低維表示,即提取的數(shù)據(jù)特征。

        2.3 基于三支理論進(jìn)行分類

        根據(jù)限制條件,三支決策理論把整個(gè)論域分為三個(gè)區(qū)域,即正域、負(fù)域和邊界域[16]。在整個(gè)決策過程中,都要確定是否對(duì)當(dāng)前的對(duì)象做出最終的決策,即確定該對(duì)象是屬于正域或負(fù)域,或是將不確定的對(duì)象歸為邊界域。

        假設(shè)樣本集為X={x1,x2,…,xn},樣本xi屬于正域的概率p(POS|xi)需要被求解出,其中i=1,2,…,n。將p值與閾值α,β進(jìn)行比較:若p<β,則將其分入負(fù)域,若p>α,則將其分入正域,否則,則分入邊界域。

        通過卷積神經(jīng)網(wǎng)絡(luò)處理得到維度較低的數(shù)據(jù),然后利用三支決策對(duì)數(shù)據(jù)進(jìn)行分類,并根據(jù)閾值得到分類結(jié)果。對(duì)于邊界域中的數(shù)據(jù),在獲得額外的信息,重新進(jìn)行粒度提取后,將被重新評(píng)估。在邊界域內(nèi)不再有樣本存在之前,這個(gè)決策過程將一直持續(xù)下去。具體算法步驟如下:

        2.3.1 算法時(shí)間復(fù)雜度分析

        縱觀整個(gè)入侵檢測(cè)算法,模型分為特征提取模塊和三支決策模塊,算法主要的時(shí)間復(fù)雜度分析也集中兩個(gè)模塊當(dāng)中。首先是特征提取模塊,由于特征提取方式G(卷積神經(jīng)網(wǎng)絡(luò))是深度學(xué)習(xí)模型,而隨著計(jì)算機(jī)算力的增強(qiáng)以及分布式計(jì)算的發(fā)展,通常并不計(jì)算深度學(xué)習(xí)模型的時(shí)間復(fù)雜度,因此并不能確定給出整個(gè)算法的時(shí)間復(fù)雜度,假設(shè)這兩部分的時(shí)間復(fù)雜度為O(M)。而三支決策模塊的時(shí)間復(fù)雜度主要集中在對(duì)測(cè)試集的迭代檢查上,假設(shè)算法的迭代次數(shù)為T,其中第一次迭代時(shí),數(shù)據(jù)集為測(cè)試集的全部數(shù)據(jù),隨著迭代的進(jìn)行,測(cè)試集越來越小,直至測(cè)試數(shù)據(jù)集為空,停止迭代。由此可得,該部分的時(shí)間復(fù)雜度為O(T×N),其中,N為測(cè)試集中數(shù)據(jù)個(gè)數(shù)。于是本模型的時(shí)間復(fù)雜度為O(M)+O(T×N)。

        2.3.2 三支決策閾值的設(shè)置

        在基于三支決策理論進(jìn)行分類時(shí),通過損失函數(shù)得到閾值對(duì)α、β的值,并依此劃分正域、負(fù)域和邊界域。理論上,如果兩個(gè)閾值的選擇過于嚴(yán)格,例如0.95、0.05,這樣的選擇會(huì)導(dǎo)致測(cè)試數(shù)據(jù)集的迭代次數(shù)增加,不夠友好。如果兩個(gè)閾值選擇過于寬泛,例如0.7、0.4,則會(huì)導(dǎo)致三支分類結(jié)果精度差。所以選取兩個(gè)合適的閾值,從而將程序迭代次數(shù)控制在一個(gè)合理的范圍,并兼顧到數(shù)據(jù)的分類效果是兩個(gè)閾值選擇的重點(diǎn)。通常情況,閾值的設(shè)定,在沒有相關(guān)領(lǐng)域的研究前提下是不可行的,對(duì)于損失函數(shù),根據(jù)所分析問題以及實(shí)際情況的不同,本算法根據(jù)專家經(jīng)驗(yàn)以及先驗(yàn)知識(shí)進(jìn)行設(shè)定。各損失函數(shù)如表2所示。

        表2 三支決策損失函數(shù)的經(jīng)驗(yàn)值設(shè)定Table 2 Empirical setting of three decision loss functions

        通過設(shè)定的經(jīng)驗(yàn)值,根據(jù)式(5)和(6)即可得到相應(yīng)閾值。

        3 實(shí)驗(yàn)仿真

        3.1 數(shù)據(jù)集介紹

        公開的網(wǎng)絡(luò)入侵檢測(cè)數(shù)據(jù)并不多,本文采用的是NSL-KDD入侵檢測(cè)數(shù)據(jù)集和CIC-IDS2017入侵檢測(cè)數(shù)據(jù)集。

        3.1.1 NSL-KDD數(shù)據(jù)集

        NSL-KDD 是KDD CUP99 優(yōu)化后的數(shù)據(jù)集,雖然該數(shù)據(jù)集不能完美的代表目前真實(shí)網(wǎng)絡(luò)環(huán)境下的入侵?jǐn)?shù)據(jù),但用來檢測(cè)模型的能力依然具有一定的說服力。NSL-KDD數(shù)據(jù)集的類型分布如表3所示。

        表3 數(shù)據(jù)集分布Table 3 Distribution of datasets

        3.1.2 CIC-IDS2017數(shù)據(jù)集

        CIC-IDS2017 數(shù)據(jù)集包含良性和最新的常見攻擊,類似真實(shí)世界數(shù)據(jù)(PCAPs),補(bǔ)充了NSL-KDD 數(shù)據(jù)集缺少的各種已知的攻擊,比如暴力FTP、暴力SSH、滲透、僵尸網(wǎng)絡(luò)等等。

        CIC-IDS2017 數(shù)據(jù)集中每條數(shù)據(jù)由79 個(gè)特征屬性和1個(gè)類屬性組成,數(shù)據(jù)集分布類型如表4所示。

        表4 CIC-IDS2017數(shù)據(jù)集分布Table 4 Distribution of CIC-IDS2017 dataset

        由表4可知,該數(shù)據(jù)集存在著明顯的長(zhǎng)尾現(xiàn)象,即數(shù)據(jù)不平穩(wěn)問題,數(shù)據(jù)處理部分需針對(duì)該問題進(jìn)行優(yōu)化。

        3.2 數(shù)據(jù)預(yù)處理

        數(shù)據(jù)預(yù)處理部分是對(duì)原始數(shù)據(jù)集進(jìn)行處理,本文涉及兩個(gè)數(shù)據(jù)集:NSL-KDD和CIC-IDS2017。相較于NSLKDD 數(shù)據(jù)集,CIC-IDS2017 數(shù)據(jù)集中存在屬性列重復(fù)、個(gè)別屬性列存在缺省值以及數(shù)據(jù)集存在明顯的長(zhǎng)尾現(xiàn)象,所以預(yù)處理部分增加了對(duì)重復(fù)列、缺省值以及數(shù)據(jù)不平衡的處理。不同數(shù)據(jù)集原始數(shù)據(jù)形式存在不同,但總體數(shù)據(jù)處理流程大體相同。首先讀取數(shù)據(jù)集原始數(shù)據(jù),使用Numpy模塊裝載數(shù)據(jù),并根據(jù)需求對(duì)屬性列進(jìn)行去重等操作。接著對(duì)全體數(shù)據(jù)進(jìn)行歸一化,使得每個(gè)屬性列所占比重相同。最后,將數(shù)據(jù)維度重組成一個(gè)二維矩陣向量,使其作為卷積神經(jīng)網(wǎng)絡(luò)的輸入。

        3.2.1 NSL-KDD數(shù)據(jù)預(yù)處理

        (1)字符型特征數(shù)值化

        由于離散型的數(shù)據(jù)無法運(yùn)用到機(jī)器學(xué)習(xí)中,一般采用One-hot 進(jìn)行編碼。本實(shí)驗(yàn)中將數(shù)據(jù)集由41 個(gè)特征屬性和1個(gè)類屬性擴(kuò)展成為擁有121個(gè)特征屬性和1個(gè)類屬性的數(shù)據(jù)集。

        (2)Min-Max歸一化

        將特征進(jìn)行Min-Max 歸一化處理,使其具有相同量級(jí):

        在歸一化處理的公式中,x*是歸一化后的特征,x是原始特征值,xmin是該特征的最小值,xmax是該特征的最大值。在使用所提模型進(jìn)行分類的過程,可以進(jìn)行五分類的操作,也可以把五分類轉(zhuǎn)化成五個(gè)二分類進(jìn)行操作,即當(dāng)Normal為正類的時(shí)候,其余的樣本全部歸為負(fù)類。本文選取后一種分類操作。

        (3)數(shù)據(jù)維度重組

        在卷積神經(jīng)網(wǎng)絡(luò)中,輸入的數(shù)據(jù)應(yīng)該是二維矩陣格式,因此需要將處理后的N維數(shù)據(jù)重組成一個(gè)二維矩陣。在進(jìn)行維度重組時(shí),如果出現(xiàn)維度和矩陣元素相沖突,一般有兩種解決辦法:一是在矩陣的末位進(jìn)行相應(yīng)的補(bǔ)0操作;另一種方法是減少特征維數(shù),去掉在分類上不起作用的特征。本文實(shí)驗(yàn)中,采用減少特征維度的方法,將一個(gè)分類無關(guān)特征去掉,將其維度重組成一個(gè)二維矩陣向量。

        3.2.2 CIC-IDS2017數(shù)據(jù)預(yù)處理

        (1)處理重復(fù)列:統(tǒng)計(jì)中發(fā)現(xiàn)數(shù)據(jù)集中含有重復(fù)的兩個(gè)屬性,屬性名均為“Fwd Header Length”,任意一個(gè)樣本的這兩個(gè)屬性值均相等,所以刪除其中一個(gè)屬性。

        (2)處理缺省值:統(tǒng)計(jì)發(fā)現(xiàn)缺省值存在于“Flow Bytes/s”和“Flow Packets/s”兩個(gè)屬性中,缺省的形式是“infinity”“NaN”或“?”,由于含有缺省值的樣本非常少,所以直接刪除含有缺省值的樣本。

        (3)數(shù)據(jù)不平衡處理:將“Web Attack Brute Force”“Web Attack Sql Injection”“Web Attack XSS”3 種入侵類型樣本中,將這3 種類型合并成一種大的類型,即“Thursday-WorkingHours-Morning-WebAttacks.pcap_ISCX.csv”“Tuesday-WorkingHours.pcap_ISCX.csv”“Friday-WorkingHours-Morning.pcap_ISCX.csv”3 個(gè) 文件合并成一個(gè)文件,類別標(biāo)簽為“Web Attack”。將3 種樣本數(shù)較少的攻擊類型合并成一種類型,可以一定程度上解決數(shù)據(jù)不平衡帶來的問題。

        (4)Min-Max歸一化。

        (5)數(shù)據(jù)維度重組。

        3.3 實(shí)驗(yàn)性能評(píng)價(jià)標(biāo)準(zhǔn)

        由于數(shù)據(jù)集存在分布不均衡的現(xiàn)象,因此單純憑借準(zhǔn)確性判斷算法的優(yōu)劣并不合適。在入侵檢測(cè)領(lǐng)域,有兩個(gè)評(píng)判指標(biāo)比較重要,一個(gè)是誤報(bào)率,一個(gè)是漏報(bào)率,而漏報(bào)率=1?檢出率;精確率反映了被預(yù)測(cè)為異常的網(wǎng)絡(luò)行為中有多少是真正的異常行為;F1 分?jǐn)?shù)綜合考慮了模型查準(zhǔn)率和查全率的計(jì)算結(jié)果,是反應(yīng)算法好壞的一個(gè)重要指標(biāo)。

        因此本文選用準(zhǔn)確率ACC、檢出率DR、精確率PR、誤報(bào)率FPR以及F1得分作為系統(tǒng)性能的評(píng)判指標(biāo)。評(píng)價(jià)指標(biāo)的計(jì)算公式如下:

        其中,TP代表功擊記錄;TN代表正常記錄被正確分類;FP代表誤認(rèn)為是攻擊的正常記錄;FN代表誤分類為正常記錄的攻擊記錄。

        3.4 樣本選取和參數(shù)設(shè)置

        (1)NSL-KDD樣本選取

        隨機(jī)抽取5 個(gè)樣本子集用作對(duì)比,取5 次實(shí)驗(yàn)的平均值作結(jié)果來用作分析。由于U2R類型的攻擊偏少,所以在每個(gè)訓(xùn)練集中至少保留40 條U2R 類型的攻擊數(shù)據(jù)。同樣的,在每個(gè)測(cè)試集中將保留最少10 條U2R 類型的攻擊數(shù)據(jù)。各數(shù)據(jù)集的類型分布如表5所示,表中Tr表示訓(xùn)練數(shù)據(jù)集,Te表示測(cè)試數(shù)據(jù)集。

        表5 5個(gè)數(shù)據(jù)樣本子集數(shù)據(jù)分布Table 5 Data distribution of five data sample subsets

        (2)CIC-IDS2017樣本選取

        選取的樣本數(shù)據(jù)子集約占總數(shù)據(jù)集的三分之一,樣本類型分布如表6所示。

        表6 樣本集數(shù)據(jù)分布Table 6 Data distribution of sample sets

        3.5 實(shí)驗(yàn)及結(jié)果分析

        本文在處理邊界域的時(shí)候考慮的主要是CNN網(wǎng)絡(luò)提取到的信息會(huì)隨著訓(xùn)練時(shí)間的增加而增加,而用數(shù)字表達(dá)就是重構(gòu)數(shù)據(jù)與原始數(shù)據(jù)的均方誤差會(huì)隨著訓(xùn)練時(shí)間的增加而減少。如圖2 為本文所使用的CNN 網(wǎng)絡(luò)在特征提取的過程中,重構(gòu)數(shù)據(jù)與原始數(shù)據(jù)之間的均方誤差,從圖中的曲線的走勢(shì)可以看出,均方誤差隨著訓(xùn)練時(shí)間的增加而減少,表明由CNN 得到的低維的特征數(shù)據(jù)在呈現(xiàn)原始數(shù)據(jù)的表現(xiàn)上越來越好,即隨著訓(xùn)練時(shí)間的增多,低維數(shù)據(jù)能夠更好地挖掘出原始數(shù)據(jù)所包含的信息。

        圖2 重構(gòu)數(shù)據(jù)與原始數(shù)據(jù)之間的均方誤差Fig.2 MSE between reconstructed data and original data

        在與其他算法對(duì)比性能的表現(xiàn)時(shí),本文考慮卷積神經(jīng)網(wǎng)絡(luò)與三支決策兩個(gè)方面的性能表現(xiàn),主要進(jìn)行以下4 個(gè)實(shí)驗(yàn):實(shí)驗(yàn)1 在保證同樣使用三支決策進(jìn)行分類的同時(shí),對(duì)比卷積神經(jīng)網(wǎng)絡(luò)與不同的特征提取方法在特征提取方面的表現(xiàn)。實(shí)驗(yàn)2 在保證使用同樣的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取的前提下,對(duì)比基于三支決策理論進(jìn)行分類的表現(xiàn)與基于二支決策進(jìn)行分類的表現(xiàn)。實(shí)驗(yàn)3主要對(duì)比本文所提算法與其他研究人員在入侵檢測(cè)領(lǐng)域所進(jìn)行的算法研究之間的表現(xiàn)。實(shí)驗(yàn)4是在實(shí)驗(yàn)3的基礎(chǔ)上,將NSL-KDD 數(shù)據(jù)集替換成CIC-IDS2017 數(shù)據(jù)集,在保持實(shí)驗(yàn)環(huán)境不變的情況下,比較本文算法與其他入侵檢測(cè)算法的效果。

        參數(shù)設(shè)置:

        本文選擇主成分分析(principal component analysis,PCA)[17]、深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)[18]和因子分析(factor analysis,F(xiàn)A)作為CNN 的比較方法。設(shè)置PCA的超參數(shù)為:最大數(shù)迭代次數(shù)1 000,最大允許誤差le?4,線性函數(shù)logcosh,成分?jǐn)?shù)量為30;設(shè)置DNN 的超參數(shù)為:激活函數(shù)使用ReLU,使用L2 正則化,最大迭代次數(shù)為2 000,學(xué)習(xí)率為le?3;設(shè)置FA的超參數(shù)為:最大數(shù)迭代次數(shù)1 000,最大允許誤差le?2,冪方法的迭代次數(shù)3,成分?jǐn)?shù)量為35;設(shè)置CNN 的超參數(shù)為:使用2個(gè)卷積層和2個(gè)池化層堆疊,卷積核大小設(shè)置為3×3、2×2,采用平均池化方法,使用ReLU函數(shù)為激活函數(shù),使用L2 正則化方法,最大迭代次數(shù)為2 000,學(xué)習(xí)率為le?3。

        實(shí)驗(yàn)1 本文選擇主成分分析(PCA)、深度神經(jīng)網(wǎng)絡(luò)(DNN)和因子分析FA 驗(yàn)證三支決策分類算法下CNN特征提取的可取性。在NSL-KDD 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),不同的結(jié)果如表7所示。

        表7 不同特征提取模型的實(shí)驗(yàn)結(jié)果對(duì)比Table 7 Comparison of experimental results of different feature extraction models

        從表7 的結(jié)果可以看出,本文所提算法CNN-TWD具有更高的準(zhǔn)確率(ACC)、檢出率(DR)、F1評(píng)分,綜合性能明顯優(yōu)于其他方法。結(jié)果表明,通過CNN 得到的低維特征數(shù)據(jù)對(duì)原始數(shù)據(jù)的映射效果較好。

        如圖3是不同方法的ROC曲線對(duì)比圖,ROC曲線也被稱為感受性曲線,是檢驗(yàn)準(zhǔn)確度的綜合代表,曲線面積可用于評(píng)價(jià)診斷準(zhǔn)確性。由圖可知,CNN-TWD模型的AUC面積最大,證明CNN-TWD模型的綜合表現(xiàn)更好。

        圖3 不同特征提取方法的ROC曲線對(duì)比圖Fig.3 ROC curve comparison of different feature extraction methods

        實(shí)驗(yàn)2 本文選擇支持向量機(jī)(SVM)、k-近鄰(KNN)、隨機(jī)森林(RF)和貝葉斯模型(BYS)作為基于三支決策的分類方法的對(duì)比模型,此時(shí)CNN 是用于特征提取的方法。在數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),不同結(jié)果如表8所示。

        表8 不同分類模型的實(shí)驗(yàn)結(jié)果對(duì)比Table 8 Comparison of experimental results of different classification models

        從表8 中的結(jié)果可以看出,基于TWD 的分類模型在準(zhǔn)確率(ACC)、檢出率(DR)、精度(PR)、F1分?jǐn)?shù)(F1)4個(gè)指標(biāo)上要優(yōu)于其他的分類模型得到的結(jié)果,尤其是準(zhǔn)確率和檢出率明顯高于其他幾種對(duì)比模型,這表明通過本文提出的基于三支決策的分類算法在綜合性能上優(yōu)于其他分類算法。在引入邊界域后,避免了一些不確定數(shù)據(jù)被誤分類的風(fēng)險(xiǎn),大大提高了入侵檢測(cè)的準(zhǔn)確性,把三支決策理論應(yīng)用在入侵檢測(cè)上產(chǎn)生了積極的影響,優(yōu)于傳統(tǒng)的基于二支決策的方法。

        如圖4 是不同方法的ROC 曲線對(duì)比圖,由圖可知,CNN-TWD 模型的AUC 面積最大,證明CNN-TWD 模型的綜合表現(xiàn)更好。

        圖4 不同分類方法的ROC曲線對(duì)比圖Fig.4 ROC curve comparison of different classification methods

        實(shí)驗(yàn)3 本次實(shí)驗(yàn)選擇的對(duì)比模型包括一個(gè)基于LDA 和極限學(xué)習(xí)機(jī)的入侵檢測(cè)模型(LDA-ELM)[19],一個(gè)基于半監(jiān)督學(xué)習(xí)的入侵檢測(cè)模型(SSL)[20],一種基于層疊非對(duì)稱深度自編碼器的入侵檢測(cè)方法(SNADE)[21]和一個(gè)基于時(shí)空特征的分層入侵檢測(cè)系統(tǒng)(HAST-IDS)[22]。選取NSL-KDD 數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)集,表9 給出了在保持實(shí)驗(yàn)環(huán)境不變的情況下,本文算法與其他算法的入侵檢測(cè)對(duì)比結(jié)果。從表9 中的結(jié)果可以看出,基于CNN-TWD 的入侵檢測(cè)模型在準(zhǔn)確率(ACC)、檢出率(DR)、誤報(bào)率(FPR)、F1 分?jǐn)?shù)(F1)4 個(gè)指標(biāo)上要優(yōu)于其他的特征提取算法得到的結(jié)果,但是在精度(PR)上表現(xiàn)略低于SSL算法。綜上表明,通過本文提出的基于三支決策的分類算法在綜合性能上優(yōu)于其他入侵對(duì)比算法。

        表9 不同算法的實(shí)驗(yàn)結(jié)果對(duì)比Table 9 Comparison of experimental results of different algorithms

        如圖5是不同算法的ROC曲線對(duì)比圖。由圖可知,CNN-TWD 算法的AUC 面積最大,證明CNN-TWD 算法的綜合表現(xiàn)更好。

        圖5 不同算法的ROC曲線對(duì)比圖Fig.5 ROC curve comparison of different algorithms

        從ROC曲線圖上可以看出CNN-TWD算法得到的曲線相對(duì)于其他算法得到的曲線更接近左上角,且CNN-TWD 得到的AUC 面積要大于其他算法得到的AUC面積。以上結(jié)果表明本文所提算法的表現(xiàn)要略優(yōu)于本文所引用的另外4篇文獻(xiàn)提出的算法。

        實(shí)驗(yàn)4 實(shí)驗(yàn)4 是在實(shí)驗(yàn)3 的基礎(chǔ)上,將NSL-KDD數(shù)據(jù)集替換成CIC-IDS2017數(shù)據(jù)集,表10給出了在保持實(shí)驗(yàn)環(huán)境不變的情況下,本文算法與其他算法的入侵檢測(cè)對(duì)比結(jié)果。

        表10 不同算法的實(shí)驗(yàn)結(jié)果對(duì)比Table 10 Comparison of experimental results of different algorithms

        從表10 結(jié)果可以看出,基于CNN-TWD 的入侵檢測(cè)算法模型在準(zhǔn)確率(ACC)、檢出率(DR)、精度(PR)、F1 分?jǐn)?shù)指標(biāo)上要優(yōu)于其他的特征提取算法得到的結(jié)果,尤其是在指標(biāo)F1分?jǐn)?shù)上比其他最好結(jié)果要高出1.2個(gè)百分點(diǎn),綜上表明,在綜合性能上,本文提出的入侵檢測(cè)模型要優(yōu)于其他對(duì)比模型

        如圖6是不同算法的ROC曲線對(duì)比圖。由圖可知,CNN-TWD 算法的AUC 面積最大,證明CNN-TWD 算法的綜合表現(xiàn)更好。

        圖6 不同算法的ROC曲線對(duì)比圖Fig.6 ROC curve comparison of different algorithms

        實(shí)驗(yàn)4 表明本文提出模型在含有新型攻擊類型的入侵檢測(cè)數(shù)據(jù)集中仍然具有一定的優(yōu)越性,說明本文提出模型具有適用性。

        4 結(jié)論

        本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)和三支決策的入侵檢測(cè)方法,使用卷積神經(jīng)網(wǎng)絡(luò)從樣本中提取特征,構(gòu)建多粒度特征空間,利用三支決策理論,對(duì)網(wǎng)絡(luò)行為進(jìn)行分類。在NSL-KDD、CIC-IDS2017 數(shù)據(jù)集上的結(jié)果表明,本文提出的算法模型具有更好特征提取能力和更精確的分類能力。后續(xù)工作,將在更多數(shù)據(jù)集中檢驗(yàn)?zāi)P偷倪m用性,并對(duì)CNN的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)一步改進(jìn),從而優(yōu)化特征提取能力;同時(shí),一個(gè)更有效的三支決策損失函數(shù)、閾值的確定方法也是未來模型改進(jìn)的重點(diǎn)。

        猜你喜歡
        特征提取卷積決策
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        為可持續(xù)決策提供依據(jù)
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        決策為什么失誤了
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        Bagging RCSP腦電特征提取算法
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
        Walsh變換在滾動(dòng)軸承早期故障特征提取中的應(yīng)用
        軸承(2010年2期)2010-07-28 02:26:12
        国产好大好硬好爽免费不卡| 国内偷拍第一视频第一视频区| 网址视频在线成人亚洲| 国产亚洲精品品视频在线| 亚洲人成电影网站色| 人妻av中文字幕无码专区| 亚洲精品成AV无在线观看| 亚洲视频在线观看青青草| 一区二区三区亚洲视频| 男女发生关系视频网站| 蓝蓝的天空,白白的云| 国产精品沙发午睡系列| 无码尹人久久相蕉无码| 亚洲国产欧美在线成人| 日本啪啪一区二区三区| 最新天堂一区二区三区| 免费人成小说在线观看网站| 中文日韩亚洲欧美制服| 亚洲国产A∨无码影院| 国产91熟女高潮一曲区| 中文字幕一区在线直播| 夜夜春亚洲嫩草影院| 国产成人麻豆精品午夜福利在线 | 国产丝袜精品丝袜一区二区| 精品国产精品久久一区免费| 久久一本日韩精品中文字幕屁孩 | 中文字幕人妻互换av | 久久精品99久久香蕉国产| 99久久综合狠狠综合久久| 婷婷成人亚洲综合国产| 一级老熟女免费黄色片| 朋友的丰满人妻中文字幕| 欧美与黑人午夜性猛交久久久| 99免费视频精品| 日本韩国三级在线观看| 护士的小嫩嫩好紧好爽| 中文字幕乱码人妻一区二区三区| 自慰高潮网站在线观看| 国产女主播福利在线观看| 丰满熟妇乱又伦精品| 99精品热这里只有精品|