亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進雙重深度Q網(wǎng)絡(luò)的入侵檢測模型

        2022-08-19 08:21:48吳亞麗王君虎鄭帥龍
        計算機工程與應(yīng)用 2022年16期
        關(guān)鍵詞:分類深度樣本

        吳亞麗,王君虎,鄭帥龍

        1.西安理工大學 自動化與信息工程學院,西安 710048

        2.陜西省復(fù)雜系統(tǒng)控制與智能信息處理重點實驗室,西安 710048

        網(wǎng)絡(luò)入侵檢測系統(tǒng)(network intrusion detection systems,NIDS)作為一種積極主動的防御技術(shù),是及時發(fā)現(xiàn)潛在網(wǎng)絡(luò)威脅、制定合理防御策略的主要手段,是網(wǎng)絡(luò)安全技術(shù)體系中重要的組成部分[1]。它能夠通過收集和分析相關(guān)網(wǎng)絡(luò)數(shù)據(jù)及時發(fā)現(xiàn)攻擊行為,降低網(wǎng)絡(luò)安全威脅。

        常見的入侵檢測方法包括基于簽名的檢測和基于異常的檢測兩類。基于簽名的NIDS依賴于一個攻擊簽名數(shù)據(jù)庫進行檢測,對于數(shù)據(jù)庫中已有數(shù)據(jù)具有較高的檢測率,但是無法檢測出新型攻擊,需要經(jīng)常更新數(shù)據(jù)庫?;诋惓5腘IDS通過分析不尋常的流量分布來識別計算機中隱藏的攻擊,可以用于檢測新型攻擊,該系統(tǒng)使用配置文件來存儲用戶、主機、網(wǎng)絡(luò)連接和應(yīng)用程序的所有正常行為。這種方法將當前活動與配置文件進行比較,存在任何顯著偏差就標記為異常,這種對于數(shù)據(jù)的敏感性有效防止了各種惡意行為。然而,這種敏感性優(yōu)勢會導(dǎo)致高誤報率,從而導(dǎo)致不必要的恐慌和過度反應(yīng)。

        在基于異常的NIDS 中,大多采用傳統(tǒng)的機器學習算法如貝葉斯網(wǎng)絡(luò)[2]、支持向量機[3]等,這些算法在小規(guī)模的流量數(shù)據(jù)檢測問題上表現(xiàn)出良好的性能。但是,隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)規(guī)模不斷擴大,傳統(tǒng)的入侵檢測方法性能在處理海量高維數(shù)據(jù)方面面臨巨大挑戰(zhàn)。

        作為表征學習的代表,深度學習能夠直接從復(fù)雜的原始特征中自動學習到高層次的數(shù)據(jù)特征,免去了手工特征提取過程中對專家知識的依賴,因此,目前的入侵檢測系統(tǒng)大多都基于深度模型框架。常用的深度模型有自編碼器[4]、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[5]、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)[6]等。文獻[7]提出將CNN用于網(wǎng)絡(luò)入侵檢測,利用CNN來選擇特征對流量進行分類,相較于傳統(tǒng)算法有良好的效果,但是忽略了流量數(shù)據(jù)時間順序上的聯(lián)系;文獻[8]提出將LSTM(long short-term memory network)運用于入侵檢測中,取得了不錯的分類效果,但是沒有考慮數(shù)據(jù)的空間特性,分類器性能仍有提升空間。為了更加充分地提取網(wǎng)絡(luò)流量數(shù)據(jù)特征,文獻[9]提出將CNN 和LSTM混合使用,用CNN學習網(wǎng)絡(luò)包的特征,再用LSTM學習網(wǎng)絡(luò)流量之間的特征,相較于單獨使用LSTM、CNN 或其改進模型效果更好,有效提高了對流量數(shù)據(jù)分類的準確率。盡管神經(jīng)網(wǎng)絡(luò)模型具有強大的特征提取能力,但是上述模型都需要大量帶有標簽的數(shù)據(jù)樣本,而現(xiàn)實中大量的數(shù)據(jù)是沒有標簽的,而且為數(shù)據(jù)人工標定標簽是一項昂貴而耗時的任務(wù)。

        強化學習(reinforcement learning,RL)是解決上述問題的一種有效方法。傳統(tǒng)強化學習基于馬爾科夫決策過程(Markov decision process,MDP)來設(shè)計算法,但是只能分析小規(guī)模問題,現(xiàn)實環(huán)境往往復(fù)雜多變,傳統(tǒng)強化學習方法在解決實際問題時難以取得有效的解決方案。文獻[10]將強化學習與深度學習結(jié)合,提出深度強化學習(deep reinforcement learning,DRL),將強化學習中復(fù)雜的數(shù)據(jù)空間以及映射關(guān)系用神經(jīng)網(wǎng)絡(luò)來近似,極大擴展了強化學習的應(yīng)用范圍,再加上其特有的反饋機制,使得強化學習在分類問題上也有著廣泛的應(yīng)用。文獻[11]首次將分類問題等效為智能體(agent)的連續(xù)決策過程,提出一種基于強化學習的分類任務(wù)解決方案,在UCI八種數(shù)據(jù)集中的準確率達到87.4%。文獻[12]針對網(wǎng)絡(luò)入侵檢測問題提出基于對抗性多智能體的AE-DQN模型,取得了不錯的檢測效果。盡管上述深度強化學習模型在解決標簽不足的分類問題時表現(xiàn)出獨到的優(yōu)勢,但深度學習網(wǎng)絡(luò)模型的選取同樣不容忽視,深度學習模型的選取是否得當很大程度上決定分類器性能的好壞,上述模型的側(cè)重點都只放在了智能體策略的生成方式上。

        此外,現(xiàn)實中往往會遇到數(shù)據(jù)不平衡問題,分類器能得到較高的整體分類精度,但對少數(shù)類數(shù)據(jù)的識別率極低,而錯分少數(shù)類會帶來巨大代價。針對數(shù)據(jù)不平衡問題,通??刹捎脙深惤鉀Q方法:數(shù)據(jù)級方法和算法級方法。在數(shù)據(jù)層面,采用重采樣方法修改原始數(shù)據(jù)集,使其足夠平衡。在算法層面上,通過修改分類器,使現(xiàn)有的分類器加強對少數(shù)類的學習。綜合考慮到操作實現(xiàn)的難易程度以及深度強化學習對于大數(shù)據(jù)的需求,本文采用了一種數(shù)據(jù)級的重采樣方法來減少數(shù)據(jù)不平衡的影響。

        因此,為提高系統(tǒng)對不同類型流量的檢測率,本文提出了一種基于改進雙重Q 網(wǎng)絡(luò)的網(wǎng)絡(luò)入侵檢測模型。該模型將入侵檢測過程模擬為智能體的順序決策過程,將CNN 與BiLSTM 的混合網(wǎng)絡(luò)模型引入雙重深度Q網(wǎng)絡(luò)的學習框架,旨在提取到更加完備的數(shù)據(jù)特征的前提下,使用強化學習策略不斷優(yōu)化分類器,最終實現(xiàn)對不同類型攻擊流量的精確識別。同時,考慮到數(shù)據(jù)不平衡問題,引入不平衡處理策略提高稀有攻擊的檢測率。

        本文所提出的方法創(chuàng)新點表現(xiàn)在:(1)為了解決監(jiān)督學習過程中對樣本標簽的強依賴性問題,提出用深度強化學習算法引導(dǎo)分類器獲得自主決策能力,完成對樣本的正確分類;(2)為了充分利用流量數(shù)據(jù)特征,采用CNN和BiLSTM的混合模型,提取更加完備的空時融合特征;(3)考慮到稀有攻擊樣本檢測率低的問題,引入數(shù)據(jù)平衡化處理策略。

        1 雙重深度Q網(wǎng)絡(luò)

        1.1 深度Q網(wǎng)絡(luò)

        深度Q 網(wǎng)絡(luò)(deep Q-network,DQN)[13]是強化學習領(lǐng)域一種重要算法,其核心思想是:通過讓智能體感知環(huán)境狀態(tài),在與環(huán)境交互的過程中找到最優(yōu)策略函數(shù),使得累計收益最大化。策略函數(shù)定義為:

        在智能體做決策過程中,策略函數(shù)得到狀態(tài)樣本st,根據(jù)一定的概率P返回該狀態(tài)的動作at(網(wǎng)絡(luò)攻擊類別)。

        累計收益定義為回報函數(shù)Gt:

        其中,rt+k是未來時刻的狀態(tài)對應(yīng)的獎勵值,γ∈(0,1]是折扣因子,γ的值越大,折扣后回報將更多考慮未來收益。

        在給定的策略π下,為了評估某一狀態(tài)的回報值,引入狀態(tài)價值函數(shù)Vπ(s),在狀態(tài)s處的狀態(tài)價值函數(shù)定義如下:

        其中,E是期望函數(shù),由于強化學習具有馬爾可夫性,狀態(tài)價值函數(shù)又可以寫成如下貝爾曼方程形式:

        其中,p(s′|s,a)表示執(zhí)行策略π(a|s)后狀態(tài)由s轉(zhuǎn)移到狀態(tài)s′的概率。

        在所有可能的狀態(tài)價值函數(shù)中,一定存在一個最優(yōu)的狀態(tài)價值函數(shù)V*(s),滿足貝爾曼最優(yōu)方程:

        方便起見,在強化學習中引入Q 函數(shù),輸入為狀態(tài)動作對,輸出為獎勵值:

        稱Qπ(s,a)為策略π的狀態(tài)動作價值函數(shù)。

        Q 函數(shù)使用一個Q 表格將學習過程中的信息以元組{s,a,r,s′}的形式存儲起來。當狀態(tài)空間無限大時,難以維持如此龐大的Q 表。將Q 學習與深度學習結(jié)合起來,使用深度神經(jīng)網(wǎng)絡(luò)來近似動作價值函數(shù),就形成了深度Q網(wǎng)絡(luò)。

        網(wǎng)絡(luò)訓(xùn)練過程中不斷更新網(wǎng)絡(luò)參數(shù)θ,以最小化損失函數(shù)L(θ),L(θ)的定義如下:

        一般的,參數(shù)θ的迭代更新采用梯度下降法:

        1.2 雙重深度Q網(wǎng)絡(luò)

        在DQN 中,使用相同的參數(shù)θ來選擇動作和評估狀態(tài)動作價值函數(shù),容易產(chǎn)生估計過高的情況,針對這一問題,文獻[14]對傳統(tǒng)DQN 進行改進,提出一種雙重深度Q 網(wǎng)絡(luò)算法(double deep Q-network,DDQN)。該算法引入兩個結(jié)構(gòu)相同的深度學習網(wǎng)絡(luò),即在線網(wǎng)絡(luò)和目標網(wǎng)絡(luò),參數(shù)分別為θ和θ′,其中在線網(wǎng)絡(luò)用于選擇動作,目標網(wǎng)絡(luò)用于估計價值,兩個網(wǎng)絡(luò)參數(shù)更新不同步,有效解決了數(shù)據(jù)樣本和網(wǎng)絡(luò)訓(xùn)練之間存在相關(guān)性的問題。具體步驟如算法1所示。

        算法1 DDQN算法

        類似地,將DDQN的損失函數(shù)L(θ)定義為:

        訓(xùn)練過程中,目標網(wǎng)絡(luò)的更新方式與DQN相同,智能體與環(huán)境經(jīng)過固定次數(shù)的交互后,將在線網(wǎng)絡(luò)的參數(shù)復(fù)制給目標網(wǎng)絡(luò),完成對目標網(wǎng)絡(luò)參數(shù)的更新。

        2 基于改進雙重深度Q網(wǎng)絡(luò)的CBL_DDQN模型

        本文將CNN與BiLSTM的混合模型CBL模型引入雙重深度Q網(wǎng)絡(luò)框架,提出基于改進雙重深度Q網(wǎng)絡(luò)的CBL_DDQN 入侵檢測模型,旨在使用CBL 網(wǎng)絡(luò)擬合Q函數(shù),并使用雙重深度Q網(wǎng)絡(luò)中的反饋機制和優(yōu)化策略對CBL網(wǎng)絡(luò)進行優(yōu)化,最終實現(xiàn)對流量的正確分類。

        2.1 CBL網(wǎng)絡(luò)模型

        2.1.1 卷積神經(jīng)網(wǎng)絡(luò)

        卷積神經(jīng)網(wǎng)絡(luò)(CNN)主要包括卷積層、池化層、全連接層等不同類型的結(jié)構(gòu),其主要特點是局部連接和權(quán)值共享。CNN常用的結(jié)構(gòu)如圖1所示。

        圖1 卷積神經(jīng)網(wǎng)絡(luò)框架Fig.1 Convolutional neural network framework

        傳統(tǒng)的卷積網(wǎng)絡(luò)采用二維卷積核,能對二維圖像特征進行有效提取,但對于序列化的數(shù)據(jù)處理效果不理想。文獻[15]指出一維CNN 可以通過在給定的時間范圍內(nèi)序列化TCP/IP包來更好地學習時間序列數(shù)據(jù)集上的特征,故本文采用一維卷積神經(jīng)網(wǎng)絡(luò)來提取數(shù)據(jù)中的空間特征。

        2.1.2 長短期記憶神經(jīng)網(wǎng)絡(luò)

        長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)是為了解決傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的梯度消失問題而提出的,其基本單元是一種包含多組神經(jīng)元的結(jié)構(gòu),稱為細胞(cell),如圖2所示。

        圖2 長短期記憶網(wǎng)絡(luò)的基本單元Fig.2 Basic unit of long short-term memory network

        分別稱三個控制門f、i、o為遺忘門、輸入門和輸出門,對三個控制門的參數(shù)進行合理設(shè)置,就可以實現(xiàn)LSTM的記憶功能,核心計算公式如式(12)~(16)所示:

        其中,f、σ、i、t、o、h、c、W、b分別表示遺忘、Sigmoid 激活函數(shù)、輸入、時間步長、輸出層、隱藏層、單元狀態(tài)、權(quán)重矩陣、偏差。

        為了滿足提取信息的完整性,業(yè)內(nèi)主流將細胞結(jié)構(gòu)采用雙向連接的形式,構(gòu)成雙向長短期記憶神經(jīng)網(wǎng)絡(luò)(BiLSTM),其結(jié)構(gòu)如圖3所示。

        圖3 雙向長短期記憶網(wǎng)絡(luò)框架Fig.3 Network framework of BiLSTM

        2.1.3 CBL模型

        網(wǎng)絡(luò)流量數(shù)據(jù)是有時間步長的序列,既存在空間特征,也存在時間特征[16]。由于CNN和BiLSTM在數(shù)據(jù)特征提取方面各自有其優(yōu)良的特性,本文將一維卷積網(wǎng)絡(luò)和雙向長短期記憶網(wǎng)絡(luò)混合生成CNN、BiLSTM混合模型,簡稱CBL模型,如圖4所示。

        圖4 CBL模型框架Fig.4 CBL model framework

        CBL 模型的設(shè)計思路:使用一維CNN 提取序列化流量數(shù)據(jù)的空間特征;用最大池化層將參數(shù)離散化,以減少訓(xùn)練時間和防止過擬合;在最大池化層之后,加入批歸一化層,將中間層的參數(shù)歸一化,以加快訓(xùn)練速度;BiLSTM層用于學習前向和向后的時間序列數(shù)據(jù),設(shè)置兩個BiLSTM層是采用不同粒度的學習方式,以更好地學習一維CNN 中的長期時間依賴特征的相關(guān)性,設(shè)置兩層BiLSTM 之間的網(wǎng)絡(luò)層是為了更好地提取特征并加快訓(xùn)練速度;設(shè)置Dropout層避免模型過擬合,最終使用Softmax函數(shù)輸出概率矩陣。

        2.2 基于CBL_DDQN的入侵檢測模型

        將CBL模型引入DDQN架構(gòu),得到CBL_DDQN模型,對模型中的相關(guān)概念進行如下定義:

        (l)智能體agent

        將智能體設(shè)置為CBL_DDQN 模型,將模型中的參數(shù)θ看作選擇動作的策略π(a|s),用以分析特征和選擇動作。

        (2)狀態(tài)S

        將整個數(shù)據(jù)集設(shè)置成智能體所處的環(huán)境Environment,當前輸入網(wǎng)絡(luò)的流量數(shù)據(jù)定義為智能體觀測到的環(huán)境狀態(tài)st。

        (3)動作A

        在分類任務(wù)中,分類器的輸出值a~t是狀態(tài)歸屬的對應(yīng)類別,在訓(xùn)練階段,智能體通過ε-greedy 算法進行動作選擇。對于N分類問題,動作空間A={0,1,…,N-1},a~t∈A,其中0 代表正常流量,1~N代表不同類別的攻擊流量。

        (4)獎勵R

        獎勵值是評價智能體選取動作好壞的一個抽象概念,在本文實驗中,如果智能體將數(shù)據(jù)分類正確,則獲得+1的獎勵,反之,獲得-1獎勵。

        將兩個結(jié)構(gòu)相同的CBL模型CBL_DDQN_TrainNet、CBL_DDQN_TargetNet引入DDQN網(wǎng)絡(luò),使用在線網(wǎng)絡(luò)CBL_DDQN_TrainNet 選擇動作,使用目標網(wǎng)絡(luò)CBL_DDQN_TargetNet估計價值。具體學習過程如圖5所示。

        圖5所示智能體從狀態(tài)st開始,采用ε-greedy 策略選擇最大價值相對應(yīng)的動作a~t,并將a~t傳遞給Environment,判斷分類正誤并獲得相應(yīng)獎勵,分類正確獲得獎勵為+1,分類錯誤獲得獎勵為-1;將每次與環(huán)境交互的結(jié)果以元組{st,a~t,q,rt}的形式存儲到提前開辟好的經(jīng)驗池MemoryD中;當經(jīng)驗池中的數(shù)據(jù)達到設(shè)定的閾值時,每次從中隨機采集batch_size個樣本輸入到CBL_DDQN_TrainNet,用于更新q*的值,用式(10)計算模型的損失,更新模型參數(shù);當訓(xùn)練達到固定的訓(xùn)練周期,將CBL_DDQN_TrainNet的參數(shù)復(fù)制給CBL_DDQN_TargetNet,完成對目標網(wǎng)絡(luò)模型的優(yōu)化。

        圖5 CBL_DDQN學習流程圖Fig.5 CBL_DDQN learning flow chart

        3 數(shù)據(jù)集的選取和處理

        3.1 數(shù)據(jù)集的選取和預(yù)處理

        為了驗證CBL_DDQN 模型的可行性,本文選用入侵檢測領(lǐng)域的兩個公開數(shù)據(jù)集NSL_KDD 和UNSW_NB15 進行仿真實驗。兩個數(shù)據(jù)集的詳細信息如表1、表2所示。

        表1 NSL_KDD數(shù)據(jù)集的攻擊類別信息Table 1 NSL_KDD dataset attack categories

        表2 UNSW_NB15數(shù)據(jù)集的攻擊類別信息Table 2 UNSW_NB15 dataset attack categories

        數(shù)據(jù)預(yù)處理主要包含以下三部分:字符型特征數(shù)值化、獨熱編碼以及數(shù)值歸一化。

        (1)字符型特征數(shù)值化

        將正常記錄和不同的攻擊記錄類別特征由字符型轉(zhuǎn)化為數(shù)字標簽,轉(zhuǎn)化后的標簽分布如表1、表2所示。

        (2)獨熱編碼

        獨熱編碼可以將離散特征的取值擴展到歐式空間,使得特征之間的距離計算更加合理。

        (3)數(shù)值歸一化

        在獨熱編碼后,為了減小每一維屬性特征數(shù)值大小對后續(xù)網(wǎng)絡(luò)的影響,將每一維屬性特征按式(18)進行歸一化處理,歸一化后的區(qū)間為[0,1]:

        其中,xmin為當前維數(shù)所對應(yīng)的特征數(shù)據(jù)中的最小值,xmax為當前維數(shù)所對應(yīng)的特征數(shù)據(jù)中的最大值,x˙為歸一化后的特征數(shù)據(jù)。

        3.2 不平衡處理

        由表1、表2可以看出,數(shù)據(jù)集中的樣本之間存在嚴重的不平衡問題,可能會導(dǎo)致分類器對于稀有攻擊樣本檢測率低。因此,本文引入Borderline-SMOTE算法[17]對數(shù)據(jù)進行過采樣處理。該算法是在SMOTE算法的基礎(chǔ)上提出來的,其樣本生成公式如式(19)所示:

        其中,xi為選中的少數(shù)類樣本,x~i為xi的近鄰,xnew為新生成的樣本。SMOTE 算法的算法具體步驟如算法2所示。

        算法2 SMOTE算法

        但是,SMOTE 算法生成的少數(shù)類樣本可能落在多數(shù)類中,易成為噪聲樣本,同時,其樣本生成規(guī)則是根據(jù)近鄰原則,很可能導(dǎo)致原樣本在密集區(qū),生成合成樣本依然大概率在密集區(qū),而若原樣本在稀疏區(qū),生成合成樣本大概率在稀疏區(qū),使得分類算法不易識別稀疏區(qū)樣本,影響算法對稀疏區(qū)樣本的學習。Han等人[17]對其進行了改進,考慮到邊界數(shù)據(jù)點的重要性,首先根據(jù)規(guī)則判斷出少數(shù)類的邊界樣本,再利用SMOTE 算法對邊界樣本生成新樣本。邊界的判斷規(guī)則步驟如算法3所示。

        算法3 Borderline-SMOTE算法判斷邊界樣本原則

        再對輸出的邊界樣本集B使用SMOTE 算法生成新的樣本。本文中使用Borderline-SMOTE 算法對稀有攻擊樣本進行生成,過采樣處理前后的數(shù)據(jù)集劃分結(jié)果如表3、表4所示。

        表3 NSL_KDD過采樣前后數(shù)據(jù)信息Table 3 NSL_KDD dataset information before and after oversampling

        表4 UNSW_NB15過采樣前后數(shù)據(jù)信息Table 4 UNSW_NB15 dataset information before and after oversampling

        其中,訓(xùn)練集1 和訓(xùn)練集3 表示從原始數(shù)據(jù)集中分別劃分出來的訓(xùn)練集,訓(xùn)練集2 和訓(xùn)練集4 表示使用Borderline-SMOTE 算法處理后的訓(xùn)練集。將生成的少數(shù)類樣本與原樣本數(shù)據(jù)一起送入學習模型訓(xùn)練,最終的整個學習流程如圖6所示。

        圖6 CBL_DDQN模型入侵檢測流程圖Fig.6 CBL_DDQN model intrusion detection flow chart

        實際應(yīng)用中,可將本文所提的網(wǎng)絡(luò)入侵檢測系統(tǒng)按照圖7所示的方式進行部署。

        由圖7 可知,NIDS 作為網(wǎng)絡(luò)防火墻之后的第二道防線,主要負責對通過防火墻的流量數(shù)據(jù)進行動態(tài)監(jiān)測,二者有效結(jié)合可大大提高網(wǎng)絡(luò)的安全性。

        圖7 網(wǎng)絡(luò)入侵檢測系統(tǒng)部署框架Fig.7 Architecture of network intrusion detection system

        4 實驗結(jié)果及分析

        4.1 性能評價指標

        為評價模型的性能,本文采用Accuracy、Precision以及Recall作為性能評價指標。

        Accuracy:準確率,表示分類正確樣本占總體樣本的比例。

        Precision:精準率,表示被正確分類的正類樣本占所有被分為正類樣本的比例。

        Recall:召回率,表示分類正確的正類樣本占所有正類樣本的比例。

        其中,TP表示分類正確的正類樣本,F(xiàn)P表示分類錯誤的負類樣本,TN表示分類正確的負類樣本,F(xiàn)N表示分類錯誤的負類樣本。

        4.2 實驗環(huán)境及參數(shù)設(shè)置

        本實驗環(huán)境的硬件環(huán)境為:CPU Intel i5-6300H CPU@2.30 GHz,8 GB RAM,GPU NVIDIA GeForce GTX 960M,采用基于TensorFlow2.1 的Keras 深度學習平臺,使用Sklearn 和imblearn 庫,python 版本為3.7,Win64位操作系統(tǒng)。

        對CBL網(wǎng)絡(luò)模型的參數(shù)設(shè)置如表5所示。

        表5 CBL模型的參數(shù)設(shè)置Table 5 Parameters in CBL model

        表中,N表示預(yù)處理后數(shù)據(jù)的維數(shù),M表示數(shù)據(jù)流量的分類個數(shù),網(wǎng)絡(luò)中用到的最大池化層的池化步長均設(shè)置為5,Dropout的值均設(shè)置為0.5。

        對深度強化學習模型中的各個超參數(shù)設(shè)置如表6所示。

        表6 深度強化學習模型參數(shù)設(shè)置Table 6 Parameters in deep reinforcement learning

        為了減少訓(xùn)練過程中的不穩(wěn)定現(xiàn)象,對參數(shù)進行如下設(shè)置:(1)為避免網(wǎng)絡(luò)陷入局部最優(yōu),實驗中采用Adam優(yōu)化器,將學習率設(shè)置為0.001;(2)為加快實驗速度,采用批量更新的方式,每次從經(jīng)驗池中選取小批量的樣本更新網(wǎng)絡(luò)參數(shù),經(jīng)驗池容量設(shè)置為1 000,批量設(shè)置為128。同時設(shè)置折扣因子為0.8,動作選擇策略的參數(shù)ε隨著實驗的進行從1.0 逐漸遞減到0.01,衰減步長設(shè)置為0.000 1,隨著ε的減小,智能體隨機選擇動作的概率會逐漸減小。

        4.3 實驗結(jié)果及分析

        本文采用NSL_KDD 和UNSW_NB15 兩組網(wǎng)絡(luò)流量數(shù)據(jù)集進行實驗。數(shù)據(jù)集的詳細內(nèi)容如3.1 節(jié)所述。實驗中,將整個訓(xùn)練集的所有數(shù)據(jù)設(shè)置為一個epoch,設(shè)置最大epoch 為30,每訓(xùn)練5 個epoch 對模型的分類結(jié)果做一次統(tǒng)計,采用對照實驗的方式分別測試使用Borderline-SMOTE 算法處理前后系統(tǒng)對數(shù)據(jù)的識別率。統(tǒng)計訓(xùn)練30個epoch后的分類結(jié)果,如圖8、圖9所示。

        圖8 模型對NSL_KDD的識別率Fig.8 Detection accuracy of NSL_KDD

        圖9 模型對UNSW_NB15的識別率Fig.9 Detection accuracy of UNSW_NB15

        由圖8、圖9 可以看出,隨著訓(xùn)練的不斷進行,用不同數(shù)據(jù)訓(xùn)練的分類器的性能均在逐步提升,且引入Borderline-SMOTE 算法的模型所對應(yīng)的分類準確率均高于相同訓(xùn)練次數(shù)下對于原始數(shù)據(jù)集的準確率,可以直觀地看出引入不平衡處理算法對于模型的收斂具有較大的促進作用。

        為了進一步驗證本文所提模型的有效性,比較了六種不同方法的準確率、召回率以及精確率:Adam-BNDNN[18]、DQN[19]、RF[19]、SVM[19]、MLP[19]和Adaboost[20],統(tǒng)計結(jié)果如表7、表8所示,其中加粗的數(shù)據(jù)是該項性能指標的最優(yōu)值。

        表7 各模型對NSL_KDD的分類性能比較Table 7 Performance comparison of each model for NSL_KDD %

        表8 各模型對UNSW_NB15的分類性能比較Table 8 Performance comparison of each model for UNSW_NB15%

        直觀起見,將表7 中的數(shù)據(jù)繪制成條形圖的形式,結(jié)果如圖10所示。

        圖10 各模型對NSL_KDD的分類性能Fig.10 Classification performance of each model for NSL_KDD

        結(jié)合表7和圖10可以看出,本文提出的CBL_DDQN模型在NSL_KDD 數(shù)據(jù)集上的檢測效果顯著。在準確率、召回率以及精準率這三項評價指標上分別達到了99.96%、99.97%和99.79%,各項性能指標均優(yōu)于其他IDS。

        同樣地,為了直觀起見,將表8 中的數(shù)據(jù)繪制成條形統(tǒng)計圖的形式,結(jié)果如圖11所示。

        圖11 各模型對UNSW_NB15的分類性能Fig.11 Classification performance of each model for UNSW_NB15

        結(jié)合表8和圖11可以看出,本文模型對UNSW_NB15的檢測結(jié)果中整體識別準確率可達到90.12%,召回率可達到95.20%,精確率可達89.93%,雖然不及所提對比方法相應(yīng)的各項指標最優(yōu)值,但綜合考慮各項性能指標,本文所提模型可以實現(xiàn)良好的入侵檢測效果。

        綜合分析上述兩組實驗結(jié)果,可知本文提出的基于改進雙重深度Q網(wǎng)絡(luò)模型能很好地解決入侵檢測問題。

        5 總結(jié)與展望

        本文提出了CBL_DDQN 網(wǎng)絡(luò)入侵檢測模型,將CNN 和BiLSTM 的混合網(wǎng)絡(luò)CBL 網(wǎng)絡(luò)引入DDQN 框架,使得模型擁有更佳的性能。與傳統(tǒng)深度學習算法相比,一定程度上解決了傳統(tǒng)深度學習對于數(shù)據(jù)標簽的依賴性問題,并取得了比深度學習算法更好的分類效果??紤]到數(shù)據(jù)之間的不平衡導(dǎo)致分類器難以充分學到數(shù)據(jù)特征的問題,采用Borderline-SMOTE 算法對稀有攻擊樣本數(shù)量進行擴充,結(jié)果表明,不平衡處理算法能在一定程度上提升模型的分類能力。

        綜上所述,本文所提模型在不平衡數(shù)據(jù)分類問題中表現(xiàn)良好,且整體性能優(yōu)于改進前的DQN 網(wǎng)絡(luò)和其他深度學習網(wǎng)絡(luò),體現(xiàn)出深度強化學習的一種新的思維方式。接下來的工作將致力于降低模型的空間復(fù)雜度,提升模型的時間效率,加速模型收斂;同時,將在更加復(fù)雜的數(shù)據(jù)條件下,進一步研究模型的泛化能力。

        猜你喜歡
        分類深度樣本
        分類算一算
        用樣本估計總體復(fù)習點撥
        深度理解一元一次方程
        分類討論求坐標
        深度觀察
        深度觀察
        深度觀察
        推動醫(yī)改的“直銷樣本”
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        国产麻豆md传媒视频| 精品国产三级国产av| 日韩有码中文字幕在线视频| 99国产精品久久99久久久| 免費一级欧美精品| 亚洲综合久久中文字幕专区一区| 国产无套中出学生姝| 中文日韩亚洲欧美制服| 亚洲乱码av中文一区二区| 在线观看av手机网址| 亚洲av色香蕉第一区二区三区| 亚洲悠悠色综合中文字幕| 亚洲一卡2卡3卡4卡5卡精品| 91视频88av| 免费精品美女久久久久久久久久| 日韩人妻无码精品系列专区无遮| 亚洲中文字幕在线第二页| 亚洲国产精品情侣视频| 人妻少妇精品视频专区| 麻豆国产人妻欲求不满| 无遮挡十八禁在线视频国产制服网站 | 国产精品美女主播在线| 丰满人妻被两个按摩师| 欧美aa大片免费观看视频 | 国产精品综合色区av| 一区二区三区国产高清视频| 小说区激情另类春色| 亚洲经典三级| 国产伦码精品一区二区| 亚洲国产人成综合网站| 色www永久免费视频| 精品人妻伦九区久久AAA片69| 欧美国产亚洲日韩在线二区| 自拍视频在线观看成人| 国产在线一区二区三区四区| 女人被爽到呻吟gif动态图视看| 久久狠色噜噜狠狠狠狠97| 国产午夜精品视频观看| 女的扒开尿口让男人桶30分钟| 亚洲自拍另类制服在线| 日韩成精品视频在线观看|