亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于雙層異質集成學習器的入侵檢測方法

        2021-06-02 08:34:50劉玉嶺盧志剛劉寶旭
        信息安全學報 2021年3期
        關鍵詞:分類實驗檢測

        凌 玥, 劉玉嶺, 姜 波, 李 寧, 盧志剛, 劉寶旭

        1中國科學院信息工程研究所, 北京 中國 100093

        2中國科學院大學網絡空間安全學院, 北京 中國 100049

        1 引言

        為了減少和防止網絡攻擊, 我們有必要盡可能發(fā)現各種攻擊企圖、攻擊行為或者攻擊結果, 以保證網絡系統(tǒng)資源的完整性、機密性和可用性。傳統(tǒng)的安全措施, 如身份認證和防火墻, 只能被動地保護網絡安全, 而且對網絡管理員的要求很高。實際上, 入侵檢測技術是檢測攻擊的最常用方法, 它可以很好地解決上述問題[1]。業(yè)界最為常用的基于誤用的入侵檢測采用的是簽名模式匹配的方法, 它通過建立正常的行為模型來監(jiān)控入侵標志的網絡流量信息。以下有幾方面原因可以解釋為什么應該采用基于異常的檢測方法: 一方面, 基于誤用的入侵檢測技術很難檢測到未寫入規(guī)則庫的攻擊, 因此通常具有較高的誤報率和漏報率; 另一方面, 在發(fā)現新攻擊和部署其相應簽名之間可能存在較大的時間間隔, 安 全管理員也需對開發(fā)的簽名進行管理、分發(fā)、保持最新。一旦攻擊者稍微修改一些已知的惡意軟件, 就會帶來較大挑戰(zhàn)。因此, 在本文中, 我們關注如何提高基于異常檢測技術的實用性。

        在基于異常的網絡入侵檢測中, 很多研究者采用了機器學習算法, 并對其進行了改進和應用[2-7]。其基本流程如圖1所示。首先是獲取數據, 然后對數據進行預處理, 最主要的是對數據進行探索性分析, 主要包含了四個步驟: 特征選擇/降維處理、模型選擇、模型部署、模型驗證與優(yōu)化。

        圖1 采用機器學習的入侵異常檢測流程圖 Figure 1 Flow chart of anomaly-based intrusion detection using machine learning method

        我們將傳統(tǒng)機器學習的入侵檢測方法分為兩類: 使用單個分類器[2,3,8-10]進行入侵檢測, 以及融合多個分類器來進行檢測[6-7]。使用單個分類器的檢測方法具有較高錯誤率, 因為在分類過程中, 這些方法的性能通常會隨著不同的分類器和/或不同的數據集的變化而變化, 因此會產生較高錯誤率。而以合理的方式融合多個分類器可以減少整體分類錯誤并增強模型的泛化能力。這個融合過程被稱為集成學習。近年來, 基于深度學習的異常檢測研究也越來越廣泛[10-11]。然而, 由于缺乏理論基礎、超參數和網絡設計, 深度神經網絡被認為是一個“黑匣子”, 其計算非常耗時, 解釋性也較差。同時, 通過應用傳統(tǒng)的機器學習方法, 可以輕松調整超參數并改變模型設計。因此, 使用傳統(tǒng)的機器學習模型更具說明性和效率。集成學習具有很強的泛化能力, 可以降低錯誤率, 因此幾種傳統(tǒng)分類器的組合可以降低錯誤率, 使我們能夠更全面地了解數據和底層算法。幾種入侵檢測方法的分析如下表所示。

        表1 入侵檢測方法對比分析 Table 1 Comparative analysis of intrusion detection methods

        對于入侵檢測, 我們還需要考慮時間消耗, 因為許多研究人員以犧牲過多的時間消耗為代價來提高模型的檢測率。這對于入侵檢測來說是不可取的, 因為大量的時間消耗會影響其實用性。為了減少分類器集成的時間消耗, 可以考慮采用數據降維方法, 如主成分分析(PCA)[13], 概率主成分分析(PPCA)[14], 以及核主成分分析(KPCA)[15]。數據降維是過濾數據噪聲的有效方法, 它可以在預處理階段盡可能地減少數據而不影響檢測結果, 從而大大降低了時間消耗。

        在本文中, 使用雙層異質學習器集成學習策略(Intrusion Detection Model using Double-layer Heterogeneous Ensemble Learner Strategy, IDHEL)設計了一種新穎的入侵檢測模型。首先, 采用數據預處理方法來降低計算量, 以減少時間消耗。然后, 我們使用五個異質分類器對數據集執(zhí)行異常檢測, 采用分層十倍交叉驗證。接下來, 根據分類器評估公式(Classifification Evaluation Algorithm, CEA)選擇三個最佳分類器。最后, 執(zhí)行基于概率加權投票的異質學習器集成算法(Multi-classififier Fusion Algorithm, McFA)。我們還將IDHEL模型與單一分類器(如樸素貝葉斯, Bp神經網絡, C4.5, 邏輯回歸, SVM)和使用相同數據集的其他一些先進算法進行比較, 以證明我們的模型更適合入侵檢測。

        本文的貢獻如下:

        1. 提出了一種使用雙層異質分類器集成學習策略(IDHEL)的新型入侵檢測模型, 可以通過概率加權投票機制提高入侵檢測的性能。

        2. 利用概率核主成分分析方法降低了模型訓練的計算成本, 并采用分層十倍交叉驗證方法避免了過度擬合。

        3. 在入侵檢測數據集上對IDHEL模型進行了評估, 實驗結果表明, IDHEL模型在準確性, 錯誤率和時間消耗方面均具有優(yōu)越性。

        本文的其余部分安排如下: 第2節(jié)介紹了國內外相關工作; 第3節(jié)詳細介紹了本文提出的入侵檢測模型; 第4節(jié)介紹了實驗并對結果進行了討論; 第5節(jié)主要闡述了我們的工作結論。

        2 國內外相關研究進展

        2.1 入侵檢測模型

        我們將基于異常的入侵檢測方法分為三類: 單一傳統(tǒng)分類器、深度學習和集成學習。

        2.1.1 單一傳統(tǒng)分類器

        單個傳統(tǒng)分類器方法就是采用單個分類器來對數據進行訓練學習。

        Syarif等人[2]討論了五種不同的異常檢測技術, 并且使用NSL-KDD數據集來評估網絡異常檢測中的聚類算法。然而, 實驗結果表明采用這幾種算法會產生產生較高的誤報率(超過20%)。

        此外, Eslamnezhad等人[5]設計了一種改進的K-Means算法, 稱為Min-Max K-Means。MinMax K-Means是一種新的聚類算法, 試圖解決K-Means初始化問題。該算法從隨機選擇簇的初始中心開始, 然后嘗試應用最小化簇的最大內部方差, 而不是最小化K-Means算法中簇的內部方差之和。對每個聚類進行加權, 以便為具有較大內部方差的聚類分配較高權重。 通過應用此方法, 結果變得更少依賴于初始化, 并且即使未最佳地選擇簇的初始中心, 聚類的質量也會增加。實驗結果表明, Min-Max K-Means算法的總檢測率為81%, 而常規(guī)K-Means分配較高權重。 實驗結果表明, Min-Max K-Means算法的總檢測率為81%, 而常規(guī)K-Means算法的總檢測率為75%。然而, 他們都只是嘗試改進了K-Means算法, 盡管結果證明他們所提出的算法比K-Means算法要好, 但是他們并沒有嘗試和其他的算法進行比較, 也沒有嘗試減少時間開銷。

        SVM算法由于使用核函數可以向高維空間進行映射和解決非線性的分類, 以及分類思想簡單, 就是將樣本與決策面的間隔最大化等優(yōu)點, 也被許多研究者所采用。

        Bo等人[3]通過使用短序列數據, 使用SVM模型將數據標記為異?;蛘!K麄兊幕赟VM的模型有較高的準確率, 并且可以有效地進行實時入侵檢測, 其框架圖如圖2所示。然而他們僅僅考慮了提高使用SVM算法的檢測率和減少使用SVM算法的時間消耗。根據我們的實驗可以得知, 使用SVM算法本身所耗費的時間就不多。因此在此基礎上減少時間消耗的意義不是很大, 此外, 他們忽略了與其他分類算法相對比。

        圖2 Bo等人的提出的SVM框架[3] Figure 2 Bo et al."s proposed SVM framework[3]

        2.1.2 深度學習

        深度學習指含多個隱藏層的多層感知器的學習結構。深度學習通過組合低層特征以形成更加抽象的高層表示屬性類別或特征, 以發(fā)現數據的分布式特征表示。

        Tang等人[4]構建了一個深度神經網絡(DNN)模型, 在SDN環(huán)境中獲取數據集的六個基本特征, 以此基于流量進行異常檢測。然而, 他們所提出的模型最后實驗的準確率只有75.75%, 并不是很高, 此外模型的可解釋性不是很好。Shone等人[11]提出了一種用于無監(jiān)督特征學習的非對稱深度自動編碼器(NDAE), 并提出了一種使用堆疊NDAE的深度學習分類模型。如圖3所示, 模型使用了堆疊排列的兩個NDAE, 并與RF算法結合使用。每個NDAE有3個隱藏層, 每個隱藏層使用與特征相同數量的神經元(由圖中的編號表示)。通過交叉驗證多種組合(即神經元和隱藏層的數量)確定這些確切的參數, 直到確定最有效。研究表明作者所提出的模型誤報率較高, 且時間耗費較大。此外, 模型的可解釋性較差。

        圖3 堆疊NDAE的深度學習分類模型[11] Figure 3 Deep learning classification model for stacked NDAE[11]

        2.1.3 集成學習

        集成學習指通過合并多個分類器來提升機器學習性能, 這種方法相較于采用單個分類器的方法通常能夠獲得更好的預測結果。

        Tengl等人[6]提出了一種基于遺傳算法(GA)的集成分類器最優(yōu)加權策略的協(xié)同魯棒入侵檢測模型。在所提出的模型中, 如圖4所示, 他們使用PCA來進行數據降維, GA用于優(yōu)化集合分類器的每個基本分類器的權重。然而, 他們所提出的方法雖然最后得到的準確率較高, 但卻花費了大量時間來調整權重, 這將會影響算法的實時性和可用性。

        此外, Sornsuwit等人[7]采用Adaboost算法創(chuàng)建決策樹、樸素貝葉斯, SVM和MLP分類器的集合, 并通過實驗結果證明了優(yōu)越性。

        2.2 數據降維算法

        為了提高模型的實用性, 許多研究人員將降維方法應用到數據預處理階段以減少時間消耗。PCA是一種經典的數據降維算法, 一些研究人員針對上述問題改進了PCA算法。例如, Ge等人[15]提出了一個可以自動確定潛變量有效維數的模型。對于具有多種運行模式的監(jiān)測過程, 將貝葉斯正則化方法擴展到其混合形式, 然后開發(fā)了混合貝葉斯正則化的PPCA方法。

        此外, Li等人[5]提出了一種基于KPCA和最小二乘支持向量機(LSSVM)的非線性過程異常檢測與診斷方法。這項工作試圖盡可能地降低計算成本, 同時確保準確性, 以提高模型的實用性。

        這些減少數據維度的嘗試都是有意義的。它們都在確保準確率的情況下, 盡可能降低計算成本, 從而提高模型的實用性。

        圖4 協(xié)同入侵檢測的體系結構圖[6]流程圖 Figure 4 The architecture of collaborative intrusion detection[6]

        總結相關工作, 可以發(fā)現盡管使用K-Means和神經網絡等機器學習算法在基于異常的入侵檢測中實現了較高的檢測率和準確率, 但在大多數情況下都會導致較高錯誤率并產生巨大的計算開銷, 影響其實用性?;诋惓5腎DS的高時間消耗主要歸因于這些IDS需要分析的數據中存在大量的特征。因此, 本文旨在通過異質學習器集成策略來解決異常檢測的較高錯誤率的問題和通過數據降維技術解決基于異常的IDS的高計算成本問題。

        3 入侵檢測IDHEL模型

        3.1 模型概述

        我們所提出的IDHEL模型分為兩個部分。

        第一部分是數據預處理。使用PKPCA數據降維算法, 它結合了PPCA和KPCA的優(yōu)點, 能夠盡可能地減少信息損失和降低計算開銷。

        第二部分是入侵檢測的雙層策略, 又分為兩部分。首先是單一分類器, 使用五種不同的分類器來分別檢測, 包括: 樸素貝葉斯, Bp神經網絡, C4.5決策樹, 邏輯回歸和SVM。這是因為根據Zaman等人[16]和Syarif等人[2]的工作, 這五個分類器的分類結果相對較好且可解釋較高。此外, 應用了分層十折交叉驗證方法來防止模型過擬合。其次是異構的集成學習器策略, 使用分類器評估算法(CEA)選擇最好的三個分類器作為組件學習器, 然后執(zhí)行多分類器融合算法(McFA)進行再處理。整個模型的體系結構如圖5所示。

        圖5 IDHEL模型框架圖 Figure 5 The overall framework of IDHEL model.

        3.2 數據降維算法

        根據Sornsuwit等人[7]的描述, 減少特征能夠提高入侵檢測中弱學習器的分類效率。數據維度本質上是從一個維度空間映射到另一個維度空間, 特征的個數并沒有減少, 然而在映射的過程中特征值會發(fā)生相應的變化。

        PCA是一種線性投影技術, 遵循最大化數據方差的原則來進行數據降維, 盡可能地保留有效信息。使用PCA的降維過程首先需要對數據集的特征值進行歸一化處理, 接著求協(xié)方差的特征值和特征向量, 特征向量都歸一化為單位向量, 然后將特征值按照從大到小的順序排序, 選擇其中最大的k個, 接下來將其對應的k個特征向量分別作為列向量組成特征向量矩陣, 最后, 將樣本點投影到選取的特征向量上。

        然而, PCA算法存在以下兩個問題。首先, PCA沒有將數據的概率分布考慮; 其次, PCA僅考慮了數據的二階統(tǒng)計信息, 而沒有利用高階統(tǒng)計信息, 忽略了數據的非線性相關性。

        針對上述兩個問題, 前人分別對PCA進行了改進。

        PPCA對PCA做了概率上的解釋, 延伸了PCA算法。它是一種考慮每個變量概率分布的方法, 在確定主元和誤差的概率函數后, 通過期望最大(EM)算法建立模型。其具體步驟如下:

        1. 將原始數據按列組成n行m列矩陣X;

        2. 將原始訓練樣本數據進行標準中心化處理得到X;

        3. 在隱含變量x的條件下得到觀測數據的概率分布;

        4. 采用EM 算法獲得概率PCA的模型參數W(因子矩陣)和其方差;

        5. 刪除不滿足因子矩陣與方差特定關系的歸一化數據;

        6. 剩余滿足條件的數據即為降維到k維后的數據。

        核主成分分析(KPCA)則通過非線性變換將數據映射到高維, 并提取高維空間中的特征以改進特征提取。其具體步驟如下所示:

        1. 將原始數據按列組成n行m列矩陣X;

        2. 計算核矩陣, 選定高斯徑向核函數中的參數, 計算核矩陣K, 修正核矩陣得到KL;

        3. 求出協(xié)方差矩陣C, 運用Jacobi迭代算法計算KL的特征值和特征向量;

        4. 將特征向量按對應特征值大小從上到下按行排列成矩陣, 取前k行組成矩陣;

        5. 通過施密特正交化方法單位正交化特征向量得到P;

        6. Y = PX即為降維到k維后的數據。

        PPCA和KPCA分別改進了PCA存在的兩個問題, 因此, 我們可以考慮將兩種算法結合起來, 既能夠將數據的概率分布考慮進去, 又能夠利用數據的高階統(tǒng)計信息, 以此來得到更好的降維效率。

        因此, 在本文中, 我們使用概率核主成分分析(PKPCA)方法, 該方法不僅能夠捕獲數據的高維信息, 而且還考慮了其概率分布[17]。該方法具體描述如下:

        假設 { x1, x2,..., xN}是數據空間 Rd中的訓練數據, 并且數據由映射函數Ψ被映射到高維數據空間Rf中, 其 中 f> d。映 射 數 據 用 Ψf×N=

        隱藏變量模型是 Ψ (x) = Wz + μ+ε, 其中 z ~ N (0,Iq), ε~ N (0, ρIf), W表示f × q的因子矩陣。

        根據Tipping等人的描述[18], 參數μ和W的最大似然估計表示為:

        其中R是任何q × q大小的旋轉矩陣, λq和 Uq分別是第q大特征值和相應的包含C的特征向量。

        Scholkopf等人[19]提出了一種EM算法, 用于在PKPCA中查找參數Q和ρ~, 使用以下迭代公式:

        其中, M = ρIq+ WTW = ρIq+ QTKQ , Q~和ρ~是更新后的估算值。

        圖6 數據分層10折交叉驗證示意圖 Figure 6 Layered 10-fold cross-validation diagram of dataset

        3.3 驗證策略

        驗證策略可以評估模型的預測性能并防止過擬合。因為在現實世界中, 數據集并非全部平衡。 對于不平衡的數據集, 簡單的交叉驗證不考慮原始數據集的分布。 本文使用分層10折交叉驗證方法。 分層意味著原始數據中每個類別的比例關系在每個折疊中保持不變。具體方法如圖6所示。假設有兩種類型的原始數據, 比例為1∶2, 那么十個折疊中的每一個中的數據類別保持1∶2的比率, 這使得結果更可靠。

        采用分層10折交叉驗證算法來進行分類的學習器示意圖如圖7所示。首先將數據集按類別等比例劃分成10份, 用9份作訓練集, 1份作測試集, 每個分類器經過10 次交叉驗證, 最終得到五種分類器結果。接著, 進入下一步基于概率投票加權的分類器集成算法。

        3.4 基于概率加權投票的異質學習器集成算法

        相關工作表明[2-3,5], 在分類過程中, 單個分類器可能帶來分類偏差, 導致模型具有較高的錯誤率。集成策略意味著融合多個分類器可以產生更好的結果。如果我們以合理的方式融合多個異質學習器, 我們可能就會得到理想的分類結果, 并且整體分類誤差也會減少。因此, 我們使用雙層異質學習器集成策略來進行入侵檢測。在4.3節(jié)中, 詳細介紹了分別使用五種不同的分類器和我們在本文中提出的IDHEL模型進行實踐的差別。

        圖7 分類器分層10折交叉驗證算法過程 Figure 7 The process of learners using the layered 10- fold cross-validation algorithm for classification

        在本文中, 為了顯著提高實驗效果, 我們采用基于概率加權投票的異質學習器集成算法來進行入侵檢測。該算法主要包括分類評估和多分類器集成兩個步驟。

        3.4.1 分類評估算法(CEA)

        我們使用以下公式來評估每個分類器的效果:

        其中, F表示F-Measure, AUC表示AUC的值, 即ROC曲線下的面積。

        根據CEA公式, 我們可以選擇出針對該數據集適用于PKPCA的三種效率最高的分類算法。

        盡管存在許多分類指標, 例如: recision, recall, F-Measure, ROC, AUC等, 然而單獨的高精確率和高召回率并不能夠證明該算法是有效的, 而F值則是對精度和召回率的綜合評估, 它是兩者的調和平均值, 如下公式所示:

        ROC曲線則將false positive rate(FPR)作為橫坐標, true positive rate作為縱坐標, 它能夠很容易地查出任意界限值時的對性能的識別能力, 我們可以通過分別計算各個實驗的ROC曲線下的面積(AUC)來比較實驗結果的優(yōu)劣。

        其中, 正樣本個數為m+, 負樣本個數為m-, D+為所有正例組成的集合, x+是其中的一個正例, D-為所有反例組成的集合, x-是其中的一個反例, f(x)是模型對樣本x的預測結果, 在0—1之間, W僅在x為真時取1, 否則取0。

        由上分析可以看出, F值和AUC能夠比較直觀地評判分類效果, 因此我們使用了F-Measure和AUC的調和平均數來綜合評判分類效果。

        3.4.2 多分類器集成算法(McFA)

        本文采用了概率加權投票的方式來集成多個分類器。投票法是最簡單也是最廣泛的集成方法, 這種方法是對各個分類器的判決進行投票, 其最大得票的判決作為最后系統(tǒng)的識別結果。

        由于本文所采用的三種分類算法的輸出向量并不一致, 所以我們在進行多分類器融合之前, 首先要將輸出結果轉換成統(tǒng)一的概率模式, 然后再計算各個分類器的加權值。當滿足 ci(xi)=yi時, 對于各個分類器ci的概率加權定義為:

        其中 Eij是輸入類別為 Dj時分類器ci的期望輸出。將作為投票表決時分類器ci的第j個輸出的得票數目, 則 S ∈ Dj的總得票數為:

        因此, 基于異質學習器的輸出向量加權投票表決規(guī)則表示為:

        其中Tk是表決閾值, 它能根據不同的應用需求設定不同的值。此外, 為了提高算法的可靠性, 本文采用了拒絕識別的方法, 其時間復雜度為O(n)。

        4 實驗

        4.1 數據集說明

        我們使用NSL-KDD數據①https://www.unb.ca/cic/datasets/nsl.html, 它是開源KDD99[20]的修改版本。與KDD數據集相比, NSL-KDD數據集具有以下幾個優(yōu)點: (i)沒有冗余記錄, (ii)沒有重復記錄, (iii)訓練和測試中的記錄數量設置合理。因此, 不同研究工作的評價結果將是一致的和可比的。

        在NSL-KDD數據集中, 總共有148 517個數據, 77 054個正常數據和71 463個異常數據。

        4.2 實驗設置

        我們將提出的IDHEL模型與五個單獨使用的分類器進行比較, 這些分類器是樸素貝葉斯, Bp神經網絡, C4.5, 邏輯回歸和 SVM, 以及其他在NSL-KDD數據集上進行實驗的入侵檢測模型。

        · MinMax K-means(Eslamnezhad等人, 2015): 該算法克服了K-means算法中對初始中心的敏感性不足的問題[21]。

        · 改進的K-means算法(Wang, 2011): 通過盡可能選擇初始中心來克服初始中心選擇的靈敏度問題[22]。

        · 改進的SVM算法(Heba et al. 2013): 該算法基

        于主成分分析(PCA)和支持向量機(SVM)[14]。

        · DNN(Tang et al. 2016): 在該模型中, 建立了深度神經網絡(DNN)模型, 該模型在SDN環(huán)境中獲得了六個基本特征[10]。

        · S-NADE(Tang et al. 2018): 它提出了一種用于特征學習的非對稱深度自動編碼器(NDAE)和一種使用堆疊NDAE的新的深度學習分類模型[11]。

        · Ensemble with weight strateg(Tengl et al. 2018): 在這個模型中, 采用遺傳算法(GA)來優(yōu)化每個基本分類器的權重, 采用PCA來進行數據降維[6]。

        · Adaboost Ensemble(Sornsuwit et al. 2016): 在這個模型中, 采用了Adaboost算法創(chuàng)建弱學習者的集合, 以提高分類器的性能[7]。

        4.3 數據預處理實驗結果

        為了證明PKPCA的必要性和優(yōu)越性, 我們進行了三個獨立的實驗: 直接使用五個分類器而不進行數據預處理, 和使用PCA和PKPCA數據降維之后再進行分類。表2顯示了這三個實驗中使用的特征數, 分類的準確性和時間消耗。

        從表中可以看出, 將41個特征降到15個特征之后, 使用樸素貝葉斯分類器的實驗結果的準確性沒有降低。此外通過PKPCA進行數據預處理之后, 使用BP神經網絡的結果增加到97.07。由此可見, 減少數據維度不會對分類的準確性產生過度的負面影響。相反, 在數據預處理之后, 五個分類器的運行時間都有了顯著的下降。PCA的平均時間消耗降低了74.8%, PKPCA的平均時間消耗降低了71.1%。

        4.4 入侵檢測性能比較

        在異質學習器集成的部分中, 我們使用了基于概率加權投票的多分類器集成算法。 圖5顯示了經過PKPCA數據降維處理之后, 采用五種不同學習器進行分類的精度、AUC值和F值。我們使用CEA公式來選擇三個最佳分類器, 圖9顯示了每個分類器的CEAγ 值。

        從圖8、圖9中可以看出, 邏輯回歸、C4.5和SVM這三個分類器在此數據集上具有最佳的分類效果, 因此我們選擇這三個分類器使用McFA算法進行多分類器融合以進一步提高效率。

        在使用基于概率加權投票的McFA算法之后, IDHEL模型的準確率、精確率、錯誤率、F值和AUC值的能力表圖如圖9所示。

        通過圖8~圖10可以看出, 在使用基于概率加權投票的分類器集成算法之后, 實驗效果得到了顯著改善。在進行異質學習器集成之前, 經過PKPCA數據降維預處理之后的數據集, 在單獨分類器上所獲得的F-Measure和AUC的最高值分別為0.976和0.988, 這兩者都是使用C4.5分類算法獲得的。在使用本文提出的基于概率加權投票的分類器集成算法后, F-Measure和AUC都提高到了0.985和0.992。準確率為0.957, 精確率為0.962, 高于現今大部分主流模型。此外, IDHEL模型在錯誤率方面也表現良好, 錯誤率小于10%。

        表2 五種分類器在原始數據集、經過PCA處理的數據集和PKPCA處理的數據集上的分類結果比較 Table 2 Comparison of the results of classification of original dataset, PCA-processed dataset, and PKPCA- processed dataset

        圖9 執(zhí)行PKPCA后, 五種不同分類器的CEAγ 值 Figure 9 CEA values (CEAγ ) for five different classifiers after performing PKPCA

        圖10 IDHEL模型的能力表圖 Figure 10 Ability map of IDHEL

        4.5 時間消耗比對分析

        在現實世界中, 對入侵檢測的實時性要求并不低。因此, 我們還比較了算法的整個運行時間, 如圖11所示。從圖中可以看出, 本文提出的IDHEL模型的最終總時間消耗遠小于Bp神經網絡。在保持高準確率度和較低錯誤率的情況下, 完整的入侵檢測時間仍然小于500s。由于也可證明, 采用本文所提方法能夠有效減少分類器集成的時間消耗, 提高入侵檢測的實時性。

        4.6 模型比較

        為了更好地評估IDHEL模型的性能, 我們將其與在同一數據集上進行實驗的多種主流模型進行了實驗效果比較。從表3中可以看出我們的算法在True Positive rate(TP)、False Positive rate(FP)、準確率和時間消耗這四個指標方面都具有優(yōu)越性。

        IDEHL算法的TP和FP值在這些算法中表現最佳, 分別為0.989和0.061。另外, 它的準確度也很高, 為0.957。

        圖11 IDHEL模型與單獨分類器時間消耗方面的比較 Figure 11 Comparison of time consumption between IDHEL model and five separate classifiers

        表3 與多種主流模型的綜合對比實驗 Table 3 Intrusion detection algorithm comparison

        5 結論

        在本文中, 我們采用雙層異質學習器的集成策略提出了一種新穎的入侵檢測模型。我們使用PKPCA數據降維算法來來解決基于異常的IDS的高計算開銷的問題。接下來, 我們使用多個異質學習器和分層十折交叉驗證策略來執(zhí)行異常檢測, 并通過CEA公式選擇在該數據集上表現最好的三個分類器。然后, 我們提出了一種基于概率加權投票的集成算法, 以進一步增強實驗結果。通過實驗, 我們證明了IDHEL模型可以實現較高精確率、較低錯誤率、較少時間消耗的目標。

        其實, 在入侵檢測方面, 本實驗仍然有可改進之處。比如, 可以將程序放到spark架構上進行分布式處理。不過, 由于NSL-KDD數據集的數據量不夠大, 使用分布式處理的方式, 數據分發(fā)的時間會大大超過數據處理的時間, 因此, 本文并沒有采用分布式的方法進一步減少時間消耗。但是, 在現實世界中, 分布式的方法還是可取的, 它能夠在IDHEL模型的基礎上, 進一步大幅度減少時間消耗。

        致 謝 這項工作得到了中國自然科學基金(No. 61702508, No.61802404), 國家重點研發(fā)計劃課題(2016YFF0204002, 2016YFF0204003), “十三五”裝備預研領域基金(6140002020115)的支持。這項工作也得到了中國科學院網絡評估技術重點實驗室和北京市網絡安全與保護技術重點實驗室的部分支持。

        猜你喜歡
        分類實驗檢測
        記一次有趣的實驗
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        分類算一算
        做個怪怪長實驗
        分類討論求坐標
        數據分析中的分類討論
        教你一招:數的分類
        NO與NO2相互轉化實驗的改進
        国产欧美日韩不卡一区二区三区| 最近更新中文字幕一区二区| 青青草手机视频免费在线播放| 色婷婷久久综合中文蜜桃| 久久亚洲中文字幕乱码| 久久精品国产亚洲夜色av网站| 亚洲精品国偷拍自产在线| 一边做一边喷17p亚洲乱妇50p| 无码av无码天堂资源网| 亚洲欧洲中文日韩久久av乱码| 久久国产免费观看精品 | 中文字幕人妻少妇精品| av免费在线播放观看| 亚洲高清一区二区三区在线播放| 人妻夜夜爽天天爽三区麻豆av网站 | 亚洲av无码精品色午夜| 亚洲日韩精品欧美一区二区三区不卡| 韩国美女主播国产三级| 亚洲国产大胸一区二区三区 | 亚洲国产成人精品女人久久久 | 久久久久久久尹人综合网亚洲 | 少妇熟女天堂网av| 艳妇乳肉豪妇荡乳av无码福利 | 国产精品国产自产拍高清| 女局长白白嫩嫩大屁股| 精品亚洲欧美无人区乱码| 国产羞羞视频在线观看| 午夜久久精品国产亚洲av| 青春草在线观看免费视频| 蜜臀人妻精品一区二区免费| 丰满女人猛烈进入视频免费网站| 久久久久人妻精品一区蜜桃| 亚洲欧美一区二区三区国产精| 男女在线免费视频网站| 日韩精品人妻一区二区三区蜜桃臀| 亚洲av午夜精品无码专区| 亚洲精品欧美二区三区中文字幕 | 日本一区二区三区熟女俱乐部 | 国产白袜脚足j棉袜在线观看| 久久久久99精品成人片试看| 无码高潮久久一级一级喷水 |