亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于集成學習的網(wǎng)絡入侵檢測技術

        2023-07-08 07:49:04周翔
        科技與創(chuàng)新 2023年12期
        關鍵詞:優(yōu)化檢測模型

        周翔

        (長江大學電子信息學院,湖北 荊州 434023)

        互聯(lián)網(wǎng)的快速發(fā)展,為生活中各種應用的接入提供了方便,計算機網(wǎng)絡已經(jīng)成為人們?nèi)粘I钪胁豢苫蛉钡年P鍵部分,互聯(lián)網(wǎng)規(guī)模不斷擴大。然而互聯(lián)網(wǎng)入侵事件并未減少,入侵對互聯(lián)網(wǎng)的威脅越來越大,網(wǎng)絡入侵的主要目的是竊取商業(yè)、軍事等機密,從而造成數(shù)據(jù)泄露,對國家和社會造成極大危害,同時通過入侵也可發(fā)動分布式拒絕服務攻擊,造成網(wǎng)絡或者服務癱瘓。近年來網(wǎng)絡入侵事件頻繁發(fā)生,對國家信息安全造成了嚴重威脅,因此入侵檢測成為計算機網(wǎng)絡安全研究的重要內(nèi)容。

        網(wǎng)絡入侵檢測系統(tǒng)在過去已經(jīng)得到不斷發(fā)展,許多機器學習已經(jīng)被用于入侵檢測系統(tǒng)中,例如改良的SVM(支持向量機)、KNN(鄰近算法)、等算法,但單獨算法對入侵檢測效果不佳。因此,本文提出集中基于集成學習的算法用于入侵檢測,提高檢測準確率。

        1 相關工作

        入侵檢測這一概念來自于1980 年美國空軍的一份技術報告[1],入侵指對未經(jīng)授權訪問網(wǎng)絡或?qū)τ嬎銠C系統(tǒng)構成了嚴重的威脅,其中包括拒絕服務攻擊、蠕蟲、Fuzzers、后門等。這種未經(jīng)授權的網(wǎng)絡訪問被稱為網(wǎng)絡入侵。

        HUSAIN 等[2]使用UNSW-NB15 數(shù)據(jù)集,提出使用XGBoost 算法構建入侵檢測系統(tǒng),通過與已有的隨機森林、KNN、邏輯回歸算法進行比較,實驗結(jié)果準確率為88%,準確率不夠理想。KUSUMAPUTRI 等[3]使用NSL-KDD 數(shù)據(jù)集,通過特征選擇算法提取有用特征值,使用Optuna 算法對XGBoost 算法進行優(yōu)化,從而構建入侵檢測系統(tǒng),但特征選擇算法沒有明顯減少特征值數(shù)量。KABIR 等[4]使用XGBoost 算法與KNN算法堆疊,使用onehot 編碼對數(shù)據(jù)進行預處理,準確率達到94%。KASONGO 等[5]使用XGBoost 算法作為特征值選擇,用于減少特征值數(shù)量,然后應用DT(決策樹)、ANN(人工神經(jīng)網(wǎng)絡)、LR(邏輯回歸)、KNN和SVM 模型,在這些模型中XGBoost 和KNN 表現(xiàn)最好,準確率約為95%。

        由于單個機器學習模型準確率不理想,本文使用基于DEXL(DT-ET-XGboost-LightGBM)的集成學習算法對入侵檢測系統(tǒng)進行研究。

        2 入侵檢測系統(tǒng)的研究

        2.1 基于Stacking(堆疊模型)的集成學習算法

        基于集成學習算法的入侵檢測工作在安全中心進行,安全中心通過獲取Pacp 文件、解析pacp 文件來獲取特征值。

        網(wǎng)絡架構如圖1 所示。

        圖1 網(wǎng)絡架構

        入侵檢測安全中心的檢測入侵訓練的一般流程如圖2 所示。首先將數(shù)據(jù)集進行預處理,通過對特征值的重要度進行排序,然后使用貝葉斯優(yōu)化算法對各個模塊進行優(yōu)化得到最佳超參數(shù)。得到最佳超參數(shù)后,分別通過DT、ET、XGboost 對流量進行初次分類后,將DT、ET、XGboost 的訓練結(jié)果合并成數(shù)據(jù)集作為輸入,最后利用LightGBM 算法進行最終的分類。

        圖2 安全中心運行流程

        2.2 貝葉斯優(yōu)化理論

        貝葉斯優(yōu)化(Bayesian optimization)是基于歷史驗證的結(jié)果來決定模型下一次迭代超參數(shù),迭代過程遠低于隨機搜索的迭代次數(shù),能保證建模時間短的同時提高測試集上的泛化能力。其主要思想是:構建一個初始模型,根據(jù)后續(xù)結(jié)果來進行模型優(yōu)化。隨著數(shù)據(jù)的積累,優(yōu)化函數(shù)會離目標函數(shù)越來越近,從而得到最優(yōu)解[6]。本文使用Hyperopt 框架對模型進行貝葉斯優(yōu)化。

        基于Hyperopt 框架的貝葉斯優(yōu)化(如圖3 所示)主要過程分為4 部分:①定義目標函數(shù)。以超參數(shù)作為輸入,通過計算返回數(shù)值。②確定搜索空間。給定超參數(shù)的搜索范圍。③選擇搜索算法。用來構建下一次迭代超參數(shù)的方法。④獲取最優(yōu)超參數(shù)。保存尋優(yōu)過程中最優(yōu)的超參數(shù)值。

        圖3 LightGBM 的貝葉斯優(yōu)化

        以LightGBM 模型為例,不同的超參數(shù)的組合會使模型分類結(jié)果產(chǎn)生變化,由于LightGBM 模型超參數(shù)多,對LightGBM 模型超參數(shù)進行優(yōu)化,會使模型的性能產(chǎn)生較大提升。將經(jīng)過預處理的數(shù)據(jù)作為數(shù)據(jù)集輸入模型,通過貝葉斯超參數(shù)優(yōu)化,確定超參數(shù)值,如表1 所示。

        表1 超參數(shù)優(yōu)化結(jié)果

        2.3 基于隨機森林的特征重要度理論

        隨機森林進行特征重要性評估特征值的基本思想是查看隨機森林中的每棵樹有多大貢獻,然后取平均值比較特征之間貢獻度大小。計算重要度的常見方法有2 種,一種是平均不純度的減少(mean decrease impurity),另一種是平均準確率的減少(mean decrease accuracy)。

        2.4 集成學習理論

        集成學習是使用多個機器學習器來完全學習任務,從而獲得比單一的機器學習模型更好的方法,通常包括Bagging、boosting 和Stacking 等方式,集成學習可以用于分類問題集成、異常點檢測集成、回歸問題集成、特征選擇集成等。

        3 實驗方法

        3.1 數(shù)據(jù)集

        本文采用UNSW-NB15 數(shù)據(jù)集,該數(shù)據(jù)由新南威爾士大學網(wǎng)絡實驗室創(chuàng)建,是關于入侵檢測的開源數(shù)據(jù)集。數(shù)據(jù)集中一共有9 種攻擊,共49 個特征值。本文使用其中的部分訓練集和測試集。數(shù)據(jù)集的數(shù)據(jù)量具體如表2 所示。

        表2 數(shù)據(jù)分布情況

        3.2 數(shù)據(jù)集預處理

        UNSW-NB15 包含字符型和數(shù)值特征,因此需要對字符型的特征值進行預處理。數(shù)據(jù)集中特征值proto、service 和state 為字符型特征,由于本文使用的是基于決策樹的算法,無需使用one_hot 編碼,故選擇label-encoding 編碼,能最大程度保留特征值數(shù)量。經(jīng)過標簽編碼,將udp 替換為199,將TCP 替換為113,將none 替換為0,將INT 替換為5,將FIN 替換為4。

        3.3 基于隨機森林的特征重要度選擇

        將經(jīng)過預處理的數(shù)據(jù)集通過特征重要度計算,如表3 所示。分數(shù)越高表示特征值越重要,對模型分類影響越大,后續(xù)通過特征值重要度來選擇特征值數(shù)量,以達到檢測復雜度和準確率最優(yōu)的結(jié)果。

        表3 部分特征重要度排序

        4 實驗結(jié)果

        本文使用準確率作為評價標準,使用五折交叉驗證,準確率取5 折后的平均值,實驗硬件環(huán)境使用intel 至強E3-1230V2,RAM 為16 GB。

        4.1 評價指標

        準確率(Accuary)是最常用、最直觀的評估指標,準確率越高分類效果越高,當入侵發(fā)送時,檢測出的概率越大。

        計算方法如下:

        精準率(Precision)指正常流量總數(shù)與正常流量被分類為正常流量的比值,精準度越高正常流量分類越準確,當入侵檢測運行時,能極大程度上減少誤報。

        精準度公式如下:

        召回率(Recall)表示所有數(shù)據(jù)集中為正常樣本檢測為正常的概率,召回率越高表示模型效果越好。召回率公式如下:

        4.2 實驗分析

        將本文提出的集成學習模型 BO-DEGL 算法與BO-DT、BO-ET、BO-XGBoost 和BO-LightGBM 算法進行比較,經(jīng)過特征值重要度排序后,選取前35 個特征值作為數(shù)據(jù)集。實驗結(jié)果如表4 所示。

        表4 實驗結(jié)果

        實驗結(jié)果顯示,BO-DEXL 模型效果最好,準確率為95.18%,精準度為92.48%,召回率為0.943 0,BO-DEGL 在對比的算法中最高。BO-DT 模型效果最差,準確率為93.81%,精準度為90.12%,召回率為0.929 3。模型BO-DEXL 準確率相比文獻[2]提出的方法提高了7.18%,相比文獻[4]的方法準確率提高了1.18%。

        結(jié)果表明,集成學習模型BO-DEXL 準確率與所比較的機器學習算法準確率具有一定優(yōu)勢,模型的準確率,精準度和召回率得到了提高。

        5 結(jié)論

        本文從網(wǎng)絡入侵檢測模型構建的角度,將DT、ET、XGBoost 和LightGBM 這4 種模型通過使用stacking集成的方式,每個模型都通過貝葉斯優(yōu)化,最終形成BO-DEXL 模型,將BO-DEXL 模型與傳統(tǒng)機器學習進行對比,準確率、精準度和召回率方面都占優(yōu)勢。

        猜你喜歡
        優(yōu)化檢測模型
        一半模型
        超限高層建筑結(jié)構設計與優(yōu)化思考
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        民用建筑防煙排煙設計優(yōu)化探討
        關于優(yōu)化消防安全告知承諾的一些思考
        一道優(yōu)化題的幾何解法
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        99在线精品视频在线观看| 日韩在线中文字幕一区二区三区| 国产女主播福利一区二区| 黄片大全视频在线播放| 高潮迭起av乳颜射后入| 亚洲日本欧美产综合在线| 久久精品网站免费观看| 伊人久久精品亚洲午夜| 乱人伦人妻中文字幕无码| 在线人妻无码一区二区| 久久综合这里只有精品| 天堂av在线美女免费| 亚洲av成人无码网站大全| 产国语一级特黄aa大片| 亚洲一区二区三区免费av| 免费不卡无码av在线观看| 国产成人亚洲精品无码h在线| 91青草久久久久久清纯| 女主播国产专区在线观看| 成品人视频ww入口| 亚洲av成人一区二区三区在线观看| 久久久精品2019免费观看| 亚洲av熟女中文字幕| 国产精品v片在线观看不卡| 国产91网址| 中文字幕一区二区三区四区久久| 午夜视频在线瓜伦| 日韩免费无码一区二区三区| 日本高清不在线一区二区色| 高清国产国产精品三级国产av| 又爽又黄又无遮挡网站| 亚洲欧美另类自拍| 蜜臀一区二区av天堂| 欧洲乱码伦视频免费| 国产精品亚洲成在人线| 蜜桃在线观看免费高清完整版| 自拍偷自拍亚洲精品第按摩| 国产精品沙发午睡系列990531| 欧美深夜福利视频| 亚洲不卡在线免费视频| 久久久久波多野结衣高潮|