亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于近似信息熵和隨機(jī)森林的網(wǎng)絡(luò)安全態(tài)勢要素提取研究

        2022-03-18 07:17:56楊樂王新輝樊龍飛
        關(guān)鍵詞:約簡信息熵態(tài)勢

        ◆楊樂 王新輝 樊龍飛

        基于近似信息熵和隨機(jī)森林的網(wǎng)絡(luò)安全態(tài)勢要素提取研究

        ◆楊樂 王新輝 樊龍飛

        (公安部第一研究所 北京 100048)

        針對態(tài)勢要素提取問題,提出了一種基于近似信息熵改進(jìn)隨機(jī)林的網(wǎng)絡(luò)安全態(tài)勢要素提取方法。首先,屬性的重要性由近似信息熵約簡取得。再使用隨機(jī)森林分類器對處理后的數(shù)據(jù)進(jìn)行分類。最后,為了驗(yàn)證算法的有效性,通過入侵檢測數(shù)據(jù)集測試改進(jìn)隨機(jī)森林算法性能。實(shí)驗(yàn)結(jié)果表明,該算法對比傳統(tǒng)隨機(jī)森林有效地提升了準(zhǔn)確率,提高了網(wǎng)絡(luò)安全態(tài)勢要素提取水準(zhǔn)。

        近似信息熵;隨機(jī)森林;態(tài)勢感知要素

        1 背景

        網(wǎng)絡(luò)安全領(lǐng)域相關(guān)研究在近年來發(fā)展迅猛。隨著互聯(lián)網(wǎng)環(huán)境不斷變化,網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)日趨復(fù)雜,相關(guān)網(wǎng)絡(luò)攻擊也隨之增加。為從整體上把握系統(tǒng)的網(wǎng)絡(luò)安全狀況以應(yīng)對日益復(fù)雜和相對隱蔽的網(wǎng)絡(luò)攻擊,研究網(wǎng)絡(luò)安全態(tài)勢感知成為一個(gè)新的發(fā)展趨勢。網(wǎng)絡(luò)安全態(tài)勢感知是對整個(gè)系統(tǒng)網(wǎng)絡(luò)安全狀態(tài)感知過程,包括態(tài)勢要素的提取、評估和預(yù)測。網(wǎng)絡(luò)安全態(tài)勢感知前提是態(tài)勢要素提取,要素提取過程是態(tài)勢感知的重要組成部分。

        目前,國內(nèi)外對于態(tài)勢要素提取主要有兩個(gè)研究方向[1]:一種基于先驗(yàn)知識的方法、另一種基于數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等技術(shù)分析各行為之間的關(guān)系。BASS[2]在1999年提出了網(wǎng)絡(luò)安全態(tài)勢感知的概念,其通過入侵檢測系統(tǒng)檢測結(jié)果,分析攻擊信息以評估網(wǎng)絡(luò)安全。Poolsappasit[3]提出了使用貝葉斯網(wǎng)絡(luò)對網(wǎng)絡(luò)態(tài)勢評估,該方法在不同級別量化網(wǎng)絡(luò)態(tài)勢要素,給予決策者更多的信息對網(wǎng)絡(luò)態(tài)勢進(jìn)行評估。國內(nèi)主要從入侵檢測的角度研究態(tài)勢因素提取,不僅可以去除態(tài)勢要素中的冗余特征,還可以有效地檢測攻擊行為。孫磊[4]提出了采用LOF算法在少數(shù)類樣本點(diǎn)中提取出空間距離較大的離群樣本點(diǎn),防止由于少數(shù)類別的樣本點(diǎn)中存在離群點(diǎn),使得各類別數(shù)據(jù)達(dá)到相對平衡狀態(tài)。周莉[5]提出了利用決策樹算法建立聯(lián)級網(wǎng)絡(luò)安全態(tài)勢感知模型,利用時(shí)間窗口切分網(wǎng)絡(luò)和主機(jī)流量以提升決策樹分類處理準(zhǔn)確度。

        上述方法需要大量的先驗(yàn)知識提取態(tài)勢感知因素的過程,具有較強(qiáng)的主觀性。該類方法對特定字段有一些效果,但是隨著樣本庫增大,使用基于先驗(yàn)知識分析方法會損失一定的效果。因此,本文提出了一種基于近似信息熵改進(jìn)隨機(jī)森林提取態(tài)勢要素的方法,將近似信息熵引入網(wǎng)絡(luò)安全態(tài)勢要素提取,使用近似信息熵計(jì)算屬性權(quán)重,選擇重要性較高的屬性以刪除冗余屬性,有效地提高了隨機(jī)森林分類精度。

        2 基于近似信息熵改進(jìn)隨機(jī)森林的態(tài)勢要素提取

        態(tài)勢要素提取的主要任務(wù)是在復(fù)雜的異構(gòu)網(wǎng)絡(luò)中準(zhǔn)確地發(fā)現(xiàn)異常行為,其實(shí)質(zhì)是篩選態(tài)勢要素特征集的過程。通過去除冗余屬性和屬性降維,選擇相關(guān)性較高的屬性。在復(fù)雜的異構(gòu)網(wǎng)絡(luò)中,網(wǎng)絡(luò)流量信息具有數(shù)據(jù)量大、屬性類型多樣的特點(diǎn)。因此,對于大規(guī)模的交通信息,降維、冗余和提取關(guān)鍵屬性集已成為入侵檢測的重要過程。有PCA[6](主成分分析),SVD(奇異值分解)和近似信息熵用于屬性約簡。PCA和SVD方法可能會丟失一些關(guān)鍵信息,而近似信息熵方法具有學(xué)習(xí)能力,不需要數(shù)據(jù)集以外的先驗(yàn)知識,且不會改變原始數(shù)據(jù)中的關(guān)鍵決策信息。圖1為近似信息熵的約簡過程。

        圖1 基于近似信息熵約簡的態(tài)勢要素提取

        態(tài)勢要素決策表DT為元組,DT=(U,C,D,V,F(xiàn)),其中U是原始數(shù)據(jù)集;C和D分別為特征屬性和決策屬性集;V是所有屬性;函數(shù)f:U×(C∪D)→V,其中?a∈C∪D、x∈U,f(x,a)∈Va。

        對于決策表DT=(U,C,D,V,f),另U/IND(D)={Y1,Y2,…Ym},任意?B∈C,另U/IND(B)={X1,X2…Xn},定義決策表近似信息熵屬性D的近似值B為:

        2.2 隨機(jī)森林

        隨機(jī)森林是基于決策樹的Baging集成學(xué)習(xí)算法[7]。決策樹是一種應(yīng)用十分廣泛的分類算法。在決策樹停止生長前,樹中的每個(gè)葉子節(jié)點(diǎn)都按照分裂準(zhǔn)則進(jìn)行持續(xù)分類。在構(gòu)造決策樹的過程中,最重要的一步是根據(jù)分割準(zhǔn)則確定最優(yōu)分割特征。常見的決策樹算法有ID3、C4.5和CART決策樹算法。

        隨機(jī)森林相當(dāng)于多個(gè)決策樹的組合。隨機(jī)森林采用bootstrap方法從原始數(shù)據(jù)集中提取相同大小的樣本,形成M個(gè)子數(shù)據(jù)集,然后構(gòu)造相應(yīng)的M決策樹形成決策林,但各決策樹之間沒有相關(guān)性。當(dāng)每個(gè)節(jié)點(diǎn)拆分時(shí),決策樹從所有K個(gè)特征中隨機(jī)抽取一個(gè)特征子集(通常為log2K),隨后從子集中選出最優(yōu)拆分的特征集來構(gòu)建樹。當(dāng)輸入一個(gè)新樣本時(shí),對森林中的決策樹進(jìn)行逐個(gè)判斷,最終的分類結(jié)果由M個(gè)決策樹的輸出決定。與普通決策樹相比,隨機(jī)森林不易陷入過度擬合,并且具有良好的抗噪性、快速的訓(xùn)練速度和處理高維數(shù)據(jù)的能力。

        2.3 基于近似信息熵隨機(jī)森林的態(tài)勢要素提取

        要素之間的重要性和分類作用不同,在使用傳統(tǒng)隨機(jī)森林時(shí)沒有屬性降維和數(shù)據(jù)降噪會對分類結(jié)果產(chǎn)生影響。通過屬性約簡,可以對高維數(shù)據(jù)進(jìn)行降維,從而減少分類訓(xùn)練的數(shù)據(jù)量,同時(shí)保留數(shù)據(jù)中的關(guān)鍵信息并消除數(shù)據(jù)中的噪聲。因此,本文提出了一種隨機(jī)森林使用近似信息熵進(jìn)行屬性約簡的態(tài)勢要素提取方法,結(jié)合近似信息熵和隨機(jī)森林以提高準(zhǔn)確性。

        3 實(shí)驗(yàn)過程與分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        實(shí)驗(yàn)數(shù)據(jù)集采用的是UNSW_NB15數(shù)據(jù)集,數(shù)據(jù)集使用IXIA PerfectStorm工具生成9大攻擊類型,生成兩個(gè)已標(biāo)記數(shù)據(jù)集用于學(xué)習(xí)研究的UNSW_NB15_training-set.csv和UNSW_NB15_testing-set.csv,train和test數(shù)據(jù)集分別有182600和82330條數(shù)據(jù),該數(shù)據(jù)是使用Argus、Bro-IDS及其他生成算法生成的,具有42維特征。

        該實(shí)驗(yàn)使用了Weka,一種廣泛應(yīng)用于數(shù)據(jù)挖掘的開源機(jī)器學(xué)習(xí)工具。本文用CART決策樹構(gòu)造了一個(gè)隨機(jī)森林。UNSW_NB15數(shù)據(jù)集中有大量連續(xù)數(shù)據(jù),需要對數(shù)據(jù)進(jìn)行離散化。計(jì)算離散化數(shù)據(jù)上每個(gè)屬性的信息增益,刪除冗余屬性時(shí),閾值設(shè)置為0.5,數(shù)據(jù)分別導(dǎo)入傳統(tǒng)隨機(jī)森林分類模型和改進(jìn)的隨機(jī)森林分類模型,并對改進(jìn)后的閾值進(jìn)行調(diào)試,選擇最佳閾值。閾值對分類效果的影響如表1所示。

        表1 閾值對分類的影響

        閾值00.250.50.751準(zhǔn)確率0.7170.7640.8910.8300.733錯(cuò)誤率0.2830.2360.1090.2700.267

        從表1中可知,最佳閾值設(shè)置為0.5。經(jīng)過約簡算法的計(jì)算刪去了數(shù)據(jù)集中dur、sttl、dttl、源IP、源端口、目的IP、目的端口等冗余屬性。

        表2顯示了使用傳統(tǒng)隨機(jī)森林分類模型和基于近似信息熵約簡的隨機(jī)森林分類模型對UNSW_NB15數(shù)據(jù)集進(jìn)行分類的比較結(jié)果。

        表2 約簡前后隨機(jī)森林分類準(zhǔn)確率對比

        類型約簡前準(zhǔn)確率(%)約簡后準(zhǔn)確率(%)Normal0.8930.933Analysis0.7920.887Backdoor0.8070.880DoS0.7190.899Exploits0.8800.875Fuzzers0.8110.894Generic0.9180.952Reconnaissance0.8600.944Shellcode0.8360.932Worms0.8910.897

        從實(shí)驗(yàn)中可以看出,UNSW_NB15數(shù)據(jù)集中基于近似信息熵約簡改進(jìn)的隨機(jī)森林算法在分類的準(zhǔn)確性方面優(yōu)于傳統(tǒng)的隨機(jī)森林算法。

        表3展示了在屬性約簡改進(jìn)隨機(jī)森林后與樸素貝葉斯、KNN、SVM分類器檢測NSL-KDD數(shù)據(jù)集的情況。分類結(jié)果對比如表3所示。

        表3 閾值對分類的影響

        分類器樸素貝葉斯KNN隨機(jī)森林改進(jìn)隨機(jī)森林準(zhǔn)確率0.7340.8460.8910.935錯(cuò)誤率0.2660.1540.1090.065

        從表3可以看出,與傳統(tǒng)算法相比,隨機(jī)森林分類器的分類精度最高;近似信息熵屬性約簡改進(jìn)的隨機(jī)森林分類器的精度相比傳統(tǒng)隨機(jī)森林也有所提高。

        綜上所述,基于實(shí)驗(yàn)結(jié)果我們可以得出,本文提出的基于近似信息熵屬性約簡改進(jìn)的隨機(jī)森林算法能夠有效提高準(zhǔn)確率,實(shí)現(xiàn)網(wǎng)絡(luò)安全態(tài)勢要素的高效提取。

        4 結(jié)論

        將近似信息熵與隨機(jī)森林相結(jié)合,提出了一種基于近似信息熵屬性約簡改進(jìn)隨機(jī)森林提取態(tài)勢要素的算法。首先利用近似信息熵屬性約簡對態(tài)勢要素集進(jìn)行降維,刪除冗余態(tài)勢要素,隨后利用隨機(jī)森林對降維后的態(tài)勢要素集進(jìn)行分類訓(xùn)練,提取權(quán)重高的要素,為網(wǎng)絡(luò)安全態(tài)勢評估、預(yù)測提供了關(guān)鍵數(shù)據(jù)集。

        實(shí)驗(yàn)結(jié)果表明,相對于傳統(tǒng)的隨機(jī)森林算法,改進(jìn)后的算法有效地提高了準(zhǔn)確率,提升了網(wǎng)絡(luò)安全態(tài)勢要素提取準(zhǔn)度與精度。

        [1]常鎰恒,馬照瑞,李霞,等.網(wǎng)絡(luò)安全態(tài)勢感知綜述[J].網(wǎng)絡(luò)空間安全,2019,10(12):88-93.

        [2] Bass T,Gruber D. A glimpse into the future of id[J]. login:: the magazine of USENIX & SAGE,1999,24:40-45.

        [3]Poolsappasit,Nayot,Dewri,Rinku,Ray,Indrajit. Dynamic Security Risk Management Using Bayesian Attack Graphs[J]. IEEE Transactions on Dependable and Secure Computing,2012(1).

        [4]孫磊. 基于隨機(jī)森林的工控網(wǎng)絡(luò)安全態(tài)勢要素提取方法研究[D].長春工業(yè)大學(xué),2021.

        [5]周莉,李靜毅.基于決策樹算法的聯(lián)級網(wǎng)絡(luò)安全態(tài)勢感知模型[J].計(jì)算機(jī)仿真,2021,38(05):264-268.

        [6]Ho TK. The random subspace method for constructing decision forests [J]. IEEE transactions on pattern analysis and machine intelligence,1998,20(8):832-44.

        [7]Moustafa N Slay J. UNSW-NB15:a comprehensive data set for network intrusion detection systems(UNSW-NB15 network data set)[C].2015 military communications and information systems conference(MilCIS). IEEE,2015:1-6.

        猜你喜歡
        約簡信息熵態(tài)勢
        基于信息熵可信度的測試點(diǎn)選擇方法研究
        2019年12月與11月相比汽車產(chǎn)銷延續(xù)了增長態(tài)勢
        汽車與安全(2020年1期)2020-05-14 13:27:19
        匯市延續(xù)小幅震蕩態(tài)勢
        中國外匯(2019年19期)2019-11-26 00:57:36
        基于二進(jìn)制鏈表的粗糙集屬性約簡
        我國天然氣供需呈現(xiàn)緊平衡態(tài)勢
        實(shí)值多變量維數(shù)約簡:綜述
        基于信息熵的實(shí)驗(yàn)教學(xué)量化研究
        電子測試(2017年12期)2017-12-18 06:35:48
        基于模糊貼近度的屬性約簡
        一種基于信息熵的雷達(dá)動(dòng)態(tài)自適應(yīng)選擇跟蹤方法
        基于信息熵的IITFN多屬性決策方法
        日韩肥熟妇无码一区二区三区| 精品淑女少妇av久久免费| 正在播放国产对白孕妇作爱| www.91久久| 精品国产av一区二区三区| 一边摸一边抽搐一进一出口述| 999久久久国产精品| 国产91对白在线观看| 亚洲专区一区二区三区四区五区| 久久综合99re88久久爱| 日本一区二区三区四区啪啪啪| 99无码精品二区在线视频| 久久无码av三级| 亚洲成AV人片在一线观看| 国产性色av一区二区| 麻豆免费观看高清完整视频| 国产成人精品三级麻豆| 久久久亚洲精品免费视频| 大量漂亮人妻被中出中文字幕| www射我里面在线观看| 国产夫妻av| 久久精品国产福利亚洲av| 久久99精品久久久大学生| 日韩a无v码在线播放| 亚洲综合伊人制服丝袜美腿 | 亚洲av网一区二区三区| 中国人妻被两个老外三p| 久久国产成人午夜av影院| 国产成a人亚洲精品无码樱花| 久久精品国产亚洲av麻豆会员| www插插插无码视频网站| 无码毛片高潮一级一免费| 国产精品黄色在线观看| 久久久亚洲欧洲日产国码二区| 精品香蕉久久久爽爽| 亚洲色图在线视频免费观看 | 偷拍激情视频一区二区| 亚洲最大中文字幕熟女| 男女性高爱潮免费网站| avtt一区| 男男亚洲av无一区二区三区久久 |