亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度提升網(wǎng)絡(luò)的入侵檢測(cè)技術(shù)研究

        2022-12-12 12:14:58張如雪繆祥華
        化工自動(dòng)化及儀表 2022年6期
        關(guān)鍵詞:分類模型

        張如雪 繆祥華,b

        (昆明理工大學(xué)a.信息工程與自動(dòng)化學(xué)院;b.云南省計(jì)算機(jī)技術(shù)應(yīng)用重點(diǎn)實(shí)驗(yàn)室)

        基于已知攻擊特征的傳統(tǒng)靜態(tài)安全方法在網(wǎng)絡(luò)入侵檢測(cè)中已經(jīng)取得了不錯(cuò)的效果,但是傳統(tǒng)靜態(tài)方法不能有效防御新的攻擊, 如0day攻擊、后門攻擊及高級(jí)持續(xù)威脅(APT)等,這些攻擊者可以發(fā)動(dòng)有針對(duì)性的持久滲透攻擊,表現(xiàn)出較強(qiáng)的隱蔽性,潛伏期特別長(zhǎng)。 針對(duì)這些新的攻擊需要研究新方法來應(yīng)對(duì)[1,2]。

        Logit、KNN、SVM、神經(jīng)網(wǎng)絡(luò)、決策樹及隨機(jī)森林[3]等機(jī)器學(xué)習(xí)模型被廣泛應(yīng)用于入侵檢測(cè)研究,并取得了較好的效果[4]。 2014年,張陽和姚原崗提出的XGBoost算法具有效果好、 速度快及能處理大規(guī)模數(shù)據(jù)等特點(diǎn)[5]。 但是基于單個(gè)學(xué)習(xí)器只能學(xué)習(xí)到一個(gè)假設(shè), 存在泛化能力不強(qiáng)的問題。因此,筆者采用XGBoost和GBDT[6]構(gòu)成集成學(xué)習(xí)模型,以期多個(gè)假設(shè)在同一個(gè)訓(xùn)練集上達(dá)到較高的性能。

        1 相關(guān)理論

        1.1 自動(dòng)編碼器

        自動(dòng)編碼器(AutoEncoder,AE)是一種無監(jiān)督神經(jīng)網(wǎng)絡(luò)模型[7],它可以學(xué)習(xí)到輸入數(shù)據(jù)的隱含特征, 使用Encoder對(duì)輸入進(jìn)行編碼, 并使用Decoder對(duì)輸出進(jìn)行解碼,如圖1所示。 AE可以提取到更有效的特征,比傳統(tǒng)降維方法主成分分析(Principal Components Analysis,PCA) 效果更好,除了降低函數(shù)的維數(shù)外,提取的特征還可以整合到一個(gè)有監(jiān)督的學(xué)習(xí)模型中,這表明自動(dòng)編碼器可以在特征提取中發(fā)揮作用。

        圖1 自動(dòng)編碼器的基本結(jié)構(gòu)

        AE對(duì)輸入X進(jìn)行編碼以獲得一個(gè)新的函數(shù)Y,并希望新的函數(shù)Y可以重建初始的輸入X。 編碼過程如下:

        其中,W表示權(quán)重,b表示參數(shù)。

        解碼過程為:

        其中,X′表示輸出,W′表示權(quán)重,b′表示參數(shù)。

        希望X′被重新構(gòu)建后能盡可能與原來一致,還可以使用損失函數(shù)L來訓(xùn)練模型:

        通常會(huì)對(duì)自動(dòng)編碼器的使用增加一些限制,最常見的方法是使W′=WT,即所謂的“綁定權(quán)重”,這一限制同樣適用于本研究中的自動(dòng)編碼器。

        1.2 梯度提升決策樹

        梯度提升決策樹 (Gradient Boost Decision Tree,GBDT)是一種循環(huán)重復(fù)的決策樹算法,由許多決策樹構(gòu)成,所有樹的結(jié)論聚合而成得到最終答案。 GBDT經(jīng)過幾個(gè)循環(huán),會(huì)得到若干個(gè)弱分類器,由若干個(gè)弱分類器構(gòu)成最終的分類器。

        GBDT分類算法主要應(yīng)用了以下公式:

        其中,f(x)為預(yù)測(cè)結(jié)果;y為實(shí)際結(jié)果,y∈{-1,1};ft-1(x)表示前t-1個(gè)基學(xué)習(xí)器的輸出結(jié)果,yi為第i個(gè)實(shí)際結(jié)果;xi為第i個(gè)輸入。

        對(duì)于最終的決策樹,每個(gè)葉子節(jié)點(diǎn)的最佳負(fù)梯度Ctj的計(jì)算式為:

        其中,Rtj為輸入集合;tj為葉子結(jié)點(diǎn)。

        1.3 極限梯度提升決策樹

        極限梯度提升決策樹(eXtreme Gradient Boosting,XGBoost)是一種Boosting算法,它將許多弱分類器整合在一起,形成一個(gè)強(qiáng)大的分類器。

        XGBoost是一個(gè)加法模型,它包含了k個(gè)基學(xué)習(xí)器,循環(huán)重復(fù)第t次迭代的樹模型是ft(x),則第t次重復(fù)訓(xùn)練后樣本i的預(yù)測(cè)結(jié)果y^i(t)的計(jì)算式為:

        其中,y^i(t-1)表示前t-1棵樹的預(yù)測(cè)結(jié)果;ft(xi)表示第t棵樹的模型。

        XGBoost的損失函數(shù)可由預(yù)測(cè)值y^i和真實(shí)值yi表示:其中,n為樣本數(shù)量。

        2 深度提升網(wǎng)絡(luò)模型

        2.1 集成學(xué)習(xí)

        集成方法是一種元算法,把不同的機(jī)器學(xué)習(xí)算法組合到一個(gè)預(yù)測(cè)模型中, 能減小系統(tǒng)方差、系統(tǒng)誤差或提高系統(tǒng)預(yù)測(cè)精度,其特點(diǎn)如下:

        a. 將多種相同或不同的分類方法相結(jié)合,以提高分類精度;

        b. 集成學(xué)習(xí)方法是從訓(xùn)練數(shù)據(jù)中構(gòu)建一組基分類器,然后將預(yù)測(cè)數(shù)據(jù)應(yīng)用到每個(gè)基分類器進(jìn)行分類;

        c. 集成學(xué)習(xí)不是一種分類,而是一種將分類器結(jié)合的方法。

        2.2 深度提升網(wǎng)絡(luò)

        深度提升網(wǎng)絡(luò)(Deep Boosting Network,DBN)擁有基于梯度增量策略中仍然存在的關(guān)鍵決策的深度耦合結(jié)構(gòu)[8~10]。 以XGBoost和GBDT為基學(xué)習(xí)器創(chuàng)建深度提升網(wǎng)絡(luò), 在第1層輸入中對(duì)特征向量進(jìn)行整合和改進(jìn),從第2層開始,每層接收來自前一層處理后的數(shù)據(jù),允許進(jìn)一步改進(jìn),并將結(jié)果傳遞到下一層,以此類推,流程如圖2所示。為了減少過度擬合風(fēng)險(xiǎn),每次創(chuàng)建一個(gè)新的隱含層, 都計(jì)算出當(dāng)前類輸出的預(yù)測(cè)精度C和每個(gè)基學(xué)習(xí)器輸出的準(zhǔn)確預(yù)測(cè)矩陣的收斂性η。 將η與自適應(yīng)因子α(α是學(xué)習(xí)結(jié)果變化的參數(shù))做比較,如果有η<α或者當(dāng)前平均準(zhǔn)確率低于前一級(jí)別的平均準(zhǔn)確率,則訓(xùn)練結(jié)束。

        圖2 深度提升網(wǎng)絡(luò)流程

        設(shè)N為樣本數(shù)量,H是基學(xué)習(xí)器在隱含層的數(shù)量, 第i層的第r個(gè)基學(xué)習(xí)器的輸出和預(yù)測(cè)精度分別為Air和Ci,則收斂性η和當(dāng)前層預(yù)測(cè)精度Ci的計(jì)算式為:

        2.3 相對(duì)多數(shù)投票策略

        由于本研究將GBDT和XGBoost基學(xué)習(xí)器整合應(yīng)用到集成學(xué)習(xí)中,這些基學(xué)習(xí)器都會(huì)有自己的結(jié)果,那么輸出層的結(jié)果就必須通過對(duì)這些結(jié)果進(jìn)行投票得出。 本研究選擇的是相對(duì)多數(shù)投票策略,該策略的思想是少數(shù)服從多數(shù),只要基學(xué)習(xí)器中有某一個(gè)結(jié)果所占比例與其他結(jié)果相比是多的,那么就選擇該結(jié)果。

        2.4 算法流程

        2.4.1 自動(dòng)編碼器降維算法

        為了滿足深度提升網(wǎng)絡(luò)中一個(gè)輸入向量維數(shù)的要求,AE網(wǎng)絡(luò)的隱含層神經(jīng)元數(shù)m=n×n。 為了最大限度地保留數(shù)據(jù)中的信息,m可以被賦值為64、81、100及121等。 當(dāng)m=64時(shí),自動(dòng)編碼器的結(jié)構(gòu)模型如圖3所示。

        圖3 自動(dòng)編碼器的結(jié)構(gòu)模型

        為評(píng)價(jià)AE網(wǎng)絡(luò)的降維效果,引入重構(gòu)誤差的概念。 重構(gòu)誤差是特征重構(gòu)的輸出值和輸入值降維后得到的誤差。 在AE網(wǎng)絡(luò)降維中,需確定降維后的數(shù)據(jù)能否很好地恢復(fù)到原始輸入數(shù)據(jù),重構(gòu)誤差用均方誤差MSE表示:

        其中,p表示輸入變量,p′表示輸出變量。

        為了優(yōu)化自動(dòng)編碼器網(wǎng)絡(luò)的結(jié)構(gòu), 通過調(diào)整GBDT和XGBoost模型個(gè)數(shù)、優(yōu)化函數(shù)等參數(shù),觀察自動(dòng)編碼器網(wǎng)絡(luò)在迭代過程中重構(gòu)誤差的變化,最后確定自動(dòng)編碼器網(wǎng)絡(luò)的最優(yōu)結(jié)構(gòu)。 在不同維度下, 利用自動(dòng)編碼器結(jié)構(gòu)重構(gòu)誤差的結(jié)果如圖4所示。

        圖4 利用自動(dòng)編碼器結(jié)構(gòu)重構(gòu)誤差

        自動(dòng)編碼器的結(jié)構(gòu)確定后,通過輸入預(yù)處理后的數(shù)據(jù),計(jì)算出網(wǎng)絡(luò)的重構(gòu)誤差。 通過BP算法調(diào)整網(wǎng)絡(luò)參數(shù),最終通過隱含層獲得降維數(shù)據(jù)。

        精準(zhǔn)醫(yī)療是針對(duì)于患者醫(yī)療保健和健康的個(gè)性化醫(yī)學(xué)模式,它通過醫(yī)生的醫(yī)療決策和實(shí)踐制定出適合不同疾病人群的治療方案。隨著對(duì)CRSwNP的發(fā)病機(jī)制的不斷深入了解,精準(zhǔn)醫(yī)療分析整合疾病的診斷和治療并能制定出最優(yōu)化的治療方案[28]。而實(shí)現(xiàn)精準(zhǔn)醫(yī)療的基礎(chǔ)必須具備的要素有:患者參與治療方案的決定;預(yù)判初始治療的成功率;防治疾病進(jìn)展的有效策略和疾病內(nèi)在型為驅(qū)動(dòng)的個(gè)性化治療[29]。為了實(shí)現(xiàn)疾病內(nèi)在型為驅(qū)動(dòng)的治療目的,必須對(duì)疾病的內(nèi)在型有著充分且標(biāo)準(zhǔn)化的認(rèn)識(shí),而且能夠洞察用于評(píng)估或預(yù)測(cè)療效、指導(dǎo)完善臨床策略的生物標(biāo)記物[10]。

        2.4.2 深度提升網(wǎng)絡(luò)算法

        深度提升網(wǎng)絡(luò)的結(jié)構(gòu)如圖5所示。

        圖5 深度提升網(wǎng)絡(luò)結(jié)構(gòu)框圖

        深度提升網(wǎng)絡(luò)的算法步驟如下:

        a. x0、x1、 …、xm分別代表GBDT和XGBoost模型,對(duì)其輸入訓(xùn)練集形成m個(gè)基學(xué)習(xí)器(前一個(gè)的輸出是下一個(gè)的輸入);

        b. 輸入測(cè)試集,m個(gè)基學(xué)習(xí)器分別得出m個(gè)預(yù)測(cè)結(jié)果;

        c. 對(duì)步驟b中的m個(gè)預(yù)測(cè)結(jié)果使用投票策略,得出綜合預(yù)測(cè)結(jié)果。

        深度提升網(wǎng)絡(luò)在第1層輸入中對(duì)特征向量進(jìn)行整合和改進(jìn);從第2層開始,每層接收來自前一層處理后的數(shù)據(jù),允許進(jìn)一步進(jìn)行改進(jìn),并將結(jié)果傳遞到下一層,以此類推。

        3 實(shí)驗(yàn)分析

        3.1 實(shí)驗(yàn)環(huán)境

        實(shí)驗(yàn)所用的主機(jī)處理器為Intel(R)Core(TM)i5-7200U CPU@2.50 GHz,內(nèi)存16 GB,操作系統(tǒng)Win10專業(yè)版,在Pycharm環(huán)境下使用pytorch框架完成仿真實(shí)驗(yàn)。

        3.2 評(píng)價(jià)指標(biāo)

        分類問題常用的評(píng)價(jià)指標(biāo)是精確率和召回率。 正常類被標(biāo)記為正類,所有攻擊類被標(biāo)記為負(fù)類。 分類器對(duì)數(shù)據(jù)集的預(yù)測(cè)是正確的還是錯(cuò)誤的,結(jié)果存在4種情況:

        a. TP(True Positive),把正類預(yù)測(cè)為正類;

        b. FP(False Positive),把負(fù)類預(yù)測(cè)為正類;

        c. TN(True Negative),把負(fù)類預(yù)測(cè)為負(fù)類;

        d. FN(False Negative),把正類預(yù)測(cè)為負(fù)類。

        評(píng)價(jià)指標(biāo)的計(jì)算式如下:

        F1分?jǐn)?shù)為精確率和召回率的調(diào)和平均,即有:

        3.3 實(shí)驗(yàn)數(shù)據(jù)

        CICIDS2017是一種入侵檢測(cè)數(shù)據(jù)集,由加拿大網(wǎng)絡(luò)安全研究所收集,包含良性攻擊網(wǎng)絡(luò)流和7 種公開可用的常見攻擊類型。 它包括使用CICFlowMeter的網(wǎng)絡(luò)流量分析結(jié)果, 使用基于時(shí)間戳、源和目的IP地址、源和目的端口、協(xié)議和攻擊(CSV文件)的標(biāo)記流。因此,CICIDS2017數(shù)據(jù)集更具代表性[6]。

        CICIDS2017數(shù)據(jù)集中共有15種類別的數(shù)據(jù),其中包含1種正常類別和14種攻擊,詳見表1。

        表1 數(shù)據(jù)集類別和數(shù)目

        3.4 結(jié)果分析

        為了提高模型的準(zhǔn)確性,加快模型的收斂速度,對(duì)所創(chuàng)建的數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理,具體步驟如下:

        a. 檢測(cè)數(shù)據(jù)集中的空值。因?yàn)楸狙芯恐械囊恍┧惴▽?duì)缺失的值很敏感,所以將數(shù)據(jù)集中元素列的平均值替換為空值。

        b. 將處理后的數(shù)據(jù)集分為兩部分, 分別為80%的訓(xùn)練集和20%的測(cè)試集, 其中正常流量和攻擊流量在數(shù)據(jù)集和測(cè)試集中的占比見表2、3。

        表2 訓(xùn)練集占比情況

        c. 對(duì)多分類標(biāo)簽進(jìn)行one-hot編碼。

        d. 為了消除不同特征尺度對(duì)模型精度的影響,對(duì)數(shù)據(jù)集的特征進(jìn)行正則化處理。

        表3 測(cè)試集占比情況

        本研究的模型在分類過程中設(shè)置GBDT和XGBoost的總數(shù)目后的損失值如圖6所示。

        圖6 GBDT和XGBoost的總數(shù)目對(duì)損失值的影響

        為了證明GBDT-XGBoost模型在相同實(shí)驗(yàn)環(huán)境下與其他模型相比的優(yōu)越性, 選擇KNN、DT、RF、GBDT和確定結(jié)果較好的XGBoost進(jìn)行比較,檢測(cè)結(jié)果見表4、5。

        表4 二分類任務(wù)下模型的對(duì)比結(jié)果

        表5 多分類任務(wù)下模型的對(duì)比結(jié)果

        從表4、5可以看出,KNN在二分類和多分類任務(wù)下的分類效果較弱,DT其次,RF、單獨(dú)GBDT和單獨(dú)XGBoost在精確率和F1分?jǐn)?shù)的結(jié)果上不相上下, 但在召回率上有出入。 筆者提出的GBDTXGBoost模型在所有3個(gè)指標(biāo)上,無論是二分類還是多分類,都高于其他模型,證實(shí)該模型分類的整體效果優(yōu)于其他算法。

        4 結(jié)束語

        筆者提出基于GBDT-XGBoost的網(wǎng)絡(luò)入侵檢測(cè)算法, 獲得了入侵檢測(cè)的強(qiáng)分類器。 與傳統(tǒng)KNN、DT、RF、GBDT、XGBoost算法對(duì)比的結(jié)果可知,GBDT-XGBoost算法在精確率、 召回率和F1分?jǐn)?shù)上都有所提升。 但該方法對(duì)于未知攻擊的檢測(cè)還存在精確率不高的問題, 下一步計(jì)劃改進(jìn)該方法,提高該方法在未知攻擊檢測(cè)方面的精確率。

        猜你喜歡
        分類模型
        一半模型
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        国产欧美久久久精品影院| 内射干少妇亚洲69xxx| 免费无码av一区二区三区| 国产精品成人99一区无码| 亚洲av不卡电影在线网址最新| 国产精品高清亚洲精品| 丝袜美腿视频一区二区| 日本亚洲欧美色视频在线播放| 国产欧美日韩视频一区二区三区| 高潮社区51视频在线观看| 精品久久一品二品三品| 国产做无码视频在线观看| 中文字幕人妻丝袜美腿乱| 啊v在线视频| 国产乱淫h侵犯在线观看| 奇米影视7777久久精品| 好男人视频在线视频| 超高清丝袜美腿视频在线| 日本一区二区三区区视频| 色一情一乱一伦| 国产在视频线精品视频www666| 中文字幕亚洲区第一页| 日韩中文字幕素人水野一区| 日韩中文字幕免费视频| 欧美在线不卡视频| 男女啪啪免费视频网址| 人妻少妇中文字幕在线| 永久免费av无码入口国语片| 久久精品一品道久久精品9 | av有码在线一区二区三区| 免费观看91色国产熟女| 国产精品人妻一码二码尿失禁| 日本一区二区啪啪视频| 青草草视频在线观看华人免费| 99久久99久久精品免费看蜜桃 | 中文字幕av一区二区三区人妻少妇 | 日本大片在线看黄a∨免费| 国产精品国产自线拍免费| 国产精品毛片极品久久| 欧美人做人爱a全程免费| 欧洲在线一区|