亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        自適應分箱特征選擇的快速網(wǎng)絡入侵檢測系統(tǒng)

        2021-01-29 04:30:46劉景美高源伯
        西安電子科技大學學報 2021年1期
        關鍵詞:特征選擇增益準確率

        劉景美,高源伯

        (西安電子科技大學 綜合業(yè)務網(wǎng)理論及關鍵技術國家重點實驗室,陜西 西安 710071)

        近來年,隨著大數(shù)據(jù)、工業(yè)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等新型技術的發(fā)展,安全威脅和網(wǎng)絡攻擊也隨之增多,網(wǎng)絡安全面臨著新的挑戰(zhàn),安全形勢嚴峻[1]。因此,設計一套能夠準確高效識別各種網(wǎng)絡攻擊的網(wǎng)絡入侵檢測系統(tǒng),已成為現(xiàn)如今亟待解決的一個問題。

        為提高網(wǎng)絡入侵檢測的準確率,研究者們在機器學習、深度學習中探索新的算法并將其應用于此[2-6]。然而,這些算法普遍存在訓練時間和檢測時間較長的問題,針對這一問題,很多研究者利用特征選擇[7-14],將原始高維數(shù)據(jù)降為低維數(shù)據(jù),從而減少訓練和檢測的時間。

        文獻[15]設計了一種基于多目標優(yōu)化與logistic回歸的封裝器,有效提高了準確率,然而,這種算法以logistic回歸模型的預測結果為優(yōu)化目標,每一輪都需要重新訓練模型,算法時間復雜度較高,時間較長。文獻[16]利用基于信息增益的過濾器與深度學習模型設計的入侵檢測系統(tǒng),準確率相對較高,但是,在特征選擇方面,由于入侵檢測數(shù)據(jù)集同時存在連續(xù)型和離散型數(shù)據(jù),且數(shù)據(jù)分布不均勻,采用基于信息增益的過濾器算法運行時間相對較長。針對這一問題,筆者提出了一種基于信息增益的自適應分箱特征選擇算法,對入侵檢測數(shù)據(jù)集中的連續(xù)型數(shù)據(jù)進行自適應分箱處理,從而降低計算復雜度,提高特征選擇階段的效率。

        將提出的自適應分箱特征選擇算法與LightGBM集成學習模型相結合,設計了一種快速網(wǎng)絡入侵檢測系統(tǒng),在保證較高準確率的條件下大大降低了模型訓練和入侵檢測的時間。通過在網(wǎng)絡入侵檢測領域常用數(shù)據(jù)集NSL-KDD上測試,表明文中算法在準確率和訓練時間上均優(yōu)于隨機森林、AdaBoost等現(xiàn)有算法。

        1 基于信息增益的自適應分箱特征選擇

        信息增益是衡量通過得知特征X的信息從而對所要預測類別Y的信息的不確定性減少的程度;通過計算數(shù)據(jù)集中每個特征相對于類別標簽的信息增益,從而得到各特征對預測類別的貢獻程度,之后通過選取信息增益較大的特征生成新的特征子集,達到數(shù)據(jù)降維的目的,進而保證系統(tǒng)在較高準確率的條件下降低訓練和檢測時間。信息增益的計算公式為

        IG(Y|X)=H(Y)-H(Y|X) ,

        (1)

        其中,H(Y)為數(shù)據(jù)集中類別Y的信息熵,對于含有n個類別的數(shù)據(jù)集,Y={y1,y2,…,yn},其計算公式為

        (2)

        其中,P(yi)為在數(shù)據(jù)集的所有類別中yi的出現(xiàn)的概率。H(Y|X)的計算為

        (3)

        其中,m為特征X中的取值個數(shù),P(xj)是特征X為xj的概率,P(yi|xj)是在特征X為xj的條件下類別Y為yi的概率。

        對于傳統(tǒng)的基于信息增益的特征選擇,在計算P(yi|xj)時,要計算特征X取特征值時的條件概率。在入侵檢測系統(tǒng)的數(shù)據(jù)中,同時存在連續(xù)型數(shù)據(jù)和離散型數(shù)據(jù),對于取值較少的離散型數(shù)據(jù)來說,這種計算量并不大,但是對于連續(xù)型數(shù)據(jù)和取值較多的離散型數(shù)據(jù)來說,這無疑是一個巨大的計算開銷。對于一個有m種取值的特征,其時間復雜度為O(m),以NSL-KDD數(shù)據(jù)集為例,該數(shù)據(jù)集中的特征“dst_bytes”共有9 326種取值;如果直接對其進行信息增益的計算,那么計算量是很大的,因此,對該特征不同取值進行分組成為了一個必然趨勢。然而,由于網(wǎng)絡入侵檢測數(shù)據(jù)集中數(shù)據(jù)分布不平衡的特點,如果直接按數(shù)值或樣本個數(shù)來平均分組,那么分組后的特征無法很好地表示原始特征的分布情況。為此,設計了一種基于信息增益的自適應分箱特征選擇算法。

        以含有n個樣本點的特征X為例,該算法過程如下:

        (3)按分箱后的結果將同一箱子中的樣本記為同一特征值,計算各特征的信息增益。

        這種算法與傳統(tǒng)的基于信息增益的特征選擇算法結果相近,但運算效率大大提高。這里的時間復雜度由原來的O(m)降至O(mbox),m為特征取值的數(shù)量,隨訓練集中特征取值的變化而變化;mbox是預先設置的分箱數(shù)量,為常數(shù)。因此,本算法將時間復雜度從傳統(tǒng)算法的線性階降低為常數(shù)階。對于連續(xù)值特征,mbox?m,以分箱數(shù)為20的特征選擇算法為例,對于NSL-KDD數(shù)據(jù)集中的“dst_bytes”特征,時間復雜度從原來的O(9 326)降至為O(20),有效降低了運行時間,提高了程序的效率。

        2 基于自適應分箱特征選擇與LightGBM的快速網(wǎng)絡入侵檢測系統(tǒng)框架

        圖1 入侵檢測系統(tǒng)框架圖

        設計的基于自適應分箱特征選擇與LightGBM的快速網(wǎng)絡入侵檢測系統(tǒng)整體框圖如圖1所示。對于原始訓練集,首先進行數(shù)據(jù)預處理,將原始數(shù)據(jù)集標準化處理并去除無效特征;再通過基于信息增益的自適應分箱特征選擇算法,對原始數(shù)據(jù)集的所有特征按照各特征的信息增益進行排序,選取信息增益較大的n個特征生成維度較低的數(shù)據(jù)子集;之后利用LightGBM集成學習對特征選擇后的訓練集進行訓練,訓練出所需的網(wǎng)絡入侵檢測模型。在系統(tǒng)性能驗證階段,將對測試集按照之前訓練集中相同的預處理和特征選擇方法進行操作;之后通過文中的入侵檢測系統(tǒng)進行檢測;將檢測結果與真實結果相對比,從而計算出本系統(tǒng)檢測的準確率等性能指標,全面評估本系統(tǒng)綜合性能。

        2.1 數(shù)據(jù)預處理

        對于原始數(shù)據(jù)的數(shù)據(jù)預處理,主要采用了零均值標準化和去除無效特征的方法。

        (4)

        在去除無效特征階段,將遍歷所有特征,去除特征值惟一的特征。在NSL-KDD數(shù)據(jù)集中,由于特征“num_outbound_cmds”中所有的特征值均為0,因此該特征無法起到有效預測作用,所以刪除該特征。

        2.2 基于LightGBM的集成學習模型

        LightGBM是一種基于梯度單邊采樣(Gradient-based One-Side Sampling ,GOSS)與互斥特征捆綁(Exclusive Feature Bundling ,EFB)的梯度提升決策樹(Gradient Boosting Decision Tree ,GBDT)模型。針對之前的GBDT模型訓練時間較長,且時間消耗主要在于最佳分割點確定上這一問題,LightGBM在決策樹的特征選擇與分割點確定方面,采用了直方圖算法。這種算法將原來連續(xù)的特征值進行分箱處理,在之后的訓練模型時使用這些分箱結果構建直方圖,大大減少了對分裂點選擇的時間,提高了訓練和檢測的效率[17]。

        為減少每次迭代過程中樣本的數(shù)量,并對預測效果不好的樣本加強訓練,LightGBM引入了GOSS算法。對于經(jīng)過上一輪訓練過后的樣本,計算每個樣本的梯度。每個樣本的梯度可以表示該樣本預測的錯誤程度。為此,通過GOSS算法保留所有梯度較大的實例,對于梯度較小的實例則采取按照一定比例隨機采樣的策略。

        在計算每個樣本的梯度方面,設O為決策樹中某個固定節(jié)點上的訓練數(shù)據(jù)集。定義該節(jié)點在點d處分割特征j的方差增益為

        (5)

        (6)

        其中,Al={xi∈A:Xij≤d},Ar={xi∈A:Xij>d},Bl={xi∈B:Xij≤d},Br={xi∈B:Xij>d}。

        在網(wǎng)絡入侵檢測領域,通常情況下數(shù)據(jù)集是相對稀疏的,因此有些特征會存在互斥特性,即不同時取非零的情況。針對這一情況,LightGBM還引入了EFB對數(shù)據(jù)中的互斥特征進行捆綁,從而進一步降低模型的計算復雜度。通過EFB可以將多個特征捆綁為一個束bundle,這樣就將計算復雜度從原來的O(#data×#feature)降為O(#data×#bundle),從而進一步降低模型在訓練和檢測階段的時間復雜度,提高運行效率。

        3 實驗仿真結果與分析

        本實驗操作系統(tǒng)環(huán)境為Windows 10,電腦硬件cup為i7-5 500 U,8 GB內(nèi)存,在Python 3.7軟件環(huán)境中編程實現(xiàn)。設置了特征選擇的結果比較實驗和整體系統(tǒng)模型的性能比較實驗。

        3.1 數(shù)據(jù)集介紹與分析

        為有效驗證網(wǎng)絡入侵檢測系統(tǒng)的性能,采用網(wǎng)絡入侵檢測系統(tǒng)領域常用的數(shù)據(jù)集NSL-KDD[18]。NSL-KDD數(shù)據(jù)集分為訓練集和測試集,訓練集共包括125 973條有效數(shù)據(jù),測試集共包括22 544條有效數(shù)據(jù)。由于本數(shù)據(jù)集在不同類別樣本之間的數(shù)量存在不平衡現(xiàn)象,在訓練集中對部分少數(shù)類別攻擊樣本進行了隨機過采樣;之后,隨機選取訓練集中的90%作為訓練數(shù)據(jù),10%的數(shù)據(jù)作為驗證數(shù)據(jù)從而訓練模型。最后通過在測試集的檢測結果驗證本系統(tǒng)的性能。

        在特征方面,NSL-KDD數(shù)據(jù)集中共包括41維特征和1維結果標簽,在41維特征中,僅7維特征是離散型數(shù)據(jù),其他34維特征均為連續(xù)型數(shù)據(jù),該數(shù)據(jù)集數(shù)據(jù)數(shù)值的分布特點符合大多數(shù)網(wǎng)絡入侵檢測領域數(shù)據(jù)的特點,因此,如果直接對數(shù)據(jù)集進行基于信息增益的特征選擇,則時間復雜度將會很大,嚴重影響了程序運行效率;而使用文中提出的基于信息增益的自適應分箱特征選擇,時間復雜度將大大降低,在保證達到所需特征選擇需求的條件下,有效提高程序的運行效率。

        3.2 特征選擇的結果比較實驗

        在特征選擇性能比較實驗方面,首先對提出的特征選擇算法與傳統(tǒng)基于信息增益特征選擇算法進行對比,在NSL-KDD的訓練集上進行實驗。利用傳統(tǒng)的基于信息增益的特征選擇算法與分箱數(shù)量設置為20的文中算法,在NSL-KDD的訓練集上信息增益排名前8的特征及結果如表1所示。結果表明,在信息增益排名前8的特征中,雖然有個別幾個特征的順序不是完全一致,但在排名前8的特征中,所選擇的體征種類完全相同,僅存在部分信息增益差距較小的特征出現(xiàn)順序不一致的現(xiàn)象。這種信息增益大體一致的結果,能夠滿足選擇特征的需求。在運行時間方面,基于信息增益的特征選擇運行時間為824.43 s,而筆者提出的基于信息增益的自適應分箱特征選擇算法僅用時27.35 s,相比于傳統(tǒng)的特征選擇算法,所用時間減少了約96.68%,大大提高了程序的效率。

        表1 兩種特征選擇算法結果比較

        3.3 入侵檢測系統(tǒng)性能比較實驗

        對于網(wǎng)絡入侵檢測系統(tǒng)方面的比較實驗,首先對基于自適應分箱特征選擇算法與LightGBM的入侵檢測系統(tǒng)進行仿真實驗。在設計的基于特征選擇與LightGBM的網(wǎng)絡入侵檢測系統(tǒng)中,首先需要確定特征選擇的數(shù)量。由基于自適應分箱特征選擇算法計算的信息增益排名結果可以看出,前3個特征的信息增益均在0.28以上,遠高于其他特征,且前8個特征的信息增益均大于0.1。為此,將主要研究選取前3個特征和前8個特征的特征子集。為全面研究不同特征的預測結果,并驗證選取3個特征和8個特征的準確率情況,在利用自適應分箱算法計算的信息增益的排序結果中,按照排序順序依次選取不同數(shù)量的特征進行實驗。不同的特征選擇在LightGBM分類器下的準確率如圖2所示。由圖可知,當選擇特征數(shù)量大于3時,在驗證集的準確率已經(jīng)很高且趨于平穩(wěn)。在測試集中,選用3個特征時準確率也相對較高;在選擇特征數(shù)量為8時,驗證集中已經(jīng)處于較高的平穩(wěn)水平,在訓練集中準確率也相對較高??梢钥闯?,選用3個特征和8個特征兩種情況性能表現(xiàn)相對較好。

        為進一步研究不同迭代次數(shù)時,選取的3個特征和8個特征的數(shù)據(jù)子集與原始數(shù)據(jù)集的性能情況,分別在驗證集和測試集中對文中算法進行仿真驗證。在驗證集和訓練集中,不同迭代數(shù)量的準確率結果分別如圖3和圖4所示。由圖3可知,迭代次數(shù)在100到200之間,在驗證集中的準確率大幅提升,當?shù)螖?shù)大于200時,3種情況的準確率均提升緩慢,特別是當?shù)螖?shù)大于500時,準確率曲線趨于平穩(wěn)。為保證系統(tǒng)能夠在保證較高準確率的條件下實現(xiàn)快速網(wǎng)絡入侵檢測,選取迭代次數(shù)為650。3種情況的詳細性能比較如表2所示。

        圖2 不同特征準確率折線圖

        表2 不同特征性能對照表

        在圖3的驗證集中,雖然原始數(shù)據(jù)集的準確率始終保持高于其他兩種情況,但是在圖4的測試集中,通過特征選擇的3特征數(shù)據(jù)子集準確率整體高于其他兩種情況,這與3個特征集中的特征有關。原始數(shù)據(jù)集存在大量的冗余和噪聲,在驗證集中,通過多次迭代優(yōu)化,會引導模型趨于有效區(qū)分驗證集中攻擊和正常樣本的方向訓練。然而,此時所選取特征和特征值的劃分點很有可能只滿足驗證集的數(shù)據(jù)分布特點而不滿足整體數(shù)據(jù)集,這將導致模型過擬合;雖然在驗證集上的準確率很高,但泛化能力不強。而選用的3特征數(shù)據(jù)子集,三個特征的信息增益遠高于其他特征。這三個特征與類別標簽的相關性較強,能夠為檢測類別提供可靠依據(jù),以及為入侵檢測系統(tǒng)有效區(qū)分攻擊和正常流量提供可靠保證。

        圖3 驗證集準確率迭代曲線圖

        通過表2中對三種情況的詳細性能指標對比,選用3種特征的數(shù)據(jù)子集在準確率和F1(精確率和召回率的調(diào)和函數(shù))值這兩個核心指標上均優(yōu)于其他兩種情況。特別是在訓練和檢測時間上,選用3種特征的數(shù)據(jù)子集的訓練時間僅約為原始數(shù)據(jù)集時間的一半,大大提高了模型訓練效率,且測試時間也均少于其他兩種情況,縮短了模型訓練和入侵檢測的時間。

        為進一步評估文中設計的網(wǎng)絡入侵檢測系統(tǒng)的綜合性能,還設置了多種預測模型的綜合對比實驗。引入了現(xiàn)有網(wǎng)絡入侵檢測的主流算法K近鄰(K-Nearest Neighbor,KNN)、決策樹(Decision Tree ,DT)、Adaboost、隨機森林(Random Forest ,RF)、支持向量機(Support Vector Machine ,SVM)、GBDT和XGBoost。將上一組實驗中表現(xiàn)性能最好的選用3個特征的LightGBM模型與這些算法進行詳細的對比分析,各算法詳細的性能表現(xiàn)如表3所示。

        表3 不同入侵檢測模型性能對比表

        對于網(wǎng)絡入侵檢測系統(tǒng)來說,準確率和F1值是評判系統(tǒng)整體性能優(yōu)劣的主要標準。在這兩個指標的比較中,筆者提出的基于特征選擇與LightGBM的入侵檢測系統(tǒng)均優(yōu)于其他算法。在精確率方面,KNN和DT兩個算法相對較高,但是其召回率較低,如果將其應用于實際網(wǎng)絡入侵檢測環(huán)境中,將會對網(wǎng)絡系統(tǒng)造成很大的損失。在訓練時間方面,筆者設計的入侵檢測系統(tǒng)的訓練時間均小于除KNN外的其他算法(KNN無需學習新的模型),能夠?qū)崿F(xiàn)模型的快速訓練。對于利用多種單一模型的集成學習來說,在提高準確率的同時會延長模型訓練和檢測時間。Adaboost和隨機森林雖然在準確率方面較單一模型有所提高,但是其訓練時間過長。對于SVM來說,由于其計算的復雜度較高,雖然準確率相對較高,但是其訓練和檢測時間過長,難以部署在實際場景中。通過以上性能對比分析,無論是在檢測的準確率還是模型的訓練時間方面,文中所述算法整體性能優(yōu)于其他現(xiàn)有算法。

        4 結束語

        與傳統(tǒng)基于信息增益的特征選擇算法相比,筆者提出的基于信息增益的自適應分箱特征選擇算法在保證結果與之前算法相近的條件下,大大降低了時間復雜度,速度更快。在NSL-KDD訓練集的實驗中,與傳統(tǒng)算法相比,本算法時間縮短了約96.68%。筆者設計的基于自適應分箱特征選擇與LightGBM的快速網(wǎng)絡入侵檢測系統(tǒng),準確率更高且模型訓練速度相對較快。通過在NSL-KDD數(shù)據(jù)集上的實驗結果可知,該系統(tǒng)的準確率高達93.32%,且訓練時間僅為10.33 s,對于22 544條的測試集樣本,檢測時間僅0.88 s,可用于網(wǎng)絡入侵檢測場景。未來,將進一步探索入侵檢測領域各特征之間的潛在關系,研究更好的降維方式,在較快速度的同時,進一步提高入侵檢測系統(tǒng)的準確率。

        猜你喜歡
        特征選擇增益準確率
        基于增益調(diào)度與光滑切換的傾轉旋翼機最優(yōu)控制
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
        2015—2017 年寧夏各天氣預報參考產(chǎn)品質(zhì)量檢驗分析
        基于單片機的程控增益放大器設計
        電子制作(2019年19期)2019-11-23 08:41:36
        基于Multisim10和AD603的程控增益放大器仿真研究
        電子制作(2018年19期)2018-11-14 02:37:02
        高速公路車牌識別標識站準確率驗證法
        Kmeans 應用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        聯(lián)合互信息水下目標特征選擇算法
        基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
        国产精品白浆视频一区| 国产喷水1区2区3区咪咪爱av| 人妻系列无码专区久久五月天 | 亚洲中文字幕无码久久2018| 美女被插到高潮嗷嗷叫| 久久精品国产亚洲av蜜点| 97在线观看播放| 亚洲依依成人综合在线网址| 中文字幕日本女优在线观看| av在线免费观看大全| 午夜理论片yy44880影院| 狠狠噜天天噜日日噜| 久久久亚洲精品免费视频| 亚洲国产综合在线亚洲区亚洲av| 国产午夜毛片v一区二区三区| 亚洲香蕉成人AV网站在线观看| 国产美女胸大一区二区三区| 国产一区二区黄色的网站| 亚洲熟妇少妇任你躁在线观看无码| 午夜AV地址发布| 91亚洲最新国语中文字幕| 亚洲悠悠色综合中文字幕| 少妇无码av无码一区| 日韩欧美第一页| 加勒比久草免费在线观看| 亚洲av免费手机在线观看 | 亚洲老妇色熟女老太| 99re国产电影精品| 亚洲中文字幕第15页| 精品国产av色一区二区深夜久久| 亚洲欧美日韩中文天堂| 中文字幕人妻少妇久久| 精品国产亚洲亚洲国产 | 欧美国产小视频| 日本高清一区二区三区色| 狠狠cao日日橹夜夜十橹| 中文字幕一区二区三区精彩视频| 精品国产午夜久久久久九九| 一区二区三区蜜桃av| 国产精品狼人久久久久影院 | 人禽伦免费交视频播放|