亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向電力客戶側(cè)終端網(wǎng)絡(luò)的高效入侵檢測模型研究

        2022-05-06 12:29:40任志航
        電測與儀表 2022年5期
        關(guān)鍵詞:特征選擇編碼終端

        任志航

        (許繼集團有限公司,河南 許昌 461000)

        0 引 言

        當前電力通信系統(tǒng)中的安全威脅逐漸增多[1-2],特別是客戶側(cè)終端等信息化設(shè)備具有運營成本高、數(shù)據(jù)價值大、社會影響廣等特點,未來可能成為網(wǎng)絡(luò)攻擊的重要目標。

        客戶側(cè)終端負責將計量設(shè)備、充電樁、光伏設(shè)備等產(chǎn)生的業(yè)務(wù)數(shù)據(jù)上傳到主站,以及將主站控制信息下發(fā)。未來,客戶側(cè)終端將承擔“感知數(shù)據(jù)總?cè)肟?,控制指令總出口”的任?wù),并逐步具備“全接入、全采集、全控制”的能力??蛻魝?cè)終端一旦遭到攻擊,可能會造成嚴重的經(jīng)濟損失和社會不良影響。

        然而,當前針對客戶側(cè)終端網(wǎng)絡(luò)場景的入侵檢測研究相對較少,特別是缺少針對該場景下檢測效率的研究。例如:文獻[3]采用多網(wǎng)絡(luò)特征統(tǒng)計分析的技術(shù)設(shè)計了智能電網(wǎng)入侵檢測模型,但僅面向特定的應(yīng)用環(huán)境。文獻[4-5]提出了針對智能電網(wǎng)等環(huán)境下的入侵檢測,但存在計算開銷大、運行時間長等缺點。

        相關(guān)研究表明,提升入侵檢測效率,可以通過數(shù)據(jù)降維和選取高效率的入侵檢測方法等來實現(xiàn)。例如可以通過特征選擇來過濾噪聲,避免過擬合,降低數(shù)據(jù)采集和攻擊檢測時的計算開銷。特征選擇問題可以轉(zhuǎn)換為離散空間中的優(yōu)化問題,并通過BPSO(Discrete Binary Particle Swarm Optimization Algorithm)等算法有效解決[6]。但BPSO容易出現(xiàn)過早擬合、陷入局部最優(yōu)等情況[7],針對這些問題,可以引入變異來對BPSO算法進行改進[8]。

        LightGBM(Light Gradient Boosting Machine)是一種新興的機器學(xué)習(xí)方法,具有準確度高、速度快、內(nèi)存占用少等優(yōu)勢,在近年來得到了廣泛應(yīng)用[9],但也存在參數(shù)較多、不易優(yōu)化等問題[10]。

        1 客戶側(cè)終端網(wǎng)絡(luò)入侵檢測模型

        1.1 威脅分析與檢測要求

        客戶側(cè)終端與主站間的網(wǎng)絡(luò)拓撲形式及入侵檢測設(shè)備的部署位置如圖1所示??蛻魝?cè)終端設(shè)備或主站設(shè)備可能面臨來自開放網(wǎng)絡(luò)、其他終端設(shè)備或自身硬件接口的攻擊。隨著通信技術(shù)的發(fā)展,客戶側(cè)終端將采用更加多樣化的聯(lián)網(wǎng)方式和主站連接,因此來自開放網(wǎng)絡(luò)上的安全威脅會日益增加。

        圖1 客戶側(cè)終端網(wǎng)絡(luò)拓撲Fig.1 Client side terminal equipment andnetwork topology

        入侵檢測設(shè)施應(yīng)部署在客戶側(cè)終端附近的網(wǎng)絡(luò)位置上,以旁路方式接入網(wǎng)絡(luò),完成對網(wǎng)絡(luò)協(xié)議、流量等特征的獲取、處理和入侵檢測等功能。

        客戶側(cè)終端設(shè)備及應(yīng)用系統(tǒng)中的入侵檢測方法,針對特定攻擊類型,應(yīng)同時具備較好的識別能力,較高的檢測效率和良好的自適應(yīng)性。

        首先,客戶側(cè)終端及應(yīng)用系統(tǒng)面臨的網(wǎng)絡(luò)安全威脅和一般互聯(lián)網(wǎng)應(yīng)用有相似性,但面臨的應(yīng)用層威脅較少,來自操作系統(tǒng)或網(wǎng)絡(luò)的威脅相對較多。從攻擊手段上看,電力系統(tǒng)中可能出現(xiàn)的攻擊類型包括:拒絕服務(wù)、漏洞利用、信息收集等[11]。此外,攻擊者還可能利用模糊攻擊(Fuzzers)等方式對客戶側(cè)終端和主站之間的應(yīng)用層加密協(xié)議進行攻擊。針對上述特點,在進行入侵檢測時,應(yīng)更多地對網(wǎng)絡(luò)協(xié)議和流量特征等進行分析,根據(jù)端口、協(xié)議、包長等信息,對攻擊進行識別和分類。

        其次,客戶側(cè)終端具有數(shù)量大、部署分散等特點。高效率的檢測方法,在保障及時性的同時,還有助于降低硬件要求,在大規(guī)模部署入侵檢測系統(tǒng)時,能有效地降低總成本。此外,結(jié)合國家電網(wǎng)當前的“用采系統(tǒng)2.0”規(guī)劃,高效率的入侵檢測方法更容易以容器化方式部署在公共設(shè)備之上。這也意味著某些過于復(fù)雜的深度學(xué)習(xí)方法可能不適合應(yīng)用于上述場景[5]。

        最后,考慮到聯(lián)網(wǎng)方式的多樣性和部署時的特殊情況,不同入侵檢測設(shè)備對網(wǎng)絡(luò)特征的采集能力和采集內(nèi)容可能有所不同。因此入侵檢測方法應(yīng)具有良好的自適應(yīng)能力,即針對不同的網(wǎng)絡(luò)特征信息,均能完成高效率的入侵檢測。

        1.2 入侵檢測模型設(shè)計

        提出的面向客戶側(cè)終端的網(wǎng)絡(luò)攻擊檢測(NIDS)模型如圖2所示。

        圖2 面向客戶側(cè)終端的網(wǎng)絡(luò)攻擊檢測流程Fig.2 Client-side terminal-oriented networkattack detection process

        在保證檢測效果的前提下,為了提升檢測效率,降低處理開銷,模型中設(shè)計了如下機制:

        (1)通過引入改進的目標編碼機制,在不增加數(shù)據(jù)維度的情況下實現(xiàn)更有效的離散數(shù)據(jù)編碼;

        (2)基于改進的BPSO算法進行特征選擇。降低監(jiān)控數(shù)據(jù)的采集開銷和入侵檢測算法的處理開銷,同時降低數(shù)據(jù)噪聲;

        (3)通過PSO算法對LightGBM參數(shù)進行自動尋優(yōu),實現(xiàn)對網(wǎng)絡(luò)攻擊的高效檢測,以及對常見攻擊進行分類。

        2 類別特征編碼

        2.1 編碼算法分析

        特征數(shù)據(jù)包含多種數(shù)據(jù)特征,一是諸如連接時間、包長度等連續(xù)特征;二是諸如協(xié)議類型、連接狀態(tài)等類別特征。在進行異常檢測之前,需要將特征編碼成數(shù)值。常見的變量編碼方式有標簽編碼[12]、獨熱編碼[13]和目標編碼[14]等。

        標簽編碼的問題在于將分類之間的無序關(guān)系變成了順序關(guān)系,使得一些算法中的距離計算產(chǎn)生誤差。雖然基于樹的機器學(xué)習(xí)算法不會進行距離計算,但算法的擴展和改進會受到限制。

        獨熱編碼的優(yōu)點在于距離計算更加合理,缺點在于顯著增加了數(shù)據(jù)維度,降低處理效率。此外,獨熱編碼會將特征信息變得稀疏,導(dǎo)致基于樹結(jié)構(gòu)的算法性能下降。

        目標編碼是一種有監(jiān)督的編碼方式,該方法將離散類型列映射為該類別目標的后驗概率,這樣可以直接將該列與目標列建立聯(lián)系,且不會增加數(shù)據(jù)維度。在實際編碼時,目標編碼會引入平滑項為缺失值編碼,但并未對實現(xiàn)方法做具體規(guī)定。LightGBM算法中自帶了類別特征編碼方法,其主要思想和目標編碼相似,但引入了自定義的約束條件和正則化條件。

        2.2 類別特征編碼算法設(shè)計

        針對特征數(shù)據(jù)中的類別變量,在目標編碼的基礎(chǔ)上,提出一種新的平滑項計算方法,以解決特征取值數(shù)量過少時引起的編碼困難問題。同時,在編碼流程上,引入了20折交叉編碼機制,以降低過擬合風險。

        2.2.1 編碼公式

        編碼采用有監(jiān)督的處理方式,映射方法如式(1)所示[14]:

        (1)

        式中的前一項為平滑項,后一項為特征取值的期望值;x(j)為特征當前取值;y為目標列;E(j)為當前特征取值對應(yīng)編碼值;S為樣本總數(shù)量;Ⅱ為指示函數(shù);S(j)為取值j的樣本總數(shù)量,如式(2)所示:

        (2)

        當某個特征取值數(shù)量較少時,其期望值可能存在較大噪聲,而當某個特征取值在訓(xùn)練集中未出現(xiàn),但在測試集中出現(xiàn)時,其期望值無法計算。為解決該問題,提出一種平滑系數(shù)β(j)的計算方法,如式(3)所示:

        (3)

        式中S_min為平滑門限值,大小設(shè)置為S的0.5%。當前特征取值S(j)的數(shù)量多于S_min時,編碼值為當前取值的目標平均值。當取值少于S_min時,編碼值由目標平均值和平滑項共同組成,平滑項的占比與S取值數(shù)量有關(guān)。當某個特征取值在訓(xùn)練集中未出現(xiàn),只在測試集出現(xiàn)時,編碼值完全由平滑項構(gòu)成。

        2.2.2 編碼流程

        編碼流程如圖3所示。

        圖3 引入平滑因子的目標編碼流程Fig.3 Introducing the target encoding process of the smoothing factor

        采用20折交叉編碼策略:首先將訓(xùn)練數(shù)據(jù)劃分為20折,選取1折數(shù)據(jù)為編碼數(shù)據(jù)集其余19折為統(tǒng)計數(shù)據(jù)集。根據(jù)式(1)、式(3)計算19折統(tǒng)計數(shù)據(jù)集的編碼值,并將其映射到編碼數(shù)據(jù)集;其次,選取另一折為編碼數(shù)據(jù)集,其他折為統(tǒng)計數(shù)據(jù)集;再次計算編碼值并進行映射,并循環(huán)20次。20次映射結(jié)果的并集,即為訓(xùn)練集編碼。對于測試集,則根據(jù)20次編碼平均值進行編碼。該策略可以解決由于數(shù)據(jù)分布不均勻?qū)е碌倪^擬合問題。

        3 基于改進BPSO的特征選擇算法

        3.1 算法流程設(shè)計

        提出了一種基于速度變異機制的BPSO算法實現(xiàn)特征選擇。BPSO作為PSO的一種改進算法,約定位置向量、速度向量均由0、1構(gòu)成,可以更好地解決離散空間中的優(yōu)化問題[15]。

        算法的主要流程如下:將標注過的數(shù)據(jù)作為輸入,假設(shè)輸入數(shù)據(jù)維度為N維特征,給每維特征分配一個重要性權(quán)重系數(shù)ai,ai∈[0,1],ai大小與重要程度程正相關(guān)。特征選擇就是求解N維特征的重要性權(quán)重系數(shù),由系數(shù)大小篩選出重要特征。為簡化計算量,將數(shù)據(jù)集中的特征值全部歸一化到(0,1) 范圍內(nèi)。

        二進制粒子群算法流程如下:

        步驟1:初始化粒子群,粒子用一個二進制位串表示,其中粒子數(shù)取30,每次迭代的最大次數(shù)設(shè)為100;

        步驟2:評估每個粒子并得到全局最優(yōu)。當前個體極值記為pb,全局最優(yōu)解記為gb;

        步驟3:每個粒子都有一個由目標函數(shù)f(a)決定的適應(yīng)值(Fitness Value)。根據(jù)目標函數(shù)計算每個粒子的適應(yīng)度值;

        步驟4:對每個粒子,將其適應(yīng)度值和個體極值pb進行比較,若適應(yīng)度值大于pb,則用當前適應(yīng)度值替換pb;

        步驟5:對每個粒子,將它的適應(yīng)度值和全局極值gb進行比較,若適應(yīng)度值大于gb,則用當前適應(yīng)度替換gb;

        步驟6:根據(jù)式(4)~式(6)更新粒子速度和位置[6]:

        vi=w*vi+rand()*c1*(pbi-xi)+

        rand()*c2*(gb-xi)

        (4)

        (5)

        (6)

        (7)

        (8)

        上述兩式中表示當粒子達到規(guī)定速度區(qū)間時,粒子出錯的概率為1-S(vmax)。該機制在原研究提出的設(shè)計基礎(chǔ)上引入粒子速度區(qū)間的變異機制,提升了粒子的可變性和變異的靈活性,避免算法過早收斂、陷入局部最優(yōu)解;

        步驟8:達到最大循環(huán)次數(shù)時算法執(zhí)行結(jié)束。

        算法執(zhí)行結(jié)束后得到N維特征的權(quán)重系數(shù)向量,該矩陣由0和1組成,權(quán)重系數(shù)為1則表示該系數(shù)對應(yīng)的特征為篩選出的特征。

        需要注意的是,由于BPSO為啟發(fā)式搜索算法,運行結(jié)果存在一定隨機性,因此算法選取的特征可能并非最佳特征。但BPSO的優(yōu)勢在于其簡單易實現(xiàn)特性,且具備較好的自動化程度和自適應(yīng)能力。當實際客戶側(cè)終端網(wǎng)絡(luò)中的網(wǎng)絡(luò)監(jiān)測內(nèi)容和實驗數(shù)據(jù)集維度存在差異時,方法仍然有效,無需對特征進行人工分析。

        在實際應(yīng)用中,為保證特征選擇效果,可多次運行算法,并選取目標函數(shù)值最小的結(jié)果作為最終特征。

        3.2 目標函數(shù)設(shè)計

        特征選擇的目標為分類模型性能最大化和篩選出特征數(shù)量的最小化,設(shè)計目標函數(shù)f(a)為:

        (9)

        式中,系數(shù)λ影響目標函數(shù)中準確率與特征數(shù)量的權(quán)重關(guān)系,應(yīng)根據(jù)實驗結(jié)果進行調(diào)節(jié);i∈[1,N];accuracy∈[0,1]為分類器準確度;ai∈[0,1]為重要性權(quán)重系數(shù);a為由ai組成的重要性權(quán)重系數(shù)向量。等式左邊最后一項為懲罰因子項,ε為懲罰因子系數(shù);Nmin為最小特征維度;ReLU函數(shù)為非線性函數(shù):

        (10)

        目標函數(shù)中第一項準確度accuracy的定義如下:

        (11)

        目標函數(shù)中第二項、第三項是對特征子集數(shù)目進行限制,其中第二項越小表明選出的特征數(shù)量越少,目標函數(shù)值越小??紤]到去除過多特征可能導(dǎo)致模型泛化能力下降,公式(9)中加入第四項懲罰項對特征的最少數(shù)量進行限制。當重要性權(quán)重系數(shù)總和小于Nmin時,懲罰項取值將快速增大,并在BPSO迭代過程中被淘汰。反之選取的特征數(shù)量大于Nmin時,由于ReLU函數(shù)的作用,此項取值為0,以此保證篩選出的特征維數(shù)大于Nmin。

        4 基于LightGBM的入侵檢測算法

        4.1 GBDT與LightGBM算法

        GBDT (Gradient Boosting Decision Tree) 是一個機器學(xué)習(xí)中經(jīng)典模型,主要思想是利用弱分類器(決策樹)迭代訓(xùn)練以得到最優(yōu)模型,該模型具有訓(xùn)練效果好、不易過擬合等優(yōu)點。然而GBDT需要多次遍歷整個數(shù)據(jù)集,導(dǎo)致訓(xùn)練速度慢、內(nèi)存消耗大[17]。

        LightGBM(Light Gradient Boosting Machine)是GBDT算法的一種高效實現(xiàn)框架。LightGBM算法具有更高的訓(xùn)練效率和準確率,其主要改進包括:

        (1)拋棄了傳統(tǒng)GBDT的決策樹按層生長策略,使用了帶有深度限制的按葉子生長策略。該策略具有提升精度、防止過擬合等優(yōu)點;

        (2)引入了直方圖算法,大幅提高計算效率,降低通信代價;

        (3)引入了GOSS采樣算法和EFB特征合并算法,這使得LightGBM的訓(xùn)練速度比GBDT提高了20倍。

        4.2 LightGBM參數(shù)調(diào)優(yōu)

        LightGBM的參數(shù)較多,參數(shù)選取對算法效果具有較大影響。因此對LightGBM算法的三個重要超參數(shù)進行調(diào)節(jié),包括決策樹數(shù)量、最大樹深度和葉子數(shù)量。此外,LightGBM的主要參數(shù)還包括學(xué)習(xí)率,合適的學(xué)習(xí)率能夠使目標函數(shù)在合適的時間內(nèi)收斂到局部最小值。

        為了提升效率,采用了PSO算法進行自動尋優(yōu)。采用1-accuracy作為目標函數(shù),其中accuracy的計算方法和3.2節(jié)中的式(11)相同。訓(xùn)練策略為:先將學(xué)習(xí)率調(diào)大,在較大跨度上得到較佳參數(shù),再將學(xué)習(xí)率減小到適合數(shù)值,在較小區(qū)間的內(nèi)獲得最佳參數(shù)。

        5 實驗分析

        5.1 實驗設(shè)置與數(shù)據(jù)集介紹

        考慮到模型的部署成本問題,期望所提出的方法在通用硬件環(huán)境中也能具有較高的效率,因而所采用的實驗硬件條件為:主頻為3.0 GHz的CPU、16 GB RAM和主板集成顯卡,軟件環(huán)境為: Windows 10和 Python 3.6。

        由于當前缺乏實際客戶側(cè)終端環(huán)境中的網(wǎng)絡(luò)攻擊數(shù)據(jù),實驗基于以下三個開源數(shù)據(jù)集進行:

        (1)KDD-CUP 99數(shù)據(jù)集是一個經(jīng)典的入侵檢測數(shù)據(jù)集。但該數(shù)據(jù)集也存在冗余程度高、數(shù)據(jù)噪聲大等問題。數(shù)據(jù)集包含41個特征,包括7個類別特征或無序離散特征;包含22種攻擊,有14種攻擊僅出現(xiàn)在測試集中。所有攻擊分為4大類;

        (2)NSL-KDD數(shù)據(jù)集是KDD CUP 99的改進版本,二者的數(shù)據(jù)結(jié)構(gòu)相同。NSL-KDD的測試集中刪減了重復(fù)和冗余記錄,特別是大幅度刪減了正常流量數(shù)據(jù);

        (3)UNSW-NB15數(shù)據(jù)集由澳大利亞網(wǎng)絡(luò)安全中心制作,該數(shù)據(jù)集能夠較好地反映現(xiàn)代網(wǎng)絡(luò)流量特征和網(wǎng)絡(luò)攻擊特征。該數(shù)據(jù)集包含47個特征,去除一些相關(guān)性較小的維度后,使用其中43個特征維度,包括5個類別特征或無序離散特征;攻擊類型分為9大類。

        上述數(shù)據(jù)集主要描述互聯(lián)網(wǎng)環(huán)境下的流量特征和網(wǎng)絡(luò)攻擊,和客戶側(cè)終端網(wǎng)絡(luò)環(huán)境有所區(qū)別。為了盡可能貼近客戶側(cè)終端網(wǎng)絡(luò)環(huán)境,對數(shù)據(jù)集采取如下處理策略:刪除數(shù)據(jù)集中標記為STMP、POP3、FTP等應(yīng)用層協(xié)議的數(shù)據(jù),以模擬客戶側(cè)終端網(wǎng)絡(luò)中的應(yīng)用現(xiàn)狀。保留DNS、SSH、DHCP等通用性較強的協(xié)議數(shù)據(jù),模擬客戶側(cè)終端網(wǎng)絡(luò)中的網(wǎng)絡(luò)層和傳輸層交互。保留SSL等應(yīng)用層加密協(xié)議數(shù)據(jù),模擬客戶側(cè)終端網(wǎng)絡(luò)中的應(yīng)用層加密協(xié)議。

        結(jié)合1.1節(jié)的安全威脅分析,在數(shù)據(jù)集中選取正常流量數(shù)據(jù)和拒絕服務(wù)、信息收集、信息利用、加密協(xié)議攻擊等具有代表性的攻擊類型。具體做法為:在KDD CUP 99、NSL-KDD數(shù)據(jù)集中選取DoS、Probe、R2L攻擊類型,在UNSW-NB15數(shù)據(jù)集選取漏洞利用(Exploits、Shellcode)、協(xié)議攻擊(Generic、Fuzzers)、信息收集(Reconnaissance)和蠕蟲攻擊(Worms)等攻擊類型進行多分類測試。對于KDD-CUP 99、NSL-KDD數(shù)據(jù)集,采用其原始的訓(xùn)練集和測試集劃分,UNSW-NB15數(shù)據(jù)集則按8:2劃分訓(xùn)練和測試數(shù)據(jù)。實驗數(shù)據(jù)集的訓(xùn)練集數(shù)目和測試集數(shù)目如表1所示。

        表1 實驗數(shù)據(jù)集數(shù)量分布Tab.1 Experimental data set

        5.2 實驗評估指標

        實驗的評價指標采用準確率、真正率和假正率進行評價[18]。

        準確率(Accuracy):表示正確識別的樣本數(shù)與整個測試集的比率。準確率越高,訓(xùn)練的模型就越好。其定義為:

        (12)

        該定義和公式(11)的實際含義相同。

        真正率(TPR):也被稱為召回率。表示正確分類的正常樣本與實際正常樣本總數(shù)的比率,TPR數(shù)值越高,則誤報的情況越少。其定義為:

        (13)

        假正率(FPR):表示被預(yù)測為正常樣本的攻擊樣本數(shù)與實際攻擊總數(shù)的比率,F(xiàn)PR數(shù)值越低,則漏報的情況越少。其定義為:

        (14)

        式中TP為真陽性(True Positive):表示被模型預(yù)測為攻擊樣本而實際也是攻擊樣本的數(shù)量;FP為假陽性(False Positive):表示被模型預(yù)測為正常樣本而實際是攻擊樣本的數(shù)量;TN為真陰性(True Negative):表示被模型預(yù)測為正常樣本而實際也是正常樣本的數(shù)量;FN為假陰性(False Negative):表示被模型預(yù)測為攻擊樣本而實際是正常樣本的數(shù)量。

        5.3 實驗及結(jié)果分析

        5.3.1 類別特征編碼效果分析

        對提出的離散編碼效果進行驗證。分別對數(shù)據(jù)中的類別特征使用獨熱編碼、LightGBM自帶編碼方法和文章所提出的方法進行編碼,并通過LightGBM算法進行檢測。實驗結(jié)果如表2所示。

        表2 類別特征編碼效果對比Tab.2 Comparison of category feature coding effect

        從文章應(yīng)用場景來看,所提出編碼方法結(jié)合LightGBM算法在三個數(shù)據(jù)集上均能保持較好的檢測效果,特別是在NSL-KDD數(shù)據(jù)集上,文章編碼方法與LightGBM編碼相比,能夠提升1%的準確率和2%的真正率。獨熱編碼結(jié)合LightGBM算法的檢測效果較差,特別是在KDD-CUP 99和NSL-KDD的測試集中含有較多未知類別取值的情況下更為明顯。

        5.3.2 特征選擇效果分析

        對提出的特征選擇方法進行參數(shù)調(diào)節(jié)和驗證。將式(9)中的懲罰因子ε設(shè)定為1 000,Nmin設(shè)定為16,即數(shù)據(jù)集維度的1/3左右,并對系數(shù)λ進行調(diào)節(jié)。算法運行5次,選擇目標函數(shù)最小的特征選擇結(jié)果,測試結(jié)果如表3所示。

        表3 降維參數(shù)調(diào)節(jié)與效果對比Tab.3 Dimensionality reduction parameter adjustment and effect comparison

        可以看出,提出的特征選擇算法在三個數(shù)據(jù)集上均能有效地降低特征維度,最高可去除60%的維度,特征選擇之后。訓(xùn)練時間分別降低了22%、26%和24%,檢測時間分別降低了19%、32%和6%,訓(xùn)練和檢測時間平均降低了19%。方法選擇維度的數(shù)量最低為16,證明算法中懲罰因子產(chǎn)生了限制效果。特征選擇算法在三個數(shù)據(jù)集上均能保持很好的檢測效果,其中在KDD-CUP 99和NSL-KDD數(shù)據(jù)集上的檢測效果提升比較明顯,最多可提升3.7%的準確率和6.4%的真正率。

        從參數(shù)選擇上看,選取系數(shù)λ=0.4時,算法效率最高;系數(shù)λ=0.6時,在檢測結(jié)果和效率上的綜合效果最好。

        5.3.3 異常檢測效果

        對文章提出的模型進行實驗和對比。根據(jù)4.2節(jié)的調(diào)優(yōu)策略,參數(shù)選取結(jié)果為:對于KDD-CUP 99和NSL-KDD數(shù)據(jù)集,選擇樹的數(shù)量為200,葉子數(shù)為4,最大樹深度為30;對于UNSW-NB15數(shù)據(jù)集,選擇樹的數(shù)量為900,葉子數(shù)為2,最大樹深度為40。對三個數(shù)據(jù)集進行攻擊檢測,效果如表4所示。

        表4 異常檢測效果對比Tab.4 Anomaly detection effect comparison

        可以看出,文章提出的整體模型在檢測效果和檢測時間上均具有優(yōu)勢。特別是在NSL-KDD數(shù)據(jù)集上,比隨機森林等算法提升5%以上的準確率和約10%的真正率。

        在效率方面,隨機森林算法和Adaboost等集成學(xué)習(xí)算法雖然也有較好的檢測效果,但文中模型的訓(xùn)練和檢測時間明顯更短,訓(xùn)練時間僅為兩種算法的3%左右,檢測時間最低可達兩種算法的11%。

        BP神經(jīng)網(wǎng)絡(luò)雖然也能保持較好的檢測效果,但深度神經(jīng)網(wǎng)絡(luò)需要的訓(xùn)練時間和硬件開銷顯著大于其他算法[19],因此未做具體統(tǒng)計。在檢測時間上,文中模型的檢測時間最低可達BP神經(jīng)網(wǎng)絡(luò)的5%。

        邏輯回歸算法和樸素貝葉斯算法雖然在檢測時間上存在優(yōu)勢,但在檢測效果上存在較大不足。

        5.3.4 攻擊分類效果

        對5.1節(jié)選取的攻擊類型進行攻擊分類實驗。選取表4中檢測性能最好的參數(shù)組合。實驗效果如表5所示。

        表5 攻擊分類效果對比Tab.5 Comparison of attack classification effects

        可以看出,文中模型在大多數(shù)情況下,能保持90%以上的準確率、70%以上的真正率和5%以下的假正率。說明文中提出的模型能較好地區(qū)分正常流量和攻擊樣本,并對攻擊類型具有良好的區(qū)分效果。

        但在具體指標上,特別是真正率和樣本數(shù)量的關(guān)系較大。三種數(shù)據(jù)集下,R2L、Shellcode 和Worms型攻擊的真正率均較低,普遍在30%~57%之間,說明存在誤報情況。而在NSL-KDD中,Probe型攻擊的假正率較高,說明存在較多漏報情況。上述情況和訓(xùn)練集中的相關(guān)樣本的數(shù)量較少有關(guān),上述攻擊在各自訓(xùn)練集中的條目均少于5 000。此外,方法對Fuzzers攻擊的真正率較低。這可能和Fuzzers攻擊會發(fā)送隨機數(shù)據(jù)的特性有關(guān)。在實際客戶側(cè)終端網(wǎng)絡(luò)中,為防止攻擊者對應(yīng)用層加密協(xié)議或主站服務(wù)發(fā)動類似攻擊,需要采用額外手段進行防范。

        圖4為三個數(shù)據(jù)集攻擊分類預(yù)測結(jié)果的混淆矩陣。由于不同攻擊之間的數(shù)量差異較大,為方便顯示,矩陣中數(shù)值整理為當前坐標格在橫排所示真實值中的占比。

        圖4 攻擊分類的結(jié)果混淆矩陣Fig.4 Confusion matrix of attack classification results

        綜上所述,文中模型對采集的流量特征數(shù)據(jù)進行預(yù)處理和特征選擇,降低了19%的模型訓(xùn)練與檢測時間,有效地提升了檢測效率。

        在檢測性能上,文中模型具有較高的準確率和較少的誤報與漏報情況,以及較好的攻擊分類能力。有利于在設(shè)備分散的開放網(wǎng)絡(luò)環(huán)境下,實現(xiàn)高效率、高準確性的網(wǎng)絡(luò)入侵檢測。

        此外,采用的特征選擇方法和入侵檢測方法有較好的自適應(yīng)能力,可以在多個數(shù)據(jù)集上直接工作,無需進行人工分析。因此當不同入侵檢測設(shè)備采集的流量特征存在差異時,模型仍然可以工作。這比較適合客戶側(cè)終端環(huán)境下,設(shè)備分散管理、數(shù)據(jù)分散采集的現(xiàn)狀。

        6 結(jié)束語

        針對客戶側(cè)終端網(wǎng)絡(luò)可能存在的安全威脅,文章提出了一種基于LightGBM的高效率網(wǎng)絡(luò)入侵檢測模型。提出了改進離散特征編碼的方法;引入速度概率變異機制的BPSO算法,實現(xiàn)了自動化程度較高的特征選擇與降維;通過基于PSO算法優(yōu)化的LightGBM實現(xiàn)了入侵檢測與攻擊分類?;陂_源數(shù)據(jù)集的測試證明,文中模型能夠保持較好的檢測效果和較高的檢測效率,這有利于在客戶側(cè)終端設(shè)備數(shù)量大、設(shè)備分布分散的場景下,降低檢測開銷、提升反應(yīng)速度。但文章方法對稀少攻擊類型或特殊攻擊類型的檢測效果不夠理想,這也使得其應(yīng)對新型網(wǎng)絡(luò)攻擊的能力不足,今后應(yīng)針對這些情況開展針對性研究。

        猜你喜歡
        特征選擇編碼終端
        基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達圖像配準
        X美術(shù)館首屆三年展:“終端〉_How Do We Begin?”
        《全元詩》未編碼疑難字考辨十五則
        子帶編碼在圖像壓縮編碼中的應(yīng)用
        電子制作(2019年22期)2020-01-14 03:16:24
        通信控制服務(wù)器(CCS)維護終端的設(shè)計與實現(xiàn)
        Genome and healthcare
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        多功能北斗船載終端的開發(fā)應(yīng)用
        電子制作(2016年15期)2017-01-15 13:39:14
        聯(lián)合互信息水下目標特征選擇算法
        基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
        亚洲视频精品一区二区三区| 无码Av在线一区二区三区| 国产亚洲午夜精品| 蜜桃av无码免费看永久| 青青草视频在线免费视频| 丰满又紧又爽又丰满视频| 青青草视频在线视频播放 | 日韩av免费一区二区| 一区二区三区精品少妇| 少妇性俱乐部纵欲狂欢电影| 特黄特色的大片观看免费视频 | 狠狠色狠狠色综合日日不卡| 国产精品一久久香蕉国产线看观看| 92精品国产自产在线观看48页| 在线播放中文字幕一区二区三区 | 国产乱码精品一区二区三区四川人| a亚洲va欧美va国产综合| 99久久人妻无码精品系列蜜桃 | 久久精品人妻少妇一二三区| 国产精品无码一区二区三区| 亚洲男人的天堂在线aⅴ视频 | 久久精品国产6699国产精| 精品国产日产av在线| 国产黑色丝袜在线看片| 久久久中文久久久无码| 成全高清在线播放电视剧| 欧美色五月| 亚洲国产AⅤ精品一区二区久| 亚洲av色香蕉一区二区三区软件| 亚洲精品无码久久久久y| 国产男女猛烈无遮挡免费网站| 无码aⅴ在线观看| 久久狠色噜噜狠狠狠狠97| 人妻尤物娇呻雪白丰挺| 99e99精选视频在线观看| 亚洲av永久无码精品网址| 亚洲av成人综合网| 亚洲www视频| 亚洲女厕偷拍一区二区| 中文 在线 日韩 亚洲 欧美| 国产色噜噜|