亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于ISSA-LightGBM 的工控入侵檢測(cè)研究

        2023-11-06 12:34:48趙志達(dá)王華忠
        關(guān)鍵詞:檢測(cè)模型

        趙志達(dá), 王華忠

        (華東理工大學(xué)能源化工過(guò)程智能制造教育部重點(diǎn)實(shí)驗(yàn)室, 上海 200237)

        工控系統(tǒng)(ICS)是國(guó)家關(guān)鍵基礎(chǔ)設(shè)施的重要組成部分[1],在確保煉油、化工、電力、食品、水廠、交通、制藥等生產(chǎn)與服務(wù)系統(tǒng)穩(wěn)定運(yùn)行上起著重要的保障作用[2]。隨著信息技術(shù)(IT)與工業(yè)控制網(wǎng)絡(luò)的不斷融合[3],關(guān)鍵基礎(chǔ)設(shè)施控制系統(tǒng)已成為互聯(lián)網(wǎng)的一部分,更容易受到各種網(wǎng)絡(luò)攻擊。ICS 的異?;虮罎⒖赡軒?lái)經(jīng)濟(jì)損失、環(huán)境破壞甚至人員生命損失[4],加強(qiáng)ICS 的網(wǎng)絡(luò)安全防護(hù)十分重要[5]。

        工控系統(tǒng)的常見網(wǎng)絡(luò)攻擊包括拒絕服務(wù)(DOS)攻擊、虛假數(shù)據(jù)注入(FDI)攻擊、偵察攻擊、重放攻擊等,而入侵檢測(cè)可以主動(dòng)監(jiān)控網(wǎng)絡(luò)流量和主機(jī)等設(shè)備,發(fā)現(xiàn)并阻止網(wǎng)絡(luò)攻擊[6]。隨著人工智能技術(shù)的發(fā)展,機(jī)器學(xué)習(xí)在入侵檢測(cè)中的應(yīng)用越來(lái)越廣泛[7],然而,工控系統(tǒng)會(huì)產(chǎn)生大量的非線性高維數(shù)據(jù)。傳統(tǒng)的機(jī)器學(xué)習(xí)方法,如K 最鄰近法(KNN)、支持向量機(jī)(SVM)等,雖然算法簡(jiǎn)單、訓(xùn)練時(shí)間短,但是檢測(cè)準(zhǔn)確率相對(duì)較低,而且在處理這些工控?cái)?shù)據(jù)之前需要進(jìn)行復(fù)雜的數(shù)據(jù)預(yù)處理以及人為的特征提取,這需要依靠豐富的經(jīng)驗(yàn)和大量的實(shí)踐。卷積神經(jīng)網(wǎng)絡(luò)(CNN)、長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)等深度學(xué)習(xí)方法雖然可以避免復(fù)雜的數(shù)據(jù)預(yù)處理,且具有較高的準(zhǔn)確性,但會(huì)消耗大量計(jì)算資源,且訓(xùn)練時(shí)間長(zhǎng),參數(shù)調(diào)整困難。

        近年來(lái),很多研究人員將機(jī)器學(xué)習(xí)算法應(yīng)用到入侵檢測(cè)研究,并取得了一定的成果。黃一鳴等[8]提出了一種基于SVM 的工控入侵檢測(cè)模型,通過(guò)特征增強(qiáng)的方式提高數(shù)據(jù)集的質(zhì)量,改善了模型檢測(cè)精度,但是該方法需要進(jìn)行復(fù)雜的特征變換和數(shù)據(jù)預(yù)處理。陳漢宇等[9]提出了基于統(tǒng)一計(jì)算設(shè)備架構(gòu)(CUDA)的并行化策略,將串行SVM并行化,把復(fù)雜的計(jì)算過(guò)程移植到GPU 上,大大提高了模型訓(xùn)練速度,但是該方法成本高、靈活性差。Ling 等[10]提出了一種基于雙向簡(jiǎn)單循環(huán)單元的入侵檢測(cè)模型,使用跳躍連接,通過(guò)簡(jiǎn)單循環(huán)單元(SRU)神經(jīng)網(wǎng)絡(luò)中優(yōu)化的雙向結(jié)構(gòu),緩解模型中梯度消失問(wèn)題,該方法雖然降低了訓(xùn)練時(shí)間,但是犧牲了檢測(cè)效果。劉會(huì)鵬等[11]提出了一種基于堆疊LSTM 的入侵檢測(cè)模型,并采用貝葉斯優(yōu)化算法對(duì)深度學(xué)習(xí)超參數(shù)進(jìn)行尋優(yōu),該方法雖然大大提高了模型檢測(cè)性能但是卻占用大量?jī)?nèi)存和時(shí)間。Narayana等[12]將入侵檢測(cè)分為兩個(gè)階段:第1 階段,采用平滑L1 正則化增強(qiáng)自編碼器的稀疏性,學(xué)習(xí)特征的稀疏表示;第2 階段,使用深度神經(jīng)網(wǎng)絡(luò)(DNN)對(duì)攻擊進(jìn)行檢測(cè)。由于消除了異常的特征,并通過(guò)特征提取降低了特征維數(shù),該模型整體性能優(yōu)于傳統(tǒng)模型。

        LightGBM 是Ke 等[13]在2017 年提出的一種改進(jìn)的梯度提升決策樹(GBDT)模型,能夠高速準(zhǔn)確地處理海量數(shù)據(jù),在工業(yè)環(huán)境中具有良好的應(yīng)用前景:(1)它支持分類特征的直接輸入,在數(shù)據(jù)預(yù)處理階段無(wú)需進(jìn)行one-hot 編碼;(2)它是一種樹模型,無(wú)需進(jìn)行歸一化操作以處理由于輸入變量量綱不同造成的影響;(3)引入EFB 算法進(jìn)行特征降維,可以省去常規(guī)算法要求的特征提?。唬?)支持高效的特征并行和數(shù)據(jù)并行,訓(xùn)練速度快。

        基于LightGBM 算法處理工業(yè)數(shù)據(jù)的潛在優(yōu)勢(shì),本文提出了一種基于ISSA-LightGBM 的工控系統(tǒng)入侵檢測(cè)模型。針對(duì)標(biāo)準(zhǔn)麻雀搜索算法的種群多樣性少和跳出局部最優(yōu)解難的問(wèn)題,提出了一種改進(jìn)的麻雀搜索算法:(1)引入離散解碼策略;(2)使用反向?qū)W習(xí)策略生成初始種群;(3)麻雀位置更新函數(shù)中引入自適應(yīng)控制步長(zhǎng)和收斂因子,使算法具有更優(yōu)的初始種群和全局搜索能力。將改進(jìn)后的算法用于LightGBM 入侵檢測(cè)模型參數(shù)的優(yōu)化,使用密西西比州立大學(xué)(MSU)標(biāo)準(zhǔn)工控?cái)?shù)據(jù)集檢測(cè)模型的性能,并與其他方法進(jìn)行比較,驗(yàn)證了該方法在處理大量工業(yè)數(shù)據(jù)時(shí)具有檢測(cè)精度高、訓(xùn)練時(shí)間少等優(yōu)勢(shì)。

        1 LightGBM

        1.1 LightGBM 基本原理

        LightGBM 是一種GBDT 實(shí)現(xiàn),是為解決傳統(tǒng)GBDT 處理大樣本高維數(shù)據(jù)的難題而被提出的。相對(duì)于傳統(tǒng)的GBDT 算法,LightGBM 不僅保證了準(zhǔn)確率,而且訓(xùn)練速度更快[14],內(nèi)存消耗更低,并且支持分布式并行,可以快速處理海量數(shù)據(jù)[15],能夠有效解決工控入侵檢測(cè)訓(xùn)練速度慢、占用時(shí)間長(zhǎng)等問(wèn)題。LightGBM 的特點(diǎn)和優(yōu)化算法總結(jié)如下。

        (1)Leaf-wise 決策樹生長(zhǎng)策略

        多數(shù)決策樹算法使用的是低效的level-wise的決策樹生長(zhǎng)策略,同一層的葉子節(jié)點(diǎn)不加區(qū)分地進(jìn)行分裂,由于一些葉子節(jié)點(diǎn)分裂產(chǎn)生的增益較低,給算法帶來(lái)了不必要的消耗。與大多數(shù)GBDT 算法不同,LightGBM 采用具有深度限制的高效的leafwise 策略,每次層序遍歷所有當(dāng)前葉子節(jié)點(diǎn),僅對(duì)增益最大的葉子節(jié)點(diǎn)進(jìn)行分裂,而不是所有葉子節(jié)點(diǎn)。因此,經(jīng)過(guò)相同的分裂次數(shù),leaf-wise 策略產(chǎn)生的誤差更低,準(zhǔn)確率和效率也更高。同時(shí)為避免leaf-wise 策略生長(zhǎng)出深度比較大的決策樹, LightGBM增加了一個(gè)最大深度限制,以防止過(guò)擬合,能夠有效提高模型預(yù)測(cè)的魯棒性。level-wise 策略如圖1 所示,leaf-wise 策略如圖2 所示。

        圖1 Level-wise 策略Fig.1 Level-wise algorithm

        圖2 Leaf-wise 策略Fig.2 Leaf-wise algorithm

        (2)直方圖算法

        LightGBM 使用直方圖算法對(duì)特征數(shù)據(jù)進(jìn)行處理,將連續(xù)的特征數(shù)據(jù)離散化為k個(gè)整數(shù)作為直方圖的水平坐標(biāo),構(gòu)造一個(gè)以k為寬度的直方圖。在遍歷數(shù)據(jù)時(shí),采用直方圖累積統(tǒng)計(jì)值,然后根據(jù)離散的特征統(tǒng)計(jì)值確定最佳的特征分割點(diǎn),因此模型特征只需統(tǒng)計(jì)1 次,避免了傳統(tǒng)機(jī)器學(xué)習(xí)算法在特征計(jì)算時(shí)會(huì)重復(fù)工作的問(wèn)題。該算法對(duì)原始連續(xù)特征值進(jìn)行分箱,并使用這些分箱來(lái)構(gòu)建模型,大大減少了分割點(diǎn)選擇的時(shí)間消耗和內(nèi)存消耗,提高了模型的訓(xùn)練和預(yù)測(cè)效率,特別適用于數(shù)據(jù)量大、數(shù)據(jù)維數(shù)高的問(wèn)題。

        (3)單邊梯度采樣(GOSS)算法

        LightGBM 引入了GOSS 算法,通過(guò)減少訓(xùn)練的數(shù)據(jù)量來(lái)提高訓(xùn)練效率。如果一個(gè)訓(xùn)練樣本的梯度極小,則表明該樣本的訓(xùn)練誤差極小,訓(xùn)練已經(jīng)十分完全,但直接舍棄所有這些梯度較小的樣本會(huì)降低模型的精度,因此GOSS 算法在減少訓(xùn)練量和保證精度之間進(jìn)行了平衡。將用于訓(xùn)練的數(shù)據(jù)根據(jù)梯度的大小進(jìn)行排序,并按一定比例劃分為高梯度訓(xùn)練樣本和低梯度訓(xùn)練樣本,保留所有高梯度樣本,對(duì)低梯度樣本按照一定比例隨機(jī)采樣,舍棄其他低梯度樣本。為了防止這樣的數(shù)據(jù)處理對(duì)樣本分布產(chǎn)生的影響,算法引入放大系數(shù),將保留的低梯度樣本乘以放大系數(shù)。通過(guò)以上這些處理,算法在計(jì)算信息增益時(shí)會(huì)更加關(guān)注高梯度也就是訓(xùn)練不足的樣本,提高了訓(xùn)練效率。

        (4)互斥特征捆綁(EFB)算法

        與GOSS 算法不同,EFB 算法通過(guò)特征提取的方法提高模型訓(xùn)練的速度。通常的特征提取通過(guò)剔除一些無(wú)效的特征來(lái)降低訓(xùn)練數(shù)據(jù)的維度,而EFB算法則是通過(guò)捆綁互斥的特征來(lái)降低訓(xùn)練數(shù)據(jù)的特征維度。一般情況下,在高維數(shù)據(jù)空間中,數(shù)據(jù)是比較稀疏的,在稀疏的特征空間中,有些特征是互斥的,即這些特征不會(huì)同時(shí)是非零值,通過(guò)將這些互斥的特征捆綁在一起,形成一個(gè)單一的特征包,大大降低了模型的計(jì)算復(fù)雜度。

        此外,LightGBM 算法支持類別特征的直接輸入,不需要進(jìn)行額外的0 / 1 展開;它支持?jǐn)?shù)據(jù)并行和特征并行[16]。這些優(yōu)化使LightGBM 算法具有更高的效率。

        1.2 LightGBM 主要超參數(shù)

        在機(jī)器學(xué)習(xí)算法中,模型的分類性能好壞與模型超參數(shù)的選擇有很大的關(guān)系,不同超參數(shù)組合的模型其表現(xiàn)有很大的差別。LightGBM 模型有較多的超參數(shù),為了獲得LightGBM 模型的最優(yōu)性能,需要對(duì)模型參數(shù)進(jìn)行優(yōu)化。LightGBM 模型的主要超參數(shù)如表1 所示。

        表1 LightGBM 模型的主要超參數(shù)Table 1 LightGBM main hyperparameters

        不同參數(shù)尋優(yōu)方法得到的最優(yōu)超參數(shù)往往不同,目前常用的有人工搜索法、隨機(jī)搜索法、網(wǎng)格搜索法等等。人工搜索法需要手動(dòng)嘗試各種可能的參數(shù)組合,成本極高且效率低下。網(wǎng)格搜索法采用超參數(shù)所有的可能值進(jìn)行組合,當(dāng)超參數(shù)的變量數(shù)和范圍增加時(shí),該方法效率會(huì)急速下降。隨機(jī)搜索法使用一系列隨機(jī)超參數(shù)組合,相對(duì)于網(wǎng)格搜索算法成本降低,但在測(cè)試新的超參數(shù)組合時(shí),會(huì)忽略前一次組合的效果,導(dǎo)致搜索的效率極低。機(jī)器學(xué)習(xí)模型的超參數(shù)優(yōu)化問(wèn)題是一種黑盒問(wèn)題,智能優(yōu)化算法是解決此類優(yōu)化問(wèn)題的十分有效的方法,本文采用改進(jìn)的麻雀搜索算法進(jìn)行LightGBM 的超參數(shù)優(yōu)化。

        2 改進(jìn)麻雀搜索算法(ISSA)

        2.1 麻雀搜索算法(SSA)

        SSA 是Xue 等[17]提出的一種群體智能優(yōu)化算法,受麻雀的群居智慧啟發(fā),參考麻雀的覓食等行為提出的。在SSA 算法中,將麻雀分為生產(chǎn)者、拾荒者和捕食者3 種個(gè)體。其中生產(chǎn)者主要為整個(gè)種群尋找食物來(lái)源,拾荒者則跟隨生產(chǎn)者拾取食物,捕食者負(fù)責(zé)監(jiān)視覓食的區(qū)域。在覓食過(guò)程中,不斷更新三者位置,完成食物的獲取。

        在算法中,通過(guò)個(gè)體模擬麻雀尋找食物。由所有個(gè)體組成的種群位置X可由式(1)的矩陣表示:

        其中:n表示麻雀種群的數(shù)量;d表示待優(yōu)化變量的維度。

        所有個(gè)體對(duì)應(yīng)的適應(yīng)度函數(shù)FX可由式(2)的向量表示:

        其中FX每一行的函數(shù)表示每個(gè)個(gè)體的適應(yīng)度值。

        2.1.1 生產(chǎn)者位置更新 在SSA 中,適應(yīng)度較優(yōu)的生產(chǎn)者在搜索過(guò)程中優(yōu)先覓食,同時(shí),生產(chǎn)者需要為拾荒者尋找食物并引導(dǎo)拾荒者的流動(dòng),因此生產(chǎn)者比拾荒者在更廣的范圍內(nèi)尋找食物。生產(chǎn)者的位置更新公式如式(3)所示:

        其中:t表示迭代次數(shù);j=1,2,...,d;表示第i只適應(yīng)度較好的麻雀在迭代時(shí)的第j維值; α ∈[0,1] ;itermax表示最大迭代次數(shù);R2(R2∈[0,1]) 和ST(ST ∈[0.5, 1.0])分別表示報(bào)警值和安全閾值;Q是服從正態(tài)分布的隨機(jī)數(shù),L是 1×d的全1 矩陣。當(dāng)R2<ST時(shí),意味著周圍沒(méi)有危險(xiǎn),生產(chǎn)者可以廣泛搜索食物;當(dāng)R2≥ST 時(shí),說(shuō)明麻雀意識(shí)到了危險(xiǎn),需飛到安全區(qū)域。

        2.1.2 拾荒者位置更新 拾荒者的位置更新公式如式(4)所示:

        2.1.3 捕食者位置更新 根據(jù)算法的設(shè)定,捕食者占種群比例的10%~20%。捕食者的位置更新公式如式(5)所示:

        2.2 ISSA 算法的實(shí)現(xiàn)

        2.2.1 離散策略的引入 標(biāo)準(zhǔn)的SSA 算法用來(lái)解決連續(xù)優(yōu)化相關(guān)問(wèn)題,不適合用來(lái)解決離散優(yōu)化問(wèn)題。LightGBM 模型的主要超參數(shù)中存在數(shù)據(jù)類型是整形的,賦予超參數(shù)上下界的限制后,其可能的取值是有限的,數(shù)據(jù)是離散的。在更新麻雀位置的過(guò)程中存在參數(shù)有小數(shù)的問(wèn)題,為了解決此問(wèn)題,本文在算法中加入了離散策略。每只麻雀?jìng)€(gè)體是一個(gè)1×9 的向量,前6 個(gè)變量對(duì)應(yīng)非整型的超參數(shù),采用改進(jìn)麻雀搜索算法的位置更新方式進(jìn)行迭代;后3 個(gè)變量對(duì)應(yīng)整型的超參數(shù),在麻雀位置更新后,引入離散解碼策略,該策略的解碼過(guò)程如圖3 所示。

        圖3 離散超參數(shù)解碼過(guò)程Fig.3 Discrete hyperparameter decoding process

        2.2.2 種群初始化 反向?qū)W習(xí)策略是群智能優(yōu)化的一種改進(jìn)策略,主要思想是根據(jù)當(dāng)前群體產(chǎn)生一個(gè)反向群體,比較兩個(gè)群體的適應(yīng)度值,擇優(yōu)組成新的群體。針對(duì)采取隨機(jī)生成初始種群個(gè)體的標(biāo)準(zhǔn)麻雀搜索算法,引入反向?qū)W習(xí)策略,有助于提高種群多樣性和算法的全局搜索能力。種群初始化步驟如下:

        (1)采用隨機(jī)策略生成n個(gè)初始麻雀?jìng)€(gè)體。

        (2)生成初始種群的反向種群,反向種群的生成公式如式(6)所示:

        其中:pi,j表示初始種群中第i個(gè)個(gè)體的第j維值;Ubj和 Lbj分別表示第j維變量范圍的上下限;Pi,j表示反向種群中第i個(gè)個(gè)體的第j維值。

        (3)對(duì)初始種群和反向種群進(jìn)行整體適應(yīng)度評(píng)估,選取適應(yīng)度值較優(yōu)的前n個(gè)個(gè)體作為算法的初始種群。

        2.2.3 改進(jìn)生產(chǎn)者位置更新方式 標(biāo)準(zhǔn)SSA 算法中,生產(chǎn)者在安全閾值內(nèi)的位置信息會(huì)隨著迭代次數(shù)的增加逐漸向更小值逼近,忽視了反方向的位置信息,使算法具有很強(qiáng)的局部搜索能力,用于解決極值點(diǎn)在零點(diǎn)的問(wèn)題時(shí)具有很強(qiáng)的優(yōu)勢(shì),而超參數(shù)的搜索空間一般都大于零。為了解決上述問(wèn)題,本文去除了其收斂于零的部分,增加一個(gè)正態(tài)分布隨機(jī)數(shù),使超參數(shù)上下浮動(dòng)。同時(shí)為了保留原收斂因子的特性,設(shè)計(jì)了正態(tài)分布隨機(jī)數(shù)的方差 σ2,如式(7)所示,其中pop 為種群大小。適應(yīng)度越好,參數(shù)浮動(dòng)就越小;適應(yīng)度越差,參數(shù)浮動(dòng)就越大,有助于平衡算法的全局和局部搜索能力。

        在SSA 算法中,生產(chǎn)者在安全閾值外位置信息的控制步長(zhǎng)為0~1 的數(shù),然而不同超參數(shù)的上下界差異過(guò)大,采用相同的控制步長(zhǎng)會(huì)錯(cuò)過(guò)一些重要的位置信息。因此,本文引入了自適應(yīng)步長(zhǎng)K,如式(8)所示,每個(gè)變量的控制步長(zhǎng)由變量的范圍決定。

        改進(jìn)后的生產(chǎn)者位置更新如式(9)所示:

        3 基于ISSA 優(yōu)化LightGBM 超參數(shù)的入侵檢測(cè)模型

        本文構(gòu)建了基于ISSA-LightGBM 的工控入侵檢測(cè)模型。選擇LightGBM 模型作為入侵檢測(cè)的分類模型,采用改進(jìn)的麻雀搜索算法通過(guò)驗(yàn)證集的準(zhǔn)確率高低對(duì)LightGBM 模型的超參數(shù)進(jìn)行持續(xù)的迭代調(diào)整,將優(yōu)化后得到的最優(yōu)超參數(shù)用于構(gòu)建LightGBM模型,最后將訓(xùn)練集輸入給LightGBM 進(jìn)行模型訓(xùn)練,得到最優(yōu)分類模型,用以檢測(cè)工控系統(tǒng)中的攻擊。建立基于ISSA-LightGBM 入侵檢測(cè)模型的流程如圖4 所示。

        圖4 ISSA-LightGBM 入侵檢測(cè)模型流程圖Fig.4 Flow chart of ISSA-LightGBM intrusion detection model

        建立基于ISSA-LightGBM 的入侵檢測(cè)模型具體步驟如下:

        (1)數(shù)據(jù)劃分。將原始數(shù)據(jù)集按照7∶1∶2 的比例隨機(jī)抽取,劃分為訓(xùn)練集、驗(yàn)證集、測(cè)試集。訓(xùn)練集用于訓(xùn)練模型;驗(yàn)證集用于在模型超參數(shù)的優(yōu)化過(guò)程中評(píng)價(jià)模型的適應(yīng)度值;測(cè)試集則用于評(píng)估最終模型的檢測(cè)性能。

        (2)參數(shù)初始化。初始化ISSA 參數(shù)(種群大小、迭代次數(shù)等),確定LightGBM 待優(yōu)化的超參數(shù)的范圍,初始化LightGBM 模型的其他超參數(shù)。

        (3)初始化種群。采用反向?qū)W習(xí)策略生成麻雀的初始種群。

        (4)位置更新。根據(jù)式(9)、式(4)、式(5)更新麻雀種群的位置信息。

        (5)離散數(shù)據(jù)解碼。根據(jù)離散解碼策略對(duì)種群位置信息的后3 個(gè)變量進(jìn)行解碼。

        (6)計(jì)算適應(yīng)度。計(jì)算新種群的適應(yīng)度值,并與上一代進(jìn)行比較,更新最佳適應(yīng)度和最佳位置。

        (7)判斷麻雀種群的最佳適應(yīng)度值。如果滿足終止條件,則停止迭代;否則,返回步驟(4)重新開始迭代。

        (8)保存并輸出ISSA 的優(yōu)化結(jié)果。最優(yōu)的麻雀位置信息被用作表格1 中的LightGBM 超參數(shù)。

        (9)采用最優(yōu)超參數(shù)建立基于LightGBM 的入侵檢測(cè)模型,并用測(cè)試集進(jìn)行驗(yàn)證,計(jì)算各項(xiàng)性能指標(biāo)并輸出。

        4 實(shí)例分析

        4.1 實(shí)驗(yàn)環(huán)境和數(shù)據(jù)集

        本文實(shí)驗(yàn)在Intel(R) Core(TM) i7-4720HQ CPU @2.60 GHz 和Windows10 64 位操作系統(tǒng)的設(shè)備上進(jìn)行,運(yùn)行環(huán)境為python 3.0。為驗(yàn)證本文所提方法的檢測(cè)效果,使用密西西比州立大學(xué)在2014 年提出的天然氣管道標(biāo)準(zhǔn)工業(yè)數(shù)據(jù)集[18]。該數(shù)據(jù)集是從基于Modbus-TCP 通信協(xié)議的天然氣管道ICS 中收集。數(shù)據(jù)集包含正常數(shù)據(jù)樣本和7 類攻擊數(shù)據(jù)樣本共97 019 條,其中正常數(shù)據(jù)61 156 條,攻擊數(shù)據(jù)35 863條,具體如表2 所示。

        表2 天然氣管道數(shù)據(jù)集的描述[18]Table 2 Description of natural gas pipeline dataset[18]

        為了充分驗(yàn)證本文所提算法的檢測(cè)效果,選擇全部原始數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù),且不預(yù)先進(jìn)行任何特征處理或非平衡數(shù)據(jù)處理。將實(shí)驗(yàn)數(shù)據(jù)按照比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,其中訓(xùn)練樣本67 910條,約占70%,驗(yàn)證樣本9 701 條,約占10%,測(cè)試樣本19 408 條,約占20%。數(shù)據(jù)集的每個(gè)樣本都由26 個(gè)特征屬性和1 個(gè)類別標(biāo)簽組成。

        4.2 評(píng)價(jià)指標(biāo)

        準(zhǔn)確率(ACC)可以評(píng)估系統(tǒng)的整體性能,誤報(bào)率(FPR)表示正常流量的錯(cuò)誤分類,漏報(bào)率(FNR)表示異常流量的錯(cuò)誤分類,它們的定義分別如式(10)~(12)所示。本文選擇這3 個(gè)評(píng)價(jià)指標(biāo)來(lái)與其他入侵檢測(cè)模型的性能進(jìn)行對(duì)比。

        其中:TP 表示攻擊數(shù)據(jù)的識(shí)別數(shù);TN 表示正常數(shù)據(jù)的識(shí)別數(shù);FP 表示正常數(shù)據(jù)識(shí)別為攻擊數(shù)據(jù)的樣本數(shù);FN 表示攻擊數(shù)據(jù)識(shí)別為正常數(shù)據(jù)的樣本數(shù)。

        4.3 結(jié)果分析

        4.3.1 ISSA 性能評(píng)估 為了評(píng)估ISSA 參數(shù)尋優(yōu)的性能,本文將該算法與基于粒子群算法(PSO)、基于鯨魚優(yōu)化算法(WOA)和基于SSA 算法搭建的LightGBM 入侵檢測(cè)模型進(jìn)行了比較。由于優(yōu)化算法每次迭代的每個(gè)個(gè)體的適應(yīng)度評(píng)價(jià)都需要進(jìn)行建模,為提高效率,在測(cè)試優(yōu)化算法性能的實(shí)驗(yàn)中,本文隨機(jī)均勻地選擇10%的數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)來(lái)測(cè)試。在每次實(shí)驗(yàn)中,種群大小設(shè)置為30,迭代次數(shù)30 次。PSO 算法的參數(shù)c1=c2=1.5,ω=0.73 ,WOA算法的參數(shù) α 從2 線性遞減到0。每種模型獨(dú)立運(yùn)行30 次,然后取平均結(jié)果,實(shí)驗(yàn)結(jié)果如表3 所示。迭代過(guò)程中各算法的適應(yīng)度收斂曲線如圖5 所示。

        從表3 可以看出,總體上LightGBM 模型都具有良好的檢測(cè)精度,而ISSA 算法搜索到的參數(shù)可以更好地優(yōu)化LightGBM 模型,其入侵檢測(cè)的準(zhǔn)確率為98.92%,誤報(bào)率為0.67%,漏報(bào)率為1.77%,檢測(cè)精度比其他算法都好,誤報(bào)率和漏報(bào)率也更低,優(yōu)化所耗費(fèi)的時(shí)間也最少。與SSA-LightGBM 算法相比,ISSA-LightGBM 算法準(zhǔn)確率提高0.14%,檢測(cè)時(shí)間減少約25 s。從圖5 可以看出,ISSA 算法最優(yōu)適應(yīng)度和收斂速度均優(yōu)于其他算法,雖然在迭代初期,SSA 收斂較快,但由于初始種群的優(yōu)化,在后續(xù)迭代中,ISSA 算法的適應(yīng)度值均高于其他算法,同時(shí)在第8 次迭代時(shí)跳出局部最優(yōu)區(qū)域,達(dá)到更高的檢測(cè)精度,這說(shuō)明本文改進(jìn)的策略有效提高了SSA 算法跳出局部最優(yōu)的能力。通過(guò)ISSA 算法尋優(yōu)得到的LightGBM 模型最優(yōu)超參數(shù)如表4 所示。

        表4 ISSA-LightGBM 模型的最優(yōu)超參數(shù)Table 4 Optimal hyperparameters of ISSA-LightGBM model

        4.3.2 ISSA-LightGBM 入侵檢測(cè)模型檢測(cè)效果分析 為了評(píng)估本文所提算法在工控入侵檢測(cè)多分類問(wèn)題中的性能,采用在表4 中通過(guò)ISSA 算法尋優(yōu)得到的最優(yōu)超參數(shù)建立基于LightGBM 的工控入侵檢測(cè)模型。選取全部97 019 條數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),得到了該模型的混淆矩陣如圖6 所示。

        圖6 ISSA-LightGBM 模型的混淆矩陣Fig.6 Confusion matrix of ISSA-LightGBM model

        從圖6 中的混淆矩陣可以看出,本文模型的整體性能十分良好,能夠準(zhǔn)確有效地識(shí)別出絕大多數(shù)的攻擊。部分正常樣本被誤報(bào)為標(biāo)簽為1、2、4 類型的攻擊,同時(shí)部分標(biāo)簽為1、2、4 類型的攻擊被識(shí)別為正常數(shù)據(jù),為更準(zhǔn)確地驗(yàn)證本文所提模型用于工控系統(tǒng)入侵檢測(cè)的有效性,實(shí)驗(yàn)未對(duì)數(shù)據(jù)集進(jìn)行任何數(shù)據(jù)預(yù)處理。通過(guò)對(duì)訓(xùn)練集的分析發(fā)現(xiàn),出現(xiàn)此問(wèn)題的原因包括兩個(gè)方面:(1)正常數(shù)據(jù)中存在一些噪聲,導(dǎo)致了正常樣本的誤報(bào);(2)這幾種攻擊樣本數(shù)量較少,樣本的不平衡性導(dǎo)致攻擊的漏報(bào)。盡管如此,本文所提的模型仍表現(xiàn)出了極好的檢測(cè)性能。

        4.3.3 不同機(jī)器學(xué)習(xí)方法比較 為了更全面地評(píng)估模型的檢測(cè)性能,將本文的入侵檢測(cè)模型(ISSALGB)與KNN、SVM、文獻(xiàn)[9]中的CNN 和文獻(xiàn)[10]中的SLSTM 共5 種工控入侵檢測(cè)模型進(jìn)行對(duì)比實(shí)驗(yàn),對(duì)比結(jié)果如表5 所示。從表5 中可以看出,本文所提算法模型的檢測(cè)性能最好,準(zhǔn)確率高達(dá)98.93%,誤報(bào)率和漏報(bào)率低至0.85%、1.45%,遠(yuǎn)好于傳統(tǒng)的機(jī)器學(xué)習(xí)算法,不弱于深度學(xué)習(xí)算法。模型對(duì)近10 萬(wàn)條數(shù)據(jù)進(jìn)行訓(xùn)練建模與分類預(yù)測(cè),總共耗費(fèi)時(shí)間為6.05 s。在分類準(zhǔn)確率上,本文與文獻(xiàn)[10]十分接近,但為更準(zhǔn)確地驗(yàn)證模型性能,本文全部采用原始數(shù)據(jù)集,而文獻(xiàn)[10]采用SMOTE 算法進(jìn)行了不平衡數(shù)據(jù)處理。同時(shí)本文用于訓(xùn)練與檢測(cè)的數(shù)據(jù)量是文獻(xiàn)[10]中數(shù)據(jù)的近6 倍,是其他模型的近10 倍,雖然文獻(xiàn)[10]中的檢測(cè)時(shí)間加上了模型參數(shù)優(yōu)化的時(shí)間,但本文模型的檢測(cè)時(shí)間遠(yuǎn)小于其模型,在檢測(cè)時(shí)間上具有極大的優(yōu)勢(shì)。實(shí)驗(yàn)結(jié)果驗(yàn)證了本文算法能夠在保證較高的分類準(zhǔn)確率以及較低的誤報(bào)率、漏報(bào)率的同時(shí),擁有較短的訓(xùn)練和預(yù)測(cè)時(shí)間,能夠很好地滿足工業(yè)控制系統(tǒng)的實(shí)時(shí)性要求。

        表5 模型性能對(duì)比Table 5 Model performance comparison

        圖7 示出了本文算法模型與對(duì)比算法模型對(duì)各類攻擊數(shù)據(jù)的檢測(cè)性能圖。從圖7 可以看出,各類算法識(shí)別正常和攻擊數(shù)據(jù)都有較好的檢測(cè)效果,但是對(duì)NMRI、MSCI、MFCI 的識(shí)別效果不佳。本文所建立的模型對(duì)所有攻擊都有較高的識(shí)別率,具有很好的可靠性。對(duì)于7 種攻擊樣本,本文模型的識(shí)別準(zhǔn)確率均最高,尤其對(duì)于來(lái)自NMRI、MSCI、MFCI 的攻擊,本文模型比其他算法具有極其明顯的優(yōu)勢(shì)和十分可靠的安全性能。

        圖7 各類攻擊檢測(cè)性能Fig.7 Detection performance of various attacks

        5 結(jié)束語(yǔ)

        本文針對(duì)工控網(wǎng)絡(luò)入侵檢測(cè)在處理海量數(shù)據(jù)時(shí)高精度和高實(shí)時(shí)性的要求,提出了一種基于ISSALightGBM 的入侵檢測(cè)模型。ISSA 引入離散策略保證了參數(shù)的合法性,同時(shí)改進(jìn)了初始種群和麻雀的位置更新函數(shù),提高了種群多樣性,增強(qiáng)了全局搜索能力,以獲取LightGBM 最優(yōu)超參數(shù)。將超參數(shù)優(yōu)化后的ISSA-LightGBM 入侵檢測(cè)模型與其他基于傳統(tǒng)機(jī)器學(xué)習(xí)和基于深度學(xué)習(xí)的入侵檢測(cè)算法進(jìn)行了對(duì)比實(shí)驗(yàn),結(jié)果表明,本文算法無(wú)需復(fù)雜的數(shù)據(jù)預(yù)處理,不僅可以更加高效處理海量工控網(wǎng)絡(luò)數(shù)據(jù),而且具有更好的檢測(cè)性能。

        猜你喜歡
        檢測(cè)模型
        一半模型
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        “幾何圖形”檢測(cè)題
        “角”檢測(cè)題
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        3D打印中的模型分割與打包
        小波變換在PCB缺陷檢測(cè)中的應(yīng)用
        在线a免费观看| 青青草原精品99久久精品66| 丝袜美腿福利一区二区| 成熟了的熟妇毛茸茸 | 国产白嫩美女在线观看| 日韩在线不卡免费视频| 九九在线精品视频xxx| 久久激情人妻中文字幕| 丝袜美腿一区在线观看| 91久久综合精品久久久综合 | 亚洲精品国产av一区二区| 青青草激情视频在线播放| 人妻熟妇乱又伦精品视频| 蜜桃av抽搐高潮一区二区| 18禁超污无遮挡无码免费游戏| 午夜片无码区在线| 91视频爱爱| 亚洲av色香蕉一区二区蜜桃| 神马不卡影院在线播放| 在线观看国产成人自拍视频| 日韩av无码精品一二三区| 久久伊人色av天堂九九| 欧洲中文字幕| 中文字幕这里都是精品| 亚洲中文字幕第15页| 亚洲av午夜精品无码专区| 亚洲男同志网站| 亚洲自偷自拍另类图片小说| 亚州五十路伊人网| 高潮av一区二区三区| 国产三级视频不卡在线观看| 潮喷失禁大喷水aⅴ无码| 国产色秀视频在线播放| 亚洲一区二区自拍偷拍| 小草手机视频在线观看| 成人一区二区人妻少妇| 久久综合给合综合久久| 狠狠色狠狠色综合久久第一次 | 日本一区二区三区亚洲| av免费不卡国产观看| 久久亚洲sm情趣捆绑调教|