亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于ISSA-LightGBM 的工控入侵檢測(cè)研究

2023-11-06 12:34:48趙志達(dá)王華忠

華東理工大學(xué)學(xué)報(bào)(自然科學(xué)版) 2023年5期

趙志達(dá)，王華忠

（華東理工大學(xué)能源化工過(guò)程智能制造教育部重點(diǎn)實(shí)驗(yàn)室, 上海 200237）

工控系統(tǒng)（ICS）是國(guó)家關(guān)鍵基礎(chǔ)設(shè)施的重要組成部分[1]，在確保煉油、化工、電力、食品、水廠、交通、制藥等生產(chǎn)與服務(wù)系統(tǒng)穩(wěn)定運(yùn)行上起著重要的保障作用[2]。隨著信息技術(shù)（IT）與工業(yè)控制網(wǎng)絡(luò)的不斷融合[3]，關(guān)鍵基礎(chǔ)設(shè)施控制系統(tǒng)已成為互聯(lián)網(wǎng)的一部分，更容易受到各種網(wǎng)絡(luò)攻擊。ICS 的異?；虮罎⒖赡軒?lái)經(jīng)濟(jì)損失、環(huán)境破壞甚至人員生命損失[4]，加強(qiáng)ICS 的網(wǎng)絡(luò)安全防護(hù)十分重要[5]。

工控系統(tǒng)的常見網(wǎng)絡(luò)攻擊包括拒絕服務(wù)（DOS）攻擊、虛假數(shù)據(jù)注入（FDI）攻擊、偵察攻擊、重放攻擊等，而入侵檢測(cè)可以主動(dòng)監(jiān)控網(wǎng)絡(luò)流量和主機(jī)等設(shè)備，發(fā)現(xiàn)并阻止網(wǎng)絡(luò)攻擊[6]。隨著人工智能技術(shù)的發(fā)展，機(jī)器學(xué)習(xí)在入侵檢測(cè)中的應(yīng)用越來(lái)越廣泛[7]，然而，工控系統(tǒng)會(huì)產(chǎn)生大量的非線性高維數(shù)據(jù)。傳統(tǒng)的機(jī)器學(xué)習(xí)方法，如K 最鄰近法（KNN）、支持向量機(jī)（SVM）等，雖然算法簡(jiǎn)單、訓(xùn)練時(shí)間短，但是檢測(cè)準(zhǔn)確率相對(duì)較低，而且在處理這些工控?cái)?shù)據(jù)之前需要進(jìn)行復(fù)雜的數(shù)據(jù)預(yù)處理以及人為的特征提取，這需要依靠豐富的經(jīng)驗(yàn)和大量的實(shí)踐。卷積神經(jīng)網(wǎng)絡(luò)（CNN）、長(zhǎng)短期記憶網(wǎng)絡(luò)（LSTM）等深度學(xué)習(xí)方法雖然可以避免復(fù)雜的數(shù)據(jù)預(yù)處理，且具有較高的準(zhǔn)確性，但會(huì)消耗大量計(jì)算資源，且訓(xùn)練時(shí)間長(zhǎng)，參數(shù)調(diào)整困難。

近年來(lái)，很多研究人員將機(jī)器學(xué)習(xí)算法應(yīng)用到入侵檢測(cè)研究，并取得了一定的成果。黃一鳴等[8]提出了一種基于SVM 的工控入侵檢測(cè)模型，通過(guò)特征增強(qiáng)的方式提高數(shù)據(jù)集的質(zhì)量，改善了模型檢測(cè)精度，但是該方法需要進(jìn)行復(fù)雜的特征變換和數(shù)據(jù)預(yù)處理。陳漢宇等[9]提出了基于統(tǒng)一計(jì)算設(shè)備架構(gòu)（CUDA）的并行化策略，將串行SVM并行化，把復(fù)雜的計(jì)算過(guò)程移植到GPU 上，大大提高了模型訓(xùn)練速度，但是該方法成本高、靈活性差。Ling 等[10]提出了一種基于雙向簡(jiǎn)單循環(huán)單元的入侵檢測(cè)模型，使用跳躍連接，通過(guò)簡(jiǎn)單循環(huán)單元（SRU）神經(jīng)網(wǎng)絡(luò)中優(yōu)化的雙向結(jié)構(gòu)，緩解模型中梯度消失問(wèn)題，該方法雖然降低了訓(xùn)練時(shí)間，但是犧牲了檢測(cè)效果。劉會(huì)鵬等[11]提出了一種基于堆疊LSTM 的入侵檢測(cè)模型，并采用貝葉斯優(yōu)化算法對(duì)深度學(xué)習(xí)超參數(shù)進(jìn)行尋優(yōu)，該方法雖然大大提高了模型檢測(cè)性能但是卻占用大量?jī)?nèi)存和時(shí)間。Narayana等[12]將入侵檢測(cè)分為兩個(gè)階段：第1 階段，采用平滑L1 正則化增強(qiáng)自編碼器的稀疏性，學(xué)習(xí)特征的稀疏表示；第2 階段，使用深度神經(jīng)網(wǎng)絡(luò)（DNN）對(duì)攻擊進(jìn)行檢測(cè)。由于消除了異常的特征，并通過(guò)特征提取降低了特征維數(shù)，該模型整體性能優(yōu)于傳統(tǒng)模型。

LightGBM 是Ke 等[13]在2017 年提出的一種改進(jìn)的梯度提升決策樹（GBDT）模型，能夠高速準(zhǔn)確地處理海量數(shù)據(jù)，在工業(yè)環(huán)境中具有良好的應(yīng)用前景：（1）它支持分類特征的直接輸入，在數(shù)據(jù)預(yù)處理階段無(wú)需進(jìn)行one-hot 編碼；（2）它是一種樹模型，無(wú)需進(jìn)行歸一化操作以處理由于輸入變量量綱不同造成的影響；（3）引入EFB 算法進(jìn)行特征降維，可以省去常規(guī)算法要求的特征提?。唬?）支持高效的特征并行和數(shù)據(jù)并行，訓(xùn)練速度快。

基于LightGBM 算法處理工業(yè)數(shù)據(jù)的潛在優(yōu)勢(shì)，本文提出了一種基于ISSA-LightGBM 的工控系統(tǒng)入侵檢測(cè)模型。針對(duì)標(biāo)準(zhǔn)麻雀搜索算法的種群多樣性少和跳出局部最優(yōu)解難的問(wèn)題，提出了一種改進(jìn)的麻雀搜索算法：（1）引入離散解碼策略；（2）使用反向?qū)W習(xí)策略生成初始種群；（3）麻雀位置更新函數(shù)中引入自適應(yīng)控制步長(zhǎng)和收斂因子，使算法具有更優(yōu)的初始種群和全局搜索能力。將改進(jìn)后的算法用于LightGBM 入侵檢測(cè)模型參數(shù)的優(yōu)化，使用密西西比州立大學(xué)（MSU）標(biāo)準(zhǔn)工控?cái)?shù)據(jù)集檢測(cè)模型的性能，并與其他方法進(jìn)行比較，驗(yàn)證了該方法在處理大量工業(yè)數(shù)據(jù)時(shí)具有檢測(cè)精度高、訓(xùn)練時(shí)間少等優(yōu)勢(shì)。

1 LightGBM

1.1 LightGBM 基本原理

LightGBM 是一種GBDT 實(shí)現(xiàn)，是為解決傳統(tǒng)GBDT 處理大樣本高維數(shù)據(jù)的難題而被提出的。相對(duì)于傳統(tǒng)的GBDT 算法，LightGBM 不僅保證了準(zhǔn)確率，而且訓(xùn)練速度更快[14]，內(nèi)存消耗更低，并且支持分布式并行，可以快速處理海量數(shù)據(jù)[15]，能夠有效解決工控入侵檢測(cè)訓(xùn)練速度慢、占用時(shí)間長(zhǎng)等問(wèn)題。LightGBM 的特點(diǎn)和優(yōu)化算法總結(jié)如下。

（1）Leaf-wise 決策樹生長(zhǎng)策略

多數(shù)決策樹算法使用的是低效的level-wise的決策樹生長(zhǎng)策略，同一層的葉子節(jié)點(diǎn)不加區(qū)分地進(jìn)行分裂，由于一些葉子節(jié)點(diǎn)分裂產(chǎn)生的增益較低，給算法帶來(lái)了不必要的消耗。與大多數(shù)GBDT 算法不同，LightGBM 采用具有深度限制的高效的leafwise 策略，每次層序遍歷所有當(dāng)前葉子節(jié)點(diǎn)，僅對(duì)增益最大的葉子節(jié)點(diǎn)進(jìn)行分裂，而不是所有葉子節(jié)點(diǎn)。因此，經(jīng)過(guò)相同的分裂次數(shù)，leaf-wise 策略產(chǎn)生的誤差更低，準(zhǔn)確率和效率也更高。同時(shí)為避免leaf-wise 策略生長(zhǎng)出深度比較大的決策樹， LightGBM增加了一個(gè)最大深度限制，以防止過(guò)擬合，能夠有效提高模型預(yù)測(cè)的魯棒性。level-wise 策略如圖1 所示，leaf-wise 策略如圖2 所示。

圖1 Level-wise 策略Fig.1 Level-wise algorithm

圖2 Leaf-wise 策略Fig.2 Leaf-wise algorithm

（2）直方圖算法

LightGBM 使用直方圖算法對(duì)特征數(shù)據(jù)進(jìn)行處理，將連續(xù)的特征數(shù)據(jù)離散化為k個(gè)整數(shù)作為直方圖的水平坐標(biāo)，構(gòu)造一個(gè)以k為寬度的直方圖。在遍歷數(shù)據(jù)時(shí)，采用直方圖累積統(tǒng)計(jì)值，然后根據(jù)離散的特征統(tǒng)計(jì)值確定最佳的特征分割點(diǎn)，因此模型特征只需統(tǒng)計(jì)1 次，避免了傳統(tǒng)機(jī)器學(xué)習(xí)算法在特征計(jì)算時(shí)會(huì)重復(fù)工作的問(wèn)題。該算法對(duì)原始連續(xù)特征值進(jìn)行分箱，并使用這些分箱來(lái)構(gòu)建模型，大大減少了分割點(diǎn)選擇的時(shí)間消耗和內(nèi)存消耗，提高了模型的訓(xùn)練和預(yù)測(cè)效率，特別適用于數(shù)據(jù)量大、數(shù)據(jù)維數(shù)高的問(wèn)題。

（3）單邊梯度采樣(GOSS)算法

LightGBM 引入了GOSS 算法，通過(guò)減少訓(xùn)練的數(shù)據(jù)量來(lái)提高訓(xùn)練效率。如果一個(gè)訓(xùn)練樣本的梯度極小，則表明該樣本的訓(xùn)練誤差極小，訓(xùn)練已經(jīng)十分完全，但直接舍棄所有這些梯度較小的樣本會(huì)降低模型的精度，因此GOSS 算法在減少訓(xùn)練量和保證精度之間進(jìn)行了平衡。將用于訓(xùn)練的數(shù)據(jù)根據(jù)梯度的大小進(jìn)行排序，并按一定比例劃分為高梯度訓(xùn)練樣本和低梯度訓(xùn)練樣本，保留所有高梯度樣本，對(duì)低梯度樣本按照一定比例隨機(jī)采樣，舍棄其他低梯度樣本。為了防止這樣的數(shù)據(jù)處理對(duì)樣本分布產(chǎn)生的影響，算法引入放大系數(shù)，將保留的低梯度樣本乘以放大系數(shù)。通過(guò)以上這些處理，算法在計(jì)算信息增益時(shí)會(huì)更加關(guān)注高梯度也就是訓(xùn)練不足的樣本，提高了訓(xùn)練效率。

（4）互斥特征捆綁(EFB)算法

與GOSS 算法不同，EFB 算法通過(guò)特征提取的方法提高模型訓(xùn)練的速度。通常的特征提取通過(guò)剔除一些無(wú)效的特征來(lái)降低訓(xùn)練數(shù)據(jù)的維度，而EFB算法則是通過(guò)捆綁互斥的特征來(lái)降低訓(xùn)練數(shù)據(jù)的特征維度。一般情況下，在高維數(shù)據(jù)空間中，數(shù)據(jù)是比較稀疏的，在稀疏的特征空間中，有些特征是互斥的，即這些特征不會(huì)同時(shí)是非零值，通過(guò)將這些互斥的特征捆綁在一起，形成一個(gè)單一的特征包，大大降低了模型的計(jì)算復(fù)雜度。

此外，LightGBM 算法支持類別特征的直接輸入，不需要進(jìn)行額外的0 / 1 展開；它支持?jǐn)?shù)據(jù)并行和特征并行[16]。這些優(yōu)化使LightGBM 算法具有更高的效率。

1.2 LightGBM 主要超參數(shù)

在機(jī)器學(xué)習(xí)算法中，模型的分類性能好壞與模型超參數(shù)的選擇有很大的關(guān)系，不同超參數(shù)組合的模型其表現(xiàn)有很大的差別。LightGBM 模型有較多的超參數(shù)，為了獲得LightGBM 模型的最優(yōu)性能，需要對(duì)模型參數(shù)進(jìn)行優(yōu)化。LightGBM 模型的主要超參數(shù)如表1 所示。

表1 LightGBM 模型的主要超參數(shù)Table 1 LightGBM main hyperparameters

不同參數(shù)尋優(yōu)方法得到的最優(yōu)超參數(shù)往往不同，目前常用的有人工搜索法、隨機(jī)搜索法、網(wǎng)格搜索法等等。人工搜索法需要手動(dòng)嘗試各種可能的參數(shù)組合，成本極高且效率低下。網(wǎng)格搜索法采用超參數(shù)所有的可能值進(jìn)行組合，當(dāng)超參數(shù)的變量數(shù)和范圍增加時(shí)，該方法效率會(huì)急速下降。隨機(jī)搜索法使用一系列隨機(jī)超參數(shù)組合，相對(duì)于網(wǎng)格搜索算法成本降低，但在測(cè)試新的超參數(shù)組合時(shí)，會(huì)忽略前一次組合的效果，導(dǎo)致搜索的效率極低。機(jī)器學(xué)習(xí)模型的超參數(shù)優(yōu)化問(wèn)題是一種黑盒問(wèn)題，智能優(yōu)化算法是解決此類優(yōu)化問(wèn)題的十分有效的方法，本文采用改進(jìn)的麻雀搜索算法進(jìn)行LightGBM 的超參數(shù)優(yōu)化。

2 改進(jìn)麻雀搜索算法（ISSA）

2.1 麻雀搜索算法（SSA）

SSA 是Xue 等[17]提出的一種群體智能優(yōu)化算法，受麻雀的群居智慧啟發(fā)，參考麻雀的覓食等行為提出的。在SSA 算法中，將麻雀分為生產(chǎn)者、拾荒者和捕食者3 種個(gè)體。其中生產(chǎn)者主要為整個(gè)種群尋找食物來(lái)源，拾荒者則跟隨生產(chǎn)者拾取食物，捕食者負(fù)責(zé)監(jiān)視覓食的區(qū)域。在覓食過(guò)程中，不斷更新三者位置，完成食物的獲取。

在算法中，通過(guò)個(gè)體模擬麻雀尋找食物。由所有個(gè)體組成的種群位置X可由式（1）的矩陣表示：

其中：n表示麻雀種群的數(shù)量；d表示待優(yōu)化變量的維度。

所有個(gè)體對(duì)應(yīng)的適應(yīng)度函數(shù)FX可由式（2）的向量表示：

其中FX每一行的函數(shù)表示每個(gè)個(gè)體的適應(yīng)度值。

2.1.1 生產(chǎn)者位置更新在SSA 中，適應(yīng)度較優(yōu)的生產(chǎn)者在搜索過(guò)程中優(yōu)先覓食，同時(shí)，生產(chǎn)者需要為拾荒者尋找食物并引導(dǎo)拾荒者的流動(dòng)，因此生產(chǎn)者比拾荒者在更廣的范圍內(nèi)尋找食物。生產(chǎn)者的位置更新公式如式（3）所示：

其中：t表示迭代次數(shù)；j=1,2,...,d；表示第i只適應(yīng)度較好的麻雀在迭代時(shí)的第j維值； α ∈[0,1] ；itermax表示最大迭代次數(shù)；R2(R2∈[0,1]) 和ST(ST ∈[0.5, 1.0])分別表示報(bào)警值和安全閾值；Q是服從正態(tài)分布的隨機(jī)數(shù)，L是 1×d的全1 矩陣。當(dāng)R2＜ST時(shí)，意味著周圍沒(méi)有危險(xiǎn)，生產(chǎn)者可以廣泛搜索食物；當(dāng)R2≥ST 時(shí)，說(shuō)明麻雀意識(shí)到了危險(xiǎn)，需飛到安全區(qū)域。

2.1.2 拾荒者位置更新拾荒者的位置更新公式如式（4）所示：

2.1.3 捕食者位置更新根據(jù)算法的設(shè)定，捕食者占種群比例的10%～20%。捕食者的位置更新公式如式（5）所示：

2.2 ISSA 算法的實(shí)現(xiàn)

2.2.1 離散策略的引入標(biāo)準(zhǔn)的SSA 算法用來(lái)解決連續(xù)優(yōu)化相關(guān)問(wèn)題，不適合用來(lái)解決離散優(yōu)化問(wèn)題。LightGBM 模型的主要超參數(shù)中存在數(shù)據(jù)類型是整形的，賦予超參數(shù)上下界的限制后，其可能的取值是有限的，數(shù)據(jù)是離散的。在更新麻雀位置的過(guò)程中存在參數(shù)有小數(shù)的問(wèn)題，為了解決此問(wèn)題，本文在算法中加入了離散策略。每只麻雀?jìng)€(gè)體是一個(gè)1×9 的向量，前6 個(gè)變量對(duì)應(yīng)非整型的超參數(shù)，采用改進(jìn)麻雀搜索算法的位置更新方式進(jìn)行迭代；后3 個(gè)變量對(duì)應(yīng)整型的超參數(shù)，在麻雀位置更新后，引入離散解碼策略，該策略的解碼過(guò)程如圖3 所示。

圖3 離散超參數(shù)解碼過(guò)程Fig.3 Discrete hyperparameter decoding process

2.2.2 種群初始化反向?qū)W習(xí)策略是群智能優(yōu)化的一種改進(jìn)策略，主要思想是根據(jù)當(dāng)前群體產(chǎn)生一個(gè)反向群體，比較兩個(gè)群體的適應(yīng)度值，擇優(yōu)組成新的群體。針對(duì)采取隨機(jī)生成初始種群個(gè)體的標(biāo)準(zhǔn)麻雀搜索算法，引入反向?qū)W習(xí)策略，有助于提高種群多樣性和算法的全局搜索能力。種群初始化步驟如下：

（1）采用隨機(jī)策略生成n個(gè)初始麻雀?jìng)€(gè)體。

（2）生成初始種群的反向種群，反向種群的生成公式如式（6）所示：

其中：pi,j表示初始種群中第i個(gè)個(gè)體的第j維值；Ubj和 Lbj分別表示第j維變量范圍的上下限；Pi,j表示反向種群中第i個(gè)個(gè)體的第j維值。

（3）對(duì)初始種群和反向種群進(jìn)行整體適應(yīng)度評(píng)估，選取適應(yīng)度值較優(yōu)的前n個(gè)個(gè)體作為算法的初始種群。

2.2.3 改進(jìn)生產(chǎn)者位置更新方式標(biāo)準(zhǔn)SSA 算法中，生產(chǎn)者在安全閾值內(nèi)的位置信息會(huì)隨著迭代次數(shù)的增加逐漸向更小值逼近，忽視了反方向的位置信息，使算法具有很強(qiáng)的局部搜索能力，用于解決極值點(diǎn)在零點(diǎn)的問(wèn)題時(shí)具有很強(qiáng)的優(yōu)勢(shì)，而超參數(shù)的搜索空間一般都大于零。為了解決上述問(wèn)題，本文去除了其收斂于零的部分，增加一個(gè)正態(tài)分布隨機(jī)數(shù)，使超參數(shù)上下浮動(dòng)。同時(shí)為了保留原收斂因子的特性，設(shè)計(jì)了正態(tài)分布隨機(jī)數(shù)的方差 σ2，如式（7）所示，其中pop 為種群大小。適應(yīng)度越好，參數(shù)浮動(dòng)就越小；適應(yīng)度越差，參數(shù)浮動(dòng)就越大，有助于平衡算法的全局和局部搜索能力。

在SSA 算法中，生產(chǎn)者在安全閾值外位置信息的控制步長(zhǎng)為0～1 的數(shù)，然而不同超參數(shù)的上下界差異過(guò)大，采用相同的控制步長(zhǎng)會(huì)錯(cuò)過(guò)一些重要的位置信息。因此，本文引入了自適應(yīng)步長(zhǎng)K，如式（8）所示，每個(gè)變量的控制步長(zhǎng)由變量的范圍決定。

改進(jìn)后的生產(chǎn)者位置更新如式（9）所示：

3 基于ISSA 優(yōu)化LightGBM 超參數(shù)的入侵檢測(cè)模型

本文構(gòu)建了基于ISSA-LightGBM 的工控入侵檢測(cè)模型。選擇LightGBM 模型作為入侵檢測(cè)的分類模型，采用改進(jìn)的麻雀搜索算法通過(guò)驗(yàn)證集的準(zhǔn)確率高低對(duì)LightGBM 模型的超參數(shù)進(jìn)行持續(xù)的迭代調(diào)整，將優(yōu)化后得到的最優(yōu)超參數(shù)用于構(gòu)建LightGBM模型，最后將訓(xùn)練集輸入給LightGBM 進(jìn)行模型訓(xùn)練，得到最優(yōu)分類模型，用以檢測(cè)工控系統(tǒng)中的攻擊。建立基于ISSA-LightGBM 入侵檢測(cè)模型的流程如圖4 所示。

圖4 ISSA-LightGBM 入侵檢測(cè)模型流程圖Fig.4 Flow chart of ISSA-LightGBM intrusion detection model

建立基于ISSA-LightGBM 的入侵檢測(cè)模型具體步驟如下：

（1）數(shù)據(jù)劃分。將原始數(shù)據(jù)集按照7∶1∶2 的比例隨機(jī)抽取，劃分為訓(xùn)練集、驗(yàn)證集、測(cè)試集。訓(xùn)練集用于訓(xùn)練模型；驗(yàn)證集用于在模型超參數(shù)的優(yōu)化過(guò)程中評(píng)價(jià)模型的適應(yīng)度值；測(cè)試集則用于評(píng)估最終模型的檢測(cè)性能。

（2）參數(shù)初始化。初始化ISSA 參數(shù)（種群大小、迭代次數(shù)等），確定LightGBM 待優(yōu)化的超參數(shù)的范圍，初始化LightGBM 模型的其他超參數(shù)。

（3）初始化種群。采用反向?qū)W習(xí)策略生成麻雀的初始種群。

（4）位置更新。根據(jù)式（9）、式（4）、式（5）更新麻雀種群的位置信息。

（5）離散數(shù)據(jù)解碼。根據(jù)離散解碼策略對(duì)種群位置信息的后3 個(gè)變量進(jìn)行解碼。

（6）計(jì)算適應(yīng)度。計(jì)算新種群的適應(yīng)度值，并與上一代進(jìn)行比較，更新最佳適應(yīng)度和最佳位置。

（7）判斷麻雀種群的最佳適應(yīng)度值。如果滿足終止條件，則停止迭代；否則，返回步驟（4）重新開始迭代。

（8）保存并輸出ISSA 的優(yōu)化結(jié)果。最優(yōu)的麻雀位置信息被用作表格1 中的LightGBM 超參數(shù)。

（9）采用最優(yōu)超參數(shù)建立基于LightGBM 的入侵檢測(cè)模型，并用測(cè)試集進(jìn)行驗(yàn)證，計(jì)算各項(xiàng)性能指標(biāo)并輸出。

4 實(shí)例分析

4.1 實(shí)驗(yàn)環(huán)境和數(shù)據(jù)集

本文實(shí)驗(yàn)在Intel(R) Core(TM) i7-4720HQ CPU @2.60 GHz 和Windows10 64 位操作系統(tǒng)的設(shè)備上進(jìn)行，運(yùn)行環(huán)境為python 3.0。為驗(yàn)證本文所提方法的檢測(cè)效果，使用密西西比州立大學(xué)在2014 年提出的天然氣管道標(biāo)準(zhǔn)工業(yè)數(shù)據(jù)集[18]。該數(shù)據(jù)集是從基于Modbus-TCP 通信協(xié)議的天然氣管道ICS 中收集。數(shù)據(jù)集包含正常數(shù)據(jù)樣本和7 類攻擊數(shù)據(jù)樣本共97 019 條，其中正常數(shù)據(jù)61 156 條，攻擊數(shù)據(jù)35 863條，具體如表2 所示。

表2 天然氣管道數(shù)據(jù)集的描述[18]Table 2 Description of natural gas pipeline dataset[18]

為了充分驗(yàn)證本文所提算法的檢測(cè)效果，選擇全部原始數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)，且不預(yù)先進(jìn)行任何特征處理或非平衡數(shù)據(jù)處理。將實(shí)驗(yàn)數(shù)據(jù)按照比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集，其中訓(xùn)練樣本67 910條，約占70%，驗(yàn)證樣本9 701 條，約占10%，測(cè)試樣本19 408 條，約占20%。數(shù)據(jù)集的每個(gè)樣本都由26 個(gè)特征屬性和1 個(gè)類別標(biāo)簽組成。

4.2 評(píng)價(jià)指標(biāo)

準(zhǔn)確率（ACC）可以評(píng)估系統(tǒng)的整體性能，誤報(bào)率（FPR）表示正常流量的錯(cuò)誤分類，漏報(bào)率（FNR）表示異常流量的錯(cuò)誤分類，它們的定義分別如式（10）～（12）所示。本文選擇這3 個(gè)評(píng)價(jià)指標(biāo)來(lái)與其他入侵檢測(cè)模型的性能進(jìn)行對(duì)比。

其中：TP 表示攻擊數(shù)據(jù)的識(shí)別數(shù)；TN 表示正常數(shù)據(jù)的識(shí)別數(shù)；FP 表示正常數(shù)據(jù)識(shí)別為攻擊數(shù)據(jù)的樣本數(shù)；FN 表示攻擊數(shù)據(jù)識(shí)別為正常數(shù)據(jù)的樣本數(shù)。

4.3 結(jié)果分析

4.3.1 ISSA 性能評(píng)估為了評(píng)估ISSA 參數(shù)尋優(yōu)的性能，本文將該算法與基于粒子群算法（PSO）、基于鯨魚優(yōu)化算法（WOA）和基于SSA 算法搭建的LightGBM 入侵檢測(cè)模型進(jìn)行了比較。由于優(yōu)化算法每次迭代的每個(gè)個(gè)體的適應(yīng)度評(píng)價(jià)都需要進(jìn)行建模，為提高效率，在測(cè)試優(yōu)化算法性能的實(shí)驗(yàn)中，本文隨機(jī)均勻地選擇10%的數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)來(lái)測(cè)試。在每次實(shí)驗(yàn)中，種群大小設(shè)置為30，迭代次數(shù)30 次。PSO 算法的參數(shù)c1=c2=1.5,ω=0.73 ，WOA算法的參數(shù) α 從2 線性遞減到0。每種模型獨(dú)立運(yùn)行30 次，然后取平均結(jié)果，實(shí)驗(yàn)結(jié)果如表3 所示。迭代過(guò)程中各算法的適應(yīng)度收斂曲線如圖5 所示。

從表3 可以看出，總體上LightGBM 模型都具有良好的檢測(cè)精度，而ISSA 算法搜索到的參數(shù)可以更好地優(yōu)化LightGBM 模型，其入侵檢測(cè)的準(zhǔn)確率為98.92%，誤報(bào)率為0.67%，漏報(bào)率為1.77%，檢測(cè)精度比其他算法都好，誤報(bào)率和漏報(bào)率也更低，優(yōu)化所耗費(fèi)的時(shí)間也最少。與SSA-LightGBM 算法相比，ISSA-LightGBM 算法準(zhǔn)確率提高0.14%，檢測(cè)時(shí)間減少約25 s。從圖5 可以看出，ISSA 算法最優(yōu)適應(yīng)度和收斂速度均優(yōu)于其他算法，雖然在迭代初期，SSA 收斂較快，但由于初始種群的優(yōu)化，在后續(xù)迭代中，ISSA 算法的適應(yīng)度值均高于其他算法，同時(shí)在第8 次迭代時(shí)跳出局部最優(yōu)區(qū)域，達(dá)到更高的檢測(cè)精度，這說(shuō)明本文改進(jìn)的策略有效提高了SSA 算法跳出局部最優(yōu)的能力。通過(guò)ISSA 算法尋優(yōu)得到的LightGBM 模型最優(yōu)超參數(shù)如表4 所示。

表4 ISSA-LightGBM 模型的最優(yōu)超參數(shù)Table 4 Optimal hyperparameters of ISSA-LightGBM model

4.3.2 ISSA-LightGBM 入侵檢測(cè)模型檢測(cè)效果分析為了評(píng)估本文所提算法在工控入侵檢測(cè)多分類問(wèn)題中的性能，采用在表4 中通過(guò)ISSA 算法尋優(yōu)得到的最優(yōu)超參數(shù)建立基于LightGBM 的工控入侵檢測(cè)模型。選取全部97 019 條數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)，得到了該模型的混淆矩陣如圖6 所示。

圖6 ISSA-LightGBM 模型的混淆矩陣Fig.6 Confusion matrix of ISSA-LightGBM model

從圖6 中的混淆矩陣可以看出，本文模型的整體性能十分良好，能夠準(zhǔn)確有效地識(shí)別出絕大多數(shù)的攻擊。部分正常樣本被誤報(bào)為標(biāo)簽為1、2、4 類型的攻擊，同時(shí)部分標(biāo)簽為1、2、4 類型的攻擊被識(shí)別為正常數(shù)據(jù)，為更準(zhǔn)確地驗(yàn)證本文所提模型用于工控系統(tǒng)入侵檢測(cè)的有效性，實(shí)驗(yàn)未對(duì)數(shù)據(jù)集進(jìn)行任何數(shù)據(jù)預(yù)處理。通過(guò)對(duì)訓(xùn)練集的分析發(fā)現(xiàn)，出現(xiàn)此問(wèn)題的原因包括兩個(gè)方面：（1）正常數(shù)據(jù)中存在一些噪聲，導(dǎo)致了正常樣本的誤報(bào)；（2）這幾種攻擊樣本數(shù)量較少，樣本的不平衡性導(dǎo)致攻擊的漏報(bào)。盡管如此，本文所提的模型仍表現(xiàn)出了極好的檢測(cè)性能。

4.3.3 不同機(jī)器學(xué)習(xí)方法比較為了更全面地評(píng)估模型的檢測(cè)性能，將本文的入侵檢測(cè)模型（ISSALGB）與KNN、SVM、文獻(xiàn)[9]中的CNN 和文獻(xiàn)[10]中的SLSTM 共5 種工控入侵檢測(cè)模型進(jìn)行對(duì)比實(shí)驗(yàn)，對(duì)比結(jié)果如表5 所示。從表5 中可以看出，本文所提算法模型的檢測(cè)性能最好，準(zhǔn)確率高達(dá)98.93%，誤報(bào)率和漏報(bào)率低至0.85%、1.45%，遠(yuǎn)好于傳統(tǒng)的機(jī)器學(xué)習(xí)算法，不弱于深度學(xué)習(xí)算法。模型對(duì)近10 萬(wàn)條數(shù)據(jù)進(jìn)行訓(xùn)練建模與分類預(yù)測(cè)，總共耗費(fèi)時(shí)間為6.05 s。在分類準(zhǔn)確率上，本文與文獻(xiàn)[10]十分接近，但為更準(zhǔn)確地驗(yàn)證模型性能，本文全部采用原始數(shù)據(jù)集，而文獻(xiàn)[10]采用SMOTE 算法進(jìn)行了不平衡數(shù)據(jù)處理。同時(shí)本文用于訓(xùn)練與檢測(cè)的數(shù)據(jù)量是文獻(xiàn)[10]中數(shù)據(jù)的近6 倍，是其他模型的近10 倍，雖然文獻(xiàn)[10]中的檢測(cè)時(shí)間加上了模型參數(shù)優(yōu)化的時(shí)間，但本文模型的檢測(cè)時(shí)間遠(yuǎn)小于其模型，在檢測(cè)時(shí)間上具有極大的優(yōu)勢(shì)。實(shí)驗(yàn)結(jié)果驗(yàn)證了本文算法能夠在保證較高的分類準(zhǔn)確率以及較低的誤報(bào)率、漏報(bào)率的同時(shí)，擁有較短的訓(xùn)練和預(yù)測(cè)時(shí)間，能夠很好地滿足工業(yè)控制系統(tǒng)的實(shí)時(shí)性要求。

表5 模型性能對(duì)比Table 5 Model performance comparison

圖7 示出了本文算法模型與對(duì)比算法模型對(duì)各類攻擊數(shù)據(jù)的檢測(cè)性能圖。從圖7 可以看出，各類算法識(shí)別正常和攻擊數(shù)據(jù)都有較好的檢測(cè)效果，但是對(duì)NMRI、MSCI、MFCI 的識(shí)別效果不佳。本文所建立的模型對(duì)所有攻擊都有較高的識(shí)別率，具有很好的可靠性。對(duì)于7 種攻擊樣本，本文模型的識(shí)別準(zhǔn)確率均最高，尤其對(duì)于來(lái)自NMRI、MSCI、MFCI 的攻擊，本文模型比其他算法具有極其明顯的優(yōu)勢(shì)和十分可靠的安全性能。

圖7 各類攻擊檢測(cè)性能Fig.7 Detection performance of various attacks

5 結(jié)束語(yǔ)

本文針對(duì)工控網(wǎng)絡(luò)入侵檢測(cè)在處理海量數(shù)據(jù)時(shí)高精度和高實(shí)時(shí)性的要求，提出了一種基于ISSALightGBM 的入侵檢測(cè)模型。ISSA 引入離散策略保證了參數(shù)的合法性，同時(shí)改進(jìn)了初始種群和麻雀的位置更新函數(shù)，提高了種群多樣性，增強(qiáng)了全局搜索能力，以獲取LightGBM 最優(yōu)超參數(shù)。將超參數(shù)優(yōu)化后的ISSA-LightGBM 入侵檢測(cè)模型與其他基于傳統(tǒng)機(jī)器學(xué)習(xí)和基于深度學(xué)習(xí)的入侵檢測(cè)算法進(jìn)行了對(duì)比實(shí)驗(yàn)，結(jié)果表明，本文算法無(wú)需復(fù)雜的數(shù)據(jù)預(yù)處理，不僅可以更加高效處理海量工控網(wǎng)絡(luò)數(shù)據(jù)，而且具有更好的檢測(cè)性能。