中圖分類號:TP393.08 文獻標志碼:A 文章編號:1008-4657(2025)04-0018-07
0 引言
網絡入侵檢測系統(tǒng)作為工業(yè)物聯(lián)網安全中不可或缺的技術,通常作為一種軟件機制部署,用于監(jiān)控和檢測整個工業(yè)網絡的入侵事件或異常[11。在工業(yè)物聯(lián)網中從大量高維網絡流量數(shù)據(jù)中進行可靠的入侵檢測結果對于傳統(tǒng)的規(guī)則型入侵檢測系統(tǒng)來說仍然是一項非常艱巨的任務?,F(xiàn)有的人侵檢測研究已經探索了不同種類的自動編碼器(AE)技術[2],并在將高維特征重新編碼為低維特征方面取得了巨大成功。但是在面對不平衡并且數(shù)據(jù)特征維度高的數(shù)據(jù)集時,模型仍表現(xiàn)出超高的誤報率[3](FAR)。
本文設計了一種基于變分長短期記憶網絡(VLSTM)的網絡人侵檢測模型來處理不平衡網絡流量數(shù)據(jù)集中的特征維度高引起的模型誤報率高的問題。
1VLSTM模型框架
本文提出的VLSTM模型主要是解決不平衡數(shù)據(jù)集的中數(shù)據(jù)的高維特征入侵檢測問題。該模型旨在追求原始數(shù)據(jù)的壓縮和特征保留之間的平衡,其主要由壓縮網絡和估計網絡兩個模塊組成。模型框架圖如圖1所示,壓縮網絡是VLSTM模型的核心模塊,其主要包括LSTM編碼模塊[4]變分重參數(shù)模塊和LSTM解碼模塊,估計網絡的設計目的是通過一個輕量級的分類網絡根據(jù)輸入的網絡流量數(shù)據(jù)的低維特征表示來獲得準確度更高的入侵檢測識別結果。
如圖1所示,受傳統(tǒng)AE的啟發(fā)[5],使用了編碼器——解碼器結構來對信息進行編碼和解碼,已獲得保留全部特征信息的低維特征表示[6]。
圖1VLSTM模型框架圖
模型中使用LSTM來作為編碼器對輸入特征向量 ?x1,x2,x3? 進行編碼。編碼過程的數(shù)學表達如下:
w=h(X,θs)#
其中 θs 為LSTM編碼器的參數(shù), h(*) 為LSTM編碼器的數(shù)學函數(shù)。 w 為經過LSTM編碼器壓縮之后的嵌入向量。與AE類似,如果模型直接使用LSTMEncoder的輸出時,獲得的嵌入向量的不可觀察性通常會導致分類結果的不確定性。因此,變分重參數(shù)化模塊被設計為與LSTM編碼器共同優(yōu)化低維特征向量。變分重參數(shù)模塊的具體原理是通過變分貝葉斯方法對 w 進行轉換成一個新的隱變量。在這個模塊中,LSTM編碼器模塊的輸出 w 作為其輸入,用于生成一個低維度的隱變量其數(shù)學符號定義為 Z 這個過程可以用如下數(shù)學公式來表達:
Z=ν(w,θν)#
其中 θν 為變分貝葉斯方法的參數(shù), u(*) 為變分貝葉斯方法。
變分重參數(shù)模塊的壓縮過程可能會損失一些模型判別人侵數(shù)據(jù)的關鍵特征信息也有可能會帶來新的噪聲數(shù)據(jù)。為避免這些問題,讓模型能夠獲得一個更好的低維特征表示,并實現(xiàn)更佳的檢測效果,該框架也設計成了AE框架類似的結構即編碼器-解碼器結構。模型通過增加一個解碼器,使用中間的隱變量 Z 進行重構成一個和輸入向量相似的特征向量。從而保證了中間的隱變量中信息的完整性。其過程的數(shù)學公式可以表述如下:
X'=g(Z,θd)#
其中 θd 為LSTM解碼器的參數(shù)。 g(*) 為LSTM解碼器的函數(shù)。 X' 為重構向量,其維度必須要和輸入向量 X 一致。
基于全連接深度神經網絡構建的估計網絡旨在識別輸入數(shù)據(jù)是否可以歸類為正常流量數(shù)據(jù)或一種特定類型的網絡攻擊[3]。估計網絡的輸入來自壓縮網絡計算出的低維隱變量 Z
y' 表示估計網絡的輸出,可看作是基于本文提出的VLSTM模型的最終分類結果
總的來說,VLSTM模型的主要功能可以總結為:i)通過LSTM編碼器從高維原始輸入數(shù)據(jù)中獲得低維輸出 w 。ii)使用變分貝葉斯方法構造隱變量Z,并通過LSTM解碼器以及變分重新參數(shù)化中涉及的特殊的損失函數(shù)對Z進行優(yōu)化,以應對不平衡數(shù)據(jù)。ii)通過基于更明確的隱變量 Z 輸入到估計網絡進行網絡流量分類,用于入侵檢測。
2 變分LSTM模型架構
2.1 變分法重構隱變量
傳統(tǒng)的采樣方法(例如,馬爾可夫蒙特卡洛采樣方法[7])計算 AE 的邊際似然函數(shù) 的解空間,即使在一個非常小的數(shù)據(jù)集中,所需要的計算成本也是十分高昂。變分自編碼器(VAE)中采用變分貝葉斯的方法采用的估計的方法來計算,使得計算成本不再是一個問題。本研究受其啟發(fā),在模型中也使用變分貝葉斯方法來計算AE 的邊際似然函數(shù)的解空間。變分貝葉斯方法通過構造一個新的分布 q(Z|X) 來近似不可計算的后驗分布 p(w|X) ,然后通過優(yōu)化他們之間最大似然的最小下界,從而達到計算 p(w|X) 的目的。
輸入 X(i) 的最大對數(shù)似然函數(shù)可以分解為 p(w|X(i)) 和 的Kullback-leibler(KL)散度與 X(i) 的密度函數(shù)的下限之和。公式如下:
本文將 定義為重構項,主要用于估計 Z 和 X(i) 分布之間的差異。 DKL[q(Z|X(i))||
]用來估計
和 p(w∣X(i)) 分布之間的差異。模型中采用了梯度上升的方法來獲得似然函數(shù) L(θ,X(i)) 的最大下界的值。變分法構造出
來近似替代
。具體的構造方法為:先引入一個參數(shù) ρ∈~N(0,1) ,然后采用重參數(shù)方法對 w 的分布進行估計,估計后的分布為 Z ,具體的計算如下:
Z=μ+μ∈?ρ#
Z 服從一個特定的高斯分布 Z~N(μ,ρ2) 。其中 μ 和 ρ 分別由一個不同的非線性神經網絡來計算。通過這個重新參數(shù)化過程,與傳統(tǒng)的AE方案相比,可以學習到更合理、更明確的隱藏變量 Zc 0
2.2隱變量的魯棒性約束
在優(yōu)化過程中,深度學習模型可能會受到多種因素的影響,甚至會在對抗性競爭中引入不必要的噪音。因此,在學習過程中引入了三個損失函數(shù)來約束并優(yōu)化隱藏變量 Z ,以保證重構隱藏變量的特征分布與原始輸入數(shù)據(jù)的特征分布一致。
首先,模型設計了輸入向量 X(i) 和重構向量 X(i) 之間的重構損失,用來衡量隱變量 Z 中保留了 X 的特征信息量。計算公式如下:
然后,定義了真實數(shù)據(jù)的標簽 y' 和預測結果 y(i) 之間的交叉信息熵,用來作為分類器的損失函數(shù) lμi (2公式如下:
lμi=-p(y(i))logq(y(i))#
此外,進一步研究了 Z 和 X(i) 之間的 KL 散度損失。先考慮它倆的互信息。按照定理可以知道,互信息 I(X(i),Z) 的值越大,表示 Z 中包含 X(i) 中的信息越多。互信息的公式表達如下:
I(X(i),Z)=Ep(X0,Z)[logp(X(i),Z)-logp(X(i))p(Z)]=Ep(X0,Z)[Dkl[p(Z|X(i))||p(Z)]]#
公式(8)中可以看到能使用 DKL 來對 Z 和 X(i) 進行估計。然而這一項也是公式(4)的一個組成項,我們要使公式(4)最大化,在此過程中反而最小化了 DKL° 這意味著減小了公式(8)的值,同時這兩個優(yōu)化之間存在著一個對抗的過程,然而在后續(xù)的實驗中也觀察到了種現(xiàn)象。實際上,公式(4)的重構項和KL散度項相互依賴。最大 I(X(i),Z) 的下限可以通過最小化重構項來實現(xiàn)。重構項用于調整公式(4)和公式(8)之間的平衡,最終可以促進VLSTM模型中更顯式和更有意義的隱藏變量的學習。因此,可以定義 LKL(i) 來表示Z和 X(i) 之間的散度損失,可以用對抗性競爭的方式表示如下:
lKL(i)=-L(θ;X(i))#
2.3損失函數(shù)設計及算法
在VSLTM模型中,為了能夠處理非平衡數(shù)據(jù)集下的高維數(shù)據(jù),我們通過設計了三個損失函數(shù):重構損失 lrecon 、分類損失 lμ 和KL散度損失 l?KL 一起協(xié)作的限制低維特征表示隱變量 Z ,從而減少優(yōu)化過程中噪聲的影響。模型的整體損失函 lνistm 用數(shù)學形式描述如下:
lvistm(i)=lrecon(i)+lKL(i)+lμ(i)#
VLSTM網絡入侵檢測模型的流程描述如下。
輸入:訓練數(shù)據(jù)集 D 和 Y 對應的標簽
輸出:各個數(shù)據(jù)的預測標簽 Y 。
Step1對訓練數(shù)據(jù)的特征向量進行歸一化處理;
Step2使用LSTM編碼器對輸入數(shù)據(jù)的特征向量進行特征抽取并降低其維度,利用變分貝葉斯方法生成隱變量Z,并在訓練過程中不斷更新;
Step3使用LSTM解碼器重構 X' ,它的特征維度與輸入數(shù)據(jù) X 相同;
Step4將隱變量 Z 輸入到分類網絡,得到異常檢測的分類結果 Y 。
3 實驗結果與分析
3.1 實驗準備
使用64位Win10操作系統(tǒng),四核八線程Intel(R)core i5-1135G7CPU和16GBDDR4 RAM,采用Python3.7編程,分別在公共的IBD數(shù)據(jù)集UNSW-NB15[8]和CIC-IDS2017[9]數(shù)據(jù)集進行對比實驗,UNSW-NB15 數(shù)據(jù)集記錄了9種網絡攻擊行為,分別為Fuzzers,Analysis,Backdoors,Dos,Exploits,Generic,Reconnaissance,Shellcode,Worms,包括49個特征,本實驗去除了原始數(shù)據(jù)Lable 標簽項,將attack_cat項作為標簽項,入侵問題轉化為十分類問題,共有48個特征,訓練集1750002條,測試集700001條,無須平衡處理。CIC-IDS2017數(shù)據(jù)集是在一個模擬正常流量的小型網絡環(huán)境中記錄的,原始數(shù)據(jù)包捕獲和具有80個特性的網絡流量都可以使用,訓練集1979513,測試集848363,數(shù)據(jù)集涵蓋了許多最新的互聯(lián)網的攻擊類型,因此在實驗中使用它。
3.2 隱變量效果檢驗
首先對隱變量 Z 的表示進行可視化,以評估壓縮網絡的重新參數(shù)化有效性。在本實驗中,將生成的隱變量 Z, 輸入向量 X 和重構向量 X' 分別使用主成分分析(PCA)降維成一個三維向量,并進行可視化分析,并用不同形狀和顏色的點表示不同的數(shù)據(jù)類型,結果如圖2所示。
圖2基于PCA的特征表示可視化結果圖
從圖2(a)和圖2(b)觀察到輸入向量和重構向量的數(shù)據(jù)分布幾乎是一致的。這個結果表明,用于生成重構向量的隱藏變量保留了足夠的原始向量特征信息。
為了驗證特征抽取的效果,基于PCA將隱藏變量可視化,如圖2(c)所示。從圖2(c)可以看出,隱變量特征表示可視化的結果,數(shù)據(jù)被清楚地分為兩部分,即攻擊和正常部分。這種聚類現(xiàn)象顯然表明攻擊數(shù)據(jù)被成功識別并與正常數(shù)據(jù)嚴格區(qū)分開來,這意味著原始輸人數(shù)據(jù)中的那些關鍵特征被有效地保留在隱藏變量中。此外,兩個集群之間的明顯距離,表示為藍點和紅點,說明這個隱藏變量將導致后者估計網絡中的FAR分數(shù)相對較低??傊?,這些PCA結果可以驗證VLSTM模型在通過所提出的壓縮網絡優(yōu)化隱變量方面的有效性,尤其是在處理不平衡數(shù)據(jù)集中的高維特征數(shù)據(jù)時。
3.3網絡入侵檢測結果分析
實驗中,選擇Adam作為模型的優(yōu)化策略,它是隨機梯度下降(SGD)的升級版本。
在本實驗中,模型的學習率設置為0.005,最大迭代次數(shù)設置為200。為了評估本文提出的檢測模型的訓練過程,將 lrecon?lKL 、 lμ 和 在每次迭代中的損失分別比較,模型收斂速度曲線如圖3所示。
圖3VLSTM訓練過程的損失曲線圖
由圖3可知,模型的整體損失在前10次迭代便快速下降,然后變得相對穩(wěn)定,結果表明了該模型在網絡入侵檢測中的魯棒性。
進一步將本文提出的模型與六種基線方法,在檢測網絡入侵的能力方面進行了比較。實驗中,分別在公共的IBD數(shù)據(jù)集UNSW-NB15和CIC-IDS2017數(shù)據(jù)集進行對比實驗,采用了耗時/s,Precision,Recall,F(xiàn)1score,F(xiàn)AR和AUC作為模型的評估指標體系[10]。在數(shù)據(jù)不平衡,網絡流量特征維度高的背景下,更加關注模型對于FAR指標的優(yōu)化程度[1]。表1、2中分別展示了模型在驗證數(shù)據(jù)集和測試數(shù)據(jù)集的檢測結果。
表1UNSW-NB15數(shù)據(jù)集入侵檢測結果比較表
表2CIC-IDS2017數(shù)據(jù)集入侵檢測結果比較表
從如表1、2結果中,我們發(fā)現(xiàn)六種基線方法在驗證數(shù)據(jù)上表現(xiàn)良好,但在測試數(shù)據(jù)上表現(xiàn)相對較差,這是因為模型產生了過度擬合問題。相比之下,VLSTM方法在測試數(shù)據(jù)上優(yōu)于這六種方法,F(xiàn)1為,F(xiàn)AR為,AUC為。這表明所提出的VLSTM模型可以有效地避免過度擬合問題。總體結果表明,與基線方法相比,本文的方法可以有效地區(qū)分攻擊與正常網絡流量數(shù)據(jù),并顯著降低了誤報率;在兩個一數(shù)據(jù)集下進行相同的數(shù)據(jù)預處理步驟,VLSTM運行模型的運行時間分別為 1032s,1245 s相比于其他方法運行時間更短,也更適合現(xiàn)實場景下的需求。
4結論
本文設計了一種VLSTM入侵檢測模型來應對不平衡網絡數(shù)據(jù)集中的數(shù)據(jù)維度高的問題。提出的VLSTM模型,它主要由一個壓縮網絡和一個分類網絡組成,其中壓縮網絡主要包括LSTM編碼器模塊、變分重參數(shù)模塊和LSTM解碼器模塊,旨在降低高維原始數(shù)據(jù)的復雜性,但不丟失關鍵特征。并提出了一種基于變分貝葉斯的重新參數(shù)化方案,以重建用于低維特征表示的隱藏變量。特別地,模型中設計了三個損失函數(shù),即重建損失、分類損失和KL散度損失,他們之間互相約束,將隱藏變量約束為更明確的和有意義的形式。從而模型可以構建出更加精細的特征表示以至于只需要非常輕量級估計網絡就可以進行網絡流量分類。實驗過程中采用了UNSW-NB15和CIC-IDS2017的開放數(shù)據(jù)集進行實驗。評估結果表明,VLSTM模型可以顯著增強特征提取,降低誤報率并提高檢測精度,運行時間更短,從而表明本文的方法在非平衡網絡數(shù)據(jù)集中數(shù)據(jù)特征維度高的網絡入侵檢測中的有用性及可行性。但本文仍存在一些需要改進的問題,比如探索更好的數(shù)據(jù)預處理技術或對非平衡數(shù)據(jù)更為敏感的損失函數(shù)來進一步提高模型的效果,提高計算效率來用于實時網絡入侵檢測,這是下一步改進的方向。
參考文獻:
[1]徐忠原,楊秀華,王業(yè),等.面向不平衡數(shù)據(jù)集的網絡入侵檢測算法[J].吉林大學學報(信息科學版),2023,41(6):1112-1119.
[2]張國令,王曉丹,李睿,等.基于棧式降噪稀疏自編碼器的極限學習機[J].計算機工程,2020,46(9):61-67.
[3]陳鋼,李德英,陳希祥.基于改進XGBoost模型的低誤報率竊電檢測方法[J].電力系統(tǒng)保護與控制,2021,49(23):178-186.
[4]張鵬飛.基于機器學習的入侵檢測模型對比研究[J].信息安全研究,2023,9(8):739-744.
[5]KurniabudiK,HarrsA,MintariaAE.Komparasi formationgain,ainratio,CFsbestfirstdanCFs-SOsearchterhdapper formadeteksianomali[J].JurnalMediaInformatikaBudidarma,2O21,5(1):332-343.
[6]KristianYSantosoJ.Pemanfaaandeepconvolutionalutoencoderuntukitigasiseranganadversarialattckpadacitradigital[J].JournalofInformationand Technology,2O23,11(1):50-59.
[7]Muharisa C,YanuarF,Yozza H.Perbandingan metode maximum likelihooddan metode bayes dalammengestimasi parameter model regresi linier berganda untuk data berdistribusi normal[J]. Jurnal Matematika,2O19,4(2):100-107.
[8]Ohno H.Auto-encoder-based generativemodels fordataaugmentationonregresionproblems[J].Soft Computing,220,24 (11):7999-8009.
[9]ZhouXiaokang,HuYiyong,LiangWei,etal.VariationalLSTenhancedanomalydetectionforidustrialbigdata[J]EEE TransactionsonIndustrial Informatics,2020,17(5):3469-3477.
[10]JoseJ,JoseDV.Depleamingalgorithsforntrusiondetectionsystems ininteretoftngsusingCICIDO17datase]. International Journal of Electrical and Computer Engineering(IJECE),2023,13(1) :1134-1141.
[11]Haris A I,Riyanto B,Surachman F,etal.Analisis pengamanan jaringan menggunakanrouter mikrotik dari serangandos dan pengaruhnya terhadap performansi[J]. Komputika:Jurnal Sistem Komputer,2O22,11(1) :67-76.
Research on Intrusion Detection Methods for Unbalanced Small Sample Datasets
KE Hongming,YANG Jing,SHI Yang,WANG Mengge (School of Mathematicsand Computer Science,Hanjiang Normal University,Shiyan442OOo,China)
Abstract:Inordertodealwiththeproblemofhighmodel1alarmratecausedbyhighfeaturedimensionalityinunbalanced few-samplenetworktraffcdatasets,anetworkintrusiondetectionmodelbasedonreconstructedfeaturerepresentationforetwork detectionwith VariationalLngShort-Tem Memory(VLSTM)isproposed.Anencoder-decoderneuralnetwork associated witha combinedvariationalreparameterizationschemeisdesignedimingtolearlow-dimensionalfeaturerepresentationsfromhighdimensionalrawdata.Threelossfunctions aredefinedtoconstrain thereconstructedhidden variablesintoclearerand more meaningfulfeaturerepresentatios,andtenproviderefinedfeaturerepresentationstoelightweightstimationnetworkfordentifgnet work anomaliesinIBD.Using thecommonIBDdatasets UNSWNB15andCIC-IDS2017forcomparative experiments,theresults showthatthe VSTMmodelcaneffectivelydealwith imbalanceandhigh-dimensionalproblems,andtheresultsofF1,AUC,and FAR indicate improved accuracy and reduced 1 alarm rates for network detection.
Key Words :intrusion detection;sample less leaming;feature selection;unbalanceddataset;GAN;variational Bayesian
[責任編輯:許立群]