張 然,潘芷涵,朱 亮,尹毅峰
(鄭州輕工業(yè)大學(xué) 計算機與通信工程學(xué)院,河南 鄭州 450001)
在計算機網(wǎng)絡(luò)、大數(shù)據(jù)、云計算技術(shù)飛速發(fā)展的時代,安全問題也接踵而至。網(wǎng)絡(luò)安全威脅通常以有組織有預(yù)謀的行為模式展開,隨著網(wǎng)絡(luò)的普及,網(wǎng)絡(luò)安全威脅也逐漸演變?yōu)橐环N深層次、不可預(yù)估的社會行為,其對網(wǎng)絡(luò)的破壞直接影響著現(xiàn)實生活的社會秩序、人們的生命財產(chǎn)安全以及國家安全。網(wǎng)絡(luò)安全態(tài)勢感知技術(shù)具有全面洞察安全系統(tǒng)風(fēng)險的能力,可以幫助網(wǎng)絡(luò)管理員及時、動態(tài)地掌握網(wǎng)絡(luò)的運行狀況。網(wǎng)絡(luò)安全態(tài)勢感知技術(shù)主要分為三個步驟:數(shù)據(jù)收集、態(tài)勢要素提取、態(tài)勢的評估和預(yù)測。其中,態(tài)勢要素提取是態(tài)勢感知的準(zhǔn)備工作,主要負(fù)責(zé)對從安全設(shè)備中收集到的多源異構(gòu)數(shù)據(jù)進行處理并提取出影響網(wǎng)絡(luò)正常運行的因素,然后按照一定的規(guī)則進行分類識別,獲得最終的不同類別的態(tài)勢要素。因此,態(tài)勢要素提取也可以被視作數(shù)據(jù)的分類問題。態(tài)勢要素提取質(zhì)量的好壞直接影響著網(wǎng)絡(luò)態(tài)勢評估和預(yù)測的準(zhǔn)確性,因此采用精準(zhǔn)有效的方法進行網(wǎng)絡(luò)安全態(tài)勢要素的提取具有重要意義。
國外在態(tài)勢要素提取領(lǐng)域的研究開始較早。Tim Bass[1]將數(shù)據(jù)挖掘技術(shù)與多傳感器數(shù)據(jù)融合的網(wǎng)絡(luò)態(tài)勢感知框架相結(jié)合來實現(xiàn)態(tài)勢要素的提取。Jin等人[2]結(jié)合戰(zhàn)爭態(tài)勢及其環(huán)境問題構(gòu)造了基于概念模型的態(tài)勢要素提取方法。美國VIStology公司[3]在針對態(tài)勢感知進行研究時,提出了對態(tài)勢要素提取技術(shù)具有一定引導(dǎo)作用的抽象實體的概念。Bhandari[4]提出了一種基于特征選擇的數(shù)據(jù)預(yù)處理技術(shù),使用卡方檢驗和排序搜索方法進行特征約簡,降低數(shù)據(jù)維度,以方便下一步使用貝葉斯分類器進行識別攻擊。近年來,國內(nèi)研究者針對態(tài)勢要素提取也開展了大量研究工作。很多文獻通過智能優(yōu)化算法對分類器進行優(yōu)化以提高態(tài)勢要素提取的分類效率。文獻[5]提出一種改進的粒子群優(yōu)化算法和邏輯回歸算法相結(jié)合的態(tài)勢要素提取模型來提高網(wǎng)絡(luò)安全態(tài)勢數(shù)據(jù)提取的正確率。文獻[6]則使用粒子群算法對BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)進行改進來提高BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)精度和收斂速度,并引入模糊技術(shù)對輸入神經(jīng)網(wǎng)絡(luò)的歷史態(tài)勢要素進行處理,以實現(xiàn)態(tài)勢要素的提取,但該方法不能處理具有分布式特點的網(wǎng)絡(luò)攻擊所要求的關(guān)聯(lián)多元異構(gòu)數(shù)據(jù)。針對網(wǎng)絡(luò)規(guī)模擴大帶來的態(tài)勢要素提取難度的不斷增加,文獻[7]提出了一種基于人工魚群算法和粗糙集的新型屬性約簡算法。文獻[8]針對目前大多網(wǎng)絡(luò)安全態(tài)勢要素提取方法未考慮到的多特征降維態(tài)勢信息導(dǎo)致誤警率較高的問題,提出了一種多特征降維的網(wǎng)絡(luò)安全態(tài)勢要素提取模型。文獻[9]采用粗糙集理論對數(shù)據(jù)集進行屬性約簡,并使用隨機森林分類器來實現(xiàn)態(tài)勢要素的提取。也有研究者針對態(tài)勢要素提取不完整、小類攻擊樣本不能被有效檢測的問題進行了研究。文獻[10]為了解決網(wǎng)絡(luò)安全態(tài)勢要素提取中存在的數(shù)據(jù)特征提取不完整等問題,提出一種將CNN(Convolutional Neural Network)與BiLSTM(Bi-directional Long Short-Term Memory)相結(jié)合的方法,并從時間和空間兩個方面提取數(shù)據(jù)的時序特征和空間特征,同時挖掘數(shù)據(jù)間的隱藏關(guān)系。文獻[11]針對小類攻擊樣本不能被有效檢測的問題,提出一種基于卷積神經(jīng)網(wǎng)絡(luò)與生成對抗網(wǎng)絡(luò)相結(jié)合的態(tài)勢要素提取模型。
上述方法在進行態(tài)勢要素提取時,主要針對態(tài)勢要素提取的模型和方法進行改進,雖然在一定程度上提高了態(tài)勢要素提取的分類精度和效率,但還有進一步改進提高的空間。該文將主成分分析法(Principal Component Analysis,PCA)與改進的小波神經(jīng)網(wǎng)絡(luò)(Wavelet Neural Network,WNN)相結(jié)合,利用PCA算法對預(yù)處理后的數(shù)據(jù)集進行降維,并用增加動量因子(Momentum Factor,MF)的方法對小波神經(jīng)網(wǎng)絡(luò)的參數(shù)進行修正,提出一種基于PCA-MF-WNN的態(tài)勢要素提取模型,該模型不僅提高了分類精度,而且分類效率也得到有效提高。
該文選用PCA算法對采集到的網(wǎng)絡(luò)數(shù)據(jù)進行屬性約簡,在降低數(shù)據(jù)復(fù)雜度的同時盡可能地用少數(shù)幾個主成分來保留原始數(shù)據(jù)集的信息。由于傳統(tǒng)WNN在訓(xùn)練過程中采用梯度下降法對參數(shù)進行修正,而該算法自身存在的缺陷是導(dǎo)致WNN效率不高的主要原因,因此,通過加入動量因子的方法來提升WNN的學(xué)習(xí)效率,將經(jīng)過PCA降維后的安全數(shù)據(jù)輸入改進的WNN中進行分類訓(xùn)練,以實現(xiàn)態(tài)勢要素的高效提取。
主成分分析法(Principal Component Analysis,PCA)[12]是一種統(tǒng)計分析、簡化數(shù)據(jù)集的方法,由卡爾·皮爾遜于1901年提出,常用于數(shù)據(jù)降維,即把多個變量化為少數(shù)幾個主成分(綜合變量),而這些主成分能夠反映原始變量的絕大部分信息,它們通常表示為原始變量的某種線性組合。
如何將多維變量變換為低維變量并去除冗余信息以降低數(shù)據(jù)復(fù)雜度是主成分分析法要解決的問題。該方法主要通過對協(xié)方差矩陣進行特征分解,以得出數(shù)據(jù)的主成分(即特征向量)與它們的權(quán)值(即特征值)。其具體計算步驟如下[13]:
(1)假設(shè)數(shù)據(jù)集X包含n個樣本,令X=[x1,x2,…,xn],其中每個樣本有m維。
(2)計算協(xié)方差矩陣R,其中i=1,2,…,n。
UUT
(1)
(3)計算特征值和特征向量。
計算協(xié)方差矩陣R的特征值λ1,λ2,…,λn,以及對應(yīng)的特征向量U=[u1,u2,…,un],并將特征值重新排序使得λ1≥λ2≥…≥λn。
λiui=Rui,i=1,2,…,n
(2)
(4)計算特征值中前p(p≤n)個主成分的累計信息貢獻率ηp。
特征值λi的信息貢獻率yi計算公式如下:
(3)
ηp的計算公式如下:
(4)
一般情況下,若特征值中前p(p≤n)個主成分的累計信息貢獻率ηp達(dá)到85%以上,則說明這前p個主成分可以代表全部數(shù)據(jù)的絕大部分信息。
(5)計算降維結(jié)果。
變換矩陣Tp=(t1,t2,…,tp)'由前p個特征值對應(yīng)的特征向量組成,降維后的結(jié)果為pi=TpX1。
主成分分析法不僅能減少數(shù)據(jù)集的維數(shù),同時能保留住數(shù)據(jù)集中對方差貢獻最大的特征。這是通過保留低階主成分,忽略高階主成分做到的,因為低階成分往往能夠保留住數(shù)據(jù)的最重要方面。當(dāng)數(shù)據(jù)有多個維度時,有些維度對于數(shù)據(jù)的貢獻大,有些維度對數(shù)據(jù)的貢獻小。通過主成分分析,保留重要的維度,去掉次要的維度,可降低數(shù)據(jù)復(fù)雜度,減少數(shù)據(jù)處理的計算量,從而提高分類效率??梢?采用主成分分析法降維對分類精度的影響較小,而對分類效率的影響較大。
小波神經(jīng)網(wǎng)絡(luò)(Wavelet Neural Network,WNN)[14]是一種在小波分析研究獲得突破的基礎(chǔ)上提出的一種人工神經(jīng)網(wǎng)絡(luò)。它是基于小波分析理論以及小波變換所構(gòu)造的一種分層的、多分辨率的新型人工神經(jīng)網(wǎng)絡(luò)模型[15],它的結(jié)構(gòu)更加簡單,且具有更強的學(xué)習(xí)能力[16]。與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)不同的是,小波神經(jīng)網(wǎng)絡(luò)隱含層節(jié)點的傳遞函數(shù)為小波基函數(shù),小波分析能夠通過小波基函數(shù)的變換分析信號的局部特征,并且在二維情況下具有選擇信號方向的能力。
小波神經(jīng)網(wǎng)絡(luò)一般由三層構(gòu)成,分別為:輸入層、隱含層和輸出層。其工作原理是在輸入數(shù)據(jù)經(jīng)由輸入層到達(dá)神經(jīng)網(wǎng)絡(luò)內(nèi)部后,先計算出隱含層的輸出值,然后根據(jù)隱含層的輸出值再計算輸出層的輸出值,最后依照輸出層的輸出值與期望輸出之間的誤差來修正小波神經(jīng)網(wǎng)絡(luò)的權(quán)值和小波基函數(shù)系數(shù),使小波神經(jīng)網(wǎng)絡(luò)的預(yù)測輸出值與期望輸出值不斷接近。WNN的拓?fù)浣Y(jié)構(gòu)如圖1所示。
圖1 小波神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)
圖1中,X1,X2,…,Xk是小波神經(jīng)網(wǎng)絡(luò)的輸入?yún)?shù),Y1,Y2,…,Ym是小波神經(jīng)網(wǎng)絡(luò)的預(yù)測輸出,ωij和ωjk分別是小波神經(jīng)網(wǎng)絡(luò)輸入層與隱含層、隱含層與輸出層之間的連接權(quán)值。
在輸入信號序列為xi(i=1,2,…,k)時,隱含層輸出計算公式為[12]:
(5)
其中,h(j)為隱含層第j個節(jié)點輸出值,ωij為輸入層和隱含層的連接權(quán)值,bj為小波基函數(shù)hj的平移因子,aj為小波基函數(shù)hj的伸縮因子。
文中采用的小波基函數(shù)為Morlet母小波基函數(shù),表達(dá)式如下:
y=cos(1.75x)e-x2/2
(6)
小波神經(jīng)網(wǎng)絡(luò)輸出層的計算公式如下:
(7)
其中,h(i)為隱含層第i個節(jié)點的輸出值,l為隱含層節(jié)點數(shù),m為輸出層節(jié)點數(shù)。
小波神經(jīng)網(wǎng)絡(luò)采用梯度下降法對網(wǎng)絡(luò)的權(quán)值和小波基函數(shù)參數(shù)進行修正,從而使其預(yù)測輸出與期望輸出不斷接近,修正過程如下:
(1)計算網(wǎng)絡(luò)預(yù)測誤差,公式為:
(8)
其中,yn(k)為期望輸出,y(k)為小波神經(jīng)網(wǎng)絡(luò)的預(yù)測輸出。
(2)根據(jù)預(yù)測誤差error修正小波神經(jīng)網(wǎng)絡(luò)權(quán)值和小波基函數(shù)參數(shù),使網(wǎng)絡(luò)的預(yù)測值逼近期望值,其公式如下:
(9)
(10)
(11)
(12)
其中,η為ωij和ωjk的學(xué)習(xí)速率,μ是aj和bj的學(xué)習(xí)速率。
小波神經(jīng)網(wǎng)絡(luò)具有小波變換的優(yōu)點,同時避免了BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計上的盲目性,但是隱含層的節(jié)點數(shù)以及各層之間的權(quán)值、尺度因子的初始化參數(shù)難以確定,影響了網(wǎng)絡(luò)的收斂速度。小波神經(jīng)網(wǎng)絡(luò)通常采用梯度下降算法對權(quán)值和參數(shù)進行修正,但傳統(tǒng)的梯度下降法每輪迭代梯度更新方向隨機震蕩且期望的梯度更新方向行進緩慢,即訓(xùn)練軌跡會呈現(xiàn)鋸齒狀大幅擺動,會大大延長小波神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時間,而且有可能會由于步伐太大而偏離最小值。
該文通過增加動量因子(MF)來提高神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)效率。其主要思想是通過積累之前的動量來加速當(dāng)前的梯度,使得梯度方向在不變的維度上,參數(shù)更新變快,梯度有所改變時,更新參數(shù)變慢,從而加快算法的收斂速度并且減少梯度下降法的震蕩趨勢。
通過在公式(9)~(12)中加入動量因子改進小波神經(jīng)網(wǎng)絡(luò)的權(quán)值和參數(shù),其修正公式如下:
ωij(i-1))
(13)
(14)
aj(i-1))
(15)
bj(i-1))
(16)
其中,δ∈(0,1)為動量因子。
網(wǎng)絡(luò)安全態(tài)勢要素會引起網(wǎng)絡(luò)安全狀況的變化,這些信息也反映了網(wǎng)絡(luò)環(huán)境的運行狀態(tài),但是這些態(tài)勢要素?zé)o法在網(wǎng)絡(luò)環(huán)境中直接獲得而是反映在網(wǎng)絡(luò)安全事件中,因此需要從收集到的眾多網(wǎng)絡(luò)安全事件中提取出態(tài)勢要素信息。
在對網(wǎng)絡(luò)安全態(tài)勢進行感知時,由于待分類的數(shù)據(jù)規(guī)模比較龐大,一般需要先對數(shù)據(jù)進行屬性約簡,然后再對數(shù)據(jù)進行分類處理。該文引入主成分分析法(PCA)對預(yù)處理后的網(wǎng)絡(luò)安全數(shù)據(jù)進行屬性約簡,并在小波神經(jīng)網(wǎng)絡(luò)(WNN)中加入動量因子(MF)來提高其學(xué)習(xí)效率,最后將改進的小波神經(jīng)網(wǎng)絡(luò)(MF-WNN)應(yīng)用于網(wǎng)絡(luò)安全態(tài)勢要素提取。整個態(tài)勢要素提取過程分為三部分,具體的提取模型如圖2所示。
圖2 基于PCA-MF-WNN的網(wǎng)絡(luò)安全態(tài)勢要素提取模型
(1)數(shù)據(jù)處理。
收集到的原始數(shù)據(jù)由于數(shù)據(jù)類型、格式等不完全相同,因此需要先對數(shù)據(jù)集進行預(yù)處理,然后再使用PCA算法對預(yù)處理后的數(shù)據(jù)集進行屬性約簡。
(2)生成分類模型。
根據(jù)輸入輸出數(shù)據(jù)的特征確定小波神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),通過加入動量因子的方式提高小波神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)效率;將處理后的訓(xùn)練數(shù)據(jù)輸入改進后的小波神經(jīng)網(wǎng)絡(luò)對其進行學(xué)習(xí)和訓(xùn)練,得到具有分類能力的PCA-MF-WNN態(tài)勢要素提取模型。
(3)要素提取與結(jié)果分析。
將處理后的測試數(shù)據(jù)輸入到具有分類能力的PCA-MF-WNN態(tài)勢要素提取模型中得到分類結(jié)果,根據(jù)對比實驗結(jié)果分析判斷不同態(tài)勢要素提取模型的分類效果和性能。
基于PCA-MF-WNN的網(wǎng)絡(luò)安全態(tài)勢要素提取算法步驟如下,流程如圖3所示。
圖3 基于PCA-MF-WNN的網(wǎng)絡(luò)安全態(tài)勢要素提取流程
Step1:對采集到的數(shù)據(jù)進行預(yù)處理,統(tǒng)一數(shù)據(jù)格式和類型。
Step2:通過PCA算法對預(yù)處理后的數(shù)據(jù)進行降維,在保持?jǐn)?shù)據(jù)本質(zhì)信息的同時將多維變量變換到低維空間并去除冗余信息,降低數(shù)據(jù)復(fù)雜度,提高數(shù)據(jù)處理效率。
Step3:隨機初始化小波函數(shù)伸縮因子aj、平移因子bj以及網(wǎng)絡(luò)連接權(quán)值ωij和ωjk,設(shè)置網(wǎng)絡(luò)學(xué)習(xí)速率η和μ、動量因子δ。
Step4:將降維后的數(shù)據(jù)劃分為訓(xùn)練集和測試集,分別用于改進小波神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和測試。
Step5:將訓(xùn)練集輸入到改進的小波神經(jīng)網(wǎng)絡(luò)中進行訓(xùn)練,得到用于態(tài)勢要素提取的小波分類器,并計算網(wǎng)絡(luò)預(yù)測輸出以及網(wǎng)絡(luò)預(yù)測輸出與期望輸出之間的誤差error。
Step6:根據(jù)誤差error,按照式(13)~(16)修正網(wǎng)絡(luò)權(quán)值和小波函數(shù)參數(shù),使網(wǎng)絡(luò)的預(yù)測輸出不斷接近期望輸出。
Step7:判斷算法是否達(dá)到設(shè)定的目標(biāo)誤差精度或達(dá)到最大迭代次數(shù),如果沒有,跳轉(zhuǎn)到Step5。
Step8:將測試樣本數(shù)據(jù)輸入到具有分類預(yù)測能力的改進小波神經(jīng)網(wǎng)絡(luò)中檢驗其分類性能,根據(jù)分類結(jié)果進行分析與總結(jié)。
對該方法的有效性進行了實驗驗證。實驗采用Matlab R2019a進行仿真,操作系統(tǒng)為Windows 10,硬件環(huán)境采用1.80 GHz CPU和8 GB內(nèi)存。
實驗所使用的數(shù)據(jù)集為美國林肯實驗室的公開數(shù)據(jù)集KDDCUP99。在該數(shù)據(jù)集中,每條數(shù)據(jù)包含41個屬性和1個標(biāo)識類別的值,這41個屬性特征可以按以下方式分類:1~9為TCP連接的基本特征;10~22為TCP連接的內(nèi)容特征;23~31為基于時間的網(wǎng)絡(luò)流量統(tǒng)計特征;32~41為基于主機的網(wǎng)絡(luò)流量統(tǒng)計特征。1個標(biāo)識類別的屬性則被分為兩大類:正常(Normal)或異常(Attack),異常類型有四大類:DOS、Probe、U2R、R2L,每大類異常攻擊類型又包含若干個子類,具體攻擊子類分布情況如表1所示。
表1 樣本分類情況
KDDCUP99數(shù)據(jù)集具體樣本數(shù)據(jù)如下所示:
2, tcp, smtp, SF, 1 684, 363, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0.00, 0.00, 0.00, 0.00, 1.00, 0.00, 0.00, 104, 66, 0.63, 0.03, 0.01, 0.00, 0.00, 0.00, 0.00, 0.00, normal
0, icmp, ecr_i, SF, 1 032, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 511, 511, 0, 0, 0, 0, 1, 0, 0, 255, 255, 1, 0, 1, 0, 0, 0, 0, 0, smurf
上述兩條數(shù)據(jù)每條數(shù)據(jù)信息所包含的數(shù)據(jù)類型不完全相同,因此在實驗前需要先對數(shù)據(jù)集進行預(yù)處理。
在每條數(shù)據(jù)的42個屬性中,第2、3、4和42維屬性為非數(shù)值形式,在預(yù)處理過程中需要將這些離散特征進行數(shù)據(jù)編碼轉(zhuǎn)化。轉(zhuǎn)化規(guī)則如下:
第2維:利用數(shù)字1~3對tcp、udp和icmp進行編碼;
第3維:利用數(shù)字1~70對70種服務(wù)類型進行編碼;
第4維:利用數(shù)字1~11對11種連接狀態(tài)進行編碼;
第42維:共有五種狀態(tài),可用數(shù)字1~5進行編碼。
針對連續(xù)型特征,采用歸一化的方式進行處理,歸一化公式如下:
(17)
其中,Xmin和Xmax分別表示實驗數(shù)據(jù)中的最小值數(shù)據(jù)和最大值數(shù)據(jù),Xi為實驗數(shù)據(jù)中第i個數(shù)據(jù)值,Yi為Xi歸一化后的值。
實驗將隨機抽取數(shù)據(jù)集的10%作為訓(xùn)練集和測試集,不同情況的樣本數(shù)量如表2所示。
表2 不同攻擊類別的實驗樣本數(shù)量
(1)參數(shù)對性能的影響。
從表2可以看到,U2R類攻擊樣本的數(shù)量較少,且在大多研究中U2R攻擊的分類精度都較低。為了更好的說明所提方法對小類攻擊樣本識別的影響,下面將WNN模型與PCA-MF-WNN模型在不同的隱含層節(jié)點數(shù)的情況下對U2R類攻擊樣本進行分類精度比較,其結(jié)果如圖4所示。
圖4 隱含層節(jié)點數(shù)對態(tài)勢要素分類精確度的影響
從圖4中可以看出,在隱含層節(jié)點數(shù)不同的情況下,與PCA相結(jié)合的改進WNN模型和未改進的WNN相比都明顯提高了U2R小類攻擊樣本要素提取的精確度。這說明對WNN模型的改進在隱含層節(jié)點數(shù)不同的情況下都是有效的。
(2)幾種要素提取模型的精確度對比與分析。
為了進一步說明所提出的態(tài)勢要素提取模型的有效性,對常用于態(tài)勢要素提取領(lǐng)域的BPNN(Back Propagation Neural Network)模型[17]、PNN(Probabilistic Neural Network)模型[18]、WNN模型[14]以及改進的WNN模型的分類精準(zhǔn)度進行了比較。實驗結(jié)果如表3所示。其中,BPNN的迭代次數(shù)為100次,PNN采用四層結(jié)構(gòu),SPREAD值選取為1.5。
表3 幾種算法模型的分類精準(zhǔn)度 %
從表3可以看出,這五種模型對于五類攻擊的識別能力都是在U2R小類攻擊樣本上表現(xiàn)最差;BPNN模型在五類樣本上的分類精確度均偏低,其中U2R類的分類精確度最低,只有21.49%;PNN模型在R2L類攻擊樣本上的分類精確度為47.37%,對該類攻擊的識別能力在五種模型中是最差的;WNN模型在五類攻擊樣本上的分類精確度比BPNN模型和PNN模型均有較大提升;使用PCA算法對數(shù)據(jù)進行降維后,PCA-WNN模型與未改進的三種基本模型相比,在五類樣本上的分類精確度進一步得到了提高;引入動量因子后的PCA-MF-WNN態(tài)勢要素提取模型的分類準(zhǔn)確率比PCA-WNN模型又進一步有所提高,尤其是在Probe類和R2L類攻擊樣本上的要素提取分類準(zhǔn)確率提升最為明顯??梢?在五類提取方法中PCA-MF-WNN態(tài)勢要素提取模型的精確度是最高的。
表4對五種不同模型的總體分類準(zhǔn)確率和錯誤率進行了對比。從整體準(zhǔn)確率來看,WNN模型的分類準(zhǔn)確率比BPNN模型和PNN模型分別高出24.17百分點和12.79百分點,PCA-WNN模型的分類準(zhǔn)確率比WNN模型提高了1.29%,而PCA-MF-WNN模型的分類準(zhǔn)確率比PCA-WNN模型提高了1.7%,是五種算法中準(zhǔn)確率最高的;就錯誤率指標(biāo)來看,PCA-MF-WNN模型總體的分類錯誤率為0.78%,是五種算法中最小的。這說明在這幾種算法模型中,PCA-MF-WNN模型的準(zhǔn)確率最高且錯誤率最低,對WNN的每一次改進都提高了分類準(zhǔn)確率??梢?利用主成分分析法對數(shù)據(jù)進行降維處理并在小波神經(jīng)網(wǎng)絡(luò)中增加動量因子對提高態(tài)勢要素提取的分類精度具有更好的效果,與其他算法模型相比,所提出的基于PCA-MF-WNN的態(tài)勢要素提取模型具有更高的樣本分類精準(zhǔn)度。
表4 幾種模型的總體準(zhǔn)確率和錯誤率 %
(3)時間復(fù)雜度的比較與分析。
時間復(fù)雜度是算法性能的一種體現(xiàn),也是算法效率的一種度量。用于實驗的態(tài)勢要素樣本數(shù)為n,樣本維度為d,標(biāo)簽類別數(shù)為l,算法的迭代次數(shù)為t。采用BPNN、PNN與WNN算法時的時間復(fù)雜度分別為O(n×t×d×l2)、O((n+1)×d)、O(n)。顯然,WNN比BPNN和PNN算法的時間復(fù)雜度更低,效率更高。
表5給出了利用WNN和兩種改進的WNN提取態(tài)勢要素所用時間的對比。從表5中可以看出,所提的用PCA-MF-WNN進行態(tài)勢要素提取所用的時間與只用PCA降維數(shù)據(jù)但不改進WNN(PCA-WNN)以及未改進的WNN相比有明顯的減少??梢?PCA-MF-WNN模型在執(zhí)行效率方面具有較明顯優(yōu)勢,提高了態(tài)勢要素提取的分類效率。
表5 不同算法的執(zhí)行時間對比 s
該文構(gòu)建了一種基于PCA-MF-WNN的網(wǎng)絡(luò)安全態(tài)勢要素提取模型,該模型將主成分分析法(PCA)引入態(tài)勢要素提取中,對經(jīng)過預(yù)處理后的數(shù)據(jù)集進行降維,用盡可能少量的數(shù)據(jù)表示原始數(shù)據(jù)集的信息,然后用增加動量因子的方法對小波神經(jīng)網(wǎng)絡(luò)中的小波函數(shù)伸縮因子、平移因子以及網(wǎng)絡(luò)連接權(quán)值進行修正,獲取最優(yōu)參數(shù),以達(dá)到提升小波分類器的分類精準(zhǔn)度和分類效率的目的。實驗結(jié)果表明,所提模型與傳統(tǒng)態(tài)勢要素提取模型和未改進的WNN相比,有效提高了態(tài)勢要素提取的分類準(zhǔn)確率和分類效率。當(dāng)然,該模型還有優(yōu)化空間,如何優(yōu)化小波神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)以提高小波分類器的分類精度和效率將是下一步的工作方向。