胡慶爽,李成海,路艷麗,宋亞飛
(空軍工程大學(xué) a.研究生院; b.防空反導(dǎo)學(xué)院,西安 710051)
網(wǎng)絡(luò)作為信息傳播的主要載體已廣泛應(yīng)用于生產(chǎn)和生活各方面,但由于其安全機制不完善,在給人們帶來便利的同時也存在安全隱患。因此,如何準(zhǔn)確評價網(wǎng)絡(luò)狀態(tài)并提供有效的安全防護(hù)指導(dǎo)成為研究人員關(guān)注的熱點,網(wǎng)絡(luò)安全態(tài)勢預(yù)測(Network Security Situation Prediction,NSSP)由此應(yīng)運而生。網(wǎng)絡(luò)安全態(tài)勢預(yù)測是基于所識別的攻擊活動及網(wǎng)絡(luò)態(tài)勢,對已出現(xiàn)與將出現(xiàn)的網(wǎng)絡(luò)攻擊行為所產(chǎn)生的危害和潛在威脅進(jìn)行評估[1]。
隨著網(wǎng)絡(luò)安全態(tài)勢預(yù)測算法的不斷進(jìn)步,網(wǎng)絡(luò)安全態(tài)勢預(yù)測已由根據(jù)研究人員的定性經(jīng)驗知識或網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行預(yù)測發(fā)展為基于半定量數(shù)據(jù)(包含定性經(jīng)驗知識與網(wǎng)絡(luò)中采集到的定量數(shù)據(jù))進(jìn)行預(yù)測[2],其中置信規(guī)則庫(Belief Rule Base,BRB)是基于半定量數(shù)據(jù)的典型模型之一。根據(jù)定性經(jīng)驗知識建立初始的置信規(guī)則庫,采用負(fù)反饋方法進(jìn)行參數(shù)優(yōu)化,最終可得到較準(zhǔn)確的基于置信規(guī)則庫的網(wǎng)絡(luò)安全態(tài)勢預(yù)測模型。文獻(xiàn)[3]提出利用MATLAB工具箱中Fmincon函數(shù)優(yōu)化置信規(guī)則庫參數(shù)的方法,但在置信規(guī)則庫模型規(guī)模較大時優(yōu)化速度較慢且不具備可移植性。針對該問題,文獻(xiàn)[4]提出基于遺傳算法的模型參數(shù)優(yōu)化方法來提高優(yōu)化算法的可移植性;文獻(xiàn)[5]提出基于改進(jìn)粒子群算法的模型參數(shù)優(yōu)化算法,在一定程度上提高了模型優(yōu)化的速度和準(zhǔn)確性;文獻(xiàn)[6]提出基于冗余基因策略的模型參數(shù)優(yōu)化方法,可自動生成具有不同數(shù)量規(guī)則的BRB最優(yōu)解。上述方法均為模型整體優(yōu)化方法,在一定程度上可提高優(yōu)化效率,但在訓(xùn)練數(shù)據(jù)分布不均時模型預(yù)測準(zhǔn)確性較低。對置信規(guī)則庫推理過程分析可知,置信規(guī)則庫中規(guī)則的作用范圍有限,且模型預(yù)測精度較低的區(qū)域通常位于未充分優(yōu)化規(guī)則處。
針對上述問題,本文提出一種采用分級優(yōu)化置信規(guī)則庫(Hierarchically Optimized Belief Rule Base,HOBRB)的預(yù)測方法。設(shè)定臨界值將規(guī)則劃分為可充分優(yōu)化、可部分優(yōu)化、不可優(yōu)化3個等級,保留專家賦值的部分參數(shù)減少規(guī)則中待優(yōu)化參數(shù)量,以避免在訓(xùn)練數(shù)據(jù)較少時產(chǎn)生過擬合現(xiàn)象。
置信規(guī)則由YANG等人[7]基于傳統(tǒng)IF-THEN規(guī)則提出,其引入分布式置信框架和權(quán)重參數(shù),并以分布式置信度形式表示輸出結(jié)果。一系列置信規(guī)則構(gòu)成置信規(guī)則庫,其中第k條置信規(guī)則表示為:
Then {(D1,β1,k),(D2,β2,k),…,(DN,βN,k)}
(1)
在置信規(guī)則庫推理過程中,使用證據(jù)推理(Evidential Reasoning,ER)算法[8-9]合成激活規(guī)則,并由此得到BRB系統(tǒng)的最終輸出。
1.2.1 激活權(quán)重計算
(2)
(3)
1.2.2 激活規(guī)則合成
利用ER解析算法對L條規(guī)則進(jìn)行融合,計算公式為:
(4)
(5)
(6)
(7)
通過效用值將結(jié)果由置信度轉(zhuǎn)換為數(shù)值。設(shè)在評價等級Dj上效用值為μ(Dj)(j=1,2,…,N),則系統(tǒng)輸出S(x)的期望效用值表示為:
(8)
當(dāng)評價不完整或不精確時,最大效用、最小效用和平均效用分別定義[11]如下:
(9)
(10)
(11)
由于研究人員對模型作用對象的認(rèn)識可能存在誤差,造成初始置信規(guī)則庫精度不高,因此文獻(xiàn)[3]提出一種通過定量數(shù)據(jù)對置信規(guī)則庫參數(shù)進(jìn)行優(yōu)化的方法,將參數(shù)學(xué)習(xí)轉(zhuǎn)化為求解最優(yōu)化模型,置信規(guī)則庫優(yōu)化模型如圖1所示。
圖1 置信規(guī)則庫優(yōu)化模型Fig.1 BRB optimization model
利用MATLAB工具箱中的Fmincon函數(shù)求解該模型,計算公式為:
min{ξ(P)}
s.t.0≤θk≤1,k=1,2,…,L
0≤δi,k≤1,i=1,2,…,M,k=1,2,…,L
0≤βi,k≤1,j=1,2,…,N,k=1,2,…,L
(12)
其中,P=(θ1,θ2,…,θL,β1,1,β2,2,…,βN,L,δ1,1,δ2,2,…,δL,M)為置信規(guī)則庫優(yōu)化模型的參數(shù)向量,ubi和lbi分別代表第i個前提屬性參考值的上、下邊界值。目標(biāo)函數(shù)可用平均絕對誤差(Mean Absolute Error,MAE)表示,表達(dá)式為:
(13)
傳統(tǒng)BRB模型優(yōu)化方法均假設(shè)規(guī)則的作用范圍為全局,優(yōu)化目標(biāo)函數(shù)設(shè)為模型相對全部訓(xùn)練樣本的平均絕對誤差,通過導(dǎo)入訓(xùn)練數(shù)據(jù)并利用負(fù)反饋方法進(jìn)行全局優(yōu)化。但由式(2)可知,輸入數(shù)據(jù)的每個前提屬性值可用相鄰一組或兩組參考值的置信度形式表示,因此模型推理中每組輸入只激活有限條規(guī)則,且每條規(guī)則的作用范圍有限。
以模型作用域中參考點為頂點的子域集合即該參考點對應(yīng)規(guī)則的作用范圍,稱為規(guī)則作用域。在模型優(yōu)化過程中,由于某些規(guī)則作用域中訓(xùn)練數(shù)據(jù)較少造成規(guī)則訓(xùn)練不充分,導(dǎo)致出現(xiàn)過擬合現(xiàn)象,因此應(yīng)針對不同類型的規(guī)則采用不同優(yōu)化訓(xùn)練方法。本文提出的HOBRB模型建立步驟如下:
2)將訓(xùn)練數(shù)據(jù)分配到對應(yīng)規(guī)則作用區(qū)域,以訓(xùn)練數(shù)據(jù)的前提屬性值組合(x1,x2,…,xM)為坐標(biāo),將訓(xùn)練數(shù)據(jù)表示為模型作用域中的坐標(biāo)點,根據(jù)坐標(biāo)點的空間位置確定訓(xùn)練數(shù)據(jù)所屬的規(guī)則作用域。將位于訓(xùn)練子域邊界的訓(xùn)練數(shù)據(jù)按照右側(cè)分配的原則分配到數(shù)值增大的規(guī)則作用域中。
3)為規(guī)則劃分等級。規(guī)則中包括規(guī)則權(quán)重、評價等級置信度、前提屬性權(quán)重等共C1個待優(yōu)化的參數(shù),其中C1=1+M+N。當(dāng)規(guī)則作用域中訓(xùn)練數(shù)據(jù)的數(shù)量大于C1時,由求解方程組過程中未知量與已知條件的關(guān)系可知規(guī)則參數(shù)存在唯一解,其可由求解最小值的方法求出,位于此等級的規(guī)則稱為可完全優(yōu)化規(guī)則;當(dāng)規(guī)則作用域中訓(xùn)練數(shù)據(jù)的數(shù)量小于C1時,規(guī)則參數(shù)不存在唯一解,使用求最小值方法獲得的參數(shù)值容易使模型出現(xiàn)過擬合現(xiàn)象,此時可采用減少規(guī)則未知量的方法避免過擬合。規(guī)則中評價等級置信度用于表示規(guī)則點處的推理值,規(guī)則權(quán)重表示規(guī)則整體對作用域的影響程度,前提屬性權(quán)重表示規(guī)則中各前提屬性的相對重要性,規(guī)則權(quán)重與前提屬性權(quán)重與不同規(guī)則之間或規(guī)則參數(shù)之間的相互關(guān)系有關(guān)。一般情況下,專家對評價等級置信度賦值的精度較高,對規(guī)則權(quán)重與前提屬性賦值的精度相對較低,因此設(shè)立臨界值C2=1+M。當(dāng)規(guī)則作用域中訓(xùn)練數(shù)據(jù)的數(shù)量小于C2且大于C1時,將待優(yōu)化參數(shù)調(diào)整為規(guī)則權(quán)重與前提屬性權(quán)重,處于該等級的規(guī)則稱為可部分優(yōu)化規(guī)則;當(dāng)訓(xùn)練數(shù)據(jù)數(shù)量小于C2時,不再對規(guī)則進(jìn)行優(yōu)化,位于此等級的規(guī)則稱為不可優(yōu)化規(guī)則。上述情況具體表示為:
(14)
其中,C(k)為第k條規(guī)則需優(yōu)化參數(shù)的數(shù)量,nk為第k條規(guī)則作用域中訓(xùn)練數(shù)據(jù)的數(shù)量。
4)分級優(yōu)化置信規(guī)則庫提取所有已分級規(guī)則中待優(yōu)化參數(shù)作為模型優(yōu)化參數(shù),以模型輸出與實際輸出的最小差值作為目標(biāo)函數(shù),利用粒子群算法優(yōu)化模型參數(shù),計算公式為:
min{ξ(P)}
s.t.0≤θk≤1,C2≤C(k)
0≤δi,k≤1,C1≤C(k)
0≤βi,k≤1,C2≤C(k)
(15)
網(wǎng)絡(luò)安全態(tài)勢變化具有規(guī)律性,在一定程度上可反映出攻擊者的意圖,通常采用時間序列方法預(yù)測網(wǎng)絡(luò)態(tài)勢?;诜旨墐?yōu)化置信規(guī)則庫的網(wǎng)絡(luò)安全態(tài)勢預(yù)測由研究人員根據(jù)經(jīng)驗建立初始置信規(guī)則庫模型,再分級優(yōu)化置信規(guī)則庫,具體過程如圖2所示。
圖2 基于HOBRB的網(wǎng)絡(luò)安全態(tài)勢預(yù)測流程Fig.2 Procedure of the network security situationprediction based on HOBRB
網(wǎng)絡(luò)安全態(tài)勢預(yù)測作為網(wǎng)絡(luò)安全態(tài)勢感知的第3個階段,需借助網(wǎng)絡(luò)安全態(tài)勢評估[10-12]生成所需的網(wǎng)絡(luò)安全態(tài)勢值。本文以某小型辦公網(wǎng)絡(luò)為實驗對象驗證本文方法的有效性,并與其他網(wǎng)絡(luò)安全態(tài)勢預(yù)測方法進(jìn)行對比來綜合評價本文方法的效果。
本文實驗網(wǎng)絡(luò)環(huán)境如圖3所示。其中,網(wǎng)絡(luò)安全評估設(shè)備用于識別網(wǎng)絡(luò)違法行為并評估網(wǎng)絡(luò)安全態(tài)勢。網(wǎng)絡(luò)安全態(tài)勢評估周期為1天,記錄實驗網(wǎng)絡(luò)連續(xù)運行103天的網(wǎng)絡(luò)安全態(tài)勢值構(gòu)成網(wǎng)絡(luò)安全態(tài)勢預(yù)測時間序列,如圖4所示。
圖3 本文實驗網(wǎng)絡(luò)環(huán)境Fig.3 Experiment network environment ofthe proposed paper
圖4 網(wǎng)絡(luò)安全態(tài)勢序列Fig.4 Network security situation sequence
采用滑動窗口的方法[13](窗口處為1個時間段(連續(xù)的4天),窗口每次向后滑動1天)生成100組樣本數(shù)據(jù)(網(wǎng)絡(luò)安全態(tài)勢值)。選取前90組樣本數(shù)據(jù)作為訓(xùn)練集,后10組樣本數(shù)據(jù)作為測試集。樣本中輸入部分為前3個時間段的網(wǎng)絡(luò)安全態(tài)勢值x(t-2)、x(t-1)和x(t),輸出部分為后1個時間段的網(wǎng)絡(luò)安全態(tài)勢值x(t+1)。部分樣本的輸入和輸出如表1所示。
表1 部分樣本的輸入和輸出Table 1 Input and output of partial samples
網(wǎng)絡(luò)安全態(tài)勢的取值范圍為[0,1],由于網(wǎng)絡(luò)安全狀態(tài)較差時會造成網(wǎng)絡(luò)癱瘓無法運行,且通常網(wǎng)絡(luò)中不存在絕對的安全狀態(tài)[14],因此本文將網(wǎng)絡(luò)安全態(tài)勢取值范圍設(shè)置為[0.15,0.80]。網(wǎng)絡(luò)安全狀態(tài)分安全(S)、低危(L)、中危(M)和高危(H)4個等級[15],用態(tài)勢參考值表示為[0.15,0.36,0.47,0.80]。將置信規(guī)則庫的輸入屬性數(shù)量設(shè)置為3,建立初始置信規(guī)則庫。
將置信規(guī)則庫模型的作用域映射到三維空間,劃分規(guī)則作用域并將訓(xùn)練集數(shù)據(jù)分配到對應(yīng)的規(guī)則作用域,訓(xùn)練集數(shù)據(jù)分布情況與模型中各規(guī)則的激活狀態(tài)如圖5所示??梢钥闯?訓(xùn)練樣本在模型作用域中間部位分布較密集,而在邊緣部位分布較稀疏。位于模型作用域中間部位的規(guī)則大部分處于可完全優(yōu)化等級,位于模型作用域邊緣部位的規(guī)則大部分處于可部分優(yōu)化等級或不可優(yōu)化等級。經(jīng)統(tǒng)計可知,可完全優(yōu)化等級包含39條規(guī)則,可部分優(yōu)化等級包含10條規(guī)則,不可優(yōu)化等級包含15條規(guī)則。使用分級優(yōu)化方法后置信規(guī)則庫的部分規(guī)則參數(shù)如表2所示。
圖5 訓(xùn)練集數(shù)據(jù)分布與模型中各規(guī)則的激活狀態(tài)Fig.5 Data distribution of training set andactivation state of rules in the model
表2 分級優(yōu)化置信規(guī)則庫的部分規(guī)則參數(shù)Table 2 Partial rule parameters of HOBRB
為綜合檢驗本文方法,分別建立基于初始置信規(guī)則庫(初始BRB)、基于遺傳算法[16-18]優(yōu)化置信規(guī)則庫(Genetic Algorithm Optimization Belief Rule Base,GAO-BRB)與基于粒子群[19-20]優(yōu)化置信規(guī)則庫(Particle Swarm Optimization Belief Rule Base,PSO-BRB)的網(wǎng)絡(luò)安全態(tài)勢預(yù)測方法,將上述3種方法與本文提出的HOBRB方法對訓(xùn)練集數(shù)據(jù)的擬合程度、對測試集數(shù)據(jù)的預(yù)測精度以及訓(xùn)練時間進(jìn)行對比。各方法所得訓(xùn)練集數(shù)據(jù)的擬合程度、測試集數(shù)據(jù)預(yù)測精度及其綜合性能的對比情況分別如圖6、圖7和表3所示(表3中“—”表示未參與訓(xùn)練)。
圖6 不同方法對訓(xùn)練集數(shù)據(jù)的擬合程度對比Fig.6 Comparison of fitting degree of training set datafrom different methods
圖7 不同方法對測試集數(shù)據(jù)的預(yù)測精度對比Fig.7 Comparison of prediction accuracy of test set datafrom different methods
表3 不同方法的綜合性能對比Table 3 Comprehensive performance comparison ofdifferent methods
由上述模型的對比情況可知:優(yōu)化過的BRB方法對訓(xùn)練集數(shù)據(jù)的擬合程度和測試集數(shù)據(jù)的預(yù)測精度整體上均優(yōu)于初始BRB方法;遺傳算法易陷入局部最優(yōu)導(dǎo)致GAO-BRB方法無法求得最優(yōu)解且容易出現(xiàn)過擬合現(xiàn)象;變速粒子群優(yōu)化算法能改善粒子群算法的性能,相對遺傳算法優(yōu)化速度更快,且能有效避免算法求解時陷入局部最優(yōu),但由于訓(xùn)練集數(shù)據(jù)分布不均,因此導(dǎo)致PSO-BRB方法預(yù)測精度分布不均,并存在過擬合現(xiàn)象;分級優(yōu)化算法受限于變速粒子群算法精度,對訓(xùn)練樣本的擬合程度與PSO-BRB方法相當(dāng),但由于分級優(yōu)化算法將規(guī)則劃分為幾個等級進(jìn)行訓(xùn)練,避免部分無法充分訓(xùn)練的規(guī)則參數(shù)的更改,可有效避免HOBRB方法出現(xiàn)過擬合現(xiàn)象,對測試集數(shù)據(jù)具有較好的預(yù)測精度,且分級優(yōu)化算法中待優(yōu)化參數(shù)量更少,可在一定程度上減少優(yōu)化時間。
由于網(wǎng)絡(luò)安全態(tài)勢序列利用現(xiàn)有的網(wǎng)絡(luò)安全態(tài)勢評估工具[10-12]獲取,不可避免存在測量誤差,且由于存在網(wǎng)絡(luò)攻擊對象不確定性與攻擊對象行為主觀不確定性,因此網(wǎng)絡(luò)態(tài)勢預(yù)測誤差無法消除。然而網(wǎng)絡(luò)態(tài)勢變化在統(tǒng)計上存在規(guī)律性,在整體上表現(xiàn)出可預(yù)測性,通過將研究人員的定性經(jīng)驗知識與網(wǎng)絡(luò)中采集的定量數(shù)據(jù)相結(jié)合可取得良好的預(yù)測效果,為網(wǎng)絡(luò)安全維護(hù)與升級提供參考。
本文針對訓(xùn)練數(shù)據(jù)分布不均造成網(wǎng)絡(luò)安全態(tài)勢預(yù)測精度較低的問題,提出一種利用分級優(yōu)化置信規(guī)則庫的預(yù)測方法。根據(jù)規(guī)則作用域中訓(xùn)練數(shù)據(jù)量與規(guī)則待求解參數(shù)量的關(guān)系劃分規(guī)則優(yōu)化等級,對置信規(guī)則庫進(jìn)行分級優(yōu)化,在此基礎(chǔ)上建立網(wǎng)絡(luò)安全預(yù)測模型生成網(wǎng)絡(luò)安全態(tài)勢值。實驗結(jié)果表明,該方法能有效避免因訓(xùn)練數(shù)據(jù)分布不均造成的預(yù)測精度下降,較GAO-BRB、PSO-BRB等預(yù)測方法的網(wǎng)絡(luò)安全態(tài)勢預(yù)測精度更高。后續(xù)將改進(jìn)本文離子群參數(shù)優(yōu)化算法,進(jìn)一步提高訓(xùn)練效率與預(yù)測精度。