(電子科技大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院, 成都610054)
摘 要:針對(duì)被動(dòng)防御的問(wèn)題,提出了一種基于支持向量回歸算法的網(wǎng)絡(luò)安全態(tài)勢(shì)預(yù)測(cè)方法。在最近固定時(shí)間段的數(shù)據(jù)集數(shù)據(jù)進(jìn)行歸一化處理的基礎(chǔ)上,構(gòu)造樣本數(shù)據(jù)并進(jìn)行訓(xùn)練,確定預(yù)測(cè)模型的各項(xiàng)參數(shù)。實(shí)驗(yàn)證明該方法能有效地對(duì)網(wǎng)絡(luò)未來(lái)的安全態(tài)勢(shì)進(jìn)行預(yù)測(cè),結(jié)果優(yōu)于其他算法,達(dá)到了實(shí)時(shí)在線條件下準(zhǔn)確預(yù)測(cè)網(wǎng)絡(luò)安全態(tài)勢(shì)結(jié)果的目的。
關(guān)鍵詞:態(tài)勢(shì)感知;支持向量回歸;預(yù)測(cè)
中圖分類(lèi)號(hào):TP393.08文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2009)04-1517-03
Prediction technique research in network situation awareness
YE Li,WANG Juan,ZHANG Feng-li
(School of Computer Science Engineering, University of Electronic Science Technology of China, Chengdu 610054, China)
Abstract:Aiming at the problem of passive defense,this paper presented a prediction technique in network security situation based on support vector regression algorithm. By processing normalized data set in last fixed time period, trained sample data to determine the parameter of prediction model. The experiment result shows that the technique can predict the network security situation efficiently and accurately, the result is better than other algorithms.It achieved the objective of predict network security situation accurately in real-time and on-line system.
Key words:situation awareness; support vector regression(SVR); forecast
計(jì)算機(jī)和網(wǎng)絡(luò)通信技術(shù)的高速發(fā)展,對(duì)人們的生活產(chǎn)生了日益重要的影響。與此同時(shí),計(jì)算機(jī)網(wǎng)絡(luò)和操作系統(tǒng)本身的漏洞也越來(lái)越多地暴露出來(lái),利用計(jì)算機(jī)網(wǎng)絡(luò)的各種違法犯罪活動(dòng)層出不窮,給人們?cè)斐闪司薮蟮呢?cái)產(chǎn)損失,甚至威脅到國(guó)家整體的信息安全。因此,及時(shí)評(píng)估當(dāng)前網(wǎng)絡(luò)狀態(tài)并預(yù)測(cè)其發(fā)展趨勢(shì)成為保障各種網(wǎng)絡(luò)服務(wù)安全急需解決的問(wèn)題。
準(zhǔn)確有效地預(yù)測(cè)網(wǎng)絡(luò)的安全態(tài)勢(shì),使得網(wǎng)絡(luò)的安全管理從被動(dòng)變?yōu)橹鲃?dòng)。管理員可以判斷網(wǎng)絡(luò)安全所處狀態(tài)的趨勢(shì),更好地理解網(wǎng)絡(luò)狀態(tài)及其所受攻擊的狀態(tài),能在網(wǎng)絡(luò)遭受攻擊和損失之前,及時(shí)采取防御措施,加強(qiáng)網(wǎng)絡(luò)安全設(shè)備的安全策略,更改網(wǎng)絡(luò)安全監(jiān)管的安全規(guī)則,真正達(dá)到網(wǎng)絡(luò)安全主動(dòng)防御的目的。線性回歸分析、灰色預(yù)測(cè)等傳統(tǒng)算法可以預(yù)測(cè)一段時(shí)間內(nèi)數(shù)據(jù)變化的大致趨勢(shì),但在處理具有非線性關(guān)系、非正態(tài)分布特性的宏觀網(wǎng)絡(luò)態(tài)勢(shì)值所形成的時(shí)間序列數(shù)據(jù)時(shí),效果不理想。也有通過(guò)RBF等神經(jīng)網(wǎng)絡(luò)[1]來(lái)進(jìn)行網(wǎng)絡(luò)安全態(tài)勢(shì)值的預(yù)測(cè),但神經(jīng)網(wǎng)絡(luò)算法主要依靠經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則,容易導(dǎo)致泛化能力的下降且模型結(jié)構(gòu)難以確定。在學(xué)習(xí)樣本數(shù)量有限時(shí),學(xué)習(xí)過(guò)程誤差易收斂于局部極小點(diǎn),學(xué)習(xí)精度難以保證;學(xué)習(xí)樣本數(shù)量很多時(shí),又陷入維數(shù)災(zāi)難,泛化性能不高。在進(jìn)行實(shí)時(shí)在線預(yù)測(cè)的網(wǎng)絡(luò)態(tài)勢(shì)感知系統(tǒng)中,神經(jīng)網(wǎng)絡(luò)的這一缺點(diǎn)被進(jìn)一步放大。
支持向量回歸(SVR)算法有效避免了上述算法所面臨的問(wèn)題,預(yù)測(cè)絕對(duì)誤差小,保證了預(yù)測(cè)的正確趨勢(shì)率,能準(zhǔn)確預(yù)測(cè)網(wǎng)絡(luò)態(tài)勢(shì)的發(fā)展趨勢(shì)。與RBF神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)算法相比,其更有利于對(duì)實(shí)時(shí)在線網(wǎng)絡(luò)態(tài)勢(shì)值的預(yù)測(cè)分析。
1 相關(guān)技術(shù)
網(wǎng)絡(luò)態(tài)勢(shì)感知源于空中交通監(jiān)管(air traffic control,ATC)態(tài)勢(shì)感知,是一個(gè)比較新的概念。1999年,Tim Bass首次提出網(wǎng)絡(luò)態(tài)勢(shì)感知(cyberspace situation awareness)的概念,并對(duì)網(wǎng)絡(luò)態(tài)勢(shì)感知與ATC態(tài)勢(shì)感知進(jìn)行了類(lèi)比,旨在把ATC態(tài)勢(shì)感知的成熟理論和技術(shù)借鑒到網(wǎng)絡(luò)態(tài)勢(shì)感知中來(lái)。目前,對(duì)網(wǎng)絡(luò)態(tài)勢(shì)感知還未能給出統(tǒng)一的、全面的定義。所謂網(wǎng)絡(luò)態(tài)勢(shì)是指由各種網(wǎng)絡(luò)設(shè)備運(yùn)行狀況、網(wǎng)絡(luò)行為以及用戶(hù)行為等因素所構(gòu)成的整個(gè)網(wǎng)絡(luò)當(dāng)前狀態(tài)和變化趨勢(shì)。通過(guò)建立一套描述網(wǎng)絡(luò)態(tài)勢(shì)的指標(biāo)體系,就可以對(duì)當(dāng)前網(wǎng)絡(luò)狀況有一個(gè)直觀全面的了解,從而為實(shí)現(xiàn)主動(dòng)安全防御打下良好的基礎(chǔ)。值得注意的是,態(tài)勢(shì)是一種狀態(tài)、一種趨勢(shì),是一個(gè)整體和全局的概念,任何單一的情況或狀態(tài)都不能稱(chēng)之為態(tài)勢(shì)。網(wǎng)絡(luò)態(tài)勢(shì)感知是指在大規(guī)模網(wǎng)絡(luò)環(huán)境中,對(duì)能夠引起網(wǎng)絡(luò)態(tài)勢(shì)發(fā)生變化的安全要素進(jìn)行獲取、理解、顯示以及預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì)。
態(tài)勢(shì)感知包括態(tài)勢(shì)元素提取、當(dāng)前態(tài)勢(shì)分析和未來(lái)態(tài)勢(shì)預(yù)測(cè)幾個(gè)部分,主要涵蓋以下幾個(gè)方面:
a)在一定的網(wǎng)絡(luò)環(huán)境下,提取進(jìn)行態(tài)勢(shì)估計(jì)要考慮的各要素,為態(tài)勢(shì)推理做好準(zhǔn)備;
b)分析并確定事件發(fā)生的深層次原因,給出對(duì)所監(jiān)控網(wǎng)絡(luò)當(dāng)前態(tài)勢(shì)的理解或綜合評(píng)價(jià);
c)已知T時(shí)刻發(fā)生的事件,預(yù)測(cè)T+1,T+2,…,T+n時(shí)刻可能發(fā)生的事件,進(jìn)而確定網(wǎng)絡(luò)態(tài)勢(shì)的發(fā)展趨勢(shì)。
態(tài)勢(shì)感知的結(jié)果是形成態(tài)勢(shì)分析報(bào)告和網(wǎng)絡(luò)綜合態(tài)勢(shì)圖,以不同圖標(biāo)表示不同網(wǎng)絡(luò)狀態(tài),使管理員能直觀了解網(wǎng)絡(luò)安全狀況,提供輔助決策信息。網(wǎng)絡(luò)態(tài)勢(shì)的評(píng)估結(jié)果是一個(gè)數(shù)值,根據(jù)不同的閾值區(qū)間,對(duì)應(yīng)不同的安全等級(jí)。規(guī)范化定義的安全態(tài)勢(shì)分為紅、橙、黃、藍(lán)、綠,并且定義了各層代表的具體含義、層次之間轉(zhuǎn)換時(shí)需要采用的各項(xiàng)措施等。
為了對(duì)宏觀網(wǎng)絡(luò)的安全態(tài)勢(shì)進(jìn)行有效評(píng)估和預(yù)測(cè),系統(tǒng)結(jié)合網(wǎng)絡(luò)自身的特征,提出了四套相互關(guān)聯(lián),且覆蓋了整個(gè)網(wǎng)絡(luò)各個(gè)層面的指標(biāo)體系[2,3],包括脆弱、容災(zāi)、威脅、穩(wěn)定四個(gè)方面,這四個(gè)指標(biāo)體系定量描述了網(wǎng)絡(luò)各個(gè)部分的特征。
系統(tǒng)在安全態(tài)勢(shì)規(guī)范化定義的基礎(chǔ)上,對(duì)輸入的20個(gè)網(wǎng)絡(luò)安全指標(biāo)和其綜合出來(lái)的四個(gè)綜合指數(shù)進(jìn)行評(píng)估,得出網(wǎng)絡(luò)的安全態(tài)勢(shì)。
整個(gè)態(tài)勢(shì)感知過(guò)程包括理解模塊和決策支持,可以用如圖1所示的模型直觀表示。
系統(tǒng)通過(guò)對(duì)實(shí)時(shí)提取的網(wǎng)絡(luò)特征值進(jìn)行綜合計(jì)算得出定量描述的網(wǎng)絡(luò)總體狀態(tài)的安全態(tài)勢(shì)值,這是一個(gè)基于時(shí)間序列的數(shù)據(jù)集,從而可以利用支持向量回歸算法進(jìn)行分析計(jì)算。
2 支持向量回歸算法[4]
支持向量回歸算法的基本原理是通過(guò)一個(gè)非線性映射φ將數(shù)據(jù)Xi映射到一個(gè)高維特征空間F,并在此空間上進(jìn)行線性回歸,從而將低維特征空間的非線性回歸問(wèn)題轉(zhuǎn)換為高維特征空間的線性回歸問(wèn)題來(lái)解決。
根據(jù)統(tǒng)計(jì)學(xué)原理確定的回歸函數(shù)為
f(x)=(ω,φ(x))+b(1)
其中φ:Rn→F,ω∈F。(ω,φ(x))表示內(nèi)積;φ為Rm空間到F空間的非線性映射,X∈Rm;ω為權(quán)向量,ω∈F;b為偏置。
傳統(tǒng)的回歸問(wèn)題解決方法是確定函數(shù)f,使得經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化。通過(guò)SVM解決回歸問(wèn)題是使經(jīng)驗(yàn)風(fēng)險(xiǎn)與置信風(fēng)險(xiǎn)(模型的復(fù)雜度)之和最小,因而預(yù)測(cè)模型具有很好的函數(shù)逼近能力和泛化能力。如果已確定式(1)中的φ(x),利用樣本數(shù)據(jù)(Xi,Yi)使得式(2)泛函最小化,則可確定式(1)中的ω和b的估計(jì)值。
Rreg[f]=Remp[f]+λ‖ω‖2=Si=1C(ei)+λ‖ω‖2(2)
其中:Remp[f]為經(jīng)驗(yàn)風(fēng)險(xiǎn);‖ω‖2為置信風(fēng)險(xiǎn);C(ei)為模型的經(jīng)驗(yàn)損失,C為損失函數(shù),ei=f(Xi)-Yi=Y^i-Yi為樣本的預(yù)測(cè)值與真實(shí)值之差;S為樣本容量。由于φ是固定的,‖ω‖2反映了模型在高維特征空間的復(fù)雜性,其值越小則置信風(fēng)險(xiǎn)越小。λ是用于控制樣本訓(xùn)練損失與模型復(fù)雜性折中的正則化參數(shù)。
對(duì)于給定的損失函數(shù),該問(wèn)題可作為一個(gè)二次規(guī)劃問(wèn)題解決。定義函數(shù)如下:
|y-f(x)|ε=max(0,|y-f(x)|-ε)(3)
其中:ε用于控制回歸逼近誤差寬度,控制支持向量的個(gè)數(shù)和泛化能力,其值越小,精度越高,支持向量數(shù)越多,但泛化能力減弱。采用該損失函數(shù)經(jīng)驗(yàn)風(fēng)險(xiǎn)為
Rεemp[f]=1/sSi=1|y-f(x)|ε(4)
因此求解式(2)等價(jià)于求解如下優(yōu)化問(wèn)題:
min L=1/2 ωT ω+CSi=1(ξ*i+ξi)
s.t.yi-(ω,φ(Xi))-b≤ε+ξ*i
(ω,φ(Xi))+b-yi≤ε+ξ*i
ξi,ξ*i≥0(5)
其中C=1/λ。
為便于求解,將該二次規(guī)劃(優(yōu)化)問(wèn)題轉(zhuǎn)換為其對(duì)偶問(wèn)題得:
max J=1/2 (αi-α*i)(αj-α*j)(φ(Xi),φ(Xj))+
Si=1α*i(Yi-ε)-Si=1αi(Yi+ε)(6)
s.t.0≤α*i≤C
Si=1αi=Si=1α*i
0≤αi≤C
求解可得ω=Si=1(αi-α*i)φ(Xi),b可由任一支持向量代入求得,則可得非線性函數(shù)f:
f(x)=li=1(αi-α*i)K(Xi,X)+b(7)
對(duì)于核函數(shù)的選擇通常包括以下幾種:
a)多項(xiàng)式函數(shù):K(x,y)=(x×y+1)d,d=1,2,…
b)徑向基函數(shù):K(x,y)=exp(-‖x-y‖2/σ2)
c)Sigmoid函數(shù):K(x,y)=tan h[b×(x×y)+θ]
系統(tǒng)中選擇徑向基函數(shù)作為核函數(shù)。
3 預(yù)測(cè)模型設(shè)計(jì)
態(tài)勢(shì)感知系統(tǒng)實(shí)時(shí)在線運(yùn)行,每次處理采集數(shù)據(jù),計(jì)算網(wǎng)絡(luò)安全態(tài)勢(shì)值的時(shí)間間隔是1 h,從而形成一個(gè)時(shí)間序列的數(shù)據(jù)集。
預(yù)測(cè)模型首先對(duì)最近一段固定時(shí)間段的數(shù)據(jù)集數(shù)據(jù)進(jìn)行歸一化處理,在此基礎(chǔ)上構(gòu)造樣本數(shù)據(jù),將樣本數(shù)據(jù)劃分為N維向量。其中前m維為預(yù)測(cè)函數(shù)輸入向量,后n維為輸出向量(N=m + n),一組(m, n)構(gòu)成一個(gè)訓(xùn)練數(shù)據(jù)對(duì)。然后初始化模型訓(xùn)練參數(shù),通過(guò)形成的訓(xùn)練數(shù)據(jù)對(duì)預(yù)測(cè)模型進(jìn)行訓(xùn)練,具體過(guò)程即是求解式(6)中所述的二次規(guī)劃方程。通過(guò)交叉檢驗(yàn)方法優(yōu)化選擇正則化參數(shù)和誤差控制參數(shù),從而確定預(yù)測(cè)模型的各項(xiàng)參數(shù)。
在預(yù)測(cè)模型確定后,將最近的m個(gè)態(tài)勢(shì)值設(shè)置為輸入樣本,即預(yù)測(cè)時(shí)所需的輸入值,代入預(yù)測(cè)模型中進(jìn)行計(jì)算,從而得出n維預(yù)測(cè)值。
4 實(shí)驗(yàn)結(jié)果及分析
針對(duì)設(shè)計(jì)的SVR預(yù)測(cè)模型,在VC8.0的環(huán)境下進(jìn)行訓(xùn)練與測(cè)試的實(shí)驗(yàn)。構(gòu)造的預(yù)測(cè)函數(shù)輸入向量m=4,輸出向量n=1。SVR的核函數(shù)選擇為徑向基函數(shù),正則化參數(shù)和誤差控制參數(shù)采用交叉檢驗(yàn)方法進(jìn)行優(yōu)化選擇,本項(xiàng)目中取值為C=500,ε=1/1 000。
對(duì)于RBF神經(jīng)網(wǎng)絡(luò),采用三層結(jié)構(gòu)的m-h-n結(jié)構(gòu)的RBF網(wǎng),即網(wǎng)絡(luò)具有m個(gè)輸入,h個(gè)隱節(jié)點(diǎn),n個(gè)輸出。采用K-均值聚類(lèi)算法確定隱含層徑向基函數(shù)的中心,聚類(lèi)的個(gè)數(shù)同時(shí)確定了隱含層節(jié)點(diǎn)的個(gè)數(shù)。網(wǎng)絡(luò)的權(quán)值學(xué)習(xí)調(diào)整采用最小二乘遞推法RLS。
原始網(wǎng)絡(luò)數(shù)據(jù)為國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)安全中心提供的重慶地區(qū)網(wǎng)絡(luò)數(shù)據(jù)。在將這些信息轉(zhuǎn)換為指標(biāo)格式后,以1 h為單位對(duì)網(wǎng)絡(luò)態(tài)勢(shì)進(jìn)行評(píng)估,得到了2007年10月19~25日的該地區(qū)網(wǎng)絡(luò)態(tài)勢(shì)值,從中取出19日~24日的態(tài)勢(shì)值作為訓(xùn)練樣本。實(shí)際的網(wǎng)絡(luò)態(tài)勢(shì)值、SVR預(yù)測(cè)算法和RBF神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)算法的計(jì)算結(jié)果分別如圖2所示。
由于RBF神經(jīng)網(wǎng)絡(luò)算法中的關(guān)鍵參數(shù)、隱含層徑向基函數(shù)的中心數(shù)值是根據(jù)對(duì)評(píng)估結(jié)果的聚類(lèi)算法來(lái)確定的。在實(shí)時(shí)在線的網(wǎng)絡(luò)安全態(tài)勢(shì)評(píng)估應(yīng)用中,聚類(lèi)算法容易陷入局部最優(yōu)化問(wèn)題,同時(shí)容易將某些態(tài)勢(shì)的變化作為孤立類(lèi),使得數(shù)據(jù)處理不當(dāng),從而導(dǎo)致整個(gè)RBF神經(jīng)網(wǎng)絡(luò)的解結(jié)果不穩(wěn)定,如出現(xiàn)圖2所示預(yù)測(cè)值相對(duì)實(shí)際態(tài)勢(shì)結(jié)果的滯后反應(yīng)。
SVR算法具有很好的函數(shù)逼近能力和泛化能力,避免了這個(gè)問(wèn)題的產(chǎn)生。根據(jù)實(shí)驗(yàn)數(shù)據(jù)分析計(jì)算,SVR算法預(yù)測(cè)值的平均絕對(duì)誤差小于0.02,預(yù)測(cè)偏差度控制在8%以?xún)?nèi),具有較高的準(zhǔn)確率,圖示中預(yù)測(cè)值與實(shí)際值的曲線發(fā)展方向也完全一致,達(dá)到了準(zhǔn)確預(yù)測(cè)網(wǎng)絡(luò)安全態(tài)勢(shì)結(jié)果的目的。
5 結(jié)束語(yǔ)
本文針對(duì)宏觀網(wǎng)絡(luò)安全態(tài)勢(shì)感知系統(tǒng)中針對(duì)實(shí)時(shí)在線的網(wǎng)絡(luò)態(tài)勢(shì)值的預(yù)測(cè)算法研究,提出了通過(guò)支持向量回歸技術(shù)對(duì)網(wǎng)絡(luò)安全態(tài)勢(shì)值進(jìn)行預(yù)測(cè),并相對(duì)RBF神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)算法進(jìn)行了實(shí)驗(yàn)比較。結(jié)果表明,SVR算法有效避免了RBF神經(jīng)網(wǎng)絡(luò)在實(shí)時(shí)預(yù)測(cè)運(yùn)行時(shí)容易出現(xiàn)的解結(jié)果不穩(wěn)定現(xiàn)象,預(yù)測(cè)的絕對(duì)誤差小,保證了預(yù)測(cè)的正確趨勢(shì)。該方法能準(zhǔn)確地預(yù)測(cè)網(wǎng)絡(luò)態(tài)勢(shì)的發(fā)展趨勢(shì),為管理員制定安全策略提供有價(jià)值的參考。管理員便可根據(jù)趨勢(shì)的變化制定針對(duì)性策略,從而對(duì)網(wǎng)絡(luò)進(jìn)行有效監(jiān)控。但是,對(duì)于預(yù)測(cè)算法效率的提高及網(wǎng)絡(luò)態(tài)勢(shì)值計(jì)算的標(biāo)準(zhǔn)化還有大量的工作要做,有待于日后進(jìn)一步解決和完善。
參考文獻(xiàn):
[1]
任偉, 蔣興浩,孫錟鋒.基于RBF神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)安全態(tài)勢(shì)預(yù)測(cè)方法[J].計(jì)算機(jī)工程與應(yīng)用,2006,42(31):136-138.
[2]葉李,王娟,秦志光.用灰色優(yōu)勢(shì)分析確定網(wǎng)絡(luò)安全評(píng)估指標(biāo)[J].電子科技大學(xué)學(xué)報(bào),2007,36(6): 1195-1197.
[3]王娟,張鳳荔,傅翀,等.網(wǎng)絡(luò)態(tài)勢(shì)感知中的指標(biāo)體系研究[J].計(jì)算機(jī)應(yīng)用,2007,27(8):1907-1909.
[4]CRISTIANINI N,TAYLOR J S.支持向量機(jī)導(dǎo)論[M].李國(guó)正,王猛,曾華軍,譯.北京: 電子工業(yè)出版社,2005.
[5]黃虎,嚴(yán)余松,蔣葛夫,等.基于支持向量回歸機(jī)的公路貨運(yùn)量預(yù)測(cè)模型[J].計(jì)算機(jī)應(yīng)用研究,2008,25(2):632-633.
[6]蔣琰.基于NetFlow的網(wǎng)絡(luò)數(shù)據(jù)流量分析與異常檢測(cè)系統(tǒng)的研究與實(shí)現(xiàn)[D]. 上海: 同濟(jì)大學(xué)電子與信息工程學(xué)院,2006.
[7]BASS T.Intrusion detection systems multisensor data fusion: creating cyberspace situational awareness[J].Communications of the ACM,2000,43(4):99-105.
[8]LY T C.Multiple hypotheses situation assessment[C]//Proc of the 6th International Conference on Information Fusion.2004:972-978.
[9]ENDSLEY M R.Design and evaluation for situation awareness enhancement[C]//Proc of the 32nd Human Factors Society Annual Meeting.1998:97-101.
[10]SMOLA A J,SCHOELKOPF B.A tutorial on support vector regression [J].Statistic and Computing,2004,14(3): 199-222.