黃振晗
(福建廣播電視大學(xué)莆田分校,莆田 351100)
在信息技術(shù)快速發(fā)展的背景下,網(wǎng)絡(luò)安全技術(shù)開(kāi)始從之前的被動(dòng)防御逐漸升級(jí)到主動(dòng)防范.而在諸多主動(dòng)防范技術(shù)中,安全預(yù)測(cè)技術(shù)無(wú)疑是其中極為重要的一環(huán),通過(guò)安全預(yù)測(cè)技術(shù)能夠?qū)崿F(xiàn)提前預(yù)警并能對(duì)安全走勢(shì)進(jìn)行動(dòng)態(tài)評(píng)估.網(wǎng)絡(luò)安全態(tài)勢(shì)預(yù)測(cè)能夠?qū)窈蟮陌踩l(fā)展脈絡(luò)有著更加清晰的認(rèn)知,并為主動(dòng)式安全管理提供極大的支持,可以顯著減少安全所帶來(lái)的諸多損失,因此深受社會(huì)各界矚目.當(dāng)前海內(nèi)外諸多學(xué)者提出了基于不同算法的安全預(yù)測(cè)模型,譬如時(shí)間序列、證據(jù)理論法等,這些模型的預(yù)測(cè)結(jié)果往往只能對(duì)安全相類性、周期性的發(fā)展態(tài)勢(shì)進(jìn)行預(yù)測(cè),并不能對(duì)隨機(jī)性或者突發(fā)性安全問(wèn)題進(jìn)行預(yù)測(cè).為此部分學(xué)者開(kāi)始將這種問(wèn)題轉(zhuǎn)化成時(shí)間序列的回歸預(yù)測(cè)問(wèn)題,然后借助于人工智能算法,例如灰色模型、SVM、BP神經(jīng)網(wǎng)絡(luò)等完成該安全預(yù)測(cè)的建模,得到較佳的效果.SVM是一種典型的以高斯模型為核心的非線性預(yù)測(cè)技術(shù),它能夠在大量數(shù)據(jù)中挖掘出網(wǎng)絡(luò)安全潛含的規(guī)律.為了進(jìn)一步提升該安全走勢(shì)的預(yù)測(cè)精準(zhǔn)度,在本次研究中對(duì)SVM參數(shù)使用遺傳算法進(jìn)行優(yōu)化,由此創(chuàng)制相應(yīng)的安全預(yù)測(cè)模型.這樣就能更好利用遺傳算法的全局搜索能力對(duì)SVM參數(shù)加以合理優(yōu)化,使之更為精準(zhǔn)的進(jìn)行網(wǎng)絡(luò)安全態(tài)勢(shì)的預(yù)測(cè).最后對(duì)此方法進(jìn)行仿真驗(yàn)證,得出本次優(yōu)化的模型在該安全態(tài)勢(shì)預(yù)測(cè)領(lǐng)域頗具效果.
“態(tài)勢(shì)”的基本概念起源于軍事領(lǐng)域,其內(nèi)涵就是某個(gè)被研究對(duì)象狀態(tài)綜合表現(xiàn),而此對(duì)象存在著范圍大、結(jié)構(gòu)復(fù)雜、影響要素眾多的特點(diǎn).其中戰(zhàn)場(chǎng)態(tài)勢(shì)最為典型.在網(wǎng)絡(luò)安全研究中,該態(tài)勢(shì)的引入有助于創(chuàng)制更具可行性的體系,從而對(duì)該安全狀態(tài)進(jìn)行全面與深入的認(rèn)知.該預(yù)測(cè)管理需要結(jié)合相應(yīng)的安全事件發(fā)生參數(shù)進(jìn)行加權(quán)處理,譬如發(fā)生頻次、受威脅程度等.將大量安全信息進(jìn)行融合,進(jìn)而獲得相應(yīng)的態(tài)勢(shì)值來(lái)更加精準(zhǔn)的了解當(dāng)前安全水平,然后在綜合當(dāng)前與歷史態(tài)勢(shì)值來(lái)預(yù)測(cè)今后的安全趨勢(shì).該態(tài)勢(shì)在采集數(shù)之時(shí)需要按照時(shí)間先后次序來(lái)開(kāi)展,因此在具體處理之時(shí)能夠?qū)⑵湟曌饕粋€(gè)時(shí)間序列,而預(yù)測(cè)模型輸入變量則能遴選前段時(shí)間序列態(tài)勢(shì)值,而輸出則是下一個(gè)時(shí)間的安全態(tài)勢(shì)值.將具有安全態(tài)勢(shì)值的時(shí)間序列進(jìn)行如下設(shè)置:
x={xi|xi∈R,i=1,2,…,L}
(1)
由此對(duì)網(wǎng)絡(luò)安全態(tài)勢(shì)的預(yù)測(cè)從本質(zhì)上就是對(duì)前N時(shí)間節(jié)點(diǎn)的態(tài)勢(shì)值加以分析,進(jìn)而對(duì)后續(xù)不同時(shí)間節(jié)點(diǎn)的態(tài)勢(shì)值進(jìn)行預(yù)測(cè).其實(shí)現(xiàn)流程為:第一,訓(xùn)練對(duì)應(yīng)訓(xùn)練集,構(gòu)制該態(tài)勢(shì)預(yù)測(cè)模型.第二,借助于該模型對(duì)今后一段時(shí)間的網(wǎng)絡(luò)安全態(tài)勢(shì)進(jìn)行預(yù)測(cè).該網(wǎng)絡(luò)安全態(tài)勢(shì)能夠展現(xiàn)出隨機(jī)性與不確定性,因此需要對(duì)預(yù)測(cè)結(jié)果的準(zhǔn)確性進(jìn)行提升,而不能簡(jiǎn)單的使用傳統(tǒng)的預(yù)測(cè)模型.在此處可以借助于SVM來(lái)對(duì)該態(tài)勢(shì)進(jìn)行預(yù)測(cè).這項(xiàng)技術(shù)的核心可以對(duì)系統(tǒng)的隨機(jī)性與不確定性有著較強(qiáng)的自適應(yīng)學(xué)習(xí)能力.以下就基于SVM來(lái)對(duì)網(wǎng)絡(luò)安全態(tài)勢(shì)進(jìn)行建模,然后對(duì)今后的安全態(tài)勢(shì)進(jìn)行預(yù)測(cè).
1995年,Vapnik和Cortes在研究中首次提出支持向量機(jī)這種用以統(tǒng)計(jì)學(xué)習(xí)的機(jī)器學(xué)習(xí)方法,如今SVM已經(jīng)成為機(jī)器學(xué)習(xí)的主流預(yù)測(cè)模型.它能夠?qū)維歐式空間Rn的兩類基本問(wèn)題進(jìn)行解決,亦即分類與回歸問(wèn)題.可以概括成:獲取Rn中的實(shí)值函數(shù)g(x),然后對(duì)任意輸入值x借助于決策函數(shù)f(x)=sgn[g(x)]來(lái)獲取相應(yīng)的輸出值y.
在此過(guò)程中g(shù)(x)函數(shù)形式較難明確,主要采用的方式就是創(chuàng)制與原始問(wèn)題具有等價(jià)關(guān)系的對(duì)偶問(wèn)題并加以計(jì)算.而這種問(wèn)題通常為非線性規(guī)劃問(wèn)題,也就是將原歐式空間Rn中的變量x借助于轉(zhuǎn)換φ完成至Hibert空間的轉(zhuǎn)換,進(jìn)而得到線性規(guī)劃問(wèn)題并進(jìn)行求解.對(duì)應(yīng)的變換φ為:
Rn→Hilbert,x→x=φ(x)
(2)
在此SVM中,實(shí)現(xiàn)φ變換的方式為核函數(shù)的內(nèi)積轉(zhuǎn)換,亦即:
K(x,x′)=φ(x)φ(x′)
(3)
而Rn空間之中的決策函數(shù)為:
f(x)=sgn[wTφ(x)+b]
(4)
上式中的權(quán)重與閾值分別用w與b表征.
若是相應(yīng)的問(wèn)題具有線性不可分屬性,那么就很難運(yùn)用SVM來(lái)進(jìn)行計(jì)算,目前較為可行的方法就是引入非負(fù)松弛因子,然后將其進(jìn)行轉(zhuǎn)換使之成為二次優(yōu)化問(wèn)題,亦即:
s.t.yi(w·φ(x)+b)≥1-ξi
ξ≥0,i=1,2,…,n
(5)
在上式中展現(xiàn)了典型凸二次規(guī)劃問(wèn)題,所以可以借助于拉格朗日乘子來(lái)對(duì)其進(jìn)行轉(zhuǎn)換,使之形成對(duì)偶問(wèn)題,亦即使得計(jì)算最小化問(wèn)題轉(zhuǎn)換成最大化求解,具體如下:
C≥ai≥0,i=1,2,…,l
(6)
上式中的拉格朗日算子為ai,通過(guò)對(duì)其進(jìn)行計(jì)算,就能得到w的權(quán)向量,是為:
w=∑aiyiφ(xi)φ(x)
(7)
為此支持向量機(jī)的分類決策函數(shù)為:
f(x)=sgn[aiyiφ(xi)φ(x)+b]
(8)
在相應(yīng)的高維空間之中展開(kāi)相應(yīng)的點(diǎn)積操作無(wú)疑有著頗大的難度,所以將其使用核函數(shù)來(lái)進(jìn)行取代,那么該函數(shù)就能用下式表示:
f(x)=sgn[aiyik(x,xi)+b]
(9)
該SVM核函數(shù)會(huì)導(dǎo)入新參量,所以可以將RBF應(yīng)用該支持向量機(jī)的核函數(shù),前者的形式為:
(10)
于是該函數(shù)的最終表征形式為:
(11)
利用SVM對(duì)網(wǎng)絡(luò)安全態(tài)勢(shì)進(jìn)行預(yù)測(cè),其過(guò)程為:
(1)對(duì)當(dāng)前的網(wǎng)絡(luò)安全態(tài)勢(shì)數(shù)據(jù)進(jìn)行采集,包括其中的處理不良與異常數(shù)據(jù).
(2)分析該態(tài)勢(shì)數(shù)據(jù),因?yàn)閷?duì)其影響的因素整體較多,容易產(chǎn)生較大的差異,其中SVM預(yù)測(cè)模型對(duì)(0,1)之間數(shù)據(jù)有著較高的敏感度,為此需要將原始數(shù)據(jù)進(jìn)行歸一化,使之處于0至1之間,具體方法為:
(12)
(3)將一維網(wǎng)絡(luò)安全態(tài)勢(shì)數(shù)據(jù)轉(zhuǎn)化成多維數(shù)據(jù),實(shí)現(xiàn)機(jī)制就是利用嵌入維數(shù)與時(shí)間延遲來(lái)實(shí)現(xiàn).在本次研究中該時(shí)間延遲為1,而嵌入維數(shù)依次為2,3,…,借助于初步的試湊,于是獲得嵌入的m維數(shù).如果該一維態(tài)勢(shì)數(shù)據(jù)用{X1,X2,…,Xn}表征,那么便能獲得以下多維該態(tài)勢(shì)數(shù)據(jù),具體如下:
表1 多維網(wǎng)絡(luò)安全態(tài)勢(shì)數(shù)據(jù)
(4)將網(wǎng)絡(luò)安全態(tài)勢(shì)數(shù)據(jù)細(xì)分成兩個(gè)模塊,亦即訓(xùn)練與測(cè)試集,SVM可以利用訓(xùn)練集進(jìn)行學(xué)習(xí),進(jìn)而對(duì)SVM模型的參數(shù)進(jìn)行最優(yōu)解尋找,具體可以通過(guò)遺傳算法來(lái)實(shí)現(xiàn),這樣就能夠使得該預(yù)測(cè)模型參量具有最優(yōu)性.
(5)借助于該預(yù)測(cè)模型來(lái)對(duì)預(yù)測(cè)集進(jìn)行分析,并輸出相應(yīng)的結(jié)果.接著利用反歸一算式將該結(jié)果轉(zhuǎn)換成具體安全態(tài)勢(shì)值,最后就可以據(jù)此對(duì)當(dāng)前的網(wǎng)絡(luò)安全態(tài)勢(shì)進(jìn)行準(zhǔn)確判斷與預(yù)測(cè).
為了對(duì)設(shè)計(jì)模型進(jìn)行效果驗(yàn)證,將實(shí)驗(yàn)室入侵檢測(cè)開(kāi)發(fā)組的測(cè)試環(huán)境用作實(shí)驗(yàn)環(huán)境,而該入侵檢測(cè)的系統(tǒng)都統(tǒng)一的獨(dú)立于相應(yīng)的互聯(lián)網(wǎng)局域網(wǎng)之中,局域網(wǎng)內(nèi)含WEB與FTP服務(wù)器,普通計(jì)算機(jī)10臺(tái),還有兩臺(tái)攻擊模擬機(jī).實(shí)驗(yàn)設(shè)備都配置了相應(yīng)的入侵檢測(cè)系統(tǒng)探頭,選擇2019年4月1至4月30日的邊界安全監(jiān)測(cè)數(shù)據(jù),按照日采樣4次頻率,總共獲取120個(gè)態(tài)勢(shì)值,具體數(shù)據(jù)可參見(jiàn)下圖.將前面的90個(gè)態(tài)勢(shì)值用作SVM的訓(xùn)練樣本,而后30個(gè)則是該SVM的測(cè)試集,而相應(yīng)驗(yàn)證試驗(yàn)選用了matlab 9.1系統(tǒng).
圖1 網(wǎng)絡(luò)安全態(tài)勢(shì)樣本數(shù)據(jù)圖
首先將該態(tài)勢(shì)時(shí)延設(shè)定為1,然后利用以上的試湊法不斷提升嵌入的維數(shù),通過(guò)分析獲得8維,對(duì)應(yīng)的SVM為7個(gè)輸入變量與1個(gè)輸出變量,該態(tài)勢(shì)數(shù)據(jù)的重構(gòu)就可以利用該時(shí)延與嵌入維數(shù)來(lái)實(shí)現(xiàn),然后完成該SVM的訓(xùn)練與測(cè)試樣本集.隨后基于前者數(shù)據(jù)集來(lái)進(jìn)行SVM學(xué)習(xí),同時(shí)利用遺傳算法對(duì)此模型參量加以優(yōu)化.設(shè)置的參量包括進(jìn)化代數(shù)、初始種群、變異與交叉概率,它們的值依次為100、40、0.01、0.05與0.95.該系統(tǒng)在運(yùn)行至50.55 s之時(shí)出現(xiàn)目標(biāo)誤差,此時(shí)的SVM完成的訓(xùn)練步數(shù)達(dá)到5000,借助于該態(tài)勢(shì)的適應(yīng)度曲線可以得知,在30代遺傳之后,該染色體的適應(yīng)度開(kāi)始逐漸穩(wěn)定,據(jù)此就能得到該預(yù)測(cè)模型的最優(yōu)參量:亦即高斯核函數(shù)寬度、不敏感損失函數(shù)與懲罰參數(shù),依次為5、0.001與100.隨機(jī)對(duì)該安全態(tài)勢(shì)進(jìn)行相應(yīng)的預(yù)測(cè),得到圖2的適應(yīng)度曲線.分析該圖可知通過(guò)約30代的遺傳,該染色體適應(yīng)度開(kāi)始漸穩(wěn),由此得到該模型的最優(yōu)參量為:c=100,ε=0.001,σ=5.借助于該預(yù)測(cè)模型就可以得出預(yù)測(cè)誤差整體較小,預(yù)測(cè)精度得到了明顯的提升.
圖2 SVM參數(shù)優(yōu)化過(guò)程
在使用最優(yōu)參量c=100,ε=0.001,σ=5構(gòu)筑相應(yīng)的安全態(tài)勢(shì)預(yù)測(cè)模型時(shí),可以選用最優(yōu)模型對(duì)這30個(gè)態(tài)勢(shì)值進(jìn)行預(yù)測(cè),并得到圖3的結(jié)果,而通過(guò)圖3給出的預(yù)期曲線可以得知該預(yù)測(cè)模型整體預(yù)測(cè)誤差較小,有著較高的預(yù)測(cè)精度.
圖3 SVM網(wǎng)絡(luò)安全態(tài)勢(shì)預(yù)測(cè)結(jié)果圖
為了進(jìn)行對(duì)比分析,運(yùn)用BP與RBF這兩種神經(jīng)網(wǎng)絡(luò)算法來(lái)進(jìn)行預(yù)測(cè),并借助于均方(MSE)與平均相對(duì)誤差(MAE)來(lái)用作模型的評(píng)價(jià)指標(biāo),得到表2對(duì)比結(jié)果.
表2 三種算法的預(yù)測(cè)性能分析表
通過(guò)表2對(duì)于三種算法的預(yù)測(cè)性能分析可知,SVM在預(yù)測(cè)速度、精度與所需時(shí)間上相較與另外兩種算法都有著較為明顯的優(yōu)勢(shì).造成這種差異的原因是該SVM相較于RBF以及BP算法而言有著更多的優(yōu)勢(shì),況且前者還進(jìn)一步使用了遺傳算法對(duì)其參量加以優(yōu)化.裝使之能夠在整個(gè)空間中找到最優(yōu)解,有效規(guī)避另外兩個(gè)算法容易陷入局優(yōu)解、收斂速度慢等問(wèn)題.為此SVM無(wú)疑在網(wǎng)絡(luò)安全態(tài)勢(shì)預(yù)測(cè)方面,無(wú)疑具有快速、高精度、高可靠性的優(yōu)勢(shì).
隨著信息網(wǎng)絡(luò)中各種新型技術(shù)的廣泛運(yùn)用,網(wǎng)絡(luò)安全感知技術(shù)隨之誕生,這種感知技術(shù)可以細(xì)分成相應(yīng)態(tài)勢(shì)要素的提取、評(píng)估與預(yù)測(cè).其中預(yù)測(cè)則是這項(xiàng)技術(shù)的核心,通過(guò)預(yù)測(cè)可以為相應(yīng)的管理人員提供當(dāng)前以及過(guò)去的相應(yīng)網(wǎng)絡(luò)安全狀態(tài),同時(shí)還能在已有的數(shù)據(jù)基礎(chǔ)上挖掘與預(yù)測(cè)今后一段時(shí)間的網(wǎng)絡(luò)安全態(tài)勢(shì),從而顯著較少管理者的數(shù)據(jù)分析工作量,所以該技術(shù)開(kāi)始在安全研究領(lǐng)域受到極大重視.在本次研究中針對(duì)這種預(yù)測(cè)算法進(jìn)行了分析,并提出以SVM為基礎(chǔ)的網(wǎng)絡(luò)安全態(tài)勢(shì)預(yù)測(cè)模型,對(duì)此模型設(shè)計(jì)與實(shí)現(xiàn)進(jìn)行概述,并利用仿真技術(shù)來(lái)對(duì)本次的模型設(shè)計(jì)進(jìn)行驗(yàn)證,得出該模型相較于傳統(tǒng)預(yù)測(cè)算法更為精準(zhǔn),并能對(duì)網(wǎng)絡(luò)安全態(tài)勢(shì)的整體變化情況進(jìn)行準(zhǔn)確的反應(yīng),與此同時(shí)預(yù)測(cè)的結(jié)果也更加有利于網(wǎng)絡(luò)管理人員對(duì)今后網(wǎng)絡(luò)的安全演化進(jìn)行判斷,并能提前準(zhǔn)備更為合適的解決策略.