王夢(mèng)迪 戚犇 王藝杰 中國人民公安大學(xué)
現(xiàn)如今,我國的信息化水平取得了前所未有的成績,互聯(lián)網(wǎng)的應(yīng)用和發(fā)展改變了我國人民的生產(chǎn)生活方式,給我國的經(jīng)濟(jì)增添了許多的活力。但是隨著信息技術(shù)的發(fā)展我們需要關(guān)注的問題也越來越多。作為一個(gè)正在崛起的社會(huì)主義大國,傳統(tǒng)的網(wǎng)絡(luò)防御越來越滿足不了需要。因此,我國亟需一個(gè)整體的、主動(dòng)防御的網(wǎng)絡(luò)安全策略保護(hù)我國的互聯(lián)網(wǎng)安全。
態(tài)勢(shì)感知技術(shù)起源于航天和軍事領(lǐng)域,主要是通過數(shù)據(jù)的融合技術(shù)、數(shù)據(jù)挖掘技術(shù)等對(duì)當(dāng)前的軍事狀態(tài)進(jìn)行評(píng)估和預(yù)測。態(tài)勢(shì)感知技術(shù)主要包括:態(tài)勢(shì)提取、態(tài)勢(shì)理解、態(tài)勢(shì)預(yù)測等。目前國內(nèi)外對(duì)態(tài)勢(shì)感知討論比較強(qiáng)烈并且形成了廣泛接受的是網(wǎng)絡(luò)安全態(tài)勢(shì)感知模型[4]。模型結(jié)構(gòu)圖如圖1所示。
態(tài)勢(shì)提取技術(shù)首先通過Netflow、SNMP[8]等網(wǎng)絡(luò)監(jiān)控設(shè)備收集所需要的信息。將收到的信息進(jìn)行采樣和記錄。然后進(jìn)行數(shù)據(jù)的預(yù)處理和關(guān)聯(lián)性分析,去除雜質(zhì)信息。
態(tài)勢(shì)理解,也叫態(tài)勢(shì)評(píng)估,其模型的建立需要考慮多方面的因素,包括網(wǎng)絡(luò)拓?fù)洹①Y產(chǎn)價(jià)值、威脅和脆弱性方面等。其次態(tài)勢(shì)因子的選取要從多方面考慮,要從業(yè)務(wù)驅(qū)動(dòng)的角度出發(fā),不同的系統(tǒng)選取的態(tài)勢(shì)因子不同。還要從實(shí)用性和可視化的角度出發(fā)給管理員一個(gè)清晰的用戶界面用來進(jìn)行分析判斷。
態(tài)勢(shì)預(yù)測,包括管理員通過可視化態(tài)勢(shì)界面,對(duì)網(wǎng)絡(luò)狀態(tài)的人工預(yù)測,也包括通過算法設(shè)計(jì)對(duì)系統(tǒng)下一步狀態(tài)的判斷。
Lai J., H. Wang and L Zhu[10]提出了比較完善的網(wǎng)絡(luò)安全態(tài)勢(shì)感知模型概念圖。Yong Z.等人多源的角度出發(fā)構(gòu)建態(tài)勢(shì)感知的模型。Xiaowu L.[10]等人通過運(yùn)用snort和Netflow從互聯(lián)網(wǎng)中收集有用數(shù)據(jù),然后通過數(shù)據(jù)進(jìn)行態(tài)勢(shì)評(píng)估。而SIFT項(xiàng)目組通過NVision來顯示B類網(wǎng)絡(luò)的連接狀態(tài),然后再對(duì)信息過濾,通過圖形化的方式來進(jìn)行網(wǎng)絡(luò)狀態(tài)的評(píng)價(jià)。Bass提出了態(tài)勢(shì)評(píng)估方法,利用IDS的分布式傳感器進(jìn)行數(shù)據(jù)采集[2],使用數(shù)據(jù)挖掘和數(shù)據(jù)融合的方法對(duì)計(jì)算機(jī)的安全性進(jìn)行分析評(píng)估。陳秀珍等人提出了層次化的分析方法,從整個(gè)網(wǎng)絡(luò)出發(fā),通過將網(wǎng)絡(luò)進(jìn)行分層,并對(duì)不同的網(wǎng)絡(luò)設(shè)備的重要性設(shè)立權(quán)值。然后信息融合得到網(wǎng)絡(luò)安全態(tài)勢(shì)。這種方法實(shí)用效果很高。
分析以上學(xué)者提出的重要方法,可以發(fā)現(xiàn)主要都是通過建立系統(tǒng)模型,評(píng)價(jià)方法和層次化分析的方法建立態(tài)勢(shì)感知模型。通過對(duì)各種網(wǎng)絡(luò)安全態(tài)勢(shì)感知的分析,本文打算運(yùn)用貝葉斯網(wǎng)絡(luò)的方法進(jìn)行態(tài)勢(shì)感知的分析和決策。貝葉斯網(wǎng)絡(luò)是統(tǒng)計(jì)學(xué)的一個(gè)重要分支,運(yùn)用數(shù)學(xué)的方法比其他方法更加的精確也更容易進(jìn)行推理。
態(tài)勢(shì)提取技術(shù)是基于系統(tǒng)的配置信息或基于系統(tǒng)運(yùn)行信息進(jìn)行設(shè)計(jì),前者是基于系統(tǒng)存在的漏洞等的挖掘;后者是系統(tǒng)所受到的攻擊狀態(tài)的數(shù)據(jù)分析。態(tài)勢(shì)提取技術(shù)分為三個(gè)步驟:事件采集、預(yù)處理、關(guān)聯(lián)性分析。
事件采集,指的是在網(wǎng)絡(luò)設(shè)備上嵌入agent程序,按照一定時(shí)間將數(shù)據(jù)上報(bào)給服務(wù)器,進(jìn)行數(shù)據(jù)的基礎(chǔ)提??;事件的預(yù)處理,指的是對(duì)復(fù)雜異構(gòu)的、具有大量冗余數(shù)據(jù)的預(yù)處理,并組成一組規(guī)范的數(shù)據(jù);事件關(guān)聯(lián)性分析。對(duì)收集的事件進(jìn)行過濾、分類得到關(guān)聯(lián)性事件。
樸素貝葉斯基于統(tǒng)計(jì)學(xué),有很強(qiáng)的關(guān)聯(lián)分析能力,在入侵檢測分析、垃圾郵件分類中起到了很好的效果。但傳統(tǒng)貝葉斯分類模型,在對(duì)未知樣本進(jìn)行分類時(shí)沒有考慮不同屬性對(duì)分類所起作用不同,僅僅通過最大后驗(yàn)概率分類會(huì)造成分類不準(zhǔn)的情況,因此本文改進(jìn)了樸素貝葉斯算法進(jìn)行態(tài)勢(shì)提取分析。
假 設(shè)A(a1, a2, a3… an)網(wǎng) 絡(luò) 事 件 , 待 分 類 網(wǎng) 絡(luò) 事 件 為X(x1, x2, x3… xn) ,f:Aj→ Xi表 示Aj被 歸 類到Xi中,訓(xùn) 練樣本 為c,c,c…c。由貝葉斯公式c特征出現(xiàn)在a中的概率是[6]:
1 2 3 n i i
經(jīng)過正則化計(jì)算得到的后驗(yàn)概率為:
求出待分類樣本xi中 每個(gè)類別xi在 ai中的概率,并計(jì)算最大后驗(yàn)概率MAP:
傳統(tǒng)的樸素貝葉斯的態(tài)勢(shì)提取技術(shù)就是求出在ai中的最大概率。在實(shí)際當(dāng)中,同因素的影響,會(huì)造成傳統(tǒng)樸素貝葉斯的分類精確度的減弱。本文在其模型的基礎(chǔ)上引入屬性加值算法,提高分類精度降低安全事件誤判率。將得到的網(wǎng)絡(luò)事件Ai分 為正常事件cn和 非正常事件cj,這樣他們的后驗(yàn)概率分別為P(Cn| Ai) 和P(Cj| Ai) ,僅僅通過P(Cj|Ai) > P(Cn| Ai)來判斷類型并不是很嚴(yán)謹(jǐn)。為了保證攻擊檢測的性能。我們?cè)跇闼刎惾~斯算法中加入了判斷因子θ。使得分類效果更加穩(wěn)定。
對(duì)于已經(jīng)判斷出的C和C必定存在即
jn出現(xiàn)。所以假設(shè)存在一個(gè)判斷因子θ使得只要最佳的判斷因子θ便可以達(dá)到最佳分類效果。
按照信息安全的評(píng)估標(biāo)準(zhǔn),選擇從四個(gè)方面進(jìn)行風(fēng)險(xiǎn)評(píng)估:資產(chǎn)、威脅性、容災(zāi)性、穩(wěn)定性[5]。網(wǎng)絡(luò)系統(tǒng)框架中的的配置信息、流量信息、服務(wù)等構(gòu)成了風(fēng)險(xiǎn)評(píng)估的這四個(gè)方面。態(tài)勢(shì)評(píng)估的框架如圖2所示。
每一層級(jí)的態(tài)勢(shì)因子的向上融合最終達(dá)到組件級(jí)別的態(tài)勢(shì),影響評(píng)估的四個(gè)評(píng)估決策指標(biāo)相互不同,可以從每個(gè)方面中各自建立一個(gè)貝葉斯網(wǎng)絡(luò)。網(wǎng)絡(luò)結(jié)構(gòu)的層次化的特點(diǎn)有利于信息的向上融合,得到評(píng)估決策指數(shù)的風(fēng)險(xiǎn)值(K)。通過專家分析法得到安全威脅向量(Hx)和每個(gè)層級(jí)受到安全威脅指數(shù)的權(quán)值(α),便可以向上融合得到整個(gè)系統(tǒng)層的綜合安全指數(shù)(S),即S=αHx·K。
貝葉斯網(wǎng)絡(luò)主要用來對(duì)不確定知識(shí)的求解,在風(fēng)險(xiǎn)管理、信息融合、醫(yī)療診斷、系統(tǒng)控制和生物信息分析方面得到巨大的應(yīng)用。主要包括兩個(gè)部分,一個(gè)是有向無環(huán)圖G,一個(gè)是條件概率表P。可以用B=
貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí)可以通過專家經(jīng)驗(yàn)人工構(gòu)造的方法,也可以通過進(jìn)行數(shù)學(xué)分析統(tǒng)計(jì)自動(dòng)獲取貝葉斯網(wǎng)的方法。通過人工方式構(gòu)建的貝葉斯網(wǎng)絡(luò)建立的貝葉斯網(wǎng)絡(luò)的優(yōu)點(diǎn)在于能夠把更多的現(xiàn)實(shí)的網(wǎng)絡(luò)因素考慮到其中,但是缺點(diǎn)是主觀性太高。利用數(shù)學(xué)建模的學(xué)習(xí)的貝葉斯網(wǎng)絡(luò)比較復(fù)雜,尤其是在大規(guī)模的網(wǎng)絡(luò)異構(gòu)環(huán)境下,經(jīng)論證完全經(jīng)過學(xué)習(xí)得到的貝葉斯網(wǎng)絡(luò)是一個(gè)NP-hard問題。所以我們結(jié)合兩種方法的優(yōu)點(diǎn),通過大量數(shù)據(jù)學(xué)習(xí)得到貝葉斯網(wǎng)絡(luò),然后通過專家分析來進(jìn)行模型修改、函數(shù)選擇、參數(shù)修改。
貝葉斯結(jié)構(gòu)學(xué)習(xí)算法有很多種,主要可以分為打分搜索算法和基于依賴分析的算法,對(duì)于態(tài)勢(shì)感知系統(tǒng),需要快速響應(yīng)和準(zhǔn)確分析。基于打分搜索的k2算法具有較高的效率和準(zhǔn)確性,比起其他的非精確算法等更能用來發(fā)現(xiàn)最優(yōu)的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)。K2算法主要是通過一個(gè)結(jié)構(gòu)打分函數(shù)和一個(gè)搜索算法來發(fā)現(xiàn)最優(yōu)結(jié)構(gòu)。對(duì)于收集到的網(wǎng)絡(luò)數(shù)據(jù)集D,K2算法通過后驗(yàn)概率P(|D)的打分比較來發(fā)現(xiàn)最好的網(wǎng)絡(luò)結(jié)構(gòu)是貝葉斯的網(wǎng)絡(luò)結(jié)構(gòu)的選擇性假設(shè))。對(duì)于一個(gè)已知的“無邊”網(wǎng)絡(luò),K2算法需要實(shí)現(xiàn)確定最大父節(jié)點(diǎn)的個(gè)數(shù)和節(jié)點(diǎn)順序,并通過搜索對(duì)“無邊”網(wǎng)絡(luò)進(jìn)行操作,利用評(píng)分函數(shù)發(fā)現(xiàn)最優(yōu)的結(jié)構(gòu)。這種搜索方法尋找更優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu),一直到發(fā)現(xiàn)不到或達(dá)到某個(gè)閾值為止。
參數(shù)學(xué)習(xí)是確定各個(gè)節(jié)點(diǎn)的條件概率密度的過程。參數(shù)學(xué)習(xí)最重要的就是關(guān)于連續(xù)變量的離散化問題。在貝葉斯網(wǎng)絡(luò)模型中很多變量都是連續(xù)數(shù)據(jù)。而這些連續(xù)變量的離散化主要是通過:
1.將連續(xù)變量的分布看作是高斯分布,通過計(jì)算變量的均值和方差,進(jìn)行訓(xùn)練。
2.將連續(xù)變量按照等區(qū)間進(jìn)行拆分。
3.依據(jù)數(shù)據(jù)樣本數(shù)據(jù),將數(shù)量相等的連續(xù)變量的取值劃分為多個(gè)區(qū)間。
?
本文僅選擇脆弱性節(jié)點(diǎn)作為貝葉斯網(wǎng)絡(luò)框架搭架的例子,結(jié)合實(shí)驗(yàn)室電腦狀態(tài),然后通過攻擊實(shí)驗(yàn)室電腦,收集服務(wù)數(shù)目、系統(tǒng)配置、cup占用率、系統(tǒng)漏洞、病毒攻擊等數(shù)據(jù)。進(jìn)行實(shí)驗(yàn),首先將連續(xù)的數(shù)據(jù)(例如cup占有率、系統(tǒng)漏洞)離散化。部分?jǐn)?shù)據(jù)如表1。
其中父節(jié)點(diǎn)3代表的是威脅性節(jié)點(diǎn),1、2、4、5、6代表的是當(dāng)前網(wǎng)絡(luò)的服務(wù)數(shù)目、系統(tǒng)配置、cup占用率、病毒攻擊、系統(tǒng)漏洞。通過matlab貝葉斯工具箱學(xué)習(xí)得到的貝葉斯網(wǎng)絡(luò)框架如圖4。
將病毒攻擊置于3(最高級(jí))以后,可以發(fā)現(xiàn)威脅性節(jié)點(diǎn)的后驗(yàn)概率變?yōu)?9%。可以感知到威脅的存在。
本次實(shí)驗(yàn)用DARPA在林肯實(shí)驗(yàn)室進(jìn)行的攻擊檢測評(píng)估項(xiàng)目中的KDD CUP 99數(shù)據(jù)集來進(jìn)行入侵檢測。KDD CUP 99數(shù)據(jù)里面收集了9周的攻擊檢測數(shù)據(jù)。包括網(wǎng)絡(luò)的連接方式和一些系統(tǒng)數(shù)據(jù)。該數(shù)據(jù)包分布如表2。
?
采用kdd cup99的10%樣本作為訓(xùn)練集。導(dǎo)入到Python代碼中實(shí)現(xiàn)攻擊的關(guān)聯(lián)分類。首先找到最合適以便達(dá)到最好的分類效果。取值選擇對(duì)效果影響如表3。
?
由圖表看出通過設(shè)置合適的閾值(Aθ∈[0.5, 2.5])并調(diào)整映射函數(shù)可得θ的最大價(jià)值為1.5。與傳統(tǒng)樸素貝葉斯分類效果比較后,效果如表4所示??梢园l(fā)現(xiàn)改進(jìn)后分類的效果有明顯提高。
?
實(shí)驗(yàn)結(jié)果可以得出,改進(jìn)后的樸素貝葉斯算法在對(duì)入侵事件(DOS、R2L、U2R、Probe)的分類效果比傳統(tǒng)的要好。能更加準(zhǔn)確的檢測到攻擊事件及與攻擊事件相關(guān)的態(tài)勢(shì)因子。
現(xiàn)今,傳統(tǒng)的防御體系已經(jīng)遠(yuǎn)遠(yuǎn)滿足不了現(xiàn)在網(wǎng)絡(luò)社會(huì)面臨的問題,只有通過主動(dòng)防御才能構(gòu)建充分的網(wǎng)絡(luò)安全防御體系。網(wǎng)絡(luò)安全態(tài)勢(shì)感知不僅能對(duì)當(dāng)前的網(wǎng)絡(luò)安全狀態(tài)進(jìn)行感知,并且能給網(wǎng)絡(luò)管理員清晰的數(shù)據(jù)以支持其決策。而貝葉斯方法已經(jīng)成為可靠推理的重要方法之一,也成為態(tài)勢(shì)感知方法的重要算法之一。
[1]王輝, 陳泓予, 劉淑芬. 基于改進(jìn)樸素貝葉斯算法的入侵檢測系統(tǒng)[J]. 計(jì)算機(jī)科學(xué), 2014, 41(4):111-115.
[2] 苗科. 基于指標(biāo)提取的網(wǎng)絡(luò)安全態(tài)勢(shì)感知技術(shù)研究[D]. 北京郵電大學(xué), 2015.
[3] 吳紅, 王維平, 楊峰. 貝葉斯網(wǎng)絡(luò)參數(shù)學(xué)習(xí)中的連續(xù)變量離散化方法[J]. 系統(tǒng)工程與電子技術(shù), 2012, 34(10):2157-2162.
[4] 陳秀真, 鄭慶華, 管曉宏,等. 層次化網(wǎng)絡(luò)安全威脅態(tài)勢(shì)量化評(píng)估方法[J]. 軟件學(xué)報(bào), 2006, 17(4):885-897.
[5] 王娟, 張鳳荔, 傅翀,等. 網(wǎng)絡(luò)態(tài)勢(shì)感知中的指標(biāo)體系研究[J].計(jì)算機(jī)應(yīng)用, 2007, 27(8):1907-1909.
[6] 王輝, 陳泓予, 劉淑芬. 基于改進(jìn)樸素貝葉斯算法的入侵檢測系統(tǒng)[J]. 計(jì)算機(jī)科學(xué), 2014, 41(4):111-115.
[7] 魏靜, 王菊韻, 于華. 基于多模塊貝葉斯網(wǎng)絡(luò)的恐怖襲擊威脅評(píng)估[J]. 中國科學(xué)院大學(xué)學(xué)報(bào), 2015, 32(2):264-272.
[8] 周長建, 司震宇, 邢金閣,等. 基于Deep Learning網(wǎng)絡(luò)態(tài)勢(shì)感知建模方法研究[J]. 東北農(nóng)業(yè)大學(xué)學(xué)報(bào), 2013, 44(5):144-149.
[9] Wiggers P, Mertens B, Rothkrantz L. Dynamic Bayesian Networks for Situational Awareness in the Presence of Noisy Data[C]//International Conference on Computer Systems and Technologies.ACM, 2011:411-416.
[10] 卿松. 網(wǎng)絡(luò)安全態(tài)勢(shì)感知綜述[J]. 計(jì)算機(jī)安全, 2011(10):9-12.