孫 巖 姬偉峰 翁 江 趙蓓英
(空軍工程大學(xué)信息與導(dǎo)航學(xué)院 西安 710077)
日益嚴(yán)重的信息安全事件對(duì)網(wǎng)絡(luò)空間造成巨大威脅,易攻難守是當(dāng)前網(wǎng)絡(luò)安全面臨的核心問(wèn)題之一[1].為增強(qiáng)網(wǎng)絡(luò)防御能力,確保網(wǎng)絡(luò)空間安全[2],美國(guó)科學(xué)技術(shù)委員會(huì)提出了移動(dòng)目標(biāo)防御(moving target defense, MTD)技術(shù),該技術(shù)是改變攻擊和防御不對(duì)稱狀態(tài)的新方法,目的在于強(qiáng)化信息系統(tǒng)多樣性、動(dòng)態(tài)性和隨機(jī)性的特征,增大攻擊成本,提高抗攻擊能力.但濫用MTD技術(shù)并不會(huì)提高防御能力,反而會(huì)增大防御成本、降低系統(tǒng)利用效率[3].如何科學(xué)決策移動(dòng)目標(biāo)防御行為已成為亟待解決的問(wèn)題.網(wǎng)絡(luò)空間對(duì)抗所展現(xiàn)出來(lái)的目標(biāo)獨(dú)立性、策略依存性和非合作性與非合作博弈理論的特征基本一致.目前已有學(xué)者運(yùn)用博弈論分析網(wǎng)絡(luò)空間攻防行為,開展移動(dòng)目標(biāo)防御決策研究.
網(wǎng)絡(luò)攻防博弈中,當(dāng)攻防雙方均采用各自的最優(yōu)策略時(shí),二者無(wú)法通過(guò)獨(dú)自偏離其最優(yōu)策略得到更多收益,即認(rèn)為攻防雙方為理性決策者.在此條件下,運(yùn)用于網(wǎng)絡(luò)攻防策略選取研究中共有經(jīng)典博弈、Markov博弈和微分博弈3種模型[4].
在經(jīng)典博弈模型中,根據(jù)網(wǎng)絡(luò)攻防雙方信息是否透明、攻防行為是否同步、攻防博弈階段是否單一,分別可以采用完全信息模型[5]與不完全信息模型[6]、靜態(tài)模型與動(dòng)態(tài)模型[7]、單階段模型與多階段模型[8].當(dāng)進(jìn)一步考慮攻防行為信息對(duì)攻防行為產(chǎn)生的影響時(shí),可引入信號(hào)博弈模型.本文作者在文獻(xiàn)[3]中考慮防御者自身系統(tǒng)存在無(wú)法避免的缺陷下,利用信號(hào)博弈模型提出移動(dòng)目標(biāo)防御最優(yōu)策略選取算法與最優(yōu)誘導(dǎo)信號(hào)算法,研究了不完全信息下動(dòng)態(tài)多階段的MTD策略選取問(wèn)題.
在Markov博弈模型中,決策者認(rèn)為過(guò)去的攻防行為會(huì)對(duì)現(xiàn)在及未來(lái)的攻防行為決策產(chǎn)生影響.文獻(xiàn)[9]利用多目標(biāo)Markov決策過(guò)程對(duì)攻擊者和防御者之間的相互作用進(jìn)行建模,設(shè)計(jì)一種有效的基于移動(dòng)目標(biāo)變換的DDoS攻擊防御方案.文獻(xiàn)[10]將網(wǎng)絡(luò)漏洞的利用抽象為攻擊面和探測(cè)面的變化,提出完全信息Markov博弈最優(yōu)策略選擇方法,但完全信息的假設(shè)不適用于未知漏洞下的網(wǎng)絡(luò)對(duì)抗.文獻(xiàn)[11]以文獻(xiàn)[10]為基礎(chǔ)提出了一種不完全信息Markov博弈方法IIMG-MTD來(lái)生成移動(dòng)目標(biāo)防御策略.
隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)對(duì)抗過(guò)程逐漸具有動(dòng)態(tài)性、連續(xù)性和實(shí)時(shí)性.經(jīng)典博弈模型與Markov博弈模型均為時(shí)間離散博弈模型,以上工作只能分析單階段攻防過(guò)程或時(shí)間離散的多階段攻防過(guò)程,難以滿足移動(dòng)目標(biāo)防御策略的時(shí)效性要求.因此,部分文獻(xiàn)利用微分博弈理論進(jìn)行網(wǎng)絡(luò)攻防相關(guān)研究.文獻(xiàn)[12]對(duì)連續(xù)時(shí)間的網(wǎng)絡(luò)攻防過(guò)程進(jìn)行研究分析,針對(duì)威脅預(yù)警需求,提出網(wǎng)絡(luò)攻防定性微分博弈模型,構(gòu)造攻防界柵以劃分捕獲區(qū)及躲避區(qū),引入多維空間歐氏距離評(píng)估威脅程度,確定安全狀態(tài)所處威脅預(yù)警等級(jí)并根據(jù)預(yù)警等級(jí)對(duì)網(wǎng)絡(luò)防御提出針對(duì)性建議.但該文獻(xiàn)未考慮攻防過(guò)程中的攻防目標(biāo)收益,在成功預(yù)測(cè)威脅等級(jí)后無(wú)法針對(duì)攻擊行為選取最優(yōu)防御策略以最大化防御效益.文獻(xiàn)[13]對(duì)連續(xù)過(guò)程中的網(wǎng)絡(luò)攻防行為進(jìn)行分析研究,借鑒傳染病動(dòng)力學(xué)理論構(gòu)建了攻防微分博弈模型,提出了鞍點(diǎn)策略的求解方法和最優(yōu)防御策略選取算法.但該文獻(xiàn)僅分析了網(wǎng)絡(luò)空間安全狀態(tài)的宏觀變化過(guò)程,未對(duì)網(wǎng)絡(luò)內(nèi)部的微觀節(jié)點(diǎn)行為進(jìn)行合理建模,導(dǎo)致無(wú)法針對(duì)網(wǎng)絡(luò)內(nèi)部某些關(guān)鍵節(jié)點(diǎn)量身定制防御策略.文獻(xiàn)[14]探討了如何合理地將可用的修復(fù)資源分配給可能不安全的主機(jī),以減輕網(wǎng)絡(luò)的潛在損失,基于一種新的期望狀態(tài)演化方程,構(gòu)建高級(jí)可持續(xù)威脅(advanced persistent threat, APT)響應(yīng)微分博弈模型,提出了一種尋找APT修復(fù)博弈潛在納什均衡算法.以上文獻(xiàn)均基于微分博弈做出網(wǎng)絡(luò)防御決策響應(yīng),但未能與MTD緊密結(jié)合.
考慮到網(wǎng)絡(luò)內(nèi)部微觀個(gè)體行為與宏觀傳播現(xiàn)象之間的相互依賴會(huì)對(duì)網(wǎng)絡(luò)攻防決策產(chǎn)生影響,本文利用節(jié)點(diǎn)級(jí)傳染病理論方法構(gòu)建基于微分博弈的MTD決策模型,分析網(wǎng)絡(luò)攻擊與MTD實(shí)時(shí)變化條件下的網(wǎng)絡(luò)系統(tǒng)個(gè)體的安全狀態(tài)演化過(guò)程,提出攻防策略決策函數(shù)與目標(biāo)收益函數(shù).通過(guò)設(shè)計(jì)該微分博弈模型的開環(huán)納什均衡算法,得到最優(yōu)MTD防御策略實(shí)時(shí)結(jié)果.
微分博弈是時(shí)間連續(xù)的動(dòng)態(tài)博弈,在n個(gè)參與者的微分博弈中,每位參與者i(i∈Γ={1,2,…,n})的目標(biāo)函數(shù)可以表示為
(1)
其中,x(τ)∈X?m為博弈的狀態(tài)變量或狀態(tài)(X為狀態(tài)空間),這種變量在非微分博弈中是不存在的.ui(τ)∈Ui為參與者i的策略(Ui為策略空間),但與非微分博弈中的策略不同,因?yàn)樗硪粭l隨時(shí)間發(fā)展的策略路徑.
τ∈[t0,tf]代表博弈的每一個(gè)時(shí)間點(diǎn)或者時(shí)刻,t0和tf分別為博弈的開始時(shí)刻和結(jié)束時(shí)刻,gi[τ,x(τ),u1(τ),…,un(τ)]≥0和qi[tf,x(tf)]≥0分別表示參與者i的瞬時(shí)支付與終點(diǎn)支付.
在式(1)中,狀態(tài)變量x(τ)的進(jìn)展變化取決于一個(gè)確定性動(dòng)態(tài)系統(tǒng),即
(2)
(3)
而在時(shí)間區(qū)間[t0,tf]中,有
(4)
證畢.
現(xiàn)實(shí)中,網(wǎng)絡(luò)內(nèi)部主機(jī)狀態(tài)是時(shí)變的,考慮帶有數(shù)據(jù)庫(kù)服務(wù)器和N個(gè)主機(jī)的網(wǎng)絡(luò),如圖1所示.其中雙箭頭實(shí)線表示主機(jī)之間可以進(jìn)行正常交互,雙箭頭虛線表示主機(jī)與數(shù)據(jù)庫(kù)服務(wù)器之間的正常數(shù)據(jù)流,單箭頭虛線表示已連接但未畫出的其他主機(jī).
Fig. 1 Network topology圖1 網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)
定義1.網(wǎng)絡(luò)基礎(chǔ)狀態(tài)模型(basic state model)MBS.可以表示為
MBS={τ,b(τ),R(τ),Xi(τ),Si(τ),Ii(τ)},
其中,τ代表攻防微分博弈的時(shí)刻,τ∈[t0,tf].
b(τ)=(b1(τ),b2(τ),…bN(τ))表示主機(jī)i在時(shí)刻τ的工作狀態(tài),bi(τ)=0或1表示主機(jī)i在時(shí)刻τ處于關(guān)機(jī)或開機(jī)狀態(tài).
R(τ)=(rij)N×N為網(wǎng)絡(luò)連通狀態(tài)矩陣.rij=0或1表示主機(jī)i與j不可相互通信或可以相互通信,規(guī)定rii=0.令cij(τ)=rijbi(τ)bj(τ),根據(jù)定義1可知,當(dāng)cij=1時(shí),主機(jī)i與j可在時(shí)刻τ互相傳遞信息,此時(shí)攻擊者的惡意攻擊行為也可以進(jìn)行傳播,本文稱之為橫向攻擊行為.
根據(jù)主機(jī)是否受到攻擊來(lái)確定主機(jī)的狀態(tài)是否安全,令Xi(τ)=0或1表示主機(jī)i在時(shí)刻τ處于安全狀態(tài)或不安全狀態(tài).
利用概率表示主機(jī)i的安全狀態(tài)程度,令Si(τ)=Pr{Xi(τ)=0}表示主機(jī)i在時(shí)刻τ處于安全狀態(tài)的概率,Ii(τ)=Pr{Xi(τ)=0}表示主機(jī)i處于不安全狀態(tài)的概率,且Si(τ)+Ii(τ)=1.
網(wǎng)絡(luò)攻防行為對(duì)網(wǎng)絡(luò)空間的混合作用,造成網(wǎng)絡(luò)節(jié)點(diǎn)的安全狀態(tài)隨著時(shí)間變化,本節(jié)對(duì)網(wǎng)絡(luò)空間主要節(jié)點(diǎn)安全狀態(tài)的演化過(guò)程進(jìn)行建模.
定義2.網(wǎng)絡(luò)節(jié)點(diǎn)狀態(tài)演化模型(state evolution model)MSE.可以表示為
MSE={Θ,P(τ),C,B,MBS}.
Θ={A,D}表示攻防動(dòng)作行為空間.其中,A={ax|x=1,2,…,n},D={dy|y=1,2,…,n}分別表示攻擊行為動(dòng)作集與防御行為動(dòng)作集.
根據(jù)定義2可知,攻擊者攻擊主機(jī)i時(shí),該主機(jī)將會(huì)受到來(lái)自攻擊者的直接攻擊和攻擊者通過(guò)其他主機(jī)的發(fā)起的橫向攻擊.
當(dāng)攻擊者對(duì)主機(jī)i發(fā)起橫向攻擊時(shí),會(huì)存在影響其成本與收益的傳染系數(shù),該傳染系數(shù)與橫向攻擊的傳染次數(shù)有關(guān)。令{ξ1(τ),ξ2(τ),…,ξn(τ)}表示傳染系數(shù)集合,其中ξm表示當(dāng)橫向攻擊進(jìn)行m次傳染時(shí)的傳染系數(shù).當(dāng)橫向攻擊進(jìn)行1次傳染時(shí),即攻擊者以主機(jī)j→i順序進(jìn)行橫向攻擊,其傳染系數(shù)為
(5)
當(dāng)橫向攻擊進(jìn)行2次傳染時(shí),即攻擊者以主機(jī)k→j→i順序進(jìn)行橫向攻擊,其傳染系數(shù)為
(6)
當(dāng)橫向攻擊進(jìn)行3次傳染時(shí),即攻擊者以主機(jī)l→k→j→i順序進(jìn)行橫向攻擊,其傳染系數(shù)為
(7)
按式(5)~(7)規(guī)律可類推橫向攻擊傳染m次時(shí)的傳染系數(shù)ξm.
式(5)~(7)中,γ為傳染衰減因子,表示相對(duì)于直接攻擊,橫向攻擊的收益與代價(jià)會(huì)有一定程度的衰弱.
根據(jù)式(5)~(7)可知,該主機(jī)i狀態(tài)滿足以下微分演化方程:
(8)
網(wǎng)絡(luò)節(jié)點(diǎn)安全狀態(tài)演化過(guò)程示意如圖2所示:
Fig. 2 Network node safe state evolution model圖2 網(wǎng)絡(luò)節(jié)點(diǎn)安全狀態(tài)演化模型
定義3.移動(dòng)目標(biāo)防御微分博弈模型(moving target defense differential game model) MTDDG.可以表示為
MTDDG={Ω,G,U,MSE}.
Ω={ΩA,ΩD}為博弈人空間.ΩA為攻擊者,ΩD為防御者.
其中,在攻防持續(xù)時(shí)間內(nèi)攻擊者發(fā)動(dòng)攻擊的成本函數(shù)為
(9)
防御者啟動(dòng)MTD的成本函數(shù)為
(10)
在攻防持續(xù)時(shí)間內(nèi),攻擊者發(fā)動(dòng)攻擊的收益函數(shù)為
(11)
防御者啟動(dòng)MTD的收益函數(shù)為
(12)
U={UA,UD}表示攻擊者與防御者的收益目標(biāo)函數(shù).以主機(jī)i為例,攻擊者與防御者的目標(biāo)收益函數(shù)分別為式(13)(14):
(13)
(14)
(15)
滿足約束條件(式(15))的情況下,對(duì)于策略向量集合P*(τ)構(gòu)成的微分博弈式(8)(13)(14),以下不等式成立:
(16)
為易于分析處理與應(yīng)用,本文選擇開環(huán)納什均衡方法求解攻防最優(yōu)策略.
定理2.對(duì)于微分博弈式(8)(13)(14),最優(yōu)攻防策略集合P*(τ)構(gòu)成開環(huán)納什均衡.滿足約束條件(式(12))的情況下,若存在共態(tài)函數(shù){λA(τ),λD(τ)}:[t0,tf]→m,式(17)~(19)成立.
(17)
(18)
(19)
證明.受制于網(wǎng)絡(luò)節(jié)點(diǎn)演化過(guò)程(式(15)),考慮式(17)中的第1個(gè)公式,即最大化攻擊者目標(biāo)收益
證畢.
基于定理2,為尋找該攻防系統(tǒng)的開環(huán)納什均衡解,根據(jù)微分博弈理論,構(gòu)建Hamiltonian函數(shù)
(20)
1) 滿足式(19)的條件下,式(21)成立;
2) 當(dāng)1≤i≤N,t0≤τ≤tf時(shí),式(22)成立.
(21)
(22)
根據(jù)Pontryagin Maximum原則,當(dāng)1≤i≤N,t0≤τ≤tf時(shí),存在{λA(τ),λD(τ)}.式(21)可由式(18)(20)直接聯(lián)立計(jì)算得到.
滿足約束條件(式(15))的情況下,當(dāng)t0≤τ≤tf時(shí),有:
(23)
證畢.
針對(duì)2.1節(jié)中主機(jī)狀態(tài)bi(τ),本文將攻防持續(xù)時(shí)間分為多個(gè)較短的時(shí)間段,然后為每個(gè)短時(shí)間段以一定概率分配0或1給每一個(gè)主機(jī).
算法1.MTDDG開環(huán)納什均衡求解算法.
輸入:{MBS,MSE,MTDDG},設(shè)置收斂誤差ε=10-4,迭代次數(shù)上限K=103;
① 初始化MBS,MSE,MTDDG;
② for 1≤k≤ndo
④ end for
⑤ for 1≤i≤Ndo
⑥ for 0≤k≤n-1 do
⑦ 以概率0.6令μ=1;以概率0.4令μ=0;
⑧bi(τ)μ;
⑨ end for
⑩bi(tf)=bi(tn-1);
λA(tf)=λD(tf)=0后向計(jì)算λA(τ),
λD(τ)(t0≤τ≤tf);
PA(τ) 和PD(τ),(t0≤τ≤tf);
或者k≥K;
不同模型之間的比較結(jié)果如表1所示.模型的時(shí)效性指模型在應(yīng)用時(shí)得出結(jié)果有效持續(xù)時(shí)間.例如,單階過(guò)程得出的結(jié)果只適用于單階段,微分博弈模型考慮到時(shí)間因素可以實(shí)現(xiàn)任意時(shí)刻的決策.模型通用性指文獻(xiàn)中的策略與動(dòng)作合集是否可以擴(kuò)展.
Table 1 Comparative Analysis of Models表1 模型對(duì)比分析
采用工具SSFNet (scalable simulation frame-work)[17]開展仿真實(shí)驗(yàn).為提高仿真實(shí)驗(yàn)真實(shí)性,參考文獻(xiàn)[18],從Route Views Project中得出自治系統(tǒng)(autonomous system)連接數(shù)據(jù)集以設(shè)計(jì)實(shí)驗(yàn)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),采用網(wǎng)絡(luò)數(shù)據(jù)集NetTFDate20200126 113000構(gòu)建網(wǎng)絡(luò)場(chǎng)景.實(shí)驗(yàn)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)如圖3所示,空心叉號(hào)表示主機(jī)處于關(guān)機(jī)狀態(tài),實(shí)心叉號(hào)表示該主機(jī)被攻擊者劫持,雙箭頭虛線表示攻擊者的命令與控制數(shù)據(jù)流和從數(shù)據(jù)庫(kù)流出的被竊取數(shù)據(jù)或正常數(shù)據(jù)流,單箭頭實(shí)線表示從攻擊者和被劫持主機(jī)發(fā)出的攻擊行為,雙箭頭實(shí)線表示主機(jī)之間的交互.網(wǎng)絡(luò)節(jié)點(diǎn)總數(shù)共802個(gè),其中數(shù)據(jù)庫(kù)服務(wù)器節(jié)點(diǎn)數(shù)量1個(gè),用戶終端節(jié)點(diǎn)800個(gè),攻擊節(jié)點(diǎn)1個(gè).設(shè)傳染衰減因子γ=0.05,攻防持續(xù)時(shí)間為5 min,即τ∈[t0,tf]=[0,5].
Fig. 3 Experimental network topology圖3 實(shí)驗(yàn)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)
實(shí)驗(yàn)中根據(jù)網(wǎng)絡(luò)安全檢測(cè)設(shè)備掃描并分析相應(yīng)攻擊信息,判斷攻擊者類型及其攻擊能力,并結(jié)合國(guó)家信息安全漏洞庫(kù)(CNNVD)數(shù)據(jù)[19]和文獻(xiàn)[20]漏洞分析方法的基礎(chǔ)上,參照美國(guó)MIT攻防行為數(shù)據(jù)庫(kù)[21]以及文獻(xiàn)[3,14,22-23]構(gòu)建網(wǎng)絡(luò)安全攻防行為集,并綜合各方面安全指標(biāo)計(jì)算其平均行為效用,如表2~3所示:
Table 2 Description of Attack Actions表2 攻擊動(dòng)作描述
Table 3 Description of MTD and Static Defense Actions表3 MTD與靜態(tài)防御動(dòng)作描述
對(duì)于攻擊動(dòng)作行為,本文將其分為2種類型,即A={AH,AL};對(duì)于防御動(dòng)作行為,令當(dāng)前數(shù)據(jù)庫(kù)服務(wù)器部署的數(shù)據(jù)庫(kù)服務(wù)軟件棧為“Windows7 SP1+IIS 6.0”, 數(shù)據(jù)庫(kù)服務(wù)器可采取的防御措施分為3種類型,即D={DH,DM,DL}.其中,DH是指通過(guò)建立一系列多態(tài)化虛擬服務(wù)器,每個(gè)數(shù)據(jù)庫(kù)服務(wù)器配置唯一的軟件棧,采取固定周期跳變的方式不斷改變數(shù)據(jù)庫(kù)服務(wù)器程序與操作系統(tǒng)的實(shí)現(xiàn)方式.DM指采取固定跳變周期方式更改數(shù)據(jù)庫(kù)服務(wù)器IP地址、MAC地址和端口地址.為對(duì)比分析MTD策略與靜態(tài)防御策略的差異,設(shè)置DL為采取常規(guī)靜態(tài)防御方式進(jìn)行網(wǎng)絡(luò)防御.本文以網(wǎng)絡(luò)中重要設(shè)備數(shù)據(jù)庫(kù)服務(wù)器為例,考慮攻擊者對(duì)數(shù)據(jù)庫(kù)服務(wù)器的直接攻擊以及通過(guò)對(duì)網(wǎng)絡(luò)內(nèi)部主機(jī)攻擊進(jìn)而橫向攻擊數(shù)據(jù)庫(kù)服務(wù)器.作為網(wǎng)絡(luò)系統(tǒng)的重要設(shè)備,假設(shè)數(shù)據(jù)庫(kù)服務(wù)器始終保持開機(jī)工作狀態(tài).
本實(shí)驗(yàn)MTDDG最優(yōu)策略算法利用Matlab 2018工具實(shí)現(xiàn).考慮到隨著橫向攻擊的傳染次數(shù)的增加,傳染系數(shù)中傳染衰減因子成指數(shù)倍增長(zhǎng),當(dāng)進(jìn)行4次傳染時(shí),γ4=0.000 006 25.因在實(shí)驗(yàn)中設(shè)置收斂誤差為ε=10-4,所以4次及以上次數(shù)傳染對(duì)網(wǎng)絡(luò)攻防的收益/成本影響不大,所以只考慮橫向攻擊的傳染次數(shù)為1次、2次與3次的情況.以圖3為例,橫向攻擊傳染次數(shù)為1次、2次與3次時(shí)分別對(duì)應(yīng)圖中的攻擊傳染路徑為1→4,1→2→5,1→2→3→6,該對(duì)應(yīng)并不唯一.
由實(shí)驗(yàn)結(jié)果得到攻擊防御行為選取策略,如圖4、圖5所示.攻防雙方采取概率混合策略,但為方便分析,認(rèn)為攻防雙方在不同時(shí)刻采取高概率攻防行為.
Fig. 4 Optimal policy control trajectory of attack 圖4 攻擊策略和的最優(yōu)控制軌跡
Fig. 5 Optimal policy control trajectory of defense圖5 防御策略的最優(yōu)控制軌跡
對(duì)于攻擊者,當(dāng)τ∈[0,0.25)時(shí),選擇攻擊行為AH;當(dāng)τ∈[0.25,5]時(shí),選擇攻擊行為AL.對(duì)于防御者,當(dāng)τ∈[0,0.78)時(shí),選擇防御行為DH;當(dāng)τ∈[0.78,2.45)時(shí),選擇防御行為DL;當(dāng)τ∈[2.45,5]時(shí),選擇防御行為DM.
由于實(shí)驗(yàn)中攻擊行為分為高低等級(jí)2種類型,其策略概率之和為1,故僅將高等級(jí)攻擊策略概率與3種不同等級(jí)防御策略結(jié)合以分析實(shí)驗(yàn)結(jié)果.
Fig. 6 Optimal policy control trajectory of strategy圖6 策略和最優(yōu)控制軌跡
Fig. 7 Optimal policy control trajectory of strategy圖7 策略和最優(yōu)控制軌跡
Fig. 8 Optimal policy control trajectory of strategy圖8 策略和最優(yōu)控制軌跡
3) 如圖9所示,當(dāng)τ∈[0,0.25)時(shí),攻擊者發(fā)起突襲式高等級(jí)攻擊行為AH進(jìn)攻數(shù)據(jù)庫(kù)服務(wù)器,導(dǎo)致數(shù)據(jù)庫(kù)服務(wù)器的安全狀態(tài)快速下降,此時(shí)防御者及時(shí)做出反應(yīng),采取高等級(jí)防御行為DH,所以數(shù)據(jù)庫(kù)服務(wù)器安全狀態(tài)曲線雖在下降,但下降速率逐漸降低,直到τ=0.2時(shí)成功阻止攻擊者對(duì)數(shù)據(jù)庫(kù)服務(wù)器的進(jìn)一步損害,并隨后逐步提高數(shù)據(jù)庫(kù)服務(wù)器的安全狀態(tài).
Fig. 9 The evolution trajectory of database serversecurity state S(τ)*圖9 數(shù)據(jù)庫(kù)服務(wù)器安全狀態(tài)S(τ)*演化過(guò)程軌跡
當(dāng)τ∈[0.2,0.25)時(shí),攻擊者發(fā)現(xiàn)無(wú)法進(jìn)一步竊取數(shù)據(jù)庫(kù)服務(wù)器的信息后,考慮自身攻擊付出巨大代價(jià),開始選取攻擊行為AL.當(dāng)τ∈[0.25,0.78)時(shí),防御者為快速提高數(shù)據(jù)庫(kù)服務(wù)器的安全狀態(tài),在攻擊者選擇AL的情況下,依然選擇DH,以防止出現(xiàn)攻擊者再次選擇高等級(jí)攻擊而無(wú)法防御的情況,此時(shí)主機(jī)安全狀態(tài)快速上升.當(dāng)τ=0.78時(shí),防御者選擇DL,數(shù)據(jù)庫(kù)服務(wù)器安全狀態(tài)的上升速率逐漸變慢,在與AL相互作用下,服務(wù)器安全狀態(tài)維持在0.5水平.
與文獻(xiàn)[3]的時(shí)間離散模型攻擊策略控制過(guò)程進(jìn)行對(duì)比,結(jié)果如圖10所示.設(shè)文獻(xiàn)[3]中每個(gè)階段持續(xù)時(shí)間為1 min.
Fig. 10 Optimal strategy control trajectory of high-level attack圖10 高等級(jí)攻擊最優(yōu)策略控制軌跡
當(dāng)攻擊者采取文獻(xiàn)[3]的時(shí)間離散算法發(fā)動(dòng)網(wǎng)絡(luò)攻擊時(shí),僅在各階段開始時(shí)選取新策略,攻擊策略變化不靈活,導(dǎo)致攻擊者的目標(biāo)收益效用降低.由定理1可知,理性攻防博弈的關(guān)鍵在于防御者會(huì)針對(duì)最優(yōu)攻擊策略采取最優(yōu)防御策略.攻擊效用降低將使得防御者“輕視”攻擊者,進(jìn)而采取非最優(yōu)策略.
當(dāng)攻擊者采取本文微分博弈算法進(jìn)行網(wǎng)絡(luò)攻擊時(shí),若防御者利用文獻(xiàn)[3]時(shí)間離散模型選取防御策略,其階段式變化的防御策略將永遠(yuǎn)滯后于攻擊者的實(shí)時(shí)攻擊,進(jìn)而導(dǎo)致網(wǎng)絡(luò)空間受到威脅.
綜上分析,給出5個(gè)防御建議:1)防御者應(yīng)加強(qiáng)平時(shí)防御水平,避免攻擊者的突襲式攻擊造成網(wǎng)絡(luò)無(wú)法挽回的損失;2)對(duì)于網(wǎng)絡(luò)系統(tǒng)重要節(jié)點(diǎn),應(yīng)該強(qiáng)化相關(guān)檢測(cè)程序,避免與被劫持主機(jī)保持通信;3)應(yīng)對(duì)低等級(jí)攻擊時(shí),防御者不應(yīng)放棄靜態(tài)防御策略,在保證網(wǎng)絡(luò)安全的前提下盡可能降低網(wǎng)絡(luò)開銷;4)相較于靜態(tài)防御而言,防御者平時(shí)應(yīng)多考慮使用MTD策略,這樣的收益代價(jià)比更大,防御范圍更廣,防御效果更好;5)使用與時(shí)間相關(guān)的防御策略選取方法,例如本文方法,以提高防御行為決策的靈活性,使受保護(hù)網(wǎng)絡(luò)在攻防對(duì)抗中能夠長(zhǎng)時(shí)間處于安全狀態(tài).
本文對(duì)時(shí)間連續(xù)的網(wǎng)絡(luò)攻防過(guò)程以及MTD最優(yōu)策略進(jìn)行綜合研究,構(gòu)建移動(dòng)目標(biāo)防御微分博弈模型MTDDG.在此基礎(chǔ)上,考慮到網(wǎng)絡(luò)內(nèi)部微觀節(jié)點(diǎn)行為與宏觀傳播現(xiàn)象之間的相互依賴會(huì)對(duì)網(wǎng)絡(luò)攻防決策產(chǎn)生影響,按照實(shí)際情況設(shè)定網(wǎng)絡(luò)內(nèi)部主機(jī)的開關(guān)機(jī)和通信狀態(tài),對(duì)網(wǎng)絡(luò)內(nèi)部重要節(jié)點(diǎn)建立安全狀態(tài)演化方程,提出MTDDG的求解方法和最優(yōu)MTD策略選取算法.仿真實(shí)驗(yàn)驗(yàn)證本文提出模型和方法的有效性.基于實(shí)驗(yàn)成果對(duì)網(wǎng)絡(luò)系統(tǒng)重要節(jié)點(diǎn)防御提出關(guān)鍵建議,為連續(xù)、實(shí)時(shí)網(wǎng)絡(luò)攻防對(duì)抗中MTD策略做出指導(dǎo).
未來(lái)工作主要是改進(jìn)網(wǎng)絡(luò)攻防微分博弈的求解算法,利用反饋納什均衡求解微分博弈方程,進(jìn)一步從時(shí)間相關(guān)性方面提升MTD防御效果.