張恩寧,王剛,馬潤年,伍維甲,嚴(yán)麗娜
(1.空軍工程大學(xué)信息與導(dǎo)航學(xué)院,710077,西安;2.國防科技大學(xué)信息通信學(xué)院試驗(yàn)訓(xùn)練基地,710106,西安)
5G和區(qū)塊鏈等信息網(wǎng)絡(luò)技術(shù)加速了信息化向智能化發(fā)展的步伐,與此同時(shí),以高級(jí)可持續(xù)威脅為代表的隱蔽、高效和針對(duì)性網(wǎng)絡(luò)攻擊使得網(wǎng)絡(luò)安全態(tài)勢和防御決策日趨復(fù)雜[1]。網(wǎng)絡(luò)安全防御決策是網(wǎng)絡(luò)防御技戰(zhàn)術(shù)運(yùn)用的前提和關(guān)鍵環(huán)節(jié),建立在對(duì)網(wǎng)絡(luò)攻防行動(dòng)特點(diǎn)和網(wǎng)絡(luò)業(yè)務(wù)負(fù)載動(dòng)態(tài)需求等要素的準(zhǔn)確掌控上[1]。在現(xiàn)實(shí)環(huán)境中,網(wǎng)絡(luò)態(tài)勢信息的不完整性和決策者的有限理性使得網(wǎng)絡(luò)攻防雙方很難完全知悉對(duì)手的準(zhǔn)確實(shí)時(shí)信息,在不完全信息條件下,攻防雙方認(rèn)知和決策模式的不同,導(dǎo)致攻防行為的差異性和攻防決策的異質(zhì)群體演化博弈特征[2]。
演化博弈中的群體源于生物學(xué)中的種群概念。生物學(xué)中,同一物種的不同種群因?yàn)樯姝h(huán)境的不同而存在性狀上的差異,在研究過程中需要將對(duì)象區(qū)分為異質(zhì)種群。在學(xué)術(shù)領(lǐng)域,生物學(xué)中的種群映射為博弈理論中的群體,不同群體在博弈中代表的是屬性類型相同但決策方式不同的博弈參與方。在一些網(wǎng)絡(luò)攻防博弈情境中,博弈雙方可設(shè)定為有限理性博弈參與者,但是其決策方式存在一定差異性。例如,在決策標(biāo)準(zhǔn)方面,防御方要權(quán)衡防護(hù)節(jié)點(diǎn)的資源重要程度,安防部署成本和防御操作代價(jià),而攻擊方則需要考慮攻擊成本、攻擊收益等因素[3]。因此,設(shè)定博弈參與方采用相同決策方式的傳統(tǒng)演化博弈本質(zhì)上屬于同質(zhì)群體演化博弈。相對(duì)而言,異質(zhì)群體演化博弈能更好地體現(xiàn)出博弈參與方不同的決策方式對(duì)博弈均衡的影響,依據(jù)攻防雙方收益函數(shù)不同的網(wǎng)絡(luò)攻防博弈,屬于雙異質(zhì)群體演化博弈。
決策差異性是網(wǎng)絡(luò)攻防博弈中需重點(diǎn)關(guān)注的問題。對(duì)于具體決策,網(wǎng)絡(luò)攻防雙方很難完全知悉對(duì)手的準(zhǔn)確實(shí)時(shí)信息,決策的可信度相對(duì)不足,攻防雙方認(rèn)知和決策模式的不同,同步導(dǎo)致攻防決策的差異性,這種差異性客觀上使得基于防御方收益信息的預(yù)測分析很難實(shí)現(xiàn)精確性決策[3]。此外,對(duì)于決策者和執(zhí)行單元,單次防御行為應(yīng)是確定性的和基于純策略的,經(jīng)典納什均衡解固有的多重性使得策略取舍成為網(wǎng)絡(luò)攻防博弈決策的難題,基于智能算法的網(wǎng)絡(luò)防御混合策略無法從根本上解決這一問題[2]。
博弈論和行為經(jīng)濟(jì)學(xué)中對(duì)于參與人目標(biāo)對(duì)立、策略依存和非合作型關(guān)系的建模符合網(wǎng)絡(luò)對(duì)抗的基本特征規(guī)律[4-5]。零和博弈、信號(hào)博弈、微分博弈、貝葉斯均衡博弈、馬爾可夫博弈及演化博弈等模型被相繼運(yùn)用到網(wǎng)絡(luò)攻防對(duì)抗的行為建模中[6-9]。其中,演化博弈模型可以在不完全信息條件下模擬網(wǎng)絡(luò)攻防雙方策略的互動(dòng)演化過程,得到穩(wěn)定的納什均衡策略,為優(yōu)選網(wǎng)絡(luò)防御策略提供參考[10]。目前,相關(guān)研究主要集中在3個(gè)領(lǐng)域。一是演化博弈模型對(duì)決策的動(dòng)態(tài)影響。在多階段博弈中,有限理性的博弈雙方會(huì)根據(jù)初始博弈信息改變策略選擇傾向,最終達(dá)成混合策略的納什均衡。文獻(xiàn)[11]建立了物聯(lián)網(wǎng)系統(tǒng)多級(jí)非對(duì)稱信息攻防模型,分析了進(jìn)攻型策略和防御型策略的收益變化;文獻(xiàn)[12]結(jié)合現(xiàn)實(shí)生活中銀行現(xiàn)金轉(zhuǎn)運(yùn)案例,建立多目標(biāo)混合遺傳算法,得到距離和風(fēng)險(xiǎn)最小化、利潤最大化、車輛油耗最小化、時(shí)間最小化或最大化等多種目標(biāo)下的演化博弈最優(yōu)混合策略,對(duì)多目標(biāo)網(wǎng)絡(luò)安全防御決策具有很高的參考價(jià)值。二是環(huán)境對(duì)演化博弈模型中系統(tǒng)動(dòng)力學(xué)方程的影響,結(jié)合實(shí)際環(huán)境改進(jìn)復(fù)制動(dòng)態(tài)方程,提升模型的精確性。文獻(xiàn)[13-14]針對(duì)攻防博弈系統(tǒng)中存在各類隨機(jī)干擾因素的問題,借鑒高斯白噪聲的概念,建立隨機(jī)復(fù)制動(dòng)態(tài)微分方程,分析了系統(tǒng)環(huán)境、策略變化等各類隨機(jī)干擾因素對(duì)攻防策略選取演化速率和傾向的影響;文獻(xiàn)[15]考慮同一博弈方之間策略的相互影響,引入激勵(lì)系數(shù),改進(jìn)傳統(tǒng)復(fù)制動(dòng)態(tài)方程,完善復(fù)制動(dòng)態(tài)速率計(jì)算方法,分析了同一博弈方之間策略的促進(jìn)和抑制作用;文獻(xiàn)[16]引入學(xué)習(xí)機(jī)制和第三方懲罰機(jī)制,構(gòu)建了網(wǎng)絡(luò)攻防演化博弈系統(tǒng)動(dòng)力學(xué)模型,發(fā)現(xiàn)通過第三方監(jiān)管部門,采取對(duì)攻擊者收益的動(dòng)態(tài)懲罰策略,對(duì)攻防雙方的惡化混合策略的偏移有重要影響。三是策略的可行性和決策方法。傳統(tǒng)演化博弈模型得到的演化均衡解是混合策略,現(xiàn)實(shí)中以概率形式進(jìn)行防御策略選取并不可取,以純策略為基礎(chǔ)進(jìn)行決策更符合客觀規(guī)律[17]。文獻(xiàn)[18]結(jié)合動(dòng)態(tài)目標(biāo)防御理論,使用精煉貝葉斯均衡求解算法和先驗(yàn)信念修正,提出移動(dòng)目標(biāo)防御策略的跳變周期、差異性和先驗(yàn)知識(shí)是影響決策效果的3個(gè)關(guān)鍵因素;文獻(xiàn)[19]將多階段演化博弈和馬爾可夫決策方法相結(jié)合,提出多階段多狀態(tài)下最優(yōu)防御策略選取方法;針對(duì)復(fù)雜網(wǎng)絡(luò)中攻擊方和防御方可用資源的差異性,文獻(xiàn)[20]提出了復(fù)雜網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)對(duì)策略選擇的制約影響關(guān)系。
隨著近年來網(wǎng)絡(luò)攻防技戰(zhàn)術(shù)的快速發(fā)展和實(shí)踐應(yīng)用,網(wǎng)絡(luò)安全防御決策領(lǐng)域凸顯了一些新的難題:①?zèng)Q策主體的差異性和基于主體差異性的防御行為模式突破了經(jīng)典研究中對(duì)攻防博弈雙方均為同質(zhì)群體的假設(shè),需要克服基于這種假設(shè)導(dǎo)致的最優(yōu)防御策略事實(shí)偏差;②現(xiàn)實(shí)多階段博弈中的防御決策,應(yīng)充分考慮經(jīng)驗(yàn)的參考價(jià)值和決策行為的智能化需求,在決策過程中引入反思機(jī)制和對(duì)應(yīng)的可信支撐模型;③網(wǎng)絡(luò)安全防御單次決策的確定性需求和傳統(tǒng)納什均衡解的局限性存在固有矛盾,傳統(tǒng)納什均衡解的多重性和混合納什均衡的不確定性無法滿足單次決策中防御行為的可行性要求,需要從模型求解等方面尋求新的突破。
針對(duì)這些問題,本文開展了基于異質(zhì)群體演化博弈的決策方法研究。結(jié)合生物學(xué)中的種群概念,在博弈中將攻防雙方區(qū)分為不同群體,提出雙異質(zhì)群體演化博弈模型,克服經(jīng)典模型中最優(yōu)防御策略的事實(shí)偏差。引入策略反思機(jī)制,將博弈主體對(duì)于博弈歷史經(jīng)驗(yàn)反饋模型化,改進(jìn)復(fù)制動(dòng)態(tài)方程以提升演化結(jié)果的精確性。在模型中引入勢函數(shù),突破傳統(tǒng)納什均衡解的局限性,使模型解穩(wěn)定收斂于可行策略,滿足網(wǎng)絡(luò)安全防御決策的確定性需求。最后,通過理論分析和仿真,驗(yàn)證了所提模型和決策方法的有效性和先進(jìn)性。
基于博弈雙方?jīng)Q策行為標(biāo)準(zhǔn)的差異性分析,引入生物學(xué)種群概念,將攻防雙方區(qū)分為不同博弈群體,參考經(jīng)典演化博弈模型的定義[14-15],提出了網(wǎng)絡(luò)安全防御的雙異質(zhì)群體演化博弈模型。
定義1網(wǎng)絡(luò)攻防博弈是對(duì)稱博弈,所有博弈參與者根據(jù)其自身屬性分為網(wǎng)絡(luò)攻擊方和網(wǎng)絡(luò)防御方。
定義2網(wǎng)絡(luò)攻防博弈是多階段博弈,在后一階段,每個(gè)博弈參與方對(duì)前一階段的博弈策略進(jìn)行模仿。在每一個(gè)階段,博弈參與方的自然出生率為β(β≥0)、自然死亡率為δ(δ≥0),以此代表博弈參與方對(duì)于該階段環(huán)境的適應(yīng)性,即網(wǎng)絡(luò)攻防雙方在階段前和階段中因斷網(wǎng)掉線等不可抗因素退出博弈的概率。
定義3將生物學(xué)中的概念映射到博弈模型中。博弈模型中群體代表同一類別個(gè)體的集合,即種群。子群體代表具有同樣特征的個(gè)體的集合,即具備同樣性狀的個(gè)體集合,子群體隸屬于群體。
定義4每一階段的博弈是從每個(gè)博弈方子群體中隨機(jī)抽取一個(gè)人進(jìn)行博弈。
定義5雙異質(zhì)群體演化博弈模型可表示為4元有序組(N,S,P,U),其中N=(N1,N2,…,Nm)為異質(zhì)群體參與者空間。
結(jié)合定義1,可設(shè)定N=(NA,ND)。其中:NA是攻擊方參與者總空間,NA=(NA1,NA2,…,NAj),NA1,NA2,…,NAj是攻擊方參與者子群體;ND是防御方參與者總空間,ND=(ND1,ND2,…,NDi),ND1,ND2,…,NDi是防御方參與者子群體。
S=(SA,SB)為攻防博弈參與者群體的混合策略空間。其中:SA是攻擊方參與者純策略總空間,SA=(SA1,SA2,…,SAj),SA1,SA2,…,SAj是攻擊方參與者子群體選擇的純策略;SD是防御方參與者純策略總空間,SD=(SD1,SD2,…,SDi),SD1,SD2,…,SDi是防御方參與者子群體選擇的純策略。
P=(PA,PD)為博弈信念集合。其中:PA是攻擊方博弈信念集合,PA=(PA1,PA2,…,PAj),PAj是選擇策略SAi的概率;PD是攻擊方博弈信念集合,PD=(PD1,PD2,…,PDi),PDi是選擇策略sDi的概率。
演化博弈是多階段的動(dòng)態(tài)博弈過程,每一個(gè)階段的博弈結(jié)果都會(huì)對(duì)后一階段的博弈產(chǎn)生影響。結(jié)合定義2和4,t時(shí)刻子群體NDi(t)的時(shí)間導(dǎo)數(shù)為
(1)
結(jié)合博弈信念集合定義,可得在任意時(shí)刻t有
PDi(t)ND(t)=NDi(t)
(2)
式(2)兩邊同時(shí)對(duì)t求導(dǎo),整理可得
(3)
參照文獻(xiàn)[17-18]的攻防收益計(jì)算方法,定義本文中收益量化的關(guān)鍵參數(shù)和計(jì)算公式。
定義6資源重要程度Cr,指在一次完整的攻防過程中,攻擊方目標(biāo)資源的重要程度。
定義7操作代價(jià)Ocost,指防御方為使攻擊方攻擊無效做出針對(duì)性調(diào)整所需付出的代價(jià)。例如,系統(tǒng)開銷增大、服務(wù)質(zhì)量下降等。
定義8攻擊成本Acost,攻擊者進(jìn)行攻擊時(shí)所付出的代價(jià)。例如,攻擊的時(shí)間成本、風(fēng)險(xiǎn)成本等。本文中攻擊成本與漏洞的威脅級(jí)別有關(guān),漏洞的威脅級(jí)別越高,攻擊成本就越低。
定義9感染概率λ,指攻擊方成功利用漏洞感染防御方的概率。
定義10防御效果γ,指防御方利用防御動(dòng)作成功清除病毒的概率。
結(jié)合定義6~10可知,某一階段博弈中,防御方的收益可表示為
UD=γCr-Ocost
(4)
攻擊者收益源于感染平臺(tái)后得到的收益,與感染概率有關(guān)。攻擊收益可表示為
UA=λCr-Acost
(5)
在多階段博弈中,博弈雙方通常不會(huì)滿意當(dāng)前階段博弈策略的收益,認(rèn)為存在更優(yōu)策略。在這種假設(shè)下,博弈雙方會(huì)尋求其他策略進(jìn)行學(xué)習(xí),在下一個(gè)階段博弈中采用新的策略,這也就是策略“反思-學(xué)習(xí)”機(jī)制[2]。顯然,現(xiàn)實(shí)網(wǎng)絡(luò)攻防博弈決策本質(zhì)上應(yīng)是基于“反思-學(xué)習(xí)”機(jī)制的。在每一階段博弈結(jié)束后,攻防雙方的每一個(gè)子群體,都從群體中隨機(jī)抽取一個(gè)其他子群體作為反思對(duì)象進(jìn)行策略學(xué)習(xí)。這種“反思-學(xué)習(xí)”機(jī)制可結(jié)合建模分析,建立與之相一致的演化博弈模型和系統(tǒng)動(dòng)力學(xué)方程。在有限理性條件下,網(wǎng)絡(luò)攻防子群體基于“反思-學(xué)習(xí)”機(jī)制的策略調(diào)整行為,可視為獨(dú)立的累計(jì)隨機(jī)事件發(fā)生次數(shù)的增量過程,即泊松過程[2]。子群體的“反思-學(xué)習(xí)”時(shí)間可近似為泊松過程的到達(dá)時(shí)間,泊松過程到達(dá)率即為平均反思率Rs。假設(shè)子群體的泊松分布在統(tǒng)計(jì)上是相互獨(dú)立的,則采取防御策略SD的子群體“反思-學(xué)習(xí)”時(shí)間之和是一個(gè)泊松過程,其到達(dá)率為
Parrive=PDiRs(NDi)
(6)
(7)
根據(jù)大數(shù)定律,設(shè)群體隨機(jī)過程為確定性的流,則子群體NDi來自選擇防御策略SDj的子群體NDj的流入Pin為
(8)
子群體NDi的流出Pout為
(9)
防御策略的博弈信念PDi變?yōu)?/p>
(10)
若群體中策略不成功的子群體的反思率高于策略更成功的子群體的反思率,就會(huì)出現(xiàn)收益嚴(yán)格單調(diào)遞減的選擇動(dòng)態(tài)。引入ρ(x)[2],設(shè)勢函數(shù)ρ(x)在其自變量x上嚴(yán)格單調(diào)遞減,則平均反思率表示為
Rs(NDi)=ρ(UDi)
(11)
防御策略SDi的選取概率PDi可表示為
(12)
設(shè)子群體的反思率在其當(dāng)前收益上是線性遞減的,則
ρ(UDi)=a-bUDi(a,b∈R)
(13)
設(shè)反思率Rs(NDi)非負(fù),則
(14)
按照2.1小節(jié)的防御決策理論,結(jié)合網(wǎng)絡(luò)安全防御行為特點(diǎn),設(shè)計(jì)最優(yōu)防御純策略選擇方法,偽代碼如下。
輸入:雙異質(zhì)群體演化博弈模型
輸出:最優(yōu)防御純策略SDi
BEGIN
1 初始化P,U,S,b;
2 定義T,function;
3 for (k=1;k≤T;k++)
6 ode45(function,T,P);
7 WhenPDi=1
8 ReturnSDi;
9 Else
10 Return 0;
11 end
END
本文方法對(duì)應(yīng)的時(shí)間復(fù)雜度為O(k(m+n)2)。在實(shí)際網(wǎng)絡(luò)攻防中,博弈參與方的數(shù)量增加只會(huì)導(dǎo)致相應(yīng)的攻防策略數(shù)量也增加,該方法復(fù)雜度仍處于同一量級(jí),理論上能夠滿足網(wǎng)絡(luò)攻防的時(shí)敏需求[17]。
對(duì)照文獻(xiàn)[11,15-17],從博弈類型、復(fù)制動(dòng)態(tài)速率準(zhǔn)確性和策略選取應(yīng)用價(jià)值共3個(gè)方面分析本文模型和決策方法,結(jié)果如表1所示。
表1 相關(guān)工作比較
在博弈類型方面,文獻(xiàn)[11,15-17]均以同質(zhì)群體演化博弈理論為基礎(chǔ),不能體現(xiàn)出攻防雙方差異性。在復(fù)制動(dòng)態(tài)速率準(zhǔn)確性方面,文獻(xiàn)[11,16]考慮不完全信息條件,結(jié)合動(dòng)態(tài)演化思想,突破傳統(tǒng)演化博弈模型單階段完全信息博弈的局限性,提出使用系統(tǒng)動(dòng)力學(xué)方程來表示過程的動(dòng)態(tài)演化特點(diǎn),至于策略之間的相互影響還有待進(jìn)一步挖掘。文獻(xiàn)[15]引入激勵(lì)系數(shù)刻畫同一博弈方之間的策略激勵(lì)與抑制作用,但并未能給出激勵(lì)系數(shù)的求解過程。在策略選取應(yīng)用價(jià)值方面,文獻(xiàn)[11,15]并未區(qū)分純策略和混合策略在實(shí)際應(yīng)用中的價(jià)值高低,文獻(xiàn)[16]考慮了第三方懲罰策略對(duì)防御策略選取的影響,但第三方懲罰策略有其自身局限性,一定程度上降低了模型求解的穩(wěn)定性。文獻(xiàn)[17]結(jié)合軍事信息網(wǎng)絡(luò)特點(diǎn),給出了軍事信息網(wǎng)絡(luò)最優(yōu)純策略的選取辦法,滿足了網(wǎng)絡(luò)安全防御確定性決策的需求,但是有待進(jìn)一步研究可行策略的穩(wěn)定性問題。
對(duì)比分析表明,所提模型和決策方法考慮攻防雙方的差異性提出了雙異質(zhì)群體演化博弈模型,改進(jìn)復(fù)制動(dòng)態(tài)方程以提升模型求解的準(zhǔn)確性,求解穩(wěn)定可行的純策略提升了策略的實(shí)際應(yīng)用價(jià)值。
首先引入演化穩(wěn)定和最優(yōu)策略集合的定義。
定義11對(duì)于博弈參與方的不同混合策略Sx、Sy,若存在εy∈(0,1)滿足不等式U(Sx,Sω)≥u(Sy,Sω)對(duì)所有的ε∈(0,εy)都成立,那么Sx是演化穩(wěn)定策略。其中,Sω=εSy+(1-ε)Sx是混合策略Sy入侵原有混合策略空間后形成的新混合策略,Sy是入侵策略Sy在博弈中的被選取概率,U(Sx,Sω)是原策略空間被策略Sy入侵后的收益,U(Sy,Sω)是入侵策略的收益。
定理1異質(zhì)群體N演化穩(wěn)定的充要條件是N存在嚴(yán)格納什均衡。
(2)必要性。設(shè)異質(zhì)群體N存在嚴(yán)格納什均衡,固定博弈參與者在博弈總空間中的位置為Ni且令Sy≠Sx。對(duì)于任意i有U(Sxi,S-xi)=U(Sxi)>U(Syi,S-xi),由于收益U(Sxi)是連續(xù)函數(shù),必存在εy∈(0,1)使得對(duì)任何ε∈(0,εy)和Sω=εSy+(1-ε)Sx都有U(Sxi,S-ω)>U(Syi,S-ω),即異質(zhì)群體N是演化穩(wěn)定的。證畢。
由定理1的分析證明可知,Rs的形式?jīng)Q定了方程是否有漸進(jìn)穩(wěn)定的演化均衡解。博弈模型中,不穩(wěn)定的演化均衡解無法形成可行可信的優(yōu)選策略。因此,引入勢博弈和勢函數(shù)概念[21],即如果每個(gè)子群體的策略改變是單調(diào)的,并且能夠映射到一個(gè)全局單調(diào)函數(shù)中,則這個(gè)全局單調(diào)函數(shù)就是勢函數(shù),此類博弈必存在嚴(yán)格納什均衡。因此,將勢函數(shù)引入式(12)可以使異質(zhì)群體演化博弈模型得到演化穩(wěn)定解,從而實(shí)現(xiàn)防御的有效精確決策。
引理1每個(gè)勢博弈均有純策略演化穩(wěn)定解。
異質(zhì)群體參與者空間N=(N1,N2,…,Nm),函數(shù)ρ是異質(zhì)群體博弈的勢函數(shù),因此Ni的演化穩(wěn)定解可映射到N(ρ(i))中,當(dāng)且僅當(dāng)U(ρ(i))≥U(-ρ(i))時(shí)成立。由于勢函數(shù)單調(diào),因此N(ρ(i))存在純策略演化穩(wěn)定解,Ni存在純策略演化穩(wěn)定解。
以2×2攻防對(duì)稱博弈為例,演繹演化均衡解求解過程。攻防雙方各含有兩個(gè)子群體NA1、NA2,ND1、ND2,對(duì)應(yīng)純策略為SA1、SA2,SD1、SD2。以博弈防御方為例,收益矩陣可以表示為
(15)
式中:D是標(biāo)準(zhǔn)化矩陣,減少了需要觀察的變量數(shù);u1是攻擊方采取純策略SA1時(shí)防御方采取純策略SD1獲得的相對(duì)收益;u2是攻擊方采取純策略SA2時(shí)防御方采取純策略SD2獲得的相對(duì)收益。將u1、u2代入式(14),可得對(duì)應(yīng)防御方和攻擊方的復(fù)制動(dòng)態(tài)方程
(16)
運(yùn)用MATLAB分析博弈演化穩(wěn)定解的穩(wěn)定性。由式(15)可知:u1、u2的正負(fù)會(huì)影響博弈的演化趨勢,u1、u2的數(shù)值不影響博弈的演化趨勢;b的數(shù)值會(huì)影響博弈的演化速率。實(shí)驗(yàn)中,對(duì)u1、u2及b的取值進(jìn)行多次調(diào)整,發(fā)現(xiàn)并不影響演化穩(wěn)定解的收斂結(jié)果。參考文獻(xiàn)[10],設(shè)定|u1|=0.4,|u2|=0.6,b=1,初始博弈信念PA1、PD1為(0,1)間的隨機(jī)數(shù)。圖1為500次蒙特卡羅仿真實(shí)驗(yàn)得到的本文模型演化穩(wěn)定解的收斂軌跡。圖中,藍(lán)色標(biāo)記點(diǎn)是純策略解收斂點(diǎn),紅色標(biāo)記點(diǎn)是混合策略解收斂點(diǎn)。
分析圖1b和1d可知:當(dāng)u1u2<0時(shí),博弈信念在狀態(tài)空間內(nèi)不改變符號(hào),從狀態(tài)空間內(nèi)部任意初始位置開始,博弈雙方的總體狀態(tài)都會(huì)收斂到嚴(yán)格占優(yōu)純策略,即當(dāng)u1=0.4、u2=-0.6時(shí),攻擊方采取純策略SA1,防御方采取純策略SD1;當(dāng)u1=-0.4、u2=0.6時(shí),攻擊方采取純策略SA2,防御方采取純策略SD2。
(a)u1=0.4,u2=0.6
(b)u1=0.4,u2=-0.6
(c)u1=-0.4,u2=-0.6
(d)u1=-0.4,u2=0.6圖1 本文模型演化穩(wěn)定解的收斂軌跡Fig.1 Converging tracks of evolutionary equilibrium of the proposed model
分析圖1a和1c可知:當(dāng)u1u2>0時(shí),博弈有兩個(gè)嚴(yán)格純策略納什均衡和一個(gè)混合策略納什均衡。結(jié)合式(16)可知,當(dāng)博弈收斂到混合策略納什均衡時(shí),PA1=u2/(u1+u2),PD1=u2/(u1+u2)。博弈的混合策略納什均衡點(diǎn)不穩(wěn)定,會(huì)隨著u1u2的變化而發(fā)生改變。因此,當(dāng)u1u2>0時(shí),博弈僅有兩個(gè)穩(wěn)定的嚴(yán)格純策略納什均衡。進(jìn)一步分析圖1a可知,混合策略納什均衡是一個(gè)鞍點(diǎn),除了通過鞍點(diǎn)的曲線外,其他的解軌跡都會(huì)收斂到兩個(gè)穩(wěn)定的純策略納什均衡,即當(dāng)u1=0.4、u2=0.6時(shí),攻擊方采取純策略SA1、防御方采取純策略SD1,或者攻擊方采取純策略SA2、防御方采取純策略SD2。進(jìn)一步分析圖1c可知,攻防博弈雙方的博弈策略會(huì)收斂到更極端的情況,即當(dāng)u1=-0.4、u2=0.6時(shí),攻擊方采取純策略SA1、防御方采取純策略SD2,或者攻擊方采取純策略SA2、防御方采取純策略SD1。
對(duì)比其他相關(guān)文獻(xiàn)可知,雙同質(zhì)群體演化博弈模型中,2×2對(duì)稱博弈模型的混合策略演化穩(wěn)定解是穩(wěn)定的,可作為最優(yōu)防御策略的參考[10,15],但在雙異質(zhì)群體博弈模型中,2×2對(duì)稱博弈模型的混合策略演化穩(wěn)定解是鞍點(diǎn),并不是嚴(yán)格穩(wěn)定的。這也符合實(shí)際博弈過程的特點(diǎn),即當(dāng)博弈發(fā)生在兩個(gè)有區(qū)別的群體中時(shí),行為上會(huì)呈現(xiàn)極端化的趨勢,決策會(huì)越來越偏向某一種單一策略[22]。
為體現(xiàn)模型及方法克服事實(shí)偏差的能力,設(shè)置對(duì)比實(shí)驗(yàn)。經(jīng)典模型中復(fù)制動(dòng)態(tài)方程[2,10]為
(17)
對(duì)比式(16)(17)可知,經(jīng)典模型中攻防雙方的策略調(diào)整并未考慮對(duì)方的博弈策略變化,而是通過自身收益變化調(diào)整策略選擇。但是,現(xiàn)實(shí)網(wǎng)絡(luò)攻防博弈是常和博弈,攻防雙方收益的衡量方式并不相同。運(yùn)用經(jīng)典模型選擇最優(yōu)防御策略,可能會(huì)受到攻擊方欺騙性策略的誘導(dǎo),產(chǎn)生錯(cuò)誤的策略參考結(jié)果。為證明這一點(diǎn),保持|u1|=0.4、|u2|=0.6不變,初始博弈信念PA1、PD1為(0,1)間的隨機(jī)數(shù)。圖2為500次蒙特卡羅仿真得到的經(jīng)典模型演化穩(wěn)定解的收斂軌跡。
(a)u1=0.4,u2=0.6
(b)u1=0.4,u2=-0.6
(c)u1=-0.4,u2=-0.6
(d)u1=-0.4,u2=0.6圖2 經(jīng)典模型演化穩(wěn)定解的收斂軌跡 Fig.2 Traditonal converging tracks of evolutionary equilibrium
分析圖2a可知,當(dāng)u1>0、u2>0時(shí),博弈結(jié)果和初始博弈信念PA1、PD1的數(shù)值有關(guān),無法實(shí)現(xiàn)策略的優(yōu)選。分析圖2c可知,當(dāng)u1<0、u2<0時(shí),博弈收斂至混合策略納什均衡點(diǎn)(0.6,0.6),此時(shí)博弈結(jié)果以概率形式出現(xiàn),不利于現(xiàn)實(shí)中決策的確定性需求。對(duì)比分析圖1b、1d和圖2b、2d可知,當(dāng)u1u2<0時(shí),經(jīng)典模型和雙異質(zhì)演化博弈模型的演化穩(wěn)定解相同。需要說明的是,由于經(jīng)典模型中防御策略演化并未考慮攻擊方博弈信念的變化,攻擊方完全可以利用這一漏洞設(shè)計(jì)欺騙策略來誤導(dǎo)防御方。綜合分析可知,經(jīng)典模型有50%的概率不能實(shí)現(xiàn)防御策略的確定性優(yōu)選,相對(duì)而言,本文提出的模型及克服經(jīng)典模型中同質(zhì)群體假設(shè)帶來的事實(shí)偏差,為網(wǎng)絡(luò)安全防御提供可信的防御決策參考。
借鑒經(jīng)典網(wǎng)絡(luò)信息系統(tǒng)設(shè)計(jì)理念和相關(guān)文獻(xiàn)的實(shí)驗(yàn)設(shè)計(jì)[15,17,23],部署一個(gè)簡單的網(wǎng)絡(luò)信息系統(tǒng)進(jìn)行仿真實(shí)驗(yàn)。該網(wǎng)絡(luò)信息系統(tǒng)的拓?fù)洵h(huán)境見圖3。
圖3 網(wǎng)絡(luò)信息系統(tǒng)的拓?fù)浣Y(jié)構(gòu)Fig.3 Topological structure of network information system
防火墻和網(wǎng)關(guān)將網(wǎng)絡(luò)分為攻擊方所在的外網(wǎng)區(qū)、實(shí)驗(yàn)進(jìn)行的隔離區(qū)(DMZ)和防御方(用戶)所在的內(nèi)網(wǎng)區(qū)。防火墻的訪問控制策略是非內(nèi)網(wǎng)主機(jī)只能訪問DMZ區(qū)的FTP服務(wù)器、Web服務(wù)器、E-MAIL服務(wù)器和堡壘主機(jī)H,DMZ區(qū)中的3個(gè)服務(wù)器都是思科服務(wù)器。使用Nessus工具掃描實(shí)驗(yàn)網(wǎng)絡(luò)信息系統(tǒng),結(jié)合國家信息安全漏洞庫(CNNVD)提供的漏洞信息[24]及姜偉等關(guān)于網(wǎng)絡(luò)防御策略及操作代價(jià)的定義[25],本文實(shí)驗(yàn)使用原子攻擊策略和原子防御策略,分別如表2和表3所示。
表2 原子攻擊策略
表3 原子防御策略
攻擊方利用高評(píng)分漏洞進(jìn)行攻擊,短期內(nèi)收益見效快,但不利于長期持有后收益升值(典例為零日漏洞)。選擇低評(píng)分漏洞為目標(biāo),攻擊成本高,單次收益低[3]。本文將利用高評(píng)分漏洞設(shè)定為冒險(xiǎn)型進(jìn)攻策略SA1=(a1,a2,a3),利用低評(píng)分漏洞設(shè)定為保守型進(jìn)攻策略SA2=(a4,a5)。
防御方的策略收益主要取決于操作代價(jià),操作代價(jià)低的防御策略往往有效性較差。因此,本文將使用高操作代價(jià)策略設(shè)為冒險(xiǎn)型防御策略SD1=(b4,b5),使用低操作代價(jià)策略設(shè)為保守型防御策略SD2=(b1,b2)。結(jié)合收益計(jì)算式(4)(5),設(shè)資源重要程度Cr=1,可得攻防策略收益,如表4所示。
表4 攻防策略收益
計(jì)算策略收益時(shí),認(rèn)為策略收益等于策略所包含的原子攻防動(dòng)作的平均收益。結(jié)合式(15),給出攻防雙方的收益量化矩陣
(18)
(19)
4.2.1 攻防策略選取概率變化趨勢 結(jié)合式(18)(19),設(shè)置控制變量b=1,研究實(shí)驗(yàn)條件下演化穩(wěn)定策略的收斂情況。設(shè)置初始博弈信念(PA1,PD1)={(0.5,0,5),(0.7,0.3),(0.3,0.7),(0.6,0.4)}分別代表攻防雙方無策略選取傾向,攻擊方傾向于選取策略SA1、御方傾向于選擇策略SD2,攻擊方傾向于選取策略SA2、防御方傾向于選擇策略SD1,攻擊方傾向于選取策略SA1、防御方傾向于選擇策略SD1共4種不同情況。圖4給出了攻防雙方策略選取概率變化趨勢的仿真結(jié)果。
(a)攻擊策略選取概率
(b)防御策略選取概率圖4 攻防雙方策略選取概率變化趨勢Fig.4 Changing trend of strategy selection probability of attack and defense
分析圖4a、4b可知:對(duì)應(yīng)不同的初始博弈信念(PA1,PD1)={(0.5,0,5),(0.7,0.3),(0.3,0.7),(0.6,0.4)},PA1始終收斂至1,PA2始終收斂至0;PD1始終收斂至1,PD2始終收斂至0。結(jié)合實(shí)驗(yàn)條件A、D的數(shù)值進(jìn)一步分析可知,在冒險(xiǎn)型策略的相對(duì)收益u1遠(yuǎn)大于保守型策略的相對(duì)收益u2的情況下,無論攻防雙方在博弈開始前有無策略選取傾向,網(wǎng)絡(luò)攻防雙方最終都會(huì)選擇冒險(xiǎn)型策略。
4.2.2 反思能力b對(duì)攻防策略選取的影響 保持u1、u2不變,設(shè)定初始博弈信念(PA1,PD1)=(0.7,0.3),分別取b=0.5,1,1.5,研究參數(shù)b對(duì)于博弈結(jié)果的影響。圖5給出了b不同取值下攻防雙方策略選取概率變化趨勢的仿真結(jié)果。
(a)攻擊策略選取概率
(b)防御策略選取概率圖5 不同b取值下攻防雙方策略選取概率變化趨勢Fig.5 Changing trend of strategy selection probability of attack and defense for different b values
分析圖5可知:當(dāng)b=0.5,1,1.5時(shí),PA1達(dá)到演化穩(wěn)定所需的演化次數(shù)分別為36、15、7次;PD1達(dá)到演化穩(wěn)定所需的演化次數(shù)分別為117、59、39次。以b=1為基準(zhǔn):當(dāng)b=0.5時(shí),防御方博弈群體決策趨于穩(wěn)定的速率減緩了198%;當(dāng)b=1.5時(shí),防御方博弈群體決策趨于穩(wěn)定的速率提升了151%。由此可見,反思能力b可以影響博弈結(jié)果的求解速度?,F(xiàn)實(shí)意義在于,反思能力較弱的子群體(b<1)需要更多時(shí)間適應(yīng)環(huán)境才能做出決策;反思能力較強(qiáng)的子群體(b>1)對(duì)環(huán)境適應(yīng)性較強(qiáng),決策反應(yīng)較快。理論上合理調(diào)整參數(shù)b,使其對(duì)應(yīng)每次博弈的時(shí)間窗口,可提升博弈結(jié)果的時(shí)敏性。
本文根據(jù)網(wǎng)絡(luò)攻防雙方?jīng)Q策差異性特征,結(jié)合生物學(xué)種群概念,提出了雙異質(zhì)群體演化博弈模型。設(shè)計(jì)了基于策略反思機(jī)制的最優(yōu)防御策略選取算法,結(jié)合模擬網(wǎng)絡(luò)攻防實(shí)驗(yàn)環(huán)境,開展了仿真驗(yàn)證。本文主要結(jié)論如下。
(1)相比傳統(tǒng)的演化博弈模型,所提雙異質(zhì)群體演化博弈模型可以突破對(duì)稱博弈假設(shè),凸顯攻防雙方的效用特征,得出的演化均衡策略更符合實(shí)際網(wǎng)絡(luò)攻防的行為差異性特點(diǎn)。
(2)在非對(duì)稱演化博弈中,引入恰當(dāng)?shù)膭莺瘮?shù)能夠證明演化均衡穩(wěn)定存在,確保博弈模型所得策略的穩(wěn)定性和可信性。
(3)反思能力會(huì)影響模型和方法求解的速度,表明在不同信息交互機(jī)制的群體中最優(yōu)策略的演化速率不同。由此,可設(shè)計(jì)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)中的信息交互機(jī)制,更好地對(duì)應(yīng)攻防博弈的時(shí)間窗口,提升時(shí)敏性。
本文在模型求解和算例分析中,假設(shè)可選擇策略數(shù)為2,后期可考慮多維博弈策略空間的情況下雙異質(zhì)群體演化博弈模型的穩(wěn)定性和適用性,以及當(dāng)攻防雙方認(rèn)知信息錯(cuò)誤時(shí)博弈模型的優(yōu)化問題。