張青青,湯紅波,游 偉,普黎明
(中國(guó)人民解放軍戰(zhàn)略支援部隊(duì)信息工程大學(xué)國(guó)家數(shù)字交換系統(tǒng)工程技術(shù)研究中心,鄭州 450002)
針對(duì)傳統(tǒng)網(wǎng)絡(luò)架構(gòu)部署周期長(zhǎng)、運(yùn)營(yíng)成本高、網(wǎng)絡(luò)結(jié)構(gòu)僵化等問題,歐洲電信標(biāo)準(zhǔn)化協(xié)會(huì)(European Telecommunications Standards Institute,ETSI)提出了網(wǎng)絡(luò)功能虛擬化(Network Functions Virtualization,NFV)技術(shù)[1]。NFV 實(shí)現(xiàn)了網(wǎng)絡(luò)功能與專有硬件之間的解耦,通過虛擬化技術(shù)實(shí)現(xiàn)網(wǎng)絡(luò)功能的軟件化部署,提高了網(wǎng)絡(luò)的靈活性和資源的利用率,降低了運(yùn)營(yíng)商的資本支出(Capital Expenditure,CPEX)和運(yùn)營(yíng)開銷(Operation Expenses,OPEX)。然而,NFV 資源共享的特點(diǎn)也給網(wǎng)絡(luò)帶來了新的安全風(fēng)險(xiǎn)[2]。傳統(tǒng)的被動(dòng)防御手段面向已知特征的威脅,防御滯后于攻擊,在應(yīng)對(duì)NFV 帶來的新的安全風(fēng)險(xiǎn)時(shí)缺乏主動(dòng)性和對(duì)攻擊的預(yù)測(cè)能力。
應(yīng)對(duì)上述攻防不對(duì)等的格局,可基于擬態(tài)防御思想[3]構(gòu)建NFV 擬態(tài)防御架構(gòu),利用網(wǎng)絡(luò)系統(tǒng)環(huán)境的動(dòng)態(tài)性和不確定性獲得防御功能或?qū)傩裕浠驹硎牵和ㄟ^為每一個(gè)網(wǎng)絡(luò)功能構(gòu)建多個(gè)功能等價(jià)的異構(gòu)體,為系統(tǒng)引入多樣性,同時(shí)利用動(dòng)態(tài)調(diào)度策略定期或不定期地對(duì)線上執(zhí)行體進(jìn)行替換,為系統(tǒng)引入動(dòng)態(tài)性與隨機(jī)性,使得攻擊者可利用的攻擊面不斷變化,從而增加攻擊者的攻擊難度。此外,利用裁決機(jī)制對(duì)輸出結(jié)果進(jìn)行多模裁決,提高系統(tǒng)可靠性與防御魯棒性。其中動(dòng)態(tài)調(diào)度策略是實(shí)現(xiàn)擬態(tài)防御的關(guān)鍵技術(shù)之一,設(shè)計(jì)合理的調(diào)度策略可以有效提升系統(tǒng)的安全性和異構(gòu)體的利用率。在現(xiàn)有針對(duì)調(diào)度策略的相關(guān)研究中:文獻(xiàn)[4]引入了信譽(yù)度與相異度2 個(gè)指標(biāo),提出一種基于信譽(yù)度與相異度聯(lián)合優(yōu)化的執(zhí)行體選擇算法,在保證執(zhí)行體之間差異性的同時(shí)避免了脆弱程度較低的執(zhí)行體;文獻(xiàn)[5]在考慮系統(tǒng)負(fù)載因素的情況下,將調(diào)度問題轉(zhuǎn)化為安全與負(fù)載的動(dòng)態(tài)雙目標(biāo)優(yōu)化問題,兼顧了系統(tǒng)的安全性與計(jì)算性能;文獻(xiàn)[6]提出一種隨機(jī)種子最小相似度的調(diào)度策略,首先隨機(jī)確定種子執(zhí)行體,然后根據(jù)相似度指標(biāo)選擇整體相似度最小的調(diào)度方案,實(shí)現(xiàn)了動(dòng)態(tài)性和可靠性之間的平衡;文獻(xiàn)[7]提出一種基于優(yōu)先級(jí)和時(shí)間片的執(zhí)行體調(diào)度算法,首先從時(shí)空維度對(duì)執(zhí)行體的相似性進(jìn)行定義,然后基于相似性指標(biāo)進(jìn)行優(yōu)先級(jí)預(yù)排序,最后結(jié)合時(shí)間片策略進(jìn)行執(zhí)行體調(diào)度。
上述調(diào)度策略雖然在一定程度上改善了擬態(tài)防御架構(gòu)的動(dòng)態(tài)性與隨機(jī)性,但都是根據(jù)執(zhí)行體自身固有的特點(diǎn)進(jìn)行調(diào)度,沒有進(jìn)一步利用裁決機(jī)制對(duì)異常執(zhí)行體的定位感知能力做優(yōu)化調(diào)整。擬態(tài)裁決機(jī)制可以通過對(duì)執(zhí)行體的輸出結(jié)果進(jìn)行對(duì)比,發(fā)現(xiàn)輸出異常的執(zhí)行體,并利用態(tài)勢(shì)感知技術(shù)以及大數(shù)據(jù)分析對(duì)異常執(zhí)行體的系統(tǒng)信息深入研究,從而得到當(dāng)前環(huán)境下攻擊的類型和分布。各異構(gòu)體由于其組成結(jié)構(gòu)不同,暴露的攻擊面不同,對(duì)不同攻擊的防御能力也不同,因此利用擬態(tài)裁決機(jī)制的反饋結(jié)果對(duì)調(diào)度策略進(jìn)行適應(yīng)性地優(yōu)化調(diào)整,可以提高調(diào)度策略的有效性和系統(tǒng)的安全性。
為提升NFV 擬態(tài)防御架構(gòu)的安全性和調(diào)度策略的有效性,本文利用分析器對(duì)裁決器的裁決信息進(jìn)行分析,得到關(guān)于攻擊狀態(tài)的反饋信息,并利用演化博弈理論構(gòu)建一個(gè)多狀態(tài)動(dòng)態(tài)調(diào)度演化博弈模型,將在線執(zhí)行體的不同組合作為NFV 擬態(tài)防御架構(gòu)的不同狀態(tài)。在此基礎(chǔ)上,利用復(fù)制動(dòng)態(tài)方程和李雅普諾夫間接法對(duì)不同狀態(tài)下攻防策略的演化趨勢(shì)和穩(wěn)定性進(jìn)行分析,提出基于演化博弈的最優(yōu)動(dòng)態(tài)調(diào)度策略選取算法。
NFV 擬態(tài)防御架構(gòu)是一個(gè)基于擬態(tài)防御理論的內(nèi)生安全防御體系。圖1 為NFV 擬態(tài)防御架構(gòu)的示意圖,可以看出該架構(gòu)由異構(gòu)元素池、異構(gòu)體池、調(diào)度器、輸入代理、裁決器、輸出代理和分析器組成。
圖1 NFV 擬態(tài)防御架構(gòu)Fig.1 NFV mimic defense architecture
在NFV 擬態(tài)防御架構(gòu)中,每一個(gè)網(wǎng)絡(luò)功能異構(gòu)體由上而下分為3 層:
1)應(yīng)用軟件層:采用不同編程語(yǔ)言或算法實(shí)現(xiàn)的虛擬網(wǎng)絡(luò)功能(Virtual Network Function,VNF),是處理服務(wù)請(qǐng)求的邏輯功能。
2)操作系統(tǒng)層:包含不同的操作系統(tǒng)和虛擬化軟件,操作系統(tǒng)可以采用Windows、Ubuntu、Centos等,虛擬化軟件可以采用OpenStack、XEN 等,為應(yīng)用軟件層提供必要的運(yùn)行環(huán)境。
3)底層硬件層:可以使用不同廠家的服務(wù)器,如X86 和ARM,其作用是搭載整個(gè)操作系統(tǒng)。
這些異構(gòu)體在功能上是等效的,但是具有不同的組成結(jié)構(gòu),因此降低了共模漏洞的可能性。M個(gè)異構(gòu)體組成一個(gè)異構(gòu)體池,負(fù)反饋控制器依據(jù)動(dòng)態(tài)調(diào)度策略從異構(gòu)體池中選擇N個(gè)異構(gòu)體作為執(zhí)行體處理網(wǎng)絡(luò)請(qǐng)求,并不定期地對(duì)當(dāng)前運(yùn)行的執(zhí)行體集合進(jìn)行變換,對(duì)外呈現(xiàn)結(jié)構(gòu)的隨機(jī)性和不可預(yù)測(cè)性。輸入代理將輸入請(qǐng)求復(fù)制N份分發(fā)給執(zhí)行體進(jìn)行處理。裁決器對(duì)N個(gè)執(zhí)行體的輸出結(jié)果進(jìn)行判決,最終形成一致性的輸出。擬態(tài)裁決機(jī)制將單一確定目標(biāo)攻擊難度增強(qiáng)為多目標(biāo)協(xié)同一致攻擊難度。攻擊者只有在同時(shí)攻破個(gè)執(zhí)行體并產(chǎn)生相同的錯(cuò)誤輸出時(shí),才能成功攻擊NFV 擬態(tài)防御架構(gòu)。分析器對(duì)輸出異常的執(zhí)行體做進(jìn)一步深入分析,結(jié)合態(tài)勢(shì)感知技術(shù)[8]和大數(shù)據(jù)分析技術(shù),從中獲取當(dāng)前環(huán)境下攻擊者的分布和攻擊的類型,并將這些信息反饋給調(diào)度器,對(duì)調(diào)度策略進(jìn)行優(yōu)化調(diào)整。
演化博弈[9]是把傳統(tǒng)博弈理論和生物進(jìn)化理論結(jié)合起來的一種理論,其以有限理性作為理論分析的基礎(chǔ)。演化博弈可以對(duì)博弈雙方長(zhǎng)期穩(wěn)定趨勢(shì)進(jìn)行分析,符合實(shí)際網(wǎng)絡(luò)攻防對(duì)抗動(dòng)態(tài)演化的現(xiàn)實(shí),能夠有效提高利用博弈論分析網(wǎng)絡(luò)對(duì)抗行為的準(zhǔn)確性和可信度[10]。本節(jié)以演化博弈理論為基礎(chǔ)構(gòu)建多狀態(tài)動(dòng)態(tài)調(diào)度演化博弈模型。與模型相關(guān)的前提假設(shè)如下:
假設(shè)1NFV 擬態(tài)防御架構(gòu)是基于“輸入-處理-輸出”的IPO(Inputs Process Outputs)模型[3],對(duì)于相同的輸入,會(huì)產(chǎn)生一致的輸出。因此,本文僅針對(duì)由系統(tǒng)漏洞和后門引發(fā)的系統(tǒng)異?;蛘咻敵鲥e(cuò)誤,而不考慮DDoS(Distributed Denial of Service)[11]等 資源消耗型攻擊,這樣裁決器才能對(duì)輸出結(jié)果進(jìn)行比較,以判決執(zhí)行體是否被攻擊。
假設(shè)2系統(tǒng)輸出異??赡苁怯蓛?nèi)部故障或者外部攻擊導(dǎo)致。本文的研究目標(biāo)是制定適應(yīng)性的調(diào)度策略防御攻擊者的攻擊,因此,在導(dǎo)致執(zhí)行體輸出異常的因素中不考慮非攻擊因素,如環(huán)境等原因?qū)е碌南到y(tǒng)崩潰。
假設(shè)3由于網(wǎng)絡(luò)環(huán)境復(fù)雜多變,攻防雙方獲得的攻防信息是不完全的。此外,由于分析能力和計(jì)算能力有限,攻防雙方無法通過一次博弈就能找到最優(yōu)策略,因此本文假設(shè)攻防雙方都是有限理性的,具有一定的統(tǒng)計(jì)分析能力和事后判斷能力,但沒有事先的預(yù)測(cè)能力,需要通過不斷學(xué)習(xí)和調(diào)整來找到合適的策略。攻擊者可以通過網(wǎng)絡(luò)掃描和滲透等手段對(duì)NFV 擬態(tài)防御架構(gòu)進(jìn)行探測(cè),獲取防御者的漏洞和后門信息;NFV 擬態(tài)防御架構(gòu)可以通過裁決機(jī)制感知異常執(zhí)行體,并利用分析器得到攻擊者的分布和攻擊的類型。
基于以上假設(shè),下文給出多狀態(tài)動(dòng)態(tài)調(diào)度演化博弈模型(Multi State Dynamic Scheduling Evolutionary Game Model,MSDSEGM)的相關(guān)定義。
定義1多狀態(tài)動(dòng)態(tài)調(diào)度演化博弈模型可用一個(gè)五元組表示:MSDSEGM=(N,Φ,S,P,U)。
1)N=(NA,ND)是博弈的參與者集合。其中:NA為攻擊者;ND為防御者(NFV 擬態(tài)防御架構(gòu))。
2)Φ={Φ1,Φ2,…,Φ?}是NFV 擬態(tài)防御架構(gòu)的狀態(tài)集合,當(dāng)前在線執(zhí)行體的不同組合即為NFV 擬態(tài)防御架構(gòu)的不同狀態(tài)。其中:?=為狀態(tài)總數(shù),與異構(gòu)體數(shù)量M和執(zhí)行體數(shù)量N有關(guān)。當(dāng)NFV 擬態(tài)防御架構(gòu)處于不同的狀態(tài)時(shí),攻防雙方采取不同的博弈策略得到的博弈收益也不同,因此,需要對(duì)不同狀態(tài)下的NFV 擬態(tài)防御架構(gòu)進(jìn)行博弈分析。
3)S=(SA,SD)是博弈參與者的策略集合。其中:SA={SA1,SA2,…,SAm}表示攻擊者可采取的攻擊策略集合,即利用各種漏洞對(duì)NFV 擬態(tài)防御架構(gòu)進(jìn)行攻擊,m為攻擊策略總數(shù);SD={SD1,SD2,…,SDn}表示NFV 擬態(tài)防御架構(gòu)可采取的防御策略集合,即動(dòng)態(tài)調(diào)度策略集合。動(dòng)態(tài)調(diào)度策略就是NFV 擬態(tài)防御架構(gòu)不同狀態(tài)之間的轉(zhuǎn)換,因此,防御策略總數(shù)n=?。
4)P=(p,q)是博弈參與者的策略概率集合。其中:p={p1,p2,…,pm}表示攻擊者采取的各攻擊策略的概率集合,且=1(0 ≤pi≤1,m≥2);q={q1,q2,…,qn}表示NFV 擬態(tài)防御架構(gòu)采取的各調(diào)度策略的概率集合,且=1(0 ≤qj≤1,n≥2)。
5)U=(UA,UD)是博弈參與者的收益函數(shù)集合。其中:UA表示攻擊者的收益;UD表示NFV 擬態(tài)防御架構(gòu)的收益;為攻擊者和防御者分別采取策略SAi和SDj時(shí)的收益函數(shù)。由此得到博弈收益矩陣,如式(1)所示:
MSDSEGM 模型對(duì)應(yīng)的攻防博弈樹如圖2 所示,由圖可知攻擊者和NFV 擬態(tài)防御架構(gòu)采取不同攻防策略時(shí)得到的攻防收益也會(huì)不同。該收益不僅與其自身的策略有關(guān),而且還與對(duì)方的策略密切相關(guān)。
圖2 網(wǎng)絡(luò)攻防博弈樹Fig.2 Network attack and defense game tree
對(duì)攻擊者和防御者的博弈收益進(jìn)行量化是MSDSEGM 模型演化均衡求解和穩(wěn)定性分析的基礎(chǔ),其量化是否合理直接決定最終博弈結(jié)果的準(zhǔn)確性。文獻(xiàn)[12]在總結(jié)多種攻擊防御策略分類的基礎(chǔ)上,提出了成本/回報(bào)量化方法,即收益為回報(bào)減去成本?;诖耍趯?duì)MSDSEGM 模型進(jìn)行分析之前,結(jié)合NFV 擬態(tài)防御架構(gòu)的特點(diǎn)給出以下關(guān)于攻防雙方收益的定義。
定義2(攻擊成本AC)攻擊者發(fā)動(dòng)一次攻擊所需耗費(fèi)的時(shí)間開銷、軟硬件資源開銷、風(fēng)險(xiǎn)開銷等。
定義3(攻擊回報(bào)AR)攻擊者發(fā)動(dòng)一次攻擊所得到的好處,用攻擊者給NFV 擬態(tài)防御架構(gòu)帶來的損失表示。
定義4(防御成本DC)由式(2)可知防御成本由操作成本和負(fù)面成本構(gòu)成:
其中:OC是操作成本,表示NFV擬態(tài)防御架構(gòu)置換一個(gè)異構(gòu)體所需耗費(fèi)的時(shí)間開銷和計(jì)算資源開銷;α為調(diào)度策略置換的異構(gòu)體數(shù)量;NC是負(fù)面成本,表示執(zhí)行調(diào)度策略給系統(tǒng)帶來的一段時(shí)間內(nèi)的性能損失。
定義5(防御損失DL)防御方因遭受攻擊方攻擊而造成的損失。防御損失DL等于攻擊回報(bào)AR,計(jì)算公式如下:
由式(3)可知,防御損失由漏洞損失VL和失效損失FL構(gòu)成。其中:VL表示攻擊者利用某個(gè)漏洞攻擊單個(gè)異構(gòu)體造成的損失;β為被攻擊的異構(gòu)體數(shù)量,μ為漏洞的攻擊成功概率;FL表示系統(tǒng)中超過一半數(shù)量異構(gòu)體被攻破時(shí)的損失,此時(shí)NFV 擬態(tài)防御架構(gòu)失效。
定義6(防御回報(bào)DR)每一個(gè)異構(gòu)體為NFV 擬態(tài)防御架構(gòu)帶來的安全收益。
定義7(底層負(fù)載UL)NFV 技術(shù)將網(wǎng)絡(luò)功能和硬件實(shí)體解耦分離,每一個(gè)異構(gòu)體都是一個(gè)網(wǎng)絡(luò)功能實(shí)例,與其他網(wǎng)絡(luò)功能實(shí)例共享底層物理資源。底層負(fù)載影響著網(wǎng)絡(luò)功能的運(yùn)行效率[13],應(yīng)盡量選取底層負(fù)載較小的異構(gòu)體上線。
根據(jù)上述定義,可以得到博弈收益函數(shù)的具體表達(dá)式:
本節(jié)涉及的相關(guān)變量及含義如表1 所示。
表1 主要變量及含義Table 1 Main variables and their significance
本節(jié)使用復(fù)制動(dòng)態(tài)(Replicator Dynamics,RD)方法對(duì)MSDSEGM 模型進(jìn)行演化均衡求解。復(fù)制動(dòng)態(tài)方程就是策略選取概率的動(dòng)態(tài)變化速率,描述的是博弈過程中攻防策略隨時(shí)間的動(dòng)態(tài)調(diào)整過程,是目前應(yīng)用最為廣泛的一種動(dòng)力學(xué)演化機(jī)制[14]。由于在有限理性的條件下博弈參與者掌握的初始知識(shí)是有限的,因此采取的策略并非完全理性條件下的最優(yōu)策略,在博弈的過程中通過不斷調(diào)整和改進(jìn),收益低的策略的選取概率逐漸降低,收益高的策略的選取概率逐漸提高,最終達(dá)到策略均衡的結(jié)果。
采用復(fù)制動(dòng)態(tài)方程求解MSDSEGM 模型演化均衡的具體過程為:
1)根據(jù)攻防策略概率集合p、q和收益矩陣,計(jì)算攻擊者不同攻擊策略的期望收益UAi和平均收益UA:
2)計(jì)算攻擊者的復(fù)制動(dòng)態(tài)方程:
其中:pi(t)表示隨時(shí)間t變化選擇攻擊策略SAi的概率,且滿足由式(8)可知,攻擊策略SAi的動(dòng)態(tài)方程取值與選擇該策略的概率pi成正比,與其期望收益UAi和平均收益UA的差值成正比。
3)根據(jù)攻防策略概率集合p、q和收益矩陣,計(jì)算NFV 擬態(tài)防御架構(gòu)不同調(diào)度策略的期望收益UDj和平均收益UD:
4)計(jì)算NFV 擬態(tài)防御架構(gòu)的復(fù)制動(dòng)態(tài)方程:
其中:qj(t)表示隨時(shí)間t變化選擇選擇調(diào)度策略SDj的概率,且滿足由式(11)可知,調(diào)度策略SDj的動(dòng)態(tài)方程取值與選擇該策略的概率qj成正比,與其期望收益UDj和平均收益UD的差值成正比。
5)聯(lián)立攻擊者與NFV 擬態(tài)防御架構(gòu)的復(fù)制動(dòng)態(tài)方程進(jìn)行演化均衡求解:
對(duì)式(12)進(jìn)行求解,可以得到MSDSEGM 模型的演化均衡策略,即在該策略下各個(gè)博弈行為的選擇概率不變。但是其中的一些演化均衡策略存在不穩(wěn)定性,即一旦發(fā)生博弈雙方的策略偏離該均衡狀態(tài)的情況,復(fù)制動(dòng)態(tài)方程就會(huì)使演化結(jié)果不再收斂于該策略。因此,需要對(duì)演化均衡策略進(jìn)行穩(wěn)定性分析,得到演化均衡策略中的穩(wěn)定策略,實(shí)現(xiàn)最優(yōu)動(dòng)態(tài)調(diào)度策略選取。
演化穩(wěn)定策略(Evolutionarily Stable Strategy,ESS)是演化博弈中的一個(gè)核心概念[15],是對(duì)納什均衡的改進(jìn),具有較強(qiáng)的穩(wěn)定性和預(yù)測(cè)能力,其在受到少量干擾后仍能恢復(fù)。演化穩(wěn)定策略的數(shù)學(xué)定義為:
定義8如果?y∈S,y≠x,存在一個(gè)εy∈(0,1),使式(13)對(duì)任意ε∈(0,εy)都成立,則x∈S為演化穩(wěn)定策略。
其中:S為策略集;y表示突變策略;εy是一個(gè)與突變策略y相關(guān)的常數(shù),稱為入侵界限;εy+(1-ε)x表示演化穩(wěn)定策略與突變策略按比例組合而成的混合策略;U(x,y)為策略x與策略y相遇時(shí)策略x的收益函數(shù)。由定義8 可知,演化穩(wěn)定策略的基本思想是:在給定環(huán)境下,如果一個(gè)策略被群體大部分個(gè)體所采用,并且由于其他策略無法產(chǎn)生比使用該策略更高的收益,該策略無法被其他策略所代替,則稱該策略為演化穩(wěn)定策略。
針對(duì)2.3 節(jié)采用復(fù)制動(dòng)態(tài)方程求出的演化均衡策略,利用李雅普諾夫間接法[16]對(duì)其進(jìn)行穩(wěn)定性分析。由于式(12)是一個(gè)非線性微分方程組并且二階連續(xù)可微,因此可以通過研究其在均衡點(diǎn)O=[pO1,pO2,…,pOm,qO1,qO2,…,qOn]T處的一次近似方程組的穩(wěn)定性來實(shí)現(xiàn)演化均衡策略的穩(wěn)定性分析。將式(12)在演化均衡點(diǎn)處進(jìn)行泰勒展開得到式(14):
其中:ξi和ζj為級(jí)數(shù)展開式中二階以上各項(xiàng)之和。記:
令g=f-fO,y=x-O,可以得到一次近似方程組的矩陣向量形式g=Jy,其中,J為向量函數(shù)的雅可比矩陣,如式(18)所示:
當(dāng)帶入均衡點(diǎn)O時(shí),雅可比矩陣J的所有特征根均有負(fù)實(shí)部,則該點(diǎn)對(duì)應(yīng)的策略為演化穩(wěn)定策略。
基于演化博弈的動(dòng)態(tài)調(diào)度策略工作流程如圖3所示。
圖3 基于演化博弈的動(dòng)態(tài)調(diào)度策略工作流程Fig.3 Workflow of dynamic scheduling strategy based on evolutionary game
1)分析器根據(jù)裁決結(jié)果,利用漏洞掃描、數(shù)據(jù)采集、查殺病毒木馬、沙箱隔離等防護(hù)手段對(duì)異常執(zhí)行體進(jìn)行故障查找和安全問題排查,或利用態(tài)勢(shì)感知和大數(shù)據(jù)分析技術(shù)對(duì)異常執(zhí)行體的系統(tǒng)信息深入研究,得到當(dāng)前環(huán)境下的攻防狀態(tài)信息(攻擊的類型和分布、各異構(gòu)體對(duì)不同攻擊的防御情況)。
2)調(diào)度器利用博弈論方法構(gòu)建一個(gè)MSDSEGM模型,并根據(jù)擬態(tài)防御架構(gòu)的系統(tǒng)組成(例如異構(gòu)體的數(shù)量、異構(gòu)體的組成構(gòu)件、執(zhí)行體的數(shù)量)和分析器中的反饋信息,得到攻防雙方的策略集合、策略概率集合和收益函數(shù)集合,以及NFV 擬態(tài)防御架構(gòu)的狀態(tài)集合。
3)調(diào)度器根據(jù)演化博弈理論,利用復(fù)制動(dòng)態(tài)方程方法對(duì)異構(gòu)體動(dòng)態(tài)調(diào)度策略進(jìn)行不斷優(yōu)化調(diào)整。
基于演化博弈的最優(yōu)動(dòng)態(tài)調(diào)度策略選取算法描述如下:
算法1基于演化博弈的最優(yōu)動(dòng)態(tài)調(diào)度策略選取算法
為驗(yàn)證MSDSEGM 模型和最優(yōu)調(diào)度策略選取算法的可行性和有效性,在MATLAB 仿真平臺(tái)上對(duì)博弈過程進(jìn)行仿真與分析,仿真平臺(tái)主機(jī)配置為Intel?CoreTMi7-7700 CPU 3.60 GHz,8 GB RAM。為便于展示分析,本節(jié)僅對(duì)異構(gòu)體的操作系統(tǒng)層進(jìn)行異構(gòu)化。設(shè)定異構(gòu)體數(shù)量為4,操作系統(tǒng)分別采用Windows Server 2016、Ubuntu 18.04、CentOS 和Windows Server 2008。由通用漏洞披露(Common Vulnerabilities &Exposures,CVE)[17]和通用漏洞評(píng)分系統(tǒng)(Common Vulnerability Scoring System,CVSS)[18]得到異構(gòu)體操作系統(tǒng)配置參數(shù)及相關(guān)漏洞信息,如表2 所示,其中CVSS 分值反映了漏洞的嚴(yán)重程度,漏洞的得分最大為10,最小為0。CVSS 得分在7~10 的是高級(jí)漏洞,得分在4~6.9 之間的是中級(jí)漏洞,得分在0~3.9的則是低級(jí)漏洞。Exploitability為CVSS 中的可利用度指標(biāo),反映了漏洞受攻擊的難易程度。從上述4 個(gè)異構(gòu)體中選擇3 個(gè)上線作為執(zhí)行體,則NFV 擬態(tài)防御架構(gòu)共有=4 種狀態(tài)Φ={Φ1,Φ2,Φ3,Φ4}。其中:狀態(tài)Φ1表示異構(gòu)體H1、H2和H3為在線執(zhí)行體;狀態(tài)Φ2表示異構(gòu)體H1、H2和H4為在線執(zhí)行體;狀態(tài)Φ3表示異構(gòu)體H1、H3和H4為在線執(zhí)行體;狀態(tài)Φ4表示異構(gòu)體H2、H3和H4為在線執(zhí)行體。防御策略可以等價(jià)為系統(tǒng)各狀態(tài)之間的轉(zhuǎn)換,由此可以得到防御策略集合SD={Φ1,Φ2,Φ3,Φ4},同時(shí)可以得到攻擊策略集合SA={vul1,vul2,vul3,vul4,vul5,vul6,vul7}。根據(jù)文獻(xiàn)[19]中的漏洞利用成功概率計(jì)算方法,結(jié)合表2 中的Exploitability 指標(biāo)信息得到各個(gè)漏洞的攻擊成功概率:μ(vul1)=0.39,μ(vul2)=0.39,μ(vul3)=0.39,μ(vul4)=0.34,μ(vul5)=0.39,μ(vul6)=0.34,μ(vul7)=0.39。參考文獻(xiàn)[20]中的成本量化方法,取AC=5,OC=5,NC=5,F(xiàn)L=30,DR=10。DL根據(jù)漏洞等級(jí)從高到低分別取30、20、10。UL根據(jù)異構(gòu)體底層設(shè)備具體的負(fù)載量用0~10 之間的數(shù)值表示,取UL(H1)=5,UL(H2)=4,UL(H3)=7,UL(H4)=2。
表2 操作系統(tǒng)配置參數(shù)及漏洞信息Table 2 Operating system configuration parameters and vulnerability information
圖4和圖5分別為Φ1狀態(tài)下攻擊者和NFV 擬態(tài)防御架構(gòu)的策略演化趨勢(shì)圖。由于異構(gòu)體H1和H4存在共模漏洞vul1,當(dāng)H1和H4同為線上執(zhí)行體時(shí),攻擊者就可能會(huì)利用漏洞vul1 將H1和H4同時(shí)攻破,使NFV擬態(tài)防御架構(gòu)輸出錯(cuò)誤的結(jié)果,從而獲得更高的收益,因此vul1 的選擇概率不斷增大,最終收斂到1。NFV 擬態(tài)防御架構(gòu)可以通過分析器中得到的反饋信息,發(fā)現(xiàn)攻擊者的策略演化趨勢(shì)。為防止攻擊者同時(shí)攻破H1和H4,NFV 擬態(tài)防御架構(gòu)不斷學(xué)習(xí)調(diào)整,優(yōu)先選擇Φ1和Φ4為下一調(diào)度狀態(tài),但由于NFV 擬態(tài)防御架構(gòu)此時(shí)就處于Φ1狀態(tài),繼續(xù)選擇Φ1可以避免調(diào)度操作帶來的開銷,因此Φ1的選擇概率逐漸增大。
圖4 Φ1 狀態(tài)下的攻擊策略演化趨勢(shì)Fig.4 Evolution trend of attack strategy in Φ1 state
圖5 Φ1 狀態(tài)下的防御策略演化趨勢(shì)Fig.5 Evolution trend of defense strategy in Φ1 state
圖6和圖7分別為Φ2狀態(tài)下攻擊者和NFV 擬態(tài)防御架構(gòu)的策略演化趨勢(shì)圖。同理,攻擊者為得到更高的收益,最終會(huì)趨向于選擇利用漏洞vul1 進(jìn)行攻擊。NFV 擬態(tài)防御架構(gòu)為避免攻擊者同時(shí)攻破H1和H4,會(huì)優(yōu)先選擇Φ1和Φ4為下一調(diào)度狀態(tài),但由于NFV 擬態(tài)防御架構(gòu)此時(shí)處于Φ2狀態(tài),無論選擇Φ1還是Φ4都無法避免調(diào)度操作帶來的開銷,但Φ1狀態(tài)表示異構(gòu)體H1、H2和H3為在線執(zhí)行體,Φ4狀態(tài)表示異構(gòu)體H2、H3和H4為在線執(zhí)行體,由仿真參數(shù)設(shè)置可知,H4的底層設(shè)備負(fù)載量更低,底層負(fù)載影響著網(wǎng)絡(luò)功能的運(yùn)行效率,系統(tǒng)會(huì)優(yōu)先調(diào)度底層負(fù)載較小的異構(gòu)體上線作為執(zhí)行體,因此Φ4的選擇概率不斷增加。
圖6 Φ2 狀態(tài)下的攻擊策略演化趨勢(shì)Fig.6 Evolution trend of attack strategy in Φ2 state
圖7 Φ2 狀態(tài)下的防御策略演化趨勢(shì)Fig.7 Evolution trend of defense strategy in Φ2 state
圖8 和圖9 分別為Φ3狀態(tài)下攻擊者和NFV 擬態(tài)防御架構(gòu)的策略演化趨勢(shì)圖,由于具體演化趨勢(shì)分析與Φ2狀態(tài)一致,因此本文不再贅述。
圖8 Φ3 狀態(tài)下的攻擊策略演化趨勢(shì)Fig.8 Evolution trend of attack strategy in Φ3 state
圖9 Φ3 狀態(tài)下的防御策略演化趨勢(shì)Fig.9 Evolution trend of defense strategy in Φ3 state
圖10和圖11分別為Φ4狀態(tài)下攻擊者和NFV 擬態(tài)防御架構(gòu)的策略演化趨勢(shì)圖。由圖10可知,在博弈前期,攻擊者利用vul1進(jìn)行攻擊得到的收益較大,因此vul1漏洞的概率逐漸提高。但是當(dāng)圖11中NFV擬態(tài)防御架構(gòu)選擇Φ4狀態(tài)的概率收斂到1時(shí),根據(jù)數(shù)值計(jì)算可知此時(shí)攻擊者利用漏洞vul1和漏洞vul7得到的收益相同且最大,vul1和vul7的選擇概率都在增加,但是由于vul1的整體收益較大,因此vul1的選擇概率增長(zhǎng)更快。最終攻擊者的策略會(huì)收斂到以0.890 7的概率利用vul1漏洞進(jìn)行攻擊,以0.109 3的概率利用vul4漏洞進(jìn)行攻擊。而NFV擬態(tài)防御架構(gòu)為避免攻擊者同時(shí)攻破H1和H4以及調(diào)度操作帶來的開銷,最終會(huì)趨向于保持Φ4狀態(tài)。
圖10 Φ4 狀態(tài)下的攻擊策略演化趨勢(shì)Fig.10 Evolution trend of attack strategy in Φ4 state
圖11 Φ4 狀態(tài)下的防御策略演化趨勢(shì)Fig.11 Evolution trend of defense strategy in Φ4 state
為展現(xiàn)本文提出的調(diào)度策略所帶來的安全收益和防御效能情況,將本文提出的基于演化博弈的調(diào)度策略(EG)與隨機(jī)調(diào)度策略[21](RANDOM)、基于執(zhí)行體異構(gòu)度的調(diào)度策略(HETERO)[6]以及基于Bayesian-Stackelberg 博弈的調(diào)度策略[22](BSG)中攻防雙方的累計(jì)博弈收益和攻擊者累計(jì)攻擊成功的次數(shù)進(jìn)行對(duì)比,如圖12 和圖13 所示。
圖12 攻防累計(jì)收益對(duì)比Fig.12 Comparison of cumulative benefits of offense and defense
圖13 攻擊者累計(jì)攻擊成功次數(shù)Fig.13 Cumulative number of successful attacks by attacker
圖12 為攻防累計(jì)收益對(duì)比圖,其中:實(shí)線表示攻擊者(Att)的累計(jì)收益;虛線表示防御者(Def)的累計(jì)收益。如圖所示,EG 和BSG 都是基于博弈論的調(diào)度策略,NFV 擬態(tài)防御架構(gòu)可以根據(jù)實(shí)際的網(wǎng)絡(luò)攻防環(huán)境找到有針對(duì)性的調(diào)度策略,實(shí)現(xiàn)防御收益的大幅提升,同時(shí)將攻擊者的收益降低到負(fù)值。BSG在基于攻防雙方都是完全理性的前提下,可以在得到更多的防御收益的同時(shí)進(jìn)一步降低攻擊者的收益。EG需要通過不斷學(xué)習(xí)與調(diào)整逐漸找到最佳調(diào)度策略,防御收益相比BSG略低,但更符合實(shí)際網(wǎng)絡(luò)中攻防雙方的認(rèn)知規(guī)律。HETERO 和RANDOM 雖然增加了系統(tǒng)的動(dòng)態(tài)性,但是不具有針對(duì)性,防御收益相對(duì)較低。HETERO是基于執(zhí)行體異構(gòu)度的調(diào)度策略,異構(gòu)度越大的執(zhí)行體調(diào)度上線的概率就越大,一定程度上降低了共模漏洞存在的可能性,因此,HETERO 的防御收益高于RANDOM。
NFV擬態(tài)防御架構(gòu)將靜態(tài)空間的單一確定目標(biāo)攻擊難度增強(qiáng)為動(dòng)態(tài)異構(gòu)空間、多元目標(biāo)協(xié)同一致攻擊難度,難度等級(jí)呈非線性提升,使得攻擊者利用共模漏洞攻擊成功防御系統(tǒng)成為小概率事件。但為便于展示基于演化博弈的調(diào)度策略對(duì)系統(tǒng)防御效能的影響,本文將攻擊者攻擊成功NFV擬態(tài)防御架構(gòu)的條件放寬為利用同一漏洞攻破半數(shù)以上的執(zhí)行體,但不考慮是否輸出相同的錯(cuò)誤結(jié)果,并對(duì)不同調(diào)度策略下攻擊者的累計(jì)攻擊成功次數(shù)進(jìn)行對(duì)比。如圖13 所示,經(jīng)過1 000次仿真后,HETERO 策略下攻擊者的累計(jì)攻擊成功次數(shù)為64 次,RANDOM 策略下攻擊者的累計(jì)攻擊成功次數(shù)為171 次,同時(shí)由于HETERO 和RANDOM沒有充分利用裁決機(jī)制對(duì)異常執(zhí)行體的感知定位功能對(duì)調(diào)度策略進(jìn)行有針對(duì)性的調(diào)整優(yōu)化,因此隨著仿真次數(shù)的增加,攻擊者的累計(jì)攻擊成功次數(shù)會(huì)持續(xù)增長(zhǎng)。EG 相比于HETERO 和RANDOM 提升了NFV 擬態(tài)防御架構(gòu)的安全性,在1 000 次仿真過程中,攻擊者僅在博弈初期攻擊成功了2次,之后通過對(duì)分析器中的反饋信息不斷學(xué)習(xí),優(yōu)化調(diào)度策略,使得累計(jì)攻擊成功次數(shù)維持在該水平不變,有效提高了NFV 擬態(tài)防御架構(gòu)的防御效能。BSG 基于攻防雙方完全理性的前提,在博弈初期就可以找到最優(yōu)調(diào)度策略,避免了攻擊者成功攻擊NFV擬態(tài)防御架構(gòu)的情況,因此,攻擊者的累計(jì)攻擊成功次數(shù)始終為零。需要說明的是,圖13的仿真結(jié)果是基于本文的參數(shù)設(shè)置條件下產(chǎn)生的,而在實(shí)際的網(wǎng)絡(luò)環(huán)境中,異構(gòu)體之間由于組成結(jié)構(gòu)不同,共模漏洞存在概率較低,攻擊者利用共模漏洞攻擊成功的次數(shù)將小于該值。
現(xiàn)有擬態(tài)防御架構(gòu)中的動(dòng)態(tài)調(diào)度策略大多未利用裁決機(jī)制對(duì)異常執(zhí)行體的定位感知能力進(jìn)行優(yōu)化調(diào)整,策略缺乏針對(duì)性和適應(yīng)性。本文在NFV 擬態(tài)防御架構(gòu)中增加一個(gè)分析器,用于對(duì)歷史裁決信息進(jìn)行分析研究。在此基礎(chǔ)上,利用分析器得到的反饋信息和演化博弈理論,從攻防雙方的有限理性出發(fā)構(gòu)建多狀態(tài)動(dòng)態(tài)調(diào)度演化博弈模型,采用復(fù)制動(dòng)態(tài)方程和李雅普諾夫間接法對(duì)攻防雙方的策略演化趨勢(shì)和穩(wěn)定性進(jìn)行分析,提出一種基于演化博弈的最優(yōu)動(dòng)態(tài)調(diào)度策略選取算法。仿真結(jié)果表明,該算法可以根據(jù)擬態(tài)裁決的反饋結(jié)果,通過不斷調(diào)整優(yōu)化選擇出具有針對(duì)性和適應(yīng)性的調(diào)度策略,有效提升NFV 擬態(tài)防御架構(gòu)的安全收益和防御效能。本文對(duì)異構(gòu)體的操作系統(tǒng)層做異構(gòu)化處理,利用操作系統(tǒng)的具體漏洞信息對(duì)基于演化博弈的調(diào)度策略進(jìn)行有效性分析??紤]到網(wǎng)絡(luò)功能異構(gòu)體由三層異構(gòu)元素組成,下一步將對(duì)異構(gòu)體的三層異構(gòu)元素做異構(gòu)化處理,并通過對(duì)漏洞進(jìn)行分類來降低分析復(fù)雜度。