亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于多階段演化信號(hào)博弈模型的移動(dòng)目標(biāo)防御決策算法

2022-09-25 08:42:38畢文婷林海濤張立群

計(jì)算機(jī)應(yīng)用 2022年9期

畢文婷，林海濤，張立群

（海軍工程大學(xué)電子工程學(xué)院，武漢 430033）

0 引言

近年來，隨著人工智能、大數(shù)據(jù)、5G 通信等新興技術(shù)的發(fā)展，互聯(lián)網(wǎng)面臨的威脅日益增加。隨著當(dāng)前生產(chǎn)和生活對(duì)網(wǎng)絡(luò)依賴性的增強(qiáng)，網(wǎng)絡(luò)攻擊的數(shù)量仍在不斷攀升且類型也越來越多樣化［1］。傳統(tǒng)靜態(tài)被動(dòng)防御手段如入侵檢測(cè)系統(tǒng)（Intrusion Detection System，IDS）、入侵防御系統(tǒng)（Intrusion Prevention System，IPS）等在面對(duì)各種潛在不可預(yù)知的攻擊時(shí)略顯不足，因此需要一種能夠?qū)シ佬袨檫M(jìn)行分析且對(duì)防御策略進(jìn)行選取的技術(shù)，從而實(shí)施主動(dòng)防御。

博弈論［2-3］是一種研究在一定的條件和規(guī)則制約下，對(duì)局雙方根據(jù)有限的信息和自身傾向行為進(jìn)行策略選擇的理論方法。攻防雙方依靠所掌握的信息進(jìn)而選取最優(yōu)的攻防策略恰好是網(wǎng)絡(luò)攻防對(duì)抗的思想。因此，網(wǎng)絡(luò)攻防對(duì)抗的本質(zhì)與博弈論特點(diǎn)相吻合，將博弈論思想應(yīng)用到網(wǎng)絡(luò)安全防御中，為網(wǎng)絡(luò)攻防環(huán)境下防御策略選取的安全問題提供了新的思路。

移動(dòng)目標(biāo)防御（Moving Target Defense，MTD）是由美國(guó)國(guó)家科學(xué)技術(shù)委員會(huì)于2011 發(fā)布的《可信網(wǎng)絡(luò)空間：聯(lián)邦網(wǎng)絡(luò)安全研發(fā)戰(zhàn)略規(guī)劃》中作為“改變游戲規(guī)則”的動(dòng)態(tài)主動(dòng)防御技術(shù)提出的［4］。作為一種新的主動(dòng)防御思想，MTD 主要通過部署多樣化的動(dòng)態(tài)機(jī)制和策略，從而降低系統(tǒng)的同構(gòu)性、靜態(tài)性和確定性，使攻擊者的攻擊難度和成本大幅提升，直至放棄攻擊。隨著網(wǎng)絡(luò)攻擊手段越來越復(fù)雜多變，將MTD應(yīng)用于防御策略選擇中對(duì)維護(hù)網(wǎng)絡(luò)空間安全具有重要意義。

近年來，國(guó)內(nèi)外已有學(xué)者開始了相關(guān)技術(shù)研究。Lye等［5］提出了完全信息靜態(tài)博弈模型分析攻擊者和防御者的最優(yōu)策略及納什均衡，但攻防收益函數(shù)量化過于簡(jiǎn)單；林旺群等［6］構(gòu)建了一種完全信息動(dòng)態(tài)博弈主動(dòng)防御模型，并將攻防分析模式由網(wǎng)絡(luò)攻擊圖轉(zhuǎn)換為網(wǎng)絡(luò)博弈樹，但該模型并沒有給出詳細(xì)的策略選取算法；文獻(xiàn)［7］中基于完全信息非合作零和博弈建立了一個(gè)矩陣型攻防博弈模型，并設(shè)計(jì)了相應(yīng)的策略選取算法，但刪掉其靜態(tài)模型的限制不能有效應(yīng)用于動(dòng)態(tài)對(duì)抗場(chǎng)景；王元卓等［8］建立了Petri 網(wǎng)的完全信息博弈模型并進(jìn)行網(wǎng)絡(luò)安全評(píng)估，但由于博弈雙方的收益情況并不是互相透明公開的，所以完全信息假設(shè)前提不滿足實(shí)際網(wǎng)絡(luò)的攻防情況。針對(duì)上述問題，部分學(xué)者開始引入不完全信息博弈理論，例如：Baras 等［9］提出了利用不完全信息的重復(fù)博弈理論尋找非法節(jié)點(diǎn)；王增光等［10］基于軍事信息網(wǎng)絡(luò)背景，提出了不完全信息博弈攻防決策方法；弭乾坤等［11］構(gòu)建了用于網(wǎng)絡(luò)系統(tǒng)風(fēng)險(xiǎn)評(píng)估的不完全信息博弈模型；Lei 等［12］提出了一種基于移動(dòng)目標(biāo)防御的不完全信息攻防Markov 博弈決策模型，通過納什均衡求解實(shí)現(xiàn)最優(yōu)策略抉擇；文獻(xiàn)［22］中利用信號(hào)博弈構(gòu)建了移動(dòng)目標(biāo)防御決策模型，增強(qiáng)了網(wǎng)絡(luò)防御效能。上述研究都是基于攻擊者和防御者都是完全理性的，博弈雙方都知道如何實(shí)現(xiàn)他們的收益最大化，然而在實(shí)際網(wǎng)絡(luò)的攻防行為中，各種其他因素也可能會(huì)影響雙方的決策，因此忽視有限理性可能會(huì)導(dǎo)致攻防行為建模與分析出現(xiàn)偏差，影響最優(yōu)防御策略選擇方法的科學(xué)性和指導(dǎo)性。

綜上所述，博弈論和MTD 在網(wǎng)絡(luò)安全領(lǐng)域的應(yīng)用已經(jīng)初見成效［13-16］，但還缺乏系統(tǒng)化的理論研究方法。為突破這一局限性，本文將MTD 策略與博弈論相結(jié)合，提出一種動(dòng)態(tài)演化信號(hào)博弈模型，以防御方主動(dòng)發(fā)出誘導(dǎo)信號(hào)對(duì)攻擊方進(jìn)行戰(zhàn)略干擾，從而達(dá)到主動(dòng)防御目的。其次，博弈雙方通過學(xué)習(xí)和進(jìn)化機(jī)制進(jìn)行重復(fù)博弈突破了傳統(tǒng)博弈有限理性約束，本文利用復(fù)制動(dòng)態(tài)方程分析多種攻擊方式下攻防雙方策略的演化趨勢(shì)，并貼合網(wǎng)絡(luò)攻防實(shí)際將單階段博弈狀態(tài)拓展至多階段博弈，設(shè)計(jì)了多階段演化信號(hào)博弈模型的移動(dòng)目標(biāo)防御決策算法，為網(wǎng)絡(luò)安全防御決策提供一定指導(dǎo)作用。

1 移動(dòng)目標(biāo)防御原理

MTD 技術(shù)是美國(guó)高度重視的“改變游戲規(guī)則”的網(wǎng)絡(luò)空間革命性技術(shù)之一。與傳統(tǒng)網(wǎng)絡(luò)安全研究思路不同，MTD的思路是通過構(gòu)建動(dòng)態(tài)的、異構(gòu)的、不確定的網(wǎng)絡(luò)以增加攻擊者的攻擊難度及代價(jià)，以這種不斷變化的部署機(jī)制增加了系統(tǒng)的隨機(jī)性，提高了系統(tǒng)彈性，減少了攻擊機(jī)會(huì)。MTD 技術(shù)反映了美軍將靜態(tài)的“死”網(wǎng)絡(luò)改造成變化的“活”網(wǎng)絡(luò)的下一代網(wǎng)絡(luò)安全防御發(fā)展模式，因此MTD 相較于傳統(tǒng)防御技術(shù)的優(yōu)勢(shì)相當(dāng)明顯。

2 多階段演化信號(hào)博弈模型

2.1 博弈順序

初始階段，防御者擁有對(duì)攻擊者類型的先驗(yàn)知識(shí)，防御者先釋放最佳誘導(dǎo)信號(hào)，信號(hào)類型與防御者類型相對(duì)應(yīng)，防御者可以自主選擇發(fā)送真實(shí)正常信號(hào)或虛假信號(hào)，發(fā)送誘導(dǎo)信號(hào)的原理是通過部署蜜罐系統(tǒng)，將服務(wù)方部署成蜜罐和服務(wù)器兩種類型，利用蜜罐發(fā)送虛假信號(hào)對(duì)攻擊者進(jìn)行欺騙，攻擊者根據(jù)掃描收集的網(wǎng)絡(luò)拓?fù)浜头烙降南到y(tǒng)信息（誘導(dǎo)信號(hào)）選擇最佳攻擊策略并實(shí)施，同時(shí)防御者實(shí)施最佳防御策略。博弈流程如圖1 所示。

圖1 博弈流程Fig.1 Flowchart of game

防御者與攻擊者的博弈順序?yàn)椋?/p>

1）“自然”選擇一種防御者類型，防御者主動(dòng)釋放干擾信號(hào)。

2）攻擊者檢測(cè)到防御信號(hào)，并判斷信號(hào)類型。

3）攻擊者結(jié)合擁有的防御者類型先驗(yàn)概念，選擇最優(yōu)攻擊策略，并更新對(duì)防御者類型后驗(yàn)概率判斷。

4）防御者觀察到攻擊行為后，選擇最優(yōu)MTD 策略進(jìn)行防御。

5）循環(huán)以上過程，直至攻擊結(jié)束。

2.2 多階段演化信號(hào)博弈模型定義

定義1多階段演化信號(hào)博弈模型（Muti-Stage Evolutionary Signal Game Model，MSESGM）可以表示為13元組：

1）N={NA，ND}為博弈的參與者集合，其中NA為攻擊者，ND為防御者。

2）T={TA，TD}為博弈的參與者類型集合，其中TA={A1}為攻擊者總體的類型集合，TD={D1，D2，…，Dn}為防御者總體的類型集合，且n∈N+（n≥2），n為防御者類型總數(shù)。

3）λ為段信號(hào)博弈的博弈階段總數(shù)，G(k)當(dāng)前博弈階段為k={1，2，…，λ}。

4）SI={SI1，SI2，…，SIγ}為信號(hào)策略集合，防御方可根據(jù)情況選擇真假信號(hào)發(fā)送，實(shí)現(xiàn)對(duì)攻擊方的誘導(dǎo)作用。

6）Pk={pk(Dj)|j=1，2，…，n}為博弈中攻擊方對(duì)防御方的先驗(yàn)信念集合，其中每一階段的先驗(yàn)概率來自于上一博弈階段的后驗(yàn)概率。

7）={(Dj|SIσ)|j=1，2，…，n；σ=1，2，…，γ}為攻擊方對(duì)防御方的后驗(yàn)信念集合，其中(Dj|SIσ)表示第k階段攻擊方接收到防御方發(fā)送的誘導(dǎo)信號(hào)SIσ時(shí)Dj攻擊方概率的后驗(yàn)判斷。

8）S={S1，S2，…，Sλ}表示各個(gè)子博弈的狀態(tài)集合。

11）ρ(0 ≤ρ≤1)為貼現(xiàn)系數(shù)，表示未來收益較當(dāng)前階段收益的折現(xiàn)比例。

12）μ為狀態(tài)轉(zhuǎn)移概率，μij(Sj|Si)表示系統(tǒng)狀態(tài)從Si到Sj的概率。

2.3 多階段演化信號(hào)博弈模型分析

MTD 技術(shù)通過不斷轉(zhuǎn)移攻擊面從而增加網(wǎng)絡(luò)彈性，使攻擊者無法有效攻擊目標(biāo)資源達(dá)到防御目的。信號(hào)博弈是研究如何利用信號(hào)來干擾對(duì)手判斷從而影響博弈均衡的博弈理論。在多階段進(jìn)化信號(hào)博弈模型中，每一個(gè)博弈階段中博弈系統(tǒng)經(jīng)過動(dòng)態(tài)攻防對(duì)抗達(dá)到博弈穩(wěn)定狀態(tài)，但是網(wǎng)絡(luò)環(huán)境不是一成不變的，隨著系統(tǒng)運(yùn)行環(huán)境及攻擊目的改變等因素，維持現(xiàn)有的防御策略已經(jīng)不能達(dá)到預(yù)期效果，導(dǎo)致穩(wěn)定狀態(tài)打破。此時(shí)，將上一階段后驗(yàn)概率作為下一階段攻擊者類型的先驗(yàn)概率進(jìn)入下一新階段的信號(hào)博弈。經(jīng)過演化達(dá)到穩(wěn)定狀態(tài)后，根據(jù)穩(wěn)定數(shù)值利用貝葉斯法則求解后驗(yàn)概率：若新階段先驗(yàn)概率與后驗(yàn)概率一致則求得的穩(wěn)定狀態(tài)才是有效的；否則先驗(yàn)概率是不準(zhǔn)確的，會(huì)造成結(jié)果誤差，故需調(diào)整先驗(yàn)概率。本文引入馬爾可夫決策過程（Markov Decision Process，MDP），利用不同階段網(wǎng)絡(luò)狀態(tài)的隨機(jī)跳變，構(gòu)建了多階段演化信號(hào)博弈模型對(duì)MTD 攻防行為和防御決策進(jìn)行分析。

2.4 收益量化

攻防雙方的收益量化是決策算法中最關(guān)鍵的部分。量化方法越貼近真實(shí)攻防場(chǎng)景對(duì)防御決策的指導(dǎo)性越高，但目前學(xué)術(shù)界并未對(duì)攻防收益量化進(jìn)行統(tǒng)一化標(biāo)準(zhǔn)制定。

網(wǎng)絡(luò)攻擊的目的就是對(duì)目標(biāo)網(wǎng)絡(luò)造成破壞甚至摧毀，使正常的目標(biāo)環(huán)境網(wǎng)絡(luò)無法工作。網(wǎng)絡(luò)安全則要保障目標(biāo)網(wǎng)絡(luò)的保密性、完整性、可用性和可靠性。參考文獻(xiàn)［17］，本文量化定義如下：

定義2攻擊成本（Attack Cost，AC）：指發(fā)起攻擊行為所付出的代價(jià)，包括信息搜集、軟硬件資源和操作成本等。

定義3攻擊收益（Attack Earnings，AE）：指攻擊成功時(shí)，攻擊方獲得的好處。攻擊收益由直接收益和間接收益兩部分組成：直接受益指對(duì)目標(biāo)網(wǎng)絡(luò)系統(tǒng)的安全屬性造成破壞獲得的直接回報(bào)；間接收益指對(duì)發(fā)起下一步攻擊目標(biāo)獲得的間接經(jīng)驗(yàn)回報(bào)。

定義4誘導(dǎo)信號(hào)成本（Signal Cost，SC）：指防御方發(fā)送誘導(dǎo)信號(hào)迷惑攻擊方所付出的代價(jià)。

定義5防御成本（Defense Cost，DC）：指防御方實(shí)行防御行動(dòng)進(jìn)行資源保護(hù)所付出的代價(jià)。

定義6防御收益（Defense Earnings，DE）：指保障目標(biāo)網(wǎng)絡(luò)的安全屬性的價(jià)值獲得的回報(bào)。攻擊收益由直接收益和間接收益兩部分組成。直接收益指防御方成功保護(hù)網(wǎng)絡(luò)資源避免的損失，間接收益指在攻防對(duì)抗中獲得攻擊方的相關(guān)知識(shí)提高防御成功率的間接收益。

定義7系統(tǒng)損失（System Damage Cost，SYC）：指攻擊行為對(duì)目標(biāo)網(wǎng)絡(luò)系統(tǒng)造成的損失。攻擊的目標(biāo)資產(chǎn)損失可以用攻擊致命度（Attack Lethality，AL）、危險(xiǎn)度（Criticality）、安全屬性損害（Safety Damage Cost，SDC）來描述。本文采取DMAT（Defense-oriented Multidimensional Attack Taxonmoy）方法以攻擊目的分類賦予致命度數(shù)值，如表1 所示，攻擊致命度越高，資產(chǎn)受到攻擊時(shí)系統(tǒng)損失也越大。安全屬性損害由資產(chǎn)完整性、機(jī)密性和可用性3 個(gè)因素量化。

表1 攻擊致命度Tab.1 Attack lethality

綜上所述，系統(tǒng)損失計(jì)算方法如下：

其中：i表示主機(jī)編號(hào)，m表示受攻擊主機(jī)個(gè)數(shù)。

表2 符號(hào)及其含義Tab.2 Symbols and their meanings

基于上述定義，攻擊者在攻防博弈中的攻擊收益為：

則在攻防博弈中的攻擊收益為：

2.5 均衡求解

由于網(wǎng)絡(luò)攻防對(duì)抗過程中存在信號(hào)衰減等一系列噪聲影響，下一階段收益也會(huì)相應(yīng)衰減。故本文引入貼現(xiàn)預(yù)期收益準(zhǔn)則函數(shù)來獲取實(shí)際收益值，即：

引入復(fù)制動(dòng)態(tài)方程求解多階段博弈均衡：

1）防御者釋放誘導(dǎo)信號(hào)，攻擊方選取最優(yōu)攻擊策略。

第k階段防御方發(fā)送的誘導(dǎo)信號(hào)為SIσ時(shí)，攻擊收益(SIσ)：

則k階段期望收益為：

構(gòu)建復(fù)制動(dòng)態(tài)方程：

得到k階段不同誘導(dǎo)信號(hào)下的最優(yōu)攻擊策略概率分布(AS)。

2）判斷攻擊方選擇的最佳攻擊策略，防御方選取最優(yōu)誘導(dǎo)信號(hào)。

第k階段防御類型為Dj時(shí)，防御收益：

則期望防御收益為：

構(gòu)建復(fù)制動(dòng)態(tài)方程：

得到k階段不同防御方的最優(yōu)誘導(dǎo)信號(hào)防御策略概率分布(SI)。

3）根據(jù)上述所求均衡解及貝葉斯法則求解對(duì)防御方判斷的后驗(yàn)概率：

3 算法分析

算法1 基于多階段演化信號(hào)博弈模型的移動(dòng)目標(biāo)防御決策算法。

輸入多階段馬爾可夫進(jìn)化信號(hào)博弈模型（MSESGM）參數(shù)。

輸出(SI)。

分析上述過程發(fā)現(xiàn)，步驟7）、9）和10）體現(xiàn)了算法時(shí)間復(fù)雜度。步驟7）主要是收益量化值的計(jì)算，此過程的時(shí)間復(fù)雜度為O(λ)；在步驟9）、10）的納什均衡求解上，整個(gè)算法的時(shí)間復(fù)雜度為O(λ(γ+n))。收益量化值和均衡計(jì)算的中間值是整個(gè)算法的主要存儲(chǔ)對(duì)象，收益值的存儲(chǔ)量占比是最大的，總共包含了數(shù)量為λ(γ+n)的存儲(chǔ)單元，因此，此算法的空間復(fù)雜度為O(λγn)。將本文算法與其他算法進(jìn)行比較，結(jié)果如表3 所示。

表3 不同算法的博弈屬性比較Tab.3 Game properties comparison of different algorithms

4 實(shí)驗(yàn)仿真及分析

4.1 網(wǎng)絡(luò)攻防仿真

通過構(gòu)建一個(gè)簡(jiǎn)單的信息網(wǎng)絡(luò)系統(tǒng)進(jìn)行仿真實(shí)驗(yàn)來驗(yàn)證本文算法的可行性。網(wǎng)絡(luò)系統(tǒng)的拓?fù)淙鐖D2 所示。本系統(tǒng)主要由安全防御設(shè)備、Web 服務(wù)器、FTP（File Transfer Protocol）服務(wù)器、應(yīng)用服務(wù)器、數(shù)據(jù)庫(kù)服務(wù)器、文件服務(wù)器、堡壘機(jī)等構(gòu)成，并通過防火墻進(jìn)行隔離，外來主機(jī)只能訪問隔離區(qū)域，無法對(duì)內(nèi)部網(wǎng)絡(luò)進(jìn)行訪問，隔離區(qū)服務(wù)器可以訪問內(nèi)部網(wǎng)絡(luò)節(jié)點(diǎn)，且內(nèi)部網(wǎng)絡(luò)節(jié)點(diǎn)可以相互訪問，因此，攻擊者只能通過攻擊隔離區(qū)域Web 服務(wù)器獲取權(quán)限，進(jìn)行多步攻擊，完成破壞數(shù)據(jù)庫(kù)服務(wù)器的目的。

圖2 仿真實(shí)驗(yàn)拓?fù)銯ig.2 Simulation experiment topology

本實(shí)驗(yàn)以S={S1，S2，…，S5}表示每個(gè)子博弈的穩(wěn)定狀態(tài)集合，其中：S1表示攻擊者成功入侵安全防御設(shè)備并獲取root 權(quán)限的狀態(tài)；S2表示攻擊者利用Web 服務(wù)器的漏洞并獲取其root 權(quán)限的狀態(tài)；S3表示攻擊者利用Web 服務(wù)器訪問并獲取應(yīng)用服務(wù)器控制權(quán)限狀態(tài)；S4表示攻擊者利用FTP 服務(wù)器漏洞并獲得其root 權(quán)限狀態(tài)；S5表示攻擊者利用數(shù)據(jù)庫(kù)服務(wù)器的漏洞對(duì)數(shù)據(jù)庫(kù)服務(wù)器進(jìn)行攻擊破壞，使系統(tǒng)無法向客戶端提供服務(wù)。

通過漏洞掃描器Nessus 對(duì)實(shí)驗(yàn)系統(tǒng)進(jìn)行掃描，對(duì)獲得的漏洞數(shù)據(jù)、路由配置信息進(jìn)行分析后，查詢國(guó)家信息安全漏洞庫(kù)（http：//www.cnnvd.org.cn）有關(guān)數(shù)據(jù)，將防御者劃分為高低（{D1，D2}）兩種類型，防御信號(hào)劃分為（{SI1，SI2，SI3}）。參照美國(guó)麻省理工學(xué)院林肯實(shí)驗(yàn)室對(duì)網(wǎng)絡(luò)攻防的分類以及相關(guān)歷史數(shù)據(jù)［22］，結(jié)合本文定義的收益量化方法，本次實(shí)驗(yàn)選取的攻擊策略和防御策略如表4、5 所示。狀態(tài)轉(zhuǎn)移概率如表6 所示。

表4 攻擊策略集合Tab.4 Attack strategy set

表5 防御策略集合Tab.5 Defense strategy set

表6 各階段狀態(tài)轉(zhuǎn)移概率Tab.6 State transition probability of each stage

各階段攻防策略如表7 所示。根據(jù)本文收益量化方法及均衡求解方法，可獲得表8 所示各階段攻防收益矩陣，及表9 所示各階段攻防均衡值。

表7 各階段攻防策略Tab.7 Attack and defense strategies of each stage

表8 各階段攻防收益矩陣Tab.8 Attack and defense benefit matrices of each stage

表9 各階段攻防均衡值Tab.9 Attack and defense equilibrium values of each stage

4.2 均衡求解與分析

分析本文模型的博弈均衡和收益，以損壞數(shù)據(jù)庫(kù)服務(wù)器資料為攻擊目標(biāo)，通過Matlab2016b 工具實(shí)現(xiàn)MTD 決策算法，分析圖3～7 的仿真數(shù)據(jù)和圖像可知，攻擊者的攻擊路徑有如下兩條：

圖3 第一階段攻防演化軌跡Fig.3 First stage attack and defense evolutionary trajectori es

路徑1 安全防御設(shè)備-Web 服務(wù)器-應(yīng)用服務(wù)器-文件服務(wù)器-數(shù)據(jù)庫(kù)服務(wù)器。

路徑2 安全防御設(shè)備-Web 服務(wù)器-應(yīng)用服務(wù)器-數(shù)據(jù)庫(kù)服務(wù)器。

在博弈的第一個(gè)階段，隨著攻防雙方的博弈演化，當(dāng)防御者采取高級(jí)防御策略時(shí)，釋放高級(jí)防御信號(hào)迷惑攻擊方，且攻擊者采取攻擊策略AS1時(shí)，該結(jié)果為一個(gè)分離均衡，平均防御收益為3 224；當(dāng)防御者采取低級(jí)防御策略時(shí)，釋放低級(jí)防御信號(hào)迷惑攻擊方，且攻擊者采取攻擊策略AS2時(shí)，該結(jié)果為另一個(gè)分離均衡，平均防御收益為2 099。比較收益值，故本階段的最優(yōu)防御策略是防御者采取高級(jí)MTD 防御策略并釋放高級(jí)防御信號(hào)。

攻擊者成功入侵安全防御設(shè)備并獲取root 權(quán)限后攻防進(jìn)入第二階段，當(dāng)防御者采取高級(jí)防御策略時(shí)，釋放高級(jí)防御信號(hào)迷惑攻擊方，且攻擊者采取攻擊策略AS1時(shí)，該結(jié)果為一個(gè)分離均衡，平均防御收益為5 908；當(dāng)防御者采取低級(jí)防御策略時(shí)，釋放低級(jí)防御信號(hào)迷惑攻擊方，且攻擊者采取攻擊策略AS2時(shí)，該結(jié)果為另一個(gè)分離均衡，平均防御收益為4 898。比較收益值，故本階段的最優(yōu)防御策略是防御者采取高級(jí)防御策略并釋放高級(jí)防御信號(hào)。

圖4 第二階段攻防演化軌跡Fig.4 Second stage attack and defense evolutionary trajectories

圖5 第三階段攻防演化軌跡Fig.5 Third stage attack and defense evolutionary trajectories

攻擊者利用Web 服務(wù)器的漏洞并獲取其root 權(quán)限后進(jìn)入第三階段應(yīng)用服務(wù)器和第四階段FTP 服務(wù)器權(quán)限奪取攻防狀態(tài)，此時(shí)分離均衡都為防御者采取高級(jí)防御策略時(shí)，釋放高級(jí)防御信號(hào)，攻擊者采取攻擊策略AS2；以及防御者采取低級(jí)防御策略時(shí)，利用蜜罐改變攻擊面呈現(xiàn)信息，釋放高級(jí)防御信號(hào)對(duì)攻擊者進(jìn)行迷惑，且攻擊者采取攻擊策略AS2。比較收益值，三、四階段的最優(yōu)防御策略分別為防御者采取高級(jí)防御策略并釋放高級(jí)防御信號(hào)和防御者采取低級(jí)防御策略并釋放高級(jí)防御信號(hào)，且平均防御收益分別為3 598 和4 063。

圖6 第四階段攻防演化軌跡Fig.6 Fourth stage attack and defense evolutionary trajectories

當(dāng)攻防對(duì)抗進(jìn)行到第五階段保護(hù)數(shù)據(jù)庫(kù)服務(wù)器時(shí)，從仿真圖中分析得出，分離均衡分別為當(dāng)防御者采取高級(jí)防御策略時(shí)，釋放高級(jí)防御信號(hào)迷惑攻擊方，且攻擊者采取攻擊策略AS1，平均防御收益為4 514；當(dāng)防御者采取低級(jí)防御策略時(shí)，釋放高級(jí)防御信號(hào)迷惑攻擊方，且攻擊者采取攻擊策略AS1，平均防御收益為4 448。比較收益值，故本階段的最優(yōu)防御策略是防御者采取高級(jí)防御策略并釋放高級(jí)防御信號(hào)。

圖7 第五階段攻防演化軌跡Fig.7 Fifth stage attack and defense evolutionary trajectories

通過以上防御收益的累計(jì)，可以看出路徑1 的總防御收益大于路徑2 的防御總收益，因此路徑1 攻防過程更加滿足防御需求。通過對(duì)兩條攻擊鏈特點(diǎn)分析，為降低攻擊鏈2 形成的概率，因此需要降低狀態(tài)3 跳變到狀態(tài)5 的概率。分析狀態(tài)3 的攻防策略，通過本文算法可得出S3的最優(yōu)攻擊策略為Steal account and crack it，因此防御者可以重點(diǎn)針對(duì)這一攻擊進(jìn)行移動(dòng)目標(biāo)防御，降低μ35(S5|S3)的值，從而達(dá)到最優(yōu)防御效果。

4.3 結(jié)果分析

通過100 次蒙特卡洛仿真實(shí)驗(yàn)，將使用多階段進(jìn)化信號(hào)博弈最優(yōu)策略選取算法（MSESGM）和傳統(tǒng)隨機(jī)均勻策略選擇算法進(jìn)行累積收益以及對(duì)比來驗(yàn)證本文算法的有效性。實(shí)驗(yàn)結(jié)果如圖8 所示。

圖8 不同策略收益比較Fig.8 Comparison of benefit between different strategies

由仿真圖中可以看出隨機(jī)均勻策略選擇的累計(jì)收益不高且增長(zhǎng)緩慢，而多階段演化信號(hào)博弈最優(yōu)策略的累計(jì)收益卻穩(wěn)定大幅上升。因?yàn)殡S機(jī)均勻選擇策略不考慮攻防情況及收益量化，以同等概率無差別地隨機(jī)選取防御策略，反而會(huì)造成大量的防御成本和資源浪費(fèi)。本文模型采取多階段演化信號(hào)博弈策略，將上一階段的后驗(yàn)，在修正的基礎(chǔ)上，作為下一階段的先驗(yàn)概率，提高了對(duì)防御者類型分布的準(zhǔn)確度，并通過主動(dòng)釋放干擾信號(hào)對(duì)外進(jìn)行戰(zhàn)術(shù)欺騙，對(duì)內(nèi)采取針對(duì)性防御策略，不僅提高了防御模型的有效性和安全性，也使得防御資源得到最大限度的利用。

5 結(jié)語

網(wǎng)絡(luò)安全攻防對(duì)抗的策略選取問題一直是研究的熱點(diǎn)。本文基于多階段演化信號(hào)博弈模型研究了MTD 策略選取決策算法。本文研究的主要工作有：1）提出演化信號(hào)博弈方法，通過生物進(jìn)化理論研究攻防對(duì)抗趨勢(shì)，更貼近實(shí)際網(wǎng)絡(luò)情況；2）將移動(dòng)目標(biāo)防御技術(shù)作為防御策略，大幅提高了防御者的主動(dòng)性及防御性能；3）考慮實(shí)際攻防多回合狀況，將博弈狀態(tài)從單階段擴(kuò)展至多階段，并給出了詳細(xì)的收益量化指標(biāo)，使得模型具有良好的通用性，改變了網(wǎng)絡(luò)防御的被動(dòng)地位，以此提高系統(tǒng)安全性。下一階段的工作任務(wù)則是進(jìn)一步優(yōu)化算法，使本文模型能夠應(yīng)用于多種新型和復(fù)雜的網(wǎng)絡(luò)環(huán)境中。