亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

移動目標(biāo)信號博弈的防御最優(yōu)策略選取*

2020-09-13 13:53:30姬偉峰

計算機與生活 2020年9期

關(guān)鍵詞：信號策略模型

孫巖，姬偉峰，翁江

1.空軍工程大學(xué)研究生院，西安 710177

2.空軍工程大學(xué)信息與導(dǎo)航學(xué)院，西安 710177

1 引言

日益嚴重的信息安全事件對網(wǎng)絡(luò)空間造成巨大威脅[1]，防火墻、入侵檢測、身份認證、防毒軟件和漏洞修補等安全反應(yīng)措施屬于堡壘式的剛性防御體系。這種基于先驗知識的靜態(tài)被動防御體系難以應(yīng)對未知攻擊，導(dǎo)致了防御者在網(wǎng)絡(luò)空間對抗中長期處于劣勢地位，形成了“小攻大防，一點攻全局防”的不對稱局面[2]。美國科學(xué)技術(shù)委員會提出了移動目標(biāo)防御技術(shù)(moving target defense，MTD)，該技術(shù)是改變攻擊和防御不對稱狀態(tài)的新方法，目的在于提高信息系統(tǒng)多樣性、動態(tài)性和隨機性的特征，增大攻擊成本，提高抗攻擊能力。

但濫用MTD技術(shù)并不一定會提高防御能力，反而可能會增大防御成本、降低系統(tǒng)利用效率。如在網(wǎng)絡(luò)交換服務(wù)中，隨意更改連接方式會導(dǎo)致用戶無法訪問服務(wù)器。因此如何實施合理MTD策略，在攻擊者不斷更新攻擊策略時，最大化防御收益是目前研究的熱點。

博弈論已經(jīng)被證明可以在經(jīng)濟學(xué)、生物學(xué)和其他領(lǐng)域做出非常有效的重要決策，它是研究各博弈方競爭對抗的策略選擇理論[3-4]。網(wǎng)絡(luò)空間對抗所展現(xiàn)出來的目標(biāo)獨立性、策略依存性和非合作性與非合作博弈的特征基本一致。本文以信號博弈模型為基礎(chǔ)框架，描述網(wǎng)絡(luò)攻防之間的博弈關(guān)系。

在基于博弈論的網(wǎng)絡(luò)防御策略選取研究中，構(gòu)建模型需要關(guān)注四個關(guān)鍵問題：博弈雙方是否可以異步（動態(tài)）行動；博弈信息是否完全；博弈階段是否單一；博弈雙方收益量化方式是否具有代表性。

文獻[5]采用完全信息靜態(tài)博弈模型進行研究，定義了攻擊面概念，量化轉(zhuǎn)移攻擊面的收益與成本，對系統(tǒng)安全性與可用性之間的均衡策略選取進行研究。但其規(guī)定攻防雙方必須同步行動，即靜態(tài)博弈性與實際網(wǎng)絡(luò)空間攻防狀況不符。文獻[6]與文獻[7]引入完全信息動態(tài)博弈理論。文獻[6]構(gòu)建隨機博弈模型展開網(wǎng)絡(luò)攻擊研究。文獻[7]利用攻擊圖構(gòu)建二人零和Markov博弈模型，通過監(jiān)控云網(wǎng)絡(luò)中的攻擊流量，識別攻擊者最優(yōu)攻擊策略，設(shè)置相應(yīng)對策以強迫攻擊者選擇次優(yōu)策略。但現(xiàn)實網(wǎng)絡(luò)攻防雙方的關(guān)系對立，攻擊者與防御者都會阻止對方進一步獲取自身信息，因此文獻[5-7]中完全信息博弈模型的現(xiàn)實應(yīng)用價值不高。

為避免上述靜態(tài)性和完全信息性的限制，部分文獻以不完全信息動態(tài)博弈為研究基礎(chǔ)。文獻[8]提出MP2R防御模型，直觀描述防御者與合法用戶或攻擊者之間的交互過程，分析其均衡條件，設(shè)計一種網(wǎng)絡(luò)安全防御機制，但僅體現(xiàn)在理論層面，未能與真實網(wǎng)絡(luò)環(huán)境相結(jié)合，應(yīng)用性較弱。

在現(xiàn)實網(wǎng)絡(luò)對抗環(huán)境中，大部分網(wǎng)絡(luò)攻防都屬于一種“‘明’防‘暗’攻”的情況。防御者一般難以獲取相關(guān)攻擊者信息。一般情況下，防御者對信息服務(wù)、商業(yè)利益等需要的客觀因素使得攻擊者可以通過公共平臺收集防御者相關(guān)信息，例如防御等級、防御技術(shù)、防御設(shè)備。攻擊者通過分析防御者相關(guān)信息，進而決定是否攻擊，采用何種方式攻擊。這種情況也使得被動防御難以招架各種攻擊手段。為解決上述問題，文獻[9]以防御者為發(fā)信者，提出防御偽裝思想，利用防御者的公開信息干擾攻擊者的正常判斷。但局限于單階段網(wǎng)絡(luò)對抗分析，即攻防雙方的策略選擇行為只進行一個回合。

由于實際網(wǎng)絡(luò)的攻防對抗往往持續(xù)多個過程，且前一階段往往影響后一階段的攻防行為策略選取。文獻[10]從攻擊面轉(zhuǎn)移角度出發(fā)，以MTD策略動態(tài)性和多樣性特征為基礎(chǔ)對單階段與多階段攻防收益進行分析，但在攻防博弈行動順序選擇上，沒有避免“‘明’防‘暗’攻”的劣勢局面。文獻[11]在文獻[9]的基礎(chǔ)上將單階段博弈擴展為多階段博弈，但文獻[9,11]中的最優(yōu)策略選取方法從嚴格意義上來說是最優(yōu)偽裝信號策略選取，對于可以抵御攻擊的真實防御策略而言，采用等概率選擇防御策略機制，這難以最大化防御效用。

除以上分析之外，最優(yōu)防御策略的選取基礎(chǔ)還取決于攻防策略收益量化。合理、全面的量化可以進一步提高防御效用。文獻[12-13]在分析總結(jié)不同攻防策略分類的基礎(chǔ)上，提出了成本、收益量化方法，文獻[9,11]在此基礎(chǔ)上對偽裝信號進一步進行量化。上述量化方法均建立在防御系統(tǒng)屬于完美系統(tǒng)，防御系統(tǒng)本身不會出現(xiàn)任何漏洞、缺陷和故障等。但現(xiàn)實情況中，以入侵檢測系統(tǒng)為例，防御系統(tǒng)本身無法避免錯檢、漏檢的情況發(fā)生。因此完美防御系統(tǒng)下的收益量化方式與現(xiàn)實場景仍然具有一定差距。

通過以上分析可知，現(xiàn)有的基于博弈論的最優(yōu)MTD策略選取研究存在以下問題：

（1）攻防雙方的完全信息性和行動同步性的假設(shè)與實際網(wǎng)絡(luò)對抗特征不符；

（2）博弈模型中，防御者的主動性不明顯，難以改善“‘明’防‘暗’攻”的防御劣勢地位；

（3）局限于單階段攻防分析，無法表現(xiàn)網(wǎng)絡(luò)攻防中的多階段性特點；

（4）基于完美防御系統(tǒng)的攻防收益量化分析方式容錯性較低。

為解決以上存在的問題，根據(jù)信號博弈基本理論[14-15]，本研究采用以防御者作為發(fā)信者，攻擊者為收信者的行為模式。利用攻擊者通過探測行為獲取防御情況的方式，防御者發(fā)送誘導(dǎo)信號干擾攻擊者。在此基礎(chǔ)上，考慮防御入侵檢測系統(tǒng)存在錯檢情況的不完美性，提出移動目標(biāo)信號博弈防御模型（moving target signal game defense model，MTSGDM）。隨著網(wǎng)絡(luò)對抗的進行，雙方愈加了解對手信念，進而不斷調(diào)整自身行為，最后在精煉貝葉斯均衡求解算法的基礎(chǔ)上，提出移動目標(biāo)防御最優(yōu)策略選取應(yīng)為最優(yōu)誘導(dǎo)信號策略與最優(yōu)防御策略的組合策略，并給出組合策略選取算法。

2 MTSGDM博弈模型

2.1 MTSGDM博弈模型定義

定義1移動目標(biāo)信號博弈的防御模型MTSGDM可以表示為九元組：

N={NA,ND}為博弈人空間，NA為攻擊者，ND為防御者。還有虛擬參與人“自然”。

Θ={ΘA,ΘD}為博弈人NA、ND的類型空間，其中ΘA={θA}，表示攻擊者只有一種類型；ΘD={θi|i=1,2,…,n}，n≥1，n∈N+（以下n均具有該屬性）表示防御者的若干類型，且每種類型的防御能力不同。

S={A,D} 是攻防策略空間，A={ax|x=1,2,…,}n和D={dy|y=1,2,…,}n分別表示攻擊策略和防御策略。一般攻擊者會將攻擊策略組合以進行攻擊行為，Ax表示攻擊者的組合策略，包括ax的一種或幾種。

IS(inducing signal)表示防御誘導(dǎo)信號。IS={isj|j=1,2,…,n}，表示防御者釋放的誘導(dǎo)信號策略。

P為攻擊者先驗信念集合，表示攻擊者對防御者類型的初始判斷，其中：

為攻擊者后驗信念集合，表示攻擊者觀察到誘導(dǎo)信號后，使用貝葉斯法則調(diào)整對防御者類型的判斷。為簡化表示，令

U=(UA,UD)是攻擊者與防御者的收益函數(shù)。

Tt是多階段博弈的階段數(shù)，Tt={Tt|t=1,2,…,n}。

HPS(historical policy set of IS)表示防御者歷史誘導(dǎo)信號策略集合。根據(jù)貝葉斯法則，攻擊者可以通過Tt-1階段博弈更新Tt階段對防御者類型的推斷。HPS={his(Tt)|t=1,2,…,n}，his(Tt)表示防御者在Tt階段之前的歷史誘導(dǎo)信號策略。

2.2 攻防收益量化

對于引言部分關(guān)于量化方式的分析，本文在前人基礎(chǔ)上做出改進，采用以下量化方式。

定義2防御策略有效函數(shù)ε(ax,dy)。表示應(yīng)對攻擊ax采取策略dy的有效性，簡記為εxy。成功阻止攻擊時ε(ax,dy)=1，無效時ε(ax,dy)=0。

定義3攻擊成本CA(attack cost)，指攻擊者發(fā)動攻擊a需要的成本。防御成本CD(defense cost)，指防御者采取防御動作d所需要的成本，CD一般由防御策略的操作成本CO(d)和負面成本CN(d)構(gòu)成。系統(tǒng)損失成本SDC(ax,dy)(system damage cost)，表示防御策略dy無法阻止攻擊策略ax時對系統(tǒng)產(chǎn)生的損失。系統(tǒng)防護收益SPB(ax,dy)（system protection benefits），表示防御策略dy能夠阻止攻擊策略ax時，系統(tǒng)所保護的資源。SDC(ax,dy)、SPB(ax,dy)通常由目標(biāo)資源重要程度C(criticality)、攻擊致命度AL(attacklethality)、安全屬性損害SAD(security attribute damage)和防御策略有效函數(shù)εxy表示。

定義4相對防御收益RDG（relative defense gain）。

表示在防御者θi發(fā)送誘導(dǎo)信號isj，攻防策略分別為ax、dy時攻擊成本與防御成本的差值。

定義5誘導(dǎo)信號成本CIS（cost of induced signal）表示防御方釋放誘導(dǎo)信號所耗費的成本。若信號類型與真實的防御類型一致，則CIS=0。通過真實的防御者等級與誘導(dǎo)信號等級之間的差距對CIS進行相對量化。

定義6誘導(dǎo)信號分析成本CAIS（cost of analysis induced signal）。攻擊者觀測到誘導(dǎo)信號后，對誘導(dǎo)信號的類型進行分析所消耗的資源成本。

定義7錯檢率Red（error detection rate）。防御者的入侵檢測系統(tǒng)無法避免存在錯檢、漏檢情況，本文暫考慮僅存在錯檢情況。Red(ax→ax′)表示為將ax錯檢成ax'的概率，簡記為rxx'，其中1 ≤x≤n,1 ≤x'≤n。當(dāng)x≠x'時，表示發(fā)生錯檢情況；當(dāng)x=x'時，表示沒有發(fā)生錯檢情況。根據(jù)定義得到以下錯檢概率矩陣M(rxx')。

定義8錯檢損失函數(shù)λ（error checking loss cost function）表示未發(fā)生錯檢情況下最優(yōu)防御策略收益與發(fā)生錯檢情況下最優(yōu)防御策略收益差值。防御者選擇的防御策略分為兩種類型，即dy=表示不發(fā)生錯檢情況時，類型為θi的防御者發(fā)送誘導(dǎo)信號isj，攻擊者發(fā)出策略ax，防御者所選取防御收益最大的防御策略，即最優(yōu)防御策略。表示防御者對于攻擊者發(fā)出攻擊策略a-x（除ax以外的其余某種攻擊策略）的最優(yōu)防御策略。其中y滿足條件：

可見在該量化方式下，當(dāng)攻擊策略ax確定時，隨之確定。但當(dāng)發(fā)生錯檢情況時，防御者將ax誤認為a-x，此時防御者選擇防御策略而不是（不考慮針對一種攻擊策略下存在兩種防御策略收益相同的情況）。

定義9錯檢損失代價Cλ（cost of error detection loss）是防御者錯檢時帶來的損失代價。即當(dāng)真實攻擊策略ax被誤判為a-x所帶來的全部錯檢可能情況下的損失代價。

攻擊收益的計算公式為：

防御收益計算公式為：

2.3 MTSGDM模型特點分析

（1）更加符合網(wǎng)絡(luò)攻防的現(xiàn)實環(huán)境。充分考慮攻防信息不完全性、攻防行為異步性、攻防多回合性的特征。

（2）提升防御者主動地位。以防御者作為發(fā)信者，改變了傳統(tǒng)網(wǎng)絡(luò)攻防中防御者的被動局面。

（3）攻防策略收益量化更加合理、全面。以網(wǎng)絡(luò)安全目的為出發(fā)點，引入誘導(dǎo)信號量化和考慮入侵檢測系統(tǒng)可能會發(fā)生錯檢的情況，對攻防收益進行分析。

（4）博弈模型的通用性更好。該模型中的類型集合和策略集合均可以擴展至n。

3 均衡求解及選取最優(yōu)防御組合策略

3.1 MTSGDM模型博弈順序

MTSGDM博弈模型流程如圖1所示：初始階段，“自然”按照一定概率從防御者ND的類型空間ΘD中選擇一個類型θi。防御者無法明確θi的情況下?lián)碛袑Ψ烙哳愋偷南闰炐拍睢?/p>

防御者依據(jù)自身類型θi，選擇釋放誘導(dǎo)信號isj以干擾攻擊者對防御者類型的后驗推斷。

攻擊者觀測到信號isj后，選擇攻擊策略組合Ax，并更新對防御者類型的后驗概率推斷。防御者觀測到Ax，實施最優(yōu)防御策略。

攻擊者將更新的后驗信念作為下一階段對防御者類型的先驗推斷。

一直循環(huán)以上過程，直至以下三種情況結(jié)束攻防：攻擊者主動放棄攻擊；攻擊者成功獲取防御者重要數(shù)據(jù)，對防御者造成損失；防御者成功防御全部攻擊行為。

Fig.1 MTSGDM flow圖1 MTSGDM流程

3.2 MTSGDM博弈模型精煉貝葉斯均衡求解

攻擊者選擇攻擊策略前觀察到防御者的誘導(dǎo)信號策略，應(yīng)該更新對防御類型θi的信念，并且根據(jù)ΘD上的后驗概率選擇攻擊策略Ax。在精煉貝葉斯均衡中，防御者的誘導(dǎo)信號策略如何選取取決于其類型，用is*(isj|θ)表示。攻擊者明確is*(isj|θ)并觀察到isj后，用貝葉斯法則將p(θi) 更新到，并要求對每一個isj，攻擊者都要在isj的條件下最大化攻擊收益。

式（11）指防御者選擇最優(yōu)防御策略。

式（12）、式（13）為該博弈模型的完美性條件。式（12）指攻擊者得出關(guān)于θi的后驗信念時，做出的最優(yōu)攻擊策略；式（13）表示考慮isj對攻擊者行動的影響后，防御者選擇的最優(yōu)誘導(dǎo)信號策略。

式（14）是運用貝葉斯法則得到后驗信念的過程。

3.3 多階段博弈貝葉斯均衡求解

為簡化起見，考慮攻防雙方多階段移動目標(biāo)防御中不存在收益的折扣現(xiàn)象，即在Tt和Tt-1階段博弈具有相同的收益。博弈階段次數(shù)由攻防雙方?jīng)Q定。

根據(jù)貝葉斯法則，攻擊者可以通過Tt-1階段博弈更新Tt階段博弈對防御者類型的判斷，即攻擊者會為了修正對防御者類型的判斷，將Tt-1階段攻擊者對θi的后驗信念作為Tt階段的先驗判斷。isj(Tt)為防御者在Tt階段的誘導(dǎo)信號策略。

修正先驗判斷后，每個階段的貝葉斯均衡求解過程與3.1節(jié)中單階段求解過程相同。

MTSGDM均衡求解過程：

（2）攻擊者建立先驗概念推斷p(θi)；

（3）防御者選擇最優(yōu)釋放誘導(dǎo)信號策略is*(isj|θi)；

（5）利用精煉貝葉斯均衡{is*(isj,θi),a*(ax|isj)}，求出

依據(jù)前文分析，給出該模型最優(yōu)策略選取算法。

Input:MTSGDM

Output:各階段最優(yōu)誘導(dǎo)信號策略以及最優(yōu)防御策略的選擇

本文給出的方法與其他文獻進行比較，結(jié)果如表1所示。

Table 1 Comparison results of different methods表1 不同方法比較結(jié)果

4 實驗仿真與結(jié)果分析

4.1 實驗環(huán)境描述

攻擊者通過多種攻擊手段破壞目標(biāo)系統(tǒng)、竊取數(shù)據(jù)。防御者為抵御攻擊，設(shè)置MTSGDM機制，當(dāng)入侵檢測系統(tǒng)檢測到異常行為或異常流量后釋放誘導(dǎo)信號，干擾攻擊者選擇攻擊策略。為驗證所提出的MTSGDM及相關(guān)均衡求解方法正確性和有效性，設(shè)計如下實驗網(wǎng)絡(luò)，拓撲結(jié)構(gòu)如圖2所示。

Fig.2 Experimental environment topology圖2 實驗環(huán)境拓撲結(jié)構(gòu)

該系統(tǒng)主要由安全防御設(shè)備、LDAP Server、Web Server和FTP Server組成。防火墻的安全策略為僅允許網(wǎng)絡(luò)用戶訪問LDAP Server，其他網(wǎng)絡(luò)節(jié)點和端口進行阻斷；LDAP Server可以訪問Web Server和FTP Server。攻擊者的目的在于獲取FTP Server的特權(quán)，竊取數(shù)據(jù)。攻擊者無法直接訪問FTP Server，但是通過一系列原子攻擊，攻擊者可以獲取Web Server和FTP Server的root訪問權(quán)限[16-17]。使用Nessus工具掃描，挖掘?qū)嶒灜h(huán)境設(shè)備漏洞信息，如表2所示。

攻擊者通過前期探測，得到LDAP Server的IP地址及提供的服務(wù)所存在的漏洞，利用CVE-2016-5195漏洞獲取LDAP Server的Root權(quán)限。根據(jù)圖2虛線可知，攻擊者竊取FTP Server數(shù)據(jù)有兩種路徑。第一種，利用CVE-2017-5095獲取Web Server的Root權(quán)限，然后利用FTP Server漏洞CVE-2015-3306獲取user權(quán)限；第二種，直接利用FTP Server漏洞CVE-2015-3306獲取user權(quán)限。

4.2 MTSGDM收益計算

本文只考慮攻擊者對LDAP Server的攻擊。利用文獻[12]的方法對漏洞數(shù)據(jù)和防御策略進行分析，得到攻擊者可能采取的攻擊策略組合A1(a1,a3)，A2(a2,a4)。根據(jù)文獻[18-20]得到攻擊者的原子攻擊信息如表3所示。

Table 2 Equipment vulnerability information表2 設(shè)備漏洞信息

Table 3 Atomic attack information表3 原子攻擊信息

該例中將防御者類型分為高防御等級和低防御等級，用ΘD=(θH,θL)表示。誘導(dǎo)信號空間IS=(isH,isL)分別表示偽裝成高防御等級和低防御等級時的誘導(dǎo)信號isH和isL。θH型防御者可以選擇防御策略(d1,d2)，θL型防御者可以選擇防御策略(d3,d4)。并且

初始化階段，防御者必須考慮所有可能的攻擊情況以確定最優(yōu)防御策略初始階段博弈樹如圖3所示。

Fig.3 Game tree in initial stage of MTSGDM圖3 MTSGDM博弈模型初始階段博弈樹

LDAP Server可實施的MTD防御策略如表4所示。高等級防御者采取服務(wù)架構(gòu)多態(tài)化策略，該策略是指通過軟件棧實現(xiàn)服務(wù)功能，軟件棧通常包括LDAP服務(wù)器程序、LDAP應(yīng)用程序、操作系統(tǒng)和虛擬層。通過建立多個具有唯一軟件棧的虛擬服務(wù)器，建立多態(tài)化防御策略。例如“Ubuntu 14+ApacheDS”與“Windows 7+IIS 6”是在操作系統(tǒng)和服務(wù)器程序的兩種不同實現(xiàn)方式。低等級防御者采取IP地址跳變和服務(wù)端口跳變策略。

LDAP Server的安全屬性損害SAD=20，重要程度為C=4。通過對防御者入侵檢測系統(tǒng)性能進行建模，可知其錯檢概率矩陣。由錯檢概率矩陣分析可知因錯檢而存在兩種錯誤攻擊策略A3(a1,a4)、A4(a2,a3)。

假設(shè)攻擊者對防御類型的先驗信念為(p(θH),p(θL))=(0.5,0.5)。計算防御收益前首先要明確全部情況下的以判斷該dy是否最優(yōu)。如表5所示。

根據(jù)檢查概率矩陣可知，在發(fā)生錯檢查情況下，防御者的最優(yōu)防御策略可能會發(fā)生改變，如表6所示。根據(jù)表6分析可知，發(fā)生錯檢時，其真實防御策略仍然有可能是最優(yōu)防御策略。

4.3 精煉貝葉斯均衡求解及策略選取

在該模型下，防御者使用誘導(dǎo)信號以及真實防御策略的不同組合方式進行網(wǎng)絡(luò)防御，根據(jù)表1中算法可得出第一階段博弈量化結(jié)果，如圖4所示。

防御者在該博弈模型下有4種純策略：“自然”選擇類型θH或θL,防御者均釋放誘導(dǎo)信號isH，該策略記為(isH,isH)。同理可得(isL,isL)、(isH,isL)、(isL,isH)。在此以混同均衡(isH,isH)和分離均衡(isH,isL)為例進行求解。

Table 4 Moving target defense strategy description表4 移動目標(biāo)防御策略描述

Table 5 Initial earnings quantification of SPB+RDG表5 初始階段SPB+RDG 收益量化

Table 6 Selection of real defense strategy under error detection表6 錯檢情況下真實防御策略的選取

4.3.1 混同均衡策略

攻擊者對于isH和isL的信息集均衡路徑之上的貝葉斯均衡推斷分別為(p,1-p)、(q,1-q)。

若要使得混同均衡策略(isH,isH)為最優(yōu)策略，則要保證如果防御者選擇釋放isL時，攻擊者的選擇給兩種類型的防御者所帶來的防御收益小于防御者選擇釋放isH的情況。

當(dāng)且僅當(dāng)攻擊者對isL的反應(yīng)為A1，該混同均衡策略存在。攻擊者最優(yōu)策略為A*(Ax|isH)=A2，A*(Ax|isL)=A1。

Fig.4 MTSGDM phase 1 game tree and quantitative results (UA,UD)of offensive and defensive gains圖4 MTSGDM第一階段博弈樹及攻防收益(UA,UD)量化結(jié)果

利用貝葉斯公式修正(p,1-p)、(q,1-q)，可得

防御最優(yōu)策略組合為：

4.3.2 分離均衡策略

攻擊者對于isH和isL的信息集均衡路徑之上的貝葉斯均衡推斷分別為(1,0)、(0,1)。

若要使得分離均衡策略(isH,isL)為最優(yōu)策略，防御者選擇信號(isL,isH)時，攻擊者的選擇給兩種類型的防御者所帶來的防御收益小于防御者釋放(isH,isL)的收益。

僅當(dāng)攻擊者對isL的反應(yīng)為A1，該分離均衡策略存在。攻擊者最優(yōu)策略為A*(Ax|isH)=A1，A*(Ax|isL)=A1。

利用貝葉斯公式修正(p,1-p)、(q,1-q)，可得

即{(isH,isL),(A1,A1),p～=1,q～=0}為博弈的混同策略均衡。

最優(yōu)防御策略組合為：

同理，求得混同策略均衡(isL,isL)、分離策略均衡(isL,isH)均不能構(gòu)成該博弈的精煉貝葉斯均衡。

4.4 多階段先驗信念推演

通過對Tt時間之前的歷史統(tǒng)計得到不同攻擊類型的攻擊者使用不同攻擊策略的概率為p(isj|θi,his(Tt))，如表7所示。

第二階段開始時，防御者采取策略isH，可以得到防御者類型的后驗信念為：

Table 7 Probability relationship p(isj|θi,his(Tt))between defense type and defense induction signal strategy表7 防御類型與防御誘導(dǎo)信號策略概率關(guān)系p(isj|θi,his(Tt))

進行數(shù)學(xué)歸納后可知：

由此可知，當(dāng)防御者持續(xù)采用高等級誘導(dǎo)信號，攻擊者可以不斷修正信念，增加對其高等級防御者類型的推斷。

4.5 算法對比

在4.1節(jié)搭建的實驗環(huán)境中，將本文的最優(yōu)策略組合算法與文獻[9]的等概率防御策略選取算法進行對比，結(jié)果如圖5所示。其中同一顏色的點代表相同策略下不同算法的攻防收益。例如，紅色代表高等級防御者θH選擇高等級誘導(dǎo)信號策略isH，攻擊者選擇攻擊策略A1的情況。定義公式：

Fig.5 Algorithm comparison圖5 算法對比

由圖5分析可知，在考慮誘導(dǎo)信號以及防御系統(tǒng)本身不完美的情況下，本文的防御最優(yōu)組合策略算法與文獻[9]的等概率防御策略選取算法相比效果更好。在相同等級防御者選擇相同等級誘導(dǎo)信號策略，攻擊者選擇相同攻擊策略的情況下，通過式（16）、式（17）計算，得到如表8所示結(jié)果。

Table 8 Attack return reduction rate and defense return increase rate表8 攻擊收益降低率與防御收益提高率 %

由表8可知，與文獻[9]相比，平均攻擊收益降低率為37.90%，平均防御收益提高率為177.78%?？梢钥闯霰疚牡淖顑?yōu)誘導(dǎo)信號策略與最優(yōu)防御策略的組合策略算法收益更高，效果更好，從攻防兩端都可以為防御者帶來更多的防御性能提升。

5 實驗結(jié)果分析

通過對MTSGDM均衡結(jié)果和攻防收益分析，可以得到以下規(guī)律：

（1）低等級防御下MTD策略跳變周期越小，防御收益越大。

在低等級防御的情況下，無論釋放任何等級的誘導(dǎo)信號，防御策略d3的防御收益都要大于防御策略d4的防御收益。這是因為在防御等級相差不大、對待同一種攻擊策略時，跳變周期小的策略能夠有效減少攻擊者攻擊策略的有效攻擊持續(xù)時間，防御者的高頻跳變手段使得同一種攻擊策略無法長期有效。

（2）高等級防御下MTD防御策略的差異性越大，防御性能越好。

在高等級防御的情況下，無論釋放任何等級的誘導(dǎo)信號，防御策略d1的防御收益都要大于防御策略d2的防御收益。這是因為在跳變周期相同的情況下，防御策略差異性越大，軟件棧配置信息存在相似漏洞威脅的可能性越小。攻擊者需要更長時間進行前期攻擊準(zhǔn)備，如掃描、漏洞挖掘，因而提高了防御收益。

（3）差異性大的MTD策略比跳變周期小的MTD策略防御收益更高。

無論釋放任何等級的誘導(dǎo)信號，高等級防御下的防御策略收益普遍大于低等級防御下的防御策略。這是因為盡管高等級防御策略比低等級防御策略跳變周期長，但對改變受保護系統(tǒng)特征的能力而言，操作系統(tǒng)與服務(wù)器程序的變化比簡單的端口或IP地址跳變的能力更強，即帶來更好的攻擊面轉(zhuǎn)移效果。

（4）合適的誘導(dǎo)信號策略能夠有效提高防御收益。

在混同均衡策略中，高、低等級防御者均應(yīng)選擇高防御等級誘導(dǎo)信號策略。這是因為高等級防御者無需隱藏自身能力，若選擇低等級防御誘導(dǎo)信號策略反而容易導(dǎo)致攻擊者的攻擊，并且損失了不必要的誘導(dǎo)信號釋放代價。而低等級防御者選擇高等級防御誘導(dǎo)信號策略，是想以此威懾攻擊者，達到“不戰(zhàn)而勝”的目的。

在分離均衡中高等級防御者應(yīng)選擇高防御等級誘導(dǎo)信號策略理由與上述相同，但低等級防御者應(yīng)選擇低等級防御誘導(dǎo)信號策略，這是因為防御者考慮到偽裝成本過高，即便達到威懾效果，卻給自身帶來了負防御收益。釋放誘導(dǎo)信號需要付出一定的代價，若防御收益無法彌補該代價，則不應(yīng)偽裝自身防御等級。因此如何選擇防御誘導(dǎo)信號策略需要結(jié)合防御者自身實際情況。

（5）防御者盡量避免長期選擇同一類型的誘導(dǎo)信號策略。

這是因為攻擊者對防御類型推斷的準(zhǔn)確性對攻防結(jié)果有重大影響，盡管攻擊者不能完全掌握防御者的類型信息，但可以根據(jù)誘導(dǎo)信號不斷使用貝葉斯法則對防御者的類型信念進行修正，并選擇最優(yōu)攻擊策略，進而增大攻擊收益，降低防御收益。

6 結(jié)束語

本文提出了移動目標(biāo)信號博弈的防御模型MTSGDM，該模型充分結(jié)合現(xiàn)實網(wǎng)絡(luò)中攻防動態(tài)性（異步性）、不完全信息性的特點。為防御者提供主動發(fā)送誘導(dǎo)信號的思想，以改變防御者在網(wǎng)絡(luò)對抗中的被動劣勢地位。同時正視防御者自身系統(tǒng)具有無法避免的缺陷的基礎(chǔ)上，提出移動目標(biāo)防御最優(yōu)策略選取算法。在該算法中，將最優(yōu)誘導(dǎo)信號策略與最優(yōu)防御策略的組合視為防御者最優(yōu)的選取策略，以此最大化防御收益。最后通過具有一定代表性的實驗拓撲結(jié)構(gòu)，對該策略選取算法進行實驗，分析實驗結(jié)果給出了MTD防御的一般性規(guī)律，對現(xiàn)實網(wǎng)絡(luò)環(huán)境下的攻防策略選取具有一定的指導(dǎo)意義。