孫文君,蘇 旸,曹 鎮(zhèn)
(1.武警工程大學(xué) 網(wǎng)絡(luò)與信息安全武警部隊(duì)重點(diǎn)實(shí)驗(yàn)室,西安 710086; 2.武警工程大學(xué) 信息安全研究所,西安 710086)(*通信作者電子郵箱sunwenjun94@163.com)
非對稱信息條件下APT攻防博弈模型
孫文君1*,蘇 旸1,2,曹 鎮(zhèn)1
(1.武警工程大學(xué) 網(wǎng)絡(luò)與信息安全武警部隊(duì)重點(diǎn)實(shí)驗(yàn)室,西安 710086; 2.武警工程大學(xué) 信息安全研究所,西安 710086)(*通信作者電子郵箱sunwenjun94@163.com)
針對目前缺少對高級持續(xù)威脅(APT)攻擊理論建模分析的問題,提出了一種基于FlipIt模型的非對稱信息條件下的攻防博弈模型。首先,將網(wǎng)絡(luò)系統(tǒng)中的目標(biāo)主機(jī)等資產(chǎn)抽象為目標(biāo)資源節(jié)點(diǎn),將攻防場景描述為攻防雙方對目標(biāo)資源的交替控制;然后,考慮到攻防雙方在博弈中觀察到的反饋信息的不對稱性以及防御效果的不徹底性,給出了在防御者采取更新策略時(shí)攻防雙方的收益模型及最優(yōu)策略的條件,同時(shí)給出并分別證明了達(dá)到同步博弈與序貫博弈均衡條件的定理;最后通過數(shù)例分析了影響達(dá)到均衡時(shí)的策略及防御收益的因素,并比較了同步博弈均衡與序貫博弈均衡。結(jié)果表明周期策略是防御者的最優(yōu)策略,并且與同步博弈均衡相比,防御者通過公布其策略達(dá)到序貫博弈均衡時(shí)的收益更大。實(shí)驗(yàn)結(jié)果表明所提模型能夠在理論上指導(dǎo)應(yīng)對隱蔽性APT攻擊的防御策略。
博弈論;非對稱信息;網(wǎng)絡(luò)攻擊;高級持續(xù)威脅;網(wǎng)絡(luò)安全
近年來,針對關(guān)鍵基礎(chǔ)設(shè)施(Critical Infrastructure, CI)和政府、大型企業(yè)、軍事機(jī)構(gòu)等信息系統(tǒng)的高級持續(xù)威脅(Advanced Persistent Threat, APT)[1]攻擊事件頻發(fā),信息資產(chǎn)受到的安全威脅越來越嚴(yán)重。APT攻擊以其目標(biāo)性強(qiáng)、隱蔽性高、方式多維性、不易被偵測等特點(diǎn)成為常用且危害巨大的攻擊方式之一。傳統(tǒng)的基于邊界保護(hù)的網(wǎng)絡(luò)防范技術(shù)往往只針對已知類型的一次性攻擊,而APT攻擊發(fā)動(dòng)者往往通過社會工程學(xué)等手段非法獲取內(nèi)部權(quán)限,同時(shí)攻擊者還利用零日漏洞實(shí)施攻擊,這都使得傳統(tǒng)網(wǎng)絡(luò)防護(hù)技術(shù)效果甚微[2]。如何制定合理的策略、合理地分配防御成本以使防御收益最大化已成為防御的主要目標(biāo)之一。
在網(wǎng)絡(luò)安全領(lǐng)域,博弈論被廣泛地應(yīng)用于成本效益分析和最優(yōu)策略選擇等領(lǐng)域[3-4]:文獻(xiàn)[5]和[6]分別從靜態(tài)與動(dòng)態(tài)方面給出了最優(yōu)主動(dòng)防御策略;陳永強(qiáng)等[7]設(shè)計(jì)了一種非零和攻防博弈模型,并通過分析納什均衡實(shí)現(xiàn)最優(yōu)對策的選擇;張恒巍等[8]構(gòu)建了基于信號博弈的攻防博弈模型,并通過量化計(jì)算分析了博弈均衡。然而上述研究都是面向已知攻擊或完全信息的假設(shè),而目前針對極高隱蔽性的、攻防信息不對稱場景的博弈模型研究仍不多。針對APT攻擊,RSA實(shí)驗(yàn)室的Van Dijk等[9]基于時(shí)間博弈的思想設(shè)計(jì)出了FlipIt模型,將網(wǎng)絡(luò)系統(tǒng)中的資產(chǎn)抽象為資源節(jié)點(diǎn),并將攻擊者與防御者的博弈描述為對單個(gè)目標(biāo)資源節(jié)點(diǎn)的交替控制的過程,雙方的收益表現(xiàn)為對資源的控制時(shí)間上,并且在行動(dòng)(即“Flip”)前都不知道資源當(dāng)前的狀態(tài)。FlipIt模型最大的特點(diǎn)是適用于隱蔽攻擊的場景,并且詳細(xì)分析了防御者采取不同策略的情況。但是FlipIt是一種抽象的基本模型框架,為了更貼近應(yīng)用實(shí)際,后續(xù)的研究從對FlipIt模型進(jìn)行改進(jìn)與完善等方面展開。Bowers等[10]對FlipIt在安全場景中的實(shí)際應(yīng)用展開了研究;Pham等[11]對博弈參與者的能力進(jìn)行了擴(kuò)展,研究了在參與者具備在行動(dòng)前檢查資源狀態(tài)的能力的場景;Laszka等[12]對目標(biāo)資源的數(shù)量進(jìn)行了擴(kuò)展提出了FlipThem模型,并分別討論了在AND與OR控制模型條件下的最優(yōu)策略;Zhang等[13]則對資源限制的條件下博弈及其均衡展開了分析;Feng等[14-15]對參與者的數(shù)量進(jìn)行了擴(kuò)展,引入了內(nèi)部威脅者組成三方博弈并給出了相應(yīng)的理論分析。
在上述文獻(xiàn)中都假設(shè)攻擊行為是瞬時(shí)的,但是實(shí)際中從攻擊開始到完成往往需要耗費(fèi)一定的時(shí)間;此外對防御者的能力也過于理想化,即使采取防御措施也不可能保證100%的效果[16],當(dāng)攻擊者仍持有對資源部分的控制權(quán)時(shí),如仍在目標(biāo)主機(jī)上留有后門,依然會因此獲得攻擊收益;而考慮到APT攻擊發(fā)動(dòng)者的能力,雙方對博弈信息獲取的不對稱性是完全合理的?;诖吮疚奶岢隽艘环N攻防雙方信息非對稱條件下的APT攻防博弈理論模型,分析了模型場景的最優(yōu)策略及博弈均衡策略,并給出了相應(yīng)的數(shù)例分析,結(jié)論表明周期策略是防御者的最優(yōu)策略,并且防御者通過公布其策略達(dá)到序貫博弈均衡時(shí)的收益更大。
1.1 FlipIt模型
Van Dijk等提出了應(yīng)對APT等高隱蔽性攻擊的博弈分析模型FlipIt。如圖1所示,透明矩形表示的是資源受保護(hù)的狀態(tài),陰影矩形表示資源被入侵的狀態(tài),透明圓與陰影圓分別表示防御者與攻擊者采取對策,豎箭頭表示資源狀態(tài)發(fā)生了變化。在FlipIt模型中,目標(biāo)資源只有兩個(gè)狀態(tài)即要么處于受保護(hù)狀態(tài)要么處于被入侵狀態(tài),只有在未擁有控制權(quán)的一方采取行動(dòng)時(shí)發(fā)生狀態(tài)的改變,而當(dāng)雙方同時(shí)行動(dòng)時(shí),或者已擁有控制權(quán)的一方采取行動(dòng)時(shí)其狀態(tài)保持不變。雙方在采取行動(dòng)前都不知道當(dāng)前資源的狀態(tài),也不知道對方何時(shí)采取策略,并且每次行動(dòng)都是有成本的,因此需要制定最優(yōu)的策略。
圖1 FlipIt模型
FlipIt包含有系統(tǒng)安全的關(guān)鍵元素[17],但只是抽象的理想化的模型。本文在FlipIt及其相關(guān)擴(kuò)展模型的基礎(chǔ)上,針對APT攻擊的高隱蔽性等特點(diǎn),提出了一種在非對稱信息條件下的網(wǎng)絡(luò)攻防博弈模型,并推導(dǎo)出了納什均衡及序貫均衡存在的定理。
1.2 本文模型
模型中兩個(gè)參與者防御者與攻擊者,分別用D和A表示。定義雙方連續(xù)兩次行動(dòng)間的時(shí)間間隔為其各自的策略,采取不同的行動(dòng)間隔表明采取不同的策略。模型的建立基于以下3個(gè)假設(shè):
假設(shè)1 信息的不對稱性,即攻擊者可以觀察到防御者執(zhí)行行動(dòng),而防御者并不能觀察到攻擊者何時(shí)采取行動(dòng)。
假設(shè)2 攻擊的非瞬時(shí)性,即攻擊者從展開攻擊到攻擊完成需要一定的攻擊時(shí)間a,定義a是滿足概率密度分布為fa(a)的隨機(jī)變量,即攻擊在a時(shí)間完成的概率為pa=1-e-λaa,F(xiàn)a(a)為其對應(yīng)的累積分布函數(shù)。
假設(shè)3 防御效果的不徹底性,即防御者采取行動(dòng)后,攻擊者仍有可能控制部分資源并據(jù)此獲得收益,定義殘留部分比例為服從概率密度函數(shù)分布為fε(·)的隨機(jī)變量ε。
同時(shí)假設(shè)博弈在時(shí)間t上是連續(xù)的。如圖2所示,在t=0博弈開始時(shí)目標(biāo)資源處于受保護(hù)狀態(tài)。在任意時(shí)刻,玩家A或D需要花費(fèi)一定成本CA或CD實(shí)施行動(dòng)。防御者采取行動(dòng)的效果是即時(shí)的,并將立即獲取資源的控制權(quán),定義變量l為連續(xù)兩次防御行動(dòng)的時(shí)間間隔;但攻擊者從行動(dòng)實(shí)施到攻擊完成是需要一個(gè)過程而并非是瞬時(shí)的,引入隨機(jī)變量a表示該過程的時(shí)間。當(dāng)攻擊者未完成攻擊而防御者又實(shí)施了下一次行動(dòng)即a 圖2 本文模型 文獻(xiàn)[9]將參與者采取的策略分為適應(yīng)性策略及非適應(yīng)性策略。適應(yīng)性策略表示參與者基于從博弈過程中接收到的反饋信息執(zhí)行相應(yīng)的對策,而非適應(yīng)性策略則指參與者不接收反饋信息而執(zhí)行相應(yīng)的對策。更新策略是一種典型的非適應(yīng)性策略,常見的更新策略包括周期策略及指數(shù)策略。在周期策略中,參與者每次行動(dòng)間隔是固定的周期,而第一次行動(dòng)則從中均勻隨機(jī)選取某一相位開始;指數(shù)策略是一種常見的更新策略,參與者兩次連續(xù)行動(dòng)間隔服從指數(shù)分布(泊松分布)。在本文中,由于防御者不能接收到反饋信息,因此設(shè)定其采取的是更新策略。 考慮在某個(gè)防御間隔內(nèi)l的攻防雙方的平均收益。 1)a>l。 在這種情況下,攻擊者未完成攻擊控制目標(biāo)資源防御者便采取了下一次的行動(dòng)。此時(shí)由于假設(shè)的防御對策效果的不徹底性,攻擊者仍能由于之前的行動(dòng)而擁有對目標(biāo)的部分控制權(quán)ε。故此時(shí)攻擊者在[0,l]內(nèi)的期望收益表示為: (1) 對防御者而言,收益包括因攻擊招致的損失和行動(dòng)成本,因此期望收益表示如下: (2) 但是由于式(1)、(2)是在a>l條件之下得出的,而由式(1)可得出a>l成立的概率: (3) 綜合式(1)、(2)、(3)得出攻防雙方的條件期望收益分別為: (4) (5) 2)a≤l。 在這種情況下,攻擊者可在防御者下一次行動(dòng)之前完成攻擊并且控制目標(biāo)系統(tǒng),則其收益函數(shù)在條件1)的基礎(chǔ)上還要增加控制目標(biāo)后單位時(shí)間帶來的效用,期望收益表示如下: (6) 防御者則相應(yīng)地增加了因攻擊者控制目標(biāo)資源帶來的損失,其期望收益表示為: (7) 同樣地考慮其條件期望收益。a≤l條件成立的概率為: (8) 則由式(6)、(7)、(8)可得出攻防雙方的條件期望收益分別為: (9) (10) 綜合1)、2)兩種情況,得出最后的攻擊者與防御者的收益函數(shù)表達(dá)式分別為: (11) (12) 在實(shí)際分析中,可將具體的函數(shù)及參數(shù)值代入表達(dá)式中計(jì)算。 在得到博弈的收益模型后,需要對雙方最優(yōu)應(yīng)對及均衡存在的條件進(jìn)行分析。由于雙方的收益是在防御者的行動(dòng)間隔內(nèi)完成的,因此本文對任意某個(gè)時(shí)間區(qū)間進(jìn)行分析,任意區(qū)間內(nèi)收益最大化時(shí)則總的收益也可達(dá)到最大化。 首先分析防御者最優(yōu)應(yīng)對策略。由前文假設(shè),即使攻擊者沒有完成攻擊,由于防護(hù)行動(dòng)效果的不徹底性,攻擊者仍有部分目標(biāo)資源的控制權(quán)ε。為了便于分析,首先假設(shè)在整個(gè)博弈中ε是個(gè)常量。給出防御者最優(yōu)應(yīng)對策略的條件。 引理1 定義 (13) 則當(dāng)攻擊者采取適應(yīng)性策略,并且其從上一次防護(hù)行動(dòng)結(jié)束到攻擊完成的時(shí)間a服從固定的條件概率分布fa(a)時(shí),有: 1)如果不存在l使得BRD=0成立,則不采取任何行動(dòng)是防御者的最優(yōu)應(yīng)對策略; 2)否則以滿足BRD=0的解l*為周期的周期策略是唯一的最優(yōu)應(yīng)對策略。 證明 當(dāng)防御者采取更新策略時(shí),其選擇的每個(gè)行動(dòng)間隔都是服從某一固定分布的。為了獲取最優(yōu)應(yīng)對策略,需要使得每個(gè)行動(dòng)間隔li內(nèi)的收益最大化。由式(12)可知其收益公式為 (14) 為了獲得極值,需求GD關(guān)于l的偏導(dǎo): (15) (16) 顯然BRD是關(guān)于l的單調(diào)遞增函數(shù),故如果存在著l*使BRD=0成立,那么該l的值是唯一的。此外,當(dāng)取l=l*時(shí),GD關(guān)于l的二階偏導(dǎo)數(shù) (17) 即當(dāng)l取使等式(13)成立的唯一值l*時(shí)GD取得最大值,即有最大收益。因此,采取周期為l*的周期策略是此時(shí)防御者的最優(yōu)應(yīng)對策略。而當(dāng)不存在l滿足式(13)時(shí),若l→∞,防御者的期望收益GD→-BA,相當(dāng)于是不采取任何策略時(shí)的收益;若l→0,GD→-∞。因此當(dāng)不存在l滿足等式(13)時(shí),防御者的期望收益都小于-BA,防御者的最優(yōu)策略為不采取任何行動(dòng)。 證畢。 接下來分析攻擊者的最優(yōu)應(yīng)對策略。 引理2 當(dāng)防御者采取周期為l的周期策略時(shí),令: (18) 1)若CA 2)若CA>M(l),則攻擊者的最優(yōu)應(yīng)對策略是不采取任何行動(dòng); 3)若CA=M(l),則無論是不采取行動(dòng)或者立即實(shí)施攻擊都可視為攻擊者的最優(yōu)應(yīng)對策略。 證明 首先計(jì)算攻擊者的期望收益。 (19) 因此當(dāng)CA 證畢。 基于引理1與引理2,得出均衡存在定理。首先考慮攻擊者與防御者的行為是同步的,得出納什均衡存在定理。 定理1 當(dāng)防御者采取更新策略而攻擊者采取適用性策略時(shí),則博弈均衡為: 1)當(dāng)BRD=0存在解l*為防御者的最優(yōu)策略時(shí),則 ①如果CA≤M(l*),則存在唯一的納什均衡策略:防御者采取周期為l*的周期性策略而攻擊者在觀察到攻擊者采取行動(dòng)時(shí)也立即采取攻擊行為; ②如果CA>M(l*),則不存在納什均衡。 2)當(dāng)BRD=0不存在解l*作為防御者的最優(yōu)策略時(shí),則存在唯一的納什均衡策略:防御者不采取任何行動(dòng)而攻擊者在博弈開始時(shí)展開一次攻擊之后便不采取任何行動(dòng)。 證明 由引理1知防御者的最優(yōu)應(yīng)對策略是采取周期策略或者不采取任何行動(dòng)。同樣地由引理2可知攻擊者最優(yōu)應(yīng)對策略也是兩種即在觀察到防御者的行為后立即攻擊或者不發(fā)動(dòng)任何攻擊。而納什均衡策略對參與雙方來說都是其最優(yōu)應(yīng)對策略。 首先考慮當(dāng)BRD=0不存在解的情況,此時(shí)防御者的最優(yōu)策略是從博弈開始到結(jié)束都不采取任何行動(dòng),因此攻擊者只需在博弈開始的時(shí)候?qū)嵤┮淮喂舯隳芤恢笨刂颇繕?biāo)系統(tǒng)獲得最大收益,即2)成立。 其次考慮當(dāng)BRD=0存在唯一解l*時(shí),防御者的最優(yōu)策略是采用參數(shù)為l*的周期策略,根據(jù)引理2可知攻擊者面臨兩種選擇:當(dāng)CA≤M(l*)時(shí),攻擊者的最優(yōu)應(yīng)對策略是在觀察到防御者的防御行為之后立即采取攻擊行動(dòng),即滿足條件1)中的①條件;當(dāng)CA>M(l*)時(shí),攻擊者不采取任何行動(dòng)并退出博弈,此時(shí)由于沒有攻擊者的參與,防御者的最優(yōu)策略是不采取任何行動(dòng)以減少防御行動(dòng)成本,但是如果防御者這么做的話,對于攻擊者來說在博弈一開始就采取攻擊并持續(xù)控制目標(biāo)資源能夠獲得最大收益,因此這種情況下不存在納什均衡,即證明了條件1)中的②條件。證畢。 至此已經(jīng)找到了攻防雙方同時(shí)博弈條件下的均衡。但在實(shí)際應(yīng)用中,考慮到信息的不對稱性,防御策略可能被攻擊者提前獲知,這種情況下就需要求導(dǎo)序貫博弈。定理2給出了序貫均衡條件。 定理2 令l1為BRD=0的解,l2為使得CA=M(l)成立的最大值,攻擊者總是采取最優(yōu)策略,那么在子博弈精煉均衡中,防御者的最優(yōu)策略為不采取行動(dòng)或者采取周期為{l1,l2}的周期策略。 證明 使用反證法進(jìn)行驗(yàn)證。假設(shè)防御者采用的是周期為l′(l′不等于l1或l2)的周期策略。 1)若l′>l2,則必有CA 2)若l′ 證畢。 為了能直觀形象地說明模型的特點(diǎn),對模型進(jìn)行實(shí)例化分析。設(shè)置從攻擊實(shí)施到攻擊完成需要的時(shí)間a服從的指數(shù)分布λa=1,因防御行為的效果不徹底性導(dǎo)致的攻擊者剩余控制比例ε=0.05。 圖3、圖4分別給出了達(dá)到同時(shí)博弈時(shí)的防御者的行動(dòng)周期和收益與攻擊者單位時(shí)間內(nèi)的收益BA以及當(dāng)防御成本分別取CD=1.2、CD=1.0、CD=0.8時(shí)的曲線圖。 圖3 達(dá)到同步博弈均衡時(shí)的防御策略 由圖3、4可知,CD越高時(shí),防御者將采取均衡策略的周期越也大,其相應(yīng)的防御收益也越低,即因防御成本升高防御者從收益的角度考慮而不得不降低其防御速率,比如當(dāng)BA=1.2時(shí),當(dāng)CD分別取0.8、1.0和1.2時(shí)的均衡策略周期為2.44、3.62和∞,而其對應(yīng)的防御收益為-0.97、-1.10和-1.18。而另一方面,當(dāng)BA越大,即目標(biāo)資源價(jià)值越大時(shí),防御者的防御速率越快,所需的防御成本也增加,導(dǎo)致相應(yīng)的防御收益降低,例如當(dāng)CD=1.0時(shí),當(dāng)BA分別取1.2、1.4、1.6時(shí)對應(yīng)的策略周期分別為3.62、2.71、2.25,防御收益分別為-1.10、-1.25、-1.39。但是當(dāng)目標(biāo)資源的價(jià)值BA太低時(shí)防御者的行動(dòng)周期l*→∞,表明防御者退出博弈并不采取任何的防御行為。這些結(jié)論都與實(shí)際場景中相符合。 圖4 達(dá)到同步博弈均衡時(shí)的防御收益 圖5、圖6分別給出了在CA=1.0且CD=1.0條件下達(dá)到序貫博弈均衡與同步博弈均衡時(shí)的防御周期、防御收益與攻擊者單位時(shí)間內(nèi)的收益的關(guān)系曲線。 圖5 序貫博弈均衡與同步博弈均衡的防御周期比較 圖6 序貫博弈均衡與同步博弈均衡的防御收益比較 從圖5圖6中可知序貫博弈均衡下的防御周期和收益與BA的關(guān)系與同步均衡時(shí)類似。另外可看出,當(dāng)BA及其他條件相同時(shí),序貫博弈均衡下的防御周期比同步博弈均衡條件下的防御周期要短,相應(yīng)的防御收益卻要更大,例如當(dāng)BA=1.2時(shí),序貫均衡與同步均衡時(shí)的防御周期分別為1.59和3.62,對應(yīng)的防御收益分別為-0.63和-1.10。說明當(dāng)防御者采取快速的防御速率并達(dá)到序貫均衡時(shí)會因迫使攻擊者放棄行動(dòng)而獲得比同步均衡時(shí)更大的收益。 本文對FlipIt模型進(jìn)行了擴(kuò)展,結(jié)合攻防場景中攻擊的隱蔽性、攻防雙方信息的不對稱性等特點(diǎn),并考慮到因攻擊者使用零日漏洞等未知攻擊手段而導(dǎo)致的防御對策的效果不徹底性,建立了面向APT攻擊的攻防博弈模型。通過建模理論分析推導(dǎo)與實(shí)例驗(yàn)證,主要得出兩點(diǎn)結(jié)論:1)周期策略是防御者的最優(yōu)策略,可帶來最大收益;2)面對能力強(qiáng)的攻擊者,防御者應(yīng)當(dāng)提前公布其策略以對攻擊者產(chǎn)生震懾,迫使其因收益為負(fù)而放棄攻擊。另外,通過分析還可知,當(dāng)防御成本越高時(shí)防御者采取行動(dòng)的速度也會越慢。這些結(jié)論對現(xiàn)實(shí)中如何改進(jìn)防御措施具有一定的理論指導(dǎo)意義。 為了便于分析,本文提出了許多假設(shè),例如假定ε在博弈中是固定不變的。今后的研究重點(diǎn)是減少假設(shè)條件,特別是對完全不知道其攻擊能力及攻擊完成時(shí)間分布fa(a)時(shí)的場景展開研究以使模型更加符合實(shí)際。 References) [1] TANKARD C. Advanced persistent threats and how to monitor and deter them [J]. Network Security, 2011, 2011(8): 16-19. [2] 付鈺,李洪成,吳曉平,等.基于大數(shù)據(jù)分析的APT攻擊檢測研究綜述[J].通信學(xué)報(bào),2015,36(11):1-14.(FU Y, LI H C, WU X P, et al. Detecting APT attacks: a survey from the perspective of big data analysis [J]. Journal on Communications, 2015, 36(11): 1-14.) [3] RASS S, K?NIG S, SCHAUER S. Defending against advanced persistent threats using game-theory [J]. Plos One, 2017, 12(1): e0168675. [4] MANSHAEI M H, ZHU Q, ALPCAN T, et al. Game theory meets network security and privacy [J]. ACM Computing Surveys, 2013, 45(3): Article No. 25. [5] 姜偉,方濱興,田志宏,等.基于攻防博弈模型的網(wǎng)絡(luò)安全測評和最優(yōu)主動(dòng)防御[J].計(jì)算機(jī)學(xué)報(bào),2009,32(4):817-827.(JIANG W, FANG B X, TIAN Z H, et al. Evaluating network security and optimal active defense based on attack-defense game model [J]. Chinese Journal of Computers, 2009, 32(4): 817-827.) [6] 林旺群,王慧,劉家紅,等.基于非合作動(dòng)態(tài)博弈的網(wǎng)絡(luò)安全主動(dòng)防御技術(shù)研究[J].計(jì)算機(jī)研究與發(fā)展,2011,48(2):306-316.(LIN W Q, WANG H, LIU J H, et al. Research on active defense technology in network security based on non-cooperative dynamic game theory [J]. Journal of Computer Research and Development, 2011, 48(2): 306-316.) [7] 陳永強(qiáng),付鈺,吳曉平.基于非零和攻防博弈模型的主動(dòng)防御策略選取方法[J].計(jì)算機(jī)應(yīng)用,2013,33(5):1347-1352.(CHEN Y Q, FU Y, WU X P. Active defense strategy selection based on non-zero-sum attack-defense game model [J]. Journal of Computer Applications, 2013, 33(5): 1347-1352.) [8] 張恒巍,余定坤,韓繼紅,等.基于攻防信號博弈模型的防御策略選取方法[J].通信學(xué)報(bào),2016,37(5):51-61.(ZHANG H W, YU D K, HAN J H, et al. Defense policies selection method based on attack-defense signaling game model [J]. Journal on Communications, 2016, 37(5): 51-61.) [9] VAN DIJK M, JUELS A, OPREA A, et al. FlipIt: the game of “stealthy takeover” [J]. Journal of Cryptology, 2013, 26(4): 655-713. [10] BOWERS K D, VAN DIJK M, GRIFFIN R, et al. Defending against the unknown enemy: applying flipIt to system security [C]// International Conference on Decision and Game Theory for Security, LNCS 7638. Berlin: Springer, 2012: 248-263. [11] PHAM V, CID C. Are we compromised? Modelling security assessment games [C]// International Conference on Decision and Game Theory for Security, LNCS 7638. Berlin: Springer, 2012: 234-247. [12] LASZKA A, HORVATH G, FELEGYHAZI M, et al. FlipThem: modeling targeted attacks with flipIt for multiple resources [C]// International Conference on Decision and Game Theory for Security, LNCS 8840. Berlin: Springer, 2014: 175-194. [13] ZHANG M, ZHENG Z Z, SHROFF N B. Stealthy attacks and observable defenses: a game theoretic model under strict resource constraints [C]// Proceedings of the 2014 IEEE Global Conference on Signal and Information Processing. Piscataway, NJ: IEEE, 2014: 813-817. [14] FENG X, ZHENG Z, HU P, et al. Stealthy attacks meets insider threats: a three-player game model [C]// Proceedings of the 2015 IEEE Military Communications Conference. Piscataway, NJ: IEEE, 2015: 25-30. [15] FENG X, ZHENG Z, CANSEVER D, et al. Stealthy attacks with insider information: a game theoretic model with asymmetric feedback [EB/OL]. [2016- 11- 22]. http://spirit.cs.ucdavis.edu/pubs/conf/xiaotao-milcom16.pdf. [16] FARHANG S, GROSSKLAGS J. FlipLeakage: a game-theoretic approach to protect against stealthy attackers in the presence of information leakage [C]// International Conference on Decision and Game Theory for Security, LNCS 9996. Berlin: Springer, 2016: 195-214. [17] 黃康宇,徐偉光.移動(dòng)目標(biāo)防御時(shí)間博弈相關(guān)研究介紹[J].軍事通信技術(shù),2016,37(4):98-102.(HUANG K Y, XU W G. Games of timing in moving target defense [J]. Journal of Military Communications Technology, 2016, 37(4): 98-102.) Attack-defensegamemodelforadvancedpersistentthreatswithasymmetricinformation SUN Wenjun1*, SU Yang1,2, CAO Zhen2 (1.KeyLaboratoryofNetwork&InformationSecurity,UniversityofthePeople’sArmedPoliceForce,Xi’anShaanxi710086,China;2.InstituteofInformationSecurity,UniversityofthePeople’sArmedPoliceForce,Xi’anShaanxi710086,China) To solve the problem of the lack of modeling and analysis of Advanced Persistent Threat (APT) attacks, an attack-defense game model based on FlipIt with asymmetric information was proposed. Firstly, the assets such as targeted hosts in the network system were abstracted as the target resource nodes and the attack-defense scenarios were described as the alternating control of the target nodes. Then, considering the asymmetry of the feedback information observed by the two sides and the incomplete defensive effect, the conditions of the payoff model and the optimal strategy of the attacker and defender were proposed in the case of renewal defense strategy. Besides, theorems of simultaneous and sequential equilibrium were proposed and demonstrated. Finally, numerical illustrations were given to analyze the factors of equilibrium strategy as well as defense payoff and to compare simultaneous and sequential equilibrium. The experimental results show that period strategy is defender’s best strategy and the defender can achieve sequential equilibrium meanwhile obtaining more payoffs compared with simultaneous equilibrium by announcing her defense strategy in advance. Conclusions show that the proposed model can theoretically guide defense strategy towards stealthy APT attacks. game theory; asymmetric information; network attack; Advanced Persistent Threat (APT); cyber security 2017- 03- 17; 2017- 04- 13。 國家自然科學(xué)基金資助項(xiàng)目(61402531);陜西省自然科學(xué)基礎(chǔ)研究計(jì)劃項(xiàng)目(2014JQ8358, 2015JQ6231, 2014JQ8307)。 孫文君(1994—),男,江西上饒人,碩士研究生,CCF會員,主要研究方向:信息安全、網(wǎng)絡(luò)攻防; 蘇旸(1975—),男,陜西西安人,教授,博士,CCF會員,主要研究方向:信息安全、網(wǎng)絡(luò)攻防; 曹鎮(zhèn)(1994—),男,山東菏澤人,碩士研究生,主要研究方向:信息安全、信息隱藏。 1001- 9081(2017)09- 2557- 06 10.11772/j.issn.1001- 9081.2017.09.2557 TP393.08 A This work is partially supported by the National Natural Science Foundation of China (61402531), the Natural Science Foundation Research Project of Shaanxi Province (2014JQ8358, 2015JQ6231, 2014JQ8307). SUNWenjun, born in 1994, M. S. candidate. His research interests include information security, network attack and defense. SUYang, born in 1975, Ph. D., professor. His research interests include information security, network attack and defense. CAOZhen, born in 1994, M. S. candidate. His research interests include image security, steganography.2 收益模型
3 理論分析
4 數(shù)例分析
5 結(jié)語