亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于Stackelberg安全博弈的動態(tài)防御策略選取方法

2020-09-04 03:15:56葛瀟月周天陽臧藝超朱俊虎

計算機工程與應用 2020年17期

關(guān)鍵詞：動作策略信息

葛瀟月，周天陽，2，臧藝超，朱俊虎，2

1.信息工程大學數(shù)學工程與先進計算國家重點實驗室，鄭州 450001

2.國家數(shù)字交換系統(tǒng)工程技術(shù)研究中心，鄭州 450001

1 引言

防御策略生成技術(shù)[1]通過分析潛在攻擊威脅，評估安全態(tài)勢，提供防御策略，對保障網(wǎng)絡系統(tǒng)安全有重要意義。現(xiàn)有的防御策略生成技術(shù)常分為靜態(tài)防御技術(shù)和動態(tài)防御技術(shù)。靜態(tài)防御技術(shù)[2]是發(fā)生在攻擊之后的一種被動防御技術(shù)。動態(tài)防御技術(shù)是通過態(tài)勢感知、風險評估、安全檢測等手段對當前網(wǎng)絡安全態(tài)勢進行判斷，并依據(jù)判斷結(jié)果實施網(wǎng)絡動態(tài)防御。動態(tài)防御技術(shù)相比于靜態(tài)防御技術(shù)能夠?qū)崟r識別網(wǎng)絡中存在的脆弱點和潛在的安全威脅，從而達到提前規(guī)避風險的目的。網(wǎng)絡攻防對抗的本質(zhì)可以抽象為攻防雙方相互博弈的過程，防御者所采取的防御策略是否有效，不僅要考慮自身安全需求，還應考慮攻擊者可能采取的攻擊策略和方法[3]。所以，基于博弈模型的防御策略生成方法相對于其他方法更能夠體現(xiàn)攻防雙方策略依存的關(guān)系，因此博弈模型在網(wǎng)絡防御策略生成技術(shù)中應用廣泛。

現(xiàn)有的基于博弈模型的防御策略生成技術(shù)可以分為靜態(tài)防御策略生成技術(shù)和動態(tài)防御策略生成技術(shù)。在網(wǎng)絡攻防對抗中，基于博弈模型的靜態(tài)防御策略生成技術(shù)的研究已經(jīng)十分成熟。文獻[2]構(gòu)建完全信息靜態(tài)博弈模型進行防御策略生成，將網(wǎng)絡對抗過程看成是雙方擁有完全信息并同時采取行動的零和博弈過程，并給出了零和博弈算法。不足之處在于在網(wǎng)絡對抗中使用完全信息靜態(tài)博弈模型，與實際的應用場景不夠貼切。文獻[4]建立了不完全信息靜態(tài)博弈模型對網(wǎng)絡防御策略選取方法進行了分析，但文獻中存在防御策略簡單，策略收益量化僅為假設的情況。為解決收益的問題，文獻[5]將網(wǎng)絡所受攻擊后的恢復時間作為收益來定義靜態(tài)博弈模型，并分析網(wǎng)絡安全性。上述文獻都是基于零和博弈進行的策略分析，有些學者認為網(wǎng)絡攻防行為可以采用非零和博弈進行策略的生成。文獻[6]認為網(wǎng)絡攻防行為中攻擊策略和防御策略相互影響，在此基礎(chǔ)上提出了一種基于博弈的網(wǎng)絡安全態(tài)勢感知方式，采用非零和博弈計算混合納什均衡并給出了策略選取結(jié)果。但由于該方法對安全態(tài)勢的定性分析較為片面，因此對于具體網(wǎng)絡攻防策略生成的實施操作較為困難。

基于博弈模型的動態(tài)防御策略生成方法比靜態(tài)防御策略生成方法能夠更好地描述網(wǎng)絡實時變化的情況。文獻[7]在網(wǎng)絡防御策略生成中引入動態(tài)博弈模型，基于動態(tài)博弈理論提出了完全信息和非完全信息兩種場景的攻防博弈算法，進行策略的生成，但基于完全信息假設建立的博弈模型在現(xiàn)實攻防場景中很難滿足。文獻[8]在網(wǎng)絡攻防對抗中提出了基于信號博弈的網(wǎng)絡攻防博弈模型，從動態(tài)不完全信息的角度對網(wǎng)絡攻防行為進行建模并給出信號博弈精煉貝葉斯均衡的求解過程。上述文獻是基于單階段博弈的策略生成技術(shù)。文獻[9]提出了一種基于操作系統(tǒng)動態(tài)遷移的多階段博弈模型，該模型是從攻擊方出發(fā)得到最優(yōu)策略。文獻[10]基于不完全信息動態(tài)博弈構(gòu)建的面向動態(tài)目標防御的單階段和多階段模型并給出了精煉貝葉斯均衡求解算法和先驗信息修正方法，求解出不同安全態(tài)勢下最優(yōu)動態(tài)防御策略。文獻[11]基于不完全信息動態(tài)博弈理論構(gòu)建多階段攻防信號博弈模型，解決了有限信息條件下，多階段網(wǎng)絡防御策略選取問題。但在對主動防御機制進行研究時主要考慮了信號的選取和釋放方式，并沒有考慮到其他的防御機制。在安全態(tài)勢評估的過程中文獻[12]提出了基于馬爾可夫博弈模型的風險評估方法，該方法考慮了雙方行為對風險的影響，動態(tài)地分析了潛在風險，文獻在安全態(tài)勢評估與預測子系統(tǒng)中進行了實現(xiàn)。

通過上述分析發(fā)現(xiàn)，基于博弈模型的防御策略生成技術(shù)雖解決了網(wǎng)絡中攻防雙方目標對立、策略依存和關(guān)系非合作性質(zhì)的描述，但無法刻畫攻防雙方的信息不對等特性。

本文將Stackelberg 安全博弈[13]引入到網(wǎng)絡攻防的過程中來解決攻防雙方信息不對等問題，進而得到最優(yōu)防御策略。首先分析網(wǎng)絡攻防過程中攻防雙方的信息不對等特性；依據(jù)攻防雙方策略交互的競態(tài)特性，構(gòu)建了基于Stackelberg安全博弈模型的安全策略計算模型，并利用了該模型求解網(wǎng)絡防御中的最優(yōu)防御策略；最后通過仿真實驗驗證并分析了該方法的有效性。

2 相關(guān)知識

2.1 Stackelberg安全博弈

Stackelberg博弈模型在20世紀30年代被提出，用于競態(tài)條件下的最優(yōu)策略生成[14]。如圖1所示，Stackelberg安全博弈模型主要包含領(lǐng)導者L和跟隨者F，L和F有各自的策略集合。L和F分別根據(jù)自身的策略在動作集合中選取動作a和d在環(huán)境中執(zhí)行。L和F會根據(jù)環(huán)境的變化情況調(diào)整自身的策略。當L或F在執(zhí)行策略時，只有一個動作，則稱為純策略，有多個動作且每個動作被選擇的概率為[0，1）時，則稱為混合策略[15]。在Stackelberg安全博弈中領(lǐng)導者首先確定自身的混合策略，跟隨者通過觀察得到領(lǐng)導者的策略信息，然后選擇能夠最大化自身收益的策略進行博弈，根據(jù)策略執(zhí)行動作跳轉(zhuǎn)到下一狀態(tài)。

圖1 Stackelberg安全博弈模型

在Stackelberg安全博弈[16]中，用x={xt}表示領(lǐng)導者的策略，其中xt是目標t的覆蓋概率，可行策略集合是X={0 ≤xt≤1}。當跟隨者發(fā)起攻擊時，領(lǐng)導者沒有對目標t進行保護，則跟隨者得到獎勵為，領(lǐng)導者得到懲罰為。當跟隨者發(fā)起攻擊時，領(lǐng)導者對此目標t進行保護，則領(lǐng)導者得到獎勵為，跟隨者得到懲罰為。根據(jù)收益向量[17](Ra,Pa)和(Rd,Pd)，得到跟隨者的預期收益(x,Ra,Pa)和領(lǐng)導者的預期收益(x,Rd,Pd)：

Stackelberg 安全博弈是在同時考慮領(lǐng)導者和跟隨者策略的情況下，最大化領(lǐng)導者收益的策略游戲。

2.2 馬爾可夫決策過程

馬爾可夫決策過程[18（]Markov Decision Process，MDP）是基于馬爾可夫理論的隨機動態(tài)系統(tǒng)的最優(yōu)決策過程。MDP可以表示為一個五元組(S,A,T,γ,R)，其中每個元素的定義如下：S為決策者在所處環(huán)境中所有可能狀態(tài)的有限集合。A為決策者能夠采取的動作集合。T(s,a,s′)∈[0,1]為當前狀態(tài)到下一狀態(tài)的轉(zhuǎn)移概率函數(shù)。γ∈[0,1)為折扣因子，可以保證無限步長的情況下回報的收斂性。R(s,a,s′)為回報函數(shù)，防御者在狀態(tài)s中采取動作a獲得回報。馬爾可夫決策過程的目標是獲得最大化期望的長期回報。為評估智能體策略，需要狀態(tài)-值函數(shù)。當智能體從狀態(tài)s開始并隨后執(zhí)行策略π時，在該策略下狀態(tài)s的狀態(tài)-值函數(shù)Vπ(s)定義為預期回報。

式（3）中T(s,a,s′)表示在當前狀態(tài)s和行為a時，轉(zhuǎn)移到下一狀態(tài)s′的概率，而R(s,a,s′)為當前狀態(tài)s和行為a下在狀態(tài)s′所得到的預期直接回報。一個最優(yōu)策略π*將使得智能體在所有狀態(tài)下獲得最大化的折扣未來回報，從而使得：

若智能體從狀態(tài)s開始并執(zhí)行最優(yōu)策略π*，則可獲得最優(yōu)狀態(tài)-值函數(shù)Vπ*(s)。

動作-值函數(shù)Qπ(s,a)可定義為在狀態(tài)s選擇了特定行為a之后，并執(zhí)行策略π而得到預期回報。在終止狀態(tài)時，狀態(tài)-值函數(shù)總為0，從而使得動作-值函數(shù)也總為0。動作-值函數(shù)Qπ(s,a)如下：

3 基于Stackelberg安全博弈的動態(tài)防御策略生成

本章首先對網(wǎng)絡模型進行形式化定義，說明模型的合理性，在給定的模型中使用Stackelberg安全博弈動態(tài)生成防御策略。

3.1 Stackelberg安全博弈模型在網(wǎng)絡攻防場景的適用性說明

在網(wǎng)絡場景中攻擊者和防御者對于網(wǎng)絡信息的了解程度不同。防御者首先通過部署安全策略對網(wǎng)絡環(huán)境進行保護，攻擊者通過探測確定網(wǎng)絡狀態(tài)進而實施攻擊。網(wǎng)絡場景信息通常包括：網(wǎng)絡連接情況、操作系統(tǒng)類型、端口信息、漏洞信息、主機上的應用和基礎(chǔ)設施等。

（1）防御者對于自身的端口信息、操作系統(tǒng)類型、網(wǎng)絡連接情況、主機上的應用和基礎(chǔ)設施等網(wǎng)絡信息的掌握程度有先天優(yōu)勢而攻擊者只能通過掃描等操作對網(wǎng)絡進行探測，推斷防御方的安全部署情況。所以在網(wǎng)絡場景中防御者對于場景信息的掌握程度要優(yōu)于攻擊者。

（2）在漏洞信息大多數(shù)是公開的情況下，由于防御者掌握著操作系統(tǒng)類型和主機上的應用等信息，所以相對攻擊者來說，防御者對網(wǎng)絡中的漏洞掌握情況要優(yōu)于攻擊者。

（3）在網(wǎng)絡場景中，防御者部署安全策略需要花費成本，防御者的目的是使用最小的成本最大程度地保護網(wǎng)絡的安全。

本文為體現(xiàn)攻防雙方在網(wǎng)絡攻防過程中信息不對等特性，將防御者定義為網(wǎng)絡環(huán)境中的領(lǐng)導者，攻擊者定義為網(wǎng)絡環(huán)境中的跟隨者。所以Stackelberg 安全博弈領(lǐng)導者-跟隨者模型適用于網(wǎng)絡攻防過程。

3.2 Stackelberg安全博弈的模型構(gòu)建

本文在模擬網(wǎng)絡環(huán)境時使用馬爾可夫決策過程對網(wǎng)絡環(huán)境進行建模。其中MDP的五元組(S,A,T,γ,R)，在此模型中的定義如下：

S，在狀態(tài)集合S中，每個狀態(tài)都是攻擊者和防御者所處網(wǎng)絡環(huán)境中可能存在的狀態(tài)。網(wǎng)絡環(huán)境中的狀態(tài)為網(wǎng)絡實體上的特權(quán)狀態(tài)，分為無任何特權(quán)、遠程訪問特權(quán)、本地用戶特權(quán)和根特權(quán)四種。

A，網(wǎng)絡模型中動作集合為防御者和攻擊者的所有動作集合。攻擊者動作為網(wǎng)絡中存在的弱點信息。防御者動作為防御策略庫中選取的防御動作。

T(s,a,s′)∈[0,1]，轉(zhuǎn)移概率函數(shù)描述了攻擊者和防御者在當前狀態(tài)s下進行動作a，到達下一個狀態(tài)s′的概率，轉(zhuǎn)移概率函數(shù)模擬了動作的隨機效應。這里的狀態(tài)轉(zhuǎn)移為網(wǎng)絡實體上的特權(quán)狀態(tài)變化，可以是單個節(jié)點上的權(quán)限提升也可以為網(wǎng)絡的橫向提升。在典型的攻防場景中，防御者在當前狀態(tài)采取防御動作跳轉(zhuǎn)到下一狀態(tài)，如果在網(wǎng)絡環(huán)境完全清楚的情況下則轉(zhuǎn)移到的狀態(tài)也是一定的，但在許多決策的過程中動作效果并不一定，這樣在狀態(tài)轉(zhuǎn)移的過程中就具有隨機性。狀態(tài)轉(zhuǎn)移函數(shù)具有馬氏性，可形式化描述成：

γ∈[0,1)，在網(wǎng)絡模型中，防御者進行策略選取時，當取γ接近于1的情況下，說明了防御者在進行策略選取的時候更關(guān)注于長遠的回報。

R(s,a,s′)，在網(wǎng)絡模型中將易被攻擊的節(jié)點設置成較大的正數(shù)。本文使用的回報值是參考漏洞的評分機制[19]來進行定義。

3.3 基于Stackelberg安全博弈的動態(tài)防御策略選取算法

在Stackelberg 安全博弈中攻擊者的目標是成功攻擊潛在主機，攻擊者完成攻擊任務后能夠得到較大收益。攻擊者在完成攻擊任務后可繼續(xù)對下一個目標進行攻擊。防御者的目的是對潛在主機進行保護，防御者在攻擊者對目標主機進行攻擊之前對于被攻擊主機進行有效防御才能夠獲得較大收益，視為防御成功，否則視為失敗。

本文中防御者的動作空間為Adef，攻擊者的動作空間為Aatt。當防御者選擇行為d∈Adef，攻擊者選擇行為a∈Aatt時，攻擊者收益的最大值定義為攻擊者的最優(yōu)響應函數(shù)RF(d)：

式中，為防御者與攻擊者策略組合為＜a,d ＞時攻擊者的收益值，這里可以同上文中的動作-值函數(shù)等價。＜d*,RF(d*)＞為Stackelberg 的均衡策略。在Stackelberg均衡策略中，博弈雙方具有先后順序選擇策略。當領(lǐng)導者在進行策略選擇時，得到雙方收益最大化的策略，雙方不能夠通過單獨調(diào)整自身策略來得到更高的收益。但如果出現(xiàn)多個策略對于跟隨者來說沒有區(qū)別的情況，最優(yōu)響應可能不唯一，這時需要在Stackelberg 均衡策略的基礎(chǔ)上計算Stackelberg 強均衡策略。在Stackelberg強均衡的情況下，當跟隨者有多個策略收益相同時，總是選擇對領(lǐng)導者最有利的策略[20]。Stackelberg 強均衡策略是所有Stackelberg 均衡策略中最大化領(lǐng)導者收益的策略。

在求解攻擊者最優(yōu)響應集合時，式（6）中轉(zhuǎn)移概率函數(shù)T(s,a,s′)完全已知，那么最佳策略可通過動態(tài)規(guī)劃算法[18]獲得。但在本文場景應用中，智能體所處的網(wǎng)絡環(huán)境中T(s,a,s′)是未知的，在此情況下不能通過動態(tài)規(guī)劃算法計算最優(yōu)策略。式（8）可通過式（9）迭代得到，從式（9）中可觀察到并沒有使用概率函數(shù)T(s,a,s′)。

本文需要考慮到的是多智能體的動作-值函數(shù)Q*(s,a1,a2,…,an)，這里以兩個智能體為例：

式中，di表示智能體ai的對手，Qi(s,ai,di)為智能體i和對手分別選擇行為ai∈Aatt和di∈Adef時的預期回報。

通過式（10）得到攻擊者的動作-值函數(shù)Qatt*(s,ddef,aatt)，其中ddef為，是防御者的行為集合，是攻擊者的行為集合。在狀態(tài)s下，計算防御者每種行為對應的攻擊者最優(yōu)響應行為集合RF(ddef)。

通過式（11）從攻擊者最優(yōu)響應行為集合中找到一個能夠最大化防御者收益的攻擊者行為。

式中防御者的動作-收益函數(shù)Qdef同樣是根據(jù)式（10）得到的。最后根據(jù)式（13）得到狀態(tài)s下防御者的最優(yōu)策略。

最終得到結(jié)果是確定狀態(tài)s下得到的防御者最優(yōu)策略，如算法1 所示。該算法在t=0 時刻，初始化每個智能體的Q值。在以后任意t時刻，防御者通過觀察周圍的環(huán)境得到最大化自身收益的動作，實現(xiàn)最優(yōu)防御策略的選取。算法中用來表示根據(jù)每一個狀態(tài)-動作對求解均衡的過程。

算法1

該算法核心為利用狀態(tài)-動作對求解均衡策略的過程。在模型中攻防狀態(tài)集合可擴展到n，攻防策略集合同樣也可以擴展到n，說明本文的模型具有較好的通用性。將本文方法與其他文獻中的方法進行對比，本文采取動態(tài)博弈的方法，相比采用靜態(tài)博弈的方法，能夠充分地考慮到攻防雙方行動的非同時性，更加符合實際需求；Stackelberg 安全博弈相比于單階段博弈，考慮了攻防雙方在博弈中信息變化的情況，更加貼近實際攻防場景；基于Stackelberg安全博弈的策略選取方法考慮到了攻防雙方在博弈的過程中信息不對特性，規(guī)避了網(wǎng)絡防御策略研究中攻防博弈雙方主體地位對等的先驗假設缺陷，更加貼近攻防實際情形。

4 實驗

4.1 實驗設置

為驗證前面所提出的基于Stackelberg 安全博弈強均衡策略算法能夠生成最優(yōu)防御策略，建立如圖2 所示的網(wǎng)絡拓撲結(jié)構(gòu)來模擬網(wǎng)絡攻防場景。實驗采用python作為主要的開發(fā)語言，實現(xiàn)了控制腳本和仿真場景運行。該實驗場景中，攻擊主機位于外部網(wǎng)絡，目標網(wǎng)絡為交換網(wǎng)絡，其中三臺計算機分別為數(shù)據(jù)庫服務器、文件服務器和Web服務器。安全防御規(guī)則限制外部網(wǎng)絡對目標網(wǎng)絡的訪問請求。攻擊者在攻擊主機上具有root權(quán)限，攻擊者的最終目的是獲取數(shù)據(jù)庫服務器的root 權(quán)限。根據(jù)防火墻規(guī)則如表1 所示，攻擊者在Web服務器和文件服務器上都有訪問權(quán)限，但對數(shù)據(jù)庫服務器卻沒有訪問權(quán)限。Web 服務器和文件服務器在數(shù)據(jù)庫服務器上具有訪問權(quán)限，這樣攻擊者可以根據(jù)服務器之間存在的依賴關(guān)系獲取數(shù)據(jù)庫服務器的訪問權(quán)限。

圖2 實驗場景

表1 防火墻規(guī)則

攻擊策略如表2所示，主要根據(jù)攻擊復雜度和漏洞評分綜合考慮得到，攻擊策略收益如表3所示，防御策略為其對應的補丁。為簡化實驗場景單純以漏洞來說明攻擊有效性，越是高危的漏洞，危險級別越高。防御策略收益如表4 所示。防御策略收益表中的影響是根據(jù)國家信息安全漏洞共享平臺中給出的危害級別中的漏洞評分參考而來的，成本是根據(jù)攻擊的復雜度給出的。

表2 攻擊策略

表3 攻擊策略收益

表4 防御策略收益

4.2 實驗結(jié)果及分析

根據(jù)表3 和表4 的數(shù)據(jù)，如果修補手段對于攻擊手段是有效的，那么防御者獲得收益為防御者的行動影響減防御者的成本，攻擊者的收益是其攻擊手段的成本；如果修補手段對攻擊手段是無效的，那么防御者的收益為防御者的成本減攻擊者的攻擊影響，得到的收益為負數(shù)，攻擊者的收益為攻擊者的行動影響減攻擊者的攻擊成本[21]。以此得到攻防收益矩陣如表5所示。利用基于Stackelberg 安全博弈的動態(tài)防御策略選取算法，得到防御策略可見，防御者的最優(yōu)防御策略為CNVD-2018-26054補丁，次優(yōu)防御策略為CNVD-2018-01084補丁。在實際應用中可以根據(jù)網(wǎng)絡環(huán)境、網(wǎng)絡安全需求，以及成本等因素來進行防御策略的選取，領(lǐng)導者可以使用混合策略，這樣能夠加強網(wǎng)絡系統(tǒng)的安全性，達到更好的防御狀態(tài)。

表5 收益矩陣

為證明采用Stackelberg均衡策略的必要性，將本文提出的方法和其他文獻進行對比，詳見表6。與本文對比的三個文獻中包含了完全信息博弈和不完全信息兩種博弈類型，單階段和多階段博弈兩種博弈過程。選擇不完全信息靜態(tài)博弈文獻[4]與本文進行對比，發(fā)現(xiàn)在利用上述博弈場景的情況下，基于場景模型的不完全信息靜態(tài)防御策略選取算法，得到最優(yōu)防御策略的均衡：即防御者的最優(yōu)防御策略是以概率選擇CNVD-2018-01084補丁，以概率選擇 CNVD-2018-26054 補丁，以概率選擇CNVD-2019-00243 補丁。通過實驗結(jié)果的對比可以看出Stackelberg 均衡策略是以最高概率選擇CNVD-2018-26054 補丁，次高的概率選擇CNVD-2018-01084 補丁，以最小概率選擇CNVD-2019-01604 補丁。文獻[4]則是以最高的概率選擇CNVD-2018-01084 補丁，以最小概率選擇CNVD-2019-01604 補丁。與國家信息安全漏洞共享平臺[19（]CNVD）中的安全研究情況對比CNVD-2018-26054補丁相比于CNVD-2018-01084補丁對網(wǎng)絡場景安全維護更加有必要。在有限成本的情況下進行最優(yōu)防御策略的選擇時，Stackelberg均衡策略相比于文獻[4]中的均衡策略能夠更加有效地對網(wǎng)絡系統(tǒng)進行防御，因此Stackelberg均衡策略更加符合。對比實驗結(jié)果表示采用Stackelberg 均衡策略在網(wǎng)絡攻防動態(tài)防御策略選取是必要的。

表6 對比實驗

5 結(jié)束語

本文首先分析在基于博弈模型的網(wǎng)絡安全防御技術(shù)的研究中并沒有考慮到網(wǎng)絡攻防雙方之間信息不對等的關(guān)系，提出了基于Stackelberg安全博弈的動態(tài)防御策略生成方法。實驗結(jié)果表明本文提出的算法能夠為網(wǎng)絡進行有效的防御提供參考。

本文的后續(xù)工作將圍繞以下幾個方面進行：一是擴展網(wǎng)絡模型，解決部分可觀測模型的構(gòu)建問題；二是算法的可擴展性，提升算法的適應范圍。