宋麗華,姜洋洋,邢長(zhǎng)友,張國(guó)敏
(陸軍工程大學(xué)指揮控制工程學(xué)院,江蘇 南京 210007)
作為 “價(jià)值在于被探查、攻擊或泄露的安全資源”[1],蜜罐被廣泛部署于網(wǎng)絡(luò)中以獲取攻擊者的相關(guān)信息,提升網(wǎng)絡(luò)系統(tǒng)的防御能力。為充分發(fā)揮蜜罐的誘捕能力,以及解決蜜罐策略的靜態(tài)性導(dǎo)致的易被攻擊者檢測(cè)工具識(shí)破并加以利用的問(wèn)題,現(xiàn)有研究主要關(guān)注蜜罐行為策略的適應(yīng)性增強(qiáng)。運(yùn)用博弈論和強(qiáng)化學(xué)習(xí)的馬爾可夫決策過(guò)程(MDP,Markov decision process)模型分析防御方與攻擊方的交互過(guò)程,優(yōu)化蜜罐對(duì)攻擊者命令的響應(yīng)策略是提高其適應(yīng)性的重要方法。
蜜罐動(dòng)作策略的優(yōu)化需要綜合考慮以下兩點(diǎn):一是盡可能延長(zhǎng)與攻擊者的交互,這要求蜜罐在動(dòng)作選擇方面盡可能與正常系統(tǒng)保持一致,從而避免引起攻擊者的懷疑;二是有意識(shí)地衡量攻擊者攻擊指令的潛在威脅,以免系統(tǒng)被攻破,這要求蜜罐不能為了降低攻擊者懷疑而一味地執(zhí)行攻擊指令,最終造成巨大的損失。因此蜜罐行為策略的適應(yīng)性增強(qiáng)體現(xiàn)在衡量上述收益和風(fēng)險(xiǎn),針對(duì)攻擊者可能采取的策略,選擇最佳的動(dòng)作響應(yīng)。
然而,現(xiàn)有對(duì)蜜罐行為策略的研究存在如下局限性。博弈論方面:一是蜜罐可選動(dòng)作較少,只考慮蜜罐的常規(guī)動(dòng)作響應(yīng),即執(zhí)行或者不執(zhí)行,沒(méi)有將新的蜜罐可采取動(dòng)作(如偽造輸出等)納入考慮,不符合現(xiàn)實(shí)情況;二是沒(méi)有綜合考慮攻防多輪交互的全過(guò)程,只關(guān)注某個(gè)階段,局部最優(yōu)不代表全局最優(yōu),單輪最優(yōu)策略可能導(dǎo)致博弈提前結(jié)束,損失后續(xù)博弈帶來(lái)的蜜罐收益;三是沒(méi)有考慮攻擊者對(duì)防御方類型信念的變化對(duì)攻防策略的影響,信念通過(guò)直接影響攻擊方期望收益計(jì)算從而影響攻擊者的策略選擇,根據(jù)貝葉斯法則,蜜罐通過(guò)不同的動(dòng)作選擇可以改變后續(xù)博弈的信念走向從而延續(xù)與攻擊方的交互,因此忽略信念的變化也就是忽略了蜜罐策略對(duì)后續(xù)博弈的影響,也容易導(dǎo)致蜜罐選擇局部最優(yōu)策略,喪失獲取更多輪收益的可能;四是傳統(tǒng)博弈求解方法難以處理大規(guī)模決策問(wèn)題。強(qiáng)化學(xué)習(xí)方面:一是傳統(tǒng)強(qiáng)化學(xué)習(xí)方法不適用于大規(guī)模決策問(wèn)題,求解能力有限;二是強(qiáng)化學(xué)習(xí)的研究只適用于固定策略的惡意軟件,面對(duì)可動(dòng)態(tài)調(diào)整策略的高級(jí)攻擊者可能不存在最優(yōu)解,很難學(xué)得穩(wěn)定的防御策略。
面對(duì)可動(dòng)態(tài)調(diào)整策略的高級(jí)攻擊者,為增強(qiáng)蜜罐行為策略適應(yīng)性應(yīng)該利用博弈模型描述交互過(guò)程,結(jié)合實(shí)際情況細(xì)化博弈要素定義,綜合博弈全過(guò)程考慮單個(gè)決策節(jié)點(diǎn)的動(dòng)作選擇,并尋求大規(guī)模決策問(wèn)題求解方法。
本文將博弈論和深度強(qiáng)化學(xué)習(xí)進(jìn)行結(jié)合,對(duì)蜜罐博弈模型進(jìn)行了改進(jìn),并根據(jù)深度強(qiáng)化學(xué)習(xí)方法深度反事實(shí)遺憾最小化(Deep-CFR,deep counterfactual regret minimization)思想設(shè)計(jì)了求解博弈近似混合策略均衡的算法。本文的主要貢獻(xiàn)如下。
1) 引入攻擊方信念,將蜜罐與攻擊者交互過(guò)程建模為多輪次不完全信息動(dòng)態(tài)博弈模型,允許蜜罐偽造輸出欺騙攻擊者,而攻擊者對(duì)欺騙證據(jù)具有一定的識(shí)別能力。
2) 綜合博弈全過(guò)程求解了攻防雙方純策略均衡。
3) 為求解混合策略均衡,以最小化動(dòng)作選擇導(dǎo)致的收益遺憾值為目標(biāo),設(shè)計(jì)實(shí)現(xiàn)了基于Deep-CFR 的近似求解算法。
蜜罐行為策略的適應(yīng)性增強(qiáng)方法中應(yīng)用最廣的是博弈論和強(qiáng)化學(xué)習(xí)方法。博弈論方面,Wagener等[2]以安全外殼(SSH,secure shell)協(xié)議攻擊為應(yīng)用背景,利用多輪動(dòng)態(tài)博弈模型建模SSH 蜜罐與攻擊者的交互過(guò)程,蜜罐的動(dòng)作空間包括執(zhí)行攻擊指令(允許)與不執(zhí)行攻擊指令(阻塞),最后通過(guò)求解均衡得到了蜜罐的最優(yōu)阻塞概率。Hayatle 等[3]以僵尸網(wǎng)絡(luò)為應(yīng)用背景,利用多輪次不完全信息動(dòng)態(tài)博弈建模蜜罐和僵尸主控機(jī)之間的交互過(guò)程,均衡結(jié)果表明蜜罐不能更新其響應(yīng)策略,隨時(shí)間推移一定會(huì)被攻擊者識(shí)別為蜜罐。王鵑等[4]提出了一種博弈論、軟件定義網(wǎng)絡(luò)(SDN,software defined network)和docker 技術(shù)融合的動(dòng)態(tài)蜜罐設(shè)計(jì)方案,該方案是一個(gè)包括低、中、高交互蜜罐的混合蜜罐,通過(guò)攻防雙方不完全信息動(dòng)態(tài)博弈計(jì)算出均衡解,確定選擇何種蜜罐以何種行為應(yīng)對(duì)。
上述研究中,文獻(xiàn)[2]通過(guò)固定攻擊方策略求解蜜罐的最優(yōu)策略,文獻(xiàn)[3]只求解了蜜罐在單輪博弈過(guò)程的最佳動(dòng)作選擇,并且兩者在建模時(shí)均只定義了蜜罐的簡(jiǎn)單動(dòng)作空間,沒(méi)有考慮整個(gè)交互過(guò)程中攻擊方信念的變化以及這種變化對(duì)攻防雙方動(dòng)作選擇的影響;文獻(xiàn)[4]雖涉及了蜜罐的具體行為,但主要優(yōu)化的是蜜罐類型的選擇,屬于部署策略的優(yōu)化,同時(shí)其按攻擊階段將博弈全過(guò)程分成多個(gè)單輪博弈,求解單輪博弈均衡。
強(qiáng)化學(xué)習(xí)方面,Wagener 等[5]設(shè)計(jì)了Heliza 蜜罐,此后開(kāi)發(fā)出了很多具有代表性的強(qiáng)化學(xué)習(xí)蜜罐,如基于深度Q 網(wǎng)絡(luò)算法開(kāi)發(fā)的SSH 高交互蜜罐系統(tǒng)[6-7]、基于逆向強(qiáng)化學(xué)習(xí)開(kāi)發(fā)的物聯(lián)網(wǎng)蜜罐[8]、針對(duì)自動(dòng)重復(fù)惡意軟件開(kāi)發(fā)的蜜罐[9]和結(jié)合攻擊嚴(yán)重性分析的Modified-Cowrie[10]。強(qiáng)化學(xué)習(xí)蜜罐的共同做法是將攻擊者建模為環(huán)境的一部分,通過(guò)不斷交互學(xué)得針對(duì)攻擊方固定策略的最佳響應(yīng),這意味著其只適用于固定策略的攻擊方,在應(yīng)對(duì)策略可變的攻擊方方面不如博弈論方法有效,很可能無(wú)法學(xué)得穩(wěn)定的蜜罐策略。但是這些工作在定義攻防動(dòng)作方面更加細(xì)致,其定義了蜜罐制造虛假輸出欺騙攻擊者的可選動(dòng)作,若攻擊者發(fā)出下載攻擊工具的指令,蜜罐可以選擇替換其中的部分比特,讓攻擊者相信其執(zhí)行了指令,同時(shí)導(dǎo)致攻擊工具不可用,或者輸出偽造的更常出現(xiàn)的故障信息(如網(wǎng)頁(yè)無(wú)法找到等),而不是簡(jiǎn)單地返回下載指令的錯(cuò)誤代碼,在阻塞攻擊指令執(zhí)行的同時(shí),避免大幅度提升攻擊方對(duì)防御方類型為密罐的懷疑。這種偽造輸出欺騙的行為會(huì)帶有一定的欺騙證據(jù),攻擊方對(duì)欺騙證據(jù)也具有一定的識(shí)別能力,如Pawlick等[11-12]基于存在蜜罐的網(wǎng)絡(luò)中防御方選擇暴露每個(gè)系統(tǒng)的類型或偽裝系統(tǒng)的場(chǎng)景,利用信號(hào)博弈建模攻防雙方的交互。該工作討論了2 種場(chǎng)景:攻擊方對(duì)防御方發(fā)送的虛假信息不具備識(shí)別能力以及具備一定的識(shí)別能力,最后分別得到了相關(guān)均衡結(jié)果。然而其目標(biāo)并非蜜罐行為策略的優(yōu)化,且只考慮了單輪博弈過(guò)程的均衡求解。
無(wú)論是博弈論還是強(qiáng)化學(xué)習(xí)的現(xiàn)有研究,都因?yàn)槭褂脗鹘y(tǒng)博弈求解方法和傳統(tǒng)強(qiáng)化學(xué)習(xí)算法而在處理大規(guī)模決策問(wèn)題方面能力有限?,F(xiàn)有研究開(kāi)發(fā)出了解決大型不完全信息博弈的深度強(qiáng)化學(xué)習(xí)算法,其利用深度神經(jīng)網(wǎng)絡(luò)的函數(shù)近似功能使算法成功地?cái)U(kuò)展到大型狀態(tài)動(dòng)作空間,并能收斂到近似混合策略均衡。因此,將基于深度強(qiáng)化學(xué)習(xí)的近似混合策略與博弈模型結(jié)合,既能彌補(bǔ)傳統(tǒng)強(qiáng)化學(xué)習(xí)方法在應(yīng)對(duì)策略可動(dòng)態(tài)調(diào)整攻擊方的不足,又能針對(duì)大規(guī)模博弈問(wèn)題學(xué)得穩(wěn)定的蜜罐最優(yōu)策略。
基于上述問(wèn)題,本文將攻防動(dòng)作空間拓展,基于多輪次非合作不完全信息動(dòng)態(tài)博弈模型構(gòu)建帶有欺騙證據(jù)的蜜罐博弈模型(HoneyED,honeypot game with evidence for deception):防御方可以偽造輸出信息變相阻止攻擊命令的執(zhí)行,但是這種偽造并非無(wú)法識(shí)別,攻擊方可以對(duì)防御方的輸出采取相關(guān)手段進(jìn)行驗(yàn)證,并以一定的概率識(shí)別出防御方的欺騙行為;攻擊方對(duì)對(duì)手的真實(shí)身份(蜜罐或生產(chǎn)系統(tǒng))有一定的信念,并根據(jù)防御方響應(yīng)實(shí)時(shí)更新這一信念,信念會(huì)影響攻擊方的動(dòng)作選擇。
攻擊方動(dòng)作空間。攻擊方有兩類動(dòng)作:一是攻擊(attack),即發(fā)送攻擊命令讓防御方執(zhí)行,其中帶有攻擊工具和攻擊目標(biāo)等信息;二是退出(exit),即斷開(kāi)與蜜罐的連接,中途退出博弈。
防御方動(dòng)作空間。防御方有四類動(dòng)作:一是允許(allow),即執(zhí)行攻擊命令,并返回實(shí)際輸出信息;二是阻塞(block),即不執(zhí)行攻擊命令,并返回常規(guī)的錯(cuò)誤代碼;三是虛假允許(f-allow),即不執(zhí)行攻擊命令,針對(duì)攻擊命令偽造輸出信息造成攻擊成功的假象;四是虛假阻塞(f-block),即不執(zhí)行攻擊命令,針對(duì)攻擊命令偽造最有可能的阻塞信息,以緩解由阻塞導(dǎo)致的攻擊方懷疑大幅度增長(zhǎng)。
欺騙證據(jù)。針對(duì)防御方的反饋信息,攻擊方能以一定的概率識(shí)別出其欺騙行為。對(duì)于虛假允許和虛假阻塞,驗(yàn)證后的攻擊方分別以pva和pvb概率識(shí)別出欺騙行為,識(shí)別出欺騙行為的攻擊方將選擇退出。HoneyED 博弈模型要素定義如表1 所示。
表1 HoneyED 博弈模型要素定義
HoneyED 博弈過(guò)程如圖1 所示。帶有初始信念分布的攻擊者首先評(píng)估兩類動(dòng)作的期望收益,選擇是否進(jìn)行攻擊以及進(jìn)行何種攻擊。若攻擊者選擇退出則博弈結(jié)束,否則蜜罐根據(jù)收到的攻擊命令選擇動(dòng)作響應(yīng);若蜜罐選擇偽造信息,攻擊方將以一定的概率識(shí)別出欺騙行為,并直接退出博弈,否則攻擊方認(rèn)為其是真實(shí)的攻擊執(zhí)行信息或阻塞信息,并根據(jù)反饋信息修改其對(duì)防御方類型的信念分布,繼續(xù)評(píng)估兩類動(dòng)作的價(jià)值并選擇下一步動(dòng)作,直到其選擇中途退出或者完成攻擊任務(wù)退出博弈。博弈過(guò)程由多個(gè)博弈階段組成,每個(gè)階段稱為一輪博弈。攻防雙方各執(zhí)行一次動(dòng)作即進(jìn)行了一輪博弈,隨后攻擊方更新信念進(jìn)入下一輪博弈。
圖1 HoneyED 博弈過(guò)程
本節(jié)假設(shè)攻擊方完成任務(wù)需要防御方成功執(zhí)行n(n≥1)次允許動(dòng)作,理論推導(dǎo)求解攻防純策略均衡。
考慮攻擊方只需要一個(gè)攻擊指令被成功執(zhí)行即可完成任務(wù)的情況,本文稱之為帶有欺騙證據(jù)的一步蜜罐博弈(1SA-HoneyED,honeypot game with evidence for deception that requires one successful action)。圖2 給出了1SA-HoneyED 博弈過(guò)程,其中,攻擊方前期通過(guò)偵察確定網(wǎng)絡(luò)中的任一臺(tái)主機(jī)部署蜜罐的概率為P0。即使在一步蜜罐博弈中,博弈過(guò)程仍有可能包含多個(gè)交互輪次(一輪博弈),例如,攻擊方發(fā)送的前幾個(gè)命令全部被蜜罐偽造阻塞輸出,而攻擊方未能識(shí)別出來(lái),直到最后一個(gè)命令被蜜罐允許執(zhí)行才得以攻擊成功而退出。
圖2 中,空心圓圈表示決策點(diǎn),黑色實(shí)心圓圈表示博弈結(jié)束,虛線方框表示以初始信念P0開(kāi)始的一輪博弈(攻擊方和防御方各執(zhí)行一次動(dòng)作)。若蜜罐選擇block 或者f-block 而未被識(shí)別,博弈將以攻擊方后驗(yàn)信念P′重新開(kāi)始新的一輪;若蜜罐選擇allow 或者f-block 而未被識(shí)別,或者f-allow(無(wú)論是否被識(shí)別),將導(dǎo)致攻擊方認(rèn)為自己完成了攻擊任務(wù)或者確認(rèn)對(duì)方為蜜罐而選擇退出博弈,導(dǎo)致博弈結(jié)束。從博弈開(kāi)始(初始信念P0)到博弈結(jié)束的完整過(guò)程稱為一個(gè)1SA-HoneyED。
圖2 1SA-HoneyED 博弈過(guò)程
關(guān)于1SA-HoneyED,有以下結(jié)論。
定理11SA-HoneyED 是有限博弈。
1SA-HoneyED 結(jié)束有以下可能:一是攻擊方認(rèn)為自己完成任務(wù),由防御方選擇allow 和f-allow 未被識(shí)別導(dǎo)致;二是攻擊方發(fā)現(xiàn)了欺騙行為,直接認(rèn)定防御方為蜜罐選擇退出,由f-allow 被識(shí)別和f-block 被識(shí)別導(dǎo)致。博弈進(jìn)入下一輪的條件是蜜罐選擇block 或者選擇f-block 而未被識(shí)別,判斷博弈是否為有限過(guò)程需要分析這2 種情況下博弈過(guò)程是否能一直持續(xù)。下面,給出這2 種情況一定導(dǎo)致1SA-HoneyED 結(jié)束的證明,為此先證明4 個(gè)引理。
引理11SA-HoneyED 中,allow 和f-allow 不是每輪博弈中蜜罐的最優(yōu)動(dòng)作。
證明若蜜罐在第n輪博弈中選擇allow 或者f-allow,其獲得的總期望收益為l a-ra-c d和l a-c d-cfa,選擇block 將至少獲得l a-cd的總收益,因?yàn)?/p>
所以第n輪蜜罐選擇allow 或f-allow 獲得的并不是最大總收益,從而allow 或f-allow 也不是最優(yōu)動(dòng)作。證畢。
引理21SA-HoneyED 中,攻擊方對(duì)防御方為蜜罐的懷疑隨博弈輪次單調(diào)上升。
證明假設(shè)第n輪攻擊方懷有初始信念Pn,后驗(yàn)信念為。若蜜罐選擇f-block,該輸出有pvb的概率被攻擊方識(shí)別并直接退出,因此當(dāng)面臨攻擊方無(wú)法識(shí)別的f-block 輸出時(shí),其認(rèn)為蜜罐產(chǎn)生此輸出的可能性是Pn(1 -pvb),而真實(shí)生產(chǎn)系統(tǒng)產(chǎn)生此輸出的可能性是pt2(1 -Pn),因此后驗(yàn)信念更新為
若蜜罐選擇block,則
引理 31SA-HoneyED 中,當(dāng)信念增長(zhǎng)到時(shí),攻擊方的最優(yōu)動(dòng)作是選擇exit退出博弈。
證明基于引理1 和引理2 分析攻擊方收益,假設(shè)某輪攻擊方懷有初始信念Pn。用fattack(Pi)表示以Pi為初始信念的一步蜜罐博弈攻擊方能獲得的總期望收益,已知每輪蜜罐不會(huì)選擇allow 或f-allow,若蜜罐選擇block,攻擊方獲得即時(shí)期望收益為
若蜜罐選擇f-block,則
引理4隨著蜜罐不斷選擇block 和f-block 未被識(shí)別,攻擊方信念一定達(dá)到。
證明由引理2 可得,攻擊方信念隨博弈輪次單調(diào)上升,按照式(2)和式(3)更新,且通過(guò)式(2)和式(3)的比較可得,對(duì)于同一先驗(yàn)信念,block 導(dǎo)致的后驗(yàn)信念更大,因此需證明蜜罐不斷選擇f-block未被識(shí)別將導(dǎo)致攻擊方信念達(dá)到。由于后驗(yàn)信念也是下一輪的先驗(yàn)信念,因此用Pn+1重新表示。由式(3)可得
定理1 證明過(guò)程如下。由于f-block 未被識(shí)別和block 會(huì)導(dǎo)致攻擊方信念不斷增長(zhǎng),當(dāng)信念至多增長(zhǎng)到時(shí),攻擊方應(yīng)該選擇exit 中途退出博弈,可以得到 f-block 未被識(shí)別和 block 一定導(dǎo)致1SA-HoneyED 結(jié)束,因此1SA-HoneyED 是有限博弈。
表2 1SA-HoneyED 的均衡結(jié)果
用類似的方法對(duì)帶有欺騙證據(jù)的兩步及n步蜜罐博弈進(jìn)行分析,即攻擊方需要成功執(zhí)行兩次和n(n≥3)次行動(dòng)才完成任務(wù)的博弈,分別簡(jiǎn)寫為2SA-HoneyED 和nSA-HoneyED,得到的結(jié)論陳述如下,因篇幅限制,此處省略證明和分析過(guò)程。
定理22SA-HoneyED 是有限博弈。
定理3nSA-HoneyED 是有限博弈。
由于2SA-HoneyED 中當(dāng)蜜罐選擇allow 或者f-allow 后博弈將跳轉(zhuǎn)到1SA-HoneyED,因此基于1SA-HoneyED 的均衡收益,可以得到假設(shè)條件和2SA-HoneyED 均衡結(jié)果分別如表3 和表4 所示,表4 僅展示其中3 種情況及其對(duì)應(yīng)的假設(shè)條件組合。為表示方便,用表示攻擊方退出博弈的信念閾值,用η表示
表3 假設(shè)條件
表4 2SA-HoneyED 均衡結(jié)果
分析3.1 節(jié)和3.2 節(jié)得到的均衡結(jié)果,本節(jié)可以得到如下趨勢(shì)性結(jié)論。
1) 信念過(guò)大將導(dǎo)致攻擊方中途退出博弈。
2) 由于block 和f-block 將大幅度增加攻擊方信念,因此若攻擊方完成任務(wù)需要多步,為引誘攻擊方繼續(xù)攻擊,避免其中途退出,蜜罐一開(kāi)始應(yīng)執(zhí)行或虛假執(zhí)行攻擊指令。
3) 當(dāng)攻擊方將要完成攻擊任務(wù)時(shí),為降低風(fēng)險(xiǎn),蜜罐應(yīng)阻塞或虛假阻塞攻擊指令。
4) 當(dāng)攻擊方欺騙識(shí)別能力較低時(shí),由于虛假動(dòng)作能有效降低風(fēng)險(xiǎn),因此蜜罐傾向于選擇虛假動(dòng)作,隨著攻擊方欺騙識(shí)別能力的提高,虛假動(dòng)作被識(shí)破風(fēng)險(xiǎn)增大,導(dǎo)致后續(xù)博弈收益減小,蜜罐選擇真實(shí)輸出操作。
隨著完成任務(wù)步數(shù)的增加,分類討論情況增多,針對(duì)攻擊方識(shí)別能力得出對(duì)應(yīng)均衡解的難度加大,即使2SA-HoneyED 也很難列舉出所有可能情況的純策略均衡。因此,需要設(shè)計(jì)算法以攻擊方完成任務(wù)步數(shù)及識(shí)別能力為參數(shù)自動(dòng)求解均衡策略。
純策略均衡是混合策略均衡的特例,考慮到混合策略可以給其他博弈參與人造成不確定性,不易被對(duì)方準(zhǔn)確猜測(cè)等特點(diǎn),本節(jié)基于Deep-CFR 設(shè)計(jì)實(shí)現(xiàn)近似混合策略均衡求解算法,并構(gòu)建執(zhí)行混合均衡策略的攻防智能體。
反事實(shí)遺憾最小化(CFR,counterfactual regret minimization)算法[13]是目前流行的大型不完美信息博弈的近似均衡求解算法,其基本思路是計(jì)算在信息集s 下執(zhí)行動(dòng)作a 所獲得的收益與信息集s 的價(jià)值之間的差異,即遺憾值,來(lái)調(diào)整在狀態(tài)s 下執(zhí)行動(dòng)作a 的概率,通過(guò)最小化單個(gè)信息集的遺憾值來(lái)實(shí)現(xiàn)最小化全局遺憾值的目的。CFR 算法記錄每一次迭代中智能體在信息集s 的動(dòng)作選擇概率,利用其得到近似所有迭代過(guò)程動(dòng)作選擇概率的平均策略。Deep-CFR[14]利用神經(jīng)網(wǎng)絡(luò)的強(qiáng)大擬合能力,構(gòu)建價(jià)值網(wǎng)絡(luò)估計(jì)遺憾值,利用監(jiān)督學(xué)習(xí)構(gòu)建策略網(wǎng)絡(luò)來(lái)近似所有迭代過(guò)程的平均策略,最終訓(xùn)練得到的策略網(wǎng)絡(luò)就是執(zhí)行混合均衡策略的攻防智能體。
目前研究主要將Deep-CFR 應(yīng)用于德州撲克游戲的策略優(yōu)化,這類游戲的特點(diǎn)是參與人收益固定(贏或輸),且博弈過(guò)程中不涉及信念的更新。本文在Deep-CFR 的基礎(chǔ)上,面向nSA-HoneyED 重新設(shè)計(jì)模擬博弈流程,得到nSA-HoneyED 近似混合策略均衡求解算法(nSA-HoneyED-AMSEA,approximate mixed strategy equilibrium algorithm fornSA-HoneyED)。
原Deep-CFR 算法包括2 個(gè)部分:使用遍歷數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò)的外層算法Deep-CFR 和用于模擬博弈的遍歷算法TRAVERSE,Deep-CFR 調(diào)用TRAVERSE獲得價(jià)值樣本和策略樣本。nSA-HoneyED-AMSEA 在原TRAVERSE 的基礎(chǔ)上增加了信念更新和收益計(jì)算環(huán)節(jié),得到帶有信念更新模擬博弈遍歷算法(TRAVERSE-BU,TRAVERSE algorithm with belief updating)。TRAVERSE-BU 在每一輪攻防雙方根據(jù)價(jià)值網(wǎng)絡(luò)選擇動(dòng)作后,基于先驗(yàn)信念計(jì)算攻防雙方的即時(shí)收益,然后根據(jù)貝葉斯法則計(jì)算后驗(yàn)信念,用于下一輪即時(shí)收益的計(jì)算和信念的進(jìn)一步更新,最后綜合相關(guān)即時(shí)收益計(jì)算對(duì)應(yīng)信息集的遺憾值。詳細(xì)過(guò)程如算法1 和圖3 所示。
圖3 TRAVERSE-BU 算法流程
算法1帶有信念更新的CFR 博弈遍歷算法
本節(jié)通過(guò)仿真實(shí)驗(yàn)檢驗(yàn)算法的有效性,驗(yàn)證所得策略的最優(yōu)性。
4.2.1 實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)基于SSH 攻擊場(chǎng)景,參考文獻(xiàn)[6,15]提出的量化方法確定博弈模型各要素取值,設(shè)定攻擊方完成任務(wù)需要2 步。為探討攻擊方欺騙識(shí)別能力大小對(duì)雙方策略的影響,考慮3 種欺騙識(shí)別概率組合:{pvb= 0.2,pva=0.4}、{pvb=0.4,pva=0.8}和{pvb=0.7,pva= 0.8},分別代表低、中、高欺騙識(shí)別能力。
SSH 攻擊中,攻擊方可以執(zhí)行系統(tǒng)信息查詢、攻擊工具下載、攻擊工具運(yùn)行等攻擊指令,其中起決定性作用的是攻擊工具的下載與運(yùn)行,而蜜罐能從攻擊工具下載和運(yùn)行中獲得關(guān)于攻擊方工具庫(kù)地址和攻擊工具使用的相關(guān)有用信息?;谶@一分析,對(duì)攻防雙方動(dòng)作空間進(jìn)行簡(jiǎn)化,僅針對(duì)攻擊方輸出攻擊工具下載與執(zhí)行指令優(yōu)化蜜罐策略。其中,attack 表示攻擊方執(zhí)行攻擊工具下載與執(zhí)行指令,allow、block、f-allow 和f-block表示蜜罐的響應(yīng)動(dòng)作,即正常執(zhí)行、返回錯(cuò)誤代碼、偽造文件(如替換原始下載文件中的部分比特等)、偽造阻塞信息輸出(如網(wǎng)頁(yè)無(wú)法找到等)。
神經(jīng)網(wǎng)絡(luò)輸入長(zhǎng)度為128 的歷史動(dòng)作序列,采用Adam 優(yōu)化器實(shí)現(xiàn)網(wǎng)絡(luò)參數(shù)更新,每一次迭代模擬博弈10 次。實(shí)驗(yàn)參數(shù)設(shè)置如表5 所示。
表5 實(shí)驗(yàn)參數(shù)設(shè)置
4.2.2 算法收斂性分析
圖4 展示了在{pvb=0.7,pva= 0.8}組合下2SAHoneyED-AMSEA 運(yùn)行過(guò)程中損失值隨訓(xùn)練過(guò)程的變化情況。從圖4 可以看出,3 000 次訓(xùn)練即可達(dá)到良好的收斂效果。由于攻擊方動(dòng)作空間較小,因此攻擊方價(jià)值網(wǎng)絡(luò)比防御方收斂得快。
圖4 在{pvb=0.7,pva= 0.8}組合下2SA-HoneyED-AMSEA運(yùn)行過(guò)程中損失值隨訓(xùn)練過(guò)程的變化情況
4.2.3 兩步博弈均衡結(jié)果分析
圖5 展示了3 種欺騙識(shí)別概率組合下2SAHoneyED-AMSEA 運(yùn)行得到的動(dòng)作選擇概率。圖5中,S 表示博弈開(kāi)始,A 表示攻擊方?jīng)Q策,D 表示蜜罐決策,N 表示“自然”,黑色實(shí)心節(jié)點(diǎn)表示博弈結(jié)束。圖5 只展示了概率大于0.1 的動(dòng)作,且只畫出了選擇最大概率動(dòng)作的博弈過(guò)程。
圖5 顯示,欺騙輸出動(dòng)作雖然能減少即時(shí)風(fēng)險(xiǎn),但是也減少了獲得后續(xù)博弈收益的概率,因此隨著攻擊方識(shí)別能力的增強(qiáng),后續(xù)博弈收益逐漸降低,蜜罐越來(lái)越傾向于選擇真實(shí)輸出。而在導(dǎo)致蜜罐更改最優(yōu)策略的攻擊方識(shí)別能力閾值上,實(shí)驗(yàn)與理論分析結(jié)果基本一致,詳細(xì)分析如下。
首先,理論分析可以得到1SA-HoneyED 中攻擊方退出博弈的信念閾值為。而圖5中當(dāng)在1SA-HoneyED中蜜罐選擇f-block或block導(dǎo)致信念大于0.3時(shí),攻擊方均以較大概率選擇退出博弈,說(shuō)明以最大化期望收益為目的攻擊方確實(shí)存在退出博弈的信念閾值,與理論分析結(jié)果契合。
另一方面,當(dāng)pva= 0.8時(shí),蜜罐均選了allow;當(dāng)pva= 0.4時(shí),蜜罐選擇了f-allow,這一點(diǎn)也與理論分析吻合。后者表明當(dāng) 1-pva<pt1且后驗(yàn)信念大于時(shí),若≈0.44,則蜜罐將在2SA-HoneyED 中選擇f-allow,不選擇 allow。類似地,理論分析知≈0.78且后驗(yàn)信念小于(低、中、高欺騙識(shí)別概率組合中該值分別為0.04、0.06 和0.11)時(shí),蜜罐將在1SA-HoneyED 中選擇f-block,否則選擇block。圖5 顯示這3 個(gè)閾值在實(shí)驗(yàn)中分別是0.06、0.09 和0.10,與理論結(jié)果相近。以低欺騙識(shí)別概率組合為例,實(shí)驗(yàn)閾值比理論閾值大是因?yàn)閷?shí)驗(yàn)中雙方采取的是混合策略,f-block引起的懷疑較小,更容易導(dǎo)致攻擊方繼續(xù)攻擊從而獲得后續(xù)博弈收益,所以蜜罐更傾向于選擇f-block;而高欺騙識(shí)別概率組合中實(shí)驗(yàn)閾值比理論閾值小是因?yàn)閜vb較大,f-block 和block都將大概率導(dǎo)致攻擊方退出,而block 動(dòng)作成本更小。
圖5 3 種欺騙識(shí)別概率組合下2SA-HoneyED-AMSEA 運(yùn)行得到的動(dòng)作選擇概率
4.2.4 蜜罐策略的最優(yōu)性
本節(jié)考察算法輸出蜜罐策略的最優(yōu)性,為此將其與三類常見(jiàn)策略進(jìn)行對(duì)比:局部最優(yōu)(只選擇每一輪博弈的最優(yōu)動(dòng)作,即block)、偽裝(采取與生產(chǎn)系統(tǒng)相同的動(dòng)作選擇概率,即allow、f-block、block分別為0.89、0.10、0.01)和虛假偽裝策略(在偽裝策略的基礎(chǔ)上用f-allow 代替allow,即f-allow、f-block、block 分別為0.89、0.10、0.01)。實(shí)驗(yàn)中攻擊方采用算法訓(xùn)練出的智能體。圖6 展示了對(duì)應(yīng)的蜜罐收益。
圖6 蜜罐收益對(duì)比
從圖6 可以看出,采用算法輸出的策略時(shí)蜜罐收益最大。對(duì)此分析如下:攻擊方在信念達(dá)到閾值后將退出博弈,而f-block 和block 均會(huì)導(dǎo)致信念的大幅度增長(zhǎng),因此局部最優(yōu)策略沒(méi)有綜合考慮博弈全過(guò)程,實(shí)際上只能獲得一輪收益;而偽裝策略沒(méi)有考慮在攻擊方欺騙識(shí)別能力較低時(shí),f-allow 相對(duì)于allow 能獲得更大的收益,同時(shí)在攻擊方將要完成任務(wù)時(shí),block 相對(duì)于allow是更好的選擇;虛假偽裝策略則沒(méi)有考慮隨著欺騙識(shí)別能力的提高,欺騙輸出動(dòng)作逐漸喪失優(yōu)勢(shì);算法輸出策略綜合博弈全過(guò)程考慮了信念對(duì)攻擊方策略的影響,能在盡量不提高攻擊方懷疑的基礎(chǔ)上針對(duì)攻擊方的欺騙識(shí)別能力選擇最佳動(dòng)作,獲得最大的收益??梢哉f(shuō),算法能根據(jù)攻擊方策略和欺騙識(shí)別能力,適應(yīng)性選擇最佳動(dòng)作,得到近似最優(yōu)策略。
4.2.5 攻擊任務(wù)復(fù)雜度對(duì)蜜罐策略的影響
用攻擊方完成任務(wù)所需成功執(zhí)行攻擊命令數(shù)量代表攻擊任務(wù)的復(fù)雜度,本節(jié)檢查該變量對(duì)蜜罐最優(yōu)策略的影響。圖 7 展示了欺騙組合概率{pvb=0.2,pva= 0.4}下攻擊方分別需要成功執(zhí)行2 次、4 次、8 次攻擊時(shí)的實(shí)驗(yàn)結(jié)果。
從圖7 可以看出,當(dāng)博弈為2SA 時(shí),蜜罐在初始博弈階段以較大概率選擇f-allow,而后以較大概率選擇f-block;當(dāng)博弈為4SA 時(shí),蜜罐在初始階段以較大概率選擇allow,且概率逐漸減小,f-allow的概率增大,而后以較大概率選擇f-block;當(dāng)博弈為8SA 時(shí),蜜罐在初始階段以更大概率選擇allow,而后變化趨勢(shì)與4SA 一致。
圖7 欺騙組合概率{pv b=0.2,pv a= 0.4}下攻擊方分別需要成功執(zhí)行2 次、4 次、8 次攻擊時(shí)的實(shí)驗(yàn)結(jié)果
由于欺騙輸出動(dòng)作會(huì)以一定概率被攻擊方識(shí)別,導(dǎo)致蜜罐是否獲得后續(xù)博弈收益呈現(xiàn)一定的概率(連續(xù)選擇3 次f-allow,后續(xù)攻防博弈繼續(xù)進(jìn)行的概率為 (1-pva)3),因此當(dāng)博弈所需成功執(zhí)行攻擊命令的次數(shù)增加時(shí),蜜罐一開(kāi)始將更加堅(jiān)定地選擇allow,接著攻擊方剩余攻擊次數(shù)逐漸減小,蜜罐更傾向于選擇f-allow,攻擊方信念逐漸上升,選擇exit的概率越來(lái)越大,從而導(dǎo)致蜜罐更關(guān)注即時(shí)收益的獲取,轉(zhuǎn)而選擇f-block。
蜜罐行為策略的優(yōu)化是提升蜜罐欺騙性能的重要因素,博弈論為其提供了很好的分析框架。然而,現(xiàn)有博弈模型動(dòng)作簡(jiǎn)單、沒(méi)有綜合考慮博弈全過(guò)程、不符合實(shí)際攻防情況,同時(shí)所推導(dǎo)出的蜜罐策略只關(guān)注該輪收益的最大化,容易導(dǎo)致蜜罐喪失后續(xù)博弈帶來(lái)的更多收益,為此本文建立了帶有欺騙證據(jù)的蜜罐博弈機(jī)制,將蜜罐動(dòng)作空間拓展,增加欺騙輸出動(dòng)作,并關(guān)注博弈全過(guò)程中攻擊方對(duì)防御方類型信念的變化。針對(duì)具有不同欺騙識(shí)別能力的攻擊方,本文求解了攻防純策略均衡,并設(shè)計(jì)了基于Deep-CFR 的近似混合策略均衡求解算法。實(shí)驗(yàn)表明,所提算法結(jié)果與理論分析相契合,面對(duì)欺騙識(shí)別能力弱的攻擊方,蜜罐更傾向于采用欺騙輸出動(dòng)作。下一步工作包括進(jìn)一步細(xì)化攻防雙方的動(dòng)作空間,優(yōu)化智能求解算法。