彭偉 劉曉明 彭輝 余沛毅
近年來,各國一直在尋求一種體系對體系、多波次對多波次以及快速變化的策略集合條件下的攻防技術(shù)[1].美國人最先將博弈理論和博弈模型引入到計算機網(wǎng)絡攻防對抗的研究之中,并產(chǎn)生了廣泛的反響.
南加州理工大學的TEAMCORE研究小組一直致力于安全博弈領域的研究,其負責人Tambe[2]提出用Stackelberg Game Model來解決安全博弈中的一些安全防御問題,該模型也被用于網(wǎng)絡安全領域中,取得了一定的效果.2014年,其成員Rong Yang的博士論文中用改進的隨機最優(yōu)響應(Quantal Response,QR)模型來建模網(wǎng)絡對抗中人類對手行為[3?4],并用實驗數(shù)據(jù)來訓練行為模型以估計模型的參數(shù),該模型在實際的網(wǎng)絡防御中取得了良好的效果,不過該模型只適用于標準形式的博弈,即一次性的網(wǎng)絡對抗,對多回合的網(wǎng)絡攻防并不適用.
Camerer等長期從事博弈領域的認知模型研究,并提出一種自動調(diào)節(jié)的經(jīng)驗權(quán)重吸引(Experience-Weighted Attraction,EWA)學習模型[5?7],該模型綜合了信念學習和強化學習的優(yōu)勢,在一些經(jīng)典的重復博弈案例中表現(xiàn)出了較好的預測能力.
我國網(wǎng)絡攻防技術(shù)研究起步較晚,博弈論用于網(wǎng)絡攻防的研究相對國外要少一些.哈爾濱工業(yè)大學的姜偉博士[8]在2010年的博士論文中提出了一種基于攻防隨機博弈模型的防御策略選取算法.該方法旨在刻畫網(wǎng)絡安全攻防矛盾動態(tài)變化,為攻防雙方在多個攻防狀態(tài)動態(tài)尋找最優(yōu)攻防策略,不過該模型停留在算法層次上.
網(wǎng)絡攻防博弈在很多情況下雙方的較量并不是一次性的,而是多次的.所以也需要從有限次重復博弈的角度來對攻擊方的行為進行建模.
在有限次重復博弈人類行為研究方面,主要采用強化學習、信念學習、EWA學習等3種學習模型.這3種模型具有各自的優(yōu)缺點[9?10]:信念學習模型沒有考慮自己的策略行動對其他參與者的影響,因而不能較好地反映重復博弈的動態(tài)過程;強化模型只是簡單地對成功或者失敗的經(jīng)驗進行強化,沒有考慮未被采用的策略,適應性稍差;EWA學習模型則考慮了過去成功和失敗經(jīng)驗對博弈決策的影響.
攻擊者可以選擇多種策略進行攻擊,通常的攻擊策略有如下幾種:
1)Speed,攻擊者希望快速攻擊使得自己迅速得手,即在防御者發(fā)現(xiàn)或作出反應之前就取得成功.
2)Stealth:攻擊者選擇隱藏自己避免被發(fā)現(xiàn).
3)Deception:攻擊者欺騙防御者,使得防御者在錯誤防御中浪費資源.
4)Random:用隨機方式進行攻擊.
5)Least resistance:攻擊者用最簡單經(jīng)濟的方式攻擊.
防御者在防御過程中采取的策略如下:
1)Dissuasion:采取勸說的方法.
2)Prevention:建立虛假資源防止攻擊者攻擊或誘騙攻擊者攻擊無價值的目標.
3)Prevention:防御者建立防護體系來預防攻擊.
4)Repair:通過檢測發(fā)現(xiàn)系統(tǒng)中的漏洞,采取修復的方法來降低風險.
5)Exploitation:判定攻擊方的防御是否存在漏洞,從防御轉(zhuǎn)為主動攻擊.
在網(wǎng)絡攻防的過程中,假定我方是防御者,那么如何能夠正確地預見攻擊者未來可能的行為在網(wǎng)絡防御中變得非常重要,下面將重點討論攻擊者行為模型的構(gòu)建.
國外的學者在標準形式的博弈(一次性博弈)中對人的理性進行了分級[11].本文在理性分級的基礎上,對網(wǎng)絡攻擊者再次進行劃分,即追求長遠利益的攻擊者和追求短期利益的攻擊者.按照這兩個原則劃分后,實際上可以將攻擊者分為4類.從直覺上來說,這4類攻擊者的行為模型應該是有差別的,因此,需要正確地對這4類人進行建模.
將攻擊者分成4類,分別構(gòu)建4類攻擊者的決策行為模型.具體如下:
1)對于思考等級低且追求長期利益的攻擊者(長遠近視攻擊者),這類攻擊者不僅會根據(jù)過去的歷史經(jīng)驗來學習,也會把未來的因素考慮到其中,因此借鑒EWA學習方法來建模.
2)對于思考等級高且追求長期利益的攻擊者(長遠老練攻擊者),這類攻擊者被稱之為Sophistication,他們有教授(Teaching)的能力,能夠引導和帶動其他參與者進行學習,因此,建立這類攻擊者的行為模型時應考慮他們的Teaching能力.
3)對于思考等級低且追求短期利益的攻擊者(短期近視攻擊者),借鑒增強學習的方法來建模,即這類攻擊者只會根據(jù)過去的歷史經(jīng)驗來學習和做決策.
4)對于思考等級高且追求短期利益的攻擊者(短期老練攻擊者),運用隨機最優(yōu)響應均衡(Quantal Response Equilibrium,QRE)[11?12]的相關理論來進行建模.
根據(jù)上面的分類,假定短期者的比例為s,短期老練者的比例為sp,那么短期近視者的比例為s(1?p);同理假設長遠者的比例為1?s,那么長遠老練者的比例為(1?s)q,則長遠近視者的比例為(1?s)(1?q).
其他符號說明:
λLM:長遠近視攻擊者的理性級別;
λLS:長遠老練攻擊者的理性級別;
λSM:短期近視攻擊者的理性級別;
λSS:短期老練攻擊者的理性級別;
其中λLM,λLS,λSM,λSS的取值在(0,+∞)之間,值越大,代表理性級別越高.
假設目前攻防雙方所處的輪次為t輪,那么需要重點求解在t+1輪,各種類型的攻擊者會采用什么樣的策略.
長遠近視攻擊者不僅會根據(jù)過去的歷史經(jīng)驗來學習,也會把未來的因素考慮到其中,因此,本文借鑒了Ho,Camerer和Chong等人提出的EWA模型[5].
EWA學習模型的基本思路:假設有n個博弈參與者,參與者用i來表示,i=1,2,···n.參與者i有mi種策略,其策略空間用Si,即是個體策略空間組成的博弈策略空間,第i個參與者第k個策略(用表示)的初始魅力值為(0),參與者和其他博弈參與者在t時期選擇的策略分別為si(t)和s?i(t),參與者i選擇策略si(t)的收益值為πi((t)),其第k個策略t時期魅力值為(t),t時期的經(jīng)驗權(quán)重為N(t),(t)和N(t)都是隨著時間發(fā)生變化(或更新).t時期的策略魅力值(t)是由上一期經(jīng)驗權(quán)重N(t?1)和選擇策略的當期收益值πi((t))來負責更新.Camerer等人將策略魅力值的(t)和經(jīng)驗權(quán)重的更新方程構(gòu)建如下:
其中,φ是魅力值衰退系數(shù),博弈中隨著對手、環(huán)境不同或者遺忘等原因?qū)е虏呗缘挠行韵陆?φ在0~1之間取值.
I(.)是指標函數(shù),取值為1或者0,如果si(t)和相等,則I取值為1,反之為0.
δ是被放棄收益的權(quán)重,δ取值在0~1之間.
ρ是魅力值增長控制系數(shù),模型用ρ表示不同模型對博弈學習過程策略魅力值增長的影響.ρ取值在0~1之間.
在網(wǎng)絡攻防博弈中,參與博弈的實際上只有兩方,即攻擊者和防御者,現(xiàn)在我們重點要求的是攻擊者的可能策略.攻擊者選取的策略為上文中列出的5種(甚至更多)之一.φ,δ,ρ的取值根據(jù)實際的案例來確定.在完成魅力值的計算以后,還需要確定攻擊者在t+1輪究竟選取哪種攻擊策略.此時,可以根據(jù)logit規(guī)則來確定,即:
式(2)給出了攻擊者各種策略的選擇概率,在實際應用時策略的選擇根據(jù)各種策略的選擇概率而確定,通常是概率越大,選擇的概率越高.下面其他3個模型類似.
長遠老練攻擊者會將剩下輪次中的總收益最大化,這也是他們跟短期老練攻擊者的顯著區(qū)別.
攻擊者i選擇k策略的收益結(jié)構(gòu)如下:
Vi(t+1|r(t+1))代表博弈過程中t+1輪次后所有剩下輪次的預先估計值(基于防御者的后驗信念來確定的).其值可以根據(jù)下列公式來確定.
其中,Kt≡{kt,kt+1,···,kT}.
最終,攻擊者各種策略的選擇概率由下列公式來確定:
這類攻擊者的特點是根據(jù)過去的歷史經(jīng)驗來學習,因此,采用自適應的學習模型比較合適.對于這類攻擊者,其策略主要是根據(jù)前面多輪次的經(jīng)驗來選擇的,因此,可以采用強化學習模型.實際的模型以3.1節(jié)的模型為基礎,當δ=0,ρ=1,N(0)=1時,EWA模型退化為強化學習模型.此時,
在此基礎上,攻擊者的策略選擇依然是以logit規(guī)則來確定,即:
短期老練攻擊者會追求短期內(nèi)的最高收益,因此,其攻擊行為模型可以參考QRE來建立.其策略選擇模型如下:
其中πi((t))代表第i個攻擊者選擇k策略時的收益值.
以上4個行為模型都是根據(jù)logit規(guī)則給出的,如果(t+1)的值越大,那么說明攻擊者i在第t+1輪選擇k策略的概率就越高.
λLM,λLS,λSM,λSS分別代表各種類型攻擊者的理性級別,根據(jù)先前的假設,老練攻擊者的理性級別比近視攻擊者的理性級別高;長遠攻擊者比短期攻擊者的理性級別高.在觀察和分析200次的實際網(wǎng)絡攻防中網(wǎng)絡攻擊者的攻擊行為數(shù)據(jù)之后,我們給出的估計是λLS和λSS在(2.5,4)之間,λLM和λSM在(0.5,2)之間.
根據(jù)200次實際攻防數(shù)據(jù)的統(tǒng)計分析,大致估算出短期攻擊者的比例為70%?80%,長期攻擊者的比例為20%?30%.4種類型攻擊者的實際比例如下:
1)短期近視攻擊者的比例為50%~60%;
2)短期老練攻擊者的比例為15%~25%;
3)長期近視攻擊者的比例為15%~20%;
4)長期老練攻擊者的比例為4%~9%.
φ,δ,ρ的取值跟具體的應用案例有關系,在本文的試驗中φ取0.2,δ取0.25,ρ取0.7.
我們用另外100組實際網(wǎng)絡攻防的數(shù)據(jù)對建立的行為模型進行了分析,比較對象是單純的QRE模型和強化學習(Reinforcement Learning,RL)模型,分別比較了在博弈多次之后的預測準度.
表1 3種行為模型的預測準確度對比
根據(jù)表1的試驗數(shù)據(jù),當博弈的輪次比較小的時候,QRE的預測準度比較高,但是隨著輪次的增加,QRE的準度并沒有明顯增加;強化學習和我們的行為模型在博弈輪次較低時,預測準度稍低,隨著博弈次數(shù)的增加,預測準度也增大,我們給出的行為模型在博弈次數(shù)到10次以后,預測準度要明顯的高于強化學習模型.
本文所構(gòu)建的攻擊者行為模型比較適合博弈輪次比較多的情況.實際的網(wǎng)絡攻防博弈過程中,作為防御者而言,對手究竟是哪種類型的攻擊者一開始并不明確,因為敵在暗處.在實際運用時,可以根據(jù)之前設定的比例來假定攻擊者屬于哪種類型.由于初始判斷不一定準確,在最前面的幾輪博弈中可能會產(chǎn)生一些誤差,為了提高效率,還可以采用其他方法,比如聲譽模型等,根據(jù)前幾輪攻擊者的攻擊特點來判斷攻擊者的真實類型,從而更有效地提高預測的準度.