姚鵬超,顏秉晶,郝唯杰,楊強(qiáng)
(浙江大學(xué) 電氣工程學(xué)院,浙江 杭州 310027)
隨著信息通信技術(shù)的發(fā)展,傳統(tǒng)電力系統(tǒng)的物理電氣設(shè)備逐漸與網(wǎng)絡(luò)設(shè)備(如控制、監(jiān)控、計(jì)算和通信設(shè)備)相結(jié)合,逐漸演化為電力信息物理系統(tǒng)(cyber-physical power system, CPPS)[1]。因此,來(lái)自信息網(wǎng)絡(luò)的攻擊正在不斷對(duì)CPPS造成新的威脅與挑戰(zhàn),與常規(guī)僅僅停留在信息層面的網(wǎng)絡(luò)攻擊不同,對(duì)CPPS的網(wǎng)絡(luò)攻擊可能會(huì)對(duì)工業(yè)控制系統(tǒng)的物理過程造成破壞,導(dǎo)致工業(yè)過程停工或嚴(yán)重的傷亡事故[2-3]。例如,2015年攻擊者使用惡意郵箱攻擊烏克蘭電網(wǎng)控制中心,植入BlackEnergy病毒,配合DDOS攻擊導(dǎo)致烏克蘭電網(wǎng)大規(guī)模停電[4-5]。CPPS遭受網(wǎng)絡(luò)攻擊時(shí)的后果往往達(dá)到災(zāi)難級(jí)別,目前對(duì)于CPPS遭受網(wǎng)絡(luò)攻擊時(shí)的入侵容忍能力要求越來(lái)越高。
在CPPS網(wǎng)絡(luò)安全問題越來(lái)越突出的情況下,建立一種針對(duì)CPPS的網(wǎng)絡(luò)可靠性模型以評(píng)估CPPS的入侵容忍能力,并據(jù)此建立有效的防御體系是降低網(wǎng)絡(luò)攻擊影響的關(guān)鍵手段[6-7]。針對(duì)CPPS的信息物理融合的可靠性建模方法,國(guó)內(nèi)外已做了很多相關(guān)工作。文獻(xiàn)[8]從研究對(duì)象演化和研究方法層面對(duì)CPPS的可靠性評(píng)估研究展開綜述,提出了信息物理融合視角下CPPS可靠性評(píng)估的研究思路和關(guān)鍵問題。文獻(xiàn)[9]建立了一種電力-信息交互模型,探究電力信息物理系統(tǒng)交互機(jī)理及其對(duì)可靠性評(píng)估帶來(lái)的影響。文獻(xiàn)[10]主要考慮在信息失效威脅條件下的CPPS可靠性評(píng)估方法。文獻(xiàn)[11]提出了一種將CPPS物理特性和信息流性能耦合在一個(gè)兩層模型中的復(fù)合馬爾可夫模型,在流量層面評(píng)估電力系統(tǒng)的可靠性。文獻(xiàn)[12]提出了一種考慮最優(yōu)防御資源配置的電力系統(tǒng)可靠性網(wǎng)絡(luò)安全保險(xiǎn)模型,將CPPS的可靠性以保險(xiǎn)的形式報(bào)價(jià)評(píng)估。文獻(xiàn)[13]基于蒙特卡洛方法,對(duì)信息系統(tǒng)和物理系統(tǒng)的可靠性進(jìn)行評(píng)價(jià)并建立可靠性評(píng)估測(cè)試系統(tǒng),分析了網(wǎng)絡(luò)故障對(duì)可靠性的影響。文獻(xiàn)[14]建立一種可靠性模型以捕獲來(lái)自物理和信息組件的損害并評(píng)估組件之間的信息物理相互依賴的影響。
現(xiàn)有的CPPS可靠性評(píng)估方法存在簡(jiǎn)化甚至缺少信息層面的建模過程的問題,在可靠性分析中很少涉及網(wǎng)絡(luò)空間模型的細(xì)節(jié)[15-18]。本文提出了一種CPPS入侵容忍能力評(píng)估方法,以半馬爾可夫鏈(semi-markov chain,SMC)[12]為基礎(chǔ)對(duì)高級(jí)可持續(xù)威脅(APT)攻擊進(jìn)行建模,具體分析來(lái)自網(wǎng)絡(luò)層面的攻擊對(duì)CPPS的破壞滲透過程。并利用隨機(jī)博弈理論模型動(dòng)態(tài)描述CPPS中攻防雙方的交互過程,預(yù)測(cè)納什均衡下攻擊者的最優(yōu)進(jìn)攻策略,確定應(yīng)對(duì)惡意攻擊的最佳防御策略。最后以某CPPS安全試驗(yàn)場(chǎng)為例仿真驗(yàn)證了入侵容忍能力評(píng)估方法的有效性。本工作有如下創(chuàng)新貢獻(xiàn)。
(1)為深入細(xì)致地描述來(lái)自網(wǎng)絡(luò)層面的攻擊對(duì)CPPS的滲透過程,本文以網(wǎng)絡(luò)攻擊中的APT攻擊鏈為基礎(chǔ)構(gòu)建半馬爾可夫鏈模型,具體詳細(xì)地刻畫APT攻擊的每一階段。
(2)以隨機(jī)博弈為基礎(chǔ)動(dòng)態(tài)描述CPPS中攻防雙方的交互過程,采用強(qiáng)化學(xué)習(xí)算法求解納什均衡,預(yù)測(cè)攻擊者在APT攻擊中的最優(yōu)進(jìn)攻策略,制定最優(yōu)防御策略。
(3)提出了一種CPPS入侵容忍能力評(píng)估方法,在有限防御資源條件下提出了一種最優(yōu)資源分配方案,為高可靠性CPPS網(wǎng)絡(luò)的防御機(jī)制設(shè)計(jì)提供一定借鑒。
典型的電力工業(yè)控制系統(tǒng)具有明顯的分層結(jié)構(gòu),可分為網(wǎng)絡(luò)層與物理層,網(wǎng)絡(luò)層又自上而下分為辦公網(wǎng)絡(luò)、生產(chǎn)管理網(wǎng)絡(luò)、生產(chǎn)控制網(wǎng)絡(luò)[19]。以圖1 的CPPS安全試驗(yàn)場(chǎng)網(wǎng)絡(luò)架構(gòu)為例,其辦公網(wǎng)絡(luò)包含Web服務(wù)器、辦公自動(dòng)化(office automation,OA)服務(wù)器、郵箱服務(wù)器等設(shè)備,主要功能為提供Web服務(wù)、辦公自動(dòng)化與郵箱服務(wù)。生產(chǎn)管理網(wǎng)絡(luò)包含生產(chǎn)控制站、設(shè)備管理站等設(shè)備,主要功能為自動(dòng)化管理控制過程與設(shè)備。生產(chǎn)控制網(wǎng)絡(luò)包含工程師站、操作員站等設(shè)備,主要功能為組態(tài)開發(fā)以及通過控制協(xié)議與控制器的直接通信。物理層包括由傳感設(shè)備、控制設(shè)備、執(zhí)行設(shè)備等設(shè)備組成的物理網(wǎng)絡(luò),其基于微縮裝置模擬了大型火力發(fā)電場(chǎng)景:通過燃燒煤加熱水,形成水蒸氣給鍋爐加壓,增加的空氣壓力使閥門打開排氣,推動(dòng)電機(jī)旋轉(zhuǎn)發(fā)電。
圖1 CPPS安全試驗(yàn)場(chǎng)網(wǎng)絡(luò)架構(gòu)Fig. 1 The network architecture for a CPPS Testbed
由于電力工業(yè)控制系統(tǒng)不同網(wǎng)絡(luò)之間存在網(wǎng)絡(luò)隔離與防火墻規(guī)則限制,攻擊者想要破壞電力系統(tǒng)的物理過程,一般需要從辦公網(wǎng)絡(luò)發(fā)動(dòng)攻擊并逐步滲透直至取得主機(jī)權(quán)限。如圖2所示,攻擊者首先需要利用漏洞攻擊辦公層的Web服務(wù)器等設(shè)備獲取內(nèi)部局域網(wǎng)的權(quán)限,再依次滲透至生產(chǎn)管理網(wǎng)絡(luò)與生產(chǎn)控制網(wǎng)絡(luò),最后對(duì)電力系統(tǒng)的物理運(yùn)行過程進(jìn)行破壞。
圖2 網(wǎng)絡(luò)滲透模型Fig. 2 The cyber penetration model
傳統(tǒng)的IT領(lǐng)域一般只考慮通信和計(jì)算機(jī)的安全問題,即圖2中的網(wǎng)絡(luò)層,然而,網(wǎng)絡(luò)攻擊一旦滲透到物理層,就會(huì)對(duì)電力系統(tǒng)造成巨大的破壞。因此為提高CPPS的入侵容忍能力,需要對(duì)來(lái)自網(wǎng)絡(luò)層的攻擊給予更多的重視。
攻擊者持續(xù)滲透攻擊CPPS的過程中,會(huì)經(jīng)歷多個(gè)進(jìn)攻階段, APT攻擊鏈模型中將網(wǎng)絡(luò)攻擊分為信息偵查、武器構(gòu)建、載荷攻擊、漏洞利用、安裝植入、命令控制6個(gè)階段,其中關(guān)鍵在于發(fā)現(xiàn)并利用主機(jī)上存在的漏洞[20]。在攻擊者滲透攻擊的過程中,防御者也會(huì)進(jìn)行入侵檢測(cè),裝備入侵檢測(cè)系統(tǒng)(intrusion detection system,IDS)、防火墻等防御設(shè)施,修復(fù)自身存在的漏洞來(lái)抵御攻擊。
以APT攻擊鏈模型為基礎(chǔ),本節(jié)采用半馬爾科夫鏈模型對(duì)CPPS的攻擊入侵過程進(jìn)行建模,評(píng)估CPPS的入侵容忍能力。圖3描繪了由一系列狀態(tài)組成的網(wǎng)絡(luò)攻擊入侵過程,狀態(tài)集可以表示為其中為轉(zhuǎn)移狀態(tài),為吸收狀態(tài),描述如表1所示。
表1 SMC狀態(tài)描述Table 1 The state description of SMC
圖4描述了SMC模型中攻擊者發(fā)動(dòng)APT攻擊的詳細(xì)流程,右側(cè)表示當(dāng)前流程在圖3中所對(duì)應(yīng)的狀態(tài)。APT攻擊鏈的一次攻擊過程可以描述為〈?→ Ci→ Vi→ Hi〉,分別代表著從初始狀態(tài)進(jìn)行信息偵查、武器構(gòu)建進(jìn)入到內(nèi)網(wǎng),到載荷攻擊、漏洞利用,再到安裝植入、命令控制從而獲得主機(jī)權(quán)限。攻擊者的最終目的是對(duì)CPPS的物理過程進(jìn)行破壞,一般需要完整進(jìn)行4次APT攻擊才能進(jìn)入到物理網(wǎng)絡(luò)并進(jìn)行破壞。
圖3 半馬爾科夫鏈APT攻擊模型Fig. 3 The SMC model of APT attack
圖4 APT攻擊流程示意Fig. 4 The diagram of APT attack process
在本文中,基于APT攻擊鏈的SMC模型共有23個(gè)狀態(tài),圖3中同樣說(shuō)明了不同狀態(tài)之間相應(yīng)的轉(zhuǎn)移概率,定義轉(zhuǎn)移概率矩陣,大小為23×23,用于描述不同狀態(tài)之間的轉(zhuǎn)換關(guān)系,為矩陣中第列第行的元素,滿足
表2 SMC轉(zhuǎn)移概率Table 2 The transition probability of SMC
將CPPS遭受APT攻擊并最終物理發(fā)電過程遭受破壞的持續(xù)時(shí)間表示為CPPS的平均失效時(shí)間,以評(píng)估CPPS的入侵容忍能力[12]。在整個(gè)滲透攻擊過程中,攻擊者在每一個(gè)轉(zhuǎn)移狀態(tài)上都可能會(huì)停留數(shù)次,將定義為在轉(zhuǎn)移狀態(tài)上的停留次數(shù),為在狀態(tài)上的平均停留時(shí)間,其值根據(jù)試驗(yàn)場(chǎng)實(shí)際攻防演練時(shí)在每一狀態(tài)的平均花費(fèi)時(shí)間經(jīng)驗(yàn)值得到。計(jì)算方法為
其中停留次數(shù)遵循關(guān)系為
CPPS的可靠度是指從CPPS開始正常運(yùn)行至某一時(shí)刻t 這段時(shí)間內(nèi)正常運(yùn)行的概率,用表示??煽慷瓤捎蒀PPS的故障率計(jì)算[21]得到
隨機(jī)博弈是由一系列狀態(tài)組成的多個(gè)參與者進(jìn)行的具有狀態(tài)概率轉(zhuǎn)移的動(dòng)態(tài)博弈,在每一狀態(tài)下,參與者可以從動(dòng)作集中選擇不同的動(dòng)作,并獲得取決于當(dāng)前狀態(tài)與行動(dòng)的收益[22]。每一狀態(tài)的博弈過程可以分解為矩陣博弈,并根據(jù)動(dòng)作概率分布轉(zhuǎn)移到下一狀態(tài)。假定攻防雙方的目的都是為了取得最大化的收益,即均為絕對(duì)理性。本節(jié)采用隨機(jī)博弈模型來(lái)預(yù)測(cè)求解攻擊方在進(jìn)行APT攻擊時(shí)的最優(yōu)策略,以及防御方在防御時(shí)的最優(yōu)防御策略[23]。
CPPS遭受攻擊者破壞物理過程需要成功進(jìn)行4次APT攻擊,劃分4次博弈狀態(tài) S ={S1,S2,S3,S4},分別代表在辦公網(wǎng)絡(luò)、生產(chǎn)管理網(wǎng)絡(luò)、生產(chǎn)控制網(wǎng)絡(luò)、物理網(wǎng)絡(luò)中攻防交互過程。博弈攻防雙方分別表示攻擊者與防御者,攻防雙方動(dòng)作集為代表攻防雙方動(dòng)作的策略集合即選擇動(dòng)作的概率分布;分別代表攻防雙方動(dòng)作花費(fèi)時(shí)間集合;與分別代表攻防雙方的效益函數(shù)。CPPS的隨機(jī)博弈模型為G=
在CPPS中,攻擊者和防御者彼此沒有對(duì)方完整的信息,本文選擇采用強(qiáng)化學(xué)習(xí)的算法來(lái)求解博弈的納什均衡策略。因?yàn)樵搱?chǎng)景中涉及2個(gè)智能體,所以在此采用minimax極大極小方法和-learning相結(jié)合的minimax-算法[25-26]。首先,minimax-采用極大極小法,通過線性規(guī)劃求解每個(gè)特定狀態(tài)的矩陣博弈的納什均衡策略,最后運(yùn)用-learning方法迭代學(xué)習(xí)狀態(tài)值和最優(yōu)策略。狀態(tài)時(shí)攻擊者的狀態(tài)值定義為
這意味著攻擊者在與防守者的博弈中最大化了最壞情況下的期望收益,式(10)可用線性規(guī)劃來(lái)計(jì)算矩陣博弈的納什均衡解。
表3 矩陣博弈Table 3 The matrix game
其中,當(dāng)攻擊成功時(shí)攻擊者會(huì)得到W1~ W4的正收益,根據(jù)矩陣博弈可預(yù)測(cè)求解攻擊者在APT攻擊初始階段的使用不同攻擊手段的概率分布{α1,α2,α3}。則防御者在網(wǎng)絡(luò)邊界處部署不同的防御設(shè)備時(shí)的概率分布為
本節(jié)以CPPS安全試驗(yàn)場(chǎng)為例,驗(yàn)證入侵容忍能力評(píng)估與防御資源最優(yōu)配置方法的有效性。
CPPS安全試驗(yàn)場(chǎng)模擬了真實(shí)場(chǎng)景下自上而下的工業(yè)控制系統(tǒng)控制過程。攻擊者試圖通過辦公網(wǎng)絡(luò)逐步滲透至工控系統(tǒng),操縱傳感器或是控制器來(lái)破壞火力發(fā)電過程。防御者對(duì)設(shè)備上的漏洞進(jìn)行修補(bǔ)防止攻擊者滲透利用,并在網(wǎng)絡(luò)邊界處安裝防火墻或入侵檢測(cè)系統(tǒng)來(lái)防御攻擊者入侵。試驗(yàn)場(chǎng)具有開展網(wǎng)絡(luò)攻防滲透測(cè)試的功能,因此本節(jié)將基于實(shí)際網(wǎng)絡(luò)測(cè)試的結(jié)果進(jìn)行仿真實(shí)驗(yàn)。
表4描述了CPPS安全試驗(yàn)場(chǎng)上設(shè)備的漏洞信息, 并給出了通用漏洞披露(common vulnerabilities& exposures,CVE)漏洞編號(hào)及成功利用后系統(tǒng)所需恢復(fù)時(shí)間。和的攻防行為如表5所示,并且描述了采取相應(yīng)行為所需要的時(shí)間成本。半馬爾科夫鏈中每一狀態(tài)的為
表4 漏洞信息Table 4 The information of vulnerabilities
表5 攻防行為表Table 5 The actions of attackers and defenders
首先對(duì)APT攻擊初始階段攻擊者信息偵查、武器構(gòu)建進(jìn)入到內(nèi)網(wǎng)的行為進(jìn)行預(yù)測(cè)。正收益參數(shù) W1=10,W2=8,W3=4,W4=5。求解矩陣博弈預(yù)測(cè)攻擊者行為概率分布由式(12)可求解在不同防御等級(jí)下值。
圖5 攻擊者動(dòng)作預(yù)測(cè)Fig. 5 Prediction of attacker's actions
圖6 最優(yōu)防御行為求解Fig. 6 Solution of optimal defense actions
表6 攻防雙方最優(yōu)策略Table 6 Optimal strategy for attackers and defenders
考慮CPPS試驗(yàn)場(chǎng)的防御資源有限,配備IDS系統(tǒng)1套、防火墻2套。防御資源可安裝至外部網(wǎng)絡(luò)至辦公網(wǎng)絡(luò)邊界()、辦公網(wǎng)絡(luò)至生產(chǎn)管理網(wǎng)絡(luò)邊界()、生產(chǎn)管理網(wǎng)絡(luò)至生產(chǎn)控制網(wǎng)絡(luò)邊界();生產(chǎn)控制網(wǎng)絡(luò)至物理網(wǎng)絡(luò)邊界()。將防御資源的分配方案表示為。目前試驗(yàn)場(chǎng)的分配方案為則由式(12)得根據(jù)式(2)與式(3)計(jì)算得CPPS試驗(yàn)場(chǎng)遭受網(wǎng)絡(luò)APT攻擊入侵容忍能力
考慮在有限防御資源下的最優(yōu)分配方法使得CPPS的入侵容忍能力最強(qiáng),分配方案結(jié)果如圖7所示。實(shí)驗(yàn)結(jié)果表明最優(yōu)資源分配方案為,此時(shí)CPPS的入侵容忍能力最強(qiáng),攻擊者需要消耗8 h 才能成功利用漏洞對(duì)發(fā)電物理過程進(jìn)行破壞,如下發(fā)異常斷電指令或篡改傳感器數(shù)據(jù)等。在最優(yōu)防御資源分配情況下,CPPS的可靠度曲線如圖8所示。最優(yōu)資源分配情況下,可靠度最高,隨著時(shí)間可靠度下降幅度最小。
圖7 防御資源分配方案結(jié)果Fig. 7 Result of the defense resource allocation scheme
圖8 最優(yōu)資源分配下可靠度曲線Fig. 8 Reliability graph under optimal resource allocation
本文提出了一種面向受攻擊CPPS的入侵容忍能力評(píng)估與防御資源最優(yōu)配置方法。首先,基于半馬爾可夫鏈對(duì)APT攻擊進(jìn)行建模,利用隨機(jī)博弈模型預(yù)測(cè)納什均衡下攻擊者的理性進(jìn)攻策略,確定相應(yīng)的最佳防御策略,并通過實(shí)驗(yàn)求解在有限防御資源條件下的最優(yōu)資源分配結(jié)果,以MTTF與可靠度指標(biāo)評(píng)估CPPS的入侵容忍能力。最后,以CPPS安全試驗(yàn)場(chǎng)為例驗(yàn)證了入侵容忍能力評(píng)估機(jī)制的有效性,為高可靠性CPPS網(wǎng)絡(luò)的防御機(jī)制設(shè)計(jì)提供了一定借鑒。
但是,本文研究工作尚存在一些不足,提出的入侵容忍能力評(píng)估機(jī)制存在普適性不足的問題,未來(lái)工作主要研究可拓展普適通用的CPPS入侵容忍能力評(píng)估方法。