亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于博弈論的信息物理系統(tǒng)在FDI攻擊下的控制

2021-01-20 09:42:16李慶奎

河南科學(xué) 2020年12期

王羽，李慶奎

（北京信息科技大學(xué)自動(dòng)化學(xué)院，北京 100192）

信息物理系統(tǒng)（Cyber-Physical System，CPS）是將3C技術(shù)（計(jì)算、通信、控制）與現(xiàn)代物理設(shè)備完美結(jié)合，通過嵌入式計(jì)算機(jī)對(duì)物理過程進(jìn)行感知和控制的智能系統(tǒng)［1］. 與傳統(tǒng)控制系統(tǒng)相比，CPS更加可靠、高效、實(shí)時(shí)協(xié)同. 但因?yàn)镃PS中有大量用于通信的設(shè)施和IT組件，所以CPS更容易遭受網(wǎng)絡(luò)攻擊［2-3］.

CPS的網(wǎng)絡(luò)攻擊主要分為兩類：完整性攻擊和可用性攻擊［4］. 完整性攻擊是指通過篡改傳輸數(shù)據(jù)包中的信息，以降低系統(tǒng)可靠性和安全性的攻擊方式［5］. 可用性攻擊則可阻斷CPS各部分之間數(shù)據(jù)、控制命令的正常傳輸，使某些服務(wù)被暫停甚至使系統(tǒng)癱瘓. 虛假數(shù)據(jù)注入（False Data Injection，F(xiàn)DI）攻擊是一種完整性攻擊方式，通過劫持物理設(shè)備（傳感器、控制器等）或者網(wǎng)絡(luò)信道，向系統(tǒng)注入錯(cuò)誤或無用但存在安全隱患的數(shù)據(jù)信息，破壞數(shù)據(jù)的完整性，導(dǎo)致系統(tǒng)失去穩(wěn)定甚至崩潰［6］. 與其他網(wǎng)絡(luò)攻擊相比，F(xiàn)DI攻擊更加巧妙、復(fù)雜并具有更高的隱蔽性. 針對(duì)信息物理系統(tǒng)FDI攻擊的研究大致可以分為以下三類［7］.

第一類，F(xiàn)DI攻擊的可行性分析、實(shí)現(xiàn)路徑和方法研究. 文獻(xiàn)［8］研究了攻擊不被檢測(cè)的基本條件，給出了系統(tǒng)可被攻擊的傳感器的最小數(shù)量，以確保攻擊的隱蔽性；文獻(xiàn)［9］在所有傳感器數(shù)據(jù)可觀且可以被攻擊者修改的情況下，提出了一種對(duì)遠(yuǎn)程狀態(tài)估計(jì)器發(fā)起線性欺騙性攻擊的策略，該策略可以成功通過卡方檢測(cè)器的監(jiān)測(cè)；文獻(xiàn)［10］將攻擊者的控制目標(biāo)表示為一個(gè)二次型值函數(shù)，通過求解約束優(yōu)化問題來尋找最優(yōu)攻擊策略.

第二類，從防御角度出發(fā)制定系統(tǒng)保護(hù)機(jī)制、入侵檢測(cè)機(jī)制并降低攻擊影響. 文獻(xiàn)［11-12］采用卡爾曼濾波器來估計(jì)狀態(tài)變量，并設(shè)計(jì)了相應(yīng)的檢測(cè)器來發(fā)現(xiàn)未知傳感器子集上的攻擊信號(hào)，但都過于關(guān)注誤差的統(tǒng)計(jì)特性而忽略了CPS的高速采樣特性. 基于此，文獻(xiàn)［13］將歐氏檢測(cè)器、卡方檢測(cè)器以及卡爾曼濾波器結(jié)合起來設(shè)計(jì)了針對(duì)智能電網(wǎng)系統(tǒng)的安全框架，該方法可以克服以上缺點(diǎn)但只適用于電網(wǎng)電壓信號(hào)模型；文獻(xiàn)［14］借助線性二次型控制理論，開發(fā)了最優(yōu)自適應(yīng)切換策略通過來抵御稀疏的傳感器-執(zhí)行器攻擊策略.

第三類，研究攻擊-防御對(duì)抗策略. 這類研究的目的是揭示網(wǎng)絡(luò)攻擊方的行為特征及量測(cè)系統(tǒng)的脆弱點(diǎn)，為量測(cè)系統(tǒng)的安全防護(hù)工作提供參考依據(jù)［15］. 網(wǎng)絡(luò)攻防對(duì)抗的本質(zhì)可以抽象為攻防雙方相互博弈的過程. 現(xiàn)有網(wǎng)絡(luò)攻防博弈策略研究文獻(xiàn)甚少，且大多集中于網(wǎng)絡(luò)安全領(lǐng)域［16-18］，很少有關(guān)于物理系統(tǒng)的控制安全分析. 文獻(xiàn)［19］從網(wǎng)絡(luò)安全的角度出發(fā)，提出了一種基于非合作、完整信息的博弈主動(dòng)防御模型，通過解決不同系統(tǒng)狀態(tài)下的納什均衡，實(shí)現(xiàn)最佳防御策略. 不足之處在于在網(wǎng)絡(luò)對(duì)抗中使用完全信息靜態(tài)博弈模型，與實(shí)際的應(yīng)用場(chǎng)景不夠貼切. 文獻(xiàn)［20］以電力CPS為背景，建立了三層動(dòng)態(tài)攻防博弈模型，并用遍歷思想結(jié)合遺傳算法求解該方案. 但該方法只適用于電網(wǎng)負(fù)荷數(shù)據(jù)被攻擊的情況，不適用于一般的線性模型.

與上述文獻(xiàn)的研究側(cè)重點(diǎn)不同，本文著重考慮FDI攻擊對(duì)控制系統(tǒng)的影響，采用攻防博弈模型研究控制安全問題. H∞范數(shù)被廣泛用于描述控制對(duì)信號(hào)的抑制程度. 針對(duì)受FDI攻擊的信息物理系統(tǒng)，在設(shè)計(jì)控制器時(shí)首先建立H∞目標(biāo)函數(shù)和約束條件. 借助最優(yōu)控制的理論和方法，將H∞問題抽象為二人零和博弈問題并求出其均衡解. 通過納什均衡設(shè)計(jì)狀態(tài)反饋控制器，使系統(tǒng)在保持魯棒穩(wěn)定性的前提下最大限度地降低攻擊對(duì)狀態(tài)的影響，獲得最優(yōu)的性能指標(biāo). 而后對(duì)系統(tǒng)矩陣未知的情況展開研究，設(shè)計(jì)無模型狀態(tài)反饋Q學(xué)習(xí)算法，利用系統(tǒng)的量測(cè)數(shù)據(jù)在線求解最優(yōu)控制策略和最壞情形攻擊策略. 使系統(tǒng)在沒有動(dòng)力學(xué)知識(shí)的情況下，控制性能達(dá)到最優(yōu). 最后通過算例仿真證明了提出方法的可行性.

1 問題描述

1.1 系統(tǒng)模型

考慮FDI攻擊下的線性時(shí)不變信息物理系統(tǒng)：

其中，xk∈Rn，uk∈Rm1分別是k 時(shí)刻的系統(tǒng)狀態(tài)變量和控制輸入信號(hào)，ak∈Rm2是攻擊者在有限時(shí)間［0,T］內(nèi)向系統(tǒng)注入的攻擊向量，且ak∈L2［0,∞) . 矩陣(A,B,C)是未知恒定的具有適當(dāng)維數(shù)的系統(tǒng)矩陣.

假設(shè)1 FDI攻擊者具備以下幾點(diǎn)攻擊能力：

1）攻擊者知道系統(tǒng)（1）的線性結(jié)構(gòu)，但無法獲取參數(shù)矩陣(A,B,C)的準(zhǔn)確值.

2）攻擊者可以獲取控制信號(hào)uk和狀態(tài)信息xk.

3）攻擊者可以產(chǎn)生一個(gè)無約束的攻擊信號(hào)ak對(duì)傳感器發(fā)起虛假數(shù)據(jù)注入攻擊.

為了保障CPS的安全，本文采用H∞范數(shù)來評(píng)價(jià)CPS對(duì)攻擊的魯棒性.

定義1 H∞控制的目標(biāo)是：

1）找到合適的控制輸入使得系統(tǒng)（1）在ak=0 的情況下漸近穩(wěn)定；

2）當(dāng)攻擊者發(fā)起攻擊即ak≠0 時(shí)滿足

式中，Q 和R 是正定對(duì)稱的權(quán)重矩陣，γ ≥0 為給定的衰減因子. 上式是反映系統(tǒng)對(duì)攻擊的魯棒性評(píng)價(jià). γ 越小，說明系統(tǒng)對(duì)攻擊的抑制效果越好.

基于式（2），首先對(duì)系統(tǒng)（1）定義一個(gè)性能指標(biāo)函數(shù)：

對(duì)于容許的控制輸入和外部攻擊信號(hào)定義如下值函數(shù)：

假設(shè)2 (A,B)是能控的，(A, Q)是能觀的.

1.2 將H∞控制問題轉(zhuǎn)化為二人零和博弈問題

H∞控制問題可看作是一個(gè)零和博弈問題，其中參與者包含控制器和FDI攻擊信號(hào)，控制輸入的目標(biāo)是盡可能減小指標(biāo)函數(shù)，而攻擊信號(hào)的目標(biāo)則是最大化指標(biāo)函數(shù). 因此，這個(gè)過程可表示為

且滿足

注1 式（14）～（16）是二人零和博弈問題（5）的解，并且保證了當(dāng)攻擊ak≠0 時(shí)系統(tǒng)滿足H∞指標(biāo)（2）.式（17）是保證系統(tǒng)穩(wěn)定的充分條件.

1.3 無模型狀態(tài)反饋Q學(xué)習(xí)算法

在這一節(jié)中，將提出無模型Q 學(xué)習(xí)算法在線求解在系統(tǒng)矩陣(A,B,E)未知時(shí)的最優(yōu)控制策略增益L*和最壞情形攻擊策略增益K*.

仿照式（8）的形式定義Q 函數(shù)：

將式（1）代入式（18）并將其寫成矩陣形式：

式中，

當(dāng)系統(tǒng)矩陣已知時(shí)，令式（19）的一階偏導(dǎo)滿足?Q(xk,uk,ak)/?uk=0，?Q(xk,uk,ak)/?ak=0 即可求出最優(yōu)控制增益L*和最壞情形攻擊增益K*的解：

注2 式（21）、（22）中最優(yōu)控制策略增益L*和最壞情形攻擊策略增益K*的解由參數(shù)矩陣H 的元素構(gòu)成，而矩陣H 的元素又由系統(tǒng)矩陣(A,B,E)構(gòu)成. 當(dāng)系統(tǒng)矩陣(A,B,E)未知時(shí)，無法通過對(duì)式（19）求一階偏導(dǎo)從而求出最優(yōu)控制策略增益L*和最壞情形攻擊策略增益K*.

因此，下面將借助強(qiáng)化學(xué)習(xí)中的Q學(xué)習(xí)算法，利用系統(tǒng)的量測(cè)數(shù)據(jù)在線學(xué)習(xí)出參數(shù)矩陣H 的值.

根據(jù)值方程（8）和Q 方程的定義式（18）可知：

式（18）則可以表示為：

基于式（24）定義貝爾曼時(shí)間差分誤差：

接下來將用式（21）、（22）、（25）驅(qū)動(dòng)無模型Q 學(xué)習(xí)算法. 算法包括策略評(píng)估和策略改進(jìn)兩步，其中策略評(píng)估步驟將控制策略、攻擊策略固定，對(duì)參數(shù)矩陣H 進(jìn)行估計(jì)；策略更新步驟則利用第一步計(jì)算出的矩陣H，改進(jìn)控制策略、攻擊策略. 算法具體步驟如表1所示.

表1 無模型狀態(tài)反饋Q學(xué)習(xí)算法Tab.1 Model-free state feedback Q-learning algorithm

在策略評(píng)估階段，利用最小二乘法估計(jì)參數(shù)矩陣H. 根據(jù)克羅內(nèi)克積，式（26）可化為

令

代入到式（29）中可得到

2 算例仿真

在本節(jié)中，將用F-16飛機(jī)自動(dòng)駕駛儀來驗(yàn)證所提算法的有效性，系統(tǒng)的動(dòng)力學(xué)方程為

圖1 F-16飛機(jī)狀態(tài)xi 的響應(yīng)曲線Fig.1 State response of F-16 aircraft state xi

圖2 參數(shù)矩陣H 的誤差響應(yīng)曲線Fig.2 Error response of parameter matrix H

圖3 不同初始條件下F-16飛機(jī)狀態(tài)xi 的響應(yīng)曲線Fig.3 State response of F-16 aircraft state xi under different initial conditions

圖4 不同初始條件下參數(shù)矩陣H 的誤差響應(yīng)曲線Fig.4 Error response of parameter matrix H under different initial conditions

3 結(jié)語

本文利用二人零和博弈的思想，研究了信息物理系統(tǒng)在系統(tǒng)矩陣未知且受FDI攻擊影響下的H∞控制問題. 首先對(duì)系統(tǒng)提出魯棒穩(wěn)定性的要求，建立二次型H∞目標(biāo)函數(shù)，而后將H∞控制問題轉(zhuǎn)化為二人零和博弈問題，并推導(dǎo)出最優(yōu)控制策略和最壞情形攻擊策略. 最后，設(shè)計(jì)在線無模型狀態(tài)反饋Q學(xué)習(xí)算法求出最優(yōu)控制策略和最壞情形攻擊策略. 仿真結(jié)果驗(yàn)證了該方法行之有效，考慮到同時(shí)具有擾動(dòng)和攻擊的CPS會(huì)更加貼切實(shí)際情形，可以作為下一步的研究方向.