亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于博弈論的信息物理系統(tǒng)在FDI攻擊下的控制

        2021-01-20 09:42:16李慶奎
        河南科學(xué) 2020年12期
        關(guān)鍵詞:最優(yōu)控制攻擊者增益

        王 羽, 李慶奎

        (北京信息科技大學(xué)自動(dòng)化學(xué)院,北京 100192)

        信息物理系統(tǒng)(Cyber-Physical System,CPS)是將3C技術(shù)(計(jì)算、通信、控制)與現(xiàn)代物理設(shè)備完美結(jié)合,通過嵌入式計(jì)算機(jī)對(duì)物理過程進(jìn)行感知和控制的智能系統(tǒng)[1]. 與傳統(tǒng)控制系統(tǒng)相比,CPS更加可靠、高效、實(shí)時(shí)協(xié)同. 但因?yàn)镃PS中有大量用于通信的設(shè)施和IT組件,所以CPS更容易遭受網(wǎng)絡(luò)攻擊[2-3].

        CPS的網(wǎng)絡(luò)攻擊主要分為兩類:完整性攻擊和可用性攻擊[4]. 完整性攻擊是指通過篡改傳輸數(shù)據(jù)包中的信息,以降低系統(tǒng)可靠性和安全性的攻擊方式[5]. 可用性攻擊則可阻斷CPS各部分之間數(shù)據(jù)、控制命令的正常傳輸,使某些服務(wù)被暫停甚至使系統(tǒng)癱瘓. 虛假數(shù)據(jù)注入(False Data Injection,F(xiàn)DI)攻擊是一種完整性攻擊方式,通過劫持物理設(shè)備(傳感器、控制器等)或者網(wǎng)絡(luò)信道,向系統(tǒng)注入錯(cuò)誤或無用但存在安全隱患的數(shù)據(jù)信息,破壞數(shù)據(jù)的完整性,導(dǎo)致系統(tǒng)失去穩(wěn)定甚至崩潰[6]. 與其他網(wǎng)絡(luò)攻擊相比,F(xiàn)DI攻擊更加巧妙、復(fù)雜并具有更高的隱蔽性. 針對(duì)信息物理系統(tǒng)FDI攻擊的研究大致可以分為以下三類[7].

        第一類,F(xiàn)DI攻擊的可行性分析、實(shí)現(xiàn)路徑和方法研究. 文獻(xiàn)[8]研究了攻擊不被檢測(cè)的基本條件,給出了系統(tǒng)可被攻擊的傳感器的最小數(shù)量,以確保攻擊的隱蔽性;文獻(xiàn)[9]在所有傳感器數(shù)據(jù)可觀且可以被攻擊者修改的情況下,提出了一種對(duì)遠(yuǎn)程狀態(tài)估計(jì)器發(fā)起線性欺騙性攻擊的策略,該策略可以成功通過卡方檢測(cè)器的監(jiān)測(cè);文獻(xiàn)[10]將攻擊者的控制目標(biāo)表示為一個(gè)二次型值函數(shù),通過求解約束優(yōu)化問題來尋找最優(yōu)攻擊策略.

        第二類,從防御角度出發(fā)制定系統(tǒng)保護(hù)機(jī)制、入侵檢測(cè)機(jī)制并降低攻擊影響. 文獻(xiàn)[11-12]采用卡爾曼濾波器來估計(jì)狀態(tài)變量,并設(shè)計(jì)了相應(yīng)的檢測(cè)器來發(fā)現(xiàn)未知傳感器子集上的攻擊信號(hào),但都過于關(guān)注誤差的統(tǒng)計(jì)特性而忽略了CPS的高速采樣特性. 基于此,文獻(xiàn)[13]將歐氏檢測(cè)器、卡方檢測(cè)器以及卡爾曼濾波器結(jié)合起來設(shè)計(jì)了針對(duì)智能電網(wǎng)系統(tǒng)的安全框架,該方法可以克服以上缺點(diǎn)但只適用于電網(wǎng)電壓信號(hào)模型;文獻(xiàn)[14]借助線性二次型控制理論,開發(fā)了最優(yōu)自適應(yīng)切換策略通過來抵御稀疏的傳感器-執(zhí)行器攻擊策略.

        第三類,研究攻擊-防御對(duì)抗策略. 這類研究的目的是揭示網(wǎng)絡(luò)攻擊方的行為特征及量測(cè)系統(tǒng)的脆弱點(diǎn),為量測(cè)系統(tǒng)的安全防護(hù)工作提供參考依據(jù)[15]. 網(wǎng)絡(luò)攻防對(duì)抗的本質(zhì)可以抽象為攻防雙方相互博弈的過程. 現(xiàn)有網(wǎng)絡(luò)攻防博弈策略研究文獻(xiàn)甚少,且大多集中于網(wǎng)絡(luò)安全領(lǐng)域[16-18],很少有關(guān)于物理系統(tǒng)的控制安全分析. 文獻(xiàn)[19]從網(wǎng)絡(luò)安全的角度出發(fā),提出了一種基于非合作、完整信息的博弈主動(dòng)防御模型,通過解決不同系統(tǒng)狀態(tài)下的納什均衡,實(shí)現(xiàn)最佳防御策略. 不足之處在于在網(wǎng)絡(luò)對(duì)抗中使用完全信息靜態(tài)博弈模型,與實(shí)際的應(yīng)用場(chǎng)景不夠貼切. 文獻(xiàn)[20]以電力CPS為背景,建立了三層動(dòng)態(tài)攻防博弈模型,并用遍歷思想結(jié)合遺傳算法求解該方案. 但該方法只適用于電網(wǎng)負(fù)荷數(shù)據(jù)被攻擊的情況,不適用于一般的線性模型.

        與上述文獻(xiàn)的研究側(cè)重點(diǎn)不同,本文著重考慮FDI攻擊對(duì)控制系統(tǒng)的影響,采用攻防博弈模型研究控制安全問題. H∞范數(shù)被廣泛用于描述控制對(duì)信號(hào)的抑制程度. 針對(duì)受FDI攻擊的信息物理系統(tǒng),在設(shè)計(jì)控制器時(shí)首先建立H∞目標(biāo)函數(shù)和約束條件. 借助最優(yōu)控制的理論和方法,將H∞問題抽象為二人零和博弈問題并求出其均衡解. 通過納什均衡設(shè)計(jì)狀態(tài)反饋控制器,使系統(tǒng)在保持魯棒穩(wěn)定性的前提下最大限度地降低攻擊對(duì)狀態(tài)的影響,獲得最優(yōu)的性能指標(biāo). 而后對(duì)系統(tǒng)矩陣未知的情況展開研究,設(shè)計(jì)無模型狀態(tài)反饋Q學(xué)習(xí)算法,利用系統(tǒng)的量測(cè)數(shù)據(jù)在線求解最優(yōu)控制策略和最壞情形攻擊策略. 使系統(tǒng)在沒有動(dòng)力學(xué)知識(shí)的情況下,控制性能達(dá)到最優(yōu). 最后通過算例仿真證明了提出方法的可行性.

        1 問題描述

        1.1 系統(tǒng)模型

        考慮FDI攻擊下的線性時(shí)不變信息物理系統(tǒng):

        其中,xk∈Rn,uk∈Rm1分別是k 時(shí)刻的系統(tǒng)狀態(tài)變量和控制輸入信號(hào),ak∈Rm2是攻擊者在有限時(shí)間[0,T]內(nèi)向系統(tǒng)注入的攻擊向量,且ak∈L2[0,∞) . 矩陣(A,B,C)是未知恒定的具有適當(dāng)維數(shù)的系統(tǒng)矩陣.

        假設(shè)1 FDI攻擊者具備以下幾點(diǎn)攻擊能力:

        1)攻擊者知道系統(tǒng)(1)的線性結(jié)構(gòu),但無法獲取參數(shù)矩陣(A,B,C)的準(zhǔn)確值.

        2)攻擊者可以獲取控制信號(hào)uk和狀態(tài)信息xk.

        3)攻擊者可以產(chǎn)生一個(gè)無約束的攻擊信號(hào)ak對(duì)傳感器發(fā)起虛假數(shù)據(jù)注入攻擊.

        為了保障CPS的安全,本文采用H∞范數(shù)來評(píng)價(jià)CPS對(duì)攻擊的魯棒性.

        定義1 H∞控制的目標(biāo)是:

        1)找到合適的控制輸入使得系統(tǒng)(1)在ak=0 的情況下漸近穩(wěn)定;

        2)當(dāng)攻擊者發(fā)起攻擊即ak≠0 時(shí)滿足

        式中,Q 和R 是正定對(duì)稱的權(quán)重矩陣,γ ≥0 為給定的衰減因子. 上式是反映系統(tǒng)對(duì)攻擊的魯棒性評(píng)價(jià). γ 越小,說明系統(tǒng)對(duì)攻擊的抑制效果越好.

        基于式(2),首先對(duì)系統(tǒng)(1)定義一個(gè)性能指標(biāo)函數(shù):

        對(duì)于容許的控制輸入和外部攻擊信號(hào)定義如下值函數(shù):

        假設(shè)2 (A,B)是能控的,(A, Q)是能觀的.

        1.2 將H∞控制問題轉(zhuǎn)化為二人零和博弈問題

        H∞控制問題可看作是一個(gè)零和博弈問題,其中參與者包含控制器和FDI攻擊信號(hào),控制輸入的目標(biāo)是盡可能減小指標(biāo)函數(shù),而攻擊信號(hào)的目標(biāo)則是最大化指標(biāo)函數(shù). 因此,這個(gè)過程可表示為

        且滿足

        注1 式(14)~(16)是二人零和博弈問題(5)的解,并且保證了當(dāng)攻擊ak≠0 時(shí)系統(tǒng)滿足H∞指標(biāo)(2).式(17)是保證系統(tǒng)穩(wěn)定的充分條件.

        1.3 無模型狀態(tài)反饋Q學(xué)習(xí)算法

        在這一節(jié)中,將提出無模型Q 學(xué)習(xí)算法在線求解在系統(tǒng)矩陣(A,B,E)未知時(shí)的最優(yōu)控制策略增益L*和最壞情形攻擊策略增益K*.

        仿照式(8)的形式定義Q 函數(shù):

        將式(1)代入式(18)并將其寫成矩陣形式:

        式中,

        當(dāng)系統(tǒng)矩陣已知時(shí),令式(19)的一階偏導(dǎo)滿足?Q(xk,uk,ak)/?uk=0,?Q(xk,uk,ak)/?ak=0 即可求出最優(yōu)控制增益L*和最壞情形攻擊增益K*的解:

        注2 式(21)、(22)中最優(yōu)控制策略增益L*和最壞情形攻擊策略增益K*的解由參數(shù)矩陣H 的元素構(gòu)成,而矩陣H 的元素又由系統(tǒng)矩陣(A,B,E)構(gòu)成. 當(dāng)系統(tǒng)矩陣(A,B,E)未知時(shí),無法通過對(duì)式(19)求一階偏導(dǎo)從而求出最優(yōu)控制策略增益L*和最壞情形攻擊策略增益K*.

        因此,下面將借助強(qiáng)化學(xué)習(xí)中的Q學(xué)習(xí)算法,利用系統(tǒng)的量測(cè)數(shù)據(jù)在線學(xué)習(xí)出參數(shù)矩陣H 的值.

        根據(jù)值方程(8)和Q 方程的定義式(18)可知:

        式(18)則可以表示為:

        基于式(24)定義貝爾曼時(shí)間差分誤差:

        接下來將用式(21)、(22)、(25)驅(qū)動(dòng)無模型Q 學(xué)習(xí)算法. 算法包括策略評(píng)估和策略改進(jìn)兩步,其中策略評(píng)估步驟將控制策略、攻擊策略固定,對(duì)參數(shù)矩陣H 進(jìn)行估計(jì);策略更新步驟則利用第一步計(jì)算出的矩陣H,改進(jìn)控制策略、攻擊策略. 算法具體步驟如表1所示.

        表1 無模型狀態(tài)反饋Q學(xué)習(xí)算法Tab.1 Model-free state feedback Q-learning algorithm

        在策略評(píng)估階段,利用最小二乘法估計(jì)參數(shù)矩陣H. 根據(jù)克羅內(nèi)克積,式(26)可化為

        代入到式(29)中可得到

        2 算例仿真

        在本節(jié)中,將用F-16飛機(jī)自動(dòng)駕駛儀來驗(yàn)證所提算法的有效性,系統(tǒng)的動(dòng)力學(xué)方程為

        圖1 F-16飛機(jī)狀態(tài)xi 的響應(yīng)曲線Fig.1 State response of F-16 aircraft state xi

        圖2 參數(shù)矩陣H 的誤差響應(yīng)曲線Fig.2 Error response of parameter matrix H

        圖3 不同初始條件下F-16飛機(jī)狀態(tài)xi 的響應(yīng)曲線Fig.3 State response of F-16 aircraft state xi under different initial conditions

        圖4 不同初始條件下參數(shù)矩陣H 的誤差響應(yīng)曲線Fig.4 Error response of parameter matrix H under different initial conditions

        3 結(jié)語

        本文利用二人零和博弈的思想,研究了信息物理系統(tǒng)在系統(tǒng)矩陣未知且受FDI攻擊影響下的H∞控制問題. 首先對(duì)系統(tǒng)提出魯棒穩(wěn)定性的要求,建立二次型H∞目標(biāo)函數(shù),而后將H∞控制問題轉(zhuǎn)化為二人零和博弈問題,并推導(dǎo)出最優(yōu)控制策略和最壞情形攻擊策略. 最后,設(shè)計(jì)在線無模型狀態(tài)反饋Q學(xué)習(xí)算法求出最優(yōu)控制策略和最壞情形攻擊策略. 仿真結(jié)果驗(yàn)證了該方法行之有效,考慮到同時(shí)具有擾動(dòng)和攻擊的CPS會(huì)更加貼切實(shí)際情形,可以作為下一步的研究方向.

        猜你喜歡
        最優(yōu)控制攻擊者增益
        基于微分博弈的追逃問題最優(yōu)策略設(shè)計(jì)
        基于增益調(diào)度與光滑切換的傾轉(zhuǎn)旋翼機(jī)最優(yōu)控制
        條件平均場(chǎng)隨機(jī)微分方程的最優(yōu)控制問題
        基于單片機(jī)的程控增益放大器設(shè)計(jì)
        電子制作(2019年19期)2019-11-23 08:41:36
        帶跳躍平均場(chǎng)倒向隨機(jī)微分方程的線性二次最優(yōu)控制
        基于Multisim10和AD603的程控增益放大器仿真研究
        電子制作(2018年19期)2018-11-14 02:37:02
        Timoshenko梁的邊界最優(yōu)控制
        正面迎接批判
        愛你(2018年16期)2018-06-21 03:28:44
        采用最優(yōu)控制無功STATCOM 功率流的解決方案
        有限次重復(fù)博弈下的網(wǎng)絡(luò)攻擊行為研究
        天天爱天天做天天爽| 美女视频在线观看网址大全| 香蕉成人伊视频在线观看| 狠狠色婷婷久久一区二区三区| 国产欧美日韩视频一区二区三区| 最新手机国产在线小视频| 一区二区亚洲熟女偷拍| 国产人妖乱国产精品人妖| 国产国拍精品av在线观看按摩| 国产综合自拍| 成人激情视频一区二区三区| 日本最新一区二区三区视频观看| 日本黄网站三级三级三级| 香蕉色香蕉在线视频| 精品蜜桃av一区二区三区| 中文字幕在线看精品乱码 | 国产精品丝袜在线不卡| 午夜国产在线精彩自拍视频| 精品久久有码中文字幕| 国产精品无圣光一区二区| 国产在线无码免费视频2021| 精品国产一区二区三区九一色| 精品国产粉嫩内射白浆内射双马尾 | 人妻丰满熟妇av一区二区| 精品人妻av一区二区三区麻豆| 狠狠躁夜夜躁人人爽天天古典| 另类免费视频在线视频二区| 一区二区三区在线蜜桃| 精品国产成人av久久| 99精品一区二区三区无码吞精 | 精品午夜福利无人区乱码一区| 国产精品99精品一区二区三区∴ | 性生交片免费无码看人| 亚洲精品无码久久毛片| 水蜜桃视频在线观看免费18| 亚洲色图视频在线免费看| 双腿张开被9个男人调教| 综合91在线精品| 亚洲国产成人av毛片大全| 亚洲男同gay在线观看| 久久精品亚洲牛牛影视|