亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于博弈論的信息物理系統(tǒng)在FDI攻擊下的控制

        2021-01-20 09:42:16李慶奎
        河南科學(xué) 2020年12期
        關(guān)鍵詞:物理策略模型

        王 羽, 李慶奎

        (北京信息科技大學(xué)自動(dòng)化學(xué)院,北京 100192)

        信息物理系統(tǒng)(Cyber-Physical System,CPS)是將3C技術(shù)(計(jì)算、通信、控制)與現(xiàn)代物理設(shè)備完美結(jié)合,通過嵌入式計(jì)算機(jī)對(duì)物理過程進(jìn)行感知和控制的智能系統(tǒng)[1]. 與傳統(tǒng)控制系統(tǒng)相比,CPS更加可靠、高效、實(shí)時(shí)協(xié)同. 但因?yàn)镃PS中有大量用于通信的設(shè)施和IT組件,所以CPS更容易遭受網(wǎng)絡(luò)攻擊[2-3].

        CPS的網(wǎng)絡(luò)攻擊主要分為兩類:完整性攻擊和可用性攻擊[4]. 完整性攻擊是指通過篡改傳輸數(shù)據(jù)包中的信息,以降低系統(tǒng)可靠性和安全性的攻擊方式[5]. 可用性攻擊則可阻斷CPS各部分之間數(shù)據(jù)、控制命令的正常傳輸,使某些服務(wù)被暫停甚至使系統(tǒng)癱瘓. 虛假數(shù)據(jù)注入(False Data Injection,F(xiàn)DI)攻擊是一種完整性攻擊方式,通過劫持物理設(shè)備(傳感器、控制器等)或者網(wǎng)絡(luò)信道,向系統(tǒng)注入錯(cuò)誤或無用但存在安全隱患的數(shù)據(jù)信息,破壞數(shù)據(jù)的完整性,導(dǎo)致系統(tǒng)失去穩(wěn)定甚至崩潰[6]. 與其他網(wǎng)絡(luò)攻擊相比,F(xiàn)DI攻擊更加巧妙、復(fù)雜并具有更高的隱蔽性. 針對(duì)信息物理系統(tǒng)FDI攻擊的研究大致可以分為以下三類[7].

        第一類,F(xiàn)DI攻擊的可行性分析、實(shí)現(xiàn)路徑和方法研究. 文獻(xiàn)[8]研究了攻擊不被檢測(cè)的基本條件,給出了系統(tǒng)可被攻擊的傳感器的最小數(shù)量,以確保攻擊的隱蔽性;文獻(xiàn)[9]在所有傳感器數(shù)據(jù)可觀且可以被攻擊者修改的情況下,提出了一種對(duì)遠(yuǎn)程狀態(tài)估計(jì)器發(fā)起線性欺騙性攻擊的策略,該策略可以成功通過卡方檢測(cè)器的監(jiān)測(cè);文獻(xiàn)[10]將攻擊者的控制目標(biāo)表示為一個(gè)二次型值函數(shù),通過求解約束優(yōu)化問題來尋找最優(yōu)攻擊策略.

        第二類,從防御角度出發(fā)制定系統(tǒng)保護(hù)機(jī)制、入侵檢測(cè)機(jī)制并降低攻擊影響. 文獻(xiàn)[11-12]采用卡爾曼濾波器來估計(jì)狀態(tài)變量,并設(shè)計(jì)了相應(yīng)的檢測(cè)器來發(fā)現(xiàn)未知傳感器子集上的攻擊信號(hào),但都過于關(guān)注誤差的統(tǒng)計(jì)特性而忽略了CPS的高速采樣特性. 基于此,文獻(xiàn)[13]將歐氏檢測(cè)器、卡方檢測(cè)器以及卡爾曼濾波器結(jié)合起來設(shè)計(jì)了針對(duì)智能電網(wǎng)系統(tǒng)的安全框架,該方法可以克服以上缺點(diǎn)但只適用于電網(wǎng)電壓信號(hào)模型;文獻(xiàn)[14]借助線性二次型控制理論,開發(fā)了最優(yōu)自適應(yīng)切換策略通過來抵御稀疏的傳感器-執(zhí)行器攻擊策略.

        第三類,研究攻擊-防御對(duì)抗策略. 這類研究的目的是揭示網(wǎng)絡(luò)攻擊方的行為特征及量測(cè)系統(tǒng)的脆弱點(diǎn),為量測(cè)系統(tǒng)的安全防護(hù)工作提供參考依據(jù)[15]. 網(wǎng)絡(luò)攻防對(duì)抗的本質(zhì)可以抽象為攻防雙方相互博弈的過程. 現(xiàn)有網(wǎng)絡(luò)攻防博弈策略研究文獻(xiàn)甚少,且大多集中于網(wǎng)絡(luò)安全領(lǐng)域[16-18],很少有關(guān)于物理系統(tǒng)的控制安全分析. 文獻(xiàn)[19]從網(wǎng)絡(luò)安全的角度出發(fā),提出了一種基于非合作、完整信息的博弈主動(dòng)防御模型,通過解決不同系統(tǒng)狀態(tài)下的納什均衡,實(shí)現(xiàn)最佳防御策略. 不足之處在于在網(wǎng)絡(luò)對(duì)抗中使用完全信息靜態(tài)博弈模型,與實(shí)際的應(yīng)用場(chǎng)景不夠貼切. 文獻(xiàn)[20]以電力CPS為背景,建立了三層動(dòng)態(tài)攻防博弈模型,并用遍歷思想結(jié)合遺傳算法求解該方案. 但該方法只適用于電網(wǎng)負(fù)荷數(shù)據(jù)被攻擊的情況,不適用于一般的線性模型.

        與上述文獻(xiàn)的研究側(cè)重點(diǎn)不同,本文著重考慮FDI攻擊對(duì)控制系統(tǒng)的影響,采用攻防博弈模型研究控制安全問題. H∞范數(shù)被廣泛用于描述控制對(duì)信號(hào)的抑制程度. 針對(duì)受FDI攻擊的信息物理系統(tǒng),在設(shè)計(jì)控制器時(shí)首先建立H∞目標(biāo)函數(shù)和約束條件. 借助最優(yōu)控制的理論和方法,將H∞問題抽象為二人零和博弈問題并求出其均衡解. 通過納什均衡設(shè)計(jì)狀態(tài)反饋控制器,使系統(tǒng)在保持魯棒穩(wěn)定性的前提下最大限度地降低攻擊對(duì)狀態(tài)的影響,獲得最優(yōu)的性能指標(biāo). 而后對(duì)系統(tǒng)矩陣未知的情況展開研究,設(shè)計(jì)無模型狀態(tài)反饋Q學(xué)習(xí)算法,利用系統(tǒng)的量測(cè)數(shù)據(jù)在線求解最優(yōu)控制策略和最壞情形攻擊策略. 使系統(tǒng)在沒有動(dòng)力學(xué)知識(shí)的情況下,控制性能達(dá)到最優(yōu). 最后通過算例仿真證明了提出方法的可行性.

        1 問題描述

        1.1 系統(tǒng)模型

        考慮FDI攻擊下的線性時(shí)不變信息物理系統(tǒng):

        其中,xk∈Rn,uk∈Rm1分別是k 時(shí)刻的系統(tǒng)狀態(tài)變量和控制輸入信號(hào),ak∈Rm2是攻擊者在有限時(shí)間[0,T]內(nèi)向系統(tǒng)注入的攻擊向量,且ak∈L2[0,∞) . 矩陣(A,B,C)是未知恒定的具有適當(dāng)維數(shù)的系統(tǒng)矩陣.

        假設(shè)1 FDI攻擊者具備以下幾點(diǎn)攻擊能力:

        1)攻擊者知道系統(tǒng)(1)的線性結(jié)構(gòu),但無法獲取參數(shù)矩陣(A,B,C)的準(zhǔn)確值.

        2)攻擊者可以獲取控制信號(hào)uk和狀態(tài)信息xk.

        3)攻擊者可以產(chǎn)生一個(gè)無約束的攻擊信號(hào)ak對(duì)傳感器發(fā)起虛假數(shù)據(jù)注入攻擊.

        為了保障CPS的安全,本文采用H∞范數(shù)來評(píng)價(jià)CPS對(duì)攻擊的魯棒性.

        定義1 H∞控制的目標(biāo)是:

        1)找到合適的控制輸入使得系統(tǒng)(1)在ak=0 的情況下漸近穩(wěn)定;

        2)當(dāng)攻擊者發(fā)起攻擊即ak≠0 時(shí)滿足

        式中,Q 和R 是正定對(duì)稱的權(quán)重矩陣,γ ≥0 為給定的衰減因子. 上式是反映系統(tǒng)對(duì)攻擊的魯棒性評(píng)價(jià). γ 越小,說明系統(tǒng)對(duì)攻擊的抑制效果越好.

        基于式(2),首先對(duì)系統(tǒng)(1)定義一個(gè)性能指標(biāo)函數(shù):

        對(duì)于容許的控制輸入和外部攻擊信號(hào)定義如下值函數(shù):

        假設(shè)2 (A,B)是能控的,(A, Q)是能觀的.

        1.2 將H∞控制問題轉(zhuǎn)化為二人零和博弈問題

        H∞控制問題可看作是一個(gè)零和博弈問題,其中參與者包含控制器和FDI攻擊信號(hào),控制輸入的目標(biāo)是盡可能減小指標(biāo)函數(shù),而攻擊信號(hào)的目標(biāo)則是最大化指標(biāo)函數(shù). 因此,這個(gè)過程可表示為

        且滿足

        注1 式(14)~(16)是二人零和博弈問題(5)的解,并且保證了當(dāng)攻擊ak≠0 時(shí)系統(tǒng)滿足H∞指標(biāo)(2).式(17)是保證系統(tǒng)穩(wěn)定的充分條件.

        1.3 無模型狀態(tài)反饋Q學(xué)習(xí)算法

        在這一節(jié)中,將提出無模型Q 學(xué)習(xí)算法在線求解在系統(tǒng)矩陣(A,B,E)未知時(shí)的最優(yōu)控制策略增益L*和最壞情形攻擊策略增益K*.

        仿照式(8)的形式定義Q 函數(shù):

        將式(1)代入式(18)并將其寫成矩陣形式:

        式中,

        當(dāng)系統(tǒng)矩陣已知時(shí),令式(19)的一階偏導(dǎo)滿足?Q(xk,uk,ak)/?uk=0,?Q(xk,uk,ak)/?ak=0 即可求出最優(yōu)控制增益L*和最壞情形攻擊增益K*的解:

        注2 式(21)、(22)中最優(yōu)控制策略增益L*和最壞情形攻擊策略增益K*的解由參數(shù)矩陣H 的元素構(gòu)成,而矩陣H 的元素又由系統(tǒng)矩陣(A,B,E)構(gòu)成. 當(dāng)系統(tǒng)矩陣(A,B,E)未知時(shí),無法通過對(duì)式(19)求一階偏導(dǎo)從而求出最優(yōu)控制策略增益L*和最壞情形攻擊策略增益K*.

        因此,下面將借助強(qiáng)化學(xué)習(xí)中的Q學(xué)習(xí)算法,利用系統(tǒng)的量測(cè)數(shù)據(jù)在線學(xué)習(xí)出參數(shù)矩陣H 的值.

        根據(jù)值方程(8)和Q 方程的定義式(18)可知:

        式(18)則可以表示為:

        基于式(24)定義貝爾曼時(shí)間差分誤差:

        接下來將用式(21)、(22)、(25)驅(qū)動(dòng)無模型Q 學(xué)習(xí)算法. 算法包括策略評(píng)估和策略改進(jìn)兩步,其中策略評(píng)估步驟將控制策略、攻擊策略固定,對(duì)參數(shù)矩陣H 進(jìn)行估計(jì);策略更新步驟則利用第一步計(jì)算出的矩陣H,改進(jìn)控制策略、攻擊策略. 算法具體步驟如表1所示.

        表1 無模型狀態(tài)反饋Q學(xué)習(xí)算法Tab.1 Model-free state feedback Q-learning algorithm

        在策略評(píng)估階段,利用最小二乘法估計(jì)參數(shù)矩陣H. 根據(jù)克羅內(nèi)克積,式(26)可化為

        代入到式(29)中可得到

        2 算例仿真

        在本節(jié)中,將用F-16飛機(jī)自動(dòng)駕駛儀來驗(yàn)證所提算法的有效性,系統(tǒng)的動(dòng)力學(xué)方程為

        圖1 F-16飛機(jī)狀態(tài)xi 的響應(yīng)曲線Fig.1 State response of F-16 aircraft state xi

        圖2 參數(shù)矩陣H 的誤差響應(yīng)曲線Fig.2 Error response of parameter matrix H

        圖3 不同初始條件下F-16飛機(jī)狀態(tài)xi 的響應(yīng)曲線Fig.3 State response of F-16 aircraft state xi under different initial conditions

        圖4 不同初始條件下參數(shù)矩陣H 的誤差響應(yīng)曲線Fig.4 Error response of parameter matrix H under different initial conditions

        3 結(jié)語

        本文利用二人零和博弈的思想,研究了信息物理系統(tǒng)在系統(tǒng)矩陣未知且受FDI攻擊影響下的H∞控制問題. 首先對(duì)系統(tǒng)提出魯棒穩(wěn)定性的要求,建立二次型H∞目標(biāo)函數(shù),而后將H∞控制問題轉(zhuǎn)化為二人零和博弈問題,并推導(dǎo)出最優(yōu)控制策略和最壞情形攻擊策略. 最后,設(shè)計(jì)在線無模型狀態(tài)反饋Q學(xué)習(xí)算法求出最優(yōu)控制策略和最壞情形攻擊策略. 仿真結(jié)果驗(yàn)證了該方法行之有效,考慮到同時(shí)具有擾動(dòng)和攻擊的CPS會(huì)更加貼切實(shí)際情形,可以作為下一步的研究方向.

        猜你喜歡
        物理策略模型
        一半模型
        只因是物理
        井岡教育(2022年2期)2022-10-14 03:11:44
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        例談未知角三角函數(shù)值的求解策略
        處處留心皆物理
        我說你做講策略
        高中數(shù)學(xué)復(fù)習(xí)的具體策略
        三腳插頭上的物理知識(shí)
        3D打印中的模型分割與打包
        久久精品国产亚洲av麻豆瑜伽| 欧美人与动牲交片免费| 亚洲女同av一区二区在线观看| 亚洲成人av在线蜜桃| 亚洲av无码乱码国产精品| 在线看亚洲十八禁网站 | 极品人妻少妇一区二区| 男人天堂亚洲一区二区| 色综合久久五十路人妻| 杨幂一区二区系列在线| 亚洲av日韩av永久无码下载| 国产70老熟女重口小伙子| 亚洲成Av人片不卡无码观看| 91亚洲最新国语中文字幕| 99久久久69精品一区二区三区| 后入内射国产一区二区| 麻豆高清免费国产一区| 欧洲国产精品无码专区影院| 男女互舔动态视频在线观看| 美女不带套日出白浆免费视频| 亚洲gv白嫩小受在线观看| 日韩午夜在线视频观看| 精品粉嫩av一区二区三区| 99999久久久久久亚洲| 国产精品麻花传媒二三区别| 无码人妻少妇久久中文字幕| 亚洲熟女少妇精品久久| 美女人妻中出日本人妻| 免费久久人人爽人人爽av| 国产午夜福利精品| 中文字幕无码免费久久| 激情久久黄色免费网站| 看黄a大片日本真人视频直播| 欧美成人www免费全部网站| 久久久国产精品首页免费| 真实的国产乱xxxx在线| 无套内射无矿码免费看黄| 久久精品亚洲精品毛片| 日韩精品免费在线视频一区| 亚洲视频在线观看| 亚洲午夜精品久久久久久一区|