亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種基于Off-Policy的無模型輸出數(shù)據(jù)反饋H∞控制方法

2021-11-13 08:01:42范家璐柴天佑

自動化學(xué)報 2021年9期

李臻范家璐姜藝柴天佑

1.東北大學(xué)流程工業(yè)綜合自動化國家重點實驗室沈陽 110819

魯棒控制理論經(jīng)過多年的完善與發(fā)展,已經(jīng)趨于成熟.所謂的魯棒控制是指在擾動能量一定的情況下,仍能保證一定性能指標(biāo)的控制方法.H∞控制算法是魯棒控制的一種,通過最小化H∞指標(biāo)來達(dá)到魯棒控制的目的[1-3].文獻(xiàn)[4-5]中指出H∞控制和零和博弈存在內(nèi)在聯(lián)系.即把輸入和擾動看作相互博弈的兩個參與者,一般在定義指標(biāo)時使輸入為指標(biāo)的最小參與者,擾動為最大參與者.對于系統(tǒng)的H∞控制可以歸結(jié)為求解博弈黎卡提方程(Game algebraic Riccati equation,GARE)[5-6].H∞控制雖然能保證參數(shù)在一定波動范圍內(nèi)的穩(wěn)定性,但需要完整的系統(tǒng)動態(tài)模型.這大大限制了H∞的應(yīng)用范圍.

隨著信息科學(xué)技術(shù)的發(fā)展,與生活息息相關(guān)的實際過程,如冶金、化工、電力、物流運輸?shù)确矫姘l(fā)生了重大變化,復(fù)雜的生產(chǎn)設(shè)備與大量不同種類的傳感器同時應(yīng)用使工業(yè)過程趨于復(fù)雜.因此,這些過程在難以建立準(zhǔn)確的數(shù)學(xué)模型的同時卻產(chǎn)生儲存著大量反映系統(tǒng)動態(tài)的運行數(shù)據(jù).數(shù)據(jù)驅(qū)動的控制方法在此基礎(chǔ)上產(chǎn)生.經(jīng)過多年的發(fā)展,數(shù)據(jù)驅(qū)動的方法主要利用這些數(shù)據(jù)實現(xiàn)設(shè)計控制器,預(yù)測評估系統(tǒng)狀態(tài),在線優(yōu)化決策,甚至診斷故障[7].而數(shù)據(jù)驅(qū)動控制是指在不使用被控過程數(shù)學(xué)模型的信息的情況下,直接利用被控系統(tǒng)的數(shù)據(jù)設(shè)計控制器的控制理論和方法,且經(jīng)過嚴(yán)謹(jǐn)?shù)財?shù)學(xué)論證后可以保證控制器滿足一定的魯棒性與收斂性[8].

強化學(xué)習(xí)通過啟發(fā)機制來學(xué)習(xí)智能體與環(huán)境的交互策略,以優(yōu)化在交互過程中的長期收益的算法[6].在控制領(lǐng)域中,強化學(xué)習(xí)常用來解決自適應(yīng)最優(yōu)控制問題[9-12].其中,Doya[13]首次將基于強化學(xué)習(xí)的控制器應(yīng)用于連續(xù)系統(tǒng)中.在近期的研究中,強化學(xué)習(xí)應(yīng)用于更加有針對性的復(fù)雜工業(yè)過程中[14-19],尤其是對難以建模的復(fù)雜工業(yè)過程進(jìn)行了針對性的研究[15-17].文獻(xiàn)[12]對數(shù)據(jù)驅(qū)動的迭代優(yōu)化控制方法進(jìn)行了綜述性研究.文獻(xiàn)[14]將Q-learning 應(yīng)用于考慮丟包問題的網(wǎng)絡(luò)環(huán)境中,實現(xiàn)了一種數(shù)據(jù)驅(qū)動的浮選過程控制方法.文獻(xiàn)[15]考慮了輸入受限情況下的數(shù)據(jù)驅(qū)動浮選控制問題,并將強化學(xué)習(xí)應(yīng)用在浮選過程的雙率控制中.文獻(xiàn)[20]針對非線性系統(tǒng)跟蹤控制問題,提出了一種基于Q-learning 的直接求解評價函數(shù)的方法,避免了求解更復(fù)雜的HJBE(Hamilton-Jacobi-Bellman equation).文獻(xiàn)[21]針對輸出調(diào)節(jié)控制問題提出了一種新型基于Qlearning 的控制方法.文獻(xiàn)[22]針對離散時間非線性系統(tǒng)基于事件的最優(yōu)調(diào)節(jié)控制問題,提出了一種基于啟發(fā)式動態(tài)規(guī)劃的事件驅(qū)動方法.文獻(xiàn)[23]對非線性連續(xù)時間系統(tǒng)自適應(yīng)評價控制問題進(jìn)行了綜述性研究.Al-Tamimi 等[24]將Q-learning 算法應(yīng)用于H∞控制問題.

Off-policy 學(xué)習(xí)算法是強化學(xué)習(xí)的一種,其主要特點是在學(xué)習(xí)過程中,Off-policy 算法定義了兩個不同的策略,一種是用來產(chǎn)生數(shù)據(jù)的策略,另一種是求解得到的目標(biāo)策略[25-27].而On-policy 算法中,兩種策略相同,需要將每次迭代所求得的算法代入實際環(huán)境中來產(chǎn)生學(xué)習(xí)所用的數(shù)據(jù).因此,與Onpolicy 算法相比,Off-policy 算法更具可用性.同時與以Q-learning 算法[24]為代表的On-policy 學(xué)習(xí)方法相比,Off-policy 算法可以消除在學(xué)習(xí)過程中由探測噪聲所產(chǎn)生的誤差[25].換句話說,Off-policy 學(xué)習(xí)算法是一種無偏的學(xué)習(xí)方法.在基于Off-policy算法的連續(xù)系統(tǒng)H∞控制的基礎(chǔ)上,文獻(xiàn)[25] 將Off-policy 算法引入了離散線性系統(tǒng)H∞控制問題中,提出了需要狀態(tài)反饋值的離散線性系統(tǒng)控制算法.其通過考察狀態(tài)變化與值函數(shù)變化的關(guān)系,構(gòu)造了一種與探測噪聲無關(guān)的貝爾曼方程,進(jìn)而提出了一種無模型狀態(tài)反饋Off-policy 的H∞控制算法.

上述算法由于忽略了在某些應(yīng)用條件下關(guān)鍵狀態(tài)變量無法反饋這一問題,降低了算法在實際應(yīng)用環(huán)境下的可用范圍.因此,本文提出一種基于Offpolicy 的數(shù)據(jù)驅(qū)動輸出反饋H∞控制算法,針對模型未知的離散線性系統(tǒng)模型,實現(xiàn)無限時域上工作點附近鎮(zhèn)定控制的同時對能量有限的噪聲進(jìn)行抑制.區(qū)別與狀態(tài)反饋問題,本文的反饋量是輸出,本文通過構(gòu)造了新的值函數(shù),避免了直接使用狀態(tài)變量.由于無法直接使用狀態(tài)作為反饋,因而構(gòu)造了一種增廣數(shù)據(jù)向量,來解決輸出反饋控制問題.在線性模型依賴在線策略迭代(Policy iteration,PI)狀態(tài)反饋算法的基礎(chǔ)上,將結(jié)合了系統(tǒng)歷史輸出數(shù)據(jù)與歷史輸入數(shù)據(jù)的增廣數(shù)據(jù)向量作為反饋量,使在線狀態(tài)反饋算法轉(zhuǎn)換為模型依賴在線策略迭代輸入輸出反饋算法.通過引入輔助項的方法將模型依賴On-policy 輸入輸出反饋算法轉(zhuǎn)換為無模型Offpolicy 輸入輸出反饋控制算法.由于采用了Offpolicy 算法,該算法具有結(jié)構(gòu)簡單,可以得到理論上的最優(yōu)值的特點[25].除此之外,與On-policy 算法相比,Off-policy 算法的可以實現(xiàn)離線學(xué)習(xí),克服了On-policy 算法只能在線學(xué)習(xí)需要頻繁和環(huán)境交互的問題.在本文的最后,針對飛機短時間周期飛行姿態(tài)控制模型進(jìn)行了仿真實驗,以驗證算法的有效性.

1 研究背景

1.1 問題描述

1.2 博弈黎卡提方程

2 數(shù)據(jù)驅(qū)動在線策略迭代學(xué)習(xí)算法

2.1 狀態(tài)反饋在線策略迭代學(xué)習(xí)算法

2.2 一種由輸入輸出數(shù)據(jù)所組成的增廣向量

結(jié)合引理1 可以看出,根據(jù)輸入輸出反饋數(shù)據(jù)與目標(biāo)策略所得到的決策結(jié)果和根據(jù)狀態(tài)數(shù)據(jù)與中間策略所得到的決策結(jié)果相同.

2.3 輸入輸出數(shù)據(jù)反饋在線策略迭代學(xué)習(xí)算法

3 Off-policy 輸入輸出數(shù)據(jù)反饋優(yōu)化算法

4 仿真結(jié)果及分析

在本節(jié)中,以短時間周期飛機飛行姿態(tài)穩(wěn)定控制模型為例,對算法3 的有效性與可靠性進(jìn)行考察.H∞算法在該模型下的有效性與必要性已經(jīng)經(jīng)過驗證[29-30],本文將仿真結(jié)果展示的重點放在收斂性的考察.在收斂性方面,本文從初值的選擇與學(xué)習(xí)最優(yōu) 策略所用數(shù)據(jù)的影響兩個方面來考察算法3.

4.1 模型描述

在短時間段內(nèi)飛機平穩(wěn)飛行時,主要考慮迎角、俯仰速角率和升降舵偏角三者對飛機飛行姿態(tài)造成的影響.迎角是指飛機的速度矢量與機翼弦線之間的夾角.俯仰角速率是指飛行器繞橫軸旋轉(zhuǎn)的角速度.升降舵偏角是指飛機升降舵和平尾之間的夾角.其中,迎角和俯仰角速率可以直接衡量飛機的姿態(tài)變化.升降舵偏角的變化會造成升降舵所受到的氣動力矩發(fā)生變化,進(jìn)而影響飛機的飛行姿態(tài).因此,將迎角、俯仰角速率和升降舵偏角三者作為系統(tǒng)的狀態(tài)變量.將控制升降舵變化的升降舵執(zhí)行器電壓作為控制變量.考慮到飛機在平穩(wěn)飛行時,迎角易受到風(fēng)向與風(fēng)速的干擾,將迎角所受到的擾動作為擾動變量.由于飛機的俯仰速率測量比較困難,因此可以將迎角與升降舵偏角作為輸出變量.飛機飛行示意圖如圖1所示[30].

圖1 飛機飛行示意圖Fig.1 Aircraft flight diagram

4.2 仿真實驗

圖2 三組實驗參數(shù)收斂曲線Fig.2 Three groups of experimental parameters convergence curves

5 結(jié)束語

本文針對考慮擾動作用的線性離散系統(tǒng),提出了一種基于Off-Policy的無模型輸入輸出數(shù)據(jù)反饋H∞控制方法.該算法針對性解決了狀態(tài)數(shù)據(jù)反饋算法難以應(yīng)用于狀態(tài)無法測得的應(yīng)用環(huán)境這一問題,通過引入一種由輸入輸出數(shù)據(jù)組成的增廣數(shù)據(jù)向量將狀態(tài)反饋在線策略迭代算法轉(zhuǎn)換成輸入輸出反饋算法.并通過引入輔助項的方法,最終將輸入輸出反饋在線策略迭代算法轉(zhuǎn)換為無模型輸入輸出反饋Off-policy 算法.該算法和On-policy 算法所學(xué)習(xí)得出的策略相同,且該算法在學(xué)習(xí)過程中所用的數(shù)據(jù)默認(rèn)和在迭代過程中所更新的策略所產(chǎn)生的數(shù)據(jù)之間存在差異,這為數(shù)據(jù)驅(qū)動的離線算法和在迭代更新策略穩(wěn)定的情況下再更新策略提供了可能.最后,通過F-16 飛行器仿真模型驗證了該算法的收斂性與有效性.在本篇文章的基礎(chǔ)上,仍有一些十分重要的問題值得進(jìn)行研究,如輸入受限情況下的控制問題.考慮在網(wǎng)絡(luò)控制中,存在反饋數(shù)據(jù)丟包情況下的控制問題.更進(jìn)一步將本文所研究的內(nèi)容延展到非線性系統(tǒng)中,以提高本算法的應(yīng)用范圍與控制效果.

圖3 三組實驗范數(shù)收斂曲線Fig.3 Three groups of experimental parameters convergence curves