陳昱
摘 要:針對系統(tǒng)模型參數(shù)未知的連續(xù)系統(tǒng),本文主要分析和驗證魯棒積分強化學(xué)習的必要性。該方法不要求連續(xù)線性系統(tǒng)參數(shù)完全已知,也不需要對動態(tài)模型參數(shù)進行進一步估計。首先,采用優(yōu)化性能的最優(yōu)控制問題,基于動態(tài)規(guī)劃方法得到代數(shù)黎卡提方程;然后,利用積分強化學(xué)習方法,得到迭代貝爾曼方程,進一步利用積分強化學(xué)習算法,分析此算法在針對不確定系統(tǒng)時是否有效;最后,算例仿真驗證在是否考慮不確定性存在狀態(tài)下對連續(xù)線性不確定系統(tǒng)的影響。
關(guān)鍵詞:積分強化學(xué)習;連續(xù)系統(tǒng);魯棒性;不確定性
中圖分類號:O232文獻標識碼:A文章編號:1003-5168(2020)28-0012-03
Optimal Control Analysis of Continuous Linear Uncertain Systems
Based on Integral Reinforcement Learning
CHEN Yu
(College of Innovation and Entrepreneurship, Liaoning University of Petroleum and Chemical Technology,F(xiàn)ushun Liaoning 113000)
Abstract: For continuous systems with unknown model parameters, the necessity of robust integral reinforcement learning was analyzed and verified in this paper. The method does not require that the parameters of the continuous linear system are completely known, and it does not require further estimation of the parameters of the dynamic model. Firstly, the algebraic Riccati equation was obtained by using the optimal control problem of optimal performance based on dynamic programming. Then, the iterative Bellman equation was obtained by using the integral reinforcement learning method, and the integral reinforcement learning algorithm was further used to analyze whether the algorithm is effective for uncertain systems. Finally, an example was given to verify the influence on the continuous linear uncertain system with or without considering the existence state of uncertainty.
Keywords: integral reinforcement learning;continuous system;robustness;uncertainty
1 研究背景
強化學(xué)習(Reinforcement Learning)又稱再勵學(xué)習、評價學(xué)習或增強學(xué)習,是智能系統(tǒng)從環(huán)境到行為映射的學(xué)習方式,以使獎勵信號(強化信號)函數(shù)值最大??刂葡到y(tǒng)在試錯過程中,外界會針對試錯結(jié)果進行一定的反饋,此過程中強化學(xué)習算法可以調(diào)節(jié)相關(guān)參數(shù)以獲得更好的控制結(jié)果。該算法利用系統(tǒng)的部分或完全動力學(xué)知識來強化學(xué)習系統(tǒng)的控制器。然而,對于許多實際問題很難得到系統(tǒng)動力學(xué)知識。積分強化學(xué)習是針對系統(tǒng)模型參數(shù)未知的連續(xù)系統(tǒng),且無須估計動態(tài)模型參數(shù)的一種強化學(xué)習方法。近年來,隨著對不確定連續(xù)系統(tǒng)研究的深入,研究者們致力于發(fā)展積分強化學(xué)習方法,以獲得不確定動態(tài)系統(tǒng)的最優(yōu)控制器。
目前,越來越多的研究開始涉獵積分強化學(xué)習并將其應(yīng)用于自動控制領(lǐng)域,其中在連續(xù)線性系統(tǒng)中應(yīng)用較多。采用積分強化學(xué)習方法,不完全依賴系統(tǒng)模型參數(shù),而是利用數(shù)據(jù)學(xué)習狀態(tài)反饋來判斷控制策略是否最優(yōu)。優(yōu)化控制系統(tǒng)性能的研究成果有很多,如研究線性系統(tǒng)最優(yōu)調(diào)節(jié)[1]、近似動態(tài)規(guī)劃最優(yōu)控制[2]、自適應(yīng)容錯控制[3]等。策略學(xué)習(on-policy)指獲取數(shù)據(jù)的動作和最終策略的動作是一致的,非策略學(xué)習(off-policy)即獲取數(shù)據(jù)的動作和最終策略的動作不一致。積分強化學(xué)習涉及兩個關(guān)鍵流程:一是選擇用來獲取數(shù)據(jù)的動作,二是最終用來選擇動作的策略。因此本文采用策略學(xué)習進行動作。從線性連續(xù)系統(tǒng)的相關(guān)文獻[4]來看,其并未考慮不確定性的存在,控制器是否能在存在不確定性的前提下有效使用值得我們深入探究和驗證。
本論文驗證了一種基于積分強化學(xué)習算法的控制器用以解決連續(xù)線性系統(tǒng)部分參數(shù)未知的線性問題。首先,給出具有不確定性的優(yōu)化問題模型,假設(shè)該系統(tǒng)不存在不確定性,然后給出基于積分強化學(xué)習的數(shù)據(jù)驅(qū)動的算法,以保證系統(tǒng)穩(wěn)定并且優(yōu)化控制器相關(guān)性能指標。之后通過實驗分析表明,在系統(tǒng)存在不確定性并且該不確定性不可忽略的條件下,控制器作用無效即不能保證該線性連續(xù)系統(tǒng)的穩(wěn)定性。最后通過仿真實驗驗證了所提算法對最優(yōu)控制解的收斂程度。
2 問題闡述
考慮如下線性連續(xù)時間系統(tǒng):