梅俊,顧和平
(中南民族大學(xué) 數(shù)學(xué)與統(tǒng)計學(xué)學(xué)院,武漢 430074)
最優(yōu)控制問題旨在為系統(tǒng)設(shè)計一個控制器,以優(yōu)化系統(tǒng)性能[1-2].通常,線性系統(tǒng)可用Riccati 方程求解[3].對于低維數(shù)的非線性系統(tǒng),有學(xué)者提出了動態(tài)規(guī)劃方法[4],將復(fù)雜的最優(yōu)控制問題轉(zhuǎn)化為一個多階段的決策過程.但當(dāng)系統(tǒng)狀態(tài)變量維數(shù)增加時,動態(tài)規(guī)劃方法的計算量會呈指數(shù)倍增長.于是,為了克服維數(shù)增長帶來的難題,美國學(xué)者WERBOS提出了自適應(yīng)動態(tài)規(guī)劃(Adaptive Dynamic Programming,ADP),有效解決了復(fù)雜非線性系統(tǒng)的最優(yōu)控制問題.
近年來,已經(jīng)報道了許多基于ADP 的控制方法[5-7],其基本思想是利用函數(shù)近似結(jié)構(gòu)來逼近動態(tài)規(guī)劃方程中的成本函數(shù)和控制策略,使之滿足Bellman 最優(yōu)性原理.通常,傳統(tǒng)的控制器是對系統(tǒng)進行實時控制的,控制器每時每刻都在更新,因此耗費大量寬帶資源[8].為了降低控制器的執(zhí)行次數(shù),本文引入了采樣控制方法[9-10].采樣控制只在采樣時刻更新控制器[11],并將這一控制信號保持到下一采樣時刻,從而減少了控制頻率.因此,與傳統(tǒng)的控制相比,采樣控制在合適的采樣周期內(nèi)可以使得系統(tǒng)信號傳輸更加高效[12].
目前,針對基于ADP 的非線性系統(tǒng)采樣控制的研究鮮有報道,為此,本文將研究基于ADP 的采樣控制方面的問題. 首先,根據(jù)Hamilton-Jacobi-Bellman(HJB)方 程 和 零 階 保 持 器(Zero Order Holder,ZOH)的思想得出最優(yōu)采樣控制器;然后,利用評價神經(jīng)網(wǎng)絡(luò)(Neural Network,NN)逼近成本函數(shù),并且通過最小二乘法訓(xùn)練得到評價NN 權(quán)值;另外,通過Lyapunov 穩(wěn)定性理論得出系統(tǒng)穩(wěn)定的充分條件,證明閉環(huán)系統(tǒng)一致最終有界(Uniformly Ultimately Bounded,UUB);最后,通過數(shù)值仿真的例子驗證所提方法的有效性.
符號說明:Rn表示n維列向量,Rn×m表示n×m階矩陣,‖ · ‖表示向量或矩陣范數(shù),上標(biāo)T 表示向量或矩陣的轉(zhuǎn)置,N 表示正整數(shù)集,?= ??x表示梯度運算,λmin(·)表示矩陣的最小特征值.
考慮如下連續(xù)時間非線性系統(tǒng):
其中,x(t) ∈Rn為系統(tǒng)狀態(tài),f(·) ∈Rn和g(·) ∈Rn×m為光滑連續(xù)的系統(tǒng)動力學(xué)函數(shù),u(t) ∈Rm為控制輸入.假設(shè)f(0) = 0,f(·)在包含原點的有界閉集Ω ?Rn上是Lipschitz連續(xù)的.
定義如下成本函數(shù):
其中,r(x,u) =xTQx+uTRu為效用函數(shù).Q∈Rn×n和R∈Rm×m均為正定矩陣.為簡單起見,后續(xù)與時間t相關(guān)的變量或函數(shù)在表示時均省略t.假設(shè)V(x) ∈C1(Ω),則其滿足如下方程:
其中,?V(x) = ?V(x) ?x.
定義系統(tǒng)(1)的Hamiltonian如下:
根據(jù)Bellman最優(yōu)性原理可以得到如下HJB方程:
其中,Λ(Ω)為容許控制域,V*(x)為最優(yōu)成本函數(shù).假設(shè)方程(5)左端存在唯一極小值,即:
結(jié)合(4)~(6)式得到最優(yōu)控制策略如下:
根 據(jù)(7)式,可 以 將HJB 方 程(5)寫 為:
注控制目的旨在從HJB 方程(8)中解出?V*(x),從而設(shè)計一個控制策略u*使得閉環(huán)系統(tǒng)(1)漸近穩(wěn)定,同時將成本函數(shù)最小化.
結(jié)合(7)式和(9)式,設(shè)計最優(yōu)采樣控制器如下:
其中,xk=x(tk)為采樣系統(tǒng)狀態(tài).
根據(jù)采樣控制思想可以將系統(tǒng)(1)寫為:
采樣控制序列通過ZOH 轉(zhuǎn)換為連續(xù)信號并作用在系統(tǒng)上,實現(xiàn)采樣控制.由于最優(yōu)控制u*可分為區(qū)間[t,t+T]上的最優(yōu)控制以及區(qū)間[t+T,∞]上的最優(yōu)控制,根據(jù)Bellman 最優(yōu)性原理,對x(t) ∈Ω 和x(t+T) ∈Ω 可 將最優(yōu) 成本函 數(shù)寫為:
其中,t∈[tk,tk+1),V*(0) = 0.
假設(shè)1最優(yōu)控制u*是局部Lipschitz 連續(xù)的,即:
其中,lu為正的Lipschitz常數(shù).
定理1在假設(shè)1 下,若成立,則系統(tǒng)(11)在最優(yōu)采樣控制器(10)的作用下漸近穩(wěn)定.
證明選取Lyapunov函數(shù)L1:
當(dāng)t∈[tk,tk+1)時,將(14)式沿著系統(tǒng)軌跡(11)式求導(dǎo)可得:
根據(jù)(4)式、(5)式和(7)式得:
將(16)式、(17)式代入(15)式并結(jié)合(13)式可得:
當(dāng)t=tk+1時,對于連續(xù)的系統(tǒng)狀態(tài)x,有ΔL1=V*(x+)-V*(x) ≤0,因 此 當(dāng)Tmax時,有(x) <0成立,此時閉環(huán)系統(tǒng)(11)是漸近穩(wěn)定的.其中,rmin(x,u(tk)) >0表示采樣控制過程中的最小效用函數(shù).
由于HJB 方程的非線性特性,導(dǎo)致其直接求解?V*(x)極其困難,因此本節(jié)應(yīng)用ADP 方法的評價NN 結(jié)構(gòu)逼近V*(x),進而得到?V*(x).對于x∈Ω,構(gòu)造評價NN結(jié)構(gòu)如下:
其中,W∈Rq為評價NN 輸出層權(quán)值,隱含層權(quán)值均為1,在訓(xùn)練中不會改變;φ(x) ∈Rq為激活函數(shù),q為隱含層神經(jīng)元個數(shù).對(19)式求關(guān)于x的偏導(dǎo)可得:
根據(jù)(20)式將(7)式和(10)式寫為:
根據(jù)(19)式可以將(12)式寫為:
由于最優(yōu)成本函數(shù)被NN 近似代替,故(23)式有殘差:
為了得到評價NN 權(quán)值自適應(yīng)更新律,利用最小二乘法最小化目標(biāo)函數(shù):
即,利用Lebesgue 積分的內(nèi)積形式將其寫為:
根據(jù)(23)式、(24)式可將(26)式寫為:
由(27)式可以得到評價NN自適應(yīng)更新律:
其中:
根據(jù)文獻[13]知θ是可逆的.
假設(shè)2設(shè)函數(shù)g(x)和激活函數(shù)的梯度?φ(x)均有界,即其中bg、bφ均為正常數(shù),x∈Ω為系統(tǒng)狀態(tài).
假設(shè)3設(shè)函數(shù)g(x)和激活函數(shù)的梯度?φ(x)均是局部Lipschitz連續(xù)的,即:
其中l(wèi)g、lφ均為正的Lipschitz常數(shù),x∈Ω為連續(xù)系統(tǒng)狀態(tài),xk∈Ω 為采樣系統(tǒng)狀態(tài),εk=x-xk為采樣狀態(tài)誤差.
定理2在假設(shè)2、假設(shè)3下,評價NN 權(quán)值自適應(yīng)更新律為(28)式,若采樣狀態(tài)誤差εk滿足:
則系統(tǒng)(11)與最優(yōu)采樣控制器(22)形成的閉環(huán)為UUB.
證明選取Lyapunov函數(shù)L:
其中,L1=V*(x),L2=V*(xk).
情形1:當(dāng)t∈[tk,tk+1)時,= 0,在最優(yōu)采樣控制u*(tk)的作用下,對L1沿系統(tǒng)軌跡求關(guān)于t的導(dǎo)數(shù):
結(jié)合(16)式、(17)式,將(33)式寫為:
根據(jù)(21)式、(22)式有:
情形2:當(dāng)t=tk+1時,由(32)式可得:
由于系統(tǒng)狀態(tài)x是連續(xù)的,于是有:
結(jié)合(38)~(40)式,可知Lyapunov 函數(shù)(32)是遞減的,其中κ(·)為κ類函數(shù).
綜合以上兩種情形,定理得證.
考慮如下非線性系統(tǒng):
實驗中取lu= 1,lg=lφ= 2,bg= 1,bφ= 3,則可驗證假設(shè)1~假設(shè)3成立.從圖1可以看出,系統(tǒng)狀態(tài)x在最優(yōu)采樣控制器的作用下收斂到0.成本函數(shù)和最優(yōu)采樣控制輸入的變化過程分別在圖2 和圖3 中展示.在圖4中,評價NN權(quán)值最終收斂到穩(wěn)定值,即W=[5 0 10]T.圖5 表明:所提的方法優(yōu)于傳統(tǒng)方法(如連續(xù)控制),傳統(tǒng)方法的控制器需要實時更新,而所提出的采樣控制方法減少了控制器的更新頻率,因而在實際應(yīng)用中更節(jié)約通信資源.
圖1 系統(tǒng)狀態(tài)的收斂過程Fig.1 The convergence process of the system state
圖2 成本函數(shù)的變化過程Fig.2 Change process of cost function
圖3 最優(yōu)采樣控制輸入的變化過程Fig.3 Change process of optimal sampling control input
圖4 評價NN權(quán)值的變化過程Fig.4 Change process of critic NN weights
圖5 采樣次數(shù)對比Fig.5 Comparison of sampling times
本文運用ADP 方法研究了非線性系統(tǒng)的最優(yōu)采樣控制.通過仿真發(fā)現(xiàn):所提方法有效降低了控制器的執(zhí)行次數(shù),同時保證了系統(tǒng)的穩(wěn)定性.首先,在原有的控制器上結(jié)合ZOH 設(shè)計采樣控制器;其次,在自適應(yīng)控制過程中利用評價NN 逼近未知的最優(yōu)成本函數(shù),并運用最小二乘法訓(xùn)練評價NN 權(quán)值;最后,通過一個非線性系統(tǒng)仿真驗證了所提方法的正確性和有效性.在接下來的研究中,有望將基于ADP 的采樣控制方法擴展到未知動力學(xué)的非線性系統(tǒng)中.