李夢(mèng)花,王 鼎,喬俊飛
(北京工業(yè)大學(xué)信息學(xué)部,北京 100124;計(jì)算智能與智能系統(tǒng)北京市重點(diǎn)實(shí)驗(yàn)室,北京 100124;智慧環(huán)保北京實(shí)驗(yàn)室,北京 100124;北京人工智能研究院,北京 100124)
自適應(yīng)動(dòng)態(tài)規(guī)劃(adaptive dynamic programming,ADP)方法由Werbos[1]首先提出,該方法結(jié)合了動(dòng)態(tài)規(guī)劃、神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí),其核心思想是利用函數(shù)近似結(jié)構(gòu)來(lái)估計(jì)最優(yōu)代價(jià)函數(shù),從而獲得被控系統(tǒng)的近似最優(yōu)解.在ADP方法體系中,動(dòng)態(tài)規(guī)劃蘊(yùn)含最優(yōu)性原理提供理論基礎(chǔ),神經(jīng)網(wǎng)絡(luò)作為函數(shù)近似結(jié)構(gòu)提供實(shí)現(xiàn)手段,強(qiáng)化學(xué)習(xí)提供學(xué)習(xí)機(jī)制.值得注意的是,ADP方法具有強(qiáng)大的自學(xué)習(xí)能力,在處理非線(xiàn)性復(fù)雜系統(tǒng)的最優(yōu)控制問(wèn)題上具有很大的潛力[2–7].此外,ADP作為一種近似求解最優(yōu)控制問(wèn)題的新方法,已經(jīng)成為智能控制與計(jì)算智能領(lǐng)域的研究熱點(diǎn).關(guān)于ADP的詳細(xì)理論研究以及相關(guān)應(yīng)用,讀者可以參考文獻(xiàn)[8–9].本文將基于ADP的動(dòng)態(tài)系統(tǒng)優(yōu)化控制統(tǒng)稱(chēng)為自適應(yīng)評(píng)判控制.
近年來(lái),微分博弈問(wèn)題在控制領(lǐng)域受到了越來(lái)越多的關(guān)注.微分博弈為研究多玩家系統(tǒng)的協(xié)作、競(jìng)爭(zhēng)與控制提供了一個(gè)標(biāo)準(zhǔn)的數(shù)學(xué)框架,包括二人零和博弈、多人零和博弈以及多人非零和博弈等.在零和博弈問(wèn)題中,控制輸入試圖最小化代價(jià)函數(shù)而干擾輸入試圖最大化代價(jià)函數(shù).在非零和博弈問(wèn)題中,每個(gè)玩家都獨(dú)立地選擇一個(gè)最優(yōu)控制策略來(lái)最小化自己的代價(jià)函數(shù).值得注意的是,零和博弈問(wèn)題已經(jīng)被廣泛研究.在文獻(xiàn)[10]中,作者提出了一種改進(jìn)的ADP方法來(lái)求解多輸入非線(xiàn)性連續(xù)系統(tǒng)的二人零和博弈問(wèn)題.An等人[11]提出了兩種基于積分強(qiáng)化學(xué)習(xí)的算法來(lái)求解連續(xù)時(shí)間系統(tǒng)的多人零和博弈問(wèn)題.Ren等人[12]提出了一種新穎的同步脫策方法來(lái)處理多人零和博弈問(wèn)題.然而,關(guān)于非零和博弈[13–14]的研究還很少.此外,控制約束在實(shí)際應(yīng)用中也廣泛存在.這些約束通常是由執(zhí)行器的固有物理特性引起的,如氣壓、電壓和溫度.因此,為了確保被控系統(tǒng)的性能,受約束的系統(tǒng)需要被考慮.Zhang等人[15]發(fā)展了一種新穎的事件采樣ADP方法來(lái)求解非線(xiàn)性連續(xù)約束系統(tǒng)的魯棒最優(yōu)控制問(wèn)題.Huo等人[16]研究了一類(lèi)非線(xiàn)性約束互聯(lián)系統(tǒng)的分散事件觸發(fā)控制問(wèn)題.Yang和He[17]研究了一類(lèi)具有不匹配擾動(dòng)和輸入約束的非線(xiàn)性系統(tǒng)事件觸發(fā)魯棒鎮(zhèn)定問(wèn)題.這些文獻(xiàn)考慮的都是對(duì)稱(chēng)約束,而實(shí)際應(yīng)用中,被控系統(tǒng)受到的約束也可能是不對(duì)稱(chēng)的[18–20],例如在污水處理過(guò)程中,需要通過(guò)氧傳遞系數(shù)和內(nèi)回流量對(duì)溶解氧濃度和硝態(tài)氮濃度進(jìn)行控制,而根據(jù)實(shí)際的運(yùn)行條件,這兩個(gè)控制變量就需要被限制在一個(gè)不對(duì)稱(chēng)約束范圍內(nèi)[20].因此,在控制器設(shè)計(jì)過(guò)程中,不對(duì)稱(chēng)約束問(wèn)題將是筆者研究的一個(gè)方向.
到目前為止,關(guān)于具有控制約束的微分博弈問(wèn)題,有一些學(xué)者取得了相應(yīng)的研究成果[12,21–23].但可以發(fā)現(xiàn),具有不對(duì)稱(chēng)約束的多人非零和博弈問(wèn)題還沒(méi)有學(xué)者研究.同時(shí),在多人非零和博弈問(wèn)題中,相關(guān)的耦合Hamilton-Jacobi(HJ)方程是很難求解的.因此,本文針對(duì)一類(lèi)連續(xù)時(shí)間非線(xiàn)性系統(tǒng)的不對(duì)稱(chēng)約束多人非零和博弈問(wèn)題,提出了一種自適應(yīng)評(píng)判控制方法來(lái)近似求解耦合HJ方程,從而獲得被控系統(tǒng)的近似最優(yōu)解.本文的主要貢獻(xiàn)如下: 1)首次將不對(duì)稱(chēng)約束應(yīng)用到連續(xù)時(shí)間非線(xiàn)性系統(tǒng)的多人非零和博弈問(wèn)題中;2)提出了一種新穎的非二次型函數(shù)來(lái)處理不對(duì)稱(chēng)約束問(wèn)題,并且當(dāng)系統(tǒng)狀態(tài)為零時(shí),最優(yōu)控制策略是不為零的,這與以往不同;3)在學(xué)習(xí)期間,用單一評(píng)判網(wǎng)絡(luò)結(jié)構(gòu)代替了傳統(tǒng)的執(zhí)行–評(píng)判網(wǎng)絡(luò)結(jié)構(gòu),并且提出了一種新的權(quán)值更新規(guī)則;4)利用Lyapunov方法證明了評(píng)判網(wǎng)絡(luò)權(quán)值近似誤差和系統(tǒng)狀態(tài)的一致最終有界(uniformly ultimately bounded,UUB)穩(wěn)定性.
考慮以下具有不對(duì)稱(chēng)約束的N–玩家連續(xù)時(shí)間非線(xiàn)性系統(tǒng):
其中:x(t)∈? ?Rn是狀態(tài)向量且x(0)=x0為初始狀態(tài),Rn代表由所有n-維實(shí)向量組成的歐氏空間,?是Rn的一個(gè)緊集;uj(t)∈Tj ?Rm為玩家j在時(shí)刻t所選擇的策略,且Tj為
假設(shè)1非線(xiàn)性系統(tǒng)(1)是可控的,并且x=0是被控系統(tǒng)(1)的一個(gè)平衡點(diǎn).此外,?j ∈N,f(x)和gj(x)是未知的Lipschitz函數(shù)且f(0)=0,其中集合N={1,2,···,N},N≥2是一個(gè)正整數(shù).
假設(shè)2?j ∈N,gj(0)=0,且存在一個(gè)正常數(shù)bgj使‖gj(x)‖≤bgj,其中‖·‖表示在Rn上的向量范數(shù)或者在Rn×m上的矩陣范數(shù),Rn×m代表由所有n×m維實(shí)矩陣組成的空間.
注1假設(shè)1–3是自適應(yīng)評(píng)判領(lǐng)域的常用假設(shè),例如文獻(xiàn)[6,13,19],是為了保證系統(tǒng)的穩(wěn)定性以及方便后文中的穩(wěn)定性證明,其中假設(shè)3出現(xiàn)在后文中的第3.2節(jié).
定義與每個(gè)玩家相關(guān)的效用函數(shù)為
其中U={u1,u2,···,uN}并且Qi是一個(gè)對(duì)稱(chēng)正定矩陣.此外,為了處理不對(duì)稱(chēng)約束問(wèn)題,令Sj(uj)為
其中αj和βj分別為
因此,與每個(gè)玩家相關(guān)的代價(jià)函數(shù)可以表示為
其中i ∈N.為了方便,將Ji(x0,U)簡(jiǎn)寫(xiě)為Ji(x0).于是,每個(gè)玩家的最優(yōu)代價(jià)函數(shù)為
在本文中,如果一個(gè)控制策略集的所有元素都是可容許的,那么這個(gè)集合是可容許的.
定義1(容許控制[24])如果控制策略u(píng)i(x)是連續(xù)的,ui(x)可以鎮(zhèn)定系統(tǒng)(1),并且Ji(x0)是有限的,那么它是集合?上關(guān)于代價(jià)函數(shù)(6)的可容許控制律,即ui(x)∈Ψ(?),i ∈N,其中,Ψ(?)是?上所有容許控制律的集合.
對(duì)于任意一個(gè)可容許控制律ui(x)∈Ψ(?),如果相關(guān)代價(jià)函數(shù)(6)是連續(xù)可微的,那么非線(xiàn)性L(fǎng)yapunov方程為
其中,Hamiltonian函數(shù)Hi(x,U,?(x))為
注2根據(jù)式(2)和式(5),能推導(dǎo)出βi≠0,即≠0,又根據(jù)式(12)可知(0)≠0,i ∈N.因此,為了保證x=0是系統(tǒng)(1)的平衡點(diǎn),在假設(shè)2中提出了條件?j ∈N,gj(0)=0.
將式(12)代入式(10),耦合HJ方程又能表示為
如果已知每個(gè)玩家的最優(yōu)代價(jià)函數(shù)值,那么相關(guān)的最優(yōu)狀態(tài)反饋控制律就可以直接獲得,也就是說(shuō)式(13)是可解的.可是,式(13)這種非線(xiàn)性偏微分方程的求解是十分困難的.同時(shí),隨著系統(tǒng)維數(shù)的增加,存儲(chǔ)量和計(jì)算量也隨之以指數(shù)形式增加,也就是平常所說(shuō)的“維數(shù)災(zāi)”問(wèn)題.因此,為了克服這些弱點(diǎn),在第3部分提出了一種基于神經(jīng)網(wǎng)絡(luò)的自適應(yīng)評(píng)判機(jī)制,來(lái)近似每個(gè)玩家的最優(yōu)代價(jià)函數(shù),從而獲得相關(guān)的近似最優(yōu)狀態(tài)反饋控制策略.
本節(jié)的核心是構(gòu)建并訓(xùn)練評(píng)判神經(jīng)網(wǎng)絡(luò),以得到訓(xùn)練后的權(quán)值,從而獲得每個(gè)玩家的近似最優(yōu)代價(jià)函數(shù)值.
首先,根據(jù)神經(jīng)網(wǎng)絡(luò)的逼近性質(zhì)[25],可將每個(gè)玩家的最優(yōu)代價(jià)函數(shù)(x)在緊集?上表示為
其中:Wi ∈Rδ是理想權(quán)值向量,σi(x)∈Rδ是激活函數(shù),δ是隱含層神經(jīng)元個(gè)數(shù),ξi(x)∈R是重構(gòu)誤差.同時(shí),可得出每個(gè)玩家的最優(yōu)代價(jià)函數(shù)梯度為
將式(15)代入式(12),有
值得注意的是,式(14)中的理想權(quán)值向量Wi是未知的,也就是說(shuō)式(16)中的(x)是不可解的.因此,構(gòu)建如下的評(píng)判神經(jīng)網(wǎng)絡(luò):
考慮式(19),近似的最優(yōu)控制律為
本節(jié)的核心是通過(guò)利用Lyapunov方法討論評(píng)判網(wǎng)絡(luò)權(quán)值近似誤差和閉環(huán)系統(tǒng)狀態(tài)的UUB穩(wěn)定性.這里,給出以下假設(shè):
定理1考慮系統(tǒng)(1),如果假設(shè)1–3成立,狀態(tài)反饋控制律由式(20)給出,且評(píng)判網(wǎng)絡(luò)權(quán)值通過(guò)式(22)進(jìn)行訓(xùn)練,則評(píng)判網(wǎng)絡(luò)權(quán)值近似誤差是UUB穩(wěn)定的.
證選取如下的Lyapunov函數(shù):
計(jì)算L1i(t)沿著式(23)的時(shí)間導(dǎo)數(shù),即
根據(jù)假設(shè)3,有
其中λmin(·)表示矩陣的最小特征值.因此,當(dāng)不等式
證畢.
定理2考慮系統(tǒng)(1),如果假設(shè)1–3成立,狀態(tài)反饋控制律由式(20)給出,且評(píng)判網(wǎng)絡(luò)權(quán)值通過(guò)式(22)進(jìn)行訓(xùn)練,則系統(tǒng)狀態(tài)x(t)是UUB穩(wěn)定的.
證選取如下的Lyapunov函數(shù):
考慮式(13),有
同時(shí),根據(jù)假設(shè)2–3,有
考慮如下的3–玩家連續(xù)時(shí)間非線(xiàn)性系統(tǒng):
其中:x(t)=[x1x2]T∈R2是狀態(tài)向量,u1(x)∈T1={u1∈R:-1 ≤u1≤2},u2(x)∈T2={u2∈R:-0.2 ≤u2≤1}和u3(x)∈T3={u3∈R:-0.4 ≤u3≤0.8}是控制輸入.
令Q1=2I2,Q2=1.8I2,Q3=0.3I2,其中I2代表2× 2維單位矩陣.同時(shí),根據(jù)式(5)可知,α1=1.5,β1=0.5,α2=0.6,β2=0.4,α3=0.6,β3=0.2.因此,與每個(gè)玩家相關(guān)的代價(jià)函數(shù)可以表示為
執(zhí)行學(xué)習(xí)過(guò)程,本文發(fā)現(xiàn)每個(gè)玩家的評(píng)判神經(jīng)網(wǎng)絡(luò)權(quán)值分別收斂于[6.9091 2.9904 6.6961]T,[4.8901 2.2347 5.2062]T,[1.7945 0.3321 2.4583]T.在60個(gè)時(shí)間步之后去掉探測(cè)噪聲,每個(gè)玩家的評(píng)判網(wǎng)絡(luò)權(quán)值收斂過(guò)程如圖1–3所示.然后,將訓(xùn)練好的權(quán)值代入式(20),能得到每個(gè)玩家的近似最優(yōu)控制律,將其應(yīng)用到系統(tǒng)(39),經(jīng)過(guò)10個(gè)時(shí)間步之后,得到的狀態(tài)軌跡和控制軌跡分別如圖4–5所示.由圖4可知,系統(tǒng)狀態(tài)最終收斂到了平衡點(diǎn).由圖5可知,每個(gè)玩家的控制軌跡都沒(méi)有超出預(yù)定的邊界,并且可以觀察到u1,u2和u3分別收斂于0.5,0.4和0.2.綜上所述,仿真結(jié)果驗(yàn)證了所提方法的有效性.
圖1 玩家1的評(píng)判網(wǎng)絡(luò)權(quán)值收斂過(guò)程Fig.1 Convergence process of the critic network weights for player 1
圖2 玩家2的評(píng)判網(wǎng)絡(luò)權(quán)值收斂過(guò)程Fig.2 Convergence process of the critic network weights for player 2
圖3 玩家3的評(píng)判網(wǎng)絡(luò)權(quán)值收斂過(guò)程Fig.3 Convergence process of the critic network weights for player 3
圖4 系統(tǒng)(39)的狀態(tài)軌跡Fig.4 State trajectory of the system(39)
圖5 系統(tǒng)(39)的控制軌跡Fig.5 Control trajectories of the system(39)
本文首次將不對(duì)稱(chēng)約束應(yīng)用到連續(xù)時(shí)間非線(xiàn)性系統(tǒng)的多人非零和博弈問(wèn)題中.首先,獲得了最優(yōu)狀態(tài)反饋控制律和耦合HJ方程,并且為了解決不對(duì)稱(chēng)約束問(wèn)題,建立了一種新的非二次型函數(shù).值得注意的是,當(dāng)系統(tǒng)狀態(tài)為零時(shí),最優(yōu)控制策略是不為零的.其次,由于耦合HJ方程不易求解,提出了一種基于神經(jīng)網(wǎng)絡(luò)的自適應(yīng)評(píng)判算法來(lái)近似每個(gè)玩家的最優(yōu)代價(jià)函數(shù),從而獲得相關(guān)的近似最優(yōu)控制律.在實(shí)現(xiàn)過(guò)程中,用單一評(píng)判網(wǎng)絡(luò)結(jié)構(gòu)代替了經(jīng)典的執(zhí)行–評(píng)判結(jié)構(gòu),并且建立了一種新的權(quán)值更新規(guī)則.然后,利用Lyapunov理論討論了評(píng)判網(wǎng)絡(luò)權(quán)值近似誤差和系統(tǒng)狀態(tài)的UUB穩(wěn)定性.最后,仿真結(jié)果驗(yàn)證了所提算法的可行性.在未來(lái)的工作中,會(huì)考慮將事件驅(qū)動(dòng)機(jī)制引入到連續(xù)時(shí)間非線(xiàn)性系統(tǒng)的不對(duì)稱(chēng)約束多人非零和博弈問(wèn)題中,并且將該研究?jī)?nèi)容應(yīng)用到污水處理系統(tǒng)中也是筆者的一個(gè)重點(diǎn)研究方向.