于 鏑
(北京信息科技大學(xué)自動(dòng)化學(xué)院,北京 100192)
由于多智能體協(xié)調(diào)控制在眾多領(lǐng)域中存在廣泛成功的應(yīng)用,所以其研究受到廣大研究人員的關(guān)注.譬如自組裝機(jī)器人聚集、無人機(jī)火災(zāi)救援、衛(wèi)星姿態(tài)調(diào)整和智能電網(wǎng)分配等等.作為典型的協(xié)調(diào)控制,包容控制由于在危險(xiǎn)物資搬運(yùn)和火災(zāi)救援等軍事和民用方面具有潛在的大量應(yīng)用,已經(jīng)吸引了眾多學(xué)者的研究熱情.在包容控制中,存在多個(gè)領(lǐng)航者,并且跟隨者的運(yùn)動(dòng)限定在領(lǐng)航者所圍成的最小幾何空間中.迄今為止,在多智能體網(wǎng)絡(luò)包容控制研究方面已經(jīng)涌現(xiàn)出很多優(yōu)秀的研究成果[1–4].
但上述成果均要求系統(tǒng)動(dòng)態(tài)已知且非最優(yōu)控制.在實(shí)際應(yīng)用中,未知的外界環(huán)境可導(dǎo)致系統(tǒng)動(dòng)態(tài)的不確定性變化,由原有動(dòng)態(tài)得到的控制方法并不準(zhǔn)確或奏效.因此基于數(shù)據(jù)驅(qū)動(dòng)的控制思想深受研究人員的青睞,主要依據(jù)可測(cè)得的網(wǎng)絡(luò)系統(tǒng)數(shù)據(jù)信息進(jìn)行系統(tǒng)監(jiān)控與故障診斷等行為.并且在實(shí)現(xiàn)包容控制的同時(shí)需考慮能量的損耗,所以需要實(shí)現(xiàn)最優(yōu)控制.作為非常典型的自適應(yīng)動(dòng)態(tài)規(guī)劃方法,增強(qiáng)學(xué)習(xí)(reinforcement learning,RL)思想已被研究人員用來解決這個(gè)有趣且具有挑戰(zhàn)性的問題.RL方法中智能體與周圍未知環(huán)境進(jìn)行交互,從而學(xué)習(xí)最優(yōu)控制策略[5–7].因此,對(duì)于線性和非線性系統(tǒng),文獻(xiàn)[8–9]提出了連續(xù)時(shí)間在線策略迭代算法,其由策略評(píng)估和策略更新兩步組成,并且分別采用評(píng)價(jià)神經(jīng)網(wǎng)絡(luò)和執(zhí)行神經(jīng)網(wǎng)絡(luò)參量化地表示值函數(shù)和控制策略.在系統(tǒng)內(nèi)動(dòng)態(tài)信息未知的情況下,得出最優(yōu)控制解的收斂性.在文獻(xiàn)[10]中,針對(duì)控制輸入受限的非線性系統(tǒng),在系統(tǒng)轉(zhuǎn)移動(dòng)態(tài)未知的情況下,拓展積分增強(qiáng)學(xué)習(xí)(integral reinforcement learning,IRL)方法來解決其最優(yōu)跟蹤控制問題且在保持激勵(lì)條件下得出系統(tǒng)的收斂性和穩(wěn)定性.對(duì)于完全未知?jiǎng)討B(tài)的非線性系統(tǒng),基于Nash平衡解和最小–最大優(yōu)化思想設(shè)計(jì)跟蹤控制器,并且采用離策略RL算法來學(xué)習(xí)最優(yōu)控制策略[11].而文獻(xiàn)[12]對(duì)于動(dòng)態(tài)完全未知的輸入受限非線性系統(tǒng),合適的選取標(biāo)稱系統(tǒng)的代價(jià)函數(shù)使得獲得的近似最優(yōu)控制使得系統(tǒng)一致最終有界穩(wěn)定.并且提出積分增強(qiáng)學(xué)習(xí)算法基于系統(tǒng)數(shù)據(jù)同時(shí)更新值函數(shù)和控制策略來解決魯棒自適應(yīng)調(diào)節(jié)問題.
以上的成果均針對(duì)單個(gè)系統(tǒng),文獻(xiàn)[13–14]將RL算法應(yīng)用到多智能體系統(tǒng)的最優(yōu)包容控制.對(duì)于線性異構(gòu)多智能體系統(tǒng),文獻(xiàn)[13]基于內(nèi)模原理并采用全狀態(tài)反饋和靜態(tài)輸出反饋來研究輸出包容問題.在文獻(xiàn)[14]中,提出離策略增強(qiáng)學(xué)習(xí)算法來解決部分模型未知的線性多智能體系統(tǒng)的最優(yōu)包容控制問題.上述成果均未考慮控制輸入受限和網(wǎng)絡(luò)受擾情況.然而,在實(shí)際應(yīng)用中均需限定執(zhí)行器的幅值來滿足物理結(jié)構(gòu)和運(yùn)行安全的要求,而且網(wǎng)絡(luò)個(gè)體會(huì)受到模型不確定性、隨機(jī)干擾等非線性攝動(dòng)的影響.所以,在考慮非線性擾動(dòng)情況下研究輸入受限的多智能體網(wǎng)絡(luò)的魯棒包容控制具有重要的理論意義和實(shí)際價(jià)值,但此方面研究至今無人問津.本文受文獻(xiàn)[10,12]的啟發(fā),提出了包含有領(lǐng)航層、估計(jì)層、控制層和跟隨者層的新型控制結(jié)構(gòu),設(shè)計(jì)有限時(shí)間估值器以及在線無模型IRL算法實(shí)現(xiàn)輸入受限的受擾網(wǎng)絡(luò)的魯棒包容控制.本文從以下3個(gè)方面對(duì)現(xiàn)有成果進(jìn)行了拓展:1)與文獻(xiàn)[10,12]相比,考慮多智能體網(wǎng)絡(luò)的魯棒包容控制,比單個(gè)系統(tǒng)的跟蹤控制或魯棒調(diào)節(jié)要復(fù)雜得多;2)與文獻(xiàn)[13–14]相比,考慮輸入受限的受擾多智能體網(wǎng)絡(luò)的包容控制,更具實(shí)際意義;3)與文獻(xiàn)[1,15]相比,考慮系統(tǒng)動(dòng)態(tài)未知情況下,輸入受限的多智能體網(wǎng)絡(luò)的最優(yōu)魯棒包容控制,降低了對(duì)系統(tǒng)動(dòng)態(tài)的限制.
本文其余部分組成如下:第2節(jié)介紹了相關(guān)定義及引理;第3節(jié)闡述問題;第4節(jié)給出本文控制方案的主要結(jié)果,設(shè)計(jì)了有限時(shí)間估計(jì)器和IRL迭代學(xué)習(xí)算法,并且證明了多智能體網(wǎng)絡(luò)的最終一致有界穩(wěn)定性;第5節(jié)仿真研究驗(yàn)證了本文控制方案和學(xué)習(xí)算法的有效性;最后得出結(jié)論.
定義1設(shè)X是實(shí)矢量空間V ?Rn的集合.用Co(X)表示X的凸包,
引理1[16]如果G?ateaux導(dǎo)數(shù)Υ′在V 的鄰域內(nèi)存在,且G?ateaux導(dǎo)數(shù)Υ′在V 處是連續(xù)的,則Π=Υ′(V)也是V 處的Frechet導(dǎo)數(shù).
令多智能體網(wǎng)絡(luò)由智能體Σi(i=1,···,n)組成,其對(duì)應(yīng)的有向圖為G(V,E,A).令F={1,···,m}和L={m+1,···,n}分別代表跟隨者集合和領(lǐng)航者索引集合.則V由跟隨者節(jié)點(diǎn)集VF={νi,i ∈F}和領(lǐng)航者節(jié)點(diǎn)集合VL={νi,i ∈L}組成.本文的控制目的是只基于系統(tǒng)數(shù)據(jù),設(shè)計(jì)合適的近似最優(yōu)控制策略驅(qū)使受擾的跟隨者收斂并保持在領(lǐng)航者所構(gòu)成的動(dòng)態(tài)凸包中.
跟隨者動(dòng)態(tài)描述為
假設(shè)2干擾有界且‖d(x)‖dM,?x ∈Rp,其中dM(x)是已經(jīng)有界函數(shù)且d(0)=0, dM(0)=0.
在本文中令領(lǐng)航者之間無通信,且領(lǐng)航者與跟隨者之間通信是單向的,即領(lǐng)航者發(fā)送信息.所以跟隨者之間的網(wǎng)絡(luò)拓?fù)浜皖I(lǐng)航者與跟隨者之間的網(wǎng)絡(luò)拓?fù)錄Q定整個(gè)網(wǎng)絡(luò)通信.由此對(duì)Laplacian陣L進(jìn)行結(jié)構(gòu)劃分,則
假設(shè)3令跟隨者之間的拓?fù)鋸?qiáng)連通,并且對(duì)于每個(gè)跟隨者至少存在一個(gè)領(lǐng)航者與其通信.
圖1 魯棒最優(yōu)包容控制結(jié)構(gòu)示意圖Fig.1 The diagram of robust optimal containment control
由于領(lǐng)航者的動(dòng)態(tài)只有部分跟隨者已知,所以需要設(shè)計(jì)估值器估計(jì)出跟隨者在領(lǐng)航者所圍成凸包中的期望狀態(tài).因此,本文提出魯棒包容分布式結(jié)構(gòu)如圖1所示,由領(lǐng)航者層、有限時(shí)間估計(jì)層、魯棒最優(yōu)包容控制層和跟隨者層組成.在估計(jì)層中,有限時(shí)間估值器在有限時(shí)間內(nèi)可獲得,i ∈F.在控制層中,基于跟隨者期望狀態(tài)的精確估計(jì)和后續(xù)提出的IRL算法,跟隨者的狀態(tài)一致最終有界收斂到領(lǐng)航者所圍成的凸包中.
提出下列估值器:
針對(duì)式(1)的標(biāo)稱系統(tǒng),如式(5)所描述:
在本節(jié)中,給出與式(8)中代價(jià)函數(shù)相關(guān)的包容Bellman 方程和HJB 方程.沿著增廣網(wǎng)絡(luò)軌跡(7)對(duì)V(Xi)取微分,則獲得下列包容Bellman方程:
因此可見,通過求解HJB方程(13),可得到V?(Xi)和對(duì)應(yīng)的,從而實(shí)現(xiàn)整個(gè)多智能體網(wǎng)絡(luò)的最優(yōu)魯棒包容控制.然而,式(13)為非線性偏微分方程,得到其解析解極其困難.因此,在下節(jié)中采用提出的IRL算法來求解HJB方程.
在本小節(jié)中,首先引入基于模型的策略迭代算法,該算法是后面提出的基于數(shù)據(jù)的IRL迭代算法的基礎(chǔ).
算法I基于模型的迭代算法.
算法的步驟如下:令V0∈V0為初始的代價(jià)函數(shù),其數(shù)值可由文獻(xiàn)[17]中的引理5所確定.因此初始控制策略
Step 1根據(jù)下述式子求解V(k+1):
Step 2由下式更新控制策略:
Step 3若‖V(k)?V(k?1)‖ε,其中ε為計(jì)算精度,則停止并獲得最優(yōu)代價(jià)函數(shù)V?=V(k)和最優(yōu)控制策略u(píng)?=u(k),否則,令k=k+1,然后返到Step 1并繼續(xù).
下面算法I的收斂性借助牛頓迭代法進(jìn)行證明.考慮Banach空間Ψ ?V(X,t):→R,定義映射
然后基于定義2和引理1,可得到以下引理.
引理2令Υ 定義如式(17)所示,則其在V 處的Frechet導(dǎo)數(shù)為
證首先得出Υ在V 處的G?ateaux導(dǎo)數(shù),然后證明其連續(xù)性.基于式(17)中Υ的表達(dá)式以及定義2,可得出Υ在V 處的G?ateaux導(dǎo)數(shù)
則推斷出算法I等價(jià)于牛頓迭代序列(19),而且,根據(jù)文獻(xiàn)[17]中的引理4和引理5可以得出牛頓迭代序列(19)一定收斂到HJB方程(13)的解. 證畢.
顯而易見,算法I依賴系統(tǒng)動(dòng)態(tài)信息,然而,由于外部環(huán)境的復(fù)雜性很難獲得這些信息.在此種情況下,設(shè)計(jì)無模型迭代算法勢(shì)在必行.
算法II無模型IRL策略迭代算法.
針對(duì)數(shù)據(jù)樣本集,強(qiáng)化學(xué)習(xí)算法強(qiáng)調(diào)在探索新的數(shù)據(jù)樣本和利用已有數(shù)據(jù)樣本之間達(dá)到平衡.鑒于此,用下式描述與第i個(gè)跟隨者相關(guān)的增廣網(wǎng)絡(luò)的軌跡動(dòng)態(tài):
其中T是增強(qiáng)采樣周期.則無模型IRL算法如下所示.初始條件的選取辦法和算法I相同.算法II的流程如圖2所示.
圖2 算法II流程圖Fig.2 The flowchart of algorithm II
本節(jié)用3組仿真研究驗(yàn)證仿真結(jié)果的有效性.
考慮由8個(gè)智能體組成的多智能體網(wǎng)絡(luò).有向拓?fù)淙鐖D3所示.第i個(gè)跟隨者動(dòng)態(tài)由下式所描述:
對(duì)于第i個(gè)跟隨者,其評(píng)價(jià)器NN和執(zhí)行器NN的激勵(lì)函數(shù)分別選為和?(Xi).采樣周期選為T=0.01且探索信號(hào)的選擇與文獻(xiàn)[12]類似.網(wǎng)絡(luò)拓?fù)錆M足假設(shè)3,參數(shù)R,β和ρ的選取滿足定理1和定理2的條件.跟隨者的期望狀態(tài)的有限時(shí)間估計(jì)誤差變化曲線如圖4所示,可見不到2 s便實(shí)現(xiàn).基于文獻(xiàn)[12]中提出的無模型IRL算法和本文得到的上述估值及所提出的無模型IRL算法,可實(shí)現(xiàn)受擾多智能體網(wǎng)絡(luò)的魯棒最優(yōu)包容控制.智能體的運(yùn)動(dòng)軌跡分別如圖5和圖6所示.其中:實(shí)心方塊代表跟隨者的初始位置,實(shí)心圓點(diǎn)代表動(dòng)態(tài)領(lǐng)航者分別在不同時(shí)刻的位置.而且,4種不同線型的曲線代表跟隨者的實(shí)際運(yùn)動(dòng)軌跡,黑色方框代表領(lǐng)航者所圍成的動(dòng)態(tài)凸包.由仿真結(jié)果可得,當(dāng)基于文獻(xiàn)[12]中的控制方案時(shí),跟隨者在20 s左右進(jìn)入到領(lǐng)航者所圍成的凸包中.而采用本文所提出的控制方案時(shí),跟隨者在15 s左右便進(jìn)入到領(lǐng)航者所圍成的凸包中.可見本文的控制方法能夠使得跟隨者更加快速地收斂并保持在領(lǐng)航者所圍成的凸包中,在其期望軌跡的微小鄰域內(nèi)運(yùn)動(dòng).
圖3 網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)1Fig.3 The structure of No.1 network topology
圖4 估值誤差變化曲線Fig.4 The curves of estimation error
圖5 受擾多智能體網(wǎng)絡(luò)運(yùn)動(dòng)軌跡(基于文獻(xiàn)[12]的算法)Fig.5 The trajectories of perturbed multi-agent network(based on the algorithm in[12])
圖6 受擾多智能體網(wǎng)絡(luò)運(yùn)動(dòng)軌跡(基于本文的算法)Fig.6 The trajectories of perturbed multi-agent network(based on the proposed algorithm in the paper)
本小節(jié)考慮當(dāng)跟隨者與多個(gè)領(lǐng)航者存在通信時(shí),由10個(gè)智能體組成的多智能體網(wǎng)絡(luò).有向拓?fù)淙鐖D7所示.網(wǎng)絡(luò)動(dòng)態(tài)同仿真實(shí)驗(yàn)1,采用本文的控制方案和學(xué)習(xí)算法,可實(shí)現(xiàn)受擾多智能體網(wǎng)絡(luò)的魯棒最優(yōu)包容控制.智能體的運(yùn)動(dòng)軌跡分別如圖8所示.可見跟隨者在10 s內(nèi)便可以收斂到領(lǐng)航者所圍成的凸包中,與網(wǎng)絡(luò)拓?fù)?的仿真結(jié)果比較具有快速性.并且進(jìn)行了多組實(shí)驗(yàn)分析折扣因子對(duì)網(wǎng)絡(luò)控制效果的影響,得出γ0.05時(shí)跟隨者運(yùn)動(dòng)軌跡收斂的結(jié)論.可見不同的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)直接影響網(wǎng)絡(luò)控制參數(shù)的選取.
圖7 網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)2Fig.7 The structure of No.2 network topology
圖8 受擾多智能體網(wǎng)絡(luò)運(yùn)動(dòng)軌跡Fig.8 The trajectories of perturbed multi-agent network
本小節(jié)考慮多AmigoBots機(jī)器人[18]網(wǎng)絡(luò),網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)如圖9所示.微分驅(qū)動(dòng)輪式機(jī)器人模型如圖10所示.
圖9 網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)3Fig.9 The structure of No.3 network topology
圖10 微分驅(qū)動(dòng)輪式機(jī)器人模型Fig.10 The model of differentially driven wheeled mobile robot
第i個(gè)機(jī)器人的位姿位置用hi[hxihyi]T表示,該點(diǎn)位于與輪軸垂直的線上,并且與輪軸中心交點(diǎn)相距di,輪軸中心點(diǎn)用ri[rxiryi]T表示.令(rxi,ryi),θi,(vi,ωi)分別代表第i個(gè)機(jī)器人的輪軸中心位置、導(dǎo)航角、線速度和角速度.則第i個(gè)機(jī)器人的動(dòng)態(tài)方程為
由此采用本文提出的控制方案對(duì)多機(jī)器人網(wǎng)絡(luò)進(jìn)行仿真研究.其中di=0.15 m, T=6 min,機(jī)器人網(wǎng)絡(luò)的運(yùn)動(dòng)軌跡如圖11所示.其中:空心方塊代表跟隨者的初始位置,實(shí)心圓點(diǎn)代表動(dòng)態(tài)領(lǐng)航者分別在t=0,不同時(shí)刻的位置.而且,6種不同線型的曲線代表跟隨者的實(shí)際運(yùn)動(dòng)軌跡,藍(lán)色方框代表領(lǐng)航者所圍成的動(dòng)態(tài)凸包.仿真結(jié)果表明受擾多機(jī)器人網(wǎng)絡(luò)同樣可實(shí)現(xiàn)魯棒包容控制.
圖11 多機(jī)器人網(wǎng)絡(luò)運(yùn)動(dòng)軌跡Fig.11 The trajectories of multi-robot network
本文提出新的控制方案解決輸入受限多智能體網(wǎng)絡(luò)的魯棒包容控制問題.基于包容誤差和跟隨者在領(lǐng)航者所圍成凸包中的期望狀態(tài)構(gòu)建增廣網(wǎng)絡(luò),并引入非均方折扣代價(jià)函數(shù)和HJB方程獲得最優(yōu)控制策略.為了克服系統(tǒng)動(dòng)態(tài)完全未知的困難,基于執(zhí)行器–評(píng)價(jià)器結(jié)構(gòu)和最小二乘法,基于系統(tǒng)數(shù)據(jù)在線執(zhí)行所提出的無模型IRL算法,得到近似最優(yōu)控制策略.并且網(wǎng)絡(luò)的最終一致有界穩(wěn)定性和所提IRL算法的收斂性都得以證明.下一步將針對(duì)有限域內(nèi)的魯棒包容控制以及避碰問題展開研究.