馬麗新,劉 晨,劉 磊
(河海大學 理學院,南京211100)
多自主體系統(tǒng)的分布式協(xié)同控制廣泛存在于自然界中,如魚群、蜂群、鳥群等,近年來,在生物系統(tǒng)、傳感器網絡、無人機編隊、機器人團隊、水下機器人[1-4]等領域被大范圍應用.一致性是多自主體系統(tǒng)分布式協(xié)同控制的基本問題之一,即多自主體在某種適當?shù)膮f(xié)議下收斂到一個共同的狀態(tài).2002年,系統(tǒng)與控制領域的學者Fax 和Murray 首次運用控制理論的觀點證明,通過對每個智能體設計僅僅依賴個體間局部信息交互的分布式控制協(xié)議,就能驅動整個多智能體系統(tǒng)完成狀態(tài)一致的控制目標,并推導出一致性條件[5].后又有眾多學者針對多自主體系統(tǒng)的一致性展開了研究[6-9].
由于分數(shù)階微積分是整數(shù)階微積分的推廣,而且近年來越來越多的研究表明:眾多實際系統(tǒng)運用分數(shù)階模型才能反映出其更好的性質(黏彈性、記憶與遺傳特性等).所以,分數(shù)階系統(tǒng)的相關研究引起國內外學者的廣泛關注.隨著分數(shù)階系統(tǒng)逐漸被重視,節(jié)點帶有分數(shù)階動力學網絡系統(tǒng)的一致性逐漸成為當下的熱點問題之一,可參考文獻[10-12].
隨著網絡技術的發(fā)展,考慮到通信帶寬、資源利用率等問題,Astrom 等在文獻[13]中提出事件觸發(fā)控制技術以減少信息傳遞與調整控制器的次數(shù).2009年,Dimarogonas 等[14]將事件觸發(fā)機制引入到了多智能體系統(tǒng).2014年,Xu 等[15]提出事件觸發(fā)控制策略來研究分數(shù)階多自主體系統(tǒng)的一致性問題.2017年,Wang 等[16]研究了基于指數(shù)型事件觸發(fā)策略下的非線性分數(shù)階多自主體系統(tǒng)的主-從一致性.此外,間歇控制策略因具有減少控制器持續(xù)運作時間的功能,對于解決實際工程上控制器設備限制等問題上有一定優(yōu)勢,近年來被越來越多的學者應用到分數(shù)階多自主體系統(tǒng)的一致性控制問題上[17-19].為發(fā)揮這兩種控制策略的優(yōu)勢,部分學者將兩者有機整合,提出基于間歇策略的事件觸發(fā)機制[20-22].
2005年,Ren 等[23]提出了一個開放性問題:如何設計一個分布式協(xié)議,在使得多智能體系統(tǒng)達到一致性的前提下,又能夠優(yōu)化某些性能指標.針對整數(shù)階多自主體系統(tǒng),Zhang 等[24]基于強化學習方法研究了離散時間多自主體系統(tǒng)的最優(yōu)一致性控制問題.Zhao 等[25]利用自適應動態(tài)規(guī)劃技術,提出了一種具有擾動的未知非線性多智能體系統(tǒng)的事件觸發(fā)一致性跟蹤控制策略.Dong 等[26]研究了帶有控制約束的連續(xù)時間系統(tǒng)的事件觸發(fā)自適應動態(tài)規(guī)劃方法.劉晨等[27]研究了基于事件觸發(fā)策略的多自主體系統(tǒng)的最優(yōu)主-從一致性.
相對整數(shù)階,分數(shù)階微積分的分析工具不夠完善,HJB 方程求解困難,其最優(yōu)一致性尚未被充分研究.因此,本文的主要目的就是進一步填補空白,采用強化學習中的actor-critic 算法研究分數(shù)階多自主體系統(tǒng)的最優(yōu)主-從一致性,設計基于周期間歇事件觸發(fā)策略的強化學習算法結構.
分數(shù)階微分有多種定義方式,常用的是Riemann-Liouville 型(簡稱R-L 型)分數(shù)階微分、Caputo 型分數(shù)階微分以及Grünwald-Letnikov 型分數(shù)階微分等.R-L 型分數(shù)階微分在數(shù)學上有很好的性質,但相比而言,Caputo 型分數(shù)階微分的初值物理意義明確,很早就得到了廣泛的應用[28].本文中分數(shù)階多自主體系統(tǒng)的動力模型均由Caputo 型分數(shù)階微分描述.下面介紹Caputo 型分數(shù)階微分的定義、一階逼近以及基本性質.
定義1[28]Caputo 型分數(shù)階微分算子定義:
其中 α >0,n=[α]+1.
根據文獻[29-31],當0 <α<1,函數(shù)x(t)∈C2[t0,tf]時,可得到Caputo 型微分算子的一階展開式逼近:
其中
定義2[28]f(t),g(t)∈C1[a,b],α>0,β>0,則
考慮帶有領導者的分數(shù)階多自主體系統(tǒng):
其中階數(shù) 0 <α<1,x0(t)=(x01(t),x02(t),···,x0n(t))T∈Rn表示領導者的狀態(tài),xi(t)=(xi1(t),xi2(t),···,xin(t))T∈Rn表示第i個自主體的狀態(tài),ui(t) 表示第i個自主體的控制輸入,f:R×Rn→Rn是連續(xù)可微的向量函數(shù).
定義3若對任意的初始狀態(tài)xi(t0),可找到ui(t)使得 l imt→∞‖xi(t)?x0(t)‖=0,則稱該分數(shù)階多自主體系統(tǒng)(2)可達到主-從一致,對?i=1,2,3,···,N.
定義第i個追隨者與領導者之間的狀態(tài)誤差如下:
將領導者和各追隨者均看作節(jié)點,得到節(jié)點集v={0,1,2,···,N}.對稱矩陣A=(aij)N×N,aij≥0表示各追隨者間的通訊情況,aij>0表示i節(jié)點與j節(jié)點有通訊,反之,i,j節(jié) 點間無信息流通.進而用Ni={j∈v|aij≠0}來表示節(jié)點i的相鄰節(jié)點集合.對角矩陣B=(bi)N×N表示領導者(0 節(jié)點)與各追隨者間的通訊情況,bi>0代表0節(jié)點與i節(jié)點有交流,反之沒有.
則全局狀態(tài)誤差可表示為
其中 ?為Kronecker 乘積符)號,x(t)=(xT1,xT2,···,xTN)T∈RnN表示全局狀態(tài)向量,x~0(t)=(xT0,xT0,···,xT0)T∈RnN.定義度矩陣則Laplace 矩陣L=D?A.
注1因為H為正定陣,所以δ(t)→0 等價于x(t)→(t),即xi(t)→x0(t),i=1,2,···,N,代表系統(tǒng)達到主-從一致.
針對分數(shù)階多自主體系統(tǒng)(2),本文不僅考慮如何讓系統(tǒng)達到主-從一致,還考慮在系統(tǒng)達到主-從一致的過程中的能量消耗,因此引入性能指標的概念.
定義第i個自主體的性能指標為
其中P(δi)=δTi(t)Qiδi(t)是過程代價,與一致性性能相關,度量了系統(tǒng)在達到一致性過程中的一致偏差,代表的是“運動能量”;W(ui,uj)=uTi(t)Riui(t)+是控制代價,代表的是“控制能量”,Qi≥0,Ri>0,Rj>0.
本文的目的是對于每個自主體i,找到合適的控制器ui(t),uj(t),使得系統(tǒng)(2)在達到主-從一致的同時性能指標最小:
由式(6)得自主體i的Lyapunov 方程為
另外,由Caputo 型微分算子一階逼近式(1)和系統(tǒng)動力模型(2)得
其中
與ui無關.
則方程(7)等價于
根據Bellman 最優(yōu)性原理可得第i個自主體的最優(yōu)控制為
對于分數(shù)階多自主體系統(tǒng)(2),設計周期間歇反饋控制器:
其中0 ≤ρ ≤1為休息率,相對地,1?ρ為工作率,T為控制周期,k=0,1,2,3,···.
在周期間歇的基礎上考慮集中式事件觸發(fā)策略.設第k個周期內的觸發(fā)時刻集合為{tk1,t2k,t3k,···,tkm,···},則整個過程的事件觸發(fā)時刻序列可表示為{t10,t20,t30,···,tm0,···,t1k,tk2,t3k,···,tmk,···}.若在第k個周期 [kT,(k+1)T)上已知tmk,則下一觸發(fā)時刻tmk+1由下式給出:
其中e(t)=(eT1(t),eT2(t),···,eTN(t))T為全局狀態(tài)測量誤差,ei(t)=δi(tkm)?δi(t)表示第i個自主體狀態(tài)測量誤差.
考慮到周期間歇事件觸發(fā)策略,自主體i的誤差動力學可寫為如下分段形式:
其中ui(tmk)表示(tmk,tmk+1)區(qū)間內i自主體的控制輸入.
注2式(13)中事件觸發(fā)條件g(e(t),δ(t),θ,t)可根據具體一致性種類和控制策略來設計.針對分數(shù)階多自主體系統(tǒng)的事件觸發(fā)條件大致可分為三類:依賴于狀態(tài)[26]、依賴于指數(shù)函數(shù)[16]、依賴于狀態(tài)和指數(shù)函數(shù)的混合[20].
注3周期間歇事件觸發(fā)策略僅在工作區(qū)間[kT,(k+1?ρ)T],k∈N 內采用事件觸發(fā)策略,在其他時間段不對系統(tǒng)施加控制.當ρ=0 時,此策略退化為事件觸發(fā)控制策略;當ρ=1時,此策略退化為事件觸發(fā)脈沖控制策略.
Actor-critic 算法是強化學習中的一種算法,簡要原理是actor 來做動作,critic 對actor 做出的動作給予評價.評價分為獎勵、懲罰兩種.actor 通過得到的評價不斷調整自己的動作以得到更多的獎勵.下面用critic 網絡擬合性能指標函數(shù),actor 網絡擬合控制器ui(t).算法整體框架詳見文后附錄.
根據式(5),確定critic 網絡的輸入Zci(t)必須包含的信息由actor 網絡生成).對于第i個自主體,網絡擬合的性能指標為
其中Yci(t)表示輸入層到隱含層的權重,Wci(t)表示隱含層到輸出層的權重,ψc(·)為激活函數(shù).
由式(7)可得
進而
因為網絡擬合存在重構誤差,所以定義critic 網絡的誤差函數(shù):
Critic 網絡訓練的目的為:選擇合適的Yci(t),Wci(t) 使得Eci(t)=盡量小.
當達到周期間歇事件觸發(fā)閾值時,使用梯度下降法對網絡權重進行更新,否則權重不更新,具體更新方式如下:
其中 βci為學習率.
與critic 網絡類似,actor 網絡同樣采用三層的網絡結構.對于第i個自主體,以 δi(t)作為actor 網絡的輸入,得到網絡擬合的控制器為
其中Yai(t)表示輸入層到隱含層的權重,Wai(t)表示隱含層到輸出層的權重,ψa(·)為激活函數(shù).
無論是critic 網絡還是actor 網絡,最終目標是找到合適的控制器(t)使得系統(tǒng)達到主-從一致時性能指標最 ?。ɡ硐肽繕耸荱c=0),所以定義actor 網絡的誤差函數(shù)為
Actor 網絡訓練的目的為:選擇合適的Yai(t),Wai(t)使得Eai(t)=(t)盡量小.
Actor 網絡的權值更新方法與critic 網絡類似,具體公式如下:
其中 βai為學習率.
注4本文將分數(shù)階微分的一階導近似展開式(1)和文獻[27]中整數(shù)階多自主體系統(tǒng)的事件觸發(fā)自適應動態(tài)規(guī)劃算法有機整合,進一步考慮了間歇策略,針對分數(shù)階多自主體系統(tǒng)的最優(yōu)主-從一致性,設計了基于周期間歇事件觸發(fā)的強化學習算法.
例1考慮帶有1 個領導者,3 個追隨者的分數(shù)階多自主體系統(tǒng),網絡拓撲圖如圖1.
圖1 多自主體系統(tǒng)網絡拓撲圖(1 個領導者,3 個追隨者)Fig.1 The net topology of the multi-agent system (1 leader,3 followers)
選取 α=0.95,A=[0 1 0;1 0 1;0 1 0],B=[1 0 0;0 0 0;0 0 0]f(xi)=?2sin(xi)+tanh(xi),i=0,1,2,3,初始狀態(tài)x0(0)=5,x1(0)=?3,x2(0)=?1,x3(0)=2.8,時間步長h=0.001 s.若無任何控制器作用,各自主體的軌跡如圖2.
圖2 無控制器作用時,各自主體的狀態(tài)軌跡(1 個領導者,3 個追隨者)Fig.2 State trajectories of each agent without controllers (1 leader,3 followers)
設置基于周期間歇的事件觸發(fā)策略:T=3.5 s,ρ≈0.143,g(t)=e(t)?θδ(t),取 θ=0.06,權值矩陣的初值在區(qū)間[-0.025,0.025]中隨機選取,并歸一化處理,其他網絡參數(shù)設置如表1.
表1 網絡參數(shù)設置Table 1 Values of networks’ parameters
在該策略控制作用下的數(shù)值仿真結果如圖3~5 所示.圖3為各自主體的狀態(tài)軌跡圖,表示系統(tǒng)約在10 s 達到主-從一致的狀態(tài).圖4為全局狀態(tài)測量誤差 ||e(t)||及事件觸發(fā)閾值的變化曲線,可看出在接近9 s的時候||e(t)||便趨于0.圖5為基于周期間歇的事件觸發(fā)時刻圖,描述了在0~18 s 中事件觸發(fā)時刻的具體分布:0~3 s,3.5~6.5 s,7~10 s,10.5~13.5 s,14~17 s,17.5~18 s為控制器工作時間;3~3.5 s,6.5~7 s,10~10.5 s,13.5~14 s,17~17.5 s為控制器休息時間.
圖3 各自主體的狀態(tài)軌跡(1 個領導者,3 個追隨者)Fig.3 State trajectories of each agent (1 leader,3 followers)
圖4 ‖e(t)‖及觸發(fā)閾值變化曲線(1 個領導者,3 個追隨者)Fig.4 The error and the trigger threshold (1 leader,3 followers)
圖5 周期間歇事件觸發(fā)時刻分布Fig.5 The event-trigger moment distribution of periodic intermittence
注5本文將間歇的事件觸發(fā)機制有機整合起來,研究了分數(shù)階多自主體系統(tǒng)的最優(yōu)主-從一致性.目前該方向僅有少量成果.文獻[20]采用了間歇事件觸發(fā)策略,對分數(shù)階多自主體系統(tǒng)進行了有界性分析,對于一致性的研究尚未有文獻涉及.
例2考慮帶有1 個領導者,4 個追隨者的分數(shù)階多自主體系統(tǒng),拓撲結構如圖6.
圖6 多自主體系統(tǒng)網絡拓撲圖(1 個領導者,4 個追隨者)Fig.6 The net topology of the multi-agent system (1 leader,4 followers)
選取α=0.86,A=[0 1 0 1;1 0 1 0;0 1 0 0;1 0 0 0],B=[1 0 0 0;0 0 0 0;0 0 0 0;0 0 0 1],f(xi)=tanh(0.01xi)?2cos(xi),i=0,1,2,3,4,初始狀態(tài)x0(0)=5,x1(0)=4,x2(0)=3,x3(0)=2,x4(0)=6,時間步長h=0.001 s.若無任何控制器作用,各自主體的軌跡如圖7所示.
圖7 無控制器作用時,各自主體的狀態(tài)軌跡(1 個領導者,4 個追隨者)Fig.7 State trajectories of each agent without controllers (1 leader,4 followers)
設置基于周期間歇的事件觸發(fā)策略:ρ=0,g(t)=‖e(t)‖?e?0.5θt,即事件觸發(fā)策略.選取參數(shù)θ=1.9,其他網絡參數(shù)如同例1.數(shù)值仿真結果如圖8~10 所示.圖8為本文所設計控制器作用下各自主體的狀態(tài)軌跡圖.由圖8看出,系統(tǒng)在不到3 s的時間內就達到了主-從一致.圖9為全局狀態(tài)測量誤差‖e(t)‖及事件觸發(fā)閾值的變化曲線,其表明系統(tǒng)誤差在慢慢變小,并在3 s 后非常接近于0.圖10為事件觸發(fā)時刻圖,描述了0~12 s 內事件觸發(fā)的具體時刻分布,觸發(fā)40 次.
圖8 各自主體的狀態(tài)軌跡(1 個領導者,4 個追隨者)Fig.8 State trajectories of each agent (1 leader,4 followers)
圖9 ||e(t)||及觸發(fā)閾值變化曲線(1 個領導者,4 個追隨者)Fig.9 The error and the trigger threshold (1 leader,4 followers)
圖10 事件觸發(fā)時刻分布Fig.10 The event-trigger moment distribution
注6圖11展示了文獻[16]中控制器作用下各自主體的狀態(tài)軌跡.對比圖8和圖11,網絡擬合控制器將系統(tǒng)趨于一致的速度提高了不止1 s.圖12為文獻[16]控制器下系統(tǒng)達到主-從一致過程中的全局狀態(tài)測量誤差變化情況.圖13為事件觸發(fā)時刻圖,描述了0~12 s 內事件觸發(fā)的具體時刻分布,觸發(fā)104 次.通過圖10和圖13可明顯看出,在系統(tǒng)達到主-從一致的過程中本文所設計控制器作用下的事件觸發(fā)次數(shù)較少,一定程度上減少了通訊成本.
圖11 文獻[16]控制器下,各自主體的狀態(tài)軌跡圖Fig.11 State trajectories of each agent under ref.[16]
圖12 ||e(t)||及觸發(fā)閾值變化曲線Fig.12 The error ||e(t)|| and the trigger threshold
圖13 事件觸發(fā)時刻分布Fig.13 The event-trigger moment distribution
本文借助分數(shù)階微分的一階近似逼近和強化學習中的actor-critic 算法,研究了在控制器周期間歇時,分數(shù)階多自主體系統(tǒng)在事件觸發(fā)策略下的最優(yōu)主-從一致性問題,最終設計出基于actor-critic 算法的控制策略,并通過仿真驗證了其有效性.
附 錄
Actor-critic 近似最優(yōu)控制算法整體框架如下:
輸入:actor 模型πWai,Yai(δi),critic 模型VWci,Yci(xi,ui,uj),i=1,2,···,N.
1 Fori=1,2,···,N
2 初始化狀態(tài)xi,得到初始 δi,初始化參數(shù)Wai,Yai,Wci,Yci
3 End for
4 Fort∈[kT,(k+1)T)
5 Ift∈[kT,(k+1?ρ)T],即控制器處于工作時間
6 Fori=1,2,···,N
7 遵循策略πWai,Yai(δi),得到控制ui
8 在ui的作用下,自主體i得到新狀態(tài)x′i以 及回報ri=Vi
9 End for
10 計算全局狀態(tài)誤差δ(t)=(δT1(t),δT2(t),···,δTN(t))T
11 全局狀態(tài)測量誤差e(t)=(eT1(t),eT2(t),···,eTN(t))T
12 If 系統(tǒng)達到事件觸發(fā)條件的閾值:g(e(t),δ(t),θ,β,t)≥0
13 Fori=1,2,···,N
14 If 自主體i的神經網絡滿足網絡誤差閾值
15 更新網絡權重,得到新的策略πW′ai,Yai(δi)
16Wai←Wai+βai?aiπWai,Yai(δi)
17Yai←Yai+βai?aiπWai,Yai(δi)
18Wci←Wci+βci?ciVWci,Yci(xi,ui,uj)
19Yci←Yci+βci?ciVWci,Yci(xi,ui,uj)
20 End if
21 End for
22 End if
23 Else,即控制器處于休息時間
24 Fori=1,2,···,N
25 根據ui=0時的狀態(tài)方程計算得出自主體i的新狀態(tài)x′i
26 End for
27 End if
28 End for