劉娟 張皓 王祝萍
近年來多智能體系統(tǒng)的分布式協(xié)同輸出調節(jié)在多機器人和無人車等方面的應用中發(fā)揮著越來越重要的作用[1?3],典型的協(xié)同輸出調節(jié)問題包括一致性以及編隊等問題的研究[4?10],早期的輸出調節(jié)的研究對象主要是單個智能體,而協(xié)同輸出調節(jié)針對的是多智能體系統(tǒng),控制目標是使所有的多智能體能夠漸近跟蹤外部參考輸入信號和對外部干擾進行抑制.在協(xié)同輸出調節(jié)問題中,并非所有的智能體都能夠接收到外部系統(tǒng)的信號,因此不能采用集中式和分散式控制解決問題.浙江大學的Xiang 等[11]首先提出了一種基于附加可檢測條件的前饋控制用于控制同構線性多智能體系統(tǒng).哈爾濱工業(yè)大學的Wang 等[12]研究了固定拓撲下多智能體系統(tǒng)的分布式協(xié)同魯棒輸出調節(jié)問題,并假設通信拓撲包含一個以節(jié)點0 為根的有向生成樹且沒有環(huán)路.然而無環(huán)假設是一個較強的假設,在此假設下,這種控制策略不能應用到通信拓撲為無向圖的多智能體系統(tǒng)中,為了去掉此假設,香港中文大學的Su 等在文獻[13]中研究了線性多智能體系統(tǒng)的協(xié)同輸出調節(jié)問題,提出了一種基于分布式觀測器的方法,在該控制器的作用下,外部系統(tǒng)的信息能夠傳遞給多智能體子系統(tǒng),然而控制器的設計需要用到全局通信拓撲的拉氏矩陣的最小非零特征值.于是,為了解決這一問題,Li 等在文獻[14]中針對有向通信拓撲設計了分布式自適應輸出調節(jié)控制機制.
在多智能體系統(tǒng)的實際應用中,每個智能體進行通信以及信息的獲取等活動時所需的能量都是從自身的微型傳感設備所獲取的,但是每個智能體所能獲取的能量是有限的,所以減少智能體的通信能量損耗具有非常重要的意義.然而現有的許多控制器的設計中都需要智能體之間進行連續(xù)通信,控制器也需要持續(xù)地更新,因此,為了減少智能體自身控制執(zhí)行器的更新次數以及智能體之間的通信次數,提出了事件觸發(fā)控制策略.在事件觸發(fā)傳輸機制中,只有當系統(tǒng)的實際狀態(tài)和參考值之間的差距大于一定的閾值時,即系統(tǒng)發(fā)生較大變化時,才對當前時刻狀態(tài)進行更新,因此能夠有效降低計算機資源消耗.在基于系統(tǒng)狀態(tài)已知的情況下,Guo 等在文獻[15]中提出了一種基于狀態(tài)采樣的事件觸發(fā)控制機制,通過使用這種方法,能夠將多智能體的一致性問題轉化成一個時滯系統(tǒng)的穩(wěn)定性問題.華中科技大學的Yin 等[16]提出了一種分布式事件觸發(fā)控制機制用于解決異構多智能體的一致性問題.然而在實際應用中,系統(tǒng)狀態(tài)往往很難測量,于是,同濟大學的Zhang 等[17]提出了一種基于狀態(tài)觀測器的輸出反饋事件觸發(fā)控制機制,對狀態(tài)不能直接測量的系統(tǒng)實現了狀態(tài)反饋控制作用.
在現有相關文獻研究的基礎上,Yang 等[18]設計了基于事件觸發(fā)的多智能體系統(tǒng)的協(xié)同輸出調節(jié)問題,在事件觸發(fā)條件上增加了自適應參數,且智能體不需要連續(xù)知道相鄰節(jié)點的狀態(tài)信息.但在事件觸發(fā)策略應用中,需要時刻監(jiān)測觸發(fā)條件是否滿足.基于這種情況,Hu 等[19]研究了基于分布式觀測器的事件觸發(fā)協(xié)同輸出調節(jié)問題,提出了一種自觸發(fā)控制策略.在自觸發(fā)控制下,智能體可以根據自身信息以及鄰居節(jié)點的信息計算下一觸發(fā)時刻,從而避免了對事件觸發(fā)條件的連續(xù)監(jiān)測.
基于上述的研究,本文以線性異構多智能體系統(tǒng)為研究對象,設計了一種自觸發(fā)規(guī)則分別用于狀態(tài)反饋和輸出反饋兩種不同情況下的分布式自適應控制器中,降低了多智能體系統(tǒng)中對對象監(jiān)測的硬件要求,為了使控制器在更新時只需知道局部信息就能達到控制目標,引入了自適應控制策略,從而可以避免使用多智能體系統(tǒng)的全局信息,同時智能體不需要連續(xù)知道鄰居節(jié)點的狀態(tài).
符號說明:AT表示A的轉置;Rn×n表示n×n維的實矩陣;A?B表示矩陣A和B的Kronecker積;表示A的范數;diag{A1,···,AN}表示對角線上的項為Ai的分塊對角矩陣,i=1,···,N.
多智能體系統(tǒng)通信拓撲可用G=(V,E,A)表示,其中,V={1,2,···,N}代表節(jié)點數集,E ∈V×V表示邊,A表示鄰接矩陣,若節(jié)點i ∈V和節(jié)點j ∈V相鄰,則用(i,j)表示節(jié)點i到節(jié)點j的邊.在無向圖中,(i,j)與(j,i)是等價的,如果圖中至少有一個節(jié)點能夠通向其他任意一個節(jié)點,則稱該圖中存在有向生成樹.鄰接矩陣A=[aij]∈Rn×n,aij=1 表示i和j互為鄰居節(jié)點,可以進行通信;反之,則aij=0.拉氏矩陣L=[lij]∈Rn×n,其中表示節(jié)點i的鄰居集.
多智能體系統(tǒng)中包含外部系統(tǒng)時,通信拓撲如圖1 所示可描述為,其中節(jié)點0 代表外部系統(tǒng),其他節(jié)點為1,···,N.其中節(jié)點0 所代表的外部系統(tǒng)到跟隨的多智能體子系統(tǒng)節(jié)點1,···,N是有向的,而子系統(tǒng)節(jié)點1,···,N之間信息傳遞是無向的.對于節(jié)點i ∈V.如果節(jié)點i能夠得到外部系統(tǒng)的信息,則用ai0=1 表示;否則ai0=0.
圖1 多智能體系統(tǒng)的通信拓撲圖Fig.1 Communication diagraph of the multi agent systems
引理1[20].若圖包含一個以節(jié)點0 為根的有向生成樹,則拉氏矩陣只有一個零特征值且所有的非零特征值都含有正實部.可表示為
令H=L+?,且?=diag{a10,···,aN0}.根據引理1,如果包含一個以節(jié)點0 為根的有向生成樹,則H是正定的.
考慮N個線性異構多智能體和一個外部系統(tǒng),其中智能體的動力學方程為
其中,xi(t)∈Rni為智能體i的狀態(tài),ui(t)∈Rmi為智能體的控制輸入,ei ∈Rq為智能體的被調輸出,ymi ∈Ryi為智能體的測量輸出.Ai,Bi,Ei,Ci,Di,Fi,Cmi,Fmi為常數矩陣.v(t)∈Rp為被跟蹤的外部信號或者需要抑制的擾動信號,動態(tài)方程為
其中,S ∈Rp×p為常數矩陣.
在本文中,G為包含i ∈V個節(jié)點的無向通訊拓撲圖,為了解決線性異構多智能體系統(tǒng)的協(xié)同輸出調節(jié)問題,提出如下假設:
假設1.S矩陣的所有特征值的實部均為非負.
假設2.(Ai,Bi),i ∈V是穩(wěn)定的.
假設3.(Cmi,Ai),i ∈V是可測的.
假設4.如下線性矩陣方程存在唯一解(Xi,Ui)
其中,Xi ∈Rni×p,Ui ∈Rmi×p,i=1,···,N.
假設5.包含一個以節(jié)點0 為根節(jié)點的有向生成樹.
以上假設均不失一般性,在現有的相關研究中均存在相同的假設條件.
定義1.在通訊拓撲下,對于多智能體系統(tǒng)(2)和(3)設計的控制器,滿足:
1)當v(t)=0,這個閉環(huán)系統(tǒng)漸近穩(wěn)定.
2)對于任意初始條件,總有l(wèi)imt→∞ei(t)=0.那么所設計的控制器能夠解決多智能體系統(tǒng)(2)和(3)的協(xié)同輸出調節(jié)問題.
系統(tǒng)的分布式控制結構如圖2 所示,每個智能體均有獨立的控制器和觸發(fā)規(guī)則,通過通信拓撲進行信息交流,其中一部分智能體能夠獲得外部系統(tǒng)的信息,而另外一部分不能獲得外部系統(tǒng)的信息,因此為了解決多智能體系統(tǒng)的協(xié)同輸出調節(jié)問題,設計合理的控制器和觸發(fā)規(guī)則就顯得非常重要.
圖2 分布式控制系統(tǒng)結構圖Fig.2 Structure of distributed control system
當智能體狀態(tài)可以測量得到時,設計如下的分布式自適應控制器
注1.Φi(t)中包含的是智能體i的鄰居節(jié)點和領導者的通信拓撲信息,即公式中的aij和ai0,無向圖中,若智能體j是智能體i鄰居節(jié)點,則aij=1,同樣,若與領導者也相鄰,則ai0=1;否則,aij和ai0均為0,即代表不能獲得除鄰居節(jié)點之外其他節(jié)點的信息,也就是說每個智能體是不需要知道Laplace 矩陣這一全局信息的.
定義智能體i上一觸發(fā)時刻和當前觸發(fā)時刻信號的測量誤差為
設計觸發(fā)的關系方程為
其中,βi >0 是一個常數,θi(t)為自觸發(fā)方程的自適應參數,滿足θi(t)>0,因為(t)≥0,所以θi(t)是一個單調不減函數.當事件沒有觸發(fā)之前,ζi(t)≤0.令在時,取則在i觸發(fā)之前的時間段內,θi(t),?i(t)均為常數,然后對進行求導
又由于在事件觸發(fā)時,ζi(t)=0,即
通過式(7)和(8)可以得到一個最小的觸發(fā)時間關系:
由不等式(11)可知,觸發(fā)的最小時間大于0,即證得不存在芝諾現象.
注2.芝諾現象指的是事件在有限時間內發(fā)生無限次觸發(fā),當設計的自觸發(fā)規(guī)則發(fā)生芝諾現象,則代表此觸發(fā)規(guī)則是不可行的.
根據上述推導,提出如下自觸發(fā)算法規(guī)則:
步驟1.定義智能體i上一觸發(fā)時刻的時間為下一觸發(fā)時刻的起始時刻,定義則通過計算得出觸發(fā)時刻為:
步驟2.判斷智能體i的鄰居節(jié)點此時有沒有觸發(fā)的,若有觸發(fā)的,則(k)=(k)?為此時智能體i的鄰居節(jié)點j的觸發(fā)時刻,令,返回步驟1重新計算;若此時沒有鄰居節(jié)點觸發(fā),則執(zhí)行步驟3;
步驟3.此時可以得到智能體i下一時刻的觸發(fā)時間為:
注3.與文獻[19]相比,本文的優(yōu)勢在于,一是在設計反饋控制器時,在式(5)中的控制器中增加了自適應參數?i(t),二是本文提出的自觸發(fā)規(guī)則中也增加了自適應參數θi(t),這兩個自適應參數共同作用可以避免引入通信拓撲拉氏矩陣的最小非零特征值這一全局信息,實現分布式控制.此外,因為已經證明存在一個嚴格正定的時間間隔,即芝諾現象不存在,所以上述自觸發(fā)算法不會無限循環(huán).
注4.在此自觸發(fā)規(guī)則作用下,智能體i下一次的觸發(fā)時刻可以通過自身的信息和鄰居節(jié)點最近一次觸發(fā)時刻的信息計算出來,不需要對觸發(fā)條件進行連續(xù)監(jiān)測,且只有在觸發(fā)時刻,智能體之間才會進行信息傳輸,所以自觸發(fā)能夠有效地減少計算機資源損耗和通信代價.
通過將式(5)代入式(2)中,可以得到智能體i的閉環(huán)系統(tǒng)為
在此自觸發(fā)規(guī)則下,提出如下基于狀態(tài)反饋的觸發(fā)控制策略用來解決基于狀態(tài)反饋的協(xié)同輸出調節(jié)問題.
定理1.假設1,2,4,5 成立,K1i的取值滿足使得Ai+BiK1i是Hurwitz 矩陣,K2i=Ui ?K1iXi,P >0 是Riccati 方程PS+STP ?δ1PP+δI=0的解,在自觸發(fā)規(guī)則和控制器(5)的共同作用下,若滿足:
1)當v(t)=0 時,limt→∞xi(t)=0,limt→∞Ξi(t)=0,i=1,···,N,且當時間t趨于無窮時,自適應參數?i(t)和θi(t)趨于某一常數.
2)對于任意初始條件xi(0),Ξi(0)以及v(0),被調輸出最終都將趨于0,即limt→∞ei(t)=0,i=1,···,N.
則多智能體系統(tǒng)(2)和(3)能夠實現協(xié)同輸出調節(jié).
證明.首先證明定理1 的第一部分,因為Ai+BiK1i是Hurwitz 矩陣,那么這個閉環(huán)系統(tǒng)的穩(wěn)定性與下面的系統(tǒng)(14)的穩(wěn)定性是等價的.
為了證明閉環(huán)系統(tǒng)的穩(wěn)定性,選取Lyapunov函數
Lyapunov 函數可以分為三部分,即
然后分別對其進行求導,c1,c2都是常數.首先對V1(t)進行求導,,得
然后對V2(t)進行求導得
最后,同樣可得V3(t)的導數:
把三部分導數相加得:
因為?i(t)≥1,且是觸發(fā)時刻所在區(qū)間求導,所以根據觸發(fā)條件ζi(t)≤0,可變換為
又由于
綜上可以得到Lyapunov 函數為
接下來,將證明定理1 的第二部分.由假設4,同時令εi(t)=xi(t)?Xiv(t),可以得到如下表達式
通過已證的定理 1 的第一部分可知limt→∞=0,因此εi(t)的穩(wěn)定性是與(Ai+BiK1i)εi(t)等價的,由從假設2 可知,Ai+BiK1i是Hurwitz 穩(wěn)定的,因此可以知道,limt→∞εi(t)=0.
智能體i的被調輸出為
由于 limt→∞=0,limt→∞εi(t)=0,在根據假設4 的第二個方程,所以可以推導出:limt→∞ei(t)=(CiXi+DiUi+Fi)v(t)=0.
在基于狀態(tài)反饋的控制器設計中,每個智能體本身的狀態(tài)是可以獲得的,但是在實際的應用中,系統(tǒng)狀態(tài)一般是很難通過測量得到,因此為了解決這個問題,本節(jié)設計了基于輸出反饋的分布式自適應控制器,如下所示.
其中,Φi(t)的定義與式(5)的定義一樣,Υi(t)∈Rni是節(jié)點狀態(tài)的估計值,Qi ∈Rni×pi是常數增益矩陣.把式(28)代入式(2)中,單個節(jié)點i的閉環(huán)系統(tǒng)如式(29)所示.
令Q=diag{Q1,···,QN},Cm=diag{C1m,···,CmN},Fm=diag{Fm1,···,FmN},則整個系統(tǒng)的閉環(huán)形式為
定理2.在假設1~5 成立的條件下,K1i和Qi增益矩陣的取值分別使Ai+BiK1i和Ai ?QiCmi是Hurwitz 矩陣,其中K2i=Ui ?K1iXi,在自觸發(fā)規(guī)則和控制器(28)的共同作用下,若滿足:
1)當v(t)=0 時,limt→∞xi(t)=0,limt→∞Ξi(t)=0,limt→∞Υi(t)=0,i=1,···,N,且當時間t趨于無窮時,自適應參數?i(t)和θi(t)趨于某一常數.
2)對于任意初始條件xi(0),Ξi(0),Υi(0)以及v(0),被調輸出最終都將趨于0,即limt→∞ei(t)=0,i=1,···,N.
則在智能體狀態(tài)未知的情況下,多智能體系統(tǒng)(2)和(3)也能夠實現協(xié)同輸出調節(jié).
證明.令,則式(30)的閉環(huán)系統(tǒng)形式可以寫成如下形式
智能體i的被調輸出為
因為limt→∞?ci(t)=0,limt→∞=0,再根據假設4,可以推出limt→∞ei(t)=0.
本節(jié)根據提出的定理,采用基于輸出反饋的控制器(28)和所提出的自觸發(fā)規(guī)則對4 個跟隨機器人(2)和1 個領導機器人(3)組成的多智能體系統(tǒng)進行直角編隊仿真實驗[21],4 個非完整性移動跟隨機器人的動力學模型為
選取Dmi=Di=02×1,Fmi=02×2,i=1,2,3,4.給定參數[a1,b1,c1,d1]=[1,1,1,0],[a2,b2,c2,d2]=[10,2,1,0],[a3,b3,c3,d3]=[2,1,1,10],[a4,b4,c4,d4]=[2,1,1,1].
領導者的動力學模型為
各智能體的初始狀態(tài)為:v(0)=[0.7984,0.9430]T,x1(0)=[0.6551,0.1626,0.4218]T,x2(0)=[0.4984,0.9597,0.9157]T,x3(0)=[0.5853,0.2238,0.7922]T,x4(0)=[0.2551,0.5060,0.9595]T;觀測器Υi(t)的-初始-狀態(tài)-為:Υ1(0)=[0.7463,0.0103,0.0484]T,Υ2(0)=[0.6679,0.6035,0.5261]T,Υ3(0)=[0.7297,0.7073,0.7814]T,Υ4(0)=[0.2880,0.6925,0.5567]T;估計器Ξi(t)的初值為:Ξ1(0)=[0.2060,0.9479]T,Ξ2(0)=[0.0821,0.1057]T,Ξ3(0)=[0.1420,0.1665]T,Ξ4(0)=[0.6210,0.5737]T.
編隊仿真結果如圖3 所示,4 個跟隨者與領導者能夠完成直角編隊任務,從圖4 和5 可知,多智能體系統(tǒng)調節(jié)輸出ei(t)能夠漸近趨于零.圖6 和7分別表示控制器和自觸發(fā)條件的自適應參數的變化,從圖中可以看出這兩個自適應參數均漸近趨于有限穩(wěn)態(tài)值.本文中,總的仿真時間50 秒,總平均觸發(fā)次數為321,平均觸發(fā)時間間隔為0.1557 秒,相比文獻[19]的仿真結果,其平均觸發(fā)次數均在600 以上,本文中的自觸發(fā)規(guī)則能夠有效地減少觸發(fā)次數,表明本文中的自觸發(fā)機制不僅能夠避免對觸發(fā)條件進行連續(xù)監(jiān)測,也能夠有效降低智能體之間的通信次數.
本文設計了基于自觸發(fā)規(guī)則的分布式自適應控制器,在該控制器作用下,異構多智能體系統(tǒng)能夠很好地跟蹤外部系統(tǒng).同時,該控制器不需要智能體之間進行連續(xù)通信,能夠有效降低智能體之間的通信負載,且不需要對觸發(fā)條件進行連續(xù)監(jiān)測,觸發(fā)時間可通過自身信息和鄰居節(jié)點的信息計算獲得,降低了硬件設計要求.
圖3 領導者和4 個跟隨者的運動軌跡Fig.3 The trajectories of the leader and four followers
圖4 智能體的調節(jié)輸出ei1(t), i=1,2,3,4Fig.4 Regulated outputs ei1(t), i=1,2,3,4
圖5 智能體的調節(jié)輸出ei2(t), i=1,2,3,4Fig.5 Regulated outputs ei2(t), i=1,2,3,4
圖6 控制器的自適應參數?i(t), i=1,2,3,4Fig.6 Adaptive parameters of the controllers ?i(t),i=1,2,3,4
圖7 自觸發(fā)條件的自適應參數θi(t), i=1,2,3,4Fig.7 Adaptive parameters of the self-triggered conditions θi(t), i=1,2,3,4