王常虹,劉 博,李清華
(哈爾濱工業(yè)大學(xué)空間控制與慣性技術(shù)研究中心, 哈爾濱 150001)
隨著社會(huì)的進(jìn)步與發(fā)展,人們對(duì)機(jī)器人系統(tǒng)的依賴也越來(lái)越強(qiáng),需要機(jī)器人系統(tǒng)完成的任務(wù)也日趨復(fù)雜,特別是重復(fù)性、危險(xiǎn)性較高的工作,對(duì)機(jī)器人系統(tǒng)的需求更為明顯。雖然目前在單機(jī)器人領(lǐng)域有了較為長(zhǎng)足的進(jìn)步,但是由于任務(wù)的多樣化、復(fù)雜化,單個(gè)機(jī)器人常常無(wú)法完成部分人們指定的任務(wù)。為了解決這些復(fù)雜困難的任務(wù),多機(jī)器人系統(tǒng)(Multi-Robot System, MRS)應(yīng)運(yùn)而生。MRS是由多個(gè)在同一環(huán)境中相互作用的機(jī)器人組成的系統(tǒng)。相較于單機(jī)器人系統(tǒng) ,MRS具有如下幾方面的優(yōu)勢(shì):
1)MRS個(gè)體可分布于空間的不同位置。
2)任務(wù)并行處理:群體中的個(gè)體間既有耦合又相互獨(dú)立。在任務(wù)內(nèi)個(gè)體間相互耦合,任務(wù)間個(gè)體相互獨(dú)立。MRS根據(jù)任務(wù)形成了相應(yīng)的MRS子集并行處理問(wèn)題,提高了任務(wù)完成效率。
3)魯棒性:MRS可適應(yīng)不同的任務(wù)環(huán)境,且當(dāng)環(huán)境具有不確定性時(shí),MRS具有一定的容錯(cuò)性。由于個(gè)體間功能的冗余性,當(dāng)某個(gè)或者某些機(jī)器人出現(xiàn)故障甚至完全損壞時(shí),系統(tǒng)仍然可能正常工作。
由于MRS的高效性和魯棒性,具有廣泛的應(yīng)用場(chǎng)景,但目前MRS發(fā)展還不完善,大多數(shù)MRS成果還停留在理論研究和實(shí)驗(yàn)室演示階段,因此MRS的實(shí)際應(yīng)用成果較少,主要集中在大范圍環(huán)境態(tài)勢(shì)感知[1]、集群協(xié)同作戰(zhàn)、復(fù)雜環(huán)境救援[2]、無(wú)人機(jī)集群編隊(duì)表演和工廠協(xié)同裝配等幾個(gè)方面。
自20世紀(jì)60年代法國(guó)生物學(xué)家Grasse通過(guò)觀察白蟻的筑巢行為,提出了共識(shí)自主性的概念,學(xué)術(shù)界對(duì)于集群系統(tǒng)的研究逐步發(fā)展起來(lái)。進(jìn)入21世紀(jì)后,隨著美國(guó)國(guó)防部高級(jí)研究計(jì)劃局(Defense Advanced Research Projects Agency, DARPA)和歐盟信息社會(huì)項(xiàng)目提出越來(lái)越多有關(guān)MRS的項(xiàng)目需求,MRS研究進(jìn)入了高速發(fā)展的階段。
對(duì)于MRS,除了單個(gè)機(jī)器人涉及的問(wèn)題外(如軌跡規(guī)劃、控制等),還涉及機(jī)器間如何實(shí)現(xiàn)交互、如何解決機(jī)間路徑?jīng)_突、一致性控制和復(fù)雜任務(wù)分解和分配等諸多問(wèn)題。Bond和Gasser[3]兩位學(xué)者總結(jié)了MRS的相關(guān)問(wèn)題:
1)如何在個(gè)體中用公式表示、描述、分解和分配任務(wù);
2)個(gè)體間如何交流和互相影響;
3)如何確保個(gè)體行為的連貫性;
4)個(gè)體間如何辨認(rèn)和處理相互的沖突。
要解決這些問(wèn)題,需要建立合適的系統(tǒng)模型,理解MRS運(yùn)動(dòng)的發(fā)生機(jī)理,研究個(gè)體與系統(tǒng)間的關(guān)系。目前較為常用的MRS建模研究思路可以分為自頂向下和自底向上兩種。
自頂向下的方法主要基于分而治之的分層思路,將MRS問(wèn)題分解為多個(gè)子問(wèn)題,如任務(wù)分配、航跡規(guī)劃、控制等多個(gè)層次。針對(duì)每個(gè)層次分別進(jìn)行建模求解,有效降低了問(wèn)題求解的難度和復(fù)雜度。以P.R.Chandler[4-5]所提出的分層遞階結(jié)構(gòu)為例,如圖 1所示,該遞階結(jié)構(gòu)包括3個(gè)決策層和1個(gè)控制層。第3層進(jìn)行任務(wù)分配,在滿足約束條件的前提下,將任務(wù)分配給具有不同能力的個(gè)體(群);第2層進(jìn)行個(gè)體間任務(wù)協(xié)調(diào),包括協(xié)同攻擊、協(xié)同分類、沖突消解等;第1層負(fù)責(zé)任務(wù)的執(zhí)行與航跡規(guī)劃,包括路徑規(guī)劃、軌跡優(yōu)化及路徑?jīng)_突解決;第0層為控制層,負(fù)責(zé)解決軌跡跟蹤與底層控制問(wèn)題。雖然在圖 1中相鄰兩層相互影響,但是在實(shí)際研究中,鮮有將相鄰層次耦合求解,通常為完全解耦求解,以求得次優(yōu)解。
圖1 分層遞階結(jié)構(gòu)Fig.1 Hierarchical decomposition
采用分層遞階結(jié)構(gòu)有效降低了MRS決策與控制的復(fù)雜性,是目前主流的研究方法。對(duì)于這種問(wèn)題的建模和求解,主要是針對(duì)任務(wù)分配與航跡規(guī)劃解耦求解。從數(shù)學(xué)角度來(lái)看,任務(wù)分配(亦稱為任務(wù)規(guī)劃、任務(wù)調(diào)度)屬于復(fù)雜的組合優(yōu)化問(wèn)題,目前已有多份優(yōu)秀的研究綜述[6-8],本文不再贅述。而針對(duì)航跡規(guī)劃問(wèn)題,主要是解決個(gè)體間空間與時(shí)間層面的沖突及動(dòng)態(tài)避障的問(wèn)題[9],總體呈現(xiàn)百家爭(zhēng)鳴的態(tài)勢(shì),非本文研究重點(diǎn),可查看近期研究綜述[10-11]。
不同于自頂向下的研究方法,自底向上的方法主要基于自組織方法的研究思路,通過(guò)個(gè)體的微觀模型,從個(gè)體對(duì)環(huán)境的感知、交互、決策協(xié)調(diào)入手,對(duì)整個(gè)MRS產(chǎn)生宏觀調(diào)控的效果。這種分布式調(diào)控的方式還可以解決分層遞階結(jié)構(gòu)求解時(shí)對(duì)動(dòng)態(tài)環(huán)境響應(yīng)較慢的問(wèn)題。
自底向上的MRS建模方法,最初起源于對(duì)生物界群集行為的研究,如鳥(niǎo)群[12]、魚(yú)群[13](見(jiàn)圖2)、蟻群[14]等,后來(lái)通過(guò)模擬生物群體的行為,對(duì)系統(tǒng)進(jìn)行建模,從而實(shí)現(xiàn)了MRS的自組織策略,這種方式計(jì)算簡(jiǎn)單且魯棒性好。在Jadbabaie和Olfati-Saber等的推動(dòng)下,擬生物方法逐步形成了MRS一致性控制理論。一致性控制理論是指隨著時(shí)間的推移,MRS中的所有個(gè)體的某項(xiàng)或者某些狀態(tài)趨于一致。由于分布式的一致性控制與基于生物的自組織策略具有類似特點(diǎn),且有數(shù)學(xué)理論支撐,因此越來(lái)越多的學(xué)者對(duì)一致性控制理論產(chǎn)生了濃厚的研究興趣。
圖2 魚(yú)群行為研究Fig.2 Study on the movement of fish schools
雖然現(xiàn)階段國(guó)內(nèi)外研究人員已取得了一些研究成果,但是大部分仍處于只關(guān)注工程實(shí)現(xiàn),采用拼湊的方法解決簡(jiǎn)單的問(wèn)題,或是采用集中分配求解方法,不利于充分發(fā)揮MRS的優(yōu)勢(shì)。本文將從自底向上的研究方法入手,對(duì)當(dāng)前自組織MRS建模形式進(jìn)行總結(jié)與分析。
MRS較個(gè)體建模更加復(fù)雜,除個(gè)體模型外,通常情況還需考慮系統(tǒng)個(gè)體模型間的關(guān)系,即拓?fù)淠P?,個(gè)體模型表示為拓?fù)淠P椭械墓?jié)點(diǎn)。故MRS控制系統(tǒng)模型一般包含兩部分:拓?fù)淠P秃凸?jié)點(diǎn)模型。拓?fù)淠P蜎Q定了個(gè)體間的連接關(guān)系,現(xiàn)階段通常用圖表示,如:無(wú)向圖、有向圖、加權(quán)圖等。節(jié)點(diǎn)模型則用于描述個(gè)體的狀態(tài)。本節(jié)將主要從擬生物行為模型、一致性控制模型和多智能體強(qiáng)化學(xué)習(xí)系統(tǒng)模型3個(gè)方面對(duì)自組織MRS建模方法進(jìn)行總結(jié)與分析。
MRS最初起源于對(duì)生物界群集行為的研究,生物學(xué)的理論和方法對(duì)MRS建模研究具有重要影響。在生物群體中,通過(guò)個(gè)體間或個(gè)體與環(huán)境的相互作用實(shí)現(xiàn)自組織,從而完成特定任務(wù),如螞蟻搭橋[14]、蜜蜂尋巢[15]、狼群圍獵[16]等。類似地,MRS主要研究機(jī)器人之間和機(jī)器人與環(huán)境之間如何通過(guò)有限感知和局部交互,涌現(xiàn)出期望的群集行為。而對(duì)生物群體建模,是MRS模仿生物群體行為智能決策和智能涌現(xiàn)的前提。
最早的MRS模型是Reynolds[12]于1987年提出的Boids模型,該模型用計(jì)算機(jī)來(lái)模擬群體行為,并給出了智能集群系統(tǒng)滿足的3個(gè)規(guī)則:
1)速度匹配:個(gè)體盡量與鄰居速度和方向的平均值保持一致;
2)聚集:盡量向鄰居的平均位置運(yùn)動(dòng);
3)避免碰撞:相鄰個(gè)體間避免發(fā)生碰撞。
2001年,Reynolds將Boids模型所有資料公布于網(wǎng)站1
1http://www.red3d.com/cwr/boids/上,包括程序、示例、相關(guān)論文等。在Boids模型的基礎(chǔ)上,1995年Vicsek等[17]將其簡(jiǎn)化,提出了一種離散MRS模型—Vicsek模型,用于模擬大量粒子涌現(xiàn)的現(xiàn)象,其實(shí)質(zhì)是Boids模型中速度匹配的動(dòng)力學(xué)表示。Vicsek模型刻畫(huà)了多個(gè)粒子構(gòu)成的自治系統(tǒng)的同步運(yùn)動(dòng)。在這個(gè)模型中粒子遵循如下規(guī)則:
1)系統(tǒng)中運(yùn)動(dòng)的粒子具有常速率v;
2)粒子存在一個(gè)影響半徑r,即系統(tǒng)中的任意一對(duì)粒子,只有這對(duì)粒子之間的直線距離小于r時(shí),他們才存在相互的影響;
3)粒子每一時(shí)刻的運(yùn)動(dòng)方向跟上一時(shí)刻影響半徑范圍內(nèi)的其他所有粒子的平均運(yùn)動(dòng)方向相同。
同時(shí),Vicsek模型首次對(duì)MRS進(jìn)行了數(shù)學(xué)化描述,如式(1)所示
(1)
其中:xi(t)為個(gè)體i在t時(shí)刻的位置;vi(t)為個(gè)體i在t時(shí)刻的速度;θi(t)為個(gè)體i在t時(shí)刻的航向;<θi(t)>r為個(gè)體i及其周?chē)鷤€(gè)體的航向平均值;Δi(t)為擾動(dòng)項(xiàng)。引入φ評(píng)判是否同步
(2)
其中,φ為描述歸一化的平均速度的指標(biāo),當(dāng)速度一致時(shí)φ=1;當(dāng)系統(tǒng)完全雜亂無(wú)章時(shí)φ=0,如圖 3所示。
圖3 左:φ=0;右:φ=1Fig.3 Left:φ=0;right: φ=1
考慮到大部分生物無(wú)法獲得360°的感知范圍,因此在Boids模型和Vicsek模型的基礎(chǔ)上,部分學(xué)者添加了有限視場(chǎng)角約束[18-19], 建立了有限視場(chǎng)約束的Reynolds群集模型和有限視場(chǎng)約束的Vicsek模型。
與Reynolds同時(shí)期,加州大學(xué)的Beni與Hack-wood兩位教授[20]首次提出了群體智能的概念,而后Bonabeau和Dorigo 在其著作[14]中,將生物群體智能定義為:任何一種由昆蟲(chóng)群體或其他動(dòng)物社會(huì)行為機(jī)制而激發(fā)設(shè)計(jì)出的算法或分布式解決問(wèn)題的策略。同時(shí)兩人還提出了另一種影響深遠(yuǎn)的擬生物群MRS模型——蟻群模型。昆蟲(chóng)學(xué)家發(fā)現(xiàn),雖然螞蟻視覺(jué)系統(tǒng)并不發(fā)達(dá),但總可以通過(guò)感知種群中螞蟻個(gè)體釋放的信息素,選擇信息素濃度較高的路徑,不斷正向迭代,使蟻群逐漸沿著最短的路徑找到食物。在此基礎(chǔ)上,Dorigo[14]提出了蟻群模型,用于解決車(chē)輛路徑、調(diào)度優(yōu)化、指派和旅行商等問(wèn)題[14,21]。以旅行商問(wèn)題(Traveling Salesman Pro-blem, TSP)為例,蟻群群體數(shù)量為m,目標(biāo)數(shù)為n,節(jié)點(diǎn)i與節(jié)點(diǎn)j的距離為dij,2個(gè)節(jié)點(diǎn)間信息素濃度為τij(t)。根據(jù)τij(t)設(shè)計(jì)節(jié)點(diǎn)間轉(zhuǎn)移概率,根據(jù)dij設(shè)計(jì)城市間轉(zhuǎn)移的期望,從而完成模型的基本設(shè)計(jì)。螞蟻個(gè)體沿路徑信息素釋放模型可以根據(jù)問(wèn)題進(jìn)行設(shè)計(jì),常采用:與經(jīng)過(guò)路徑總長(zhǎng)度成反比的ant cycle模型、僅與相鄰節(jié)點(diǎn)距離成反比的ant quantity模型,以及信息素濃度始終保持不變的ant density模型三類。
人工蜂群最早起源于生物學(xué)家對(duì)自然界蜂群行為的觀察[15],常用于集體決策研究。該模型通過(guò)模擬偵察蜂搖擺舞行為,建立分布式?jīng)Q策模型。以尋找新?lián)c(diǎn)為例[22],M. R. Myerscough建立了一套普適決策模型:根據(jù)潛在偵察蜂的總數(shù)以及在每個(gè)地點(diǎn)搖尾的次數(shù),分配每個(gè)地點(diǎn)在各個(gè)時(shí)刻所需偵察蜂的數(shù)目。人工蜂群模型中個(gè)體完全獨(dú)立,通過(guò)個(gè)體的感知和決策,最終形成系統(tǒng)的統(tǒng)一決策。在此基礎(chǔ)上,逐步發(fā)展成為完善的人工蜂群算法,廣泛應(yīng)用于無(wú)人機(jī)偵察和打擊領(lǐng)域[23]。
在鴿群層級(jí)網(wǎng)絡(luò)自組織模型中[24],通過(guò)模仿鴿群中的層級(jí)網(wǎng)絡(luò),反映鴿群中的通信、各層級(jí)數(shù)目、智能化程度、個(gè)體間的連接關(guān)系等,從而使得群體通過(guò)微觀的個(gè)體之間的交互產(chǎn)生宏觀行為調(diào)控。根據(jù)生物學(xué)研究發(fā)現(xiàn),鴿群交互模型為根據(jù)固定范圍確定網(wǎng)絡(luò)模型和固定鄰居數(shù)目的交互模型,因此可以構(gòu)建鴿群的層級(jí)引領(lǐng)網(wǎng)絡(luò)模型,模型描述與傳統(tǒng)一致性控制模型相似:由個(gè)體動(dòng)力學(xué)模型及網(wǎng)絡(luò)拓?fù)淠P蜆?gòu)成,模型中個(gè)體被上層領(lǐng)導(dǎo)者領(lǐng)導(dǎo),并對(duì)下層跟隨個(gè)體有引導(dǎo)作用[25]。
狼群在獵殺食物時(shí)[16,26],常??梢垣C殺體重?cái)?shù)倍于自己的獵物,在獵殺過(guò)程中,狼群自主決策產(chǎn)生組織者,并根據(jù)狼群的個(gè)體情況,均衡分配任務(wù)追蹤和包圍獵物,直到獵物停止移動(dòng),最后以車(chē)輪戰(zhàn)的方式拖垮獵物。由狼群獵殺行為可以看出,狼群模型中個(gè)體間自治,角色可靈活轉(zhuǎn)換,無(wú)法區(qū)分,個(gè)體間交互信息為互相的位置信息,每個(gè)個(gè)體都具有任務(wù)管理和任務(wù)分配的能力,且每階段任務(wù)中,組織者均可能會(huì)發(fā)生改變,因此狼群模型具有極強(qiáng)的魯棒性。該模型包括當(dāng)前任務(wù)狀態(tài)、行為庫(kù)、策略庫(kù)、任務(wù)環(huán)境,以任務(wù)環(huán)境和當(dāng)前任務(wù)狀態(tài)作為輸入,通過(guò)策略庫(kù)從動(dòng)作庫(kù)中選擇下一步動(dòng)作,直至完成整個(gè)任務(wù)集。該模型廣泛應(yīng)用于軍事無(wú)人機(jī)圍堵、打擊和任務(wù)分配。
受到Wang等[27]2016年針對(duì)大象群體中氏族形成行為研究的啟發(fā),Almufti等[28]構(gòu)建了象群優(yōu)化(Elephant Herding Optimizations, EHO)模型,該模型可分為2個(gè)部分:
1)種群更新:用于更新每個(gè)部落中大象和母族長(zhǎng)的位置
Xnew,ci,j=Xci,j+α(Xbest ci-Xci,j)r
(3)
其中,Xnew,ci,j為ci氏族中個(gè)體j的位置更新;α∈[0,1]表示母族長(zhǎng)對(duì)于個(gè)體Xci,j的影響程度;Xbest,ci表示族長(zhǎng)的位置;r∈[0,1]則表示一種隨機(jī)分布,用于改善大象種群的多樣性。母族長(zhǎng)的位置則由氏族重心所引導(dǎo),不斷更新。
2)分離:在每一個(gè)象族中,公象在成年后都會(huì)離開(kāi)族群獨(dú)自生活,進(jìn)而提高了下一個(gè)搜索階段的種群多樣性。
通過(guò)這種建模形式,Almufti等[28]有效解決了MRS中多旅行商的目標(biāo)分配問(wèn)題。
C. Jada等[29]受到蝴蝶交流和尋找配偶等生物現(xiàn)象的啟發(fā),構(gòu)建了meta-butterfly模型,并描述了蝴蝶群體模型。在模型中,基于歐氏距離確定周?chē)伦陨硇畔⑺?并通過(guò)對(duì)不同個(gè)體釋放不同量的信息素與周?chē)换?,進(jìn)而完成選擇過(guò)程,根據(jù)移動(dòng)策略(式(4))完成聚集。
(4)
其中,Bs為步長(zhǎng);xi(t)為t時(shí)刻蝴蝶i的位置。
除了動(dòng)物的集體行為,細(xì)胞水平的生物現(xiàn)象也同樣可以在MRS的研究中被采用。H. Oh等[30]通過(guò)研究生物學(xué)中形態(tài)因子影響胚胎階段擴(kuò)散到發(fā)育組織,并自動(dòng)調(diào)整細(xì)胞的行為和反應(yīng)的現(xiàn)象,構(gòu)造了分布式的數(shù)學(xué)模型,形態(tài)因子通過(guò)機(jī)器人擴(kuò)散模型描述
(5)
其中,Cbi為個(gè)體b中形態(tài)因子i的濃度;Di表示擴(kuò)散率;ri為衰減速率;dbb′表示個(gè)體b到b′的距離;Nb表示與個(gè)體b相連接的個(gè)體數(shù)。
上面的擴(kuò)散模型并未考慮個(gè)體間對(duì)形態(tài)因子的影響。當(dāng)考慮一個(gè)細(xì)胞的幾個(gè)形態(tài)因子與鄰近細(xì)胞的形態(tài)因子發(fā)生反應(yīng)時(shí),將式(5)中引入反應(yīng)機(jī)制,則可以建立Reaction-diffusion模型
(6)
其中,wij為交互矩陣的元素;fij表示更新函數(shù),通常采用sigmoid方程。
在Reaction-diffusion模型的基礎(chǔ)上,Y.Ike-moto等[31]利用一組機(jī)器人,成功生成并保持圓形、三角形、四邊形、六邊形等多種圖案。以圓形為例,機(jī)器人一旦形成一個(gè)圓形圖案,2個(gè)形態(tài)因子的信號(hào)就會(huì)在機(jī)器人之間交換,并通過(guò)一組Reaction-diffusion方程相互作用,穩(wěn)定為圓形圖案。
近年來(lái),部分學(xué)者通過(guò)觀察細(xì)菌的生物學(xué)特性,建立相應(yīng)規(guī)則,形成MRS聚集行為。受到細(xì)菌趨光性質(zhì)的啟發(fā),Li等[32]設(shè)計(jì)了一套僅靠周?chē)W痈鶕?jù)環(huán)境變化情況實(shí)現(xiàn)運(yùn)動(dòng)的系統(tǒng),個(gè)體根據(jù)環(huán)境的光照控制本體擴(kuò)張與收縮,個(gè)體間相互推擠實(shí)現(xiàn)運(yùn)動(dòng)。這套系統(tǒng)即使20%的個(gè)體失效,仍能保持運(yùn)動(dòng),展示了大規(guī)模MRS的強(qiáng)魯棒性。
至此可以看出,通過(guò)對(duì)生物群社會(huì)行為的研究和模仿,從而驗(yàn)證了MRS的自組織方法對(duì)環(huán)境有較強(qiáng)適應(yīng)性,且系統(tǒng)具有較強(qiáng)的魯棒性,不會(huì)因?yàn)槟承﹤€(gè)體出現(xiàn)問(wèn)題而導(dǎo)致系統(tǒng)崩潰,具有一定的自愈能力,同時(shí)這種方法通過(guò)簡(jiǎn)單個(gè)體的協(xié)作,高效完成了復(fù)雜任務(wù),也體現(xiàn)了系統(tǒng)智能的涌現(xiàn)。但是,這種擬生物群體方法的缺點(diǎn)也十分明顯。該方法源于對(duì)自然界生物群體社會(huì)性行為的觀察與模仿,相關(guān)數(shù)學(xué)分析比較缺乏,描述尚不完善,因此無(wú)法對(duì)結(jié)果和過(guò)程進(jìn)行完善的分析,進(jìn)而導(dǎo)致行為反應(yīng)不可完全預(yù)測(cè)、結(jié)果可信度較低。
一致性問(wèn)題起源于對(duì)自然界生物行為的研究,并在擬生物方法的基礎(chǔ)上逐步發(fā)展為MRS最重要的研究方向之一,是MRS最基本的控制問(wèn)題。一致性算法的基本思想是個(gè)體利用網(wǎng)絡(luò)傳遞信息,設(shè)計(jì)合理的控制算法,實(shí)現(xiàn)系統(tǒng)內(nèi)個(gè)體狀態(tài)的一致或同步。MRS中的許多問(wèn)題都可以歸結(jié)為一致性控制問(wèn)題,如MRS的聚集問(wèn)題和編隊(duì)隊(duì)形形成問(wèn)題均可以描述為MRS個(gè)體位置一致性問(wèn)題。最為常見(jiàn)的群集問(wèn)題是指所有個(gè)體速度達(dá)到相同并避免碰撞,可以用速度一致性來(lái)描述。近些年MRS一致性控制問(wèn)題快速發(fā)展,從傳統(tǒng)的低階積分模型演變到高階模型、一般系統(tǒng)模型和非線性模型,也逐漸從同質(zhì)系統(tǒng)演變到異質(zhì)系統(tǒng),同時(shí)為提高采樣與控制效率,基于事件觸發(fā)[33-34]的MRS一致性問(wèn)題研究也逐步興起。
2.2.1 低階一致性模型
在Reynolds[12]提出的Boids模型及Vicsek等[17]提出的Vicsek模型兩種擬生物群模型的基礎(chǔ)上,2003年,Jadbabaie等[35]在無(wú)噪聲的假設(shè)條件下對(duì)Vicsek模型進(jìn)行了簡(jiǎn)化,用矩陣論和圖論(無(wú)向圖)給出了Vicsek模型的收斂性的理論證明,指出:只要滿足聯(lián)通,粒子的運(yùn)動(dòng)方向就能達(dá)到一致。與Vicsek描述類似,Jadbabaie引入了圖論,將無(wú)領(lǐng)導(dǎo)的模型描述為
(7)
(8)
當(dāng)需要領(lǐng)航員的情況下,bi(t)=1,否則bi(t)=0。集群系統(tǒng)模型自此從群體動(dòng)力學(xué)模型時(shí)代進(jìn)入了網(wǎng)絡(luò)化系統(tǒng)與圖論描述時(shí)代。
Olfati-Saber等[36-38]將Jadbabaie的工作進(jìn)一步擴(kuò)展,在其基礎(chǔ)上研究了系統(tǒng)的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)與系統(tǒng)收斂性之間的關(guān)系,指出如果系統(tǒng)的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)是強(qiáng)連通的有向圖,則對(duì)于任意初始狀態(tài),系統(tǒng)的狀態(tài)是漸近收斂的,且對(duì)于強(qiáng)連通有效拓?fù)浣Y(jié)構(gòu)下的MRS,平均一致收斂的充要條件是它的信息交換圖是平衡圖。
Olfati-Saber將系統(tǒng)描述為G=(V,ε,A),其中V為節(jié)點(diǎn),ε為邊,A為鄰接矩陣,它的元素均為非負(fù)。個(gè)體的集合為
NJ:=
(9)
建立個(gè)體動(dòng)力學(xué)模型為
定義有向拉普拉斯矩陣為
L(G)=L=Δ-A
其中,Δ為入度矩陣。
針對(duì)切換拓?fù)涞哪P停琌lfati-Saber[38]建立模型
Γn={G=(V,ε,A):rank(L(G))
=n-1,1TL(G)=0}
(10)
第1個(gè)式子是對(duì)強(qiáng)連通網(wǎng)絡(luò)的描述,第2個(gè)式子是對(duì)系統(tǒng)的描述。其中s(t):R≥0→IΓn是切換信號(hào)。
在Olfati-Saber的基礎(chǔ)上,美國(guó)加州大學(xué)河濱分校的任偉教授等[39]在固定拓?fù)浣Y(jié)構(gòu)的假設(shè)下,將強(qiáng)連通拓?fù)錀l件弱化為只要在一段時(shí)間內(nèi)網(wǎng)絡(luò)拓?fù)渥訄D的聯(lián)合圖包含一條有向生成樹(shù),則系統(tǒng)可實(shí)現(xiàn)一致性;在動(dòng)態(tài)變化的交互拓?fù)湎?,如果有向交互圖的并集在系統(tǒng)演化過(guò)程中有足夠頻繁的生成樹(shù),則也可以實(shí)現(xiàn)信息漸近一致,并建立了離散系統(tǒng)建模與連續(xù)模型。
同樣受到Vicsek和Jadbabaie工作的啟發(fā),Cucker和Smale[40-41]提出了一個(gè)非常有意義的集群模型(Cucker-Smale模型, CS模型),在模型中所有個(gè)體具有慣性,且整個(gè)系統(tǒng)完全驅(qū)動(dòng)。在CS模型中,個(gè)體會(huì)對(duì)其速度進(jìn)行自我調(diào)節(jié),即通過(guò)自己在t時(shí)刻的速度跟其他個(gè)體在t時(shí)刻的速度差的加權(quán)平均值來(lái)調(diào)節(jié)自己下一時(shí)刻的速度。之前的模型需要在無(wú)限時(shí)間序列上的一個(gè)假設(shè),CS模型的收斂結(jié)果只依賴于初始狀態(tài)條件和影響參數(shù)。在CS模型中,也做了一些理想化處理:
1)所有個(gè)體之間都有相互影響;
2)個(gè)體間影響的強(qiáng)弱跟它們之間的絕對(duì)距離和速度差有關(guān)。
連續(xù)CS模型:考慮一個(gè)具有N個(gè)子個(gè)體的MRS,對(duì)于個(gè)體i,它在t時(shí)刻的位移記為xi(t),速度記為vi(t)的模型滿足
(11)
其中
以CS模型中個(gè)體之間的影響機(jī)制為基礎(chǔ),美國(guó)的Shen教授[42]提出了一個(gè)特殊的具有領(lǐng)導(dǎo)機(jī)制和分等級(jí)機(jī)制的集群(Hierarchical Leadership, HL)模型。HL模型中每個(gè)成員都屬于和它對(duì)應(yīng)的一個(gè)等級(jí),對(duì)它們從高到低依次排序。成員們遵循一個(gè)低等級(jí)的成員只能夠被高等級(jí)的成員影響和領(lǐng)導(dǎo)的機(jī)制。與CS模型表述相同,僅加入了2組額外描述:
1)當(dāng)j
2)若個(gè)體i領(lǐng)導(dǎo)組成的集合表征為:L={aij(t) > 0},那么對(duì)于任意的i> 0都有L≠?。
哈爾濱工業(yè)大學(xué)的Li等[41]在Shen的基礎(chǔ)上改進(jìn)了HL模型,建立了一個(gè)更為一般的單領(lǐng)航機(jī)制的多智能復(fù)雜系統(tǒng)集群模型(Cucker-Smale under Rooted Leadership, CSRL)。在這個(gè)模型中存在一個(gè)全局領(lǐng)導(dǎo)者,它不受其他個(gè)體的影響,但是直接或者間接地影響著其他所有個(gè)體。這個(gè)模型更好地揭示了全體的合作信息交換的優(yōu)點(diǎn)。
2011年,美國(guó)馬里蘭大學(xué)終身杰出教授Tadmor及其團(tuán)隊(duì)[43]改進(jìn)了CS模型,在CS模型的基礎(chǔ)上考慮生物集群特性,提出了一個(gè)新的MRS集群模型(Motsch-Tadmor, MT)。在這個(gè)模型中不僅考慮了個(gè)體數(shù)量,還考慮了個(gè)體在空間中的幾何關(guān)系。但是由于相對(duì)距離的引進(jìn),使得原CS模型中的對(duì)稱性質(zhì)遭到破壞,Tadmor通過(guò)引進(jìn)一個(gè)新的分析方法對(duì)復(fù)雜MRS集群性質(zhì)進(jìn)行了開(kāi)創(chuàng)性的研究。
在MT模型中,考慮一個(gè)具有N個(gè)子個(gè)體的MRS,對(duì)于個(gè)體i,它在t時(shí)刻的位移和速度分別為xi(t)和vi(t),模型滿足
(12)
其中
2013年,哈爾濱工業(yè)大學(xué)的Dong等[44]在Shen的基礎(chǔ)上,研究了具有自由意志的離散HL模型,并給出了一個(gè)自由意志函數(shù)控制的條件以確保系統(tǒng)的集群性。在Dong和Tadmor工作的基礎(chǔ)上,2016年湖南大學(xué)的李樂(lè)博士[45]綜合了具有自由意志的離散HL模型[44]和MT模型[43],提出了具有多領(lǐng)導(dǎo)者、等級(jí)制度且描述個(gè)體間影響的RH模型。考慮一個(gè)有N個(gè)個(gè)體的MRS,假設(shè)系統(tǒng)中存在K個(gè)等級(jí),等級(jí)Ri中存在Ni個(gè)個(gè)體。Ri中的個(gè)體i,在t時(shí)刻的位移和速度記為xi(t)和vi(t)。系統(tǒng)在MT個(gè)體模型的基礎(chǔ)上加入自由意志,并對(duì)不同層級(jí)個(gè)體分別進(jìn)行描述,驗(yàn)證了11個(gè)個(gè)體模型的速度和位置一致性。
2.2.2 高階一致性模型
除上述較為常見(jiàn)的低階積分型線性模型外,更具有普適性的是線性定常模型(Linear Time-Invariant,LTI),這種模型中每個(gè)個(gè)體有獨(dú)立的多輸入多輸出線性動(dòng)力學(xué)模型,且階次任意,其模型可表達(dá)為
(13)
其中,xi∈Rn為狀態(tài)信息;ui∈Rp為控制輸入;yi∈Rq為可測(cè)的系統(tǒng)矩陣;A、B、C、D為常數(shù)矩陣。
在高階非線性模型研究中,有兩種典型的高階系統(tǒng)模型:Kuramoto模型[46-48]和Brunovsky模型[49]。Kuramoto模型是一種經(jīng)典的非線性動(dòng)力學(xué)模型,主要用于描述相位或頻率的一致性問(wèn)題,該模型由n個(gè)耦合振蕩器組成,其動(dòng)力學(xué)方程[48]為
(14)
其中,B為具有N個(gè)節(jié)點(diǎn)、e個(gè)邊的有向圖的incidence矩陣,j傳輸?shù)絠時(shí)Bij=1,反之Bij=-1,無(wú)連接時(shí)Bij=1;θ和ω分別表示振蕩器的相位和固有頻率;K表示耦合強(qiáng)度。
Brunovsky模型是一種具有代表性的標(biāo)準(zhǔn)高階非線性集群系統(tǒng)[49],其個(gè)體模型通過(guò)一個(gè)高階積分器耦合未知非線性動(dòng)力學(xué)以及未知擾動(dòng)來(lái)表示
(15)
其中,i=1,…,n,xij∈R是個(gè)體j的第i階狀態(tài);xj=[x1j,…,xnj]T是個(gè)體j的狀態(tài)向量;未知函數(shù)f(·):Rn→R在Rn上局部Lipschitz,且f(0)=0;ζj∈R是未知的但是有界的外部擾動(dòng)。
2.2.3 異質(zhì)MRS模型
MRS中往往存在不同類型的個(gè)體,即系統(tǒng)異構(gòu)或異質(zhì)。在控制系統(tǒng)模型中,通常是指?jìng)€(gè)體動(dòng)力學(xué)模型不同的系統(tǒng),而并非是具有不同功能的個(gè)體,即異質(zhì)MRS模型。清華大學(xué)的王龍等[50]在2011年首次提出了異質(zhì)MRS模型,將一階和二階模型混合,建立系統(tǒng)模型
(16)
其中,xi∈R,vi∈R,ui∈R是個(gè)體i的位置、速度和控制信號(hào)。
在王龍[50]工作的基礎(chǔ)上,Kim等[51]則考慮了受環(huán)境因素影響,個(gè)體之間的通信連接可能中斷或重連的情況,他們把這種情況描述為一個(gè)伯努利概率序列的數(shù)學(xué)模型。根據(jù)通信中斷前的一步信息設(shè)計(jì)控制協(xié)議,然后利用線性矩陣不等式,解決了一階和二階異質(zhì)集群系統(tǒng)在離散時(shí)間情況下的均方一致性控制問(wèn)題。
Liu則在王龍等[50]的基礎(chǔ)上,將異質(zhì)系統(tǒng)擴(kuò)展到更為復(fù)雜的情況:即異質(zhì)系統(tǒng)由線性一階、線性二階和非線性Eulre-Lagrange三類個(gè)體動(dòng)力學(xué)模型組合,并在非線性個(gè)體參數(shù)已知和非已知的情況下解決了異質(zhì)MRS的編隊(duì)和聚集問(wèn)題。
(17)
其中,xi∈R,vi∈R,ui∈R是個(gè)體i的位置、速度和控制信號(hào);Mi(xi)∈R為一般慣性矩陣;Ci(xi,vi)∈R為科氏力和離心力矩陣。且Eulre-Lagrange方程需滿足以下4個(gè)假設(shè)條件
(18)
2.2.4 考慮時(shí)延MRS一致性模型
在實(shí)際生活中,個(gè)體間通信、執(zhí)行計(jì)算、執(zhí)行器執(zhí)行等經(jīng)常存在時(shí)間延遲的情況,而時(shí)延往往會(huì)影響系統(tǒng)的穩(wěn)定性。M. M. Gulzar等[52]將時(shí)間延遲的情況劃分為四類,分別為:由于通信速度引起的通信時(shí)延、傳感器獲取感知信息的控制時(shí)延、用于計(jì)算控制輸入的計(jì)算時(shí)延以及執(zhí)行器執(zhí)行動(dòng)作導(dǎo)致的執(zhí)行時(shí)延。
當(dāng)只考慮傳輸信息的狀態(tài)受到時(shí)延的影響,即通信時(shí)延,則個(gè)體的連續(xù)時(shí)間一致性模型可以被修改為
(19)
如果同時(shí)考慮控制時(shí)延、計(jì)算時(shí)延和執(zhí)行時(shí)延這類輸入延遲帶來(lái)的時(shí)延,個(gè)體的連續(xù)時(shí)間一致性模型可被修改為
(20)
式(19)和式(20)中,τij>0是個(gè)體i與個(gè)體j之間的時(shí)延。采用這兩種時(shí)延模型可以對(duì)上述章節(jié)的任意MRS一致性模型進(jìn)行修改,從而形成新的考慮時(shí)延的MRS一致性控制模型。以考慮時(shí)延的高階非線性Kuramoto模型[47]為例,考慮通信時(shí)延的模型可以被修改為
(21)
至此可以看出,基于一致性的MRS模型已得到十分深入且廣泛的研究。從簡(jiǎn)單的一階積分系統(tǒng),逐步擴(kuò)展至一般線性系統(tǒng)、拓?fù)涓淖兊南到y(tǒng)、高階非線性系統(tǒng)、具有時(shí)延的系統(tǒng)和異質(zhì)MRS,且與擬生物行為的模型相比,一致性控制模型具有嚴(yán)格的數(shù)學(xué)基礎(chǔ)和理論依據(jù),結(jié)果更可信。但是這種方法模型多為主從結(jié)構(gòu),需要領(lǐng)導(dǎo)者或虛擬領(lǐng)導(dǎo)者。另外在控制過(guò)程中并未考慮系統(tǒng)避障的問(wèn)題,個(gè)體間可能發(fā)生相互碰撞的情況。同時(shí)若考慮個(gè)體間的相互避碰及環(huán)境中的障礙物,暫時(shí)無(wú)法完全保證一致性模型MRS系統(tǒng)分析方法的收斂性。
近些年,隨著強(qiáng)化學(xué)習(xí)的發(fā)展,多智能體強(qiáng)化學(xué)習(xí)(Multi-Agent Deep Reinforcement Learning,MARL)也成為研究MRS的重要方面。MARL首次由Littman[53]于1994年提出,Littman提出了基于零和對(duì)策的MARL方法—Minmax-Q,并利用線性規(guī)劃進(jìn)行求解,解決了2個(gè)個(gè)體的博弈問(wèn)題。MARL至今已發(fā)展20余年,從整體來(lái)看,MARL算法與單個(gè)體強(qiáng)化學(xué)習(xí)算法發(fā)展基本一致,歷經(jīng)Q-Learning為基礎(chǔ)的值函數(shù)RL算法、策略梯度優(yōu)化、Actor-Critic方法。Mnih等[54]將深度學(xué)習(xí)(Deep Learning, DL)引入RL框架中后,MADRL算法[55-56]逐漸占據(jù)主流,與基礎(chǔ)RL算法不同,MARL除了RL自身的挑戰(zhàn)外,還需重點(diǎn)考慮個(gè)體間關(guān)系(合作、競(jìng)爭(zhēng)、混合)、非穩(wěn)定性環(huán)境以及與博弈論或圖論等學(xué)科相交叉的問(wèn)題。MARL方面的MRS建模主要圍繞馬爾可夫決策過(guò)程(Markov Decision Process, MDP)及其變體形式展開(kāi)。
MDP可以由一個(gè)元組(S,A,c,P,ρ) 來(lái)表示,其中:S表示狀態(tài)空間;A表示動(dòng)作空間;c(s,a)∈[0, ∞)為代價(jià)函數(shù);P(s′|s,a)為狀態(tài)轉(zhuǎn)移概率;ρ(s)為初始狀態(tài)概率分布。
部分可觀的馬爾可夫決策過(guò)程(Partial Observable MDP, POMDP)是MDP 的更一般性描述。一般來(lái)說(shuō),POMDP中個(gè)體i可以描述為POMDPi=,其中:S為環(huán)境的有限狀態(tài)集;Ai為個(gè)體i的行為集;Ti為個(gè)體i在一種狀態(tài)下采取行為a,到達(dá)某一狀態(tài)的概率的集合;Oi為個(gè)體i的觀測(cè);Oi為個(gè)體i的觀測(cè)函數(shù),定義了給定動(dòng)作的觀察概率;Ri為個(gè)體i的獎(jiǎng)勵(lì)函數(shù),代表i的偏好,R(s,a)表示狀態(tài)s下采取動(dòng)作a的立即回報(bào)。
當(dāng)一組決策者需要以分散的方式做出選擇時(shí),可以將問(wèn)題建模為分散的部分可觀的馬爾可夫決策過(guò)程 (Decentralized POMDP, Dec-POMDP)[57]。雖然Dec-POMDP模型為不確定性下的協(xié)同順序決策提供了一個(gè)豐富的框架,但該模型的計(jì)算復(fù)雜度是一個(gè)重要的研究挑戰(zhàn)。它是POMDP框架的擴(kuò)展。一般來(lái)說(shuō),Dec-POMDP中個(gè)體i可以描述為POMDPi=,S、Ti、Oi、Ri與POMDP描述一致,其中:I={1, …,n}為n個(gè)個(gè)體的集合;Ai為個(gè)體i的行為集,結(jié)連行為的集合A=×iAi;Oi為個(gè)體i的觀測(cè),結(jié)連觀測(cè)的集合O=×iOi;h為問(wèn)題的維度,始終為一個(gè)正整數(shù)。
與Dec-POMDP相似,多體MDP(Multi-MDP, MMDP)[57]的描述為:MMDPi=。
當(dāng)考慮到個(gè)體間相互競(jìng)爭(zhēng)和合作的博弈關(guān)系時(shí),一些研究人員通常會(huì)結(jié)合博弈論對(duì)MARL系統(tǒng)進(jìn)行建模,Hu 等[58]提出了Stochastic game模型,其中:I= {1, …,n}為n個(gè)個(gè)體的集合;S為環(huán)境的有限狀態(tài)集;對(duì)于個(gè)體i,有限行為集Ai,回報(bào)函數(shù)S×A→Ri,A=A1×A2×…×An;Ti為個(gè)體i在某狀態(tài)下采取行為a,到達(dá)另一狀態(tài)的概率S×A×S→[0, 1]。
與上述的模型不同,一般隨機(jī)博弈為了尋找一個(gè)Nash均衡點(diǎn),其對(duì)于所有的策略滿足πi∈Πi
(22)
受到傳統(tǒng)的多智能體系統(tǒng)(Multi-Agent System, MAS)建模思想的影響,Zhang等[59]將圖論知識(shí)引入MARL建模中,提出了Networked Multi-Agent MDP模型,將系統(tǒng)描述為一個(gè)元組
(S,{Ai}i∈N,P,{Ri}i∈N,{Gt}t≥0)
(23)
在MARL的框架下,代爾夫特理工大學(xué)的Jelmer等[60]建立了一個(gè)最初的MAS框架(圖 4)。將系統(tǒng)分層級(jí)描述為particalsPi和動(dòng)態(tài)個(gè)體Ai,Pi用于描述每個(gè)個(gè)體的物理特性,Ai則是采用MDP的形式描述系統(tǒng)的環(huán)境和智能特性。
圖4 Jelmer模型Fig.4 Jelmert’s model
除上述描述的建模方式外,部分學(xué)者通過(guò)對(duì)流體近似的研究,以平均場(chǎng)模型的形式建立了MAS控制模型[61],并設(shè)計(jì)了控制策略。平均場(chǎng)模型包括常微分方程、偏微分方程和差分方程,具體取決于個(gè)體的狀態(tài)和時(shí)間變量是離散或連續(xù)。采用平均場(chǎng)構(gòu)建的宏觀模型與MRS中數(shù)量無(wú)關(guān),與基于個(gè)體的群體微觀模型相比,具有更大的可擴(kuò)展性。通常,平均場(chǎng)建模方法分為有限維模型與無(wú)限維模型,有限維模型又分為離散時(shí)間模型與連續(xù)時(shí)間模型,基于圖論和馬爾可夫鏈的性質(zhì)構(gòu)建流體/隨機(jī)系統(tǒng)模型;無(wú)限維模型通常設(shè)定初始個(gè)體無(wú)交互,采用隨機(jī)過(guò)程,以柯?tīng)柲缏宸蚯跋蚍匠毯透?似绽士藬U(kuò)散模型[62]構(gòu)建系統(tǒng)模型。以A. Prorok等[63]的研究為例,其借鑒隨機(jī)系統(tǒng)的建模方法,通過(guò)??似绽士藬U(kuò)散模型提出了一種個(gè)體隨時(shí)間-空間分布模型,解決了由一組微型機(jī)器人執(zhí)行的檢查任務(wù),并對(duì)系統(tǒng)性能做出了準(zhǔn)確的預(yù)測(cè)。倫敦大學(xué)學(xué)院的汪軍教授[64]也將平均場(chǎng)理論應(yīng)用于MARL的建模工作中,提出了一種基于博弈論中平均場(chǎng)理論的MARL(Mean Field MARL,MFMARL)算法,致力于極大規(guī)模的MARL問(wèn)題,有效解決了大規(guī)模數(shù)量MARL問(wèn)題,雖然有嚴(yán)格的理論證明,但是該模型并不是完全分布式的。
上述方法中考慮的個(gè)體數(shù)目動(dòng)態(tài)變化及分布式的系統(tǒng)模型較少。雖然目前針對(duì)聚集和群集2個(gè)問(wèn)題已有部分模型可以解決,如Vicsek模型、Jadbabaie模型及其部分?jǐn)U展工作,但均是在個(gè)體等價(jià)的前提下進(jìn)行建模。然而在實(shí)際任務(wù)中,環(huán)境中的個(gè)體數(shù)量可以很大,并且是多種多樣的。此外,由于個(gè)體離開(kāi)(被擊毀或出現(xiàn)故障等)或在執(zhí)行任務(wù)過(guò)程中進(jìn)入系統(tǒng),個(gè)體的狀態(tài)數(shù)量也可能會(huì)發(fā)生變化,這種問(wèn)題通常被稱為一個(gè)開(kāi)放的MRS[65]。針對(duì)開(kāi)放的MRS尚未有較完善的相關(guān)可擴(kuò)展、具有魯棒性的建模方法和問(wèn)題研究。
除3.1節(jié)中提出的問(wèn)題外,目前MARL方法缺乏對(duì)其收斂性和收斂結(jié)果類型的理論認(rèn)識(shí)。博弈論均衡是一個(gè)可以用來(lái)促進(jìn)收斂的理論概念,如相關(guān)均衡和Nash均衡。雖然已有部分這方面的研究[58],但這些方法的缺點(diǎn)是需要計(jì)算均衡解,以及均衡的非唯一性,這需要某種形式的協(xié)調(diào)均衡選擇。最近在這個(gè)方向上的研究中,Li等[66]使用了極大極小平衡的近似解,提出了一種新的魯棒MARL算法。Zhang等[59]研究了基于網(wǎng)絡(luò)的MARL問(wèn)題,提出了兩種具有函數(shù)逼近的分散的actor-critic算法,采用線性函數(shù)逼近的方法對(duì)算法的收斂性進(jìn)行理論分析,并采用最大熵強(qiáng)化學(xué)習(xí)產(chǎn)生對(duì)MRS建模錯(cuò)誤和分布轉(zhuǎn)移具有魯棒性的潛力。然而,到目前為止,對(duì)MARL方法的收斂性問(wèn)題還缺乏詳細(xì)的理論探索及可靠的建模形式。
傳統(tǒng)的自組織MRS建模方式,大多數(shù)考慮了個(gè)體的動(dòng)力學(xué)模型,但并未考慮個(gè)體的能力,也就是默認(rèn)了系統(tǒng)中個(gè)體能力相同,即為同構(gòu)。在MARL模型中,目前大部分的工作都集中于同構(gòu)MRS中,且一般不考慮個(gè)體的動(dòng)力學(xué)模型。然而在實(shí)際任務(wù)中,系統(tǒng)中的個(gè)體常常具有不同的能力,也就是系統(tǒng)異構(gòu),且需考慮個(gè)體的運(yùn)動(dòng)模型。在MRS異構(gòu)的環(huán)境中,綜合系統(tǒng)中個(gè)體能力及運(yùn)動(dòng)學(xué)特性,構(gòu)建完整的系統(tǒng)模型,快速有效地完成動(dòng)態(tài)任務(wù),這樣的模型屈指可數(shù)[67-68],且都是僅在理論探索階段。
目前的MRS建模方式幾乎沒(méi)有對(duì)系統(tǒng)性能及智能化水平的評(píng)價(jià)。通常只是根據(jù)任務(wù)直接進(jìn)行分配或控制,對(duì)于系統(tǒng)是否具備相應(yīng)的智能化水平,以及多樣性是否滿足均無(wú)評(píng)測(cè),抑或是僅僅進(jìn)行定性分析。對(duì)系統(tǒng)的評(píng)估,往往有助于更加快速有效地完成系統(tǒng)任務(wù),近些年A. Prorok[67]從度量多樣性定量評(píng)估系統(tǒng)性能,K. P.Valavanis[69]采用熵的方法評(píng)估系統(tǒng)的智能化程度。兩位學(xué)者做出了前期探索,但是如何系統(tǒng)建立可以評(píng)價(jià)系統(tǒng)多樣性和智能化水平的系統(tǒng)模型,以及采用什么方法去評(píng)價(jià)都是亟待解決的問(wèn)題之一。
隨著更多的國(guó)內(nèi)外團(tuán)隊(duì)加入MRS的研究,MRS建模將會(huì)越來(lái)越完善,本文從一致性控制理論建模方法、基于擬生物行為、強(qiáng)化學(xué)習(xí)的建模方法幾個(gè)方面進(jìn)行總結(jié)與分析。同時(shí)針對(duì)現(xiàn)有模型,總結(jié)了一些仍待解決的典型建模問(wèn)題,如何建立可擴(kuò)展、魯棒的異構(gòu)MRS模型,如何在復(fù)雜環(huán)境中應(yīng)用,如何建立可評(píng)價(jià)系統(tǒng)指標(biāo)的完整模型等。隨著這些問(wèn)題的解決, MRS將更加廣泛地應(yīng)用于生產(chǎn)生活、軍事作戰(zhàn)之中,讓社會(huì)進(jìn)入更加自主化的時(shí)代。