張迎雪, 陳 萌,2*, 陳金寶, 陳傳志
(1.南京航空航天大學航天學院, 南京 211106; 2.上海宇航系統(tǒng)工程研究所, 上海 201109)
機器人技術多機系統(tǒng)突破了單個機器人負載和數(shù)據(jù)處理等方面的瓶頸,可加快執(zhí)行速度,提高效率,并具有更強的環(huán)境適應能力和容錯能力。協(xié)作是多機系統(tǒng)特色,系統(tǒng)中多個機器人既相互制約又相互配合[1],實現(xiàn)了“1+1>2”的效果。 團隊中的異構機器人通過優(yōu)勢互補,為系統(tǒng)提供更豐富的解決方案,不僅滿足多變的環(huán)境和嚴苛的需求,還可以降低整體制造成本,目前已被應用于工業(yè)自動化、軍事國防、救援搶險、深空探測等眾多領域[2-3]。
多機協(xié)同的系統(tǒng)架構主要分為集中式、分布式和混合式共3 種,詳細對比見表1。
表1 多機協(xié)同體系結構Table 1 Architecture of multi-robot cooperative system
多機協(xié)同是集合多種功能于一體的復雜系統(tǒng)。 其中,同步定位與地圖構建(Simultaneous Localization And Mapping,SLAM)是多機系統(tǒng)完成全自主移動的前提條件和復雜探索的必要基礎;路徑規(guī)劃、任務分配是異構多機器人實現(xiàn)智能化探測和作業(yè)的核心關鍵技術;多機系統(tǒng)與強化學習的結合是未來多機協(xié)同發(fā)展的必然路徑。 本文從以上4 個方面對多機協(xié)同系統(tǒng)進行分析和總結,歸納關鍵技術,探討該領域目前存在的主要問題,并展望多機器人智能化協(xié)同技術未來的發(fā)展趨勢。
多機系統(tǒng)的研究可以追溯到20 世紀80 年代。 日本對于多機系統(tǒng)的研究起步最早。 1988年基于分布式體系架構的CEBOT (Cellular Robotic System)[4]通過重構,組成能夠實現(xiàn)學習的復雜機器人系統(tǒng)。 1989 年研制的Actress[5]異構機器人具備自主操作能力,并利用通信協(xié)議實現(xiàn)多機協(xié)同。
1994 年,美國加州大學開發(fā)的大規(guī)模分布式SWARM 系統(tǒng)通過機器人之間的交流獲得群體智能[6]。 1998 年美國的ALLIANCE 異構機器人團隊[7],利用焦躁和默許2 種類型的動機以此調(diào)節(jié)機器人的工作狀態(tài)。 同年,歐盟研制出MARTHA混合式系統(tǒng)結構[8],通過相互協(xié)調(diào)進行路線規(guī)劃和軌跡生成。
進入21 世紀,各國紛紛投身于多機系統(tǒng)的研究,并不斷加大對該領域的投入。 2004 年美國DARPA 中MARS-2020 計劃[9]的研究目標之一,就是在動態(tài)及危險環(huán)境中,通過地面與空中多機器人的團隊協(xié)作實現(xiàn)通信偵查作業(yè)。 2006年該機構的另一個項目SDR[10]開發(fā)了由大約80 個機器人組成的異構機器人團隊,旨在大型室內(nèi)環(huán)境中探索,繪制空間地圖并檢測有價值的目標物體,實現(xiàn)保護等特定任務。 2013 年歐盟的AVERT 項目[11]研發(fā)用于搜救和干預危險行動的多機器人團隊,在協(xié)同過程中完成緊耦合任務。 2014 年美國 NASA 研制的名為Swarmie 小型機器人[12],模擬蟻群的工作方式,用于搜救和偵查,并有望用于深空探測中尋找水源,如圖1 所示。
圖1 NASA 研制的Swarmie 小型機器人[12]Fig.1 Swarmie robot developed by NASA[12]
2015 年俄羅斯開始打造機器人衛(wèi)星部隊[13],以“整體打包,太空釋放”的方式將其部署到近地軌道完成太空裝配及檢修任務。 2018 年美國明尼蘇達大學MARS 實驗室通過在不同機器人建立的地圖之間增加點和線特征的幾何約束構成大規(guī)模3D 環(huán)境地圖[14]。
中國最早開展多機系統(tǒng)研究的是上海交通大學和中科院沈陽自動化研究所,研制的DAMAS[15]利用Petri 網(wǎng)建立了分布式的集中裝配系統(tǒng)。 蔡自興等[16]系統(tǒng)地闡述了多機系統(tǒng),并提出利用遺傳算法提升地圖構建的效率和精確度,引入離散PSO 解決多機協(xié)同分配,并針對異構多機器人不同感知能力的特點設計了協(xié)同定位算法,增強系統(tǒng)位置預測能力[17]。 王浩等[18]提出分層追逃算法來處理多機系統(tǒng)中出現(xiàn)的追捕,以及如何解決追逃過程中的約束條件、追捕聯(lián)盟等問題。 魏明珠[19]通過一致步長迭代和更新,實現(xiàn)了月面多機器人分布式協(xié)同定位,提升了月面定位的效率和精度。 于曉強[20]提出基于擴展一致性的拍賣算法,利用多航天器之間的協(xié)同,完成在軌裝配的任務分配問題。
為提升空間探索效率,國際空間站的機械臂也由單臂向多臂協(xié)同發(fā)展。 國際空間站靈巧機械手SPDM 與機器人航天員R2 采用雙臂構型,協(xié)同實現(xiàn)空間站裝配與維修[21]。 日本實驗艙機械臂JEMRMS[22],在小臂工作時由主臂接收能源和數(shù)據(jù),形成串聯(lián)構型,協(xié)同完成復雜靈巧操作任務,如圖2 所示。
圖2 日本實驗艙機械臂JEMRMS[22]Fig.2 Japanese robotic arm JEMRMS[22]
天宮二號機械臂系統(tǒng)在空間實驗室任務中順利完成人機協(xié)同、在軌維修等關鍵技術的驗證[23],見圖3。 中國空間站為核心艙和實驗艙分別配備2 套機械臂,2 套機械臂可獨立或協(xié)同執(zhí)行任務,也可串聯(lián)成組合臂,擴大空間作業(yè)范圍[24],如圖4 所示。
圖3 天宮二號航天員與機械手的人機協(xié)同試驗Fig.3 Man-Machine Collaboration Test between astronauts and manipulator in Tiangong-2
圖4 中國空間站核心艙與實驗艙機械臂級聯(lián)Fig.4 The core module and experimental module manipulator cascade in the Chinese space station
多機協(xié)同理念已被應用于中國空間站的建造,輔助或替代航天員完成在軌組裝及維修等任務,大幅提高了空間操作的安全性,對于未來開展大規(guī)模集群操作,深空探測復雜任務等均具有重要意義。
SLAM 即機器人對其所在環(huán)境構建空間模型,并在該環(huán)境中迅速定位。 2004 年美國NASA發(fā)射的機遇號和勇氣號火星探測器以基于視覺的SLAM(Visual-based SLAM)為主,完成了高精度的定位。 2021 年毅力號火星車搭載機智號火星直升機成功降落在火星表面,火星直升機將實時創(chuàng)建的地圖發(fā)送給火星車,實現(xiàn)天地協(xié)同SLAM,如圖5 所示。
圖5 機智號火星直升機和毅力號火星車Fig. 5 Ingenuity helicopter and Perseverance Mars rover
目前,已將單機器人的SLAM 成功擴展至多機協(xié)同SLAM,通過融合各機器人觀測信息,提升SLAM 的精度。 本文按照數(shù)據(jù)處理的主要方式,將多機器人SLAM 分為以下3 類。
基于濾波器的SLAM 常以擴展卡爾曼濾波(Extended Kalman Filter,EKF)算法通過更新以及預測不斷迭代,解決地圖和位姿估計。 隨著機器人數(shù)量和所在環(huán)境逐漸擴大,累積誤差會嚴重影響濾波效果。 Roumeliotis[25]將地圖重疊問題轉換成地標約束,減少地圖對齊過程中因噪聲引起的位置估計誤差。 Huang[26]提出新的信息感知方法,用可觀測性約束提升EKF 的一致性。 然而基于濾波的方法,其時間和空間復雜度均為o(n2),因此更適用于小規(guī)模地圖環(huán)境的構建。
將協(xié)方差矩陣變?yōu)樾畔⒕仃?,可得到擴展信息濾波器(Extended Information Filter,EIF)EIFSLAM 算法。 奔粵陽等[27]利用聯(lián)合分布狀態(tài)和信息濾波參數(shù)的稀疏性,從時間和計算兩方面減少復雜度,確保協(xié)同定位的精度和有效性。
不同于EKF-SLAM,粒子濾波器(Particle Filter,PF)可以處理任意噪聲模型。 Roh[28]利用多假設分析的地圖合并技術和粒子群優(yōu)化算法,解決缺乏特征或局部極大值的多機器人地圖合并,提高地圖融合精度。 但是粒子的多樣性會隨時間推移而發(fā)生退化。 因此Havangi[29]提出了無跡Fast SLAM 算法,改進重采樣步驟,讓粒子集向概率密度函數(shù)值較大的區(qū)域移動,克服粒子貧化。
EKF-SLAM 是解決該問題的經(jīng)典方法,然而受到算法一致性、數(shù)據(jù)關聯(lián)問題以及計算成本三方面限制。 EIF-SLAM 由于信息的可加特性,更適合擴展至多機器人系統(tǒng)。 PF-SLAM 在處理非線性、非高斯系統(tǒng)上魯棒性強,運算精度更高。
基于優(yōu)化的方法中,圖優(yōu)化SLAM(Graphbased SLAM)利用約束條件和目標函數(shù),把問題變?yōu)榛趫D的構建和優(yōu)化。 Campos R[30]利用水下編隊機器人,通過融合地理參考光和導航數(shù)據(jù)建立空間地圖,并加入光學約束對地圖進行優(yōu)化。然而Graph-based SLAM 需要建立在正確數(shù)據(jù)關聯(lián)的基礎上,計算要求較高。
Submap-SLAM 中[31],子地圖的匹配將局部地圖融合,組成大規(guī)模全局地圖,有效抑制了全局誤差的累積。 Vidal-Calleja[32]利用濾波和平滑方法將協(xié)同地空多機系統(tǒng)中各自生成的3D 子地圖進行組合拼接,成功解決了大型戶外環(huán)境的SLAM 問題。 但是在利用Submap-SLAM 得到整體地圖時,需要調(diào)整子地圖的尺寸。
不同于濾波方法僅利用當前較少數(shù)據(jù)進行軌跡更新,基于優(yōu)化的方法分析所有觀測數(shù)據(jù),更新整條軌跡。 通過對關鍵節(jié)點的維護,優(yōu)化SLAM問題,具有計算量小且精度高等優(yōu)點。
隨著人工智能的興起,利用智能化方法解決有關濾波和優(yōu)化,提升SLAM 算法得到了快速發(fā)展。神經(jīng)網(wǎng)絡對于非線性模型具有強大的擬合能力。Omid 等[33]利用徑向基網(wǎng)絡彌補噪聲假設和線性化過程中的系統(tǒng)誤差,降低SLAM 的不確定性。Havangi 等[34]將模糊運算與濾波器相結合,用模糊推理系統(tǒng)監(jiān)督無跡卡爾曼濾波的性能,用于特征位置估計,使算法具有更高的精度和魯棒性。
近年來已有學者利用深度學習解決多機器人SLAM 中如閉環(huán)檢測、語義地圖的生成等問題。閉環(huán)檢測的目標是識別移動機器人之前曾達到的場景,可顯著降低隨時間累加的位置誤差,建立一致性地圖。 張浩然[35]借鑒深度學習能夠提取復雜圖像中的抽象特征,將循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)用于閉合檢測,提升檢測準確率的同時降低了運算量。 為繪制更加精確的空間地圖,在包含環(huán)境的幾何信息之外,還會加入語義信息的描述。 Mccormac[36]從多個視點中得到的卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN)語義預測融合到地圖中,不僅能夠建立稠密的3D 語義地圖,而且可以改善僅使用單幀執(zhí)行分割的基線方法。 將深度學習與SLAM 結合,展示了深度學習在精確度和復雜性方面的強大優(yōu)勢,提升了系統(tǒng)的學習能力和智能化水平,未來極具發(fā)展?jié)摿Α?多機SLAM 方法對比如表2 所示。
表2 多機SLAM 方法對比表Table 2 Comparison of multi-robot SLAM
在多機SLAM 中,機器人構建環(huán)境地圖與協(xié)同定位相輔相成,高精度的定位手段搭配不同地圖創(chuàng)建方式,是未來多機器人SLAM 的重要方向。目前多機協(xié)同SLAM 存在的問題有:
1)協(xié)同SLAM 中,需要較大的通訊量,如何降低通訊代價和復雜度;
2)如何提供更可靠、安全、抗干擾的定位服務,提高定位精度和實時性;
3)如何更好地利用人工智能、深度學習等手段,提升SLAM 的智能化水平,實現(xiàn)更高程度的人機交互。
隨著系統(tǒng)在規(guī)模和功能上的愈加復雜,多機器人任務分配(Multi-Robot Task Allocation,MRTA)成為多機協(xié)同研究的熱點問題之一,其策略的優(yōu)劣會對任務執(zhí)行效果產(chǎn)生直接的影響。 MRTA 最初注重系統(tǒng)對任務的完成情況;近年來,在完成任務的前提下,更關注分配過程中的協(xié)調(diào)與合作。
早期任務分配方法多以集中式分配為主,基于運籌學的匈牙利算法、單純形法等傳統(tǒng)方法被應用于機器人之間的任務分配。 當任務規(guī)模和機器人數(shù)量不斷擴大,遺傳算法、蟻群算法等進化算法充分發(fā)揮了啟發(fā)式算法的優(yōu)勢。 其中,蟻群算法[37]通過感知環(huán)境中信息素濃度,利用正負反饋機制來尋找最短路徑,是一種全局優(yōu)化算法。Zheng 等[38]提出了一種基于蟻群算法的集中式、離線優(yōu)化策略,利用2 種信息素記錄任務分配的傾向性和任務處理順序,從而實現(xiàn)任務優(yōu)化分配和調(diào)度。 遺傳算法通過模擬生物進化過程,通過自然選擇以及遺傳學機理,最終得到系統(tǒng)最優(yōu)解。Jose[39]面對復雜任務分配的組合優(yōu)化問題時,在遺傳算法中加入了兩種貪婪策略,提高全局搜索能力。
集中式任務分配中,中小規(guī)模的分配問題可通過枚舉得到全局最優(yōu),其最優(yōu)解的獲取大多以犧牲機器人的自主性為代價。 然而,MRTA 是一個非確定性多項式困難(Non-deterministic Polynomial-hard,NP-hard)組合優(yōu)化問題,計算復雜度隨機器人數(shù)量的遞增,呈指數(shù)型增長,因此集中式分配不利于解決大規(guī)模任務分配。 此外,該方法普遍適用于機器人和環(huán)境均保持不變的情況,由于任務分配通常是一個動態(tài)的決策過程,因此在實際應用中存在一定的局限性。
分布式任務分配依靠各機器人自身傳感器規(guī)劃其行為,對動態(tài)變化環(huán)境適應性更強,反應速度更快。 基于行為和基于市場機制是較為常用的兩種分布式分配方法。 基于行為的分配方式在狀態(tài)信息與行為之間構成映射,通過設定的刺激,觸發(fā)相應的行為。 Parker 提出的ALLIANCE 就是典型的采用激勵行為的任務分配系統(tǒng)。 以利益最大化為準則,用更少的通訊實現(xiàn)協(xié)作屬于市場機制的任務分配模式[40],其經(jīng)典代表為合同網(wǎng)模型。Wang 等[41]在傳統(tǒng)合同網(wǎng)方法中加入焦慮模型,提高任務分配效率。
拍賣算法使用更加明確的市場規(guī)則確定任務的分配,近年來用以改進傳統(tǒng)合同網(wǎng)模型。 根據(jù)算法需要競拍的回合數(shù)、每個回合能夠參與機器人的數(shù)量以及參與競拍的任務數(shù)量,可主要分為3 種類型[42]:組合拍賣(Combinatorial Auction)、并行拍賣(Parallel Auction)以及單項順序拍賣(Sequential-Single-Item Auction, SSI)算法。
在組合拍賣中,每一個機器人都可以對目標子集進行投標,是唯一能夠獲得最佳解決方案的拍賣手段[43]。 Cui 等[44]將平衡判斷公式和平衡評價因子引入到在線任務分配方法中,用于處理動態(tài)任務分配中的不平衡問題。
在并行拍賣中,拍賣只持續(xù)一輪,任務同時競標,并立即分配。 Zhang 等[45]在并行拍賣的收益矩陣中加入修正函數(shù),使得該算法在總成本和完成時間上取得更好的性能。
初始條件已知的情況下,標準的單項順序拍賣算法考慮了目標之間的協(xié)同作用,通過多輪拍賣進行分配[46]。 Wei 等[47]為解決任務執(zhí)行過程中出現(xiàn)的拍賣順序約束條件,將SSI 算法擴展到動態(tài)分配。 由于分配任務的性質(zhì)逐漸由傳統(tǒng)單次、確定性向動態(tài)、再分配、不確定性轉變,以分布式為主的任務分配結構適用范圍更廣。
基于行為和基于市場機制的策略均需要利用一定的先驗知識來完成。 強化學習、神經(jīng)網(wǎng)絡等智能任務分配理論減少了對先驗知識的依賴,因此得到了快速發(fā)展與廣泛應用。 Dai[48]在合同網(wǎng)算法中加入BP 神經(jīng)網(wǎng)絡,用于融合多機器人拍賣時的競標價格,提升動態(tài)任務分配的快速性和實時性。 強化學習在應用于多機器人時高維度的狀態(tài)空間有時會引發(fā)維度災難。 Kawano[49]采用分層強化學習巧妙解決了維度爆炸問題,逐步進行子任務的分解和學習。
表3 分析對比了不同分配方法的任務規(guī)模、適用類型以及優(yōu)缺點等,可針對不同應用環(huán)境、任務需求,選擇適當?shù)姆峙浞绞?,或組合其中算法,優(yōu)化性能。 目前任務規(guī)劃仍存在如下幾個方面的問題:
表3 不同任務分配方法對比Table 3 Comparison of different task allocation methods
1)如何對異構機器人的能力進行定義和分類,任務分配時,如何根據(jù)異構機器人的能力劃分任務。
2)面對機器人突發(fā)故障,或無法完成既定任務,如何撤銷并及時調(diào)整任務;如何處理動態(tài)任務以及任務的再分配過程。
3)如何更好地平衡分配過程中的通訊成本,解決通訊延時與約束。
目前在該領域主要采取的是理論研究和仿真分析,實驗驗證正在逐步建立與豐富。 未來的研究方向如圖6 所示。
圖6 多機器人任務分配發(fā)展需求Fig.6 Development needs of multi-robot task allocation
多機器人路徑規(guī)劃(Multi-Robot Path Planning,MRPP)不僅需要保證機器人均能順利安全抵達目標點,還需要滿足一定的優(yōu)化標準[50],這是多目標、多約束的組合優(yōu)化問題,體現(xiàn)了系統(tǒng)在復雜環(huán)境自主規(guī)劃與組織協(xié)調(diào)能力。
集中式路徑規(guī)劃通過統(tǒng)一調(diào)度為每個機器人構造最佳無碰路徑。 這種結構整體的協(xié)調(diào)性較好,但是容錯性、柔性較差。 人工勢場充分利用斥力場和引力場的相互作用力,尋找無碰自由路徑,是一種實時考慮空間構型的規(guī)劃手段。Matoui 等[51]采用集中式方法,用改進的人工勢場解決多機器人在線避碰,提升對動態(tài)環(huán)境的適應性。
分布式路徑規(guī)劃中單個機器人均可自行安排運動路線,實現(xiàn)更加復雜的協(xié)同任務。 盡管系統(tǒng)整體柔性以及靈活性更強,但是全局規(guī)劃能力較差。 夏清松等[52]將基于蟻群算法的全局路徑規(guī)劃與局部作業(yè)避障規(guī)則相結合,設計出較短、無碰的組合路徑。 粒子群算法可用于多約束組合優(yōu)化問題的求解,運行效率高,但是無法保證全局最優(yōu)解。 Bilbeisi 等[53]設計了優(yōu)化粒子群算法,無需先驗知識,實現(xiàn)動態(tài)避障的同時,通過協(xié)同合作到達目標點。 D*算法是通過遍歷全部節(jié)點,實現(xiàn)最短路徑的全局規(guī)劃算法。 Peng 等[54]利用改進的D*算法,通過機器人之間的交互快速重新規(guī)劃,找到時間最短路徑。 然而,該方法不適用于較大的空間搜索范圍。 人工蜂群算法根據(jù)對蜜蜂覓食過程的觀察,利用正負反饋機制尋找到更優(yōu)質(zhì)的食物源。 Wang 等[55]改進了蜂群算法中覓食和淘汰機制,保證能夠同時實現(xiàn)多目標優(yōu)化,提高了算法的運行效率。 該算法自組織能力強,能與其他啟發(fā)式算法相結合,實現(xiàn)優(yōu)勢互補。 Zhao 等[56]開發(fā)了2 種模糊控制器,分別用于避障和目標定向,實現(xiàn)了多機系統(tǒng)未知動態(tài)障礙物環(huán)境下的路徑選擇。 將神經(jīng)網(wǎng)絡用于路徑規(guī)劃中,使系統(tǒng)擁有自學習能力,可應對動態(tài)變化環(huán)境以及較多障礙物情況,魯棒性強。Zhang 等[57]將最短路徑表示為線性規(guī)劃問題,采用有偏一致性神經(jīng)網(wǎng)絡進行有效的分布式求解,得到最短的軌跡路線。
混合式路徑規(guī)劃中單個機器人不具備完全的自主能力,仍會依賴中央處理單元。 張丹露等[58]采用集中和分布控制相結合的方法,利用交通規(guī)則、預約表和改進的A*算法解決碰撞和死鎖。其中A*算法是目前使用較多的一種啟發(fā)式搜索算法,可用于全局路徑規(guī)劃。
表4 歸納總結了不同的規(guī)劃算法。 通過融合多種路徑規(guī)劃,并引入智能及優(yōu)化方法,以獲得更強大的性能是新的發(fā)展趨勢。
表4 路徑規(guī)劃方法對比表Table 4 Comparison of path planning methods
目前路徑規(guī)劃存在的問題主要體現(xiàn)在如下幾點:
1)復雜環(huán)境下,全局路徑規(guī)劃實時性差,可能導致行動滯后于環(huán)境變化,導致避障失敗。
2)大部分路徑規(guī)劃難以處理好可達性、安全性等性能指標的約束以及計算量、求解時間之間的平衡。
3)大多數(shù)的路徑規(guī)劃僅在仿真平臺上進行驗證,實物系統(tǒng)的發(fā)展有待加強。
因此,路徑規(guī)劃研究方向總結如圖7。
圖7 多機器人路徑規(guī)劃發(fā)展需求Fig.7 The development needs of multi-robot path planning
傳統(tǒng)的機器人控制對先驗知識的依賴性較強,這類機器人無法應對復雜變化或未知的環(huán)境。強化學習(Reinforcement Learning,RL)作為一種在線學習的方法,能夠在智能體與環(huán)境的交互中,不斷修正行為,獲得對環(huán)境的適應性。 將RL 應用于多機系統(tǒng),無疑會帶來新的突破,進一步擴展其應用范圍[59]。
多機協(xié)同的強化學習不僅是對獨立機器人學習情況的簡單疊加,更要考慮信息交互,協(xié)商與信度分配等問題[60]。 學習的難度和復雜度將遠大于單機器人的學習。 多機強化學習系統(tǒng)按照結構劃分,可分為集中和分布兩種模式。
集中式RL 利用中央單元進行協(xié)同目標的統(tǒng)一學習。 群體中的單個機器人僅用作數(shù)據(jù)采集和執(zhí)行任務的載體,并不具備獨立學習的能力。 隨著機器人數(shù)量增加而出現(xiàn)的靈活性差、維度災難、難以收斂等問題,限制了集中式強化學習的發(fā)展。
在分布式RL 中,機器人自身即為一個獨立主體,在相互通訊、協(xié)作中,不僅需要學習有利于個體的最優(yōu)策略,也要兼顧全局的學習目標[61],實現(xiàn)更高層次的智能化。 分布式RL 學習中包含:中央RL、獨立RL、群體RL 和社會RL。
在中央RL 系統(tǒng)中[62],單個機器人無法采取主動學習的方式,只能被動地接受學習結果,而由中央機器人承擔全局性的學習任務(圖8)。
圖8 中央強化學習Fig.8 RL Centrally
獨立RL 如圖9 所示[62],雖然單個機器人可以感知周圍環(huán)境,選擇能夠實現(xiàn)最大回報的動作策略。但是系統(tǒng)中的機器人僅依據(jù)自身利益選擇動作,而不考慮團體的發(fā)展,因此這種學習方式很難實現(xiàn)全局最優(yōu)的目標。 適合解決系統(tǒng)中包含個體數(shù)目較多并且松散耦合的任務情況。 其中根據(jù)智能體強化信號分配結構信度是亟待解決的難點問題。
圖9 獨立強化學習[63]Fig.9 RL Individually[63]
群體RL 系統(tǒng)如圖10 所示[63],每個機器人在進行動作策略的選擇時,都在維護系統(tǒng)的整體利益。 因此,該種學習方式中狀態(tài)空間或動作空間的規(guī)模龐大,是機器人數(shù)目的指數(shù)倍,交互關系和學習難度會隨之增加變得復雜,出現(xiàn)學習速度緩慢的情況。 群體強化學習系統(tǒng)還需要進一步優(yōu)化數(shù)據(jù)結構,加快運算速度及收斂過程。 然而,狀態(tài)空間和動作空間的維度災難問題仍是群體強化學習的弱點之一。
圖10 群體強化學習Fig.10 RL in Groups
社會RL 在系統(tǒng)里引入了社會或經(jīng)濟模型,從管理學、社會學的角度調(diào)節(jié)機器人之間的關系,實現(xiàn)系統(tǒng)整體的學習,以此提高智能化水平,其本質(zhì)上是獨立強化學習的擴展。 然而社會強化學習克服了獨立強化學習中機器人之間自私的缺點,可以建立更加復雜的系統(tǒng)結構,動作策略選擇更優(yōu)。 不同強化學習之間的對比匯總如表5 所示。
表5 多機器人強化學習對比Table 5 Comparison of multi-robot RL
未來多機協(xié)同會更加注重群體智能、對最優(yōu)策略的自學習以及對環(huán)境的自適應能力。 強化學習與多機器人的融合具有更為廣闊的發(fā)展前景,未來該領域的發(fā)展趨勢有:
1)有效化解機器人執(zhí)行任務時的沖突,獲得更合理的結構信度分配。
2)充分利用不同機器人的知識和經(jīng)驗,提升團隊協(xié)作的效率。
3)設計在線強化學習算法,保證多機器人均能實現(xiàn)有限時間收斂,提升算法的實時性和快速性。
4)團隊中開展多目標學習。 目標之間可以相互關聯(lián)或存在沖突,不僅需要研究機器人之間的協(xié)同效應,還需研究目標之間的協(xié)調(diào)與決策。
多機器人協(xié)同系統(tǒng)利用機器人的相互協(xié)作實現(xiàn)更多復雜功能,在眾多領域給人類社會帶來巨大變革。 對于中國未來高效開展航天探測任務,實現(xiàn)大規(guī)模集群操作等目標影響深遠。 未來多機系統(tǒng)的總體趨勢體現(xiàn)在如下方面:
1)團隊中的機器人能夠形成更加緊密的協(xié)作,從單一功能向多功能發(fā)展,滿足復雜多變的任務需求,不斷提高系統(tǒng)整體性能,降低開發(fā)成本。
2)處理好異構機器人之間的通信,平衡好團隊數(shù)量及工作質(zhì)量,進一步提升團隊協(xié)作效率。
3)充分應用人工智能、強化學習等技術提升團隊自主判斷、智能分析規(guī)劃以及操作的能力是未來重要的發(fā)展方向。