韓藝琳 王麗麗 楊洪勇 范之琳
摘要: 針對機器人對未知目標的編隊跟蹤問題,建立機器人運動控制模型,提出了基于強化學習的目標跟蹤與環(huán)圍控制策略。在強化學習策略驅動下,機器人探索發(fā)現(xiàn)目標點位置并展開跟蹤,使用環(huán)圍編隊運動模型對機器人跟蹤策略進行實時優(yōu)化,實現(xiàn)對逃逸目標點的動態(tài)跟蹤與環(huán)圍控制。搭建了多機器人運動測試環(huán)境,實驗表明結合強化學習的方法能夠縮短多機器人編隊調節(jié)時間,驗證了多機器人環(huán)圍編隊控制策略的有效性。
關鍵詞: 運動控制;強化學習;目標跟蹤;環(huán)圍控制
中圖分類號: TP273+.5文獻標識碼: A
Ring-around Formation Control of Multi-robot Systems Based on Reinforcement Learning
HAN Yilin, WANG Lili, YANG Hongyong, FAN Zhilin
Abstract:For the robot formation tracking problem of unknown target, a robot motion control model is established, and a target tracking and ring-around control strategy based on Reinforcement Learning(RL) is proposed to solve the problem. Driven by RL, the robot explore the location of the target point and initiate tracking. The robot tracking strategy is optimized in real time using the ring-around formation motion model to achieve dynamic tracking and ring-around control of the fleeing target point. A multi-robot motion control environment is established, and the experiments indicate that the combined RL can accelerate the multi-robot formation adjustment time and prove the efficiency of the multi-robot ring-around formation control strategy.
Key words: motion control; reinforcement learning; target tracking; ring-around formation control
0 引言
近年來,多機器人系統(tǒng)以其執(zhí)行效率高、功能多樣、任務分配合理[1]等特點受到越來越多學者的重視,通過在系統(tǒng)內部建立多機器人之間合理的約束控制與協(xié)同策略,使多機器人系統(tǒng)能夠處理大部分單機器人難以應對的復雜問題。比如在協(xié)同探索[2]和軌跡跟蹤[3]等領域中,采用多機器人編隊協(xié)作、運動學控制等方法能夠實現(xiàn)對系統(tǒng)的一致性控制。因此,編隊和運動學[4]約束組成的協(xié)同控制方法,成為解決復雜情況下多機器人系統(tǒng)問題的重要研究方向。
針對多機器人編隊系統(tǒng),常用方法有模糊PID法[5]、神經(jīng)網(wǎng)絡[6]、強化學習[7]等。其中,神經(jīng)網(wǎng)絡將關注點放在處理機器人與目標點的跟蹤訓練與路徑規(guī)劃方面,對控制算法要求較高,且訓練時間長,不適用于動態(tài)未知環(huán)境;模糊PID法對環(huán)境依賴較小,但缺乏對系統(tǒng)整體的規(guī)則設定,難以得到整體的決策。為提高機器人對環(huán)境的適應度,Yu等[8]結合模糊控制與神經(jīng)網(wǎng)絡,提出一種容錯控制策略,實現(xiàn)在復雜環(huán)境下的同步跟蹤控制,Zhang等[9]提出一種基于自適應差分的多無人機編隊預測控制算法,實現(xiàn)對運動軌跡的自適應調整。為避免機器人的路徑軌跡與任務目標不匹配[10]情況,Loris等[11]提出結合迭代學習和強化學習的方法,實現(xiàn)學習算法控制器參數(shù)的在線調整與軌跡跟蹤控制。相比其他方法,強化學習善于在線處理環(huán)境信息,能夠搭載其他路徑規(guī)劃算法,更有利于實現(xiàn)多機器人編隊尋找最優(yōu)路徑。
目標環(huán)圍控制是多機器人系統(tǒng)對目標點進行編隊包圍的一種特殊狀態(tài),主要利用了多機器人系統(tǒng)的路徑規(guī)劃、協(xié)同編隊和跟蹤控制等相關控制技術,完成機器人規(guī)劃最優(yōu)路線、切換環(huán)形編隊、對逃逸目標點以環(huán)圍編隊形式進行追蹤等任務。對于目標信息不確定的環(huán)境,Gao等[12]提出了一種基于向量場的分布式控制策略,使用分布式控制率進行目標狀態(tài)估計,實現(xiàn)了多機器人系統(tǒng)的期望運動;Chou等[13]將目標搜索算法與PID控制結合,實現(xiàn)機器人在未知環(huán)境中的自主避障與導航。對于帶有逃逸功能的目標點,可以利用機器人速度和運動學的差異彌補間距[14]上的不足,Yao等[15]提出了一種用于主動目標跟蹤的隨機非線性模型預測控制(SNMPC)算法,實現(xiàn)多機器人對目標的環(huán)航控制;Lu等[16]提出了基于激光測距儀的目標檢測和跟蹤算法,實現(xiàn)移動機器人對運動目標的實時跟蹤。
現(xiàn)有研究多數(shù)僅討論了多機器人對逃逸目標點的合作控制[17],缺少對多機器人協(xié)同編隊和避碰的考慮?;诖?,本文擬研究基于強化學習的多機器人系統(tǒng)的環(huán)圍編隊控制,利用分布式思想為機器人協(xié)作提供通信支持,機器人在強化學習算法訓練下探索接近目標點的最優(yōu)軌跡,結合運動學模型用于控制多機器人環(huán)形編隊。除此之外,在環(huán)形編隊控制器基礎上,基于強化學習的多機器人系統(tǒng)要實現(xiàn)對目標點的環(huán)圍控制,為多機器人系統(tǒng)設計合理的目標追蹤策略,以及處理追蹤和編隊過程中各個機器人之間路徑?jīng)_突和避碰的策略。
1 研究目標
本文主要利用強化學習方法解決多機器人系統(tǒng)的環(huán)圍編隊控制問題,針對此類問題可分解為兩個步驟:目標跟蹤和目標環(huán)圍。一是建立環(huán)境勢場,機器人對目標進行識別跟蹤,逐步進入環(huán)形編隊狀態(tài);二是目標點逃逸時,多機器人的運動控制與強化學習訓練相結合進行協(xié)作圍捕,直至達成合理的集體決策[18]。
假設多機器人系統(tǒng)中的各機器人與坐標中心的連線為軸線,為保持相鄰軸線之間的角度穩(wěn)定,通過調整每個機器人的位置,保證軸線之間恒等的角度。多機器人系統(tǒng)環(huán)形編隊控制如圖1所示。
其中,五星區(qū)域表示多機器人系統(tǒng)坐標中心點,ω為編隊穩(wěn)定時鄰居機器人軸線之間的期望夾角,當多機器人之間保持大小為ω的夾角并均勻分布在環(huán)形軌跡上,表示多機器人系統(tǒng)實現(xiàn)環(huán)圍編隊控制,在有N個機器人的編隊系統(tǒng)中,ω數(shù)值計算為
(1)
2 基于強化學習的多機器人編隊目標環(huán)圍算法設計
2.1 多機器人系統(tǒng)的強化學習
強化學習以馬爾科夫過程為理論研究基礎,馬爾科夫決策過程可以被看做一個五元組〈S,A,R,P,γ〉,其中,S為系統(tǒng)狀態(tài)空間,A為系統(tǒng)動作空間,P為狀態(tài)轉換概率,R為狀態(tài)回報,γ為學習過程折扣因子,該過程指的是在與環(huán)境進行交互后,得到不同的回報并評估當前采取的動作,形成自身的經(jīng)驗策略π。
一般情況下,強化學習中的回報以累積經(jīng)驗的方式表示:
(2)
其中,r為瞬時回報,t為運動時刻,j為執(zhí)行步數(shù)。
對于多機器人系統(tǒng)的強化學習過程,當系統(tǒng)處于狀態(tài)st={s0,s1…,sN},聯(lián)合策略可以表示為π(st|ut)。為使多機器人系統(tǒng)采取的聯(lián)合策略接近于最優(yōu)策略π(st|u′),使用強化學習方法中的經(jīng)典算法Q-Learning算法進行策略優(yōu)化。計算每個機器人在動作策略ut下的狀態(tài)-動作值函數(shù)為
3 實驗驗證
為驗證基于強化學習的多機器人系統(tǒng)的環(huán)圍編隊控制算法的有效性,設定多組不同的起始點和目標機動環(huán)境,對具有逃逸能力的目標點進行自由追蹤,設定初始逃逸速度vg=0.3,隨著環(huán)圍編隊的穩(wěn)定,目標點由于受到阻力而被逼停,最終vg=0。多機器人起始速度分別設置為:v1=0.6,v2=0.5,v3=0.4,v4=0.3。
假設多機器人系統(tǒng)在靜態(tài)和動態(tài)環(huán)境下移動,多機器人系統(tǒng)運動后留下的曲線軌跡分別如圖2和圖3所示,多機器人速度和轉動量變化分別如圖4和圖5所示,多機器人系統(tǒng)的收斂速率如圖6所示。
靜態(tài)環(huán)圍控制軌跡如圖2所示,機器人在與環(huán)境的交互過程中,考慮周圍鄰居的狀態(tài)和速度信息,實時調整自身的動作避免發(fā)生碰撞,使接近目標點的路線為最優(yōu)路徑,實驗結果證明了改進強化學習算法可以實現(xiàn)多機器人對靜態(tài)目標的圍捕。
在動態(tài)環(huán)境中,多機器人在接近目標點的最小安全范圍內進行動態(tài)環(huán)圍,由于環(huán)航編隊前期,機器人需要考慮包括鄰居機器人和目標點在內的斥力,以及目標追蹤階段中指向目標點進行環(huán)航編隊的引力,因而該過程中存在軌跡波動,形成編隊隊列的難度較大,如圖3所示。當目標點發(fā)生不確定方向位移時,多個機器人使用強化學習方法在線調整速度控制器,使編隊系統(tǒng)能夠在運動學模型控制下進行跟蹤控制,并根據(jù)轉向角度和速度調整編隊距離,由于環(huán)航編隊的特性,此時速度收斂較慢。當多機器人系統(tǒng)形成較為穩(wěn)定的編隊后,機器人所受到的勢場力逐漸減小到0,得到穩(wěn)定的編隊環(huán)圍策略。
圖4所示為多機器人系統(tǒng)環(huán)圍動態(tài)目標點的速度變化過程,為機器人設計帶有加速度的控制器,當機器人接近目標點的安全距離時,進入環(huán)航編隊并與鄰居機器人獲得通信,對逃逸目標點展開追蹤。圖5表示多機器人系統(tǒng)環(huán)圍動態(tài)目標點的轉動量變化過程,隨著多機器人完成跟蹤目標點進入環(huán)圍階段,多個機器人的轉動量逐漸收斂并達到一致。當機器人在強化學習與動力學模型的交互作用下,找到滿足編隊約束的動作策略后,與鄰居機器人進行通信并調整自身速度與轉動量,因此當多機器人在環(huán)圍軌跡上學習到最優(yōu)速度和角度轉動量時,多機器人系統(tǒng)達到最優(yōu),多機器人可保持在最優(yōu)軌跡上環(huán)圍。
圖6展示了多機器人系統(tǒng)中每個機器人隨Q值訓練步數(shù)的變化,在目標跟蹤階段采取人工勢場法作為目標導向,機器人探索路徑過程中耗費代價小,機器人策略生成速度加快。隨多機器人系統(tǒng)迭代訓練步數(shù)的增加,機器人累積獎賞增多,當訓練經(jīng)過350步后,多機器人系統(tǒng)基本達到環(huán)圍狀態(tài),此時系統(tǒng)內部相對穩(wěn)定。當多機器人系統(tǒng)學習到穩(wěn)定的策略時,受勢場影響小,機器人Q值達到最大,多機器人系統(tǒng)實現(xiàn)對目標點的環(huán)圍編隊控制。綜上所述,本文使用控制器對強化學習過程進行改進,機器人能夠快速學習到跟蹤與環(huán)圍策略,并維持系統(tǒng)穩(wěn)定。
4 結論
本文基于強化學習設計了多機器人環(huán)圍編隊控制系統(tǒng),采用分布式設計思想降低系統(tǒng)內的通信損耗,編隊中的機器人只能接收到鄰居機器人的信息。同時,將強化學習算法中訓練與尋優(yōu)的性能與機器人運動學模型相結合,編隊和環(huán)圍軌跡不再依賴訓練后得到的策略,利用結合強化學習的速度控制器規(guī)劃最優(yōu)軌跡,從而在較短時間內達到期望的環(huán)圍效果,不需通過反復多次的實驗訓練,仍能收斂到速度一致狀態(tài)。
雖然機器人環(huán)圍編隊控制系統(tǒng)能夠實現(xiàn)路徑收斂,但是當目標點數(shù)量增加時,需要將多個機器人進行合理分組跟蹤,分組機器人之間可能存在協(xié)作與競爭的關系,都會影響算法的收斂速度。因此,接下來將針對不確定環(huán)境下的多機器人分組一致性進行研究。
參考文獻:
[1]YAN Z, JOUANDEAU N, CHERIF A A. A survey and analysis of multi-robot coordination[J]. International Journal of Advanced Robotic Systems, 2013, 10(12):399.
[2]QU Y, SUN Y, WANG K, et al. Multi-UAV Cooperative Search method for a Moving Target on the Ground or Sea[C]//2019 Chinese Control Conference (CCC). GuangZhou,? China: IEEE, 2019: 4049-4054.
[3]KAMALAPURKAR R, ANDREWS L, WALTERS P, et al. Model-based reinforcement learning for infinite-horizon approximate optimal tracking[J]. IEEE transactions on neural networks and learning systems, 2016, 28(3): 753-758.
[4]路蘭,殷水英. 基于空間交互作用的中國省際人口流動模型研究[DB/OL]. (2023-08-08)[2023-08-15].https://link.cnki.net/urlid/11.1115.F.20230808.1339.004.
LU L, YIN S Y. Study on the model of inter-provincial population flow in China based on spatial interaction[DB/OL]. https://link.cnki.net/urlid/11.1115.F.20230808.1339.004.
[5]MOHAN B M, SINHA A. The simplest fuzzy PID controllers: mathematical models and stability analysis[J]. Soft Computing, 2006, 10(10): 961-975.
[6]于欣波,賀威,薛程謙,等.基于擾動觀測器的機器人自適應神經(jīng)網(wǎng)絡跟蹤控制研究[J].自動化學報, 2019, 45(7):1307-1324.
YU X B, HE W, XUE C J, et al. Research on robot adaptive neural network tracking control based on disturbance observer [J]. Journal of Automation, 2019,45(7):1307-1324.
[7]徐鵬,謝廣明,文家燕,等.事件驅動的強化學習多智能體編隊控制[J].智能系統(tǒng)學報, 2019,14(1):93-98.
XU P, XIE G M, WEN J Y, et al. Event driven reinforcement learning multi-agent formation control [J]. Journal of Intelligent Systems, 2019,14(1):93-98.
[8]YU Z, ZHANG Y, LIU Z, et al. Distributed adaptive fractional-order fault-tolerant cooperative control of networked unmanned aerial vehicles via fuzzy neural networks[J]. IET Control Theory & Applications, 2019, 13(17): 2917-2929.
[9]ZHANG B, SUN X, LIU S, et al. Adaptive differential evolution-based distributed model predictive control for multi-UAV formation flight[J]. International Journal of Aeronautical and Space Sciences, 2020: 21(2):538-548.
[10] YIN S, XIAO B. Tracking control of surface ships with disturbance and uncertainties rejection capability[J]. IEEE/ASME Transactions on Mechatronics, 2016, 22(3): 1154-1162.
[11] ROVEDA L, PALLUCCA G, PEDROCCHI N, et al. Iterative learning procedure with reinforcement for high-accuracy force tracking in robotized tasks[J]. IEEE Transactions on Industrial Informatics, 2017, 14(4): 1753-1763.
[12] GAO S, SONG R, LI Y. Cooperative control of multiple nonholonomic robots for escorting and patrolling mission based on vector field[J]. IEEE Access, 2018, 6: 41883-41891.
[13] CHOU C Y, JUANG C F. Navigation of an autonomous wheeled robot in unknown environments based on evolutionary fuzzy control[J]. Inventions, 2018, 3(1): 3.
[14] WANG M, LUO J, YUAN J, et al. Detumbling strategy and coordination control of kinematically redundant space robot after capturing a tumbling target[J]. Nonlinear Dynamics, 2018, 92(3): 1023-1043.
[15] YAO W, LU H, ZENG Z, et al. Distributed static and dynamic circumnavigation control with arbitrary spacings for a heterogeneous multi-robot system[J]. Journal of Intelligent & Robotic Systems, 2019, 94(3): 883-905.
[16] LU C, WANG J, CUI X. Moving Target Tracking with Robot Based on Laser Range Finder[C]//2020 5th International Conference on Automation, Control and Robotics Engineering (CACRE). Dalian, China: IEEE, 2020: 21-25.
[17] WANG Y, LU D, SUN C Y. Cooperative control for multi-player pursuit-evasion games with reinforcement learning[J]. Neurocomputing, 2020,412:101-114
[18] GE H, SONG Y, WU C, et al. Cooperative deep Q-learning with Q-value transfer for multi-intersection signal control[J]. IEEE Access, 2019, 7: 40797-40809.
[19] SAMPEDRO C, BAVLE H, Rodriguez-Ramos A, et al. Laser-Based Reactive Navigation for Multirotor Aerial Robots using Deep Reinforcement Learning[C]// 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Madrid, Spain: IEEE, 2018.
[20] NOGUCHI Y, MAKI T. Path Planning Method Based on Artificial Potential Field and Reinforcement Learning for Intervention AUVs[C]// 2019 IEEE Symposium on? Underwater Technology (UT). Taiwan, China: IEEE, 2019:1-6.
(責任編輯 耿金花)
收稿日期: 2021-03-12;修回日期:2022-04-10
基金項目: 國家自然科學基金(61673200)
第一作者: 韓藝琳(1997-),女,山東淄博人,碩士研究生,主要研究方向為移動多機器人編隊控制。
通信作者: 楊洪勇(1967-),男,山東德州人,博士,教授,主要研究方向為移動多機器人編隊控制。