亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度強化學習的異構智能體編隊避障控制方法

2024-09-15 00:00:00虞逸凡岳圣智徐俊宋婧菡林遠山

現代電子技術 2024年15期

摘 "要：針對在編隊避障控制中智能體個體的異構性和多任務的復雜性問題，提出一種基于深度強化學習的異構智能體編隊避障控制方法。首先，為了克服智能體個體的異構性，詳細描述了領航者和跟隨者智能體各自采用的局部觀測表示；其次，根據智能體的相應任務，設計了編隊、避障和導航三種復合的綜合獎勵函數，以實現更加靈活和高效的編隊避障控制；最后，設計了融合注意力機制的行動者?評論家網絡，用于聯合訓練領航者和跟隨者的運動策略，從而使智能體能夠逐步優(yōu)化綜合策略，以應對復雜的交互信息。數值仿真實驗結果顯示，文中提出的方法使得智能體能有效完成各自的任務，與其他強化學習算法相比，能夠更迅速、更精確地使智能體學習到最優(yōu)的運動策略，并在未來應用于復雜環(huán)境中，具有潛在的前景和價值。

關鍵詞：編隊避障控制；異構性；多任務；領航者?跟隨者；深度強化學習；綜合獎勵函數；注意力機制；運動策略

中圖分類號： TN911.1?34； TP181； TP183 " " " " " " 文獻標識碼： A " " " " " " " 文章編號： 1004?373X（2024）15?0102?07

Heterogeneous agent formation obstacle avoidance control method based on

deep reinforcement learning

YU Yifan1， 2， YUE Shengzhi1， 2， XU Jun1， 2， SONG Jinghan1， 2， LIN Yuanshan1， 2

（1. School of Information Science amp; Engineering， Dalian Ocean University， Dalian 116023， China;

2. Key Laboratory of Environment Controlled Aquaculture， Ministry of Education， Dalian Ocean University， Dalian 116023， China）

Abstract： In view of the heterogeneity of individual agents and the complexity of multi?tasks in formation obstacle avoidance control， a heterogeneous agent formation obstacle avoidance control method based on deep reinforcement learning is proposed. The local observation representations adopted by the leader and follower agents are described in detail in order to overcome the heterogeneity of individual agents. According to the corresponding tasks of the agents， three composite reward functions of formation， obstacle avoidance and navigation are designed to achieve more flexible and efficient formation obstacle avoidance control. An actor?critic network integrating attention mechanism is designed for joint training of the motion strategies of the leader and follower， so that the agents can gradually optimize the comprehensive strategy to cope with complex interaction information. Numerical simulation results show that the proposed method enables the agents to complete their respective tasks effectively. In comparison with the other reinforcement learning algorithms， the proposed method can make the agents learn the optimal motion strategy more quickly and accurately， so it has potential prospects and value for future applications in complex environments.

Keywords： formation obstacle avoidance control; heterogeneity; multi?tasking; leader?follower; deep reinforcement learning; composite reward function; attention mechanism; motion strategy

0 "引 "言

在人工智能快速發(fā)展的幾十年內，多智能體得到了廣泛的研究。編隊避障控制是多智能體系統最基本的功能之一，旨在驅動智能體形成所需的幾何形狀，并使其在運動過程中躲避障礙物，以更好地適應任務和環(huán)境[1?2]。然而，由于系統的異質性、交互信息的局部性限制，適應實際任務的多智能體編隊避障技術仍然是一個挑戰(zhàn)。

異構智能體一般是指具有不同的參數和狀態(tài)空間結構的智能體[3]，由于在實際系統中不存在兩個動力學特性完全一致的智能體，因此將其應用于編隊避障控制可以充分發(fā)揮每個智能體的特定能力和角色，從而為實現實際任務獲取更優(yōu)的決策，但與此同時為智能體之間的交互帶來了極大的困難[4]。近些年來，強化學習[5?8]利用試錯機制與環(huán)境進行交互學習自身的最優(yōu)策略，而無需構建精確的運動學模型的特點，使得學者逐漸將該方法運用到異構編隊控制任務中，并獲得了較好的成果。文獻[9]采用具有可變學習率的[Q（λ）]算法使得智能體能夠學習到一種在領導者?跟隨者拓撲中的隊形控制策略。文獻[10]針對有領導者的異構離散多智能體系統的最優(yōu)一致性問題，提出一種無模型的基于非策略[Q]強化學習的控制協議設計方法。

基于以上的研究成果，當前項目更深入研究了異構智能體編隊、導航問題以及編隊和避障問題，以發(fā)展出更貼近實際應用的控制方法。文獻[11]使用基于強化學習的分布式最優(yōu)控制方法來解決異構無人機（UAV）編隊軌跡跟蹤問題。文獻[12]針對復雜環(huán)境的隨機性，提出一種在不確定環(huán)境下的深度強化學習編隊避障控制方法，使得每個智能體通過學習能夠有效避開障礙物并到達各自的期望位置形成隊形。在文獻[13]中，原始傳感器數據被用于生成無碰撞轉向命令，并在豐富環(huán)境中基于強化學習的算法對機器人進行訓練，使最終的學習策略能夠為導航異構機器人找到時間高效、無碰撞的路徑。

然而，上述文獻多解決編隊、避障或導航中的單一問題，或者僅簡單地將其中兩個問題進行組合。即使在采用了穩(wěn)定且易于實現的領航者?跟隨者結構[14?15]的情況下，如何讓不同類型的智能體學習一個綜合任務，從而平衡避障和維持編隊的要求，并成功地達成既定目標，緩解現實世界中群體控制問題的復雜性仍然是一項巨大的挑戰(zhàn)。因此，為了解決現有方法在控制異構多智能體編隊避障時存在的上述問題，本文提出了一種基于深度強化學習的異構智能體編隊避障控制方法。

1 "問題描述

為了解決非完全合作環(huán)境下的異構智能體編隊避障任務，并確定每個智能體的最優(yōu)運動策略。領航者智能體學習的運動策略是：帶領編隊中的其他智能體在自身避開障礙物的同時到達指定目標點；而跟隨者智能體學習的運動策略是：通過感知信息做出相應的動作，以確保在領航者智能體完成任務期間，自身與其他智能體保持一定的距離，同時在維持隊形穩(wěn)定的前提下有效地避開障礙物。這兩類智能體之間相互影響、相互作用，最終將學習到一個能夠完成綜合任務的最優(yōu)運動策略。

將上述多智能體編隊避障控制問題表述為強化學習問題。對[N]個智能體的強化學習過程建模為[N]個馬爾可夫決策過程（MDP）的擴展，被定義為元組[N，S，A，O，R，P]。其中：[N]是智能體的數量；[S]是每個智能體可觀測狀態(tài)的有限集；[A]是所有智能體的動作集合[{AL， AF1，…， AFn}]，其中，[AL]是領航者智能體的動作，[AFn]為第[n]個跟隨者智能體的動作；[O]是所有智能體的觀測集合[{OL，OF1，…，OFn}]，其中，[OL]是領航者智能體的觀測集，[OFn]是第[n]個跟隨者智能體的觀測集；[P]為狀態(tài)轉移函數，是指智能體在當前狀態(tài)和動作時下一狀態(tài)的概率分布；[R]為獎勵函數，表示為[Ri：S×AL×AF1×…×AFn→R]。

基于提出的MDP，可以使用多智能體深度強化學習找到解決編隊避障任務的局部運動策略，即把尋找局部運動策略當成最大化其總累積獎勵的優(yōu)化問題，被定義為式（1）：

[maxJiπi=maxEai～πit=0∞γtRitst，At " ] （1）

式中：[At]是[t]時刻所有智能體的聯合動作；智能體[i]接收到一個觀測[oi]，該觀測[oi]包含來自全局狀態(tài)的部分信息[s∈S]；[πi]是第[i]個智能體的局部策略；[γt∈0，1]，決定在[t]時刻策略多大程度上傾向于即時獎勵而非長期收益的折扣因子。

2 "編隊避障控制方法

2.1 "局部觀測表示

假設環(huán)境中存在的靜態(tài)障礙物以及[N（ N≥ 2）]個智能體和1個目標點均隨機分布在二維空間的指定范圍內。對于跟隨者智能體而言，其局部觀測信息則有以下要素。

1）當前[t]時刻下，每個智能體[i]都有基于全局坐標系下的位置[ptxi，yi]，速度[vt=vx，vy]；

2）在智能體[i]的局部坐標系中，任意其他智能體[j]的相對狀態(tài)[si←j=di←j， αij]，其中[di←j]是智能體[i]到智能體[j]的歐幾里德距離，[αij]是智能體[i]的航向與其他智能體[j]之間形成的角度；

3）與此同時，靜態(tài)障礙物[O]的相對狀態(tài)記為[so←i=di←o，αio]。

對于領航者智能體而言，除了領導其他智能體和避開障礙物以外，還需要抵達期望目標點，因此它的局部觀測信息還包括當前[t]時刻下，在領航者智能體[i]的局部坐標系中目標點[l]的相對狀態(tài)為[sl←i=di←l，αil]。

2.2 "動作表示

為了使工作盡可能接近現實環(huán)境，本文所采用的仿真環(huán)境中所有智能體考慮在二維平面內移動，且被視為具有非完整約束的圓，如圖1所示。

在[t]時刻，每個智能體[i]的位置為[ptxi，yi]，在每個時間段[Δt]中，智能體從初始位置[pt]到下個位置[pt+1x'i，y'i]。智能體的速度隨著每個時間段的變化而變化，方向由力[Fi]的方向決定。力是二維向量，其中[Fix]與[Fiy]分別表示智能體[i]在[x]軸和[y]軸上受到的力，動作表示為[Fi=Fix，Fiy]，相應的速度也是一個二維矢量，即[vt=vx，vy]。速度的大小由力[Fi]的大小和智能體自身的質量[m]決定。假設智能體的質量都為[m]，每個智能體的運動學方程如式（2）～式（4）所示，其決定了智能體的運動方向和下一時刻的位置。

[vt+1=FixmdtFiymdt] （2）

[φt+1=arctanFiyFix] （3）

[pt+1=vixdtviydt] （4）

移動過程中，智能體的速度在力的作用下做勻加速運動并達到最大速度[vmax]，如果達到最大速度，智能體將保持移動速度[vmax]。

2.3 "獎勵函數

在強化學習領域中，適當選擇獎勵函數的設計對系統來說至關重要，它能決定智能體是否能夠在編隊避障控制問題中有效學習。為了在盡可能短的時間內實現編隊、導航和避障的綜合任務，獎勵函數設計如下：

[rit=rDit+rGit+rSit] " （5）

式中，總獎勵[rit]是距離規(guī)則獎勵[rDit]、目標到達獎勵[rGit]和[安全風險懲罰rSit]的線性累加。

距離規(guī)則獎勵[rDit]由隊形獎勵[rFit]和跟隨獎勵[rHit]組成，當跟隨者智能體與領航者智能體之間保持要求的歐幾里德距離和跟隨者智能體之間保持一定隊形距離時給予獎勵，否則受到懲罰。

[rDit=rFit+rHit] （6）

[rFit=rformation， " "gcbpiF-pjF∈disformation-1， " " " " "otherwise] "（7）

[rHit=rholding， " " " gcb（piL-piF）∈disholding-1， " " " " " otherwise] （8）

當領航者成功到達目標點時，給予智能體一種稀疏獎勵，即目標到達獎勵[rGit]。

[rGit=rgoal， " " " gcbpiL-ptlt;ragent0， " " " " " otherwise] （9）

為了確保智能體與障礙物或合作者之間避免發(fā)生碰撞，當智能體與障礙物或合作者發(fā)生碰撞時，對智能體施加安全風險懲罰[rSit]。

[rSit=rsafe， " " gcbpip-pko≤ragent+robstacle " " " " " "or "gcbpip-pjp≤2disagent0， " " otherwise] （10）

式中：[piL]定義為領航者智能體坐標；[pi，jF]定義為跟隨者智能體坐標；[pko]為障礙物坐標，[k∈0，1，2，…，n]；[pt]為目標坐標；[disformation]是設定在一定范圍內的編隊距離；[disholding]是設定在一定范圍內的領航者和跟隨者間的距離；[ragent]、[rgoal]、[robstacle]分別為智能體、目標和障礙物的半徑，領航者智能體和跟隨者智能體半徑相同；[gcb（a，b）]用于計算位置[a]和位置[b]的歐幾里德距離。

2.4 "融合注意力機制的行動者?評論家網絡

本文將軟行動者?評論家[16]（Soft Actor?Critic， SAC）與注意力機制方法相結合，提出一種基于行動者?注意力?評論家的多智能體強化學習算法（Soft Actor?Attention?Critic， SAAC）。

在評論家中，輸入由所有智能體的觀測和動作組成，具體來說，是由當前智能體觀測和動作的嵌入函數和其他智能體進行注意力計算得到的嵌入向量；輸出為每個動作的動作值函數。

[Qψio，a=figioi，ai，xi] " （11）

式中：[fi]是一個兩層多層感知機（Multi?layer Perceptron， MLP）；[gi]是一個單層MLP嵌入函數；[xi]是每個智能體動作值的加權和，也就是來自其他智能體的貢獻。

[xi=j≠iαjvj=j≠iαjhVgjoj，aj] "（12）

將所有智能體定義為[i∈1，2，…，N]的集合，將所有除[i]以外的智能體定義為[＼i]的集合，并將該集合中的任意智能體定義為[j]。[gj]是智能體[j]的嵌入函數，用嵌入函數對其進行編碼，然后由共享矩陣[V]進行線性變換。[h]是一個激活函數（使用Leaky ReLU函數）。注意力權重[αj]對其他智能體進行注意力計算[17]，比較嵌入函數[ei=gioi，ai]和[ej]，獲得其相似度。

每一個智能體都有一個獨立的評論家，注意力機制接受每個智能體編碼其觀測和動作，并接收其他智能體編碼的加權和，如圖2所示。

因此，對于任意的一個智能體[i]，當前評論家網絡根據式（13）、式（14）更新：

[LQψ=i=1NE（o，a，r，o'）～DQψio，a-yi2] （13）

[yi=ri+γEa'～πθ（o'）Qψio'，a'-αlogπθa'io'i " "] （14）

式中：[ψ]和[θ]分別是目標批評家和目標策略的參數；[α]是決定最大化熵和獎勵之間平衡的溫度參數；[LQψ]是智能體[i]的評論家當前網絡的損失函數；[yi]是智能體[i]的目標[Q]值。

同時，在行動者?注意力?評論家中，每個智能體的行動者使用隨機性策略，輸入是所有智能體的觀測，輸出是每個動作的分布，并且動作是從當前的策略函數進行采樣的。當前行動者網絡通過式（15）進行優(yōu)化：

[?θiJ=Es～D，a～π?θilogπθiaioi?-αlogπθiaioi+Qψio，a] " （15）

目標網絡的參數采用軟更新方式，如式（16）所示：

[ψ=τψ+1-τψθ=τθ+1-τθ] " "（16）

3 "仿真與結果

3.1 "實驗環(huán)境介紹

本文的多智能體編隊避障控制的實驗環(huán)境如圖3所示，總共有4個半徑為0.05 m的圓形智能體，包括1個領航者智能體和3個跟隨者智能體。訓練期間在[x∈-1， 0 m]、[y∈-1， 0 ]m范圍內隨機出現，且最大速度限制為[0.3 m/s]。為了保證訓練難度與真實環(huán)境盡可能相符，目標點在[x∈0.5， 1 m]、[y∈0.5， 1 m]范圍內隨機出現。為了使智能體得到具有一定擴展性的避障策略，將障礙物定義為半徑在[0.03， 0.07 ]范圍內的隨機圓，并隨機出現在[x∈-0.2， 0.2 m]，[y∈-0.2， 0.2 m]范圍內。通過在每一回合開始時對智能體、障礙物和地標的狀態(tài)隨機初始化來增加任務的多樣性。

3.2 "有效性驗證

為了驗證智能體在學習編隊避障策略時是否收斂，利用SAAC算法對智能體的策略進行60 000個回合的訓練。

所訓練的跟隨者智能體在每個回合內所獲得的總獎勵曲線情況如圖4所示。

圖4中的插圖是智能體在訓練的不同階段所表現出的學習效果圖，這些插圖發(fā)生在相應回合數中的最后幾個時間步。通過本文提出的方法，智能體群逐漸學習到編隊、導航和避障的策略，學習過程逐漸收斂，最終可以得到穩(wěn)定的編隊避障控制策略。

為了驗證智能體習得的編隊避障策略的有效性，使用SAAC算法對智能體的策略進行訓練后得到決策模型，通過可視化測試階段智能體群的軌跡圖來判斷該方法是否有效。在測試階段，將初始條件設定為目標點在地圖的右上角隨機產生；障礙物在地圖中央隨機初始化；智能體在地圖的左下角隨機初始化。4個智能體在140個時間步中的軌跡如圖5所示。本文方法訓練智能體得到決策模型，其學習到的運動策略可以得到穩(wěn)定的編隊避障控制，驗證了本文方法的有效性。

3.3 "性能對比

為了驗證本文算法的性能，將其與用于編隊避障的DDPG、MADDPG、MATD3等較為經典的強化學習算法進行對比，當群體規(guī)模大小為4時，使用這四種算法訓練的編隊智能體在每個回合下獲得的獎勵曲線如圖6所示。在本文的編隊避障控制任務下，與其他三種算法相比，本文方法能夠更快獲得成功的經驗，學習速率更快，擁有更好的訓練效果。

在綜合策略性能對比中，分別對三種算法在1 000次測試中的成功率、平均路徑長度和平均運行時間進行了評估。成功率表示智能體群在領航者智能體的引導下，成功避開障礙并到達目標點的次數占總測試次數的百分比。平均路徑長度和平均運行時間分別是指領航者智能體從初始點出發(fā)，在避免碰撞的情況下，每次成功到達目標點時路徑長度和運行時間的平均值。

鑒于DDPG算法下的智能體群難以學習到提出的綜合策略，因此不需要進一步對其性能進行比較。其余三種算法下的綜合策略評估結果如表1所示。從表中可以清晰地看出，本文方法實現了更高的成功率、更短的平均路徑長度以及更快的平均運行時間，在綜合策略性能方面表現出色。

通過對兩類智能體設計的距離規(guī)則、任務標準以及安全風險，將該綜合策略精簡為編隊策略、任務策略和避障策略并分別進行驗證對比。

為了評估三種算法下智能體群所習得的編隊策略性能，使用其在測試期間執(zhí)行任務時的平均編隊誤差和進行評判。編隊誤差指的是智能體彼此之間保持的實際距離與距離規(guī)則要求距離間的差距。在實際環(huán)境中智能體幾乎不可能存在按照固定距離進行移動，因此允許智能體之間的距離存在微小形變，即距離規(guī)則是一個具有較小差距的范圍。由于智能體、地標和障礙物的初始狀態(tài)具有一定隨機性，因此對模型進行1 000次測試，并對智能體間的編隊誤差和求均值，三種算法中4個智能體彼此之間的平均編隊誤差和如圖7所示。本文方法能夠更快地形成隊形，并保持更穩(wěn)定的隊形進行運動。

為了評估三種算法在智能體群習得導航和避障策略方面的性能，采用兩個指標來衡量其表現，即在測試期間執(zhí)行任務時，領航者智能體成功抵達目標點的次數以及智能體與障礙物發(fā)生碰撞的次數。在測試時期采用與訓練時期相同的智能體、障礙物和目標點設置，進行了1 000次測試，領航者智能體到達目標點的次數以及智能體與障礙物發(fā)生碰撞的次數如表2所示。這表明與其他兩種算法相比，本文方法在智能體群的運動過程中能夠更好地避免碰撞，并確保每次都能夠成功到達目標點。

4 "結 "論

為了智能體能夠學習到具有編隊、避碰和導航功能的綜合策略，本文提出一種基于深度強化學習的異構智能體編隊避障控制方法。通過對領航者與跟隨者智能體設計不同的局部觀測表示以緩解智能體個體的異構性，并對其分別設計能夠完成相應任務的獎勵函數以實現更加靈活和高效的編隊避障控制。通過融合注意力機制的行動者?評論家網絡訓練，使得智能體能夠自主學習到穩(wěn)定的編隊避障控制策略。本文提出的方法與其余四種基線算法相比，具有更快的收斂速度，能夠學習到更好的運動策略，有望應用于不同規(guī)模的集群編隊以及復雜環(huán)境的編隊控制中。

注：本文通訊作者為林遠山。

參考文獻

[1] 杜康豪，宋睿卓，魏慶來.強化學習在機器博弈上的應用綜述[J].控制工程，2021，28（10）：1998?2004.

[2] SHI P， YAN B. A survey on intelligent control for multiagent systems [J]. IEEE transactions on systems， man， and cybernetics： Systems， 2021， 51（1）： 161?175.

[3] YAN B， SHI P， LIM C， et al. Optimal robust formation control for heterogeneous multi?agent systems based on reinforcement learning [J]. International journal of robust amp; nonlinear control， 2021， 32（5）： 2683?2704.

[4] 于家興，魏海平，金麗娜，等.基于模型參考的異構多智能體平均一致性[J].計算機應用，2019，39（4）：1240?1246.

[5] ZHANG Y， ZHANG Z F， YANG Q Y， et al. EV charging bidding by multi?DQN reinforcement learning in electricity auction market [J]. Neurocomputing， 2020， 397： 404?414.

[6] LIU K， ZHAO Y Y， WANG G， et al. Self?attention?based multi?agent continuous control method in cooperative environments [J]. Information sciences， 2022， 585： 454?470.

[7] HUNG S M， GIVIGI S N. A Q?learning approach to flocking with UAVs in a stochastic environment [J]. IEEE transactions on cybernetics， 2017， 47（1）： 186?197.

[8] 張海峰，簡燕紅，王宏剛，等.基于優(yōu)化強化學習的多智能體編隊最優(yōu)控制[J].控制工程，2022，29（12）：2316?2321.

[9] KNOPP M， AYKIN C， FELDMAIER J， et al. Formation control using GQ（λ） reinforcement learning [C]// 2017 26th IEEE International Symposium on Robot and Human Interactive Communication （RO?MAN）. New York： IEEE， 2017： 1043?1048.

[10] 程薇燃，李金娜.基于Q學習的異構多智能體系統最優(yōu)一致性[J].遼寧石油化工大學學報，2022，42（4）：59?67.

[11] LIU H， MENG Q Y， PENG F C， et al. Heterogeneous formation control of multiple UAVs with limited?input leader via reinforcement learning [J]. Neurocomputing， 2020， 412： 63?71.

[12] 禹鑫燚，杜丹楓，歐林林.不確定環(huán)境下的深度強化學習編隊避障控制[J].高技術通訊，2022，32（8）：836?844.

[13] LONG P X， FAN T X， LIAO X Y， et al. Towards optimally decentralized multi?robot collision avoidance via deep reinforcement learning [C]// IEEE International Conference on Robotics and Automation （ICRA）. New York： IEEE， 2018： 6252?6259.

[14] SUI Z Z， PU Z Q， YI J Q， et al. Formation control with collision avoidance through deep reinforcement learning using model?guided demonstration [J]. IEEE transactions on neural networks and learning systems， 2020， 32（6）： 2358?2372.

[15] DIALLO E A O， SUGAWARA T. Multi?agent pattern formation： A distributed model?free deep reinforcement learning approach [C]// 2020 International Joint Conference on Neural Networks （IJCNN）. New York： IEEE， 2020： 1?8.

[16] HAARNOJA T， ZHOU A， ABBEEL P， et al. Soft actor?critic： Off?policy maximum entropy deep reinforcement learning with a stochastic actor [C]// Proceedings of the 35th International Conference on Machine Learning. New York： PMLR， 2018： 1856?1865.

[17] VASWANI A， SHAZEER N， PARMAR N， et al. Attention is all you need [C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook， NY： Curran Associates Inc.， 2017： 5998?6008.

作者簡介：虞逸凡（1999—），男，浙江紹興人，碩士研究生，研究方向為人工智能、多智能體強化學習、編隊控制。

岳圣智（1999—），男，遼寧撫順人，碩士研究生，研究方向為人工智能、強化學習、多目標追蹤。

徐 "?。?999—），男，河南駐馬店人，碩士研究生，研究方向為人工智能、強化學習、對抗博弈。

宋婧菡（1996—），女，遼寧大連人，碩士研究生，研究方向為強化學習。

林遠山（1982—），男，廣西貴港人，工學博士，副教授，研究方向為機器人運動規(guī)劃、機器人學習等。