亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于MIX-MAPPO算法的多無人機(jī)編隊(duì)控制

        2025-03-09 00:00:00康家境吳杰宏

        摘 要:單一無人機(jī)無法有效處理復(fù)雜的多任務(wù)場景,而無人機(jī)編隊(duì)解決這方面問題具有顯著優(yōu)勢。為了滿足多任務(wù)場景和面向任務(wù)的編隊(duì)聚集以及運(yùn)行中編隊(duì)隊(duì)形保持的需求,設(shè)計(jì)了一種基于門格海綿分形的無人機(jī)編隊(duì)模型。同時(shí),采用多智能體近端策略優(yōu)化算法(MAPPO)、近端策略優(yōu)化算法(PPO)和注意力機(jī)制來訓(xùn)練編隊(duì)控制策略,簡化無人機(jī)編隊(duì)模型的建立,根據(jù)無人機(jī)對其他無人機(jī)的關(guān)注為所有輸入分配權(quán)重,增強(qiáng)其在動(dòng)態(tài)環(huán)境中的適應(yīng)性。針對MAPPO算法收斂速度慢和對多個(gè)智能體適應(yīng)性有限的問題,提出了一種基于門格海綿分形結(jié)構(gòu)的MIX-MAPPO算法。實(shí)驗(yàn)結(jié)果表明,與DDPG、PPO、MADDPG和MAPPO等算法相比,該方法不但成功地實(shí)現(xiàn)了穩(wěn)定的編隊(duì),而且具有明顯更快的收斂速度和更高的獎(jiǎng)勵(lì)值,說明了MIX-MAPPO算法在編隊(duì)集群控制領(lǐng)域的優(yōu)越性。

        關(guān)鍵詞:無人機(jī)編隊(duì);門格海綿結(jié)構(gòu);注意力機(jī)制;集群控制;編隊(duì)保持

        中圖分類號(hào):TP301"" 文獻(xiàn)標(biāo)志碼:A

        文章編號(hào):1001-3695(2025)01-031-0231-05

        doi:10.19734/j.issn.1001-3695.2024.07.0207

        Multiple UAVs formation control based on MIX-MAPPO

        Abstract:Single unmanned aerial vehicles (UAVs) struggle to effectively handle complex multi-task scenarios,whereas UAV swarms exhibit significant advantages in addressing such challenges.This paper proposed a drone swarm model based on the Menger sponge fractal to meet the needs of multi-task scenarios and maintaining formation during swarm operation.The model employed multi-agent proximal policy optimization (MAPPO),proximal policy optimization (PPO),and attention mechanism to train the formation control strategy.The approach simplified the establishment of the drone swarm model by assigning weights to all inputs based on each drone’s attention to other drones,which enhanced adaptability in dynamic environments.To address the slow convergence and limited adaptability of the MAPPO algorithm with multiple agents,the paper introduced a Menger sponge fractal-based MIX-MAPPO algorithm.Experimental results demonstrate that this method not only achieves stable formations successfully,but also has significantly faster convergence speed and higher reward values compared to algorithms such as DDPG,PPO,MADDPG,and MAPPO.The MIX-MAPPO algorithm thus proves to be superior in the field of swarm control.

        Key words:multi-unmanned aerial vehicle formation; Menger sponge structure;attention mechanism;cluster control;formation keeping

        0 引言

        無人機(jī)(UAVs)因其相對于傳統(tǒng)飛行器的多功能性而受到了廣泛關(guān)注[1,2]。盡管具有諸多優(yōu)勢,但由于硬件和軟件限制,單個(gè)無人機(jī)往往難以勝任復(fù)雜任務(wù),所以人們越來越多地關(guān)注多無人機(jī)編隊(duì)的研究。通過自組織,多個(gè)無人機(jī)可以實(shí)現(xiàn)自主合作,它們能夠有效地利用合作信息交換來增強(qiáng)整體性能[3~6],執(zhí)行搜索救援、監(jiān)視和跟蹤等任務(wù)。對多無人機(jī)協(xié)作編隊(duì)控制的研究主要集中在移動(dòng)過程中編隊(duì)的聚集、建立和維持。目前,最常用的編隊(duì)方法包括領(lǐng)航者-跟隨者方法[7]、虛擬結(jié)構(gòu)方法[8]、一致性理論方法[9]、逆控制方法(BSC)[10]等。這些經(jīng)典技術(shù)在編隊(duì)的精確控制方面效果顯著,但隨著無人機(jī)數(shù)量的增加而帶來的復(fù)雜性和計(jì)算需求的增加,無人機(jī)編隊(duì)的可擴(kuò)展性受到限制。

        受自然生態(tài)系統(tǒng)啟發(fā),自組織的大型無人機(jī)群控制方法利用分離、聚集和速度匹配原理[11],使每架無人機(jī)都充當(dāng)智能實(shí)體,自發(fā)保持距離以避免碰撞,并根據(jù)需要進(jìn)行聚集[12]。該類方法實(shí)現(xiàn)了協(xié)調(diào)移動(dòng),使群體之間保持一致的速度和方向。同時(shí),利用多智能體強(qiáng)化學(xué)習(xí)方法控制無人機(jī)編隊(duì)系統(tǒng)可以簡化復(fù)雜的集群系統(tǒng)建模的需求[13~16],可以訓(xùn)練系統(tǒng)以提供控制輸入,然后在測試和應(yīng)用階段應(yīng)用已學(xué)習(xí)的策略。然而,將傳統(tǒng)多智能體強(qiáng)化學(xué)習(xí)算法擴(kuò)展到更大規(guī)模的無人機(jī)群時(shí)會(huì)面臨收斂性方面的挑戰(zhàn)。

        基于上述問題,本文提出了基于門格海綿分形的編隊(duì)結(jié)構(gòu),利用分形結(jié)構(gòu)的自相似特性和局部與整體的相似性,簡化隊(duì)形構(gòu)造過程。在形成一級(jí)編隊(duì)后,利用一級(jí)編隊(duì)的自相似特性可以聚集成更高層次的編隊(duì),并依此類推到n級(jí)編隊(duì),使編隊(duì)具有可拓展性。對于MAPPO收斂較慢以及隨著智能體數(shù)量增多導(dǎo)致學(xué)習(xí)效果變差的問題,本文將無人機(jī)抽象為深度強(qiáng)化學(xué)習(xí)中的智能體(質(zhì)點(diǎn)),結(jié)合門格海綿分形結(jié)構(gòu)的自相似特性,基于多智能體近端策略優(yōu)化算法(MAPPO)[17]和近端策略優(yōu)化算法(PPO)[18]開發(fā)了控制算法,并在跟隨者無人機(jī)的評(píng)論家網(wǎng)絡(luò)中集成了注意力機(jī)制,設(shè)計(jì)了一種分組的MIX-MAPPO方法,賦予無人機(jī)自主學(xué)習(xí)的能力,減少了神經(jīng)網(wǎng)絡(luò)的輸入維數(shù),簡化了控制模型的建立過程,減小了訓(xùn)練時(shí)網(wǎng)絡(luò)計(jì)算的難度,加快了收斂速度,并提高聚集的成功率。在編隊(duì)訓(xùn)練中加入異構(gòu)信息,使集群可以應(yīng)對更為復(fù)雜的問題。

        1 門格海綿結(jié)構(gòu)編隊(duì)模型建模

        本章概述了無人機(jī)的運(yùn)動(dòng)模型和編隊(duì)集群結(jié)構(gòu)。研究專注于多級(jí)無人機(jī)編隊(duì)結(jié)構(gòu),旨在充分利用門格海綿結(jié)構(gòu)的分形自相似特性,實(shí)現(xiàn)對大規(guī)模無人機(jī)集群的高效控制。在無人機(jī)編隊(duì)集群控制領(lǐng)域,傳統(tǒng)的深度強(qiáng)化學(xué)習(xí)算法在應(yīng)對龐大無人機(jī)數(shù)量和復(fù)雜任務(wù)的挑戰(zhàn)方面面臨學(xué)習(xí)效率差、收斂速度慢等問題。為解決這些問題,引入了具有自相似特性的門格海綿結(jié)構(gòu),簡化構(gòu)建隊(duì)形。將整個(gè)無人機(jī)集群抽象為一個(gè)正方形,而集群中的子編隊(duì)則對應(yīng)于該結(jié)構(gòu)中的子正方形,這種設(shè)計(jì)能夠使無人機(jī)編隊(duì)高效地執(zhí)行復(fù)雜任務(wù)。

        1.1 運(yùn)動(dòng)模型

        本文主要研究無人機(jī)編隊(duì)的控制問題,強(qiáng)調(diào)編隊(duì)間的協(xié)同,不考慮單個(gè)無人機(jī)的特性,因此本文可以簡化問題,將無人機(jī)抽象為質(zhì)點(diǎn)。首先,定義一個(gè)向量集[p1,p2,…,pn],這個(gè)向量集是指集群內(nèi)所有無人機(jī)在笛卡爾坐標(biāo)系中的坐標(biāo)。描述單個(gè)無人機(jī)的運(yùn)動(dòng),可以使用式(1)表示。

        其中:νi為無人機(jī)i的飛行速度;φi為UAVi的俯仰航向角,假設(shè)無人機(jī)在同一高度飛行,則在z軸方向的高度保持不變,即ζ。在無人機(jī)飛行過程中,通過施加控制輸入來引導(dǎo)無人機(jī)的飛行??刂戚斎牍饺缦拢?/p>

        其中:pi和Vi分別是UAVi的位置和速度;ui=[uxi,uyi]是X和Y方向的控制輸入,可以通過ui的控制輸入來改變無人機(jī)的速度和角度等參數(shù)。

        1.2 隊(duì)形設(shè)計(jì)

        本文編隊(duì)隊(duì)形設(shè)計(jì)將門格海綿分形結(jié)構(gòu)與無人機(jī)集群編隊(duì)相結(jié)合。分形結(jié)構(gòu)的特點(diǎn)是自相似性,其中部分與整體表現(xiàn)出相似性。利用局部與整體的相似性,可以簡化隊(duì)形構(gòu)造過程。在形成一級(jí)編隊(duì)后,利用一級(jí)編隊(duì)的自相似特性可以聚集成更高層次的編隊(duì),并依此類推,使編隊(duì)具有可拓展性。

        一級(jí)編隊(duì)由5架無人機(jī)組成,包括1架處于中間位置的領(lǐng)導(dǎo)者無人機(jī)和4架均勻分布在其周圍的跟隨者無人機(jī)。該編隊(duì)可以更好地將領(lǐng)導(dǎo)者無人機(jī)保護(hù)在安全位置,防止外部惡意無人機(jī)的入侵和攻擊。一級(jí)編隊(duì)中的通信只存在于領(lǐng)導(dǎo)者和跟隨者之間,是一種集中控制方式。

        一級(jí)編隊(duì)以領(lǐng)導(dǎo)者無人機(jī)為中心,半徑為跟隨者無人機(jī)與領(lǐng)導(dǎo)者無人機(jī)的整體距離dij,每個(gè)子編隊(duì)為最小任務(wù)執(zhí)行單元,領(lǐng)導(dǎo)者無人機(jī)確定編隊(duì)速度和位置,安全范圍基于跟隨者無人機(jī)的安全范圍dsafe,具體結(jié)構(gòu)如圖1所示。

        一級(jí)編隊(duì)中的拉普拉斯矩陣L為

        其中:D為度矩陣;A為鄰接矩陣。拉普拉斯矩陣的秩為4,代表一級(jí)編隊(duì)五架無人機(jī)之間可進(jìn)行相互通信。

        基于門格海綿分形結(jié)構(gòu)具有自相似特性,可以讓各級(jí)編隊(duì)都能形成門格海綿結(jié)構(gòu)分形,使無人機(jī)集群編隊(duì)擁有了極大的可擴(kuò)展性。在移動(dòng)過程中,領(lǐng)導(dǎo)者無人機(jī)根據(jù)任務(wù)規(guī)劃航跡。將一級(jí)編隊(duì)設(shè)為一個(gè)整體,表示如下:

        其中:R為一級(jí)編隊(duì)形成一個(gè)質(zhì)點(diǎn)的半徑大??;v為一級(jí)編隊(duì)形成一個(gè)質(zhì)點(diǎn)的速度;p為一級(jí)編隊(duì)形成一個(gè)質(zhì)點(diǎn)在空間中的位置坐標(biāo)。

        根據(jù)門格海綿分形結(jié)構(gòu)的自相似特性,本文可以將四個(gè)一級(jí)編隊(duì)采用相同的聚集策略構(gòu)建為二級(jí)編隊(duì)。由此產(chǎn)生的編隊(duì)結(jié)構(gòu)也遵循門格海綿分形結(jié)構(gòu),多級(jí)編隊(duì)可以迭代進(jìn)行。二級(jí)編隊(duì)結(jié)構(gòu)如圖2所示。

        二級(jí)編隊(duì)在保留一級(jí)編隊(duì)內(nèi)部原有通信聯(lián)系的同時(shí),每個(gè)一級(jí)編隊(duì)內(nèi)的領(lǐng)導(dǎo)者之間也可以進(jìn)行溝通和協(xié)作,以建立第二級(jí)編隊(duì)。領(lǐng)導(dǎo)者之間同級(jí),使多級(jí)編隊(duì)可以進(jìn)行小規(guī)模集中式控制和大規(guī)模分布式編隊(duì)控制。

        2 門格海綿結(jié)構(gòu)編隊(duì)集群實(shí)現(xiàn)

        本章基于MAPPO算法,提出MIX-MAPPO算法。該算法結(jié)合門格海綿分形結(jié)構(gòu)和注意力機(jī)制框架以及混合評(píng)論家網(wǎng)絡(luò),可以降低評(píng)論家網(wǎng)絡(luò)的輸入維數(shù),減少評(píng)論家網(wǎng)絡(luò)的復(fù)雜度,賦予無人機(jī)自主學(xué)習(xí)和獲取聚合策略的能力,使無人機(jī)群可以自主執(zhí)行任務(wù)。

        2.1 MIX-MAPPO算法

        MAPPO算法通過將所有智能體的狀態(tài)和動(dòng)作值反饋到批評(píng)網(wǎng)絡(luò)來解決復(fù)雜多任務(wù)場景問題。然而,這也帶來了學(xué)習(xí)和收斂方面的挑戰(zhàn)。狀態(tài)空間隨著智能體數(shù)量的增加而線性增長,使得算法的收斂難以實(shí)現(xiàn)。為了解決這個(gè)問題,本文算法利用了門格海綿分形結(jié)構(gòu)的自相似特征,在聚類過程中,所有無人機(jī)被劃分成正方形的編隊(duì),由領(lǐng)導(dǎo)者無人機(jī)進(jìn)行這些子編隊(duì)之間的互聯(lián)。

        基于圖2所示的編隊(duì)設(shè)計(jì),每個(gè)一級(jí)編隊(duì)都被視為一個(gè)完整的實(shí)體。在這一框架下,制定了跟隨無人機(jī)的網(wǎng)絡(luò)架構(gòu)。該架構(gòu)以MAPPO算法的評(píng)論家網(wǎng)絡(luò)為基礎(chǔ),在前面集成了注意力機(jī)制,可以根據(jù)跟隨無人機(jī)對編隊(duì)內(nèi)其他無人機(jī)的不同注意力水平為所有輸入分配權(quán)重。這一優(yōu)化提高了跟隨者無人機(jī)從其他無人機(jī)收集狀態(tài)和行動(dòng)信息的能力,提高了算法訓(xùn)練效率。跟隨者的評(píng)論家網(wǎng)絡(luò)的輸入包括子編隊(duì)內(nèi)所有無人機(jī)t時(shí)刻的聚合函數(shù)值,并按t時(shí)刻動(dòng)作值(a1,a2,…,an)和狀態(tài)觀測值(o1,o2,…,on)加權(quán)。通過這種輸入方法,每個(gè)跟隨無人機(jī)都可以學(xué)習(xí)子編隊(duì)中其他無人機(jī)的狀態(tài),并相應(yīng)地執(zhí)行下一個(gè)動(dòng)作(a1,a2,…,an+1),以達(dá)到聚集到相應(yīng)位置并避免碰撞的效果。這里,n代表跟隨者的數(shù)量,而n+1表示整個(gè)一級(jí)編隊(duì)中的無人機(jī)總數(shù)。

        此外,假設(shè)集群收斂于一個(gè)固定的集合點(diǎn),集合過程要求領(lǐng)導(dǎo)者和跟隨者都迅速采取行動(dòng)。領(lǐng)導(dǎo)者的任務(wù)是迅速前進(jìn)到集合點(diǎn),而跟隨者則需要接近各自的領(lǐng)導(dǎo)者和指定的集合點(diǎn)。為了加快領(lǐng)導(dǎo)者向集合點(diǎn)的移動(dòng),本文利用PPO評(píng)論家網(wǎng)絡(luò)簡化領(lǐng)導(dǎo)者評(píng)論家網(wǎng)絡(luò)的輸入。具體來說,領(lǐng)導(dǎo)者評(píng)論網(wǎng)絡(luò)的輸入僅包括其自身的動(dòng)作值at和狀態(tài)值ot,而不考慮其他無人機(jī)的狀態(tài),每個(gè)隊(duì)形內(nèi)的協(xié)調(diào)方面將反映在環(huán)境獎(jiǎng)勵(lì)成分中。該改進(jìn)可以減少智能體的網(wǎng)絡(luò)輸入,降低學(xué)習(xí)難度,從而加快收斂速度,最終達(dá)到預(yù)期效果,評(píng)論家網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

        損失值函數(shù)如下:

        通過分組,緩解了無人機(jī)數(shù)量增加導(dǎo)致輸入線性增長的問題。該方法可以優(yōu)化臨界網(wǎng)絡(luò),加快收斂速度。具體過程如算法1所示。

        算法1 MIX-MAPPO算法

        2.2 獎(jiǎng)勵(lì)設(shè)置

        利用強(qiáng)化學(xué)習(xí)方法學(xué)習(xí)無人機(jī)控制策略,最重要的部分是通過設(shè)置獎(jiǎng)勵(lì)函數(shù)來訓(xùn)練無人機(jī),實(shí)現(xiàn)集群策略學(xué)習(xí)并完成集群形成。本文中的無人機(jī)從優(yōu)先級(jí)的角度可以分為領(lǐng)導(dǎo)者無人機(jī)和跟隨者無人機(jī)兩類。在集群的任務(wù)場景中設(shè)置虛擬集合點(diǎn),并對領(lǐng)導(dǎo)者和跟隨者無人機(jī)設(shè)置不同的獎(jiǎng)勵(lì)函數(shù)。

        領(lǐng)導(dǎo)者獎(jiǎng)勵(lì):由于領(lǐng)導(dǎo)者無人機(jī)需要盡快到達(dá)目標(biāo)位置,它們通過最小化到各自目標(biāo)位置的距離來獲得獎(jiǎng)勵(lì)。獎(jiǎng)勵(lì)設(shè)置如下:

        rlea=-min‖plea-ptar‖2(9)

        其中:plea為領(lǐng)導(dǎo)者的當(dāng)前位置;ptar為領(lǐng)導(dǎo)者相對于目標(biāo)點(diǎn)的預(yù)期位置。

        跟隨者獎(jiǎng)勵(lì):跟隨者無人機(jī)在動(dòng)態(tài)變化中跟隨領(lǐng)導(dǎo)者無人機(jī),通過減少領(lǐng)導(dǎo)者無人機(jī)的相對位置來達(dá)到跟隨效果,考慮到子編隊(duì)的形狀,本文設(shè)置了一個(gè)虛擬的方形結(jié)構(gòu),讓無人機(jī)跟隨虛擬的隊(duì)形,達(dá)到保持隊(duì)形的目的。設(shè)每架無人機(jī)有一個(gè)大于無人機(jī)大小的圓形期望位置區(qū)域(Epa),且對應(yīng)的無人機(jī)在期望位置范圍內(nèi)處于穩(wěn)定狀態(tài),則認(rèn)為編隊(duì)相對穩(wěn)定,如圖4所示。

        如果跟隨無人機(jī)在對應(yīng)的期望位置區(qū)域內(nèi),則認(rèn)為其處于穩(wěn)定狀態(tài)并獲得正獎(jiǎng)勵(lì),反之則根據(jù)其與對應(yīng)的領(lǐng)導(dǎo)者無人機(jī)的相對位置距離進(jìn)行負(fù)懲罰,距離越遠(yuǎn),懲罰越大,獎(jiǎng)勵(lì)函數(shù)設(shè)置如下:

        rf=-min‖pf-pl‖2(10)

        其中:pf為跟隨者的當(dāng)前位置;pl為領(lǐng)導(dǎo)者的當(dāng)前位置。

        避撞獎(jiǎng)勵(lì):無人機(jī)集群過程需要避免無人機(jī)之間的碰撞,可以通過設(shè)置相應(yīng)的獎(jiǎng)勵(lì)函數(shù)來實(shí)現(xiàn)。在無碰撞情況下,設(shè)置安全距離,當(dāng)兩架無人機(jī)之間的距離大于安全距離時(shí),無人機(jī)處于安全狀態(tài),無人機(jī)不會(huì)因避碰而受到獎(jiǎng)勵(lì)。當(dāng)兩架無人機(jī)之間的距離等于安全距離時(shí),無人機(jī)處于危險(xiǎn)狀態(tài)的臨界區(qū)域。當(dāng)兩架無人機(jī)之間的距離小于安全距離時(shí),無人機(jī)處于危險(xiǎn)狀態(tài)。無人機(jī)避碰情況如圖5所示。獎(jiǎng)勵(lì)設(shè)置如下:

        其中:dsafe為安全距離;dij為兩架無人機(jī)的相對距離。

        環(huán)境獎(jiǎng)勵(lì):在真實(shí)的無人機(jī)集群場景中,各種環(huán)境因素都會(huì)對無人機(jī)集群的控制產(chǎn)生影響。為了模擬環(huán)境因素對無人機(jī)集群的不利影響,本文引入了一種會(huì)將無人機(jī)吸引到坐標(biāo)原點(diǎn)的獎(jiǎng)勵(lì)機(jī)制。具體而言,本文基于每個(gè)無人機(jī)與坐標(biāo)原點(diǎn)之間的相對距離實(shí)施獎(jiǎng)勵(lì),距離越小,獎(jiǎng)勵(lì)越大。獎(jiǎng)勵(lì)函數(shù)定義如下:

        renv=-min 0.1×‖plea-p0‖2(12)

        其中:plea為無人機(jī)位置;p0為原點(diǎn)位置。

        3 實(shí)驗(yàn)結(jié)果

        本章的訓(xùn)練平臺(tái)基于OpenAI的MPE開源庫搭建,實(shí)驗(yàn)的硬件配置是Xeno E5-2620 @2.10 GHz CPU、32 GB RAM、NVIDIA 2070 super GPU。首先在模型訓(xùn)練階段與深度確定性策略梯度算法(DDPG)[19]、PPO、多智能體深度確定性策略梯度算法(MADDPG)[20]和MAPPO等算法相比,MIX-MAPPO算法不但成功地實(shí)現(xiàn)了穩(wěn)定的編隊(duì),而且具有明顯更快的收斂速度和更高的獎(jiǎng)勵(lì)值。實(shí)驗(yàn)參數(shù)設(shè)置如表1所示。

        3.1 實(shí)驗(yàn)獎(jiǎng)勵(lì)對比

        從圖6和7中可以看出,對比DDPG和PPO等單智能體強(qiáng)化學(xué)習(xí)方法,多智能體深度強(qiáng)化學(xué)習(xí)方法的無人機(jī)編隊(duì)控制性能更優(yōu)秀。比較MIX-MAPPO、MADDPG和MAPPO三種算法,可以清楚地看到MIX-MAPPO優(yōu)于MAPPO和MADDPG,MAPPO也表現(xiàn)出優(yōu)于MADDPG的性能。這種優(yōu)勢源于前兩個(gè)算法是on-policy類型算法,與off-policy類型算法MADDPG相比,在更新方法、樣本利用效率等方面都有優(yōu)勢。此外,MIX-MAPPO優(yōu)于MAPPO是因?yàn)槠浞纸M機(jī)制,允許無人機(jī)選擇性地只從各自編隊(duì)內(nèi)的其他無人機(jī)收集狀態(tài)。領(lǐng)導(dǎo)者和跟隨者使用獨(dú)立的評(píng)論網(wǎng)絡(luò),跟隨者的評(píng)論網(wǎng)絡(luò)中集成了注意力機(jī)制,根據(jù)跟隨者對其他無人機(jī)的注意力水平對輸入賦予權(quán)重,降低了評(píng)論網(wǎng)絡(luò)的輸入維度,優(yōu)化了無人機(jī)獲取其他無人機(jī)狀態(tài)和動(dòng)作信息的效率。

        3.2 訓(xùn)練時(shí)間對比

        如表2所示,這部分主要是對五種方法在同一訓(xùn)練中經(jīng)過相同輪訓(xùn)練的時(shí)間比較。表2列出了幾種方法的時(shí)間表,可以看出MADDP和MAPPO需要的時(shí)間更長,其次是DDPG和PPO,而MIX-MAPPO需要的時(shí)間最短。

        首先, 對于DDPG和PPO算法,無人機(jī)評(píng)論家網(wǎng)絡(luò)僅從自身智能體獲取狀態(tài)信息,與MADDPG和MAPPO算法相比計(jì)算復(fù)雜度更低,從而使訓(xùn)練時(shí)間快于后者。而MIX-MAPPO具有最短的訓(xùn)練時(shí)間,則是因?yàn)镸IX-MAPPO訓(xùn)練無人機(jī)有側(cè)重地從各自編隊(duì)內(nèi)的無人機(jī)中收集信息,領(lǐng)導(dǎo)者和跟隨者采用獨(dú)立的批評(píng)網(wǎng)絡(luò),并將注意力機(jī)制融入到跟隨者的批評(píng)網(wǎng)絡(luò)中,這可以根據(jù)追隨者對其他無人機(jī)的關(guān)注程度為所有輸入分配權(quán)重。該方法降低了批評(píng)網(wǎng)絡(luò)的輸入維度,優(yōu)化了無人機(jī)獲取其他無人機(jī)狀態(tài)和動(dòng)作信息的效率。而且由于加入了分組信息和注意力機(jī)制進(jìn)行信息權(quán)重分配,G-MIXDDPG下無人機(jī)可以更快地達(dá)到預(yù)設(shè)隊(duì)形的目標(biāo)點(diǎn),DDPG和PPO中的無人機(jī)卻更加盲目。在單輪訓(xùn)練中,MIX-MAPPO可以在一輪訓(xùn)練結(jié)束時(shí)達(dá)到預(yù)設(shè)目標(biāo),比DDPG和PPO的訓(xùn)練時(shí)間快,因此最終的訓(xùn)練時(shí)間小于DDPG和PPO。

        3.3 編隊(duì)完成率

        在評(píng)估不同方法的實(shí)驗(yàn)效果時(shí),設(shè)定無人機(jī)到達(dá)其預(yù)設(shè)的期望位置即視為對應(yīng)任務(wù)的完成,當(dāng)集群中的所有無人機(jī)都成功到達(dá)各自的期望位置時(shí),則整個(gè)集群任務(wù)完成。在設(shè)定了虛擬聚集點(diǎn)后,無人機(jī)編隊(duì)在向該聚集點(diǎn)移動(dòng)的過程中,每架無人機(jī)的期望位置都是相對于該聚集點(diǎn)的固定點(diǎn)。因此,可以通過確定虛擬聚集點(diǎn)的位置來明確所有無人機(jī)的期望位置。定義編隊(duì)的完成率(completion rate,CR)為

        CR=m/n(13)

        其中:m為到達(dá)預(yù)定位置的UAV數(shù)量;n為總的UAV數(shù)量。獲取100輪實(shí)驗(yàn)中的完成率,并取平均值,結(jié)果如表3所示。

        實(shí)驗(yàn)結(jié)果表明,在涉及多個(gè)無人機(jī)協(xié)同任務(wù)的多智能體場景中,傳統(tǒng)的單智能體DDPG算法和PPO算法因僅依賴自身狀態(tài)信息,而與其他多智能體算法相比,表現(xiàn)出較差的適應(yīng)性和完成率。MIX-MAPPO優(yōu)于MADDPG和MAPPO,是因?yàn)镚-MADDPG通過引入分組機(jī)制減少了評(píng)論家網(wǎng)絡(luò)的信息輸入量,以及引入注意力機(jī)制進(jìn)行信息權(quán)重分配,顯著提升了任務(wù)的完成效率,驗(yàn)證了分組策略在優(yōu)化多智能體協(xié)作中的必要性和有效性。

        3.4 動(dòng)捕實(shí)驗(yàn)

        動(dòng)捕實(shí)驗(yàn)是為了驗(yàn)證算法訓(xùn)練出的策略的有效性,即將策略輸出的路徑用真實(shí)場景實(shí)現(xiàn),以直觀表達(dá)算法的可行性。

        從圖8可以看出,通過MIX-MAPPO的優(yōu)化和精確控制,訓(xùn)練出的策略可以完美控制五架無人機(jī)進(jìn)行從隨機(jī)停放到形成編到保持隊(duì)形移動(dòng)到落地全過程。這充分驗(yàn)證了MIX-MAPPO在實(shí)際無人機(jī)編隊(duì)控制問題中的可行性。

        最初,跟隨者無人機(jī)與領(lǐng)導(dǎo)者無人機(jī)的位置和距離不斷變化,隨后四架跟隨者無人機(jī)與領(lǐng)導(dǎo)者無人機(jī)之間的距離幾乎同時(shí)穩(wěn)定在相同距離,并在后續(xù)時(shí)間一直保持穩(wěn)定,這說明經(jīng)過MIX-MAPPO訓(xùn)練形成的成熟策略,可以保證一級(jí)編隊(duì)順利聚集和保持。

        4 結(jié)束語

        本文基于門格海綿分形結(jié)構(gòu)設(shè)計(jì)了一種無人機(jī)編隊(duì),研究無人機(jī)的聚集和分離問題,并采用多智能體深度強(qiáng)化學(xué)習(xí)方法學(xué)習(xí)控制策略。這使得多個(gè)無人機(jī)能夠自主聚類并形成特定的編隊(duì)結(jié)構(gòu),以滿足快速形成編隊(duì)的要求,簡化了集群控制策略的設(shè)計(jì),降低了數(shù)學(xué)模型的復(fù)雜性。通過結(jié)合門格海綿分形結(jié)構(gòu)的特點(diǎn),在集群內(nèi)塑造無人機(jī)編隊(duì),以簡化關(guān)鍵網(wǎng)絡(luò)并提高學(xué)習(xí)效率。最終的實(shí)驗(yàn)結(jié)果表明,與DDPG、PPO、MADDPG和MAPPO相比,改進(jìn)的MIX-MAPPO算法具有更快的收斂速度和更好的收斂性能。

        未來將基于自相似特性探索三維空間無人機(jī)編隊(duì)的實(shí)現(xiàn)。同時(shí)在實(shí)際場景中將用更多架無人機(jī)驗(yàn)證本文算法。在算法改進(jìn)方面,將進(jìn)一步探索更精細(xì)的分組策略和更高效的信息共享機(jī)制,以應(yīng)對更復(fù)雜多變的多智能體協(xié)同任務(wù)。

        參考文獻(xiàn):

        [1]Zhu Xiaoning.Analysis of military application of UAV swarm tech-nology[C]//Proc of the 3rd International Conference on Unmanned Systems.Piscataway,NJ:IEEE Press,2020:1200-1204.

        [2]Lu Yafei,Chen Qingyang,Jia Gaowei,et al.Development and experiment of elastic-rope launcher for small fixed-wing UAVs[C]//Proc of the 3rd World Conference on Mechanical Engineering and Intelligent Manufacturing.Piscataway,NJ:IEEE Press,2020:654-658.

        [3]Ribeiro R G,Cota L P,Euzebio T A M,et al.Guimaraes unmanned-aerial vehicle routing problem with mobile charging stations for assisting search and rescue missions in post disaster scenarios[J].IEEE Trans on Systems,Man,and Cybernetics:Systems,2022,52(11):6682-6696.

        [4]Dang Tung,Mascarich F,Khattak S,et al.Autonomous search for underground mine rescue using aerial robots[C]//Proc of IEEE Aerospace Conference.Piscataway,NJ:IEEE Press,2020:1-8.

        [5]Meng Wei,He Zhirong,Su Rong,et al.Decentralized multi-UAV flight autonomy for moving convoys search and track[J].IEEE Trans on Control Systems Technology,2017,25(4):1480-1487.

        [6]Javaid S,Saeed N,Qadi Z,et al.Communication and control in colla-borative UAVs:recent advances and future trends[J].IEEE Trans on Intelligent Transportation Systems,2023,24(6):5719-5739.

        [7]Cao Lei,Liu Guoping,Zhang Dawei,et al.A leader-follower formation strategy for networked multi-agent systems based on the PI predictive control method[C]//Proc of the 40th Chinese Control Conference.Piscataway,NJ:IEEE Press,2021:4763-4768.

        [8]Chen Qingyang,Wang Yujie,Lu Yafei.Formation control for UAVs based on the virtual structure idea and nonlinear guidance logic[C]//Proc of the 6th International Conference on Automation,Control and Robotics Engineering.Piscataway,NJ:IEEE Press,2021:135-139.

        [9]Wang Anxu,Jing Fuqi,Huang Xiaowei,et al.Structure keeping control for heterogeneous formations based on consistency theory and graph theory[C]//Proc of the 9th International Conference on Mechatronics and Robotics Engineering.Piscataway,NJ:IEEE Press,2023:139-145.

        [10]Ma Haoxiang,Chen Mou,Wu Qingxian.Disturbance observer based inverse optimal tracking control of the unmanned aerial helicopter[C]//Proc of the 8th Data Driven Control and Learning Systems Conference.Piscataway,NJ:IEEE Press,2019:448-452.

        [11]Kouzeghar M,Song Y,Meghjani M,et al.Multi-target pursuit by a decentralized heterogeneous UAV swarm using deep multi-agent reinforcement learning[C]//Proc of IEEE ICRA.Piscataway,NJ:IEEE Press,2023:3289-3295.

        [12]Niu Zijia,Jia Xiaohu,Yao Wang.Communication-free MPC-based neighbors trajectory prediction for distributed multi-UAV motion planning[J].IEEE Access,2022,10:13481-13489.

        [13]Wang Chao,Wang Jian,Zhang Xudong.A deep reinforcement learning approach to flocking and navigation of UAVs in large-scale complex environments[C]//Proc of IEEE GlobalSIP.Piscataway,NJ:IEEE Press,2018:1228-1232.

        [14]Salimi M,Pasquier P.Deep reinforcement learning for flocking control of UAVs in complex environments[C]//Proc of the 6th International Conference on Robotics and Automation Engineering.Piscataway,NJ:IEEE Press,2021:344-352.

        [15]Yan Chao,Wang Chang,Xiang Xiaojia,et al.Deep reinforcement learning of collision-free flocking policies for multiple fixed-wing UAVs using local situation maps[J].IEEE Trans on Industrial Informatics,2022,18(2):1260-1270.

        [16]Wu Jiehong,Yu Yuanzhe,Ma Jian,et al.Autonomous cooperative flocking for heterogeneous unmanned aerial vehicle group[J].IEEE Trans on Vehicular Technology,2021,70(4):12477-12490.

        [17]Lyu Gengcheng,Li Meng.Multi-agent cooperative control in neural MMO environment based on mappo algorithm[C]//Proc of the 5th International Conference on Artificial Intelligence Circuits and Systems.Piscataway,NJ:IEEE Press,2023:1-4.

        [18]Liu Shuai.Research on manipulator control strategy based on PPO algorithm[C]//Proc of GCITC.Piscataway,NJ:IEEE Press,2023:1-4.

        [19]Xiang Yao,Wen Jiayan,Luo Wenguang,et al. Research on collision-free control and simulation of single-agent based on an improved DDPG algorithm[C]//Proc of the 35th Youth Academic Annual Conference of Chinese Association of Automation.Piscataway,NJ:IEEE Press,2020:552-556.

        [20]Zhao Maomao,Zhang Shaojie,Jiang Bin.Multi-agent cooperative attacker-defender-target task decision based on PF-MADDPG[C]//Proc of the 6th International Symposium on Autonomous Systems.Piscataway,NJ:IEEE Press,2023:1-6.

        无码一区二区三区中文字幕| av日本一区不卡亚洲午夜| 日韩精品久久伊人中文字幕| 男女射黄视频网站在线免费观看| 国产精品久久久久久福利| 成人免费毛片内射美女-百度| 精品少妇人妻成人一区二区| av免费在线播放一区二区| 久久精品国产99久久久| 天天躁狠狠躁狠狠躁夜夜躁| 国产主播在线 | 中文| 少妇性l交大片免费快色| 国产白浆一区二区三区性色| 国产成人一区二区三区影院动漫| 国产日产精品久久久久久| 国产青春草在线观看视频| 国产精品一区二区久久国产| 亚洲色大成网站www久久九| 亚洲VA不卡一区| 丰满人妻被公侵犯的视频| 日本一本免费一二区| 伊人久久五月丁香综合中文亚洲| 北岛玲中文字幕人妻系列| 亚洲成人av一区二区| 韩国三级大全久久网站| 在线播放国产一区二区三区| 国产精品自在在线午夜出白浆| 在线观看视频免费播放| 成人无码网www在线观看| 俺来也俺去啦久久综合网| 亚洲日本人妻中文字幕| 日韩亚洲无吗av一区二区| 国产成熟人妻换╳╳╳╳| 久久亚洲AV成人一二三区| 国产自拍成人在线免费视频| 999国产精品999久久久久久| 国产裸体歌舞一区二区| 色婷婷亚洲十月十月色天| 国产精品久久久免费精品| 怡红院a∨人人爰人人爽| 中文精品久久久久中文|