亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于MADDPG的多無(wú)人車(chē)協(xié)同事件觸發(fā)通信

        2024-11-21 00:00:00郭宏達(dá)婁靜濤徐友春葉鵬李永樂(lè)陳晉生
        關(guān)鍵詞:智能策略

        摘" 要:

        針對(duì)典型的端到端通信策略不能決定通信間隔時(shí)間,只能在固定頻率下通信的問(wèn)題,提出一種基于深度強(qiáng)化學(xué)習(xí)方法的事件觸發(fā)變頻率通信策略,以解決多無(wú)人車(chē)協(xié)同最小通信問(wèn)題。首先建立事件觸發(fā)架構(gòu),主要包含計(jì)算通信的控制器,并給出觸發(fā)條件,保證滿(mǎn)足條件時(shí)多無(wú)人車(chē)間進(jìn)行通信,大幅度減少通信總量。其次,基于多智能體深度確定性策略梯度(multiple agent deep deterministic policy gradient, MADDPG)算法對(duì)觸發(fā)機(jī)制進(jìn)行優(yōu)化,提高算法收斂速度。仿真和實(shí)車(chē)實(shí)驗(yàn)表明,隨著迭代次數(shù)的增加,在完成協(xié)同任務(wù)的前提下,多無(wú)人車(chē)系統(tǒng)中通信數(shù)據(jù)量降低了55.74%,驗(yàn)證了所提出策略的有效性。

        關(guān)鍵詞:

        事件觸發(fā)通信; 深度強(qiáng)化學(xué)習(xí); 協(xié)同圍捕; 多無(wú)人車(chē)

        中圖分類(lèi)號(hào):

        T 249

        文獻(xiàn)標(biāo)志碼: A""" DOI:10.12305/j.issn.1001-506X.2024.07.35

        Event-triggered communication of multiple unmanned ground vehicles

        collaborative based on MADDPG

        GUO Hongda, LOU Jingtao, XU Youchun, YE Peng, LI Yongle*, CHEN Jinsheng

        (Army Military Transportation University, Tianjin 300161, China)

        Abstract:

        In response to the problem of typical end-to-end communication strategies that cannot determine the communication interval and can only communicate at fixed frequencies, an event-triggered communication strategy is proposed based on deep reinforcement learning to solve the minimal communication problem in multi-unmanned ground vehicles collaboration. Firstly, an event-triggered architecture is established, which mainly includes a communication controller and provides trigger conditions. This ensures that communication occurs among multiple unmanned ground vehicle only when the conditions are met, significantly reducing the overall commu-nication volume. Secondly, the trigger mechanism is optimized using the multiple agent deep deterministic policy gradient (MADDPG) algorithm, which improves the convergence speed of the algorithm. Simulation and real vehicle experiments show that with increasing iterations, the amount of communication data in the multiple unmanned ground vehicle system is reduced by 55.74% while still accomplishing the collaborative tasks, thus validating the effecti-veness of the proposed strategy.

        Keywords:

        event-triggered communication; deep reinforcement learning; collaborative pursuit; multiple unmanned ground vehicles

        0" 引" 言

        多無(wú)人車(chē)協(xié)同是多智能體系統(tǒng)研究的重要方向,被廣泛應(yīng)用于軍事作戰(zhàn)、安保維穩(wěn)等領(lǐng)域[1]。尤其在大規(guī)模無(wú)人作戰(zhàn)場(chǎng)景中,相比單無(wú)人車(chē),多無(wú)人車(chē)系統(tǒng)具備諸多優(yōu)勢(shì),如可擴(kuò)展性、靈活性以及對(duì)單個(gè)無(wú)人車(chē)故障的容錯(cuò)性等[2]。

        多無(wú)人車(chē)協(xié)同的研究涉及多個(gè)方向,包括協(xié)同運(yùn)輸、多車(chē)協(xié)同操控和人車(chē)協(xié)同等,其中在無(wú)人車(chē)協(xié)同操控方面,發(fā)展尤為迅速[34]。雖然現(xiàn)有算法在實(shí)驗(yàn)中取得了一定的成效,但前提是必須具備高帶寬和低丟包率的持續(xù)穩(wěn)定無(wú)線通信系統(tǒng),實(shí)時(shí)共享無(wú)人車(chē)信息,以確保整個(gè)系統(tǒng)能夠進(jìn)行最優(yōu)決策和控制。然而,由于無(wú)人車(chē)之間的相互作用和信息不對(duì)稱(chēng)、通信設(shè)備帶寬不足等原因,導(dǎo)致通信效率低下,甚至?xí)霈F(xiàn)通信失敗的情況。目前主要通過(guò)減少通信數(shù)據(jù)量的方法來(lái)優(yōu)化通信策略,以達(dá)到提高通信性能的目標(biāo)。具體方法包括降低通信頻率[5]、減少通信智能體數(shù)量和單包數(shù)據(jù)量[6]等。這些方法通常假定無(wú)人車(chē)數(shù)量是固定的,且適用于簡(jiǎn)單任務(wù)或基于強(qiáng)假設(shè)的任務(wù),并推導(dǎo)出適宜的通信拓?fù)浣Y(jié)構(gòu)[7]。然而,在實(shí)際場(chǎng)景中,隨著電池電量逐漸耗盡,無(wú)人車(chē)數(shù)量會(huì)逐漸減少,或者為了快速完成任務(wù),引入額外的無(wú)人車(chē),這使得實(shí)驗(yàn)條件很難滿(mǎn)足。此外,對(duì)于一般環(huán)境中的最小通信策略,也很少有通用的方法可供選擇[8]。

        為了解決減少通信量的問(wèn)題,研究人員主要提出了兩種策略。首先是研究無(wú)通信情況下的狀態(tài)估計(jì)。多無(wú)人車(chē)在沒(méi)有通信的情況下協(xié)同完成任務(wù)的能力被稱(chēng)為無(wú)通信協(xié)同能力[9]。這種能力可以通過(guò)基于狀態(tài)的觸發(fā)器來(lái)實(shí)現(xiàn),即每個(gè)無(wú)人車(chē)根據(jù)自身狀態(tài)信息來(lái)觸發(fā)動(dòng)作,從而實(shí)現(xiàn)協(xié)同任務(wù)的完成。鄧甲等[10]提出了一種分布式控制策略,用于對(duì)未知目標(biāo)進(jìn)行估計(jì),而無(wú)需通信或無(wú)人車(chē)數(shù)量的先驗(yàn)知識(shí)。黃兵等[11]提出了一種分布式自適應(yīng)控制策略,用于在無(wú)參數(shù)估計(jì)的情況下協(xié)同圍捕未知目標(biāo)。該控制策略不需要智能體之間的通信,使得系統(tǒng)狀態(tài)能夠漸進(jìn)地收斂到期望狀態(tài),并通過(guò)李亞普諾夫函數(shù)進(jìn)行了理論證明。

        另一種策略是采用可變頻率通信來(lái)減少通信總量。多無(wú)人車(chē)在協(xié)同完成任務(wù)時(shí),根據(jù)任務(wù)需求和環(huán)境特點(diǎn)動(dòng)態(tài)調(diào)整通信頻率的能力稱(chēng)為可變頻率通信能力[12]

        。這種能力可以提高無(wú)人車(chē)系統(tǒng)的效率和魯棒性,減少通信帶寬的占用。Hirche[13]

        提出了一種具有事件觸發(fā)結(jié)構(gòu)的新方法,通過(guò)這種方法,每個(gè)智能體可以最大程度地降低接收相鄰智能體位置、速度等信息的頻率。然而,該方法需要一個(gè)動(dòng)力學(xué)模型來(lái)設(shè)計(jì)控制器。文獻(xiàn)[1416]提出了帶有事件觸發(fā)通信的分布式控制策略,根據(jù)實(shí)際觀察值和估計(jì)之間的誤差來(lái)確定時(shí)間和傳輸數(shù)據(jù)。這些方法不僅可以完成操控任務(wù),還能最大限度地減少?gòu)南噜徶悄荏w接收位置和速度信息的頻率。雖然該策略可以大幅度降低通信頻率,但觸發(fā)時(shí)機(jī)難以確定,難以自適應(yīng)調(diào)整頻率,而且方法實(shí)現(xiàn)難度較大。

        為解決事件觸發(fā)可變頻率通信存在的問(wèn)題,研究人員提出了多種傳統(tǒng)方法和深度強(qiáng)化學(xué)習(xí)方法。傳統(tǒng)方法包括基于協(xié)議、基于中繼和基于圖論等方法[17]

        ?;趨f(xié)議的方法通常定義協(xié)議來(lái)規(guī)定無(wú)人車(chē)之間的通信方式和內(nèi)容[18]?;谥欣^的方法通過(guò)引入中繼來(lái)提高通信效率,協(xié)調(diào)無(wú)人車(chē)之間的通信[19]。基于圖論的方法則通過(guò)建立圖模型來(lái)描述智能體之間的關(guān)系和通信,以實(shí)現(xiàn)無(wú)人車(chē)之間的協(xié)同[20]。

        基于深度強(qiáng)化學(xué)習(xí)的方法主要通過(guò)引入深度神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)無(wú)人車(chē)之間的通信策略。這種方法通過(guò)定義和更新?tīng)顟B(tài)空間、動(dòng)作空間、獎(jiǎng)勵(lì)函數(shù)和轉(zhuǎn)移函數(shù)等,設(shè)計(jì)和訓(xùn)練觸發(fā)器,從而實(shí)現(xiàn)智能體之間的通信。具體來(lái)說(shuō),觸發(fā)器通過(guò)深度強(qiáng)化學(xué)習(xí)算法訓(xùn)練,能夠根據(jù)當(dāng)前狀態(tài)和獎(jiǎng)勵(lì)信號(hào)選擇最優(yōu)的動(dòng)作,從而實(shí)現(xiàn)無(wú)人車(chē)之間的通信。在多無(wú)人車(chē)環(huán)境中,多智能體深度強(qiáng)化學(xué)習(xí)算法具有不需要建立動(dòng)力學(xué)模型的優(yōu)勢(shì)[21],但算法本身存在一個(gè)缺陷,即系統(tǒng)內(nèi)的智能體策略發(fā)生變化時(shí),估計(jì)策略的方差會(huì)增加。為了解決這個(gè)問(wèn)題,Lowe等[22]提出了集中式訓(xùn)練分布式執(zhí)行的學(xué)習(xí)框架,評(píng)估多智能體學(xué)習(xí)效果,通過(guò)每個(gè)智能體的觀察結(jié)果得出分散策略。Funk等[23]提出使用深度強(qiáng)化學(xué)習(xí)方法同時(shí)學(xué)習(xí)通信和控制策略,在執(zhí)行多個(gè)控制任務(wù)的同時(shí),減少智能體控制器與執(zhí)行器之間的控制信號(hào)。該策略模型方便在多智能體環(huán)境中擴(kuò)展,可達(dá)到降低傳輸總數(shù)據(jù)量的效果。Jakob等[24]提出通過(guò)學(xué)習(xí)來(lái)改善事件觸發(fā)的狀態(tài)估計(jì)的通信行為,主要通過(guò)模型學(xué)習(xí)來(lái)提高狀態(tài)預(yù)測(cè)的準(zhǔn)確性,引入了第二個(gè)事件觸發(fā)器,嚴(yán)格觸發(fā)條件。然而,這些方法只在固定頻率的通信中發(fā)揮了作用,未曾應(yīng)用于變頻率通信。

        鑒于事件觸發(fā)通信存在的缺陷,針對(duì)多無(wú)人車(chē)協(xié)同通信策略的問(wèn)題,本文基于可變頻率通信策略,將事件觸發(fā)通信作為切入點(diǎn)進(jìn)行研究,解決多無(wú)人車(chē)協(xié)同最小通信問(wèn)題。首先,建立多無(wú)人車(chē)通信策略模型,明確基于學(xué)習(xí)觸發(fā)的研究?jī)?nèi)容。然后,針對(duì)學(xué)習(xí)觸發(fā),引入多智能體深度確定性策略梯度(multiple agent deep deterministic policy gradient, MADDPG)算法,構(gòu)建事件觸發(fā)通信學(xué)習(xí)框架,設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)。最后,設(shè)計(jì)了包含多個(gè)無(wú)人車(chē)和單個(gè)目標(biāo)的協(xié)同圍捕任務(wù),通過(guò)仿真和實(shí)車(chē)實(shí)驗(yàn),驗(yàn)證了提出框架的有效性和通用性。

        本文提出了一種基于MADDPG的事件觸發(fā)通信框架,創(chuàng)新之處在于:① 提出的策略模型使無(wú)人車(chē)能夠建立全局信息協(xié)議,并且無(wú)人車(chē)數(shù)量可以根據(jù)需求進(jìn)行調(diào)整;② 提出了一個(gè)學(xué)習(xí)框架,利用事件觸發(fā)通信的方式,平衡了性能控制和通信量減少的關(guān)系。

        1" 通信模型建立

        多無(wú)人車(chē)事件觸發(fā)通信的一個(gè)重要應(yīng)用是協(xié)同圍捕[2526],難點(diǎn)在于預(yù)估目標(biāo)運(yùn)動(dòng)狀態(tài)和其他無(wú)人車(chē)通信狀態(tài),目的是在完成圍捕任務(wù)的前提下,減少時(shí)間步中通信無(wú)人車(chē)數(shù)量以及通信總數(shù)據(jù)量。本文從多無(wú)人車(chē)協(xié)同圍捕入手,建立通信模型,解決最小通信問(wèn)題。

        1.1" 問(wèn)題概述

        基于狀態(tài)觸發(fā)器是一種常用的解決多智能體事件觸發(fā)通信問(wèn)題的方法,通常與機(jī)器學(xué)習(xí)結(jié)合使用[27],主要通過(guò)定義和更新?tīng)顟B(tài),設(shè)計(jì)和訓(xùn)練觸發(fā)器來(lái)實(shí)現(xiàn)智能體之間的通信。具體而言,基于狀態(tài)觸發(fā)器需要定義狀態(tài)空間、動(dòng)作空間、獎(jiǎng)勵(lì)函數(shù)和轉(zhuǎn)移函數(shù)等,然后利用深度強(qiáng)化學(xué)習(xí)算法來(lái)訓(xùn)練觸發(fā)器。訓(xùn)練過(guò)程中,觸發(fā)器根據(jù)當(dāng)前狀態(tài)和獎(jiǎng)勵(lì)信號(hào)來(lái)選擇最優(yōu)的動(dòng)作,從而實(shí)現(xiàn)智能體之間的通信。下面針對(duì)所研究的多無(wú)人車(chē)協(xié)同通信問(wèn)題,從定義和更新?tīng)顟B(tài)、設(shè)計(jì)和訓(xùn)練觸發(fā)器兩個(gè)方面對(duì)基于狀態(tài)觸發(fā)器進(jìn)行分析。

        定義和更新?tīng)顟B(tài)方面:狀態(tài)是指無(wú)人車(chē)當(dāng)前的狀態(tài),包括自身狀態(tài)和其他智能體狀態(tài)[28]。在定義狀態(tài)時(shí),需要考慮哪些狀態(tài)對(duì)于無(wú)人車(chē)之間的通信是重要的,例如位置、速度、方向等。本文考慮二維無(wú)障礙環(huán)境中N個(gè)無(wú)人車(chē)的協(xié)同圍捕,狀態(tài)為無(wú)人車(chē)在全局坐標(biāo)中的位置、航向角、速度、角速度和期望位置,分別用(x,y)∈R2,θ∈R,v∈R2,ω∈R,(x,y)∈R2 表示;無(wú)人車(chē) i 對(duì)于無(wú)人車(chē) j 的觀察值和無(wú)人車(chē) i 對(duì)于所有無(wú)人車(chē)的觀察值可表示為oji=[oj1i,oj2i,…,ojLi]∈RL和Oi=[o1i,o2i,…,oi-1i,oi+1i,…,oji]∈R(N-1)×L。在更新?tīng)顟B(tài)時(shí),需要考慮如何獲取其他無(wú)人車(chē)的狀態(tài)信息,例如通過(guò)傳感器或通信等方式,本文主要通過(guò)車(chē)間通信的方式獲得。

        設(shè)計(jì)和訓(xùn)練觸發(fā)器方面:觸發(fā)器是指根據(jù)當(dāng)前狀態(tài)和獎(jiǎng)勵(lì)信號(hào)來(lái)選擇最優(yōu)動(dòng)作的模型[29]。在設(shè)計(jì)觸發(fā)器時(shí),本文主要通過(guò)神經(jīng)網(wǎng)絡(luò)的方式,將狀態(tài)映射到動(dòng)作空間,基于MADDPG深度強(qiáng)化學(xué)習(xí)算法,對(duì)觸發(fā)器進(jìn)行訓(xùn)練。對(duì)于學(xué)習(xí)型無(wú)人車(chē),通過(guò)不斷與周?chē)h(huán)境進(jìn)行交互,反復(fù)試錯(cuò)來(lái)學(xué)習(xí)最優(yōu)控制和通信策略。無(wú)人車(chē)i在其局部觀察值下根據(jù)策略πi選擇動(dòng)作ai,并獲得獎(jiǎng)勵(lì)rt,獎(jiǎng)勵(lì)值由無(wú)人車(chē)的當(dāng)前狀態(tài)和期望狀態(tài)之間的誤差以及通信定義。當(dāng)N個(gè)無(wú)人車(chē)選擇了當(dāng)前動(dòng)作[a1,a2,…,aN]后,狀態(tài)[s1,s2,…,sN]過(guò)渡到下一個(gè)狀態(tài)[s′1,s′2,…,s′N(xiāo)]。無(wú)人車(chē)i通過(guò)最大化預(yù)期獎(jiǎng)勵(lì)E[rt]=E[∑T-1k=0γkrt+k]更新策略,其中γ∈[0,1]是折扣系數(shù),T是每回合步數(shù)。

        為便于運(yùn)算,該問(wèn)題設(shè)置條件如下:

        (1) 已知無(wú)人車(chē)的質(zhì)量,并可通過(guò)車(chē)載傳感器獲得自身狀態(tài)數(shù)據(jù)(x,y)和θi;

        (2) 無(wú)人車(chē)可以確定自身發(fā)送的數(shù)據(jù),也可控制通信的時(shí)間;

        (3) 無(wú)人車(chē)已知期望位置(x,y)。

        1.2" 一致性問(wèn)題

        多智能體系統(tǒng)的一致性是指通過(guò)信息交換和相互協(xié)同,使所有智能體的狀態(tài)趨于一致的過(guò)程。在多智能體系統(tǒng)中,一致性通信問(wèn)題主要關(guān)注收發(fā)端的同步,即確保發(fā)出信息的同時(shí),接收端也能夠及時(shí)接收到信息。通過(guò)有效解決一致性通信問(wèn)題,可以保證通信的可靠性等性能,提高多智能體系統(tǒng)的整體性能和協(xié)同效果。

        根據(jù)圖論與通信拓?fù)涠x如下:

        (1) 若無(wú)人車(chē)之間的通信是雙向的,則通信拓?fù)錇闊o(wú)向的,否則通信拓?fù)錇橛邢虻?

        (2) 若從任何無(wú)人車(chē)開(kāi)始都可與相鄰無(wú)人車(chē)進(jìn)行通信,則通信拓?fù)涫沁B通的,否則通信是斷開(kāi)的。通常如果滿(mǎn)足以下條件,通信拓?fù)浣Y(jié)構(gòu)可判定為連通的[30]:

        rank(L)=N-1(1)

        式中:L=D-A是拉普拉斯矩陣;A和D分別為鄰接矩陣和程度矩陣。

        無(wú)人車(chē)i從無(wú)人車(chē)j是否接收數(shù)據(jù)用一個(gè)二元變量γij定義,具體為如果無(wú)人車(chē)i從無(wú)人車(chē)j接收數(shù)據(jù),γij=1,否則,γij=0。

        鄰接矩陣A∈RN×N,矩陣元素Aij(i,j∈{1,2,…,N})可表示為

        Aij=1, γij=1

        0, 其他(2)

        程度矩陣D∈RN×N是一個(gè)對(duì)角矩陣,矩陣元素Dij(i,j∈{1,2,…,N})可表示為

        Dij=di, i=j

        0, 其他(3)

        式中:di表示與無(wú)人車(chē)i通信無(wú)人車(chē)的總數(shù)。

        對(duì)于N個(gè)無(wú)人車(chē),定義由聯(lián)合策略得出、用于控制觸發(fā)器的值為通信向量,用c=[c1,c2,…,cN]表示,ci表示無(wú)人車(chē)i的通信向量。為了使N個(gè)通信向量收斂到相同的值,實(shí)現(xiàn)一致性,常用拉普拉斯平均法來(lái)平均N個(gè)無(wú)人車(chē)的估計(jì)值。

        通過(guò)與最近無(wú)人車(chē)進(jìn)行通信,c可以通過(guò)以下方式進(jìn)行估計(jì):

        c[t+Δt]=c[t]-kLc[t](4)

        式中:Δt為通信周期,k是一個(gè)正常數(shù)。在控制周期ΔT中,無(wú)人車(chē)i在時(shí)間Δt后更新ci。式(4)中Δt小于ΔT,該過(guò)程中所需的頻率通信較高,通信成本可能會(huì)增加。本文引入的事件觸發(fā)架構(gòu)就是為了解決這個(gè)問(wèn)題,在控制無(wú)人車(chē)狀態(tài)的同時(shí)確定與鄰接無(wú)人車(chē)通信的時(shí)間。

        基于式(4)可以得出c在時(shí)間s收斂,表示為

        limm→

        SymboleB@" c[s+m]=c′[s](5)

        式中:c′為系統(tǒng)穩(wěn)定后的通信向量。

        保證式(5)的一致性成立,需滿(mǎn)足的條件為

        (1) 通信拓?fù)浣Y(jié)構(gòu)是無(wú)向和連通的;

        (2) 0lt;klt;2/N。

        1.3" 策略模型建立

        圖1為多無(wú)人車(chē)協(xié)同事件觸發(fā)通信的策略模型,采用分布式架構(gòu),利用局部觀察和一致性估計(jì)來(lái)計(jì)算通信輸入。

        無(wú)人車(chē)i編組在總數(shù)為N的多無(wú)人車(chē)系統(tǒng)中。為確保擴(kuò)展到每輛無(wú)人車(chē),模型采用鄰近無(wú)人車(chē)的運(yùn)動(dòng)狀態(tài)估計(jì)結(jié)果?;谝恢滦运惴?,無(wú)人車(chē)i利用通信從無(wú)人車(chē)j獲得位置坐標(biāo)、航向角及速度等信息來(lái)估計(jì)本車(chē)加速度和轉(zhuǎn)向角速度。事件觸發(fā)通信決定了在每個(gè)控制周期中何時(shí)與無(wú)人車(chē)j進(jìn)行通信,是本文所要研究的重點(diǎn)。使用局部觀察oi=[e,v,ω,xi,yi,θi]T,其中e=[x-x,y-y,θ-θ]是誤差向量,策略πi計(jì)算通信輸出αi∈R和控制輸出ui∈R2。

        ai=πi(αi,ui)(6)

        由于策略模型在局部觀察和鄰接無(wú)人車(chē)運(yùn)動(dòng)狀態(tài)估計(jì)值下計(jì)算通信和控制輸入,因此本策略模型可適用于測(cè)試環(huán)境與訓(xùn)練環(huán)境無(wú)人車(chē)數(shù)量不同的情況。

        2" 事件觸發(fā)通信設(shè)計(jì)

        本節(jié)從MADDPG的環(huán)境設(shè)定入手,介紹提出的學(xué)習(xí)框架,解決多無(wú)人車(chē)協(xié)同過(guò)程中通信策略的學(xué)習(xí)問(wèn)題。

        2.1" 學(xué)習(xí)框架設(shè)計(jì)

        在多無(wú)人車(chē)通信過(guò)程中,本文提出了一個(gè)基于事件觸發(fā)通信的協(xié)同學(xué)習(xí)框架。該框架主要由一個(gè)控制通信輸出的觸發(fā)器組成,以狀態(tài)觸發(fā)為基礎(chǔ),融合通信和控制的聯(lián)合策略,用來(lái)控制多無(wú)人車(chē)網(wǎng)絡(luò)中的數(shù)據(jù)信號(hào)。通過(guò)在多無(wú)人車(chē)環(huán)境中應(yīng)用該框架,可以實(shí)現(xiàn)降低通信頻率、減少通信并發(fā)量以及減少無(wú)線網(wǎng)絡(luò)中的數(shù)據(jù)量的目標(biāo)。

        事件觸發(fā)的通信架構(gòu)以協(xié)同的方式對(duì)鄰接無(wú)人車(chē)的運(yùn)動(dòng)狀態(tài)進(jìn)行估計(jì)。每個(gè)無(wú)人車(chē)可以自主決定每個(gè)通信周期需要發(fā)出數(shù)據(jù)的時(shí)機(jī),如圖2所示。在該架構(gòu)中,無(wú)人車(chē)計(jì)算當(dāng)前控制周期的控制輸出和下一個(gè)通信周期的通信輸出。無(wú)人車(chē)之間的通信頻率可以根據(jù)實(shí)際需要進(jìn)行動(dòng)態(tài)調(diào)整,避免不必要的通信,從而降低了通信的負(fù)擔(dān)。此外,通過(guò)協(xié)同學(xué)習(xí)框架,無(wú)人車(chē)之間可以共享自身的狀態(tài)信息,以便其他無(wú)人車(chē)做出更好的決策。通過(guò)融合通信和控制的聯(lián)合策略,無(wú)人車(chē)可以更加智能地進(jìn)行通信,提高整個(gè)系統(tǒng)的性能和效率。

        為了驗(yàn)證提出架構(gòu)的有效性,本文進(jìn)行了無(wú)人車(chē)協(xié)同圍捕的仿真和實(shí)車(chē)實(shí)驗(yàn)。在該實(shí)驗(yàn)中,將各無(wú)人車(chē)作為系統(tǒng)通信拓?fù)涞墓?jié)點(diǎn),通過(guò)分析可以得出最小通信拓?fù)浣Y(jié)構(gòu),同時(shí),通過(guò)協(xié)同圍捕的實(shí)驗(yàn),驗(yàn)證該架構(gòu)的通用性。實(shí)驗(yàn)基于無(wú)人車(chē)的協(xié)同學(xué)習(xí)框架進(jìn)行通信和協(xié)作,實(shí)現(xiàn)圍捕目標(biāo)的任務(wù),并且有效地控制通信頻率和數(shù)據(jù)量,提高無(wú)人車(chē)之間的協(xié)同效率,適應(yīng)不同的圍捕場(chǎng)景和環(huán)境。

        2.2" 通信策略設(shè)計(jì)

        事件觸發(fā)策略模型通過(guò)學(xué)習(xí)決定無(wú)人車(chē)的網(wǎng)絡(luò)控制器發(fā)給其他無(wú)人車(chē)信息的時(shí)機(jī)。定義變量wij為無(wú)人車(chē)i是否給無(wú)人車(chē)j發(fā)送信息。將變量引入事件觸發(fā)機(jī)制,具體值由下式給出

        wij=1, cij(Oi)gt;0

        0, 其他(7)

        式中:cij∈R為通信值,表示控制無(wú)人車(chē)i與無(wú)人車(chē)j之間根據(jù)通信輸出和局部觀察計(jì)算的觸發(fā)通信的值,j=1,2,…,i-1,i+1,…,N。

        另外設(shè)計(jì)了通信和控制的聯(lián)合策略,具體如下:

        πi(acti|Oi)=πi(ui,ci|Oi)(8)

        式中:ci=[ci1,ci2,…,ciN]T∈RN表示無(wú)人車(chē)i的通信向量。式(8)中的聯(lián)合策略是由深度神經(jīng)網(wǎng)絡(luò)計(jì)算得出,并在下一個(gè)控制周期中更新觀察值,在圖2中由c′i表示。

        在學(xué)習(xí)過(guò)程中,本文采用MADDPG算法[22]來(lái)優(yōu)化多智能體系統(tǒng)的策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)。MADDPG算法是深度actor-critic算法的一種變體,用于解決在部分可觀察環(huán)境中策略變化引起的方差問(wèn)題。MADDPG算法采用了“集中式訓(xùn)練、分布式執(zhí)行”的策略,在訓(xùn)練過(guò)程中,使用所有無(wú)人車(chē)的觀察和動(dòng)作來(lái)接近最佳的Q值函數(shù)。每個(gè)無(wú)人車(chē)的策略網(wǎng)絡(luò)使用策略梯度方法進(jìn)行優(yōu)化,同時(shí),每個(gè)價(jià)值網(wǎng)絡(luò)能夠訪問(wèn)各自的觀察和動(dòng)作。訓(xùn)練完成后,每個(gè)價(jià)值網(wǎng)絡(luò)能夠根據(jù)局部觀察計(jì)算出相應(yīng)的動(dòng)作。

        通過(guò)將MADDPG算法與前文提出的框架結(jié)合使用,可以很好地解決多無(wú)人車(chē)事件觸發(fā)的問(wèn)題。該策略使方差得到有效控制,從而提高了協(xié)同學(xué)習(xí)效果。

        2.3" 獎(jiǎng)勵(lì)設(shè)計(jì)

        本文提出的基于MADDPG的多無(wú)人車(chē)事件觸發(fā)框架可以應(yīng)用于不同數(shù)量無(wú)人車(chē)的圍捕。為了平衡控制性能和減少通信量,設(shè)計(jì)了無(wú)人車(chē)i的獎(jiǎng)勵(lì)函數(shù),如下所示:

        ri=-(x,y)-(x,y)2-λwi1(9)

        式中:λgt;0;·1和·2分別代表L1和L2范數(shù)。第二項(xiàng)中使用的L1范數(shù)旨在最大限度地減少每個(gè)控制周期中需要通信的無(wú)人車(chē)數(shù)量和需要發(fā)出的數(shù)據(jù)量。

        通過(guò)該獎(jiǎng)勵(lì)函數(shù),無(wú)人車(chē)i的目標(biāo)是將其當(dāng)前位置與目標(biāo)位置之間的歐氏距離最小化,并且通過(guò)L1范式對(duì)是否通信進(jìn)行懲罰。這樣設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)可以在保持控制性能的同時(shí),大幅度降低通信頻率,從而達(dá)到減少通信總量的需求。

        綜上所述,在多無(wú)人車(chē)協(xié)同事件觸發(fā)通信框架中,各無(wú)人車(chē)通過(guò)車(chē)間通信獲取其他無(wú)人車(chē)的狀態(tài)信息,并利用MADDPG算法計(jì)算出下一通信周期的通信向量,以控制與其他無(wú)人車(chē)的通信情況,具體過(guò)程如下。首先,對(duì)多無(wú)人車(chē)進(jìn)行分組,找出鄰接的無(wú)人車(chē),即在空間上相互接近的無(wú)人車(chē)。然后,根據(jù)確定無(wú)人車(chē)是否與其他無(wú)人車(chē)通信的規(guī)則,確定通信目標(biāo),并基于一致性通信原則對(duì)通信向量進(jìn)行更新,確保無(wú)人車(chē)之間的通信行為一致。接著,計(jì)算下一時(shí)刻的通信向量,以確定無(wú)人車(chē)在下一周期中與其他無(wú)人車(chē)的通信情況。最后,利用MADDPG算法輸出下一時(shí)刻的通信動(dòng)作及運(yùn)動(dòng)策略,以實(shí)現(xiàn)無(wú)人車(chē)之間的通信和協(xié)同控制,具體步驟如算法1所示。

        算法 1" 基于MADDPG的事件觸發(fā)通信

        1: 初始化(xi,yi),θi,(xi,yi)(i=1,2,…,N)

        2: for t=1 to T do

        3:" for i=1 to N do

        4:""" /*對(duì)無(wú)人車(chē)進(jìn)行分組*/

        5:""" 在N個(gè)無(wú)人車(chē)中計(jì)算出K個(gè)鄰接無(wú)人車(chē)

        6:""" /*事件觸發(fā)通信*/

        7:""" 利用式(7)確定無(wú)人車(chē)通信

        8:""" /*基于一致性通信*/

        9:""" 更新通信向量ci

        10:" for s=t to t+ΔT do

        11:""" 利用式(4)估計(jì)ci

        12:" end for

        13:" 利用式(6)計(jì)算ui和ci

        14:" end for

        15: end for

        3" 實(shí)驗(yàn)與驗(yàn)證

        為了驗(yàn)證所提出策略的有效性,本文對(duì)圍捕進(jìn)行了多次實(shí)驗(yàn),分別在正常情況下和出現(xiàn)故障車(chē)情況下進(jìn)行仿真,以及在正常情況下實(shí)車(chē)實(shí)驗(yàn),驗(yàn)證所提出的算法具有平衡性能和降低通信總量的能力。

        3.1" 正常條件下協(xié)同圍捕

        多無(wú)人車(chē)協(xié)同主要利用車(chē)間通信設(shè)備進(jìn)行車(chē)與車(chē)之間的信息交互,無(wú)人車(chē)在車(chē)間通信正常的情況下按照控制器輸出,運(yùn)動(dòng)到期望位置,并將當(dāng)前和期望位置廣播給其他無(wú)人車(chē)。

        3.1.1" 環(huán)境參數(shù)

        仿真實(shí)驗(yàn)主要研究二維協(xié)同圍捕問(wèn)題,多無(wú)人車(chē)外形簡(jiǎn)化為一個(gè)圓形,半徑為0.1。無(wú)人車(chē)i的控制輸入是ui=[ai,ωi],通信向量是ci,其中ai和ωi分別表示無(wú)人車(chē)在坐標(biāo)系中的加速度和角速度。

        表1列出了MADDPG算法的參數(shù),方法中使用的參數(shù)是通過(guò)反復(fù)實(shí)驗(yàn)得到的。在相同的仿真條件下,本實(shí)驗(yàn)共進(jìn)行10次訓(xùn)練。

        將無(wú)人車(chē)之間的通信數(shù)據(jù)設(shè)定為位置、速度和航向角。無(wú)人車(chē)i的觀察、動(dòng)作和獎(jiǎng)勵(lì)由oi=[ei,b], acti=[ui,ci],ri=-(x,y)-(x,y)2-λwi1表示,其中b=[xi,yi,vi,xi,yi,θi]表示無(wú)人車(chē)i向其他無(wú)人車(chē)廣播的其他信號(hào)。在式(9)中通過(guò)反復(fù)試錯(cuò)設(shè)定λ=0.2。

        3.1.2" 實(shí)驗(yàn)結(jié)果

        圍捕成功的條件是,無(wú)人車(chē)根據(jù)一定的通信策略從其他車(chē)獲得狀態(tài)數(shù)據(jù),結(jié)合控制策略從現(xiàn)在所處位置運(yùn)動(dòng)到預(yù)期圍捕位置,完成圍捕任務(wù)。

        圖3顯示了基于固定通信頻率策略和基于事件觸發(fā)通信策略的平均獎(jiǎng)勵(lì)。結(jié)果表明,基于事件觸發(fā)通信的最終平均獎(jiǎng)勵(lì)值幾乎收斂到與固定頻率通信相同,不同的是基于事件觸發(fā)通信策略趨于穩(wěn)定的速度較固定頻率通信策略緩慢。經(jīng)過(guò)多次訓(xùn)練后,應(yīng)用兩種方法時(shí),無(wú)人車(chē)均可以行駛到期望位置,如圖4所示。

        此外,圖5顯示了無(wú)人車(chē)1在0~10 s內(nèi)通信時(shí)間及通信間隔,其中橫軸表示每次通信的時(shí)間點(diǎn),縱軸表示連續(xù)通信兩次的時(shí)間間隔。結(jié)果顯示,在10 s內(nèi)固定頻率策略累計(jì)通信200次,而事件觸發(fā)策略累計(jì)通信75次,較固定頻率通信策略減少了62.5%,說(shuō)明本文提出策略的通信量要遠(yuǎn)小于固定頻率的通信量,應(yīng)用事件觸發(fā)通信時(shí),即使每個(gè)無(wú)人車(chē)較少收到其他無(wú)人車(chē)的位置、速度或航向角等狀態(tài)信息,多無(wú)人車(chē)仍能正常完成任務(wù)。

        3.2" 故障條件下的圍捕

        本節(jié)通過(guò)無(wú)人車(chē)在發(fā)生故障條件下的協(xié)同圍捕來(lái)證實(shí)框架的可靠性。

        3.2.1" 環(huán)境參數(shù)

        考慮二維環(huán)境中多無(wú)人車(chē)協(xié)同圍捕,其中無(wú)人車(chē)1由于執(zhí)行器故障而停止。無(wú)人車(chē)的形狀為圓形,半徑設(shè)定為0.1。無(wú)人車(chē)i的控制輸入[ai,ωi]。考慮到實(shí)驗(yàn)中使用的無(wú)人車(chē),設(shè)定|ai|≤0.2,|ωi|≤0.5。通過(guò)設(shè)置無(wú)人車(chē)1的a1=0.0,ω1=0.0,使無(wú)人車(chē)1在3 s后停止。需要注意的是,因?yàn)槊看蔚墓收蠒r(shí)間均隨機(jī),其他無(wú)人車(chē)不能預(yù)先知道故障的時(shí)間和無(wú)人車(chē)1所處的位置。

        仿真中的參數(shù)如表2所示。層數(shù)、單元數(shù)、激活函數(shù)和折扣系數(shù)與表1參數(shù)相同,此節(jié)省略。通過(guò)設(shè)置無(wú)人車(chē)的初始偏航角-π/8≤θ≤π/8,同時(shí)隨機(jī)設(shè)置無(wú)人車(chē)的初始位置,進(jìn)行了3次訓(xùn)練。

        此外,仿真中設(shè)定的通信數(shù)據(jù)包括位置、航向角、速度。觀察、動(dòng)作和獎(jiǎng)勵(lì)由oi=[xi,yi,vi,θi],ai=[ui,ci],ri=-(x,y)-(x,y)2-λwi1,無(wú)人車(chē)信號(hào)被廣播給其他無(wú)人車(chē)。此外,式(9)中通過(guò)試錯(cuò)設(shè)定λ=0.01。

        3.2.2" 實(shí)驗(yàn)結(jié)果

        基于事件觸發(fā)算法在訓(xùn)練后測(cè)試圍捕的路徑如圖6所示。無(wú)人車(chē)1的執(zhí)行器發(fā)生故障后,其他無(wú)人車(chē)收到了來(lái)自無(wú)人車(chē)1的速度輸入,并快速改變了運(yùn)動(dòng)的位置。這一結(jié)果表明,其他無(wú)人車(chē)根據(jù)無(wú)人車(chē)1的速度輸入知道故障發(fā)生,從而確定本身動(dòng)作。此外,當(dāng)任務(wù)結(jié)束時(shí),無(wú)人車(chē)3、無(wú)人車(chē)4即時(shí)收到了無(wú)人車(chē)1的速度輸入,其試圖收斂到期望的位置與無(wú)人車(chē)1未發(fā)生故障時(shí)差別也不大。

        為了證實(shí)算法的有效性,我們將提出的算法與以下幾種通信拓?fù)浣Y(jié)構(gòu)進(jìn)行了比較。

        (1) 高固定頻率通信:每個(gè)無(wú)人車(chē)以10 Hz的頻率發(fā)送數(shù)據(jù),其與控制周期相同。

        (2) 低固定頻率通信:每個(gè)無(wú)人車(chē)以1 Hz的頻率為周期發(fā)送數(shù)據(jù)。

        (3) 無(wú)通信:每個(gè)無(wú)人車(chē)在整個(gè)過(guò)程中沒(méi)有收到其他無(wú)人車(chē)的數(shù)據(jù)。

        為了定量比較4種通信拓?fù)浣Y(jié)構(gòu),我們執(zhí)行了100次訓(xùn)練,并評(píng)估了多無(wú)人車(chē)圍捕成功率。根據(jù)結(jié)果,基于事件觸發(fā)通信實(shí)現(xiàn)了與高固定頻率通信一樣高的成功率,如表3所示。

        3.3" 實(shí)車(chē)條件下的圍捕

        本節(jié)通過(guò)實(shí)車(chē)在越野條件下對(duì)移動(dòng)目標(biāo)的協(xié)同圍捕來(lái)證實(shí)框架的有效性。

        3.3.1" 設(shè)備參數(shù)

        實(shí)驗(yàn)利用團(tuán)隊(duì)自主研發(fā)的4臺(tái)無(wú)人車(chē)(見(jiàn)圖7)進(jìn)行實(shí)車(chē)驗(yàn)證。無(wú)人車(chē)上裝有感知設(shè)備(激光雷達(dá),感知無(wú)人車(chē)周?chē)h(huán)境)、慣性導(dǎo)航設(shè)備(全球定位系統(tǒng)、北斗,定位無(wú)人車(chē)位置,輸出無(wú)人車(chē)速度、加速度、航向角、角速度等狀態(tài)信息)、車(chē)間通信設(shè)備(無(wú)線局域網(wǎng),構(gòu)建無(wú)人車(chē)之間的通信網(wǎng)絡(luò))、計(jì)算設(shè)備(工控機(jī),運(yùn)行無(wú)人車(chē)的感知、規(guī)劃決策、控制等程序)等。4輛無(wú)人車(chē)需要在場(chǎng)景中完成對(duì)動(dòng)態(tài)目標(biāo)圍捕的任務(wù)。

        3.3.2" 實(shí)驗(yàn)結(jié)果

        圖8為基于固定頻率通信策略和基于事件觸發(fā)通信策略進(jìn)行圍捕任務(wù)的路徑示意圖,表4對(duì)使用本文提出的通信策略與固定頻率通信做比較,證明算法的有效性。

        由表4可以看出,本文提出的算法在圍捕平均耗時(shí)上與固定頻率通信的耗時(shí)相近,在總路徑長(zhǎng)度上,基于事件觸發(fā)通信策略與固定頻率通信策略相差不大,但在車(chē)間通信的數(shù)據(jù)量上,本文提出的策略卻遠(yuǎn)低于固定頻率通信,相較固定頻率通信減少了55.74%,由此可證實(shí)本文提出算法的有效性。

        綜上,本文提出的框架可以實(shí)現(xiàn)比其他通信拓?fù)浣Y(jié)構(gòu)節(jié)省更多的通信量,同時(shí)保持與高固定頻率通信相同的傳輸性能,即使對(duì)于一個(gè)復(fù)雜的任務(wù),也能達(dá)到最優(yōu)效果。

        4" 結(jié)束語(yǔ)

        本文提出了一個(gè)多無(wú)人車(chē)通信框架,以平衡協(xié)同性能和節(jié)省通信量。所提出的方法通過(guò)使用多個(gè)無(wú)人車(chē)在隨機(jī)初始位置和圍捕位置的條件下完成協(xié)同圍捕任務(wù),實(shí)現(xiàn)了與固定頻率通信一樣性能,同時(shí)節(jié)省了通信消耗。此外,對(duì)于有無(wú)人車(chē)發(fā)生故障條件下的協(xié)同圍捕,本文提出的方法比其他通信拓?fù)浣Y(jié)構(gòu)實(shí)現(xiàn)節(jié)省更多的通信量,同時(shí)保持與高固定頻率通信同樣的可靠性。

        在下一步的研究中,為進(jìn)一步提高算法的性能,可以從以下兩個(gè)方面進(jìn)行考慮:① 結(jié)合其他觸發(fā)器,例如基于規(guī)則的觸發(fā)器或基于獎(jiǎng)勵(lì)的觸發(fā)器,來(lái)提高性能和穩(wěn)定性;② 使用自適應(yīng)方法來(lái)調(diào)整觸發(fā)器的參數(shù)和權(quán)重,例如使用強(qiáng)化學(xué)習(xí)算法來(lái)自適應(yīng)地調(diào)整觸發(fā)器的閾值和激活函數(shù)等。

        參考文獻(xiàn)

        [1] 張夢(mèng)鈺, 豆亞杰, 陳子夷, 等. 深度強(qiáng)化學(xué)習(xí)及其在軍事領(lǐng)域中的應(yīng)用綜述[J]. 系統(tǒng)工程與電子技術(shù), 2024, 46(4): 12971308.

        ZHANG M Y, DOU Y J, CHEN Z Y, et al. Deep reinforcement learning and its applications in military field[J].Systems Engineering and Electronics, 2024, 46(4): 12971308.

        [2] 費(fèi)博雯, 包衛(wèi)東, 劉大千, 等. 面向動(dòng)態(tài)目標(biāo)搜索與打擊的空地協(xié)同自主任務(wù)分配方法[EB/OL]. [20230511].http:∥kns.cnki.net/kcms/detail/11.2422.TN.20221228.1702.020.html.

        FEI B W,BAO W D,LIU D Q, et al. Air-ground cooperative autonomous task allocation method for dynamic target search and strike[EB/OL]. [20230511].http:∥kns.cnki. net/kcms/detail/11.2422.TN.20221228.1702.020.html.

        [3] ZHANG Z, WANG X H, ZHANG Q R, et al. Multi-robot cooperative pursuit via potential field-enhanced reinforcement learning[C]∥Proc.of the International Conference on Robotics and Automation, 2022: 88088814.

        [4] OLSEN T, STIFFLER N M, O’KANE J M. Rapid recovery from robot failures in multi-robot visibility-based pursuit-evasion[C]∥Proc.of the IEEE/RSJ International Conference on Intelligent Robots and Systems, 2021: 97349741.

        [5] BAUMANN D, ZHU J J, MARTIUS G, et al. Deep reinforcement learning for event-triggered control[C]∥Proc.of the IEEE Conference on Decision and Control, 2018: 943950.

        [6] HU G Z, ZHU Y H, ZHAO D B, et al. Event-triggered communication network with limited-bandwidth constraint for multi-agent reinforcement learning[J]. IEEE Trans.on Neural Networks and Learning Systems, 2021, 34(8): 39663978.

        [7] OTTE M, KUHLMAN M, SOFGE D. Competitive target search with multi-agent teams: symmetric and asymmetric communication constraints[J]. Autonomous Robots, 2018, 42(6): 12071230.

        [8] DENG C, WEN C Y, WANG W, et al. Distributed adaptive tracking control for high-order nonlinea multiagent systems over event-triggered communication[J]. IEEE Trans.on Automatic Control, 2023, 68(2): 11761183.

        [9] WANG Z J, YANG G, SU X S, et al. Ouijabots: omnidirectional robots for cooperative object transport with rotation control using no communication[J]. Distributed Autonomous Robotic Systems, 2018, 6: 117131.

        [10] 鄧甲, 王付永, 劉忠信, 等. 動(dòng)態(tài)事件觸發(fā)機(jī)制下二階多智能體系統(tǒng)完全分布式控制[J]. 控制理論與應(yīng)用, 2023, 41(1): 1120.

        DENG J, WANG F Y, LIU Z X, et al. Fully distributed control for second-order multi-agent systems under dynamic event-triggered mechanism[J]. Control Theory amp; Applications, 2023, 41(1): 1120.

        [11] 黃兵, 肖云飛, 馮元, 等. 無(wú)人艇全分布式動(dòng)態(tài)事件觸發(fā)編隊(duì)控制[J]. 控制理論與應(yīng)用, 2023, 40(8): 14791487.

        HUANG B, XIAO Y F, FENG Y, et al. Fully distributed dyna-mic event-triggered formation control for multiple unmanned surface vehicles[J]. Control Theory amp; Applications, 2023, 40(8): 14791487.

        [12] ZUO R W, LI Y H, LYU M. Learning-based distributed containment control for hfv swarms under event-triggered communication[J]. IEEE Trans.on Aerospace and Electronic Systems, 2023, 59(1): 568579.

        [13] HIRCHE S. Distributed control for cooperative manipulation with event-triggered communication[J]. IEEE Trans.on Robotics, 2020, 36(4): 10381052.

        [14] 周托, 劉全利, 王東, 等. 積分事件觸發(fā)策略下的線性多智能體系統(tǒng)領(lǐng)導(dǎo)跟隨一致性[J]. 控制與決策, 2022, 37(5): 12581266.

        ZHOU T, LIU Q L, WANG D, et al. Leader-following consensus for linear multi-agent systems based on integral-type event-triggered strategy[J]. Control and Decision, 2022, 37(5): 12581266.

        [15] 王浩亮, 柴亞星, 王丹, 等. 基于事件觸發(fā)機(jī)制的多自主水下航行器協(xié)同路徑跟蹤控制[J]. 自動(dòng)化學(xué)報(bào), 2022, 45(2): 10011011.

        WANG H L, CHAI Y X, WANG D, et al. Event-triggered cooperative path following of multiple autonomous underwater vehicles[J]. Acta Automatica Sinica, 2022, 45(2): 10011011.

        [16] 陳世明, 邵賽, 姜根蘭. 基于事件觸發(fā)二階多智能體系統(tǒng)的固定時(shí)間比例一致性[J]. 自動(dòng)化學(xué)報(bào), 2022, 48(1): 261270.

        CHEN S M, SHANG S, JIANG G L. Distributed event-triggered fixed-time scaled consensus control for second-order multi-agent systems[J]. Acta Automatica Sinica, 2022, 48(1): 261270.

        [17] PENG C, LI F Q. A survey on recent advances in event-triggered communication and control[J].Information Sciences, 2018, 457(8): 113125.

        [18] HUTTENRAUCH M, SOSIC A, NEUMANN G. Deep reinforcement learning for swarm systems[J]. Journal of Machine Learning Research, 2019, 20(54): 131.

        [19] WANG Z F, GAO Y B, LIU Y F, et al. Distributed dynamic event-triggered communication and control for multi-agent consensus: a hybrid system approach[J]. Information Sciences, 2022, 618(12): 191208.

        [20] RYU H C, SHIN H Y, PARK J K. Multi-agent actor-critic with hierarchical graph attention network[C]∥Proc.of the 34th AAAI Conferenceon Articial Intelligence, 2020: 72367243.

        [21] ZHU X D, ZHANG F, LI H. Swarm deep reinforcement learning for robotic manipulation[J]. Procedia Computer Science, 2022, 198(12): 472479.

        [22] LOWE R, WU Y, TAMAR A, et al. Multi-agent actor-critic for mixed cooperative-competitive environments[C]∥Proc.of the 31st International Conference on Neural Information Processing Systems, 2017: 63826393.

        [23] FUNK N, BAUMANN D, BERENZ V, et al. Learning event-triggered control from data through joint optimization[J]. IFAC Journal of Systems and Control, 2021, 16(6): 100144100161.

        [24] FOERSTER J, FARQUHAR G, AFOURAS T, et al. Counterfactual multi-agent policy gradients[C]∥Proc.of the AAAI Conference on Artificial Intelligence, 2018: 29742982.

        [25] MIYAZAKI K, MATSUNAGA N, MURATA K, et al. Formation path learning for cooperative transportation of multiple robots using[C]∥Proc.of the 21st International Conference on Control, Automation and Systems, 2021: 16191623.

        [26] GONZLEZ-SIERRA J, FLORES-MONTES D, HERNANDEZ-MARTINEZ E G, et al. Robust circumnavigation of a heterogeneous multi-agent system[J]. Autonomous Robots, 2021, 45(2): 265281.

        [27] CHEN Z Y, NIU B, ZHANG L, et al. Command filtering-based adaptive neural network control for uncertain switched nonlinear systems using event-triggered communication[J]. International Journal Robust Nonlinear Control, 2022, 32(11): 65076522.

        [28] MEISTER D, DRR F, ALLGOWER F. Shared network effects in time-versus event-triggered consensus of a single-integrator multi-agent system[J]. IFAC-Papers Online, 2023, 56(2): 59755980.

        [29] HUA M, ZHANG C F, LI Z, et al. Multi-agent deep reinforcement learning for charge-sustaining control of multi-mode hybrid vehicles[EB/OL]. [20230511]. https:∥arxiv.org/abs/2209.02633.

        [30] OLFATI-SABER R, FAX J A, MURRAY R M. Consensus and cooperation in networked multi-agent systems[J]. Proceedings of the IEEE, 2007, 95(1): 215233.

        作者簡(jiǎn)介

        郭宏達(dá)(1989—),男,助理工程師,博士研究生,主要方向?yàn)闊o(wú)人車(chē)集群協(xié)同、車(chē)間通信。

        婁靜濤(1984—),男,工程師,博士,主要研究方向?yàn)橹悄軣o(wú)人系統(tǒng)。

        徐友春(1972—),男,教授,博士,主要研究方向?yàn)闊o(wú)人車(chē)架構(gòu)、智能無(wú)人系統(tǒng)。

        葉" 鵬(1979—),男,高級(jí)工程師,碩士,主要研究方向?yàn)橹悄軣o(wú)人系統(tǒng)。

        李永樂(lè)(1984—),男,工程師,博士,主要研究方向?yàn)闄C(jī)器視覺(jué)。

        陳晉生(1994—),男,助理工程師,博士研究生,主要研究方向?yàn)闄C(jī)械臂控制。

        猜你喜歡
        智能策略
        基于“選—練—評(píng)”一體化的二輪復(fù)習(xí)策略
        求初相φ的常見(jiàn)策略
        例談未知角三角函數(shù)值的求解策略
        我說(shuō)你做講策略
        智能制造 反思與期望
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        智能制造·AI未來(lái)
        商周刊(2018年18期)2018-09-21 09:14:46
        欧美国产日产一区二区| 中文字幕一区二区三区四区五区| 国产精品成人3p一区二区三区| 99精品国产兔费观看久久99| 依依成人影视国产精品| 国产精品黄色在线观看| 久久久精品中文字幕麻豆发布 | 国产全肉乱妇杂乱视频| 在线亚洲+欧美+日本专区| 一区二区三区精品亚洲视频| 少妇人妻综合久久中文字幕| 成人久久久久久久久久久| 亚洲午夜成人片| 色婷婷久色国产成人免费| 久久精品国产99久久久| 国产欧美一区二区精品仙草咪| 日本一区二区三区激情视频| 99麻豆久久精品一区二区| 永久免费a∨片在线观看| 国产精品毛片无码| 欧美zozo另类人禽交| 青青草免费手机直播视频| 97久久精品人妻人人搡人人玩 | 中文字幕亚洲综合久久菠萝蜜| 国产免费午夜a无码v视频| 亚洲无码啊啊啊免费体验| 国产精品成人av大片| 国产美女精品一区二区三区| 久久综合色鬼| 91桃色在线播放国产| 亚洲2022国产成人精品无码区 | 日韩精品无码一区二区三区视频 | 中文字幕乱码熟女人妻在线| 无码国产伦一区二区三区视频| 精品人妻中文av一区二区三区| 白白在线免费观看视频| 国产精品免费看久久久无码| 三年片在线观看免费大全电影| 国产主播一区二区在线观看| 亚洲视频免费一区二区| ā片在线观看免费观看|