亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        無(wú)人機(jī)集群編隊(duì)自主協(xié)同控制方法綜述?

        2024-04-15 09:24:16高甲博
        艦船電子工程 2024年1期
        關(guān)鍵詞:方法設(shè)計(jì)

        高甲博 肖 瑋

        (陸軍勤務(wù)學(xué)院 重慶 401331)

        1 引言

        無(wú)人機(jī)憑借其成本低、適應(yīng)性強(qiáng)、靈活性高等優(yōu)點(diǎn)得到廣泛應(yīng)用,隨著應(yīng)用領(lǐng)域不斷擴(kuò)展,無(wú)人機(jī)執(zhí)行任務(wù)的難度和復(fù)雜度也日益增加[1]。為此,科研工作者將目光投向了無(wú)人機(jī)集群領(lǐng)域。無(wú)人機(jī)集群[2]是指將多個(gè)無(wú)人機(jī)按照一定的結(jié)構(gòu)、模式進(jìn)行組合,通過(guò)協(xié)調(diào)控制使其具備群體自主感知、自主決策和自主行動(dòng)能力[3],能夠完成單一無(wú)人機(jī)難以完成的任務(wù),如戰(zhàn)場(chǎng)滲透[4]、遠(yuǎn)程偵察[5]、電子干擾[6]等。無(wú)人機(jī)集群編隊(duì)控制是集群實(shí)現(xiàn)整體效能最優(yōu)化的重要基礎(chǔ)。目前,在實(shí)際應(yīng)用中主要的兩種控制方法是:一種是依據(jù)控制目標(biāo)任務(wù)提前設(shè)計(jì)固定控制策略,集群內(nèi)各個(gè)無(wú)人機(jī)按照預(yù)先設(shè)計(jì)的控制策略進(jìn)行編隊(duì);另一種是通過(guò)遠(yuǎn)程遙控實(shí)時(shí)發(fā)送控制指令,集群內(nèi)無(wú)人機(jī)按照指令實(shí)現(xiàn)無(wú)人機(jī)集群編隊(duì)。這兩種控制方法都較為成熟,但難以滿足無(wú)人機(jī)集群在場(chǎng)景復(fù)雜導(dǎo)致的環(huán)境不確定、局部可觀導(dǎo)致的信息不完全、狀況突發(fā)導(dǎo)致的響應(yīng)強(qiáng)實(shí)時(shí)等新領(lǐng)域應(yīng)用發(fā)展中的需要。所以,亟需探索一種適應(yīng)新領(lǐng)域應(yīng)用場(chǎng)景的無(wú)人機(jī)集群編隊(duì)控制方法。

        隨著智能控制的不斷發(fā)展,自主協(xié)同控制的方法打破了這一瓶頸,該方法是通過(guò)集群內(nèi)無(wú)人機(jī)之間的協(xié)同感知、自主決策、相互配合,求得目標(biāo)任務(wù)的最優(yōu)解,能夠有效提高無(wú)人機(jī)集群編隊(duì)控制的自主性,充分發(fā)揮集群內(nèi)無(wú)人機(jī)之間的協(xié)作能力,實(shí)現(xiàn)“1+1>2”的效果。為此,探索無(wú)人機(jī)集群編隊(duì)的自主協(xié)同控制方法,實(shí)現(xiàn)自主靈活高效的無(wú)人機(jī)集群編隊(duì)控制,對(duì)進(jìn)一步提高無(wú)人機(jī)集群執(zhí)行復(fù)雜高難度任務(wù)的能力,拓展加深其應(yīng)用領(lǐng)域,具有十分重要的學(xué)術(shù)研究?jī)r(jià)值和現(xiàn)實(shí)應(yīng)用意義。

        2 無(wú)人機(jī)集群編隊(duì)自主協(xié)同控制方法研究現(xiàn)狀

        無(wú)人機(jī)集群編隊(duì)自主協(xié)同控制方法包括多種,按照其控制通信拓?fù)浣Y(jié)構(gòu)不同,主要分為集中式和分布式兩大類[7]。集中式[8]由控制中心向被控節(jié)點(diǎn)發(fā)送控制指令和編隊(duì)信息,同時(shí)接受被控節(jié)點(diǎn)的狀態(tài)信息,實(shí)現(xiàn)對(duì)無(wú)人機(jī)集群編隊(duì)的控制。該類型優(yōu)點(diǎn)是形成編隊(duì)隊(duì)形精度高,控制速度快,算法設(shè)計(jì)簡(jiǎn)單,缺點(diǎn)是對(duì)控制中心計(jì)算和通信速度要求高,魯棒性較差,難以實(shí)現(xiàn)大規(guī)模的集群控制。分布式[9]集群內(nèi)不存在控制中心,各節(jié)點(diǎn)只需與鄰居節(jié)點(diǎn)交換信息,通過(guò)節(jié)點(diǎn)之間的相互協(xié)作實(shí)現(xiàn)無(wú)人機(jī)集群編隊(duì)的控制,優(yōu)點(diǎn)是去中心化,魯棒性較高,適應(yīng)復(fù)雜動(dòng)態(tài)的應(yīng)用環(huán)境,可控?zé)o人機(jī)規(guī)模較大,缺點(diǎn)是算法設(shè)計(jì)復(fù)雜,通信時(shí)限要求高,存在誤差疊加,形成的編隊(duì)隊(duì)形精度不高。

        2.1 集中式控制類型

        集中式控制類型主要包括領(lǐng)航者-跟隨者方法、虛擬結(jié)構(gòu)法等。

        1)領(lǐng)航者-跟隨者方法(Leader-follower Method),又稱長(zhǎng)機(jī)-僚機(jī)法。該方法是目前無(wú)人機(jī)集群編隊(duì)控制中最常用的控制方法之一,其基本思想是集群內(nèi)領(lǐng)航者自主飛行,跟隨者接收領(lǐng)導(dǎo)者的控制指令調(diào)整自身運(yùn)動(dòng)參數(shù),以維持在編隊(duì)中相對(duì)位置,同時(shí)反饋?zhàn)陨硇畔⒔o領(lǐng)航者集中處理,從而實(shí)現(xiàn)編隊(duì)控制,如圖1 所示。該方法的算法設(shè)計(jì)較為簡(jiǎn)單,形成編隊(duì)隊(duì)形精度較高,通過(guò)領(lǐng)航者實(shí)現(xiàn)信息共享,有效解決信息不完全導(dǎo)致的控制困難,但對(duì)領(lǐng)航者依賴過(guò)大,編隊(duì)整體魯棒性不足,并對(duì)領(lǐng)航者的通信和運(yùn)算能力要求較高,難以應(yīng)對(duì)環(huán)境不確定的復(fù)雜場(chǎng)景下的大規(guī)模集群控制。

        圖1 領(lǐng)航者-跟隨者方法

        領(lǐng)航者-跟隨者方法在實(shí)際應(yīng)用中并不單獨(dú)使用,一般與其他控制方法結(jié)合應(yīng)用。文獻(xiàn)[10]為跟隨者設(shè)計(jì)自適應(yīng)神經(jīng)網(wǎng)絡(luò),使得跟隨者能夠預(yù)測(cè)領(lǐng)航者的動(dòng)作,提高了系統(tǒng)的瞬態(tài)控制性能。文獻(xiàn)[11]采用內(nèi)外環(huán)的編隊(duì)控制方法,外環(huán)通過(guò)領(lǐng)航者-跟隨者實(shí)現(xiàn)多無(wú)人機(jī)協(xié)同飛行,內(nèi)環(huán)設(shè)計(jì)一種優(yōu)化的主動(dòng)抗擾系統(tǒng),使得輕型無(wú)人機(jī)能夠克服外部環(huán)境風(fēng)力的影響實(shí)現(xiàn)穩(wěn)定飛行。文獻(xiàn)[12]引入貪婪算法、基于行為的方法和虛擬結(jié)構(gòu)法,將目標(biāo)隊(duì)型中l(wèi)eader和follower的區(qū)域劃分并分布計(jì)算,提高了無(wú)人機(jī)集群編隊(duì)的魯棒性和穩(wěn)定性。文獻(xiàn)[13]將領(lǐng)航者-跟隨者方法進(jìn)行集成,設(shè)計(jì)出基于多智能體系統(tǒng)的新型無(wú)人機(jī)集群編隊(duì)控制方法,該方法可隨機(jī)指定領(lǐng)航者,彌補(bǔ)了領(lǐng)航者-跟隨者方法中對(duì)唯一領(lǐng)航者依賴性過(guò)大的不足,提高了編隊(duì)的魯棒性。

        2)虛擬結(jié)構(gòu)法(Virtual Structure Method)。該方法最早由美國(guó)加利福尼亞大學(xué)Lewis[14]等提出,其基本思想是將無(wú)人機(jī)集群編隊(duì)看成是一個(gè)虛擬剛體,在編隊(duì)中設(shè)定一個(gè)虛擬中心為參考點(diǎn),所有無(wú)人機(jī)根據(jù)參考點(diǎn)信息調(diào)整自身飛行狀態(tài)和坐標(biāo)位置,以形成和保持虛擬剛體的編隊(duì)隊(duì)形[15],如圖2 所示。該方法可以克服長(zhǎng)機(jī)毀壞帶來(lái)的編隊(duì)混亂這一缺陷,魯棒性較高,但要求無(wú)人機(jī)的運(yùn)動(dòng)必須是剛性運(yùn)動(dòng),在外部擾動(dòng)和無(wú)人機(jī)間氣動(dòng)因素影響下,無(wú)人機(jī)對(duì)虛擬點(diǎn)的追蹤較為困難。

        圖2 虛擬結(jié)構(gòu)法

        針對(duì)上述問(wèn)題,相關(guān)學(xué)者對(duì)該方法進(jìn)行改進(jìn)。文獻(xiàn)[16]把同步位置跟蹤控制器并入無(wú)人機(jī)集群編隊(duì)控制器中,改善了無(wú)人機(jī)的跟蹤效果,加快了編隊(duì)的收斂速度。文獻(xiàn)[17]將無(wú)人機(jī)和編隊(duì)虛擬結(jié)構(gòu)的姿態(tài)控制系統(tǒng)分開(kāi)設(shè)計(jì),同時(shí)考慮參數(shù)不確定性和外部干擾,設(shè)計(jì)時(shí)變滑??刂扑惴ǎ⑼ㄟ^(guò)數(shù)值模擬說(shuō)明所提策略的有效性。文獻(xiàn)[18]采用基于虛擬結(jié)構(gòu)法的非線性魯棒無(wú)人機(jī)集群編隊(duì)控制方法,通過(guò)對(duì)在慣性坐標(biāo)系下虛擬剛體光滑軌跡的生成設(shè)計(jì),以及在虛擬剛體坐標(biāo)系下的無(wú)人機(jī)編隊(duì)隊(duì)形控制設(shè)計(jì)來(lái)實(shí)現(xiàn)無(wú)人機(jī)集群編隊(duì)的形成、保持和變換,并針對(duì)飛行時(shí)集群內(nèi)無(wú)人機(jī)之間的氣流擾動(dòng)問(wèn)題,設(shè)計(jì)基于高階滑膜算法的魯棒控制算法,提高了控制精度和穩(wěn)定性。

        2.2 分布式控制類型

        分布式控制類型主要包括人工勢(shì)場(chǎng)法、基于行為的方法、一致性理論、深度強(qiáng)化學(xué)習(xí)的方法等。

        1)人工勢(shì)場(chǎng)法(Artificial Potential Field Method)。其基本思想借鑒了物理學(xué)中勢(shì)場(chǎng)概念,為集群內(nèi)無(wú)人機(jī)設(shè)計(jì)勢(shì)場(chǎng)函數(shù),在感知范圍內(nèi),依據(jù)無(wú)人機(jī)之間相鄰距離設(shè)置排斥區(qū)、保持區(qū)、吸引區(qū),排斥區(qū)內(nèi)相鄰無(wú)人機(jī)會(huì)受斥力拉大距離,保持區(qū)內(nèi)無(wú)人機(jī)控制參數(shù)保持不變,吸引區(qū)內(nèi)相鄰無(wú)人機(jī)受引力縮小距離,通過(guò)勢(shì)場(chǎng)力使得每架無(wú)人機(jī)收斂到期望位置,從而保持編隊(duì)隊(duì)形,如圖3 所示。該方法在設(shè)計(jì)上較為簡(jiǎn)單,集群內(nèi)無(wú)人機(jī)自主性、協(xié)同性較好,能夠?qū)崿F(xiàn)不確定環(huán)境下較大規(guī)模的集群控制,并滿足響應(yīng)強(qiáng)實(shí)時(shí)的要求,但容易存在局部極值,閉環(huán)系統(tǒng)穩(wěn)定性證明較為困難,不易形成精度較高的編隊(duì)隊(duì)形。

        圖3 人工勢(shì)場(chǎng)法

        該方法一般與其他方法結(jié)合使用,主要在解決局部極值和提高系統(tǒng)穩(wěn)定性上進(jìn)行改進(jìn)。文獻(xiàn)[19]采用虛擬結(jié)構(gòu)法在三維空間中設(shè)立編隊(duì)參考點(diǎn)和目標(biāo)參考點(diǎn),再通過(guò)人工勢(shì)場(chǎng)作用下使得無(wú)人機(jī)集群形成期望編隊(duì)隊(duì)形,有效克服人工勢(shì)場(chǎng)法容易陷入局部極點(diǎn)的缺陷。文獻(xiàn)[20]針對(duì)固定翼無(wú)人機(jī)轉(zhuǎn)彎和最小空速必須為正的約束,提出一種非對(duì)稱的局部勢(shì)場(chǎng)法,并借助領(lǐng)航者-跟隨者框架,使跟隨者的空速和航向角收斂至其領(lǐng)航者的空速和航向角。文獻(xiàn)[21]在人工勢(shì)場(chǎng)法的基礎(chǔ)上,提出一種分叉勢(shì)場(chǎng)法,通過(guò)對(duì)十架無(wú)人機(jī)隊(duì)形變換的仿真結(jié)果分析,系統(tǒng)的穩(wěn)定性明顯提高。

        2)基于行為的方法(Behavioral Method)[22]。其基本思想是定義無(wú)人機(jī)集群形成編隊(duì)所需的幾種基本控制行為,如碰撞避免、障礙回避、目標(biāo)獲取、隊(duì)形保持[23]等,通過(guò)距離、視覺(jué)、速度等傳感器采集無(wú)人機(jī)集群狀態(tài)信息,依據(jù)狀態(tài)信息對(duì)各基本控制行為進(jìn)行加權(quán)求和[24],即對(duì)每個(gè)基本控制行為分別求出控制量,進(jìn)而對(duì)這些控制量做加權(quán)平均,求得綜合控制指令,各無(wú)人機(jī)執(zhí)行機(jī)構(gòu)按照綜合控制指令執(zhí)行各個(gè)基本控制行為,從而實(shí)現(xiàn)無(wú)人機(jī)集群編隊(duì),如圖4 所示。該方法優(yōu)點(diǎn)是實(shí)時(shí)控制良好;集群內(nèi)無(wú)人機(jī)行動(dòng)較為靈活,能夠發(fā)揮無(wú)人機(jī)之間的自主性和協(xié)同性,在因局部未知導(dǎo)致的信息不完全和不確定環(huán)境中能實(shí)現(xiàn)集群的有效控制,形成編隊(duì)魯棒性較好。缺點(diǎn)是在確定整體行為時(shí),各基本行為權(quán)重調(diào)節(jié)較難,不利于隊(duì)形穩(wěn)定,集群的智能性和行為庫(kù)的大小成正比。

        圖4 基于行為的方法

        當(dāng)前文獻(xiàn)主要在行為庫(kù)的設(shè)計(jì)和加權(quán)量的計(jì)算上進(jìn)行研究。文獻(xiàn)[25]中利用優(yōu)化算法對(duì)加權(quán)量進(jìn)行了優(yōu)化配比,取得了較好的控制效果。文獻(xiàn)[26]提出了一種基于鴿群行為機(jī)制的多無(wú)人機(jī)編隊(duì)控制方法,模仿鴿群特有的層級(jí)行為建立鴿群行為機(jī)制模型,通過(guò)設(shè)計(jì)基于鴿群行為機(jī)制的控制器實(shí)現(xiàn)無(wú)人機(jī)集群編隊(duì)。文獻(xiàn)[27]受寒鴉配對(duì)飛行行為機(jī)制啟發(fā),模仿寒鴉個(gè)體間的配對(duì)交互設(shè)計(jì)鄰居選擇機(jī)制,減小交互的平均鄰居數(shù)量,降低無(wú)人機(jī)集群通信負(fù)載壓力。文獻(xiàn)[28]通過(guò)研究灰狼在團(tuán)隊(duì)合作狩獵時(shí)表現(xiàn)出的社會(huì)層級(jí)結(jié)構(gòu)與合作捕食行為,對(duì)灰狼的群體交互機(jī)制與合作捕食行為建模,將灰狼合作捕食行為機(jī)制映射至無(wú)人機(jī)集群動(dòng)態(tài)任務(wù)分配中,給出了無(wú)人機(jī)集群動(dòng)態(tài)任務(wù)分配流程。文獻(xiàn)[29~30]同樣采用基本控制行為構(gòu)建復(fù)雜控制結(jié)構(gòu)。該結(jié)構(gòu)是由封裝五種基本控制行為的模塊構(gòu)成,通過(guò)模塊間的輸入輸出相互作用實(shí)現(xiàn)復(fù)雜的功能。但當(dāng)無(wú)人機(jī)執(zhí)行更多復(fù)雜功能時(shí),結(jié)構(gòu)復(fù)雜性和系統(tǒng)計(jì)算量會(huì)隨著集成模塊的增多而指數(shù)增長(zhǎng),對(duì)于故障檢測(cè)和誤差分析造成極大困難。文獻(xiàn)[31]借鑒文獻(xiàn)[29~30]中的模塊化思想,提出一種基于行為控制策略的分布式無(wú)人機(jī)編隊(duì)控制結(jié)構(gòu),該結(jié)構(gòu)分為三層,即編隊(duì)生成層、避障層和個(gè)體位置控制層,減小了系統(tǒng)復(fù)雜度。

        3)基于一致性理論的方法(Consensus Theory Method)。其基本思想是無(wú)人機(jī)在基于分布式的網(wǎng)絡(luò)中,利用與之通信的相鄰無(wú)人機(jī)狀態(tài)信息來(lái)綜合更新自身狀態(tài),最終使集群內(nèi)所有無(wú)人機(jī)的狀態(tài)達(dá)到一致,從而實(shí)現(xiàn)無(wú)人機(jī)集群編隊(duì)[32]。該方法在大規(guī)模無(wú)人機(jī)集群編隊(duì)控制時(shí)具有較好的適用性、穩(wěn)定性、魯棒性,在未知環(huán)境中能夠保持集群整體狀態(tài)的一致,克服環(huán)境不確定和信息不完全帶來(lái)的影響,但是控制方法設(shè)計(jì)比較復(fù)雜,通信時(shí)延和通信拓?fù)湟筝^高,占用通信資源較多,在解決響應(yīng)強(qiáng)實(shí)時(shí)的問(wèn)題上不夠理想。

        一致性理論在發(fā)展過(guò)程中逐漸與其他理論和方法進(jìn)行組合應(yīng)用。文獻(xiàn)[33]在一階系統(tǒng)一致性理論發(fā)展的基礎(chǔ)上運(yùn)用李雅普諾夫方法和凸性理論,解決了離散無(wú)人機(jī)集群系統(tǒng)的一致性問(wèn)題。文獻(xiàn)[34]同時(shí)研究了離散和連續(xù)兩種無(wú)人機(jī)集群編隊(duì)一致性的基本問(wèn)題,證明當(dāng)無(wú)人機(jī)集群編隊(duì)的通信拓?fù)浣Y(jié)構(gòu)中含有一個(gè)有向生成樹(shù)時(shí)能達(dá)到一致性。文獻(xiàn)[35]又針對(duì)二階動(dòng)力學(xué)系統(tǒng)提出基于一致性理論的無(wú)人機(jī)集群編隊(duì)控制方法,在考慮僅有鄰近個(gè)體交換信息的條件下,為保證編隊(duì)控制的精確性,擴(kuò)展了一階一致性算法,并將領(lǐng)航者-跟隨者法、虛擬結(jié)構(gòu)法和基于行為法統(tǒng)一到通用的一致性框架中。這種統(tǒng)一的好處在于一致性框架只需要局部鄰近個(gè)體之間的信息交換,并任意信息流引入反饋或是耦合行為,從而提高整個(gè)系統(tǒng)的冗余度和魯棒性,而且不會(huì)使控制方法設(shè)計(jì)和收斂/穩(wěn)定性分析復(fù)雜化。文獻(xiàn)[36]提出了一種基于一致性理論的具有防撞能力的協(xié)同無(wú)人機(jī)集群編隊(duì)控制方法,將協(xié)同控制算法和避免碰撞控制算法同時(shí)應(yīng)用于四旋翼無(wú)人機(jī),確保了無(wú)人機(jī)集群編隊(duì)收斂性。文獻(xiàn)[37]把基于一致性理論的方法用于處理無(wú)人機(jī)集群的時(shí)變編隊(duì)控制問(wèn)題,提出了無(wú)人機(jī)集群實(shí)現(xiàn)時(shí)變編隊(duì)的充要條件,并通過(guò)室外實(shí)驗(yàn)驗(yàn)證所提方法的有效性。

        4)基于深度強(qiáng)化學(xué)習(xí)的方法(Deep Reinforcement Learning Method)。該類方法融合了深度學(xué)習(xí)的感知能力和強(qiáng)化學(xué)習(xí)的決策能力,用于解決高維決策問(wèn)題,其基本思想是無(wú)人機(jī)集群中,每架無(wú)人機(jī)依據(jù)當(dāng)前環(huán)境的聯(lián)合狀態(tài)采取一個(gè)動(dòng)作,所有動(dòng)作組成聯(lián)合動(dòng)作,使得集群整體以一定概率由當(dāng)前聯(lián)合狀態(tài)轉(zhuǎn)變?yōu)榱硪宦?lián)合狀態(tài),獎(jiǎng)勵(lì)函數(shù)依據(jù)聯(lián)合狀態(tài)轉(zhuǎn)變方向與控制目標(biāo)是否相向給予聯(lián)合獎(jiǎng)勵(lì),通過(guò)反復(fù)交互學(xué)習(xí)訓(xùn)練,實(shí)現(xiàn)聯(lián)合獎(jiǎng)勵(lì)累計(jì)最大化,使得無(wú)人機(jī)集群學(xué)會(huì)特定聯(lián)合狀態(tài)下的恰當(dāng)聯(lián)合行為,即一個(gè)策略[38~41],如圖5所示。該方法能夠高度適應(yīng)未知?jiǎng)討B(tài)的現(xiàn)實(shí)環(huán)境,可以勝任多種不同類型任務(wù)而無(wú)需探究其中具體奧秘,自適應(yīng)性較強(qiáng),一定程度上解決了環(huán)境不確定的控制難題。在算法訓(xùn)練完成后,策略網(wǎng)絡(luò)只需依據(jù)單個(gè)無(wú)人機(jī)的局部環(huán)境觀測(cè)狀態(tài)迅速給出合理動(dòng)作,有效解決信息不完全的影響,并且響應(yīng)實(shí)時(shí)性較好。缺點(diǎn)是隨著無(wú)人機(jī)數(shù)量增加,聯(lián)合狀態(tài)和聯(lián)合動(dòng)作空間過(guò)大,學(xué)習(xí)訓(xùn)練時(shí)間過(guò)長(zhǎng),收斂速度較慢,穩(wěn)定性不強(qiáng)[42~43],獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)較為復(fù)雜。

        圖5 基于深度強(qiáng)化學(xué)習(xí)的方法

        目前,深度強(qiáng)化學(xué)習(xí)的控制方法在無(wú)人機(jī)集群上的應(yīng)用主要通過(guò)仿真環(huán)境進(jìn)行驗(yàn)證,在實(shí)際飛行環(huán)境的研究較少。文獻(xiàn)[44]設(shè)計(jì)一種分布式的無(wú)人機(jī)集群編隊(duì)深度強(qiáng)化學(xué)習(xí)方法,采用“集中式訓(xùn)練-分布式執(zhí)行”的結(jié)構(gòu),避免過(guò)大的聯(lián)合狀態(tài)和聯(lián)合動(dòng)作空間。文獻(xiàn)[45]基于多智能體近端策略優(yōu)化(MAPPO)算法建立了馬爾可夫決策過(guò)程框架,結(jié)合圍捕任務(wù)需求分別設(shè)計(jì)了狀態(tài)空間、動(dòng)作空間、獎(jiǎng)勵(lì)函數(shù),實(shí)現(xiàn)了多無(wú)人艇對(duì)海上逃逸目標(biāo)的圍捕。文獻(xiàn)[46]對(duì)傳統(tǒng)的納什Q 學(xué)習(xí)算法進(jìn)行改進(jìn),提出了一種基于參數(shù)逼近的無(wú)人機(jī)集群強(qiáng)化學(xué)習(xí)算法,能夠使無(wú)人機(jī)100%達(dá)到納什均衡,且能夠提高算法性能,簡(jiǎn)化算法復(fù)雜性,同時(shí)加快收斂速度。文獻(xiàn)[47]提出了多智能體深度確定性策略梯度算法(MADDPG),實(shí)現(xiàn)了無(wú)人機(jī)集群自主靈活地組建編隊(duì)隊(duì)形,基于MADDPG 算法還有多種類似的拓展和補(bǔ)充性的工作[48~49]。文獻(xiàn)[50]提出一種反事實(shí)多智能體策略梯度(Counterfactual Multi-agent Policy Gradients)算法,將一個(gè)無(wú)人機(jī)的獎(jiǎng)勵(lì)表示為當(dāng)前狀態(tài)下的整體獎(jiǎng)勵(lì)與該無(wú)人機(jī)替換動(dòng)作之后的整體獎(jiǎng)勵(lì)之差,該算法相對(duì)于MADDPG 提高了訓(xùn)練中信息共享的效率和無(wú)人機(jī)之間的協(xié)作能力,不足之處是只能用于離散動(dòng)作空間。文獻(xiàn)[51]在Actor-Critic框架基礎(chǔ)上提出一種CACER 算法,解決了在連續(xù)狀態(tài)下長(zhǎng)-僚機(jī)聚集的問(wèn)題。文獻(xiàn)[52]提出一種深度策略推理遞歸Q 網(wǎng)算法(Deep Policy Inference Recurrent Q-network),使用遞歸神經(jīng)網(wǎng)絡(luò)以應(yīng)對(duì)部分可觀性問(wèn)題,這種算法中每個(gè)無(wú)人機(jī)的值函數(shù)一定程度上依賴其他無(wú)人機(jī)的策略,減小了環(huán)境的非靜態(tài)性對(duì)學(xué)習(xí)帶來(lái)的不利影響,可同時(shí)應(yīng)用于無(wú)人機(jī)集群合作和競(jìng)爭(zhēng)兩類任務(wù)。文獻(xiàn)[53]提出一種ID3QN 算法提高學(xué)習(xí)效率,實(shí)現(xiàn)無(wú)人機(jī)集群編隊(duì)協(xié)調(diào)控制,并在半物理系統(tǒng)中進(jìn)行驗(yàn)證。

        相比于其他算法,MADDPG 算法可應(yīng)用于無(wú)人機(jī)集群的競(jìng)爭(zhēng)、合作等多種任務(wù)場(chǎng)景,同時(shí)可以利用其他無(wú)人機(jī)的觀測(cè)信息進(jìn)行集中訓(xùn)練,克服因無(wú)人機(jī)所處編隊(duì)位置不同導(dǎo)致獲取的編隊(duì)信息不完全而帶來(lái)的影響,并采用策略推斷、策略集合機(jī)制增強(qiáng)算法魯棒性,應(yīng)用場(chǎng)景更廣闊,是當(dāng)前主流的控制方法之一,相關(guān)研究文獻(xiàn)也較多。文獻(xiàn)[54]從經(jīng)驗(yàn)回放池?cái)?shù)據(jù)著手,將并行、優(yōu)先經(jīng)驗(yàn)回放的思想方法融入到MADDPG算法中,采用[M/N]個(gè)線程對(duì)經(jīng)驗(yàn)池中數(shù)據(jù)并行處理,選擇損失函數(shù)值最小的線程網(wǎng)絡(luò)梯度參數(shù)更新主網(wǎng)絡(luò)梯度參數(shù),在相同時(shí)間內(nèi)使得經(jīng)驗(yàn)數(shù)據(jù)的吞吐量擴(kuò)展至[M/N]倍,加快了算法訓(xùn)練速度。文獻(xiàn)[55]采用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)和設(shè)計(jì)異步合作更新方法對(duì)MADDPG 算法進(jìn)行改進(jìn),利用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)解決全局獎(jiǎng)勵(lì)分配時(shí)的信度分配問(wèn)題,精準(zhǔn)反映各無(wú)人機(jī)行為對(duì)整體行為的貢獻(xiàn),同時(shí)長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)與MADDPG 網(wǎng)絡(luò)異步合作更新參數(shù),克服損失函數(shù)強(qiáng)波動(dòng)問(wèn)題。文獻(xiàn)[56]對(duì)MADDPG 算法在全局評(píng)價(jià)網(wǎng)絡(luò)的基礎(chǔ)上,為每個(gè)無(wú)人機(jī)構(gòu)建一個(gè)局部評(píng)價(jià)網(wǎng)絡(luò),設(shè)計(jì)全局獎(jiǎng)勵(lì)函數(shù)和局部獎(jiǎng)勵(lì)函數(shù),能夠同時(shí)以解耦的方式最大化全局獎(jiǎng)勵(lì)和局部獎(jiǎng)勵(lì),使得收斂速度明顯加快。文獻(xiàn)[57]將TD3(Twin Delayed Deep Deterministic policy gradient)算法擴(kuò)展到無(wú)人機(jī)集群領(lǐng)域中,為每架無(wú)人機(jī)設(shè)計(jì)兩個(gè)評(píng)價(jià)網(wǎng)絡(luò)模型,通過(guò)選取兩個(gè)模型估計(jì)值中較小的一個(gè)來(lái)解決MADDPG算法存在值函數(shù)高估的問(wèn)題,同時(shí)為了提升算法學(xué)習(xí)效率,增加了優(yōu)先經(jīng)驗(yàn)回放機(jī)制。

        無(wú)人機(jī)集群編隊(duì)自主協(xié)同控制方法優(yōu)缺點(diǎn)如表1所示。

        3 結(jié)語(yǔ)

        當(dāng)前圍繞無(wú)人機(jī)集群編隊(duì)控制問(wèn)題的研究已取得了大量成果,初步形成了較為完備的理論體系和方法體系。但面向復(fù)雜多變的真實(shí)環(huán)境,無(wú)人機(jī)集群編隊(duì)的控制還有很大探索空間,在以下幾個(gè)方面仍需進(jìn)一步深入。主要體現(xiàn)在:

        1)對(duì)動(dòng)態(tài)未知環(huán)境下無(wú)人機(jī)集群編隊(duì)自主協(xié)同控制的研究。

        隨著無(wú)人機(jī)集群應(yīng)用領(lǐng)域的不斷拓展,當(dāng)前應(yīng)用環(huán)境的突出特征就是動(dòng)態(tài)未知,例如在俄烏戰(zhàn)爭(zhēng)中,俄軍使用“獵戶座”察打一體無(wú)人機(jī)對(duì)烏武裝據(jù)點(diǎn)等高價(jià)值軍事目標(biāo)實(shí)施打擊,烏軍依靠“旗手”TB2 察打一體無(wú)人機(jī)實(shí)施低空突防,在面對(duì)戰(zhàn)場(chǎng)環(huán)境陌生、信息數(shù)據(jù)缺乏、作戰(zhàn)態(tài)勢(shì)多變的作戰(zhàn)環(huán)境,無(wú)人機(jī)為戰(zhàn)爭(zhēng)發(fā)展發(fā)揮了非常重要的作用。從俄烏戰(zhàn)爭(zhēng)中獲得的啟發(fā)是,按照預(yù)設(shè)程序的集群控制方法難以適應(yīng)當(dāng)前軍事作戰(zhàn)的需要,開(kāi)展類似深度強(qiáng)化學(xué)習(xí)的全自主控制方法迫在眉睫。深度強(qiáng)化學(xué)習(xí)的方法最突出的優(yōu)勢(shì)是通過(guò)學(xué)習(xí)訓(xùn)練,能夠使無(wú)人機(jī)集群具備自主應(yīng)對(duì)未知環(huán)境中突發(fā)狀況的能力,符合當(dāng)前應(yīng)用領(lǐng)域的需要。

        2)對(duì)分布式無(wú)人機(jī)集群編隊(duì)可擴(kuò)展性的研究。

        當(dāng)前無(wú)人機(jī)集群應(yīng)用領(lǐng)域逐步復(fù)雜化,所需集群可擴(kuò)展性越來(lái)越大,例如在邊境巡邏和情報(bào)偵察中,集群可擴(kuò)展性的大小直接關(guān)乎任務(wù)完成效率和完成速度。但目前集群控制方法大多都存在可擴(kuò)展性不足的問(wèn)題,尤其是集中式控制類型,可控?zé)o人機(jī)數(shù)量非常有限,嚴(yán)重制約了無(wú)人機(jī)集群應(yīng)用領(lǐng)域的拓展,因此,加大對(duì)分布式控制類型中可擴(kuò)展性的研究,實(shí)現(xiàn)對(duì)大規(guī)模集群控制至關(guān)重要。

        3)對(duì)三維環(huán)境下無(wú)人機(jī)集群編隊(duì)控制的研究。

        現(xiàn)有論文中的無(wú)人機(jī)集群編隊(duì)控制方法大都建模在二維環(huán)境下,和實(shí)際應(yīng)用環(huán)境存在偏差,為提高控制方法的實(shí)用度,開(kāi)展三維環(huán)境下的集群控制研究是一個(gè)重要的方向。同時(shí)融入更加豐富的無(wú)人機(jī)及環(huán)境的約束條件,如無(wú)人機(jī)的最大航程、敵方火力威脅區(qū)域等,同時(shí)也需要研究三維環(huán)境下無(wú)人機(jī)與其它地面、水上智能體之間的協(xié)同控制,充分發(fā)揮聯(lián)合作戰(zhàn)的優(yōu)勢(shì)。

        猜你喜歡
        方法設(shè)計(jì)
        何為設(shè)計(jì)的守護(hù)之道?
        《豐收的喜悅展示設(shè)計(jì)》
        流行色(2020年1期)2020-04-28 11:16:38
        學(xué)習(xí)方法
        瞞天過(guò)?!律O(shè)計(jì)萌到家
        設(shè)計(jì)秀
        海峽姐妹(2017年7期)2017-07-31 19:08:17
        有種設(shè)計(jì)叫而專
        Coco薇(2017年5期)2017-06-05 08:53:16
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        精品国产av 无码一区二区三区| 国产电影无码午夜在线播放| 99国产精品人妻噜啊噜| 国产一区二区三区在线观看精品 | 99国产精品久久一区二区三区 | 日韩av免费一区二区| 国产乱人偷精品人妻a片| 日日噜噜夜夜爽爽| 国产精品反差婊在线观看| 偷拍偷窥在线精品视频| 日本精品久久久久中文字幕 | 61精品人妻一区二区三区蜜桃| 亚洲国产天堂久久综合网| 成年女人黄小视频| 北条麻妃毛片在线视频| 国产真实二区一区在线亚洲| 无码国产精品一区二区免费97| 精品日本一区二区视频| 国产精品一区二区黄色| 午夜毛片不卡免费观看视频| 精品国产福利在线观看网址2022| 永久免费在线观看蜜桃视频 | 日韩精品成人一区二区在线观看| 人妻少妇不满足中文字幕| 48沈阳熟女高潮嗷嗷叫| 国产精品亚洲А∨天堂免下载| 亚洲视一区二区三区四区| 成人影片麻豆国产影片免费观看| 欧美猛男军警gay自慰| 依依成人影视国产精品| av毛片亚洲高清一区二区| 亚洲 欧美 国产 制服 动漫| 午夜亚洲www湿好大| 亚洲中文字幕人妻诱惑| 国产不卡精品一区二区三区| 国产精品久久久久久亚洲av| 国产在线拍偷自拍偷精品| av中文字幕在线直播| 精品视频无码一区二区三区| 国产啪精品视频网给免丝袜| 国产91大片在线观看|