面向林火持續(xù)偵察的多無(wú)人機(jī)分布式控制方法

2020-03-25 10:31:48劉宇軒劉虎田永亮孫聰

航空學(xué)報(bào) 2020年2期

劉宇軒，劉虎，田永亮，孫聰

北京航空航天大學(xué) 航空科學(xué)與工程學(xué)院，北京 100083

森林火災(zāi)每年在世界范圍內(nèi)造成巨大的財(cái)產(chǎn)損失與人員傷亡[1]，林火的蔓延受地形、風(fēng)速風(fēng)向、林木可燃物載量與含水量分布等多種因素影響，具有一定的不確定性。因此，即時(shí)更新的高質(zhì)量火場(chǎng)信息一方面可以輔助應(yīng)急處置決策者進(jìn)行正確的人員與物資的調(diào)配[2]，另一方面，還可以使火場(chǎng)前線的消防人員進(jìn)行更為安全且高效的林火撲滅操作[3]。

針對(duì)火場(chǎng)信息的獲取，傳統(tǒng)的地面火場(chǎng)瞭望由于人為誤差與視線遮擋等因素，不能準(zhǔn)確提供大范圍火場(chǎng)信息；衛(wèi)星遙感數(shù)據(jù)實(shí)時(shí)性較差，且分辨率不能滿足實(shí)際使用需求；而載人飛行器的使用成本較高，機(jī)上操作人員的生命往往受到火場(chǎng)復(fù)雜環(huán)境的威脅[4-5]。由于現(xiàn)有火場(chǎng)偵察技術(shù)的低效，森林消防人員往往在缺乏林火蔓延信息的情況下就進(jìn)入前線開(kāi)展撲滅工作，具有極大地人身安全隱患[3]。因此，有必要發(fā)展一種更為經(jīng)濟(jì)且高效的林火持續(xù)偵察技術(shù)，實(shí)現(xiàn)對(duì)森林消防工作的技術(shù)支撐與能力補(bǔ)充。

隨著近年來(lái)無(wú)人機(jī)技術(shù)與遙測(cè)技術(shù)的發(fā)展，攜帶視覺(jué)(紅外或可見(jiàn)光)傳感器的多無(wú)人機(jī)協(xié)同火場(chǎng)偵察成為了一種可行的解決方案，并能以相對(duì)較低的成本，滿足火場(chǎng)信息獲取的實(shí)時(shí)性、準(zhǔn)確性和人員安全性的需求[5-8]。目前，針對(duì)多無(wú)人機(jī)火場(chǎng)偵察技術(shù)，國(guó)內(nèi)尚未檢索到相關(guān)研究，國(guó)外研究者主要從2個(gè)方面進(jìn)行了探索。

1) 面向系統(tǒng)集成與實(shí)際運(yùn)用，Martinez-de-Dios等[9-12]將視覺(jué)傳感器、慣性導(dǎo)航和GPS等集成在現(xiàn)有無(wú)人機(jī)平臺(tái)上，通過(guò)多次可控真實(shí)火場(chǎng)的實(shí)驗(yàn)，充分驗(yàn)證了多無(wú)人機(jī)林火偵察的技術(shù)可行性。此外，Ambrosia和Zajkowski[13]驗(yàn)證了攜帶可見(jiàn)光相機(jī)低空短航時(shí)(Low-Altitude Short-Endurance，LASE)無(wú)人機(jī)與攜帶紅外相機(jī)的中空長(zhǎng)航時(shí)(Medium-Altitude Long-Endurance，MALE)無(wú)人機(jī)組合在林火信息收集中的作用。

2) 面向多無(wú)人機(jī)火場(chǎng)偵察協(xié)同控制策略，Casbeer等[3]假設(shè)無(wú)人機(jī)只能在有限距離內(nèi)同基站及其他無(wú)人機(jī)進(jìn)行火場(chǎng)信息交換，以降低信息交換延遲為協(xié)同控制目標(biāo)，控制無(wú)人機(jī)對(duì)(UAV pair)沿順時(shí)針與逆時(shí)針按序出動(dòng)。在此基礎(chǔ)上，Alexis等[14]假設(shè)無(wú)人機(jī)在匯合后進(jìn)行折返，并基于火場(chǎng)信息共享與匯合點(diǎn)(rendezvous point)重計(jì)算，實(shí)現(xiàn)了多無(wú)人機(jī)在擴(kuò)張火線上的動(dòng)態(tài)分布。Ghamry和Zhang[4]基于簡(jiǎn)化的橢圓火場(chǎng)蔓延模型構(gòu)建無(wú)人機(jī)的參考路徑，并使用引導(dǎo)-跟隨(leader-follower)與滑?？刂?Sliding Mode Control，SMC)方法，將多個(gè)四旋翼無(wú)人機(jī)均勻分布在預(yù)設(shè)的參考路徑上。與此方法類似，Sujit等[6]基于可擴(kuò)張圓形火場(chǎng)假設(shè)，通過(guò)拍賣算法研究了多無(wú)人機(jī)多火點(diǎn)的分配問(wèn)題，并通過(guò)擴(kuò)張狀態(tài)控制器使環(huán)繞圓形林火邊界的無(wú)人機(jī)等距分布。Kumar等[15]基于林火邊界形狀函數(shù)構(gòu)建偵察效用函數(shù)，并通過(guò)該效用函數(shù)梯度下降、無(wú)人機(jī)間相互作用勢(shì)函數(shù)與人工阻尼量生成每個(gè)無(wú)人機(jī)的控制向量，實(shí)現(xiàn)分布式的多無(wú)人機(jī)協(xié)同火場(chǎng)邊界偵察。同樣是勢(shì)場(chǎng)控制(Potential Field Control，PFC)，Pham等[2]基于無(wú)人機(jī)矩形下視場(chǎng)角模型構(gòu)建了偵察代價(jià)函數(shù)，用于實(shí)現(xiàn)無(wú)人機(jī)自主火場(chǎng)覆蓋與偵察。

相對(duì)于多無(wú)人機(jī)火場(chǎng)偵察的系統(tǒng)集成與應(yīng)用，上述分布式或集中式火場(chǎng)偵察協(xié)同控制算法仍處于初步的理論研究階段，且具有如下幾個(gè)需要改進(jìn)的地方：

1) 林火蔓延模型過(guò)分簡(jiǎn)化，大部分研究中火線幾何形狀過(guò)于理想化。部分算法需要火線準(zhǔn)確的地理幾何信息用于生成無(wú)人機(jī)參考路徑或者人工勢(shì)場(chǎng)。

2) 過(guò)分簡(jiǎn)化的飛行約束，上述二維平面的無(wú)人機(jī)協(xié)同控制算法沒(méi)有考慮地形對(duì)無(wú)人機(jī)飛行控制的影響；沒(méi)有根據(jù)林火熱輻射等因素設(shè)置無(wú)人機(jī)安全飛行約束；沒(méi)有考慮風(fēng)速對(duì)無(wú)人機(jī)飛行的影響；并且忽略了煙霧對(duì)觀測(cè)的遮擋作用。

3) 上述算法沒(méi)有具體定義多無(wú)人火場(chǎng)信息偵察效能，并研究火線延長(zhǎng)與所需無(wú)人機(jī)數(shù)量的匹配關(guān)系。隨著無(wú)人機(jī)數(shù)量的增加，上述集中式多無(wú)人機(jī)控制算法往往具有較大計(jì)算成本。

本文針對(duì)目前多無(wú)人機(jī)火場(chǎng)偵察研究中存在的不足，基于經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)，提出了多無(wú)人機(jī)分布式雙層控制方法，作為初步嘗試與創(chuàng)新，本文中的方法是對(duì)上述問(wèn)題的進(jìn)一步分析與研究，實(shí)現(xiàn)了多無(wú)人機(jī)在局部信息下的火場(chǎng)持續(xù)偵察分布式控制。

1 無(wú)人機(jī)火場(chǎng)偵察建模

1.1 無(wú)人機(jī)控制模型

本文涉及的無(wú)人機(jī)控制模型如圖1所示，其主要由3大模塊構(gòu)成，分別是無(wú)人機(jī)運(yùn)動(dòng)學(xué)模型、無(wú)人機(jī)飛控系統(tǒng)與多無(wú)人機(jī)雙層控制架構(gòu)。

圖1 無(wú)人機(jī)控制模型

首先，對(duì)于無(wú)人機(jī)運(yùn)動(dòng)學(xué)模型的構(gòu)建，參考文獻(xiàn)[16-17]，在左手直角坐標(biāo)系下，本文采用如下的固定翼無(wú)人機(jī)運(yùn)動(dòng)學(xué)模型作為多無(wú)人機(jī)雙層控制架構(gòu)的控制對(duì)象：

(1)

(2)

式中：i∈{1,2,…,N}為無(wú)人機(jī)索引編號(hào)，N為無(wú)人機(jī)總數(shù)；(xi,yi,zi)為無(wú)人機(jī)空間坐標(biāo)；Vi為無(wú)人機(jī)空速控制量(可取3個(gè)離散值：最大空速Vmax、巡航空速Vc以及最小空速Vmin)；φi為無(wú)人機(jī)爬升角；ψi為航向角；Φu為無(wú)人機(jī)最大爬升角速度；Φd為最小爬升角速度；Ψl為無(wú)人機(jī)最大航向左轉(zhuǎn)角速度；Ψr為最大航向右轉(zhuǎn)角速度；[vwx,vwy,vwz] 為風(fēng)速矢量，設(shè)風(fēng)速大小為Vw；ui、vi分別為歸一化的無(wú)人機(jī)爬升角與航向角控制變量。

此外，無(wú)人機(jī)運(yùn)動(dòng)模型還應(yīng)具有如下約束：

(3)

式中：φmin為無(wú)人機(jī)最小爬升角；φmax為最大爬升角；Δt為仿真步長(zhǎng)；tn為仿真幀時(shí)刻；M為當(dāng)前幀計(jì)數(shù)；Lmax為最大飛行距離。該約束對(duì)無(wú)人機(jī)的爬升性能和留空時(shí)間進(jìn)行了限制。

其次，無(wú)人機(jī)運(yùn)動(dòng)學(xué)模型以多無(wú)人機(jī)雙層控制架構(gòu)的輸出[ui,vi,Vi]為輸入，基于式(1)與式(2)的微分方程，采用歐拉方法生成控制執(zhí)行間隔Δtc后無(wú)人機(jī)的空間位移量[Δxr,i,Δyr,i,Δzr,i]，并將其作為當(dāng)前無(wú)人機(jī)飛控系統(tǒng)的導(dǎo)航參考量。本文假設(shè)無(wú)人機(jī)飛控系統(tǒng)為理想黑盒，在每一個(gè)控制時(shí)間間隔Δtc(本文中，Δtc=Δt)內(nèi)，無(wú)人機(jī)飛控系統(tǒng)結(jié)合傳感器觀測(cè)量，通過(guò)內(nèi)置的導(dǎo)航控制算法，可生成無(wú)人機(jī)飛行操縱時(shí)序的直接控制量(即橫縱測(cè)三軸與推力控制量)，并通過(guò)相應(yīng)控制機(jī)構(gòu)實(shí)現(xiàn)對(duì)應(yīng)舵面偏轉(zhuǎn)與推力增減，最終使得無(wú)人機(jī)實(shí)現(xiàn)給定的參考位移。

最后，多無(wú)人機(jī)雙層控制架構(gòu)的具體設(shè)計(jì)與控制量[ui,vi,Vi]的生成，將在第3節(jié)中詳細(xì)介紹。

綜上所述，本文在無(wú)人機(jī)實(shí)際飛行控制系統(tǒng)之上，通過(guò)構(gòu)建的多無(wú)人機(jī)雙層控制架構(gòu)與運(yùn)動(dòng)學(xué)模型，基于理想飛控系統(tǒng)假設(shè)，將控制目標(biāo)從無(wú)人機(jī)直接操縱量的控制轉(zhuǎn)移到對(duì)無(wú)人機(jī)預(yù)期空間位移的控制。因此，本文提出的多無(wú)人機(jī)雙層控制架構(gòu)的控制對(duì)象為上述無(wú)人機(jī)運(yùn)動(dòng)學(xué)模型，其中[ui,vi,Vi]為相互獨(dú)立的控制變量。

1.2 林火蔓延模型

作為多無(wú)人機(jī)協(xié)同偵察的對(duì)象，林火行為的建模至關(guān)重要。一方面，實(shí)時(shí)甚至是超實(shí)時(shí)的林火蔓延仿真可以作為虛擬應(yīng)用環(huán)境，輔助設(shè)計(jì)與檢驗(yàn)多無(wú)人機(jī)協(xié)同偵察控制算法。另一方面，在未來(lái)的實(shí)際使用中，林火蔓延模型可以根據(jù)無(wú)人機(jī)前方偵察到的最新火場(chǎng)情況，對(duì)火勢(shì)的蔓延進(jìn)行預(yù)測(cè)，為其他消防力量提供必要的火勢(shì)預(yù)警。

近年來(lái)，隨著計(jì)算機(jī)技術(shù)的進(jìn)步，林火建模與仿真有了較大的發(fā)展，一系列林火蔓延模型被提出[18-19]。根據(jù)林火呈現(xiàn)形式，火焰蔓延模型主要分為3種：向量模型、柵格模型以及水平集模型[19]。上述3種模型的優(yōu)缺點(diǎn)如表1所示。

表1 火焰蔓延模型分類

相較于其他2種模型，林火蔓延?xùn)鸥衲Ｐ偷碾x散化林火邊界形式(如圖2所示)可以集成更多林火屬性(如溫度、火焰高度，火線寬度等)，但普遍存在的邊界變形問(wèn)題極大限制了該模型的精度。為此，作為對(duì)柵格模型的改進(jìn)，本團(tuán)隊(duì)提出的蔓延速度誘導(dǎo)元胞自動(dòng)機(jī)(SVICA)準(zhǔn)經(jīng)驗(yàn)?zāi)Ｐ蚚19]，在解決邊界變形問(wèn)題的基礎(chǔ)上，還體現(xiàn)了地形、風(fēng)速風(fēng)向、可燃物載量與含水量分布等因素對(duì)林火蔓延的影響。因此，本文采用SVICA林火蔓延模型用于多無(wú)人機(jī)火場(chǎng)偵察控制算法的輔助設(shè)計(jì)與仿真驗(yàn)證。

圖2 林火柵格模型

1.3 林火偵察傳感器模型

假設(shè)無(wú)人機(jī)可通過(guò)機(jī)載的慣性測(cè)量單元(Inertial Measurement Unit，IMU)、GPS以及陀螺儀無(wú)延時(shí)準(zhǔn)確獲取空間位置與運(yùn)動(dòng)信息(xi,yi,zi,φi,ψi)。在此假設(shè)基礎(chǔ)上，本文控制算法涉及到的機(jī)載對(duì)地測(cè)距與火場(chǎng)偵察傳感器的簡(jiǎn)化建模如圖3所示。

圖3 對(duì)地測(cè)距傳感器模型

如圖3所示，處于爬升性能約束內(nèi)的無(wú)人機(jī)UAVi，其機(jī)載對(duì)地測(cè)量傳感器實(shí)時(shí)準(zhǔn)確返回?zé)o人機(jī)的真高D0,i以及無(wú)人機(jī)鉛錘線前向45°對(duì)地測(cè)距值D1,i。

圖4 林火偵察傳感器模型

2 約束分析與問(wèn)題描述

林火蔓延過(guò)程產(chǎn)生的大量煙霧，極大地降低了視覺(jué)傳感器的性能[9, 20]，同時(shí)，考慮到飛行安全，無(wú)人機(jī)不能離火線過(guò)近或者穿越火場(chǎng)上空亂流。基于上述分析，無(wú)人機(jī)需要以較低的高度沿火場(chǎng)外圍飛行，執(zhí)行持續(xù)的偵察任務(wù)。對(duì)于任意無(wú)人機(jī)UAVi，需要滿足以下約束條件：

(4)

式中：Hr為參考飛行真高；Ht為高度波動(dòng)閾值；Rs為無(wú)人機(jī)安全距離；Rr為參考探測(cè)距離；Rt為距離浮動(dòng)閾值；函數(shù)min(*)為獲取集合中最小元素。

在定義多無(wú)人機(jī)火場(chǎng)協(xié)同偵察整體效能之前，還需要對(duì)以下幾個(gè)概念進(jìn)行說(shuō)明。首先，在林火蔓延?xùn)鸥衿矫鎯?nèi)，每個(gè)正方形區(qū)塊Cx,z的邊長(zhǎng)為a，(xa,za)為當(dāng)前區(qū)塊坐標(biāo)，Sx,z為當(dāng)前區(qū)塊狀態(tài)(0為未燃燒，1為正在燃燒，2為已燃盡)?；鹁€上的區(qū)塊定義為

(5)

此外，每個(gè)火線區(qū)塊對(duì)應(yīng)一個(gè)偵測(cè)延遲Tx,z，初始值為0。當(dāng)任意無(wú)人機(jī)首先偵測(cè)到火線區(qū)塊時(shí)，所有火線區(qū)塊的Tx,z開(kāi)始計(jì)時(shí)。當(dāng)區(qū)塊進(jìn)入任意無(wú)人機(jī)偵測(cè)范圍時(shí)，該延遲清零；當(dāng)脫離偵測(cè)范圍時(shí)，重新計(jì)時(shí)。因此，多無(wú)人火場(chǎng)協(xié)同偵察效能可用以下幾個(gè)指標(biāo)衡量：

(6)

式中：card(*)函數(shù)為獲取集合元素個(gè)數(shù)；函數(shù)max(*)為獲取集合中最大元素；E和S分別為所有火線區(qū)塊偵測(cè)延時(shí)的期望與標(biāo)準(zhǔn)差；Tmax為當(dāng)前火線偵測(cè)延時(shí)最大值，該值反映了火線區(qū)塊被無(wú)人機(jī)偵察的最大時(shí)間間隔。

綜上，以動(dòng)態(tài)蔓延的林火為火場(chǎng)偵察的對(duì)象，本文提出的多無(wú)人機(jī)分布式控制方法的控制目標(biāo)為：首先，在滿足所有約束的前提下，實(shí)現(xiàn)多架無(wú)人機(jī)在動(dòng)態(tài)蔓延的林火外圍持續(xù)飛行。其次，考慮到火場(chǎng)復(fù)雜邊界形狀與風(fēng)速引起的無(wú)人機(jī)地速沿飛行路徑分布不均勻等問(wèn)題，提出新的無(wú)人機(jī)分布控制算法，盡量均勻地降低每個(gè)火線區(qū)塊被無(wú)人機(jī)偵測(cè)的時(shí)間間隔，并對(duì)不可控墜機(jī)與留空時(shí)間限制等因素引起的無(wú)人機(jī)數(shù)量變化有動(dòng)態(tài)的適應(yīng)性，本文將之定義為無(wú)人機(jī)群環(huán)繞路徑上動(dòng)態(tài)時(shí)域均勻分布問(wèn)題。最后，本文需要研究不同無(wú)人機(jī)初始數(shù)量與火線區(qū)塊偵測(cè)效能指標(biāo)的關(guān)系，最終驗(yàn)證無(wú)人機(jī)火場(chǎng)偵察出動(dòng)策略的設(shè)計(jì)。

3 無(wú)人機(jī)雙層控制設(shè)計(jì)

3.1 控制架構(gòu)

適用于林火持續(xù)偵察的多無(wú)人機(jī)雙層控制架構(gòu)如圖5所示。本文提出的控制架構(gòu)主要由無(wú)人機(jī)整體的策略層算法與無(wú)人機(jī)個(gè)體的行動(dòng)層控制2個(gè)層級(jí)組成。策略層算法主要由火場(chǎng)偵察參數(shù)設(shè)置、路徑均勻分布控制、航向控制權(quán)重生成及發(fā)射回收控制策略構(gòu)成。

圖5 多無(wú)人機(jī)雙層控制架構(gòu)

由于本文采用的運(yùn)動(dòng)學(xué)模型中，航向角控制變量vi、爬升角控制變量ui與速度控制變量Vi對(duì)無(wú)人機(jī)預(yù)期航跡的控制相互獨(dú)立，行動(dòng)層因此可分為3大獨(dú)立功能：地形跟隨、速度調(diào)整與航向自主控制。其中，地形跟隨功能根據(jù)實(shí)時(shí)對(duì)地距離探測(cè)信息、當(dāng)前爬升角信息與參考飛行真高，生成爬升角控制量ui。速度調(diào)整功能包括無(wú)人機(jī)的定時(shí)加速與定時(shí)減速2個(gè)子功能。根據(jù)策略層無(wú)人機(jī)路徑均勻分布算法，實(shí)現(xiàn)無(wú)人機(jī)空速Vi在Vmax、Vc以及Vmin之間的離散切換。根據(jù)任務(wù)流程與外界環(huán)境因素，航向自主控制功能又由火場(chǎng)環(huán)繞、抗風(fēng)修正與進(jìn)出火場(chǎng)3個(gè)子功能構(gòu)成。航向控制量vi最終由上述3子功能控制量輸出(va、vf和vp)加權(quán)求和獲得：

vi=w1va+w2vf+w3vp

(7)

式中：w1、w2和w3為航向控制量權(quán)重。

綜上，無(wú)人機(jī)UAVi行動(dòng)層控制一方面需要無(wú)人機(jī)的一系列直接觀測(cè)量，同時(shí)還需要來(lái)自策略層算法生成的行動(dòng)層控制變量(即參考飛行高度Hr、加減速時(shí)間tacc和tdec、參考探測(cè)距離Rr、以及參考飛行路徑pr)以及航向自主控制子功能的控制權(quán)重。

考慮到多無(wú)人機(jī)協(xié)同控制的復(fù)雜度與問(wèn)題的聚焦度，本文將簡(jiǎn)化無(wú)人機(jī)發(fā)射回收的流程(包括相關(guān)策略層與行動(dòng)層控制算法的設(shè)計(jì))，并將研究重點(diǎn)放在進(jìn)入火場(chǎng)任務(wù)區(qū)后無(wú)人機(jī)協(xié)同偵察控制實(shí)現(xiàn)與偵察效能分析，具體內(nèi)容參考。

3.2 行動(dòng)層控制

在行動(dòng)層控制的設(shè)計(jì)中，地形跟隨功能與火場(chǎng)環(huán)繞功能使用基于強(qiáng)化學(xué)習(xí)(Reinforcement Learning，RL)的人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network，ANN)實(shí)現(xiàn)輸入量與控制量的映射，而抗風(fēng)修正、定時(shí)加減速與進(jìn)出任務(wù)區(qū)功能則使用傳統(tǒng)的基于人為規(guī)則的方式實(shí)現(xiàn)。

對(duì)于無(wú)人機(jī)UAVi，其地形跟隨功能ANN的結(jié)構(gòu)如圖6所示，它包含2個(gè)隱含層，每層64個(gè)神經(jīng)元；輸出層為俯仰控制量ui；輸入層包含3個(gè)輸入量，分別為s1,i、s2,i和s3,i，其定義為

(8)

s0，i=sgn(r0-r12)

(9)

圖6 地形跟隨ANN結(jié)構(gòu)

圖7 火場(chǎng)環(huán)繞ANN結(jié)構(gòu)

式中：函數(shù)sgn(*)為符號(hào)函數(shù)。

本文使用的上述兩個(gè)人工神經(jīng)網(wǎng)絡(luò)ANN皆采用Swish函數(shù)[21]作為神經(jīng)元的激勵(lì)函數(shù)，使用深度增強(qiáng)學(xué)習(xí)(PPO)算法[22]進(jìn)行訓(xùn)練。其中，地形跟隨ANN的訓(xùn)練獎(jiǎng)勵(lì)值Ru定義為

(10)

火場(chǎng)環(huán)繞ANN的訓(xùn)練獎(jiǎng)勵(lì)值Rv定義為

(11)

在上述神經(jīng)網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)過(guò)程中，若訓(xùn)練對(duì)象獎(jiǎng)勵(lì)值取得最小值，則重置對(duì)象的狀態(tài)。在完成一定步數(shù)的學(xué)習(xí)后，則停止ANN的強(qiáng)化學(xué)習(xí)，并按需對(duì)神經(jīng)網(wǎng)絡(luò)的控制進(jìn)行一定的人工修正，以實(shí)現(xiàn)預(yù)期控制目標(biāo)。

對(duì)于行動(dòng)層抗風(fēng)修正功能，若只考慮到水平均勻風(fēng)場(chǎng)對(duì)無(wú)人機(jī)飛行的影響，根據(jù)無(wú)人機(jī)水平速度投影與水平風(fēng)速的夾角關(guān)系，本文采用的比例修正規(guī)則為

(12)

對(duì)于行動(dòng)層定時(shí)加減速功能，若加速時(shí)間tacc和減速時(shí)間tdec都為零，則無(wú)人機(jī)空速Vi取巡航速度值Vc；若tacc>0且tdec=0，則無(wú)人機(jī)空速Vi在未來(lái)tacc時(shí)間內(nèi)，取最大空速Vmax；同理，若tdec>0且tacc=0，則無(wú)人機(jī)空速Vi在未來(lái)tdec時(shí)間內(nèi)，取最小空速Vmin。tacc與tdec不能同時(shí)非零，其值的定義將在策略層部分詳細(xì)定描述。

圖8 進(jìn)出火場(chǎng)任務(wù)區(qū)假設(shè)

進(jìn)出任務(wù)區(qū)航向控制首先使用Dubins[23]方法在策略層進(jìn)行參考路徑的規(guī)劃，即生成無(wú)人機(jī)發(fā)射點(diǎn)(或回收點(diǎn))與任務(wù)區(qū)集結(jié)點(diǎn)pm之間的水平投影路徑。然后根據(jù)當(dāng)前無(wú)人機(jī)與參考路徑之間的距離及無(wú)人機(jī)航向，構(gòu)建簡(jiǎn)化的比例引導(dǎo)控制，最終生成對(duì)應(yīng)航向控制量vp。由于進(jìn)出火場(chǎng)任務(wù)區(qū)的航向控制并不是本文研究的重點(diǎn)，為了無(wú)人機(jī)協(xié)同火場(chǎng)偵察任務(wù)流程完整性，故只對(duì)其實(shí)現(xiàn)進(jìn)行方法上的論述。在具體研究中，無(wú)人機(jī)進(jìn)出火場(chǎng)任務(wù)區(qū)的控制將簡(jiǎn)化為無(wú)人機(jī)在任務(wù)集結(jié)點(diǎn)pm的出動(dòng)與回收問(wèn)題。

3.3 策略層設(shè)計(jì)

作為多無(wú)人機(jī)火場(chǎng)偵察的協(xié)同控制的核心，策略層算法首先通過(guò)火場(chǎng)偵察參數(shù)設(shè)置模塊，設(shè)定每個(gè)無(wú)人機(jī)UAVi何時(shí)進(jìn)入任務(wù)區(qū)并按照給定的參考飛行高度Hr與偵察距離Rr開(kāi)始環(huán)繞火場(chǎng)飛行。無(wú)人機(jī)群在環(huán)繞火場(chǎng)偵察的過(guò)程中，每個(gè)無(wú)人機(jī)即時(shí)局部的觀測(cè)量被收集起來(lái)，用以實(shí)現(xiàn)火場(chǎng)態(tài)勢(shì)的整體態(tài)勢(shì)感知。

其次，策略層路徑均勻分布控制模塊基于累計(jì)飛行距離等信息，實(shí)現(xiàn)無(wú)人機(jī)群在環(huán)繞路徑時(shí)域上的近似均勻分布，其具體算法如下：

假定所有無(wú)人機(jī)按統(tǒng)一方向(順時(shí)針或逆時(shí)針)沿火場(chǎng)外圍飛行，無(wú)人機(jī)可隨時(shí)通過(guò)機(jī)間通信，動(dòng)態(tài)確定環(huán)繞先后順序與當(dāng)前運(yùn)行無(wú)人機(jī)總數(shù)N。以最開(kāi)始進(jìn)入火場(chǎng)的無(wú)人機(jī)為1號(hào)機(jī)，對(duì)無(wú)人機(jī)UAVi按照式(13)賦予設(shè)置出動(dòng)順序與隊(duì)列編號(hào)Xi，若出現(xiàn)插隊(duì)或掉隊(duì)的無(wú)人機(jī)，則立即對(duì)無(wú)人機(jī)群的索引與隊(duì)列編號(hào)進(jìn)行更新。

Xi=ii∈{1,2,…,N}

(13)

當(dāng)無(wú)人機(jī)UAVk(k∈{1,2,…,N})到達(dá)記錄起止點(diǎn)時(shí)，考慮達(dá)到火場(chǎng)面積的增加對(duì)無(wú)人機(jī)路徑的延長(zhǎng)作用，任意無(wú)人機(jī)UAVi可在接收的最新Lall中可查找對(duì)應(yīng)時(shí)刻ni的里程，并定義其標(biāo)準(zhǔn)路徑里程Lstd,i為

(14)

式中：ni為無(wú)人機(jī)UAVi標(biāo)準(zhǔn)里程在Lall的索引編號(hào)，可通過(guò)式(15)計(jì)算：

(15)

當(dāng)所有無(wú)人機(jī)完成Lstd,i(i∈{1,2,…,N})的更新，定義當(dāng)前標(biāo)準(zhǔn)路徑偏移量Loffset為

Loffset=Lone,1-Lstd,1

(16)

然后，根據(jù)當(dāng)前各自路徑里程Lone,i與標(biāo)準(zhǔn)里程Lstd,i及Loffset，任意無(wú)人機(jī)UAVi定時(shí)加速時(shí)間tacc,i與定時(shí)減速時(shí)間tdec,i的計(jì)算方法為

若Lstd,i-Lone,i+Loffset≥0，則無(wú)人機(jī)UAVi當(dāng)前里程相對(duì)理想里程滯后，加速時(shí)間tacc,i為

(17)

同理，若Lstd,i-Lone,i+Loffset<0，則無(wú)人機(jī)當(dāng)前里程相對(duì)理想里程超前，減速時(shí)間tdec,i為

(18)

基于上述計(jì)算，在下一個(gè)無(wú)人機(jī)到達(dá)起止點(diǎn)前，任意UAVi將按照最大空速Vmax(或Vmin)立刻執(zhí)行持續(xù)tacc,i(或tdec,i)時(shí)間的加速飛行(或減速飛行)，并在結(jié)束時(shí)恢復(fù)巡航空速Vc。此外，若環(huán)繞火場(chǎng)的無(wú)人機(jī)數(shù)量N發(fā)生變化時(shí)，則需要重新計(jì)算各無(wú)人機(jī)tacc,i和tdec,i，并立即執(zhí)行對(duì)應(yīng)定時(shí)加減速飛行。在上述算法的設(shè)計(jì)中，為了獲得每一圈標(biāo)準(zhǔn)的里程集合Lall，1號(hào)無(wú)人機(jī)UAV1始終以巡航空速Vc環(huán)繞火場(chǎng)。綜上可知，隨著無(wú)人機(jī)依次抵達(dá)里程記錄起止點(diǎn)并觸發(fā)所有無(wú)人機(jī)定時(shí)加減速操作，無(wú)人機(jī)群將逐步實(shí)現(xiàn)環(huán)繞火場(chǎng)路徑時(shí)域上的動(dòng)態(tài)均勻分布。

然后，針對(duì)航向控制權(quán)重的生成，本文考慮風(fēng)速對(duì)無(wú)人機(jī)航向的影響，策略層算法通過(guò)在特定時(shí)間點(diǎn)改變航向控制權(quán)重值，實(shí)現(xiàn)無(wú)人機(jī)火場(chǎng)環(huán)繞與進(jìn)出任務(wù)區(qū)行動(dòng)間的切換，其對(duì)應(yīng)的權(quán)值(w1,w2,w3)為

(19)

式中：ka和kp為控制量比例系數(shù)，用于調(diào)整風(fēng)速修正項(xiàng)在航向控制vi的比例，系數(shù)的大小與風(fēng)速大小相關(guān)。ka具體數(shù)值的計(jì)算將在實(shí)驗(yàn)部分給出，kp由于進(jìn)出任務(wù)區(qū)控制的簡(jiǎn)化，將不在本文中具體討論。

4 仿真實(shí)驗(yàn)與結(jié)果分析

本文使用Unity[24]作為仿真實(shí)驗(yàn)平臺(tái)，并使用ML-agents工具箱[25]實(shí)現(xiàn)基于PPO算法的神經(jīng)網(wǎng)絡(luò)訓(xùn)練。

如圖9所示，Unity中大地直角坐標(biāo)系為左手坐標(biāo)系，無(wú)人機(jī)航跡坐標(biāo)軸及無(wú)人機(jī)運(yùn)動(dòng)模型變量(xi,yi,zi,φi,ψi)的定義如圖9所示。對(duì)于質(zhì)心處在點(diǎn)oi的無(wú)人機(jī)UAVi，航跡軸zk,i指向無(wú)人機(jī)的地速方向，xk,i始終與水平面平行。

圖9 Unity平臺(tái)下坐標(biāo)系說(shuō)明

為了充分驗(yàn)證本文提出的多無(wú)人機(jī)分布式火場(chǎng)偵察控制算法，林火蔓延仿真部分沿用SVICA模型復(fù)現(xiàn)的希臘斯佩特塞斯島1990年森林火災(zāi)的案例[19]。仿真的結(jié)果如圖10所示，隨著仿真的進(jìn)行，從起火點(diǎn)向外，每小時(shí)火帶位置與形狀被記錄下來(lái)，最終仿真的11小時(shí)過(guò)火面積與真實(shí)過(guò)火面積誤差在3.22%[19]，仿真的火焰蔓延行為具有較高的可信度。同時(shí)，對(duì)于無(wú)人機(jī)飛行的影響因素，本文繼續(xù)沿用案例[19]構(gòu)建的島嶼三維地形及風(fēng)速設(shè)定，三維地形如圖11所示，風(fēng)場(chǎng)為均勻水平北風(fēng)，風(fēng)速為10 m/s。

基于表2所列參數(shù)值，將首先在無(wú)風(fēng)情況下完成地形跟隨與火場(chǎng)環(huán)繞兩個(gè)ANN的訓(xùn)練，之后在考慮風(fēng)速情況下，通過(guò)實(shí)驗(yàn)獲取最佳的航向控制量比例系數(shù)ka，最終完成整個(gè)多無(wú)人機(jī)分布式控制架構(gòu)。最后，通過(guò)一系列的動(dòng)態(tài)火場(chǎng)蔓延偵察實(shí)驗(yàn)，驗(yàn)證本文提出的控制方法。

圖10 SVICA林火蔓延仿真結(jié)果

圖11 Unity中斯佩特塞斯島嶼三維地形

表2 仿真參數(shù)列表

在進(jìn)行環(huán)繞火場(chǎng)ANN訓(xùn)練之前，首先在如圖10所示的三維地形上，使用5架相鄰的無(wú)人機(jī)以不同的隨機(jī)初始高度按照式(10)給出的獎(jiǎng)勵(lì)值，通過(guò)PPO算法進(jìn)行3倍速仿真加速學(xué)習(xí)。以2 000步為一個(gè)訓(xùn)練周期，共20萬(wàn)步的ANN學(xué)習(xí)情況如圖12(a)所示。

圖12 ANN訓(xùn)練結(jié)果

其后，結(jié)合訓(xùn)練好的地形跟隨ANN，在圖13所示的2小時(shí)(自起火計(jì)時(shí))仿真蔓延形成的靜態(tài)火場(chǎng)，進(jìn)行火場(chǎng)環(huán)繞ANN的訓(xùn)練。在兩個(gè)重置坐標(biāo)ps1和ps2以及對(duì)應(yīng)重置航向上，各放飛5架無(wú)人機(jī)，并按照式(11)給出的獎(jiǎng)勵(lì)值，同樣使用PPO算法進(jìn)行3倍速仿真加速學(xué)習(xí)?？傆?jì)20萬(wàn)步的強(qiáng)化學(xué)習(xí)仍以2 000步為一個(gè)周期，火場(chǎng)環(huán)繞ANN的訓(xùn)練結(jié)果如圖12(b)所示。

圖13 ANN訓(xùn)練用仿真靜態(tài)火場(chǎng)

基于無(wú)風(fēng)條件下完成訓(xùn)練的地形跟隨與火場(chǎng)環(huán)繞兩個(gè)ANN，在10 m/s北風(fēng)條件下，使用圖13所示靜態(tài)火場(chǎng)，以不同的控制量比例系數(shù)ka，在對(duì)應(yīng)pm處順時(shí)針?lè)棚w單無(wú)人機(jī)UAV1，通過(guò)實(shí)時(shí)仿真(未加速)，研究其一周最近火場(chǎng)測(cè)距min(R1)的變化情況，其標(biāo)準(zhǔn)差與平均值的實(shí)驗(yàn)結(jié)果如圖14所示。

考慮到參考探測(cè)距離為100 m，ka在0.92處取得最小的最近測(cè)距標(biāo)準(zhǔn)差15.64 m以及局部較大的平均值93.50 m。為了保證風(fēng)速影響下無(wú)人機(jī)環(huán)繞火場(chǎng)的距離穩(wěn)定性，本文在后續(xù)實(shí)驗(yàn)中，令ka=0.92。至此，面向林火持續(xù)偵察的多無(wú)人機(jī)分布式控制架構(gòu)完成構(gòu)建，下面將通過(guò)一系列仿真實(shí)驗(yàn)對(duì)該架構(gòu)進(jìn)行驗(yàn)證與分析。

圖14 不同ka對(duì)火場(chǎng)環(huán)繞的影響

假設(shè)所有無(wú)人機(jī)在火場(chǎng)蔓延兩小時(shí)開(kāi)始自圖13所示的任務(wù)區(qū)集結(jié)點(diǎn)pm按圖示方向順時(shí)針進(jìn)入火場(chǎng)，初始速度為Vc，以第1個(gè)無(wú)人機(jī)進(jìn)入火場(chǎng)時(shí)刻為計(jì)時(shí)零點(diǎn)，無(wú)人機(jī)之間進(jìn)入時(shí)間間隔為Tgap。根據(jù)無(wú)人機(jī)發(fā)射回收設(shè)定，當(dāng)無(wú)人機(jī)由于航程Lmax限制自動(dòng)脫離環(huán)繞序列，假設(shè)立刻有一無(wú)人機(jī)自脫離位置補(bǔ)充進(jìn)偵察隊(duì)列。

在檢驗(yàn)多無(wú)人機(jī)火場(chǎng)協(xié)同偵察之前，先通過(guò)單無(wú)人機(jī)UAV1的動(dòng)態(tài)火場(chǎng)環(huán)繞飛行實(shí)時(shí)仿真，測(cè)試無(wú)人機(jī)行動(dòng)層控制的效果。單無(wú)人機(jī)UAV1在第一圈環(huán)繞火場(chǎng)的爬升與航向角控制情況如下。

如圖15所示，在行動(dòng)層控制模塊的作用下，無(wú)人機(jī)UAV1能夠在參考飛行真高Hr=50 m上下約1 m范圍內(nèi)保持定高飛行，在參考探測(cè)距離Rr=100 m上下約40 m范圍內(nèi)保持與火場(chǎng)的水平距離，且大于無(wú)人機(jī)安全距離Rs=40 m。由此可見(jiàn)，在風(fēng)速及動(dòng)態(tài)火場(chǎng)不規(guī)則外形等因素的共同作用下，無(wú)人機(jī)的航向探測(cè)距離的維持雖然波動(dòng)較大，但基本滿足飛行安全約束。圖16通過(guò)正交與透視投影直觀展示了無(wú)人機(jī)UAV1火場(chǎng)環(huán)繞的三維航跡線。

圖15 無(wú)人機(jī)UAV1爬升和航向控制情況

在行動(dòng)層火場(chǎng)環(huán)繞與地形跟隨功能完成驗(yàn)證的基礎(chǔ)上，下面測(cè)試多無(wú)人機(jī)路徑時(shí)域均勻分布算法的有效性以及對(duì)無(wú)人機(jī)數(shù)量變化的動(dòng)態(tài)適應(yīng)。

圖16 無(wú)人機(jī)UAV1環(huán)繞火場(chǎng)第一圈航跡線

假定5架無(wú)人機(jī)按照Tgap=10 s的時(shí)間間隔從pm依次發(fā)射，分別進(jìn)行2次持續(xù)時(shí)間1 000 s的5倍速超實(shí)時(shí)仿真實(shí)驗(yàn)：一個(gè)保持5架無(wú)人機(jī)初始出動(dòng)間隔作為對(duì)照組實(shí)驗(yàn)，另一個(gè)使用本文提出的均勻分布方法控制無(wú)人機(jī)適當(dāng)加減速。兩次實(shí)驗(yàn)記錄的3個(gè)火場(chǎng)協(xié)同偵察效能指標(biāo)的變化情況如圖17和圖18所示。

圖17 效能指標(biāo)Tmax的變化情況

圖18 效能指標(biāo)E和S的變化情況

從圖17和圖18可知，當(dāng)1號(hào)無(wú)人機(jī)在115.2 s完成第1圈偵察之前，所有無(wú)人機(jī)保持初始的出動(dòng)間隔環(huán)繞火場(chǎng)，2次實(shí)驗(yàn)對(duì)應(yīng)的火線偵測(cè)延時(shí)期望E和標(biāo)準(zhǔn)差S以及偵測(cè)延時(shí)最大值Tmax的變化相同。對(duì)于使用時(shí)域均勻分布方法的那5架無(wú)人機(jī)，當(dāng)1號(hào)無(wú)人機(jī)在115.2 s跨過(guò)里程記錄起止點(diǎn)后，方法開(kāi)始控制無(wú)人機(jī)群進(jìn)行適當(dāng)?shù)募訙p速以完成時(shí)間間隔上的均勻分布。可見(jiàn)經(jīng)過(guò)后續(xù)2周的動(dòng)態(tài)調(diào)整，當(dāng)1號(hào)無(wú)人機(jī)在341.9 s第3次跨過(guò)里程記錄起止點(diǎn)后，火場(chǎng)協(xié)同偵察效能指標(biāo)的變化趨于穩(wěn)定，并以相鄰2個(gè)無(wú)人機(jī)時(shí)間間隔為周期小幅震蕩，且都隨著火場(chǎng)面積的增大有小幅度的增漲趨勢(shì)。反觀沒(méi)有使用均勻分布方法的那5架無(wú)人機(jī)火場(chǎng)偵察結(jié)果，由于風(fēng)速造成無(wú)人機(jī)地速的不一致性與無(wú)人機(jī)群的相對(duì)密集的分布，對(duì)應(yīng)的3個(gè)效能指標(biāo)都在115.2 s后呈現(xiàn)大幅度周期性震蕩，且震蕩周期與無(wú)人機(jī)環(huán)繞火場(chǎng)一周用時(shí)基本一致。

2次實(shí)驗(yàn)分別取342～1 000 s的結(jié)果進(jìn)行統(tǒng)計(jì)，可得使用均勻分布方法的5架無(wú)人機(jī)E的平均值為2.66 s，S的均值為3.78 s，Tmax的均值為13.84 s，分別遠(yuǎn)遠(yuǎn)小于未使用均勻分布方法E的平均值17.03 s、S的均值19.74 s以及Tmax的61.98 s。穩(wěn)定且較小的E、S和Tmax意味著，每個(gè)火線區(qū)塊被無(wú)人機(jī)群以較小時(shí)間間隔均勻的探測(cè)，無(wú)人機(jī)群的火場(chǎng)偵察能力得到了較為充分的利用。

在此基礎(chǔ)上，考慮無(wú)人機(jī)的數(shù)量的變化對(duì)均勻分布方法效果的影響。同樣使用5架無(wú)人機(jī)進(jìn)行2次持續(xù)1 000 s的5倍速超實(shí)時(shí)仿真實(shí)驗(yàn)。在都使用均勻分布方法的情況下，一次實(shí)驗(yàn)在第500 s時(shí)去掉隊(duì)列編號(hào)為2的無(wú)人機(jī)，另一個(gè)實(shí)驗(yàn)于第500 s時(shí)在pm處再加入1架無(wú)人機(jī)。

實(shí)驗(yàn)結(jié)果如圖19和圖20所示，在無(wú)人機(jī)群已處于穩(wěn)定均勻分布情況下，添加或去除一個(gè)無(wú)人機(jī)，偵測(cè)延時(shí)期望E和標(biāo)準(zhǔn)差S在經(jīng)過(guò)一定時(shí)間的震蕩，在約600 s后趨于穩(wěn)定，無(wú)人機(jī)群重新恢復(fù)到當(dāng)前數(shù)量下的穩(wěn)定均勻分布狀態(tài)。具體而言，使用兩次測(cè)試600～1 000 s數(shù)據(jù)進(jìn)行統(tǒng)計(jì)，并與圖17與圖18(b)所示的未改變無(wú)人機(jī)數(shù)量的情況作對(duì)比：補(bǔ)充一個(gè)無(wú)人機(jī)后，6架無(wú)人機(jī)偵察下E的平均值下降到1.57 s，S的均值降為2.55 s，Tmax的均值將至10.23 s；損失1個(gè)無(wú)人機(jī)后，在4架無(wú)人機(jī)偵察下E的平均值增加到為5.00 s，S的均值增至5.93 s，Tmax的均值增加到20.12 s。

圖19 無(wú)人機(jī)補(bǔ)充或損失情況下E和S的變化情況

圖20 無(wú)人機(jī)補(bǔ)充或損失情況下效能指標(biāo)Tmax的變化情況

通過(guò)上述實(shí)驗(yàn)可知，本文提出的分布式控制方法可實(shí)現(xiàn)無(wú)人機(jī)群火場(chǎng)環(huán)繞路徑上時(shí)域的動(dòng)態(tài)分布，且對(duì)于無(wú)人機(jī)數(shù)量的變化具有較高的魯棒性。下面通過(guò)一系列5倍速超實(shí)時(shí)仿真實(shí)驗(yàn)具體研究無(wú)人機(jī)數(shù)量對(duì)火場(chǎng)偵察效能的影響。

由圖21可知，無(wú)人機(jī)單周環(huán)繞火場(chǎng)路徑長(zhǎng)度在這1 000 s仿真過(guò)程中呈線性增長(zhǎng)，線性增長(zhǎng)率約為0.37 m/s，進(jìn)而可推知火場(chǎng)邊界線的長(zhǎng)度在上述仿真過(guò)程中也呈線性增長(zhǎng)趨勢(shì)。在這種火場(chǎng)擴(kuò)張近似穩(wěn)定情況下，由表3所列的10次實(shí)驗(yàn)可以得出，隨著無(wú)人機(jī)數(shù)量的增加，3個(gè)協(xié)同火場(chǎng)偵察效能指標(biāo)快速下降，火場(chǎng)的態(tài)勢(shì)感知的實(shí)時(shí)性與均勻性顯著提高。

表3 無(wú)人機(jī)數(shù)量變化對(duì)效能指標(biāo)影響

圖21 10架UAV均勻分布方法單周標(biāo)準(zhǔn)里程變化

表4 無(wú)有效覆蓋半徑rcover計(jì)算結(jié)果

(20)

圖22 2小時(shí)持續(xù)偵察測(cè)試結(jié)果

由圖22實(shí)驗(yàn)結(jié)果可知，在500～7 200 s的無(wú)人機(jī)群環(huán)繞火場(chǎng)持續(xù)偵察實(shí)驗(yàn)中，上述出動(dòng)回收策略按照指定閾值T′max控制無(wú)人機(jī)的補(bǔ)充，分別在第1 075 s、3 195 s和5 604 s各增加了一架增援無(wú)人機(jī)。具體而言，由于航程限制，初始的5架無(wú)人機(jī)都進(jìn)行了4次替換，后3架增援無(wú)人機(jī)分別進(jìn)行了3次、2次和0次替換，2小時(shí)持續(xù)偵察實(shí)驗(yàn)總共投入28架次無(wú)人機(jī)。參考圖22中虛線標(biāo)注的區(qū)域，由于火場(chǎng)的不規(guī)則蔓延，部分火線區(qū)塊被包含在已經(jīng)燃盡的區(qū)塊內(nèi)部，且超出環(huán)繞火場(chǎng)無(wú)人機(jī)的偵測(cè)距離，在其自動(dòng)熄滅前造成了Tmax的異常增高(特別是2 749 s到3 157 s區(qū)間內(nèi)，Tmax一度達(dá)到279 s)，進(jìn)而使全局的E和S顯著增高。實(shí)際情況中，被過(guò)火區(qū)域包圍的火線不具有安全威脅，這些異常增高區(qū)間可忽略。

在持續(xù)2小時(shí)的火場(chǎng)偵察中，無(wú)人機(jī)單周標(biāo)準(zhǔn)里程估計(jì)由最初的3 163.0 m增加到了5 493.3 m，上述無(wú)人機(jī)出動(dòng)回收規(guī)則首先較好的估計(jì)了Tmax的增長(zhǎng)趨勢(shì)，其次適時(shí)出動(dòng)的增援無(wú)人機(jī)，使得3個(gè)偵察指標(biāo)控制在了可接受的范圍內(nèi)。實(shí)驗(yàn)結(jié)果充分證明了本文提出的多無(wú)人機(jī)分布式控制方法在動(dòng)態(tài)火場(chǎng)持續(xù)偵察上的可行性與有效性。

5 結(jié) 論

1) 在作者以往林火蔓延仿真研究的基礎(chǔ)上，通過(guò)對(duì)無(wú)人機(jī)及傳感器的建模，完成了較為復(fù)雜的仿真環(huán)境的構(gòu)建。在此基礎(chǔ)上，提出了多無(wú)人機(jī)持續(xù)火場(chǎng)偵察的效能指標(biāo)。

2) 建立了多無(wú)人機(jī)分布式雙層控制架構(gòu)，并基于PPO強(qiáng)化學(xué)習(xí)算法完成了無(wú)人機(jī)行動(dòng)層火場(chǎng)環(huán)繞與地形跟隨兩個(gè)ANN訓(xùn)練，并通過(guò)人工抗風(fēng)修正方法實(shí)現(xiàn)了無(wú)人機(jī)基于局部偵察信息的自主火場(chǎng)環(huán)繞。在此基礎(chǔ)上，提出了多無(wú)人機(jī)火場(chǎng)偵察時(shí)域均勻分布的速度調(diào)整方法，實(shí)現(xiàn)對(duì)無(wú)人機(jī)群在數(shù)量可變情況下，等時(shí)間間隔火場(chǎng)環(huán)繞的動(dòng)態(tài)控制。

3) 通過(guò)一系列仿真實(shí)驗(yàn)與效能指標(biāo)分析，本文提出的多無(wú)人機(jī)分布式控制方法得到充分的驗(yàn)證。在此基礎(chǔ)上，通過(guò)對(duì)無(wú)人機(jī)數(shù)量與火場(chǎng)偵察效能的分析，提出了無(wú)人機(jī)出動(dòng)閾值的概念，并通過(guò)長(zhǎng)時(shí)間的仿真火場(chǎng)偵察實(shí)驗(yàn)，綜合驗(yàn)證了本文提出的多無(wú)人機(jī)分布式控制架構(gòu)在火場(chǎng)持續(xù)偵察任務(wù)中的可行性。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放