蔡云鵬,周大鵬,丁江川
航空工業(yè)沈陽飛機(jī)設(shè)計研究所,沈陽 110035
隨著科學(xué)技術(shù)的發(fā)展進(jìn)步,無人機(jī)(Unmanned Aerial Vehicle,UAV)已在軍事和民用方面發(fā)揮著重要的作用。相比于單個無人機(jī),由多架無人機(jī)組成的無人機(jī)集群具備更強(qiáng)的生存能力與環(huán)境適應(yīng)能力,可以執(zhí)行協(xié)同搜索、目標(biāo)跟蹤、目標(biāo)圍捕[1]、集群對抗等更加復(fù)雜的任務(wù)。無人機(jī)集群協(xié)同控制技術(shù)作為實現(xiàn)無人機(jī)集群協(xié)同能力的關(guān)鍵技術(shù),已受到廣泛的關(guān)注研究[2]。在無人機(jī)集群協(xié)同控制方法的研究中,已形成了傳統(tǒng)協(xié)同控制方法、基于群體智能算法的協(xié)同控制方法以及基于深度強(qiáng)化學(xué)習(xí)的協(xié)同控制方法[3]等多種方法體系。
傳統(tǒng)的無人機(jī)集群協(xié)同控制方法主要側(cè)重于無人機(jī)集群的編隊控制,比較成熟的方法包括基于領(lǐng)-從架構(gòu)的編隊控制方法[4]、基于虛擬結(jié)構(gòu)的無人機(jī)編隊軌跡跟蹤控制方法,基于滑模編隊控制方法[5]、基于一致性理論的編隊控制方法[6]等。文獻(xiàn)[7]基于領(lǐng)-從式架構(gòu)提出一種四旋翼控制方法實現(xiàn)了從機(jī)的隊形控制器,其基于積分反步法設(shè)計了領(lǐng)機(jī)的軌跡跟蹤控制器,基于滑模控制方法實現(xiàn)了從機(jī)的隊形控制器。文獻(xiàn)[8]通過設(shè)計“長機(jī)層”和“僚機(jī)層”實現(xiàn)了對大規(guī)模無人機(jī)集群的協(xié)同控制,其中通過控制集群中各群組中的長機(jī)跟蹤期望路徑實現(xiàn)群組間的協(xié)同,群組內(nèi)的協(xié)同通過控制群組內(nèi)僚機(jī)跟隨其長機(jī)實現(xiàn)。文獻(xiàn)[9]基于虛擬結(jié)構(gòu)法設(shè)計了無人機(jī)編隊控制器,通過非線性模型預(yù)測控制方法實現(xiàn)了無人機(jī)的編隊控制與安全避障。
基于群體智能算法的協(xié)同控制方法受到自然界中鳥群、魚群等群居生物的啟發(fā),形成了更為靈活的集群協(xié)同控制方法[10-11]。文獻(xiàn)[12]基于寒鴉群配對飛行行為機(jī)制提出一種無人機(jī)集群編隊控制方法,通過設(shè)計無人機(jī)配對交互時的鄰居選擇機(jī)制,能有效解決無人機(jī)集群運(yùn)動的一致性問題并且減小無人機(jī)集群的通信負(fù)載。文獻(xiàn)[13]基于量子行為改進(jìn)的鴿群優(yōu)化算法實現(xiàn)了無人機(jī)集群的緊密編隊控制器。文獻(xiàn)[14]提出了一種復(fù)合的無人機(jī)集群控制方法,其基于人工勢場法設(shè)計了3 種集群行為,并且建立了基于狀態(tài)的集群行為模式切換邏輯,可有效解決無人機(jī)集群控制中面臨的不完全約束、速度限制、機(jī)間避碰等問題。文獻(xiàn)[15]通過考慮聚合、避碰等影響集群效果的序參數(shù)設(shè)計了無人機(jī)集群控制模型,并且采用進(jìn)化算法對其進(jìn)行了求解,獲得的集群控制器可有效應(yīng)用到實際的無人機(jī)集群控制中。
雖然以上傳統(tǒng)協(xié)同控制方法和基于群體智能算法的協(xié)同控制方法可在較為簡單的場景中對無人機(jī)集群進(jìn)行有效的控制,但是受限于其規(guī)則化的控制策略,其難以應(yīng)用于復(fù)雜的任務(wù)環(huán)境,還需進(jìn)一步提升無人機(jī)集群控制策略的智能自主性。近年來,隨著深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)[16]在各個領(lǐng)域表現(xiàn)出一定的智能性及較好的應(yīng)用效果[17],其在集群控制領(lǐng)域也備受關(guān)注。文獻(xiàn)[18]結(jié)合領(lǐng)-從式架構(gòu)和Q-學(xué)習(xí)(Q-Learning)方法提出一種固定翼無人機(jī)集群控制方法,構(gòu)建的控制策略使得從機(jī)與主機(jī)保持一定的范圍,并且滿足分離、聚合以及對齊的集群規(guī)則。但是構(gòu)建的控制策略并沒有考慮機(jī)間避碰,無人機(jī)之間的避碰通過高度分層實現(xiàn)。文獻(xiàn)[19]基于深度策略梯度算法構(gòu)建了四旋翼無人機(jī)集群的控制策略,可使得無人機(jī)集群在大規(guī)模復(fù)雜環(huán)境中導(dǎo)航。文獻(xiàn)[20]基于演員-評論家算法在連續(xù)空間下構(gòu)建了無人機(jī)的集群控制策略,其可以將從機(jī)控制在主機(jī)的一定范圍內(nèi)。然而這種方法僅通過設(shè)計獎勵函數(shù)的方式考慮機(jī)間避碰約束,是一種“軟”約束,無人機(jī)之間仍然有較大的可能發(fā)生碰撞。
綜上所述,目前傳統(tǒng)的無人機(jī)集群協(xié)同控制方法與基于群體智能算法的協(xié)同控制方法較為依賴無人機(jī)模型與環(huán)境模型,其規(guī)則化的集群控制策略缺乏較好的智能自主性,難以應(yīng)用于復(fù)雜動態(tài)的任務(wù)環(huán)境。雖然以深度強(qiáng)化學(xué)習(xí)為代表的基于學(xué)習(xí)的無人機(jī)集群協(xié)同控制方法可不依賴模型構(gòu)建較為靈活自主的集群控制策略,但其構(gòu)建的基于深度神經(jīng)網(wǎng)絡(luò)的集群控制策略為一黑箱模型,缺乏安全性保證,無法應(yīng)用于實際任務(wù)中。針對以上問題,本文將基于深度強(qiáng)化學(xué)習(xí)方法構(gòu)建無人機(jī)集群的協(xié)同控制策略,通過強(qiáng)化學(xué)習(xí)[21]的交互式訓(xùn)練方法構(gòu)建出較為靈活的協(xié)同控制策略。同時,基于固定規(guī)則設(shè)計無人機(jī)防撞策略實現(xiàn)無人機(jī)的機(jī)間避碰與環(huán)境障礙避碰能力,為無人機(jī)集群的安全性提供較為可靠的保障。通過這種方式,可構(gòu)建出具有一定智能自主性且具有安全性保障的無人機(jī)集群控制策略。
本文針對固定翼無人機(jī)集群的協(xié)同控制問題展開研究,重點(diǎn)關(guān)注無人機(jī)集群協(xié)同控制過程中的智能性與安全性。具體地,考慮一個由N個無人機(jī)組成的無人機(jī)集群,在具有多個威脅區(qū)的環(huán)境中飛行,需要構(gòu)建無人機(jī)集群控制策略,使得無人機(jī)集群在飛行過程中智能自主地形成緊密編隊,并且躲避開環(huán)境中存在的威脅區(qū)以及避免發(fā)生機(jī)間避碰。該問題的主要難點(diǎn)在于如何在緊密編隊與無人機(jī)集群的安全性之間達(dá)到平衡,并且設(shè)計一種分布式的方法,使得各無人機(jī)智能自主地形成一個緊密編隊,在不需要額外指定隊形的情況下使得無人機(jī)集群具備更好的魯棒性與適應(yīng)性。
本文考慮無人機(jī)集群在三維空間中的集群控制問題,由于不涉及無人機(jī)的內(nèi)環(huán)控制過程,因此采用以下簡化的無人機(jī)運(yùn)動模型模擬無人機(jī)在三維空間中的運(yùn)動過程:
式中:(x,y,z)表示無人機(jī)在三維直角坐標(biāo)系O-XYZ下的位置;vH表示無人機(jī)在水平面O-XY上的投影速度,即水平速度;vz表示無人機(jī)在OZ軸上的分量速度;ψ表示速度vH與OX軸的夾角;表示無人機(jī)水平速度的控制指令;ψc表示無人機(jī)的航向控制指令;zc表示無人機(jī)的高度控制指令;表示與無人機(jī)動力學(xué)特性相關(guān)的時間常數(shù)。
針對第1 節(jié)提出的無人機(jī)集群協(xié)同控制問題,本文采用深度強(qiáng)化學(xué)習(xí)方法與基于規(guī)則的機(jī)間防撞策略構(gòu)建無人機(jī)集群的協(xié)同控制策略。其中,基于深度強(qiáng)化學(xué)習(xí)的自學(xué)習(xí)自訓(xùn)練架構(gòu)構(gòu)建較為智能的無人機(jī)集群協(xié)同控制策略,基于規(guī)則的機(jī)間防撞策略為無人機(jī)集群的安全性提供較為可靠的保障。圖1 為本文提出的集群協(xié)同控制架構(gòu)。其中,采用深度神經(jīng)網(wǎng)絡(luò)構(gòu)建無人機(jī)集群的協(xié)同控制策略,其輸入為無人機(jī)觀測到的環(huán)境狀態(tài)s,輸出為控制無人機(jī)運(yùn)動的控制指令a,在每一步與環(huán)境的交互過程中,首先判斷無人機(jī)是否處于安全狀態(tài),若無人機(jī)處于安全狀態(tài),則采用深度神經(jīng)網(wǎng)絡(luò)輸出的控制指令控制無人機(jī)運(yùn)動,反之則采取機(jī)間防撞策略給出的控制指令as控制無人機(jī),避免無人機(jī)發(fā)生碰撞。這種方式一方面可在訓(xùn)練過程中為無人機(jī)集群控制策略的訓(xùn)練提供較高質(zhì)量的交互經(jīng)驗,另一方面可在實際飛行過程中為無人機(jī)提供可靠的安全保障。
圖1 無人機(jī)集群協(xié)同控制架構(gòu)Fig.1 UAV swarm collaborative control architecture
在基于深度強(qiáng)化學(xué)習(xí)方法構(gòu)建集群協(xié)同控制策略的過程中,首先將集群協(xié)同控制策略構(gòu)建為參數(shù)為θ的深度神經(jīng)網(wǎng)絡(luò)πθ,其次通過強(qiáng)化學(xué)習(xí)的交互式訓(xùn)練方式訓(xùn)練網(wǎng)絡(luò)參數(shù)θ,使得集群控制策略的能力滿足需求。在交互式訓(xùn)練過程中,無人機(jī)首先從飛行環(huán)境中獲得觀測狀態(tài)s,然后根據(jù)策略πθ選擇執(zhí)行動作a~πθ(s),執(zhí)行動作a之后,無人機(jī)觀測到改變之后的環(huán)境狀態(tài)s′并且獲得對其動作的獎勵值r。在強(qiáng)化學(xué)習(xí)框架下,集群控制策略訓(xùn)練的目標(biāo)是學(xué)習(xí)到最優(yōu)策略a~πθ?(s),使得無人機(jī)在一個任務(wù)周期中獲得的累積折扣獎勵最大。其中,累積折扣獎勵值計算公式為
式中:Gt表示t時刻無人機(jī)可獲得的累積折扣獎勵;rt+k+1表示在t+k+1 時刻無人機(jī)獲得的獎勵值;γ(0<γ<1)為折扣因子。
2.2.1 觀測空間與動作空間
集群協(xié)同控制策略的網(wǎng)絡(luò)結(jié)構(gòu)與無人機(jī)的觀測狀態(tài)和動作指令密切相關(guān),因此,在介紹集群協(xié)同控制策略的網(wǎng)絡(luò)結(jié)構(gòu)之前,先介紹無人機(jī)的觀測空間與動作空間。
無人機(jī)的觀測狀態(tài)s主要包含3 個部分:無人機(jī)與目標(biāo)點(diǎn)的相對位置關(guān)系sg;無人機(jī)與其鄰近無人機(jī)之間的相對運(yùn)動狀態(tài)sn;以及無人機(jī)與環(huán)境中威脅區(qū)的相對位置關(guān)系so。
sg=其中表示無人機(jī)與目標(biāo)點(diǎn)的水平距離;Δ?g表示無人機(jī)航向與無人機(jī)指向目標(biāo)點(diǎn)的方向的夾角;Δzg表示無人機(jī)與目標(biāo)點(diǎn)的高度差。
綜上所述,無人機(jī)的觀測狀態(tài)s(s∈R24)為24 維的高維向量。
2.2.2 網(wǎng)絡(luò)結(jié)構(gòu)
集群協(xié)同控制策略網(wǎng)絡(luò)πθ將無人機(jī)觀察狀態(tài)s映射為無人機(jī)的控制指令a,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。由圖2(a)可知,網(wǎng)絡(luò)πθ共有3 層網(wǎng)絡(luò),前兩層網(wǎng)絡(luò)為分別具有128 節(jié)點(diǎn)與256 個節(jié)點(diǎn)的全連接網(wǎng)絡(luò),激活函數(shù)均為線性整流函數(shù)(Rectified Linear Unit,ReLU)。第3 層網(wǎng)絡(luò)具有2 路結(jié)構(gòu),第1 路具有3 個線性處理節(jié)點(diǎn),這一路輸出控制指令的平均值;第2 路具有3 個線性處理節(jié)點(diǎn),輸出控制指令的對數(shù)標(biāo)準(zhǔn)差alnstd。
圖2 網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Networks structure
式中:“⊙”表示向量對應(yīng)元素相乘。
2.2.3 獎勵函數(shù)
由式(2)可知,獎勵函數(shù)對策略的訓(xùn)練過程至關(guān)重要,其決定著訓(xùn)練出的策略所具備的能力??紤]1.1 節(jié)描述的集群協(xié)同控制問題,本文據(jù)此建立的無人機(jī)集群協(xié)同控制策略的獎勵函數(shù)為
2.2.4 訓(xùn)練算法
鑒于軟演員-評論家(Soft Actor-Critic,SAC)[22]算法在一系列連續(xù)控制任務(wù)中具有很好的性能表現(xiàn),本文采用SAC 算法訓(xùn)練無人機(jī)集群協(xié)同控制策略。SAC 算法是一種基于最大熵強(qiáng)化學(xué)習(xí)方法的算法,智能體在最大化累積獎勵的同時在最大化策略熵,即通過最大化以下性能函數(shù)獲得最優(yōu)的策略:
式中:ρπ表示在策略π下的動作狀態(tài)軌跡分布;H(π(?|st))表示策略π 的熵;α為調(diào)節(jié)參數(shù);用于平衡獎勵與策略熵之間的權(quán)重。
在SAC 架構(gòu)下,t時刻的狀態(tài)值函數(shù)計算式為
式中:Q(st,at)表示狀態(tài)-動作對(st,at)的值函數(shù),也稱為Q 值函數(shù),表示在狀態(tài)為st時執(zhí)行動作at之后可獲得的回報值,計算式為
在本文的集群協(xié)同控制策略訓(xùn)練過程中,將Q 值函數(shù)通過參數(shù)為?的深度神經(jīng)網(wǎng)絡(luò)表示為Q?(s,a),如圖2(b)所示。
在策略訓(xùn)練過程中,策略網(wǎng)絡(luò)參數(shù)θ通過最小化以下?lián)p失函數(shù)更新:
式中:D表示收集到的無人機(jī)與環(huán)境的交互數(shù)據(jù)集。
Q 值函數(shù)的參數(shù)?可通過最小化以下?lián)p失函數(shù)更新:
在以上深度強(qiáng)化學(xué)習(xí)架構(gòu)下訓(xùn)練無人機(jī)集群控制策略以及實際使用訓(xùn)練好的無人機(jī)集群控制策略時,由于無人機(jī)集群控制策略的計算過程包含深度神經(jīng)網(wǎng)絡(luò)計算過程以及式(4)所示的采樣過程,其計算出的集群控制指令具有一定的不確定性。因此在策略訓(xùn)練以及實際應(yīng)用策略的過程中無法可靠地保障無人機(jī)的安全性。不具備安全性保障是嚴(yán)重制約深度強(qiáng)化學(xué)習(xí)方法實際應(yīng)用的一個主要原因[23-24]。為此,本文在以上基于深度強(qiáng)化學(xué)習(xí)架構(gòu)的基礎(chǔ)上增加基于規(guī)則的防撞策略,如算法1 所示,為無人機(jī)集群控制策略的實際應(yīng)用提供可靠保障。
首先,考慮無人機(jī)之間的防撞策略。不失一般性地,以當(dāng)前無人機(jī)的位置為原點(diǎn)O,飛行速度v所在方向為x軸,與速度v所在的水平面垂直且指向上的方向為z軸,由右手坐標(biāo)系構(gòu)建y軸,以此構(gòu)建當(dāng)前無人機(jī)的速度坐標(biāo)系,如圖3 所示。在當(dāng)前無人機(jī)速度坐標(biāo)系O-xyz下使用pi和vi表示無人機(jī)i相對當(dāng)前無人機(jī)的位置與速度矢量,則無人機(jī)i對應(yīng)的避碰指令計算式為
圖3 無人機(jī)相對運(yùn)動狀態(tài)示意圖Fig.3 Schematic diagram of relative motion states of UAVs
由式(18)可知,當(dāng)機(jī)間有相互靠近的趨勢時,kvr為<0 的數(shù)值,反之為0,這樣可以避免在機(jī)間沒有相互靠近趨勢時計算由機(jī)間相對速度引起的避碰指令。
其次,對于環(huán)境中的威脅區(qū),可以將無人機(jī)距離其邊界最近的點(diǎn)視為一個假想無人機(jī),這樣可通過式(17)將無人機(jī)之間的防撞與無人機(jī)和威脅區(qū)的防撞進(jìn)行統(tǒng)一。此外,考慮到無人機(jī)躲避威脅區(qū)時需要提前進(jìn)行規(guī)避,因此設(shè)定的對于威脅區(qū)的安全距離一般要大于機(jī)間安全距離因此,同時考慮無人機(jī)集群與環(huán)境中存在的各威脅區(qū)時,當(dāng)前無人機(jī)的防撞指令為
式中:i和j分別表示在設(shè)定的安全范圍之內(nèi)的無人機(jī)下標(biāo)與威脅區(qū)對應(yīng)的假想無人機(jī)下標(biāo)。
最后,通過下式將無人機(jī)防撞指令Δc映射到控制無人機(jī)的速度、航向以及高度指令:
式中:Δcx、Δcy、Δcz分別表示防撞指令Δc在無人機(jī)速度坐標(biāo)系O-xyz下各軸的分量分別表示控制無人機(jī)防撞的水平速度、航向與高度幅值大小。
綜上所述,本文構(gòu)建的具有防撞策略的無人機(jī)集群控制器結(jié)構(gòu)如圖4 所示。在每一步控制過程中,首先對無人機(jī)的狀態(tài)進(jìn)行安全監(jiān)督,若無人機(jī)處于安全狀態(tài),則采用基于深度神經(jīng)網(wǎng)絡(luò)的集群控制策略輸出的控制指令構(gòu)建無人機(jī)的控制指令,反之則采取防撞策略給出的控制指令構(gòu)建無人機(jī)的控制指令。
圖4 無人機(jī)集群控制器結(jié)構(gòu)Fig.4 Structure of the UAV swarm controller
本文通過仿真的方式驗證提出的無人機(jī)集群控制策略的控制效果。
在構(gòu)建的仿真場景中,無人機(jī)集群的飛行范圍大小為1 000 m×1 000 m×130 m,其中分布著大小不同的圓柱形威脅區(qū),每個威脅區(qū)的高度均為130 m,因此,無人機(jī)只能通過調(diào)整航向躲避這些威脅區(qū)。此外,無人機(jī)的最大飛行速度為20 m/s,最小飛行速度為12 m/s,動力學(xué)常數(shù)分別設(shè)置為:τvH=1.0 s,τψ=0.75 s,τz=1.0 s,τvz=0.3 s。集群控制方法中涉及的參數(shù)取值如表1 所示。
表1 集群控制方法參數(shù)取值Table 1 Parameter values of swarm control method
無人機(jī)集群協(xié)同控制策略的訓(xùn)練過程持續(xù)了1 000 個訓(xùn)練周期,為了對比,本文同時訓(xùn)練了沒有防撞策略與具有防撞策略兩種集群控制策略。在沒有防撞策略時,集群控制策略在訓(xùn)練過程中不會進(jìn)行安全性判斷,并且僅執(zhí)行集群控制策略網(wǎng)絡(luò)輸出的動作指令。圖5 所示為訓(xùn)練過程中2 種策略在一個訓(xùn)練周期內(nèi)獲得的累積獎勵值隨訓(xùn)練周期變化的曲線,圖中曲線在原值基礎(chǔ)上經(jīng)過了2 階指數(shù)平滑,平滑參數(shù)為0.01。
圖5 獎勵值變化曲線Fig.5 Curves of reward
如圖5 可知,在訓(xùn)練前期,沒有防撞策略的無人機(jī)集群控制策略反而可以獲得更多的獎勵,產(chǎn)生這個現(xiàn)象的主要原因是在訓(xùn)練前期集群控制策略與防撞策略相互沖突,沒有達(dá)到平衡。因此,防撞策略會影響無人機(jī)集群的緊密一致性并且?guī)砜刂浦噶畹亩秳?,從而會減小無人機(jī)獲得的獎勵值。隨著訓(xùn)練周期的增加,在訓(xùn)練后期,無人機(jī)集群控制策略對防撞策略的工作機(jī)制已經(jīng)熟悉,并且適應(yīng)了在防撞策略下的集群控制過程,防撞策略會避免無人機(jī)發(fā)生碰撞,從而避免了無人機(jī)獲得碰撞懲罰獎勵。因此,在訓(xùn)練后期,具有防撞策略的無人機(jī)集群控制策略可以獲得更多的獎勵。
由圖5 的結(jié)果可知,最后訓(xùn)練出來的具有防撞策略的無人機(jī)集群控制策略應(yīng)具有更好的集群控制效果。下面對圖5 中訓(xùn)練出的2 種集群控制策略的控制效果做進(jìn)一步的對比分析,同時,與文獻(xiàn)[15,20]中的集群控制策略進(jìn)行對比。文獻(xiàn)[15]考慮了聚合、避碰等影響集群控制效果的序參數(shù)設(shè)計了無人機(jī)集群控制策略,文獻(xiàn)[20]基于深度強(qiáng)化學(xué)習(xí)在連續(xù)空間下構(gòu)建了無人機(jī)的集群控制策略,但沒有設(shè)置防撞策略。
圖6[15,20]所示為4 種集群控制策略控制5 架無人機(jī)組成的集群所產(chǎn)生的飛行軌跡。由圖6(a)可以看出,在沒有防撞策略時,無人機(jī)集群在飛行過程中雖然可以躲避環(huán)境中的威脅區(qū),但是集群較為分散,在飛行過程中沒有始終保持緊密的集群。相比之下,由圖6(b)可以看出,在具有防撞策略時,無人機(jī)集群在整個飛行過程中可以保持緊密的集群,并且飛行時間更短。此外,由圖6(c)可知,在考慮聚合、避碰等影響因素時,參考文獻(xiàn)[15]中構(gòu)建的集群控制策略控制的無人機(jī)集群隊形保持的相對較好且飛行時間相對較短。與圖6(b)相比,圖6(d)所示的沒有考慮防撞的無人機(jī)集群飛行軌跡相對較為松散。
圖6 無人機(jī)集群飛行軌跡Fig.6 Flight trajectories of UAV swarm
為了深入分析4 種集群控制策略的控制效果,從安全性與集群緊密一致性兩方面出發(fā),以機(jī)間最小距離無人機(jī)集群中各無人機(jī)飛行速度大小與集群平均飛行速度大小的偏差平均值verror,無人機(jī)集群中各無人機(jī)的飛行方向與集群中心飛行方向的偏差平均值ψerror,無人機(jī)集群中各無人機(jī)距離集群中心的平均距離dc這4 個指標(biāo)對圖6 所示的集群飛行過程進(jìn)行分析,結(jié)果如圖7[15,20]所示。
圖7 無人機(jī)集群安全性與集群緊密一致性指標(biāo)變化曲線Fig.7 Curves of indicators of safety,tightness and consistency of UAV swarm
在verror指標(biāo)上,文獻(xiàn)[20]中的方法表現(xiàn)最好,其具有最小的verror指標(biāo),其他3 種方法的表現(xiàn)相當(dāng),并沒有明顯的區(qū)別。產(chǎn)生這一結(jié)果的主要原因是文獻(xiàn)[20]中的集群控制策略是一種確定性策略,并且沒有考慮防撞機(jī)制,這樣引起的集群控制指令的抖動較小。這一現(xiàn)象同樣可在ψerror指標(biāo)上體現(xiàn)出來,即相對于其他3 種方法,文獻(xiàn)[20]中方法控制的無人機(jī)集群的ψerror指標(biāo)抖動較小。
在dc指標(biāo)上,在無人機(jī)集群的后期飛行過程中,在本文提出的沒有防撞策略的集群控制策略下以及文獻(xiàn)[15]中的控制策略下,無人機(jī)距離集群中心的平均距離超過了30 m,表明無人機(jī)集群非常分散,無法形成緊密集群。相比之下,在本文提出的具有防撞策略的集群控制策略下,可以使得無人機(jī)距離集群中心的平均距離保持在20 m 以下,使得無人機(jī)集群形成緊密集群,而文獻(xiàn)[20]中的方法控制下的無人機(jī)集群的dc指標(biāo)相對較大,其控制的無人機(jī)集群相對較為分散。
由以上結(jié)果可知,相比于傳統(tǒng)基于深度強(qiáng)化學(xué)習(xí)的集群控制策略以及基于群體智能算法的集群控制策略,本文在傳統(tǒng)深度強(qiáng)化學(xué)習(xí)方法基礎(chǔ)上增加防撞策略之后,構(gòu)建的集群控制策略可緊密控制無人機(jī)集群,并且具有較高的安全性保障。
最后,對本文提出的具有防撞策略的集群控制策略的單步運(yùn)行耗時進(jìn)行測試,分析其在實際應(yīng)用中的可行性。采用的測試平臺與目前市面上的機(jī)載計算機(jī)的性能基本相當(dāng),CPU 為i5-1240P,內(nèi)存為16GB DDR4 內(nèi)存,沒有獨(dú)立顯卡。對集群控制策略運(yùn)行500 步,記錄單步的運(yùn)行時長,結(jié)果如圖8 所示。可知,集群控制策略的單步運(yùn)行時間均在2 ms 以下,可以滿足實時運(yùn)行的需求。因此,在采用與本文測試平臺性能相當(dāng)?shù)臋C(jī)載計算機(jī)時,本文提出的具有防撞策略的集群控制策略可以在無人機(jī)的機(jī)載計算機(jī)上運(yùn)行,實時解算出無人機(jī)的集群控制指令。
圖8 集群控制策略運(yùn)行耗時測試結(jié)果Fig.8 Test results of running time of the UAV swarm control strategy
本文針對無人機(jī)集群協(xié)同控制問題展開了研究,提出了一種結(jié)合深度強(qiáng)化學(xué)習(xí)方法與防撞策略的無人機(jī)集群協(xié)同控制方法,可在保障無人機(jī)集群安全性的同時控制無人機(jī)集群形成緊密集群。具體結(jié)論如下所示:
1)在深度強(qiáng)化學(xué)習(xí)方法基礎(chǔ)上引入防撞策略可以避免無人機(jī)之間發(fā)生碰撞的風(fēng)險,提高無人機(jī)集群的安全性,并且可以使得無人機(jī)集群形成緊密的集群。
2)本文提出的具有防撞策略的集群控制策略單步運(yùn)行耗時較短,可在無人機(jī)的機(jī)載計算機(jī)上實時運(yùn)行。