段海濱 仝秉達(dá) 劉冀川
(1. 北京航空航天大學(xué) 自動(dòng)化科學(xué)與電氣工程學(xué)院, 北京 100083;2. 中國(guó)電子科技集團(tuán)公司第五十四研究所, 石家莊 050081; 3. 西安電子科技大學(xué) 電子工程學(xué)院, 西安 710071)
無(wú)人機(jī)(unmanned aerial vehicle,UAV)自主控制技術(shù)及低成本傳感器技術(shù)的快速發(fā)展,使得無(wú)人機(jī)系統(tǒng)越來(lái)越廣泛地應(yīng)用于民用和軍事領(lǐng)域[1-2]。 由于任務(wù)環(huán)境復(fù)雜而多變,單架無(wú)人機(jī)往往不能有效完成任務(wù),而使用多架無(wú)人機(jī)協(xié)作能夠有效提高成功率[3],順利完成各種定位、搜索、攻擊、安全、監(jiān)視、評(píng)估等復(fù)雜任務(wù)[4]。 本文主要針對(duì)與安全和防御應(yīng)用相關(guān)場(chǎng)景的無(wú)人機(jī)協(xié)同目標(biāo)防御問(wèn)題進(jìn)行了探索研究,在目標(biāo)防御問(wèn)題中,入侵無(wú)人機(jī)在收集到防御無(wú)人機(jī)的狀態(tài)信息后,試圖抵達(dá)目標(biāo)區(qū)域而不被防御無(wú)人機(jī)攔截,而防御方若干架無(wú)人機(jī)的任務(wù)是盡快攔截入侵無(wú)人機(jī),防止對(duì)方抵達(dá)目標(biāo)區(qū)域。
von Moll 等[5]將多無(wú)人機(jī)協(xié)同目標(biāo)防御場(chǎng)景描述為一個(gè)微分博弈問(wèn)題。 場(chǎng)景中的無(wú)人機(jī)具有簡(jiǎn)單的運(yùn)動(dòng)學(xué)方程,防御無(wú)人機(jī)扮演微分博弈中的追捕者角色,入侵無(wú)人機(jī)扮演逃跑者角色。Garcia 等[6]研究了多參與者的邊界防御問(wèn)題,并給出了團(tuán)隊(duì)合作最優(yōu)解,場(chǎng)景中的智能體能夠利用對(duì)手的非最優(yōu)策略使得己方的收益最大化。 然而,上述研究只考慮了當(dāng)防御者與入侵者的位置重合時(shí),入侵者才視為被捕獲這種情況,且防御無(wú)人機(jī)要保護(hù)的目標(biāo)邊界是無(wú)限大的。 事實(shí)上,無(wú)人機(jī)可以在一定距離時(shí)使用自身攜帶的武器,干擾或者摧毀對(duì)方,且目標(biāo)區(qū)域可能有界。 Shishika和Kumar[7]研究了一類(lèi)具有任意凸形狀的邊界防御問(wèn)題,入侵者團(tuán)隊(duì)試圖突破防御者團(tuán)隊(duì)對(duì)目標(biāo)區(qū)域的保護(hù),而防御者團(tuán)隊(duì)試圖通過(guò)攔截入侵者智能體。 Sinha 等[8]研究了3 個(gè)智能體之間的追逃場(chǎng)景,并分別為入侵者和防御者設(shè)計(jì)了控制策略。 Wang 等[9]考慮了具有通信約束的追逃問(wèn)題,并分別求解了追逃雙方應(yīng)當(dāng)使用的策略。 然而,上述研究只考慮了防御者被限制在二維目標(biāo)區(qū)域的邊界中運(yùn)動(dòng)情況。 實(shí)際上,入侵無(wú)人機(jī)或防御無(wú)人機(jī)均可以在三維空間中自由運(yùn)動(dòng)。
基于上述研究,考慮一個(gè)復(fù)雜環(huán)境下面向多無(wú)人機(jī)協(xié)同目標(biāo)區(qū)域防御問(wèn)題。 其中,防御無(wú)人機(jī)的數(shù)量M>1,入侵無(wú)人機(jī)的數(shù)量為1。 防御無(wú)人機(jī)的速度可能各不相同,但均大于入侵無(wú)人機(jī)。防御團(tuán)隊(duì)要保護(hù)的目標(biāo)區(qū)域?yàn)橐粋€(gè)有限大的三維空間,且防御無(wú)人機(jī)在與入侵無(wú)人機(jī)一定距離時(shí)即可攔截。 基于上述假設(shè),本文將無(wú)人機(jī)目標(biāo)區(qū)域防御問(wèn)題建模為約束最優(yōu)化問(wèn)題,解決問(wèn)題的關(guān)鍵是求解出雙方無(wú)人機(jī)的最優(yōu)攔截(目標(biāo))點(diǎn)。因此,本文設(shè)計(jì)了一種新型的改進(jìn)鴿群優(yōu)化算法解決此類(lèi)問(wèn)題。
本文設(shè)計(jì)了一種無(wú)人機(jī)協(xié)同目標(biāo)防御系統(tǒng)策略,系統(tǒng)中的防御無(wú)人機(jī)根據(jù)系統(tǒng)實(shí)時(shí)狀態(tài)進(jìn)行合作,對(duì)進(jìn)入捕獲半徑的入侵無(wú)人機(jī)進(jìn)行攔截。另外,針對(duì)無(wú)人機(jī)協(xié)同目標(biāo)防御問(wèn)題需要求解的約束最優(yōu)化問(wèn)題定義了多級(jí)非穩(wěn)態(tài)罰函數(shù),便于優(yōu)化算法找出可行的最優(yōu)解。 對(duì)基本鴿群優(yōu)化(pigeon-inspired optimization,PIO)算法進(jìn)行了改進(jìn),有效解決了原始算法在收斂性和準(zhǔn)確性方面的不足,并將改進(jìn)后的PIO 算法應(yīng)用于解決多無(wú)人機(jī)協(xié)同目標(biāo)防御問(wèn)題。
考慮一個(gè)由M架防御無(wú)人機(jī)P1,P2,…,PM和1 架入侵無(wú)人機(jī)E構(gòu)成的無(wú)人機(jī)協(xié)同目標(biāo)防御系統(tǒng),系統(tǒng)中所有無(wú)人機(jī)均在歐氏三維空間中運(yùn)動(dòng)。 受文獻(xiàn)[5]的啟發(fā),系統(tǒng)中的各無(wú)人機(jī)具有如下運(yùn)動(dòng)學(xué)方程:
式中:βi>1 為防御無(wú)人機(jī)Pi與入侵無(wú)人機(jī)E的速度比;θE∈[ - π,π)和ψE∈[0,2π)分別為入侵無(wú)人機(jī)的俯仰角和航向角;θPi∈[ - π,π)和ψPi∈[0,2π)(i=1,2,…,M)分別為防御無(wú)人機(jī)的俯仰角和航向角。 雙方無(wú)人機(jī)的控制量分別為
防御無(wú)人機(jī)要防御的目標(biāo)區(qū)域?yàn)榍蝮w,球心為xT= (xT,yT,zT),半徑為rT。 防御無(wú)人機(jī)的目標(biāo)是攔截入侵無(wú)人機(jī),使入侵無(wú)人機(jī)與所要防御目標(biāo)區(qū)域距離最遠(yuǎn),其捕獲半徑為rc。 入侵無(wú)人機(jī)的目標(biāo)為在終端時(shí)刻tf時(shí)盡量縮短自身與目標(biāo)區(qū)域之間的距離。 假設(shè)入侵無(wú)人機(jī)不可能到達(dá)目標(biāo)平面,即考慮防御無(wú)人機(jī)能夠攔截成功的定量博弈問(wèn)題。 因此博弈對(duì)抗的終止條件為
防御無(wú)人機(jī)與入侵無(wú)人機(jī)均以恒定的速度運(yùn)動(dòng),故雙方無(wú)人機(jī)的最優(yōu)路徑均為直線,雙方的支配區(qū)域由以下等式確定的曲面分隔:
式中:x=(x,y,z)∈R3。 式(8)給出了入侵無(wú)人機(jī)的可行解區(qū)域。 當(dāng)式(8)中等號(hào)成立時(shí),入侵無(wú)人機(jī)E可以在中途不被防御無(wú)人機(jī)Pi攔截的情況下到達(dá)點(diǎn)曲面上的任意一點(diǎn)。 另外設(shè)入侵無(wú)人機(jī)E的最優(yōu)目標(biāo)點(diǎn)為xI= (xI,yI,zI), 除了應(yīng)當(dāng)滿足式(8)之外,還應(yīng)當(dāng)有如下等式成立:
由第1 節(jié)的系統(tǒng)建??芍?確定防御無(wú)人機(jī)和入侵無(wú)人機(jī)的最優(yōu)目標(biāo)點(diǎn)實(shí)際是求解一個(gè)由式(1)確定的約束最優(yōu)化問(wèn)題:
解決約束最優(yōu)化問(wèn)題的常用方法是使用罰函數(shù)法構(gòu)建目標(biāo)函數(shù)F(x),轉(zhuǎn)化為無(wú)約束最優(yōu)化問(wèn)題然后使用優(yōu)化算法求解。 約束最優(yōu)化問(wèn)題由可行解和不可行解組成,其中可行解滿足所有約束條件,而不可行解至少違反其中一個(gè)約束條件。目前為止,除了試錯(cuò)法(trial-and-error)之外,還沒(méi)有其他方式定義罰函數(shù)的方法。 然而,罰函數(shù)的定義仍具有挑戰(zhàn)性,如果懲罰值過(guò)高,最優(yōu)化算法通常會(huì)陷入局部最優(yōu)解;如果懲罰值過(guò)低,優(yōu)化算法可能很難得到可行的最優(yōu)解。
罰函數(shù)通常分為穩(wěn)態(tài)罰函數(shù)和非穩(wěn)態(tài)罰函數(shù)兩類(lèi)。 穩(wěn)態(tài)罰函數(shù)在整個(gè)最優(yōu)化的過(guò)程中使用固定的懲罰值;非穩(wěn)態(tài)罰函數(shù)中,懲罰值是動(dòng)態(tài)變化的。 參考文獻(xiàn)[10-11]中的結(jié)果顯示,使用非穩(wěn)態(tài)罰函數(shù)得到的結(jié)果幾乎總是優(yōu)于通過(guò)穩(wěn)態(tài)罰函數(shù)的結(jié)果。
本文采用的罰函數(shù)可定義如下:
式中:f(x)為式(11)中約束最優(yōu)化問(wèn)題的原始目標(biāo)函數(shù);h(k)為一個(gè)動(dòng)態(tài)調(diào)整的懲罰值;k為優(yōu)化算法當(dāng)前迭代次數(shù);H(x)為懲罰因子,定義為
式中:σ(·)為一個(gè)多級(jí)函數(shù);γ(·)為罰函數(shù)的指數(shù)函數(shù);gi(x)為式(12)中的約束項(xiàng)。
本文所要解決的約束最優(yōu)化問(wèn)題可采用確定性或者隨機(jī)性方法求解。 確定性方法,如可行方向法或者廣義梯度下降法,對(duì)目標(biāo)函數(shù)f(x)的連續(xù)性和可微性具有一定要求。 因此,使用隨機(jī)性方法解決約束最優(yōu)化問(wèn)題是近年來(lái)的熱門(mén)發(fā)展方向。 雖然進(jìn)化算法(evolutionary algorithms,EA)主要是解決無(wú)約束最優(yōu)化問(wèn)題而發(fā)展起來(lái)的,但其也是解決約束最優(yōu)化問(wèn)題的一種可行的替代方法。 典型的進(jìn)化算法有遺傳算法(genetic algorithm,GA)[12]和粒子群優(yōu)化(particle swarm optimization,PSO)算法[13],均已經(jīng)被用于解決約束最優(yōu)化問(wèn)題中。
針對(duì)無(wú)人機(jī)航路規(guī)劃問(wèn)題,Duan 和Qiao[14]提出了一種新的生物啟發(fā)式群體優(yōu)化算法——鴿群優(yōu)化算法。 該算法基于鴿子的歸巢行為,設(shè)計(jì)了地圖和指南針?biāo)阕印⒌貥?biāo)算子,以求解最優(yōu)化問(wèn)題。 假設(shè)搜索空間的維度為D,鴿群中的第i只鴿子由D維向量Xi=(xi1,xi2…,xiD)表示,鴿群中取得全局最優(yōu)值的鴿子用向量Xg= (xg1,xg2,…,xgD)表示。 第i只鴿子的速度由向量Vi= (vi1,vi2,…,viD)表示。
在地圖和指南針?biāo)阕又?鴿群中的鴿子位置根據(jù)式(18)和式(19)進(jìn)行更新:
式中:i=1,2,…,N為鴿群中的鴿子序號(hào);R為地圖和指南針因子;r為在[0,1]范圍內(nèi)均勻分布的隨機(jī)數(shù)。 式(18)用于確定鴿群中第i只鴿子第k+1 次迭代的速度,式(19)用于確定鴿群中第i只鴿子第k+1 迭代的位置,即將第k次迭代的位置與第k+1 次迭代的速度相加。
在地標(biāo)算子中,每次迭代之后鴿子的數(shù)量會(huì)減少一半,目標(biāo)函數(shù)值較低的一半鴿子將被舍棄,即
盡管基本鴿群優(yōu)化算法能夠求解許多函數(shù)最優(yōu)化問(wèn)題,但仍然存在收斂性和準(zhǔn)確性不足、效率不高等問(wèn)題。 基于此,本文提出了一種新的改進(jìn)鴿群優(yōu)化算法-指數(shù)平均動(dòng)量鴿群優(yōu)化(exponentially averaged momentum PIO,EM-PIO)算法,以解決多無(wú)人機(jī)協(xié)同目標(biāo)防御問(wèn)題。
在機(jī)器學(xué)習(xí)中,反向傳播(back propagation,BP)算法是用于訓(xùn)練多層前饋神經(jīng)網(wǎng)絡(luò)的最常用算法之一。 BP 算法使用梯度下降法來(lái)最小化實(shí)際輸出和期望輸出之間的誤差,但這種算法常常取得局部最優(yōu)或者在附近振蕩,無(wú)法收斂到全局最優(yōu)值。 因此可以引入一個(gè)動(dòng)量項(xiàng)來(lái)解決此問(wèn)題,該動(dòng)量項(xiàng)可作為一個(gè)低通濾波器來(lái)平滑輸出[15]。 受此啟發(fā),本文在基本鴿群優(yōu)化算法中的地圖和指南針?biāo)阕铀俣雀路匠?式(18))中,對(duì)方程中的探索部分賦予更多的權(quán)重。 新的地圖和指南針?biāo)阕又兴俣群臀恢酶路匠瘫硎救缦?
式中:N為算法總迭代次數(shù);α為式(23)中的動(dòng)量因子;V為式(24)中鴿群中某只鴿子的速度。 由于動(dòng)量因子α<1,動(dòng)量的分布方式更多地在當(dāng)前速度上。 隨著迭代次數(shù)的增加,舊速度的系數(shù)與動(dòng)量因子α共同累積,舊的速度值對(duì)動(dòng)量M的貢獻(xiàn)將降低,這會(huì)有效增強(qiáng)鴿群優(yōu)化算法的搜索能力,同時(shí)防止鴿子被其歷史速度加權(quán)相加而陷入局部最優(yōu)值。 另外,由于速度值V是迭代累積求和得到的,不需要額外的空間來(lái)存儲(chǔ)速度的歷史值。
本文提出的EM-PIO 算法解決多無(wú)人機(jī)協(xié)同目標(biāo)防御問(wèn)題的具體實(shí)現(xiàn)流程如圖1 所示。
圖1 EM-PIO 算法解決多無(wú)人機(jī)協(xié)同防御問(wèn)題實(shí)現(xiàn)流程Fig.1 Procedure of coordinated target defense with multi-UAVs cooperative using EM-PIO algorithm
本文設(shè)防御無(wú)人機(jī)的數(shù)量M=2。 入侵無(wú)人機(jī)和防御無(wú)人機(jī)的初始位置分別為xE0= (6,6,3),xP10=(5,4,2)和xP20=(3,5,3),防御無(wú)人機(jī)與入侵無(wú)人機(jī)之間的速度比β1=1.1 和β2=1.2。防御無(wú)人機(jī)要防御的目標(biāo)區(qū)域?yàn)榍蝮w,球心坐標(biāo)xT=(3,3,2),半徑rc=1 m。 雙方無(wú)人機(jī)位置、目標(biāo)區(qū)域和約束曲面g1(x) =0 和g2(x) =0 的圖像如圖2 所示。 可以看出,g1(x) =0 與g2(x) =0 相交形成一條曲線,雙方無(wú)人機(jī)的最優(yōu)目標(biāo)點(diǎn)一定在曲線上。
圖2 約束曲面示意圖Fig.2 Schematic of constraint surface
同時(shí),本節(jié)設(shè)計(jì)了仿真實(shí)驗(yàn)對(duì)比EM-PIO 算法與PSO、GA 算法。 3 種算法的參數(shù)值如表1所示。
表1 EM-PIO、PSO 和GA 算法參數(shù)Table 1 Parameters of EM-PIO, PSO and GA algorithms
3 種算法的進(jìn)化曲線如圖3 所示。 由圖3 進(jìn)化曲線可見(jiàn),本文提出的EM-PIO 算法具有更好的全局優(yōu)化性能和收斂速度,可有效解決復(fù)雜態(tài)勢(shì)下的多無(wú)人機(jī)約束最優(yōu)化問(wèn)題。
圖3 EM-PIO、PSO 和GA 算法進(jìn)化曲線對(duì)比Fig.3 Comparison of evolution curves of EM-PIO,PSO and GA algorithms
1) 本文構(gòu)造的多級(jí)非穩(wěn)態(tài)罰函數(shù)可以通過(guò)逐漸增加懲罰值有效地控制遺傳算法收斂速度,確保獲得可行解。
2) 提出的EM-PIO 算法通過(guò)在地圖和指南針?biāo)阕犹幰雱?dòng)量因子,增強(qiáng)了鴿群優(yōu)化算法的搜索能力,同時(shí)防止被歷史速度加權(quán)相加而陷入局部最優(yōu)值。
3) 提出的EM-PIO 算法具有較為優(yōu)異的搜索性能,在仿真實(shí)驗(yàn)中相比于PSO 和GA 算法具有較快的收斂速度且具有更好的全局優(yōu)化性能。
本文在分析無(wú)人機(jī)協(xié)同目標(biāo)防御問(wèn)題時(shí),只考慮了入侵無(wú)人機(jī)數(shù)量為1 架時(shí)的情況,后續(xù)將進(jìn)一步研究入侵無(wú)人機(jī)數(shù)量大于1 的情況。