池海紅,周明鑫
(哈爾濱工程大學(xué)智能科學(xué)與工程學(xué)院,黑龍江哈爾濱 150001)
高超聲速飛行器具有快速響應(yīng)、大航程、高效摧毀和強(qiáng)突防能力等突出優(yōu)點(diǎn),在飛行過(guò)程中,如果能夠有效地實(shí)施機(jī)動(dòng)飛行,就能避開(kāi)障礙或威脅區(qū)域,從而提高生存概率.但是,由于高超聲速飛行器的復(fù)雜特性,很難對(duì)這種控制對(duì)象進(jìn)行路徑規(guī)劃和控制.宋建梅等[1]對(duì)遠(yuǎn)程導(dǎo)彈的運(yùn)動(dòng)模型進(jìn)行離散化處理,運(yùn)用A?[2]算法來(lái)進(jìn)行三維的航跡規(guī)劃.李春華等[3]提出的稀疏A?則將每次的搜索空間限制在滿足無(wú)人機(jī)性能約束的范圍內(nèi)來(lái)進(jìn)行航跡規(guī)劃.上述研究均保證了規(guī)劃的航跡滿足實(shí)際對(duì)象的飛行需求,但是并不適用于存在動(dòng)態(tài)威脅的情況,對(duì)環(huán)境的適應(yīng)性也差.
相反,強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)具有較好的實(shí)時(shí)性、優(yōu)秀的泛化表現(xiàn)和設(shè)計(jì)流程的通用性等優(yōu)點(diǎn),使得它在機(jī)器人、無(wú)人機(jī)等領(lǐng)域的路徑規(guī)劃問(wèn)題上均取得了優(yōu)異的表現(xiàn).Faust等[4]運(yùn)用概率路線圖(probabilistic roadmaps,PRM[5])在大型地圖上分割出多個(gè)局部目標(biāo)點(diǎn),然后由深度確定性策略梯度(deep deterministic policy gradient,DDPG[6])訓(xùn)練的RL智能體引導(dǎo)機(jī)器人朝局部目標(biāo)點(diǎn)移動(dòng),解決了復(fù)雜環(huán)境下機(jī)器人的遠(yuǎn)距離路徑規(guī)劃問(wèn)題.Bae等[7]以整個(gè)地圖圖像作為RL 智能體的觀測(cè)狀態(tài),采用的深度Q 網(wǎng)絡(luò)(deep Q networks,DQN[8])算法在靜態(tài)和動(dòng)態(tài)障礙物的環(huán)境中表現(xiàn)出了優(yōu)于A?和D?[9]的效果.上述方法均基于無(wú)模型的強(qiáng)化學(xué)習(xí)(model-free rein-forcement learning,MFRL),并且均使用“離線訓(xùn)練+在線使用”的模式,但沒(méi)有探討在線使用階段RL智能體失敗時(shí)的應(yīng)對(duì)措施.盡管可以將離線訓(xùn)練階段使用的梯度優(yōu)化方法用于在線使用階段繼續(xù)對(duì)RL智能體進(jìn)行訓(xùn)練來(lái)作為應(yīng)對(duì)措施,但這過(guò)于耗費(fèi)計(jì)算資源并且降低了實(shí)時(shí)性.
交叉熵方法(cross-entropy method,CEM)是一種簡(jiǎn)單、高效、易于并行和不依賴于梯度計(jì)算的優(yōu)化方法.在控制問(wèn)題中,CEM常被作為基于模型的強(qiáng)化學(xué)習(xí)(model-based reinforcement learning,MBRL)框架中優(yōu)化策略的首選方法[10-11].Yang[12]等基于MBRL框架將CEM應(yīng)用于現(xiàn)實(shí)世界的四足機(jī)器人的步態(tài)控制問(wèn)題.除此以外,Pourchot[13]等將CEM 和DDPG,雙延遲深度確定性策略梯度(twin delayed deep deterministic policy gradient,TD3[14])算法相結(jié)合,在訓(xùn)練期間,利用CEM和原本的梯度優(yōu)化方法對(duì)參數(shù)化的RL智能體的策略參數(shù)進(jìn)行優(yōu)化,該方法有效提升了DDPG和TD3的性能,Pourchot等的研究中也表明了僅僅采用CEM進(jìn)行策略參數(shù)的優(yōu)化效果是不佳的.
總之,近幾年新提出的強(qiáng)化學(xué)習(xí)理論,如DQN,DDPG等表現(xiàn)出了高于傳統(tǒng)路徑規(guī)劃算法的自主性、實(shí)時(shí)性和對(duì)環(huán)境的適應(yīng)性.然而,這些新理論在高超聲速飛行器的航跡規(guī)劃問(wèn)題上的應(yīng)用研究相對(duì)較少.孟中杰等[15]在稀疏A?算法中引入了變步長(zhǎng)策略來(lái)有效提高了規(guī)劃效率,但是規(guī)劃期間無(wú)法處理威脅數(shù)量動(dòng)態(tài)變化的情況.為此,沈海冰等[16]對(duì)變步長(zhǎng)的稀疏A?算法進(jìn)行改進(jìn),將D?算法的思想引入其中,在新威脅與已規(guī)劃的航跡相交時(shí)進(jìn)行局部重規(guī)劃,實(shí)現(xiàn)了在線實(shí)時(shí)航跡規(guī)劃.
在考慮航跡長(zhǎng)度最小、航跡曲率(需用過(guò)載)的平滑性和飛行器過(guò)載約束的前提下,本文利用MFRL和CEM來(lái)解決高超聲速飛行器巡航段的航跡規(guī)劃問(wèn)題.在離線訓(xùn)練階段,本文設(shè)計(jì)了可以處理動(dòng)態(tài)威脅數(shù)量的網(wǎng)絡(luò)結(jié)構(gòu),利用全局信息對(duì)RL智能體進(jìn)行訓(xùn)練,并對(duì)比了屏蔽部分信息后對(duì)訓(xùn)練結(jié)果的影響,全局信息包括了飛行器的位姿信息、威脅和目標(biāo)點(diǎn)的坐標(biāo)信息等.在在線使用階段,本文將MFRL和CEM結(jié)合,提出了RL-CEM規(guī)劃方法,該方法僅僅利用CEM來(lái)優(yōu)化RL智能體的規(guī)劃策略.同時(shí),設(shè)計(jì)了一種簡(jiǎn)單有效的動(dòng)作過(guò)濾器來(lái)保證航跡曲率(需用過(guò)載)的平滑性.實(shí)驗(yàn)結(jié)果表明了,讓RL智能體獲得更豐富的環(huán)境信息可以提高其性能,以及RL-CEM具有令人滿意的航跡規(guī)劃的成功率.最后,本文在威脅分布密集、威脅數(shù)量動(dòng)態(tài)變化、存在動(dòng)態(tài)威脅、威脅呈U型分布的特殊環(huán)境中驗(yàn)證了RL-CEM的魯棒性.
本文針對(duì)高超聲速飛行器的巡航段,對(duì)其航跡規(guī)劃問(wèn)題進(jìn)行研究.本文中將雷達(dá)陣地、高炮陣地和禁飛區(qū)等影響飛行器安全的區(qū)域或不可飛區(qū)域統(tǒng)稱為威脅.假設(shè)C為整個(gè)作戰(zhàn)空域中飛行器位姿點(diǎn)p=(x,y,z,θ,ψv)的集合,這里(x,y,z)代表飛行器所在位置或航路點(diǎn),(θ,ψv)分別代表飛行器的彈道傾角和彈道偏角.Csafe?C為飛行器與威脅不相交的位姿點(diǎn)的集合.航跡P由一系列的位姿點(diǎn)pi組成,pi ∈C,i ∈[0,k],該航跡始于p0結(jié)束于pk,對(duì)于任意兩個(gè)連續(xù)的位姿點(diǎn)pi和pi+1,i=1,···,k ?1,從pi經(jīng)過(guò)一個(gè)固定的離散時(shí)間步長(zhǎng)ΔT均可到達(dá)pi+1.給定一個(gè)有效的目標(biāo)位姿點(diǎn)pg,如果航跡P中的任意一個(gè)位姿點(diǎn)pi/∈Csafe或者飛行器超過(guò)飛行任務(wù)限定的執(zhí)行時(shí)間Tmax,則該條航跡不滿足任務(wù)約束.如果航跡P中的任意一個(gè)位姿點(diǎn)均滿足pi ∈Csafe,飛行器未超過(guò)飛行任務(wù)限定的執(zhí)行時(shí)間Tmax,且pk與pg的歐氏距離滿足給定閾值,即‖pk ?pg‖≤dg,則該條航跡規(guī)劃滿足任務(wù)約束,本文稱這種滿足任務(wù)約束的航跡為有效航跡.本文的最終目的是在給定的作戰(zhàn)環(huán)境中,利用RL求解這樣的一條有效航跡.
高超聲速飛行器為了減小氣動(dòng)加熱,其巡航段的飛行高度都較高,因此對(duì)其巡航段進(jìn)行航跡規(guī)劃時(shí)不用考慮地形、障礙等因素.于是,本文進(jìn)行如下假設(shè)以簡(jiǎn)化航跡規(guī)劃問(wèn)題:1)高超聲速飛行器等高等速飛行;2)已知威脅區(qū)域的位置和覆蓋范圍;3)威脅均為無(wú)限高的圓柱體.
這樣,三維空間的航跡規(guī)劃問(wèn)題就可以簡(jiǎn)化為二維平面的航跡規(guī)劃問(wèn)題,這有效地降低了問(wèn)題的復(fù)雜度.于是,本文可以重新定義位姿點(diǎn)p=(x,z,ψv)和相關(guān)關(guān)系式.
二維平面的高超聲速飛行器運(yùn)動(dòng)學(xué)方程如下:
式中:x和z是飛行器質(zhì)心在地面坐標(biāo)系下的位置坐標(biāo);v是飛行器的巡航速度;ψv是彈道偏角.
過(guò)載與彈道形狀的關(guān)系式如下:
高超聲速飛行器造價(jià)高昂,將強(qiáng)化學(xué)習(xí)應(yīng)用于真實(shí)的高超聲速飛行器上時(shí),樣本效率是首先需要考慮的問(wèn)題.因此,本文建立了一個(gè)環(huán)境模擬器來(lái)模擬真實(shí)的飛行環(huán)境.由于本文研究的是高超聲速飛行器的航跡規(guī)劃問(wèn)題而非制導(dǎo)問(wèn)題,因此虛擬環(huán)境中的飛行器建模為一個(gè)簡(jiǎn)易的模型,它能夠立即響應(yīng)給定的指令.
強(qiáng)化學(xué)習(xí)方法通過(guò)與環(huán)境交互,學(xué)習(xí)狀態(tài)到動(dòng)作的映射關(guān)系,它可以解決離散時(shí)間的馬爾可夫決策過(guò)程問(wèn)題.本文從局部可觀和完全可觀的角度,將航跡規(guī)劃問(wèn)題建模為部分可觀的馬爾可夫決策過(guò)程(partially observable Markov decision process,POMDP)和完全可觀的馬爾可夫決策過(guò)程(Markov decision process,MDP),關(guān)于二者的描述見(jiàn)第2.3節(jié).這里,本文將POMDP 模型用五元組〈O,A,R,P,γ〉來(lái)表示,MDP模型則用五元組〈S,A,R,P,γ〉來(lái)表示.除了特別說(shuō)明,本文中POMDP模型的狀態(tài)o ∈O和MDP模型的狀態(tài)s ∈S均使用s來(lái)表示.
本文的航跡規(guī)劃分2個(gè)階段:1)離線訓(xùn)練階段,訓(xùn)練一個(gè)不依賴于固定環(huán)境的RL智能體作為航跡規(guī)劃的基線策略;2)在線規(guī)劃階段,RL-CEM利用環(huán)境模擬器預(yù)測(cè)未來(lái)的狀態(tài)進(jìn)行規(guī)劃,之后,選擇優(yōu)于基線策略的策略作為執(zhí)行策略,否則將使用基線策略.
第1階段,構(gòu)建環(huán)境模擬器來(lái)模擬真實(shí)的飛行環(huán)境,該虛擬環(huán)境中存在飛行器、威脅和目標(biāo).環(huán)境模擬器在每次重置時(shí),均會(huì)設(shè)定一個(gè)隨機(jī)的初始位置給飛行器、威脅和目標(biāo),這可以保證RL智能體的規(guī)劃策略不依賴于固定的環(huán)境.該階段的最終目的是:訓(xùn)練一個(gè)RL智能體去控制虛擬飛行器在虛擬環(huán)境中成功地執(zhí)行突防任務(wù).換句話說(shuō),RL智能體需要在一個(gè)與其動(dòng)作a相關(guān)的轉(zhuǎn)移函數(shù)=f(p,a)下(本文中該轉(zhuǎn)移函數(shù)意味著虛擬環(huán)境),使得生成的航跡的所有位姿點(diǎn)pi,i=1,···,k,滿足pi ∈Csafe,且‖pk?pg‖≤dg,轉(zhuǎn)移函數(shù)表明了完成任務(wù)的條件僅僅取決于RL智能體能觀察到什么以及它由此做出的行動(dòng).最終,訓(xùn)練結(jié)束的RL智能體將作為在線規(guī)劃階段的基線策略.
第2階段,RL-CEM規(guī)劃最優(yōu)策略作為執(zhí)行策略,執(zhí)行策略則通過(guò)與環(huán)境模擬器的交互生成有效的航跡.圖1描述了這一流程.RL-CEM首先使用CEM規(guī)劃一個(gè)CEM策略,該策略盡可能最大化從某一起始狀態(tài)開(kāi)始未來(lái)H個(gè)時(shí)間步的累積獎(jiǎng)勵(lì),然后,選擇基線策略和CEM策略中該累積獎(jiǎng)勵(lì)最大的策略作為最優(yōu)策略,在下一輪規(guī)劃期間,將該最優(yōu)策略作為執(zhí)行策略與環(huán)境模擬器交互.RL-CEM每隔Tp個(gè)時(shí)間步規(guī)劃一次,用于規(guī)劃的起始狀態(tài)領(lǐng)先此輪規(guī)劃開(kāi)始時(shí)的實(shí)際狀態(tài)Tp個(gè)時(shí)間步,該起始狀態(tài)及其后續(xù)的狀態(tài)均通過(guò)子模擬器預(yù)測(cè).規(guī)劃和執(zhí)行操作是異步進(jìn)行的,這保證了RL-CEM的實(shí)時(shí)性.在真實(shí)飛行器系統(tǒng)的每個(gè)采樣時(shí)刻,環(huán)境模擬器發(fā)送此時(shí)虛擬飛行器的位姿點(diǎn)作為真實(shí)飛行器的期望位姿點(diǎn).期望位姿點(diǎn)在時(shí)間上的平滑性則由動(dòng)作過(guò)濾器來(lái)保證.環(huán)境模擬器將定期根據(jù)真實(shí)環(huán)境來(lái)更新其動(dòng)力學(xué).
圖1 有效航跡生成流程圖Fig.1 Flow chart of effective track generation
本文構(gòu)建的MDP和POMDP模型具有相同的動(dòng)作空間和獎(jiǎng)勵(lì)函數(shù),它們主要的區(qū)別在于狀態(tài)空間的不同.
2.3.1 狀態(tài)空間
POMDP的狀態(tài)空間:在本文的POMDP模型中,RL智能體僅僅能夠觀測(cè)到環(huán)境中的局部信息,記觀察到的狀態(tài)為o ∈O,o ∈R30,則狀態(tài)o包含:(x,z),飛行器的實(shí)時(shí)位置;(cosψv,sinψv),彈道偏角的信息,ψv,彈道偏角;,彈道偏角的轉(zhuǎn)動(dòng)角速度;v,飛行器的巡航速度;(xg,zg),目標(biāo)的實(shí)時(shí)位置;(cosq,sinq),視線角的信息,q,視線角;F,目標(biāo)線是否與威脅相交的標(biāo)志位,條件為真表示相交;dray,在RL智能體視角正前方180°均勻分布19條長(zhǎng)500 km的射線,dray包含了每條射線到最近的威脅邊沿的距離信息,dray∈R19,這類似于激光雷達(dá)的原理.
MDP的狀態(tài)空間:RL智能體能夠觀察到完整的環(huán)境狀態(tài),記它觀察到的狀態(tài)為s ∈S,MDP模型中的狀態(tài)s除了包含POMDP模型中的信息以外,還包含了:,每個(gè)威脅的實(shí)時(shí)位置,i=1,···,N;(cosηi,sinηi),飛行器和威脅的連線與基準(zhǔn)線之間的夾角信息,η為飛行器和威脅的連線與基準(zhǔn)線之間的夾角,i=1,···,N;(cosh,sinh),當(dāng)前經(jīng)過(guò)的時(shí)間信息,h=2π·(T/Tmax),T為當(dāng)前經(jīng)過(guò)的時(shí)間步數(shù).由上可知,威脅數(shù)量的不固定導(dǎo)致了該狀態(tài)空間是動(dòng)態(tài)變化的.
式中s ∈R32+4×N.本文假設(shè)這樣的一個(gè)狀態(tài)包含了所有的環(huán)境信息.
2.3.2 動(dòng)作空間
考慮到在環(huán)境模擬器中沒(méi)有對(duì)高超聲速飛行器進(jìn)行完整的建模,僅僅建立了滿足飛行器運(yùn)動(dòng)學(xué)模型的虛擬飛行器,所以無(wú)法將RL智能體的動(dòng)作設(shè)定為舵偏角.并且,本文生成的航跡的需用過(guò)載必須要滿足約束.因此,本文將動(dòng)作a定義為最大角速度的比率,可以得到a與的關(guān)系式如下:
本文中,MDP和POMDP模型的動(dòng)作空間是一致的,均使用該小節(jié)描述的動(dòng)作空間.
2.3.3 獎(jiǎng)勵(lì)函數(shù)
RL智能體的任務(wù)目標(biāo)是避開(kāi)不可飛的區(qū)域抵達(dá)目標(biāo),故獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)可拆解為兩部分:規(guī)避威脅和目標(biāo)導(dǎo)航的獎(jiǎng)勵(lì)設(shè)計(jì).規(guī)避威脅的獎(jiǎng)勵(lì)鼓勵(lì)RL智能體不與威脅接觸,目標(biāo)導(dǎo)航的獎(jiǎng)勵(lì)則鼓勵(lì)RL智能體不斷接近最終的目標(biāo)點(diǎn).
規(guī)避威脅和目標(biāo)導(dǎo)航的獎(jiǎng)勵(lì)相互耦合,使得獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)變得困難.本文從兩個(gè)方面來(lái)設(shè)計(jì)目標(biāo)導(dǎo)航的獎(jiǎng)勵(lì)以降低不同獎(jiǎng)勵(lì)之間的耦合:當(dāng)飛行器與目標(biāo)點(diǎn)之間的連線與威脅相交時(shí),通過(guò)相鄰時(shí)刻飛行器與目標(biāo)點(diǎn)的距離變化量設(shè)計(jì)距離獎(jiǎng)勵(lì)來(lái)引導(dǎo)飛行器;當(dāng)不相交時(shí),設(shè)計(jì)航向獎(jiǎng)勵(lì)來(lái)引導(dǎo)飛行器的速度矢量指向目標(biāo)點(diǎn).和的具體表達(dá)式如下:
式中:表示t時(shí)刻飛行器與目標(biāo)點(diǎn)的距離;θt ∈[0,π]表示飛行器的速度矢量與目標(biāo)線之間的夾角.
另外,當(dāng)飛行器抵達(dá)目標(biāo)點(diǎn)時(shí)提供一個(gè)豐厚的獎(jiǎng)勵(lì),該獎(jiǎng)勵(lì)與抵達(dá)目標(biāo)所花費(fèi)的時(shí)間成反比,定義如下:
式中:Tmax表示最大的分幕步數(shù);T表示飛行器抵達(dá)目標(biāo)花費(fèi)的分幕步數(shù);表示飛行器與目標(biāo)點(diǎn)之間可允許的最小距離.
在航跡規(guī)劃問(wèn)題中,飛行時(shí)間也應(yīng)該是考慮的指標(biāo).本文引入了一個(gè)時(shí)間懲罰以鼓勵(lì)RL智能體盡可能快地抵達(dá)目標(biāo)點(diǎn),的定義如下:
最后,本文考慮了航跡需用過(guò)載最小的問(wèn)題.由于RL智能體的動(dòng)作a與彈道的需用過(guò)載成正比,因此,可以設(shè)計(jì)獎(jiǎng)勵(lì)
綜上,MDP和POMDP模型的獎(jiǎng)勵(lì)函數(shù)定義如下:
式中k=[k1,···,k6],表示各項(xiàng)獎(jiǎng)勵(lì)的權(quán)值向量.
RL智能體的策略由兩個(gè)具有不同參數(shù)的獨(dú)立網(wǎng)絡(luò)組成:actor網(wǎng)絡(luò)(策略網(wǎng)絡(luò))和critic網(wǎng)絡(luò)(價(jià)值網(wǎng)絡(luò)).Actor網(wǎng)絡(luò)由狀態(tài)信息得到一個(gè)動(dòng)作分布,critic網(wǎng)絡(luò)則預(yù)測(cè)期望的未來(lái)折扣回報(bào).針對(duì)連續(xù)的動(dòng)作空間,本文主要使用近端策略優(yōu)化(proximal policy optimization,PPO[17])對(duì)策略進(jìn)行優(yōu)化.在本文中,定義參數(shù)φ為參數(shù)化的critic網(wǎng)絡(luò)的參數(shù),參數(shù)θ為的actor網(wǎng)絡(luò)的參數(shù).由于PPO中的critic網(wǎng)絡(luò)預(yù)測(cè)的是狀態(tài)價(jià)值V(s):給定狀態(tài)的情況下,從當(dāng)前狀態(tài)往后的期望的累積獎(jiǎng)勵(lì).于是,本文將actor網(wǎng)絡(luò)表示為πθ(·|s),critic網(wǎng)絡(luò)則表示為Vφ(s).
在本文的POMDP中,策略π可以采用如多層感知網(wǎng)絡(luò)(multi-layer perception,MLP).MLP網(wǎng)絡(luò)具有2個(gè)隱層,每個(gè)隱層有64個(gè)神經(jīng)元,并使用relu作為激活函數(shù),輸出層則為線性激活函數(shù).
在本文的MDP中,RL智能體能夠直接觀測(cè)到環(huán)境狀態(tài),由于環(huán)境中的威脅數(shù)量不固定,導(dǎo)致了狀態(tài)空間的維度是動(dòng)態(tài)變化的,因此,本文采用了一種基于自注意[18](self-attention)的結(jié)構(gòu)化表征的關(guān)系推理機(jī)制[19-20]結(jié)合來(lái)解決.MDP中的策略和價(jià)值網(wǎng)絡(luò)使用了圖2所示的網(wǎng)絡(luò)結(jié)構(gòu).
圖2 MDP中的策略和價(jià)值網(wǎng)絡(luò)Fig.2 Actor and critic in MDP
強(qiáng)化學(xué)習(xí)本身是一種黑箱優(yōu)化方法,通常情況下無(wú)法預(yù)知智能體的行為帶來(lái)的危害.因此,為了保證在智能體發(fā)生異常時(shí)有一個(gè)有效的補(bǔ)救措施,本文將RL和CEM結(jié)合,在實(shí)際應(yīng)用階段通過(guò)CEM來(lái)對(duì)RL智能體的策略進(jìn)行優(yōu)化.為了方便說(shuō)明,在這里,本文中POMDP模型的狀態(tài)o ∈O和MDP模型的狀態(tài)s ∈S均使用s來(lái)表示.
表1 RL-CEM的偽代碼Table 1 Pseudocode for RL-CEM
本文中使用了MLP來(lái)近似CEM策略μθCEM,該網(wǎng)絡(luò)僅由一個(gè)16個(gè)神經(jīng)元的隱層構(gòu)成,每一層的激活函數(shù)均使用了雙曲正切函數(shù)tanh.
為了保證實(shí)時(shí)性以及最優(yōu)動(dòng)作序列不過(guò)時(shí),本文采用了異步規(guī)劃的方法:一個(gè)進(jìn)程規(guī)劃最優(yōu)策略,一個(gè)進(jìn)程執(zhí)行規(guī)劃的最優(yōu)策略.這與文獻(xiàn)[12]中的異步控制相似.
在本文的方法中,盡管能夠保證RL智能體構(gòu)建的航跡是平滑的,但是無(wú)法保證路徑上的曲率變化平滑.本文分析得出曲率不平滑的問(wèn)題是由于RL智能體相鄰時(shí)刻的動(dòng)作發(fā)生突變導(dǎo)致,即動(dòng)作在時(shí)間上不具有相關(guān)性.也就是說(shuō),本文需要保證RL智能體給出的動(dòng)作指令在時(shí)間上具有相關(guān)性.本文結(jié)合指數(shù)加權(quán)平均設(shè)計(jì)了2個(gè)不同的動(dòng)作過(guò)濾器:動(dòng)量過(guò)濾器和插值過(guò)濾器.為了方便說(shuō)明,本文使用下標(biāo)t表示RL智能體當(dāng)前的決策次數(shù),i表示當(dāng)前模擬器的模擬次數(shù).
式中:β=0.9;動(dòng)作更新率α=0.005;clip(·,?1,1)函數(shù)將對(duì)應(yīng)值截?cái)嘣?1到1之間.
插值過(guò)濾器:通過(guò)指數(shù)加權(quán)平均計(jì)算RL智能體給出的動(dòng)作a的局部平均值,以該局部平均值作為平滑后的動(dòng)作,如式(12)所示.然后,本文通過(guò)Hermite插值得到相鄰決策時(shí)刻動(dòng)作的平滑過(guò)渡函數(shù)f(·),以此計(jì)算傳遞給模擬器的實(shí)際動(dòng)作,該過(guò)渡函數(shù)由式(13)-(14)所示的約束條件插值得到,這能有效保證動(dòng)作的平滑性.
式中ΔTagent表示智能體的決策頻率.
本文使用PPO算法訓(xùn)練RL智能體,表2中報(bào)告了相關(guān)的超參數(shù).另外,本文額外引入了軟演員-評(píng)論家(soft actor-critic,SAC[22])算法進(jìn)行對(duì)比,超參數(shù)的選取則是文獻(xiàn)[22]中提供的參考值的基礎(chǔ)上額外使用了優(yōu)先經(jīng)驗(yàn)重放[23],并對(duì)獎(jiǎng)勵(lì)權(quán)值向量k進(jìn)行了微調(diào).本文的RL智能體規(guī)劃的航跡滿足表3所示的約束條件.除此以外,通過(guò)獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)還盡可能的保證了航跡的需用過(guò)載最小和航跡長(zhǎng)度(預(yù)估飛行時(shí)間)最小.訓(xùn)練環(huán)境中設(shè)置了15個(gè)半徑50 km的威脅,每次重置環(huán)境時(shí)隨機(jī)生成威脅的位置.
表2 訓(xùn)練階段的超參數(shù)Table 2 Hyperparameters in the training phase
表3 航跡約束Table 3 Trajectory constraints
本文在圖3中報(bào)告了在3組隨機(jī)數(shù)種子上的訓(xùn)練結(jié)果.訓(xùn)練結(jié)果表明,本文的建模方法在不同的RL算法上均可以達(dá)到相同的表現(xiàn);PPO在訓(xùn)練過(guò)程中具有更穩(wěn)定的表現(xiàn);動(dòng)量過(guò)濾器具有比插值過(guò)濾器更好的性能;MDP的方法比POMDP具有更高的樣本效率,本文認(rèn)為這得益于MDP中采用的網(wǎng)絡(luò)結(jié)構(gòu)以及全局信息的引入.
圖3 訓(xùn)練曲線Fig.3 Training curve
由于PPO在訓(xùn)練過(guò)程中的表現(xiàn)更穩(wěn)定,本文將主要使用PPO訓(xùn)練的智能體進(jìn)行實(shí)驗(yàn)驗(yàn)證.圖4中展示了部分成功案例和航跡需用過(guò)載的變化曲線.從圖中可以看出,本文設(shè)計(jì)的動(dòng)作過(guò)濾器有效地保證了需用過(guò)載的平滑性.
圖4 部分成功案例Fig.4 Some successful cases
本文以突防成功率為評(píng)估指標(biāo),將經(jīng)訓(xùn)練的所有RL智能體在訓(xùn)練環(huán)境中使用無(wú)探索噪聲的策略評(píng)估了500 個(gè)分幕,RL-CEM 則評(píng)估了100 個(gè)分幕.RLCEM使用的超參數(shù)如表4所示.它們各自的突防成功率如圖5所示,從圖中可以看出,MDP中訓(xùn)練的RL智能體的突防成功率明顯高于POMDP中的,并且在結(jié)合RL-CEM后,極大地提升了每一個(gè)RL智能體的表現(xiàn),它們均達(dá)到了近乎百分百的成功率.綜上,MDP中訓(xùn)練的RL智能體能夠提供一個(gè)可靠的基線策略,該策略不僅可以用于規(guī)劃,還可以作為突發(fā)情況時(shí)的備用策略,RL-CEM則彌補(bǔ)了RL智能體的缺陷,進(jìn)一步提高了突防成功率.
圖5 突防成功率Fig.5 Penetration success rate
表4 RL-CEM的超參數(shù)Table 4 Hyperparameters of RL-CEM
跟蹤RL智能體獲得的最終回報(bào)是一個(gè)不夠充分的評(píng)估指標(biāo),獎(jiǎng)勵(lì)的累積并不能明確表明智能體是在均衡的改進(jìn)策略還是在停滯不前.因此,本文將使用通過(guò)PPO在MDP和POMDP中結(jié)合了動(dòng)量過(guò)濾器訓(xùn)練的RL智能體來(lái)進(jìn)行評(píng)估實(shí)驗(yàn),以驗(yàn)證本文的航跡規(guī)劃方法的魯棒性,并將通過(guò)這些評(píng)估實(shí)驗(yàn)來(lái)回答下述的幾個(gè)問(wèn)題:
?是否可以應(yīng)用于不同尺度的飛行地圖中?
?是否可以處理不同大小和不同數(shù)量的威脅?
?是否可以應(yīng)用于存在動(dòng)態(tài)威脅的地圖中?
?是否可以有效地避免局部最優(yōu)?
除特別說(shuō)明以外,下面的評(píng)估實(shí)驗(yàn)中,本文將使用表3中RL-CEM的超參數(shù),RL方法和RL-CEM方法分別進(jìn)行500個(gè)分幕和100個(gè)分幕的評(píng)估.
3.3.1 不同數(shù)量和大小的威脅
本文將威脅的數(shù)量從15個(gè)增加到了20個(gè),每個(gè)威脅的覆蓋半徑在30 km到150 km之間隨機(jī)選取.表5中報(bào)告了該節(jié)實(shí)驗(yàn)中不同方法的突防成功率.
表5 突防成功率-不同數(shù)量和大小的威脅Table 5 Penetration success rate-different numbers and sizes of threats
表5的實(shí)驗(yàn)結(jié)果中,MDP中訓(xùn)練的RL智能體的性能出現(xiàn)了明顯的下降.為了分析原因,本文進(jìn)行了進(jìn)一步測(cè)試:在僅僅改變威脅數(shù)量的環(huán)境中,MDP方法的突防成功率為0.882;在僅僅改變威脅大小的環(huán)境中,則為0.778.可以得知,威脅大小的改變對(duì)MDP方法的影響較大.幸運(yùn)的是,RL-CEM有效彌補(bǔ)了RL智能體航跡規(guī)劃失敗的情況,實(shí)驗(yàn)結(jié)果進(jìn)一步證實(shí)了RL-CEM的可靠性和魯棒性.
3.3.2 動(dòng)態(tài)的威脅
本文將威脅的運(yùn)動(dòng)學(xué)模型建模為線性恒速模型,每個(gè)威脅的運(yùn)動(dòng)速度0.1 km/s,運(yùn)動(dòng)方向則在0°~360°之間隨機(jī)選取.表6中報(bào)告了該節(jié)實(shí)驗(yàn)中不同方法的突防成功率.實(shí)驗(yàn)結(jié)果表明,無(wú)論是單純的RL方法還是RL-CEM方法,均避開(kāi)了動(dòng)態(tài)威脅成功抵達(dá)了目標(biāo)點(diǎn).可見(jiàn),本文的航跡規(guī)劃方法對(duì)于存在動(dòng)態(tài)威脅的地圖具有令人滿意的魯棒性.
表6 突防成功率-動(dòng)態(tài)的威脅Table 6 Penetration success rate-dynamic threats
3.3.3 回避局部最優(yōu)
路徑規(guī)劃問(wèn)題中,U形障礙物是這一類問(wèn)題中的難點(diǎn):U形障礙物會(huì)形成一條死路,從而導(dǎo)致路徑規(guī)劃失敗、延長(zhǎng)規(guī)劃時(shí)間或者路徑長(zhǎng)度.移動(dòng)機(jī)器人、四旋翼等在遇到U形障礙物時(shí)可以憑借自身的機(jī)動(dòng)優(yōu)勢(shì)離開(kāi).然而,高超聲速飛行器無(wú)法倒退或者原地轉(zhuǎn)向,一旦進(jìn)入呈U形密集分布的威脅時(shí),它必須進(jìn)行大機(jī)動(dòng)轉(zhuǎn)彎來(lái)反向飛行才有可能飛離該區(qū)域,但是,無(wú)法保證這一定能成功,并且能量的花費(fèi)也不容忽視.欲解決這一問(wèn)題,需要RL智能體能提前避開(kāi)這樣的威脅區(qū).
由于該節(jié)是針對(duì)特定威脅布局的情況進(jìn)行實(shí)驗(yàn),所以僅僅只進(jìn)行單個(gè)分幕的評(píng)估.本文在如圖6上半部分所示的地圖中進(jìn)行了評(píng)估實(shí)驗(yàn),實(shí)驗(yàn)中飛行器的飛行速度v設(shè)置為3.0 km/s.圖中顯示,單純的RL智能體難以在這樣的環(huán)境中規(guī)劃一條有效的航跡,但是,結(jié)合RL-CEM后均成功地抵達(dá)了目標(biāo)點(diǎn).可見(jiàn),RLCEM彌補(bǔ)了RL方法的不足.需要注意的是,RL-CEM的規(guī)劃長(zhǎng)度直接影響著是否能夠回避局部最優(yōu),短的規(guī)劃長(zhǎng)度同樣會(huì)使得RL-CEM陷入更糟糕的局部最優(yōu),長(zhǎng)的規(guī)劃長(zhǎng)度則可以避免這樣的情況.盡管增加規(guī)劃長(zhǎng)度會(huì)提高規(guī)劃的時(shí)間開(kāi)銷,但是,RL-CEM的規(guī)劃時(shí)間開(kāi)銷僅僅集中于在環(huán)境中采樣這一階段(算法1中6-9行),這可以通過(guò)并行化采樣來(lái)極大地縮短時(shí)間開(kāi)銷.因此,規(guī)劃長(zhǎng)度的增加對(duì)規(guī)劃時(shí)間的影響是很小的.
圖6 呈U型分布的威脅區(qū)Fig.6 U-shaped threat zone
1) 本文考慮了需用過(guò)載最小、飛行時(shí)間最短和需用過(guò)載的平滑性,討論了在過(guò)載約束下的航跡規(guī)劃問(wèn)題.本文將航跡規(guī)劃問(wèn)題建模為POMDP和MDP,通過(guò)PPO來(lái)求解POMDP和MDP問(wèn)題,并引入指數(shù)加權(quán)平均來(lái)設(shè)計(jì)動(dòng)作過(guò)濾器以增加RL智能體的動(dòng)作在時(shí)間上的相關(guān)性,在幾乎不帶來(lái)額外計(jì)算開(kāi)銷的前提下,保證了航跡的需用過(guò)載的平滑性.在實(shí)驗(yàn)中,MDP方法體現(xiàn)了利用全局信息進(jìn)行規(guī)劃的優(yōu)勢(shì),提出的RL-CEM不僅有效地回避航跡規(guī)劃中的局部最優(yōu),還展現(xiàn)出了令人滿意的成功率.RL-CEM彌補(bǔ)了以往基于RL的航跡規(guī)劃方法容易陷入局部最優(yōu)、規(guī)劃失敗時(shí)無(wú)替代方案的缺點(diǎn).最后,本文的RL-CEM方法在不同的特殊環(huán)境中也展現(xiàn)出了令人滿意的泛化性能.
2) 本文的RL-CEM方法在進(jìn)行規(guī)劃時(shí),需要通過(guò)并行化來(lái)縮短規(guī)劃時(shí)間以保證實(shí)時(shí)性,這使得執(zhí)行規(guī)劃的計(jì)算機(jī)需要滿足一定的性能要求.
3) 本文的航跡規(guī)劃方法回避了高超聲速飛行器復(fù)雜的動(dòng)力學(xué),僅通過(guò)其運(yùn)動(dòng)學(xué)來(lái)解決該問(wèn)題.本文的下一步工作將結(jié)合高超聲速飛行器的動(dòng)力學(xué),從姿態(tài)控制到制導(dǎo)來(lái)進(jìn)行完整的高超聲速飛行器的航跡規(guī)劃研究.