楊友波,張 目,唐 俊,雷印杰
(四川大學(xué)電子信息學(xué)院,成都 610065)
無人機(jī)(unmanned aerial vehicle,UAV)是未來智能社會不可或缺的設(shè)備,可用于農(nóng)業(yè)灌溉、物流運(yùn)輸、森林救援等方面。航跡規(guī)劃是UAV走向智能化必不可少的環(huán)節(jié),現(xiàn)實(shí)生活環(huán)境時(shí)時(shí)刻刻都在發(fā)生變化,考慮到UAV 飛行決策速度的要求和UAV 本身設(shè)計(jì)的物理約束,要求算法具備動態(tài)處理能力,決策時(shí)間要短,能夠?qū)崟r(shí)規(guī)劃,且規(guī)劃路徑優(yōu)、到達(dá)率要高,滿足無人機(jī)的飛行要求。
現(xiàn)有的航跡規(guī)劃算法大致分成傳統(tǒng)算法和強(qiáng)化學(xué)習(xí)算法,常用的傳統(tǒng)算法有快速探索隨機(jī)樹(rapidly-exploring random trees,RRT)[1-2]、人工勢場(artificial potential field,APF)[3]、A*算法[4]、粒子群算法(particle swarm optimization,PSO)[5]和蟻群算法(ant colony optimization, ACO)[6];基于強(qiáng)化學(xué)習(xí)的航跡規(guī)劃算法,主要有深度Q 網(wǎng)絡(luò)算法(deep Q-Learning,DQN)[7]、深度確定性策略梯度算法(deep deterministic policy gradient,DDPG)[8]和近端策略優(yōu)化算法(proximal policy optimization, PPO)。文獻(xiàn)[9]提出結(jié)合APF 和RRT 的改進(jìn)算法APFG-RRT,建立目標(biāo)勢場和障礙物勢場,引導(dǎo)RRT搜索,為了使RRT跳出局部優(yōu)解,提出概率自適應(yīng)采樣方法,提高了算法規(guī)劃速度,但路徑不滿足飛行要求。文獻(xiàn)[10]針對蟻群算法收斂速度慢,路徑次優(yōu)等問題,借鑒啟發(fā)函數(shù)的思想,非均勻的初始化信息素濃度,同時(shí)引入定向鄰域擴(kuò)展等策略,引導(dǎo)螞蟻向著終點(diǎn)方向前進(jìn),改進(jìn)算法有效地縮短了路徑長度,加快了收斂速度,但隨著搜索維度的上升,算法收斂速度會顯著下降。為此,國內(nèi)外學(xué)者提出基于強(qiáng)化學(xué)習(xí)的路徑規(guī)劃算法,文獻(xiàn)[11]將路徑規(guī)劃問題分解成三個(gè)子問題,分別是避障問題、動作選擇問題和抵達(dá)目標(biāo)問題,作者融合了LSTM 和DQN,借LSTM 的“記憶”優(yōu)勢捕捉環(huán)境中障礙物的動態(tài)信息,提取動態(tài)障礙物的特征,作者將這種方法命名為Layered-RQN,實(shí)驗(yàn)證明,Layered-RQN 累積獎(jiǎng)勵(lì)和成功率遠(yuǎn)遠(yuǎn)大于DQN、DDQN、DPQN、DRQN,但由于引入了LSTM,算法的訓(xùn)練時(shí)間過長,收斂速度慢,且對硬件設(shè)備要求高。文獻(xiàn)[12]重新設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),同時(shí)建立障礙物區(qū)域危險(xiǎn)模型,加快了DQN 算法的收斂;文獻(xiàn)[13]對學(xué)習(xí)樣本加入高斯噪聲,提升了算法的魯棒性,完成了小車的智能導(dǎo)航;文獻(xiàn)[14]將LSTM 與進(jìn)度策略優(yōu)化算法PPO 結(jié)合起來,增加好奇心驅(qū)動來提供訓(xùn)練效率和性能,該方法在三維環(huán)境中具有較好的效果,但是PPO 網(wǎng)絡(luò)過重,訓(xùn)練效率低下,收斂速度慢,且作者未驗(yàn)證改進(jìn)算法在動態(tài)環(huán)境中的效果。
針對現(xiàn)有強(qiáng)化學(xué)習(xí)算法存在處理動態(tài)環(huán)境能力弱、網(wǎng)絡(luò)訓(xùn)練時(shí)間長、收斂慢甚至不收斂等問題,本文提出一種改進(jìn)的DDPG 航跡規(guī)劃算法,融合自注意力機(jī)制,捕獲環(huán)境中的關(guān)鍵因素,提取障礙物的特征信息,特別是動態(tài)障礙物的特征信息,訓(xùn)練無人機(jī)向無障礙區(qū)域飛行,躲避障礙物,提高到達(dá)率,重新設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),引入方向向量夾角約束,引導(dǎo)無人機(jī)向目標(biāo)飛行且約束無人機(jī)的轉(zhuǎn)彎角度,給予不合理的轉(zhuǎn)彎行為一定“懲罰”,解決飛行路徑不平滑的問題,同時(shí),設(shè)計(jì)“后退”懲罰,相同距離下,“后退”的扣分比“前進(jìn)”的加分多,懲罰無人機(jī)來回的“刷分”行為,解決無人機(jī)來回飛行的問題。
強(qiáng)化學(xué)習(xí)的學(xué)習(xí)思路類似于人,智能體與環(huán)境交互,環(huán)境給予智能體“犯錯(cuò)信息”或“成功信息”,“犯錯(cuò)”會得到懲罰,“成功”會得到獎(jiǎng)勵(lì),在不斷獲得“獎(jiǎng)懲”的過程中,智能體學(xué)會不斷地調(diào)整自身行為,以此來獲得更高的獎(jiǎng)勵(lì)、減少懲罰。其基本結(jié)構(gòu)如圖1 所示。在當(dāng)前狀態(tài)下,智能體根據(jù)算法策略產(chǎn)生一個(gè)動作a并且執(zhí)行,環(huán)境由當(dāng)前狀態(tài)轉(zhuǎn)換到下一個(gè)狀態(tài)s′,并且給予智能體獎(jiǎng)勵(lì)或者懲罰。
圖1 強(qiáng)化學(xué)習(xí)基本結(jié)構(gòu)示意
DDPG 是基于Actor-Critic 架構(gòu)的網(wǎng)絡(luò),基于狀態(tài)價(jià)值函數(shù)的算法存在容易過擬合、內(nèi)存消耗大、查詢效率低且難以處理連續(xù)動作等問題,基于策略梯度的算法引入連續(xù)型策略函數(shù),可以處理連續(xù)動作問題。DDPG 將兩種算法結(jié)合起來,為了減少樣本量,加快算法收斂,DDPG 采用確定性策略,即采用概率最大的動作。為了緩解過估計(jì)問題,DDPG 算法采用四網(wǎng)絡(luò)結(jié)構(gòu),分別為當(dāng)前策略網(wǎng)絡(luò)Actor,目標(biāo)策略網(wǎng)絡(luò)Actor′,當(dāng)前價(jià)值網(wǎng)絡(luò)Critic,目標(biāo)價(jià)值網(wǎng)絡(luò)Critic′。
相比較于價(jià)值函數(shù)算法和策略梯度算法,DDPG 可以綜合狀態(tài)價(jià)值函數(shù)和動作價(jià)值函數(shù)優(yōu)勢,對特定狀態(tài)決策確定的動作,對確定的動作進(jìn)行打分。
在本文中,需要考慮障礙物與UAV的碰撞,障礙物與UAV 的威脅關(guān)系與距離有關(guān),定義威脅模型如下:
式中:dl是安全距離,d是UAV與障礙物之間的歐式距離。距離障礙物越近,則威脅越大;距離障礙物越遠(yuǎn),威脅越小。
UAV 在航跡規(guī)劃中,必然涉及到避障問題,傳感器探測到UAV 周圍信息,其中包含著障礙物存在信息,也包含著障礙物不存在信息,UAV 找出有障礙區(qū)域和無障礙區(qū)域之間的特征,選擇無障礙區(qū)域“安全”通過。在常用的算法中,自注意力機(jī)制天然地適合這種要求,能夠從傳感器眾多信息中找到障礙區(qū)域和無障礙區(qū)域之間的關(guān)系,并且提取其特征,相對于LSTM算法和GRU 算法,自注意力機(jī)制計(jì)算代價(jià)小,硬件設(shè)備要求低,適合UAV 這種小型設(shè)備。其計(jì)算公式如下:
強(qiáng)化學(xué)習(xí)中,算法總是傾向于獎(jiǎng)勵(lì)值較高的動作,獎(jiǎng)勵(lì)函數(shù)直接影響算法的“偏好”,好的獎(jiǎng)勵(lì)函數(shù)可以使算法快速收斂,并且在完成主要任務(wù)的同時(shí),能夠很好地完成次要任務(wù),這就要求獎(jiǎng)勵(lì)函數(shù)不但包含主要任務(wù)獎(jiǎng)勵(lì),也要包含次要獎(jiǎng)勵(lì)函數(shù)。本文主要從兩個(gè)方面改進(jìn)獎(jiǎng)勵(lì)函數(shù),增加方向向量夾角引導(dǎo),引導(dǎo)UAV 朝著目標(biāo)飛行,同時(shí)約束UAV 轉(zhuǎn)向角的大小,增加后退懲罰項(xiàng),相同距離下,后退扣分大于前進(jìn)加分,防止“來回”的刷分行為。
1.4.1 方向向量夾角引導(dǎo)
UAV 搭載著距離傳感器,可以探測到周圍一定范圍內(nèi)的障礙物,結(jié)合障礙物威脅模型,UAV 能找出“低威脅”區(qū)域,并且朝著該區(qū)域飛行,由于傳感器探測到自身范圍內(nèi)的信息屬于局部信息,在局部信息的引導(dǎo)下,UAV 只能學(xué)會避障,無法學(xué)會導(dǎo)航,無法朝著目標(biāo)前進(jìn)。引入方向向量夾角,UAV 便能感知目標(biāo)所在的方向,經(jīng)過多輪的迭代訓(xùn)練,UAV 學(xué)會調(diào)整偏航角和俯仰角,朝著目標(biāo)飛行,即UAV 同時(shí)學(xué)會避障和導(dǎo)航。方向向量夾角計(jì)算公式以及獎(jiǎng)勵(lì)公式如下:
其中:θ是當(dāng)前朝向與前一個(gè)采樣點(diǎn)的方向夾角;g(θ)是均值為π,方差為1 的高斯函數(shù)。方向夾角獎(jiǎng)勵(lì)函數(shù)引導(dǎo)UAV 朝著目標(biāo)前進(jìn),同時(shí)約束UAV 盡可能保持原有的朝向,朝向改變越大,受到的懲罰越大,UAV 學(xué)會朝著目標(biāo)前進(jìn)并且盡可能地保持自身朝向,最終可以實(shí)時(shí)規(guī)劃出一條相對平滑的飛行航跡。
1.4.2 “后退”懲罰
強(qiáng)化學(xué)習(xí)算法本質(zhì)目的是在環(huán)境中訓(xùn)練一個(gè)最優(yōu)的策略,使得智能體在該策略下可以獲得最多的獎(jiǎng)勵(lì),因此,UAV 為了獲得更多的獎(jiǎng)勵(lì),不斷前進(jìn)后退,陷入“貪婪異常”,為了解決該問題,本文設(shè)計(jì)了“后退”懲罰函數(shù),懲戒“后退”行為。
其中:α是距離差系數(shù)因子,取值為20;β是輔助系數(shù)因子,取值為0.2。dt是前一個(gè)采樣點(diǎn)距離目標(biāo)的距離,dc是當(dāng)前采樣點(diǎn)距離目標(biāo)的距離。
當(dāng)UAV 與目標(biāo)的歐氏距離增大時(shí),表明UAV 在“后退”,此時(shí)會給予UAV 一個(gè)αβ的“微小”懲罰,經(jīng)過多輪迭代訓(xùn)練,UAV“后退”次數(shù)大大減少。
1.4.3 綜合獎(jiǎng)勵(lì)
綜合獎(jiǎng)勵(lì)函數(shù)由三部分構(gòu)成,分別是方向向量夾角引導(dǎo)獎(jiǎng)勵(lì)ra,“后退”懲罰rb,距離差獎(jiǎng)勵(lì)rc,綜合獎(jiǎng)勵(lì)如下:
該改進(jìn)獎(jiǎng)勵(lì)函數(shù)保證UAV會朝著目標(biāo)飛行,同時(shí)減少“后退”飛行次數(shù),并且盡可能保持原有飛行朝向,能夠?qū)崟r(shí)規(guī)劃出一條優(yōu)秀的平滑航跡。
DDPG 算法存在策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò),兩個(gè)網(wǎng)絡(luò)的損失函數(shù)分別為公式(7)和公式(9)。策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)對應(yīng)目標(biāo)網(wǎng)絡(luò)的參數(shù)使用軟更新的方式,對應(yīng)軟更新公式(10)。
其中:w為策略網(wǎng)絡(luò)參數(shù),Q表示價(jià)值函數(shù),θ為價(jià)值網(wǎng)絡(luò)參數(shù),w′為目標(biāo)策略網(wǎng)絡(luò)參數(shù),θ′為目標(biāo)價(jià)值網(wǎng)絡(luò)參數(shù),τ為更新系數(shù),取值為0.01。策略網(wǎng)絡(luò)的學(xué)習(xí)率設(shè)置為0.0001,價(jià)值網(wǎng)絡(luò)的學(xué)習(xí)率設(shè)置為0.001。
為了全面、直觀地評價(jià)算法的性能,本文采用多個(gè)航跡規(guī)劃的評價(jià)指標(biāo),包括平均飛行距離(average flight distance, AFD)、到達(dá)率(arrival rate, AR)、平均采樣點(diǎn)(average sampling point,ASP)和平均耗時(shí)(average time,AT)。到達(dá)率表示無人機(jī)安全無碰撞地到達(dá)目的地的次數(shù)與總飛行次數(shù)的百分比,到達(dá)率越高表明無人機(jī)成功達(dá)到目標(biāo)位置的能力越強(qiáng);平均采樣點(diǎn)表示無人機(jī)每次成功飛行需要采樣的平均點(diǎn)數(shù)目,平均采樣點(diǎn)越低說明算法的決策能力越好;平均飛行距離表示無人機(jī)從起始點(diǎn)成功飛到目的地的平均距離,平均飛行距離越短,無人機(jī)到達(dá)目標(biāo)位置的速度越快;平均耗時(shí)表示算法成功決策一輪消耗的時(shí)間,該數(shù)值越低說明算法的推理速度越快。到達(dá)率、平均采樣點(diǎn)、平均飛行距離和平均耗時(shí)的計(jì)算公式如下。
其中:SRC表示成功到達(dá)總次數(shù);AC表示總飛行次數(shù);SRAS表示成功到達(dá)總采樣數(shù);SRAD表示成功到達(dá)總距離;ARAT表示算法推理總時(shí)間。
UAV 四周模擬了距離傳感器,用來檢測障礙物,得到傳感器信息,UAV 自身方位信息,目標(biāo)方位信息作為其他信息,采用自注意力網(wǎng)絡(luò)提取傳感器信息,采用線性網(wǎng)絡(luò)提取其他信息。網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 改進(jìn)DDPG網(wǎng)絡(luò)結(jié)構(gòu)
為了使DDPG 能夠穩(wěn)定地收斂,本文采用“漸進(jìn)式”訓(xùn)練的方式,首先使用改進(jìn)DDPG 算法在簡單動態(tài)實(shí)驗(yàn)場景中進(jìn)行訓(xùn)練,使模型適應(yīng)簡單場景,得到收斂后的簡單模型,使用該模型在復(fù)雜動態(tài)實(shí)驗(yàn)場景中再次訓(xùn)練,得到最終的算法模型,在簡單動態(tài)實(shí)驗(yàn)場景和復(fù)雜動態(tài)實(shí)驗(yàn)場景中,每輪訓(xùn)練開始時(shí),重新初始化障礙物的位置、UAV 的位置和目標(biāo)的位置,防止算法過擬合,提升模型的泛化能力。訓(xùn)練結(jié)果如圖3 和圖4 所示。由訓(xùn)練效果圖可知,模型的收斂速度很快,并且收斂效果非常好。
圖3 改進(jìn)算法獎(jiǎng)勵(lì)值
圖4 改進(jìn)算法到達(dá)率
為了驗(yàn)證本文所提改進(jìn)DDPG 算法的有效性,將在三種數(shù)據(jù)集上做驗(yàn)證測試,每種數(shù)據(jù)集中均有200個(gè)不同的場景,每個(gè)場景中動態(tài)障礙物個(gè)數(shù)與靜態(tài)障礙物的個(gè)數(shù)不確定,但個(gè)數(shù)比約等于5∶5。數(shù)據(jù)集1 中每個(gè)場景有20 個(gè)障礙物,數(shù)據(jù)集2 中每個(gè)場景有30 個(gè)障礙物,數(shù)據(jù)集3中每個(gè)場景有50個(gè)障礙物。
3.3.1 實(shí)驗(yàn)結(jié)果
應(yīng)用改進(jìn)DDPG 算法模型在上述三個(gè)實(shí)驗(yàn)數(shù)據(jù)集上得到如表1 的結(jié)果。表1 中列出了到達(dá)率、平均采樣點(diǎn)、平均飛行距離和平均耗時(shí),從表中數(shù)據(jù)分析可知,改進(jìn)算法到達(dá)高、平均采樣點(diǎn)少、平均飛行距離短且平均耗時(shí)短,驗(yàn)證了改進(jìn)DDPG 算法的有效性。當(dāng)場景越來越復(fù)雜時(shí),改進(jìn)DDPG 算法到達(dá)率略微下降,平均采樣點(diǎn)、平均耗時(shí)有所增加,平均飛行距離幾乎不變,總體的效果非常好,說明算法的泛化能力強(qiáng),能夠應(yīng)對簡單或者復(fù)雜的三維場景,并且無需重復(fù)訓(xùn)練。
表1 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
3.3.2 消融實(shí)驗(yàn)
為了驗(yàn)證前文所述改進(jìn)方法的有效性,本文在數(shù)據(jù)集3 上做消融實(shí)驗(yàn),使用經(jīng)典DDPG 算法作為baseline,分別組合自注意力機(jī)制和改進(jìn)獎(jiǎng)勵(lì)函數(shù),驗(yàn)證兩者對網(wǎng)絡(luò)算法提升的效果。實(shí)驗(yàn)結(jié)果如表2 所示。其中SA 表示自注意力機(jī)制,IR 表示改進(jìn)獎(jiǎng)勵(lì)函數(shù)。根據(jù)表中消融實(shí)驗(yàn)結(jié)果可知,改進(jìn)獎(jiǎng)勵(lì)函數(shù)和自注意力機(jī)制均提升了網(wǎng)絡(luò)的性能,只使用改進(jìn)獎(jiǎng)勵(lì)函數(shù)時(shí),到達(dá)率提升3%,平均采樣點(diǎn)、平均飛行距離,平均耗時(shí)均有降低;只使用自注意力機(jī)制時(shí),到達(dá)率提升7%,平均采樣點(diǎn)數(shù)大幅降低,平均飛行距離、平均耗時(shí)有所降低;結(jié)合自注意力機(jī)制且改進(jìn)獎(jiǎng)勵(lì)函數(shù)后,提升的效果最大,到達(dá)率提升9%且平均采樣點(diǎn)、平均飛行距離,平均耗時(shí)大幅降低,網(wǎng)絡(luò)性能達(dá)到最高,消融實(shí)驗(yàn)結(jié)果證明本文提出的自注意力機(jī)制和改進(jìn)獎(jiǎng)勵(lì)函數(shù)是有效的。
表2 消融實(shí)驗(yàn)結(jié)果
3.3.3 對比實(shí)驗(yàn)
本文選取經(jīng)典DDPG 算法、改進(jìn)RRT 算法、改進(jìn)RRT*算法與本文提出的改進(jìn)DDPG 算法進(jìn)行對比,選擇經(jīng)典DDPG 算法是為了對比改進(jìn)DDPG 算法的到達(dá)率、推理速度和實(shí)時(shí)規(guī)劃能力,選擇改進(jìn)RRT 算法和改進(jìn)RRT*算法是為了對比改進(jìn)DDPG 算法的飛行路徑。因此,對比實(shí)驗(yàn)使用指標(biāo)到達(dá)率、平均采樣點(diǎn)、平均飛行距離和平均耗時(shí)。采用數(shù)據(jù)3 定量對比算法效果,對比實(shí)驗(yàn)結(jié)果如表3 所示,采用數(shù)據(jù)集1,數(shù)據(jù)集2,數(shù)據(jù)集3 定性對比算法效果,對比實(shí)驗(yàn)效果如圖5所示。
表3 對比實(shí)驗(yàn)結(jié)果
圖5 對比實(shí)驗(yàn)效果
從表中分析可知,改進(jìn)DDPG 算法在到達(dá)率指標(biāo)上比經(jīng)典DDPG 算法高9%,在平均耗時(shí)指標(biāo)上低0.11秒,即推理時(shí)間降低26.2%,同時(shí)在平均采樣點(diǎn)和平均飛行距離指標(biāo)上,改進(jìn)DDPG 算法優(yōu)于經(jīng)典DDPG 算法31.7%和7.3%。與改進(jìn)RRT 算法相比,改進(jìn)DDPG 算法在到達(dá)率指標(biāo)和平均耗時(shí)指標(biāo)上未能取得最佳,但是在平均飛行距離指標(biāo)上,改進(jìn)DDPG 算法性能提升了38.9%,說明改進(jìn)DDPG 算法的飛行路徑更優(yōu),并且在平均采樣點(diǎn)指標(biāo)上,改進(jìn)DDPG算法甚至遠(yuǎn)遠(yuǎn)優(yōu)于這兩種算法。得益于RRT*的重選父節(jié)點(diǎn)和重布局的改進(jìn),改進(jìn)RRT*在平均飛行距離指標(biāo)上略微優(yōu)于改進(jìn)DDPG 算法,但在平均耗時(shí)指標(biāo)上遠(yuǎn)遠(yuǎn)遜于改進(jìn)DDPG 算法。因此,改進(jìn)DDPG 算法兼顧了到達(dá)率、推理速度、實(shí)時(shí)規(guī)劃以及飛行路徑四個(gè)方面,并且在四個(gè)方面均保持非常好的性能。
對比實(shí)驗(yàn)效果圖中,圓點(diǎn)表示起始點(diǎn),矩形表示動態(tài)障礙物,三角形表示靜態(tài)障礙物,十字叉表示目標(biāo)點(diǎn),實(shí)線表示改進(jìn)DDPG算法規(guī)劃航跡,虛線表示經(jīng)典DDPG算法規(guī)劃航跡,剪切線表示改進(jìn)RRT算法規(guī)劃航跡,點(diǎn)劃線表示改進(jìn)RRT*算法規(guī)劃航跡。觀察效果圖可知,無論是在簡單動態(tài)場景,還是在復(fù)雜動態(tài)場景,改進(jìn)RRT算法和改進(jìn)RRT*算法規(guī)劃出的路徑具有很多的生硬轉(zhuǎn)角,不符合UAV的飛行約束,在簡單場景下,經(jīng)典DDPG 算法規(guī)劃路徑差于改進(jìn)DDPG算法規(guī)劃路徑;在復(fù)雜場景下,經(jīng)典DDPG規(guī)劃出的路徑,在接近目標(biāo)位置時(shí)陷入了“貪婪陷阱”,來回地“刷分”,而本文提出的改進(jìn)DDPG算法,很好地解決了這個(gè)問題,路徑最短且最優(yōu),符合UAV的飛行要求,對比實(shí)驗(yàn)效果圖驗(yàn)證了文中提出方法的正確性和有效性。
為了解決動態(tài)三維場景下,無人機(jī)航跡實(shí)時(shí)規(guī)劃困難、到達(dá)率低以及航跡不符合飛行要求的問題,本文基于DDPG 算法提出改進(jìn)算法。自注意力機(jī)制作為障礙物特征提取模塊,能夠降低網(wǎng)絡(luò)復(fù)雜程度,減少計(jì)算量,提高實(shí)時(shí)推理速度,有效訓(xùn)練無人機(jī)向著低風(fēng)險(xiǎn)、無障礙區(qū)域飛行,提高到達(dá)率;改進(jìn)獎(jiǎng)勵(lì)函數(shù),加大“向后”的懲罰,減少“向前”的獎(jiǎng)勵(lì),防止“刷分”行為,同時(shí)加入方向?qū)?shù)夾角引導(dǎo)策略,使無人機(jī)在一定范圍內(nèi)的角度里轉(zhuǎn)向,更符合無人機(jī)飛行要求。從消融實(shí)驗(yàn)可以看出,引入的注意力機(jī)制、方向?qū)?shù)夾角和改進(jìn)的獎(jiǎng)勵(lì)函數(shù),均有效提升了DDPG 算法的性能;從對比實(shí)驗(yàn)分析可知,改進(jìn)DDPG 算法兼顧了各項(xiàng)指標(biāo),保持非常高的到達(dá)率,同時(shí)保證了推理速度,減少了采樣點(diǎn)數(shù)量和航跡路徑長度。本文所提的改進(jìn)DDPG 算法主要考慮空中的實(shí)時(shí)航跡規(guī)劃、躲避飛行器和鳥類,沒有考慮在城市中躲避建筑的情形,同時(shí)改進(jìn)算法只在模擬場景中實(shí)驗(yàn),后期會考慮躲避建筑物等情況以及進(jìn)行實(shí)物實(shí)驗(yàn)。