江未來(lái) 吳俊 王耀南
摘要:針對(duì)傳統(tǒng)深度強(qiáng)化學(xué)習(xí)在求解無(wú)人機(jī)自主避障與目標(biāo)追蹤任務(wù)時(shí)所存在的訓(xùn)練效率低、環(huán)境適應(yīng)性差的問(wèn)題,在深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法中融入與模型無(wú)關(guān)的元學(xué)習(xí)(Model-Agnostic Meta-Learning,MAML),設(shè)計(jì)一種內(nèi)外部元參數(shù)更新規(guī)則,提出了元深度確定性策略梯度(Meta-Deep Deterministic Policy Gradient,Meta-DDPG)算法,以提升模型的收斂速度和泛化能力.此外,在模型預(yù)訓(xùn)練部分構(gòu)造基本元任務(wù)集以提升實(shí)際工程中的預(yù)訓(xùn)練效率.最后,在多種測(cè)試環(huán)境下對(duì)所提算法進(jìn)行了仿真驗(yàn)證,結(jié)果表明基本元任務(wù)集的引入可使模型預(yù)訓(xùn)練效果更優(yōu),Meta-DDPG算法相比DDPG算法在收斂特性和環(huán)境適應(yīng)性方面更有優(yōu)勢(shì),并且元學(xué)習(xí)方法和基本元任務(wù)集對(duì)確定性策略強(qiáng)化學(xué)習(xí)具有通用性.
關(guān)鍵詞:元強(qiáng)化學(xué)習(xí);無(wú)人機(jī);自主避障;目標(biāo)追蹤;路徑規(guī)劃
中圖分類號(hào):V249.1文獻(xiàn)標(biāo)志碼:A
Autonomous Obstacle Avoidance and Target Tracking of UAV Based on Meta-Reinforcement Learning
JIANG Weilai1,2,WU Jun1,2,WANG Yaonan1,2
(1. College of Electrical and Information Engineering,Hunan Unviersity,Changsha 410082,China;2. National Engineering Research Center of Robot Visual Perception & Control Technology,Hunan University,Changsha 410082,China)
Abstract:There are some problems with traditional deep reinforcement learning in solving autonomous obstacle avoidance and target tracking tasks for unmanned aerial vehicles(UAV),such as low training efficiency and weak adaptability to variable environments. To overcome these problems,this paper designs an internal and external metaparameter update rule by incorporating Model-Agnostic Meta-Learning (MAML)into Deep Deterministic Policy Gradient (DDPG)algorithm and proposes a Meta-Deep Deterministic Policy Gradient (Meta-DDPG)algorithm inovder to improve the convergence speed and generalization ability of the model. Furthermore,the basic meta-task sets are constructed in the model,s pre-training stage to improve the efficiency of pre-training in practical engineering. Finally,the proposed algorithm is simulated and verified in Various testing environments. The results show thatthe introduction of the basic meta-task sets can make the model’s pre-training more efficient,Meta-DDPG algorithm has better convergence characteristics and environmental adaptability when compared with the DDPG algorithm. Furthermore,the meta-learning and the basic meta-task sets are universal to deterministic policy reinforcement learning.
Key words:meta-reinforcement learning;Unmanned Aerial Vehicle(UAV);autonomous obstacle avoidance;target tracking;path planning
隨著衛(wèi)星導(dǎo)航、信號(hào)傳輸、電氣儲(chǔ)能等相關(guān)技術(shù)的進(jìn)步,無(wú)人機(jī)的應(yīng)用領(lǐng)域在不斷擴(kuò)大,如森林防火、電力巡檢、物流運(yùn)輸?shù)?這些任務(wù)的基本前提均為無(wú)人機(jī)目標(biāo)追蹤,只有追上目標(biāo)或到達(dá)指定地點(diǎn)才可以繼續(xù)執(zhí)行任務(wù).無(wú)人機(jī)執(zhí)行目標(biāo)追蹤任務(wù)時(shí)不可避免地會(huì)遇到障礙物,例如房屋、樹木、電線等. 如何讓無(wú)人機(jī)安全自主地避開障礙物并實(shí)現(xiàn)目標(biāo)追蹤是無(wú)人機(jī)領(lǐng)域一大研究熱點(diǎn).
傳統(tǒng)避障算法有蟻群算法[1]、最短路徑制導(dǎo)向量場(chǎng)[2]和貝葉斯推理等.這些算法都是將避障問(wèn)題轉(zhuǎn)換為優(yōu)化問(wèn)題,通過(guò)求解優(yōu)化模型而得到最終的無(wú)人機(jī)飛行軌跡.但是這些方法由于存在迭代時(shí)間長(zhǎng)、泛化能力弱、智能化水平低等缺點(diǎn),無(wú)法適用于環(huán)境多變或環(huán)境未知下的避障問(wèn)題.隨著人工智能技術(shù)發(fā)展,深度強(qiáng)化學(xué)習(xí)逐漸被運(yùn)用于求解無(wú)人機(jī)自主避障與目標(biāo)追蹤問(wèn)題.文獻(xiàn)[3-5]基于深度Q網(wǎng)絡(luò)(Deep Q Net,DQN)[6]算法完成無(wú)人機(jī)離散動(dòng)作空間下路徑規(guī)劃.文獻(xiàn)[7-8]采用深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)[9]算法實(shí)現(xiàn)無(wú)人機(jī)連續(xù)動(dòng)作空間下目標(biāo)追蹤的自主決策.
雖然上述算法均取得了一定的成果,但是傳統(tǒng)深度強(qiáng)化學(xué)習(xí)算法訓(xùn)練速度慢,且只能應(yīng)對(duì)單一環(huán)境下的任務(wù),而當(dāng)障礙物環(huán)境或目標(biāo)運(yùn)動(dòng)軌跡改變時(shí),智能體往往需要重新進(jìn)行大量探索和訓(xùn)練.因此如何提升深度強(qiáng)化學(xué)習(xí)算法面對(duì)復(fù)雜動(dòng)態(tài)任務(wù)時(shí)的收斂速度和適應(yīng)性成為強(qiáng)化學(xué)習(xí)領(lǐng)域的一大熱點(diǎn)和難點(diǎn).
近年來(lái),有學(xué)者將元學(xué)習(xí)與深度強(qiáng)化學(xué)習(xí)相結(jié)合,提出了元強(qiáng)化學(xué)習(xí)概念.元學(xué)習(xí)主張讓機(jī)器學(xué)習(xí)如何學(xué)習(xí),人類之所以比機(jī)器更智能是因?yàn)楫?dāng)遇到一個(gè)新任務(wù)時(shí),人類知道怎么在短時(shí)間內(nèi)得出執(zhí)行任務(wù)的要領(lǐng).Finn等[10]提出與模型無(wú)關(guān)的元學(xué)習(xí)(Model-Agnostic Meta-Learning,MAML),可適用于任何采用梯度下降更新方法的機(jī)器學(xué)習(xí)算法.Wang等[11]首次將長(zhǎng)短期記憶網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)結(jié)合,使得神經(jīng)網(wǎng)絡(luò)具有能夠獨(dú)立訓(xùn)練任務(wù)的能力.Xu等[12]提出在深度強(qiáng)化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)中添加嵌入層對(duì)上下文潛在變量進(jìn)行元訓(xùn)練以提高分布式數(shù)據(jù)挖掘的效率.然而,發(fā)揮元強(qiáng)化學(xué)習(xí)可根據(jù)新任務(wù)自主適應(yīng)的優(yōu)勢(shì),用以解決復(fù)雜動(dòng)態(tài)環(huán)境下的無(wú)人機(jī)自主避障與目標(biāo)追蹤問(wèn)題鮮有報(bào)道.
綜上,為解決傳統(tǒng)深度強(qiáng)化學(xué)習(xí)在求解無(wú)人機(jī)自主避障與目標(biāo)追蹤任務(wù)時(shí)收斂特性差、環(huán)境適應(yīng)性弱的問(wèn)題,本文提出了一種元深度確定性策略梯度(Meta-Deep Deterministic Policy Gradient,Meta- DDPG)算法.將元學(xué)習(xí)算法MAML與深度強(qiáng)化學(xué)習(xí)算法DDPG相結(jié)合,在預(yù)訓(xùn)練過(guò)程中設(shè)計(jì)內(nèi)外部元參數(shù)更新規(guī)則,獲取可以適應(yīng)多種任務(wù)的元初始參數(shù).此外,構(gòu)造基本元任務(wù)集運(yùn)用于Meta-DDPG算法預(yù)訓(xùn)練階段.最后仿真結(jié)果表明,采用基本元任務(wù)集使得工程應(yīng)用更加高效,Meta-DDPG算法與DDPG算法相比具有更優(yōu)的收斂特性與環(huán)境適應(yīng)性,并且元學(xué)習(xí)方法和基本元任務(wù)集對(duì)確定性策略強(qiáng)化學(xué)習(xí)算法具有較高的通用性.
1問(wèn)題描述
1.1無(wú)人機(jī)運(yùn)動(dòng)模型
考慮到實(shí)際情況中無(wú)人機(jī)速度不能瞬間變化,故無(wú)人機(jī)運(yùn)動(dòng)方程可表示為
式中:n為無(wú)人機(jī)t時(shí)刻的加速度大小;α為加速度方向與水平線的夾角.
1.2無(wú)人機(jī)自主避障與目標(biāo)追蹤任務(wù)建模
為了更好地描述無(wú)人機(jī)自主避障與目標(biāo)追蹤任務(wù),將其定義為馬爾可夫決策過(guò)程(Markov decision process,MDP). MDP由狀態(tài)空間S、動(dòng)作空間A、狀態(tài)轉(zhuǎn)移概率P、獎(jiǎng)勵(lì)函數(shù)R和折扣因子γ組成,并以元組表示為(S,A,P,R,γ).在該任務(wù)中狀態(tài)空間S為無(wú)人機(jī)的本體狀態(tài)與傳感器采集的環(huán)境信息;動(dòng)作空間A為無(wú)人機(jī)采取的追蹤動(dòng)作;狀態(tài)轉(zhuǎn)移概率P[s丨s,a]為狀態(tài)s下執(zhí)行動(dòng)作a轉(zhuǎn)移到s的概率;獎(jiǎng)勵(lì)函數(shù)R為在狀態(tài)s下采取動(dòng)作a,無(wú)人機(jī)可以獲得的即時(shí)獎(jiǎng)勵(lì),即R(s,a);折扣因子γ為未來(lái)獎(jiǎng)勵(lì)對(duì)當(dāng)前狀態(tài)的影響因素.在此定義動(dòng)作值函數(shù)的貝爾曼方程為
式中:π表示智能體所采取的動(dòng)作序列,稱為策略;
Q(s,a)表示在狀態(tài)s處,采取動(dòng)作a后,所得到的折扣累計(jì)獎(jiǎng)勵(lì)的期望.根據(jù)Q(s,a)值大小可評(píng)估策略π的優(yōu)劣.
1.2.1狀態(tài)空間S
狀態(tài)空間S為智能體自身狀態(tài)和環(huán)境信息的集
最終狀態(tài)空間S記作
1.2.2動(dòng)作空間A
動(dòng)作空間A為智能體可執(zhí)行的動(dòng)作.由于無(wú)人機(jī)速度不能瞬間變化,所以動(dòng)作空間由加速度大小n和加速度方向與水平線的夾角α組成,同樣進(jìn)行歸一化為
式中,n為無(wú)人機(jī)最大加速度.
所以動(dòng)作空間A記作
A=[n′,α′](7)
深度強(qiáng)化學(xué)習(xí)算法最終目標(biāo)是獲得最優(yōu)策略π,即在任意狀態(tài)s下所執(zhí)行的動(dòng)作a.
1.2.3獎(jiǎng)勵(lì)函數(shù)R
獎(jiǎng)勵(lì)函數(shù)的設(shè)定對(duì)深度強(qiáng)化學(xué)習(xí)的訓(xùn)練結(jié)果至關(guān)重要,不同的獎(jiǎng)勵(lì)函數(shù)對(duì)模型收斂特性影響都不同.此任務(wù)中,若采用稀疏獎(jiǎng)勵(lì),也即只在無(wú)人機(jī)追蹤成功或失敗后才反饋獎(jiǎng)勵(lì),會(huì)造成收斂速度緩慢的問(wèn)題.因此本文設(shè)置連續(xù)獎(jiǎng)勵(lì)函數(shù)為
2DDPG算法
DDPG是一種處理連續(xù)狀態(tài)空間和動(dòng)作空間問(wèn)題的確定性策略強(qiáng)化學(xué)習(xí)算法.傳統(tǒng)演員-評(píng)論家(Actor-Critic,AC)算法中演員網(wǎng)絡(luò)與評(píng)論家網(wǎng)絡(luò)在訓(xùn)練時(shí)往往不穩(wěn)定.DDPG算法針對(duì)此問(wèn)題,分別構(gòu)建了一對(duì)結(jié)構(gòu)完全相同的評(píng)估(Eval)神經(jīng)網(wǎng)絡(luò)和目標(biāo)(Target)神經(jīng)網(wǎng)絡(luò).其中Eval神經(jīng)網(wǎng)絡(luò)用于訓(xùn)練更新網(wǎng)絡(luò)參數(shù),Target神經(jīng)網(wǎng)絡(luò)采用軟更新的方式來(lái)跟隨Eval神經(jīng)網(wǎng)絡(luò)參數(shù),保證訓(xùn)練過(guò)程的穩(wěn)定性.
對(duì)于演員Eval網(wǎng)絡(luò),可訓(xùn)練參數(shù)為θ,輸入為狀態(tài)s,輸出為動(dòng)作a.演員Eval神經(jīng)網(wǎng)絡(luò)損失函數(shù)為
Target神經(jīng)網(wǎng)絡(luò)采用式(14)周期性地進(jìn)行軟更新,其中τ是常數(shù).
3MAML
元學(xué)習(xí)使智能體具有學(xué)會(huì)學(xué)習(xí)的能力[14].元學(xué)習(xí)的重點(diǎn)在于如何在模型中引入先驗(yàn)知識(shí),并在訓(xùn)練過(guò)程中優(yōu)化外部記憶,從而在訓(xùn)練新任務(wù)時(shí)更快更準(zhǔn)確地學(xué)習(xí).MAML與其他深度學(xué)習(xí)算法不同之處在于其不是尋找完成某個(gè)任務(wù)的最優(yōu)參數(shù),而是通過(guò)訓(xùn)練一系列與任務(wù)相關(guān)的元任務(wù)來(lái)尋找使模型在面對(duì)新任務(wù)時(shí)快速達(dá)到最優(yōu)的初始參數(shù)η.η具有對(duì)新任務(wù)學(xué)習(xí)域分布的敏感特性,在面臨新任務(wù)時(shí)可使訓(xùn)練模型內(nèi)部的某些特征更容易地在多種任務(wù)之間相互轉(zhuǎn)換,經(jīng)過(guò)幾步更新后即可獲得最優(yōu)的模型網(wǎng)絡(luò)參數(shù).MAML梯度下降過(guò)程如圖2所示.圖中,η表示經(jīng)過(guò)MAML預(yù)訓(xùn)練后得到的初始化參數(shù);L,L,L分別表示新任務(wù)的損失函數(shù);▽表示梯度算子;η,η,η表示在新任務(wù)下的最優(yōu)更新方向.
4元強(qiáng)化學(xué)習(xí)
在深度強(qiáng)化學(xué)習(xí)的訓(xùn)練過(guò)程中,神經(jīng)網(wǎng)絡(luò)的不確定性往往會(huì)導(dǎo)致算法收斂特性較差,且訓(xùn)練的結(jié)果是一個(gè)僅適應(yīng)當(dāng)前任務(wù)和環(huán)境的策略.針對(duì)深度強(qiáng)化學(xué)習(xí)實(shí)施過(guò)程中存在的上述問(wèn)題,本文在DDPG算法中引入MAML,提出一種元強(qiáng)化學(xué)習(xí)算法——Meta-DDPG算法.其基本思想是設(shè)計(jì)一種內(nèi)外部元參數(shù)更新規(guī)則以獲得一組元初始參數(shù),提高模型面對(duì)不同任務(wù)的收斂速度和環(huán)境適應(yīng)性.
4.1基本元任務(wù)集
環(huán)境適應(yīng)性是指模型面對(duì)一個(gè)新任務(wù)環(huán)境時(shí)經(jīng)過(guò)少量訓(xùn)練便可獲取正確策略的能力.元強(qiáng)化學(xué)習(xí)需要利用元任務(wù)集獲得先驗(yàn)知識(shí)而提升模型的環(huán)境適應(yīng)性,大部分元強(qiáng)化學(xué)習(xí)中的元任務(wù)集與實(shí)際任務(wù)場(chǎng)景相似[15-16].若把多種不同的復(fù)雜測(cè)試環(huán)境作為求解無(wú)人機(jī)自主避障與目標(biāo)追蹤問(wèn)題的元任務(wù)集,使用Meta-DDPG算法進(jìn)行預(yù)訓(xùn)練將花費(fèi)大量時(shí)間,降低工程效率.為此,根據(jù)MAML中元任務(wù)的定義,將一個(gè)復(fù)雜多變的整體任務(wù)分解為多個(gè)只完成單一子任務(wù)目標(biāo)的基本元任務(wù),并將它們構(gòu)成基本元任務(wù)集T={T,T,…,T},其中T為第j個(gè)基本元
在無(wú)人機(jī)自主避障與目標(biāo)追蹤任務(wù)中,基本元任務(wù)集中包含無(wú)人機(jī)追蹤與無(wú)人機(jī)避障兩個(gè)基本元任務(wù),如圖3所示.在Meta-DDPG算法預(yù)訓(xùn)練中,首先學(xué)習(xí)無(wú)人機(jī)在無(wú)障礙物環(huán)境下靜態(tài)目標(biāo)追蹤策略,然后學(xué)習(xí)無(wú)人機(jī)在簡(jiǎn)單障礙物環(huán)境下的自主避障策略,最終獲得一個(gè)可以適應(yīng)自主避障和目標(biāo)追蹤新任務(wù)的元初始參數(shù).由于基本元任務(wù)都較為簡(jiǎn)單,只需要較少幕數(shù)便可獲取其中的先驗(yàn)知識(shí),提高了預(yù)訓(xùn)練的效率.
4.2Meta-DDPG算法
Meta-DDPG算法分為預(yù)訓(xùn)練和整體任務(wù)訓(xùn)練兩部分.在預(yù)訓(xùn)練中,設(shè)計(jì)一種內(nèi)外部元參數(shù)更新規(guī)則,內(nèi)部網(wǎng)絡(luò)訓(xùn)練和外部元參數(shù)更新以一定的頻率交替進(jìn)行.內(nèi)部網(wǎng)絡(luò)依次學(xué)習(xí)各個(gè)基本元任務(wù)獲得不同的內(nèi)部參數(shù),外部元參數(shù)更新通過(guò)優(yōu)化不同的參數(shù)獲得一個(gè)環(huán)境適應(yīng)性較強(qiáng)的元初始參數(shù).在整體任務(wù)訓(xùn)練中,對(duì)于不同測(cè)試環(huán)境下無(wú)人機(jī)自主避障與目標(biāo)追蹤,Meta-DDPG算法僅通過(guò)少量訓(xùn)練幕數(shù)就能快速收斂,獲取正確動(dòng)作策略.
Meta-DDPG預(yù)訓(xùn)練中內(nèi)部參數(shù)更新可描述為依次對(duì)每個(gè)基本元任務(wù)的訓(xùn)練過(guò)程,利用Meta-DDPG中Eval神經(jīng)網(wǎng)絡(luò)與Target神經(jīng)網(wǎng)絡(luò)配合不斷更新獲得適用于基本元任務(wù)的神經(jīng)網(wǎng)絡(luò)內(nèi)部參數(shù).對(duì)于外部元參數(shù)更新,可描述為對(duì)基本元任務(wù)集的神經(jīng)網(wǎng)絡(luò)參數(shù)二次梯度優(yōu)化過(guò)程.外部周期性地對(duì)元參數(shù)進(jìn)行更新,更新規(guī)則為
以基本元任務(wù)T為例,當(dāng)Meta-DDPG網(wǎng)絡(luò)內(nèi)部更新一定步數(shù)后外部元參數(shù)也進(jìn)行更新.在每個(gè)基本元任務(wù)交替過(guò)程中,將外部元參數(shù)賦值給內(nèi)部參數(shù)作為下一個(gè)基本元任務(wù)T的初始參數(shù),直至遍歷完基本元任務(wù)集后獲得整體任務(wù)的元初始參數(shù). 預(yù)訓(xùn)練流程如算法1所示.
通過(guò)以上算法可獲得無(wú)人機(jī)自主避障與目標(biāo)追蹤任務(wù)的元初始參數(shù)θ0、w.訓(xùn)練整體任務(wù)時(shí)利用此參數(shù)初始化,模型可充分利用先驗(yàn)知識(shí),僅需少量迭代便可收斂并獲得完成任務(wù)的策略,后續(xù)對(duì)整體任務(wù)的訓(xùn)練過(guò)程與DDPG算法相同,在此不再贅述. 另需指出的是,本文所提出的Meta-DDPG算法面對(duì)新任務(wù)時(shí)不必重復(fù)預(yù)訓(xùn)練,只需使用元初始參數(shù)進(jìn)行網(wǎng)絡(luò)初始化.
5仿真結(jié)果與分析
使用Meta-DDPG算法求解無(wú)人機(jī)自主避障與目標(biāo)追蹤任務(wù).設(shè)定追蹤場(chǎng)景為600 m×600 m的二維正方形領(lǐng)域,場(chǎng)景中存在多個(gè)障礙物,并且當(dāng)目標(biāo)感知無(wú)人機(jī)靠近時(shí)會(huì)產(chǎn)生逃逸動(dòng)作.無(wú)人機(jī)可利用GPS等設(shè)備獲取目標(biāo)位置且通過(guò)傳感器獲取與障礙物的距離.當(dāng)無(wú)人機(jī)自主避開障礙物并追蹤到目標(biāo)視為任務(wù)成功;當(dāng)無(wú)人機(jī)撞上障礙物、無(wú)人機(jī)或目標(biāo)離開正方形領(lǐng)域兩種情況視為任務(wù)失敗.
5.1實(shí)驗(yàn)參數(shù)
5.2深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
根據(jù)式(5)知狀態(tài)空間S包含7個(gè)參數(shù),故演員深度神經(jīng)網(wǎng)絡(luò)為7維輸入;由式(7)動(dòng)作空間A包含2個(gè)參數(shù),故為2維輸出.評(píng)論家深度神經(jīng)網(wǎng)絡(luò)輸入為當(dāng)前狀態(tài)與演員深度神經(jīng)網(wǎng)絡(luò)輸出的動(dòng)作,故為9維輸入;輸出為行為值Q(s,a),故為1維輸出.由上可設(shè)演員和評(píng)論家深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)分別為7×256×256×256×2和9×256×256×256×1.
演員深度神經(jīng)網(wǎng)絡(luò)中,輸出動(dòng)作均歸一化至[- 1,1],輸出層使用Tanh激活函數(shù),其余層均使用Relu激活函數(shù).評(píng)論家深度神經(jīng)網(wǎng)絡(luò)中,輸出層為線性激活函數(shù)以確保行為值Q(s,a)正常輸出,其余層也均使用Relu激活函數(shù).
5.3實(shí)驗(yàn)結(jié)果
5.3.1基本元任務(wù)集預(yù)訓(xùn)練效果驗(yàn)證
構(gòu)造基本元任務(wù)集,將無(wú)人機(jī)自主避障與目標(biāo)追蹤任務(wù)分解為無(wú)人機(jī)追蹤與無(wú)人機(jī)避障兩個(gè)基本元任務(wù)并分別構(gòu)建經(jīng)驗(yàn)回放池,如圖3所示.作為對(duì)比,將圖5中兩個(gè)復(fù)雜測(cè)試環(huán)境下動(dòng)態(tài)目標(biāo)追蹤任務(wù)作為復(fù)雜元任務(wù)集.使用Meta-DDPG算法,對(duì)兩種元任務(wù)集各進(jìn)行共200幕預(yù)訓(xùn)練.整體任務(wù)為圖6(2)中測(cè)試環(huán)境(1)下的無(wú)人機(jī)自主避障與目標(biāo)追蹤.
利用平均獎(jiǎng)勵(lì)值的收斂特性來(lái)衡量網(wǎng)絡(luò)的預(yù)訓(xùn)練效果.如圖6(b)所示,可知在每個(gè)元任務(wù)訓(xùn)練100 幕的情況下,當(dāng)采用基本元任務(wù)集時(shí)可以更充分地利用先驗(yàn)知識(shí)獲得適應(yīng)整體任務(wù)的元初始參數(shù).平均獎(jiǎng)勵(lì)值的上升速度與收斂特性都優(yōu)于復(fù)雜元任務(wù)集.Meta-DDPG算法整體任務(wù)測(cè)試結(jié)果如圖6(a)所示.
5.3.2Meta-DDPG收斂特性驗(yàn)證
使用5.3.1節(jié)中預(yù)訓(xùn)練獲得的元初始參數(shù),在圖7(a)測(cè)試環(huán)境(2)中進(jìn)行500幕訓(xùn)練后測(cè)試.為了更好地體現(xiàn)Meta-DDPG在收斂速度上的優(yōu)勢(shì),使用不經(jīng)預(yù)訓(xùn)練的DDPG算法與之比較.利用平均獎(jiǎng)勵(lì)值的收斂特性和Tensorboard中演員Eval神經(jīng)網(wǎng)絡(luò)的Loss值來(lái)衡量算法的性能,仿真曲線分別如圖7(b)、圖7(c)所示.
由圖7(b)可知,使用Meta-DDPG算法時(shí),平均獎(jiǎng)勵(lì)值在訓(xùn)練伊始就迅速上升,且經(jīng)過(guò)150幕訓(xùn)練后逐漸達(dá)到收斂.由圖7(c)知元初始參數(shù)可使演員Eval網(wǎng)絡(luò)Loss值迅速下降,并在訓(xùn)練120幕后在一個(gè)較低的范圍內(nèi)波動(dòng).使用Meta-DDPG訓(xùn)練500幕所得模型進(jìn)行測(cè)試,測(cè)試結(jié)果如圖7(a)所示,由圖知無(wú)人機(jī)可自主繞過(guò)障礙物并準(zhǔn)確地追上逃逸的目標(biāo). 而DDPG算法由于先驗(yàn)知識(shí)缺失、探索效率低、經(jīng)驗(yàn)樣本質(zhì)量差等原因,在較短的訓(xùn)練幕數(shù)與較少的經(jīng)驗(yàn)池容量下陷入錯(cuò)誤的局部最優(yōu),無(wú)法得到完成此任務(wù)的策略.圖7(b)可知平均獎(jiǎng)勵(lì)曲線無(wú)法正確地收斂,平均獎(jiǎng)勵(lì)始終小于0.圖7(c)可知DDPG無(wú)法通過(guò)訓(xùn)練使演員Eval網(wǎng)絡(luò)Loss函數(shù)梯度下降,loss值始終大于0.
5.3.3Meta-DDPG環(huán)境適應(yīng)性驗(yàn)證
為了突出Meta-DDPG算法的環(huán)境適應(yīng)性,在如圖8(a)所示障礙物大小不同、目標(biāo)運(yùn)動(dòng)軌跡不同的測(cè)試環(huán)境(3)中,使用與5.3.2節(jié)相同的元初始參數(shù)進(jìn)行訓(xùn)練與測(cè)試.作為對(duì)比,使用能夠在測(cè)試環(huán)境(1)中完成任務(wù)的DDPG算法模型進(jìn)行訓(xùn)練.由圖8(b)可知,Meta-DDPG算法的平均獎(jiǎng)勵(lì)在訓(xùn)練伊始就快速上升,150幕后相對(duì)穩(wěn)定,環(huán)境適應(yīng)性較強(qiáng).而DDPG算法的平均獎(jiǎng)勵(lì)值在350幕才開始上升,且在500幕內(nèi)尚未收斂.Meta-DDPG算法整體任務(wù)測(cè)試結(jié)果如圖8(a)所示.
5.3.4元學(xué)習(xí)方法與基本元任務(wù)集通用性驗(yàn)證
為了體現(xiàn)元學(xué)習(xí)方法和基本元任務(wù)集對(duì)確定性策略強(qiáng)化學(xué)習(xí)算法的通用性,將其運(yùn)用于與DDPG 算法同為確定性策略的雙延遲深度確定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient,TD3)[17]算法,構(gòu)造Meta-TD3算法.使用圖3的基本元任務(wù)集預(yù)訓(xùn)練,并在測(cè)試環(huán)境(2)-(3)中對(duì)其收斂特性和環(huán)境適應(yīng)性進(jìn)行仿真驗(yàn)證,仿真結(jié)果見(jiàn)圖9.
由圖9(a)可知,Meta-TD3算法與Meta-DDPG算法結(jié)果類似,均可在較短訓(xùn)練幕數(shù)與較小經(jīng)驗(yàn)池容量下充分利用元初始參數(shù)內(nèi)的先驗(yàn)知識(shí),平均獎(jiǎng)勵(lì)曲線在250幕后逐漸收斂.而TD3算法在此情況下同樣陷入錯(cuò)誤的局部最優(yōu),無(wú)法正確收斂且平均獎(jiǎng)勵(lì)始終小于0.由圖9(b)可知Meta-TD3算法面對(duì)新測(cè)試環(huán)境時(shí)可在300幕后逐漸達(dá)到收斂,具有較高的環(huán)境適應(yīng)性.以上表明元學(xué)習(xí)方法和基本元任務(wù)集對(duì)確定性策略強(qiáng)化學(xué)習(xí)算法具有較好的通用性,且元強(qiáng)化學(xué)習(xí)方法能夠有效地解決傳統(tǒng)深度強(qiáng)化學(xué)習(xí)算法中存在的收斂特性差、面對(duì)新任務(wù)泛化能力弱的問(wèn)題.
6結(jié)論
本文對(duì)無(wú)人機(jī)自主避障與目標(biāo)追蹤任務(wù)進(jìn)行建模,將深度強(qiáng)化學(xué)習(xí)算法DDPG與元學(xué)習(xí)算法MAML結(jié)合,并設(shè)計(jì)一種內(nèi)外部元參數(shù)更新規(guī)則,提出元強(qiáng)化學(xué)習(xí)算法Meta-DDPG.該算法能夠有效地解決傳統(tǒng)深度強(qiáng)化學(xué)習(xí)存在的收斂特性差、面對(duì)新任務(wù)泛化能力弱的問(wèn)題.此外,構(gòu)建基本元任務(wù)集以提升工程應(yīng)用時(shí)預(yù)訓(xùn)練的效率.仿真結(jié)果表明,在求解無(wú)人機(jī)自主避障與目標(biāo)追蹤任務(wù)時(shí),不論是對(duì)于該無(wú)人機(jī)任務(wù)訓(xùn)練的收斂特性,還是面對(duì)不同任務(wù)的環(huán)境適應(yīng)性,Meta-DDPG算法與DDPG算法對(duì)比都有著顯著的提高.同時(shí),使用基本元任務(wù)集進(jìn)行預(yù)訓(xùn)練時(shí),比傳統(tǒng)元任務(wù)集更為高效.且元學(xué)習(xí)方法和基本元任務(wù)集對(duì)于確定性策略強(qiáng)化學(xué)習(xí)算法具有較好的通用性.
參考文獻(xiàn)
[1]馬小銘,靳伍銀.基于改進(jìn)蟻群算法的多目標(biāo)路徑規(guī)劃研究[J].計(jì)算技術(shù)與自動(dòng)化,2020,39(4):100-105.
MA X M,JIN W Y. Mulit-objcctive path planning based on improved and colony algorithm [J]. Computing Technology and Automation,2020,39(4):100-105. (In Chinese).
[2]XU H T,HINOSTROZA M A,GUEDES SOARES C G. Modified vector field path-following control system for an underactuated autonomous surface ship modelin the presence of static obstacles [J]. Journal of Marine Science and Engineering,2021,9(6):652.
[3]ZHANG TK,LEI J Y,LIU Y W,et al. Trajectory optimization for UAV emergency communication with limited user equipment energy:a safe-DQN approach [J]. IEEE Transactions on Green Communications and Networking,2021,5(3):1236-1247.
[4]HUANG H J,YANG Y C,WANG H,et al. Deep reinforcement learning for UAV navigation through massive MIMO technique [J]. IEEE Transactions on Vehicular Technology,2020,69(1):1117-1121
[5] WU X,CHEN H L,CHEN C G,et al. The autonomous navigation and obstacle avoidance for USVs with ANOA deep reinforcement learning method[J]. Knowledge-Based Systems,2020,196:105201.
[6]MNIH V,KAVUKCUOGLU K,SILVER D,et al. Human-level control through deep reinforcement learning[J]. Nature,2015,518(7540):529-533.
[7]YOU S X,DIAO M,GAO L P,et al. Target tracking strategy using deep deterministic policy gradient[J] Applied Soft Comput- ing,2020,95:106490.
[8] HU Z J,WAN K F,GAO X G,et al. Deep reinforcement learning approach with multiple experience pools for UAV’s autonomous motion planning in complex unknown environments [J]. Sensors (Basel,Switzerland),2020,20(7):1890.
[9]LILLICRAP T P,HUNT J J,PRITZEL A,et al Continuous control with deep reinforcement learning [EB/OL]. 2015:arXiv:1509.02971 [cs. LG]. https://arxiv.org/abs/1509.02971.
[10] FINN C,ABBEEL P,LEVINE S Model-agnostic meta-learning for fast adaptation of deep networks[EB/OL]. 2017:arXiv:1703.03400[cs. LG]. https://arxiv.org/abs/1703.03400.
[11] WANG J X,KURTH-NELSON Z,TIRUMALA D,et al. Learning to reinforcement learn[EB/OL] 2016:arXiv:1611.05763[cs LG] https://arxiv.org/abs/1611.05763.
[12] XU J Y,YAO L,LI L,et al Argumentation based reinforcement learning for meta-knowledge extraction[J]. Information Sciences,2020,506:258-272
[13]張耀中,許佳林,姚康佳,等.基于DDPG算法的無(wú)人機(jī)集群追擊任務(wù)[J].航空學(xué)報(bào),2020,41(10):324000.
ZHANG Y Z,XU J L,YAO K J,et al Pursuit missions for UAV swarms based on DDPG algorithm[J] Acta Aeronautica et Astro- nautica Sinica,2020,41(10):324000. (In Chinese).
[14]陸嘉猷,凌興宏,劉全,等.基于自適應(yīng)調(diào)節(jié)策略熵的元強(qiáng)化學(xué)習(xí)算法[J].計(jì)算機(jī)科學(xué),2021,48(6):168-174.
LU J Y,LING X H,LIU Q,et al Meta-reinforcement learning algorithm based on automating policy entropy[J] Computer Sci- ence,2021,48(6):168-174 (In Chinese).
[15] HU Y,CHEN M Z,SAAD W,et al Distributed multi-agent meta learning for trajectory design in wireless drone networks[J] IEEE Journal on Selected Areas in Communications,2021,39 (10):3177-3192.
[16] BELKHALE S,LI R,KAHN G,et al Model-based metareinforcement learning for flight with suspended payloads [J] IEEE Robotics and Automation Letters,2021,6(2):1471-1478
[17] FUJIMOTO S,VAN HOOF H,MEGER D Addressing function approximation error in actor-critic methods[EB/OL]. 2018:arXiv:1802.09477[cs. AI]. https://arxiv.org/abs/1802.09477.