楊思明,單征,曹江,郭佳郁,高原,郭洋,王平,王景,王曉楠
(1.數(shù)學(xué)工程與先進(jìn)計(jì)算國家重點(diǎn)實(shí)驗(yàn)室,鄭州 450001;2.軍事科學(xué)院,北京 100091)
隨著當(dāng)前城市內(nèi)移動(dòng)通信終端數(shù)量的快速增長以及物聯(lián)網(wǎng)、云計(jì)算、高清視頻等新應(yīng)用新技術(shù)的迅速發(fā)展,大型城市中數(shù)據(jù)月均流量消耗增長迅猛[1]。無人機(jī)升空平臺(tái)作為輔助地面基站,可為城市提供無線覆蓋保障。當(dāng)前無人機(jī)升空平臺(tái)多采用低空無人機(jī),如何根據(jù)環(huán)境信息和用戶位置信息實(shí)時(shí)規(guī)劃路徑,以規(guī)避建筑物對于信號的遮擋以及調(diào)整合適的飛行方向、速度以避免發(fā)生多普勒頻移造成的快衰落,是當(dāng)前無人機(jī)升空平臺(tái)在提供無線通信保障任務(wù)中亟待解決的問題。
解決上述問題的傳統(tǒng)方法是通過對目標(biāo)區(qū)域進(jìn)行建模,然后使用最優(yōu)控制算法進(jìn)行路徑規(guī)劃。ROMERO等[2]利用地面用戶和無人機(jī)基站之間發(fā)送的控制信息,提出一種基于隨機(jī)梯度下降法的分布式自適應(yīng)無人機(jī)軌跡優(yōu)化算法。ZENG等[3]研究在已知地面用戶位置的情況下使用無人機(jī)升空平臺(tái)為地面用戶提供數(shù)據(jù)傳輸服務(wù)的內(nèi)容,進(jìn)行圓形飛行軌跡設(shè)計(jì),以在固定時(shí)間內(nèi)最大化地面用戶的上行速率。LYU等[4]提出一種高效的螺旋式無人機(jī)布局算法,意在使用最少的無人機(jī)升空平臺(tái),保證每一個(gè)地面用戶都能被有效覆蓋,但是該算法需要無人機(jī)平臺(tái)在固定高度懸停。ALZENAD等[5]設(shè)計(jì)一個(gè)無人機(jī)升空平臺(tái)在三維空間中的評估模型,以利用最小的發(fā)射功率實(shí)現(xiàn)對于目標(biāo)區(qū)域的覆蓋。KALANTARI等[6]提出一種粒子群優(yōu)化框架,使得可以利用最少數(shù)量的無人機(jī)完成對目標(biāo)區(qū)域的無線覆蓋。AL-HOURANI等[7]根據(jù)地面靜態(tài)用戶的位置信息,將無人機(jī)升空平臺(tái)的部署問題表示為一個(gè)二次約束混合整數(shù)非線性問題,用以得到最優(yōu)的三維部署方案,最大化地面靜態(tài)用戶的下行速率。但上述算法主要存在以下問題:一是需要對環(huán)境進(jìn)行復(fù)雜且精確的建模,而精確建模需要耗費(fèi)大量時(shí)間以及計(jì)算資源,并且當(dāng)前很多實(shí)際應(yīng)用問題并不能準(zhǔn)確地建模;二是當(dāng)前算法更多考慮的是為地面靜態(tài)用戶提供通信覆蓋的場景。目前對于地面多移動(dòng)用戶的無人機(jī)升空平臺(tái)實(shí)時(shí)路徑規(guī)劃方法的研究還處于初期階段。
基于深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)的方法通過將路徑規(guī)劃任務(wù)建模為時(shí)序決策優(yōu)化問題,利用神經(jīng)網(wǎng)絡(luò)的泛化性能以及強(qiáng)化學(xué)習(xí)的優(yōu)化思想最大化累積收益,使智能體學(xué)習(xí)到最優(yōu)策略。文獻(xiàn)[8-9]使用DQN 算法[10]對無人機(jī)升空平臺(tái)進(jìn)行路徑規(guī)劃,以最大化數(shù)據(jù)傳輸速率。但該算法只能應(yīng)用于離散動(dòng)作空間任務(wù),并且存在價(jià)值函數(shù)估值過高的問題,對智能體學(xué)習(xí)路徑規(guī)劃策略造成了偏差。對此,WANG等[11]使用Double DQN 算法[12]優(yōu)化無人機(jī)平臺(tái)飛行軌跡,用以在對地面所有用戶進(jìn)行覆蓋的前提下最大化下行速率。Double DQN 算法彌補(bǔ)了DQN 價(jià)值函數(shù)估值過高的問題,但仍然不能應(yīng)用在連續(xù)動(dòng)作空間任務(wù)中。同時(shí),由于智能體探索能力隨著策略更新次數(shù)的增加而下降,智能體會(huì)出現(xiàn)收斂到局部最優(yōu)策略的情況。文獻(xiàn)[13-14]使用DDPG 算法[15]成功地將深度強(qiáng)化學(xué)習(xí)應(yīng)用在連續(xù)動(dòng)作空間的路徑規(guī)劃任務(wù)中,但是該算法超參數(shù)過多,在復(fù)雜問題中訓(xùn)練速度慢且不穩(wěn)定??梢?,當(dāng)前DRL 算法在處理路徑規(guī)劃這一類高維狀態(tài)動(dòng)作空間任務(wù)時(shí),存在探索性能差、訓(xùn)練過程不穩(wěn)定、樣本效率低等問題。針對上述問題,文獻(xiàn)[16]提出了基于內(nèi)在獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)算法,使得智能體可以高效地對環(huán)境進(jìn)行探索,并且單調(diào)提升策略性能。
目前提升樣本效率的方法主要有off-policy 類算法[15,17]以及基于模型的算法。前者由于行動(dòng)策略與目標(biāo)策略不同,需要設(shè)計(jì)合理的重要性采樣方法,并對超參數(shù)進(jìn)行反復(fù)調(diào)整,否則會(huì)使學(xué)習(xí)過程出現(xiàn)較大偏差,導(dǎo)致智能體學(xué)習(xí)不穩(wěn)定,收斂到局部最優(yōu)策略;后者通過使智能體學(xué)習(xí)環(huán)境的動(dòng)態(tài)模型,從而提升樣本效率,但當(dāng)前仍存在探索能力低下[18-19]、數(shù)據(jù)收集效率較低[20-21]、價(jià)值函數(shù)預(yù)測偏差較大[22-23]的問題。本文研究利用基于模型的方法結(jié)合內(nèi)在獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)算法,提出基于模型的強(qiáng)化學(xué)習(xí)算法在無人機(jī)升空平臺(tái)路徑規(guī)劃中的應(yīng)用,在保證最終性能的前提下提升樣本效率,以使用較少數(shù)據(jù)完成對于智能體的訓(xùn)練。
本節(jié)主要闡述無人機(jī)升空平臺(tái)通信保障任務(wù)的模擬環(huán)境構(gòu)建工作,該模擬環(huán)境不僅為智能體提供用于訓(xùn)練的經(jīng)驗(yàn)數(shù)據(jù),同時(shí)可以作為一個(gè)算法驗(yàn)證平臺(tái),用于比較各類算法在任務(wù)中的性能。為了使得模擬環(huán)境貼近實(shí)際環(huán)境,首先建立城市環(huán)境中的空對地信道模型,用于估算不同情況下的路徑損耗值。在此基礎(chǔ)上,將任務(wù)歸納為一個(gè)時(shí)序決策問題,并使用OpenAI-GYM 架構(gòu)搭建環(huán)境。
本文基于城市環(huán)境建立一個(gè)空對地信道路徑損耗模型,主要考慮城市建筑物對信號遮擋造成的路徑損耗。國際電信聯(lián)盟(ITU)在其官方標(biāo)準(zhǔn)文件中提出一種基于建筑物遮擋對無線電信號傳輸造成損耗的通用模型[24]。該模型可適用于多種城市環(huán)境,將發(fā)射機(jī)和接收機(jī)之間的視距通信及非視距通信傳輸概率定義為仰角和環(huán)境參數(shù)的函數(shù),并且通過數(shù)學(xué)推導(dǎo),可以得到通過Sigmod 漸進(jìn)化簡后的公式:
其中:a、b為S-curve 參數(shù)。
無人機(jī)升空平臺(tái)與用戶之間發(fā)生非視距傳輸?shù)母怕蕿椋?/p>
因此,傳播模型的路徑損耗為:
其中:FFSPL為自由空間損耗,是針對理想全向天線傳輸計(jì)算得到的損耗公式;ηξ是由環(huán)境決定的過度路徑損耗,ξ代表傳播組。本文將傳播模型分為視距通信和非視距通信模型,即ξ∈{LLoS,NNLoS}。
總的路徑損耗模型可以寫為:
其中:PPL是信道模型的總路徑損耗,可以計(jì)算無人機(jī)升空平臺(tái)與每個(gè)地面移動(dòng)用戶之間信號的路徑損耗。
無人機(jī)升空平臺(tái)通信保障任務(wù)的目標(biāo)是使無人機(jī)升空平臺(tái)在應(yīng)急通信保障任務(wù)期間最大化所有用戶的下行速率之和,同時(shí)需要保證任何用戶的下行速率高于預(yù)設(shè)的門限速率,并保證每個(gè)用戶不會(huì)出現(xiàn)由多普勒頻移造成的快衰落。
無人機(jī)升空平臺(tái)與一個(gè)地面移動(dòng)用戶的三維關(guān)系如圖1 所示。在圖1 中,參數(shù)h和L分別表示無人機(jī)升空平臺(tái)的飛行高度以及與用戶之間的水平面距離,參數(shù)Vf和Vm為無人機(jī)升空平臺(tái)及用戶的速度向量,d是三維坐標(biāo)系中無人機(jī)平臺(tái)位置指向用戶位置的向量。
圖1 無人機(jī)升空平臺(tái)與用戶的關(guān)系Fig.1 Relationship between UAV aerial platform and user
此外,定義光速為c,信號頻率為f,基站發(fā)射功率為Ps,帶寬為W,高斯白噪聲的功率為N。由此,根據(jù)多普勒頻移定理,可以得到用戶m在時(shí)隙t收到的信號頻率為:
通過式(5)可以計(jì)算得到路徑損耗PPL(單位為dB)。所以,用戶m在時(shí)隙t收到的信號功率為:
通過香農(nóng)公式可以得到理論上用戶的最大下行速率:
其中:Cmt是用戶m在時(shí)隙t的下行速率。
定義模擬環(huán)境在時(shí)隙t的獎(jiǎng)勵(lì)值為:
其中:M和Cth分別為用戶的數(shù)量和任務(wù)預(yù)設(shè)的用戶最小門限下行速率。為了防止用戶接收信號發(fā)生快衰落,需要確保符號時(shí)間大于相關(guān)時(shí)間,即Cmt>fmt。同時(shí),要保證每個(gè)用戶的下行速率高于設(shè)定的門限速度,所以要設(shè)置Cmt≥Cth,如果這兩個(gè)條件都滿足,則時(shí)隙t的獎(jiǎng)勵(lì)值是所有用戶下行速率之和,否則為0。設(shè)任務(wù)總的收益為:
即設(shè)置總的收益為所有時(shí)隙獎(jiǎng)勵(lì)值的和,但如果某個(gè)時(shí)隙的獎(jiǎng)勵(lì)值為0,即觸發(fā)了約束條件,則任務(wù)直接結(jié)束。基于上述分析,將無人機(jī)升空平臺(tái)的應(yīng)急通信保障問題概括為一個(gè)馬爾科夫時(shí)序決策問題,可以采用強(qiáng)化學(xué)習(xí)的手段進(jìn)行求解,目標(biāo)就是最大化累積收益Gt。
在得到時(shí)序決策優(yōu)化方程后,使用OpenAI-Gym架構(gòu)[25]進(jìn)行環(huán)境構(gòu)建。任務(wù)設(shè)置如下:在尺寸為50 km×50 km×5 km 的城區(qū)范圍內(nèi),隨機(jī)分布著一些高度在50~150 m 的建筑物。無人機(jī)升空平臺(tái)為地面隨機(jī)分布的10 個(gè)移動(dòng)目標(biāo)提供通信保障,無人機(jī)升空平臺(tái)可以在0°~360°范圍內(nèi)調(diào)整飛行方向,在0°~180°方位內(nèi)調(diào)整飛行仰角,在每小時(shí)180~300 km范圍內(nèi)調(diào)整飛行速度。無人機(jī)升空平臺(tái)需要保證每個(gè)用戶的下行速率大于門限速率,同時(shí)防止由于多普勒頻移造成的快衰落。在此前提下,任務(wù)的目標(biāo)是最大化用戶的總下行速率。任務(wù)中如果出現(xiàn)飛機(jī)碰撞到建筑物,則判定實(shí)驗(yàn)結(jié)束,并返回-100 的獎(jiǎng)勵(lì)值,如果出現(xiàn)任何一個(gè)用戶的下行速率低于閾值速率或由于多普勒頻移出現(xiàn)了快衰落現(xiàn)象,則判定實(shí)驗(yàn)結(jié)束,并返回-50 的獎(jiǎng)勵(lì)值;如果在通信保障任務(wù)期間未發(fā)生上述問題,則返回獎(jiǎng)勵(lì)值100。
在利用無模型算法進(jìn)行學(xué)習(xí)時(shí),為了準(zhǔn)確估計(jì)價(jià)值函數(shù),根據(jù)任務(wù)的復(fù)雜性不同,需要采樣上萬幕的數(shù)據(jù)才能得到較為準(zhǔn)確的價(jià)值估計(jì)網(wǎng)絡(luò)。因此,本文借鑒MVE 算法[23]的思想,采用基于模型的算法對動(dòng)態(tài)模型進(jìn)行學(xué)習(xí),其中包含3 個(gè)重要的待學(xué)習(xí)函數(shù):狀態(tài)轉(zhuǎn)移函數(shù)Tξ(s,a)用來預(yù)測后繼狀態(tài);狀態(tài)終止預(yù)測函數(shù)dξ(s)用來預(yù)測狀態(tài)s為終止?fàn)顟B(tài)的概率;獎(jiǎng)勵(lì)預(yù)測函數(shù)rφ(s,a,s')用來預(yù)測返回的獎(jiǎng)勵(lì)值。狀態(tài)價(jià)值函數(shù)被設(shè)定為結(jié)合了短期和長期價(jià)值函數(shù)的形式,短期價(jià)值函數(shù)是通過學(xué)習(xí)到的環(huán)境動(dòng)態(tài)模型經(jīng)過數(shù)步規(guī)劃得到的獎(jiǎng)勵(lì)值之和,而長期價(jià)值函數(shù)則是通過神經(jīng)網(wǎng)絡(luò)直接預(yù)測得到的價(jià)值函數(shù),形式如下:
但是MVE 算法只有在當(dāng)模型復(fù)雜度不高,并且在所有學(xué)習(xí)到的動(dòng)作價(jià)值函數(shù)具有相似的誤差時(shí)具有較好性能。當(dāng)模型較為復(fù)雜時(shí),MVE 算法難以調(diào)整固定的超參數(shù)H,而模型誤差的累積會(huì)導(dǎo)致價(jià)值函數(shù)評估出現(xiàn)嚴(yán)重偏差。為了解決上述問題,需要綜合考量H+1 個(gè)不同預(yù)測步長的MVE 形式的狀態(tài)價(jià)值來計(jì)算得到一個(gè)合適的價(jià)值函數(shù)。候選的TD目標(biāo)為,即考量從0 步規(guī)劃到H步的H+1 種不同狀態(tài)價(jià)值。傳統(tǒng)的方法是使用對于候選目標(biāo)的平均或者以指數(shù)衰減的方法對候選目標(biāo)值進(jìn)行加權(quán)的方法,本文選擇通過平衡Q函數(shù)學(xué)習(xí)中的誤差以及規(guī)劃模型的誤差,得到對于候選目標(biāo)更好的加權(quán)方式。針對每個(gè)候選,其在規(guī)劃中有3 個(gè)重要參數(shù),分別為Q函數(shù)預(yù)測參數(shù)θ、獎(jiǎng)勵(lì)函數(shù)預(yù)測參數(shù)φ、狀態(tài)轉(zhuǎn)換函數(shù)預(yù)測參數(shù)ξ,如式(10)所示,它們共同作用組成一個(gè)H=i步的TD 目標(biāo)。為了增強(qiáng)算法的魯棒性,設(shè)置一個(gè)候選的TD 目標(biāo)中有L個(gè)預(yù)測參數(shù)θ={θ1,θ2,…,θL},N個(gè)獎(jiǎng)勵(lì)函數(shù)預(yù)測參數(shù)φ={φ1,φ2,…,φN},M個(gè)狀態(tài)轉(zhuǎn)移預(yù)測參數(shù)ζ={ζ1,ζ2,…,ζM}。
算法的概述圖如圖2 所示。圖2 展示了M=N=L=2 情況下(s0,a0)的TD 目標(biāo)值的估計(jì)值,可以通過這些數(shù)據(jù)求得的均值和方差。為了找到合適的權(quán)值w,使得加權(quán)后的TD 目標(biāo)值之和與真實(shí)的動(dòng)作價(jià)值的均方誤差最小,將兩者的泛化誤差進(jìn)行分解得到:
圖2 基于模型算法的概述圖Fig.2 Overview figure of model-based algorithm
為使得均方誤差最小,使用經(jīng)驗(yàn)數(shù)據(jù)中估計(jì)得到的方差來估計(jì)方差項(xiàng),并最小化方差項(xiàng)。采用逆方差權(quán)重法,將wi設(shè)置為Var()的倒數(shù),并對最終結(jié)果進(jìn)行規(guī)范化,最終得到加權(quán)后的狀態(tài)價(jià)值函數(shù)為:
將算法與內(nèi)在獎(jiǎng)勵(lì)RL 算法以及impala 并行架構(gòu)結(jié)合,最終得到基于模型的內(nèi)在獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)算法,算法流程架構(gòu)如圖3 所示??梢钥吹剑惴ú捎貌⑿屑軜?gòu)完全解耦了數(shù)據(jù)采集和策略更新過程。Worker 獨(dú)立地進(jìn)行經(jīng)驗(yàn)數(shù)據(jù)收集,在結(jié)束一幕數(shù)據(jù)交互后,同步Learner 最新的策略,并將收集到的數(shù)據(jù)存入Buffer。Learner 周期地從Buffer 中提取數(shù)據(jù)進(jìn)行更新,通過V-trace 方法對行動(dòng)策略采集到的數(shù)據(jù)進(jìn)行重要性采樣,得到適合目標(biāo)策略學(xué)習(xí)的價(jià)值函數(shù)預(yù)測值,分內(nèi)部、外部獎(jiǎng)勵(lì)兩個(gè)部分使用上述基于模型的方法對價(jià)值函數(shù)進(jìn)行評估,最終合并內(nèi)部獎(jiǎng)勵(lì)和外部獎(jiǎng)勵(lì)預(yù)測得到的價(jià)值函數(shù),并利用PPO 的方法對策略進(jìn)行更新。實(shí)驗(yàn)結(jié)果表明,該方法在智能體取得相同性能的情況下提高了樣本效率。
圖3 基于模型的內(nèi)在獎(jiǎng)勵(lì)算法結(jié)構(gòu)Fig.3 Structure of model-based intrinsic reward algorithm
本文程序使用python3.8 編寫,運(yùn)行環(huán)境為Win 10 操作系統(tǒng),裝有2 塊NVIDIA 3090 顯卡以及64 GB 內(nèi)存。實(shí)驗(yàn)中神經(jīng)網(wǎng)絡(luò)均由全連接網(wǎng)絡(luò)和ReLu 網(wǎng)絡(luò)組成,使用32 個(gè)并行的實(shí)驗(yàn)環(huán)境進(jìn)行數(shù)據(jù)采集。本文提出的基于模型的內(nèi)在獎(jiǎng)勵(lì)算法與基于Impala 架構(gòu)的無模型內(nèi)在獎(jiǎng)勵(lì)算法的性能對比如圖4 所示。
圖4 不同算法的性能對比Fig.4 Performance comparison of different algorithms
從圖4 可以看出,本文算法相較于擁有相同架構(gòu)但不使用對環(huán)境動(dòng)態(tài)模型進(jìn)行學(xué)習(xí)的算法具有更好的性能,可以利用很少的經(jīng)驗(yàn)數(shù)據(jù)快速完成對于策略的學(xué)習(xí),并且學(xué)習(xí)過程更加穩(wěn)定。為了比較本文算法與非強(qiáng)化學(xué)習(xí)啟發(fā)式算法的性能,基于文獻(xiàn)[3-5]的思想,構(gòu)建一套簡化的啟發(fā)式算法。該算法將當(dāng)前分布在地面的多個(gè)用戶包含在一個(gè)最小的圓內(nèi),要求無人機(jī)始終保持在圓心位置,速度方向則為所有用戶當(dāng)前速度向量之和的方向。可以看到,啟發(fā)式算法在環(huán)境中可以達(dá)到近6 000 分的水平,微小的波動(dòng)是由于地面用戶在遇到障礙物時(shí)進(jìn)行隨機(jī)避障,速度方向并不保持一致,從而導(dǎo)致無人機(jī)飛行方向發(fā)生偏移,進(jìn)而影響最終得分情況。相較于啟發(fā)式算法,本文算法在前期學(xué)習(xí)過程得分較差,但當(dāng)智能體能夠?qū)顟B(tài)價(jià)值函數(shù)進(jìn)行準(zhǔn)確評估后,最終算法的得分遠(yuǎn)高于啟發(fā)式算法。
此外為了說明的本文算法相較于其他基于模型算法的優(yōu)勢,在模擬環(huán)境中采用了多種算法進(jìn)行測試比較,結(jié)果如圖5 所示。
圖5 本文算法與不同視界MVE 算法的性能對比Fig.5 Performance comparison between the proposed algorithm and MVE algorithm in different horizons
從圖5 可以看出,相比于MVE 采用固定規(guī)劃值(H)的情況,基于組合規(guī)劃值的方法訓(xùn)練速度和效果更好,同時(shí)訓(xùn)練過程更為平穩(wěn),并且對于MVE類規(guī)劃值固定的算法,如何調(diào)節(jié)超參數(shù)H也是一個(gè)難題,從圖5 可以看出,當(dāng)H從1提高到5 的過程中,規(guī)劃值的增大減小了價(jià)值函數(shù)預(yù)測的方差,而準(zhǔn)確的價(jià)值函數(shù)提高了算法的學(xué)習(xí)速率,也決定了最終收斂到的策略性能。而當(dāng)H取10 時(shí),智能體在整個(gè)訓(xùn)練過程中波動(dòng)很大,并且最終無法學(xué)習(xí)到一個(gè)較好的策略。原因在于:在訓(xùn)練初期,當(dāng)預(yù)測模型沒有得到準(zhǔn)確學(xué)習(xí)時(shí),過長的規(guī)劃值會(huì)導(dǎo)致價(jià)值函數(shù)方差、偏差都較大,在這種情況下由于方差、偏差的累積,智能體始終無法學(xué)到準(zhǔn)確的預(yù)測模型參數(shù)以及價(jià)值函數(shù),這就使得智能體在訓(xùn)練過程中全程無法進(jìn)行有效的策略迭代。所以,對于固定規(guī)劃值類的算法,超參數(shù)的調(diào)整是一個(gè)難題。而使用均勻加權(quán)訓(xùn)練算法與本文算法有著相同的架構(gòu),但在組合規(guī)劃值時(shí),權(quán)值使用的是均勻加權(quán)算法。可以看出,該算法的速度和最終性能都與本文算法有差距。
實(shí)驗(yàn)中還針對算法對于不同超參數(shù)集的魯棒性進(jìn)行了研究,利用20 組有較大差異的超參數(shù)集對算法進(jìn)行了測試,并且對最終得分求均值,結(jié)果如圖6所示。
圖6 不同算法的魯棒性對比Fig.6 Robustness comparison of different algorithms
圖6 比較了基于模型的權(quán)值組合規(guī)劃值擴(kuò)展算法與基于Impala 框架的內(nèi)在獎(jiǎng)勵(lì)算法在20 組不同超參數(shù)集下作用于模擬環(huán)境中的平均得分。從圖6可以看出,基于Impala 框架的內(nèi)在獎(jiǎng)勵(lì)算法在使用接近20 組超參數(shù)集時(shí),其得分均值已低于2 000 分,而基于模型的權(quán)值組合規(guī)劃值擴(kuò)展算法穩(wěn)定在6 000 分左右。實(shí)驗(yàn)結(jié)果表明,基于模型的算法針對不同超參數(shù)具有更強(qiáng)的魯棒性。原因在于:基于模型的權(quán)值組合規(guī)劃值擴(kuò)展算法在訓(xùn)練過程中對于環(huán)境動(dòng)態(tài)模型的學(xué)習(xí),在一定程度上彌補(bǔ)了超參數(shù)設(shè)置帶來的價(jià)值函數(shù)預(yù)測偏差。
本文針對強(qiáng)化學(xué)習(xí)算法在無人機(jī)升空平臺(tái)路徑規(guī)劃任務(wù)中存在的樣本效率低的問題,提出基于模型的內(nèi)在獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)算法。通過將任務(wù)概述為一個(gè)時(shí)序決策優(yōu)化問題,基于OpenAI-GYM 構(gòu)建模擬環(huán)境,并結(jié)合規(guī)劃與預(yù)測的方法提高價(jià)值函數(shù)的評估準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明,該算法在保證智能體性能的前提下,在樣本效率、學(xué)習(xí)速度、算法魯棒性上都有較大提升。下一步將研究提升算法的遷移能力,并結(jié)合遷移學(xué)習(xí)和元學(xué)習(xí)的思想對算法進(jìn)行改進(jìn),以將訓(xùn)練完畢的智能體投入到相似的場景中執(zhí)行任務(wù)。