亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)實(shí)時航跡規(guī)劃

        2024-01-18 10:23:42舒健生周于翔鄭曉龍賴曉昌陶大甜
        火力與指揮控制 2023年12期
        關(guān)鍵詞:動作環(huán)境實(shí)驗(yàn)

        舒健生,周于翔*,鄭曉龍,賴曉昌,陶大甜

        (1.火箭軍工程大學(xué),西安 710025;2.武漢理工大學(xué)信息工程學(xué)院,武漢 430070)

        0 引言

        由于較好的機(jī)動性和靈活性,無人機(jī)(unmanned aerial vehicle,UAV)在戰(zhàn)場打擊任務(wù)、災(zāi)后搜索和救援任務(wù)等方面具有廣泛的發(fā)展空間和良好的發(fā)展前景,UAV 需要較高的自主能力和實(shí)時航跡規(guī)劃能力,以應(yīng)對復(fù)雜多變的飛行環(huán)境,而國內(nèi)外的研究主要集中于固定靜態(tài)環(huán)境的無人機(jī)航跡規(guī)劃問題。因此,無人機(jī)在獲取動態(tài)變化的環(huán)境信息后,進(jìn)行實(shí)時機(jī)動避障的能力變得尤為重要。當(dāng)前解決航跡規(guī)劃問題的傳統(tǒng)算法主要包括:Dijkstra、A*算法、RRT*算法、粒子群算法、蟻群算法和人工勢場法等[1-6],以及相關(guān)的改進(jìn)算法。但是由于機(jī)載計(jì)算機(jī)的容量和計(jì)算能力有限,而傳統(tǒng)路徑規(guī)劃算法的算法復(fù)雜度較高、計(jì)算量較大,無人機(jī)的實(shí)時航跡規(guī)劃仍然是一個亟待解決的重要問題。

        2013 年,DeepMind 團(tuán)隊(duì)利用神經(jīng)網(wǎng)絡(luò)的擬合功能,將觀測到的高維環(huán)境數(shù)據(jù)擬合為Q 表[7],創(chuàng)新性地提出了DQN 模型,解決了對高維連續(xù)狀態(tài)空間表征的問題,使深度強(qiáng)化學(xué)習(xí)成為人工智能領(lǐng)域的一個研究熱點(diǎn)。強(qiáng)化學(xué)習(xí)算法相對于傳統(tǒng)算法而言,泛化性更好,對動態(tài)變化的環(huán)境具有更強(qiáng)的適應(yīng)能力,且能更好地滿足在線航跡規(guī)劃問題的實(shí)時性要求。目前,該算法在離線路徑規(guī)劃、在線路徑規(guī)劃,以及多智能體導(dǎo)航等方面都取得了不錯的成果。郝釧釧等使用Q-learning 算法進(jìn)行優(yōu)化,設(shè)計(jì)連續(xù)回報(bào)函數(shù),解決了獎勵稀疏的問題,但容易產(chǎn)生數(shù)值抖動,算法收斂性不足[8]。王珂等將Q-learning算法與A3C 算法相結(jié)合,提出基于最小深度信息的有選擇的訓(xùn)練模型,解決了由于動作選擇缺乏針對性而導(dǎo)致算法收斂速度較慢的問題,但依然存在收斂不穩(wěn)定的問題[9]。Q-learning 的狀態(tài)空間和動作空間都是離散的,生成的航跡平滑性較差,與實(shí)際飛行情況的差別較大。

        此后產(chǎn)生了一些效果更優(yōu)、更穩(wěn)定、收斂速度更快的算法,如:PPO 算法、SAC 算法和TD3 算法[10-12]。3 種算法各有優(yōu)劣,其中,PPO 算法穩(wěn)定較好,對參數(shù)的依賴較小,被Deep AI 公司設(shè)定為默認(rèn)算法;TD3 算法在DDPG 算法的基礎(chǔ)上進(jìn)行改進(jìn),采用雙Q 網(wǎng)絡(luò)的形式避免了過估計(jì)情況的產(chǎn)生,其優(yōu)化效果優(yōu)勝于DDPG 算法;而SAC 算法是一種最大熵強(qiáng)化學(xué)習(xí)算法,能夠探索到更多動作,有效避免了過估計(jì)情況的產(chǎn)生。徐國艷等設(shè)計(jì)改進(jìn)人工勢場法對agent 的位置進(jìn)行評價,并將其作為過程獎勵,大幅加快了PPO 算法的收斂速度[10]。GRANDO等在TD3算法和SAC 算法中分別加入了RNN 循環(huán)神經(jīng)網(wǎng)絡(luò),使模型擁有了一定的記憶和推理能力,能參考前序信息更好地進(jìn)行機(jī)動避障[11]。實(shí)驗(yàn)結(jié)果證明了改進(jìn)算法的有效性,且改進(jìn)后的SAC 算法收斂速度更快,效果更好。LEI 等采用帶有預(yù)訓(xùn)練專家演示數(shù)據(jù)的TD3 算法進(jìn)行路徑規(guī)劃,實(shí)驗(yàn)結(jié)果顯示,改進(jìn)后的算法在回合獎勵值,平均成功率等方面都有較大提升,且顯著降低了任務(wù)的失敗概率[13]。這3 種算法的狀態(tài)空間和動作空間都是連續(xù)的,與UAV的實(shí)際飛行情況更為貼近。

        航跡規(guī)劃問題是一個狀態(tài)空間和動作空間都連續(xù)的問題。大量的研究和實(shí)驗(yàn)表明,具有Actor-Critic 算法框架的PPO、SAC 和TD3 算法能較好地解決此類問題,并且在收斂速度和穩(wěn)定性方面優(yōu)于其他算法。獎勵稀疏是強(qiáng)化學(xué)習(xí)算法中存在的普遍問題。因此,本文基于智能體與目標(biāo)區(qū)或最近障礙物幾何距離變化設(shè)置連續(xù)獎勵或連續(xù)懲罰,從而引導(dǎo)智能體快速向目標(biāo)方向運(yùn)動,并對障礙物進(jìn)行有效規(guī)避。此外,UAV 在飛行過程中還需要滿足自身飛行約束條件和環(huán)境約束條件,任務(wù)較為復(fù)雜,直接訓(xùn)練的難度較大,在單一環(huán)境中往往很難探索到有效動作,使算法的訓(xùn)練效率大打折扣。本文結(jié)合課程學(xué)習(xí)的方法,將上一個環(huán)境中保存的訓(xùn)練參數(shù)通過參數(shù)遷移的方式,加載到相應(yīng)的強(qiáng)化學(xué)習(xí)算法中進(jìn)行后續(xù)訓(xùn)練與學(xué)習(xí)。分階段、分難度的學(xué)習(xí)方式,也使智能體在各訓(xùn)練環(huán)境中的動作探索更廣泛、學(xué)習(xí)更加充分。因此,本文在此基礎(chǔ)上對3 種算法設(shè)置分別進(jìn)行改進(jìn)、訓(xùn)練和比較,分析了各個算法進(jìn)行二維平面的實(shí)時航跡規(guī)劃的優(yōu)點(diǎn)和不足之處。

        1 相關(guān)算法

        1.1 SAC 算法

        SAC 算法是HAARNOJA 于2018 年提出的一種無模型的隨機(jī)策略深度強(qiáng)化學(xué)習(xí)算法[12],其結(jié)構(gòu)包括1 個actor 網(wǎng)絡(luò)、4 個Critic 網(wǎng)絡(luò)(狀態(tài)價值估計(jì)V、Target V、狀態(tài)-動作價值估計(jì)Q0和Q1網(wǎng)絡(luò))。傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法僅考慮最大化累計(jì)回報(bào)項(xiàng),而SAC 算法同時最大化累計(jì)獎勵項(xiàng)和策略分布的熵值項(xiàng),熵值越大,動作的隨機(jī)性越大,降低采樣復(fù)雜度的同時提升了算法的探索能力和魯棒性,防止算法過早收斂而產(chǎn)生局部最優(yōu)解。

        其中,R(·)為當(dāng)前狀態(tài)和動作下的獎勵值項(xiàng);H(·)為策略π 的熵值項(xiàng);αH為溫度系數(shù),通過控制αH的大小確定策略分布熵值項(xiàng)的相對重要程度。

        算法1 Soft Actor-Critic初始化參數(shù)images/BZ_138_425_1146_625_1189.png對每個訓(xùn)練回合執(zhí)行:對每回合中的每一步執(zhí)行:images/BZ_138_314_1289_765_1477.png結(jié)束對每個梯度執(zhí)行:images/BZ_138_314_1577_766_1803.png結(jié)束結(jié)束

        V Critic 網(wǎng)絡(luò)更新的均方誤差(MSE)損失函數(shù)為:

        梯度:

        此處梯度為無偏估計(jì),D 表示經(jīng)驗(yàn)池中的經(jīng)驗(yàn)數(shù)據(jù)樣本,at'為actor 網(wǎng)絡(luò)根據(jù)當(dāng)前狀態(tài)st生成。使用隨機(jī)梯度下降法更新得到的兩個Q-Critic 網(wǎng)絡(luò)的參數(shù)是不一樣的,此處取兩個Qθ的最小值進(jìn)行計(jì)算可以顯著加速訓(xùn)練。

        Q -Critic 網(wǎng)絡(luò)的更新同樣是最小化MSE 損失函數(shù):

        梯度:

        Actor 網(wǎng)絡(luò)通過最小化KL 散度進(jìn)行更新:

        其中,Z(·)函數(shù)的作用是將分布進(jìn)行歸一化。

        將策略用重參數(shù)化技巧表示為帶噪聲的神經(jīng)網(wǎng)絡(luò):

        梯度:

        1.2 課程學(xué)習(xí)

        課程學(xué)習(xí)是由BENGIO 提出的一種訓(xùn)練策略,模仿人類的學(xué)習(xí)過程,通過設(shè)置不同難易程度的課程來加速學(xué)習(xí),從簡單的問題學(xué)習(xí)到的策略遷移到復(fù)雜的問題中[14]。該方法被廣泛應(yīng)用于計(jì)算機(jī)視覺和自然語言處理等多種場景,以提高各種模型的泛化能力和訓(xùn)練效率。

        在強(qiáng)化學(xué)習(xí)算法設(shè)計(jì)中,采用參數(shù)遷移的方式,把先前訓(xùn)練環(huán)境中訓(xùn)練好的模型參數(shù)遷移到當(dāng)前訓(xùn)練環(huán)境中來,按任務(wù)難易程度進(jìn)行多場景學(xué)習(xí),對算法進(jìn)行驗(yàn)證和比較。本文將UAV 航跡規(guī)劃的訓(xùn)練環(huán)境拆分為多個,不同的環(huán)境對應(yīng)不同的訓(xùn)練任務(wù),有不同的訓(xùn)練目的。第1 個訓(xùn)練環(huán)境是空曠的自由運(yùn)動空間,其目的在于使UAV 找到通向目標(biāo)最近的路徑。第2 個訓(xùn)練環(huán)境是包含障礙物的空間,在該環(huán)境中,UAV 逐漸學(xué)會規(guī)避障礙物并尋找到達(dá)目標(biāo)的最近路徑。

        2 深度強(qiáng)化學(xué)習(xí)算法設(shè)計(jì)

        2.1 網(wǎng)絡(luò)結(jié)構(gòu)

        本文使用的深度強(qiáng)化學(xué)習(xí)算法包括3+n 個輸入和1 個輸出,如下頁圖1 所示。網(wǎng)絡(luò)的輸入為算法的狀態(tài)空間,是agent 對環(huán)境空間進(jìn)行觀測得到的信息,是agent 進(jìn)行動作選擇的依據(jù),包括3 個部分:目標(biāo)相對位置Pg',agent 相對航程L'以及雷達(dá)在n 個方向上障礙物的距離信息PS';網(wǎng)絡(luò)的輸出為轉(zhuǎn)角α。

        圖1 輸入輸出結(jié)構(gòu)圖Fig.1 Input-output structure diagram

        如圖2 所示,SAC 算法的網(wǎng)絡(luò)結(jié)構(gòu)包括1 個Actor 網(wǎng)絡(luò)、2 個結(jié)構(gòu)相同的Q-Critic 網(wǎng)絡(luò)、2 個結(jié)構(gòu)相同的V-Critic 網(wǎng)絡(luò)(其中一個為估計(jì)網(wǎng)絡(luò),一個為目標(biāo)網(wǎng)絡(luò)),其網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。Actor 網(wǎng)絡(luò)、Q-Critic 網(wǎng)絡(luò)和V-Critic 網(wǎng)絡(luò)的隱藏層結(jié)構(gòu)相同,均包含3 個隱藏層,每層為512 個節(jié)點(diǎn)的全連接層。Actor 網(wǎng)絡(luò)的輸入為agent 所在環(huán)境的當(dāng)前狀態(tài)st,輸出為轉(zhuǎn)彎角。Q-Critic 網(wǎng)絡(luò)的輸入為st和動作at,輸出為當(dāng)前狀態(tài)動作對的Q 值。V-Critic 網(wǎng)絡(luò)的輸入為st,輸出為當(dāng)前狀態(tài)值V(st),是對當(dāng)前狀態(tài)st的價值預(yù)測。

        圖2 網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Network structure diagram

        2.2 狀態(tài)空間

        2.2.1 目標(biāo)點(diǎn)的相對位置關(guān)系Pg'

        以飛行器坐標(biāo)系下的目標(biāo)點(diǎn)位置信息為輸入將更有利于算法學(xué)習(xí)與目標(biāo)點(diǎn)之間的相對關(guān)系。經(jīng)過坐標(biāo)系的平移和旋轉(zhuǎn)變化,將目標(biāo)點(diǎn)的原位置坐標(biāo)轉(zhuǎn)化到以無人飛行器(UAV)為原點(diǎn),UAV 的飛行方向?yàn)閥 軸,與y 軸水平垂直方向?yàn)閤 軸的坐標(biāo)系中。最后進(jìn)行數(shù)值歸一化處理,使Pg'各維的取值范圍為[-1,1]。

        其求解步驟如下:

        首先,經(jīng)過坐標(biāo)系平移變換,將原坐標(biāo)系原點(diǎn)平移至UAV 重心。

        然后,如圖3 所示,通過旋轉(zhuǎn)矩陣,將目標(biāo)點(diǎn)的位置坐標(biāo)變換到飛行器坐標(biāo)系上。

        圖3 坐標(biāo)變換圖Fig.3 Coordinate transformation diagram

        計(jì)算公式如下:

        其中,θu為飛行器的航向角;A 為旋轉(zhuǎn)矩陣。最后,進(jìn)行坐標(biāo)數(shù)據(jù)的歸一化處理。

        2.2.2 相對航程L'

        UAV 的飛行航程受最大飛行航程約束。將已飛航程信息與最大飛行航程的比值作為輸入,可防止飛行器由于飛行航程過大或飛行時間過長而導(dǎo)致任務(wù)失敗,從而確保飛行器更快接近目標(biāo)區(qū)域。

        2.2.3 雷達(dá)探測信息Ps'

        在強(qiáng)化學(xué)習(xí)算法中,輸入觀察信息的維度不能過大,否則會導(dǎo)致算法學(xué)習(xí)速度緩慢,甚至造成神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)困難,很難從輸入中提取到有用的信息。但輸入信息較少則算法的收斂效果將大打折扣。因此,需要在agent 的雷達(dá)探測范圍內(nèi)等角度θ取合適數(shù)量的探測方向,并設(shè)雷達(dá)的最大探測范圍為Dmax=20,返回各方向與環(huán)境邊界、障礙物之間的距離信息Di。

        固定翼無人機(jī)只能向前方運(yùn)動,因此以UAV的飛行方向?yàn)榛鶞?zhǔn),在[-90°,90°]范圍內(nèi)的障礙物信息對于UAV 來說更有意義,本文兼顧算法的運(yùn)算速度和訓(xùn)練效果,在該范圍內(nèi)按等角度30°取7個雷達(dá)探測方向,如下頁圖4 所示。

        圖4 雷達(dá)探測模型Fig.4 Radar detection model

        2.3 動作空間

        本文的研究對象為固定翼無人機(jī),因此,其飛行過程中沒有后退的動作。為使實(shí)驗(yàn)盡可能與實(shí)際情況相符合,將動作空間設(shè)計(jì)為連續(xù)動作,控制量為UAV 在航跡點(diǎn)處的轉(zhuǎn)角大小。受自身氣動特性的影響,UAV 在各航跡點(diǎn)處的水平轉(zhuǎn)彎角不能超過最大轉(zhuǎn)彎角的限制,否則會導(dǎo)致飛行器失穩(wěn),造成嚴(yán)重后果。如圖5 所示,飛行器的實(shí)際轉(zhuǎn)彎角α 受到最大轉(zhuǎn)彎角αmax限制。

        圖5 UAV 轉(zhuǎn)彎角示意圖Fig.5 Schematic diagram of the turning angle of UAV

        假設(shè)αmax已知,Ai為航跡段i 在x、y 坐標(biāo)軸上的方向向量,其表達(dá)式為,則UAV 實(shí)際轉(zhuǎn)彎角α 與αmax的關(guān)系如下所示:

        在最大轉(zhuǎn)彎角限制范圍內(nèi),UAV 的轉(zhuǎn)彎角越小,飛行軌跡的平滑度就越好,但機(jī)動性能會相應(yīng)變差。因此,本文綜合考慮各種因素,限制轉(zhuǎn)彎角的取值范圍為[-6°,6°]。

        2.4 獎勵函數(shù)

        強(qiáng)化學(xué)習(xí)的獎勵函數(shù)設(shè)置主要需解決稀疏獎勵的問題,該問題廣泛存在于實(shí)際應(yīng)用中。稀疏獎勵是指agent 在探索過程中很難獲得正獎勵,導(dǎo)致算法學(xué)習(xí)效率低下,難以探索到預(yù)定狀態(tài)。本文的獎勵函數(shù)分為3 個部分,并設(shè)置連續(xù)獎勵,解決稀疏獎勵的問題。

        2.4.1 漸進(jìn)獎懲Rd

        設(shè)UAV 與目標(biāo)當(dāng)前時刻的距離為dt,為引導(dǎo)UAV 向目標(biāo)運(yùn)動,當(dāng)時,表示agent在向目標(biāo)點(diǎn)運(yùn)動,給予agent 一個較小的漸進(jìn)獎懲,其計(jì)算公式如下:

        2.4.2 到達(dá)獎勵Rar

        為計(jì)算方便,本實(shí)驗(yàn)中將目標(biāo)設(shè)定為圓形目標(biāo),目標(biāo)半徑為rg。則當(dāng)agent 與目標(biāo)中心的距離時,給予正向獎勵Rar。

        2.4.3 死亡懲罰Rde

        UAV 的威脅源包括:靜態(tài)固定障礙物、預(yù)警探測雷達(dá)以及防空武器等。與目標(biāo)處理相似,將障礙物處理為二維圓形障礙物。分別以障礙物的最大半徑、預(yù)警探測雷達(dá)的最大預(yù)警探測范圍和防空武器的最大打擊半徑為威脅圓的半徑rO。當(dāng)agent 與目標(biāo)中心的距離或agent 運(yùn)動觸碰邊界時,給予負(fù)向獎勵Rde。

        2.4.4 總獎勵值Rall

        UAV 飛行總獎勵為目標(biāo)漸進(jìn)獎勵、到達(dá)獎勵與死亡懲罰之和減去基線獎勵(baseline)R0,如式(17)所示?;€獎勵的添加可以讓每步的動作有正有負(fù),更有利于算法學(xué)習(xí)到優(yōu)秀的動作。

        3 飛行約束條件及參數(shù)設(shè)計(jì)

        3.1 航跡段相關(guān)參數(shù)

        在強(qiáng)化學(xué)習(xí)算法中,agent 每經(jīng)過一個時間間隔Δt,對應(yīng)做出一個動作(action),表示完成一步(step)。由于UAV 受自身性能參數(shù)和氣動特性的限制,二維航跡需要滿足最大航程、最大轉(zhuǎn)彎角、最小航跡段等約束條件。其中,轉(zhuǎn)彎角α 為算法的動作,其最大轉(zhuǎn)彎角約束已在動作空間的設(shè)計(jì)中加以限定。由于UAV在長距離飛行中,多數(shù)時間處于勻速巡航狀態(tài),本文設(shè)定UAV 的飛行速度V 大小恒定不變。

        由于飛行器機(jī)動性能的限制和慣性的影響,UAV 在飛行過程中不能隨意進(jìn)行轉(zhuǎn)彎或連續(xù)轉(zhuǎn)彎,在改變飛行狀態(tài)之前必須完成一定距離的航跡段飛行,其大小為無人機(jī)當(dāng)前速度下飛行Δt 時間的距離。如式(18)所示,當(dāng)V 一定時,li的大小由Δt決定,設(shè)Δt=1。因此,UAV 每步的航跡段li的長度大小都相等,設(shè)定為固定值1 個單位。

        3.2 最大航程相關(guān)參數(shù)

        由于UAV 自身攜帶能源有限,且相應(yīng)任務(wù)的時間配給有限,其航程必然受限。因此,UAV 的最大航程應(yīng)當(dāng)滿足式(19)。

        其中,Smax表示UAV 燃油限制的最大航程;tmax表示完成任務(wù)的最長時間限制。

        3.3 深度強(qiáng)化學(xué)習(xí)參數(shù)

        本文使用基于PyTorch 搭建的強(qiáng)化學(xué)習(xí)算法進(jìn)行訓(xùn)練優(yōu)化和測試,其算法的參數(shù)設(shè)置如表1 所示。

        表1 深度強(qiáng)化學(xué)習(xí)算法參數(shù)表Table 1 Parameter list of deep reinforcement learning algorithms

        4 實(shí)驗(yàn)與分析

        4.1 實(shí)驗(yàn)環(huán)境設(shè)計(jì)

        為驗(yàn)證改進(jìn)后算法的可行性,本文通過OpenAI的Gym 生成實(shí)驗(yàn)環(huán)境,共設(shè)有兩個分步訓(xùn)練環(huán)境,1個測試環(huán)境,使用PPO 算法、TD3 算法和SAC 算法分別進(jìn)行優(yōu)化和比較。

        4.1.1 訓(xùn)練環(huán)境

        第1 個訓(xùn)練環(huán)境是300×300 的正方形空白封閉區(qū)域,環(huán)境邊緣均設(shè)置為不可觸碰的障礙物,正方形內(nèi)部無障礙物,可由agent 自由通行,僅有一個半徑為5 的圓形目標(biāo)區(qū)域,目標(biāo)的圓心位置和agent的起始位置是在每回合隨機(jī)設(shè)置的,如圖6(a)所示。該環(huán)境訓(xùn)練的目的是使agent 學(xué)會找到通往目標(biāo)區(qū)域的最短路徑。

        圖6 訓(xùn)練環(huán)境Fig.6 Training environment

        第2 個訓(xùn)練環(huán)境是300×300 的正方形封閉區(qū)域,環(huán)境邊緣同樣設(shè)置為不可觸碰的障礙物,內(nèi)設(shè)4個半徑為30 的圓形障礙物,1 個半徑為5 的圓形目標(biāo)。其中,4 個圓形障礙物的位置分別為(100,100),(100,200),(200,200),(200,100),圓形目標(biāo)的位置每回合隨機(jī)設(shè)置,如圖6(b)所示。agent 在第1 個環(huán)境訓(xùn)練的基礎(chǔ)上,再進(jìn)行第2 個環(huán)境的訓(xùn)練,該環(huán)境中的學(xué)習(xí)任務(wù)比第1 個環(huán)境中學(xué)習(xí)任務(wù)更難,agent 最終學(xué)會正確躲避障礙物并找到安全通向目標(biāo)點(diǎn)的最短路徑。

        4.1.2 測試環(huán)境

        如下頁圖7 所示,測試環(huán)境中共設(shè)有4 個圓形的障礙物和1 個圓形目標(biāo),其分布狀況與訓(xùn)練環(huán)境不同,但形狀大小相同,以驗(yàn)證訓(xùn)練后算法的泛化性和可行性。其中,障礙物的圓心位置分別為(80,80),(220,220),(115,175),(175,115),目標(biāo)的圓心位置為(280,280)。

        圖7 測試環(huán)境Fig.7 Test environment

        4.2 指標(biāo)構(gòu)建

        4.2.1 訓(xùn)練實(shí)驗(yàn)指標(biāo)

        在深度強(qiáng)化學(xué)習(xí)的訓(xùn)練過程中,主要通過繪制訓(xùn)練過程的成功率和總獎勵值曲線,來比較算法收斂速度的快慢、收斂穩(wěn)定性的好壞、成功率的高低以及總獎勵值的大小。由于強(qiáng)化學(xué)習(xí)算法在狀態(tài)下進(jìn)行的動作探索具有不確定性,導(dǎo)致獎勵值曲線的噪聲較大,不利于進(jìn)行分析比較,需要進(jìn)行濾波處理。但若濾波處理過度,則會丟失曲線原有的細(xì)節(jié)信息,不易分析曲線之間的差異。因此,在本文的訓(xùn)練實(shí)驗(yàn)中以50 步為單位,對訓(xùn)練效果曲線采用滑動平均(moving average)的方法進(jìn)行平滑處理,輸出最后的訓(xùn)練曲線圖并進(jìn)行比較。

        4.2.2 測試實(shí)驗(yàn)指標(biāo)

        將各算法訓(xùn)練加載訓(xùn)練完成的模型,代入測試環(huán)境中進(jìn)行實(shí)驗(yàn)。本實(shí)驗(yàn)中分別對PPO 算法、SAC算法和TD3 算法進(jìn)行1 000 回合測試,并統(tǒng)計(jì)各算法在測試環(huán)境中的測試結(jié)果。對每組測試實(shí)驗(yàn)設(shè)置5 個實(shí)驗(yàn)統(tǒng)計(jì)指標(biāo),分別為:平均成功率、平均獎勵值、平均路徑平滑度、平均航跡長度以及平均規(guī)劃用時。各指標(biāo)的計(jì)算方法如下所示:

        1)平均成功率

        平均成功率是衡量算法泛化性和穩(wěn)定性的關(guān)鍵指標(biāo),算法在陌生環(huán)境中收斂的平均成功率越高,算法的可靠性越好,泛化性也更好,反之則更差。指標(biāo)的計(jì)算方法如式(20)所示:

        其中,N 為實(shí)驗(yàn)總次數(shù);Ns為實(shí)驗(yàn)成功次數(shù)。

        2)平均獎勵值

        此處以agent 成功完成任務(wù)的回合所獲得的平均獎勵來評判算法優(yōu)化航跡的好壞,獎勵值越高,航跡理論上更優(yōu),反之越差。該指標(biāo)計(jì)算公式如下:

        3)平均路徑平滑度

        UAV 進(jìn)行機(jī)動的次數(shù)越少,每次轉(zhuǎn)彎的角度越小,對飛行器飛行控制系統(tǒng)的要求就越低,規(guī)劃出的航跡相對會更平滑,航跡就更優(yōu)秀。因此,在成功完成任務(wù)的前提下,該指標(biāo)值小的算法更優(yōu)秀。該指標(biāo)為agent 任務(wù)成功回合的轉(zhuǎn)彎角絕對值之和的平均值,可由式(22)計(jì)算得出。

        其中,ai為成功回合中agent 每步的轉(zhuǎn)彎角;n 為該回合動作的次數(shù),即該回合的步數(shù)。

        4)平均航跡長度

        由于本文中設(shè)定UAV 的飛行速度大小恒定不變且每步的時間間隔相同,UAV 在每步的航跡段長度是相等的,即航跡長度與該回合內(nèi)步數(shù)的大小成正比。因此,以成功回合的平均步數(shù)為指標(biāo)衡量測試過程中UAV 的平均航跡長度。該指標(biāo)的計(jì)算方法如式(23)所示:

        其中,Ss為成功回合中UAV 從起點(diǎn)到目標(biāo)所經(jīng)歷的步數(shù)。

        5)平均規(guī)劃用時

        由于任務(wù)失敗回合的規(guī)劃用時與任務(wù)成功回合往往相差較大,為衡量該算法在規(guī)劃成功時的計(jì)算速度,該指標(biāo)僅計(jì)算任務(wù)成功時每條飛行軌跡的平均規(guī)劃用時,以檢驗(yàn)算法的實(shí)時性。

        其中,Ts為成功回合的算法規(guī)劃用時。

        4.3 訓(xùn)練實(shí)驗(yàn)

        在訓(xùn)練實(shí)驗(yàn)中,agent 在每個訓(xùn)練環(huán)境中各訓(xùn)練100 萬步。環(huán)境會根據(jù)agent 每步動作的好壞給予一個較小的獎勵值。當(dāng)agent 遇到以下情形時,表示完成一個回合(episode):1)到達(dá)目標(biāo),當(dāng)agent 在最大步數(shù)內(nèi)到達(dá)目標(biāo)區(qū)域范圍內(nèi)時,表示成功完成任務(wù);2)超出航程,當(dāng)agent 的運(yùn)行步數(shù)超出最大步數(shù)限制時,表示超出UAV 的最大航程,任務(wù)失?。?)發(fā)生碰撞,當(dāng)agent 與環(huán)境邊界或預(yù)設(shè)障礙物發(fā)生觸碰時,UAV 因碰撞墜毀,任務(wù)失敗。每個回合結(jié)束時,若完成任務(wù),則給較大的正向獎勵,若任務(wù)失敗,則給予較大懲罰。

        從下頁圖8(a)和圖8(b)中可以看出,在訓(xùn)練環(huán)境1 中,PPO、SAC 和TD3 算法都能很快收斂,穩(wěn)定性較好,且收斂得到的獎勵值和成功率差別不大,證明3 種算法都能在空曠環(huán)境中較好地完成尋的任務(wù)。但相對而言,SAC 算法收斂的穩(wěn)定性更好,速度都更快,曲線最為平坦,優(yōu)化效果明顯更好。

        圖8 訓(xùn)練環(huán)境1 指標(biāo)變化曲線圖Fig.8 Curves of indicator changes in the training environment I

        但在訓(xùn)練環(huán)境2 中,SAC 算法的收斂速度和穩(wěn)定性更明顯優(yōu)于PPO 算法和TD3 算法,在10 萬步之內(nèi)就能達(dá)到較好的收斂效果,曲線波動非常小。PPO 算法的訓(xùn)練效果最差,從圖9(a)和圖9(b)中可以看出,由于訓(xùn)練環(huán)境2 中的任務(wù)過于復(fù)雜,PPO算法沒有訓(xùn)練形成一個有效模型,訓(xùn)練前后成功率和獎勵值無明顯變化。TD3 算法的收斂速度比SAC算法慢,約20 萬步才能達(dá)到收斂效果,且收斂穩(wěn)定性不如SAC 算法,得到的獎勵值與成功率都比SAC算法低。通過訓(xùn)練實(shí)驗(yàn)可以看出,PPO 算法比較適合于簡單的訓(xùn)練任務(wù),對于復(fù)雜任務(wù)的訓(xùn)練效果較差;TD3 也有不錯的效果,但依然不如SAC 算法;SAC 算法的訓(xùn)練效果最好,能較好完成復(fù)雜環(huán)境條件下的在線航跡規(guī)劃任務(wù)。

        圖9 訓(xùn)練環(huán)境2 指標(biāo)變化曲線圖Fig.9 Curves of Indicator changes in the training environment II

        4.4 測試實(shí)驗(yàn)

        測試環(huán)境中各算法的優(yōu)化結(jié)果如表2 所示,UAV 航跡圖如圖10(a)、圖10(b)所示。PPO 算法在測試環(huán)境中無法完成該任務(wù),SAC 算法和TD3 算法能夠完成,兩種算法的成功率都為100%,能較好地完成該任務(wù),但SAC 算法規(guī)劃出的航跡更為平滑,機(jī)動幅度更小。同樣可以看出,SAC 算法得到的航跡更平滑,且規(guī)劃的航徑距離障礙物更遠(yuǎn)而相對更安全。兩種算法單條航跡的計(jì)算速度平均值相差無幾,證明兩種算法的計(jì)算速度相當(dāng)且都能滿足UAV的在線航跡規(guī)劃的實(shí)時性需求。通過測試實(shí)驗(yàn)可知,SAC 算法得到的航跡更優(yōu)。

        表2 測試實(shí)驗(yàn)各指標(biāo)數(shù)據(jù)對比Table 2 Comparison of the data of each index of the test experiment

        從訓(xùn)練實(shí)驗(yàn)和測試實(shí)驗(yàn)的結(jié)果中可以看出,SAC 算法在處理陌生復(fù)雜環(huán)境條件下的航跡規(guī)劃問題時,在收斂性和泛化性方面都具有更強(qiáng)的能力,能滿足在線航跡規(guī)劃的實(shí)時性需求。

        5 結(jié)論

        本文根據(jù)UAV 導(dǎo)航任務(wù)實(shí)時性強(qiáng)的特點(diǎn),設(shè)計(jì)連續(xù)獎勵函數(shù)對深度強(qiáng)化學(xué)習(xí)算法進(jìn)行改進(jìn),解決了強(qiáng)化學(xué)習(xí)算法獎勵稀疏的問題。并利用課程學(xué)習(xí)對復(fù)雜實(shí)驗(yàn)任務(wù)進(jìn)行分解,降低了任務(wù)的學(xué)習(xí)難度。對比PPO 算法、SAC 和TD3 算法的實(shí)驗(yàn)結(jié)果可知,SAC 算法的收斂速度更快,具有更好的路徑平滑效果,在解決該類問題時更具有優(yōu)越性。但算法實(shí)時性還不夠好,下一步可以結(jié)合其他算法對狀態(tài)空間和獎勵函數(shù)進(jìn)行改進(jìn),加快算法的計(jì)算速度。

        猜你喜歡
        動作環(huán)境實(shí)驗(yàn)
        記一次有趣的實(shí)驗(yàn)
        長期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
        一種用于自主學(xué)習(xí)的虛擬仿真環(huán)境
        孕期遠(yuǎn)離容易致畸的環(huán)境
        做個怪怪長實(shí)驗(yàn)
        環(huán)境
        動作描寫要具體
        畫動作
        動作描寫不可少
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        五月丁香六月综合缴清无码| 国产精品综合色区av| 青青草是针对华人绿色超碰| 精品亚洲成av人在线观看| 欧美a级情欲片在线观看免费| 日本a在线看| 亚洲精品一区二区三区国产| 亚洲丝袜美腿在线视频| 亚洲人成色7777在线观看| 日韩毛片基地一区二区三区| 中文字幕一区,二区,三区| 亚洲天堂亚洲天堂亚洲色图| 特黄熟妇丰满人妻无码| 亚洲乱妇老熟女爽到高潮的片| 亚洲免费毛片网| 熟妇人妻精品一区二区视频| 国产日韩精品欧美一区喷水| 久久欧美与黑人双交男男| 98精品国产高清在线xxxx| 亚洲一区二区三区在线最新| 挺进邻居丰满少妇的身体| 国产精品户露av在线户外直播| 福利片免费 亚洲| 日韩人妻免费视频一专区| 国产成人无码精品久久二区三区| 亚洲饱满人妻视频| 亚洲av网站首页在线观看| 中文字幕在线亚洲三区| 亚洲精品无码不卡在线播放he| 国产短视频精品区第一页| 蜜桃视频网址在线观看| 久久99国产精品久久| 免费男人下部进女人下部视频| 国产精品无码久久AⅤ人妖| 中美日韩在线一区黄色大片| 久久久无码精品亚洲日韩按摩| 久久伊人影院| 日本一区二区高清在线观看| 午夜无码一区二区三区在线观看| 国模少妇一区二区三区| 欧美熟妇与小伙性欧美交|