亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進TD3算法在四旋翼無人機避障中的應用

        2021-06-11 10:17:18劉廣鐘
        計算機工程與應用 2021年11期
        關鍵詞:經驗動作

        唐 蕾,劉廣鐘

        上海海事大學 信息工程學院,上海201306

        四旋翼無人機因其小巧輕便、可以完成人類不便完成的任務而廣受青睞,在工業(yè)巡檢、搶險救災、生活輔助等諸多領域大放異彩。但在此發(fā)展過程中,四旋翼無人機傷人損物事件逐年增加,甚至影響到空域安全[1]。為此,保證四旋翼無人機具備自主避障能力是一項最基本且重要的功能要求,是實現(xiàn)各項復雜作業(yè)任務的前提。

        近年來,強化學習飛速發(fā)展,在人工智能領域表現(xiàn)突出[2-4]。許多研究人員利用強化學習框架研究智能體的避障、路徑規(guī)劃問題,與人工勢場法[5]、可視圖法[6]、粒子群優(yōu)化算法[7]等傳統(tǒng)的避障方法相比,強化學習方法在復雜、難度大的環(huán)境中更具有優(yōu)勢。相對智能小車、移動機器人而言,四旋翼無人機因運動方向更多,其避障情況更加復雜。國內外學者對其進行了相關研究。Kim等[8]將Q-learning算法[9]用于室內仿真環(huán)境中的四旋翼無人機規(guī)避障礙物及路徑規(guī)劃問題,實驗表明訓練后的Q-learning算法在時間上優(yōu)于A?算法[10]。Tran等[11]以攜帶單目前置攝像頭的四旋翼無人機為對象,提出一種基于數據集融合的深度強化學習算法,實現(xiàn)了在密集混亂環(huán)境中的自主避障。Kahn等[12]提出一種基于不確定感知的深度強化學習方法,通過對碰撞概率的估計,使得四旋翼無人機在面對不熟悉的未知環(huán)境中保持“警惕”,降低運行速度,減小碰撞的可能。中科院自動化所的曾毅等[13]提出一種基于前額葉皮層-基底核的強化學習算法,實現(xiàn)了無人機的避障控制。香港科技大學的Li等[14]將DDPG算法[15]用于規(guī)劃四旋翼無人機的期望路徑,并與PID控制器結合,利用分層結構實現(xiàn)無碰撞目標跟蹤任務。DDPG算法作為連續(xù)動作控制方面的經典算法,被廣泛應用于避障、路徑規(guī)劃等問題。但它存在Q值高估偏差,當這種累計誤差達到一定程度時,會導致次優(yōu)策略的更新和發(fā)散行為。而TD3算法是Fujimoto等[16]為了解決該問題提出的優(yōu)化算法,研究指出其性能超過DDPG算法。經典的TD3算法在訓練時使用隨機采樣的方式,因此采樣的數據質量參差不齊,影響訓練效果。

        本文從改變訓練數據質量的角度出發(fā),提出基于雙延遲深度確定性策略梯度的改進算法,然后將其應用到四旋翼無人機的避障問題中,最后利用AirSim仿真平臺比較I-TD3算法與經典TD3算法、DDPG算法的避障性能。實驗結果表明,提出的I-TD3算法的避障性能優(yōu)于經典TD3算法和DDPG算法。

        1 相關工作

        1.1 強化學習模型

        強化學習的模型如圖1所示,學習思路與人類似,是通過與周圍環(huán)境的不斷交互來進行學習。其學習過程可以用馬爾科夫決策過程(Markov Decision Process,MDP)表示。

        圖1 強化學習模型

        馬爾科夫決策過程是一個五元組,表示為{S,A,P,R,γ},其中S是環(huán)境狀態(tài)的集合;A是Agent采取的動作集合;P是狀態(tài)轉移模型,表示Agent在狀態(tài)s下采取動作a后到達狀態(tài)s′的概率;R是獎勵函數,rt=R[ ]St=s,At=a表示在狀態(tài)s下采取動作a時得到的獎勵;γ∈[0,1]是獎勵衰減因子,用來權衡當前獎勵與后續(xù)獎勵的權重關系,其取值越大則越注重長遠利益。除此之外,策略π表示Agent采取動作的依據,即Agent會依據它來選擇動作。在強化學習中,Agent在t時刻St狀態(tài)下,根據策略π執(zhí)行動作At,然后環(huán)境通過狀態(tài)轉移模型P和獎勵函數R得到新狀態(tài)St+1和獎勵rt。通過重復這一過程,更新策略π,從而得到比其他策略都要多的回報,該策略稱之為最優(yōu)策略π*,即:

        尋找最優(yōu)策略,可以通過尋找最優(yōu)價值函數V*來實現(xiàn),即:

        其中,Vπ表示在策略π下產生的價值函數。

        1.2 優(yōu)先經驗回放

        由于強化學習探索到的經驗數據具有很強的相關性,易使得訓練不穩(wěn)定,陷入局部最優(yōu)解。所以2013年DeepMind在深度Q-learning(Deep Q-learning Network,DQN)算法[17]中提出了經驗回放方法。經驗回放方法實質上是一個用于加深印象的經驗池,它存儲了一段時間內的經驗數據。與人腦中的海馬體相似,添加新記憶的同時,也會遺忘一些舊的記憶,但存儲在其中的記憶可以不受時間先后順序的影響隨時拿出來回憶。因此訓練時,從經驗池中隨機采樣,可以打破經驗數據間的關聯(lián)性,加快收斂速度,提高數據利用率。

        從人類過往的學習和生活經驗中得知,從不同的事件中得到的收獲是不一樣的。Schaul等[18]將該思想運用到經驗回放,提出了優(yōu)先經驗回放方法。它通過賦予經驗池中經驗數據不同的優(yōu)先級權重,改變經驗數據被采樣的概率。在經驗池中優(yōu)先抽取價值比較高的經驗數據,數據的優(yōu)先級p通過TD誤差δ來衡量:

        其中,y是目標Q值,Q( )s,a是計算得出的當前Q值。第j個樣本被采樣的概率P′()j為:

        其中,m是采樣樣本的數量。

        優(yōu)先經驗回放會將TD誤差和經驗數據一同存入經驗池,新的經驗在首次存入經驗池時,會賦予最高的優(yōu)先級,用于保證每個經驗數據都至少被抽取一次。

        2 基于I-TD3的四旋翼無人機自主避障方法

        2.1 四旋翼無人機的避障

        避障是指智能體在運動過程中,通過傳感器感知到其運動方向上存在障礙物時,按照算法做出躲避動作,實時更新路徑,最后繞過障礙物到達目標點。與智能小車、移動機器人相比,四旋翼無人機的避障情況更加復雜。因為傳統(tǒng)避障問題是基于2維平面,而四旋翼無人機是一種6自由度的垂直升降機,其需要考慮3維空間的避障情況。

        隨著深度強化學習的發(fā)展,研究人員陸續(xù)提出了確定性策略梯度(Deterministic Policy Gradient,DPG)[19]、DDPG和TD3等算法,在智能控制領域取得了良好的效果。DDPG算法作為連續(xù)動作控制方面的經典算法,被廣泛應用于避障、路徑規(guī)劃等問題。而TD3算法是為了解決DDPG算法高估誤差問題提出的優(yōu)化算法,研究指出其性能超過DDPG算法。

        因此,本文以TD3算法為基礎,通過改進該算法,提高四旋翼無人機的避障性能。

        2.2 TD3算法

        圖2是TD3算法的結構框架。Actor網絡C?根據當前狀態(tài)st輸出當前動作at,Actor目標網絡C?′根據下一狀態(tài)st+1輸出目標動作a?t。Critic網絡Qθi在狀態(tài)st和動作at情況下計算Q值Qθi( )st,at,Critic目標網絡Qθ′i則計算在下一狀態(tài)st+1和目標動作a?t情況下的目標Q值Qθ′i( )st+1,a?t。?和θi分別是Actor網絡和Critic網絡的參數,?′和θ′i分別是Actor目標網絡和Critic目標網絡的參數,i=1,2。當Critic網絡更新參數時,選取兩個Critic目標網絡中更小的Q值作為目標值yt,即:

        其中,ε′是添加的隨機噪聲,服從截斷正態(tài)分布clip(N(0,σ),-c,c),c>0。Actor網絡和四個目標網絡的參數按照式(6)更新:

        其中,τ≤1。

        2.3 I-TD3算法思想

        TD3算法使用了傳統(tǒng)的經驗回放(Experience Replay)方法,它將探索得到的經驗數據存儲在經驗緩存池中,通過隨機抽取樣本的方式更新神經網絡的參數,打破了樣本之間的關聯(lián)關系,提高了神經網絡的穩(wěn)定性[16]。但是,通過隨機采樣的方式抽取的樣本數據質量參差不齊,可能會出現(xiàn)大量無用樣本的情況,影響訓練效果。因此將經驗池一分為二為Msuccess和Mfailure,分別存儲成功和失敗兩種飛行經驗。

        圖2 TD3算法結構框架

        強化學習具有延時性,過往的經驗往往會影響此刻四旋翼無人機的狀態(tài)。假定t時刻四旋翼無人機仍未撞毀,此時四旋翼無人機探索得到的飛行經驗為et,則可以認定t-α時刻的飛行經驗et-α對四旋翼無人機的影響是積極的,是一條成功的飛行經驗。因此除經驗池Msuccess和Mfailure外,另設置臨時經驗池Mtemp,用于存儲最近的α條飛行經驗。該經驗池的大小固定為α,一旦存滿,就使用先進先出原則將其中最早的一條飛行經驗取出存入經驗池Msuccess,然后將新的飛行經驗繼續(xù)存入經驗池Mtemp。如此反復,直至四旋翼無人機完成此次飛行任務。最后根據四旋翼無人機的最終狀態(tài),將經驗池Mtemp中的所有飛行經驗存入對應的經驗池Msuccess或Mfailure。

        與智能小車的自主避障不同,四旋翼無人機在飛行過程中沒有固定道路,所以無法通過道路寬路與駕駛速度等因素的關系計算出經驗數量。因此根據實驗過程中的碰撞經驗,規(guī)定α∈[5,15]。實驗中,α取值為10。

        圖3 基于I-TD3算法的四旋翼無人機自主避障學習過程示意圖

        st,at,rt,st+1存入臨時經驗池Mtemp,并根據上文提到的規(guī)則處理從臨時經驗池Mtemp中取出的經驗數據。最后從經驗池Msuccess和Mfailure中分別抽取若干條經驗,訓練神經網絡。

        在經驗池Msuccess中,希望抽取到價值更高的經驗;而在經驗池Mfailure中,則無此考慮。由于對待二者的目的不同,所以分別使用優(yōu)先經驗回放方法和經驗回放方法從兩個經驗池中按比例采樣:

        其中,nsuccess、nfailure分別是從經驗池Msuccess和Mfailure中采樣的數量,m是總采樣數,β∈[0,1]是失敗樣本率。當β取值為0時,表示全部從成功經驗池Msuccess中抽取經驗;當β取值為1時,表示全部從失敗經驗池Mfailure中抽取經驗。實驗中,β取值為0.05。

        2.4 獎勵函數

        在強化學習中,獎勵函數指引了Agent的學習方向,發(fā)揮著至關重要的作用。本文根據實際的飛行情況,重新規(guī)劃獎勵函數。

        四旋翼無人機的飛行空間可以用三維坐標系表示,規(guī)定y軸為前進方向,因此無人機在y軸的分速度vy是實際的前進速度。當無人機撞毀時,獎勵為?2;當無人機到達目的地時,獎勵為+10;當無人機在飛行途中時,則根據它的飛行表現(xiàn)給予不同的獎勵。從式(8)中可以看出向前飛行和向后飛行時給予的獎勵差值較大,這就避免無人機通過延長飛行步數來彌補飛行過程中出現(xiàn)的徘徊不前,甚至后退現(xiàn)象。

        2.5 算法設計

        I-TD3算法的偽代碼如下所示:

        1.3.2 移栽密度篩選試驗 試驗設4個處理:2萬株 /hm2、4 萬株 /hm2、6 萬株 /hm2、8 萬株 /hm2。每個處理重復3次,小區(qū)面積為30 m2。

        步驟1初始化Critic網絡Qθ1、Qθ2和Actor網絡C?的參數θ1、θ2、?。

        步驟2初始化目標網絡θ′1←θ1,θ′2←θ2,?′←?。

        步驟3初始化成功經驗池Msuccess和失敗經驗池Mfailure,Msuccess的默認結構是SumTree,設置其所有葉子節(jié)點的優(yōu)先級pi為1。

        步驟4對每個episode,循環(huán)執(zhí)行以下步驟:

        (1)獲取初始狀態(tài)s0。

        (2)初始化臨時經驗池Mtemp。

        (3)若四旋翼無人機沒有結束飛行(當四旋翼無人機撞毀或者到達目的地時,結束飛行)并且飛行步數step小于最大限定步數,則對它的每一步,循環(huán)執(zhí)行以下步驟:

        ①根據當前狀態(tài)st,選擇動作并加入噪聲:

        ②執(zhí)行動作at,得到獎勵rt和新狀態(tài)st+1。

        ③若臨時經驗池Mtemp的大小等于β,則將Mtemp中最早的一條經驗取出存入經驗池Msuccess,否則不作處理。

        ④將四元組(st,at,rt,st+1)存入臨時經驗池Mtemp。

        ⑤從經驗池Msuccess和Mfailure中采樣m個樣本(sj,aj,rj,sj+1),j=1,2,…,m。其中從經驗池Mfailure中隨機抽取βm個樣本,從經驗池Msuccess中抽取(1-β)m個樣本,經驗池Msuccess中每個樣本被采樣的概率為:

        ⑥通過Critic目標網絡計算動作的期望回報:

        ⑦更新Critic網絡參數:

        ⑧重新計算從經驗池Msuccess中抽取的樣本的TD誤差δj,更新SumTree中對應節(jié)點的優(yōu)先級。

        ⑨每隔d步,通過確定性策略梯度更新Actor網絡參數?:

        更新目標網絡參數:

        (4)結束step循環(huán)。

        (5)若四旋翼無人機到達目的地,則將臨時經驗池Mtemp中的所有經驗存入經驗池Msuccess,否則將之存入經驗池Mfailure。

        步驟5結束episode循環(huán)。

        3 實驗

        實驗環(huán)境為Windows10.1+tensorflow1.13.1+cuda10.0。硬件為英特爾至強E5-2673v3+GeForce RTX 2080TI+32 GB內存。仿真平臺為AirSim仿真平臺,地圖是自定義的狹窄多障礙通道。利用I-TD3算法、TD3算法、DDPG算法分別訓練2 000回合,分析算法避障策略的有效性,以及避障成功率、避障效果與訓練回合數的關系。

        3.1 AirSim仿真平臺

        AirSim是一款開源模擬器,它能夠利用AI技術模擬無人機和無人車,幫助研究人員構建安全的自動駕駛系統(tǒng)。

        為了增加避障難度,地圖使用自定義的狹窄多障礙通道,如圖4所示。四旋翼無人機須從起點(紅色圓點)處開始無碰撞地依次穿過通道內的所有障礙物,飛出通道,即為成功完成此次任務。

        圖4 自定義地圖

        3.2 實驗結果

        圖5顯示了四旋翼無人機所有成功飛行記錄的飛行步數。由圖可知,I-TD3算法在260回合左右第一次出現(xiàn)成功記錄,TD3算法和DDPG算法分別在1 100回合和1 150回合左右第一次出現(xiàn)成功記錄,說明TD3算法和DDPG算法相對I-TD3算法而言,需要更長時間的探索嘗試。同時,在I-TD3算法下飛行步數由最初的100步左右到穩(wěn)定在60步左右。在TD3算法下飛行步數由最初的150步左右到80步上下波動。在DDPG算法下飛行步數由210步左右到80步左右,且前后波動比較大。明顯看出,I-TD3算法相對于TD3算法和DDPG算法耗費更少的步數,其避障策略更有效。

        圖5 成功飛行記錄的飛行步數

        圖6 避障成功率

        圖6顯示了四旋翼無人機在各個算法下每50回合的避障成功率。由圖可知,隨著訓練的進行,I-TD3算法的成功率在1 300回合左右大幅穩(wěn)定提升,TD3算法的成功率在1 600回合左右大幅穩(wěn)定提升,DDPG算法的成功率在1 600回合左右大幅提升,但前后波動大。在同等訓練次數下,I-TD3算法比TD3算法、DDPG算法有著更高更穩(wěn)定的成功率。

        圖7 平均直線飛行距離

        圖7顯示了四旋翼無人機每10回合的平均直線飛行距離。由圖可知,在I-TD3算法下四旋翼無人機的平均直線飛行距離總體上大于在TD3算法和DDPG算法下的平均直線飛行距離。在1 400回合至2 000回合之間,I-TD3算法下四旋翼無人機始終保持較高的平均直線飛行距離,結合圖7分析可知,在此期間,I-TD3算法下四旋翼無人機避障失敗時,大多在接近目標點處撞毀,避障表現(xiàn)較好,避障效果相比TD3算法、DDPG算法均有很大提升。

        4 結語

        本文提出了一種基于雙延遲深度確定性策略梯度的改進算法I-TD3。該算法通過分離成功和失敗兩種飛行經驗設置兩個經驗緩存池,根據兩個經驗緩存池的不同使用目的分別結合優(yōu)先經驗回放方法和經驗回放方法,提高了采樣效率和訓練效率,并通過改進獎勵函數,改善了訓練效果。在AirSim平臺上的仿真結果表明,本文提出的改進算法能提升四旋翼無人機的避障效果。但是該算法并未考慮存在動態(tài)障礙物的情況,如何在動態(tài)障礙物和靜態(tài)障礙物共同存在的情況下自主避障飛行,是下一步研究的方向。

        猜你喜歡
        經驗動作
        2021年第20期“最值得推廣的經驗”評選
        黨課參考(2021年20期)2021-11-04 09:39:46
        下一個動作
        經驗
        2018年第20期“最值得推廣的經驗”評選
        黨課參考(2018年20期)2018-11-09 08:52:36
        小經驗試試看
        動作描寫要具體
        畫動作
        讓動作“活”起來
        動作描寫不可少
        非同一般的吃飯動作
        久久亚洲精品一区二区| 精品国精品无码自拍自在线| 亚洲中文无码久久精品1| 亚洲中文字幕乱码一二三区| 尤物精品国产亚洲亚洲av麻豆 | 成年女人午夜特黄特色毛片免| 精品人妻va一区二区三区| 在熟睡夫面前侵犯我在线播放| 福利网址在线观看| 日本在线一区二区三区观看| 日本久久精品中文字幕| 午夜精品久久久久久毛片| 欧美日韩国产色综合一二三四| 日韩在线中文字幕一区二区三区 | 88国产精品视频一区二区三区| 波多野结衣一区二区三区免费视频| 午夜一区二区三区福利视频| 日本边添边摸边做边爱喷水| 欧美日韩精品一区二区在线观看| 欧美精品日韩一区二区三区| 久久久国产熟女综合一区二区三区| 国产果冻豆传媒麻婆精东| 亚洲中文字幕无码永久在线 | 久久久久波多野结衣高潮| 亚洲日韩一区二区一无码| 国产av精品久久一区二区| 曰韩无码av一区二区免费| 99蜜桃在线观看免费视频网站| 亚洲精品国产综合久久一线| 一区二区中文字幕在线观看污污| 色婷婷五月综合久久| 在线a免费观看| 国产人妖一区二区av| 蜜芽亚洲av无码精品色午夜| 精品国产av最大网站| 精品欧洲AV无码一区二区免费| 久久久精品亚洲人与狗| 亚洲精品久久久久久久久久吃药| 国产免费av片在线观看麻豆| 国产三级c片在线观看| 国产精品国产精品国产专区不卡 |