唐 蕾,劉廣鐘
上海海事大學(xué) 信息工程學(xué)院,上海201306
四旋翼無人機(jī)因其小巧輕便、可以完成人類不便完成的任務(wù)而廣受青睞,在工業(yè)巡檢、搶險(xiǎn)救災(zāi)、生活輔助等諸多領(lǐng)域大放異彩。但在此發(fā)展過程中,四旋翼無人機(jī)傷人損物事件逐年增加,甚至影響到空域安全[1]。為此,保證四旋翼無人機(jī)具備自主避障能力是一項(xiàng)最基本且重要的功能要求,是實(shí)現(xiàn)各項(xiàng)復(fù)雜作業(yè)任務(wù)的前提。
近年來,強(qiáng)化學(xué)習(xí)飛速發(fā)展,在人工智能領(lǐng)域表現(xiàn)突出[2-4]。許多研究人員利用強(qiáng)化學(xué)習(xí)框架研究智能體的避障、路徑規(guī)劃問題,與人工勢(shì)場(chǎng)法[5]、可視圖法[6]、粒子群優(yōu)化算法[7]等傳統(tǒng)的避障方法相比,強(qiáng)化學(xué)習(xí)方法在復(fù)雜、難度大的環(huán)境中更具有優(yōu)勢(shì)。相對(duì)智能小車、移動(dòng)機(jī)器人而言,四旋翼無人機(jī)因運(yùn)動(dòng)方向更多,其避障情況更加復(fù)雜。國(guó)內(nèi)外學(xué)者對(duì)其進(jìn)行了相關(guān)研究。Kim等[8]將Q-learning算法[9]用于室內(nèi)仿真環(huán)境中的四旋翼無人機(jī)規(guī)避障礙物及路徑規(guī)劃問題,實(shí)驗(yàn)表明訓(xùn)練后的Q-learning算法在時(shí)間上優(yōu)于A?算法[10]。Tran等[11]以攜帶單目前置攝像頭的四旋翼無人機(jī)為對(duì)象,提出一種基于數(shù)據(jù)集融合的深度強(qiáng)化學(xué)習(xí)算法,實(shí)現(xiàn)了在密集混亂環(huán)境中的自主避障。Kahn等[12]提出一種基于不確定感知的深度強(qiáng)化學(xué)習(xí)方法,通過對(duì)碰撞概率的估計(jì),使得四旋翼無人機(jī)在面對(duì)不熟悉的未知環(huán)境中保持“警惕”,降低運(yùn)行速度,減小碰撞的可能。中科院自動(dòng)化所的曾毅等[13]提出一種基于前額葉皮層-基底核的強(qiáng)化學(xué)習(xí)算法,實(shí)現(xiàn)了無人機(jī)的避障控制。香港科技大學(xué)的Li等[14]將DDPG算法[15]用于規(guī)劃四旋翼無人機(jī)的期望路徑,并與PID控制器結(jié)合,利用分層結(jié)構(gòu)實(shí)現(xiàn)無碰撞目標(biāo)跟蹤任務(wù)。DDPG算法作為連續(xù)動(dòng)作控制方面的經(jīng)典算法,被廣泛應(yīng)用于避障、路徑規(guī)劃等問題。但它存在Q值高估偏差,當(dāng)這種累計(jì)誤差達(dá)到一定程度時(shí),會(huì)導(dǎo)致次優(yōu)策略的更新和發(fā)散行為。而TD3算法是Fujimoto等[16]為了解決該問題提出的優(yōu)化算法,研究指出其性能超過DDPG算法。經(jīng)典的TD3算法在訓(xùn)練時(shí)使用隨機(jī)采樣的方式,因此采樣的數(shù)據(jù)質(zhì)量參差不齊,影響訓(xùn)練效果。
本文從改變訓(xùn)練數(shù)據(jù)質(zhì)量的角度出發(fā),提出基于雙延遲深度確定性策略梯度的改進(jìn)算法,然后將其應(yīng)用到四旋翼無人機(jī)的避障問題中,最后利用AirSim仿真平臺(tái)比較I-TD3算法與經(jīng)典TD3算法、DDPG算法的避障性能。實(shí)驗(yàn)結(jié)果表明,提出的I-TD3算法的避障性能優(yōu)于經(jīng)典TD3算法和DDPG算法。
強(qiáng)化學(xué)習(xí)的模型如圖1所示,學(xué)習(xí)思路與人類似,是通過與周圍環(huán)境的不斷交互來進(jìn)行學(xué)習(xí)。其學(xué)習(xí)過程可以用馬爾科夫決策過程(Markov Decision Process,MDP)表示。
圖1 強(qiáng)化學(xué)習(xí)模型
馬爾科夫決策過程是一個(gè)五元組,表示為{S,A,P,R,γ},其中S是環(huán)境狀態(tài)的集合;A是Agent采取的動(dòng)作集合;P是狀態(tài)轉(zhuǎn)移模型,表示Agent在狀態(tài)s下采取動(dòng)作a后到達(dá)狀態(tài)s′的概率;R是獎(jiǎng)勵(lì)函數(shù),rt=R[ ]St=s,At=a表示在狀態(tài)s下采取動(dòng)作a時(shí)得到的獎(jiǎng)勵(lì);γ∈[0,1]是獎(jiǎng)勵(lì)衰減因子,用來權(quán)衡當(dāng)前獎(jiǎng)勵(lì)與后續(xù)獎(jiǎng)勵(lì)的權(quán)重關(guān)系,其取值越大則越注重長(zhǎng)遠(yuǎn)利益。除此之外,策略π表示Agent采取動(dòng)作的依據(jù),即Agent會(huì)依據(jù)它來選擇動(dòng)作。在強(qiáng)化學(xué)習(xí)中,Agent在t時(shí)刻St狀態(tài)下,根據(jù)策略π執(zhí)行動(dòng)作At,然后環(huán)境通過狀態(tài)轉(zhuǎn)移模型P和獎(jiǎng)勵(lì)函數(shù)R得到新狀態(tài)St+1和獎(jiǎng)勵(lì)rt。通過重復(fù)這一過程,更新策略π,從而得到比其他策略都要多的回報(bào),該策略稱之為最優(yōu)策略π*,即:
尋找最優(yōu)策略,可以通過尋找最優(yōu)價(jià)值函數(shù)V*來實(shí)現(xiàn),即:
其中,Vπ表示在策略π下產(chǎn)生的價(jià)值函數(shù)。
由于強(qiáng)化學(xué)習(xí)探索到的經(jīng)驗(yàn)數(shù)據(jù)具有很強(qiáng)的相關(guān)性,易使得訓(xùn)練不穩(wěn)定,陷入局部最優(yōu)解。所以2013年DeepMind在深度Q-learning(Deep Q-learning Network,DQN)算法[17]中提出了經(jīng)驗(yàn)回放方法。經(jīng)驗(yàn)回放方法實(shí)質(zhì)上是一個(gè)用于加深印象的經(jīng)驗(yàn)池,它存儲(chǔ)了一段時(shí)間內(nèi)的經(jīng)驗(yàn)數(shù)據(jù)。與人腦中的海馬體相似,添加新記憶的同時(shí),也會(huì)遺忘一些舊的記憶,但存儲(chǔ)在其中的記憶可以不受時(shí)間先后順序的影響隨時(shí)拿出來回憶。因此訓(xùn)練時(shí),從經(jīng)驗(yàn)池中隨機(jī)采樣,可以打破經(jīng)驗(yàn)數(shù)據(jù)間的關(guān)聯(lián)性,加快收斂速度,提高數(shù)據(jù)利用率。
從人類過往的學(xué)習(xí)和生活經(jīng)驗(yàn)中得知,從不同的事件中得到的收獲是不一樣的。Schaul等[18]將該思想運(yùn)用到經(jīng)驗(yàn)回放,提出了優(yōu)先經(jīng)驗(yàn)回放方法。它通過賦予經(jīng)驗(yàn)池中經(jīng)驗(yàn)數(shù)據(jù)不同的優(yōu)先級(jí)權(quán)重,改變經(jīng)驗(yàn)數(shù)據(jù)被采樣的概率。在經(jīng)驗(yàn)池中優(yōu)先抽取價(jià)值比較高的經(jīng)驗(yàn)數(shù)據(jù),數(shù)據(jù)的優(yōu)先級(jí)p通過TD誤差δ來衡量:
其中,y是目標(biāo)Q值,Q( )s,a是計(jì)算得出的當(dāng)前Q值。第j個(gè)樣本被采樣的概率P′()j為:
其中,m是采樣樣本的數(shù)量。
優(yōu)先經(jīng)驗(yàn)回放會(huì)將TD誤差和經(jīng)驗(yàn)數(shù)據(jù)一同存入經(jīng)驗(yàn)池,新的經(jīng)驗(yàn)在首次存入經(jīng)驗(yàn)池時(shí),會(huì)賦予最高的優(yōu)先級(jí),用于保證每個(gè)經(jīng)驗(yàn)數(shù)據(jù)都至少被抽取一次。
避障是指智能體在運(yùn)動(dòng)過程中,通過傳感器感知到其運(yùn)動(dòng)方向上存在障礙物時(shí),按照算法做出躲避動(dòng)作,實(shí)時(shí)更新路徑,最后繞過障礙物到達(dá)目標(biāo)點(diǎn)。與智能小車、移動(dòng)機(jī)器人相比,四旋翼無人機(jī)的避障情況更加復(fù)雜。因?yàn)閭鹘y(tǒng)避障問題是基于2維平面,而四旋翼無人機(jī)是一種6自由度的垂直升降機(jī),其需要考慮3維空間的避障情況。
隨著深度強(qiáng)化學(xué)習(xí)的發(fā)展,研究人員陸續(xù)提出了確定性策略梯度(Deterministic Policy Gradient,DPG)[19]、DDPG和TD3等算法,在智能控制領(lǐng)域取得了良好的效果。DDPG算法作為連續(xù)動(dòng)作控制方面的經(jīng)典算法,被廣泛應(yīng)用于避障、路徑規(guī)劃等問題。而TD3算法是為了解決DDPG算法高估誤差問題提出的優(yōu)化算法,研究指出其性能超過DDPG算法。
因此,本文以TD3算法為基礎(chǔ),通過改進(jìn)該算法,提高四旋翼無人機(jī)的避障性能。
圖2是TD3算法的結(jié)構(gòu)框架。Actor網(wǎng)絡(luò)C?根據(jù)當(dāng)前狀態(tài)st輸出當(dāng)前動(dòng)作at,Actor目標(biāo)網(wǎng)絡(luò)C?′根據(jù)下一狀態(tài)st+1輸出目標(biāo)動(dòng)作a?t。Critic網(wǎng)絡(luò)Qθi在狀態(tài)st和動(dòng)作at情況下計(jì)算Q值Qθi( )st,at,Critic目標(biāo)網(wǎng)絡(luò)Qθ′i則計(jì)算在下一狀態(tài)st+1和目標(biāo)動(dòng)作a?t情況下的目標(biāo)Q值Qθ′i( )st+1,a?t。?和θi分別是Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)的參數(shù),?′和θ′i分別是Actor目標(biāo)網(wǎng)絡(luò)和Critic目標(biāo)網(wǎng)絡(luò)的參數(shù),i=1,2。當(dāng)Critic網(wǎng)絡(luò)更新參數(shù)時(shí),選取兩個(gè)Critic目標(biāo)網(wǎng)絡(luò)中更小的Q值作為目標(biāo)值yt,即:
其中,ε′是添加的隨機(jī)噪聲,服從截?cái)嗾龖B(tài)分布clip(N(0,σ),-c,c),c>0。Actor網(wǎng)絡(luò)和四個(gè)目標(biāo)網(wǎng)絡(luò)的參數(shù)按照式(6)更新:
其中,τ≤1。
TD3算法使用了傳統(tǒng)的經(jīng)驗(yàn)回放(Experience Replay)方法,它將探索得到的經(jīng)驗(yàn)數(shù)據(jù)存儲(chǔ)在經(jīng)驗(yàn)緩存池中,通過隨機(jī)抽取樣本的方式更新神經(jīng)網(wǎng)絡(luò)的參數(shù),打破了樣本之間的關(guān)聯(lián)關(guān)系,提高了神經(jīng)網(wǎng)絡(luò)的穩(wěn)定性[16]。但是,通過隨機(jī)采樣的方式抽取的樣本數(shù)據(jù)質(zhì)量參差不齊,可能會(huì)出現(xiàn)大量無用樣本的情況,影響訓(xùn)練效果。因此將經(jīng)驗(yàn)池一分為二為Msuccess和Mfailure,分別存儲(chǔ)成功和失敗兩種飛行經(jīng)驗(yàn)。
圖2 TD3算法結(jié)構(gòu)框架
強(qiáng)化學(xué)習(xí)具有延時(shí)性,過往的經(jīng)驗(yàn)往往會(huì)影響此刻四旋翼無人機(jī)的狀態(tài)。假定t時(shí)刻四旋翼無人機(jī)仍未撞毀,此時(shí)四旋翼無人機(jī)探索得到的飛行經(jīng)驗(yàn)為et,則可以認(rèn)定t-α?xí)r刻的飛行經(jīng)驗(yàn)et-α對(duì)四旋翼無人機(jī)的影響是積極的,是一條成功的飛行經(jīng)驗(yàn)。因此除經(jīng)驗(yàn)池Msuccess和Mfailure外,另設(shè)置臨時(shí)經(jīng)驗(yàn)池Mtemp,用于存儲(chǔ)最近的α條飛行經(jīng)驗(yàn)。該經(jīng)驗(yàn)池的大小固定為α,一旦存滿,就使用先進(jìn)先出原則將其中最早的一條飛行經(jīng)驗(yàn)取出存入經(jīng)驗(yàn)池Msuccess,然后將新的飛行經(jīng)驗(yàn)繼續(xù)存入經(jīng)驗(yàn)池Mtemp。如此反復(fù),直至四旋翼無人機(jī)完成此次飛行任務(wù)。最后根據(jù)四旋翼無人機(jī)的最終狀態(tài),將經(jīng)驗(yàn)池Mtemp中的所有飛行經(jīng)驗(yàn)存入對(duì)應(yīng)的經(jīng)驗(yàn)池Msuccess或Mfailure。
與智能小車的自主避障不同,四旋翼無人機(jī)在飛行過程中沒有固定道路,所以無法通過道路寬路與駕駛速度等因素的關(guān)系計(jì)算出經(jīng)驗(yàn)數(shù)量。因此根據(jù)實(shí)驗(yàn)過程中的碰撞經(jīng)驗(yàn),規(guī)定α∈[5,15]。實(shí)驗(yàn)中,α取值為10。
圖3 基于I-TD3算法的四旋翼無人機(jī)自主避障學(xué)習(xí)過程示意圖
st,at,rt,st+1存入臨時(shí)經(jīng)驗(yàn)池Mtemp,并根據(jù)上文提到的規(guī)則處理從臨時(shí)經(jīng)驗(yàn)池Mtemp中取出的經(jīng)驗(yàn)數(shù)據(jù)。最后從經(jīng)驗(yàn)池Msuccess和Mfailure中分別抽取若干條經(jīng)驗(yàn),訓(xùn)練神經(jīng)網(wǎng)絡(luò)。
在經(jīng)驗(yàn)池Msuccess中,希望抽取到價(jià)值更高的經(jīng)驗(yàn);而在經(jīng)驗(yàn)池Mfailure中,則無此考慮。由于對(duì)待二者的目的不同,所以分別使用優(yōu)先經(jīng)驗(yàn)回放方法和經(jīng)驗(yàn)回放方法從兩個(gè)經(jīng)驗(yàn)池中按比例采樣:
其中,nsuccess、nfailure分別是從經(jīng)驗(yàn)池Msuccess和Mfailure中采樣的數(shù)量,m是總采樣數(shù),β∈[0,1]是失敗樣本率。當(dāng)β取值為0時(shí),表示全部從成功經(jīng)驗(yàn)池Msuccess中抽取經(jīng)驗(yàn);當(dāng)β取值為1時(shí),表示全部從失敗經(jīng)驗(yàn)池Mfailure中抽取經(jīng)驗(yàn)。實(shí)驗(yàn)中,β取值為0.05。
在強(qiáng)化學(xué)習(xí)中,獎(jiǎng)勵(lì)函數(shù)指引了Agent的學(xué)習(xí)方向,發(fā)揮著至關(guān)重要的作用。本文根據(jù)實(shí)際的飛行情況,重新規(guī)劃獎(jiǎng)勵(lì)函數(shù)。
四旋翼無人機(jī)的飛行空間可以用三維坐標(biāo)系表示,規(guī)定y軸為前進(jìn)方向,因此無人機(jī)在y軸的分速度vy是實(shí)際的前進(jìn)速度。當(dāng)無人機(jī)撞毀時(shí),獎(jiǎng)勵(lì)為?2;當(dāng)無人機(jī)到達(dá)目的地時(shí),獎(jiǎng)勵(lì)為+10;當(dāng)無人機(jī)在飛行途中時(shí),則根據(jù)它的飛行表現(xiàn)給予不同的獎(jiǎng)勵(lì)。從式(8)中可以看出向前飛行和向后飛行時(shí)給予的獎(jiǎng)勵(lì)差值較大,這就避免無人機(jī)通過延長(zhǎng)飛行步數(shù)來彌補(bǔ)飛行過程中出現(xiàn)的徘徊不前,甚至后退現(xiàn)象。
I-TD3算法的偽代碼如下所示:
1.3.2 移栽密度篩選試驗(yàn) 試驗(yàn)設(shè)4個(gè)處理:2萬株 /hm2、4 萬株 /hm2、6 萬株 /hm2、8 萬株 /hm2。每個(gè)處理重復(fù)3次,小區(qū)面積為30 m2。
步驟1初始化Critic網(wǎng)絡(luò)Qθ1、Qθ2和Actor網(wǎng)絡(luò)C?的參數(shù)θ1、θ2、?。
步驟2初始化目標(biāo)網(wǎng)絡(luò)θ′1←θ1,θ′2←θ2,?′←?。
步驟3初始化成功經(jīng)驗(yàn)池Msuccess和失敗經(jīng)驗(yàn)池Mfailure,Msuccess的默認(rèn)結(jié)構(gòu)是SumTree,設(shè)置其所有葉子節(jié)點(diǎn)的優(yōu)先級(jí)pi為1。
步驟4對(duì)每個(gè)episode,循環(huán)執(zhí)行以下步驟:
(1)獲取初始狀態(tài)s0。
(2)初始化臨時(shí)經(jīng)驗(yàn)池Mtemp。
(3)若四旋翼無人機(jī)沒有結(jié)束飛行(當(dāng)四旋翼無人機(jī)撞毀或者到達(dá)目的地時(shí),結(jié)束飛行)并且飛行步數(shù)step小于最大限定步數(shù),則對(duì)它的每一步,循環(huán)執(zhí)行以下步驟:
①根據(jù)當(dāng)前狀態(tài)st,選擇動(dòng)作并加入噪聲:
②執(zhí)行動(dòng)作at,得到獎(jiǎng)勵(lì)rt和新狀態(tài)st+1。
③若臨時(shí)經(jīng)驗(yàn)池Mtemp的大小等于β,則將Mtemp中最早的一條經(jīng)驗(yàn)取出存入經(jīng)驗(yàn)池Msuccess,否則不作處理。
④將四元組(st,at,rt,st+1)存入臨時(shí)經(jīng)驗(yàn)池Mtemp。
⑤從經(jīng)驗(yàn)池Msuccess和Mfailure中采樣m個(gè)樣本(sj,aj,rj,sj+1),j=1,2,…,m。其中從經(jīng)驗(yàn)池Mfailure中隨機(jī)抽取βm個(gè)樣本,從經(jīng)驗(yàn)池Msuccess中抽取(1-β)m個(gè)樣本,經(jīng)驗(yàn)池Msuccess中每個(gè)樣本被采樣的概率為:
⑥通過Critic目標(biāo)網(wǎng)絡(luò)計(jì)算動(dòng)作的期望回報(bào):
⑦更新Critic網(wǎng)絡(luò)參數(shù):
⑧重新計(jì)算從經(jīng)驗(yàn)池Msuccess中抽取的樣本的TD誤差δj,更新SumTree中對(duì)應(yīng)節(jié)點(diǎn)的優(yōu)先級(jí)。
⑨每隔d步,通過確定性策略梯度更新Actor網(wǎng)絡(luò)參數(shù)?:
更新目標(biāo)網(wǎng)絡(luò)參數(shù):
(4)結(jié)束step循環(huán)。
(5)若四旋翼無人機(jī)到達(dá)目的地,則將臨時(shí)經(jīng)驗(yàn)池Mtemp中的所有經(jīng)驗(yàn)存入經(jīng)驗(yàn)池Msuccess,否則將之存入經(jīng)驗(yàn)池Mfailure。
步驟5結(jié)束episode循環(huán)。
實(shí)驗(yàn)環(huán)境為Windows10.1+tensorflow1.13.1+cuda10.0。硬件為英特爾至強(qiáng)E5-2673v3+GeForce RTX 2080TI+32 GB內(nèi)存。仿真平臺(tái)為AirSim仿真平臺(tái),地圖是自定義的狹窄多障礙通道。利用I-TD3算法、TD3算法、DDPG算法分別訓(xùn)練2 000回合,分析算法避障策略的有效性,以及避障成功率、避障效果與訓(xùn)練回合數(shù)的關(guān)系。
AirSim是一款開源模擬器,它能夠利用AI技術(shù)模擬無人機(jī)和無人車,幫助研究人員構(gòu)建安全的自動(dòng)駕駛系統(tǒng)。
為了增加避障難度,地圖使用自定義的狹窄多障礙通道,如圖4所示。四旋翼無人機(jī)須從起點(diǎn)(紅色圓點(diǎn))處開始無碰撞地依次穿過通道內(nèi)的所有障礙物,飛出通道,即為成功完成此次任務(wù)。
圖4 自定義地圖
圖5顯示了四旋翼無人機(jī)所有成功飛行記錄的飛行步數(shù)。由圖可知,I-TD3算法在260回合左右第一次出現(xiàn)成功記錄,TD3算法和DDPG算法分別在1 100回合和1 150回合左右第一次出現(xiàn)成功記錄,說明TD3算法和DDPG算法相對(duì)I-TD3算法而言,需要更長(zhǎng)時(shí)間的探索嘗試。同時(shí),在I-TD3算法下飛行步數(shù)由最初的100步左右到穩(wěn)定在60步左右。在TD3算法下飛行步數(shù)由最初的150步左右到80步上下波動(dòng)。在DDPG算法下飛行步數(shù)由210步左右到80步左右,且前后波動(dòng)比較大。明顯看出,I-TD3算法相對(duì)于TD3算法和DDPG算法耗費(fèi)更少的步數(shù),其避障策略更有效。
圖5 成功飛行記錄的飛行步數(shù)
圖6 避障成功率
圖6顯示了四旋翼無人機(jī)在各個(gè)算法下每50回合的避障成功率。由圖可知,隨著訓(xùn)練的進(jìn)行,I-TD3算法的成功率在1 300回合左右大幅穩(wěn)定提升,TD3算法的成功率在1 600回合左右大幅穩(wěn)定提升,DDPG算法的成功率在1 600回合左右大幅提升,但前后波動(dòng)大。在同等訓(xùn)練次數(shù)下,I-TD3算法比TD3算法、DDPG算法有著更高更穩(wěn)定的成功率。
圖7 平均直線飛行距離
圖7顯示了四旋翼無人機(jī)每10回合的平均直線飛行距離。由圖可知,在I-TD3算法下四旋翼無人機(jī)的平均直線飛行距離總體上大于在TD3算法和DDPG算法下的平均直線飛行距離。在1 400回合至2 000回合之間,I-TD3算法下四旋翼無人機(jī)始終保持較高的平均直線飛行距離,結(jié)合圖7分析可知,在此期間,I-TD3算法下四旋翼無人機(jī)避障失敗時(shí),大多在接近目標(biāo)點(diǎn)處撞毀,避障表現(xiàn)較好,避障效果相比TD3算法、DDPG算法均有很大提升。
本文提出了一種基于雙延遲深度確定性策略梯度的改進(jìn)算法I-TD3。該算法通過分離成功和失敗兩種飛行經(jīng)驗(yàn)設(shè)置兩個(gè)經(jīng)驗(yàn)緩存池,根據(jù)兩個(gè)經(jīng)驗(yàn)緩存池的不同使用目的分別結(jié)合優(yōu)先經(jīng)驗(yàn)回放方法和經(jīng)驗(yàn)回放方法,提高了采樣效率和訓(xùn)練效率,并通過改進(jìn)獎(jiǎng)勵(lì)函數(shù),改善了訓(xùn)練效果。在AirSim平臺(tái)上的仿真結(jié)果表明,本文提出的改進(jìn)算法能提升四旋翼無人機(jī)的避障效果。但是該算法并未考慮存在動(dòng)態(tài)障礙物的情況,如何在動(dòng)態(tài)障礙物和靜態(tài)障礙物共同存在的情況下自主避障飛行,是下一步研究的方向。