(廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,廣州 510006)
移動機(jī)器人的研究起源月上世紀(jì)60年代末,最初是用來在惡劣、危險的條件下或者復(fù)雜環(huán)境中來代替人類完成工作。移動機(jī)器人技術(shù)處于當(dāng)前科技研究的前沿,代表著當(dāng)代高新技術(shù)的發(fā)展方向,是各國競相研究發(fā)展的重點(diǎn),是當(dāng)前科學(xué)研究的熱點(diǎn)之一。隨著計(jì)算機(jī)技術(shù)、傳感技術(shù)、網(wǎng)絡(luò)技術(shù)和通信技術(shù)的飛速發(fā)展,移動機(jī)器人技術(shù)也得到了更加深入的而廣泛的研究。
現(xiàn)在移動機(jī)器人的研究重點(diǎn)逐漸向智能化發(fā)展,如何讓機(jī)器人體現(xiàn)人工智能是目前移動機(jī)器人的研究難點(diǎn)[1-2]。移動機(jī)器人的智能化即是實(shí)現(xiàn)其高度的自主性,能夠使機(jī)器人在沒有人的引導(dǎo)下,無需對環(huán)境進(jìn)行特殊的限制和改變的情況下,能夠有目的地、準(zhǔn)確的完成任務(wù),這需要機(jī)器人具備環(huán)境感知、行為決策、動作控制等能力。在移動機(jī)器人的智能化的研究中,導(dǎo)航技術(shù)的保障是其研究的核心,也是其實(shí)現(xiàn)智能化以及完全自主的關(guān)鍵技術(shù)和前提。
移動機(jī)器人的導(dǎo)航是指“基于移動機(jī)器人自身攜帶的傳感器感知的周圍的環(huán)境信息以及移動機(jī)器人的自身狀態(tài)信息,在包含有限數(shù)量障礙物的環(huán)境中,安全地實(shí)現(xiàn)移動機(jī)器人面向目標(biāo)的運(yùn)動”。隨著現(xiàn)在機(jī)器人應(yīng)用越來越廣泛,應(yīng)用領(lǐng)域不斷拓展,機(jī)器人需要完成的任務(wù)也越來越復(fù)雜,現(xiàn)階段的大部分機(jī)器人在確定的、靜態(tài)的、單一環(huán)境中執(zhí)行導(dǎo)航任務(wù),可以通過技術(shù)人員對機(jī)器人固定的導(dǎo)航任務(wù)人為的預(yù)先編程來實(shí)現(xiàn),但這樣的機(jī)器人往往不具備應(yīng)變突發(fā)事件的能力。對于場景的動態(tài)變化、機(jī)器人的“綁架”等問題,設(shè)計(jì)人員難以對機(jī)器人遇到的問題作出合理的預(yù)測以及預(yù)設(shè)相應(yīng)決策,都不能得到有效的解決。
不論是傳統(tǒng)的機(jī)器人導(dǎo)航控制方法還是針對特定任務(wù)的預(yù)處理,要解決機(jī)器人應(yīng)對突發(fā)事件的處理必須具備比較強(qiáng)的對周圍環(huán)境信息感知和分析能力以及之后的動作執(zhí)行能力。由此,基于強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)的機(jī)器人導(dǎo)航成為國內(nèi)外學(xué)者對于該領(lǐng)域的研究熱點(diǎn)?;趶?qiáng)化學(xué)習(xí)的導(dǎo)航優(yōu)勢在于:模型簡單、算法編程簡易、魯棒性強(qiáng)。但是傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法由于環(huán)境的多樣性和復(fù)雜性,存在學(xué)習(xí)時間長、收斂速度慢、機(jī)器人狀態(tài)信息提取困難等問題。近年來深度學(xué)習(xí)的研究進(jìn)展能夠有效的彌補(bǔ)強(qiáng)化學(xué)習(xí)的劣勢,谷歌的人工智能研究團(tuán)隊(duì)DeepMind創(chuàng)新地將具有感知能力的深度學(xué)習(xí)(Deep Learning,DL)相結(jié)合,開創(chuàng)了一個新的研究熱點(diǎn),即深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)[3],因此本文使用基于DRL的研究策略實(shí)現(xiàn)機(jī)器人在復(fù)雜環(huán)境下的導(dǎo)航?;贒RL的導(dǎo)航策略研究采用端對端的學(xué)習(xí)方式,利用經(jīng)驗(yàn)回放機(jī)制,將包含機(jī)器人感知到的周圍環(huán)境信息、當(dāng)前所處的狀態(tài)以及動作產(chǎn)生反饋的圖像信息存儲到經(jīng)驗(yàn)回放池中,再定期每一個時間步從經(jīng)驗(yàn)回放池隨機(jī)提取一組參數(shù)作為輸入傳遞到卷積神經(jīng)網(wǎng)絡(luò)中來不斷的迭代更新網(wǎng)絡(luò)參數(shù),最終求取網(wǎng)絡(luò)參數(shù)的最大值,即為一次導(dǎo)航的最優(yōu)策略。
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN[4])從本質(zhì)上來說是一個前向的反饋神經(jīng)網(wǎng)絡(luò),來源于生物視覺神經(jīng)結(jié)構(gòu)啟發(fā),是以最簡化預(yù)操作為目的的多層感知器的變形。CNN提供了一種端對端的學(xué)習(xí)模型,通過把圖像作為參數(shù)輸入到模型中,使用傳統(tǒng)的梯度下降的方法對其進(jìn)行訓(xùn)練,經(jīng)過訓(xùn)練后的CNN網(wǎng)絡(luò)能夠?qū)W習(xí)圖像中的特征,最終完成對圖像特征的提取,所提取到的特征具有平移,旋轉(zhuǎn)不變性[5]等特性。近年來,CNN被很好的應(yīng)用在了強(qiáng)化學(xué)習(xí)的任務(wù)上,如Atari游戲,機(jī)器操縱和模仿學(xué)習(xí)等方面。
卷積神經(jīng)網(wǎng)絡(luò)主要包括4個方面的技術(shù):1)局部感知域,當(dāng)需要訓(xùn)練的參數(shù)過多時,全連接網(wǎng)絡(luò)訓(xùn)練難度極大,極難收斂。因此CNN與人類視覺類似采用局部感知信息,低層次神經(jīng)元感知局部信息,高層次神經(jīng)元整合低層次神經(jīng)元感知的局部信息得到全局信息,由此大大降低了訓(xùn)練參數(shù)的量級;2)參數(shù)共享,利用對圖像順序的進(jìn)行卷積的方式提取圖像的某種特征,將多個具有相同統(tǒng)計(jì)特征的參數(shù)統(tǒng)一,進(jìn)而進(jìn)一步降低訓(xùn)練參數(shù)的量級;3)多卷積核,對圖像進(jìn)行的一個卷積便是一種提取方式,通常在對一幅圖像來說,單個卷積核提取的特征是遠(yuǎn)遠(yuǎn)不夠的,因此使用多重卷積核才能提取多種不同的特征;4)池化,解決使用特征圖訓(xùn)練分類器時可能產(chǎn)生的特征維度過多計(jì)算復(fù)雜、過擬合等問題。近年來卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)成功應(yīng)用于人臉識別、字符識別、行為檢測和目標(biāo)檢測等方面。
強(qiáng)化學(xué)習(xí)[6]的基本原理是利用自身與周圍環(huán)境的即時交互產(chǎn)生的反饋信號來對所采取的行動進(jìn)行評價,如果反饋信號越強(qiáng),代表環(huán)境對這個動作的正獎勵,則這個動作的趨勢便加強(qiáng);反之,這個動作的產(chǎn)生趨勢就減弱。強(qiáng)化學(xué)習(xí)的本質(zhì)上就是個不斷試錯來逐步改進(jìn)策略的過程,目的就是學(xué)習(xí)一個行為策略來獲得環(huán)境最大的獎勵。
強(qiáng)化學(xué)習(xí)的基本模型如圖1所示,智能體agent采取一個動作a作用到環(huán)境中,環(huán)境接收到這個動作后,產(chǎn)生一個獎勵r反饋給agent,agent再根據(jù)反饋回來的獎勵r和當(dāng)前的環(huán)境狀態(tài)信息e來選擇下一個動作,如此循環(huán)往復(fù),不斷改進(jìn)策略。
圖1 強(qiáng)化學(xué)習(xí)基本模型
1.2.1 馬爾科夫模型與貝爾曼方程
強(qiáng)化學(xué)習(xí)的目的可以轉(zhuǎn)化為求解馬爾科夫決策過程(markov decision process,MDP)的最優(yōu)策略,MDP的本質(zhì)是:下一狀態(tài)的概率和獎勵值由且僅由當(dāng)前狀態(tài)和動作決定,與其他任何歷史狀態(tài)和歷史動作無關(guān)。
(1)
用價值函數(shù)v表示MDP求解的值,價值函數(shù)模型如式(2)、(3)所示:
(2)
vπ(s)=Eπ[r0+γr1+γ2r2+γ3r3+…|s0=s]=
Eπ[r0+γE[γr1+γ2r2+γ3r3+…]|s0=s]=
Eπ[r(s′|s,a)+γVπ(s′)|s0=s]
(3)
其中:γ表示折扣系數(shù),代表后續(xù)動作對當(dāng)前值的影響程度。其取值范圍是[0,1],0表示只考慮當(dāng)前動作,不考慮后續(xù)動作的影響,而1表示當(dāng)前動作和后續(xù)每步動作都有均等的影響。通常為了避免使問題陷入局部最優(yōu),隨著步數(shù)的增加,折扣系數(shù)應(yīng)當(dāng)減小,影響變小。使用貝爾曼方程來求解價值函數(shù)。求解過程如式(4)、(5)所示:
Eπ[r(s′|s,a)+γVπ(s′)|s0=s]
(4)
Eπ[r(s′|s,a)+γVπ(s′)|s0=s,a0=a]
(5)
在式(4)中,π表示當(dāng)前的策略,Qπ(s,a)是針對實(shí)際問題在vπ(s)基礎(chǔ)上引入的動作值a,Qπ(s,a)表示動作值函數(shù),式(5)表示動作值函數(shù)模型。對貝爾曼方程求解最優(yōu)解得到貝爾曼最優(yōu)方程(6)、(7)為:
(6)
(7)
求解上述貝爾曼最優(yōu)方程(6)、(7)有兩種方法:策略迭代和價值迭代。
1.2.2 策略迭代
策略迭代共有兩個步驟:策略評估和策略改進(jìn),首先對已有的策略進(jìn)行評估,獲得狀態(tài)值函數(shù),然后根據(jù)評估結(jié)果,如果新策略更好則取代之前策略,否則,保持原有策略。具體算法流程如下所示:
1)策略評估
Inputπ(輸入策略π)
Initialize an arrayv(s)=0,for all s∈δ+
Repeat
Δ←0
For eachS∈δ:
temp←v(s)
v(s)←∑aπ(a|s)∑s′p(s′|s,a)[r(s,a,s′)+γv(s′)]Δ←max(Δ,|temp-v(s)|)
UntilΔ<θ(a smalll positive number)
Outputv≈vπ
2)策略迭代
policy-stable←true
For eachs∈δ:
temp←π(s)
π(s)←argmaxa∑s′p(s′|s,a)[r(s,a,s′)+γv(s′)]
Iftemp≠π(s),then policy-stable←false
If policy-stable,then stop and returnvandπ
Else go to evalue policy
1.2.3 值迭代
值迭代使用貝爾曼最優(yōu)方程來更新value,經(jīng)過反復(fù)迭代使得最終的value收斂于Vπ,即在當(dāng)前狀態(tài)下最優(yōu)值為value時,該最優(yōu)值value對應(yīng)的策略即為最優(yōu)策略。其算法流程如下:
Initialize arrayvarbitrarily(e.g.,v(s)=0for all
s∈δ′)
Repeat
Δ←0
For eachs∈δ
temp←v(s)
v(s)←maxa∑s′p(s′|s,a)[r(s,a,s′)+γv(s′)]
Δ←max(Δ,|temp-v(s)|)
UntilΔ<θ(a small positive number)
Output a determinisitc policyπ,such like
π(s)=argmaxa∑s′p(s′|s,a)[r(s,a,s′)+γv(s′)]
在高級人工智能領(lǐng)域,智能體感知和決策能力是衡量智能體智能化的關(guān)鍵性指標(biāo)。強(qiáng)化學(xué)習(xí)雖然具有優(yōu)秀的決策能力,但是其應(yīng)用大部分均依賴于人工提取特征,難以處理高維度狀態(tài)空間下的問題。而深度學(xué)習(xí)具有優(yōu)秀的感知能力,能夠從高維原始數(shù)據(jù)提取特征。這兩者優(yōu)勢互補(bǔ)、結(jié)合成深度強(qiáng)化學(xué)習(xí)。目前DRL技術(shù)在游戲[7-8],機(jī)器人控制[9-10],參數(shù)優(yōu)化[11]和機(jī)器視覺[12]等領(lǐng)域均有廣泛的應(yīng)用。
1.3.1 基于值函數(shù)
基于值函數(shù)的深度強(qiáng)化學(xué)習(xí)最典型的的代表就是Mnih[7]等人將CNN與Q學(xué)習(xí)算法[14-15]結(jié)合提出的深度Q網(wǎng)絡(luò)(Deep Q-network,DQN)模型。其基本原理就是將Q學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)化,利用深度卷積神經(jīng)網(wǎng)絡(luò)不斷迭代更新值函數(shù)的優(yōu)化目標(biāo),即目標(biāo)Q值,從而得到最優(yōu)的學(xué)習(xí)策略。
1.3.2 基于策略梯度
基于值函數(shù)的深度強(qiáng)化學(xué)習(xí)主要用于解決在離散動作空間下的任務(wù),對于連續(xù)動作空間的任務(wù)采用基于策略梯度的深度強(qiáng)化學(xué)習(xí)算法可以或得更好的決策效果。策略梯度通過不斷計(jì)算策略的總獎勵期望值關(guān)于策略參數(shù)的梯度來更新參數(shù),得到最優(yōu)策略[13]。其優(yōu)勢在于:直接優(yōu)化策略的總獎勵期望,以端對端的方式直接在策略空間里搜索最優(yōu)策略,比基于DQN的模型適用范圍更廣泛,優(yōu)化效果也更好。
本文將DQN網(wǎng)絡(luò)、經(jīng)驗(yàn)回放機(jī)制、搜索與利用平衡策略[16]以及隨機(jī)梯度下降法等方法結(jié)合應(yīng)用到機(jī)器人導(dǎo)航研究中,提出一種基于深度強(qiáng)化學(xué)習(xí)的移動機(jī)器人導(dǎo)航策略的研究方法。通過OpenCV仿真平臺的檢驗(yàn),驗(yàn)證本文提出的算法能夠高效準(zhǔn)確的完成導(dǎo)航任務(wù)。
OpenCV仿真平臺生成的地圖原始圖像是RGB圖像,有3個通道。直接將其輸入網(wǎng)絡(luò)計(jì)算量較大。因此本文采用了基本的圖像預(yù)處理來降低輸入維度,通過將圖像等比例縮放至大小為80×80,然后利用二值法將其轉(zhuǎn)換為只有兩個通道的灰度圖像,這樣可以降低輸入?yún)?shù)一個維度和數(shù)據(jù)量,有利于之后網(wǎng)絡(luò)的特征提取和處理。
本文采用的網(wǎng)絡(luò)模型是2015年,由DeepMind提出的深度Q網(wǎng)絡(luò)(deep Q network,DQN)[3],DQN的輸入是經(jīng)過預(yù)處理后當(dāng)前時刻連續(xù)的4幅圖像。經(jīng)過3個卷積層和兩個全連接層的處理后,最終輸出動作的Q值。圖2表示DQN的模型結(jié)構(gòu)。
圖2 DQN網(wǎng)絡(luò)模型結(jié)構(gòu)
圖3描述了本文采用的DQN網(wǎng)絡(luò)模型對圖像進(jìn)行處理的具體過程。
圖3 圖像處理過程
1)將經(jīng)過預(yù)處理后的連續(xù)四幅圖像80×80×4(4表示4個通道,四張圖即是4個通道)經(jīng)過卷積核為8×8×4×32,步長為4的卷積,得到32張大小為20×20的特征圖,即20×20×32。將其進(jìn)行池化核為2×2的池化得到10×10的圖像,即此時為10×10×32;
2)將上一步所得圖像進(jìn)行卷積核為4×4×32×64,步長為2的卷積得到64張5×5的圖像,即5×5×64;
3)再進(jìn)行一次卷積核為3×3×64×64,步長為1的卷積,此時依舊得到5×5×64的圖像,但此時經(jīng)過了再一輪卷積的圖像,其圖像信息更加抽象,更具全局性;
4)對第二次卷積后5×5×64的圖像進(jìn)行1 600×512的全連接,得到一個512維的特征向量,即512×1;
5)再次進(jìn)行全連接,最終輸出二位向量[0,1]和[1,0],表示仿真實(shí)驗(yàn)中的正反饋和負(fù)反饋。
DQN算法是在傳統(tǒng)q學(xué)習(xí)算法的基礎(chǔ)上將其神經(jīng)網(wǎng)絡(luò)化實(shí)現(xiàn)的。傳統(tǒng)q學(xué)習(xí)是最早的在線學(xué)習(xí)算法,是基于值迭代的具有代表性的強(qiáng)化學(xué)習(xí)算法。圖4描述了DQN算法的訓(xùn)練流程。
圖4 DQN訓(xùn)練流程圖
具體算法流程為:
1)初始化樣本池D,容量為N;
2)將卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行隨機(jī)權(quán)重初始化,得到初始Q函數(shù);
3)進(jìn)入循環(huán)A,i=1,…,M;
4)選擇初始狀態(tài),對仿真環(huán)境圖像進(jìn)行預(yù)處理;
5)進(jìn)入循環(huán)B,t=1,…,T;
6)采用隨機(jī)策略ε選擇一個動作at;
7)執(zhí)行動作at,得到獎勵rt和下一時刻仿真環(huán)境圖像xt+1;
8)令St+1=St,at,xt+1,對狀態(tài)進(jìn)行預(yù)處理φt+1=φ(st+1);
9)將(φt,at,rt,φt+1)存儲到樣本池D中;
10)從樣本池D中隨機(jī)采集m個訓(xùn)練樣本(φj,aj,rj,φj+1);
11)令樣本標(biāo)簽值為:
12)用梯度下降法更新網(wǎng)絡(luò)參數(shù),計(jì)算損失函數(shù);
13)退出循環(huán)B;
14)退出循環(huán)A。
DQN算法在傳統(tǒng)的Q學(xué)習(xí)算法上進(jìn)行了改進(jìn),采用經(jīng)驗(yàn)回放機(jī)制和固定目標(biāo)網(wǎng)絡(luò)兩個關(guān)鍵技術(shù)來提升算法的穩(wěn)定性。
經(jīng)驗(yàn)回放機(jī)制:經(jīng)驗(yàn)回放最初是由Linux在其博士論文中提出[17],其原理是將訓(xùn)練過程中的樣本依次存儲在樣本池中,訓(xùn)練時再從中隨機(jī)抽取一定量的樣本,使用隨機(jī)梯度下降法(SGD)更新網(wǎng)絡(luò)參數(shù)。經(jīng)驗(yàn)回放機(jī)制的使用,對歷史數(shù)據(jù)也能進(jìn)行重復(fù)采樣,提高了數(shù)據(jù)的使用效率,同時也打破了樣本間的關(guān)聯(lián),使樣本間相互獨(dú)立,提升的算法的穩(wěn)定性。
固定目標(biāo)網(wǎng)絡(luò):將q網(wǎng)絡(luò)迭代優(yōu)化的目標(biāo)Q值采用時序差分法由另一個單獨(dú)的較慢的目標(biāo)網(wǎng)絡(luò)產(chǎn)生,這樣提高了算法的收斂性。
DQN算法的主要特點(diǎn)有3個:
1)是一種端到端的訓(xùn)練方法,以原始圖像和獎勵函數(shù)作為的輸入和每個動作和對應(yīng)Q值的輸出相映射;
2)使用經(jīng)驗(yàn)回放機(jī)制和固定目標(biāo)網(wǎng)絡(luò)提升整個訓(xùn)練過程的穩(wěn)定性和收斂性;
3)可以再不同的仿真平臺中采用大致相同的網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練算法,僅需根據(jù)訓(xùn)練情況調(diào)整相應(yīng)的獎勵函數(shù)。
在2.3節(jié)中的DQN算法中步驟(6)使用了一個策略來生成移動機(jī)器人的下一步動作,這個策略并不是求解優(yōu)化過程得到的策略,是單獨(dú)用來生成機(jī)器人動作的策略。因此,本文所用的Q-learning算法屬于off-policy,整個DQN的算法流程也是無模型的,只考慮當(dāng)前的環(huán)境信息和獎勵函數(shù)reward的反饋,即model-free的方法。一般來說,使用策略生成機(jī)器人動作主要有兩種策略:
1)greedy policy,即貪心策略,讓機(jī)器人盡可能朝獎勵函數(shù)大的方向行進(jìn),當(dāng)機(jī)器人執(zhí)行一個動作如果得到的獎勵是正的,積極的則下一次繼續(xù)朝該方向行進(jìn),反之,則朝其他方向前進(jìn)。
2)randomized policy,即隨機(jī)策略,不考慮機(jī)器人執(zhí)行動作后得到的反饋,每次都均等的隨機(jī)選取一個動作執(zhí)行。
考慮到greedy policy容易導(dǎo)致過擬合的現(xiàn)象,使得機(jī)器人導(dǎo)航的策略陷入局部最優(yōu),只能執(zhí)行單一或少數(shù)情況下的導(dǎo)航,不具備良好的泛化能力。因此,本文采用randomized policy來隨機(jī)生成機(jī)器人的動作,相應(yīng)的也增加了一定的訓(xùn)練時間來保證良好實(shí)驗(yàn)的效果。
本文仿真實(shí)驗(yàn)使用的平臺如表1所示。
表1 仿真使用平臺
使用OpenCV構(gòu)建的移動機(jī)器人仿真實(shí)驗(yàn)環(huán)境如圖5所示,仿真環(huán)境是由一個800*800像素大小的圖像構(gòu)成,其中黑色邊框代表圍墻,黑色矩形代表障礙物,圓點(diǎn)表示出發(fā)點(diǎn),方塊表示導(dǎo)航的目的地,起點(diǎn)和終點(diǎn)均是隨機(jī)出現(xiàn)在地圖中非障礙物的地方。
圖5 移動機(jī)器人仿真環(huán)境
3.2.1 初始地圖下的導(dǎo)航
圖6(a)和圖6(b)分別展示地圖環(huán)境未發(fā)生變化時,兩次機(jī)器人從隨機(jī)起點(diǎn)到隨機(jī)終點(diǎn)的順利導(dǎo)航。如圖中所示,機(jī)器人有上下左右4個方向維度的動作,每次5個像素點(diǎn)移動一次。
圖6 初始地圖下的導(dǎo)航
3.2.2 增量環(huán)境下的導(dǎo)航
圖7(a)和圖7(b)展示了增量環(huán)境下,即地圖中障礙物增加的情況下,移動機(jī)器人也能夠順利完成導(dǎo)航任務(wù),并且在此情況下,依舊采用的是之前訓(xùn)練好的模型,相同的網(wǎng)絡(luò)結(jié)構(gòu),相同的參數(shù)。
圖7 增量環(huán)境下的導(dǎo)航
本文針對復(fù)雜動態(tài)變化的室內(nèi)環(huán)境下采用了區(qū)別于以往A*算法等的只能解決固定兩點(diǎn)位置間的路徑規(guī)劃的算法,使用當(dāng)下人工智能最新的研究領(lǐng)域深度強(qiáng)化學(xué)習(xí),將其運(yùn)用在機(jī)器人導(dǎo)航策略的研究上,有效的解決了在室內(nèi)環(huán)境中,場景的發(fā)生改變的情況下也能完成移動機(jī)器人從任意一個位置到任意另一個位置的導(dǎo)航。不過該研究方法也有一些難點(diǎn):
1)樣本利用率低,需要大量實(shí)驗(yàn)迭代次數(shù)才能達(dá)到較好的結(jié)果,因此導(dǎo)致訓(xùn)練所需時間較長;
2)獎勵函數(shù)較難設(shè)置,需要根據(jù)使用的實(shí)際平臺訓(xùn)練時的實(shí)驗(yàn)結(jié)果進(jìn)行細(xì)微調(diào)整;
3)過擬合嚴(yán)重,場景發(fā)生較大改變時實(shí)驗(yàn)結(jié)果不太理想,需要重新訓(xùn)練;
4)導(dǎo)航成功率需待提高,當(dāng)環(huán)境信息較為復(fù)雜是,移動機(jī)器人的導(dǎo)航難以保持比較高的準(zhǔn)確性。
雖然深度強(qiáng)化學(xué)習(xí)應(yīng)用于機(jī)器人導(dǎo)航策略研究有以上難點(diǎn),但是隨著硬件性能的逐步提升大量的實(shí)驗(yàn)訓(xùn)練次數(shù)的需求將不是問題,樣本利用率低的問題也能得到有效的解決,此外越來越多的學(xué)者對于獎勵函數(shù)的設(shè)置和更優(yōu)的訓(xùn)練模型展開了研究,因此利用深度強(qiáng)化學(xué)習(xí)進(jìn)行機(jī)器人導(dǎo)航策略的研究一定會是今后一個研究的熱點(diǎn),能成為滿足人們對移動機(jī)器人智能化的要求的有利手段。