摘? 要:智能農(nóng)業(yè)機(jī)器人如何實(shí)現(xiàn)準(zhǔn)確移動(dòng)仍是開(kāi)發(fā)者們面臨的一個(gè)挑戰(zhàn)。傳統(tǒng)的導(dǎo)航主要是通過(guò)全球定位系統(tǒng)(Global Position System, GPS)的定位來(lái)完成導(dǎo)航任務(wù),弊端是其定位精度易受GPS信號(hào)強(qiáng)弱的影響。為此,文章提出采用深度強(qiáng)化學(xué)習(xí)算法SAC(Soft Actor-Critic)來(lái)解決果園場(chǎng)景下的導(dǎo)航問(wèn)題,通過(guò)有序隨機(jī)的課程學(xué)習(xí)訓(xùn)練方式引導(dǎo)智能體訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,該方法能夠在不使用GPS的情況下很好地完成果園場(chǎng)景下的定點(diǎn)導(dǎo)航任務(wù)。
關(guān)鍵詞:果園;巡檢機(jī)器人;深度強(qiáng)化學(xué)習(xí);導(dǎo)航;課程學(xué)習(xí)
中圖分類號(hào):TP242? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):2096-4706(2021)19-0154-04
Research on Navigation of Orchard Inspection Robot Based on Deep
Reinforcement Learning
HU Gaoming
(School of Information Engineering, Dalian Ocean University, Dalian? 116023, China)
Abstract: How to realize the accurate movement of intelligent agricultural robot is still a challenge for developers. The traditional navigation mainly completes the navigation task through the positioning of Global Positioning System. The disadvantage is that its positioning accuracy is easily affected by the strength of GPS signal. Therefore, this paper uses deep reinforcement learning algorithm SAC (Soft Actor-Critic) to solve the navigation problem in orchard scene, and guide agent training through orderly and random course learning and training. Experimental results show that this method can well complete the fixed-point navigation task in orchard scene without using GPS.
Keywords: orchard; inspection robot; deep reinforcement learning; navigation; course learning
0? 引? 言
對(duì)智能農(nóng)業(yè)裝備的研究改進(jìn)是推動(dòng)智慧農(nóng)業(yè)發(fā)展的重要內(nèi)容,其中智能農(nóng)業(yè)機(jī)器人導(dǎo)航技術(shù)已被廣泛應(yīng)用于各種作業(yè)情景,例如果園除草、果園巡檢、作物施肥等作業(yè)環(huán)節(jié)的應(yīng)用,該技術(shù)的引入不僅能為智能農(nóng)業(yè)裝備提供精準(zhǔn)的導(dǎo)航,還有助于節(jié)省人力物力以及避免遺漏作業(yè)區(qū)域,提高作業(yè)效率和作業(yè)質(zhì)量[1-3]。
然而,智能農(nóng)業(yè)機(jī)器人如何實(shí)現(xiàn)準(zhǔn)確移動(dòng)仍是一個(gè)不小的挑戰(zhàn)。果園占地面積大,其環(huán)境通常是非結(jié)構(gòu)化的,在這種情況下尋求一條高覆蓋率的安全作業(yè)路徑并非易事,正是當(dāng)下的重點(diǎn)研究?jī)?nèi)容。近年來(lái),眾多學(xué)者在果園巡檢、小麥?zhǔn)崭顧C(jī)等自主導(dǎo)航系統(tǒng)的研發(fā)上取得了一定成果。夏友祥等人[4,5]提出基于GNSS全局路徑規(guī)劃方法優(yōu)化導(dǎo)航路徑,減少重復(fù)作業(yè)和地頭轉(zhuǎn)彎路徑,提高作業(yè)效率。然而基于全局路徑規(guī)劃的方法需要事先熟知環(huán)境信息,有賴于先驗(yàn)知識(shí)。同時(shí)GPS的應(yīng)用易受衛(wèi)星信號(hào)強(qiáng)弱的影響,精確GPS(厘米級(jí)精度)的成本很高昂,而便宜的GPS通常有幾十乃至幾百厘米的誤差,不適用于車道較窄果園中的機(jī)器人導(dǎo)航。此外,機(jī)器視覺(jué)因其具備采集信息豐富、成本低廉等優(yōu)勢(shì)也被廣泛應(yīng)用。張?zhí)鸬萚6-11]基于機(jī)器視覺(jué)對(duì)作物收割、除草等作業(yè)場(chǎng)景進(jìn)行了導(dǎo)航路徑檢測(cè)研究。但目前基于機(jī)器視覺(jué)的導(dǎo)航方式受作業(yè)環(huán)境、光照條件的影響比較大,存在田間適應(yīng)性差、實(shí)時(shí)性差等問(wèn)題。而激光雷達(dá)能以較高頻率提供準(zhǔn)確的環(huán)境距離信息以及環(huán)境物體的方位信息等。
近些年,以端到端的方式完成感知決策的深度強(qiáng)化學(xué)習(xí)算法取得了令人矚目的成績(jī),而其在果園導(dǎo)航上的應(yīng)用卻很少。為此,本文以激光雷達(dá)作為環(huán)境感知器,提出一種基于深度強(qiáng)化學(xué)習(xí)算法(Soft Actor-Critic, SAC)[12]的導(dǎo)航方法,方法是直接以觀測(cè)數(shù)據(jù)作為狀態(tài)輸入,并引入目標(biāo)相關(guān)信息來(lái)完成機(jī)器人導(dǎo)航[13]。此外,鑒于果園這一場(chǎng)景的范圍較大,深度強(qiáng)化學(xué)習(xí)算法通過(guò)與環(huán)境交互習(xí)得樣本,根據(jù)隨機(jī)采樣學(xué)習(xí)有效策略,在學(xué)習(xí)過(guò)程會(huì)存在獎(jiǎng)勵(lì)稀疏的情況,在果園的大場(chǎng)景下這種情況會(huì)更為突出。為此基于課程學(xué)習(xí)思想,設(shè)計(jì)了一種有序隨機(jī)引導(dǎo)的學(xué)習(xí)訓(xùn)練策略。有序能夠保證任務(wù)的難度是逐級(jí)遞增的,而隨機(jī)采樣則保證任務(wù)樣本的豐富性??紤]到真實(shí)環(huán)境下的成本問(wèn)題,試驗(yàn)和評(píng)估均在仿真環(huán)境中進(jìn)行。實(shí)驗(yàn)結(jié)果表明,以有序隨機(jī)訓(xùn)練的深度強(qiáng)化學(xué)習(xí)模型能夠完成對(duì)果園類似結(jié)構(gòu)的導(dǎo)航任務(wù),具備一定的導(dǎo)航能力。
1? 深度強(qiáng)化學(xué)習(xí)算法
SAC的核心思想是使用能夠?qū)W習(xí)連續(xù)動(dòng)作空間策略的近似函數(shù),解決連續(xù)動(dòng)作空間的強(qiáng)化學(xué)習(xí)問(wèn)題,該方法稱為隨機(jī)參與者批評(píng)家。因此,一個(gè)大的連續(xù)域需要導(dǎo)出一個(gè)軟策略迭代的實(shí)用近似值,如式(1)所示。
(1)
軟策略迭代是一種學(xué)習(xí)最優(yōu)最大熵策略,并在策略評(píng)估和策略改進(jìn)之間交替的算法。在策略評(píng)估階段,它試圖根據(jù)最大熵找到當(dāng)前策略的準(zhǔn)確值函數(shù);在策略改進(jìn)階段,它將當(dāng)前Q函數(shù)的策略分布更新為指數(shù)分布。SAC算法將神經(jīng)網(wǎng)絡(luò)作為函數(shù),以逼近參與者網(wǎng)絡(luò)的策略,其中狀態(tài)值用策略網(wǎng)絡(luò)近似表示,Q值用批評(píng)家網(wǎng)絡(luò)近似表示。這三個(gè)網(wǎng)絡(luò)用于計(jì)算當(dāng)前狀態(tài)的動(dòng)作預(yù)測(cè),并為每個(gè)時(shí)間步生成時(shí)間差誤差信號(hào)。
此外,SAC還以尋求收益最大化為目標(biāo),探索策略的熵最大化,如式(2)所示。熵是指變量的不可預(yù)測(cè)性。如果一個(gè)隨機(jī)變量仍然假設(shè)一個(gè)值,那么該策略的熵為零,鼓勵(lì)智能體的探索。
(2)
2? 基于深度強(qiáng)化學(xué)習(xí)的導(dǎo)航策略
2.1? 網(wǎng)絡(luò)結(jié)構(gòu)
在網(wǎng)絡(luò)結(jié)構(gòu)中,整體基于Actor-Critic(演員—批評(píng)者)架構(gòu),如圖1所示,其中Actor是策略網(wǎng)絡(luò),僅將狀態(tài)作為網(wǎng)絡(luò)輸入,輸出策略動(dòng)作,負(fù)責(zé)向機(jī)器人發(fā)送控制信號(hào),使機(jī)器人到達(dá)目標(biāo)位置;Critic網(wǎng)絡(luò)則將狀態(tài)和Actor網(wǎng)絡(luò)輸出動(dòng)作作為網(wǎng)絡(luò)輸入,輸出對(duì)動(dòng)作和狀態(tài)的Q值。而14維狀態(tài)表示包含激光雷達(dá)感知180度數(shù)據(jù)間隔選取的10個(gè)維度數(shù)據(jù)、上一時(shí)刻的線速度和角速度,以及移動(dòng)機(jī)器人當(dāng)前位置與目標(biāo)位置的相對(duì)距離和角度等數(shù)值。
2.2? 課程訓(xùn)練策略
強(qiáng)化學(xué)習(xí)的核心思想是通過(guò)智能體與環(huán)境交互試錯(cuò)的方式來(lái)學(xué)習(xí)有效策略,其中獎(jiǎng)勵(lì)反饋起著至關(guān)重要的作用。一般來(lái)說(shuō),強(qiáng)化學(xué)習(xí)智能體要想學(xué)習(xí)到有效策略,通常需要與環(huán)境進(jìn)行大量的交互(交互產(chǎn)生大量的正負(fù)樣本),然后以隨機(jī)采樣的方式選取樣本進(jìn)行學(xué)習(xí)。而在學(xué)習(xí)過(guò)程中,正樣本對(duì)學(xué)習(xí)有效策略起著正向引導(dǎo)作用,但正樣本在學(xué)習(xí)過(guò)程中所占比例相對(duì)較小,學(xué)習(xí)前期正樣本的有效分布則更為稀疏。針對(duì)獎(jiǎng)勵(lì)稀疏的問(wèn)題,Ng[14]提出獎(jiǎng)勵(lì)設(shè)計(jì),主要根據(jù)任務(wù)特性進(jìn)行相關(guān)規(guī)則的設(shè)計(jì)來(lái)完成任務(wù)引導(dǎo),不過(guò)這種設(shè)計(jì)很大程度上帶有人的主觀判斷,具有一定的局限性;Bengio[15]提出課程學(xué)習(xí)方法,其思想是對(duì)任務(wù)進(jìn)行拆解排序,按照由易到難的順序進(jìn)行學(xué)習(xí)引導(dǎo)。這樣的學(xué)習(xí)方式便于強(qiáng)化學(xué)習(xí)智能體順利完成相關(guān)的學(xué)習(xí)任務(wù)。
為了更好更快地完成智能體的學(xué)習(xí),這里采用課程學(xué)習(xí)的方式進(jìn)行訓(xùn)練,稱其為有序隨機(jī)課程引導(dǎo)。完成果園室外移動(dòng)機(jī)器人通常需要行走較遠(yuǎn)的距離,長(zhǎng)情景的導(dǎo)航訓(xùn)練中正樣本會(huì)更為稀疏。因此,按照課程學(xué)習(xí)由易到難的順序?qū)h(yuǎn)距離的任務(wù)進(jìn)行分段設(shè)置,在起點(diǎn)與目標(biāo)之間會(huì)生成很多的課程任務(wù)點(diǎn)作為過(guò)渡點(diǎn),這就實(shí)現(xiàn)了任務(wù)的有序性,以此完成向目標(biāo)的過(guò)渡。此外,考慮到樣本豐富度的問(wèn)題,于是隨機(jī)生成各個(gè)方向的過(guò)渡點(diǎn)。在訓(xùn)練過(guò)程中,智能體在完成一個(gè)目標(biāo)但卻沒(méi)有達(dá)到最大回合步數(shù)時(shí),訓(xùn)練策略會(huì)繼續(xù)生成新的目標(biāo)點(diǎn),智能體從當(dāng)前位置繼續(xù)向新的目標(biāo)位置轉(zhuǎn)移。具體的課程學(xué)習(xí)訓(xùn)練過(guò)程如圖2所示,首先從訓(xùn)練環(huán)境中隨機(jī)選點(diǎn),并生成固定點(diǎn)集,然后按照與起點(diǎn)距離的遠(yuǎn)近對(duì)點(diǎn)集中的點(diǎn)進(jìn)行由近及遠(yuǎn)的排序。接著開(kāi)始訓(xùn)練任務(wù),如果機(jī)器人能夠安全到達(dá)第一個(gè)任務(wù)點(diǎn),則給予正獎(jiǎng)勵(lì)并從固定點(diǎn)集中選取下一個(gè)點(diǎn)作為新的目標(biāo)點(diǎn),機(jī)器人從上一個(gè)任務(wù)結(jié)束位置開(kāi)始新的任務(wù)。如果機(jī)器人未能安全到達(dá)第一個(gè)任務(wù)點(diǎn),則給予懲罰,并將機(jī)器人重新放到起點(diǎn)位置,仍以當(dāng)前點(diǎn)為目標(biāo)進(jìn)行新一輪的訓(xùn)練。如此循環(huán)往復(fù),直到機(jī)器人完成點(diǎn)集中的所有點(diǎn)才結(jié)束訓(xùn)練。
3? 實(shí)驗(yàn)
考慮到真實(shí)環(huán)境下的訓(xùn)練代價(jià)高昂,因此所提方法的訓(xùn)練和檢驗(yàn)均在仿真環(huán)境中展開(kāi)。實(shí)驗(yàn)基于ROS操作系統(tǒng),使用Turtlebot3模擬機(jī)器人。
3.1? 實(shí)驗(yàn)設(shè)置
Gazebo是ROS機(jī)器人操作系統(tǒng)中的仿真平臺(tái),具有高保真模擬特性,因此使用該平臺(tái)進(jìn)行仿真場(chǎng)景搭建。如圖3所示為訓(xùn)練場(chǎng)景,機(jī)器人位于綠色方框位置,其余長(zhǎng)方體為隨機(jī)排布的障礙物。為了提高機(jī)器人的適應(yīng)能力,模擬真實(shí)的環(huán)境引入了動(dòng)態(tài)障礙物,如圖中白色圓柱所示。在評(píng)估階段,為了實(shí)現(xiàn)更為切合真實(shí)場(chǎng)景的布局,搭建了類似果園的封閉環(huán)境,如圖4所示,其中綠色長(zhǎng)方體模擬果樹(shù)。訓(xùn)練場(chǎng)景整體面積小于評(píng)估場(chǎng)景,主要是為了加快學(xué)習(xí)步伐,相反,評(píng)估場(chǎng)景更大則是為了更加接近實(shí)際情況。
對(duì)于獎(jiǎng)勵(lì)設(shè)置,如果移動(dòng)機(jī)器人與墻壁或任何障礙物發(fā)生碰撞,則此動(dòng)作將獲得負(fù)獎(jiǎng)勵(lì)-500,并結(jié)束當(dāng)前回合,如果移動(dòng)機(jī)器人到達(dá)目標(biāo)點(diǎn)則給予正獎(jiǎng)勵(lì)1 000。
3.2? 訓(xùn)練性能評(píng)估
智能體訓(xùn)練只在圖3場(chǎng)景中進(jìn)行,其學(xué)習(xí)獎(jiǎng)勵(lì)曲線如圖5所示,可以看出通過(guò)有序隨機(jī)訓(xùn)練的智能體,從500回合開(kāi)始獎(jiǎng)勵(lì)呈上升趨勢(shì),但曲線存在一定的震蕩,其中可能的原因是動(dòng)作選取具有隨機(jī)性,同時(shí)課程目標(biāo)在發(fā)生變化,在這兩種因素的共同影響下,智能體一旦失敗,其所獲得的收益就會(huì)與成功回合表現(xiàn)出過(guò)大的偏差,但從整體表現(xiàn)上來(lái)看,智能體獲得獎(jiǎng)勵(lì)一直處于上升趨勢(shì)。
3.3? 有效性驗(yàn)證
為了驗(yàn)證模型的有效性和泛化性,將所學(xué)模型部署到果園場(chǎng)景,圖4所示中進(jìn)行模型評(píng)估,相較于訓(xùn)練環(huán)境,評(píng)估場(chǎng)景空間更大。評(píng)估過(guò)程設(shè)置了7個(gè)任務(wù),分別位于左右兩側(cè)和前方位置,并按照由近及遠(yuǎn)的順序依次評(píng)估,根據(jù)任務(wù)距離長(zhǎng)短對(duì)任務(wù)難度進(jìn)行劃分,其中前5個(gè)任務(wù)為簡(jiǎn)單任務(wù),任務(wù)6、7為困難任務(wù)。評(píng)估結(jié)果如表1所示,首先在簡(jiǎn)單任務(wù)上,智能體均能順利到達(dá)這些目標(biāo)點(diǎn),能夠適應(yīng)環(huán)境結(jié)構(gòu)和空間變化,所習(xí)得的模型具有很強(qiáng)的泛化能力。其次,即使是對(duì)于更遠(yuǎn)的評(píng)估點(diǎn)6、7,智能體也能以較高的概率到達(dá),這說(shuō)明模型具備遠(yuǎn)距離導(dǎo)航能力。此外,如圖6紅色曲線所示,根據(jù)智能體行駛軌跡,到達(dá)目標(biāo)點(diǎn)3、4、7均有多條有效路徑,這充分說(shuō)明模型具備一定的探索能力。綜上所述,訓(xùn)練所習(xí)得的模型具備一定的遠(yuǎn)距離導(dǎo)航能力,并能夠適應(yīng)環(huán)境變化,具備很強(qiáng)的泛化能力。
4? 結(jié)? 論
針對(duì)果園非結(jié)構(gòu)化環(huán)境的導(dǎo)航任務(wù),本文提出了基于深度強(qiáng)化學(xué)習(xí)算法的導(dǎo)航策略,并提出一種有序隨機(jī)引導(dǎo)的課程學(xué)習(xí)訓(xùn)練方式,具體來(lái)說(shuō)就是在訓(xùn)練環(huán)境中進(jìn)行隨機(jī)選點(diǎn),并按照距離遠(yuǎn)近對(duì)所采目標(biāo)點(diǎn)進(jìn)行排序,生成固定點(diǎn)集。同時(shí),在隨機(jī)采樣過(guò)程中進(jìn)行360度全方位選點(diǎn),保證樣本的豐富性??紤]到真實(shí)場(chǎng)景下訓(xùn)練代價(jià)高昂的問(wèn)題,在類似果園的仿真環(huán)境中驗(yàn)證習(xí)得模型的有效性和泛化性,實(shí)驗(yàn)結(jié)果表明,這種訓(xùn)練方式能夠快速引導(dǎo)智能體學(xué)習(xí)有效策略,所習(xí)得的模型能夠適應(yīng)環(huán)境變化,高效完成各種距離的導(dǎo)航任務(wù),具備一定的實(shí)用性。未來(lái)將嘗試將模型遷移到真實(shí)場(chǎng)景中做進(jìn)一步的有效性驗(yàn)證。
參考文獻(xiàn):
[1] 謝斌,武仲斌,毛恩榮.農(nóng)業(yè)拖拉機(jī)關(guān)鍵技術(shù)發(fā)展現(xiàn)狀與展望 [J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2018,49(8):1-17.
[2] 姬長(zhǎng)英,周俊.農(nóng)業(yè)機(jī)械導(dǎo)航技術(shù)發(fā)展分析 [J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2014,45(9):44-54.
[3] 戴增輝,何鳳琴.智能農(nóng)機(jī)自動(dòng)導(dǎo)航系統(tǒng)應(yīng)用研究 [J].農(nóng)機(jī)化研究,2018,40(2):202-206.
[4] 夏友祥,劉剛,康熙,等.基于 GNSS 的農(nóng)田平整定位精度優(yōu)化與試驗(yàn)[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2017,48(S1):40-44.
[5] 劉剛,康熙,夏友祥,等.基于 GNSS 農(nóng)田平整全局路徑規(guī)劃方法與試驗(yàn)[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2018,49(5):27-33.
[6] 張?zhí)?高茬水田耕整路徑機(jī)器視覺(jué)識(shí)別方法研究 [D].武漢:華中農(nóng)業(yè)大學(xué),2014.
[7] MENG Q K,QIU R C,HE J,et al. Development of agricultural implement system based on machine vision and fuzzy control[J].Computers and Electronics in Agriculture,2015,112:128-138.
[8] 孟慶寬,何潔,仇瑞承,等.基于機(jī)器視覺(jué)的自然環(huán)境下作物行識(shí)別與導(dǎo)航線提取[J].光學(xué)學(xué)報(bào),2014,34(7):180-186.
[9] 汪博.基于機(jī)器視覺(jué)的農(nóng)業(yè)導(dǎo)航系統(tǒng)[D].杭州:浙江理工大學(xué),2016.
[10] 郭翰林,洪瑛杰,張翔,等.再生稻收割機(jī)的視覺(jué)導(dǎo)航路徑檢測(cè)方法[J].福建農(nóng)林大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,46(3):356-360.
[11] 梁習(xí)卉子,陳兵旗,姜秋慧,等.基于圖像處理的玉米收 割機(jī)導(dǎo)航路線檢測(cè)方法[J].農(nóng)業(yè)工程學(xué)報(bào),2016,32(22):43-49.
[12] HAARNOJA T,ZHOU A,ABBEEL P,et al. Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor [C]//International conference on machine learning. Stockholm:PMLR,2018:1861-1870.
[13] ZHU Y K,MOTTAGHI R,KOLVE E,et al. Target-driven visual navigation in indoor scenes using deep reinforcement learning [C]//2017 IEEE International Conference on Robotics and Automation (ICRA).Singapore:IEEE,2017:3357-3364.
[14] NG A Y,HARADA D,Russell S. Policy invariance under reward transformations: Theory and application to reward shaping [C]//In Machine learning, proceedings of the sixteenth international conference.Slovenia:ICML,1999:278-287.
[15] BENGIO Y,LOURADOUR J,Collobert R,et al. Curriculum learning [C]//Proceedings of the 26th annual international conference on machine learning. Montreal:Association for Computing Machinery,2009:41-48.
作者簡(jiǎn)介:戶高銘(1996—),男,滿族,河北唐山人,碩士研究生在讀,研究方向:深度強(qiáng)化學(xué)習(xí)、路徑規(guī)劃。