摘? 要:智能農(nóng)業(yè)機(jī)器人如何實現(xiàn)準(zhǔn)確移動仍是開發(fā)者們面臨的一個挑戰(zhàn)。傳統(tǒng)的導(dǎo)航主要是通過全球定位系統(tǒng)(Global Position System, GPS)的定位來完成導(dǎo)航任務(wù),弊端是其定位精度易受GPS信號強(qiáng)弱的影響。為此,文章提出采用深度強(qiáng)化學(xué)習(xí)算法SAC(Soft Actor-Critic)來解決果園場景下的導(dǎo)航問題,通過有序隨機(jī)的課程學(xué)習(xí)訓(xùn)練方式引導(dǎo)智能體訓(xùn)練。實驗結(jié)果表明,該方法能夠在不使用GPS的情況下很好地完成果園場景下的定點導(dǎo)航任務(wù)。
關(guān)鍵詞:果園;巡檢機(jī)器人;深度強(qiáng)化學(xué)習(xí);導(dǎo)航;課程學(xué)習(xí)
中圖分類號:TP242? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A文章編號:2096-4706(2021)19-0154-04
Research on Navigation of Orchard Inspection Robot Based on Deep
Reinforcement Learning
HU Gaoming
(School of Information Engineering, Dalian Ocean University, Dalian? 116023, China)
Abstract: How to realize the accurate movement of intelligent agricultural robot is still a challenge for developers. The traditional navigation mainly completes the navigation task through the positioning of Global Positioning System. The disadvantage is that its positioning accuracy is easily affected by the strength of GPS signal. Therefore, this paper uses deep reinforcement learning algorithm SAC (Soft Actor-Critic) to solve the navigation problem in orchard scene, and guide agent training through orderly and random course learning and training. Experimental results show that this method can well complete the fixed-point navigation task in orchard scene without using GPS.
Keywords: orchard; inspection robot; deep reinforcement learning; navigation; course learning
0? 引? 言
對智能農(nóng)業(yè)裝備的研究改進(jìn)是推動智慧農(nóng)業(yè)發(fā)展的重要內(nèi)容,其中智能農(nóng)業(yè)機(jī)器人導(dǎo)航技術(shù)已被廣泛應(yīng)用于各種作業(yè)情景,例如果園除草、果園巡檢、作物施肥等作業(yè)環(huán)節(jié)的應(yīng)用,該技術(shù)的引入不僅能為智能農(nóng)業(yè)裝備提供精準(zhǔn)的導(dǎo)航,還有助于節(jié)省人力物力以及避免遺漏作業(yè)區(qū)域,提高作業(yè)效率和作業(yè)質(zhì)量[1-3]。
然而,智能農(nóng)業(yè)機(jī)器人如何實現(xiàn)準(zhǔn)確移動仍是一個不小的挑戰(zhàn)。果園占地面積大,其環(huán)境通常是非結(jié)構(gòu)化的,在這種情況下尋求一條高覆蓋率的安全作業(yè)路徑并非易事,正是當(dāng)下的重點研究內(nèi)容。近年來,眾多學(xué)者在果園巡檢、小麥?zhǔn)崭顧C(jī)等自主導(dǎo)航系統(tǒng)的研發(fā)上取得了一定成果。夏友祥等人[4,5]提出基于GNSS全局路徑規(guī)劃方法優(yōu)化導(dǎo)航路徑,減少重復(fù)作業(yè)和地頭轉(zhuǎn)彎路徑,提高作業(yè)效率。然而基于全局路徑規(guī)劃的方法需要事先熟知環(huán)境信息,有賴于先驗知識。同時GPS的應(yīng)用易受衛(wèi)星信號強(qiáng)弱的影響,精確GPS(厘米級精度)的成本很高昂,而便宜的GPS通常有幾十乃至幾百厘米的誤差,不適用于車道較窄果園中的機(jī)器人導(dǎo)航。此外,機(jī)器視覺因其具備采集信息豐富、成本低廉等優(yōu)勢也被廣泛應(yīng)用。張?zhí)鸬萚6-11]基于機(jī)器視覺對作物收割、除草等作業(yè)場景進(jìn)行了導(dǎo)航路徑檢測研究。但目前基于機(jī)器視覺的導(dǎo)航方式受作業(yè)環(huán)境、光照條件的影響比較大,存在田間適應(yīng)性差、實時性差等問題。而激光雷達(dá)能以較高頻率提供準(zhǔn)確的環(huán)境距離信息以及環(huán)境物體的方位信息等。
近些年,以端到端的方式完成感知決策的深度強(qiáng)化學(xué)習(xí)算法取得了令人矚目的成績,而其在果園導(dǎo)航上的應(yīng)用卻很少。為此,本文以激光雷達(dá)作為環(huán)境感知器,提出一種基于深度強(qiáng)化學(xué)習(xí)算法(Soft Actor-Critic, SAC)[12]的導(dǎo)航方法,方法是直接以觀測數(shù)據(jù)作為狀態(tài)輸入,并引入目標(biāo)相關(guān)信息來完成機(jī)器人導(dǎo)航[13]。此外,鑒于果園這一場景的范圍較大,深度強(qiáng)化學(xué)習(xí)算法通過與環(huán)境交互習(xí)得樣本,根據(jù)隨機(jī)采樣學(xué)習(xí)有效策略,在學(xué)習(xí)過程會存在獎勵稀疏的情況,在果園的大場景下這種情況會更為突出。為此基于課程學(xué)習(xí)思想,設(shè)計了一種有序隨機(jī)引導(dǎo)的學(xué)習(xí)訓(xùn)練策略。有序能夠保證任務(wù)的難度是逐級遞增的,而隨機(jī)采樣則保證任務(wù)樣本的豐富性??紤]到真實環(huán)境下的成本問題,試驗和評估均在仿真環(huán)境中進(jìn)行。實驗結(jié)果表明,以有序隨機(jī)訓(xùn)練的深度強(qiáng)化學(xué)習(xí)模型能夠完成對果園類似結(jié)構(gòu)的導(dǎo)航任務(wù),具備一定的導(dǎo)航能力。
1? 深度強(qiáng)化學(xué)習(xí)算法
SAC的核心思想是使用能夠?qū)W習(xí)連續(xù)動作空間策略的近似函數(shù),解決連續(xù)動作空間的強(qiáng)化學(xué)習(xí)問題,該方法稱為隨機(jī)參與者批評家。因此,一個大的連續(xù)域需要導(dǎo)出一個軟策略迭代的實用近似值,如式(1)所示。
(1)
軟策略迭代是一種學(xué)習(xí)最優(yōu)最大熵策略,并在策略評估和策略改進(jìn)之間交替的算法。在策略評估階段,它試圖根據(jù)最大熵找到當(dāng)前策略的準(zhǔn)確值函數(shù);在策略改進(jìn)階段,它將當(dāng)前Q函數(shù)的策略分布更新為指數(shù)分布。SAC算法將神經(jīng)網(wǎng)絡(luò)作為函數(shù),以逼近參與者網(wǎng)絡(luò)的策略,其中狀態(tài)值用策略網(wǎng)絡(luò)近似表示,Q值用批評家網(wǎng)絡(luò)近似表示。這三個網(wǎng)絡(luò)用于計算當(dāng)前狀態(tài)的動作預(yù)測,并為每個時間步生成時間差誤差信號。
此外,SAC還以尋求收益最大化為目標(biāo),探索策略的熵最大化,如式(2)所示。熵是指變量的不可預(yù)測性。如果一個隨機(jī)變量仍然假設(shè)一個值,那么該策略的熵為零,鼓勵智能體的探索。
(2)
2? 基于深度強(qiáng)化學(xué)習(xí)的導(dǎo)航策略
2.1? 網(wǎng)絡(luò)結(jié)構(gòu)
在網(wǎng)絡(luò)結(jié)構(gòu)中,整體基于Actor-Critic(演員—批評者)架構(gòu),如圖1所示,其中Actor是策略網(wǎng)絡(luò),僅將狀態(tài)作為網(wǎng)絡(luò)輸入,輸出策略動作,負(fù)責(zé)向機(jī)器人發(fā)送控制信號,使機(jī)器人到達(dá)目標(biāo)位置;Critic網(wǎng)絡(luò)則將狀態(tài)和Actor網(wǎng)絡(luò)輸出動作作為網(wǎng)絡(luò)輸入,輸出對動作和狀態(tài)的Q值。而14維狀態(tài)表示包含激光雷達(dá)感知180度數(shù)據(jù)間隔選取的10個維度數(shù)據(jù)、上一時刻的線速度和角速度,以及移動機(jī)器人當(dāng)前位置與目標(biāo)位置的相對距離和角度等數(shù)值。
2.2? 課程訓(xùn)練策略
強(qiáng)化學(xué)習(xí)的核心思想是通過智能體與環(huán)境交互試錯的方式來學(xué)習(xí)有效策略,其中獎勵反饋起著至關(guān)重要的作用。一般來說,強(qiáng)化學(xué)習(xí)智能體要想學(xué)習(xí)到有效策略,通常需要與環(huán)境進(jìn)行大量的交互(交互產(chǎn)生大量的正負(fù)樣本),然后以隨機(jī)采樣的方式選取樣本進(jìn)行學(xué)習(xí)。而在學(xué)習(xí)過程中,正樣本對學(xué)習(xí)有效策略起著正向引導(dǎo)作用,但正樣本在學(xué)習(xí)過程中所占比例相對較小,學(xué)習(xí)前期正樣本的有效分布則更為稀疏。針對獎勵稀疏的問題,Ng[14]提出獎勵設(shè)計,主要根據(jù)任務(wù)特性進(jìn)行相關(guān)規(guī)則的設(shè)計來完成任務(wù)引導(dǎo),不過這種設(shè)計很大程度上帶有人的主觀判斷,具有一定的局限性;Bengio[15]提出課程學(xué)習(xí)方法,其思想是對任務(wù)進(jìn)行拆解排序,按照由易到難的順序進(jìn)行學(xué)習(xí)引導(dǎo)。這樣的學(xué)習(xí)方式便于強(qiáng)化學(xué)習(xí)智能體順利完成相關(guān)的學(xué)習(xí)任務(wù)。
為了更好更快地完成智能體的學(xué)習(xí),這里采用課程學(xué)習(xí)的方式進(jìn)行訓(xùn)練,稱其為有序隨機(jī)課程引導(dǎo)。完成果園室外移動機(jī)器人通常需要行走較遠(yuǎn)的距離,長情景的導(dǎo)航訓(xùn)練中正樣本會更為稀疏。因此,按照課程學(xué)習(xí)由易到難的順序?qū)h(yuǎn)距離的任務(wù)進(jìn)行分段設(shè)置,在起點與目標(biāo)之間會生成很多的課程任務(wù)點作為過渡點,這就實現(xiàn)了任務(wù)的有序性,以此完成向目標(biāo)的過渡。此外,考慮到樣本豐富度的問題,于是隨機(jī)生成各個方向的過渡點。在訓(xùn)練過程中,智能體在完成一個目標(biāo)但卻沒有達(dá)到最大回合步數(shù)時,訓(xùn)練策略會繼續(xù)生成新的目標(biāo)點,智能體從當(dāng)前位置繼續(xù)向新的目標(biāo)位置轉(zhuǎn)移。具體的課程學(xué)習(xí)訓(xùn)練過程如圖2所示,首先從訓(xùn)練環(huán)境中隨機(jī)選點,并生成固定點集,然后按照與起點距離的遠(yuǎn)近對點集中的點進(jìn)行由近及遠(yuǎn)的排序。接著開始訓(xùn)練任務(wù),如果機(jī)器人能夠安全到達(dá)第一個任務(wù)點,則給予正獎勵并從固定點集中選取下一個點作為新的目標(biāo)點,機(jī)器人從上一個任務(wù)結(jié)束位置開始新的任務(wù)。如果機(jī)器人未能安全到達(dá)第一個任務(wù)點,則給予懲罰,并將機(jī)器人重新放到起點位置,仍以當(dāng)前點為目標(biāo)進(jìn)行新一輪的訓(xùn)練。如此循環(huán)往復(fù),直到機(jī)器人完成點集中的所有點才結(jié)束訓(xùn)練。
3? 實驗
考慮到真實環(huán)境下的訓(xùn)練代價高昂,因此所提方法的訓(xùn)練和檢驗均在仿真環(huán)境中展開。實驗基于ROS操作系統(tǒng),使用Turtlebot3模擬機(jī)器人。
3.1? 實驗設(shè)置
Gazebo是ROS機(jī)器人操作系統(tǒng)中的仿真平臺,具有高保真模擬特性,因此使用該平臺進(jìn)行仿真場景搭建。如圖3所示為訓(xùn)練場景,機(jī)器人位于綠色方框位置,其余長方體為隨機(jī)排布的障礙物。為了提高機(jī)器人的適應(yīng)能力,模擬真實的環(huán)境引入了動態(tài)障礙物,如圖中白色圓柱所示。在評估階段,為了實現(xiàn)更為切合真實場景的布局,搭建了類似果園的封閉環(huán)境,如圖4所示,其中綠色長方體模擬果樹。訓(xùn)練場景整體面積小于評估場景,主要是為了加快學(xué)習(xí)步伐,相反,評估場景更大則是為了更加接近實際情況。
對于獎勵設(shè)置,如果移動機(jī)器人與墻壁或任何障礙物發(fā)生碰撞,則此動作將獲得負(fù)獎勵-500,并結(jié)束當(dāng)前回合,如果移動機(jī)器人到達(dá)目標(biāo)點則給予正獎勵1 000。
3.2? 訓(xùn)練性能評估
智能體訓(xùn)練只在圖3場景中進(jìn)行,其學(xué)習(xí)獎勵曲線如圖5所示,可以看出通過有序隨機(jī)訓(xùn)練的智能體,從500回合開始獎勵呈上升趨勢,但曲線存在一定的震蕩,其中可能的原因是動作選取具有隨機(jī)性,同時課程目標(biāo)在發(fā)生變化,在這兩種因素的共同影響下,智能體一旦失敗,其所獲得的收益就會與成功回合表現(xiàn)出過大的偏差,但從整體表現(xiàn)上來看,智能體獲得獎勵一直處于上升趨勢。
3.3? 有效性驗證
為了驗證模型的有效性和泛化性,將所學(xué)模型部署到果園場景,圖4所示中進(jìn)行模型評估,相較于訓(xùn)練環(huán)境,評估場景空間更大。評估過程設(shè)置了7個任務(wù),分別位于左右兩側(cè)和前方位置,并按照由近及遠(yuǎn)的順序依次評估,根據(jù)任務(wù)距離長短對任務(wù)難度進(jìn)行劃分,其中前5個任務(wù)為簡單任務(wù),任務(wù)6、7為困難任務(wù)。評估結(jié)果如表1所示,首先在簡單任務(wù)上,智能體均能順利到達(dá)這些目標(biāo)點,能夠適應(yīng)環(huán)境結(jié)構(gòu)和空間變化,所習(xí)得的模型具有很強(qiáng)的泛化能力。其次,即使是對于更遠(yuǎn)的評估點6、7,智能體也能以較高的概率到達(dá),這說明模型具備遠(yuǎn)距離導(dǎo)航能力。此外,如圖6紅色曲線所示,根據(jù)智能體行駛軌跡,到達(dá)目標(biāo)點3、4、7均有多條有效路徑,這充分說明模型具備一定的探索能力。綜上所述,訓(xùn)練所習(xí)得的模型具備一定的遠(yuǎn)距離導(dǎo)航能力,并能夠適應(yīng)環(huán)境變化,具備很強(qiáng)的泛化能力。
4? 結(jié)? 論
針對果園非結(jié)構(gòu)化環(huán)境的導(dǎo)航任務(wù),本文提出了基于深度強(qiáng)化學(xué)習(xí)算法的導(dǎo)航策略,并提出一種有序隨機(jī)引導(dǎo)的課程學(xué)習(xí)訓(xùn)練方式,具體來說就是在訓(xùn)練環(huán)境中進(jìn)行隨機(jī)選點,并按照距離遠(yuǎn)近對所采目標(biāo)點進(jìn)行排序,生成固定點集。同時,在隨機(jī)采樣過程中進(jìn)行360度全方位選點,保證樣本的豐富性??紤]到真實場景下訓(xùn)練代價高昂的問題,在類似果園的仿真環(huán)境中驗證習(xí)得模型的有效性和泛化性,實驗結(jié)果表明,這種訓(xùn)練方式能夠快速引導(dǎo)智能體學(xué)習(xí)有效策略,所習(xí)得的模型能夠適應(yīng)環(huán)境變化,高效完成各種距離的導(dǎo)航任務(wù),具備一定的實用性。未來將嘗試將模型遷移到真實場景中做進(jìn)一步的有效性驗證。
參考文獻(xiàn):
[1] 謝斌,武仲斌,毛恩榮.農(nóng)業(yè)拖拉機(jī)關(guān)鍵技術(shù)發(fā)展現(xiàn)狀與展望 [J].農(nóng)業(yè)機(jī)械學(xué)報,2018,49(8):1-17.
[2] 姬長英,周俊.農(nóng)業(yè)機(jī)械導(dǎo)航技術(shù)發(fā)展分析 [J].農(nóng)業(yè)機(jī)械學(xué)報,2014,45(9):44-54.
[3] 戴增輝,何鳳琴.智能農(nóng)機(jī)自動導(dǎo)航系統(tǒng)應(yīng)用研究 [J].農(nóng)機(jī)化研究,2018,40(2):202-206.
[4] 夏友祥,劉剛,康熙,等.基于 GNSS 的農(nóng)田平整定位精度優(yōu)化與試驗[J].農(nóng)業(yè)機(jī)械學(xué)報,2017,48(S1):40-44.
[5] 劉剛,康熙,夏友祥,等.基于 GNSS 農(nóng)田平整全局路徑規(guī)劃方法與試驗[J].農(nóng)業(yè)機(jī)械學(xué)報,2018,49(5):27-33.
[6] 張?zhí)?高茬水田耕整路徑機(jī)器視覺識別方法研究 [D].武漢:華中農(nóng)業(yè)大學(xué),2014.
[7] MENG Q K,QIU R C,HE J,et al. Development of agricultural implement system based on machine vision and fuzzy control[J].Computers and Electronics in Agriculture,2015,112:128-138.
[8] 孟慶寬,何潔,仇瑞承,等.基于機(jī)器視覺的自然環(huán)境下作物行識別與導(dǎo)航線提取[J].光學(xué)學(xué)報,2014,34(7):180-186.
[9] 汪博.基于機(jī)器視覺的農(nóng)業(yè)導(dǎo)航系統(tǒng)[D].杭州:浙江理工大學(xué),2016.
[10] 郭翰林,洪瑛杰,張翔,等.再生稻收割機(jī)的視覺導(dǎo)航路徑檢測方法[J].福建農(nóng)林大學(xué)學(xué)報(自然科學(xué)版),2017,46(3):356-360.
[11] 梁習(xí)卉子,陳兵旗,姜秋慧,等.基于圖像處理的玉米收 割機(jī)導(dǎo)航路線檢測方法[J].農(nóng)業(yè)工程學(xué)報,2016,32(22):43-49.
[12] HAARNOJA T,ZHOU A,ABBEEL P,et al. Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor [C]//International conference on machine learning. Stockholm:PMLR,2018:1861-1870.
[13] ZHU Y K,MOTTAGHI R,KOLVE E,et al. Target-driven visual navigation in indoor scenes using deep reinforcement learning [C]//2017 IEEE International Conference on Robotics and Automation (ICRA).Singapore:IEEE,2017:3357-3364.
[14] NG A Y,HARADA D,Russell S. Policy invariance under reward transformations: Theory and application to reward shaping [C]//In Machine learning, proceedings of the sixteenth international conference.Slovenia:ICML,1999:278-287.
[15] BENGIO Y,LOURADOUR J,Collobert R,et al. Curriculum learning [C]//Proceedings of the 26th annual international conference on machine learning. Montreal:Association for Computing Machinery,2009:41-48.
作者簡介:戶高銘(1996—),男,滿族,河北唐山人,碩士研究生在讀,研究方向:深度強(qiáng)化學(xué)習(xí)、路徑規(guī)劃。