亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強(qiáng)化學(xué)習(xí)的行星車路徑規(guī)劃方法研究

        2019-10-31 10:27:06周思雨白成超
        無人系統(tǒng)技術(shù) 2019年4期
        關(guān)鍵詞:行星樣本規(guī)劃

        周思雨,白成超

        (哈爾濱工業(yè)大學(xué)航天學(xué)院,哈爾濱 150001)

        1 引 言

        近太空技術(shù)的不斷發(fā)展與逐步成熟,掀起了人類不斷向深外太空拓展的熱潮。近年來,世界主要航天大國都相繼制定了宏偉的深空探測長遠(yuǎn)規(guī)劃與實(shí)施方案,例如美國、歐洲、日本以及俄羅斯[1-2]。在這些規(guī)劃中,重返月球(Return to the moon)、火星2020(Mars2020)、火星外空生物學(xué)(Exobiology on Mars,ExoMars)等探測任務(wù)都將研制最先進(jìn)的行星車。中國的嫦娥三號探測器攜帶玉兔號月球車實(shí)現(xiàn)了深空測控通信技術(shù)的突破;嫦娥四號探測器攜帶玉兔二號月球車實(shí)現(xiàn)了月球背面巡視探測技術(shù)的突破;未來計(jì)劃發(fā)射的嫦娥五號探測器將對月面土壤進(jìn)行采樣并返回。2016年由國務(wù)院發(fā)布的《“十三五”國家科技創(chuàng)新規(guī)劃》指出,“到2020年發(fā)射首顆火星探測器,突破一系列核心關(guān)鍵技術(shù),在一次發(fā)射的基礎(chǔ)上,實(shí)現(xiàn)火星環(huán)繞以及著陸巡視探測”。由此可見,行星車在航天領(lǐng)域的深空探測方向具有重大的研究意義。

        行星車在星體表面運(yùn)動時(shí),要求其具備良好的自主能力,按照《新一代人工智能發(fā)展規(guī)劃》中的論述,其關(guān)鍵技術(shù)為規(guī)劃、感知和控制等。其中,路徑規(guī)劃是指在起點(diǎn)和目標(biāo)點(diǎn)(給定環(huán)境)之間搜索出一條最優(yōu)路徑,它是行星車的中樞神經(jīng)系統(tǒng),是其能夠安全高效地開展科學(xué)巡視探測的重要保證[3]。

        按照地圖信息獲取方式的不同,將行星車的路徑規(guī)劃分為全局路徑規(guī)劃(基于先驗(yàn)地圖信息)和局部路徑規(guī)劃(基于傳感器信息)。研究方法可以分為傳統(tǒng)方法和基于學(xué)習(xí)的方法。在傳統(tǒng)方法中,行星車的所有行為都是預(yù)先定義好的。典型代表如美國噴氣推進(jìn)實(shí)驗(yàn)室(Jet Propulsion Laboratory,JPL)為一系列火星車開發(fā)的車輛任務(wù)序列與可視化系統(tǒng)(The Rover Sequencing and Visualization Program,RSVP)。地面工作人員可以通過RSVP快速復(fù)現(xiàn)的精確三維環(huán)境信息來制定行星車的任務(wù)序列[4-5]。選用RSVP是由于行星表面地形復(fù)雜,容易引起滑移和滾翻,導(dǎo)致任務(wù)失敗。傳統(tǒng)的方法在這種情況下可以增加系統(tǒng)的可靠性。

        然而,未來的行星車需要做出戰(zhàn)略轉(zhuǎn)變,將以大規(guī)??茖W(xué)探測為主。高價(jià)值的科學(xué)探測目標(biāo)往往需要宇航員與多移動機(jī)器人協(xié)同作業(yè),因此伴隨著更為復(fù)雜的環(huán)境。對于行星車而言,作業(yè)環(huán)境不是完全已知的,需要其具備一定的對環(huán)境變化的自適應(yīng)能力和自學(xué)習(xí)能力。因此需要研制出更高級的智能規(guī)劃模塊。此時(shí),基于學(xué)習(xí)的規(guī)劃框架就充分發(fā)揮了它的優(yōu)勢。在基于學(xué)習(xí)的方法中,深度學(xué)習(xí)(Deep Learning,DL)可以成功處理高維信息;強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)可以在復(fù)雜環(huán)境下執(zhí)行連續(xù)決策任務(wù)。如圖1所示,將RL和DL結(jié)合在一起的深度增強(qiáng)學(xué)習(xí)(Deep Reinforcement Learning,DRL)可以學(xué)習(xí)一個(gè)端到端(End-to-end)的模型,盡可能地簡化從感知到?jīng)Q策之間的人為操作,從而避免精密而脆弱的人工設(shè)計(jì),進(jìn)一步提升任務(wù)的穩(wěn)定性和智能性。

        圖1 深度強(qiáng)化學(xué)習(xí)框架Fig.1 Deep reinforcement learning framework

        基于以上需求背景,本文以行星車為應(yīng)用背景,研究一種在行星探測環(huán)境中應(yīng)用的基于DRL的路徑規(guī)劃方法。首先通過DL處理從環(huán)境中獲取的多源傳感器組成的狀態(tài)信息,然后利用RL基于預(yù)期回報(bào)評判動作價(jià)值,將當(dāng)前狀態(tài)映射到相應(yīng)動作,并將動態(tài)指令分配給行星車。作為算法驗(yàn)證,本文將深入探索較為高效的基于DRL的方法,并將其應(yīng)用于多傳感器行星車的路徑規(guī)劃中,賦予行星車對環(huán)境變化的自適應(yīng)能力和自學(xué)習(xí)能力,同時(shí)在基于機(jī)器人操作系統(tǒng)(Robot Operating System,ROS)及Gazebo的仿真場景中驗(yàn)證算法的有效性。這種DRL算法具有非常廣泛的應(yīng)用,對于航天領(lǐng)域以及機(jī)器人領(lǐng)域中的自主規(guī)劃等都有非常重要的意義。

        2 DQN及其衍生算法

        早期,研究者就嘗試將神經(jīng)網(wǎng)絡(luò)與RL進(jìn)行集成,但當(dāng)把離策略(Off-policy)、函數(shù)近似和引導(dǎo)(Bootstapping)結(jié)合在一起時(shí),RL會表現(xiàn)出不穩(wěn)定,甚至開始發(fā)散。直到DeepMind團(tuán)隊(duì)的Mnih等[6]創(chuàng)造出DQN,這才點(diǎn)燃了DRL領(lǐng)域。

        此后,DQN得到了廣泛的發(fā)展,圖2給出了DQN的發(fā)展歷程,將其中的DQN、Double DQN和Dueling DQN算法融合在一起,結(jié)合PER算法就構(gòu)成了D3QN PER算法。

        2.1 DQN算法

        2.1.1 經(jīng)驗(yàn)回放

        在DQN中使用經(jīng)驗(yàn)回放的動機(jī)是:作為有監(jiān)督學(xué)習(xí)模型,深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)要求數(shù)據(jù)滿足獨(dú)立同分布假設(shè);但樣本來源于連續(xù)幀,這與簡單的RL問題(比如走迷宮)相比,樣本的關(guān)聯(lián)性大大增加。假如沒有經(jīng)驗(yàn)回放,算法在連續(xù)一段時(shí)間內(nèi)基本朝著同一個(gè)方向做梯度下降,那么在同樣的步長下,這樣直接計(jì)算梯度就有可能不收斂。所以經(jīng)驗(yàn)回放的主要作用是:克服經(jīng)驗(yàn)數(shù)據(jù)的相關(guān)性,減少參數(shù)更新的方差;克服非平穩(wěn)分布問題。經(jīng)驗(yàn)回放的做法是從以往的狀態(tài)轉(zhuǎn)移(經(jīng)驗(yàn))中隨機(jī)采樣進(jìn)行訓(xùn)練,提高數(shù)據(jù)利用率,可以理解為同一個(gè)樣本被多次使用。

        2.1.2 算法原理

        神經(jīng)網(wǎng)絡(luò)的訓(xùn)練可以理解為通過最優(yōu)化損失函數(shù)使其最小化,這里的損失函數(shù)指的是標(biāo)簽和網(wǎng)絡(luò)輸出的偏差。為此,DQN算法利用Q-learning為Q網(wǎng)絡(luò)提供有標(biāo)簽的樣本,再通過反向傳播使用梯度下降的方法更新神經(jīng)網(wǎng)絡(luò)的參數(shù)。

        (1)采用DNN作為Q值的網(wǎng)絡(luò):

        其中,w為DNN的參數(shù)。

        (2)在Q值中使用均方差(Mean Square Error,MSE)定義損失函數(shù):

        (3)計(jì)算參數(shù)w關(guān)于損失函數(shù)的梯度:

        圖2 DQN的發(fā)展歷程Fig.2 Development of DQN

        (4)使用隨機(jī)梯度下降法(Stochastic Gradient Descent,SGD)更新參數(shù),從而實(shí)現(xiàn)端到端的優(yōu)化目標(biāo)。

        本文采用的DQN算法還引入了一個(gè)與當(dāng)前值網(wǎng)絡(luò)結(jié)構(gòu)一致的目標(biāo)值網(wǎng)絡(luò),負(fù)責(zé)生成訓(xùn)練過程的目標(biāo),即。每訓(xùn)練C步,將當(dāng)前值網(wǎng)絡(luò)的參數(shù)完全復(fù)制給目標(biāo)值網(wǎng)絡(luò),那么,接下來C步參數(shù)更新的目標(biāo)將由更新后的目標(biāo)值網(wǎng)絡(luò)負(fù)責(zé)提供。

        2.2 Double DQN算法

        2.2.1 優(yōu)先經(jīng)驗(yàn)回放

        PER的思路來源于優(yōu)先清理(Prioritized Sweeping),它以更高的頻率回放對學(xué)習(xí)過程更有用的樣本,本文使用TD-error來衡量作用的大小。TD-error的含義是某個(gè)動作的估計(jì)價(jià)值與當(dāng)前值函數(shù)輸出的價(jià)值之差。TD-error越大,則說明當(dāng)前值函數(shù)的輸出越不準(zhǔn)確,換而言之,能從該樣本中“學(xué)到更多”。為了保證TD-error暫時(shí)未知的新樣本至少被回放一次,將它放在首位,此后,每次都回放TD-error最大的樣本。

        本文結(jié)合純粹的貪婪優(yōu)先和均勻隨機(jī)采樣。確保樣本的優(yōu)先級正比于TD-error,與此同時(shí),確保最低優(yōu)先級的轉(zhuǎn)移概率也是非零的。

        具體的,定義采樣轉(zhuǎn)移i 的概率為:

        其中,pi是第i 個(gè)經(jīng)驗(yàn)的優(yōu)先級;指數(shù)α決定使用優(yōu)先級的多少,當(dāng)α=0時(shí)是均勻隨機(jī)采樣的情況。主要存在兩種實(shí)踐途徑,第一種是成比例的優(yōu)先(Proportional Prioritization),即

        其中,δi為TD-error;ε是為了防止經(jīng)驗(yàn)的TD-error為0后不再被回放。

        在實(shí)現(xiàn)時(shí)采用二叉樹結(jié)構(gòu),它的每個(gè)葉子節(jié)點(diǎn)保存了經(jīng)驗(yàn)的優(yōu)先級,父節(jié)點(diǎn)存儲了葉子節(jié)點(diǎn)值的和,這樣,頭節(jié)點(diǎn)的值就是所有葉子結(jié)點(diǎn)的總和。采樣一個(gè)大小為k 的minibatch時(shí),范圍[0,ptotal]被均分為k 個(gè)小范圍,每個(gè)小范圍均勻采樣,各種經(jīng)驗(yàn)都有可能被采樣到。

        第二種是基于排行的優(yōu)先級(Rank-Based Prioritization),即:

        其中,rank(i)是經(jīng)驗(yàn)池中根據(jù)TD-error排行的第i個(gè)經(jīng)驗(yàn)的排行。

        在概率統(tǒng)計(jì)中,使用某種分布采樣樣本會引入偏差,加入重要性采樣(Importance-sampling)可以消除偏差。這里的重要性采樣權(quán)重為:

        其中,β用于調(diào)節(jié)偏差程度,因?yàn)樵趯W(xué)習(xí)的初始階段有偏差是無所謂的,但在后期就要消除偏差。為了歸一化重要性采樣權(quán)重:

        2.2.2 算法原理

        Q-learning中存在嚴(yán)重的過估計(jì)問題,這個(gè)問題同樣被帶入到DQN算法中。假設(shè)所有動作在當(dāng)前狀態(tài)下的實(shí)際返回值都是0,但由于估計(jì)必定存在誤差,所以一些動作可能返回正值(假設(shè)為+0.5),一些動作可能返回負(fù)值(假設(shè)為-0.5)。在Q函數(shù)返回所有動作在當(dāng)前狀態(tài)下的估計(jì)值后,Q-learning選擇最大Q值的動作。但此時(shí)這個(gè)最大值是+0.5,并且每一步(在每個(gè)狀態(tài)下)都存在該問題。隨著迭代往前進(jìn)行,過估計(jì)問題可能導(dǎo)致策略逐漸變?yōu)橐粋€(gè)次優(yōu)解。為解決過估計(jì)問題,Double DQN應(yīng)運(yùn)而生[7]。它將目標(biāo)Q值中動作的選擇和動作的評估分開,讓它們使用不同的Q網(wǎng)絡(luò)。在DQN中的目標(biāo)Q值為:,而在Double DQN中的目標(biāo)Q值為

        2.3 Dueling DQN結(jié)構(gòu)

        如圖3所示,Dueling DQN[8]相比于DQN在網(wǎng)絡(luò)結(jié)構(gòu)上做出了改進(jìn),在得到中間特征后,一邊預(yù)測狀態(tài)值函數(shù)v(s;θ,β),另一邊預(yù)測相對優(yōu)勢函數(shù)A (s,a;θ,α),兩個(gè)相加才是最終的動作值函數(shù):

        其中,s、a分別為當(dāng)前狀態(tài)和動作;θ為卷積層參數(shù);β和α是兩支路全連接層參數(shù)。這樣做的好處是v(s)和A(s,a)分別評定遠(yuǎn)近目標(biāo),v(s)是對當(dāng)前狀態(tài)的長遠(yuǎn)判斷,而A(s,a)則衡量在當(dāng)前狀態(tài)下不同動作的相對好壞。

        圖3 Dueling DQN的網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.3 Network structure diagram of dueling DQN

        訓(xùn)練時(shí),如果按照式(9)的做法,給定一個(gè)Q值無法得到唯一的ν和A,比如,ν和A分別加上和減去一個(gè)值能夠得到同樣的Q值,但反過來顯然不行。根據(jù)式(9),最優(yōu)狀態(tài)值函數(shù)ν*來源于使Q值最大的那個(gè)貪婪動作,即。由此,可通過強(qiáng)制使得選擇貪婪動作的優(yōu)勢函數(shù)為0,來保證分離出來的ν就是最優(yōu)策略下的ν*。所以?。?/p>

        這個(gè)操作會偏離目標(biāo)函數(shù),A不再為0,但可以保證該狀態(tài)下各動作的優(yōu)勢函數(shù)相對排序不變,而且可以縮小Q值的范圍,去除多余的自由度,提高算法的穩(wěn)定性。

        3 行星車環(huán)境特征處理方案

        3.1 自身狀態(tài)信息處理方法

        圖4 自身信息處理方法示意圖Fig.4 Schematic diagram of its own information processing method

        3.2 激光雷達(dá)點(diǎn)云信息處理方法

        激光雷達(dá)(Light Detection And Ranging,LIDAR)能適應(yīng)不同的光照,同時(shí)對環(huán)境具有較好的魯棒性,因此成為近期行星車發(fā)展中最重要的傳感器之一。

        LIDAR產(chǎn)生的點(diǎn)云屬于長序列信息,比較難直接拆分成單個(gè)獨(dú)立的樣本通過CNN進(jìn)行訓(xùn)練。本文采用長短期記憶(Long Short-Term Memary,LSTM)網(wǎng)絡(luò)處理LIDAR點(diǎn)云信息,其中cell單元為512個(gè),具體的網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。

        圖5 處理LIDAR點(diǎn)云信息的LSTM網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.5 Schematic diagram of LSTM network structure for processing LIDAR point cloud information

        為了方便,控制LIDAR輸出的點(diǎn)云信息為360維,更新頻率是50Hz,探測范圍為-90o~90o,探測距離為0.1~10.0m。

        3.3 視覺圖像信息處理方法

        盡管LIDAR擅長測量障礙物的距離和形狀,但實(shí)際上它并不能用于確定障礙物的類型。計(jì)算機(jī)視覺可通過分類完成這項(xiàng)任務(wù),即給定相機(jī)的圖像,可以標(biāo)記圖像中的對象。

        本文采用CNN處理視覺圖像信息。輸入圖像(1024×728)經(jīng)過預(yù)處理和疊幀(4幀)后變?yōu)?0×80×4的單通道灰色圖。這里共采用了三個(gè)卷積層,它們分別是conv1、conv2和conv3。Conv1、conv2和conv3的具體參數(shù)可參見表1。

        表1 卷積核參數(shù)Table 1 Convolution kernel parameter

        3.4 環(huán)境特征融合方案

        結(jié)合前面所提出的針對自身狀態(tài)信息、LIDAR點(diǎn)云信息和視覺圖像信息的處理方法,再結(jié)合D3QN PER算法,由此可以給出行星車的環(huán)境特征融合方案,如圖6所示。

        4 仿真結(jié)果及分析

        4.1 行星車的動作空間劃分

        考慮到大規(guī)模行星探測作業(yè)環(huán)境的復(fù)雜性,首先將行星車的動作空間劃分為11個(gè)單元,如表2所示。

        表2 動作劃分表Table 2 Action partition table

        圖6 環(huán)境特征融合方案示意圖Fig.6 Schematic diagram of environmental feature fusion scheme

        4.2 算法參數(shù)與獎勵函數(shù)設(shè)置

        算法的基礎(chǔ)參數(shù)設(shè)置如表3所示。為了加快收斂速度,?-貪婪法的?參數(shù)從初始值1.0開始按照訓(xùn)練步數(shù)線性下降,如式(12)所示,直到?等于?final后不再變化。

        表3 參數(shù)設(shè)置表Table 3 Parameter settings table

        PER算法的參數(shù)設(shè)置如表4所示。值得注意的是,β參數(shù)也按照訓(xùn)練步數(shù)線性下降:

        表4 PER算法參數(shù)設(shè)置表Table 4 PER algorithm parameter setting table

        獎勵函數(shù)的設(shè)置參見表5。其中,vt和vt-1分別為t時(shí)刻和t-1時(shí)刻行星車的速度信息;ωt和ωt-1為t時(shí)刻和 時(shí)刻行星車的角速度信息;dt和dt-1為t時(shí)刻和t-1時(shí)刻行星車相對終點(diǎn)的距離信息;θt和θt-1為t時(shí)刻和t-1時(shí)刻行星車相對終點(diǎn)的角度信息。

        表5 獎勵函數(shù)的設(shè)置Table 5 Setting of reward function

        4.3 結(jié)果與分析

        將沙礫和巖石簡化為靜態(tài)障礙,搭建的仿真環(huán)境如圖7所示。

        圖7 仿真環(huán)境示意圖Fig.7 Schematic diagram of simulation environment

        其中,靜態(tài)障礙為邊長為1m的黑色正方體,影響半徑為1.5m。在每一幕訓(xùn)練時(shí),行星車的起點(diǎn)和終點(diǎn)以及靜態(tài)障礙的位置都是隨機(jī)的,為了模擬行星探測環(huán)境的復(fù)雜程度,它們需要滿足以下條件:行星車的起點(diǎn)和終點(diǎn)之間的距離不小于20m;各靜態(tài)障礙之間的距離不小于5m;各靜態(tài)障礙與行星車的起點(diǎn)和終點(diǎn)之間的距離不小于5m。

        訓(xùn)練過程中獎勵隨幕數(shù)的變化趨勢如圖8所示,由圖可知,網(wǎng)絡(luò)收斂。

        隨機(jī)生成的500幅地圖進(jìn)行測試,測試過程中獎勵隨幕數(shù)的變化趨勢如圖9所示。由圖可知,500次測試中行星車全部到達(dá)了終點(diǎn)。

        圖8 訓(xùn)練過程中獎勵隨幕數(shù)的變化圖Fig.8 Change of reward with episode during training

        圖9 測試過程中獎勵隨幕數(shù)的變化圖Fig.9 Chart of reward change with episode during testing

        展示測試中的地圖,如圖10所示,規(guī)劃的路徑不僅能夠成功避障,并且較短較直。

        圖10 路徑規(guī)劃結(jié)果示意圖Fig.10 Schematic diagram of path planning results

        5 結(jié) 論

        本文研究了行星車端到端的路徑規(guī)劃問題,將其應(yīng)用于大規(guī)模行星探測背景下宇航員和多機(jī)器人協(xié)同作業(yè)的復(fù)雜環(huán)境中。使用CNN和LSTM處理多傳感器信息,結(jié)合DQN、Double DQN、Dueling DQN和PER算法的優(yōu)點(diǎn),采用D3QN PER算法,賦予了行星車自主決策、自主學(xué)習(xí)以及自適應(yīng)的能力。在靜態(tài)障礙環(huán)境中進(jìn)行了一系列實(shí)驗(yàn),驗(yàn)證了該方法對不同環(huán)境的適應(yīng)性,展示了其在航天領(lǐng)域深空探測行星車上的應(yīng)用價(jià)值。

        猜你喜歡
        行星樣本規(guī)劃
        用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
        流浪行星
        追光者——行星
        行星呼救
        讀者(2018年20期)2018-09-27 02:44:48
        推動醫(yī)改的“直銷樣本”
        規(guī)劃引領(lǐng)把握未來
        快遞業(yè)十三五規(guī)劃發(fā)布
        商周刊(2017年5期)2017-08-22 03:35:26
        隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
        多管齊下落實(shí)規(guī)劃
        行星
        精品熟女日韩中文十区| 国产一女三男3p免费视频| 啪啪无码人妻丰满熟妇| 无套内谢孕妇毛片免费看看| 国产激情久久99久久| 亚洲精品欧美二区三区中文字幕 | 国产极品喷水视频| 91桃色在线播放国产| 在线国人免费视频播放| 久久99精品久久久大学生| 中文字幕av一区二区三区人妻少妇 | 中文熟女av一区二区| 亚洲无人区一码二码国产内射| 久久99精品国产麻豆| 无码人妻精品一区二区三区夜夜嗨| 少妇无码av无码一区| 广东少妇大战黑人34厘米视频| 亚洲AV无码秘 蜜桃1区| 亚洲成人av一区二区麻豆蜜桃| 亚洲av老熟女一区二区三区| 乱色精品无码一区二区国产盗| 国产精品麻豆成人av电影艾秋| 精品国产一区二区三区AV小说| 中文字幕乱码亚洲无线| 久久一区二区视频在线观看| 欧美成人精品第一区| 果冻传媒2021精品一区| 亚洲肥老太bbw中国熟女| 日韩毛片久久91| 青青视频在线播放免费的| 国产精品一区二区三区在线蜜桃 | 亚洲精彩av大片在线观看| 蜜臀亚洲av无码精品国产午夜.| 国产成人av性色在线影院色戒| 女同中的p是什么意思| 亚洲中文字幕在线精品2021| 那有一级内射黄片可以免费看| 岳毛多又紧做起爽| 国产不卡一区二区三区免费视| 久久国产精品岛国搬运工| 美国黄色av一区二区|