亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向智能避障場(chǎng)景的深度強(qiáng)化學(xué)習(xí)研究

        2019-01-10 05:16:16劉慶杰林友勇李少利
        智能物聯(lián)技術(shù) 2018年2期
        關(guān)鍵詞:障礙物決策神經(jīng)網(wǎng)絡(luò)

        劉慶杰,林友勇,李少利

        (中電海康集團(tuán)研究院,浙江 杭州 310012)

        0 引言

        隨著人工智能技術(shù)的發(fā)展和各種傳感設(shè)備的普及,移動(dòng)機(jī)器人/無人車自動(dòng)駕駛等技術(shù)日趨成熟,但具備自主決策能力的智能體(智能體指宿主于復(fù)雜動(dòng)態(tài)環(huán)境中,自治地感知環(huán)境信息,自主采取行動(dòng),并實(shí)現(xiàn)一系列預(yù)先設(shè)定的目標(biāo)或任務(wù)的實(shí)體,如移動(dòng)機(jī)器人/無人車)還相對(duì)薄弱。2016年初DeepMind團(tuán)隊(duì)開發(fā)的AlphaGo戰(zhàn)勝李世石,成功地將具有自主決策能力的強(qiáng)化學(xué)習(xí)技術(shù)引爆科技圈。強(qiáng)化學(xué)習(xí)是一種通過與環(huán)境不斷交互獲取獎(jiǎng)懲并做出最優(yōu)決策的機(jī)器學(xué)習(xí)方式,在機(jī)器人和工業(yè)自動(dòng)化、博弈決策等領(lǐng)域都有廣泛的應(yīng)用,因此將其應(yīng)用到移動(dòng)機(jī)器人/無人車等智能體的自動(dòng)行駛中具有可行性。本文針對(duì)智能體行駛過程中面臨的避障問題展開研究。

        傳統(tǒng)避障算法,如模糊控制法、啟發(fā)式搜索等面對(duì)未知的環(huán)境時(shí)依靠人為規(guī)則策略和經(jīng)驗(yàn)做決策,存在通用性和靈活性差的缺點(diǎn)。智能避障算法,如具備自主學(xué)習(xí)功能的DQN算法,在無需人為策略和經(jīng)驗(yàn)指導(dǎo)下即可做出決策。基于深度強(qiáng)化學(xué)習(xí)算法的智能體在模擬環(huán)境中對(duì)各種常見場(chǎng)景經(jīng)過一定時(shí)間自主學(xué)習(xí),通過在環(huán)境中獲得獎(jiǎng)懲指引智能體做出動(dòng)作,以提升自主決策能力的準(zhǔn)確性和魯棒性。

        1 深度強(qiáng)化學(xué)習(xí)算法原理與網(wǎng)絡(luò)模型設(shè)計(jì)

        本節(jié)先介紹深度強(qiáng)化學(xué)習(xí)算法的基本概念和工作原理,進(jìn)而設(shè)計(jì)了應(yīng)用于避障場(chǎng)景的神經(jīng)網(wǎng)絡(luò)模型。

        1.1算法基本原理

        深度學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域非常重要、應(yīng)用非常廣泛的一個(gè)分支。其起源于人工神經(jīng)網(wǎng)絡(luò),是一種基于數(shù)據(jù)感知的表征學(xué)習(xí)方法,可以實(shí)現(xiàn)任意復(fù)雜度連續(xù)函數(shù)的逼近。深度學(xué)習(xí)經(jīng)過多年發(fā)展,典型卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和對(duì)抗神經(jīng)網(wǎng)絡(luò)等在人臉識(shí)別/通用物體識(shí)別、語音/文本翻譯、人機(jī)對(duì)話和問答等領(lǐng)域取得了巨大成功。

        強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的另一個(gè)重要分支,不同于常見的有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)算法,強(qiáng)化學(xué)習(xí)擅長于解決序列決策問題:通過自主感知環(huán)境采取動(dòng)作,并根據(jù)環(huán)境的反饋獲取新的獎(jiǎng)賞,進(jìn)而選取具有最大化獎(jiǎng)勵(lì)的策略作為最優(yōu)策略。強(qiáng)化學(xué)習(xí)的目標(biāo)為尋找獲得最大累積獎(jiǎng)賞的策略,示意圖如下圖1所示。

        圖1 強(qiáng)化學(xué)習(xí)示意圖

        傳統(tǒng)強(qiáng)化學(xué)習(xí)對(duì)于連續(xù)狀態(tài)空間的表達(dá)能力相對(duì)較弱,維度災(zāi)難的存在導(dǎo)致難以高效地求解最優(yōu)策略。而深度學(xué)習(xí)擅長處理高維度的問題,因此本文將具有決策能力的強(qiáng)化學(xué)習(xí)和擅長處理高維感知數(shù)據(jù)能力的深度學(xué)習(xí)結(jié)合,構(gòu)成深度強(qiáng)化學(xué)習(xí)新技術(shù)應(yīng)用于智能體避障方案中。

        1.2 網(wǎng)絡(luò)模型設(shè)計(jì)

        深度強(qiáng)化學(xué)習(xí)DQN算法是基于價(jià)值函數(shù),將深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)結(jié)合,從而實(shí)現(xiàn)從感知環(huán)境到執(zhí)行動(dòng)作的端到端學(xué)習(xí)算法,在Q-learning算法中Q值的更新方式見公式(1):

        式(1)中:Q(st,at)為衡量當(dāng)前狀態(tài) st下采取動(dòng)作at能夠獲得收益的期望值,環(huán)境根據(jù)智能體的動(dòng)作反饋相應(yīng)的回報(bào)Rt,γ為獎(jiǎng)勵(lì)衰變系數(shù),表示對(duì)未來獎(jiǎng)勵(lì)的重視程度,α 為學(xué)習(xí)率,maxQ(st+1,a')表示下一時(shí)刻狀態(tài)下采取某個(gè)動(dòng)作得到的最大Q值。

        當(dāng)狀態(tài)和動(dòng)作空間離散且維度不高時(shí)使用Q-table表存儲(chǔ)更新每個(gè)狀態(tài)-動(dòng)作對(duì)應(yīng)的Q值。由于智能體感知的環(huán)境是連續(xù)的,采用表格化的Q-learning來存儲(chǔ)狀態(tài)值在現(xiàn)實(shí)中存在占用內(nèi)存空間過高、運(yùn)算量大等問題。本文采用神經(jīng)網(wǎng)絡(luò)和Q-learning算法結(jié)合的深度強(qiáng)化學(xué)習(xí)算法DQN來擬合Q函數(shù),解決占用內(nèi)存過高和運(yùn)算量大的問題。算法以移動(dòng)機(jī)器人/無人車等智能體獲得的環(huán)境狀態(tài)信息作為網(wǎng)絡(luò)輸入,每個(gè)動(dòng)作對(duì)應(yīng)的評(píng)估值作為網(wǎng)絡(luò)Q值輸出。DQN網(wǎng)絡(luò)結(jié)構(gòu)流程如圖2所示。

        圖2 DQN網(wǎng)絡(luò)結(jié)構(gòu)流程

        在神經(jīng)網(wǎng)絡(luò)訓(xùn)練中,若輸入樣本之間具有高度關(guān)聯(lián)性,則神經(jīng)網(wǎng)絡(luò)無法很好收斂。因此采用經(jīng)驗(yàn)回放的技巧,把存儲(chǔ)到記憶庫中的樣本隨機(jī)打亂以消除樣本之間的關(guān)聯(lián)性。為解決計(jì)算當(dāng)前Q值和下一狀態(tài)目標(biāo)Q值采用同一網(wǎng)絡(luò)會(huì)出現(xiàn)更新不穩(wěn)定的問題,在計(jì)算目標(biāo)Q值時(shí)不直接使用預(yù)更新的Q網(wǎng)絡(luò),而是增加Target Q網(wǎng)絡(luò)來計(jì)算,這樣做的目的是為了減少目標(biāo)計(jì)算與當(dāng)前值的相關(guān)性,使訓(xùn)練更新更加穩(wěn)定。

        與有標(biāo)簽樣本的監(jiān)督學(xué)習(xí)不同,DQN算法通過獎(jiǎng)勵(lì)值和Target Q中獲取的Q值自動(dòng)進(jìn)行標(biāo)注,通過不斷試錯(cuò)方式獲取獎(jiǎng)懲來尋找最優(yōu)策略,可以有效解決環(huán)境中存在的各種特殊情況。

        2 智能避障仿真系統(tǒng)設(shè)計(jì)

        為了驗(yàn)證DQN算法模型在與環(huán)境交互過程中所具備的避障能力,構(gòu)建了一個(gè)實(shí)驗(yàn)室仿真系統(tǒng)。該仿真系統(tǒng)包含二個(gè)主要模塊:環(huán)境感知模塊、實(shí)時(shí)決策模塊、動(dòng)作控制模塊。通過在智能體的不同方向上部署多個(gè)傳感器從環(huán)境中獲取數(shù)據(jù),經(jīng)過DQN神經(jīng)網(wǎng)絡(luò)實(shí)時(shí)決策模塊預(yù)測(cè)智能體需要執(zhí)行的動(dòng)作,經(jīng)由動(dòng)作控制模塊指導(dǎo)智能體完成具體轉(zhuǎn)向。仿真系統(tǒng)整體架構(gòu)如圖3所示。

        圖3 仿真系統(tǒng)整體架構(gòu)

        2.1 環(huán)境感知模塊

        智能體(如移動(dòng)機(jī)器人/無人車)的車身及內(nèi)部布設(shè)了大量的傳感器和攝像頭來感知外界的環(huán)境信息,并根據(jù)環(huán)境變化做出相應(yīng)的決策執(zhí)行動(dòng)作,如左轉(zhuǎn)、直行、右轉(zhuǎn)、剎車等。為簡(jiǎn)單起見,實(shí)驗(yàn)中通過5個(gè)超聲波傳感器分別獲得左方、左前方、前方、右前方和右方共5個(gè)方向障礙物的距離信息,同時(shí)能獲取障礙物相對(duì)智能體的位置和角度信息,將多傳感信息融合或環(huán)境感知的信息作為神經(jīng)網(wǎng)絡(luò)的輸入。

        2.2 實(shí)時(shí)決策模塊

        收集的傳感數(shù)據(jù)是以時(shí)間序列的連續(xù)狀態(tài),融合信息采用智能體與障礙物之間的相對(duì)距離、相對(duì)角度等參數(shù)作為神經(jīng)網(wǎng)絡(luò)的輸入,相對(duì)于采用具體位置坐標(biāo)信息作為神經(jīng)網(wǎng)絡(luò)輸入,輸入樣本數(shù)據(jù)之間的特征方差更小,更容易收斂,因此魯棒性也更好。

        由于只有當(dāng)智能體到達(dá)目的地時(shí)才會(huì)給予正向的獎(jiǎng)勵(lì)值,因此獎(jiǎng)勵(lì)過于稀疏,訓(xùn)練多輪也很難獲得比較好的結(jié)果?,F(xiàn)實(shí)中隨著智能體與環(huán)境的交互,狀態(tài)在不斷發(fā)生改變,障礙物和目的地之間的距離也在發(fā)生變化,因此每個(gè)狀態(tài)下的獎(jiǎng)懲都會(huì)對(duì)智能體的行進(jìn)方向起指導(dǎo)性作用,增設(shè)獎(jiǎng)懲和狀態(tài)關(guān)系表,使得獎(jiǎng)勵(lì)不再稀疏更有利于訓(xùn)練。狀態(tài)-獎(jiǎng)懲設(shè)置如表1所示。

        智能體到達(dá)目的地給予+10獎(jiǎng)勵(lì),碰到障礙物給予-10的懲罰。每一時(shí)刻根據(jù)智能體距離終點(diǎn)的距離,如當(dāng)智能體的位置比上一時(shí)刻距離終點(diǎn)更近則給予+0.5的獎(jiǎng)勵(lì);如果相比上一時(shí)刻距離終點(diǎn)更遠(yuǎn),則給予-0.5的懲罰。

        將新的觀察參數(shù)作為神經(jīng)網(wǎng)絡(luò)輸入,結(jié)合獎(jiǎng)懲機(jī)制進(jìn)行實(shí)時(shí)決策。改進(jìn)的策略為獲得+10獎(jiǎng)勵(lì)的軌跡數(shù)據(jù)賦予更高的權(quán)重,基于此,DQN算法會(huì)更加重視順利達(dá)到目的地的那些參數(shù)信息,加速網(wǎng)絡(luò)收斂。

        2.3 動(dòng)作控制模塊

        仿真環(huán)境下,根據(jù)智能體速度、位置等參數(shù)結(jié)合網(wǎng)絡(luò)預(yù)測(cè)得到的轉(zhuǎn)向角動(dòng)作,可計(jì)算得到下一個(gè)狀態(tài)下的智能體位置信息,從而更新環(huán)境。更新后智能體獲得環(huán)境新的觀察信息,進(jìn)行新的預(yù)測(cè),如此往復(fù)形成整個(gè)閉環(huán)。

        3 避障實(shí)驗(yàn)與結(jié)果分析

        3.1 參數(shù)設(shè)置

        初始智能體位于起始坐標(biāo)(0,0),速度為6m/s,到達(dá)目的地(350,0)所在3m半徑范圍內(nèi)視為完成任務(wù);中間隨機(jī)設(shè)置5個(gè)半徑為4m的障礙物,智能體駛?cè)胝系K物范圍內(nèi)即視為失敗。5個(gè)傳感器因此可獲得5個(gè)觀察狀態(tài)信息,根據(jù)馬爾科夫決策過程,強(qiáng)化學(xué)習(xí)包含<s,a,r,s_>四個(gè)參數(shù),分別表示當(dāng)前狀態(tài)、獲得的動(dòng)作、獎(jiǎng)勵(lì)以及下一個(gè)狀態(tài),因此存儲(chǔ)到記憶庫中的數(shù)據(jù)為12維度。

        本文在模擬真實(shí)環(huán)境情況下,實(shí)現(xiàn)智能體自動(dòng)避障的控制算法基于Tensorflow框架,設(shè)計(jì)了全連接神經(jīng)網(wǎng)絡(luò)作為DQN的Q網(wǎng)絡(luò),共有4層網(wǎng)絡(luò)結(jié)構(gòu):輸入層為12維的特征張量;隱含層含128個(gè)節(jié)點(diǎn),為防止過擬合增加dropout層,丟棄概率keep_prob設(shè)置為0.5;輸出層為3維張量,分別表示動(dòng)作的Q值(直行、左轉(zhuǎn)、右轉(zhuǎn))。記憶庫memory buffer容量為20000條,隨機(jī)batch_size設(shè)置為256條。和深度神經(jīng)網(wǎng)絡(luò)一樣,訓(xùn)練的目標(biāo)是最小化損失函數(shù)L,損失函數(shù)定義如下:

        式(2)中r為當(dāng)前獲得的獎(jiǎng)勵(lì),獎(jiǎng)勵(lì)值的設(shè)定按照表1進(jìn)行;θ為待優(yōu)化的神經(jīng)網(wǎng)絡(luò)參數(shù);γ表示對(duì)當(dāng)前利益和未來利益的關(guān)注度因子:γ值越高,表示智能體更加關(guān)注未來獎(jiǎng)勵(lì),γ值越低表示關(guān)注眼前利益。考慮到不僅要關(guān)注眼前利益也要考慮未來的獎(jiǎng)勵(lì),因此 γ 值設(shè)為 0.9。r+γ·maxQ(s',a',θ')為目標(biāo)Q值。

        Q-learning中Q值的更新是利用獎(jiǎng)勵(lì)Reward和Q函數(shù)計(jì)算得到的目標(biāo)Q值進(jìn)行的,DQN中直接將目標(biāo)Q值作為樣本標(biāo)簽,訓(xùn)練的目標(biāo)讓當(dāng)前Q值趨近于Target Q值。正如公式(2)所示,將第一項(xiàng)r+γ*maxQ(s',a',θ')作為真實(shí)標(biāo)簽,優(yōu)化方法采用梯度下降法通過不斷迭代訓(xùn)練減小損失,使得主網(wǎng)絡(luò)預(yù)測(cè)的Q值逐漸逼近真實(shí)Q值。

        3.2 結(jié)果分析

        訓(xùn)練采用ε-greedy貪心策略,增加一定的探索機(jī)制,有利于更新Q值從而獲得更好的策略。起初階段采用隨機(jī)探索動(dòng)作,隨著訓(xùn)練的深入進(jìn)行,逐步采用網(wǎng)絡(luò)預(yù)測(cè)代替隨機(jī)探索,在網(wǎng)絡(luò)輸出的3個(gè)動(dòng)作Q值之間選擇最大的輸出動(dòng)作作為下一步要執(zhí)行的動(dòng)作,發(fā)送給動(dòng)作控制模塊完成具體轉(zhuǎn)向任務(wù)。

        圖4展示了智能體訓(xùn)練2500局的表現(xiàn),橫坐標(biāo)為訓(xùn)練局?jǐn)?shù)(碰撞到障礙物或者達(dá)到目的地為一個(gè)episode),縱坐標(biāo)為行駛時(shí)長。圖中可以看出隨著訓(xùn)練的進(jìn)行,智能體的運(yùn)行時(shí)間慢慢變長,從最開始的15s左右經(jīng)常避障失敗到運(yùn)行2500局時(shí)能安全躲避障礙物,表現(xiàn)出一定的智能化特征。

        圖4 訓(xùn)練過程表現(xiàn)

        圖5具體展示了智能體經(jīng)過學(xué)習(xí),躲避障礙物到達(dá)目的地的軌跡路徑。智能體在初始位置(0,0)開始出發(fā),途中分布著5個(gè)隨機(jī)障礙物,在正右方向(350,0)處為目的地。圖中可以看出智能體已經(jīng)學(xué)會(huì)了如何躲避障礙物,且運(yùn)行軌跡相對(duì)平穩(wěn)地到達(dá)目的地。

        圖5 運(yùn)行軌跡

        4 結(jié)語

        本文對(duì)深度強(qiáng)化學(xué)習(xí)技術(shù)在智能避障場(chǎng)景下的應(yīng)用進(jìn)行了研究初探。通過多傳感信息融合,結(jié)合深度學(xué)習(xí)的數(shù)據(jù)感知能力和強(qiáng)化學(xué)習(xí)的自主決策能力,采用相對(duì)位置參數(shù)、改進(jìn)了獎(jiǎng)懲機(jī)制,使得網(wǎng)絡(luò)訓(xùn)練更加有利于收斂,且魯棒性更好。仿真實(shí)驗(yàn)表明,在無人為策略指導(dǎo)的情況下,智能體經(jīng)過大量自主探索試錯(cuò),學(xué)會(huì)了如何在未知環(huán)境中搜尋最優(yōu)路徑,從而實(shí)現(xiàn)躲避障礙物的目的。此算法設(shè)計(jì)對(duì)無人車自動(dòng)駕駛、巡檢機(jī)器人以及無人機(jī)自主飛行都具有一定的指導(dǎo)意義。在智能機(jī)器人和工業(yè)自動(dòng)化、博弈決策等領(lǐng)域,基于自主學(xué)習(xí)決策的深度強(qiáng)化學(xué)習(xí)技術(shù)都將會(huì)有廣泛的應(yīng)用前景。

        猜你喜歡
        障礙物決策神經(jīng)網(wǎng)絡(luò)
        為可持續(xù)決策提供依據(jù)
        高低翻越
        SelTrac?CBTC系統(tǒng)中非通信障礙物的設(shè)計(jì)和處理
        神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        決策為什么失誤了
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
        復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
        基于支持向量機(jī)回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
        土釘墻在近障礙物的地下車行通道工程中的應(yīng)用
        關(guān)于抗美援朝出兵決策的幾點(diǎn)認(rèn)識(shí)
        軍事歷史(1997年5期)1997-08-21 02:36:06
        亚洲精品一区二区三区四区久久 | a在线观看免费网站大全| 国产成人精品一区二区三区免费| 亚洲精品午睡沙发系列| 色噜噜狠狠一区二区三区果冻| 色屁屁www影院免费观看入口| 国产精品亚洲专区无码web| 欧美一性一乱一交一视频| 巨大巨粗巨长 黑人长吊| 亚欧中文字幕久久精品无码| 色婷婷久久综合中文久久蜜桃av| 亚洲 无码 制服 丝袜 自拍 | 人妻中文字幕不卡精品| 韩国三级大全久久网站| 成人自拍视频国产一区| 久久精品国产亚洲av桥本有菜| 国产一区二区三区影片| 国产精品久久婷婷六月| 亚洲五码av在线观看| 美女被内射中出在线观看 | 亚洲精品国产精品系列| 青青草视频在线观看视频免费| 视频在线亚洲视频在线| 久久精品亚洲国产av网站| 亚洲写真成人午夜亚洲美女| 日本高清乱码中文字幕| 国产精品久久久久久妇女| 免费观看交性大片| 少妇激情一区二区三区视频| 欧美在线 | 亚洲| 97影院在线午夜| 百合av一区二区三区| 中文字幕av无码一区二区三区电影| 谁有在线观看av中文| 国产亚洲精品视频在线| 国产精品久久久黄色片| 亚洲av日韩精品久久久久久a| 777米奇色狠狠俺去啦| 老太脱裤子让老头玩xxxxx | 一本丁香综合久久久久不卡网站| 帮老师解开蕾丝奶罩吸乳网站|