亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于強(qiáng)化學(xué)習(xí)的六足機(jī)器人動(dòng)態(tài)避障研究*

        2022-01-21 00:32:00董星宇唐開(kāi)強(qiáng)傅匯喬留滄海
        傳感器與微系統(tǒng) 2022年1期
        關(guān)鍵詞:深度動(dòng)作環(huán)境

        董星宇, 唐開(kāi)強(qiáng), 傅匯喬, 留滄海, 蔣 剛

        (1.西南科技大學(xué) 制造科學(xué)與工程學(xué)院,四川 綿陽(yáng) 621000;2.南京大學(xué) 工程管理學(xué)院 控制與系統(tǒng)工程系,江蘇 南京 210093;3.制造過(guò)程測(cè)試技術(shù)省部共建教育部重點(diǎn)實(shí)驗(yàn)室,四川 綿陽(yáng) 621000;4.成都理工大學(xué) 核技術(shù)與自動(dòng)化工程學(xué)院,四川 成都 610059)

        0 引 言

        地震救援機(jī)器人需要在非結(jié)構(gòu)環(huán)境下實(shí)現(xiàn)救援搜索任務(wù),六足機(jī)器人在復(fù)雜環(huán)境下行走高效,且具有較好的穩(wěn)定性,是未來(lái)救援機(jī)器人的一大選擇[1]。地震救援環(huán)境復(fù)雜,且震后易發(fā)生余震,救援環(huán)境由靜態(tài)變?yōu)閯?dòng)態(tài),機(jī)器人需要擁有動(dòng)態(tài)避障能力。傳統(tǒng)的移動(dòng)機(jī)器人動(dòng)態(tài)避障常用人工勢(shì)場(chǎng)法、快速擴(kuò)展隨機(jī)樹(shù)和動(dòng)態(tài)窗口法等方法[2~4]。但是傳統(tǒng)的動(dòng)態(tài)避障方法,移動(dòng)機(jī)器人需要依賴(lài)地圖信息,不能在未知、動(dòng)態(tài)、復(fù)雜環(huán)境下通過(guò)自身的傳感器與環(huán)境交互進(jìn)行避障決策。

        近年來(lái),由于深度學(xué)習(xí)(deep learning,DL)與強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)得到國(guó)內(nèi)外專(zhuān)家的廣泛研究,涌現(xiàn)出大量基于深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)的機(jī)器人避障的研究成果。文獻(xiàn)[5]提出對(duì)無(wú)人駕駛船舶在未知環(huán)境干擾下的深度強(qiáng)化學(xué)習(xí)避障算法。文獻(xiàn)[6]提出了一種基于深度增強(qiáng)學(xué)習(xí)的AGV移動(dòng)機(jī)器人,創(chuàng)建了一個(gè)移動(dòng)機(jī)器人避障和導(dǎo)航模型。但傳統(tǒng)深度強(qiáng)化學(xué)習(xí)即深度Q學(xué)習(xí)網(wǎng)絡(luò)(deep Q-learning network,DQN)易出現(xiàn)收斂速度慢,算法偏差變大,難以收斂到最優(yōu)動(dòng)作狀態(tài)值,而降低機(jī)器人動(dòng)態(tài)避障的效果。

        在不依靠環(huán)境信息的情況下,本文研究將六足機(jī)器人上的激光測(cè)距儀采集距離數(shù)據(jù)作為雙重深度強(qiáng)化學(xué)習(xí)即雙重DQN(double DQN,DDQN)的輸入項(xiàng),將速度與行進(jìn)方向作為單片機(jī)控制輸出,將每個(gè)時(shí)刻采集的傳感器數(shù)據(jù)整合作為馬爾可夫狀態(tài)空間。結(jié)合傳統(tǒng)DQN與雙重深度強(qiáng)化學(xué)習(xí)DDQN算法相對(duì)比,對(duì)六足機(jī)器人進(jìn)行訓(xùn)練、測(cè)試、驗(yàn)證。

        1 雙重深度強(qiáng)化學(xué)習(xí)算法

        1.1 六足機(jī)器人運(yùn)動(dòng)建模

        相對(duì)于傳統(tǒng)的輪式和履帶式機(jī)器人,六足機(jī)器人對(duì)復(fù)雜地形的適應(yīng)能力更強(qiáng)但結(jié)構(gòu)設(shè)計(jì)和步態(tài)規(guī)劃卻較為復(fù)雜。實(shí)驗(yàn)通過(guò)運(yùn)動(dòng)學(xué)逆解得到機(jī)器人腿部股、髖和膝三個(gè)關(guān)節(jié)角度,建立笛卡爾坐標(biāo)系進(jìn)行足端軌跡規(guī)劃,控制舵機(jī)聯(lián)合轉(zhuǎn)動(dòng)使六足機(jī)器人移動(dòng)。

        六足機(jī)器人的三足步態(tài)即通過(guò)控制機(jī)身一側(cè)的前足、后足與另一側(cè)的中足在運(yùn)動(dòng)時(shí)交替處于支撐相和擺動(dòng)相[7]。圖1為六足機(jī)器人在各步態(tài)下行進(jìn)周期的穩(wěn)定性表現(xiàn),角度波動(dòng)范圍越小,機(jī)器人行走穩(wěn)定性越好。圖1(a)為三足步態(tài),圖1(b)為四足步態(tài),圖1(c)為五足步態(tài),由圖分析可知三足步態(tài)相較于另外兩種步態(tài)雖然穩(wěn)定性較小但其具有運(yùn)動(dòng)效率高,控制簡(jiǎn)單等優(yōu)點(diǎn)。因本次實(shí)驗(yàn)環(huán)境不涉及較為復(fù)雜的多結(jié)構(gòu)路面,故采用三足步態(tài)作為六足機(jī)器人的輸出動(dòng)作步態(tài)。

        圖1 六足機(jī)器人行進(jìn)步態(tài)特征

        1.2 強(qiáng)化學(xué)習(xí)

        強(qiáng)化學(xué)習(xí)為一種標(biāo)記延遲的監(jiān)督學(xué)習(xí),六足機(jī)器人在某t時(shí)刻感知的環(huán)境狀態(tài)為st,通過(guò)策略采取動(dòng)作at達(dá)到另一狀態(tài)st+1,由環(huán)境反饋獲得交互動(dòng)作的獎(jiǎng)懲回報(bào)rt,與環(huán)境交互的整個(gè)過(guò)程表現(xiàn)為馬爾科夫決策序列過(guò)程,整體可以表示為(st,at,rt,st+1)[8]。

        經(jīng)典的強(qiáng)化學(xué)習(xí)Q-learning算法通過(guò)當(dāng)前狀態(tài)和動(dòng)作決策進(jìn)行不斷試錯(cuò),其目標(biāo)是使總折扣回報(bào)最大化[9]。然而,傳統(tǒng)的Q-learning算法對(duì)輸入變量的復(fù)雜性非常敏感。當(dāng)離散的值函數(shù)面對(duì)高維或連續(xù)的狀態(tài)空間時(shí),必然會(huì)大大增加計(jì)算時(shí)間,并導(dǎo)致難以收斂,甚至引發(fā)維數(shù)災(zāi)難[10]。

        2015年,Silver D提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(con-volutional neural network,CNN)的深度強(qiáng)化學(xué)習(xí)算法DQN,它是由多層神經(jīng)網(wǎng)絡(luò)組成的深度強(qiáng)化學(xué)習(xí),作為替代傳統(tǒng)離散值函數(shù)的一種解決方案。神經(jīng)網(wǎng)絡(luò)強(qiáng)大的適應(yīng)能力使得逼近動(dòng)作值函數(shù)成為可能。并且通過(guò)使用深度強(qiáng)化學(xué)習(xí),將狀態(tài)變量為矩陣形式的大量輸入替換為一個(gè)連續(xù)變化的函數(shù)值,從而解決了維數(shù)災(zāi)難的問(wèn)題[11,12]。

        1.3 DDQN算法

        雖然基于DQN的策略在一些機(jī)器人動(dòng)態(tài)避障的問(wèn)題上得到了成功的應(yīng)用,但是在選擇行動(dòng)和評(píng)價(jià)價(jià)值函數(shù)時(shí)使用相同的網(wǎng)絡(luò)存在一定缺陷,這可能導(dǎo)致對(duì)結(jié)果的過(guò)度樂(lè)觀估計(jì)[13]。為了避免這種情況產(chǎn)生,使用一種雙重深度強(qiáng)化學(xué)習(xí)算法,其與傳統(tǒng)DQN結(jié)構(gòu)類(lèi)似,同樣具有兩個(gè)相同結(jié)構(gòu)的Q網(wǎng)絡(luò)。但與其不同,DDQN通過(guò)解耦目標(biāo)Q值動(dòng)作的選擇和目標(biāo)Q值的計(jì)算來(lái)消除過(guò)度估計(jì)的問(wèn)題和使用經(jīng)驗(yàn)回放來(lái)避免訓(xùn)練數(shù)據(jù)的相關(guān)性[14]。通過(guò)實(shí)際動(dòng)作價(jià)值Q網(wǎng)絡(luò)在現(xiàn)實(shí)中訓(xùn)練參數(shù),迭代C次后將權(quán)重復(fù)制更新到目標(biāo)動(dòng)作價(jià)值Q網(wǎng)絡(luò)中以降低過(guò)估計(jì)對(duì)訓(xùn)練結(jié)果的影響。DDQN的目標(biāo)值可以定義如下

        Qtagret=r+γQ(s′,argmaxaQ(s′,a|w)|w′)

        (1)

        式中γ為折扣因子,w為Q現(xiàn)實(shí)中網(wǎng)絡(luò)結(jié)構(gòu)權(quán)重,w′為Q估計(jì)中網(wǎng)絡(luò)結(jié)構(gòu)權(quán)重,s′為下一時(shí)刻感知的環(huán)境狀態(tài),a為選擇的動(dòng)作,r為獎(jiǎng)懲回報(bào)值。DDQN模型示意如圖2所示。

        圖2 DDQN模型

        2 機(jī)器人運(yùn)動(dòng)決策模型

        2.1 數(shù)據(jù)預(yù)處理

        為了提高訓(xùn)練的收斂速度,保證訓(xùn)練后的模型具有較好的效果,將機(jī)器人與環(huán)境交互得到的輸入數(shù)據(jù)進(jìn)行降維化處理[15],通過(guò)傳感器距離數(shù)據(jù)集輸入來(lái)避免高維深度信息帶來(lái)的收斂速度較慢和計(jì)算復(fù)雜的問(wèn)題。將六足機(jī)器人不能夠跨越的地方看作障礙物,滿足六足機(jī)器人運(yùn)動(dòng)學(xué)參數(shù)要求的路況作為可通過(guò)的路徑。

        通過(guò)激光測(cè)距儀和超聲波傳感器采集距離數(shù)據(jù)集,得到機(jī)器人在行進(jìn)過(guò)程中與局部障礙物距離的數(shù)據(jù)矩陣,機(jī)器人行進(jìn)速度為vrot,采集下一組數(shù)據(jù)集間隔時(shí)間為t,根據(jù)公式可判斷出障礙物運(yùn)動(dòng)速度vbar

        (2)

        式中xt為機(jī)器人距障礙物在t時(shí)刻的距離,sbar為障礙物運(yùn)動(dòng)狀態(tài)值,設(shè)立相對(duì)速度的閾值為3 cm/s,當(dāng)vbar>3時(shí)標(biāo)定障礙物運(yùn)動(dòng)狀態(tài)為動(dòng)態(tài)障礙物,令sbar=1;反之標(biāo)定為靜態(tài)障礙物,令sbar=0。通過(guò)加速度傳感器進(jìn)行慣性導(dǎo)航,來(lái)確定機(jī)器人在行進(jìn)過(guò)程中的位置,以此來(lái)判斷機(jī)器人是否到達(dá)目的地。當(dāng)數(shù)據(jù)集出現(xiàn)異常值即出現(xiàn)不正常數(shù)據(jù)時(shí),此時(shí)通過(guò)運(yùn)動(dòng)學(xué)的方式控制機(jī)器人的運(yùn)動(dòng)。數(shù)據(jù)集正常情況時(shí),將數(shù)據(jù)集、障礙物運(yùn)動(dòng)狀態(tài)值和障礙物運(yùn)動(dòng)速度作為機(jī)器人的狀態(tài),進(jìn)行雙重深度強(qiáng)化學(xué)習(xí)訓(xùn)練網(wǎng)絡(luò)參數(shù)。

        六足機(jī)器人的動(dòng)態(tài)避障算法主要運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)對(duì)機(jī)器人在局部環(huán)境中,如圖3中坐標(biāo)軸對(duì)應(yīng)的四個(gè)方向特征提取障礙物的距離和速度數(shù)據(jù)。

        圖3 避障建模效果

        在實(shí)際情況下障礙物并非質(zhì)點(diǎn),為保證六足機(jī)器人在行進(jìn)過(guò)程中能感知障礙和具有實(shí)際避障能力,四個(gè)方向的取值角度為80°,間隔20°取值一次,即一個(gè)方向取值個(gè)數(shù)為5次,如圖3(a)所示。其避免因數(shù)據(jù)取值過(guò)少而導(dǎo)致六足機(jī)器人避障失敗。機(jī)器人機(jī)身全長(zhǎng)為lhex,安全距離系數(shù)為ε,則機(jī)器人有效移動(dòng)的安全距離為

        dsafe=ε·lhex/sin40°

        (3)

        故當(dāng)d0°≥dsafe或d80°>dsafe時(shí),機(jī)器人可進(jìn)行避障后的有效動(dòng)作,否則視為機(jī)器人還未成功躲避障礙。

        六足機(jī)器人攀爬臺(tái)階的能力是通過(guò)機(jī)身底部?jī)蓚€(gè)不同放置方式的超聲波傳感器判定,如圖3(b)所示。當(dāng)傾斜30°放置的超聲波和同方向激光測(cè)距儀檢測(cè)的距離無(wú)較大改變,而水平放置的超聲波檢測(cè)到障礙物則執(zhí)行向上攀爬動(dòng)作;當(dāng)水平放置的超聲波和激光測(cè)距儀檢測(cè)距離無(wú)較大改變,傾斜30°放置的超聲波檢測(cè)距離突變,則執(zhí)行向下攀爬動(dòng)作。臺(tái)階高度位置應(yīng)處于機(jī)器人底盤(pán)高度和激光測(cè)距儀放置高度之間。

        2.2 DDQN模型

        強(qiáng)化學(xué)習(xí)模型所建立的神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)為一層輸入層,四層隱藏層和一層輸出層,網(wǎng)絡(luò)輸出為各個(gè)動(dòng)作對(duì)應(yīng)的Q值,選擇對(duì)應(yīng)最大Q值的動(dòng)作和環(huán)境相交互。樣本池采用優(yōu)先級(jí)抽樣,樣本的時(shí)序差分誤差越TDerr大,其訓(xùn)練價(jià)值越高,被選中概率增加。DDQN策略的逼近器采用卷積神經(jīng)網(wǎng)絡(luò),其模型的優(yōu)化目標(biāo)函數(shù)L(ω)為

        TDerr=Qtagret-Q(s,a|ω)

        (4)

        L(ω)=E[(TDerr)2]

        (5)

        本文通過(guò)運(yùn)用增量式ε-greedy探索和利用策略。在成功到達(dá)一定終點(diǎn)次數(shù)前,為保證探索率足夠,設(shè)置εmax∈(0,1),成功到達(dá)目標(biāo)次數(shù)N(suc)和增量Δε,由式(6)每回合更新ε值

        ε=ε+ln(N(suc)+2)·Δεandε≤εmax

        (6)

        由取值[0,1]的隨機(jī)數(shù)rand()與ε值比較,在當(dāng)前時(shí)刻選擇最優(yōu)動(dòng)作和探索未知狀態(tài)進(jìn)行平衡,加快神經(jīng)網(wǎng)絡(luò)模型收斂的速度,該策略定義為

        (7)

        2.3 動(dòng)態(tài)避障行為與獎(jiǎng)懲函數(shù)

        由于DDQN與DQN方法都具有高維輸入低維輸出的特點(diǎn),故六足機(jī)器人的執(zhí)行動(dòng)作設(shè)計(jì)為11個(gè)離散性動(dòng)作的輸出。如表1所示。

        表1 執(zhí)行動(dòng)作設(shè)計(jì)

        六足機(jī)器人通過(guò)控制舵機(jī)轉(zhuǎn)速和軌跡斷點(diǎn)數(shù)協(xié)同調(diào)節(jié)行進(jìn)速度,舵機(jī)運(yùn)行誤差積累增加而導(dǎo)致偏航角發(fā)生改變。偏航角越大機(jī)器人行走偏移量越大,圖4表示出機(jī)器人在三足步態(tài)下行走路程為120 cm時(shí),3種代表性的不同行進(jìn)速度下偏航角隨時(shí)間的變化。

        圖4 不同行進(jìn)速度下偏航角對(duì)比

        由圖4可知,為保證在速度和偏航角之間相對(duì)平衡,六足機(jī)器人在執(zhí)行攀爬動(dòng)作時(shí)為尋求機(jī)身穩(wěn)定,采用行進(jìn)速度為4.6 cm/s;而速度為8.6 cm/s比速度為4.6 cm/s時(shí)的偏航角誤差改變量較小,速度卻提高了進(jìn)一倍,因此在無(wú)障礙和靜態(tài)障礙物時(shí),六足機(jī)器人以8.6 cm/s的速度行走;而當(dāng)六足機(jī)器人在應(yīng)對(duì)動(dòng)態(tài)障礙物時(shí),為保證躲避速度的要求,使機(jī)器人在滿足能夠承受最大偏航角誤差下以速度為16 cm/s行走。

        通過(guò)目標(biāo)任務(wù)主次級(jí)分層制定獎(jiǎng)勵(lì)函數(shù)避免獎(jiǎng)勵(lì)稀疏,主任務(wù)為到達(dá)目標(biāo)位置給予較大獎(jiǎng)勵(lì);次級(jí)任務(wù)為靜態(tài)、動(dòng)態(tài)避障和快速抵達(dá)目標(biāo)位置。定義機(jī)器人對(duì)障礙物最短距離為disrot。當(dāng)disrot<0.2 m時(shí),視為一次碰撞,給予懲罰值。根據(jù)機(jī)器人與目標(biāo)位置的相對(duì)距離disFin進(jìn)行獎(jiǎng)勵(lì)塑形,取0.4做為懲罰因子,相對(duì)距離越小懲罰值越小同時(shí)機(jī)器人停止不動(dòng)給予懲罰。應(yīng)對(duì)動(dòng)態(tài)障礙時(shí),防止因動(dòng)態(tài)障礙物未完全駛離而導(dǎo)致機(jī)器人復(fù)碰撞情況產(chǎn)生,如圖5所示。

        圖5 復(fù)碰撞情況示意

        根據(jù)vbar和vrot估算出預(yù)計(jì)相撞時(shí)間為t0和預(yù)計(jì)躲避時(shí)間為t1。當(dāng)t0>t1時(shí),機(jī)器人躲避方向選擇與障礙物移動(dòng)方向一致時(shí)給予獎(jiǎng)勵(lì);當(dāng)t0

        R=-(disFin)0.4+Rm(disrot,disFin|t0,t1)

        (8)

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)平臺(tái)描述

        機(jī)器人移動(dòng)平臺(tái)為18個(gè)自由度的六足機(jī)器人,驅(qū)動(dòng)硬件為單片機(jī)STM32F4。為解決運(yùn)算速度的問(wèn)題,電腦通過(guò)TensorFlow計(jì)算更新神經(jīng)網(wǎng)絡(luò)權(quán)重,根據(jù)策略決定執(zhí)行的動(dòng)作數(shù)據(jù),通過(guò)ATK—HC05藍(lán)牙模塊與串口進(jìn)行全雙工通信,傳輸數(shù)據(jù)至單片機(jī)。機(jī)器人執(zhí)行動(dòng)作后將觀測(cè)值反饋給電腦進(jìn)行下一次更新,通過(guò)上下位機(jī)數(shù)據(jù)傳輸?shù)姆绞奖苊鈫纹瑱C(jī)內(nèi)存不足導(dǎo)致的計(jì)算速度緩慢,時(shí)延過(guò)大的問(wèn)題。

        3.2 實(shí)驗(yàn)過(guò)程設(shè)計(jì)

        通過(guò)在實(shí)驗(yàn)室搭建實(shí)驗(yàn)環(huán)境,為提高強(qiáng)化學(xué)習(xí)訓(xùn)練效率,本文采用對(duì)稱(chēng)式搭建尺寸大小為5.6 m×3 m的迷宮場(chǎng)景,機(jī)器人完成一次抵達(dá)終點(diǎn)任務(wù)后,目的地與起始位置交換;實(shí)驗(yàn)動(dòng)態(tài)障礙物為四驅(qū)小車(chē),小車(chē)沿移動(dòng)軌跡以10 cm/s均速行進(jìn),每次行進(jìn)到軌跡末端會(huì)等待3 s后再反向移動(dòng)以此避免機(jī)器人很難避過(guò)小車(chē)抵達(dá)終點(diǎn)而導(dǎo)致?lián)p失函數(shù)難以收斂的情況;六足機(jī)器人訓(xùn)練軌跡和動(dòng)態(tài)障礙物移動(dòng)軌跡如圖6所示,實(shí)際搭建的實(shí)驗(yàn)場(chǎng)景如圖7所示。

        圖6 訓(xùn)練示意

        圖7 算法驗(yàn)證實(shí)驗(yàn)環(huán)境

        本次實(shí)驗(yàn)設(shè)置兩組相同網(wǎng)絡(luò)模型參數(shù)的DQN和DDQN算法,網(wǎng)絡(luò)模型訓(xùn)練參數(shù):經(jīng)驗(yàn)回放池樣本數(shù)為12 000個(gè),回合訓(xùn)練批量為60個(gè),折扣回報(bào)系數(shù)為0.9,網(wǎng)絡(luò)梯度動(dòng)量為0.9,學(xué)習(xí)率為0.01,網(wǎng)絡(luò)權(quán)重更新回合為100。令通信中的六足機(jī)器人在搭建好的迷宮內(nèi)進(jìn)行循環(huán)訓(xùn)練。在規(guī)定回合后機(jī)器人停止行動(dòng),對(duì)比兩種算法的訓(xùn)練效果。

        3.3 實(shí)驗(yàn)結(jié)果與分析

        六足機(jī)器人的動(dòng)態(tài)避障實(shí)驗(yàn)結(jié)果局部截圖如圖8所示,圖8中(a)~(f)六種情況在全局環(huán)境下發(fā)生位置與圖7中的標(biāo)號(hào)相對(duì)應(yīng)。

        圖8 六足機(jī)器人動(dòng)態(tài)避障實(shí)驗(yàn)

        在應(yīng)對(duì)靜態(tài)障礙物時(shí),機(jī)器人通過(guò)策略選擇常速動(dòng)作穩(wěn)定避開(kāi)靜態(tài)障礙物,如圖8(a)所示;強(qiáng)化學(xué)習(xí)策略根據(jù)次級(jí)任務(wù)獎(jiǎng)懲函數(shù)的設(shè)定,使機(jī)器人以最短回合數(shù)抵達(dá)終點(diǎn),如圖8(b)所示;應(yīng)對(duì)動(dòng)態(tài)障礙物時(shí),機(jī)器人向旁側(cè)閃避時(shí)間低于與小車(chē)相撞時(shí)間且旁側(cè)無(wú)障礙物,則學(xué)習(xí)策略?xún)A向于采取向旁側(cè)躲避,等待小車(chē)完全駛離后再向前行進(jìn),以避免復(fù)碰撞的產(chǎn)生,如圖8(c)所示;當(dāng)機(jī)器人向旁側(cè)閃避時(shí)間高于與小車(chē)相撞時(shí)間,學(xué)習(xí)策略大概率采取與小車(chē)運(yùn)動(dòng)方向同向移動(dòng), 如圖8(d)所示;神經(jīng)網(wǎng)絡(luò)通過(guò)訓(xùn)練傳感器采集得到的距離數(shù)據(jù)集,機(jī)器人成功對(duì)臺(tái)階進(jìn)行攀爬,如圖8所示。

        圖9為DQN與DDQN兩種不同算法訓(xùn)練機(jī)器人動(dòng)態(tài)避障后的結(jié)果對(duì)比。圖9(a)可知,DDQN有效減少了平均狀態(tài)動(dòng)作值的過(guò)度樂(lè)觀估計(jì)。圖9(b)可以看出DDQN比DQN的損失函數(shù)收斂速度快。

        圖9 DQN與DDQN算法避障結(jié)果對(duì)比

        4 結(jié) 論

        針對(duì)移動(dòng)機(jī)器人在智能決策控制下的動(dòng)態(tài)避障問(wèn)題,本文提出基于雙重深度強(qiáng)化學(xué)習(xí)的六足機(jī)器人動(dòng)態(tài)避障算法,與傳統(tǒng)的深度強(qiáng)化學(xué)習(xí)方法進(jìn)行比較,證明了雙重深度強(qiáng)化學(xué)習(xí)在迭代訓(xùn)練收斂速度和防止算法結(jié)果偏差變大表現(xiàn)出更好的性能,六足機(jī)器人能夠有效完成簡(jiǎn)單的動(dòng)態(tài)避障任務(wù)。但本次實(shí)驗(yàn)的環(huán)境建模較小,只是針對(duì)性進(jìn)行建模,故還不能應(yīng)用于復(fù)雜的環(huán)境中,仍需要進(jìn)一步研究。

        猜你喜歡
        深度動(dòng)作環(huán)境
        長(zhǎng)期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
        一種用于自主學(xué)習(xí)的虛擬仿真環(huán)境
        深度理解一元一次方程
        孕期遠(yuǎn)離容易致畸的環(huán)境
        深度觀察
        深度觀察
        環(huán)境
        深度觀察
        動(dòng)作描寫(xiě)要具體
        畫(huà)動(dòng)作
        大尺度无遮挡激烈床震网站 | 无码gogo大胆啪啪艺术| 内射无码专区久久亚洲| 无码中文av有码中文av| av网站在线观看二区| 男女男精品视频网站免费看| 精东天美麻豆果冻传媒mv| 免费一区在线观看| 一本久久a久久精品综合| 最好看的亚洲中文字幕| 国产激情视频一区二区三区| 91福利视频免费| av在线男人的免费天堂| 国产精品女同一区二区免费站| 免费人成网ww555kkk在线| 日韩免费小视频| 人妻少妇偷人精品久久人妻| 无套内谢孕妇毛片免费看| 夜夜高潮夜夜爽夜夜爱爱| 成人无码无遮挡很H在线播放| 亚洲精品国产成人久久av盗摄| 国产97色在线 | 国产| 精品久久久久久中文字幕大豆网| 日韩毛片久久91| 被灌醉的日本人妻中文字幕| 免费无码a片一区二三区| 97色在线视频| 一区二区三区观看在线视频| 久青草影院在线观看国产| 天美传媒精品1区2区3区| 国产码欧美日韩高清综合一区 | 极品粉嫩嫩模大尺度无码视频| 狠狠色综合网站久久久久久久 | 97久久香蕉国产线看观看| 欧美日韩中文字幕日韩欧美| 蕾丝女同一区二区三区| 亚洲av美国av产亚洲av图片| 久久精品re| 亚洲国产大胸一区二区三区| 在线观看特色大片免费视频| 少妇人妻偷人精品无码视频|