亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于勢(shì)能與好奇心機(jī)制的室內(nèi)環(huán)境導(dǎo)航研究*

        2023-02-02 05:23:24趙東杰
        傳感器與微系統(tǒng) 2023年1期
        關(guān)鍵詞:室內(nèi)環(huán)境障礙物機(jī)器人

        朱 林, 趙東杰, 徐 茂

        (1.青島大學(xué) 自動(dòng)化學(xué)院 未來研究院,山東 青島 266071; 2.山東省工業(yè)控制技術(shù)重點(diǎn)實(shí)驗(yàn)室,山東 青島 266071)

        0 引 言

        路徑規(guī)劃是移動(dòng)機(jī)器人執(zhí)行導(dǎo)航任務(wù)中的重要組成部分[1,2]。對(duì)于室內(nèi)環(huán)境,傳統(tǒng)導(dǎo)航框架采用同步定位和地圖(SLAM)[3]繪制未知環(huán)境,然后利用定位算法[4],通過路徑規(guī)劃模塊確定機(jī)器人的當(dāng)前位置并將其移動(dòng)到目標(biāo)位置[5,6]。傳統(tǒng)路徑規(guī)劃方法包括人工勢(shì)場(chǎng)法、基于圖搜索方法、基于采樣的方法[6,7]等。上述方法需要提前通過傳感器建立導(dǎo)航地圖,但構(gòu)建地圖是一項(xiàng)復(fù)雜的工作,如果環(huán)境發(fā)生改變又需要重新構(gòu)建地圖。所以,傳統(tǒng)的路徑規(guī)劃存在地圖依賴、實(shí)時(shí)性差、專家經(jīng)驗(yàn)依賴[8]等問題。針對(duì)這種問題,人們提出了深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)[9]。

        近年來,學(xué)術(shù)界和工業(yè)界對(duì)基于DRL的無地圖導(dǎo)航開展深入研究并取得許多成果。Tai L等人[10]成功地將DRL應(yīng)用于無地圖導(dǎo)航,并可直接部署在真實(shí)的室內(nèi)環(huán)境中。Long P等人[11]使用激光雷達(dá)作為輸入,提出了一種基于近端策略優(yōu)化(proximal policy optimization,PPO)的框架來避免多個(gè)機(jī)器人之間的障礙物。上述方法大多側(cè)重于強(qiáng)化學(xué)習(xí)結(jié)構(gòu)的改進(jìn),獎(jiǎng)勵(lì)值大多是稀疏的。通過設(shè)計(jì)合理的獎(jiǎng)勵(lì)函數(shù),可以進(jìn)一步提高強(qiáng)化學(xué)習(xí)的效果。

        Pathak D等人[12]提出,Agent預(yù)測(cè)自身行為結(jié)果的能力可以用來衡量狀態(tài)的新穎性或內(nèi)在的好奇心。內(nèi)在好奇心模塊(intrinsic curiosity module,ICM)用于在強(qiáng)化學(xué)習(xí)過程中獲取該信號(hào),其預(yù)測(cè)誤差可以作為一種內(nèi)在獎(jiǎng)勵(lì)。從實(shí)驗(yàn)中可以看出,通過自我監(jiān)督的方式學(xué)習(xí)到的內(nèi)在獎(jiǎng)勵(lì),可以激勵(lì)A(yù)gent更好地探索當(dāng)前環(huán)境,并使利用環(huán)境結(jié)構(gòu)制定更有效的規(guī)劃策略。

        基于此,本文著重研究獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì),針對(duì)稀疏獎(jiǎng)勵(lì)下機(jī)器人實(shí)現(xiàn)路徑規(guī)劃效果不理想,本文設(shè)計(jì)出了針對(duì)于室內(nèi)環(huán)境下的外部獎(jiǎng)勵(lì);考慮到室內(nèi)環(huán)境的復(fù)雜性所導(dǎo)致機(jī)器人容易陷入獎(jiǎng)勵(lì)局部極小值問題,本文結(jié)合ICM作為內(nèi)部獎(jiǎng)勵(lì)對(duì)此類問題進(jìn)行優(yōu)化,在模擬環(huán)境中進(jìn)行了一系列測(cè)試,證明了該模型的高效性。

        1 理論背景

        1.1 強(qiáng)化學(xué)習(xí)

        將強(qiáng)化學(xué)習(xí)中的自主導(dǎo)航策略看作是一個(gè)馬爾可夫決策過程(Markov decision process)[13]。在每一Step內(nèi),機(jī)器人都會(huì)接收到當(dāng)前的狀態(tài)信息st,動(dòng)作信息at,隨后過渡到下一個(gè)狀態(tài)st+1,st+1遵循條件概率分布p(st+1|st,at)。機(jī)器人通過隨機(jī)策略π選擇動(dòng)作,并在每次行動(dòng)中獲得獎(jiǎng)勵(lì)rt。強(qiáng)化學(xué)習(xí)的目標(biāo)是學(xué)習(xí)最大累計(jì)回報(bào)Rt下的策略,Rt滿足

        Rt=

        (1)

        式中γ∈[0,1]為折扣因子,rt為機(jī)器人在某一時(shí)刻所獲得的內(nèi)在獎(jiǎng)勵(lì)與外在獎(jiǎng)勵(lì)之和。在這里,考慮回合性的強(qiáng)化學(xué)習(xí)情況,即在每個(gè)回合內(nèi),機(jī)器人在有限時(shí)間范圍內(nèi)獲得的獎(jiǎng)勵(lì)最大化。

        1.2 DRL

        DRL與傳統(tǒng)的強(qiáng)化學(xué)習(xí)不同的是,傳統(tǒng)的強(qiáng)化學(xué)習(xí)受動(dòng)作空間和樣本空間大小的局限,且一般是離散的情境下。然而,比較復(fù)雜的、更加接近實(shí)際情況的任務(wù)則往往有著很大的狀態(tài)空間和連續(xù)的動(dòng)作空間。當(dāng)輸入激光雷達(dá)信息時(shí),通常具有很高的維度,傳統(tǒng)的強(qiáng)化學(xué)習(xí)很難處理,DRL的優(yōu)勢(shì)在于可以把深度學(xué)習(xí)對(duì)應(yīng)的高維輸入與強(qiáng)化學(xué)習(xí)結(jié)合起來。DRL框架如圖1所示。

        圖1 DRL框架

        對(duì)于無地圖導(dǎo)航,DRL方法主要有2種:一種是基于價(jià)值的方法,通過更新價(jià)值函數(shù)使智能體學(xué)習(xí)到有效的策略;另一種是基于策略的方法,通過更新策略函數(shù)使智能體學(xué)習(xí)到有效的策略。本文選擇基于策略的PPO算法[14]作為DRL方法。

        2 本文方法

        本文使用Turtlebot3作為導(dǎo)航機(jī)器人,由376維的激光雷達(dá)作為輸入,使機(jī)器人在每一Step下獲得對(duì)應(yīng)信息。機(jī)器人在基于無碰撞的最優(yōu)路徑策略下完成路徑規(guī)劃任務(wù)。

        2.1 外部獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

        外部獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)如下

        (2)

        式中φg為機(jī)器人到達(dá)目標(biāo)點(diǎn)附近0.2 m處,判定為完成路徑規(guī)劃任務(wù),同時(shí)獲得正獎(jiǎng)勵(lì)80,目標(biāo)點(diǎn)坐標(biāo)更新,機(jī)器人返回初始位置并結(jié)束本回合;φo為機(jī)器人運(yùn)動(dòng)到距離障礙物0.1 m處,判定為任務(wù)失敗,同時(shí)獲得負(fù)獎(jiǎng)勵(lì)-40,目標(biāo)點(diǎn)坐標(biāo)不變,機(jī)器人返回初始位置并結(jié)束本回合。此外,根據(jù)實(shí)際室內(nèi)環(huán)境大小與機(jī)器人最大線速度定義了最大步長(zhǎng)Step,如果超過最大步長(zhǎng)一樣視為任務(wù)失敗。同時(shí),本文基于勢(shì)能獎(jiǎng)勵(lì)塑造理論設(shè)計(jì)了機(jī)器人在每一狀態(tài)st下的最短路徑外部獎(jiǎng)勵(lì)函數(shù)和避障外部獎(jiǎng)勵(lì)函數(shù)。

        2.1.1 最短路徑獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

        機(jī)器人與目標(biāo)點(diǎn)間距離的獎(jiǎng)勵(lì)函數(shù)rd

        (3)

        rd(st,at,st+1)=[φg(st+1)-φg(st)]×k1

        (4)

        式中 (xg,yg)為目標(biāo)點(diǎn)坐標(biāo)位置,(xc,yc)為機(jī)器人坐標(biāo)位置,φg為機(jī)器人與目標(biāo)點(diǎn)在歐氏空間中的直線距離;st為機(jī)器人當(dāng)前狀態(tài),at為機(jī)器人在當(dāng)前狀態(tài)下的行為,st+1為機(jī)器人下一時(shí)刻的狀態(tài),k1為負(fù)實(shí)數(shù)。

        機(jī)器人朝向目標(biāo)點(diǎn)的獎(jiǎng)勵(lì)函數(shù)rθ

        (5)

        rh(st,at,st+1)=[φθ(st+1)-φθ(st)]×k2

        (6)

        式中φθ為機(jī)器人與目標(biāo)點(diǎn)間的直線與機(jī)器人當(dāng)前狀態(tài)下的夾角,θ∈[0,π],abs為取絕對(duì)值,k2為負(fù)實(shí)數(shù)。

        2.1.2 避障獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

        機(jī)器人與障礙物之間距離的獎(jiǎng)勵(lì)函數(shù)ro

        (7)

        ro(st,at,st+1)=[φo(st+1)-φo(st)]×k3

        (8)

        式中obs為激光雷達(dá)感知到的機(jī)器人與障礙物間的距離,k3為正實(shí)數(shù)。

        考慮室內(nèi)環(huán)境的特殊性,機(jī)器人完成任務(wù)途中需要穿過許多來自2個(gè)方向障礙物的狹窄通道,比如門、較窄的過道等。所以,本文設(shè)計(jì)了針對(duì)來自2個(gè)方向障礙物的避障獎(jiǎng)勵(lì)函數(shù)rb

        (9)

        rb(s,a,st+1)=[φb(st+1)-φb(st)]×k4

        (10)

        如圖2所示,l1,l2分別為機(jī)器人車頭與障礙物Obs1與障礙物Obs2的最短距離,l1與l3夾角為θ1,l2與l3夾角為θ2,l4為機(jī)器人當(dāng)前朝向。一般來說,當(dāng)θ1=θ2時(shí),為機(jī)器人通過2個(gè)障礙物的最優(yōu)路徑,所以,將l3與l4的夾角定義為θ3得到了外部獎(jiǎng)勵(lì)函數(shù)rb。其中,k4為負(fù)實(shí)數(shù)。

        圖2 機(jī)器人避障最優(yōu)路徑示意

        至此,得到了4個(gè)基于勢(shì)能的外部獎(jiǎng)勵(lì)函數(shù)rd,rθ,ro,rb?;趧?shì)能的外部總獎(jiǎng)勵(lì)函數(shù)表示為

        (11)

        式中k(k<0)為每一步的懲罰值,用來刺激機(jī)器人完成任務(wù)。

        2.2 內(nèi)部獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

        圖3 ICM結(jié)構(gòu)

        表1 Turtlebo3動(dòng)作空間劃分

        (12)

        (13)

        式(12)為交叉熵?fù)p失函數(shù)表達(dá)式,式(13)為均方誤差損失函數(shù)表達(dá)式。

        內(nèi)部獎(jiǎng)勵(lì)Ri表示為

        (14)

        由此,以外部獎(jiǎng)勵(lì)值與加權(quán)后的內(nèi)部獎(jiǎng)勵(lì)值作為總獎(jiǎng)勵(lì)rt

        (15)

        其中,μi為內(nèi)部獎(jiǎng)勵(lì)系數(shù),μi>0。

        2.3 PPO算法

        將設(shè)計(jì)好的獎(jiǎng)勵(lì)函數(shù)結(jié)合PPO算法[14]作為DRL算法訓(xùn)練機(jī)器人完成導(dǎo)航任務(wù)。PPO的策略梯度表達(dá)式為

        (16)

        使用一層全連接神經(jīng)網(wǎng)絡(luò)作為狀態(tài)提取層,將提取后的激光雷達(dá)狀態(tài)信息與機(jī)器人當(dāng)前狀態(tài)作為輸入,隨后通過2層全連接神經(jīng)網(wǎng)絡(luò)構(gòu)成的特征融合層,將特征融合后的狀態(tài)分別輸入Actor-Critic網(wǎng)絡(luò)[15]。其中,Actor網(wǎng)絡(luò)輸出機(jī)器人動(dòng)作概率分布πθ,然后通過SoftMax分類器得到動(dòng)作at;Critic網(wǎng)絡(luò)估計(jì)狀態(tài)st處的狀態(tài)值Vφ。在DRL訓(xùn)練中,πθ,Vφ與內(nèi)部獎(jiǎng)勵(lì)中的正向模型和反向模型同時(shí)更新網(wǎng)絡(luò)參數(shù)。算法框圖如圖4。

        圖4 算法框圖

        3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

        3.1 室內(nèi)仿真環(huán)境搭建

        考慮到機(jī)器人工作的真實(shí)環(huán)境,本文通過ROS和Gazebo搭建了2個(gè)室內(nèi)仿真環(huán)境,2個(gè)環(huán)境分別模擬了2種不同的室內(nèi)情景,如圖5(a)和圖5(b)。

        圖5 Gazebo搭建的室內(nèi)仿真環(huán)境

        環(huán)境1與環(huán)境2為12 m×12 m的封閉結(jié)構(gòu),模擬了真實(shí)室內(nèi)大小。其中,環(huán)境1為靜態(tài)環(huán)境,模擬了房間內(nèi)雜物堆砌的場(chǎng)景;環(huán)境2為動(dòng)態(tài)環(huán)境,模擬了兩室一廳的場(chǎng)景,添加了2個(gè)移動(dòng)的行人作為動(dòng)態(tài)障礙物,增加了訓(xùn)練的難度。2個(gè)環(huán)境中的正方形用來表示目標(biāo)點(diǎn),目標(biāo)點(diǎn)位置是隨機(jī)在地圖上生成的。

        3.2 實(shí)驗(yàn)參數(shù)設(shè)置

        本文的實(shí)驗(yàn)環(huán)境為CPU處理器、Ubuntu18.04,Python2.7,Pytorch1.12,ROS(Melodic),Gazebo9。實(shí)驗(yàn)參考如表2。

        表2 實(shí)驗(yàn)參數(shù)

        3.3 結(jié)果分析

        將未添加外部勢(shì)能獎(jiǎng)勵(lì)模型記為PPO,將添加了外部勢(shì)能獎(jiǎng)勵(lì)模型記為PPOe,將添加了外部勢(shì)能獎(jiǎng)勵(lì)與內(nèi)部好奇心獎(jiǎng)勵(lì)模型記為PPOei,并將3種模型作為本文的實(shí)驗(yàn)結(jié)果作對(duì)比分析。如圖6所示,在環(huán)境1、環(huán)境2中分別進(jìn)行了800次、1 800次的迭代訓(xùn)練使得曲線達(dá)到收斂。圖中平滑系數(shù)均為0.99的獎(jiǎng)勵(lì)曲線。每一回合的總獎(jiǎng)勵(lì)值越大,說明機(jī)器人在當(dāng)前回合做出的正確行為越多,路徑選擇更優(yōu)。

        圖6 3種模型在2個(gè)環(huán)境中的總獎(jiǎng)勵(lì)曲線

        表3為3種模型在2個(gè)環(huán)境中的成功率。PPO模型在2個(gè)環(huán)境中都未能完成路徑規(guī)劃任務(wù),PPOei模型相較于PPOe模型在環(huán)境1中的成功率提升了17.62 %,在環(huán)境2中成功率提升了7.77 %。

        表3 3種模型在2個(gè)環(huán)境中的成功率

        稀疏的外部獎(jiǎng)勵(lì)模型PPO無論是在簡(jiǎn)單環(huán)境還是復(fù)雜環(huán)境都無法完成路徑規(guī)劃任務(wù),這是由于外部獎(jiǎng)勵(lì)信號(hào)弱,機(jī)器人在當(dāng)前狀態(tài)下得不到有價(jià)值的狀態(tài)評(píng)估,因而采取盲目的探索方式進(jìn)行訓(xùn)練;PPOe模型很好地解決了這一問題,但在訓(xùn)練中期發(fā)現(xiàn),當(dāng)機(jī)器人移動(dòng)到存在多方障礙物的情況下,極易陷入獎(jiǎng)勵(lì)局部極小值,這時(shí)機(jī)器人很難逃離獎(jiǎng)勵(lì)局部極小值區(qū)域,因而會(huì)采取一種原地打轉(zhuǎn)的保守策略,以避免碰到障礙物,在這種情況下,機(jī)器人很難完成任務(wù);PPOei模型在此基礎(chǔ)上優(yōu)化了獎(jiǎng)勵(lì)局部極小值問題,從而加速了訓(xùn)練過程,提高了任務(wù)成功率。綜上所述,PPOei模型相較于PPOe與PPO,在室內(nèi)場(chǎng)景下表現(xiàn)出了更好的性能。

        4 結(jié) 論

        本文使用DRL方法實(shí)現(xiàn)機(jī)器人在室內(nèi)場(chǎng)景下的路徑規(guī)劃,著重研究了獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)問題。首先證明了稀疏獎(jiǎng)勵(lì)條件下機(jī)器人實(shí)現(xiàn)路徑規(guī)劃任務(wù)的不可行性,隨后設(shè)計(jì)了基于勢(shì)能的外部獎(jiǎng)勵(lì)函數(shù);針對(duì)獎(jiǎng)勵(lì)局部極小值引起的次優(yōu)策略下最大獎(jiǎng)勵(lì)值過早收斂問題,使用基于ICM獎(jiǎng)勵(lì)作為獎(jiǎng)勵(lì)增強(qiáng)信號(hào)優(yōu)化了此類問題。實(shí)驗(yàn)表明,PPOei模型相較于PPOe與PPO,在訓(xùn)練速度以及成功率上表現(xiàn)出了更好的性能。

        猜你喜歡
        室內(nèi)環(huán)境障礙物機(jī)器人
        高低翻越
        SelTrac?CBTC系統(tǒng)中非通信障礙物的設(shè)計(jì)和處理
        室內(nèi)環(huán)境檢測(cè)及控制系統(tǒng)設(shè)計(jì)
        多肉植物垂直綠化在室內(nèi)環(huán)境中的應(yīng)用探究
        植物在航站樓室內(nèi)環(huán)境中的應(yīng)用
        室內(nèi)環(huán)境下移動(dòng)機(jī)器人三維視覺SLAM
        機(jī)器人來幫你
        認(rèn)識(shí)機(jī)器人
        機(jī)器人來啦
        認(rèn)識(shí)機(jī)器人
        亚洲不卡高清av在线| 国产精品无码日韩欧| 亚洲免费av电影一区二区三区| 日本午夜一区二区视频| 三区中文字幕在线观看| 宅男666在线永久免费观看| 国产白嫩美女在线观看| 91狼友在线观看免费完整版| 亚洲韩日av中文字幕| 欧美成人国产精品高潮| 1000部夫妻午夜免费| 揄拍成人国产精品视频肥熟女| 免费av在线 国产精品| 又黄又爽又色视频| 日本护士吞精囗交gif| 亚洲黄色性生活一级片| 亚洲av天堂一区二区| 亚洲中文字幕无码爆乳app| 国产av一区二区精品久久凹凸| 亚洲午夜久久久久中文字幕久| 手机在线播放成人av| 极品少妇hdxx麻豆hdxx| 一本色道av久久精品+网站| а的天堂网最新版在线| 少妇被粗大的猛进69视频| 亚洲精品无码av人在线观看| 99久久久无码国产精品9| 日韩av一区在线播放| 日韩三级一区二区三区| 色偷偷av男人的天堂| 亚洲国产99精品国自产拍| 风流少妇一区二区三区91| 无码喷潮a片无码高潮| 999久久久免费精品国产| 亚洲欧洲日产国码无码av野外| 精品人妻av一区二区三区麻豆| 日韩乱码人妻无码中文字幕久久| 69av视频在线观看| av一区二区三区高清在线看| 国产精品久久久久久久久久红粉| 亚洲av无码一区二区三区四区 |