亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于觸覺傳感器和強化學(xué)習(xí)內(nèi)在獎勵的機械臂抓取方法

        2022-06-17 07:48:18宋相兵季玉龍俎文強楊紅雨
        關(guān)鍵詞:觸覺夾具成功率

        宋相兵, 季玉龍, 俎文強, 何 揚, 楊紅雨,

        (1.四川大學(xué)視覺合成圖形圖像技術(shù)國防重點學(xué)科實驗室, 成都 610065;2. 四川大學(xué)空天科學(xué)與工程學(xué)院, 成都 610065;3.四川大學(xué)計算機學(xué)院, 成都 610065)

        1 引 言

        人們對周遭環(huán)境和物體進行探索時,非常依賴觸覺,并依靠觸覺感知來引導(dǎo)下一步操作.比如,人類可以在沒有視覺的情況下靈活操縱某一物體,但是在失去觸覺后,人們操縱物體的靈活性將大大降低[1,2].同樣機器人在密集接觸的任務(wù)中也非常依賴觸覺提供的局部信息(如壓力、震動、接觸印記[3]等),因為這些信息在機器人進行靈巧操作[4]或抓握動作[5]時起著至關(guān)重要的作用.

        與視覺傳感器相比,觸覺傳感器提供的接觸信息能讓智能體更充分地感知環(huán)境和獲取交互情況,比如,感知到物體發(fā)生滑動,或者已經(jīng)牢牢抓住物體[6].通常在視覺被遮擋或者識別不準確的情況下,智能體將無法準確感知環(huán)境,因而無法完成任務(wù),而Wu等[7]發(fā)現(xiàn)智能體僅依靠觸覺信息仍可以通過嘗試與探索完成抓取任務(wù).因此觸覺傳感器在智能體中的應(yīng)用逐漸成為研究熱點.目前基于視覺的觸覺傳感器因其能獲得高分辨率的反饋信息在機器人領(lǐng)域很受歡迎,并已經(jīng)產(chǎn)生了很多應(yīng)用和設(shè)計.比如Dong等研發(fā)的GelSight[3]、 GelSlim 2.0[8]、GelSlim MPalm[9]、GelSlim 3.0[10],Lambeta等[11]設(shè)計的DIGIT,Padmanabha等[12]利用多個微型攝像頭制作的OmniTact傳感器,以及She等[13]在柔性手指中嵌入的觸覺傳感器等.另外TacTip[14]雖然也是通過攝像頭獲取觸覺信號,但是其觸覺印記的分辨率遠低于上述幾種傳感器.除此之外,陣列式傳感器在機器人領(lǐng)域也很受青睞.它們大都利用新材料將外部刺激或壓力轉(zhuǎn)化為電信號,并且感知單元的布局相對規(guī)則.這類傳感器根據(jù)感知原理主要分為:壓阻式傳感器[15]、電容式傳感器[16]和氣壓傳感器[4]等.不論信息的獲取方式是怎樣,每一個新的傳感器都有其固有的屬性,如脆性、體積、分辨率、延遲和生產(chǎn)成本等[17].

        雖然基于視覺的觸覺傳感器能獲取高分辨率的觸覺信息,但由于其數(shù)據(jù)大都是圖像格式,若想獲取有效信息還需要經(jīng)過復(fù)雜處理,而基于陣列的觸覺傳感器不僅獲取觸覺信息效率較高,而且還易于進行模擬仿真,這使得我們可以方便地根據(jù)觸覺信號給予智能體相應(yīng)的獎勵.因此考慮到這些特性和其不同的應(yīng)用場景,本文將仿真陣列傳感器進行實驗,具體傳感器仿真細節(jié)在3.1節(jié)中詳細闡述.

        在機器人抓取方面,觸覺信息大多數(shù)情況下都作為深度神經(jīng)網(wǎng)絡(luò)的輸入用于機器人訓(xùn)練.比如Hogan等[9]、Calandra等[5]和Hellman等[18]先利用機器學(xué)習(xí)訓(xùn)練了一個預(yù)測模型,然后讓機器人根據(jù)其結(jié)果來判斷狀態(tài)后再執(zhí)行相應(yīng)任務(wù).這類方法計算復(fù)雜,會拖慢訓(xùn)練速率.而如今深度強化學(xué)習(xí)已在多個領(lǐng)域表現(xiàn)出巨大的潛力,如電子游戲、仿真模擬、機器人控制[19]以及圖像處理[20]等.且Dong等[21]試驗得出強化學(xué)習(xí)在機器人抓取等復(fù)雜任務(wù)中的表現(xiàn)要優(yōu)于監(jiān)督學(xué)習(xí).另外Chebotar等[22]將深度學(xué)習(xí)與強化學(xué)習(xí)結(jié)合,利用觸覺的時空特征訓(xùn)練了一個抓握穩(wěn)定判別器,讓智能體學(xué)會以更優(yōu)姿態(tài)重新抓取物體.

        而另一些研究人員則僅將觸覺信號當成是強化學(xué)習(xí)環(huán)境的狀態(tài)觀測值,讓智能體通過試錯與獎勵反饋學(xué)會抓握物體,比如文獻[6]讓機器人學(xué)會自適應(yīng)控制力的大小避免物體掉落、文獻[23]研究表明加入觸覺反饋可以顯著提高多指機器人抓握物體的魯棒性,同樣的方法也被用于其他非抓取的任務(wù),如文獻[24]讓智能體根據(jù)觸覺反饋學(xué)會控制方塊;文獻[4]將氣壓傳感作為觸覺讓機械手指學(xué)會旋轉(zhuǎn)和移動物體.這種方法雖然能提高智能體學(xué)習(xí)效率,但其本質(zhì)是增加了環(huán)境的狀態(tài)維度,提高了采樣機器人的采樣效率,而沒有真正利用有價值的觸覺信息.

        與以上工作不同的是,另一些學(xué)者則根據(jù)觸覺信息制定獎懲函數(shù)來誘導(dǎo)智能體嘗試和探索,比如Huang 等[25]根據(jù)觸覺反饋制定獎懲機制,讓機械手學(xué)會溫柔的觸摸和操縱物體;文獻[26]將觸覺信號作為內(nèi)在獎勵,鼓勵智能體進行更有效的探索.本文的工作也受此啟發(fā),首先基于陣列式傳感器設(shè)計了一種“倒T”字形的觸覺傳感器的排列方式,然后通過分析機械末端與物體接觸時的受力情況,提出了新的獎勵函數(shù)來鼓勵智能體能以更合適、更穩(wěn)定的姿態(tài)去抓取物體,最后將該方法適配到新的機器人仿真環(huán)境中,驗證該方法的有效性.

        2 問題描述和模型建立

        2.1 問題描述

        機器人抓取是指將物體從起始位置拾取到另一目標位置的一套連續(xù)動作.在強化學(xué)習(xí)的訓(xùn)練過程中,智能體需要不斷試錯,不停地用末端接觸物體,嘗試不同位置將其夾起.當物體表面比較粗糙,末端和物體之間摩擦力比較大時,機器人能非常輕松完成抓取任務(wù),而當物體比較光滑且表面是弧面時,機器人夾取物體的成功率則會大大降低.

        機器人用剛性末端夾取光滑物體類似于我們生活中用筷子夾取某些豆類食物或者夾彈珠,其成功率主要取決于接觸力的大小和接觸點位置.如果接觸力太小,接觸點的摩擦力小于重力,物體自然會因此掉落;若接觸點處于錯誤位置,增加接觸力只會增大物體滑落的可能性.以夾取球型物體為例,如圖1a所示,當夾具與物體接觸點位于物體形心上方時,接觸力方向偏離形心,如果此時夾具與物體間的摩擦系數(shù)太小,將不能保證有效夾取.圖1b和1c所示的方式則可以進行有效抓取.但是圖1b中接觸點和接觸力雖然處于被抓取物體的最佳位置,但該接觸點位于夾具邊緣,容錯率很低,若機器稍有震動將導(dǎo)致物體滑落.因此該夾取方式仍不是最優(yōu)解.而圖1c所示的夾取情形中,物體和夾具上的接觸點都到達最佳位置,即使在夾取過程中物體發(fā)生輕微偏移,也可以將物體成功抓取.圖1d展示了俯視時的最佳抓取位置.

        本文認為圖1c和1d是機械臂夾取過程中非常理想的中間狀態(tài),因此我們希望塑造一個合理的獎勵函數(shù)來引導(dǎo)智能體到達這種中間狀態(tài).這種中間狀態(tài)可利用觸覺傳感器來間接表示,但是在強化學(xué)習(xí)中,獎勵塑造是一個很棘手的問題.因為一項復(fù)雜任務(wù)往往具有多個中間狀態(tài),如果我們針對每一個狀態(tài)都進行獎勵,那樣獎勵函數(shù)將會非常復(fù)雜,而且這樣往往也會使智能體找到得分漏洞,然后陷入刷分的循環(huán),從而導(dǎo)致訓(xùn)練失敗[27].而如果僅將達到最終目標作為獎勵體條件,會使得智能體進行過多隨機且無用的探索,從而拖慢訓(xùn)練速度甚至出現(xiàn)算法一直無法收斂的情況.

        所以我們將用觸覺信號作為內(nèi)在獎勵引導(dǎo)智能體去探索,使其更快速地到達中間狀態(tài)(即末端以更優(yōu)位置去接觸物體),但同時又允許智能體能夠進行其他不同的探索,也就是利用現(xiàn)有的機械臂仿真環(huán)境進行實驗,通過增加觸覺傳感區(qū)域來擴展強化學(xué)習(xí)環(huán)境的狀態(tài)空間,并根據(jù)觸覺累計值修改獎勵函數(shù),從而引導(dǎo)智能體進行更有效的探索.

        2.2 強化學(xué)習(xí)模型

        本文通過深度強化學(xué)習(xí)和內(nèi)在觸覺激勵來優(yōu)化機械臂抓取物體的任務(wù),該任務(wù)是將目標物體夾取到一個目標位置,從而獲得任務(wù)獎勵.其中機械臂抓取物體的過程可歸納為一個馬爾可夫決策過程(Markov Decision Process, MDP).該過程可以用元組(S,A,P,R,γ)來表示.其中S表示狀態(tài)空間;A表示動作;而P表示在狀態(tài)S下執(zhí)行動作A后,狀態(tài)變成S′的概率,可寫作(P:S×A→S′);R表示智能體在狀態(tài)S下執(zhí)行動作A所獲得的獎勵函數(shù),即R:S×A→[0,1];γ代表折扣因子,它表示未來獎勵對現(xiàn)在的重要性,其值越大代表智能體越看重未來獎勵,其值越小則表示智能體更重視短期回報.

        在整個交互過程中,機械臂作為智能體,在t時刻,觀察當前狀態(tài),然后根據(jù)策略π選擇動作at,at∈A(其動作由一個四維向量表示,前三維數(shù)據(jù)表示一個與機械臂夾具中心綁定的Mocap動作捕捉點的世界坐標,后一維數(shù)據(jù)表示夾具開合的狀態(tài)),然后觀察得到新的狀態(tài)st+1,最后根據(jù)狀態(tài)計算上一步動作的獎勵,再進行接下來的決策.智能體的最終目標就是找到最優(yōu)策略π*,得到最大化累計獎勵Rt,即:

        (1)

        其中ri代表即時獎勵.

        3 方 法

        3.1 觸覺傳感器的設(shè)計與任務(wù)設(shè)置

        與文獻[26]類似,我們在機械臂末端夾具上添加了傳感區(qū)域,本文和他們不同的是,他們將整個夾具用一個傳感區(qū)域覆蓋,對所有接觸位置一視同仁,而我們認為夾具的區(qū)域是有優(yōu)劣之分的,正如2.1節(jié)所講到的,物體與夾具的接觸位置不同,會影響夾取的穩(wěn)定性,因此我們根據(jù)前面定義的接觸位置的好壞給予了不同傳感器不同的重視程度(重視程度與位置關(guān)系如圖2所示),另外為了既鼓勵夾具與物體接觸,又能引導(dǎo)智能體以最優(yōu)位置夾取物體,本文在夾具上設(shè)計了如圖2所示的倒“T型”傳感區(qū)域陣列.該陣列由3個傳感區(qū)域組成,最下面的一整塊傳感區(qū)域是為了能更全面地捕捉剛接觸的信號,上面的兩塊方形傳感區(qū)域是為了引導(dǎo)智能體用這些區(qū)域(尤其是區(qū)域1)去夾取物體.每當末端夾具與物體在某一傳感區(qū)域接觸時,物理引擎就會計算出相應(yīng)的值.通過獎勵函數(shù)設(shè)置,我們將鼓勵智能體用末端去接觸目標物體,并鼓勵它盡量用重視程度最高的位置去接觸物體.

        圖2 傳感器布局與相應(yīng)區(qū)域重視程度

        接著為了證明本文方法的有效性,我們在提高原始任務(wù)難度的情況下(即增加了目標位置在空中生成的概率和高度,以及將目標物體由方塊替換成圓球和橢球),使用不添加傳感器、只加傳感器、最新內(nèi)在獎勵[26]以及本文內(nèi)在獎勵4種方法分別進行球形抓取和橢球抓取的任務(wù)訓(xùn)練,通過對比它們各自夾取的成功率來佐證本文觀點.

        3.2 獎勵函數(shù)設(shè)定

        強化學(xué)習(xí)算法旨在讓智能體學(xué)習(xí)一種能在環(huán)境中獲得最大長期回報的策略,而在大多數(shù)任務(wù)中這些獎勵都是稀疏的,即智能體只有完成了目標才能獲得相應(yīng)獎勵.這就會讓智能體產(chǎn)生太多無意義的嘗試,從而降低學(xué)習(xí)效率.因此,為了提高智能體探索的效率,本文引入了內(nèi)部激勵機制[28,29]來鼓勵智能體進行更有效的探索.我們的獎勵函數(shù)由外部獎勵rext(s,g)和與目標無關(guān)的內(nèi)部獎勵rint(s)兩部分組成,其表示如下.

        r(s,g)=ωext*rext(s,g)+ωint*rint(s)

        (2)

        其中ωext和ωint分別表示外部獎勵和內(nèi)部獎勵的權(quán)重.外部獎勵是完成目標后獲得的稀疏獎勵,只要物體位置在目標范圍之內(nèi)即返回1,否則返回0,具體表示如下.

        (3)

        其中g(shù)表示目標位置;xobj表示物體位置;εpos表示距離閾值.而本文內(nèi)部獎勵又分為兩部分,表示如下.

        rint(st)=ωc_frc_f+ωc_prc_p

        (4)

        其中c_f、c_p分別表示接觸力和接觸位置.接觸力獎勵僅根據(jù)觸覺信號來設(shè)定,只要一幕訓(xùn)練過程中所有觸覺信號累計值∑v超過閾值εtouch就返回1,否則返回.其表示如下.

        (5)

        而對于接觸位置獎勵,我們按照圖2傳感區(qū)域的重要程度,根據(jù)接觸信號累計值的區(qū)域的不同給予不同獎勵,其表示如下.

        (6)

        其中,v1i、v2i、v3i分別表示區(qū)域1、2、3的觸覺信號值.

        4組實驗結(jié)果如圖3所示,4幅圖中的黃色曲線分別表示所選參數(shù)在各自最優(yōu)值下的訓(xùn)練效果.最終本文確定以表1中的值作為獎勵函數(shù)的參數(shù).

        (b)

        (c)

        (d)

        表1 獎勵函數(shù)中的參數(shù)值

        3.3 訓(xùn)練算法

        由于機器人抓取是一個連續(xù)動作控制問題,所以本文采用集成了時間差分學(xué)習(xí)和策略梯度的深度確定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)[30]來訓(xùn)練智能體,并且將之與事后經(jīng)驗回放技術(shù)(Hindsight Experience Replay,HER)[31]結(jié)合來提高數(shù)據(jù)利用效率.

        其中,DDPG是一種基于演員-評論家(Actor-Critic)框架的離線策略(Off-policy)算法,即使用兩套不同的網(wǎng)絡(luò)進行動作的選擇和評價.其中Actor是直接學(xué)習(xí)策略的網(wǎng)絡(luò),它接收從環(huán)境中獲取的當前狀態(tài)S,然后根據(jù)策略π,輸出相應(yīng)的動作A.而Critic網(wǎng)絡(luò)則根據(jù)當前狀態(tài)和動作計算Q值來評價動作的好壞,即學(xué)習(xí)動作價值函數(shù)Qπ.在訓(xùn)練期間,Actor網(wǎng)絡(luò)通過行為策略去探索環(huán)境,該行為策略是目標策略加上了一些噪聲后的策略,即πb=π(s)+N(0,1).在式(7)中, Critic通過最小化rt+γQ(st+1,π(st+1))和Q(st,at)的lossLc來更新網(wǎng)絡(luò).

        Lc=rt+γQ(st+1,π(st+1))-Q(st,at)

        (7)

        其中,rt+γQ(st+1,π(st+1))表示真實的動作狀態(tài)值;Q(st,at)表示估計的動作狀態(tài)值.而Actor使用策略梯度通過損失函數(shù)的梯度下降來訓(xùn)練網(wǎng)絡(luò),該損失函數(shù)表示為

        La=-Es[Q(s,π(s))]

        (8)

        其中,s是從經(jīng)驗回放池采樣而來.而La關(guān)于Actor網(wǎng)絡(luò)的參數(shù)的梯度可以通過結(jié)合了Critic和Actor網(wǎng)絡(luò)的反向傳播計算得到.

        HER[31]是Andrychwicz等提出的一種數(shù)據(jù)增強技術(shù).在機器人任務(wù)中,如果目標比較復(fù)雜而且獎勵很稀疏,那么智能體在學(xué)到一些經(jīng)驗前會進行很多失敗且無效的嘗試.因此HER就鼓勵智能體從失敗的經(jīng)驗中學(xué)習(xí)一些東西.在探索過程中,智能體根據(jù)真實目標對一些軌跡進行采樣.HER的主要思想就是將選定的一次狀態(tài)轉(zhuǎn)移中的原始目標替換為已經(jīng)達到的目標,即用一個虛擬目標替換真實目標.這樣智能體就可以獲得足夠數(shù)量的獎勵信號來開始學(xué)習(xí).

        HER包含4種采樣策略,每種策略具體內(nèi)容如下:(1) future模式:當回放某一狀態(tài)轉(zhuǎn)移時,從同一幕的該狀態(tài)之后,隨機選擇k個狀態(tài)進行回放,即,如果現(xiàn)在的樣本為(st,at,st+1),就從t+1開始到最后的狀態(tài)中選擇k個已經(jīng)達到的目標(achieved goal)作為新目標;(2) final模式:把每一幕的最后一個已達到目標作為新目標;(3) episode模式:與future模式有些類似,但是該模式直接從同一幕中隨機選擇k個已達到目標作為新目標,沒有限制是否要往后采樣;(4) random模式:隨機選擇整個訓(xùn)練過程中的k個狀態(tài)進行回放;

        本文采用的是future模式,HER計算流程圖如圖4所示,其主要步驟如下.

        (1) 隨機選取一幕訓(xùn)練的完整樣本;

        (2) 用智能體當前的已完成狀態(tài)替換掉最終目標(desired goal);

        (3) 更新“info”信息;

        (4) 重新計算獎勵.

        圖4 HER計算流程圖Fig.4 The calculation flow chart of HER

        4 仿真實驗環(huán)境及結(jié)果

        4.1 實驗環(huán)境

        本實驗環(huán)境是在OpenAI Gym[32]中的Fetch機器人抓取與放置(Fetch-PickAndPlace)仿真實驗環(huán)境的基礎(chǔ)上進行的改進,其整個實驗場景如圖5所示.該實驗環(huán)境是以MuJoCo[33]作為物理引擎.在機器人運動仿真過程中,MuJoCo具備關(guān)節(jié)防卡死、多約束、多驅(qū)動以及細節(jié)化仿真等特點,十分適用于機器人姿態(tài)控制及機械臂運動仿真.MuJoCo可以仿真許多類型的傳感器,比如觸摸傳感器、慣性測量單元、力傳感器、力矩傳感器、關(guān)節(jié)速度傳感器等.這些傳感器在仿真環(huán)境里不參與模型的碰撞計算,它們只為用戶的計算提供相關(guān)信息數(shù)據(jù)信息.例如觸摸傳感器是在執(zhí)行器上定義一塊特定形狀的傳感區(qū)域,只要執(zhí)行器在該區(qū)域與其他物體產(chǎn)生接觸行為,相應(yīng)的接觸力就會被計算出來.該傳感器的讀數(shù)是非負標量,它是通過將被包含在接觸區(qū)域的所有法向力(標量)相加來計算的.

        圖5 實驗場景Fig.5 The experimental scene

        該實驗任務(wù)就是將桌上的目標物體抓取并移動到空中紅色的目標位置,只要物體與目標的距離不超過閾值即可判定完成任務(wù).

        而本文對環(huán)境的主要修改如圖2所示.這3塊傳感區(qū)域的寬度都相等,而第3塊區(qū)域的長度是前兩塊的3倍,且與末端夾具等寬.同時,為了避免智能體在探索過程中產(chǎn)生誤觸(如夾具觸碰桌面而產(chǎn)生讀數(shù)),本文將3塊傳感區(qū)域沿末端長邊依次上移了2.5 mm.然后將這3塊區(qū)域作為site被綁定在末端夾具body實體下,其在xml文件中的表現(xiàn)形式如下:

        (其他屬性)……

        (其他site)……

        最終將環(huán)境的觀察值增加了2*3維,即從25維增加到31維.最終改進后的環(huán)境狀態(tài)信息如表2所示.

        表2 仿真環(huán)境狀態(tài)值信息

        4.2 實驗設(shè)置

        本實驗中的所有超參數(shù)以及訓(xùn)練過程都在文獻[31,34]中有詳細描述,并且這些超參數(shù)和強化學(xué)習(xí)算法都被集成于OpenAI的Baselines[35]中.Baselines是基于TensorFlow而開發(fā)的一套強化學(xué)習(xí)算法的實現(xiàn)框架.本文利用其中的DDPG和HER來訓(xùn)練智能體.

        本文設(shè)置了4組實驗環(huán)境,每組環(huán)境完成2項不同物體(球體和橢球體)的夾取任務(wù).其中,1組為本文的實驗環(huán)境,其觀察值如4.1節(jié)所述是31維.另外3組為對比實驗環(huán)境,而對比實驗環(huán)境中2組的觀察值也是31維,另一空白組的觀察值只有初始的25維,每組詳細設(shè)置如表3所示.

        表3 實驗環(huán)境信息

        然后基于以上4種環(huán)境在Windows平臺Intel 16核電腦上用15核通過MPI實現(xiàn)150回合的并行訓(xùn)練,最終以每回合訓(xùn)練結(jié)束后測試抓取的成功率作為主要判斷指標,以第一次達到基準成功率的回合數(shù)作為輔助判斷指標.抓取成功率就是在每回合訓(xùn)練結(jié)束后,再在每個核心上進行10次確定性的測試試驗,接著綜合計算所有核心上試驗夾取成功次數(shù)而得到的成功率.

        4.3 結(jié)果及分析

        本實驗通過夾取球體(圖6)和橢球體(圖7)任務(wù)對比了3.1節(jié)中提到的4種情況(即未加傳感器的原始情況、只加傳感器不修改獎勵函數(shù)、最新提出的傳感器結(jié)合內(nèi)在獎勵機制以及本文的傳感器結(jié)合內(nèi)在獎勵機制,后文中這些情況簡稱如表3最后一列所示),所得結(jié)果如圖8、圖9、表4以及表5所示.其中圖8、圖9橫坐標表示訓(xùn)練回合,縱坐標表示每回合得出的抓取成功率.表4前4列給出了4種情況下130~150回合的平均成功率,后兩列計算了本文平均成功率與情況1和2平均成功率的比率(由于在150回合內(nèi)情況3的成功率未見顯著提升,因此本文未計算該情況下的比率).表5以表4中情況1的平均成功率(由于情況2在150回合內(nèi)未見收斂的趨勢,故不予考慮)作為基準成功率,列出了情況1與本文環(huán)境第一次到達該成功率的回合數(shù)以及回合比率.比如,情況1的圓球抓取任務(wù)中第一次達到0.861成功率的回合是第133回合,而本文環(huán)境第一次達到該成功率則是在112回合,收斂速度是前者的1.188倍.

        圖6 實驗中的球體

        圖7 實驗中的橢球體

        圖8和圖9中藍色實線是本文所使用的方法得出的抓取成功率曲線,橘黃色虛線是Vulin等[26]提出的傳感器結(jié)合內(nèi)在獎勵方法(即情況1)得出的結(jié)果,紅色和綠色虛線分別表示只加傳感器不修改獎勵(即情況2,僅拓展智能體的觀測空間)和沒加傳感器(即情況3)情況下的訓(xùn)練情況.可以看出,在球體和橢球體抓取任務(wù)中,加入傳感器增加了觀測空間后,智能體的學(xué)習(xí)效率相較于不加傳感器的情況有較大改善.而橘黃色虛線則表明情況1的確能大大提高智能體的學(xué)習(xí)效率.不過,結(jié)合表4和表5可知本文所提方法同樣遠遠優(yōu)于未經(jīng)

        圖8 圓球抓取任務(wù)結(jié)果Fig.8 The result of grasping sphere

        圖9 橢球抓取任務(wù)結(jié)果Fig.9 The result of grasping ellipsoid

        優(yōu)化的傳統(tǒng)方法(情況2和情況3),而且在同樣條件下,比最新的情況1提前約20回合收斂,并且在后者收斂之前就達到了最優(yōu)的正確率.這是由于情況1沒對接觸位置作區(qū)分,僅僅是鼓勵智能體去接觸目標物體,而忽略了接觸位置的差異,從而導(dǎo)致智能體在訓(xùn)練過程中仍會多次嘗試以2.1節(jié)中描述的次優(yōu)或最差姿態(tài)去接觸物體,最終導(dǎo)致夾取失敗而拖慢訓(xùn)練速度.

        表4 130~150回合平均成功率

        表5 第一次到達基準平均成功率的回合數(shù)

        因此,本文所提方法極大地提高了智能體抓取球形物體時的學(xué)習(xí)效率.在本實驗中,我們利用了傳感器提供的位置和壓力信息,有效地捕捉到了物體的接觸信息,然后通過內(nèi)在獎勵機制鼓勵智能體進行有效的探索.在這里內(nèi)在獎勵就像一個指導(dǎo)員,引導(dǎo)智能體達到一個容易達到且有意義的狀態(tài).有了內(nèi)在獎勵引導(dǎo),智能體能夠返回一個比較合適的狀態(tài),并且不會因為隨機探索而丟失該軌跡,因此內(nèi)在獎勵機制可以提高智能體有意義的探索.

        5 結(jié) 論

        針對智能體在對球形物體進行抓取時容易產(chǎn)生滑動的問題,本文提出了一種新的呈“倒T”形排布傳感器陣列和相應(yīng)的內(nèi)在獎勵函數(shù);并且結(jié)合DDPG+HER強化學(xué)習(xí)算法在MuJoCo仿真環(huán)境中對比了4種方法;最后驗證了以觸覺傳感器累計值和接觸位置作為內(nèi)在獎勵信號能夠引導(dǎo)智能體更快地完成球體的夾取任務(wù),同時又不會限制智能體探索其他狀態(tài).

        當然,我們可以設(shè)計一個完美的末端夾具來執(zhí)行相關(guān)任務(wù).但在現(xiàn)實世界,物體的形狀有成千上萬種,要設(shè)計這樣一種末端機械裝置十分困難,因此目前的大多數(shù)末端執(zhí)行器能達到的都只是在特定情況下的最優(yōu)控制[36].人類的手之所以能抓握大部分物體,除了因為其靈活的關(guān)節(jié)外,還因為其具有敏銳的觸覺.所以在現(xiàn)有末端裝置條件下加入觸覺傳感是提高物體抓取的有效途徑.

        未來,我們將繼續(xù)開展相關(guān)工作,如將該方法應(yīng)用于更多類型的物體,包括但不限于圓柱體、正方體以及不規(guī)則物體等;并且將該方法應(yīng)用于不同類型的末端執(zhí)行器上來驗證該方法的魯棒性.此外,本文是僅在仿真環(huán)境下進行的相關(guān)實驗,下一步我們會將算法遷移到真實機器人上,在復(fù)雜真實的環(huán)境中驗證其效果.

        猜你喜歡
        觸覺夾具成功率
        成功率超70%!一張冬棚賺40萬~50萬元,羅氏沼蝦今年將有多火?
        喚起人工觸覺 實現(xiàn)“意念控制”的假肢
        海外星云(2021年6期)2021-10-14 07:20:42
        一種立體隨行夾具庫
        方形夾具在線切割切槽的應(yīng)用
        哈爾濱軸承(2021年4期)2021-03-08 01:00:48
        一種快速固定夾具的方案設(shè)計
        如何提高試管嬰兒成功率
        如何提高試管嬰兒成功率
        食的觸覺
        特別健康(2018年3期)2018-07-04 00:40:20
        基于CATIA V5夾具零件庫的建立
        觸覺設(shè)計在產(chǎn)品設(shè)計中應(yīng)用研究
        国产午夜精品一区二区三区不卡| 一区二区高清免费日本| 亚洲欧洲免费无码| 成人综合婷婷国产精品久久蜜臀 | 亚洲中文字幕一区高清在线| 强d乱码中文字幕熟女免费| 亚洲av无码久久精品蜜桃| 色丁香在线观看| 一道本中文字幕在线播放| 少妇一级淫片中文字幕| 精品欧洲av无码一区二区| 亚洲AV无码精品呻吟| 亚洲一区二区三区一区| 欧美高清精品一区二区| 国产精品久久久久久影视| 福利视频一二区| 久亚洲一线产区二线产区三线麻豆| 丰满大爆乳波霸奶| 曰本女人与公拘交酡免费视频 | 亚洲av日韩av天堂久久不卡| 国产麻花豆剧传媒精品mv在线| 天堂8中文在线最新版在线| 男女好痛好深好爽视频一区 | 一区二区三区在线 | 欧| 日韩精品国产自在欧美| 中文字幕亚洲乱码熟女1区2区| 99国产精品99久久久久久| 亚洲精品久久久久中文字幕二区| 日本成熟妇人高潮aⅴ| 天天射综合网天天插天天干| 国产一极内射視颍一| 全免费a级毛片免费看| 中文字幕人妻互换激情| 人妻av无码一区二区三区| 99re在线视频播放| 澳门精品一区二区三区| 国产精品天干天干| 国产精品白浆一区二小说| 一本久道久久综合狠狠操| 亚洲夫妻性生活免费视频| 亚洲av永久无码天堂网手机版|