亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于視角選擇經(jīng)驗增強算法的機器人抓取策略

        2022-11-20 11:42:36王高陳曉鴻柳寧李德平
        關鍵詞:動作

        王高 陳曉鴻 柳寧 李德平?

        (1.暨南大學信息科學技術學院,廣東廣州 510632;2.暨南大學機器人智能技術研究院,廣東廣州 510632;3.暨南大學智能科學與工程學院,廣東珠海 519070)

        抓取能力是機器人智能化的關鍵處理能力。面向散亂堆疊物品的機械化分揀,成為機器人與人類動作能力對比驗證的皇冠問題。近年來,隨著計算機視覺和深度學習的發(fā)展,機器人抓取技術取得長足進展,即基于視覺感知技術,選擇合適的抓取姿態(tài)用以操縱末端執(zhí)行器實現(xiàn)抓取。但是,由于物體間形狀大小不同、復雜的背景、物體間相互遮擋等情況,如何在混雜物體散亂堆疊場景下,實現(xiàn)快速準確的抓取仍是極具挑戰(zhàn)性的課題[1]。

        針對散亂堆疊環(huán)境的機器人抓取問題,國內外學者開展了大量相關研究,包括但不僅限于采用單目相機結合結構光、多目相機、彩色深度(RGB-D)相機等方案。影響機器人抓取能力的因素有多方面,本文主要關注視覺方面的因素,包括物體識別定位、抓取姿態(tài)生成等。

        早期的機器人抓取研究側重于匹配物體三維模型或進行三維解析推理獲取抓取區(qū)域,通常的流程為提取待抓物體對象特征,然后在點云或RGB-D圖像中進行特征匹配,獲取局部點云,之后進行位姿估計。在傳統(tǒng)方法中,使用人工設計的特征進行特 征匹配,主要的人工特征有SIFT[2]、PPF[3]、Linemod[4]等,但這些方法需要預先獲得物體的三維模型進行特征提取。當存在多個物體,需要為每一個物體創(chuàng)建模板,因此,出現(xiàn)了基于深度學習的無物體三維模型位姿估計研究。例如,Xiang 等[5]提出PoseCNN(位姿卷積神經(jīng)網(wǎng)絡),通過多層卷積神經(jīng)網(wǎng)絡提取特征后,使用兩個全卷積網(wǎng)絡分別進行語義分割和物體平移估計,采用全連接網(wǎng)絡回歸物體姿態(tài)的四元數(shù),最后組合這3個網(wǎng)絡結果獲得物體的位姿信息。Wang 等[6]在其提出的DenseFu?sion(密集融合網(wǎng)絡)中通過一種異構網(wǎng)絡分別處理彩色和深度數(shù)據(jù)以充分利用這兩種數(shù)據(jù)的互補信息進行位姿估計,在許多場景下的表現(xiàn)優(yōu)于基于特征工程的傳統(tǒng)方法,但它依賴于前置語義分割網(wǎng)絡獲取局部點云,從而導致位姿估計精度會受到語義分割精度的影響?;谏疃葘W習的位姿估計方法大多需要大規(guī)模運算資源,對機器人抓取效率有較大影響。

        隨著深度學習的發(fā)展,眾多學者開始對直接生成抓取姿態(tài)進行研究,即從可能抓取姿態(tài)的無窮空間中采樣,并對采用得到的抓取候選姿態(tài)集根據(jù)一些質量指標進行排序。Lenz等[7]使用卷積網(wǎng)絡預測圖像塊是否包含潛在抓取,將圖像分解為若干個圖像框迭代預測,準確率達到75%,但每幅圖像的處理時間高達13.5 s。Park 等[8]提出一種基于分類的多級空間變換網(wǎng)絡,該方法允許觀察部分中間結果,如抓取候選姿態(tài)的抓取位置和方向。Morrison等[9]提出抓取生成卷積神經(jīng)網(wǎng)絡(GGCNN),以端到端的方式,直接從深度圖生成像素語義上的抓取位姿和抓取權重,通過抓取權重選擇最佳抓取效果,此方法在任意孤立物體抓取中可獲得88%以上成功率。

        上述工作主要在物體位姿估計、抓取姿態(tài)生成方面提升機器人抓取能力,一些學者則從主動視覺方面進行研究。Gualtieri 等[10]對合適的視角是否能影響抓取檢測準確度進行研究,提出“Smart”視角選擇算法,在已知物體粗略抓取位姿的情況下,計算最優(yōu)視角以提高抓取位姿的準確度,其實驗證明了合適的視角能夠極大地提高抓取檢測中獲得的抓取候選點數(shù)量。Ten 等[11]在機器人運動軌跡中選擇若干個點采集點云數(shù)據(jù),將多個視角的點云數(shù)據(jù)合成為一種稱為視點云(View Point Cloud)的結構,以視點云作為輸入進行抓取檢測。Morrison 提出Multi-View-Picking[12]方法,使用抓取檢測輸出的抓取質量為輸入,面向最大熵減的目標進行下一次最佳視角預測,在抓取執(zhí)行過程中多次進行最佳視角預測,該方法在雜亂堆疊場景中相對于固定視角提高了12%的抓取成功率。然而,此算法需要進行多次視角選擇迭代且需要依賴于特定抓取檢測算法。

        另一方面,深度強化學習在不同領域取得突破性成果吸引了大量學者的注意,在機器人操作中,深度強化學習提供了一種框架,能夠令機器人自主地通過視覺信息學習各類操作技能。例如,Zeng等[13]提出VPG(Visual Pushing &Grasping,視覺推動與抓取網(wǎng)絡),通過深度Q 網(wǎng)絡(DQN)令機器人學習推和抓兩種動作的協(xié)同;Deng 等[14]設計了一種結合吸嘴和夾爪的組合夾爪,通過DQN 框架引導機器人主動探索環(huán)境,獲取更優(yōu)的抓取置信圖。谷歌大腦團隊[15]提出基于Q學習連續(xù)動作泛化的離線策略訓練方法,將大規(guī)模分布式優(yōu)化和DQN 結合,令機器人能夠學習動態(tài)閉環(huán)控制策略而進行物體抓取。

        由此,相機視角的選擇對于機器人抓取的效果起著重要的作用。針對相機隨末端運動的機器人雜亂堆疊環(huán)境抓取問題,本文的主要研究內容如下:

        (1)提出一種基于深度強化學習的眼-手隨動相機視角選擇策略,通過深度網(wǎng)絡擬合視角價值函數(shù),在DQN框架下學習視角選擇策略。

        (2)提出一種視角選擇經(jīng)驗增強算法,解決訓練過程中出現(xiàn)的稀疏獎勵問題,提高網(wǎng)絡收斂速度。

        (3)分別在V-REP?(Virtual Robot Experimenta?tion Platform)仿真環(huán)境和實體機器人上進行實驗,實驗中網(wǎng)絡訓練可以在2 h 左右達到收斂,在實體機器人混雜場景中抓取成功率達到82.7%,每小時平均抓取個數(shù)達到294個。

        1 視角選擇策略學習框架

        1.1 任務描述

        在機器人抓取應用場景中,采用相機隨機器人末端移動(眼在手上)的方式實現(xiàn)混雜物品散亂堆疊的抓取。相對于固定環(huán)境相機,眼在手上相機的抓取具有更高的靈活性,機器人能夠根據(jù)運動可達空間選擇合適的拍攝位姿。由于相機安裝在機器人末端,則機器人視角V可以由相機在機器人坐標系下的6維位姿定義:

        式中:x、y、z為機器人末端在基坐標系的位置,rx、ry、rz分別是繞x、y、z軸的旋轉角度。

        機器人主動視角選擇抓取任務的工作流程如圖1所示。首先機器人移動至預先設定好的全局拍照點進行拍照以獲取整個工作空間的圖像,獲取深度圖像后進行最佳視角預測,得到最佳視角的像素坐標VI,再經(jīng)由相機模型和坐標變換得到最佳視角的機器人坐標VR,機器人移動到VR獲取局部圖像進行抓取檢測,然后執(zhí)行相應抓取動作,最后判斷是否達到結束任務條件,否則重復以上步驟。

        圖1 機器人主動視角選擇抓取任務示意圖Fig.1 Illustration of robot active viewpoint selection grasping task

        1.2 任務建模

        將強化學習應用到機器人主動視角選擇的關鍵問題是視角選擇過程的馬爾可夫決策過程(MDP)建模。基于智能體和環(huán)境進行構建的MDP 是一種基于序列決策的數(shù)學模型,視角選擇過程的MDP 模型如圖2所示。

        圖2 機器人抓取任務馬爾可夫決策過程Fig.2 Markov decision process in robot grasping task

        機器人通過相機感知系統(tǒng)當前的狀態(tài),并根據(jù)視角選擇策略獲取最佳視角,移動至最佳視角并執(zhí)行抓取流程(即再次獲取深度圖執(zhí)行抓取檢測并根據(jù)抓取檢測的結果決定是否執(zhí)行抓?。詈髾z測夾爪狀態(tài)并獲取獎勵。因此,需要在視角選擇過程MDP模型中對狀態(tài)空間、動作空間、獎勵和策略進行定義。

        1.2.1 狀態(tài)空間

        抓取環(huán)境的狀態(tài)st定義為在t時刻待抓取物體之間的位置關系,本文使用在全局拍照位置獲得的深度圖作為st,即在每次抓取前,機器人移動至預先設定的能夠觀察到整個工作空間的視角,以此視角獲取的深度圖表達當前環(huán)境的狀態(tài)。

        1.2.2 動作空間

        視角選擇動作a定義為機器人移動到視角選擇策略預測的下一個最佳視角,并執(zhí)行抓取流程。由于相機安裝于機器人末端,視角選擇可以包含6個自由度,但是六維的連續(xù)動作空間將導致樣本復雜度為O(n6)。高維模型在訓練時候耗費大量計算資源,并且需要海量訓練數(shù)據(jù)才能使網(wǎng)絡收斂。為了增強學習訓練結果部署在實體機器人上的可行性,本文將無窮多的視角選擇集簡化為3個自由度的有限視角集合,即根據(jù)表示環(huán)境狀態(tài)的深度圖,產生與其深度圖像素點一一對應的視角點,即:

        式中:r、c分別表示像素點的行坐標和列坐標,zr,c表示深度圖在像素點(r,c)位置上的深度值,ar,c表示深度圖在像素點(r,c)位置上對應的動作。

        因此,動作空間的維度為二維空間。通過相機針孔模型P和手眼標定獲得的剛性變換矩陣,可將動作ar,c轉換為以機器人坐標系表示的動作:

        式中:P(r,c,zr,c)表示動作ar,c通過相機針孔模型P轉換得到的ar,c在相機坐標系的位置

        1.2.3 獎勵設計

        獎勵rt表示在t時刻的狀態(tài)st下,執(zhí)行視角選擇動作at后得到的收益。它是關于st、at以及下一時刻的狀態(tài)st+1的函數(shù),即:

        在機器人抓取任務中,其最終目的是提高抓取成功率。因此,獎勵設計為二維空間圓形區(qū)域獎勵:若抓取成功,獎勵的值由從圓心到邊緣從1下降至0.5的二維高斯函數(shù)計算;若抓取失敗,圓形區(qū)域的值為0。即:

        式中,x0、y0為獎勵區(qū)域的圓心,r為獎勵區(qū)域的半徑,σ為獎勵從圓心到邊緣下降的速度。在圓形區(qū)域外的獎勵為未定義,不支持參數(shù)更新。

        1.2.4 視角狀態(tài)價值函數(shù)與最優(yōu)策略

        基于獎勵定義可將機器人最終目標轉換為最大化回報,回報是指從開始抓取到物體清空結束,這一有限長狀態(tài)動作序列τ中的獎勵累計值。為了控制機器人傾向于盡可能快地完成抓取任務,本文中使用帶折扣因子的回報函數(shù),即:

        式中:γ為未來獎勵折扣因子,表示智能體對未來獎勵的權重,權重越大越重視長期回報,反之則更重視短期回報。

        式(7)所示視角狀態(tài)價值函數(shù)Qπ(s,a)表示機器人基于視角選擇策略π在狀態(tài)s下執(zhí)行視角動作a后的期望回報:

        式中,s為當前狀態(tài),a為執(zhí)行的動作。

        通過視角狀態(tài)價值函數(shù)Qπ(s,a)可以評估當前狀態(tài)s下的機器人執(zhí)行動作a在未來可以獲得的期望獎勵,Q值越大,說明采取該動作能夠在未來獲得更大的回報,即價值越大。在Qπ(s,a)已知條件下,可以通過選擇令Q函數(shù)取最大值的動作為最優(yōu)動作,導出貪婪最優(yōu)策略π*,即:

        通過上述MDP 建模過程分析,可將求解機器人最佳視角選擇問題轉換為對視角Q函數(shù)的求解,輸出當前狀態(tài)下每個視角的價值,取Q值最大的視角作為當前狀態(tài)的下一個最佳視角。最終的求解目標即可轉換為對視角價值函數(shù)的擬合,即分析從系統(tǒng)狀態(tài)表達到視角價值的過程,設計合適的深度神經(jīng)網(wǎng)絡擬合視角價值函數(shù)。

        2 視角價值函數(shù)學習

        2.1 視角價值函數(shù)擬合

        視角價值函數(shù)Q(st,a)的輸入為機器人抓取環(huán)境當前狀態(tài),在機器人主動視角選擇任務中使用在全局拍照位置獲取的深度圖表達。若深度圖的分辨率為sx×sy,則狀態(tài)空間中狀態(tài)數(shù)量為216×sx×sy,接近無窮計數(shù),因此無法使用傳統(tǒng)Q-Learning 強化學習中的查表法求解。而深度卷積神經(jīng)網(wǎng)絡擅長從圖像這類高維數(shù)據(jù)中學習特征,因此選擇深度卷積網(wǎng)絡擬合視角價值函數(shù),并且基于深度Q網(wǎng)絡[16]設計強化學習訓練的框架。

        從場景狀態(tài)圖像內容估計視角價值的過程等同于面向圖像中每個像素從不同的感受野提取信息,并依據(jù)此信息預測提取獲得的各維度特征與像素點對應的視角價值,這類似于語義分割的過程。深度反卷積編碼-解碼器結構網(wǎng)絡[17]克服了原始全卷積網(wǎng)絡中存在的尺度縮放問題,并且具備識別具有更多細節(jié)的結構和處理多尺度對象的能力?;诖耍疚闹刑岢鍪褂镁幋a-解碼器卷積神經(jīng)網(wǎng)絡擬合視角動作價值函數(shù),網(wǎng)絡結構如圖3所示。網(wǎng)絡輸入定義為t時刻機器人在全局拍照點采集的深度圖,經(jīng)過三層卷積編碼后,再由三層反卷積解碼,最終可輸出與輸入的深度圖尺寸一致的視角價值圖。視角價值圖中的像素值代表了選擇該像素點所對應的視角后可以獲得的未來期望回報。

        圖3 視角動作價值函數(shù)近似網(wǎng)絡結構Fig.3 Viewpoint action value function approximation network structure

        在DQN 強化學習訓練中,為了解決強化學習的樣本關聯(lián)性,采用經(jīng)驗回放機制[18],基于機器人視角選擇任務特征,在訓練流程中加入結束條件判定、經(jīng)驗增強?;讦?greedy 策略對機器人抓取場景設計可選擇的下一個最佳視角a*,即:

        式中:W、H為視角價值圖的分辨率,ε為探索概率,U(0,1)表示在[0,1]區(qū)間的均勻分布。若g≥ε,則通過視角價值函數(shù)Q(st,a)產生視角動作,否則通過2 個相互獨立的均勻分布產生視角動作。為了減少探索的概率,使機器人逐漸傾向于根據(jù)訓練的策略選擇動作,同時保留探索到更優(yōu)動作的可能性;ε伴隨訓練的遞進漸次從初始值ε0下降至0.1,即:

        式中,gε為遞減系數(shù),k為訓練的輪次。

        移動至預測的最佳視角后,機器人執(zhí)行抓取流程,根據(jù)抓取結果生成經(jīng)驗數(shù)據(jù)E={st,at,rt+1,st+1,d}(d表示機器人抓取任務是否完成),對所得經(jīng)驗數(shù)據(jù)進行增強,然后存入經(jīng)驗池。若經(jīng)驗池中的經(jīng)驗數(shù)大于預先設定的批尺寸N,從經(jīng)驗池中隨機抽取N個經(jīng)驗數(shù)據(jù)后進行訓練。視角價值動作函數(shù)訓練算法流程圖如圖4所示。

        圖4 視角動作價值函數(shù)訓練算法流程圖Fig.4 Flow chart of viewpoint action value function training algorithm

        在圖4中通過與環(huán)境交互獲得的經(jīng)驗數(shù)據(jù)中包含一個變量d用于判斷機器人抓取任務是否完成,即機器人是否將視野中的物體全部抓取并轉移到目標位置。因此,需要根據(jù)執(zhí)行動作后的狀態(tài)判斷場景是否清空,當場景清空時可判斷本輪抓取任務已完成。

        完成上述算法,要先通過相機內參數(shù)K將深度圖轉換為點云。相機內參數(shù)對相機成像針孔模型進行描述,可表達為:

        式中:ax為水平方向像元尺寸;ay為豎直方向像元尺寸;u為水平方向的投影中心偏移;v為豎直方向的投影中心偏移,需通過相機標定獲得。

        深度圖的像素值表示每個像素的成像點在相機坐標系的z坐標,在已知成像點z坐標和像素坐標的條件下,即可通過相機內參計算成像點在相機坐標系下的坐標。設第i個成像點的像素坐標為ri,ci,其相機坐標系坐標為:

        式中,Idepth(ri,ci)為深度圖在(ri,ci)位置的深度值。

        將深度圖中所有像素點變換為成像點坐標,因此所有點可表示為三維列向量,經(jīng)組合獲得點云矩陣DC。根據(jù)手眼關系將相機坐標系表示的點云變換為機器人基坐標系中的點云D:

        不失一般性,本文令抓取工作空間與機器人基坐標系xy平面平行,因此只需統(tǒng)計點云PB中z坐標大于固定閾值zmin的點個數(shù)即可判斷場景是否清空,如下式:

        式中:S(Pb>zmin)表示點云PB中z坐標值大于zmin的點個數(shù);Th為判斷場景情況的點數(shù)閾值。

        2.2 視角選擇經(jīng)驗增強算法

        參閱深度強化學習時的稀疏獎勵問題[19],可以理解在智能體與環(huán)境進行交互的過程中,由于獎勵獲取的抽象和復雜性,智能體在初始條件的策略實施下難以獲得獎勵,出現(xiàn)正樣本與負樣本的比例失衡和樣本效率低,從而導致強化學習算法迭代時間長,甚至無法收斂。因此,為了提高視角選擇網(wǎng)絡的收斂速度,本文對視角選擇過程建模,提出一種新的經(jīng)驗增強算法,以提高樣本利用效率,從而提升視角價值函數(shù)的學習速度。

        機器人最佳抓取視角選擇標準是目標物體能夠出現(xiàn)在視野正中央?;趯ψ罴岩暯堑募僭O判斷,本文所提方法對抓取成功的視角經(jīng)驗進行增強,擴展獎勵區(qū)域從單一視角點增強到一個視角選擇區(qū)域。對于抓取成功的情況,如圖5所示,以抓取點作為圓心,視角點與抓取點間距離作為半徑,在該圓形區(qū)域給予獎勵;另外,為了讓機器人更傾向于選擇令目標物體處于中央的視角,在圓形區(qū)域中,從圓心到邊緣以高斯函數(shù)的方式將獎勵從1衰減到0.5。如圖6 所示,對于抓取失敗,通過圓周四向探索的方式增強經(jīng)驗。圖6 以失敗的視角點為起點,設定固定的搜索半徑步長s,令搜索半徑r每次增加s。獲取所有圓邊緣的計算探索位置,并對所有探索位置進行抓取檢測。若本輪所有探索位置均抓取檢測失敗,則增加半徑一個步長,重復同類探索;否則,以當前半徑作為增強獎勵區(qū)域的半徑參數(shù)結束探索。

        圖5 抓取成功條件下抓取經(jīng)驗增強過程Fig.5 Process of grasping experience enhancement under grasp?ing success

        圖6 抓取失敗條件下抓取經(jīng)驗探索過程Fig.6 Process of grasping experience exploration under grasp?ing failure

        具體算法如下:

        3 實驗結果及分析

        3.1 實驗環(huán)境配置

        為證明基于深度強化學習的視角選擇經(jīng)驗增強算法可行性,本文在V-REP仿真環(huán)境中實施強化學習訓練并進行抓取對比實驗,同時在安川機器人上進行抓取實驗,對比驗證幾種視角選擇算法對提升抓取性能的效果。實驗使用的計算機系統(tǒng)配置如表1所示。

        表1 計算機系統(tǒng)配置Table 1 Computer system configuration

        采用Pytorch 編寫視角選擇經(jīng)驗增強算法框架,機器人執(zhí)行任務過程與環(huán)境交互的軌跡長度Lτ跟場景中物體個數(shù)相關,因此鄰接控制周期所獲取獎勵權重漸次增強。

        不失一般性,設置折扣因子γ=0.5,學習率α=0.001,經(jīng)驗池容量R=4 000,目標Q網(wǎng)絡參數(shù)同步步數(shù)M=20。為了增強對噪聲抑制的魯棒性,損失函數(shù)使用Huber Loss,損失函數(shù)Li為

        式中:θi為在第i次迭代中的主網(wǎng)絡的參數(shù),為目標網(wǎng)絡的參數(shù),si、ai、yi分別代表第i次迭代的狀態(tài)、動作和目標價值。每次更新只傳遞獲得獎勵元素的梯度參數(shù),其他位置對應元素的損失強制置為零。優(yōu)化策略采用隨機梯度下降算法,探索策略則使用ε-greedy 策略,設置探索概率ε的初始值為0.5,gε=0.99。

        3.2 對比實驗設計

        采用6DOF機器人重復執(zhí)行50次抓取任務,每次在機器人工作空間中隨機放置N個物體,執(zhí)行抓取流程,最終將抓取對象放置到料箱。連續(xù)抓取直至工作空間所有物體被放入料箱(即場景清空)視為成功;連續(xù)抓取不到視為失敗。具體到抓取任務失敗的條件可設置為連續(xù)抓取失敗超過指定次數(shù),例如5 次,目的是防止機器人因當前場景過于復雜,不能有效抓取而引起的重復動作。

        3.2.1 對比方法

        采用以下3種典型視角選擇生成策略與本文提出的視角選擇經(jīng)驗增強算法進行對比實驗,具體方案如下。

        (1)固定單視角 使用安裝在工作空間上方固定位置的單個相機獲取場景圖像,任務執(zhí)行過程中的相機位置保持不變。獲取固定位置圖像后進行抓取檢測并執(zhí)行抓取。

        (2)固定多視角 同時使用多個相機或單個末端相機多次采集來獲取待抓取目標圖像,并根據(jù)所采集多視角間的位置關聯(lián)關系實現(xiàn)信息融合。本文選擇專利[20]中的方法作為目標對比方法。使用眼在手上工作模式并根據(jù)機器人預設路徑采集多視角深度圖,然后進行點云融合,使用融合點云進行抓取檢測。

        (3)基于熵的主動多視角 使用Multi-View Picking[12]方法,從固定位置開始,根據(jù)當前場景圖像的熵計算下一個最佳視角,再移動機器人到目標視角,回環(huán)往復多次迭代執(zhí)行視角預測。每次視角預測均通過深度圖像輸出相關計算熵,并根據(jù)熵結果變化趨勢而選擇視角。

        機器人進行視角選擇后,判斷抓取檢測并獲取穩(wěn)定抓取點,執(zhí)行抓取操作。與前述對比文獻方法保持一致,本文中采用綜合時間和準確率最佳的端到端抓取檢測方法——抓取生成卷積神經(jīng)網(wǎng)絡[9],作為本實驗方案中使用的抓取檢測算法。

        3.2.2 評價指標

        本文中使用表2所示指標來評估算法在抓取任務中的性能。

        表2 抓取性能評價指標Table 2 Evaluation metrics of grasping performance

        3.3 仿真實驗

        使用V-REP仿真平臺搭建機器人抓取環(huán)境,如圖7所示。仿真機器人采用Universal Robot:UR5,末端安裝Onrobot RG2 夾爪和彩色深度相機,設置機器人工作空間為350 mm×350 mm 的方形區(qū)域,調用V-REP仿真平臺的遠程控制接口,獲取訓練過程中機器人運動狀態(tài)及獲取彩色深度圖像。

        圖7 機器人抓取仿真環(huán)境Fig.7 Robot grasping simulation environment

        仿真實驗中,設定訓練、對比的抓取對象為8 種不同形狀的3D積木塊,如圖8所示。隨機選擇不同形狀和顏色的積木塊作為待抓取對象。

        圖8 仿真環(huán)境中的抓取對象Fig.8 Grasping objects in simulation environment

        3.3.1 訓練過程

        通過機器人與環(huán)境的交互學習獲得視角選擇策略?;谶@一原則,將訓練步驟安排為:在機器人工作空間隨機放入n個物體,機器人連續(xù)執(zhí)行抓取任務,并在執(zhí)行任務過程中不斷收集經(jīng)驗數(shù)據(jù)存入經(jīng)驗池,直到清空工作空間物體,再重新放置m個物體。為提高訓練收斂速度,采用從易到難的方式放置待抓物體,即訓練開始時只往工作空間中放置一個物體,隨著訓練次數(shù)增加而改變放入物體個數(shù)。

        本文中提出的一種視角選擇經(jīng)驗增強算法,在訓練過程中的抓取成功率變化如圖9 所示。在500輪抓取任務訓練中,經(jīng)過100輪(約2 h)訓練后網(wǎng)絡已達到良好收斂效果。

        圖9 訓練過程中抓取成功率變化Fig.9 Variation of grasping performance during training

        3.3.2 對比實驗的結果分析

        仿真環(huán)境中的對比實驗總共設計8 組,分別放置1 到8 個物體,每組分別進行50 輪抓取任務。圖10 為各方法抓取成功率和清空率隨物體個數(shù)增加的變化曲線。

        圖10 仿真環(huán)境下抓取成功率與場景清空率對比Fig.10 Comparison of grasping success rate and clear rate in simulation environment

        與使用固定單視角的情況對比,本文方法在復雜場景下的抓取成功率和場景清空率兩方面均獲得較大提升。其中,場景物體個數(shù)為8個時,抓取成功率提升了14%(從62.3%提升到76.2%),而場景清空率提升了46%(從44%提升到90%)。本文所提視角選擇策略可以通過選擇合適視角來降低視野中場景的復雜度,克服固定單視角模式下機器人出現(xiàn)連續(xù)抓取失敗的問題,從而提升場景清空率。實驗對比結果證明,本文方法可以有效提高機器人在復雜場景中的抓取能力。

        與固定多視角和主動視角選擇這2 種方法對比,本文所提算法在抓取成功率和場景清空率方面相差不大,但兩種對比方法都需要機器人移動多個視角導致抓取效率降低。而本文的視角選擇策略在達到相似抓取率的同時只需進行一次視角選擇,進一步提升了機器人的抓取效率。

        3.4 實體機器人實驗

        為驗證仿真環(huán)境中訓練的視角選擇策略,本文同時進行了實體機器人抓取實驗。本文算法由圖像預測的視角需通過手眼關系轉換為機器人視角,精度與手眼標定算法有關,而在實體機器人實驗中手眼標定精度可控制在3 mm 以內,對本文算法影響可以忽略,因此采用首鋼莫托曼Yaskawa MOTOMAN-GP8 工業(yè)機器人,集成遠程控制MOTOCOM32 API 完成機器人控制。抓取夾具使用舵機驅動的機械夾爪,控制器通過串口控制夾爪開閉并讀取夾取狀態(tài)。末端集成Intel Realsense D435 深度相機,實體機器人抓取實驗平臺如圖11所示。

        圖11 實體機器人抓取實驗平臺Fig.11 Real-world robot grasping experimental platform

        抓取對象選擇常見工業(yè)零件:三通管、四通管、90 度彎頭管等,如圖12 所示,隨機選擇添加至機器人抓取工作空間。

        圖12 工業(yè)零件抓取對象Fig.12 Industrial parts grasping objects

        實體機器人執(zhí)行與仿真完全一致的10 組零件抓取實驗,分別放置1到10個相異物體,每組分別執(zhí)行50 輪抓取任務,記錄每組實驗抓取成功率、清空率、執(zhí)行時間。

        如圖13 所示,實驗結果表明本文提出的視角選擇經(jīng)驗增強算法對訓練中未出現(xiàn)過的物體抓取成功率仍能夠達到與仿真實驗相近的水平。在混雜物體散亂堆疊場景(10 個物體)下的成功率達到了82.7%,相對于一般單視角方法提升了22.8%,相對于主動多視角和固定多視角提升了約2%。在場景清空率方面,本文算法在混雜場景能夠達到90% 的清空率,優(yōu)于前兩種對比方法。

        圖13 真實場景下抓取成功率與場景清空率對比Fig.13 Comparison of grasping success rate and clear rate in real-world scenes

        實體機器人抓取實驗結果如圖14 所示,文中提出的視角選擇經(jīng)驗增強算法具備實際應用特征,能夠選擇合適的視角提升抓取成功率,在一定程度上解決了機器人處理復雜場景中抓取的問題。

        圖14 實際視角選擇抓取過程Fig.14 Process of real-world viewpoint selection grasping

        如表3 所示,設待抓取物體個數(shù)為10,本文的方法對比固定單視角、固定多視角、主動多視角的抓取成功率、平均抓取時間的結果顯示:平均抓取時間以固定單視角最小,但由于其較低的抓取成功率在實效性方面不如本文算法;另外兩種多視角方法雖與本文算法保持接近的成功率,但本文算法可直接預測下一個最佳視角,只需選擇移動一次相機視角,而多視角方法則需要移動多次,因此本文方法可以保證更短視角選擇時間,在抓取效率方面優(yōu)于另外兩種算法。實驗結果證實了本文提出的視角選擇經(jīng)驗增強算法在實體機器人場景下能以小幅增加單次抓取耗時的代價,獲得更高的抓取成功率,從而達到更優(yōu)的抓取效率。

        表3 對比實驗結果(物體個數(shù)為10)Table 3 Experiment result of comparison(number of objects is 10)

        4 結論

        針對機器人在固定單一視角下難以解決物體散亂堆疊場景下的抓取問題,本文提出一種基于深度強化學習的視角經(jīng)驗增強算法,將視角選擇問題轉化為馬爾科夫決策過程建模,使用編碼-解碼器網(wǎng)絡擬合視角價值函數(shù)。針對訓練過程中稀疏獎勵的問題,提出一種視角選擇經(jīng)驗增強算法。實際訓練結果表明,擴展視角選擇獎勵區(qū)間可有效解決當前場景中的稀疏獎勵問題,加快強化學習收斂速度。仿真與實體機器人抓取實驗結果表明,本文算法可通過強化學習的方法得到有效的視角選擇策略,且具備了較好的抓取目標泛化能力,在抓取成功率、場景清空率和抓取效率方面與其他方法相比獲得不同程度的提升,證明了合適的視角選擇策略在提高機器人抓取性能方面的較強適應力。為今后機器人控制體系采用強化學習框架學習視角選擇和抓取選擇提供了實驗數(shù)據(jù)支撐。未來,高自由度視角的選擇研究將逐步場景化,融合策略搜索算法、注意力機制框架等方法將提高系統(tǒng)魯棒性和適應性。

        猜你喜歡
        動作
        動作不可少(下)
        動作不能少(上)
        巧借動作寫友愛
        下一個動作
        動作描寫要具體
        畫動作
        讓動作“活”起來
        動作描寫不可少
        非同一般的吃飯動作
        神奇的手
        国产一区二区三区av香蕉| 亚洲av无码一区二区三区观看| 国产乱人伦精品一区二区| 99热成人精品国产免国语的| 亚洲第一页综合av免费在线观看| 亚洲中文字幕九色日本| 日本肥老妇色xxxxx日本老妇| 人成午夜免费大片| 人妻被猛烈进入中文字幕| 久久亚洲av熟女国产| 蜜桃视频在线看一区二区三区| 高潮又爽又无遮挡又免费| 国产a级网站| 亚洲蜜桃视频在线观看| 亚洲伦理第一页中文字幕| 高清不卡一区二区三区| 国产成人影院一区二区| 亚洲二区三区四区太九| 国产流白浆视频在线观看| 日韩一级黄色片一区二区三区| 亚洲色大成网站www永久网站| 国产丰满老熟女重口对白| 亚洲色偷偷偷综合网另类小说| 国产av熟女一区二区三区密桃| 欧美大屁股xxxx高跟欧美黑人 | 丰满多毛少妇做爰视频| 亚洲免费不卡av网站| 日本最新一区二区三区在线| 久久精品国产亚洲av无码娇色 | 国产一区二区三区免费观看在线| 美女视频一区| 毛片av中文字幕一区二区| 91精品国产色综合久久| 国产顶级熟妇高潮xxxxx| 欧美国产日本精品一区二区三区| 加勒比久草免费在线观看| 国产精品高清网站| 亚洲精品无播放器在线播放| 日本一区二区不卡视频| 人妻av午夜综合福利视频| 国产精品一区二区黄色|