仲訓(xùn)杲 徐敏 仲訓(xùn)昱 彭俠夫
基于多模特征深度學(xué)習(xí)的機(jī)器人抓取判別方法
仲訓(xùn)杲1徐敏1仲訓(xùn)昱2彭俠夫2
針對(duì)智能機(jī)器人抓取判別問題,研究多模特征深度學(xué)習(xí)與融合方法.該方法將測試特征分布偏離訓(xùn)練特征視為一類噪化,引入帶稀疏約束的降噪自動(dòng)編碼(Denoising auto-encoding,DAE),實(shí)現(xiàn)網(wǎng)絡(luò)權(quán)值學(xué)習(xí);并以疊層融合策略,獲取初始多模特征的深層抽象表達(dá),兩種手段相結(jié)合旨在提高深度網(wǎng)絡(luò)的魯棒性和抓取判別精確性.實(shí)驗(yàn)采用深度攝像機(jī)與6自由度工業(yè)機(jī)器人組建測試平臺(tái),對(duì)不同類別目標(biāo)進(jìn)行在線對(duì)比實(shí)驗(yàn).結(jié)果表明,設(shè)計(jì)的多模特征深度學(xué)習(xí)依據(jù)人的抓取習(xí)慣,實(shí)現(xiàn)最優(yōu)抓取判別,并且機(jī)器人成功實(shí)施抓取定位,研究方法對(duì)新目標(biāo)具備良好的抓取判別能力.
機(jī)器人抓取判別,降噪自動(dòng)編碼,疊層深度學(xué)習(xí),多模特征
引用格式仲訓(xùn)杲,徐敏,仲訓(xùn)昱,彭俠夫.基于多模特征深度學(xué)習(xí)的機(jī)器人抓取判別方法.自動(dòng)化學(xué)報(bào),2016,42(7): 1022-1029
機(jī)器人學(xué)習(xí)抓取是智能機(jī)器人研究的重要內(nèi)容,涉及到智能學(xué)習(xí)、抓取位姿判別、機(jī)器人運(yùn)動(dòng)規(guī)劃與控制等問題的研究[1[3].近年出現(xiàn)的深度學(xué)習(xí)算法,在無監(jiān)督特征學(xué)習(xí)中取得了顯著效果,深度學(xué)習(xí)的優(yōu)越性在于:1)不需要介入人為的干預(yù);2)該方法提高了網(wǎng)絡(luò)的深層學(xué)習(xí)能力,是一種充滿前景的學(xué)習(xí)算法[4-5].
深度學(xué)習(xí)首次由Hinton等[6]提出,其基本觀點(diǎn)是采用神經(jīng)網(wǎng)絡(luò)模擬人類大腦特征學(xué)習(xí)過程.這種無監(jiān)督特性學(xué)習(xí)方法借鑒大腦多層抽象表達(dá)機(jī)制,實(shí)現(xiàn)初始特征深層抽象表達(dá),因此避免了特征抽取過程中人為的干預(yù),同時(shí)深度學(xué)習(xí)在一定程度上解決了傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)局部收斂和過適性問題,受到業(yè)內(nèi)廣泛關(guān)注[7[6]、深度波爾曼茲機(jī)(Deep Boltzmann machine,DBM)[10]、深度能量模型(Deep energy model,DEM)[11]、自動(dòng)編碼器(Auto encoder,AE)[12].鑒于深度網(wǎng)絡(luò)的強(qiáng)大學(xué)習(xí)能力,能夠直接從標(biāo)記或非標(biāo)記數(shù)據(jù)集中抽取深層抽象特征,該技術(shù)已成功用于圖像識(shí)別與檢索[13[15]、自然語言處理[16-17]等領(lǐng)域,而在機(jī)器人學(xué)習(xí)抓取領(lǐng)域還處在起步階段[18-20].
機(jī)器人學(xué)習(xí)抓取判別研究中,基于模型的方法保持著較高熱度,如文獻(xiàn)[21]對(duì)目標(biāo)3D點(diǎn)云進(jìn)行分割,每個(gè)分割部分由一個(gè)超二次曲面(Superquadrics,SQ)近似表示,然后用訓(xùn)練好的人工神經(jīng)網(wǎng)絡(luò),區(qū)分每個(gè)部分是否為適合的抓取位置.文獻(xiàn)[22]同樣采用SQ近似表示目標(biāo)模型,然后用支持向量機(jī)(Support vector machine,SVM)對(duì)SQ參數(shù)和抓取標(biāo)記進(jìn)行離線學(xué)習(xí).在線測試中,SVM算法給定SQ參數(shù)后,將自動(dòng)搜索有效的抓取位置.文獻(xiàn)[23]采用馬爾科夫場(Markov random field,MRF)對(duì)抓取物體進(jìn)行3D點(diǎn)云建模,MRF的每個(gè)節(jié)點(diǎn)攜帶最優(yōu)和次優(yōu)兩個(gè)抓取標(biāo)記,該方法通過點(diǎn)云標(biāo)記的最大后驗(yàn)概率,實(shí)現(xiàn)抓取位置識(shí)別.文獻(xiàn)[24]研究一種基于局部隨機(jī)采樣魯棒幾何描述的3D匹配與位姿估計(jì)方法,該方法在噪聲、遮擋測試環(huán)境中取得良好的抓取效果.以上方法依賴于物體3D幾何信息,一方面目標(biāo)幾何模型精度難以保證;另一方面目標(biāo)模型計(jì)算復(fù)雜,使得整個(gè)系統(tǒng)不顯優(yōu)勢(shì).與上述基于模型的方法不同,本文研究多模特征深度學(xué)習(xí),直接從2D圖像平面判別抓取位姿,不失為一種直觀簡潔的方法.
本文研究多模特征深度學(xué)習(xí)構(gòu)建疊層深度網(wǎng)絡(luò),實(shí)現(xiàn)機(jī)器人抓取位姿最優(yōu)判別.從問題本質(zhì)出發(fā),機(jī)器人對(duì)目標(biāo)抓取位置的判別屬于機(jī)器學(xué)習(xí)目標(biāo)識(shí)別范疇,因此本文提出深度學(xué)習(xí)解決機(jī)器人抓取判別問題,是一種可行有效的方法,而且避免了傳統(tǒng)學(xué)習(xí)方法耗時(shí)、需人工設(shè)計(jì)特征等缺點(diǎn).本文研究目標(biāo)為:給定抓取目標(biāo)場景圖,機(jī)器人視覺系統(tǒng)通過多模特征深度學(xué)習(xí)推斷出最優(yōu)抓取位姿,為此,本文主要研究內(nèi)容及貢獻(xiàn)包括:1)采用堆疊降噪自動(dòng)編碼(Denoising auto-encoding,DAE)建立深度網(wǎng)絡(luò)模型.在網(wǎng)絡(luò)建模中,把測試特征分布偏離訓(xùn)練特征視為一類噪化,通過引入降噪自動(dòng)編碼和稀疏約束條件實(shí)現(xiàn)網(wǎng)絡(luò)權(quán)值學(xué)習(xí);在網(wǎng)絡(luò)學(xué)習(xí)中,先對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行噪化,再對(duì)其進(jìn)行降噪編碼,提高深度網(wǎng)絡(luò)對(duì)新目標(biāo)抓取判別的魯棒性能.2)采用Kinect體感傳感器獲取目標(biāo)RGB及深度多模數(shù)據(jù),以融合策略處理多模特征的深層抽象表達(dá).實(shí)驗(yàn)表明,與單模相比,多模特征融合學(xué)習(xí)大大改善了機(jī)器人抓取判別的精確性.3)論文研究的多模特征深度學(xué)習(xí)模型與6自由度機(jī)器人相結(jié)合,機(jī)器人實(shí)現(xiàn)了對(duì)不同形狀、不同擺放方向物體的抓取判別與定位,不同情形下的實(shí)驗(yàn)結(jié)果驗(yàn)證了本文研究方法的實(shí)用性.
給定抓取目標(biāo)視覺場景圖(RGB和深度圖),機(jī)器人首先對(duì)目標(biāo)進(jìn)行感知識(shí)別(目標(biāo)分割、提取有效的初始特征),然后推斷出對(duì)其實(shí)施抓取的最優(yōu)位姿(抓取位置和方向),針對(duì)上述研究目標(biāo),機(jī)器人抓取判別問題可描述如下:
t時(shí)刻機(jī)器人獲取抓取目標(biāo)n維特征序列X(t)=(x1(t),x2(t),···,xn(t)),假設(shè)該目標(biāo)存在τ個(gè)可能的抓取G(t)=(g1(t),g2(t),···,gτ(t)),令 “位姿—特征”集 ?i=(gi(t),X(t)),其中g(shù)i(t),i=1,2,···,τ表示第i個(gè)特定的抓取位姿,給定二值變量有
式(1)指明,在給定目標(biāo)特征X(t)條件下,gi(t)是否為最優(yōu)抓取位姿.此時(shí),機(jī)器人最優(yōu)抓取判別問題即轉(zhuǎn)化為以下概率模型的最大化:
本文采用L層深度學(xué)習(xí)網(wǎng)絡(luò),構(gòu)建機(jī)器人最優(yōu)抓取判別模型,其中輸入層的輸出量為:
式中δ(a)=1/(1+exp(-a)).網(wǎng)絡(luò)的第l-1層輸出h[l-1](t)作為第l層的輸入,以此類推,各隱含層輸入輸出之間關(guān)系為:
式中,上標(biāo)表示網(wǎng)絡(luò)層數(shù),下標(biāo)表示網(wǎng)絡(luò)節(jié)點(diǎn),k[l-1]為第l-1層的節(jié)點(diǎn)數(shù).網(wǎng)絡(luò)的最后一層(第L層)為邏輯輸出層:
傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)面臨一個(gè)固有問題,即測試樣本取值分布越接近訓(xùn)練樣本,網(wǎng)絡(luò)的重建輸出效果越好,而當(dāng)測試樣本分布遠(yuǎn)離訓(xùn)練樣本時(shí),網(wǎng)絡(luò)的重建輸出效果則不然[25].若一個(gè)訓(xùn)練好的網(wǎng)絡(luò)即便測試樣本遠(yuǎn)離訓(xùn)練樣本,網(wǎng)絡(luò)的重建誤差依然能夠保持在較低水平,那么該網(wǎng)絡(luò)具備良好的魯棒性或泛化能力.為了提升網(wǎng)絡(luò)的魯棒性能,實(shí)現(xiàn)對(duì)新目標(biāo)的抓取判別,本文把測試樣本異于訓(xùn)練樣本看作是被噪聲污染后的結(jié)果,在網(wǎng)絡(luò)訓(xùn)練前對(duì)訓(xùn)練特征進(jìn)行隨機(jī)噪化,再對(duì)噪化后的特征數(shù)據(jù)進(jìn)行降噪編碼,其目的是重建特征的精確復(fù)原體.網(wǎng)絡(luò)的每一層由一個(gè)降噪自動(dòng)編碼器組成,原理如圖1(a)所示,假設(shè)初始特征集X(t)∈Rn被隨機(jī)噪聲污染后變?yōu)樵牖^程可看作一種隨機(jī)映射,即:
式Rm中,為W編碼∈偏Rm置×向n為量,n s 個(gè)igm特(征a)的為權(quán)S值型矩函陣數(shù),b,1即∈sig m(a)=(1+exp(-a))-1.降噪自動(dòng)編碼器再對(duì)進(jìn)行解碼,得到初始特征集X(t)的重建e,即:
式中,V∈Rm×n為解碼矩陣,b2∈Rn為解碼偏置向量.
為了進(jìn)一步提升網(wǎng)絡(luò)的學(xué)習(xí)效率,更好地模擬神經(jīng)元的激活機(jī)制,即神經(jīng)元只能被感興趣的視覺特征激活,本文在權(quán)值學(xué)習(xí)中引入稀疏約束條件,使得:
KL方差實(shí)現(xiàn)了稀疏約束,當(dāng)ρ很小時(shí),即可得到初始特征的無冗余完備深層抽象特征集.
圖1疊層DAE深度學(xué)習(xí)過程Fig.1 The processing of stacked DAE deep learning
本文采用疊層DAE構(gòu)建L層深度網(wǎng)絡(luò),其中每一層由一個(gè)DAE組成.在疊層學(xué)習(xí)中,首先采用DAE學(xué)習(xí)算法,根據(jù)式(10)初始化輸入層權(quán)值矩陣W[1],從而重建初始特征向量X(t),然后固定W[1],再次采用DAE學(xué)習(xí)算法初始化W[2],重建第一層輸出向量h[1].依次類推,得到網(wǎng)絡(luò)權(quán)值變量Θ=(W[1],W[2],···,W[L]).網(wǎng)絡(luò)的堆疊學(xué)習(xí)過程如圖1(b)所示,L個(gè)DAE由下往上堆疊構(gòu)成一個(gè)深度網(wǎng)絡(luò),實(shí)現(xiàn)從初始輸入數(shù)據(jù),逐漸抽取出深層抽象特征.
在堆疊學(xué)習(xí)中,我們得到一個(gè)單模結(jié)構(gòu)的深度網(wǎng)絡(luò),網(wǎng)絡(luò)的輸入為單模特征.考慮到多模深度網(wǎng)絡(luò)能夠更好地處理多模特征學(xué)習(xí)問題[11,27],本文采用多模視覺特征,進(jìn)一步構(gòu)建多模深度網(wǎng)絡(luò).假設(shè)Xi(t)∈Rn為第i個(gè)單模深度網(wǎng)絡(luò)的輸入特征,表示第i個(gè)單模深度網(wǎng)絡(luò)輸出,多模深度學(xué)習(xí)就是要獲取λ個(gè)單模深度網(wǎng)絡(luò)輸出的有效融合,從而有效提高機(jī)器人抓取判別精度,融合方式表示為:
式中,θi∈[0,1]為第i個(gè)單模深度網(wǎng)絡(luò)輸出融合權(quán)值,滿足
為了搜索一個(gè)有效的抓取位姿,使得式(2)最優(yōu),首先需要確定抓取目標(biāo)所有可能的抓取,然后利用深度網(wǎng)絡(luò)對(duì)它們各自可能成為最優(yōu)抓取的概率進(jìn)行排序,概率值最大者獲勝.文獻(xiàn)[28]給出了一種增量快速搜索方法,認(rèn)為抓取位姿搜索其本質(zhì)是像素概率分類問題,即把概率模型分解成每個(gè)像素點(diǎn)屬于最優(yōu)抓取位姿的概率之和,通過分解計(jì)算提高算法的搜索效率.
假設(shè)某一已知的抓取位姿g(t)對(duì)應(yīng)的概率模型為P(g(t)),我們把增量△g(t)合并到g(t)中,得到擴(kuò)展抓取位姿g′(t)=g(t)∪△g(t),與此抓取位姿對(duì)應(yīng)的圖像特征可表示為:
擴(kuò)展抓取位姿g′(t)的最優(yōu)判別式,如下:
不失一般性,圖像特征滿足:
式中,φi(I(u,v))表示像素點(diǎn)(u,v)的第i個(gè)特征值,通過式(15)可計(jì)算出抓取位姿g(t)區(qū)域內(nèi)所有像素點(diǎn)的k個(gè)特征之和,于是P(g(t))的計(jì)算公式可表示為:
綜上所述,首先定義一個(gè)大小與圖像I相同的矩陣F(u,v)∈Rr×c,F(xiàn)(u,v),元素代表圖像I中各像素屬于最優(yōu)抓取區(qū)域的概率矩陣F稱為像素概率矩陣.此時(shí)可把最優(yōu)抓取判別描述為,給定大小為r×c的像素概率矩陣F,在F內(nèi)部查找一個(gè)抓取位姿g(t),使得g(t)區(qū)域內(nèi)包含F(xiàn)子元素之和最大,其本質(zhì)是在F中查找一個(gè)最大和子矩陣F′.本文采用遞增查找算法,使得F′所有元素之和最大,算法實(shí)現(xiàn)如下:
算法1.抓取位姿搜索算法
初始化F中子區(qū)域F′的大小,即rG和nG固定
初始化當(dāng)前值sy=f(G)=0,最大s?=f(G?)= 0,i=1
為了測試本文多模特征深度學(xué)習(xí)方法在機(jī)器人抓取判別中的有效性,首先采用抓取樣本數(shù)據(jù),離線訓(xùn)練所構(gòu)建的網(wǎng)絡(luò)模型.網(wǎng)絡(luò)的輸入為多模特征數(shù)據(jù)集,輸出為目標(biāo)的最優(yōu)抓取區(qū)域.訓(xùn)練數(shù)據(jù)集包含日常生活中的180個(gè)物體,總共935幅樣本場景圖,每幅圖像中的抓取目標(biāo)都標(biāo)記了3~5個(gè)抓取位置.多模特征包括RGB、YUV以及深度特征D三類特征,總共7個(gè)通道,我們把標(biāo)記區(qū)域規(guī)范化為一個(gè)30像素×30像素的圖像塊,所以總的多模特征數(shù)為30×30×7=6300.在深度網(wǎng)絡(luò)學(xué)習(xí)過程中,網(wǎng)絡(luò)包括2個(gè)隱含層,每個(gè)隱含層包含300個(gè)節(jié)點(diǎn),網(wǎng)絡(luò)訓(xùn)練選用Intel Core i5 1.8GHz處理器,8GB RAM,安裝Windows 8操作系統(tǒng)的個(gè)人計(jì)算機(jī),在Matlab 2011b環(huán)境中訓(xùn)練時(shí)間近1.5小時(shí).
在線抓取判別測試中,采用微軟Kinect體感攝像機(jī),在VS與Matlab交叉編譯環(huán)境下,獲取抓取目標(biāo)RGB圖像和深度圖像,采集到的部分測試數(shù)據(jù)如圖2所示,代表四類目標(biāo)物:杯子、盤子、矩形盒、工具.針對(duì)不同形狀、大小、擺放方向的測試目標(biāo),抓取判別試驗(yàn)結(jié)果如圖3所示,從結(jié)果中可看出判別模型參照人的抓取習(xí)慣,即矩形盒抓中間、杯子抓杯柄、盤子抓邊緣、工具抓把柄,表明本文研究的多模特征深度學(xué)習(xí)抓取判別方法具備以下兩個(gè)特性:1)針對(duì)不同類別的抓取目標(biāo),學(xué)習(xí)算法依據(jù)人的抓取習(xí)慣,實(shí)現(xiàn)抓取位置的最優(yōu)判別,說明該方法具有一定的智能學(xué)習(xí)判別特性.2)試驗(yàn)中部分測試目標(biāo)不同于網(wǎng)絡(luò)訓(xùn)練樣本,這說明本文構(gòu)建的多模特征深度學(xué)習(xí)網(wǎng)具有較好的魯棒特性,即機(jī)器人在面臨新的抓取目標(biāo)時(shí),同樣能夠?qū)崿F(xiàn)抓取判別.
圖2 抓取判別測試數(shù)據(jù)Fig.2 Test dataset for potential grasp recognition
為了進(jìn)一步驗(yàn)證本文方法的魯棒性能與特性,我們進(jìn)行以下兩種情形的比較試驗(yàn):
情形1.相同訓(xùn)練特征,不同訓(xùn)練方法試驗(yàn)比較,網(wǎng)絡(luò)輸入為相同的RGB-YUV-D多模特征,分別采用自動(dòng)編碼(AE)和本文降噪自動(dòng)編碼(DAE)方法訓(xùn)練網(wǎng)絡(luò).在網(wǎng)絡(luò)權(quán)值學(xué)習(xí)中忽略式(6),即初始多模特征不進(jìn)行噪化處理,從而式(7)退化為常規(guī)AE編碼,然后用AE方法訓(xùn)練網(wǎng)絡(luò).這種訓(xùn)練模式下,網(wǎng)絡(luò)在線測試結(jié)果如圖4所示,其中圖4(a)測試目標(biāo)“杯子”、“盤子”、“工具”包含在訓(xùn)練樣本集中,此時(shí)AE和本文DAE方法的試驗(yàn)結(jié)果比較接近,二者抓取判別效果令人滿意.圖4(b)測試目標(biāo)“接線導(dǎo)軌”、“訂書機(jī)”、“測量儀”不包含在訓(xùn)練樣本中,此時(shí)本文DAE方法測試結(jié)果明顯優(yōu)越于AE方法,說明當(dāng)面臨新目標(biāo)時(shí),AE網(wǎng)絡(luò)的判別效果變差,不能滿足工程要求,而本文DAE網(wǎng)絡(luò)依然能夠保持良好的判別效果.試驗(yàn)結(jié)果表明,本文把測試特征偏離訓(xùn)練特征視為一類噪化,通過引入帶約束的降噪自動(dòng)編碼方法對(duì)目標(biāo)特征進(jìn)行學(xué)習(xí)是一種有效舉措,訓(xùn)練樣本先噪化再降噪編碼,有效提高了網(wǎng)絡(luò)的魯棒性能.
圖3 不同類別目標(biāo)抓取判別結(jié)果Fig.3 Grasp recognition results for variety of targets
圖4AE和本文DAE訓(xùn)練方法結(jié)果比較Fig.4 Results comparison between AE and our DAE training methods
情形2.相同DAE訓(xùn)練方法,不同訓(xùn)練特征試驗(yàn)比較.分別采用RGB-YUV、RGB-D、RGBYUV-D三種特征訓(xùn)練網(wǎng)絡(luò).首先通過設(shè)定某個(gè)特征的融合權(quán)值θi為0,實(shí)現(xiàn)從RGB-YUV-D中剔除某一特征數(shù)據(jù),即網(wǎng)絡(luò)退化為單模深度網(wǎng)絡(luò),再與本文的多模深度網(wǎng)絡(luò)進(jìn)行比較.試驗(yàn)結(jié)果如圖5所示,可看出RGB-YUV網(wǎng)絡(luò)判別效果最差,其次為RGB-D網(wǎng)絡(luò),而本文RGB-YUV-D多模特征網(wǎng)絡(luò)判別結(jié)果最優(yōu),表明本文采取的多模特征融合策略,處理多模特征深層抽象表達(dá)真實(shí)有效,從而大大改善了網(wǎng)絡(luò)的判別精度.
圖5 不同特征融合結(jié)果比較Fig.5 Results comparison between different features
本文研究方法與6自由度工業(yè)機(jī)器人相結(jié)合,構(gòu)建機(jī)器人視覺伺服抓取定位試驗(yàn)平臺(tái),驗(yàn)證本文方法的實(shí)際應(yīng)用效果.在機(jī)器人抓取定位實(shí)驗(yàn)中,深度攝像機(jī)安放在機(jī)器人的基坐標(biāo)系中,位置大致為x =200mm,y=150mm,z=680mm,相機(jī)成像平面盡量與機(jī)器人坐標(biāo)系Y-軸平行.相機(jī)通過USB接口與PC相連,PC通過RS232串口與機(jī)器人控制器相連接,構(gòu)成機(jī)器人視覺伺服閉環(huán)系統(tǒng).PC作為上位機(jī)主要完成圖像采集、圖像處理及執(zhí)行抓取判別算法,機(jī)器人控制器作為下位機(jī)完成機(jī)器人運(yùn)動(dòng)學(xué)運(yùn)算,同時(shí)驅(qū)動(dòng)機(jī)器人各個(gè)關(guān)節(jié).
首先,機(jī)器人對(duì)不同物體實(shí)施抓取判別與定位實(shí)驗(yàn),結(jié)果如圖6所示,機(jī)器人根據(jù)深度網(wǎng)絡(luò)輸出的抓取位姿判別結(jié)果(圖6(a)),再實(shí)施對(duì)其目標(biāo)抓取定位(圖6(b)),可看出機(jī)器人成功實(shí)現(xiàn)了對(duì)矩形盒和杯子的抓取判別與定位.其次,為了進(jìn)一步驗(yàn)證研究方法的可靠性,我們對(duì)相同物體、不同擺放方向進(jìn)行測試,結(jié)果如圖7所示,機(jī)器人對(duì)擺放方向大致為—5?、35?、270?的同一物體成功實(shí)施抓取判別與定位.從以上結(jié)果可直觀看出,本文研究方法適用于不同形狀、不同擺放姿態(tài)物體的抓取判別與定位.值得一提的是,我們沿用了目標(biāo)識(shí)別一貫表示方式,用一個(gè)矩形框來表示抓取位姿,同時(shí)考慮目標(biāo)物為剛性物體,在抓取定位精確情況下機(jī)器人即可進(jìn)行簡單的兩指挾持操作,后續(xù)工作也將進(jìn)一步研究機(jī)器人多指抓取操作問題.
最后,我們對(duì)圖2中四類不同物體、不同擺放方向進(jìn)行總計(jì)96次機(jī)器人抓取定位實(shí)驗(yàn),結(jié)果統(tǒng)計(jì)如表1所示,從有限代表性實(shí)驗(yàn)中得出機(jī)器人抓取定位平均成功率為91.7%,綜上得證本文研究方法的實(shí)用性.
圖6 機(jī)器人對(duì)不同物體實(shí)施抓取判別與定位Fig.6 Robot executing grasp recognition and positioning for different targets
圖7 機(jī)器人對(duì)不同擺放方向物體實(shí)施抓取判別與定位Fig.7 Robot executing grasp recognition and positioning for targets with different poses
表1 機(jī)器人對(duì)不同物體、不同擺放方向抓取定位統(tǒng)計(jì)結(jié)果Table 1 Results of robot grasp positioning for different targets with different poses
本文針對(duì)機(jī)器人抓取判別與定位問題,給出了疊層多模特征深度學(xué)習(xí)與融合抓取判別方法.本文把測試特征偏離訓(xùn)練特征視為一類噪化,通過引入降噪自動(dòng)編碼和稀疏約束條件實(shí)現(xiàn)網(wǎng)絡(luò)權(quán)值學(xué)習(xí),提高了疊層DAE網(wǎng)對(duì)新目標(biāo)抓取判別的魯棒性能.考慮多模視覺特征,采取多模特征融合策略處理多模特征的深層抽象表達(dá),有效改善了網(wǎng)絡(luò)的判別精度.試驗(yàn)表明判別模型依據(jù)人的抓取習(xí)慣,實(shí)現(xiàn)了不同擺放姿態(tài)、不同形狀物體的抓取判別,6自由度工業(yè)機(jī)器人抓取定位實(shí)驗(yàn)驗(yàn)證了方法的實(shí)用性.
References
1 Paolini R,Rodriguez A,Srinivasa S S,Mason M T.A data-driven statistical framework for post-grasp manipulation.The International Journal of Robotics Research,2014,33(4):600-615
2 Jia Bing-Xi,Liu Shan,Zhang Kai-Xiang,Chen Jian.Survey on robot visual servo control:vision system and control strategies.Acta Automatica Sinica,2015,41(5):861-873(賈丙西,劉山,張凱祥,陳劍.機(jī)器人視覺伺服研究進(jìn)展:視覺系統(tǒng)與控制策略.自動(dòng)化學(xué)報(bào),2015,41(5):861-873)
3 Droniou A,Ivaldi S,Sigaud O.Deep unsupervised network for multimodal perception,representation and classification. Robotics and Autonomous Systems,2015,71(9):83-98
4 Gao Ying-Ying,Zhu Wei-Bin.Deep neural networks with visible intermediate layers.Acta Automatica Sinica,2015,41(9):1627-1637(高瑩瑩,朱維彬.深層神經(jīng)網(wǎng)絡(luò)中間層可見化建模.自動(dòng)化學(xué)報(bào),2015,41(9):1627-1637)
5 Qiao Jun-Fei,Pan Guang-Yuan,Han Hong-Gui.Design and application of continuous deep belief network.Acta Automatica Sinica,2015,41(12):2138-2146(喬俊飛,潘廣源,韓紅桂.一種連續(xù)型深度信念網(wǎng)的設(shè)計(jì)與應(yīng)用.自動(dòng)化學(xué)報(bào),2015,41(12):2138-2146)
6 Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks.Science,2006,313(5786):504-507
7 Bengio Y.Learning deep architectures for AI.Foundations and Trends?in Machine Learning,2009,2(1):1-127
8 L¨angkvist M,Karlsson L,Loutfi A.A review of unsupervised feature learning and deep learning for time-series modeling. Pattern Recognition Letters,2014,42:11-24
9 Erhan D,Bengio Y,Courville A,Manzagol P A,Vincent P,Bengio S.Why does unsupervised pre-training help deep learning?Journal of Machine Learning Research,2010,11:625-660
10 Salakhutdinov R,Hinton G.Deep Boltzmann machines.In:Proceedings of the 12th International Conference on Artificial Intelligence and Statistics(AISTATS)2009.Florid,USA,2009.448-455
11 Ngiam J,Khosla A,Kim M,Nam J,Lee H,Ng A Y.Multimodal deep learning.In:Proceedings of the 28th International Conference on Machine Learning.Bellevue,USA,2011.689-696
12 Baldi P,Lu Z Q.Complex-valued autoencoders.Neural Networks,2012,33:136-147
13 Wu P C,Hoi S C H,Xia H,Zhao P L,Wang D Y,Miao C Y.Online multimodal deep similarity learning with application to image retrieval.In:Proceedings of the 21st ACM International Conference on Multimedia.Barcelona,Spain:ACM,2013.153-162
14 Geng Jie,F(xiàn)an Jian-Chao,Chu Jia-Lan,Wang Hong-Yu.Research on marine floating raft aquaculture SAR image target recognition based on deep collaborative sparse coding network.Acta Automatica Sinica,2016,42(4):593-604(耿杰,范劍超,初佳蘭,王洪玉.基于深度協(xié)同稀疏編碼網(wǎng)絡(luò)的海洋浮筏SAR圖像目標(biāo)識(shí)別.自動(dòng)化學(xué)報(bào),2016,42(4):593-604)
15 Mohamed A R,Dahl G E,Hinton G.Acoustic modeling using deep belief networks.IEEE Transactions on Audio,Speech,and Language Processing,2012,20(1):14-22
16 Sarikaya R,Hinton G E,Deoras A.Application of deep belief networks for natural language understanding.IEEE/ACM Transactions on Audio,Speech,and Language Processing,2014,22(4):778-784
17 Humphrey E J,Bello J P,LeCun Y.Feature learning and deep architectures:new directions for music informatics. Journal of Intelligent Information Systems,2013,41(3):461-481
18 Yu J C,Weng K J,Liang G Y,Xie G H.A vision-based robotic grasping system using deep learning for 3D object recognition and pose estimation.In:Proceedings of the 2013 IEEE International Conference on Robotics and Biomimetics.Shenzhen,China:IEEE,2013.1175-1180
19 Noda K,Arie H,Suga Y,Ogata T.Multimodal integration learning of object manipulation behaviors using deep neural networks.In:Proceedings of the 2013 IEEE/RSJ International Conference on Intelligent Robots and Systems.Tokyo,Japan:IEEE,2013.1728-1733
20 Lenz I,Lee H,Saxena A.Deep learning for detecting robotic grasps.The International Journal of Robotics Research,2015,34(4-5):705-724
21 El-Khoury S,Sahbani A.A new strategy combining empirical and analytical approaches for grasping unknown 3D objects.Robotics and Autonomous Systems,2010,58(5):497-507
22 Pelossof R,Miller A,Allen P,Jebara T.An SVM learning approach to robotic grasping.In:Proceedings of the 2004 IEEE International Conference on Robotics and Automation.New Orleans,USA:IEEE,2004.3512-3518
23 Boularias A,Kroemer O,Peters J.Learning robot grasping from 3-D images with Markov random fields.In:Proceedings of the 2011 IEEE/RSJ International Conference on Intelligent Robots and Systems.San Francisco,USA:IEEE,2011.1548-1553
24 Papazov C,Haddadin S,Parusel S,Krieger K,Burschka D. Rigid 3D geometry matching for grasping of known objects in cluttered scenes.The International Journal of Robotics Research,2012,31(4):538-553
25 Liu Jian-Wei,Sun Zheng-Kang,Luo Xiong-Lin.Review and research development on domain adaptation learning.Acta Automatica Sinica,2014,40(8):1576-1600(劉建偉,孫正康,羅雄麟.域自適應(yīng)學(xué)習(xí)研究進(jìn)展.自動(dòng)化學(xué)報(bào),2014,40(8):1576-1600)
26 Shin H C,Orton M R,Collins D J,Doran S J,Leach M O. Stacked autoencoders for unsupervised feature learning and multiple organ detection in a pilot study using 4D patient data.IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(8):1930-1943
27 Vincent P,Larochelle H,Bengio Y,Manzagol P A.Extracting and composing robust features with denoising autoencoders.In:Proceedings of the 25th International Conference on Machine Learning.Helsinki,F(xiàn)inland:ACM,2008. 1096-1103
28 Jiang Y,Moseson,Saxena A.Efficient grasping from RGBD images:learning using a new rectangle representation.In:Proceedings of the 2011 IEEE International Conference on Robotics and Automation.Shanghai,China:IEEE,2011. 3304-3311
仲訓(xùn)杲博士,廈門理工學(xué)院電氣工程與自動(dòng)化學(xué)院講師.主要研究方向?yàn)闄C(jī)器學(xué)習(xí)和機(jī)器人視覺伺服.
E-mail:zhongxungao@163.com
(ZHONGXun-GaoPh.D.,lecturer at the School of Electrical Engineering and Automation,Xiamen University of Technology.His research interest covers machine learning and robotic visual servoing.)
徐敏廈門理工學(xué)院電氣工程與自動(dòng)化學(xué)院教授.主要研究方向?yàn)槟J阶R(shí)別和機(jī)器人智能控制.
E-mail:xumin@xmut.edu.cn
(XU MinProfessor at the School of Electrical Engineering and Automation,Xiamen University of Technology.His research interest covers pattern identification and intelligent control of robotic.)
仲訓(xùn)昱博士,廈門大學(xué)自動(dòng)化系副教授.主要研究方向?yàn)闄C(jī)器視覺,機(jī)器人運(yùn)動(dòng)規(guī)劃,遙自主機(jī)器人.本文通信作者. E-mail:zhongxunyu@xmu.edu.cn
(ZHONG Xun-YuPh.D.,associate professor in the Department of Automation,Xiamen University.His research interest covers machine vision, robot motion planning,mobile and autonomous robotics. Corresponding author of this paper.)
彭俠夫博士,廈門大學(xué)自動(dòng)化系教授.主要研究方向?yàn)闄C(jī)器人導(dǎo)航與運(yùn)動(dòng)控制,機(jī)器學(xué)習(xí).
E-mail:xfpeng@xmu.edu.cn
(PENG Xia-FuPh.D.,professor in the Department of Automation,Xiamen University.His research interest covers navigation and motion control of robotic,machine learning.)
Multimodal Features Deep Learning for Robotic Potential Grasp Recognition
ZHONG Xun-Gao1XU Min1ZHONG Xun-Yu2PENG Xia-Fu2
In this paper,a multimodal features deep learning and a fusion approach are proposed to address the problem of robotic potential grasp recognition.In our thinking,the test features which diverge from training are presented as noise-processing,then the denoising auto-encoding(DAE)and sparse constraint conditions are introduced to realize the network′s weights training.Furthermore,a stacked DAE with fusion method is adopted to deal with the multimodal vision dataset for its high-level abstract expression.These two strategies aim at improving the network′s robustness and the precision of grasp recognition.A six-degree-of-freedom robotic manipulator with a stereo camera configuration is used to demonstrate the robotic potential grasp recognition.Experimental results show that the robot can optimally localizate the target by simulating human grasps,and that the proposed method is robust to a variety of new target grasp recognition.
Robot grasping recognition,denoising auto-encoding(DAE),stacked deep learning,multimodal features
10.16383/j.aas.2016.c150661
Zhong Xun-Gao,Xu Min,Zhong Xun-Yu,Peng Xia-Fu.Multimodal features deep learning for robotic potential grasp recognition.Acta Automatica Sinica,2016,42(7):1022-1029
2015-10-16錄用日期2016-05-03
Manuscript received October 16,2015;accepted May 3,2016國家自然科學(xué)基金 (61305117),福建省科技計(jì)劃重點(diǎn)項(xiàng)目(2014H0047),廈門市科技計(jì)劃項(xiàng)目(3502Z20143034),廈門理工學(xué)院高層次人才項(xiàng)目(YKJ15020R)資助
Supported by National Natural Science Foundation of China (61305117),theKeyScienceProjectofFujianProvince (2014H0047),theSciencePlanProjectofXiamenCity (3502Z20143034),and the High-level Talent Fund of Xiamen University of Technology(YKJ15020R)
本文責(zé)任編委賈珈
Recommended by Associate Editor JIA Jia
1.廈門理工學(xué)院電氣工程與自動(dòng)化學(xué)院廈門3610242.廈門大學(xué)自動(dòng)化系廈門361005
1.School of Electrical Engineering and Automation,Xiamen University of Technology,Xiamen 3610242.Department of Automation,Xiamen University,Xiamen 361005