洪倩倩,楊亮,曾碧
(1.廣東工業(yè)大學(xué),廣東 廣州 510006;2.電子科技大學(xué) 中山學(xué)院,廣東 中山 528402)
近些年來(lái),伴機(jī)器人在各個(gè)領(lǐng)域得到廣泛應(yīng)用,例如精密醫(yī)療[1-3]、社會(huì)服務(wù)[4-5]、工業(yè)制造[6-7]、航空航天[8-9]等,抓取技術(shù)作為機(jī)器人控制核心之一也獲得了大量關(guān)注,但是在實(shí)際應(yīng)用環(huán)境中,機(jī)器人對(duì)未見(jiàn)過(guò)的新物體實(shí)時(shí)地決定一個(gè)合適的抓取位姿仍是一個(gè)較大的挑戰(zhàn)。
在先前的研究工作中,許多抓取方法基于手工特征[10]進(jìn)行抓取位姿推理,這些方法有工序繁重、耗時(shí)、對(duì)新物體泛化性弱等缺點(diǎn)。而隨著近年來(lái)深度學(xué)習(xí)技術(shù)的發(fā)展,基于深度學(xué)習(xí)的方法[11-15]在抓取領(lǐng)域上取得了顯著的進(jìn)展,其中包括基于分類的抓取檢測(cè)方法[16-18],此類方法在抓取位姿方面上取得一定改進(jìn),但是存在計(jì)算耗時(shí)長(zhǎng)并要求較多計(jì)算資源的劣勢(shì);還有基于回歸的檢測(cè)方法[19-20],該方法在抓取位姿檢測(cè)上有不錯(cuò)的精度表現(xiàn),但是此類方法通?;跐撛诳赡艿淖ト∥蛔似骄殿A(yù)測(cè)實(shí)際的抓取位姿,有時(shí)會(huì)出現(xiàn)不合理的位姿推斷偏差。
為了解決上述問(wèn)題,文中提出一種基于殘差注意力生成網(wǎng)絡(luò)的抓取位姿生成方法,通過(guò)在康奈爾公開(kāi)抓取檢測(cè)數(shù)據(jù)集上進(jìn)行算法對(duì)比及消融實(shí)驗(yàn),比較不同方法對(duì)位姿生成精度的影響,進(jìn)而驗(yàn)證文中方法的有效性。
文中提出的殘差注意力生成網(wǎng)絡(luò)主要由三個(gè)部分組成,分別是編碼器、聚合層、解碼器。殘差注意力生成網(wǎng)絡(luò)及生成結(jié)果圖如圖1 所示。
圖1 殘差注意力生成網(wǎng)絡(luò)及生成結(jié)果圖
相比原有抓取位姿生成研究,為了進(jìn)一步增強(qiáng)網(wǎng)絡(luò)的特征提取能力,編碼器部分采用殘差卷積模塊獲取更豐富的特征表示,通過(guò)特征向量的跨層傳遞,在訓(xùn)練中加速了網(wǎng)絡(luò)的收斂,避免出現(xiàn)梯度消失的問(wèn)題。殘差卷積模塊采用較大的卷積核設(shè)定,進(jìn)而獲得更大的感受野。
為了解決殘差注意力生成網(wǎng)絡(luò)面對(duì)不同目標(biāo)尺寸波動(dòng)時(shí)的檢測(cè)魯棒性問(wèn)題,文中在聚合層引入了多尺度并行空洞卷積模塊。多尺度并行空洞卷積模塊采用瀑布結(jié)構(gòu),通過(guò)空洞卷積在保留圖像分辨率的情況下擴(kuò)張圖像的感受野。文中方法針對(duì)每個(gè)分支,分別設(shè)置了不同的卷積核大小與擴(kuò)張率,以有效獲取不同尺度下的上下文語(yǔ)義信息,強(qiáng)化殘差注意力生成網(wǎng)絡(luò)在面對(duì)不同尺寸大小目標(biāo)時(shí)的檢測(cè)魯棒性。另外,有針對(duì)性地在聚合層使用多尺度并行空洞卷積模塊策略,使文中方法在少量增加網(wǎng)絡(luò)訓(xùn)練量與模型參數(shù)的同時(shí)有效改善了網(wǎng)絡(luò)魯棒性與精度表現(xiàn)。多尺度并行空洞卷積模塊如圖2 所示。
圖2 多尺度并行空洞卷積模塊
不同于編碼器與聚合層主要關(guān)注于提升網(wǎng)絡(luò)的特征提取能力,解碼器部分更多聚焦于從已提取的特征中發(fā)掘更多有效信息。因此文中在解碼器部分融合了注意力模塊與對(duì)稱跳躍連接策略,其中對(duì)稱跳躍連接策略以將對(duì)應(yīng)編碼器模塊特征傳遞到對(duì)應(yīng)解碼器模塊中的連接方式,保留了不同層次的細(xì)粒度特征細(xì)節(jié),而注意力模塊通過(guò)將位置信息嵌入到通道注意力中,沿兩個(gè)不同空間方向進(jìn)行特征聚合,生成一對(duì)位置敏感與方向敏感的注意力參數(shù)Ch、Cw,并將這對(duì)參數(shù)互補(bǔ)地應(yīng)用于輸入特征,進(jìn)而增強(qiáng)對(duì)關(guān)注目標(biāo)的特征表示。注意力模塊的輸入輸出關(guān)系為:
文中研究對(duì)象為給出多模態(tài)圖像數(shù)據(jù)的新物體抓取位姿,采用已有研究提出的矩形度量方法[16-17]評(píng)估網(wǎng)絡(luò)生成的抓取位姿生成結(jié)果。文中將多模態(tài)圖像中的新物體抓取位姿定義為:
其中,pi代表了末端夾爪抓取中心點(diǎn)的二維坐標(biāo)(u,v),wi代表末端夾爪的張開(kāi)寬度,θi代表末端夾爪旋轉(zhuǎn)角,范圍為[-2/π,2/π]。而qi代表基于像素級(jí)層面的末端抓取位姿的成功概率預(yù)測(cè)常量。圖3所示為抓取位姿示意圖。
圖3 抓取位姿示意圖
文中硬件環(huán)境使用的顯卡為Nvidia GeForce RTX 2080ti,實(shí)驗(yàn)平臺(tái)與系統(tǒng)是Ubuntu16.04、Pytorch深度學(xué)習(xí)框架。
文中實(shí)驗(yàn)基于公開(kāi)的康奈爾抓取位姿檢測(cè)數(shù)據(jù)集展開(kāi),此數(shù)據(jù)集共包含240 種不同物體的885 張RGB-D 圖像與對(duì)應(yīng)圖像中物體的基準(zhǔn)夾取位置描述文件。
由于康奈爾數(shù)據(jù)集樣本量相對(duì)較小,因此在實(shí)驗(yàn)中采用了隨機(jī)裁剪、隨機(jī)縮放和隨機(jī)旋轉(zhuǎn)等數(shù)據(jù)增強(qiáng)操作對(duì)康奈爾數(shù)據(jù)集進(jìn)行數(shù)據(jù)樣本數(shù)量的擴(kuò)充。在實(shí)驗(yàn)的訓(xùn)練與評(píng)估階段,將數(shù)據(jù)集按照9∶1的比例劃分為訓(xùn)練集與驗(yàn)證集。
文中提出的殘差注意力生成網(wǎng)絡(luò)使用Xavier 正態(tài)分布作為網(wǎng)絡(luò)參數(shù)的初始化方法,使用Adam 方法作為網(wǎng)絡(luò)優(yōu)化算法,其中Adam 初始學(xué)習(xí)率設(shè)為0.000 1,文中提出的網(wǎng)絡(luò)結(jié)構(gòu)采用Huber Loss 作為損失函數(shù)。
為了驗(yàn)證文中方法的有效性,選取了與已有研究方法相同的評(píng)測(cè)標(biāo)準(zhǔn),即當(dāng)網(wǎng)絡(luò)生成的抓取位姿符合下述兩個(gè)條件時(shí)視為一次成功的機(jī)械波末端抓取位姿,具體評(píng)價(jià)標(biāo)準(zhǔn)為:
1)文中方法的預(yù)測(cè)末端抓取框與數(shù)據(jù)集基準(zhǔn)抓取框的夾角小于或等于30°。
2)文中方法的預(yù)測(cè)末端抓取框與數(shù)據(jù)集基準(zhǔn)抓取框的交并比指數(shù)大于25%。
為驗(yàn)證文中提出的殘差注意力生成網(wǎng)絡(luò)在新目標(biāo)抓取位姿生成問(wèn)題上的有效性,在康奈爾抓取檢測(cè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證,并設(shè)置了消融實(shí)驗(yàn)用于評(píng)估不同模塊對(duì)于網(wǎng)絡(luò)檢測(cè)能力的影響。
3.5.1 康奈爾抓取檢測(cè)數(shù)據(jù)集結(jié)果
將文中提出方法的殘差注意力生成網(wǎng)絡(luò)與已有研究從兩個(gè)維度進(jìn)行比較,分別是檢測(cè)精度與檢測(cè)時(shí)間,在多模態(tài)數(shù)據(jù)下分別進(jìn)行了測(cè)試,如表1 所示。從表1中結(jié)果可發(fā)現(xiàn),得益于更豐富的特征信息,文中方法使用RGB-D 圖像在康奈爾數(shù)據(jù)集上獲得了96.6%的檢測(cè)精度與18 ms 的實(shí)時(shí)檢測(cè)時(shí)間,優(yōu)于其他相關(guān)研究方法的實(shí)驗(yàn)結(jié)果,證明了文中所提方法的有效性。
表1 康奈爾抓取檢測(cè)數(shù)據(jù)集結(jié)果
3.5.2 消融實(shí)驗(yàn)
為了增強(qiáng)殘差注意力生成面對(duì)新物體的泛化能力,文中提出的網(wǎng)絡(luò)結(jié)構(gòu)不僅采用殘差卷積模塊、多尺度并行空洞卷積模塊用于增強(qiáng)網(wǎng)絡(luò)的特征提取與表達(dá),還融合了對(duì)稱跳躍連接策略、注意力機(jī)制以強(qiáng)化目標(biāo)特征細(xì)節(jié)。因此文中基于康奈爾數(shù)據(jù)集的RGB-D 圖像數(shù)據(jù)進(jìn)行了消融對(duì)比實(shí)驗(yàn),以研究殘差注意力生成網(wǎng)絡(luò)結(jié)構(gòu)中使用不同模塊策略對(duì)檢測(cè)精度帶來(lái)的影響。實(shí)驗(yàn)結(jié)果如表2 所示,其中實(shí)驗(yàn)一采用了包含殘差卷積模塊與跳躍連接策略的基礎(chǔ)殘差注意力生成網(wǎng)絡(luò)結(jié)構(gòu),實(shí)驗(yàn)二添加了多尺度并行空洞卷積模塊,實(shí)驗(yàn)三添結(jié)構(gòu)加了注意力模塊,實(shí)驗(yàn)四采用綜合所有策略的殘差注意力生成網(wǎng)絡(luò)結(jié)構(gòu)。
表2 消融實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果表明,文中所提出的融合注意力機(jī)制與對(duì)稱跳躍連接策略的基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)得到了92.1%的精度表現(xiàn),證明了文中所提基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)的可行性。隨后,基于基礎(chǔ)網(wǎng)絡(luò)分別評(píng)估了添加多尺度并行空洞卷積模塊與注意力模塊對(duì)網(wǎng)絡(luò)精度表現(xiàn)的增益,實(shí)驗(yàn)結(jié)果顯示,受益于特征信息豐富度的增加,使用這兩種策略分別令基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)取得了2.2%與0.9%的精度提升,而最后通過(guò)融合所有策略,文中最終提出的殘差注意力生成網(wǎng)絡(luò)結(jié)構(gòu)在康奈爾抓取檢測(cè)數(shù)據(jù)集上得到了96.6%的精度表現(xiàn)。
為了解決機(jī)器人面對(duì)未見(jiàn)過(guò)的新物體時(shí)實(shí)時(shí)有效地生成目標(biāo)抓取位姿的問(wèn)題,文中創(chuàng)新地提出了一種殘差注意力生成神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),這種結(jié)構(gòu)融合了位置注意力機(jī)制、多尺度并行空洞卷積模塊與對(duì)稱跳躍連接策略,在抓取位姿生成問(wèn)題的速度與精度上取得了一個(gè)較好平衡。實(shí)驗(yàn)結(jié)果表明,在康奈爾數(shù)據(jù)集上,文中提出的方法在實(shí)時(shí)生成速度下獲得了不錯(cuò)的抓取位姿生成精度,驗(yàn)證了文中所提出方法的有效性。在后續(xù)的工作中,將主要著力于針對(duì)難樣本的檢測(cè)精度改善。