亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于殘差注意力生成網(wǎng)絡(luò)的機(jī)械臂抓取位姿估計(jì)算法

2022-11-05 08:30:58洪倩倩楊亮曾碧

電子設(shè)計(jì)工程 2022年21期

關(guān)鍵詞：康奈爾位姿網(wǎng)絡(luò)結(jié)構(gòu)

洪倩倩，楊亮，曾碧

（1.廣東工業(yè)大學(xué)，廣東廣州 510006；2.電子科技大學(xué) 中山學(xué)院，廣東中山 528402）

近些年來(lái)，伴機(jī)器人在各個(gè)領(lǐng)域得到廣泛應(yīng)用，例如精密醫(yī)療[1-3]、社會(huì)服務(wù)[4-5]、工業(yè)制造[6-7]、航空航天[8-9]等，抓取技術(shù)作為機(jī)器人控制核心之一也獲得了大量關(guān)注，但是在實(shí)際應(yīng)用環(huán)境中，機(jī)器人對(duì)未見(jiàn)過(guò)的新物體實(shí)時(shí)地決定一個(gè)合適的抓取位姿仍是一個(gè)較大的挑戰(zhàn)。

在先前的研究工作中，許多抓取方法基于手工特征[10]進(jìn)行抓取位姿推理，這些方法有工序繁重、耗時(shí)、對(duì)新物體泛化性弱等缺點(diǎn)。而隨著近年來(lái)深度學(xué)習(xí)技術(shù)的發(fā)展，基于深度學(xué)習(xí)的方法[11-15]在抓取領(lǐng)域上取得了顯著的進(jìn)展，其中包括基于分類的抓取檢測(cè)方法[16-18]，此類方法在抓取位姿方面上取得一定改進(jìn)，但是存在計(jì)算耗時(shí)長(zhǎng)并要求較多計(jì)算資源的劣勢(shì)；還有基于回歸的檢測(cè)方法[19-20]，該方法在抓取位姿檢測(cè)上有不錯(cuò)的精度表現(xiàn)，但是此類方法通?；跐撛诳赡艿淖ト∥蛔似骄殿A(yù)測(cè)實(shí)際的抓取位姿，有時(shí)會(huì)出現(xiàn)不合理的位姿推斷偏差。

為了解決上述問(wèn)題，文中提出一種基于殘差注意力生成網(wǎng)絡(luò)的抓取位姿生成方法，通過(guò)在康奈爾公開(kāi)抓取檢測(cè)數(shù)據(jù)集上進(jìn)行算法對(duì)比及消融實(shí)驗(yàn)，比較不同方法對(duì)位姿生成精度的影響，進(jìn)而驗(yàn)證文中方法的有效性。

1 網(wǎng)絡(luò)結(jié)構(gòu)

文中提出的殘差注意力生成網(wǎng)絡(luò)主要由三個(gè)部分組成，分別是編碼器、聚合層、解碼器。殘差注意力生成網(wǎng)絡(luò)及生成結(jié)果圖如圖1 所示。

圖1 殘差注意力生成網(wǎng)絡(luò)及生成結(jié)果圖

1.1 編碼器

相比原有抓取位姿生成研究，為了進(jìn)一步增強(qiáng)網(wǎng)絡(luò)的特征提取能力，編碼器部分采用殘差卷積模塊獲取更豐富的特征表示，通過(guò)特征向量的跨層傳遞，在訓(xùn)練中加速了網(wǎng)絡(luò)的收斂，避免出現(xiàn)梯度消失的問(wèn)題。殘差卷積模塊采用較大的卷積核設(shè)定，進(jìn)而獲得更大的感受野。

1.2 聚合層

為了解決殘差注意力生成網(wǎng)絡(luò)面對(duì)不同目標(biāo)尺寸波動(dòng)時(shí)的檢測(cè)魯棒性問(wèn)題，文中在聚合層引入了多尺度并行空洞卷積模塊。多尺度并行空洞卷積模塊采用瀑布結(jié)構(gòu)，通過(guò)空洞卷積在保留圖像分辨率的情況下擴(kuò)張圖像的感受野。文中方法針對(duì)每個(gè)分支，分別設(shè)置了不同的卷積核大小與擴(kuò)張率，以有效獲取不同尺度下的上下文語(yǔ)義信息，強(qiáng)化殘差注意力生成網(wǎng)絡(luò)在面對(duì)不同尺寸大小目標(biāo)時(shí)的檢測(cè)魯棒性。另外，有針對(duì)性地在聚合層使用多尺度并行空洞卷積模塊策略，使文中方法在少量增加網(wǎng)絡(luò)訓(xùn)練量與模型參數(shù)的同時(shí)有效改善了網(wǎng)絡(luò)魯棒性與精度表現(xiàn)。多尺度并行空洞卷積模塊如圖2 所示。

圖2 多尺度并行空洞卷積模塊

1.3 解碼器

不同于編碼器與聚合層主要關(guān)注于提升網(wǎng)絡(luò)的特征提取能力，解碼器部分更多聚焦于從已提取的特征中發(fā)掘更多有效信息。因此文中在解碼器部分融合了注意力模塊與對(duì)稱跳躍連接策略，其中對(duì)稱跳躍連接策略以將對(duì)應(yīng)編碼器模塊特征傳遞到對(duì)應(yīng)解碼器模塊中的連接方式，保留了不同層次的細(xì)粒度特征細(xì)節(jié)，而注意力模塊通過(guò)將位置信息嵌入到通道注意力中，沿兩個(gè)不同空間方向進(jìn)行特征聚合，生成一對(duì)位置敏感與方向敏感的注意力參數(shù)Ch、Cw，并將這對(duì)參數(shù)互補(bǔ)地應(yīng)用于輸入特征，進(jìn)而增強(qiáng)對(duì)關(guān)注目標(biāo)的特征表示。注意力模塊的輸入輸出關(guān)系為：

2 抓取位姿定義

文中研究對(duì)象為給出多模態(tài)圖像數(shù)據(jù)的新物體抓取位姿，采用已有研究提出的矩形度量方法[16-17]評(píng)估網(wǎng)絡(luò)生成的抓取位姿生成結(jié)果。文中將多模態(tài)圖像中的新物體抓取位姿定義為：

其中，pi代表了末端夾爪抓取中心點(diǎn)的二維坐標(biāo)(u,v)，wi代表末端夾爪的張開(kāi)寬度，θi代表末端夾爪旋轉(zhuǎn)角，范圍為[-2/π,2/π]。而qi代表基于像素級(jí)層面的末端抓取位姿的成功概率預(yù)測(cè)常量。圖3所示為抓取位姿示意圖。

圖3 抓取位姿示意圖

3 實(shí)驗(yàn)及結(jié)果分析

3.1 實(shí)驗(yàn)環(huán)境

文中硬件環(huán)境使用的顯卡為Nvidia GeForce RTX 2080ti，實(shí)驗(yàn)平臺(tái)與系統(tǒng)是Ubuntu16.04、Pytorch深度學(xué)習(xí)框架。

3.2 實(shí)驗(yàn)數(shù)據(jù)

文中實(shí)驗(yàn)基于公開(kāi)的康奈爾抓取位姿檢測(cè)數(shù)據(jù)集展開(kāi)，此數(shù)據(jù)集共包含240 種不同物體的885 張RGB-D 圖像與對(duì)應(yīng)圖像中物體的基準(zhǔn)夾取位置描述文件。

由于康奈爾數(shù)據(jù)集樣本量相對(duì)較小，因此在實(shí)驗(yàn)中采用了隨機(jī)裁剪、隨機(jī)縮放和隨機(jī)旋轉(zhuǎn)等數(shù)據(jù)增強(qiáng)操作對(duì)康奈爾數(shù)據(jù)集進(jìn)行數(shù)據(jù)樣本數(shù)量的擴(kuò)充。在實(shí)驗(yàn)的訓(xùn)練與評(píng)估階段，將數(shù)據(jù)集按照9∶1的比例劃分為訓(xùn)練集與驗(yàn)證集。

3.3 模型訓(xùn)練策略

文中提出的殘差注意力生成網(wǎng)絡(luò)使用Xavier 正態(tài)分布作為網(wǎng)絡(luò)參數(shù)的初始化方法，使用Adam 方法作為網(wǎng)絡(luò)優(yōu)化算法，其中Adam 初始學(xué)習(xí)率設(shè)為0.000 1，文中提出的網(wǎng)絡(luò)結(jié)構(gòu)采用Huber Loss 作為損失函數(shù)。

3.4 結(jié)果評(píng)價(jià)標(biāo)準(zhǔn)

為了驗(yàn)證文中方法的有效性，選取了與已有研究方法相同的評(píng)測(cè)標(biāo)準(zhǔn)，即當(dāng)網(wǎng)絡(luò)生成的抓取位姿符合下述兩個(gè)條件時(shí)視為一次成功的機(jī)械波末端抓取位姿，具體評(píng)價(jià)標(biāo)準(zhǔn)為：

1）文中方法的預(yù)測(cè)末端抓取框與數(shù)據(jù)集基準(zhǔn)抓取框的夾角小于或等于30°。

2）文中方法的預(yù)測(cè)末端抓取框與數(shù)據(jù)集基準(zhǔn)抓取框的交并比指數(shù)大于25%。

3.5 實(shí)驗(yàn)結(jié)果

為驗(yàn)證文中提出的殘差注意力生成網(wǎng)絡(luò)在新目標(biāo)抓取位姿生成問(wèn)題上的有效性，在康奈爾抓取檢測(cè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證，并設(shè)置了消融實(shí)驗(yàn)用于評(píng)估不同模塊對(duì)于網(wǎng)絡(luò)檢測(cè)能力的影響。

3.5.1 康奈爾抓取檢測(cè)數(shù)據(jù)集結(jié)果

將文中提出方法的殘差注意力生成網(wǎng)絡(luò)與已有研究從兩個(gè)維度進(jìn)行比較，分別是檢測(cè)精度與檢測(cè)時(shí)間，在多模態(tài)數(shù)據(jù)下分別進(jìn)行了測(cè)試，如表1 所示。從表1中結(jié)果可發(fā)現(xiàn)，得益于更豐富的特征信息，文中方法使用RGB-D 圖像在康奈爾數(shù)據(jù)集上獲得了96.6%的檢測(cè)精度與18 ms 的實(shí)時(shí)檢測(cè)時(shí)間，優(yōu)于其他相關(guān)研究方法的實(shí)驗(yàn)結(jié)果，證明了文中所提方法的有效性。

表1 康奈爾抓取檢測(cè)數(shù)據(jù)集結(jié)果

3.5.2 消融實(shí)驗(yàn)

為了增強(qiáng)殘差注意力生成面對(duì)新物體的泛化能力，文中提出的網(wǎng)絡(luò)結(jié)構(gòu)不僅采用殘差卷積模塊、多尺度并行空洞卷積模塊用于增強(qiáng)網(wǎng)絡(luò)的特征提取與表達(dá)，還融合了對(duì)稱跳躍連接策略、注意力機(jī)制以強(qiáng)化目標(biāo)特征細(xì)節(jié)。因此文中基于康奈爾數(shù)據(jù)集的RGB-D 圖像數(shù)據(jù)進(jìn)行了消融對(duì)比實(shí)驗(yàn)，以研究殘差注意力生成網(wǎng)絡(luò)結(jié)構(gòu)中使用不同模塊策略對(duì)檢測(cè)精度帶來(lái)的影響。實(shí)驗(yàn)結(jié)果如表2 所示，其中實(shí)驗(yàn)一采用了包含殘差卷積模塊與跳躍連接策略的基礎(chǔ)殘差注意力生成網(wǎng)絡(luò)結(jié)構(gòu)，實(shí)驗(yàn)二添加了多尺度并行空洞卷積模塊，實(shí)驗(yàn)三添結(jié)構(gòu)加了注意力模塊，實(shí)驗(yàn)四采用綜合所有策略的殘差注意力生成網(wǎng)絡(luò)結(jié)構(gòu)。

表2 消融實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果表明，文中所提出的融合注意力機(jī)制與對(duì)稱跳躍連接策略的基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)得到了92.1%的精度表現(xiàn)，證明了文中所提基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)的可行性。隨后，基于基礎(chǔ)網(wǎng)絡(luò)分別評(píng)估了添加多尺度并行空洞卷積模塊與注意力模塊對(duì)網(wǎng)絡(luò)精度表現(xiàn)的增益，實(shí)驗(yàn)結(jié)果顯示，受益于特征信息豐富度的增加，使用這兩種策略分別令基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)取得了2.2%與0.9%的精度提升，而最后通過(guò)融合所有策略，文中最終提出的殘差注意力生成網(wǎng)絡(luò)結(jié)構(gòu)在康奈爾抓取檢測(cè)數(shù)據(jù)集上得到了96.6%的精度表現(xiàn)。

4 結(jié)論

為了解決機(jī)器人面對(duì)未見(jiàn)過(guò)的新物體時(shí)實(shí)時(shí)有效地生成目標(biāo)抓取位姿的問(wèn)題，文中創(chuàng)新地提出了一種殘差注意力生成神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，這種結(jié)構(gòu)融合了位置注意力機(jī)制、多尺度并行空洞卷積模塊與對(duì)稱跳躍連接策略，在抓取位姿生成問(wèn)題的速度與精度上取得了一個(gè)較好平衡。實(shí)驗(yàn)結(jié)果表明，在康奈爾數(shù)據(jù)集上，文中提出的方法在實(shí)時(shí)生成速度下獲得了不錯(cuò)的抓取位姿生成精度，驗(yàn)證了文中所提出方法的有效性。在后續(xù)的工作中，將主要著力于針對(duì)難樣本的檢測(cè)精度改善。