亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

機(jī)器人目標(biāo)抓取區(qū)域?qū)崟r(shí)檢測方法

2020-10-10 01:00:34盧智亮劉瑞雪

計(jì)算機(jī)工程與應(yīng)用 2020年19期

盧智亮，林偉，曾碧，劉瑞雪

廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院，廣州510006

1 引言

在家庭和工業(yè)場景下，抓取物體是機(jī)器人進(jìn)行人機(jī)協(xié)作任務(wù)的關(guān)鍵步驟。人類可以準(zhǔn)確且穩(wěn)定地執(zhí)行抓取形狀不規(guī)則以及任意姿態(tài)的物體。然而對(duì)于機(jī)器人而言，準(zhǔn)確地抓取各式各樣、任意姿態(tài)的物體依舊是一種挑戰(zhàn)。機(jī)器人若要抓取目標(biāo)物體，需要預(yù)先檢測該物體的抓取區(qū)域，不適當(dāng)?shù)淖ト^(qū)域?qū)?dǎo)致機(jī)器人無法穩(wěn)定地抓取物體。因此，如何實(shí)時(shí)且準(zhǔn)確地檢測目標(biāo)抓取區(qū)域，是機(jī)器人領(lǐng)域中一個(gè)重要研究方向。

近年來，國內(nèi)外學(xué)者對(duì)機(jī)器人抓取區(qū)域檢測的研究已有不錯(cuò)的成果。Lenz 等[1]率先采用深度學(xué)習(xí)的方法提取RGB-D 多模態(tài)特征，基于滑動(dòng)窗口檢測框架同時(shí)使用支持向量機(jī)（Support Vector Machine，SVM）作為分類器，預(yù)測輸入圖像中的一小塊圖像是否存在合適的抓取位置。與Jiang等[2]使用傳統(tǒng)機(jī)器學(xué)習(xí)方法相比，該方法不需要人為針對(duì)特定物體設(shè)計(jì)視覺特征，而是以自主學(xué)習(xí)的方式提取抓取區(qū)域的特征。在Cornell 數(shù)據(jù)集[3]上，上述方法達(dá)到73.9%的準(zhǔn)確率。然而采用滑動(dòng)窗口的方法會(huì)導(dǎo)致搜索抓取區(qū)域耗費(fèi)時(shí)間長且計(jì)算量大。杜學(xué)丹等[4]在檢測抓取位置前，先使用Faster R-CNN二階目標(biāo)檢測算法[5]預(yù)測被抓物體的大致區(qū)域，縮小搜索范圍以減少搜索時(shí)間，但該方法并未從本質(zhì)上減少檢測時(shí)間且計(jì)算量仍舊偏大，無法達(dá)到實(shí)時(shí)檢測的要求。

Redmon等[6]不再基于滑動(dòng)窗口框架搜索抓取框，而是利用AlexNet 網(wǎng)絡(luò)[7]強(qiáng)大的特征提取能力，直接在整個(gè)圖像上回歸抓取框參數(shù)。將輸入的圖像劃分成N×N個(gè)網(wǎng)格單元，每個(gè)網(wǎng)格單元預(yù)測一個(gè)抓取配置參數(shù)及適合抓取的概率，取其中概率最高的作為預(yù)測結(jié)果。在相同數(shù)據(jù)集上達(dá)到88.0%的準(zhǔn)確率，平均檢測時(shí)間為76 ms。Kumra等[8]也采用全局抓取預(yù)測的方法，使用網(wǎng)絡(luò)結(jié)構(gòu)更復(fù)雜的ResNet-50[9]提取多模態(tài)特征，準(zhǔn)確率相應(yīng)提高1.21%。以上兩種方法借助性能強(qiáng)大的特征提取網(wǎng)絡(luò)力求盡可能提高檢測速度和檢測準(zhǔn)確率，但是直接回歸抓取框參數(shù)容易導(dǎo)致預(yù)測的抓取框趨向于物體的中心，對(duì)于如盤子等抓取部位為物體邊緣的情況，預(yù)測的效果并不理想。

Chu 等[10]提出旋轉(zhuǎn)抓取框的方法，將方向預(yù)測視為抓取角度分類問題，借鑒Faster R-CNN二階目標(biāo)檢測算法的思想，首先判斷由GPN（Grasp Proposal Network）推薦的多個(gè)抓取候選區(qū)域能否用于抓取目標(biāo)物體，然后判斷剩余的抓取候選區(qū)域角度所屬類別。該方法使用三種基礎(chǔ)面積以及三種不同長寬比的錨框（Anchor）搜索抓取候選區(qū)域，達(dá)到96%的準(zhǔn)確率，平均檢測時(shí)間為120 ms。該方法雖然大幅度減少文獻(xiàn)[1]和[4]中算法的檢測時(shí)間，但依舊無法滿足動(dòng)態(tài)環(huán)境或動(dòng)態(tài)物體下實(shí)時(shí)抓取檢測的要求，并且僅利用特征提取網(wǎng)絡(luò)中最后一層的特征圖進(jìn)行預(yù)測，傾向于檢測較大的抓取框，對(duì)小抓取框檢測性能不足，檢測精確性有待提高。

綜上國內(nèi)外學(xué)者的抓取檢測算法已達(dá)到不錯(cuò)的效果，但是仍然存在以下兩個(gè)問題：第一，高準(zhǔn)確率下檢測抓取框時(shí)間過長，不滿足機(jī)器人抓取檢測的實(shí)時(shí)性要求；第二，容易忽略目標(biāo)物中可用于抓取的小部位信息，檢測出來的抓取框偏大、精確度不足。

針對(duì)以上問題，本文提出一種基于嵌入通道注意力結(jié)構(gòu)SENet[11]的一階抓取檢測網(wǎng)絡(luò)（Squeeze and Excitation Networks-RetinaNet used for Grasp，SE-Retina-Grasp）模型的機(jī)器人抓取區(qū)域?qū)崟r(shí)檢測方法。該方法采用快速的一階目標(biāo)檢測模型RetinaNet[12]作為基本結(jié)構(gòu)，在其特征提取網(wǎng)絡(luò)中嵌入通道注意力模塊SENet以提升重要特征通道的權(quán)重，確保檢測精度；而且為了解決原RetinaNet模型特征融合中僅關(guān)注相鄰層特征信息的問題，結(jié)合平衡特征金字塔[13]（Balance Feature Pyramid，BFP）思想，充分融合高低層的特征信息，加強(qiáng)檢測小抓取框的能力。

2 抓取框在圖像空間的表達(dá)方式

給定包含目標(biāo)物的圖像I，檢測該目標(biāo)物的最優(yōu)抓取框G，需要先明確抓取框在圖像空間的表達(dá)方式。本文針對(duì)末端執(zhí)行器為平行夾爪的情況，采用文獻(xiàn)[1]提出的抓取框表達(dá)方法表示機(jī)器人抓取的具體位置，如圖1所示，公式表示為：

其中，(x,y)為抓取框的中心點(diǎn)；h、w分別表示機(jī)器人平行夾爪的高度、平行夾爪張開的距離大小；θ為沿w方向與圖像x軸正方向之間的夾角。過大的抓取框容易導(dǎo)致抓取中心點(diǎn)的偏移和預(yù)測的w遠(yuǎn)大于夾爪實(shí)際可張開的大小，抓取框的精確性直接影響機(jī)器人能否穩(wěn)定地抓取目標(biāo)物。

圖1 抓取框在圖像空間的表達(dá)方式

3 SE-RetinaGrasp模型

機(jī)器人目標(biāo)抓取區(qū)域?qū)崟r(shí)檢測算法流程框圖如圖2 所示。首先，獲取包含目標(biāo)物的RGB 場景圖像；其次對(duì)該圖像進(jìn)行數(shù)據(jù)預(yù)處理操作后，作為抓取檢測網(wǎng)絡(luò)模型的輸入；最后模型生成可用于抓取目標(biāo)物的抓取框，機(jī)械臂利用抓取框的位置姿態(tài)信息，完成抓取目標(biāo)物的任務(wù)。

圖2 機(jī)器人目標(biāo)抓取區(qū)域?qū)崟r(shí)檢測算法流程

本文提出的SE-RetinaGrasp 模型如圖3 所示。圖（a）表示特征提取網(wǎng)絡(luò)，在深度殘差網(wǎng)絡(luò)ResNet-50中嵌入SENet模塊，對(duì)抓取檢測任務(wù)起積極作用的特征通道加強(qiáng)權(quán)重；圖（b）表示平衡金字塔結(jié)構(gòu)，進(jìn)一步融合特征金字塔結(jié)構(gòu)FPN（Feature Pyramid Networks）[14]中高低層的特征信息；圖（c）表示兩個(gè)FCN（Fully Convolutional Networks）[15]子網(wǎng)絡(luò)，分別用于抓取框的定位以及抓取角度的分類。

圖3 SE-RetinaGrasp模型結(jié)構(gòu)

3.1 RetinaNet一階目標(biāo)檢測模型

一階目標(biāo)檢測模型RetinaNet是由文獻(xiàn)[12]提出，用以驗(yàn)證提出的Focal Loss 函數(shù)對(duì)解決訓(xùn)練過程中正負(fù)樣本類別失衡問題的效果?？紤]到目標(biāo)物僅占輸入圖像中的一部分，為解決一階目標(biāo)檢測模型中密集采樣候選機(jī)制導(dǎo)致的正負(fù)樣本失衡的問題，本文采用Focal Loss 函數(shù)作為分類損失函數(shù)、光滑L1 函數(shù)處理抓取框參數(shù)的回歸問題。

其中，F(xiàn)ocal Loss函數(shù)是一種改進(jìn)的交叉熵（Cross-Entropy，CE）損失函數(shù)，通過在原有的交叉熵?fù)p失函數(shù)中乘上使易檢測目標(biāo)對(duì)模型訓(xùn)練貢獻(xiàn)削弱的指數(shù)式，成功減少目標(biāo)檢測損失值容易被大批量負(fù)樣本左右的現(xiàn)象。Focal Loss函數(shù)定義如下：

假設(shè)有N個(gè)樣本，總共有T種分類，y為真實(shí)標(biāo)簽，pi,t為第i個(gè)樣本被預(yù)測為第t類目標(biāo)的概率大小；平衡參數(shù)α用以調(diào)整正負(fù)樣本對(duì)總分類損失的貢獻(xiàn)；(1-yi,t)γ為Focal Loss函數(shù)添加的指數(shù)式系數(shù)，用以降低易分類樣本的權(quán)重，將更多注意力放在難分類樣本的訓(xùn)練上。其中，α、γ為超參數(shù)，不參與模型的訓(xùn)練過程。

RetinaNet 檢測模型主要由ResNet-50 提取特征網(wǎng)絡(luò)、特征金字塔FPN 結(jié)構(gòu)以及兩個(gè)FCN 子網(wǎng)絡(luò)組成。RetinaNet檢測模型，如圖4所示。

圖4 RetinaNet檢測模型結(jié)構(gòu)

C1、C2、C3、C4、C5 分別為ResNet50網(wǎng)絡(luò)中采用不同個(gè)數(shù)殘差塊（Residual）提取的不同分辨率大小特征圖。根據(jù)低層特征語義信息弱，目標(biāo)位置清晰；高層特征語義信息強(qiáng)，目標(biāo)位置模糊的特點(diǎn)，F(xiàn)PN 結(jié)構(gòu)通過自底向上連接、自頂向下連接以及橫向連接，對(duì)不同層的特征信息進(jìn)行融合。與原FPN結(jié)構(gòu)不同的是：

（1）RetinaNet 模型僅利用C3、C4、C5 特征圖，避免在高分辨率C2 特征圖中生成Anchor，減少模型檢測時(shí)間。

（2）對(duì)C5 特征圖進(jìn)行卷積核為3×3，步長為2 的卷積運(yùn)算得到P6 網(wǎng)絡(luò)結(jié)構(gòu)；對(duì)P6 使用Relu 激活函數(shù)增加非線性后再進(jìn)行相同的卷積運(yùn)算得到P7 結(jié)構(gòu)，通過在P6、P7 生成較大面積的候選區(qū)域增強(qiáng)模型檢測大物體的性能。

與目標(biāo)檢測任務(wù)不同的是，抓取檢測任務(wù)是檢測可用于抓取目標(biāo)物的區(qū)域位置，并非檢測目標(biāo)物自身的位置。針對(duì)目標(biāo)物抓取區(qū)域面積較小的特點(diǎn)，為使RetinaNet模型更好地應(yīng)用于抓取檢測任務(wù)中，本文僅在P3、P4、P5 三個(gè)層次生成抓取候選區(qū)域，采用{82,162,322}基礎(chǔ)大小的候選窗口，加入三種不同的尺度和{1∶2，1∶1，2∶1}三種不同的長寬比，搜索各種尺寸大小的抓取候選框。

3.2 SENet結(jié)構(gòu)

從文獻(xiàn)[10]的實(shí)驗(yàn)發(fā)現(xiàn)，將特征提取網(wǎng)絡(luò)Vgg16[16]替換為ResNet-50僅提高0.5%的準(zhǔn)確率，證明當(dāng)網(wǎng)絡(luò)達(dá)到一定深度時(shí)，繼續(xù)加深網(wǎng)絡(luò)層數(shù)并不能對(duì)準(zhǔn)確率有較大的提升。本文從考慮特征通道之間的關(guān)系出發(fā)，在特征提取網(wǎng)絡(luò)ResNet-50中的每一個(gè)殘差塊后嵌入SENet模塊，增強(qiáng)抓取檢測任務(wù)中關(guān)鍵通道的注意力，以提升檢測準(zhǔn)確度。SENet結(jié)構(gòu)，如圖5所示。

圖5 SENet結(jié)構(gòu)

SENet模塊主要采用擠壓（Squeeze）、激勵(lì)（Excitation）以及特征重標(biāo)定（Scale）三個(gè)操作完成特征通道自適應(yīng)校準(zhǔn)。

首先使用全局平均池化壓縮每一個(gè)特征圖，將C個(gè)特征圖轉(zhuǎn)換成1×1×C的實(shí)數(shù)數(shù)列，使每一個(gè)實(shí)數(shù)具有全局感受野。然后本文通過兩個(gè)卷積層完成降維與升維的操作，第一個(gè)卷積層將特征維度降低到原來的C r后通過Relu激活函數(shù)增加非線性；第二個(gè)卷積層恢復(fù)原來的特征維度，經(jīng)過Sigmoid函數(shù)得到歸一化的權(quán)重，最后通過乘法逐通道加權(quán)到原來的特征通道上，對(duì)原始特征進(jìn)行重標(biāo)定。擠壓、激勵(lì)以及特征重標(biāo)定公式如下所示：

3.3 平衡特征金字塔

針對(duì)原RetinaNet模型中FPN結(jié)構(gòu)僅融合相鄰層次的特征信息，導(dǎo)致高低層特征信息利用不平衡的現(xiàn)象。為進(jìn)一步加強(qiáng)檢測小抓取框的效果，充分利用不同分辨率下的特征信息，本文受文獻(xiàn)[13]中平衡特征金字塔結(jié)構(gòu)的啟發(fā)，對(duì)原RetinaNet 模型中的特征金字塔結(jié)構(gòu)進(jìn)行改進(jìn)。平衡特征金字塔結(jié)構(gòu)如圖6 所示。提取P3、P4、P5 三個(gè)層次的特征圖，對(duì)P3、P5 分別采用最大池化操作、上采樣操作，使P3、P5 的特征圖分辨率與P4特征圖保持一致，三者對(duì)應(yīng)元素相加取平均，得到平衡特征圖P′，公式如下：

其中，Pl表示第l層特征；本文中l(wèi)min、lmax代表最低層數(shù)、最高層，分別為3、5；N代表累加的層數(shù)量。對(duì)平衡特征圖P′進(jìn)行卷積核為3×3，步長為1 的卷積運(yùn)算得到進(jìn)一步提煉的特征圖Pr，使特征信息更具有判別性。最后調(diào)整提煉后的特征圖Pr分辨率大小分別與P3、P4、P5 層次的特征圖分辨率大小一致，與原層次的特征對(duì)應(yīng)元素相加，分別得到增強(qiáng)原層次特征表征能力的P3′、P4′、P5′，特征圖，從而增強(qiáng)模型捕捉細(xì)節(jié)信息的能力，有助于檢測小抓取框。

圖6 平衡特征金字塔結(jié)構(gòu)

4 實(shí)驗(yàn)

4.1 實(shí)驗(yàn)環(huán)境

本文的實(shí)驗(yàn)機(jī)器是一臺(tái)配置型號(hào)為Intel?Core?i7-8750H 的CPU 和NVIDIA GeForce GTX 1070 的GPU的個(gè)人計(jì)算機(jī)，內(nèi)存以及顯存大小分別為32 GB、8 GB。該機(jī)在Ubuntu 16.04 上運(yùn)行，基于深度學(xué)習(xí)框架keras使用Python 語言編寫，借助CUDA（Compute Unified Device Architecture）加速運(yùn)算。

4.2 實(shí)驗(yàn)數(shù)據(jù)集

本文采用Cornell數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)，圖7為數(shù)據(jù)集中的部分圖片。該數(shù)據(jù)集總共有885張圖片，其中包含了244種不同種類的物體，每一種物體均有不同的擺放位置及姿態(tài)。數(shù)據(jù)集對(duì)每一張圖片中的目標(biāo)物體的抓取位置進(jìn)行標(biāo)記，共標(biāo)記5 110 個(gè)可用于抓取目標(biāo)物的矩形框和2 909個(gè)不可用于抓取的矩形框。本文實(shí)驗(yàn)將抓取數(shù)據(jù)集依照以下兩種方式進(jìn)行劃分，得到708張圖片作為訓(xùn)練樣本、177張圖片作為測試樣本。

圖7 Cornell數(shù)據(jù)集

方式1 按圖片隨機(jī)劃分。將數(shù)據(jù)集圖片隨機(jī)劃分至訓(xùn)練集和驗(yàn)證集中，以驗(yàn)證模型對(duì)已見過的、不同擺放位置的物體的泛化能力。

方式2 按物體種類隨機(jī)劃分。使訓(xùn)練集中并不含有測試集中的物體種類，以驗(yàn)證模型對(duì)未曾見過的新物體的泛化能力。

4.3 數(shù)據(jù)預(yù)處理

盡管Cornell 數(shù)據(jù)集包含的物體種類豐富，但數(shù)據(jù)量較小，為了使訓(xùn)練樣本盡可能地涵蓋各種可能出現(xiàn)的情況，本文對(duì)訓(xùn)練樣本進(jìn)行擴(kuò)充：

首先對(duì)原始圖像在x軸、y軸各做50 個(gè)像素點(diǎn)內(nèi)的隨機(jī)平移；然后對(duì)平移后的圖片進(jìn)行中心剪裁得到321×321 大小的圖像；處理后的圖像再進(jìn)行0°～360°范圍內(nèi)的隨機(jī)旋轉(zhuǎn)；為了方便與其他算法進(jìn)行比較，本文將原始圖像分辨率大小為480×640 調(diào)整為227×227 作為網(wǎng)絡(luò)模型的輸入；

最后如文獻(xiàn)[10]一樣將抓取角度進(jìn)行類別劃分，考慮到抓取角度的對(duì)稱性，本文將180°均分成19個(gè)區(qū)域，加上背景分類，本文實(shí)驗(yàn)共有20 種類別。標(biāo)簽中的角度值相應(yīng)分配至最近的區(qū)域，將原本帶有方向性的矩形框置為沒有角度傾斜的矩形框，模型訓(xùn)練時(shí)擬合這些垂直于圖像x軸的矩形框，并預(yù)測這些矩形框?qū)儆谀姆N角度類別。

4.4 模型訓(xùn)練的實(shí)現(xiàn)

考慮到RetinaNet模型內(nèi)部層數(shù)較多且結(jié)構(gòu)相對(duì)復(fù)雜，對(duì)于目前數(shù)據(jù)集數(shù)據(jù)規(guī)模較小的情況容易導(dǎo)致過擬合。為此本文采用遷移學(xué)習(xí)的方法進(jìn)行抓取檢測模型訓(xùn)練，將在微軟COCO 數(shù)據(jù)集訓(xùn)練好的ResNet-50 模型參數(shù)作為初始值，在此基礎(chǔ)上進(jìn)行微調(diào)，網(wǎng)絡(luò)中其余的參數(shù)采用標(biāo)準(zhǔn)高斯分布進(jìn)行初始化。以圖像RGB作為模型輸入，學(xué)習(xí)率初始化為0.000 1，學(xué)習(xí)率衰減因子為5，設(shè)置每批訓(xùn)練圖片數(shù)為2，epoch初始化為20，采用隨機(jī)梯度下降法（SGD）對(duì)模型進(jìn)行訓(xùn)練。

4.5 評(píng)估指標(biāo)

通常有兩種評(píng)估方法來衡量模型預(yù)測抓取姿態(tài)的效果：一種是點(diǎn)度量方法，另一種是矩形度量方法。

點(diǎn)度量評(píng)估方法主要以模型預(yù)測的抓取框中心點(diǎn)與標(biāo)注真值框的中心點(diǎn)之間的距離作為衡量標(biāo)準(zhǔn)，當(dāng)兩點(diǎn)之間的距離小于預(yù)定的閾值，則認(rèn)為預(yù)測結(jié)果可用于抓取目標(biāo)物體并取最小值作為最佳抓取框。然而以往算法中沒有公開點(diǎn)度量評(píng)估方法所使用的閾值，并且該方法沒有將抓取角度納入評(píng)估范疇中，所以更多的算法采用矩形度量作為評(píng)估方法。

矩形度量方法采用抓取矩形來衡量模型預(yù)測的效果，當(dāng)預(yù)測的矩形框同時(shí)滿足以下兩個(gè)條件時(shí)，則認(rèn)為該矩形框可用于抓取物體：

（1）預(yù)測的抓取角度與標(biāo)注真值框的抓取角度之差小于30°。

（2）Jaccard 相似系數(shù)大于0.25，其中Jaccard 相似系數(shù)計(jì)算公式如下：

其中，gp為預(yù)測抓取矩形區(qū)域，gt為標(biāo)注真值框的抓取矩形區(qū)域。本文采用矩形度量的評(píng)估方法，取預(yù)選抓取框中評(píng)判值最大的作為模型預(yù)測結(jié)果。

4.6 實(shí)驗(yàn)結(jié)果與分析

本文使用Cornell 數(shù)據(jù)集對(duì)提出的算法進(jìn)行測試，測試結(jié)果如圖8 和圖9 所示：圖8 展示模型預(yù)測的部分正確抓取框；圖9展示模型預(yù)測結(jié)果中錯(cuò)誤抓取框。

圖8 模型預(yù)測的部分正確抓取框

圖9 模型預(yù)測結(jié)果中錯(cuò)誤抓取框

為進(jìn)一步驗(yàn)證本文算法的有效性，本文進(jìn)行以下兩部分實(shí)驗(yàn)：

（1）原RetinaNet模型和SE-RetinaGrasp模型檢測效果對(duì)比

將數(shù)據(jù)集按圖片隨機(jī)劃分的方式切分訓(xùn)練集和測試集，利用原RetinaNet模型和SE-RetinaGrasp模型對(duì)測試集進(jìn)行抓取檢測，實(shí)驗(yàn)結(jié)果如表1所示。

表1 原RetinaNet模型、SE-RetinaGrasp模型結(jié)果對(duì)比

從表1中可以看出，嵌入SENet結(jié)構(gòu)的RetinaNet模型較原RetinaNet模型準(zhǔn)確率提高了1.13%，參數(shù)量較原RetinaNet模型增加8%，而平均檢測時(shí)間幾乎沒有增加；基于SE-RetinaNet 模型的基礎(chǔ)上引入平衡金字塔的思想，準(zhǔn)確率進(jìn)一步提升0.4%，參數(shù)量較SE-RetinaNet 模型僅增加1%，總體平均檢測時(shí)間較原RetinaNet模型增加了1 ms。

實(shí)驗(yàn)分析可知，嵌入SENet結(jié)構(gòu)有助于挖掘抓取檢測任務(wù)中重要的特征通道，增強(qiáng)特征圖的感受野；而引入平衡特征金字塔的思想進(jìn)一步融合不同層次的特征信息，加強(qiáng)原來各層次中特征的表達(dá)能力，有助于檢測物體中各種大小的抓取框。由于主要采用上采樣以及最大池化操作，模型參數(shù)數(shù)量基本不變，并有效提高了檢測準(zhǔn)確率。本文算法與原RetinaNet檢測效果如圖10所示。

圖10 原RetinaNet模型、SE-RetinaGrasp模型效果對(duì)比

由圖10 可發(fā)現(xiàn)，對(duì)于同一種物體，原RetinaNet 檢測的抓取框趨向于兩端且仍有抓取框偏大的現(xiàn)象，而SE-RetinaGrasp 模型的抓取框更趨向于物體的中間位置且抓取框更為精準(zhǔn)，提高了機(jī)器人抓取目標(biāo)物體的穩(wěn)定性。

（2）本文算法和其他算法檢測效果對(duì)比

將本文算法與以往提出的算法進(jìn)行對(duì)比，并比較不同方式劃分?jǐn)?shù)據(jù)集下檢測準(zhǔn)確率以及檢測時(shí)間。對(duì)比結(jié)果如表2所示。

實(shí)驗(yàn)結(jié)果顯示，本文算法可在保持高準(zhǔn)確率的前提下，以實(shí)時(shí)速度檢測抓取框，比文獻(xiàn)[10]算法的檢測速度快了將近6倍。

按方式1劃分?jǐn)?shù)據(jù)集，本文算法準(zhǔn)確率均高于其他檢測算法；按方式2 劃分?jǐn)?shù)據(jù)集，準(zhǔn)確率稍低于文獻(xiàn)[10]。本文算法的執(zhí)行效率均高于其他經(jīng)典抓取檢測算法，盡管本文模型在生成候選抓取框時(shí)耗費(fèi)了一定的時(shí)間，但本文算法的網(wǎng)絡(luò)模型為全卷積網(wǎng)絡(luò)且無文獻(xiàn)[10]算法中區(qū)域生成網(wǎng)絡(luò)該一步驟，有效地減少檢測時(shí)間。

表2 本文算法與其他算法結(jié)果對(duì)比

為進(jìn)一步體現(xiàn)本文算法性能，表3 展示了在不同Jaccard閾值下檢測精度結(jié)果。結(jié)果表明，在更嚴(yán)格的評(píng)價(jià)標(biāo)準(zhǔn)中，本文算法仍保持較高的檢測準(zhǔn)確率，有助于機(jī)器人精確地抓取目標(biāo)物。

表3 不同Jaccard閾值下的檢測精度 %

本文通過復(fù)現(xiàn)文獻(xiàn)[10]的抓取檢測算法，與本文算法進(jìn)行對(duì)比，具體效果如圖11所示。

圖11 本文算法與其他算法效果對(duì)比

由圖11 的對(duì)比效果可發(fā)現(xiàn)，對(duì)于檢測同一種物體不同擺放姿態(tài)下的抓取位置，文獻(xiàn)[10]檢測的抓取框偏大，精確度不足；本文算法預(yù)測的抓取框更加精細(xì)，主要原因在于本文算法充分利用不同層次的特征信息，并在不同層的特征圖上檢測抓取框，與文獻(xiàn)[10]在提取特征網(wǎng)絡(luò)的最后一層特征圖上進(jìn)行檢測相比，本文算法能更好地捕抓目標(biāo)物的細(xì)節(jié)信息，加強(qiáng)小抓取框的檢測效果。

5 結(jié)束語

為了使機(jī)器人實(shí)時(shí)且準(zhǔn)確地抓取目標(biāo)物體，本文提出并驗(yàn)證了一種基于SE-RetinaGrasp 的神經(jīng)網(wǎng)絡(luò)模型。該模型以一階目標(biāo)檢測算法RetinaNet 為基礎(chǔ)，一方面，通過通道注意力SENet 結(jié)構(gòu)，建立特征通道之間的相互依賴關(guān)系，提升對(duì)抓取檢測任務(wù)起積極作用的特征并抑制用處不大的特征，從而提高檢測準(zhǔn)確率；另一方面，利用平衡金字塔的思想，在不增加太多參數(shù)的前提下，進(jìn)一步融合不同層次的特征信息，加強(qiáng)模型對(duì)細(xì)節(jié)信息的捕抓能力。在Cornell 數(shù)據(jù)集上的實(shí)驗(yàn)證明，相比于傳統(tǒng)抓取檢測模型，SE-RetinaGrasp 模型保持高檢測準(zhǔn)確率的同時(shí)，實(shí)時(shí)性高，并且一定程度上提高了抓取框的精細(xì)程度。

然而，Cornell數(shù)據(jù)集針對(duì)的圖像僅包含單一目標(biāo)物體，對(duì)于現(xiàn)實(shí)生活中多物體堆疊的情況尚未能很好的解決，因此，如何能在多物體堆疊的場景下，實(shí)時(shí)準(zhǔn)確地抓取相應(yīng)物體是下一步的研究內(nèi)容。