亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        機(jī)器人目標(biāo)抓取區(qū)域?qū)崟r(shí)檢測方法

        2020-10-10 01:00:34盧智亮劉瑞雪
        關(guān)鍵詞:物體準(zhǔn)確率機(jī)器人

        盧智亮,林 偉,曾 碧,劉瑞雪

        廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,廣州510006

        1 引言

        在家庭和工業(yè)場景下,抓取物體是機(jī)器人進(jìn)行人機(jī)協(xié)作任務(wù)的關(guān)鍵步驟。人類可以準(zhǔn)確且穩(wěn)定地執(zhí)行抓取形狀不規(guī)則以及任意姿態(tài)的物體。然而對(duì)于機(jī)器人而言,準(zhǔn)確地抓取各式各樣、任意姿態(tài)的物體依舊是一種挑戰(zhàn)。機(jī)器人若要抓取目標(biāo)物體,需要預(yù)先檢測該物體的抓取區(qū)域,不適當(dāng)?shù)淖ト^(qū)域?qū)?dǎo)致機(jī)器人無法穩(wěn)定地抓取物體。因此,如何實(shí)時(shí)且準(zhǔn)確地檢測目標(biāo)抓取區(qū)域,是機(jī)器人領(lǐng)域中一個(gè)重要研究方向。

        近年來,國內(nèi)外學(xué)者對(duì)機(jī)器人抓取區(qū)域檢測的研究已有不錯(cuò)的成果。Lenz 等[1]率先采用深度學(xué)習(xí)的方法提取RGB-D 多模態(tài)特征,基于滑動(dòng)窗口檢測框架同時(shí)使用支持向量機(jī)(Support Vector Machine,SVM)作為分類器,預(yù)測輸入圖像中的一小塊圖像是否存在合適的抓取位置。與Jiang等[2]使用傳統(tǒng)機(jī)器學(xué)習(xí)方法相比,該方法不需要人為針對(duì)特定物體設(shè)計(jì)視覺特征,而是以自主學(xué)習(xí)的方式提取抓取區(qū)域的特征。在Cornell 數(shù)據(jù)集[3]上,上述方法達(dá)到73.9%的準(zhǔn)確率。然而采用滑動(dòng)窗口的方法會(huì)導(dǎo)致搜索抓取區(qū)域耗費(fèi)時(shí)間長且計(jì)算量大。杜學(xué)丹等[4]在檢測抓取位置前,先使用Faster R-CNN二階目標(biāo)檢測算法[5]預(yù)測被抓物體的大致區(qū)域,縮小搜索范圍以減少搜索時(shí)間,但該方法并未從本質(zhì)上減少檢測時(shí)間且計(jì)算量仍舊偏大,無法達(dá)到實(shí)時(shí)檢測的要求。

        Redmon等[6]不再基于滑動(dòng)窗口框架搜索抓取框,而是利用AlexNet 網(wǎng)絡(luò)[7]強(qiáng)大的特征提取能力,直接在整個(gè)圖像上回歸抓取框參數(shù)。將輸入的圖像劃分成N×N個(gè)網(wǎng)格單元,每個(gè)網(wǎng)格單元預(yù)測一個(gè)抓取配置參數(shù)及適合抓取的概率,取其中概率最高的作為預(yù)測結(jié)果。在相同數(shù)據(jù)集上達(dá)到88.0%的準(zhǔn)確率,平均檢測時(shí)間為76 ms。Kumra等[8]也采用全局抓取預(yù)測的方法,使用網(wǎng)絡(luò)結(jié)構(gòu)更復(fù)雜的ResNet-50[9]提取多模態(tài)特征,準(zhǔn)確率相應(yīng)提高1.21%。以上兩種方法借助性能強(qiáng)大的特征提取網(wǎng)絡(luò)力求盡可能提高檢測速度和檢測準(zhǔn)確率,但是直接回歸抓取框參數(shù)容易導(dǎo)致預(yù)測的抓取框趨向于物體的中心,對(duì)于如盤子等抓取部位為物體邊緣的情況,預(yù)測的效果并不理想。

        Chu 等[10]提出旋轉(zhuǎn)抓取框的方法,將方向預(yù)測視為抓取角度分類問題,借鑒Faster R-CNN二階目標(biāo)檢測算法的思想,首先判斷由GPN(Grasp Proposal Network)推薦的多個(gè)抓取候選區(qū)域能否用于抓取目標(biāo)物體,然后判斷剩余的抓取候選區(qū)域角度所屬類別。該方法使用三種基礎(chǔ)面積以及三種不同長寬比的錨框(Anchor)搜索抓取候選區(qū)域,達(dá)到96%的準(zhǔn)確率,平均檢測時(shí)間為120 ms。該方法雖然大幅度減少文獻(xiàn)[1]和[4]中算法的檢測時(shí)間,但依舊無法滿足動(dòng)態(tài)環(huán)境或動(dòng)態(tài)物體下實(shí)時(shí)抓取檢測的要求,并且僅利用特征提取網(wǎng)絡(luò)中最后一層的特征圖進(jìn)行預(yù)測,傾向于檢測較大的抓取框,對(duì)小抓取框檢測性能不足,檢測精確性有待提高。

        綜上國內(nèi)外學(xué)者的抓取檢測算法已達(dá)到不錯(cuò)的效果,但是仍然存在以下兩個(gè)問題:第一,高準(zhǔn)確率下檢測抓取框時(shí)間過長,不滿足機(jī)器人抓取檢測的實(shí)時(shí)性要求;第二,容易忽略目標(biāo)物中可用于抓取的小部位信息,檢測出來的抓取框偏大、精確度不足。

        針對(duì)以上問題,本文提出一種基于嵌入通道注意力結(jié)構(gòu)SENet[11]的一階抓取檢測網(wǎng)絡(luò)(Squeeze and Excitation Networks-RetinaNet used for Grasp,SE-Retina-Grasp)模型的機(jī)器人抓取區(qū)域?qū)崟r(shí)檢測方法。該方法采用快速的一階目標(biāo)檢測模型RetinaNet[12]作為基本結(jié)構(gòu),在其特征提取網(wǎng)絡(luò)中嵌入通道注意力模塊SENet以提升重要特征通道的權(quán)重,確保檢測精度;而且為了解決原RetinaNet模型特征融合中僅關(guān)注相鄰層特征信息的問題,結(jié)合平衡特征金字塔[13](Balance Feature Pyramid,BFP)思想,充分融合高低層的特征信息,加強(qiáng)檢測小抓取框的能力。

        2 抓取框在圖像空間的表達(dá)方式

        給定包含目標(biāo)物的圖像I,檢測該目標(biāo)物的最優(yōu)抓取框G,需要先明確抓取框在圖像空間的表達(dá)方式。本文針對(duì)末端執(zhí)行器為平行夾爪的情況,采用文獻(xiàn)[1]提出的抓取框表達(dá)方法表示機(jī)器人抓取的具體位置,如圖1所示,公式表示為:

        其中,(x,y)為抓取框的中心點(diǎn);h、w分別表示機(jī)器人平行夾爪的高度、平行夾爪張開的距離大小;θ為沿w方向與圖像x軸正方向之間的夾角。過大的抓取框容易導(dǎo)致抓取中心點(diǎn)的偏移和預(yù)測的w遠(yuǎn)大于夾爪實(shí)際可張開的大小,抓取框的精確性直接影響機(jī)器人能否穩(wěn)定地抓取目標(biāo)物。

        圖1 抓取框在圖像空間的表達(dá)方式

        3 SE-RetinaGrasp模型

        機(jī)器人目標(biāo)抓取區(qū)域?qū)崟r(shí)檢測算法流程框圖如圖2 所示。首先,獲取包含目標(biāo)物的RGB 場景圖像;其次對(duì)該圖像進(jìn)行數(shù)據(jù)預(yù)處理操作后,作為抓取檢測網(wǎng)絡(luò)模型的輸入;最后模型生成可用于抓取目標(biāo)物的抓取框,機(jī)械臂利用抓取框的位置姿態(tài)信息,完成抓取目標(biāo)物的任務(wù)。

        圖2 機(jī)器人目標(biāo)抓取區(qū)域?qū)崟r(shí)檢測算法流程

        本文提出的SE-RetinaGrasp 模型如圖3 所示。圖(a)表示特征提取網(wǎng)絡(luò),在深度殘差網(wǎng)絡(luò)ResNet-50中嵌入SENet模塊,對(duì)抓取檢測任務(wù)起積極作用的特征通道加強(qiáng)權(quán)重;圖(b)表示平衡金字塔結(jié)構(gòu),進(jìn)一步融合特征金字塔結(jié)構(gòu)FPN(Feature Pyramid Networks)[14]中高低層的特征信息;圖(c)表示兩個(gè)FCN(Fully Convolutional Networks)[15]子網(wǎng)絡(luò),分別用于抓取框的定位以及抓取角度的分類。

        圖3 SE-RetinaGrasp模型結(jié)構(gòu)

        3.1 RetinaNet一階目標(biāo)檢測模型

        一階目標(biāo)檢測模型RetinaNet是由文獻(xiàn)[12]提出,用以驗(yàn)證提出的Focal Loss 函數(shù)對(duì)解決訓(xùn)練過程中正負(fù)樣本類別失衡問題的效果??紤]到目標(biāo)物僅占輸入圖像中的一部分,為解決一階目標(biāo)檢測模型中密集采樣候選機(jī)制導(dǎo)致的正負(fù)樣本失衡的問題,本文采用Focal Loss 函數(shù)作為分類損失函數(shù)、光滑L1 函數(shù)處理抓取框參數(shù)的回歸問題。

        其中,F(xiàn)ocal Loss函數(shù)是一種改進(jìn)的交叉熵(Cross-Entropy,CE)損失函數(shù),通過在原有的交叉熵?fù)p失函數(shù)中乘上使易檢測目標(biāo)對(duì)模型訓(xùn)練貢獻(xiàn)削弱的指數(shù)式,成功減少目標(biāo)檢測損失值容易被大批量負(fù)樣本左右的現(xiàn)象。Focal Loss函數(shù)定義如下:

        假設(shè)有N個(gè)樣本,總共有T種分類,y為真實(shí)標(biāo)簽,pi,t為第i個(gè)樣本被預(yù)測為第t類目標(biāo)的概率大小;平衡參數(shù)α用以調(diào)整正負(fù)樣本對(duì)總分類損失的貢獻(xiàn);(1-yi,t)γ為Focal Loss函數(shù)添加的指數(shù)式系數(shù),用以降低易分類樣本的權(quán)重,將更多注意力放在難分類樣本的訓(xùn)練上。其中,α、γ為超參數(shù),不參與模型的訓(xùn)練過程。

        RetinaNet 檢測模型主要由ResNet-50 提取特征網(wǎng)絡(luò)、特征金字塔FPN 結(jié)構(gòu)以及兩個(gè)FCN 子網(wǎng)絡(luò)組成。RetinaNet檢測模型,如圖4所示。

        圖4 RetinaNet檢測模型結(jié)構(gòu)

        C1、C2、C3、C4、C5 分別為ResNet50網(wǎng)絡(luò)中采用不同個(gè)數(shù)殘差塊(Residual)提取的不同分辨率大小特征圖。根據(jù)低層特征語義信息弱,目標(biāo)位置清晰;高層特征語義信息強(qiáng),目標(biāo)位置模糊的特點(diǎn),F(xiàn)PN 結(jié)構(gòu)通過自底向上連接、自頂向下連接以及橫向連接,對(duì)不同層的特征信息進(jìn)行融合。與原FPN結(jié)構(gòu)不同的是:

        (1)RetinaNet 模型僅利用C3、C4、C5 特征圖,避免在高分辨率C2 特征圖中生成Anchor,減少模型檢測時(shí)間。

        (2)對(duì)C5 特征圖進(jìn)行卷積核為3×3,步長為2 的卷積運(yùn)算得到P6 網(wǎng)絡(luò)結(jié)構(gòu);對(duì)P6 使用Relu 激活函數(shù)增加非線性后再進(jìn)行相同的卷積運(yùn)算得到P7 結(jié)構(gòu),通過在P6、P7 生成較大面積的候選區(qū)域增強(qiáng)模型檢測大物體的性能。

        與目標(biāo)檢測任務(wù)不同的是,抓取檢測任務(wù)是檢測可用于抓取目標(biāo)物的區(qū)域位置,并非檢測目標(biāo)物自身的位置。針對(duì)目標(biāo)物抓取區(qū)域面積較小的特點(diǎn),為使RetinaNet模型更好地應(yīng)用于抓取檢測任務(wù)中,本文僅在P3、P4、P5 三個(gè)層次生成抓取候選區(qū)域,采用{82,162,322}基礎(chǔ)大小的候選窗口,加入三種不同的尺度和{1∶2,1∶1,2∶1}三種不同的長寬比,搜索各種尺寸大小的抓取候選框。

        3.2 SENet結(jié)構(gòu)

        從文獻(xiàn)[10]的實(shí)驗(yàn)發(fā)現(xiàn),將特征提取網(wǎng)絡(luò)Vgg16[16]替換為ResNet-50僅提高0.5%的準(zhǔn)確率,證明當(dāng)網(wǎng)絡(luò)達(dá)到一定深度時(shí),繼續(xù)加深網(wǎng)絡(luò)層數(shù)并不能對(duì)準(zhǔn)確率有較大的提升。本文從考慮特征通道之間的關(guān)系出發(fā),在特征提取網(wǎng)絡(luò)ResNet-50中的每一個(gè)殘差塊后嵌入SENet模塊,增強(qiáng)抓取檢測任務(wù)中關(guān)鍵通道的注意力,以提升檢測準(zhǔn)確度。SENet結(jié)構(gòu),如圖5所示。

        圖5 SENet結(jié)構(gòu)

        SENet模塊主要采用擠壓(Squeeze)、激勵(lì)(Excitation)以及特征重標(biāo)定(Scale)三個(gè)操作完成特征通道自適應(yīng)校準(zhǔn)。

        首先使用全局平均池化壓縮每一個(gè)特征圖,將C個(gè)特征圖轉(zhuǎn)換成1×1×C的實(shí)數(shù)數(shù)列,使每一個(gè)實(shí)數(shù)具有全局感受野。然后本文通過兩個(gè)卷積層完成降維與升維的操作,第一個(gè)卷積層將特征維度降低到原來的C r后通過Relu激活函數(shù)增加非線性;第二個(gè)卷積層恢復(fù)原來的特征維度,經(jīng)過Sigmoid函數(shù)得到歸一化的權(quán)重,最后通過乘法逐通道加權(quán)到原來的特征通道上,對(duì)原始特征進(jìn)行重標(biāo)定。擠壓、激勵(lì)以及特征重標(biāo)定公式如下所示:

        3.3 平衡特征金字塔

        針對(duì)原RetinaNet模型中FPN結(jié)構(gòu)僅融合相鄰層次的特征信息,導(dǎo)致高低層特征信息利用不平衡的現(xiàn)象。為進(jìn)一步加強(qiáng)檢測小抓取框的效果,充分利用不同分辨率下的特征信息,本文受文獻(xiàn)[13]中平衡特征金字塔結(jié)構(gòu)的啟發(fā),對(duì)原RetinaNet 模型中的特征金字塔結(jié)構(gòu)進(jìn)行改進(jìn)。平衡特征金字塔結(jié)構(gòu)如圖6 所示。提取P3、P4、P5 三個(gè)層次的特征圖,對(duì)P3、P5 分別采用最大池化操作、上采樣操作,使P3、P5 的特征圖分辨率與P4特征圖保持一致,三者對(duì)應(yīng)元素相加取平均,得到平衡特征圖P′,公式如下:

        其中,Pl表示第l層特征;本文中l(wèi)min、lmax代表最低層數(shù)、最高層,分別為3、5;N代表累加的層數(shù)量。對(duì)平衡特征圖P′進(jìn)行卷積核為3×3,步長為1 的卷積運(yùn)算得到進(jìn)一步提煉的特征圖Pr,使特征信息更具有判別性。最后調(diào)整提煉后的特征圖Pr分辨率大小分別與P3、P4、P5 層次的特征圖分辨率大小一致,與原層次的特征對(duì)應(yīng)元素相加,分別得到增強(qiáng)原層次特征表征能力的P3′、P4′、P5′,特征圖,從而增強(qiáng)模型捕捉細(xì)節(jié)信息的能力,有助于檢測小抓取框。

        圖6 平衡特征金字塔結(jié)構(gòu)

        4 實(shí)驗(yàn)

        4.1 實(shí)驗(yàn)環(huán)境

        本文的實(shí)驗(yàn)機(jī)器是一臺(tái)配置型號(hào)為Intel?Core?i7-8750H 的CPU 和NVIDIA GeForce GTX 1070 的GPU的個(gè)人計(jì)算機(jī),內(nèi)存以及顯存大小分別為32 GB、8 GB。該機(jī)在Ubuntu 16.04 上運(yùn)行,基于深度學(xué)習(xí)框架keras使用Python 語言編寫,借助CUDA(Compute Unified Device Architecture)加速運(yùn)算。

        4.2 實(shí)驗(yàn)數(shù)據(jù)集

        本文采用Cornell數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù),圖7為數(shù)據(jù)集中的部分圖片。該數(shù)據(jù)集總共有885張圖片,其中包含了244種不同種類的物體,每一種物體均有不同的擺放位置及姿態(tài)。數(shù)據(jù)集對(duì)每一張圖片中的目標(biāo)物體的抓取位置進(jìn)行標(biāo)記,共標(biāo)記5 110 個(gè)可用于抓取目標(biāo)物的矩形框和2 909個(gè)不可用于抓取的矩形框。本文實(shí)驗(yàn)將抓取數(shù)據(jù)集依照以下兩種方式進(jìn)行劃分,得到708張圖片作為訓(xùn)練樣本、177張圖片作為測試樣本。

        圖7 Cornell數(shù)據(jù)集

        方式1 按圖片隨機(jī)劃分。將數(shù)據(jù)集圖片隨機(jī)劃分至訓(xùn)練集和驗(yàn)證集中,以驗(yàn)證模型對(duì)已見過的、不同擺放位置的物體的泛化能力。

        方式2 按物體種類隨機(jī)劃分。使訓(xùn)練集中并不含有測試集中的物體種類,以驗(yàn)證模型對(duì)未曾見過的新物體的泛化能力。

        4.3 數(shù)據(jù)預(yù)處理

        盡管Cornell 數(shù)據(jù)集包含的物體種類豐富,但數(shù)據(jù)量較小,為了使訓(xùn)練樣本盡可能地涵蓋各種可能出現(xiàn)的情況,本文對(duì)訓(xùn)練樣本進(jìn)行擴(kuò)充:

        首先對(duì)原始圖像在x軸、y軸各做50 個(gè)像素點(diǎn)內(nèi)的隨機(jī)平移;然后對(duì)平移后的圖片進(jìn)行中心剪裁得到321×321 大小的圖像;處理后的圖像再進(jìn)行0°~360°范圍內(nèi)的隨機(jī)旋轉(zhuǎn);為了方便與其他算法進(jìn)行比較,本文將原始圖像分辨率大小為480×640 調(diào)整為227×227 作為網(wǎng)絡(luò)模型的輸入;

        最后如文獻(xiàn)[10]一樣將抓取角度進(jìn)行類別劃分,考慮到抓取角度的對(duì)稱性,本文將180°均分成19個(gè)區(qū)域,加上背景分類,本文實(shí)驗(yàn)共有20 種類別。標(biāo)簽中的角度值相應(yīng)分配至最近的區(qū)域,將原本帶有方向性的矩形框置為沒有角度傾斜的矩形框,模型訓(xùn)練時(shí)擬合這些垂直于圖像x軸的矩形框,并預(yù)測這些矩形框?qū)儆谀姆N角度類別。

        4.4 模型訓(xùn)練的實(shí)現(xiàn)

        考慮到RetinaNet模型內(nèi)部層數(shù)較多且結(jié)構(gòu)相對(duì)復(fù)雜,對(duì)于目前數(shù)據(jù)集數(shù)據(jù)規(guī)模較小的情況容易導(dǎo)致過擬合。為此本文采用遷移學(xué)習(xí)的方法進(jìn)行抓取檢測模型訓(xùn)練,將在微軟COCO 數(shù)據(jù)集訓(xùn)練好的ResNet-50 模型參數(shù)作為初始值,在此基礎(chǔ)上進(jìn)行微調(diào),網(wǎng)絡(luò)中其余的參數(shù)采用標(biāo)準(zhǔn)高斯分布進(jìn)行初始化。以圖像RGB作為模型輸入,學(xué)習(xí)率初始化為0.000 1,學(xué)習(xí)率衰減因子為5,設(shè)置每批訓(xùn)練圖片數(shù)為2,epoch初始化為20,采用隨機(jī)梯度下降法(SGD)對(duì)模型進(jìn)行訓(xùn)練。

        4.5 評(píng)估指標(biāo)

        通常有兩種評(píng)估方法來衡量模型預(yù)測抓取姿態(tài)的效果:一種是點(diǎn)度量方法,另一種是矩形度量方法。

        點(diǎn)度量評(píng)估方法主要以模型預(yù)測的抓取框中心點(diǎn)與標(biāo)注真值框的中心點(diǎn)之間的距離作為衡量標(biāo)準(zhǔn),當(dāng)兩點(diǎn)之間的距離小于預(yù)定的閾值,則認(rèn)為預(yù)測結(jié)果可用于抓取目標(biāo)物體并取最小值作為最佳抓取框。然而以往算法中沒有公開點(diǎn)度量評(píng)估方法所使用的閾值,并且該方法沒有將抓取角度納入評(píng)估范疇中,所以更多的算法采用矩形度量作為評(píng)估方法。

        矩形度量方法采用抓取矩形來衡量模型預(yù)測的效果,當(dāng)預(yù)測的矩形框同時(shí)滿足以下兩個(gè)條件時(shí),則認(rèn)為該矩形框可用于抓取物體:

        (1)預(yù)測的抓取角度與標(biāo)注真值框的抓取角度之差小于30°。

        (2)Jaccard 相似系數(shù)大于0.25,其中Jaccard 相似系數(shù)計(jì)算公式如下:

        其中,gp為預(yù)測抓取矩形區(qū)域,gt為標(biāo)注真值框的抓取矩形區(qū)域。本文采用矩形度量的評(píng)估方法,取預(yù)選抓取框中評(píng)判值最大的作為模型預(yù)測結(jié)果。

        4.6 實(shí)驗(yàn)結(jié)果與分析

        本文使用Cornell 數(shù)據(jù)集對(duì)提出的算法進(jìn)行測試,測試結(jié)果如圖8 和圖9 所示:圖8 展示模型預(yù)測的部分正確抓取框;圖9展示模型預(yù)測結(jié)果中錯(cuò)誤抓取框。

        圖8 模型預(yù)測的部分正確抓取框

        圖9 模型預(yù)測結(jié)果中錯(cuò)誤抓取框

        為進(jìn)一步驗(yàn)證本文算法的有效性,本文進(jìn)行以下兩部分實(shí)驗(yàn):

        (1)原RetinaNet模型和SE-RetinaGrasp模型檢測效果對(duì)比

        將數(shù)據(jù)集按圖片隨機(jī)劃分的方式切分訓(xùn)練集和測試集,利用原RetinaNet模型和SE-RetinaGrasp模型對(duì)測試集進(jìn)行抓取檢測,實(shí)驗(yàn)結(jié)果如表1所示。

        表1 原RetinaNet模型、SE-RetinaGrasp模型結(jié)果對(duì)比

        從表1中可以看出,嵌入SENet結(jié)構(gòu)的RetinaNet模型較原RetinaNet模型準(zhǔn)確率提高了1.13%,參數(shù)量較原RetinaNet模型增加8%,而平均檢測時(shí)間幾乎沒有增加;基于SE-RetinaNet 模型的基礎(chǔ)上引入平衡金字塔的思想,準(zhǔn)確率進(jìn)一步提升0.4%,參數(shù)量較SE-RetinaNet 模型僅增加1%,總體平均檢測時(shí)間較原RetinaNet模型增加了1 ms。

        實(shí)驗(yàn)分析可知,嵌入SENet結(jié)構(gòu)有助于挖掘抓取檢測任務(wù)中重要的特征通道,增強(qiáng)特征圖的感受野;而引入平衡特征金字塔的思想進(jìn)一步融合不同層次的特征信息,加強(qiáng)原來各層次中特征的表達(dá)能力,有助于檢測物體中各種大小的抓取框。由于主要采用上采樣以及最大池化操作,模型參數(shù)數(shù)量基本不變,并有效提高了檢測準(zhǔn)確率。本文算法與原RetinaNet檢測效果如圖10所示。

        圖10 原RetinaNet模型、SE-RetinaGrasp模型效果對(duì)比

        由圖10 可發(fā)現(xiàn),對(duì)于同一種物體,原RetinaNet 檢測的抓取框趨向于兩端且仍有抓取框偏大的現(xiàn)象,而SE-RetinaGrasp 模型的抓取框更趨向于物體的中間位置且抓取框更為精準(zhǔn),提高了機(jī)器人抓取目標(biāo)物體的穩(wěn)定性。

        (2)本文算法和其他算法檢測效果對(duì)比

        將本文算法與以往提出的算法進(jìn)行對(duì)比,并比較不同方式劃分?jǐn)?shù)據(jù)集下檢測準(zhǔn)確率以及檢測時(shí)間。對(duì)比結(jié)果如表2所示。

        實(shí)驗(yàn)結(jié)果顯示,本文算法可在保持高準(zhǔn)確率的前提下,以實(shí)時(shí)速度檢測抓取框,比文獻(xiàn)[10]算法的檢測速度快了將近6倍。

        按方式1劃分?jǐn)?shù)據(jù)集,本文算法準(zhǔn)確率均高于其他檢測算法;按方式2 劃分?jǐn)?shù)據(jù)集,準(zhǔn)確率稍低于文獻(xiàn)[10]。本文算法的執(zhí)行效率均高于其他經(jīng)典抓取檢測算法,盡管本文模型在生成候選抓取框時(shí)耗費(fèi)了一定的時(shí)間,但本文算法的網(wǎng)絡(luò)模型為全卷積網(wǎng)絡(luò)且無文獻(xiàn)[10]算法中區(qū)域生成網(wǎng)絡(luò)該一步驟,有效地減少檢測時(shí)間。

        表2 本文算法與其他算法結(jié)果對(duì)比

        為進(jìn)一步體現(xiàn)本文算法性能,表3 展示了在不同Jaccard閾值下檢測精度結(jié)果。結(jié)果表明,在更嚴(yán)格的評(píng)價(jià)標(biāo)準(zhǔn)中,本文算法仍保持較高的檢測準(zhǔn)確率,有助于機(jī)器人精確地抓取目標(biāo)物。

        表3 不同Jaccard閾值下的檢測精度 %

        本文通過復(fù)現(xiàn)文獻(xiàn)[10]的抓取檢測算法,與本文算法進(jìn)行對(duì)比,具體效果如圖11所示。

        圖11 本文算法與其他算法效果對(duì)比

        由圖11 的對(duì)比效果可發(fā)現(xiàn),對(duì)于檢測同一種物體不同擺放姿態(tài)下的抓取位置,文獻(xiàn)[10]檢測的抓取框偏大,精確度不足;本文算法預(yù)測的抓取框更加精細(xì),主要原因在于本文算法充分利用不同層次的特征信息,并在不同層的特征圖上檢測抓取框,與文獻(xiàn)[10]在提取特征網(wǎng)絡(luò)的最后一層特征圖上進(jìn)行檢測相比,本文算法能更好地捕抓目標(biāo)物的細(xì)節(jié)信息,加強(qiáng)小抓取框的檢測效果。

        5 結(jié)束語

        為了使機(jī)器人實(shí)時(shí)且準(zhǔn)確地抓取目標(biāo)物體,本文提出并驗(yàn)證了一種基于SE-RetinaGrasp 的神經(jīng)網(wǎng)絡(luò)模型。該模型以一階目標(biāo)檢測算法RetinaNet 為基礎(chǔ),一方面,通過通道注意力SENet 結(jié)構(gòu),建立特征通道之間的相互依賴關(guān)系,提升對(duì)抓取檢測任務(wù)起積極作用的特征并抑制用處不大的特征,從而提高檢測準(zhǔn)確率;另一方面,利用平衡金字塔的思想,在不增加太多參數(shù)的前提下,進(jìn)一步融合不同層次的特征信息,加強(qiáng)模型對(duì)細(xì)節(jié)信息的捕抓能力。在Cornell 數(shù)據(jù)集上的實(shí)驗(yàn)證明,相比于傳統(tǒng)抓取檢測模型,SE-RetinaGrasp 模型保持高檢測準(zhǔn)確率的同時(shí),實(shí)時(shí)性高,并且一定程度上提高了抓取框的精細(xì)程度。

        然而,Cornell數(shù)據(jù)集針對(duì)的圖像僅包含單一目標(biāo)物體,對(duì)于現(xiàn)實(shí)生活中多物體堆疊的情況尚未能很好的解決,因此,如何能在多物體堆疊的場景下,實(shí)時(shí)準(zhǔn)確地抓取相應(yīng)物體是下一步的研究內(nèi)容。

        猜你喜歡
        物體準(zhǔn)確率機(jī)器人
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        深刻理解物體的平衡
        我們是怎樣看到物體的
        高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        機(jī)器人來幫你
        認(rèn)識(shí)機(jī)器人
        機(jī)器人來啦
        認(rèn)識(shí)機(jī)器人
        亚洲av无码精品色午夜| 又大又粗又爽18禁免费看| 国精产品一区一区三区有限公司杨| 精品无码日韩一区二区三区不卡| 亚洲精品久久久久久动漫| 色综合一本| 精品国产aⅴ无码一区二区| 东北无码熟妇人妻AV在线| 在线观看精品国产福利片100| 国产精品女同学| 国产精品美女一区二区av| 国产一区二区长腿丝袜高跟鞋| 亚洲精品成人无限看| 亚洲啪av永久无码精品放毛片| 婷婷丁香五月中文字幕| 亚洲一区二区三区久久蜜桃| 91精品国产乱码久久久| 国产成人亚洲精品91专区高清 | 亚洲av永久无码精品水牛影视| 中文字幕人妻乱码在线| 亚洲av少妇高潮喷水在线| 浪货趴办公桌~h揉秘书电影| 人妻丰满熟妇av无码区hd| 精品国产一区二区三区AV小说| 日韩女优一区二区视频| 亚洲女同性恋第二区av| 国产高颜值女主播在线| 成人aaa片一区国产精品| 久久国产精久久精产国| 97精品国产91久久久久久久 | 91日本精品国产免| 91精品91久久久久久| 最新中文字幕乱码在线| 中文字幕一区二区中文| 久久久久99精品成人片直播 | 色偷偷亚洲女人的天堂| 国产三级黄色大片在线免费看| 又黄又爽又无遮挡免费的网站| 性欧美暴力猛交69hd| 高清国产亚洲va精品| 高清不卡av在线播放|