摘要: 在工業(yè)生產(chǎn)中,待抓取物體往往具有種類眾多、擺放位置雜亂、形狀不規(guī)則等特點(diǎn),使得難以準(zhǔn)確獲取物體抓取位姿。針對(duì)以上問(wèn)題,提出一種基于深度學(xué)習(xí)的兩階段抓取位姿估計(jì)方法。第1階段,提出一種基于YOLOv4(you only look once version4)改進(jìn)的輕量級(jí)旋轉(zhuǎn)目標(biāo)檢測(cè)算法,提高目標(biāo)的檢測(cè)速度和檢測(cè)精度。首先,使用輕量化網(wǎng)絡(luò)GhostNet和深度可分離卷積對(duì)原始網(wǎng)絡(luò)進(jìn)行重構(gòu),降低整個(gè)模型參數(shù)。然后,在頸部網(wǎng)絡(luò)中增加自適應(yīng)空間特征融合結(jié)構(gòu)和無(wú)參注意力模塊,提高對(duì)感興趣區(qū)域的定位精度;最后,使用近似傾斜交并比(skew intersection over union, SkewIoU)損失解決角度的周期性問(wèn)題。第2階段,制作與原始圖片尺寸一樣的掩膜提取感興趣區(qū)域;同時(shí),提出一種改進(jìn)的DeepLabV3+算法,用以檢測(cè)感興趣區(qū)域中物體的抓取位姿。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的YOLOv4網(wǎng)絡(luò)檢測(cè)精度達(dá)到92.5%,改進(jìn)的DeepLabV3+算法在Cornell抓取數(shù)據(jù)集上的圖像拆分和對(duì)象拆分精度分別達(dá)到94.6%,92.4%,且能準(zhǔn)確檢測(cè)出物體的抓取位姿。
關(guān)鍵詞: 深度學(xué)習(xí); 掩膜; 感興趣區(qū)域; 輕量化網(wǎng)絡(luò); 位姿檢測(cè)
中圖分類號(hào): TP 242
文獻(xiàn)標(biāo)志碼: A
DOI:10.12305/j.issn.1001-506X.2024.06.05
Object grasp pose detection based on the region of interest
SUN Xiantao1, JIANG Wangyang1, CHEN Wenjie1,*, CHEN Weihai2, ZHI Yali1
(1. School of Electrical Engineering and Automation, Anhui University, Hefei 230601, China; 2. School of Automation Science and Electrical Engineering, Beihang University, Beijing 100191, China)
Abstract: In industrial production, the objects to be grasped often have the characteristics of varions types, messy placements, irregular shapes, etc., which make it difficult to accurately obtain the grasping pose of the object. In view of the above problems, this paper proposes a two-stage grasp pose estimation method based on deep learning. In the first stage, a lightweight rotating target detection algorithm based on improved you only look once version4 (YOLOv4) is proposed to enhance the detection speed and improve detection accuracy of targets. Firstly, the lightweight network GhostNet and deep separable convolution are used to reconstruct the original network to reduce the parameters of the entire model. Then, the adaptive spatial feature fusion structure and the non-reference attention module are added to the neck network to improve the positioning accuracy of the region of interest. Finally, the approximate skew intersection over union (SkewIoU) loss is used to solve the periodic problem of the angle. In the second stage, a mask extraction region of interest is made with the same size as the original picture. At the same time, an improved DeepLabV3+algorithm is proposed to detect the grasping pose of objects in the area of interest. Experimental results show that the detection accuracy of the improved YOLOv4 network reaches 92.5%, and the improved DeepLabV3+algorithm achieves 94.6% and 92.4% of the image splitting and object splitting accuracy on the Cornell capture dataset, respectively, and can accurately detect the grasping pose of objects.
Keywords: deep learning; mask; region of interest; lightweight network; pose detection
0 引 言
近些年來(lái),隨著人工成本的節(jié)節(jié)攀升,人工智能技術(shù)被廣泛應(yīng)用在工業(yè)生產(chǎn)的分類、包裝等環(huán)節(jié)中。其中,基于機(jī)器視覺(jué)的伺服抓取控制系統(tǒng)一直是研究的熱點(diǎn)領(lǐng)域[1-2]。機(jī)械臂與計(jì)算機(jī)視覺(jué)技術(shù)的結(jié)合,使得機(jī)械臂獲得感知周圍環(huán)境和與外界環(huán)境交互的能力[3]。如何在對(duì)硬件設(shè)備要求不高、能降低人工成本情況下,實(shí)現(xiàn)對(duì)物體抓取位姿的快速準(zhǔn)確檢測(cè),一直是機(jī)械臂抓取的重要研究方向[4]。
目前,深度學(xué)習(xí)在機(jī)械臂抓取領(lǐng)域得到廣泛應(yīng)用,并已經(jīng)取得了不少研究成果。Lenz等[5]最先使用深度學(xué)習(xí)的方法提取深度圖像的多模態(tài)特征,對(duì)目標(biāo)物體的最優(yōu)抓取位置進(jìn)行檢測(cè),并提出了一種五維抓取表示方法,其中抓取位置以抓取矩形表示。Morrison等[6]提出了一種可用于閉環(huán)抓取且與目標(biāo)無(wú)關(guān)的抓取綜合方法,使用生成式抓取卷積神經(jīng)網(wǎng)絡(luò)(generative grasping convolutional neural network, GG-CNN)預(yù)測(cè)每個(gè)像素的抓取置信度、寬度和角度。Liang等[7]提出了基于點(diǎn)云的位姿檢測(cè)算法,實(shí)現(xiàn)了2D卷積神經(jīng)網(wǎng)絡(luò)對(duì)3D點(diǎn)云的直接處理;Zhang等[8]為了解決多層卷積神經(jīng)網(wǎng)絡(luò)的過(guò)擬合問(wèn)題,提出一種單目標(biāo)抓取檢測(cè)網(wǎng)絡(luò),對(duì)抓取角度和位置進(jìn)行擬合,提高模型的檢測(cè)精度。
平面多目標(biāo)抓取位姿檢測(cè)大致分為兩類,第1類采用端對(duì)端網(wǎng)絡(luò)直接實(shí)現(xiàn)抓取位姿估計(jì)。如Chu等[9]將抓取檢測(cè)轉(zhuǎn)化為抓取位置回歸和角度分類問(wèn)題,并利用區(qū)域建議網(wǎng)絡(luò)(region proposal network, RPN)網(wǎng)絡(luò)結(jié)構(gòu),實(shí)現(xiàn)多目標(biāo)的檢測(cè),但由于采用角度分類的方法,其預(yù)測(cè)的抓取角度存在角度離散的問(wèn)題。Ainetter等[10]提出一種端到端網(wǎng)絡(luò),將抓取檢測(cè)和語(yǔ)義分割結(jié)合在一起,實(shí)現(xiàn)了對(duì)多目標(biāo)的檢測(cè),但其網(wǎng)絡(luò)模型大,檢測(cè)速度慢,并且數(shù)據(jù)標(biāo)注工作量大。第2類采用分階段方法實(shí)現(xiàn)抓取位姿檢測(cè)。陳丹等[11]提出了級(jí)聯(lián)快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(faster region convolutional neural network, Faster RCNN)模型[12],第1級(jí)使用水平目標(biāo)檢測(cè)對(duì)較小物體進(jìn)行定位,第2級(jí)在第1級(jí)的基礎(chǔ)上尋找該目標(biāo)的最優(yōu)抓取位姿,但第2級(jí)無(wú)法做到對(duì)目標(biāo)最優(yōu)抓取位姿的直接預(yù)測(cè),同時(shí)水平框定位可能包含其他物體像素,影響檢測(cè)精度。孟月波等[13]提出一種兩階段檢測(cè)方法,第1階段利用語(yǔ)義分割網(wǎng)絡(luò)獲得待抓物體的掩碼區(qū)域,第2階段,利用主成分分析(principal component analysis, PCA)法對(duì)輪廓點(diǎn)坐標(biāo)進(jìn)行降維,獲取物體抓取坐標(biāo)和偏轉(zhuǎn)方向,但獲取的抓取點(diǎn)不一定在物體上,致使抓取時(shí)物體發(fā)生移動(dòng)。安廣琳等[14]也是通過(guò)兩階段方法獲取多目標(biāo)抓取位姿,先通過(guò)旋轉(zhuǎn)目標(biāo)檢測(cè)算法獲取物體類別和坐標(biāo),然后直接將物體裁剪下來(lái),最后使用傳統(tǒng)方法對(duì)每個(gè)裁剪后的物體圖像進(jìn)行二值化處理,求取其質(zhì)心坐標(biāo)作為抓取點(diǎn),但其并沒(méi)有考慮到物體在原圖上的質(zhì)心坐標(biāo)和抓取角度。分階段方法相比前者檢測(cè)精度更高,且能降低標(biāo)注工作量。但依舊存在背景噪聲干擾和檢測(cè)速度慢的問(wèn)題,且第2階段獲取抓取位姿的方法過(guò)于復(fù)雜。
針對(duì)以上問(wèn)題,本文提出一種兩階段檢測(cè)方法,第1階段,使用YOLOv4(you only look once version4)[15]改進(jìn)的輕量級(jí)旋轉(zhuǎn)目標(biāo)檢測(cè)算法實(shí)現(xiàn)多目標(biāo)的快速識(shí)別和定位,獲得每個(gè)目標(biāo)的類別和坐標(biāo),然后根據(jù)坐標(biāo)確定感興趣區(qū)域(region of interest, ROI),并制作與原圖大小一樣的掩膜將物體提取下來(lái),使物體在原圖中位置信息不變,并將剩余區(qū)域填充為白色,從而將多目標(biāo)檢測(cè)問(wèn)題轉(zhuǎn)化成多個(gè)單目標(biāo)檢測(cè)問(wèn)題。第2階段使用改進(jìn)的DeepLabV3+[16]算法訓(xùn)練好的權(quán)重對(duì)多個(gè)單目標(biāo)進(jìn)行檢測(cè),直接獲得每個(gè)目標(biāo)的抓取位姿。
1 旋轉(zhuǎn)目標(biāo)檢測(cè)
1.1 YOLOv4目標(biāo)檢測(cè)算法
YOLOv4算法由主干網(wǎng)絡(luò)、頸部網(wǎng)絡(luò)和檢測(cè)頭3個(gè)部分組成。相比之前的YOLOv3,其在主干網(wǎng)絡(luò)部分的特征提取網(wǎng)絡(luò)Darknet53中融入跨階段部分連接(cross stage partial connections, CSP)模塊,結(jié)構(gòu)變?yōu)镃SPDarnet53。頸部網(wǎng)絡(luò)部分由空間金字塔池化(spatial pyramid pooling, SPP)結(jié)構(gòu)[17]和路徑聚合網(wǎng)絡(luò)(path aggregation network, PANet)[18]組成。SPP結(jié)構(gòu)使用池化核大小為5×5、9×9、13×13的最大池化層,分別對(duì)輸入特征進(jìn)行處理,用以增大感受野。PANet結(jié)構(gòu)就是在特征金字塔網(wǎng)絡(luò)(feature pyramid network, FPN)結(jié)構(gòu)[19]后面添加一條從低層到高層的路徑,將低層的信息傳給高層,增強(qiáng)其定位信息,同時(shí)考慮了高低層特征層對(duì)預(yù)測(cè)結(jié)果的共同影響,相較于原PANet結(jié)構(gòu)中將特征層直接相加,YOLOv4在通道方向進(jìn)行Concat拼接。檢測(cè)頭部分使用3×3卷積和1×1卷積,進(jìn)行兩次卷積操作,完成目標(biāo)檢測(cè)任務(wù)。
1.2 輕量級(jí)旋轉(zhuǎn)目標(biāo)檢測(cè)算法R-YOLOv4
本文的研究對(duì)象為實(shí)驗(yàn)室中的常見(jiàn)工具,在實(shí)際目標(biāo)檢測(cè)場(chǎng)景中,可能出現(xiàn)工具過(guò)于密集、不同視覺(jué)設(shè)備條件下工具的清晰度發(fā)生變化、以及不同個(gè)體之間的邊界特征相似等問(wèn)題。而傳統(tǒng)的YOLOv4算法,在特征提取過(guò)程中生成大量的冗余特征圖,導(dǎo)致檢測(cè)速度慢,不能很好適應(yīng)不同場(chǎng)景下圖片中物體的變化??紤]到現(xiàn)有算法檢測(cè)速度慢以及設(shè)備性能有限的情況,本文提出一種輕量級(jí)旋轉(zhuǎn)目標(biāo)檢測(cè)算法R-YOLOv4(rotating YOLOv4),其在保持較高的精度的同時(shí),提高了模型的檢測(cè)速度。
為了提高目標(biāo)檢測(cè)速度和精度,本文用GhostNet[20]網(wǎng)絡(luò)替代原主干網(wǎng)絡(luò),同時(shí)使用深度可分離卷積(depthwise separable convolution, DSC)[21]代替主干網(wǎng)絡(luò)以外的3×3卷積,輕量化整個(gè)模型。輕量化之后的YOLOv4算法如圖1所示。圖中Con2d表示卷積層;BN(batch normalization)為批量歸一化層;ReLU和Leaky為激活函數(shù);Maxpool為最大平均池化層;Upsample表示上采樣;Concat表示特征圖在通道方向上進(jìn)行拼接;G-Bneck為Ghost Bottleneck結(jié)構(gòu)的縮寫(xiě)。該網(wǎng)絡(luò)的輸入圖片大小為416×416×3,使用GhostNet獲得大小為52×52×40、26×26×112、13×13×160的3種不同尺寸的有效特征層并輸入網(wǎng)絡(luò)中,為了解決輕量化網(wǎng)絡(luò)之后帶來(lái)的檢測(cè)精度降低的問(wèn)題,本文分別在頸部網(wǎng)絡(luò)結(jié)構(gòu)中的3個(gè)部分添加無(wú)參注意力模塊(simple parameter-free attention module, SimAM)[22],同時(shí)在PANet結(jié)構(gòu)后引入自適應(yīng)空間特征融合(adaptive spatial feature fusion, ASFF)結(jié)構(gòu)[23],使網(wǎng)絡(luò)充分利用不同尺度的特征,提高模型的檢測(cè)精度。然后,使用近似傾斜交并比(skew intersection over union, SkewIoU)損失[24]作為損失函數(shù),解決角度的周期性問(wèn)題。最后,通過(guò)檢測(cè)頭輸出預(yù)測(cè)結(jié)果。
1.2.1 主干網(wǎng)絡(luò)
YOLOv4的主干網(wǎng)絡(luò)是由多個(gè)殘差結(jié)構(gòu)組成的CSPDarnet53網(wǎng)絡(luò),但其結(jié)構(gòu)復(fù)雜、參數(shù)過(guò)多、推理速度慢。為了提高抓取位姿檢測(cè)速度,提高抓取效率,本文使用GhostNet代替原主干特征提取網(wǎng)絡(luò)。由于待抓取物體所在工作臺(tái)背景單一,導(dǎo)致出現(xiàn)大量的重復(fù)特征圖,生成冗余的特征圖,需要增加模型的計(jì)算量,GhostNet網(wǎng)絡(luò)的思想就是使用計(jì)算量更低的操作去生成冗余的特征圖。
Ghost模塊就是GhostNet提出的一種降低計(jì)算量、加快模型推理速度的方法。其模塊的主要卷積可以自定義大小,它不是采用逐點(diǎn)卷積或者通道混洗的方法實(shí)現(xiàn)跨通道的特征處理,而是采用標(biāo)準(zhǔn)卷積先生成一些內(nèi)在的特征映射,然后通過(guò)線性變換操作增強(qiáng)特征和增加信道,最后將恒等變換和線性變換得到的Ghost特征圖在通道方向上拼接在一起,得到最終的輸出結(jié)果。其具體結(jié)構(gòu)如圖2所示。
假設(shè)1個(gè)恒等變換特征圖有s-1個(gè)冗余,那么它的計(jì)算量將比標(biāo)準(zhǔn)卷積的計(jì)算量削減為原來(lái)1/s,具體計(jì)算過(guò)程如下:
rs=n·h′·w′·c·k·kns·h′·w′·c·k·k+(s-1)·ns·h′·w′·d·d=
c·k·k1s·c·k·k+s-1s·d·d≈s·cs+c-1≈s(1)
式中:h′、w′、n分別表示輸出特征圖的高、寬和通道數(shù);k×k表示卷積核的大小;s表示每個(gè)通道產(chǎn)生的總映射;c表示輸入通道數(shù),且一般很大,slt;lt;c;s/n是經(jīng)過(guò)普通卷積輸出的內(nèi)在特征映射;d×d為線性操作的平均池化核的大小,且與k×k大小相似。分子為標(biāo)準(zhǔn)卷積的計(jì)算量,分母為Ghost模塊計(jì)算量。
GhostNet網(wǎng)絡(luò)由多個(gè)Ghost模塊為基礎(chǔ)構(gòu)建的Ghost Bottleneck組成。其與Residual Block很相似,只不過(guò)使用Ghost模塊代替?zhèn)鹘y(tǒng)的卷積操作。其中,兩個(gè)Ghost模塊將輸入特征層通道數(shù)先增加,后降低,使之與輸入通道相同。步距Stride決定是否對(duì)特征層的高、寬進(jìn)行壓縮,值為1時(shí),保持不變,這時(shí)的Ghost Bottleneck只增加網(wǎng)絡(luò)深度;值為2時(shí),會(huì)將輸入特征圖的高、寬壓縮到原來(lái)的一半,完成下采樣操作。步距為1和步距為2時(shí),Ghost Bottleneck的結(jié)構(gòu)如圖3所示。
1.2.2 SimAM
利用輕量化的GhostNet替換原來(lái)的主干網(wǎng)絡(luò)CSPDarnet53后,網(wǎng)絡(luò)模型的參數(shù)量和計(jì)算量有了明顯的減少,但同時(shí)也降低了模型的特征提取能力。為了更好地平衡網(wǎng)絡(luò)模型檢測(cè)精度和檢測(cè)速度,引入SimAM是提高檢測(cè)精度的方法之一。其在不引入額外參數(shù)的情況下,能加速注意力權(quán)值的計(jì)算,使得加權(quán)之后的特征更關(guān)注重要的目標(biāo)信息。SimAM注意力機(jī)制結(jié)構(gòu)如圖4所示。
不同于現(xiàn)有的通道或者空間注意力機(jī)制,該注意力機(jī)制是從神經(jīng)科學(xué)理論的角度出發(fā),挖掘神經(jīng)元的重要性。SimAM算法會(huì)評(píng)估每個(gè)神經(jīng)元的重要性,在神經(jīng)科學(xué)中,信息豐富的神經(jīng)元不同于周邊神經(jīng)元,往往表現(xiàn)出不同的放電模式。同時(shí),激活的神經(jīng)元還會(huì)抑制周邊的神經(jīng)元,這種現(xiàn)象稱為空間抑制。所有具有空間抑制效應(yīng)的神經(jīng)元,在神經(jīng)網(wǎng)中的重要性需要提高。利用神經(jīng)元之間的線性可分性可以找到這些激活神經(jīng)元。SimAM通過(guò)定義能量函數(shù)的方式找到重要神經(jīng)元,能量函數(shù)為
e*t=4(σ^2+λ)(t-μ^)2+2σ^2+2λ(2)
式中:t表示目標(biāo)神經(jīng)元;λ為超參數(shù);μ^和σ^2分別為其相鄰神經(jīng)元的均值和方差。最小能量通過(guò)式(2)獲得,能量越低,該神經(jīng)元與周邊神經(jīng)元的差異性就越大,重要性也就越高。神經(jīng)元的重要性為1/e*t。最后,利用1/e*t對(duì)輸入的特征進(jìn)行加權(quán)處理,具體如下:
式中:X為輸入特征;X~為經(jīng)過(guò)加權(quán)之后特征;⊙為點(diǎn)積運(yùn)算;E為每個(gè)通道的能量函數(shù)。
1.2.3 ASFF模塊
不同特征尺度之間的不一致性是單階段算法中特征金字塔融合方式的主要缺陷。YOLOv4采用PAN結(jié)構(gòu)進(jìn)行不同尺度的特征融合,其是在FPN結(jié)構(gòu)上改進(jìn)而來(lái),PAN是將不同尺度的特征層在通道方向上進(jìn)行簡(jiǎn)單的拼接。但這種方式并不能充分利用不同尺度的特征,而且其他層的無(wú)用信息也被融入進(jìn)來(lái)。因此,本文使用ASFF模塊來(lái)解決這些問(wèn)題。其核心思想是通過(guò)訓(xùn)練和學(xué)習(xí)不同尺度空間中特征融合的權(quán)重,也就是獲得不同特征圖對(duì)預(yù)測(cè)特征圖的貢獻(xiàn)程度,在空間上過(guò)濾其他層次特征,保留有效信息并進(jìn)行組合,從而抑制不一致性,提高特征尺度的不變性。ASFF的結(jié)構(gòu)設(shè)計(jì)如圖5所示。
其在某位置的輸出為
ylij=αlij·x1→lij+βlij·x2→lij+γlij·x3→lij(4)
式中:ylij為預(yù)測(cè)特征層對(duì)應(yīng)位置的輸出;x1→lij、x2→lij、x3→lij分別是來(lái)自3種不同層級(jí)的特征層level1、level2、level3調(diào)整到l層級(jí)尺度大小后,在(i,j)處的特征向量;αlij、βlij、γlij為第1層特征圖學(xué)習(xí)到的權(quán)重。它們是level1~level3調(diào)整尺度后的特征層,先經(jīng)過(guò)1×1卷積得到權(quán)重向量α、β、γ,然后在通道方向上拼接獲得權(quán)重融合圖,再經(jīng)過(guò)1×1卷積,最后在通道方向使用Softmax函數(shù),進(jìn)行歸一化而得到的,它們的范圍都在[0,1]并且和為1,具體如下:
αlij+βlij+γlij=1(5)
αlij=eλlαijeλlαij+eλlβij+eλlγij(6)
1.2.4 五參數(shù)表示法
旋轉(zhuǎn)矩形框在標(biāo)注時(shí)以參數(shù)角度θ來(lái)表示矩形框的旋轉(zhuǎn)方向,同時(shí)為防止出現(xiàn)二義性問(wèn)題,對(duì)θ也設(shè)置了范圍。本文采用的是長(zhǎng)邊定義法,如圖6所示。
它的表現(xiàn)形式為(x,y,w,h,θ),其中(x,y)為旋轉(zhuǎn)矩形框的中心坐標(biāo),w定義為最長(zhǎng)邊,h定義為最短邊,θ表示X軸旋轉(zhuǎn)到長(zhǎng)邊w所經(jīng)過(guò)的角度范圍,順時(shí)針為正,逆時(shí)針為負(fù),取值范圍為[-π/2,π/2]。
1.2.5 近似SkewIoU損失
R-YOLOv4只需要在YOLOv4的檢測(cè)頭部分增加一個(gè)對(duì)角度預(yù)測(cè)的通道,就可實(shí)現(xiàn)旋轉(zhuǎn)角度預(yù)測(cè)。
R-YOLOv4的分類損失采用二分類交叉熵?fù)p失。然而在回歸損失中,由于角度存在邊界,當(dāng)使用傳統(tǒng)的單參數(shù)損失函數(shù)Smooth L1 Loss優(yōu)化角度時(shí),由于θ在越過(guò)定義的角度邊界會(huì)導(dǎo)致角度的正負(fù)號(hào)變化,從而導(dǎo)致?lián)p失值突然增大。為了解決角度的周期性問(wèn)題帶來(lái)的回歸損失突然變大的情況,Yang等[25]使用了平滑交并比損失(IOU-Smooth L1 Loss)函數(shù),在傳統(tǒng)的Smooth L1 Loss函數(shù)中引入了SkewIoU常數(shù)因子,當(dāng)遇到邊界時(shí),新的損失函數(shù)接近于0,避免了損失突然變大的情況。R3Det中提出的近似SkewIoU損失,則是在IOU-Smooth L1 Loss的基礎(chǔ)上改進(jìn)而來(lái)的,且能有效地改善角度回歸的效果。本文采用該思想,回歸損失為
L=λcoordN∑Nn=1objnLreg(vpredn,vgtn)|Lreg(vpredn,vgtn)||f(SkewIoU)|(7)
Lreg(vpred,vgt)=LSmooth-L1(vpredθ,vgtθ)-CIoU(vpred{x,y,w,h},vgt{x,y,w,h})(8)
vgtθ=gtθ-θa(9)
θa∈[-π/3,-π/6,0,π/6,π/3,π/2,](10)
式中:n表示錨框的數(shù)量;objn為二進(jìn)制(objn=0表示背景;objn=1表示前景);vpredθ和vgtθ分別表示預(yù)測(cè)角度和真實(shí)角度的偏移量;CIoU為包含重疊面積、中心點(diǎn)距離和長(zhǎng)寬比三要素的IoU損失;vpred{x,y,w,h}和vgt{x,y,w,h}分別為預(yù)測(cè)框和真實(shí)框的中心、寬和高;λcoord為平衡系數(shù),默認(rèn)為1;SkewIoU為預(yù)測(cè)旋轉(zhuǎn)框與真實(shí)旋轉(zhuǎn)框之間的IOU;f(SkewIOU)為SkewIOU有關(guān)的一個(gè)函數(shù),負(fù)責(zé)調(diào)整損失值的大小,梯度的反向傳播依舊通過(guò)Smooth L1 Loss主導(dǎo)。
2 抓取位姿檢測(cè)
2.1 五維抓取框
機(jī)械臂要實(shí)現(xiàn)對(duì)目標(biāo)抓取,必須要對(duì)抓取目標(biāo)進(jìn)行抓取位姿檢測(cè)和抓取點(diǎn)定位。目前,平面抓取最常用的是五維抓取矩形,通過(guò)這種抓取矩形來(lái)表示平行板夾持器抓取目標(biāo)的抓取點(diǎn)和抓取姿態(tài)。抓取矩形的大小和方向通過(guò)五維向量表示,其表達(dá)式為
G=(xg,yg,wg,hg,β)(11)
式中:(xg,yg)表示抓取矩形的中心點(diǎn);wg表示平行板夾持器的寬度;hg表示平行板夾持器張開(kāi)的大小;β表示平行板夾持器與水平方向的夾角。
實(shí)際可視化效果如圖7所示。首先,通過(guò)五維抓取向量可以將抓取目標(biāo)的位姿檢測(cè)和深度學(xué)習(xí)緊密結(jié)合在一起。然后,制定相應(yīng)的任務(wù),分別對(duì)抓取矩形的中心點(diǎn)、抓取寬度和偏轉(zhuǎn)角度進(jìn)行預(yù)測(cè),選擇置信度最高的抓取矩形作為最優(yōu)抓取位姿。
2.2 DeepLabV3+算法原理
DeepLabV3+是谷歌在2018年提出的一種編解碼網(wǎng)絡(luò),編碼器采用的是DeepLabV3網(wǎng)絡(luò),其由深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural network, DCNN)和空洞空間卷積池化金字塔(atrous spatial pyramid pooling, ASPP)結(jié)構(gòu)組成,圖片先經(jīng)過(guò)DCNN下采樣16倍得到高層特征圖,然后將特征圖輸入到ASPP結(jié)構(gòu),特征圖分別通過(guò)1×1卷積層、3個(gè)膨脹系數(shù)為6、12、18的膨脹卷積層和一個(gè)全局平均池化層,然后在通道方向進(jìn)行拼接,通過(guò)ASPP能兼顧不同大小的語(yǔ)義信息,加強(qiáng)網(wǎng)絡(luò)多尺度感知能力,對(duì)于語(yǔ)義分割網(wǎng)絡(luò)至關(guān)重要。
在解碼階段,對(duì)于下采樣16倍后的高層語(yǔ)義特征圖,經(jīng)過(guò)1×1卷積后,如果直接通過(guò)雙線性插值還原成原圖大小,將得不到精細(xì)的語(yǔ)義分割結(jié)果,目標(biāo)的邊界會(huì)出現(xiàn)丟失的情況。為了解決這一問(wèn)題,DeepLabV3+先對(duì)Encoder得到的特征圖經(jīng)過(guò)1×1卷積進(jìn)行降維,防止高層信息被弱化。在保存邊界信息的情況下,通過(guò)雙線性插值上采樣4倍與同樣大小的特征層在通道方向進(jìn)行拼接,拼接后的特征層再經(jīng)過(guò)一個(gè)3×3的卷積進(jìn)一步融合特征。最后,再上采樣4倍還原成原圖大小。
2.3 改進(jìn)的DeepLabV3+模型
2.3.1 實(shí)現(xiàn)原理
相較于采用RPN提取候選框的方法,改進(jìn)后的DeepLabV3+模型直接在每個(gè)像素上生成抓取姿勢(shì)。為了實(shí)現(xiàn)在像素級(jí)上對(duì)每個(gè)像素進(jìn)行抓取點(diǎn)和抓取姿態(tài)的檢測(cè),需要對(duì)DeepLabV3+模型進(jìn)行改進(jìn),使網(wǎng)絡(luò)輸出抓取置信度Q、抓取角度Angle和抓取寬度Width。
(1) 抓取置信度指的是圖像上每個(gè)像素點(diǎn)(u, v)作為抓取點(diǎn)時(shí)抓取的成功率,取值范圍為[0, 1],取值越接近于1,抓取成功的幾率越高。
(2) 抓取角度是指每個(gè)點(diǎn)執(zhí)行抓取任務(wù)時(shí)需要偏轉(zhuǎn)的角度,取值范圍為[-π/2, π/2]。
(3) 抓取寬度是指在每一點(diǎn)執(zhí)行抓取時(shí)二指夾持器的寬度,取值范圍在[0,150]像素之內(nèi)。
改進(jìn)后的模型如圖8所示。將原有的一個(gè)3×3卷積刪除,引入4個(gè)分支,每個(gè)分支有2個(gè)3×3卷積核,卷積操作后再上采樣4倍還原成原圖大小。為了方便訓(xùn)練,避免造成訓(xùn)練混亂,本文采用文獻(xiàn)[6]的方法將輸出角度轉(zhuǎn)化成兩個(gè)三角函數(shù)sin2Φ和cos2Φ的形式分別輸出,最后通過(guò)下式求取輸出角度。
Φ=12arctansin2Φcos2Φ(12)
2.3.2 訓(xùn)練損失
改進(jìn)后的DeepLabV3+模型抓取檢測(cè)的損失函數(shù)定義為L(zhǎng)grasp=LQ+Lsin(2Φ)+Lcos(2Φ)+LWidth,四者的損失都采用均方差(mean square error, MSE)損失,具體如下:
MSE(y,y′)=∑ni=1(yi-y′i)n(13)
式中:y表示標(biāo)簽值;y′i表示預(yù)測(cè)值。
3 實(shí)驗(yàn)結(jié)果與分析
為了驗(yàn)證本文方法在實(shí)際應(yīng)用場(chǎng)景中的檢測(cè)效果,本文將搭建如圖9所示的實(shí)驗(yàn)平臺(tái)。該抓取平臺(tái)由UR5機(jī)械臂、氣動(dòng)二指抓手夾爪、inter RealSenseD435深度相機(jī)等組成。
抓取流程如下:
(1) 首先相機(jī)拍攝大小為640×480的圖片,并通過(guò)兩階段位姿估計(jì)方法,對(duì)圖像分別進(jìn)行處理,獲得物體在像素坐標(biāo)系中的坐標(biāo);
(2) 然后通過(guò)相機(jī)標(biāo)定和手眼標(biāo)定分別獲得像素坐標(biāo)到相機(jī)坐標(biāo)以及相機(jī)坐標(biāo)到機(jī)械臂基坐標(biāo)的旋轉(zhuǎn)平移矩陣,從而將物體抓取位姿從像素坐標(biāo)轉(zhuǎn)換至機(jī)械臂基坐標(biāo)系中;
(3) 最后通過(guò)TCP/IP協(xié)議將抓取位姿輸入機(jī)械臂控制柜中,使機(jī)械臂到達(dá)抓取位置并進(jìn)行抓取。
從上述流程可以看出,抓取位姿檢測(cè)的好壞,直接影響整個(gè)抓取系統(tǒng)的成功與否,故本文的研究重點(diǎn)依舊是抓取位姿的檢測(cè)問(wèn)題。本文所提出的位姿估計(jì)方法涉及目標(biāo)檢測(cè)、圖像的預(yù)處理和多目標(biāo)抓取位姿估計(jì)3個(gè)部分,兩階段抓取位姿估計(jì)流程圖如圖10所示。下面將分別進(jìn)行分析。
3.1 目標(biāo)檢測(cè)
目標(biāo)檢測(cè)采用的是自建的VOC格式數(shù)據(jù)集,共8種物體,分別是錘子、固體膠、計(jì)重器、鉗子、螺絲刀、扳手、海綿、雨傘,如圖11所示。分別用labelImg和RolabelImg軟件標(biāo)注,制作水平目標(biāo)數(shù)據(jù)集和旋轉(zhuǎn)目標(biāo)數(shù)據(jù)集。然后,將自建的數(shù)據(jù)集按9∶1的比例隨機(jī)劃分訓(xùn)練集和驗(yàn)證集。將目標(biāo)檢測(cè)算法進(jìn)行訓(xùn)練,批次大小設(shè)置為8,初始學(xué)習(xí)率設(shè)置為0.001,衰減系數(shù)為0.1,訓(xùn)練次數(shù)設(shè)置為300輪。使用Pytorch深度學(xué)習(xí)框架進(jìn)行訓(xùn)練,使用Nvidia Tesla V100的圖形處理器(graphics processing unit, GPU)加速模型訓(xùn)練。
在訓(xùn)練過(guò)程中,采用Mosaic圖像增強(qiáng)算法進(jìn)行數(shù)據(jù)增強(qiáng),通過(guò)在數(shù)據(jù)集中隨機(jī)選取4張圖片,并對(duì)4張圖片進(jìn)行翻轉(zhuǎn)、縮放、色域變化等操作后,進(jìn)行圖片的組合拼接,該方法能夠增加數(shù)據(jù)的多樣性和數(shù)據(jù)目標(biāo)個(gè)數(shù),從而提高模型的訓(xùn)練精度。同時(shí),載入在VOC數(shù)據(jù)集上訓(xùn)練好的模型作為預(yù)訓(xùn)練權(quán)重,初始化相應(yīng)的網(wǎng)絡(luò)模型,加快模型收斂。最后,輸入RealSenseD435拍攝的圖片,并使用訓(xùn)練好的模型權(quán)重對(duì)圖片上的目標(biāo)進(jìn)行預(yù)測(cè),同時(shí)輸出各目標(biāo)類別預(yù)測(cè)框的4個(gè)頂點(diǎn)坐標(biāo)和偏轉(zhuǎn)角度。
3.1.1 模型參數(shù)分析
f(SkewIOU)函數(shù)的選取影響著模型的召回率和模型的訓(xùn)練難度。本文選擇f(SkewIOU)函數(shù)的兩種取值方式,分別為線性函數(shù)f(SkewIOU)=1-SkewIOU和指數(shù)函數(shù)f(SkewIOU)=exp(1-SkewIOU)-1,來(lái)驗(yàn)證模型組建后近似SkewIoU損失的有效性。召回率表示檢測(cè)正確的正類占全部正類的比例,召回率越高意味著漏檢的情況越少。模型3個(gè)輸出端的召回率如圖12所示。從結(jié)果來(lái)看,當(dāng)IOU=0.5時(shí),隨著迭代次數(shù)的增加,后者的召回率曲線更容易收斂,說(shuō)明指數(shù)函數(shù)相較于線性函數(shù)更適合樣本的訓(xùn)練。
3.1.2 消融實(shí)驗(yàn)
為了更加全面地驗(yàn)證各種改進(jìn)模塊添加到Y(jié)OLOv4算法中的效果,本實(shí)驗(yàn)在自建的目標(biāo)檢測(cè)數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn)。實(shí)驗(yàn)指標(biāo)有平均準(zhǔn)確率(mean average precision, mAP)、參數(shù)量、計(jì)算量,本文通過(guò)這些評(píng)價(jià)指標(biāo)來(lái)評(píng)估模型的檢測(cè)精度和速度。將上文所提到的改進(jìn)模塊分別加入原YOLOv4模型中,共生成6組對(duì)照模型,“√”表示加入相應(yīng)改進(jìn)模塊。具體如表1所示。
消融實(shí)驗(yàn)結(jié)果如表2所示,引入GhostNet網(wǎng)絡(luò)以及DSC后,模型2相比原始YOLOv4模型,其參數(shù)量和計(jì)算量分別降低了51.934 M和53.246 G,但mAP降低了2.95%,說(shuō)明輕量化模型確實(shí)帶來(lái)了檢測(cè)精度上的損失。模型3和模型4加入網(wǎng)絡(luò)后,都提升了模型的精度,同時(shí)計(jì)算量和參數(shù)量增加很少。近似SkewIoU損失加入網(wǎng)絡(luò)后,算法由水平框檢測(cè)變?yōu)樾D(zhuǎn)框檢測(cè),此時(shí),模型5的mAP增加了11.5%,精測(cè)精度有了明顯的提升,這是因?yàn)橄噜徦娇蛑g的IOU很大,非極大值抑制(non-maximum suppression, NMS)算法會(huì)將部分檢測(cè)框誤認(rèn)為冗余框刪除,從而造成漏檢的情況,旋轉(zhuǎn)框則不會(huì)存在這些問(wèn)題。在加入所有模塊后,在較少參數(shù)量和計(jì)算量的情況下,模型6的mAP提高了12.1%。在保證檢測(cè)精度的情況下,實(shí)現(xiàn)了模型的輕量化。
為了更好體現(xiàn)該算法在可視化效果中的有效性,本文結(jié)合梯度加權(quán)類激活映射(gradient-weighted class activation mapping, Grad-CAM)[26]的思想,首先計(jì)算模型預(yù)測(cè)端中每個(gè)特征圖對(duì)圖片類別的權(quán)重,然后對(duì)每個(gè)特征圖進(jìn)行加權(quán)求和,最后以熱力圖的形式將加權(quán)后的特征圖映射在原圖中,以獲得類激活圖,從而便于觀察模型重點(diǎn)關(guān)注的預(yù)測(cè)區(qū)域。具體如圖13所示,圖13(a)和圖13(b)分別為兩種不同擺放位置下原YOLOv4和對(duì)其改進(jìn)后的R-YOLOV4的類激活圖。圖中區(qū)域顏色越深,表明其被分為正類的概率就越大,即模型對(duì)其關(guān)注的程度越高。本算法相較于原始的YOLOv4算法,對(duì)目標(biāo)的定位效果更好,對(duì)計(jì)重器、固體膠和螺絲刀的識(shí)別能力得到了加強(qiáng)。
3.1.3 性能對(duì)比
為了進(jìn)一步驗(yàn)證本文所提出的R-YOLOv4的性能,將本文算法與水平目標(biāo)檢測(cè)算法Faster RCNN、YOLOv4,以及旋轉(zhuǎn)目標(biāo)檢測(cè)算法R3Det、S2ANet[27]和H2RBoX[28]這5種主流目標(biāo)檢測(cè)算法進(jìn)行對(duì)比。實(shí)驗(yàn)指標(biāo)有模型權(quán)重大小、每秒幀數(shù)(frames per second, FPS)和mAP,具體結(jié)果如表3所示。
從表3可以看出,由于對(duì)算法進(jìn)行了輕量化,模型權(quán)重大小僅有48 MB,減小了內(nèi)存的開(kāi)銷,便于模型的應(yīng)用和部署,平均單張圖片檢測(cè)速度也更快,相比于原YOLOv4算法,F(xiàn)PS提高了13.6;與最新的旋轉(zhuǎn)目標(biāo)檢測(cè)算法H2RBoX網(wǎng)絡(luò)比較,F(xiàn)PS提高了27.2。同時(shí),在輕量化后,檢測(cè)精度并沒(méi)有降低,并能很好地平衡模型的檢測(cè)速度和精度,滿足工業(yè)級(jí)檢測(cè)要求。
3.2 圖像預(yù)處理
改進(jìn)后的DeepLabV3+算法是將圖片裁剪成300×300大小后,再輸入到網(wǎng)絡(luò)中檢測(cè)抓取中心點(diǎn)和抓取框方向,如果直接將目標(biāo)裁剪下來(lái)再填充為300×300大小,此時(shí)圖像的方向會(huì)發(fā)生變化。其次,在搭建抓取系統(tǒng)時(shí),不方便獲取原圖中的抓取位姿。所以,為了解決這些問(wèn)題,本文通過(guò)ROI制作與原始圖片大小相同的掩膜,將ROI以外的圖像區(qū)域全部屏蔽掉。先用制作好的含有ROI的掩膜與原圖相乘,得到ROI圖像;ROI的像素值與原圖保持一致,而區(qū)域外的像素值依舊為0;然后將區(qū)域外的像素值調(diào)整到255,此時(shí)物體在圖片中的方向與原圖相同;最后再裁剪出300×300大小的圖片,打包送入改進(jìn)的DeepLabV3+中,分別預(yù)測(cè)每個(gè)物體的抓取位姿。具體處理過(guò)程如圖14所示。
相較于水平框獲取需要裁剪的ROI,旋轉(zhuǎn)框所覆蓋的像素面積更小,具體如圖15所示。圖15左圖和右圖分別為水平框定位和旋轉(zhuǎn)框定位需要裁剪的ROI。所以,本文選擇旋轉(zhuǎn)框獲取ROI的目的,就是避免在第2階段檢測(cè)時(shí),其他物體像素對(duì)目標(biāo)物體檢測(cè)產(chǎn)生影響,從而提高抓取位姿檢測(cè)精度。
3.3 多目標(biāo)抓取位姿估計(jì)
為了與其他方法進(jìn)行比較,本文位姿估計(jì)采用的是開(kāi)源的Cornell數(shù)據(jù)集,該數(shù)據(jù)集中每張圖片只有一個(gè)物體,每個(gè)物體都標(biāo)注了多個(gè)正抓取框和負(fù)抓取框。位姿估計(jì)算法依舊采用目標(biāo)檢測(cè)的設(shè)備和框架,按4∶1的比例劃分訓(xùn)練集和驗(yàn)證集,并采用圖像拆分和對(duì)象拆分兩種方式劃分?jǐn)?shù)據(jù)集圖片,分別測(cè)試網(wǎng)絡(luò)對(duì)已知抓取對(duì)象新位置、新方向和未知抓取對(duì)象的泛化能力。學(xué)習(xí)率大小為0.001,訓(xùn)練次數(shù)為300輪,批次大小為8,并將載入在COCO數(shù)據(jù)集上訓(xùn)練的模型權(quán)重作為預(yù)訓(xùn)練權(quán)重,部分初始化改進(jìn)后的DeepLabV3+算法,加快模型收斂。
本文利用矩形度量來(lái)衡量網(wǎng)絡(luò)模型精度的好壞,其評(píng)判標(biāo)準(zhǔn)如下:① 預(yù)測(cè)的抓取框gp與真實(shí)抓取框gt之間的角度相差不能超過(guò)30°;② 預(yù)測(cè)抓取框與真實(shí)抓取框的Jaccard指數(shù)要大于0.25,Jaccard指數(shù)定義如下:
J(gp,gt)=|gp∩gt||gp∪gt|(14)
本算法與其他算法在圖像拆分、對(duì)象拆分以及檢測(cè)時(shí)間上的對(duì)比效果如表4所示。從表4可知,GhostNet作為主干網(wǎng)絡(luò),雖然檢測(cè)速度較快,但檢測(cè)精度相比其他算法并沒(méi)有明顯優(yōu)勢(shì),而ResNet-50[29]作為主干網(wǎng)絡(luò)的圖像拆分和對(duì)象拆分精度相比GhostNet分別提高了8.3%和8.9%,F(xiàn)PS降低了10.7,但也滿足機(jī)械臂抓取檢測(cè)的實(shí)時(shí)性要求??紤]到檢測(cè)的精度問(wèn)題,本文將以ResNet-50作為主干網(wǎng)絡(luò)。
下面將本文方法與水平框定位方法[30]進(jìn)行對(duì)比。第2階段都采用改進(jìn)后的DeepLabV3+的算法,并使用上面實(shí)驗(yàn)平臺(tái)采集200張圖像數(shù)據(jù),作為抓取位姿檢測(cè)的數(shù)據(jù)集。每張圖片包含8種不同形狀和不同位置的物體,并使用訓(xùn)練好的模型權(quán)重在自建多目標(biāo)數(shù)據(jù)集上進(jìn)行檢測(cè)。
第1階段目標(biāo)檢測(cè)的部分預(yù)測(cè)效果如圖16所示。三列圖像分別為物體在不同的擺放位置下,4種算法的預(yù)測(cè)效果。從圖中可以看出,相對(duì)于傳統(tǒng)的水平目標(biāo)檢測(cè),旋轉(zhuǎn)目標(biāo)檢測(cè)的預(yù)測(cè)的ROI覆蓋的像素面積更小。同時(shí),與其他旋轉(zhuǎn)目標(biāo)檢測(cè)算法相比,R3Det網(wǎng)絡(luò)對(duì)目標(biāo)的檢測(cè)效果不是很理想,存在漏檢和預(yù)測(cè)框定位不精準(zhǔn)的問(wèn)題。此外,雖然本文算法比H2RBox算法檢測(cè)精度低,但在檢測(cè)速度和模型大小方面均具有優(yōu)勢(shì)。
第2階段多目標(biāo)抓取位姿預(yù)測(cè)結(jié)果如圖17所示。三列圖像分別為物體在不同的擺放位置下,抓取位姿的預(yù)測(cè)結(jié)果。從實(shí)驗(yàn)結(jié)果可以看出,使用旋轉(zhuǎn)框定位裁剪的方法檢測(cè)的抓取位姿效果好于水平框定位裁剪的方法。對(duì)于水平框定位裁剪的方法,由于其在裁剪后包含其他物體像素,網(wǎng)絡(luò)在預(yù)測(cè)抓取位姿時(shí),受其他物體像素的影響,導(dǎo)致檢測(cè)效果差,有些甚至沒(méi)有預(yù)測(cè)到該區(qū)域目標(biāo)物體的抓取位姿,反而預(yù)測(cè)的是該區(qū)域內(nèi)包含的其他物體的抓取位姿。
4 結(jié) 論
針對(duì)現(xiàn)有的分階段方法檢測(cè)時(shí)存在背景噪聲干擾,且檢測(cè)速度慢的問(wèn)題,本文提出一種基于YOLOv4的輕量級(jí)旋轉(zhuǎn)目標(biāo)檢測(cè)算法對(duì)物體進(jìn)行識(shí)別和定位,提高了目標(biāo)算法的檢測(cè)速度和精度。相對(duì)于傳統(tǒng)的水平目標(biāo)檢測(cè)算法,其覆蓋的像素區(qū)域更小,降低了原始圖像物體像素對(duì)抓取位姿檢測(cè)的影響,同時(shí)提出了一種改進(jìn)的DeepLabV3+算法,對(duì)物體抓取位姿進(jìn)行直接檢測(cè)。與其他網(wǎng)絡(luò)相比,檢測(cè)精度有了明顯提升。最后,在自建的多目標(biāo)數(shù)據(jù)集上,對(duì)不同形狀的未知物體進(jìn)行檢測(cè),且檢測(cè)效果良好,能夠滿足實(shí)際抓取檢測(cè)任務(wù)的要求。
參考文獻(xiàn)
[1]CAI J H, CEN J, WANG H K, et al. Real-time collision-free grasp pose detection with geometry-aware refinement using high-resolution volume[J]. IEEE Robotics and Automation Letters, 2022, 7(2): 1888-1895.
[2]CHENG H, WANG Y Y, MENG M Q H. A robot grasping system with single-stage anchor-free deep grasp detector[J]. IEEE Trans.on Instrumentation and Measurement, 2022, 71: 5009712.
[3]WEN H T, YAN J H, PENG W L, et al. TransGrasp: grasp pose estimation of a category of objects by transferring grasps from only one labeled instance[C]∥Proc.of the 17th European Conference, 2022: 445-461.
[4]WEI H, PAN S C, MA G, et al. Vision-guided hand-eye coordination for robotic grasping and its application in tangram puzzles[J]. Artificial Intelligence, 2021, 2(2): 209-228.
[5]LENZ I, LEE H, SAXENA A. Deep learning for detecting robotic grasps[J]. The International Journal of Robotics Research, 2015, 34(4/5): 705-724.
[6]MORRISON D, CORKE P, LEITNER J. Learning robust, real-time, reactive robotic grasping[J]. The International Journal of Robotics Research, 2020, 39(2/3): 183-201.
[7]LIANG H Z, MA X J, LI S, et al. Pointnetgpd: detecting grasp configurations from point sets[C]∥Proc.of the International Conference on Robotics and Automation, 2019: 3629-3635.
[8]ZHANG L Z, WU D M. A single target grasp detection network based on convolutional neural network[J]. Computational Intelligence and Neuroscience, 2021(5): 5512728.
[9]CHU F J, XU R N, VELA P A. Real-world multi-object, multi-grasp detection[J]. IEEE Robotics and Automation Letters, 2018, 3(4): 3355-3362.
[10]AINETTER S, FRAUNDORFER F. End-to-end trainable deep neural network for robotic grasp detection and semantic segmentation from RGB[C]∥Proc.of the IEEE International Conference on Robotics and Automation, 2021: 13452-13458.
[11]陳丹, 林清泉. 基于級(jí)聯(lián)式Faster RCNN的三維目標(biāo)最優(yōu)抓取方法研究[J]. 儀器儀表學(xué)報(bào), 2019, 40(4): 229-237.
CHEN D, LIN Q Q. Research on 3D object optimal grasping method based on cascaded Faster RCNN[J]. Chinese Journal of Scientific Instrument, 2019, 40(4): 229-237.
[12]REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J].Advances in Neural Information Processing Systems, 2015, 28: 91-99.
[13]孟月波, 黃琪, 韓九強(qiáng), 等. 基于兩階段的機(jī)器人動(dòng)態(tài)多物品定位抓取方法[J]. 激光與光電子學(xué)進(jìn)展, 2023, 60(6): 288-297.
MENG Y B, HUANG Q, HAN J Q, et al. Robot dynamic object positioning and grasping method based on two stages[J]. Laser amp; Optoelectronics Progress, 2023, 60(6): 288-297.
[14]安廣琳, 李宗剛, 杜亞江, 等. 基于深度學(xué)習(xí)的多工件抓取點(diǎn)定位方法[J]. 激光與光電子學(xué)進(jìn)展, 2023, 60(12): 311-321.
AN G L, LI Z G, DU Y J, et al. Research on multiple workpiece grasping point localization method based on deep learning[J]. Laser amp; Optoelectronics Progress, 2023, 60(12): 311-321.
[15]BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: optimal speed and accuracy of object detection[C]∥Proc.of the IEEE Conference on Computer Vision and Pattern Recognition, 2020.
[16]CHEN L C, ZHU Y K, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]∥Proc.of the European Conference on Computer Vision, 2018: 801-818.
[17]HE K M, ZHANG X Y, REN S R, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Trans.on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916.
[18]LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation[C]∥Proc.of the IEEE Conference on Computer Cision and Pattern Recognition, 2018: 8759-8768.
[19]LIN T Y, DOLLáR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]∥Proc.of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 2117-2125.
[20]HAN K, WANG Y H, TIAN Q, et al. Ghostnet: more features from cheap operations[C]∥Proc.of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 1580-1589.
[21]CHOLLET F. Xception: deep learning with depthwise separable convolutions[C]∥Proc.of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 1251-1258.
[22]YANG L X, ZHANG R Y, LI L D, et al. Simam: a simple, parameter-free attention module for convolutional neural networks[C]∥Proc.of the International Conference on Machine Learning, 2021: 11863-11874.
[23]LIU S T, HUANG D, WANG Y H. Learning spatial fusion for single-shot object detection[C]∥Proc.of the International Conference on Computer Vision and Pattern Recognition, 2019.
[24]YANG X, YAN J C, FENG Z M, et al. R3det: refined single-stage detector with feature refinement for rotating object[C]∥Proc.of the AAAI Conference on Artificial Intelligence, 2021, 35(4): 3163-3171.
[25]YANG X, YANG J R, YAN J C, et al. SCRDet: towards more robust detection for small, cluttered and rotated objects[C]∥Proc.of the IEEE/CVF International Conference on Computer Vision, 2019: 8232-8241.
[26]SELVARAJU R R, COGSWELL M, DAS A, et al. Grad-cam: visual explanations from deep networks via gradient-based localization[C]∥Proc.of the IEEE International Conference on Computer Vision, 2017: 618-626.
[27]HAN J M, DING J, LI J, et al. Align deep features for oriented object detection[J]. IEEE Trans.on Geoscience and Remote Sensing, 2021, 60: 1-11.
[28]YANG X, ZHANG G F, LI W T, et al. H2RBox: horizontal box annotation is all you need for oriented object detection[C]∥Proc.of the International Conference on Learning Representations, 2023.
[29]HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]∥Proc.of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 770-778.
[30]李明, 鹿朋, 朱龍, 等. 基于RGB-D融合的密集遮擋抓取檢測(cè)[J]. 控制與決策, 2023, 38(10): 2867-2874.
LI M, LU P, ZHU L, et al. Densely occluded grasping objects detection based on RGB-D fusion[J]. Control and Decision, 2023, 38(10): 2867-2874.
作者簡(jiǎn)介
孫先濤(1985—),男,副教授,博士,主要研究方向?yàn)闄C(jī)器視覺(jué)、欠驅(qū)動(dòng)機(jī)械手。
江汪洋(1998—),男,碩士研究生,主要研究方向?yàn)闄C(jī)器視覺(jué)、機(jī)器人抓取。
陳文杰(1964—),男,教授,博士,主要研究方向?yàn)闄C(jī)器視覺(jué)、助力外骨骼。
陳偉海(1955—),男,教授,博士,主要研究方向?yàn)闄C(jī)器人抓取、高精密運(yùn)動(dòng)機(jī)械設(shè)計(jì)與控制。
智亞麗(1987—),女,講師,博士,主要研究方向?yàn)殚g歇控制、人工智能。