張?jiān)普?張劍 江天樂(lè)
1.同濟(jì)大學(xué)機(jī)械與能源工程學(xué)院;2.浙江巨化聯(lián)州制冷科技有限公司
基于建立2D-3D坐標(biāo)密集對(duì)應(yīng)的兩階段方法是對(duì)目標(biāo)物體進(jìn)行6D位姿檢測(cè)的一類(lèi)解決方案。本文在前人的基礎(chǔ)上改進(jìn),提出了ZC-Pose,一種基于分區(qū)編碼坐標(biāo)的目標(biāo)物體6D位姿檢測(cè)網(wǎng)絡(luò)框架,其僅使用RGB數(shù)據(jù)和模型信息對(duì)目標(biāo)位姿進(jìn)行預(yù)測(cè)。本文在Linemod數(shù)據(jù)集上測(cè)試其表現(xiàn),相較于該領(lǐng)域的一項(xiàng)經(jīng)典工作——CDPN中的旋轉(zhuǎn)分支部分有了可觀的提升,并且與其他相關(guān)工作進(jìn)行比較,也表現(xiàn)出了具有競(jìng)爭(zhēng)力的結(jié)果。
如何檢測(cè)目標(biāo)物體的6D位姿是計(jì)算機(jī)視覺(jué)領(lǐng)域廣受關(guān)注的熱點(diǎn)問(wèn)題之一,在機(jī)器人抓取[1]、增強(qiáng)現(xiàn)實(shí)[2,3]和自動(dòng)駕駛[4-6]等方面都有著重要意義。此問(wèn)題的傳統(tǒng)解決方案包含基于特征描述子[7-9]和模板匹配[10,11]的一些方法。有賴(lài)于深度學(xué)習(xí)技術(shù)的深入發(fā)展,近年來(lái)關(guān)于目標(biāo)物體位姿估計(jì)的很多研究使用相機(jī)拍攝得到的RGB或RGB-D數(shù)據(jù),在普通環(huán)境和帶遮擋的環(huán)境下都表現(xiàn)出了令人印象深刻的準(zhǔn)確性和效率。
一般來(lái)說(shuō),基于深度學(xué)習(xí)的目標(biāo)位姿估計(jì)可以分為間接法和直接法。間接法主要通過(guò)各種特征圖——例如,建立圖像像素坐標(biāo)系上2D點(diǎn)與已知的目標(biāo)模型上3D點(diǎn)坐標(biāo)之間的對(duì)應(yīng)關(guān)系,然后通過(guò)透視n點(diǎn)投影(PnP)算法或其衍生算法[12]得出目標(biāo)物體坐標(biāo)系與相機(jī)坐標(biāo)系之間的轉(zhuǎn)換矩陣,而直接法則直接回歸出旋轉(zhuǎn)和平移參數(shù)等信息來(lái)進(jìn)行預(yù)測(cè)[13]。
基于坐標(biāo)的分離位姿網(wǎng)絡(luò)[14](CDPN)的結(jié)構(gòu)分為旋轉(zhuǎn)和平移兩個(gè)分支,將旋轉(zhuǎn)分支輸出的坐標(biāo)特征圖用PnP/RANSAC算法計(jì)算得出旋轉(zhuǎn)矩陣,而平移分支直接回歸得出平移向量,充分利用了兩種姿態(tài)估計(jì)方式的優(yōu)勢(shì),在多個(gè)常用數(shù)據(jù)集上得出了優(yōu)異的結(jié)果。其主要缺陷是網(wǎng)絡(luò)結(jié)構(gòu)較為臃腫;訓(xùn)練方法也分為僅旋轉(zhuǎn)、僅平移和旋轉(zhuǎn)平移融合的三步方式來(lái)進(jìn)行訓(xùn)練,導(dǎo)致訓(xùn)練消耗的時(shí)間過(guò)多。
我們旨在開(kāi)發(fā)一個(gè)具有堪比CDPN的準(zhǔn)確性,且具有更簡(jiǎn)練結(jié)構(gòu)和訓(xùn)練過(guò)程的、僅使用RGB數(shù)據(jù)的網(wǎng)絡(luò)。我們?cè)诒疚闹刑岢隽薢C-Pose,一種在CDPN之上改進(jìn)的基于2D-3D密集對(duì)應(yīng)和PnP/RANSAC算法的兩階段的目標(biāo)位姿檢測(cè)算法。
在下文中,我們首先在第一節(jié)中回顧C(jī)DPN方法中如何通過(guò)網(wǎng)絡(luò)預(yù)測(cè)與像素二維坐標(biāo)對(duì)應(yīng)的目標(biāo)物體三維坐標(biāo),討論掩膜圖(Mask)預(yù)測(cè)相較于目標(biāo)的坐標(biāo)特征圖對(duì)于網(wǎng)絡(luò)誤差的魯棒性高低;隨之在第二節(jié)中引出我們提出的分區(qū)編碼坐標(biāo)的概念;在第三節(jié)中討論如何設(shè)計(jì)基于這一概念的網(wǎng)絡(luò)框架。
CDPN中網(wǎng)絡(luò)的輸出層包括64×64×3的目標(biāo)物體坐標(biāo)值特征圖與64×64×1的掩膜圖像。CDPN采用了大多數(shù)網(wǎng)絡(luò)偏好零對(duì)稱(chēng)輸出的觀點(diǎn),將網(wǎng)絡(luò)所需要預(yù)測(cè)的特征圖中的目標(biāo)物體坐標(biāo)值轉(zhuǎn)化到[-1,1]的區(qū)間,如式(1)所示:
其中i∈{1,2,3},分別表示x,y和z三個(gè)維度,C代表目標(biāo)物體的坐標(biāo)值,max為單個(gè)維度上的最大值,默認(rèn)目標(biāo)物體坐標(biāo)系的原點(diǎn)位于三維包圍盒的中心,所以有Ci∈[-maxi, maxi]。而用于訓(xùn)練的掩膜圖像的取值為{0,1},以1標(biāo)示目標(biāo)物體所在的像素點(diǎn),其余為背景。
圖3 ZC-Pose網(wǎng)絡(luò)框架示意圖Fig.3 ZC-Pose network framework diagram
其中M*和分別表示訓(xùn)練用的真實(shí)數(shù)據(jù)與網(wǎng)絡(luò)預(yù)測(cè)的特征圖,°表示哈達(dá)瑪積,Mcoor表示編碼坐標(biāo)特征圖,Mconf表示辨別物體與背景的掩膜圖像,Mzone表示用于區(qū)分物體區(qū)塊的掩膜圖像。
(1)應(yīng)用細(xì)節(jié):我們的網(wǎng)絡(luò)使用Ranger優(yōu)化器,在一塊RTX 3060顯卡上進(jìn)行訓(xùn)練,CPU配置為i5 8400H。我們使用的訓(xùn)練批量大小為16,基礎(chǔ)學(xué)習(xí)率為1e-4,損失LZC的參數(shù)的α為1,β,γ均為0.6。
(2)數(shù)據(jù)集:我們?cè)谝粋€(gè)用于目標(biāo)6D位姿檢測(cè)的標(biāo)準(zhǔn)數(shù)據(jù)集中進(jìn)行實(shí)驗(yàn):Linemod(LM)[15]。LM數(shù)據(jù)集包含13個(gè)目標(biāo)物體,每個(gè)目標(biāo)物體都有大約1.2k張包含光線變化、無(wú)紋理特征和遮擋等各類(lèi)復(fù)雜情況的RGB圖像及其準(zhǔn)確姿態(tài)。我們選擇其中占總數(shù)大約15%的圖像,加上每個(gè)目標(biāo)1k張用OpenGL合成出的圖像作為訓(xùn)練數(shù)據(jù),再把剩余85%的圖像用于測(cè)試[16]。
(3)評(píng)估指標(biāo):我們采用最常用的一些指標(biāo)將我們的方法與CDPN和其他方法的表現(xiàn)進(jìn)行比較。ADD(-S)[15]測(cè)量與真實(shí)值之間偏差低于物體外接球的直徑10%的變換模型點(diǎn)的百分比。對(duì)于對(duì)稱(chēng)對(duì)象,ADD(-S)測(cè)量到最接近的模型點(diǎn)的偏差。此外,n°n cm用于表達(dá)旋轉(zhuǎn)誤差小于n度且平移誤差小于n cm的預(yù)測(cè)6D姿態(tài)占總數(shù)的百分比。2D投影誤差(Proj-2D)所用的是將模型點(diǎn)投影到圖像坐標(biāo)系形成的像素度量上的誤差,以相差5個(gè)像素以?xún)?nèi)的比例作為指標(biāo)。
如表1所示,我們的工作對(duì)比僅用CDPN旋轉(zhuǎn)分支的結(jié)果,在5°5cm上提升了0.05%,在ADD上提升12.71%,在Proj-2D上稍降0.38%;對(duì)比CDPN的全網(wǎng)絡(luò)結(jié)構(gòu),雖然性能稍有下降,但訓(xùn)練時(shí)間大約減少了一半,儲(chǔ)存參數(shù)所需大小由432.8MB下降到了103.72MB。如表2所示,與一些經(jīng)典工作相比,ZC-Pose的預(yù)測(cè)性能很有競(jìng)爭(zhēng)力。
表1 ZC-Pose與CDPN性能的比較Tab.1 Performance comparison between ZC-Pose and CDPN
表2 ZC-Pose與其他工作的對(duì)比Tab.2 Comparison between ZC-Pose and other works
本文在CDPN網(wǎng)絡(luò)框架的基礎(chǔ)上設(shè)計(jì)出僅使用RGB圖像數(shù)據(jù)的、基于分區(qū)編碼坐標(biāo)的目標(biāo)物體6D位姿估計(jì)網(wǎng)絡(luò),經(jīng)過(guò)測(cè)試得知其相對(duì)于CDPN有切實(shí)的改進(jìn),并且相對(duì)于其他相關(guān)工作也擁有較高的性能。
引用
[1]Alvaro Collet,Manuel Martinez,Siddhartha S Srinivasa.The MOPED Framework:Object Recognition and Pose Estimation for Manipulation[J].The International Journal of Robotics Research,2011,30(10):1284-1306.
[2]AZAD P,ASFOUR T,DILLMANN R.Stereo-based 6D Object Localization for Grasping with Humanoid Robot Systems[C]//Intelligent Robots and Systems.IEEE,2007.
[3]Eric Marchand,Hideaki Uchiyama,Fabien Spindler.Pose Estimation for Augmented Reality:a Hands-on Survey[J].IEEE Transactions on Visualization and Computer Graphics(TVCG),2015,22(12):2633-2651.
[4]Tan David Joseph,Tombari Federico,Navab Nassir.Real-Time Accurate 3D Head Tracking and Pose Estimation with Consumer RGB-D Cameras[J].International Journal of Computer Vision,2018,126(2-4):158-183.
[5]Fabian Manhardt,Wadim Kehl,Adrien Gaidon.ROI10D:Monocular lifting of 2d detection to 6d pose and metric shape[C]//IEEE Conference on Computer Vision and Pattern Recognition,2019:2069-2078.
[6]CHABOT F,CHAOUCH M,RABARISOA J C.Teuliere and T.Chateau, Accurate 3D car pose estimation[C]//IEEE International Conference on Computer Vision(ICCV),2016:3807-3811.
[7]LOWE D G.Distinctive Image Features from Scale-Invariant Keypoints[J].International Journal of Computer Vision,2004,60(2):91-110.
[8]BAY H,TUYTELAARS T,GOOL L V.SURF:Speeded Up Robust Features[C]//European Conference on Computer Vision.Springer-Verlag,2006:404-417.
[9]RUBLEE E,RABAUD V,KONOLIGE K,et al.ORB:An efficient alternative to SIFT or SURF[C]//International Conference on Computer Vision.IEEE,2012:2564-2571.
[10]HUTTENLOCHER D P,KLANDERMAN G A,RUCKLIDGE W J.Compaing images using the Hausdorff distance[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1993,15(9);850-863.
[11]HINTERSTOISSER S,LEPETIT V,ILIC S,et al.Dominant orientation templates for Real-Time detection of Texture-Less objects[C]//Computer Vision and Pattern Recognition,2010:2257-2264.
[12]Lepetit Vincent,Moreno-Noguer Francesc,Fua Pascal.EPnP:An Accurate O(n) Solution to the PnP Problem[J].International Journal of Computer Vision,2009,81(2):155-166.
[13]Gu Wang,Fabian Manhardt,Federico Tombari,et al.GDR-Net:Geometry-Guided Direct Regression Network for Monocular 6D Object Pose Estimation[C]//IEEE Conference on Computer Vision and Pattern Recognition,2021.
[14]LI Z G,WANG G,JI X Y.CDPN:Coordinates-Based Disentangled Pose Network for RealTime RGB-Based 6-DoF Object Pose Estimation[C]//IEEE International Conference on Computer Vision,2019:7677-7686.
[15]Tomas Hodan,Martin Sundermeyer,Bertram Drost,et al.BOP Challenge 2020 on 6D Object Localization[C]//European Conference on Computer Vision Workshops(ECCVW),2020:577-594.
[16]Eric Brachmann,Frank Michel,Alexander Krull,et al.Uncertaintydriven 6D Pose Estimation of Objects and Scenes from a Single RGB Image[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2016:3364-3372.
[17]RAD M,LEPETIT V.BB8:A Scalable,Accurate,Robust to Partial Occlusion Method for Predicting the 3D Poses of Challenging Objects without Using Depth[C]//IEEE International Conference on Computer Vision,2017:3706-4442.
[18]Bugra Tekin,Sudipta N Sinha,Pascal Fua.Real-Time Seamless Single Shot 6D Object Pose Prediction[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2018:292-301.
[19]Yu Xiang,Tanner Schmidt,Venkatraman Narayanan,et al.PoseCNN:A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes[C]//14th Conference on Robotics-Science and Systems,2018.
[20]SUNDERMEYER M,MARTON Z C,DURNER M,et al.Implicit 3D Orientation Learning for 6D Object Detection from RGB Images[C]//European conference on computer vision,2018:712-729.