摘? 要:基于RGBD的6D位姿估計(jì)方法的一個(gè)關(guān)鍵問(wèn)題是如何進(jìn)行彩色特征信息和深度特征信息的融合。先前的工作采用密集融合的方法,主要關(guān)注的是局部特征和全連接層提取的全局特征,忽略了遠(yuǎn)距離像素間的位置依賴關(guān)系。文章提出通過(guò)捕獲像素間的位置關(guān)系,并將其與彩色特征圖和幾何特征圖進(jìn)行密集融合,最后逐像素預(yù)測(cè)物體的6D位姿。實(shí)驗(yàn)結(jié)果表明,該文的方法相比其他方法在YCB-Video數(shù)據(jù)集上獲得更優(yōu)的結(jié)果。
關(guān)鍵詞:6D位姿估計(jì);弱紋理;RGB-D;密集融合
中圖分類號(hào):TP751? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2020)22-0016-04
6D Pose Estimation Method Based on Position Dependent Dense Fusion
HUANG Rongbin
(Guangdong University of Technology,Guangzhou? 510006,China)
Abstract:One of the key problems of the 6D pose estimation method based on RGBD is how to fuse the color feature information and depth feature information. Previous work used dense fusion method,mainly focused on local features and global features extracted from fully connected layer,ignoring the position dependence between remote pixels. The article proposes that by capturing the positional relationship between pixels and intensively fusing it with the color feature map and geometric feature map,the 6D pose of the object is predicted pixel by pixel. Experimental results show that the proposed method achieves better results than other methods on YCB-Video dataset.
Keywords:6D pose estimation;weak texture;RGB-D;dense fusion
0? 引? 言
物體的6D姿態(tài)估計(jì)可以廣泛應(yīng)用于機(jī)器人抓取、虛擬現(xiàn)實(shí)、自動(dòng)駕駛等領(lǐng)域。筆者實(shí)驗(yàn)室致力于研究機(jī)器人的工業(yè)應(yīng)用,為將物體6D位姿估計(jì)應(yīng)用到機(jī)器人抓取或者工業(yè)焊接領(lǐng)域,需進(jìn)一步提高6D位姿估計(jì)算法的精度和魯棒性。為此,筆者提出將一種新的RGBD融合方法,以提高6D位姿估計(jì)的精度。
目前6D位姿估計(jì)的主要方法大致可以分為基于RGB的方法和基于RGBD的方法?;赗GB的方法主要有:傳統(tǒng)方法[1,2]、基于關(guān)鍵點(diǎn)的方法[3]和直接回歸[4]的方法。其中,基于關(guān)鍵點(diǎn)的方法主要通過(guò)獲取圖像的關(guān)鍵點(diǎn),再利用PnP計(jì)算目標(biāo)物體位姿。直接回歸的方法是通過(guò)CNN直接回歸得到物體的位姿,由于缺乏深度信息,導(dǎo)致這類方法在使用時(shí)存在較大的困難[5]。
基于RGBD的主流方法有通過(guò)RGB獲取粗略的位姿,再利用深度信息細(xì)化位姿和通過(guò)融合RGB特征和深度特征獲取位姿。第一種方法實(shí)時(shí)性較低,第二種方法的典型代表是PointFusion[6]和DenseFusion[5]。PointFusion采用全局融合RGB特征和深度特征,進(jìn)而回歸得到物體的位姿。由于是基于全局特征回歸得到位姿,當(dāng)物體存在遮擋時(shí),被遮擋部分將直接影響識(shí)別精度。DenseFusion采用逐像素密集融合的方法,通過(guò)每個(gè)融合的像素特征分別回歸得到位姿,再通過(guò)投票得到置信度最高的位姿。然而DenseFusion主要關(guān)注的是局部特征和通過(guò)多全連接層獲取的全局特征,忽略了像素之間的位置關(guān)系。受Non-local[7]的啟發(fā),本文提出逐像素融合物體像素之間的位置關(guān)系,進(jìn)一步豐富每個(gè)像素特征的信息,以提高每個(gè)像素的識(shí)別精度。
1? 算法介紹
基于RGBD的6D位姿估計(jì)問(wèn)題是指給定目標(biāo)物體所在場(chǎng)景的彩色圖像和深度圖像,計(jì)算物體的旋轉(zhuǎn)矩陣R∈SO(3)和平移向量t∈3,為方便計(jì)算,通常統(tǒng)一為:
其中,T為齊次變換矩陣,SO(3)為特殊正交群,SE(3)為特殊歐式群。
1.1? 總體概述
受Non-local的啟發(fā),本文介紹了一種新的RGB數(shù)據(jù)和深度數(shù)據(jù)融合方法,主要應(yīng)用于物體的6D位姿估計(jì)。該方法是在DenseFusion的基礎(chǔ)上,通過(guò)自注意力機(jī)制獲取像素間的位置依賴,進(jìn)一步融合像素之間的位置依賴,以豐富每個(gè)像素的特征信息,提高位姿估計(jì)的精度。本文提出的方法的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,主要包含三個(gè)步驟,語(yǔ)義分割、位置依賴特征提取與逐像素融合,最后通過(guò)改進(jìn)的位姿細(xì)化網(wǎng)絡(luò)優(yōu)化得到的位姿。
1.2? 語(yǔ)義分割
第一步,采用語(yǔ)義分割網(wǎng)絡(luò)獲取彩色圖像中目標(biāo)對(duì)象的掩摸,然后利用掩摸從彩色圖像和深度數(shù)據(jù)中獲取只包含目標(biāo)對(duì)象的圖像塊和目標(biāo)對(duì)象的深度數(shù)據(jù),并將深度數(shù)據(jù)轉(zhuǎn)換為點(diǎn)云數(shù)據(jù)。在此為了更好的與已有的工作進(jìn)行對(duì)比,采用了PoseCNN[8]的語(yǔ)義分割結(jié)果。
1.3? 位置依賴特征提取與逐像素融合
第二步,從目標(biāo)對(duì)象的圖像塊和點(diǎn)云數(shù)據(jù)中分別提取彩色嵌入特征、幾何嵌入特征和位置依賴特征。在此,采用了DenseFusion中的Encoder-Decoder結(jié)構(gòu)的卷積神經(jīng)網(wǎng)路從圖像塊中提取彩色嵌入特征,采用PointNet[9]從點(diǎn)云數(shù)據(jù)中提取幾何嵌入特征?;贜on-local網(wǎng)絡(luò)提取位置依賴特征。
DenseFusion采用全連接層獲取全局特征。全連接層可定義為:
其中,i為輸入的位置索引,j為輸出的索引,x為輸入信號(hào),w為權(quán)重,f為激活函數(shù),y為輸出信號(hào)。
全連接層的輸出僅考慮每個(gè)位置的響應(yīng)對(duì)于輸出的影響,而忽略了每個(gè)位置之間的依賴關(guān)系對(duì)于輸出的影響。受Non-local的啟發(fā),本文提出進(jìn)行逐像素融合時(shí),考慮像素間的依賴關(guān)系,將像素間的依賴關(guān)系作為位置依賴特征與彩色嵌入特征和幾何嵌入特征進(jìn)行融合。位置依賴特征的定義為:
其中,g為計(jì)算i,j兩個(gè)位置間的依賴關(guān)系的函數(shù),C為歸一化因子。若函數(shù)g采用嵌入空間下的高斯函數(shù)或者點(diǎn)積相似函數(shù),那么可以采用矩陣乘法進(jìn)行替代計(jì)算[7]。在此選用嵌入空間下的高斯函數(shù)[7]:
因此,將式(3)轉(zhuǎn)成矩陣相乘,轉(zhuǎn)換成了圖1中位置依賴特征的提取模塊。通過(guò)該模塊獲取位置依賴特征圖,將彩色嵌入特征圖、幾何嵌入特征圖、位置依賴特征圖進(jìn)行逐像素融合。最后將融合的結(jié)果輸入位姿預(yù)測(cè)器中回歸得到每個(gè)像素的預(yù)測(cè)結(jié)果和對(duì)應(yīng)的置信度,將置信度最高的位姿作為最終的預(yù)測(cè)結(jié)果。
1.4? 位姿細(xì)化改進(jìn)模塊
由于采用ICP算法細(xì)化位姿的實(shí)時(shí)性較差,DenseFusion[5]提出了一個(gè)細(xì)化迭代網(wǎng)絡(luò),主要思想是采用預(yù)測(cè)的初始位姿渲染模型獲取點(diǎn)云數(shù)據(jù),并將其輸入PointNet[9]中獲取幾何嵌入特征,將得到的幾何嵌入特征和彩色嵌入特征圖融合獲取全局特征,并用于預(yù)測(cè)位姿殘差,生成新的位姿,再進(jìn)行下一次迭代。該網(wǎng)絡(luò)也沒(méi)有考慮像素間的位置關(guān)系。因此,本文提出通過(guò)提取像素間位置關(guān)系,與全局特征圖進(jìn)行融合,進(jìn)一步豐富特征信息,以提高精度。改進(jìn)后的位姿細(xì)化網(wǎng)絡(luò)結(jié)構(gòu)圖如圖2所示。
1.5? 損失函數(shù)
損失函數(shù)采用ADD和ADD-S[8]。ADD是指計(jì)算真實(shí)位姿下的對(duì)象模型上的采樣點(diǎn)與預(yù)測(cè)位姿下的對(duì)象模型上的對(duì)應(yīng)點(diǎn)的距離。給定真實(shí)的旋轉(zhuǎn)矩陣R和平移向量t以及預(yù)測(cè)的旋轉(zhuǎn)矩陣? 和平移向量? 的情況下,損失函數(shù)Lu定義為:
其中,Lu為第u個(gè)像素預(yù)測(cè)的位姿的損失值,M為從三維點(diǎn)云模型任意選擇的點(diǎn)的數(shù)量,xv為M個(gè)點(diǎn)中的第v個(gè)點(diǎn)。
ADD對(duì)于非對(duì)稱性物體表現(xiàn)良好,ADD-S則是針對(duì)對(duì)稱物體,具體是指計(jì)算估計(jì)位姿下的對(duì)象模型的采樣點(diǎn)與真實(shí)位姿下的對(duì)象模型上最近點(diǎn)的距離,定義為:
其中,k為真實(shí)位姿下的對(duì)象模型上點(diǎn)的索引。
本文采用每個(gè)像素均預(yù)測(cè)一個(gè)位姿和置信度的方法,為使得網(wǎng)絡(luò)學(xué)習(xí)平衡每個(gè)像素的誤差和置信度,將整體的誤差定義為[5]:
其中,N為特征圖像素特征的數(shù)量,ω為平衡超參數(shù),cu為第u個(gè)像素預(yù)測(cè)的位姿對(duì)應(yīng)的置信度。
2? 實(shí)驗(yàn)結(jié)果
本文采用YCB-Video數(shù)據(jù)集[8]評(píng)估本文提出的方法,并和其他方法進(jìn)行對(duì)比。評(píng)價(jià)指標(biāo)采用Yu Xiang等人[8]提出的ADD和ADD-S。
表1展示了本文提出的方法與其他方法的對(duì)比,可以看出進(jìn)行位姿細(xì)化的結(jié)果比其他方法更優(yōu),整體的平均AUC提升了1%,其中picher_base和wood_block兩個(gè)類別均提升了4%,extra_large_clamp更是提高了19%。當(dāng)然,也存在部分物體的精度下降了,其中scissors下降了17%,目前的判斷是因?yàn)樵撐矬w較小,當(dāng)使用圖像塊預(yù)測(cè)位姿時(shí),物體所占的像素比例較小,導(dǎo)致像素之間的位置關(guān)系引進(jìn)了更多的噪聲,進(jìn)而導(dǎo)致識(shí)別精度較低,本文提出的方法對(duì)于體積較大的物體精度較高。但整體而言,如圖3所示,本文提出的方法在YCB-Video數(shù)據(jù)集上表現(xiàn)優(yōu)于目前的主流方法。
3? 結(jié)? 論
本文提出了一種基于位置依賴的逐像素融合的6D位姿估計(jì)網(wǎng)絡(luò)。在我們的方法中,通過(guò)提取像素間的位置依賴關(guān)系獲取位置依賴特征圖,將位置依賴特征圖逐像素融合進(jìn)位姿估計(jì)網(wǎng)絡(luò)中和位姿細(xì)化網(wǎng)絡(luò)中,以豐富每個(gè)像素的特征信息。在YCB-Video數(shù)據(jù)集中的實(shí)驗(yàn)表明,與DenseFusion相比,我們的方法的性能得到了提升。
參考文獻(xiàn):
[1] LUCA V,VINCENT L,PASCAL F. Stable real-time 3D tracking using online and offline information [J].IEEE transactions on pattern analysis and machine intelligence,2004,26(10):1385-1391.
[2] LOWE D G. Object recognition from local scale-invariant features [C]//Proceedings of the Seventh IEEE International Conference on Computer Vision.Kerkyra:IEEE,1999:1150-1157.
[3] PENG S D,LIU Y,HUANG Q X,et al. PVNet:Pixel-wise Voting Network for 6DoF Object Pose Estimation [C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Long Beach:IEEE,2019:4556-4565.
[4] KEHL W,MANHARDT F,TOMBARI F,et al. SSD-6D:Making RGB-Based 3D Detection and 6D Pose Estimation Great Again [C]//2017 IEEE International Conference on Computer Vision (ICCV).Venice:IEEE,2017:1530-1538.
[5] WANG C,XU D F,ZHU Y K,et al. DenseFusion:6D Object Pose Estimation by Iterative Dense Fusion [C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Long Beach:IEEE,2019:3338-3347.
[6] XU D F,ANGUELOV D,JAIN A. PointFusion:Deep Sensor Fusion for 3D Bounding Box Estimation [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:244-253.
[7] WANG X L,GIRSHICK R,GUPTA A,et al. Non-local Neural Networks [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:7794-7803.
[8] XIANG Y,SCHMIDT T,NARAYANAN V,et al. PoseCNN:A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes [J/OL].arXiv:1711.00199 [cs.CV].(2017-11-01).https://arxiv.org/abs/1711.00199.
[9] QI C R,SU H,MO K C,et al. PointNet:Deep Learning on Point Sets for 3D Classification and Segmentation [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Honolulu:IEEE,2017:77-85.
作者簡(jiǎn)介:黃榕彬(1995—),男,漢族,廣東揭陽(yáng)人,碩士研究生在讀,研究方向:6D位姿估計(jì)。