王太勇 ,于恩霖
(1.天津大學(xué)機械工程學(xué)院,天津 300350;2.天津仁愛學(xué)院,天津 301636)
6D 姿態(tài)估計是許多工業(yè)應(yīng)用的重要組成部分,如Rad 等[1]在增強現(xiàn)實領(lǐng)域估計物體6D 姿態(tài),可以在物體上疊加虛擬形象,進行輔助渲染.Xu 等[2]在自動駕駛領(lǐng)域預(yù)測汽車位姿,輔助車輛進行避障和行進.He 等[3]在機器人抓取領(lǐng)域預(yù)測零件位姿,進而獲取抓取器和目標物體的抓取姿態(tài).由于傳感器的噪聲、變化的燈光和物體之間的遮擋,正確地識別物體位姿成為一個具有挑戰(zhàn)性的任務(wù).傳統(tǒng)方法如Hinterstoisser 等[4]提出通過不同距離的策略匹配輸入圖片和3D 模型,但是當(dāng)場景混疊或者物體表面發(fā)生形變時,傳統(tǒng)方法性能會大幅下降,導(dǎo)致傳統(tǒng)方法的應(yīng)用場景受限,對應(yīng)用環(huán)境要求很高.最近,深度學(xué)習(xí)方法在這個問題上取得了很好的效果,Park 等[5]、Shao等[6]直接從RGB 圖像輸出位姿參數(shù),但Calli 等[7]指出旋轉(zhuǎn)空間的非線性使得網(wǎng)絡(luò)難以學(xué)習(xí)和推廣.
由于近些年廉價RGB-D 相機的出現(xiàn),提供了額外的深度信息來解決這些問題.Michel 等[8]利用級聯(lián)設(shè)計,首先從RGB 圖像中估計出初始姿態(tài),然后使用迭代最近點(iterative closest point,ICP)算法在點云上對其進行優(yōu)化.Qi 等[9]、Duan 等[10]分別從裁剪后的RGB 圖像和點云中應(yīng)用點云網(wǎng)絡(luò)(point cloud network,PCN)和CNN 提取密集特征,然后將提取的密集特征串聯(lián)起來進行姿態(tài)估計.最近,Wang 等[11]提出了一種更好的融合策略DenseFusion,用密集的融合模塊取代了單純的串聯(lián)操作.這種網(wǎng)絡(luò)結(jié)構(gòu)通過迭代使用優(yōu)化模塊來細化姿態(tài),解決了旋轉(zhuǎn)空間非線性的問題,但計算過程復(fù)雜,時間效率不高.
密集對應(yīng)方法如Hodan 等[12]、Cai 等[13]找到了圖像像素和網(wǎng)格頂點之間的對應(yīng)關(guān)系,并使用Perspective-nPoint(PnP)方法計算位姿參數(shù).雖然對遮擋現(xiàn)象有較強的魯棒性,但廣闊的輸出空間限制了預(yù)測的準確性.之后,Peng 等[14]、Liu 等[15]設(shè)計基于二維關(guān)鍵點的方法,檢測物體的二維關(guān)鍵點,并將檢測到的二維關(guān)鍵點與物體的三維關(guān)鍵點配準來估計姿態(tài).但在三維空間中,不同的關(guān)鍵點在對二維平面映射后可能會重疊,導(dǎo)致難以區(qū)分.這種稠密的二維到三維的對應(yīng)關(guān)系使得這些方法對遮擋的場景具有魯棒性,但二維點本身可能對應(yīng)一系列三維坐標,這會導(dǎo)致匹配錯誤的情況.PVNet[14]使用二維關(guān)鍵點的逐像素投票來結(jié)合稠密方法和基于關(guān)鍵點的方法的優(yōu)點,本文進一步將這種方法擴展到具有額外深度信息的三維關(guān)鍵點,并充分利用剛性物體的幾何約束.由于物體點云的每個坐標都進行稠密投票三維關(guān)鍵點,所以缺失部分點云對最終結(jié)果準確性的影響會下降,遮擋造成的識別錯誤也會減少.二維算法還會在一些特殊場景下表現(xiàn)不佳,如低亮度、低對比度等場景,并且依賴于物體表面紋理的二維算法在識別無紋理對象時也會出現(xiàn)問題.
近年來有越來越多的RGB-D 數(shù)據(jù)集可用.額外的深度信息使得二維算法可以擴展到三維空間,并具有較好的性能,如 PointFusion[2]和 Frustum Point-Nets[9].為此,本文將基于二維關(guān)鍵點的方法擴展到三維關(guān)鍵點,以充分利用剛性物體的幾何約束信息,大大提高六自由度位姿估計的準確性和魯棒性.
PVN3D[3]從RGB 圖像和點云中提取特征,單獨使用CNN 和點云網(wǎng)絡(luò),然后融合多種特征進行位姿估計.這樣的方法更加有效和高效.在本文中采用這種思路作為參考,分別提取外觀特征和幾何特征,然后將其融合點云實例分割等信息來預(yù)測物體的三維關(guān)鍵點.本文設(shè)計了一種基于三維關(guān)鍵點投票的網(wǎng)絡(luò),改進圖像特征提取網(wǎng)絡(luò),加入殘差模塊和逆瓶頸層,增強提取圖像特征,并利用分組卷積節(jié)省計算量.在點云數(shù)據(jù)中利用RIPoint(residuals inverted point)網(wǎng)絡(luò)提取特征,引入自注意力機制增強點云學(xué)習(xí)能力,然后對RGB-D 數(shù)據(jù)進行特征融合,提高模型的準確性和魯棒性,實現(xiàn)更加高效的六自由度位姿估計.
本文的任務(wù)是在給定一幅 RGB-D 圖像的情況下,估計將物體從其物體坐標系轉(zhuǎn)換到相機世界坐標系的六自由度位姿.筆者將這種六自由度位姿表示為3D 旋轉(zhuǎn)矩陣R∈SO ( 3)和平移向量t∈R3.
在當(dāng)前的實際應(yīng)用場景中,盡管六自由度位姿估計方法已經(jīng)取得巨大成果,但仍舊存在物體遮擋、光線不足、低紋理特征、視角魯棒性等挑戰(zhàn).以往的方法PVnet[8]、PVN3D[3]等已經(jīng)驗證了關(guān)鍵點方法的實用性和有效性,但對于一些具有挑戰(zhàn)的情況效果并不理想.為了融合RGB-D 數(shù)據(jù)特征,使網(wǎng)絡(luò)在各種情況下都具有一定的魯棒性,能夠生成更好的結(jié)果,本文采用一種新型特征提取模塊,提取幾何特征和圖像特征進行融合,預(yù)測不同實例中的三維關(guān)鍵點.最后,對預(yù)測的關(guān)鍵點采用最小二乘擬合算法來估計位姿參數(shù).
本文所設(shè)計的兩階段網(wǎng)絡(luò)整體架構(gòu)如圖1 所示,包括三維關(guān)鍵點位置預(yù)測部分和位姿參數(shù)擬合部分.其中第1 階段中,特征提取模塊從RGB-D 圖像中提取每個點的特征.在提取點云特征時,之前的網(wǎng)絡(luò)結(jié)構(gòu)只考慮點云之間的距離特征,忽略了點與點之間的關(guān)系.本文采用RIPoint 網(wǎng)絡(luò)提取幾何特征,將點之間的關(guān)系融入到點云處理中,并且與傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)不同,本文引入自注意力機制與分離卷積結(jié)構(gòu),能夠有效地提升模型效果,減少計算量.
圖1 物體位姿估計網(wǎng)絡(luò)整體架構(gòu)Fig.1 Overview of the object pose estimation network
提取后的特征被送入Mkey、Mcenter和Mseg模塊,分別預(yù)測關(guān)鍵點的位移偏移量、中心點和每個點的語義標簽.然后應(yīng)用聚類算法為同一實例上的點對其目標關(guān)鍵點的投票.第2 階段中,采用最小二乘法來估計六自由度位姿參數(shù).
本文將點云各種維度特征一起考慮在內(nèi),并融合了用于增強點云特征的自注意力機制模塊.通過這種方式提取的點云特征更易于網(wǎng)絡(luò)回歸計算,位姿估計性能也更強大.為了充分評價本文的方法,本文在YCB-Video 數(shù)據(jù)集、LineMOD 數(shù)據(jù)集兩個最常見的基準數(shù)據(jù)集上進行了實驗.實驗結(jié)果表明,該方法不需要任何耗時的細化過程,其性能明顯優(yōu)于其他的算法.
1.2.1 圖像特征提取
圖像特征提取模塊輸入RGB 圖像,通過提取每個像素位置的三通道顏色信息,計算圖像特征,以便在后續(xù)特征融合部分能夠形成更加準確的融合特征.雖然近年視覺Transformers(ViTs)取代各類CNN網(wǎng)絡(luò)成為最先進的圖像分類模型,但ViTs 網(wǎng)絡(luò)過于龐大,訓(xùn)練過程繁瑣,超參數(shù)調(diào)參困難[16].并且部分學(xué)者發(fā)現(xiàn)ViTs 的優(yōu)越性一部分來自于其網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)勢,所以將ResNet 系列網(wǎng)絡(luò)進行網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化,能夠在不大幅增大網(wǎng)絡(luò)復(fù)雜程度的情況下提高圖像特征提取能力,執(zhí)行更加復(fù)雜的視覺任務(wù).本網(wǎng)絡(luò)基于ViTs 結(jié)構(gòu),進行了三方面的改進:優(yōu)化各階段網(wǎng)絡(luò)塊比例,設(shè)計逆瓶頸層,分組卷積.
VGG 網(wǎng)絡(luò)提出將若干網(wǎng)絡(luò)塊通過池化操作降采樣到不同維度的結(jié)構(gòu),各階段網(wǎng)絡(luò)塊的網(wǎng)絡(luò)層數(shù)量基本相同,但在ResNet 中當(dāng)深層的網(wǎng)絡(luò)塊層數(shù)增加時,模型性能更強.在ViTs 中,大模型的每個骨干網(wǎng)絡(luò)分為4 個階段,網(wǎng)絡(luò)塊比例是1∶1∶3∶1.本網(wǎng)絡(luò)的改進就是將ResNet 的每個階段的網(wǎng)絡(luò)塊的層數(shù)由(3,4,6,3)改為(3,3,9,3).
在殘差網(wǎng)絡(luò)中,為了減少網(wǎng)絡(luò)計算量,網(wǎng)絡(luò)塊是中間層數(shù)少、兩邊層數(shù)多的瓶頸層結(jié)構(gòu),而ViTs 本質(zhì)是一個逆瓶頸層結(jié)構(gòu),這種網(wǎng)絡(luò)結(jié)構(gòu)能夠使特征在不同維度特征空間之間傳遞時避免壓縮維度帶來的信息丟失,使得特征提取更加有效[17].同時,本網(wǎng)絡(luò)為了適當(dāng)減少計算量,采用了分組卷積的方式,將3×3卷積以通道為單位進行運算,然后通過1×1 卷積進行通道融合,這種計算方式能夠在保留提取特征的情況下,提升模型的計算速度.圖像特征提取模塊將H×W×3 的圖像信息提取為H×W×drgb特征向量,每個像素位置的三通道信息轉(zhuǎn)化為drgb維度的特征.
1.2.2 點云特征提取
原有的點云特征提取網(wǎng)絡(luò)照搬PointNet++[18]點云特征提取網(wǎng)絡(luò),融合了全局和局部特征,相比于PointNet[19]效果更好.通過最遠點采樣(farthest point sampling,F(xiàn)PS)算法,先構(gòu)造局部點集,再通過PointNet 抽象出局部特征,利用上采樣和下采樣的網(wǎng)絡(luò)結(jié)構(gòu)融合多層次特征.但是PointNet++在每層網(wǎng)絡(luò)中使用了降采樣操作,僅保留選定點,這難免會導(dǎo)致數(shù)據(jù)的丟失和粗糙化,點與點之間的關(guān)系圖每經(jīng)過一層網(wǎng)絡(luò)都會逐漸減小.同時,PointNet++使用輸入數(shù)據(jù)的歐式距離來計算點對關(guān)系,導(dǎo)致點與點之間的關(guān)系圖在網(wǎng)絡(luò)整體上是不變的,對于不同物體的點云適應(yīng)性會變差.
為了讓網(wǎng)絡(luò)能夠更加有效地提取點云中的幾何特征,融合局部特征和全局特征,本文設(shè)計了RIPoint網(wǎng)絡(luò),能夠非常好地提取點云局部形狀的特征,同時還能夠保持排列不變性.
本文使用的具體網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示.紅色部分為更新的內(nèi)容.感受野和模型結(jié)構(gòu)與參數(shù)的優(yōu)化有助于模型整體性能提升,于是本網(wǎng)絡(luò)設(shè)計了一種新型的residual inverted MLP(RI-MLP)模塊,該模塊的效果與PointNet++中的多層MLP 網(wǎng)絡(luò)類似,但特征提取的高效性更加明顯.具體而言,為了提升感受野,本網(wǎng)絡(luò)將逆瓶頸層的設(shè)立理念引入點云學(xué)習(xí)網(wǎng)絡(luò),RI-MLP 模塊中的第2 層MLP 的通道擴展了3倍,增加特征提取過程中間部分的特征維度,這種操作能夠更大程度地保留特征提取的有效性并提高特征提取的能力.整體網(wǎng)絡(luò)還增加了一開始的MLP層,讓點云信息映射到了一個更高維的空間,拓寬了特征維度.
圖2 RIPoint點云特征提取網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Structure of RIPoint point cloud feature extraction network
為了更加充分地提取點云幾何特征,提高位姿參數(shù)估計精度,本網(wǎng)絡(luò)RI-MLP 模塊中利用自注意力機制對提取出的點云特征進行進一步細化,對點 xi的第k 個近鄰點,分別計算指定點與其近鄰點的相關(guān)性,然后用非線性激活函數(shù)計算出一組權(quán)重,最后使用權(quán)重對 xi的所有近鄰點的表征進行加權(quán)求和,得出指定點 xi的第k 個近鄰點的新表征.經(jīng)過這步點云特征細化處理后,每個近鄰點的表征會包含鄰域范圍內(nèi)的特征表現(xiàn),以提高預(yù)測準確度[20].
如圖3 所示,假設(shè)指定點為 xi,指定點鄰域內(nèi)第n 個點為xjn,本文使用鄰域范圍內(nèi)所有點來細化點云特征向量,計算xjn周圍所有近鄰點xj1,xj2,…,xjm∈N ( xi)與 xi的點對關(guān)系,其中 N ( xi)是 xi鄰域內(nèi)點的集合.指定點xjn最終細化的點云特征Fjn計算過程為
圖3 自注意力機制模型Fig.3 Self-attention mechanism model
式中:l 用來計算xjn和xjk之間的高維點對關(guān)系;γ用來計算xjk點特征從原始維度向高維度的映射;A 為一種聚合操作.
為了減少細化點云特征操作的計算量,本文將γ函數(shù)處理為一維卷積,將關(guān)系函數(shù)l 簡化為點對關(guān)系特征的點乘操作,具體計算式為
式中?函數(shù)和ω函數(shù)為兩個線性變換函數(shù),可以用一維卷積替代,將原始點云特征從D 維轉(zhuǎn)換為D'維.
為了減少計算量,RI-MLP 模塊采用了分離MLP層并增強提取點云特征,原始PointNet++中的Set Abstraction(SA)模塊中的MLP 都是基于鄰域特征計算的,而RI-MLP 模塊將第1 層MLP 作用于鄰域特征,注意力層后的MLP 層作用于當(dāng)前點特征[21].在SA 模塊和RI-MLP 模塊中,還補充設(shè)計了Batch Normalization(BN)層來防止過擬合,殘差模塊來緩解梯度消失問題,保證SA 模塊和RI-MLP 模塊的層層疊加能夠更好地提升模型性能.
1.2.3 特征融合
雖然RGB 數(shù)據(jù)與點云數(shù)據(jù)有著相似的格式(r,g,b 和x,y,z),但其本身的屬性擁有不同的內(nèi)在關(guān)聯(lián)結(jié)構(gòu),其代表的信息位于不同的特征空間中[22].所以采用DenseFusion 提出的迭代密集融合策略,可以減少目標遮擋、語義分割結(jié)果不準確的影響,使融合后的特征準確度提升,從而提高后續(xù)位姿估計性能.
具體來說,使用稠密的點級融合,即對于每個RGB 像素點的顏色特征,與其對應(yīng)的點云點(利用相機內(nèi)參計算對應(yīng)點)的點云特征,進行特征空間上的拼接,得到一組聚合特征.
將這組聚合特征的一個副本,送進全連接神經(jīng)網(wǎng)絡(luò)中進行信息整合,并利用一個平均池化操作獲得全局特征.最后,將全局特征拼接在各個聚合特征后面,得到一組具有上下文信息的聚合特征.
如圖1 所示,三維關(guān)鍵點檢測模塊Mkey利用通過特征提取模塊提取的點云特征用來檢測每個物體的三維關(guān)鍵點.具體而言,Mkey預(yù)測從數(shù)據(jù)點云到目標關(guān)鍵點的歐氏距離偏移量.模塊通過計算輸入的點云和預(yù)測的偏移量,為目標關(guān)鍵點投票.然后,通過聚類算法收集投票集中的點坐標,并選擇聚類中心作為投票的關(guān)鍵點.
本文使用關(guān)鍵點預(yù)測模塊和語義分割模塊共同解決位姿估計問題,同時考慮兩個模塊的性能必不可少,甚至這兩個模塊還可以提高彼此的性能.一方面,實例語義分割模塊在實例上提取全局和局部特征以區(qū)分不同的物體,這有助于定位對象上的點,有利于關(guān)鍵點偏移計算過程.另一方面,為預(yù)測關(guān)鍵點的偏移量而學(xué)習(xí)的尺寸信息有助于區(qū)分外觀相似但尺寸不同的物體.于是,本文在網(wǎng)絡(luò)中引入了一個點云實例語義分割模塊Mseg,并與Mkey模塊共同優(yōu)化.
具體而言,輸入提取的點云特征,實例語義分割模塊Mseg預(yù)測每個點的語義標簽.本文用Focal Loss損失函數(shù)[23]來監(jiān)督該模塊,即
式中:qi為平衡參數(shù),qi=cili,ci為第i 個點的預(yù)測置信度,li為真實類標簽的獨熱表示;γ為聚焦參數(shù).
同時,中心投票模塊Mcenter用于對不同對象的中心進行投票,以區(qū)分不同的實例.由于本文可以將中心點視為對象的特殊關(guān)鍵點,因此Mcenter模塊類似于3D 關(guān)鍵點檢測Mkey模塊.它通過輸入點云特征,預(yù)測歐式距離偏移Δ xi及其所屬對象的中心.本文使用L1 損失函數(shù)來監(jiān)督該模塊,即
本文學(xué)習(xí)算法的目標是訓(xùn)練一個用于偏移預(yù)測的三維關(guān)鍵點檢測模塊Mkey,以及用于實例級分割的語義分割模塊Mseg和中心投票模塊Mcenter.這自然使得網(wǎng)絡(luò)訓(xùn)練過程使用多任務(wù)學(xué)習(xí)方法.本文共同監(jiān)督Mkey、Mseg和Mcenter的學(xué)習(xí)過程,并進行多任務(wù)損失函數(shù)的計算,即
式中λ1、λ2和λ3為每個子任務(wù)的權(quán)重參數(shù).
經(jīng)過上述的運算過程,模型已經(jīng)得出輸入點云的關(guān)鍵點位置坐標,由此,需要考慮一個問題.給定一個物體的兩個點集,一個來自攝像機坐標系中M 個檢測到的關(guān)鍵點,另一個來自物體坐標系中相應(yīng)的關(guān)鍵點,位姿參數(shù)估計模塊使用最小二乘擬合算法[1]計算位姿參數(shù)(R,t),該算法通過最小化以下平方損失來計算R 和t[24],即
本文在2 個基準數(shù)據(jù)集上評估了本文設(shè)計的模型.LineMOD 數(shù)據(jù)集是一個包含13 個低紋理對象的13 個視頻的數(shù)據(jù)集,數(shù)據(jù)集中的物體具有不同的顏色、形狀和尺寸.數(shù)據(jù)集的挑戰(zhàn)性體現(xiàn)在無紋理的對象、雜亂的場景和照明情況的變化.本文參考DenseFusion[11]方法分割了訓(xùn)練集和測試集,并在按照PVNet[14]方法生成用于訓(xùn)練的合成圖像.
YCB-Video 數(shù)據(jù)集包含92 個RGB-D 視頻,用于捕捉21 個選定YCB 對象的場景.整個數(shù)據(jù)集包含133 827 幀RGB-D 數(shù)據(jù),通過半自動化方法完成真實數(shù)據(jù)集的標注[25].數(shù)據(jù)集同樣存在復(fù)雜的光照條件、部分遮擋等挑戰(zhàn).本文遵循DenseFusion[11]方法來分割訓(xùn)練集和測試集,還拍攝了合成圖像進行訓(xùn)練.
本文的深度學(xué)習(xí)模型和測試模型都是基于pytorch1.8 環(huán)境,使用帶有ImageNet 預(yù)訓(xùn)練權(quán)重的ResNet34 來提取RGB 中的顏色特征.改進后的點云特征提取網(wǎng)絡(luò)來提取幾何信息.它們通過特征融合部分進一步融合,以獲得每個點的組合特征.Mkey、Mseg和Mcenter由圖2 所示的共享多層感知機組成.本文為RGB-D 圖像的每一幀采樣12 288 個點,并在式(6)中設(shè)置λ1=λ2=λ3=1.本網(wǎng)絡(luò)設(shè)置的初始學(xué)習(xí)率為0.01,epoch 數(shù)量設(shè)置為250.
使用平均距離度量ADD(S)和ADD-S 評估本文方法.對于不對稱物體,ADD(S)指標為預(yù)測位姿和真實位姿轉(zhuǎn)換的物體頂點之間的點對平均距離,即
式中:v 為物體O 中的一個頂點;R、t 為預(yù)測位勢;R*、t*為真實值.對于對稱的物體,采用基于最近點距離的ADD-S 方法,即
在YCB-Video 數(shù)據(jù)集中,本文在評估中通過改變距離閾值,計算ADD-S AUC,即準確率-閾值曲線下的面積.在YCB-Video 數(shù)據(jù)集和LineMOD 數(shù)據(jù)集中,本文計算得到的參數(shù)估計誤差小于物體直徑的10%(ADD-0.1d).
2.4.1 LineMOD 數(shù)據(jù)集實驗結(jié)果分析
本文在LineMOD 數(shù)據(jù)集測試過程中,不僅對比了基于RGB 圖像的兩種方法PoseCNN、PVNet,還對比了基于RGB-D 圖像的兩種方法FFB6D[26]、DCL-Net[27].這些方法與本文采用相同的評價標準,得出結(jié)果如表1 所示.
表1 LineMOD數(shù)據(jù)集實驗結(jié)果Tab.1 Experimental results of the LineMOD dataset
表2 YCB-Video數(shù)據(jù)集實驗結(jié)果Tab.2 Experimental results of the YCB-Video dataset
表1 展示了其他4 種方法在LineMOD 數(shù)據(jù)集中13 類物體的ADD(S)<2 cm 的準確率,可以看出,本文模型相比于其他4 種方法,取得了最好的性能.普遍來說,基于RGB-D 圖像的方法準確率高于基于RGB 圖像的方法,這是由于RGB-D 圖像還利用了點云信息,這對于三維世界中的信息預(yù)測效果具有明顯的提升.其中FFB6D[26]方法已經(jīng)在各類物體中得到了不錯的結(jié)果,但本文方法充分利用了點云特征,并將圖像特征與點云特征加以融合,預(yù)測物體關(guān)鍵點位置,間接求得位姿參數(shù).相較于FFB6D[26]方法,雖然準確率沒有明顯提升,但在后續(xù)算法時間對比上略有優(yōu)勢,F(xiàn)FB6D 所提出的方法依賴于龐大的計算量,本文模型相較于此方法有明顯提升.在LineMOD 數(shù)據(jù)集中的實驗效果如圖4(a)所示,可以看出將三維模型根據(jù)預(yù)測出的位姿轉(zhuǎn)換到相機坐標系中,與原物體基本重合,效果良好.
圖4 本文方法在兩個數(shù)據(jù)集中的效果Fig.4 Effect of our method in two datasets
2.4.2 YCB-Video 數(shù)據(jù)集實驗結(jié)果分析
本文方法的優(yōu)勢之一就是基于三維關(guān)鍵點方法對遮擋具有較強的魯棒性.為了研究不同的方法是如何被不同程度的遮擋所影響的,本文計算不同物體被遮擋百分比下的模型性能.圖5 展示了在不同物體被遮擋百分比下ADD-S<2 cm 的準確率.當(dāng)50%的點是被遮擋時,不同方法的性能非常接近.然而,隨著被遮擋部分百分比的增加,F(xiàn)FB6D 和DCL-Net方法與本文方法相比下降得更快.圖5 表明,即使在物體被嚴重遮擋的情況下,本文模型也表現(xiàn)良好.再次驗證了基于三維關(guān)鍵點方法在預(yù)測物體位姿時的重要作用.在YCB-Video 數(shù)據(jù)集中實驗的實際效果如圖4(b)所示,物體預(yù)測位姿基本與真實值一致.
圖5 YCB-Video 數(shù)據(jù)集中不同方法在不同遮擋百分比下的性能Fig.5 Performance of different methods under different occlusion percentages in the YCB-Video dataset
本文在YCB-Video 數(shù)據(jù)集的測試實驗中將本文方法與PoseCNN、DCL-Net 方法作對比.3 種方法采用相同的評估標準,在YCB-Video 數(shù)據(jù)集中所有21個物體的評估結(jié)果如表 2 所示,可以看到,在ADD(S)指標上,本文方法比 DCL-Net[27]高出8.2%.在ADD-S 指標上,本文相較于最優(yōu)秀的方法也提升了4.9%.
2.4.3 算法時間效率
由于增加了自注意力機制等網(wǎng)絡(luò)結(jié)構(gòu),增加了網(wǎng)絡(luò)模型的復(fù)雜度,延長了推理時間.本文驗證了不同方法的時間效率,同時計算了不同方法在測試數(shù)據(jù)集中平均一幀圖像進行6D 位姿估計所需時間.實驗結(jié)果表明,F(xiàn)FB6D 方法進行一幀圖像的位姿估計需要0.08 s,DCL-Net 由于附加了優(yōu)化模塊降低了效率,而本文方法只需要0.06 s,基本滿足了實時性的要求.
2.4.4 消融實驗
為了驗證本文設(shè)計的模塊對于位姿估計結(jié)果優(yōu)化的有效性,設(shè)計了關(guān)于自注意力機制模塊、語義分割模塊等的消融實驗,將網(wǎng)絡(luò)分為3 種情況,研究各個模塊對模型優(yōu)化的程度,最終結(jié)果如表3 所示.通過實驗可以看出,本文設(shè)計的模塊均有優(yōu)化模型的效果,達到了模塊設(shè)計的目的.對比第1 組與第4 組實驗,可以發(fā)現(xiàn)通過引入自注意力機制模塊,在ADD(S)指標提升了0.9%.對比第2 組、第3 組與第4 組實驗,不難看出通過引入語義分割與中心預(yù)測模塊,可以在ADD(S)指標上分別提升3.8%、1.3%.
表3 消融實驗結(jié)果Tab.3 Results of the ablation experiments
本文針對現(xiàn)有物體位姿估計方法難以解決物體遮擋、光線不穩(wěn)定等問題,設(shè)計了一種新型的三維關(guān)鍵點投票與實例語義分割網(wǎng)絡(luò),該網(wǎng)絡(luò)通過輸入RGB-D 圖像,計算物體的三維關(guān)鍵點位置,最后通過最小二乘方法擬合位姿參數(shù).本文方法對遮擋等復(fù)雜情況有一定的魯棒性,在幾個數(shù)據(jù)集中以較大的優(yōu)勢優(yōu)于其他方法.
(1) 通過使用本文的點云特征提取網(wǎng)絡(luò),能夠較好地使用點云數(shù)據(jù),提取到更顯著的特征,從而更有效地融合點云的局部特征和全局特征,有利于后續(xù)的關(guān)鍵點預(yù)測及實例語義分割,最終提升整體網(wǎng)絡(luò)物體位姿估計的準確率.
(2) 本文設(shè)計的網(wǎng)絡(luò)模塊通過自注意力機制增強提取點云特征,在一定程度上解決了物體位姿估計中的遮擋問題,能夠使點云特征不僅局限于歐式空間內(nèi),還包含特征空間相近的點云信息.
(3) 通過采用三維關(guān)鍵點投票策略,使網(wǎng)絡(luò)更加充分利用提取完的點云融合特征,網(wǎng)絡(luò)不直接回歸位姿參數(shù),而是預(yù)測物體關(guān)鍵點位置,減小了參數(shù)回歸的難度,提升了網(wǎng)路在復(fù)雜情況下的位姿估計準確率.
本文設(shè)計的方法在整體精度和魯棒性上具有明顯優(yōu)勢,但對于外表相似、大小不同或?qū)ΨQ的物體仍舊存在預(yù)測位姿誤差過大等問題,因此在點云特征與紋理特征融合部分仍具有提升空間.下一步工作將結(jié)合虛擬數(shù)據(jù)集構(gòu)建,擴充數(shù)據(jù)集各種情況,提升特征融合網(wǎng)絡(luò)等,以提升模型在復(fù)雜情況下的實際應(yīng)用性和魯棒性.