亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于關(guān)鍵點(diǎn)特征融合的六自由度位姿估計(jì)方法

        2022-03-09 03:30:52王太勇孫浩文
        關(guān)鍵詞:位姿關(guān)鍵點(diǎn)深度

        王太勇,孫浩文

        基于關(guān)鍵點(diǎn)特征融合的六自由度位姿估計(jì)方法

        王太勇1, 2,孫浩文1

        (1. 天津大學(xué)機(jī)械工程學(xué)院,天津 300350;2. 天津仁愛(ài)學(xué)院,天津 301636)

        針對(duì)單張RGB-D圖像進(jìn)行六自由度目標(biāo)位姿估計(jì)難以充分利用顏色信息與深度信息的問(wèn)題,提出了一種基于多種網(wǎng)絡(luò)(金字塔池化網(wǎng)絡(luò)和PointNet++網(wǎng)絡(luò)結(jié)合特征融合網(wǎng)絡(luò))構(gòu)成的深度學(xué)習(xí)網(wǎng)絡(luò)框架.方法用于估計(jì)在高度雜亂場(chǎng)景下一組已知對(duì)象的六自由度位姿.首先對(duì)RGB圖像進(jìn)行語(yǔ)義識(shí)別,將每一個(gè)已知類(lèi)別的對(duì)象掩膜應(yīng)用到深度圖中,按照掩膜的邊界框完成對(duì)彩色圖與深度圖進(jìn)行語(yǔ)義分割;其次,在獲取到的點(diǎn)云數(shù)據(jù)中采用FPS算法獲取關(guān)鍵點(diǎn),映射到彩色圖像與深度圖像中進(jìn)行關(guān)鍵點(diǎn)特征提取,將RGB-D圖像中的顏色信息與深度信息視為異構(gòu)數(shù)據(jù),考慮關(guān)鍵點(diǎn)需要充分融合局部信息與全局信息,分別采用了金子塔池化網(wǎng)絡(luò)(pyramid scene parsing network,PSPNet)和PointNet++網(wǎng)絡(luò)提取顏色信息與深度信息;采用一種新型的關(guān)鍵點(diǎn)特征融合方法,深度融合提取到顏色信息與幾何信息的局部及全局特征,并嵌入到選定的特征點(diǎn)中;使用多層感知機(jī)(multilayer perceptron,MLP)輸出每一個(gè)像素點(diǎn)的六自由度位姿和置信度,利用每一個(gè)像素點(diǎn)的置信度,讓網(wǎng)絡(luò)自主選擇最優(yōu)的估計(jì)結(jié)果;最后,利用一種端到端的迭代位姿求精網(wǎng)絡(luò),進(jìn)一步提高六自由度位姿估計(jì)的準(zhǔn)確度.網(wǎng)絡(luò)在公開(kāi)的數(shù)據(jù)集LineMOD和YCB-Video上進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果表明和現(xiàn)有同類(lèi)型的六自由度位姿估計(jì)方法相比,本文所提出的模型預(yù)測(cè)的六自由度準(zhǔn)確度優(yōu)于現(xiàn)有的同類(lèi)型方法,在采用相同的評(píng)價(jià)標(biāo)準(zhǔn)下,平均準(zhǔn)確度分別達(dá)到了97.2%和95.1%,分別提升了2.9%和3.9%.網(wǎng)絡(luò)同時(shí)滿(mǎn)足實(shí)時(shí)性要求,完成每一幀圖像的六自由度位姿預(yù)測(cè)僅需0.06s.

        六自由度位姿估計(jì);深度學(xué)習(xí);特征融合;機(jī)器視覺(jué)

        六自由度位姿估計(jì)是指在標(biāo)準(zhǔn)坐標(biāo)系下識(shí)別物體的三維位置和姿態(tài),是機(jī)器人抓取和操縱[1-3]、自主駕駛[4-5]、增強(qiáng)現(xiàn)實(shí)[6]等應(yīng)用中的重要組成部分.理想情況下的解決方案可以處理形狀和紋理不同的對(duì)象,并在傳感器噪聲和變化的光照條件中表現(xiàn)出魯棒性,同時(shí)達(dá)到實(shí)時(shí)性要求.

        傳統(tǒng)的方法如Papazov等[7]與Alvaro等[8]使用手工制作的特征來(lái)提取圖像和物體體素模型之間的對(duì)應(yīng)關(guān)系.這種依靠人類(lèi)經(jīng)驗(yàn)設(shè)計(jì)的特征在光照條件變化或嚴(yán)重遮擋的場(chǎng)景準(zhǔn)確度會(huì)大幅下降,導(dǎo)致傳統(tǒng)的方法很難應(yīng)用到實(shí)際中.

        最近,隨著機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)的爆炸性增長(zhǎng),基于深度學(xué)習(xí)的方法被引入到這一任務(wù)中.Tekin等[9]與Tjaden等[10]提出直接使用深度卷積網(wǎng)絡(luò)回歸對(duì)象的旋轉(zhuǎn)和平移.然而,由于旋轉(zhuǎn)空間的非線性,這些方法通常具有較差的泛化能力.Peng等[11]提出了PVNet,通過(guò)霍夫投票得出關(guān)鍵點(diǎn),并使用多點(diǎn)透視成像(perspective-n-point,PNP)算法計(jì)算對(duì)象的六自由度位姿,Park等[12]與Yu等[13]采用了類(lèi)似的方法.雖然這兩個(gè)階段的方法表現(xiàn)更穩(wěn)定,但大多數(shù)都建立在物體的二維投影的基礎(chǔ)上.在真實(shí)的三維空間中,投影中較小的誤差會(huì)被放大,并伴隨投影重疊現(xiàn)象導(dǎo)致對(duì)象間難以區(qū)分.此外,剛性物體的幾何約束信息由于投影導(dǎo)致部分丟失.

        另一方面,隨著廉價(jià)RGB-D傳感器的發(fā)展,越來(lái)越多的RGB-D數(shù)據(jù)集被提出.借助從深度相機(jī)中獲取額外的深度信息,許多優(yōu)秀的二維空間算法被擴(kuò)展到三維空間,如Xu等[14]提出了PointFusion、Qi?等[15]提出了Frustum PointNet和Chen等[16]提出了MVSNet++.傳統(tǒng)的方法如Teng等[17]直接將深度信息視作與顏色信息同構(gòu)的數(shù)據(jù),用相同的特征提取方法處理深度信息;Wang等[18]提出了DenseFusion網(wǎng)絡(luò)將深度信息利用已知的相機(jī)內(nèi)參轉(zhuǎn)換為點(diǎn)云數(shù)據(jù)采用PointNet模型來(lái)處理點(diǎn)云數(shù)據(jù)提取幾何特征,并進(jìn)行像素級(jí)特征融合實(shí)現(xiàn)了高準(zhǔn)確度的六自由度位姿估計(jì);Deng等[6]利用自監(jiān)督學(xué)習(xí)與霍夫投票來(lái)進(jìn)行六自由度位姿的預(yù)測(cè);Chen等[19]提出一種類(lèi)別級(jí)的六自由度位姿預(yù)測(cè)方法,將目標(biāo)對(duì)象進(jìn)行三維空間上的歸一化再進(jìn)行位姿預(yù)測(cè);Gao等[4]直接利用激光雷達(dá)獲取到的點(diǎn)云圖像完成六自由度位姿預(yù)測(cè).

        盡管Wang等[18]提出了DenseFusion網(wǎng)絡(luò)在處理公開(kāi)數(shù)據(jù)集中達(dá)到了良好的效果,但是在處理深度圖像時(shí)采用了PointNet[20]方法,此方法只能提取采樣點(diǎn)的幾何特征,局部幾何特征的欠缺,提高了預(yù)測(cè)六自由度位姿的難度.此外在生成全局特征的提取中,直接對(duì)所有采樣點(diǎn)進(jìn)行平均池化,雖然平均池化函數(shù)作為對(duì)稱(chēng)函數(shù)可以有效解決點(diǎn)云數(shù)據(jù)的無(wú)序性問(wèn)題[20],但是沒(méi)有充分利用點(diǎn)云數(shù)據(jù)間的幾何關(guān)系和采樣點(diǎn)與二維圖像中像素點(diǎn)的映射關(guān)系.

        Peng等[11]提出的PVNet已經(jīng)在2D圖像中證實(shí)選取存在于物體的幾何邊界處的關(guān)鍵點(diǎn)對(duì)于提高預(yù)測(cè)位姿的準(zhǔn)確度有較大的提升.本文提出了一種三維點(diǎn)云數(shù)據(jù)中基于關(guān)鍵點(diǎn)的新型網(wǎng)絡(luò)架構(gòu),在點(diǎn)云數(shù)據(jù)中利用最遠(yuǎn)特征點(diǎn)采樣算法(farthest point sampling,F(xiàn)PS)選取關(guān)鍵點(diǎn),引入金字塔池化網(wǎng)絡(luò)和PointNet++網(wǎng)絡(luò)[21]來(lái)分別處理彩色圖像和深度圖像,采用點(diǎn)云上采樣和平均池化函數(shù)生成全局幾何特征,對(duì)關(guān)鍵點(diǎn)進(jìn)行像素級(jí)特征嵌入融合,提高模型的識(shí)別準(zhǔn)確度,實(shí)現(xiàn)高準(zhǔn)確度的六自由度位姿預(yù)測(cè).

        1?網(wǎng)絡(luò)結(jié)構(gòu)提出

        在實(shí)際的應(yīng)用場(chǎng)景中,六自由度位姿估計(jì)存在著物體相互遮擋、光線不佳等挑戰(zhàn),充分利用RGB-D圖像中的顏色信息和深度信息弱化外界環(huán)境的影響是當(dāng)下主流的解決方法.通過(guò)關(guān)鍵點(diǎn)進(jìn)行六自由度位姿估計(jì)可以弱化物體之間相互遮擋的影響,但是需要充分提取關(guān)鍵點(diǎn)的幾何信息與顏色信息.這兩種信息處于不同的空間之中,所以從異構(gòu)數(shù)據(jù)中提取特征并進(jìn)行嵌入融合是六自由度位姿估計(jì)領(lǐng)域的關(guān)鍵技術(shù)挑戰(zhàn).本文所設(shè)計(jì)的網(wǎng)絡(luò)首先通過(guò)兩種不同的方式處理顏色和深度信息來(lái)解決數(shù)據(jù)異構(gòu)的問(wèn)題,之后利用顏色信息和深度信息在二維圖像中內(nèi)在的映射關(guān)系在預(yù)先選定的像素點(diǎn)中進(jìn)行特征嵌入融合,最后通過(guò)可微迭代求精模塊對(duì)估計(jì)位姿進(jìn)行求精.

        1.1?網(wǎng)絡(luò)總體結(jié)構(gòu)

        本文所提出的網(wǎng)絡(luò)總體結(jié)構(gòu)如圖1所示.網(wǎng)絡(luò)模型包括兩個(gè)階段,第1階段以彩色圖像作為輸入對(duì)每個(gè)已知類(lèi)別進(jìn)行語(yǔ)義分割,即提取出已知對(duì)象的掩膜,應(yīng)用到彩色圖像和深度圖像中生成邊界框以完成語(yǔ)義分割.語(yǔ)義分割網(wǎng)絡(luò)是一個(gè)編碼解碼結(jié)構(gòu),利用輸入的彩色圖像,生成+1個(gè)語(yǔ)義分割圖.每個(gè)分割圖描述個(gè)可能的已知類(lèi)別中的對(duì)象.由于筆者工作的重點(diǎn)是設(shè)計(jì)一種六自由度估計(jì)方法,并為了保證實(shí)驗(yàn)對(duì)比的公平性,筆者選取當(dāng)前主流方法使用的語(yǔ)義分割網(wǎng)絡(luò)[22].第2階段處理分割結(jié)果并估計(jì)對(duì)象的六自由度位姿,包括5個(gè)部分:關(guān)鍵點(diǎn)選取過(guò)程、基于PointNet++模型的深度信息提取網(wǎng)絡(luò)、像素級(jí)特征嵌入融合網(wǎng)絡(luò)、基于無(wú)監(jiān)督置信度評(píng)分的像素級(jí)六自由度位姿的估計(jì)、位姿求精網(wǎng)絡(luò).

        圖1?六自由度位姿估計(jì)網(wǎng)絡(luò)總體結(jié)構(gòu)

        1.2?關(guān)鍵點(diǎn)選取

        利用待估計(jì)物體的幾何信息的關(guān)鍵點(diǎn)主要存在于物體的幾何邊界處這一先驗(yàn)信息[11,20],在高度雜亂的場(chǎng)景下,相較于從圖像中隨機(jī)選取個(gè)點(diǎn)作為關(guān)鍵點(diǎn)來(lái)進(jìn)行位姿估計(jì),預(yù)先選取幾何邊界處的采用點(diǎn)進(jìn)行特征提取可以提高幾何信息的提取效率,并且可以大幅降低需要的采樣點(diǎn)數(shù)量,提高算法實(shí)時(shí)性.在二維RGB圖像中,通過(guò)選取關(guān)鍵點(diǎn)來(lái)進(jìn)行六自由度位姿的估計(jì)是常用的方法,但是剛性物體會(huì)由于投影造成幾何信息的部分丟失,并且不同的關(guān)鍵點(diǎn)會(huì)由于投影而重疊,導(dǎo)致難以區(qū)分.在三維點(diǎn)云數(shù)據(jù)中,關(guān)鍵點(diǎn)通常選擇三維邊界框的8個(gè)角點(diǎn),這些點(diǎn)是遠(yuǎn)離物體上的虛擬點(diǎn),使得網(wǎng)絡(luò)很難聚合它們附近的顏色以及幾何信息,造成距離關(guān)鍵點(diǎn)越遠(yuǎn)的點(diǎn)的位姿估計(jì)的誤差越大,對(duì)于六自由度位姿估計(jì)的參數(shù)計(jì)算有一定的影響.

        本文選用了最遠(yuǎn)特征點(diǎn)采樣算法(farthest point sampling,F(xiàn)PS)選取關(guān)鍵點(diǎn).具體來(lái)說(shuō)是將物體點(diǎn)云的中心點(diǎn)作為初始點(diǎn)添加入算法中來(lái)進(jìn)行選擇過(guò)程,每一次添加距離所選定關(guān)鍵點(diǎn)最遠(yuǎn)的點(diǎn)至關(guān)鍵點(diǎn)集中,將該點(diǎn)作為新的初始點(diǎn)進(jìn)行迭代,直到集合數(shù)量達(dá)到個(gè)關(guān)鍵點(diǎn).通過(guò)提取這些關(guān)鍵點(diǎn)的特征作為六自由度位姿估計(jì)的依據(jù).LineMOD數(shù)據(jù)集中燈罩對(duì)象的關(guān)鍵點(diǎn)的選取如圖2所示,橙色點(diǎn)代表選取的關(guān)鍵點(diǎn),從圖2(a)的點(diǎn)云關(guān)鍵點(diǎn)可以看出橙色點(diǎn)主要集中在圖像的邊緣處,圖2(b)將關(guān)鍵點(diǎn)投影回二維圖像,關(guān)鍵點(diǎn)產(chǎn)生了一定程度上的重疊.

        圖2?LineMOD數(shù)據(jù)集燈罩關(guān)鍵點(diǎn)

        1.3?特征提取

        1.3.1?顏色特征提取網(wǎng)絡(luò)

        顏色特征提取網(wǎng)絡(luò)的目標(biāo)是提取每個(gè)像素的顏色特征,以便在三維點(diǎn)特征和圖像特征之間形成緊密的對(duì)應(yīng)關(guān)系.本文采用了由Zhao等[23]提出的基于深度卷積網(wǎng)絡(luò)的金字塔池化模型.該網(wǎng)絡(luò)通過(guò)挖掘顏色特征并聚合了基于不同區(qū)域的上下文信息,在場(chǎng)景解析領(lǐng)域取得了良好的效果.它將尺寸為××3的圖像映射到××rgb特征空間.每個(gè)像素嵌入了表示相應(yīng)位置處的輸入圖像的顏色信息的rgb維特征向量.

        1.3.2?幾何特征提取網(wǎng)絡(luò)

        通過(guò)FPS算法選定的關(guān)鍵點(diǎn)集中在物體的邊緣位置,為了能讓邊界點(diǎn)可以更好地預(yù)測(cè)六自由度,需要邊界點(diǎn)能夠充分地融合局部幾何信息和全局幾何信息.PointNet網(wǎng)絡(luò)只是單純地做了幾何特征維度上的擴(kuò)展,之后使用池化函數(shù)得到全局幾何特征,完全丟失了點(diǎn)的局部幾何特征.為了避免這一情況的發(fā)生,本文使用PointNet++來(lái)代替PointNet,利用PointNet++可以提取局部幾何特征這一特性讓關(guān)鍵點(diǎn)具有更加豐富的幾何信息.

        首先使用已知的相機(jī)內(nèi)參將分割好的深度圖像轉(zhuǎn)換為3D點(diǎn)云數(shù)據(jù),之后使用類(lèi)似PointNet++模型來(lái)提取幾何特征,PointNet與PointNet++提取幾何特征原理如圖3所示.從圖3(a)中可以看出,PointNet模型直接對(duì)點(diǎn)的三維坐標(biāo)特征進(jìn)行學(xué)習(xí),而忽略了點(diǎn)之間的幾何關(guān)系.所以Wang等[18]使用的PointNet雖然可以提取三維坐標(biāo)點(diǎn)的幾何特征,但是忽略了三維坐標(biāo)點(diǎn)之間的局部幾何特征.Qi等[20]提出了PointNet++模型,從圖3(b)中可以看出,模型將稀疏的點(diǎn)云進(jìn)行分割,在分割區(qū)域內(nèi)不斷地提取幾何特征作為局部特征,擴(kuò)大局部范圍繼續(xù)學(xué)習(xí)局部特征,直到獲得全局幾何特征.

        圖3?幾何特征下采樣提取原理

        為了更加充分地利用全局幾何特征,本文改進(jìn)了PointNet++模型,對(duì)提取出的點(diǎn)云全局特征進(jìn)行了上采樣,如圖4所示.二維圖像中的上采樣技術(shù)是將學(xué)習(xí)到的全局特征上采樣到每一個(gè)像素點(diǎn),讓每一個(gè)像素點(diǎn)都獲取到全局特征.像素點(diǎn)根據(jù)全局特征預(yù)測(cè)所屬類(lèi)別信息,已經(jīng)在二維圖像中的圖像分割領(lǐng)域取得了巨大的成功.利用點(diǎn)云三維數(shù)據(jù)與彩色圖像二維數(shù)據(jù)的內(nèi)在一一對(duì)應(yīng)關(guān)系,將點(diǎn)云數(shù)據(jù)進(jìn)行上采樣,每個(gè)選定的像素點(diǎn)將獲得geo維度的全局幾何特征.

        圖4?幾何特征上采樣原理

        1.4?像素級(jí)特征融合與位姿估計(jì)

        為了減小由于語(yǔ)義分割誤差對(duì)特征提取階段的影響,特征融合階段沒(méi)有采用直接融合顏色特征與幾何特征的全局信息方法,而是設(shè)計(jì)了像素級(jí)特征融合網(wǎng)絡(luò).其核心是先進(jìn)行局部逐像素融合,再嵌入全局信息,以此增加每一關(guān)鍵點(diǎn)所攜帶的信息量.

        由于像素點(diǎn)和三維點(diǎn)之間的映射是唯一的,所以融合過(guò)程首先利用已知的攝像頭的內(nèi)參,基于圖像平面上的投影,將每個(gè)點(diǎn)的幾何特征與其對(duì)應(yīng)的像素點(diǎn)的顏色特征關(guān)聯(lián)并進(jìn)行局部特征的融合.如圖5所示的特征融合階段,橙色方格代表的是每一個(gè)關(guān)鍵點(diǎn)對(duì)應(yīng)像素點(diǎn)的顏色特征,藍(lán)色方格代表的是每一個(gè)關(guān)鍵點(diǎn)的局部幾何特征,通過(guò)維度拼接的方式進(jìn)行特征融合,融合后代表每一個(gè)關(guān)鍵點(diǎn)的局部特征.產(chǎn)生局部特征后嵌入經(jīng)過(guò)點(diǎn)云上采樣的全局幾何特征,并送入多層感知機(jī)進(jìn)行學(xué)習(xí),為了消除點(diǎn)云無(wú)序性的影響加入了平均池化函數(shù),最終得到了代表全局信息的綠色方格.通過(guò)這種方式有效地結(jié)合了提取到的所有特征,關(guān)鍵點(diǎn)的局部信息保證每個(gè)選取的像素點(diǎn)都可以做出預(yù)測(cè),嵌入全局特征可以豐富每個(gè)像素點(diǎn)的特征,以提供全局上下文信息,達(dá)到了最小化遮擋和噪聲影響的目的.最后將全局信息送入多層感知機(jī)進(jìn)行位姿估計(jì).同時(shí)利用自監(jiān)督機(jī)制,讓網(wǎng)絡(luò)決定通過(guò)那個(gè)關(guān)鍵點(diǎn)可以得到最好的位姿預(yù)測(cè),在輸出六自由度位姿估計(jì)的同時(shí)還輸出每個(gè)關(guān)鍵點(diǎn)的置信度分?jǐn)?shù).

        本文的六自由度位姿估計(jì)的損失定義為真實(shí)位姿下物體模型上的關(guān)鍵點(diǎn)與預(yù)測(cè)姿態(tài)變換后的同一模型上對(duì)應(yīng)點(diǎn)之間的距離.每一個(gè)關(guān)鍵點(diǎn)的損失函數(shù)的公式為

        式中代表在N個(gè)關(guān)鍵點(diǎn)中第個(gè)關(guān)鍵點(diǎn).

        式(1)只對(duì)非對(duì)稱(chēng)物體有良好的效果,當(dāng)估計(jì)對(duì)象是對(duì)稱(chēng)物體時(shí)會(huì)有多個(gè)正確的六自由度位姿,使用式(2)來(lái)計(jì)算估計(jì)模型上每個(gè)點(diǎn)和真實(shí)模型上的最近點(diǎn)的距離.

        損失函數(shù)定義為每個(gè)關(guān)鍵點(diǎn)的損失綜合,本文所提出的網(wǎng)絡(luò)在輸出六自由度位姿的同時(shí)還輸出了每個(gè)關(guān)鍵點(diǎn)的置信度.關(guān)鍵點(diǎn)的置信度是根據(jù)每個(gè)關(guān)鍵點(diǎn)的上下文信息決定哪個(gè)位姿估計(jì)可能是最好的假設(shè),最終的損失函數(shù)定義為

        1.5?位姿求精模型

        迭代最近點(diǎn)(iterative closest point,ICP)算法是許多六自由度位姿估計(jì)方法使用的一種求精方法,雖然準(zhǔn)確度很高但是效率較低,無(wú)法滿(mǎn)足實(shí)時(shí)性要求.

        2?實(shí)驗(yàn)及數(shù)據(jù)對(duì)比

        2.1?數(shù)據(jù)集

        LineMOD數(shù)據(jù)集由Hinterstoisser等收集提出,是一個(gè)包含13個(gè)低紋理對(duì)象視頻的視頻數(shù)據(jù).?dāng)?shù)據(jù)集中有標(biāo)注的真實(shí)六自由度位姿和實(shí)例的掩膜.這個(gè)數(shù)據(jù)集的主要挑戰(zhàn)是場(chǎng)景雜亂、存在低紋理物體和環(huán)境光照變化.它被經(jīng)典方法和基于學(xué)習(xí)的方法廣泛采用.本文沒(méi)有額外的合成數(shù)據(jù),挑選1214個(gè)關(guān)鍵幀作為訓(xùn)練集,1335個(gè)關(guān)鍵幀作為測(cè)試集.

        YCB-Video數(shù)據(jù)集包含21個(gè)形狀和紋理各不相同的YCB對(duì)象.捕獲了92個(gè)對(duì)象子集的RGB-D視頻,每個(gè)視頻顯示不同室內(nèi)場(chǎng)景中21個(gè)對(duì)象的子集.這些視頻中包括六自由度位姿和實(shí)例語(yǔ)義分割產(chǎn)生的掩碼.?dāng)?shù)據(jù)集同樣具有多變的光照條件、顯著的圖像噪聲和遮擋等挑戰(zhàn).本文將數(shù)據(jù)集分割成80個(gè)視頻用于訓(xùn)練,從剩余的12個(gè)視頻中挑選2949個(gè)關(guān)鍵幀用于測(cè)試.

        2.2?訓(xùn)練細(xì)節(jié)

        本文對(duì)深度學(xué)習(xí)模型和測(cè)試模型都是基于pytorch1.7環(huán)境,在一個(gè)具備6Gb的GTX 1660 顯卡的計(jì)算機(jī)上完成的.顏色特征提取中下采樣部分采用的是ResNet-18,金字塔池化模型采用4層結(jié)構(gòu),每一層的上采樣前特征圖尺寸為1×1、2×2、3×3、?6×6.深度信息提取選取1024個(gè)點(diǎn)進(jìn)行預(yù)處理,選取200個(gè)點(diǎn)作為關(guān)鍵點(diǎn).每一個(gè)關(guān)鍵點(diǎn)在嵌入全局特征后包含1408維的特征向量.網(wǎng)絡(luò)的學(xué)習(xí)率為0.001,位姿迭代求精由4個(gè)全連接層組成,這些層直接輸出位姿的殘差,每一個(gè)實(shí)驗(yàn)都采用了2次迭代求精.

        2.3?評(píng)價(jià)標(biāo)準(zhǔn)

        在測(cè)試集中每一次輸入一幀圖像進(jìn)行六自由度位姿估計(jì).在測(cè)試集中為了驗(yàn)證位姿估計(jì)在整個(gè)物體上的準(zhǔn)確度,每一次在整個(gè)物體上隨機(jī)采樣500個(gè)點(diǎn),通過(guò)計(jì)算ADD/ADD-S曲線下的面積,即計(jì)算500個(gè)采樣點(diǎn)在歐氏空間下的平均距離來(lái)評(píng)估預(yù)測(cè)結(jié)果.閾值設(shè)定為0.1m,平均距離小于0.1m視為對(duì)此幀圖像六自由度位姿估計(jì)成功.通過(guò)計(jì)算所有數(shù)據(jù)集下的平均準(zhǔn)確度對(duì)算法進(jìn)行評(píng)價(jià).

        2.4?測(cè)試結(jié)果評(píng)價(jià)分析

        2.4.1?LineMOD數(shù)據(jù)集實(shí)驗(yàn)結(jié)果分析

        在基于LineMOD數(shù)據(jù)集的實(shí)驗(yàn)中,將本文提出的方法與Wang等[18]DenseFusion方法在訓(xùn)練過(guò)程中損失值的下降收斂情況進(jìn)行對(duì)比,如圖6所示.從圖6中可以看出本文提出方法的收斂速度高于DenseFusion方法.在進(jìn)行70次訓(xùn)練后本文方法的平均誤差達(dá)到0.608cm,而DenseFusion的平均損失為0.708cm.在測(cè)試中,同時(shí)對(duì)比分析了輸入為RGB圖像的方法:PoseCNN方法[22]和PVNet方法[11];與輸入為RGB-D圖像的方法:SSD方法[24]和DenseFusion方法[18],這些方法都與本文采用了同樣的評(píng)價(jià)標(biāo)準(zhǔn),測(cè)試結(jié)果如表1所示.

        在表1通過(guò)4種方法進(jìn)行對(duì)比,列出了LinMOD數(shù)據(jù)集中每一個(gè)類(lèi)別的ADD(S)準(zhǔn)確率,可以看出本文提出的方法在準(zhǔn)確率上高于現(xiàn)有的同類(lèi)型方法.其中SSD方法將RGB-D圖像中的顏色圖像和深度圖像視為同構(gòu)數(shù)據(jù)采用了共享參數(shù)的多層感知機(jī)進(jìn)行特征提取,從最終的位姿預(yù)測(cè)的準(zhǔn)確度看出這種方法甚至遜于RGB圖像中的方法.本文將其視為異構(gòu)數(shù)據(jù),采用了不同方法處理兩種數(shù)據(jù),大幅提高了預(yù)測(cè)準(zhǔn)確度.相較于傳統(tǒng)的RGB圖像的方法,本文所提出的方法也更加具有優(yōu)勢(shì).由于本文充分利用了關(guān)鍵點(diǎn)之間的幾何關(guān)系,并設(shè)計(jì)了新的像素級(jí)特征融合方法,較于目前最優(yōu)秀的位姿預(yù)測(cè)方法DenseFusion,平均預(yù)測(cè)準(zhǔn)確度提高了2.9%.對(duì)于LineMOD數(shù)據(jù)集訓(xùn)練結(jié)果的可視化如圖7(a)所示,可以看出將經(jīng)過(guò)變換后的點(diǎn)云投影到圖片上與RGB圖像重合度?較高.

        圖6?LineMOD數(shù)據(jù)集損失值變化曲線

        表1?LineMOD數(shù)據(jù)集實(shí)驗(yàn)預(yù)測(cè)準(zhǔn)確度

        Tab.1?6-DoF estimation result of the LineMOD dataset

        圖7 LineMOD數(shù)據(jù)集與YCB-Video數(shù)據(jù)集中本文方法實(shí)驗(yàn)結(jié)果效果

        2.4.2?YCB-Video數(shù)據(jù)集實(shí)驗(yàn)結(jié)果分析

        在基于YCB-Video數(shù)據(jù)集的實(shí)驗(yàn)中對(duì)比分析了PoseCNN方法[22]DenseFusion方法[18],兩種方法與本文采用了同樣的評(píng)價(jià)標(biāo)準(zhǔn),測(cè)試結(jié)果如表2所示.從表2中可以看出本文所提出的方法相較于當(dāng)前最優(yōu)秀的方法在ADD-S標(biāo)準(zhǔn)下提升了3.9%,在ADD(s)標(biāo)準(zhǔn)下提升了7.7%.

        表2?YCB-Video數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

        Tab.2?6-DoF estimation result of a YCB-Video dataset

        在YCB-Video數(shù)據(jù)集主要的挑戰(zhàn)是存在物體之間大量的遮擋,因此按照Wang等[18]提出的方法分析了在不同的遮擋條件下,遮擋對(duì)六自由度位姿估計(jì)的影響,如圖8所示.從圖8中可以看出在遮擋條件下本文所提方法明顯優(yōu)于現(xiàn)有的方法.在高遮擋下仍然擁有較高的準(zhǔn)確度,說(shuō)明本文所提出的基于關(guān)鍵點(diǎn)的特征融合算法在高度遮擋情況下仍然可以利用余下的關(guān)鍵點(diǎn)之間的幾何關(guān)系,達(dá)到較高的位姿估計(jì)準(zhǔn)確度,再次證明了關(guān)鍵點(diǎn)的選取在位姿估計(jì)中的重要作用.在YCB-Video的數(shù)據(jù)集上的具體實(shí)驗(yàn)效果對(duì)如圖7(b)所示.

        2.4.3?算法實(shí)時(shí)性

        由于增加了提取關(guān)鍵點(diǎn)局部幾何特征的PointNet++網(wǎng)絡(luò),增加了網(wǎng)絡(luò)的復(fù)雜度.為了驗(yàn)證方法的實(shí)時(shí)性,本文也計(jì)算了在測(cè)試環(huán)境下對(duì)數(shù)據(jù)集中每一幀圖像進(jìn)行六自由度位姿估計(jì)所需要的時(shí)間.實(shí)驗(yàn)結(jié)果表明僅需要0.06s就可以完成一幀圖像的預(yù)測(cè)(16幀/s),滿(mǎn)足了實(shí)時(shí)性的要求.

        圖8 在YCB-Video數(shù)據(jù)集上,不同方法在遮擋程度不斷增加的情況下的性能

        2.4.4?六自由度參數(shù)誤差

        網(wǎng)絡(luò)最終輸出為平移矩陣與旋轉(zhuǎn)矩陣,為了更加直觀地表達(dá)各個(gè)六自由度的預(yù)測(cè)誤差,將旋轉(zhuǎn)矩陣轉(zhuǎn)化為歐拉角,最終結(jié)果如表3所示.其中e、e、e分別代表在測(cè)試集中平移矩陣在、、方向平移分量的平均誤差.、、代表測(cè)試集中歐拉角表示下3個(gè)旋轉(zhuǎn)分量的平均誤差.從表3中可以看出網(wǎng)絡(luò)預(yù)測(cè)的平移分量的誤差較小,在歐拉角表示下的旋轉(zhuǎn)誤差由于一個(gè)旋轉(zhuǎn)矩陣是3個(gè)歐拉角共同作用的線性變換,誤差相較于平移分量偏大.

        表3?六自由度位姿參數(shù)誤差

        Tab.3?6-DoF estimation pose parameter error

        2.4.5?消融實(shí)驗(yàn)

        為了驗(yàn)證位姿求精環(huán)節(jié)的效果并得到進(jìn)行迭代的最優(yōu)次數(shù),設(shè)計(jì)了關(guān)于位姿求精網(wǎng)絡(luò)的消融實(shí)驗(yàn).將網(wǎng)絡(luò)設(shè)定為不進(jìn)行迭代求精,最終結(jié)果如表4所示.通過(guò)實(shí)驗(yàn)可以看出,位姿求精環(huán)節(jié)可以提高最終的位姿預(yù)測(cè)準(zhǔn)確率,達(dá)到了網(wǎng)絡(luò)的設(shè)計(jì)目的.通過(guò)實(shí)驗(yàn)結(jié)果的對(duì)比分析,在滿(mǎn)足六自由度位姿估計(jì)的實(shí)時(shí)性要求下,本文最終選擇在每次預(yù)測(cè)六自由度位姿后進(jìn)行兩次位姿迭代求精.

        表4?消融實(shí)驗(yàn)位姿估計(jì)結(jié)果

        Tab.4?6-DoF estimation result of the ablation experiments

        3?結(jié)?論

        本文針對(duì)復(fù)雜環(huán)境下六自由度位姿估計(jì)問(wèn)題,提出了基于關(guān)鍵點(diǎn)特征融合的六自由度位姿預(yù)測(cè)方法.網(wǎng)絡(luò)將RGB-D圖像作為輸入,相較于傳統(tǒng)的僅RGB圖像作為輸入的方法,弱化環(huán)境因素對(duì)位姿估計(jì)的影響,可以適用于光照條件不佳以及待檢測(cè)物體屬于低紋理物體等多種情況,具體可以應(yīng)用到機(jī)械臂抓取等場(chǎng)合.利用LineMOD數(shù)據(jù)集和YCB-Video數(shù)據(jù)集對(duì)所提出模型進(jìn)行了多方面的實(shí)驗(yàn)與測(cè)試,實(shí)驗(yàn)結(jié)果表明:

        (1) 通過(guò)采用基于關(guān)鍵點(diǎn)的六自由度位姿估計(jì)網(wǎng)絡(luò),大幅減少了預(yù)測(cè)一幀圖像所需要的采樣點(diǎn)數(shù)量,同時(shí)提高了預(yù)測(cè)的準(zhǔn)確度.在增加幾何信息提取網(wǎng)絡(luò)層數(shù)時(shí),滿(mǎn)足了實(shí)時(shí)性要求,達(dá)到了估計(jì)每幀圖像位姿只需要0.06s.證明了關(guān)鍵點(diǎn)選取在六自由度位姿估計(jì)中的重要性;

        (2) 將顏色信息與深度信息視為異構(gòu)數(shù)據(jù),并將深度圖像轉(zhuǎn)換為點(diǎn)云數(shù)據(jù)可以更好地利用RGB-D圖像中的信息,使得網(wǎng)絡(luò)不需要去學(xué)習(xí)已知的轉(zhuǎn)換關(guān)系,提高了網(wǎng)絡(luò)的收斂速度;

        (3) 通過(guò)PointNet++網(wǎng)絡(luò)從深度圖像中提取幾何信息的方法可以有效地提取出關(guān)鍵點(diǎn)之間的局部幾何信息和全局幾何信息,有利于關(guān)鍵點(diǎn)做出準(zhǔn)確的位姿估計(jì);

        (4) 通過(guò)像素級(jí)特征融合可以讓關(guān)鍵點(diǎn)更加充分地利用網(wǎng)絡(luò)學(xué)習(xí)到的顏色信息和幾何信息,可以讓每一個(gè)像素點(diǎn)都根據(jù)對(duì)應(yīng)信息做出位姿估計(jì),提高了網(wǎng)絡(luò)在物體相互遮擋條件下物體的位姿識(shí)別準(zhǔn)確度;

        (5) 利用端到端的神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行位姿求精,可以加快預(yù)測(cè)速度,無(wú)需繁雜的迭代過(guò)程,可以更好地應(yīng)用到實(shí)際中去.

        通過(guò)實(shí)驗(yàn)也說(shuō)明了筆者所提出模型仍存在優(yōu)化和提升的空間,未來(lái)的研究重點(diǎn)為進(jìn)一步簡(jiǎn)化特征提取網(wǎng)絡(luò)、加快模型的訓(xùn)練速度和提高在復(fù)雜環(huán)境下模型的適應(yīng)能力.

        [1] Cui S,Wang R,Wei J,et al. Grasp state assessment of deformable objects using visual-tactile fusion perception[C]//2020 IEEE International Conference on Robotics and Automation(ICRA). 2020:538-544.

        [2] Zakharov S,Shugurov I,Ilic S. Dpod:6D pose object detector and refiner[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul,Korea,2019:1941-1950.

        [3] Zeng A,Song S,Yu K T,et al. Robotic pick-and-place of novel objects in clutter with multi-affordance grasping and cross-domain image matching[C]//2018 IEEE International Conference on Robotics and Automation(ICRA). Brisbane,Australia,2018:3750-3757.

        [4] Gao G,Lauri M,Wang Y,et al. 6D object pose regression via supervised learning on point clouds[C]// 2020 IEEE International Conference on Robotics and Automation(ICRA). 2020:3643-3649.

        [5] Qi C R,Chen X,Litany O,et al. Imvotenet:Boosting 3D object detection in point clouds with image votes[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle,USA,2020:4404-4413.

        [6] Deng X,Xiang Y,Mousavian A,et al. Self-supervised 6D object pose estimation for robot manipulation[C]// 2020 IEEE International Conference on Robotics and Automation(ICRA). 2020:3665-3671.

        [7] Papazov C,Haddadin S,Parusel S,et al. Rigid 3D geometry matching for grasping of known objects in cluttered scenes[J]. International Journal of Robotics Research,2012,31(4):538-553.

        [8] Alvaro C,Dmitry B,Siddhartha S S,et al. Object recognition and full pose registration from a single image for robotic manipulation[C]//2009 IEEE International Conference on Robotics and Automation. Kobe,Japan,2009:48-55.

        [9] Tekin B,Sinha S N,F(xiàn)ua P. Real-time seamless single shot 6d object pose predition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City,USA,2018:292-301.

        [10] Tjaden H,Schwanecke U,Schomer E. Real-time monocular pose estimation of 3D objects using temporally consistent local color historams[C]//Proceedings of the IEEE International Conference on Computer Vision. Venice,Italy,2017:124-132.

        [11] Peng S,Liu Y,Huang Q,et al. PVNet:Pixel-wise voting network for 6DoF pose estimation[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Lone Beach,USA,2019:4561-4570.

        [12] Park K,Patten T,Vincze M. Pix2pose:Pixel-wise coordinate regression of objects for 6D pose estimation[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul,Korea,2019:7668-7677.

        [13] Yu X,Zhuang Z,Koniusz P,et al. 6DoF object pose estimation via differentiable proxy voting loss[EB/OL]. https://arxiv.org/abs/2002.03923,2020-05-04.

        [14] Xu D,Anguelov D,Jain A. Pointfusion:Deep sensor fusion for 3D bounding box estimation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City,USA,2018:244-253.

        [15] Qi C R,Liu W,Wu C,et al. Frustum pointnets for 3D object detection from RGB-D data[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City,USA,2018:918-927.

        [16] Chen P H,Yang H C,Chen K W,et al. MVSNet++:Learning depth-based attention pyramid features for multi-view stereo[J]. IEEE Transactions on Image Processing,2020,29:7261-7273.

        [17] Teng Z,Xiao J. Surface-based detection and 6-DoF pose estimation of 3-D objects in cluttered scenes[J]. IEEE Transactions on Robotics,2016,32(6):1347-1361.

        [18] Wang C,Xu D,Zhu Y,et al. DenseFusion:6D object pose estimation by iterative dense fusion[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach,USA,2019:3343-3352.

        [19] Chen X,Dong Z,Song J,et al. Category level object pose estimation via neural analysis-by-synthesis[C]// European Conference on Computer Vision. Glasgow,UK,2020:139-156.

        [20] Qi C R,Su H,Mo K,et al. PointNet:Deep learning on point sets for 3D classification and segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Hawaii,USA,2017:652-660.

        [21] Qi C R,Yi L,Su H,et al. Pointnet++:Deep hierarchical feature learning on point sets in a metric space[EB/OL]. https://arxiv.org/abs/1706.02413,2017-06-07.

        [22] Xiang Y,Schmidt T,Narayanan V,et al. Posecnn:A convolutional neural network for 6D object pose estimation in cluttered scenes[EB/OL]. https://arxiv.org/abs/ 1711.00199,2018-05-26.

        [23] Zhao H,Shi J,Qi X,et al. Pyramid scene parsing network[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Hawaii,USA,2017:2881-2890.

        [24] Kehl W,Manhardt F,Tombari F,et al. SSD-6D:Making RGB-based 3D detection and 6D pose estimation great again[C]//Proceedings of the IEEE International Conference on Computer Vision. Venice,Italy,2017:1521-1529.

        Six Degrees of Freedom Pose Estimation Based on Keypoints Feature Fusion

        Wang Taiyong1, 2,Sun Haowen1

        (1. School of Mechanical Engineering,Tianjin University,Tianjin 300350,China;2. Tianjin Ren’ai College,Tianjin 301636,China)

        There exists a key technical challenge in performing six degrees of freedom(6-DoF)object pose estimation from a signal red,green,blue,and depth(RGB-D)image to fully leverage the color and depth information.To address this,we present a deep learning framework based on multiple networks pyramid scene parsing network(PSPNet)and PointNet++ combined with a feature fusion network.This method is used for estimating the 6-DoF pose of a set of known objects under a highly cluttered scene.The first stage involved taking colored images as input,performing semantic segmentation for each known object category,and feeding the masked depth pixels as well as an image patch cropped by the mask bounding box to the next stage.Second,point cloud data use the farthest point sampling algorithm to obtain the keypoints and map the keypoints to the color image and the depth image for feature extraction.Color and depth information in the RGB-D image are regarded as heterogeneous data.In the feature extraction process,the keypoints need to fully integrate the local and global information by regarding the color and depth information as heterogeneous data.The PSPNet module and PointNet++ module were used to extract color and geometric information for the RGB image and point cloud data,respectively.Then,a novel pixel-wise feature fu-sion was used to deeply fuse the local and global features of color and geometric information in the selected pix-els.Additionally,a multilayer perceptron was used to output the 6-DoF pose and confidence of each pixel.Finally,an end-to-end iterative pose refinement procedure further improved the pose estimation.Under the open dataset test,LineMOD and YCB-Video,the experimental results showed that compared with other similar existing methods,the proposed method has higher accuracy.Under the same evaluation metrics,the average precisions of the two datasets reach 97.2% and 95.1%,respectively,an increase of 2.9% and 3.9%.The network also meets real-time requirements,and it only takes 0.06s to complete the 6-DoF pose prediction of each image frame.

        6-DoF pose estimation;deep learning;feature fusion;machine vision

        10.11784/tdxbz202101024

        TP391

        A

        0493-2137(2022)05-0543-09

        2021-01-13;

        2021-04-12.

        王太勇(1962—??),男,博士,教授.

        王太勇,tywang@tju.edu.cn.

        國(guó)家自然科學(xué)基金資助項(xiàng)目(51975402);中國(guó)兵器工業(yè)集團(tuán)公司基礎(chǔ)性創(chuàng)新團(tuán)隊(duì)項(xiàng)目(2017CX031).

        Supported by the National Natural Science Foundation of China(No. 51975402),the Basic Innovation Team Program of China North Industries Group Corporation Limited(No. 2017CX031).

        (責(zé)任編輯:王曉燕)

        猜你喜歡
        位姿關(guān)鍵點(diǎn)深度
        聚焦金屬關(guān)鍵點(diǎn)
        肉兔育肥抓好七個(gè)關(guān)鍵點(diǎn)
        深度理解一元一次方程
        深度觀察
        深度觀察
        深度觀察
        基于共面直線迭代加權(quán)最小二乘的相機(jī)位姿估計(jì)
        基于CAD模型的單目六自由度位姿測(cè)量
        小型四旋翼飛行器位姿建模及其仿真
        醫(yī)聯(lián)體要把握三個(gè)關(guān)鍵點(diǎn)
        无码少妇一级AV便在线观看 | 国产极品大秀在线性色| 中国国产不卡视频在线观看| 男女主共患难日久生情的古言| 国产人妻熟女呻吟在线观看| 老师露出两个奶球让我吃奶头| 少妇性饥渴无码a区免费| 亚洲AV日韩AV永久无码电影| 国产精品久久一区性色a| 日韩在线不卡一区三区av| 中国少妇×xxxx性裸交| 亚洲精品无码成人片久久不卡| 国产v综合v亚洲欧美大天堂| 性色av一区二区三区四区久久| 女优av一区二区三区| 无码人妻久久一区二区三区不卡| 亚洲日韩一区二区一无码| 亚洲一区二区三区综合网| 天堂av国产一区二区熟女人妻| 亚洲国产精品18久久久久久| 一本一道久久综合狠狠老| 国产欧美日韩不卡一区二区三区| 少妇久久一区二区三区| 亚洲av无码专区在线| 亚洲欧美日本| 欧美亚洲综合另类| 97国产精品麻豆性色| 大香蕉视频在线青青草| 精品国品一二三产品区别在线观看 | 国产日产免费在线视频| 精品福利一区二区三区蜜桃| 台湾无码av一区二区三区| 少妇太爽了在线观看| 国产成人户外露出视频在线| 亚洲欧美日韩中文综合在线不卡| 中文字幕在线亚洲精品一区| 欧美三级不卡在线观看| 精精国产xxxx视频在线| 亚洲av乱码一区二区三区女同| 国产精品久久久免费精品| 中文字幕无码av波多野吉衣|