亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        采用輔助學(xué)習(xí)的物體六自由度位姿估計(jì)

        2024-04-07 01:29:54陳敏佳蓋紹彥達(dá)飛鵬俞健
        光學(xué)精密工程 2024年6期
        關(guān)鍵詞:特征方法模型

        陳敏佳, 蓋紹彥*, 達(dá)飛鵬, 俞健,3*

        (1.東南大學(xué) 自動(dòng)化學(xué)院,江蘇 南京 210096;2.東南大學(xué) 復(fù)雜工程系統(tǒng)測量與控制教育部重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210096;3.南京航空航天大學(xué) 空間光電探測與感知工業(yè)和信息化部重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 211106)

        1 引 言

        六自由度位姿估計(jì)(6-DoF Pose Estimation)是計(jì)算機(jī)視覺領(lǐng)域的重要研究課題之一,研究的是如何在相機(jī)坐標(biāo)系中,精準(zhǔn)描述物體在空間中的3D位置和3D姿態(tài),主要通過坐標(biāo)系之間的3D平移矩陣和3D旋轉(zhuǎn)矩陣來表示物體和相機(jī)的幾何映射關(guān)系。物體六自由度位姿估計(jì)是許多智能操作任務(wù)的關(guān)鍵步驟和先決條件,已被廣泛應(yīng)用于機(jī)器人環(huán)境感知、自動(dòng)駕駛、增強(qiáng)現(xiàn)實(shí)等領(lǐng)域。RGB-D圖像,即深度圖像,包含了傳感器與視點(diǎn)場景對(duì)象表面的距離信息,每個(gè)像素值和RGB圖像都一一對(duì)應(yīng),利用3D點(diǎn)投影到2D平面的逆過程,可以獲取對(duì)應(yīng)的三維點(diǎn)云,該點(diǎn)云包含豐富的幾何信息。與僅基于RGB圖像的六自由度位姿估計(jì)方法相比,基于RGB-D圖像的方法有利于提高準(zhǔn)確性[1-2],能夠同時(shí)結(jié)合RGB圖像、三維點(diǎn)云兩種不同數(shù)據(jù)的優(yōu)點(diǎn),極大地提升估計(jì)精度[3]。因此,基于RGB-D圖像的方法在過去十年中得到了廣泛關(guān)注和研究。

        傳統(tǒng)的六自由度位姿估計(jì)算法建立在經(jīng)驗(yàn)性的人為設(shè)計(jì)的關(guān)鍵點(diǎn)檢測和特征匹配基礎(chǔ)上,利用SIFT[4](Scale Invariant Feature Transform),SURF[5](Speeded Up Robust Features)等特征描述子為每個(gè)像素或局部圖像塊生成稠密的姿態(tài)預(yù)測。Drost等人[6]提出了一種點(diǎn)對(duì)特征PPF(Point-Pair Feature),在推理階段,場景點(diǎn)的PPF特征和模型點(diǎn)的PPF特征進(jìn)行匹配,并采用投票得到姿態(tài)。Guo等人[7]應(yīng)用SURF算子的匹配特征點(diǎn)、雙極線約束、內(nèi)部參數(shù)和特征點(diǎn)深度值等獲得旋轉(zhuǎn)矩陣和平移矩陣。然而,傳統(tǒng)的方法雖然能夠有效地檢測具有豐富紋理的對(duì)象的2D關(guān)鍵點(diǎn),但不能處理無紋理對(duì)象,只能提取到很少的局部特征,且在一些存在光照變化和嚴(yán)重遮擋的場景,只能獲得有限的性能。

        近年來,在深度學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展推動(dòng)下,許多傳統(tǒng)方法無法解決的問題已通過深度學(xué)習(xí)得到部分解決,物體六自由度位姿估計(jì)的性能取得了極大的提高。已有研究驗(yàn)證[8-10]表明,在六自由度位姿估計(jì)中,基于RGB-D圖像的點(diǎn)級(jí)特征比基于RGB圖像的像素級(jí)特征更有效、更魯棒,且基于RGB圖像的方法通常需要兩階段甚至多階段推理[11],并在很大程度上依賴2D-3D對(duì)應(yīng)點(diǎn)匹配的精度,因此,國內(nèi)外研究者們對(duì)基于RGB-D圖像的位姿估計(jì)進(jìn)行了大量研究。Wang等人[12]提出的DenseFusion在像素級(jí)上融合RGB圖像和深度值。PVN3D[13]采用異構(gòu)結(jié)構(gòu),通過PointNet++[14]獲取點(diǎn)云特征,再利用索引操作將點(diǎn)云特征與RGB特征連接起來。Hua等人[15]利用網(wǎng)絡(luò)進(jìn)行關(guān)鍵點(diǎn)回歸,并用可微幾何位姿估計(jì)器進(jìn)行位姿誤差的反向傳播。Xu等人[16]提出了雙向?qū)?yīng)映射網(wǎng)絡(luò)BiCo-Net,通過標(biāo)準(zhǔn)位姿和觀測位姿之間有向點(diǎn)對(duì)的局部匹配進(jìn)行的位姿計(jì)算。Zhai等人[17]融合截?cái)嘧钚《?半定松弛算法和最近點(diǎn)迭代算法,建立目標(biāo)六自由度位姿估計(jì)模型,最終保證目標(biāo)點(diǎn)云和模型點(diǎn)云在重合率較低情況下的精準(zhǔn)配準(zhǔn)。然而,目前大多數(shù)基于RGB-D圖像的稠密融合網(wǎng)絡(luò)往往通過索引操作融合特征,這使得網(wǎng)絡(luò)能夠獲得魯棒的特征,但也會(huì)帶來隨機(jī)內(nèi)存訪問的問題,導(dǎo)致網(wǎng)絡(luò)并不高效。

        輔助學(xué)習(xí)(Auxiliary Learning)是一種有效提高網(wǎng)絡(luò)效率的方法,目前在計(jì)算機(jī)視覺領(lǐng)域已有許多成功應(yīng)用的例子。單任務(wù)學(xué)習(xí)和多任務(wù)學(xué)習(xí)在訓(xùn)練和推理階段都執(zhí)行單個(gè)任務(wù)或多個(gè)任務(wù),而輔助學(xué)習(xí)與這兩者不同的地方在于:在訓(xùn)練階段,同時(shí)執(zhí)行一個(gè)或多個(gè)主要任務(wù)以及一個(gè)或多個(gè)輔助任務(wù),但在性能評(píng)估(即測試和推理)階段只執(zhí)行主要任務(wù)。如Zhang等人[18]的人臉模型主要任務(wù)是人臉關(guān)鍵點(diǎn)檢測,而輔助任務(wù)為估計(jì)頭部位姿和預(yù)測臉部屬性;Liu等人[19]的檢測模型中提出了一種學(xué)習(xí)單目上下文信息的方法作為訓(xùn)練中的輔助任務(wù),得到豐富且定位良好的二維投影監(jiān)督信號(hào),用于單目三維目標(biāo)檢測。這些工作都表明,適當(dāng)?shù)妮o助約束有利于目標(biāo)結(jié)果的穩(wěn)定性和魯棒性。

        為了在具有挑戰(zhàn)性的場景下,如少紋理和嚴(yán)重遮擋等,實(shí)現(xiàn)更高精度的物體位姿估計(jì),就必須充分發(fā)揮點(diǎn)云數(shù)據(jù)的作用,這就需要有效地提取并融合來自二維圖像的顏色信息和三維點(diǎn)云的幾何信息。在這一背景下,受輔助學(xué)習(xí)思想的啟發(fā),本文提出了一種采用輔助學(xué)習(xí)的物體六自由度位姿估計(jì)方法,旨在提高網(wǎng)絡(luò)效率的同時(shí)簡化網(wǎng)絡(luò)結(jié)構(gòu)。這一方法的核心思想是通過輔助學(xué)習(xí)在訓(xùn)練過程中引入額外的任務(wù)和信息,以幫助網(wǎng)絡(luò)更好地理解和利用點(diǎn)云數(shù)據(jù),從而實(shí)現(xiàn)更精確的位姿估計(jì)。具體而言,在訓(xùn)練階段,主干網(wǎng)絡(luò)采用點(diǎn)云配準(zhǔn)策略,并利用一個(gè)輔助學(xué)習(xí)網(wǎng)絡(luò),將其直接回歸得到的全局位姿作為先驗(yàn),用于優(yōu)化整個(gè)網(wǎng)絡(luò)的損失計(jì)算;推理階段,僅將主干網(wǎng)絡(luò)的輸出用于位姿計(jì)算,再基于點(diǎn)對(duì)特征PPF對(duì)模型點(diǎn)和場景點(diǎn)進(jìn)行匹配,得到最終的位姿輸出。

        2 位姿估計(jì)模型構(gòu)建

        采用輔助學(xué)習(xí)的物體六自由度位姿估計(jì)網(wǎng)絡(luò)架構(gòu)如圖1所示。給定一幅RGB-D圖像和物體的三維CAD模型(如圖1左側(cè)所示),位姿估計(jì)的任務(wù)是預(yù)測一個(gè)變換矩陣T,T=[R|t],其中旋轉(zhuǎn)矩陣R∈SO(3),平移矩陣t∈R3,矩陣T將目標(biāo)從自身物體坐標(biāo)系轉(zhuǎn)換到相機(jī)坐標(biāo)系,表示了圖像中目標(biāo)剛體物體在相機(jī)坐標(biāo)系中的位置。

        圖1 采用輔助學(xué)習(xí)的物體六自由度位姿估計(jì)網(wǎng)絡(luò)架構(gòu)Fig.1 Network architecture of object 6-DoF pose estimation based on auxiliary learning

        圖1中,本文設(shè)計(jì)的六自由度位姿估計(jì)網(wǎng)絡(luò)主要包括三個(gè)部分:雙分支點(diǎn)云配準(zhǔn)(Dual-Branch for Point Cloud Registration,DBR)、輔助學(xué)習(xí)網(wǎng)絡(luò)(Auxiliary Learning Network,ALNet)、點(diǎn)對(duì)特征匹配(Point-Pair Feature Matching,PPF)。其中,DBR為主干網(wǎng)絡(luò),在訓(xùn)練、測試和推理階段均使用,并在測試和推理時(shí)利用PPF匹配估計(jì)位姿;AL-Net為輔助學(xué)習(xí)網(wǎng)絡(luò),僅在訓(xùn)練階段用于直接回歸位姿。

        2.1 雙分支點(diǎn)云配準(zhǔn)

        點(diǎn)云配準(zhǔn)根據(jù)處理過程可分為初始配準(zhǔn)和精確配準(zhǔn)。近年來,國內(nèi)外的研究[20-21]更多關(guān)注的是精確配準(zhǔn)算法及相應(yīng)改進(jìn)應(yīng)用。然而,初始配準(zhǔn)可以為精確配準(zhǔn)提供良好的位姿初值,減少精確配準(zhǔn)的迭代次數(shù),同時(shí)避免算法局部最優(yōu)。本文主干網(wǎng)絡(luò)基于點(diǎn)云初始配準(zhǔn)思想[16],采用如圖2所示的雙分支點(diǎn)云配準(zhǔn)模型DBR。

        圖2 雙分支點(diǎn)云配準(zhǔn)模型Fig.2 Dual-branch for point cloud registration

        首先,對(duì)原始圖像進(jìn)行裁剪,得到包含目標(biāo)物體的圖像塊I;同時(shí),將物體區(qū)域?qū)?yīng)的深度值轉(zhuǎn)換為點(diǎn)云數(shù)據(jù),并根據(jù)主成分分析法估計(jì)法向量,得到相機(jī)空間下的場景點(diǎn)云S。圖2中,第一個(gè)分支為相機(jī)空間-模型空間(Camera Space to Model Space,C2M)映射,將圖像塊I和場景點(diǎn)云S分別經(jīng)過CNN(Convolutional Neural Network)和MLP(Multilayer Perceptron)進(jìn)行特征編碼,提取顏色特征和幾何特征,并利用類似PointNet的方法對(duì)特征進(jìn)行像素級(jí)融合,再通過MLP和平均池化得到全局特征。最后經(jīng)過上采樣解碼得到與輸入點(diǎn)云尺寸大小相同的模型空間下的點(diǎn)云M?。第二個(gè)分支為模型空間-相機(jī)空間(Model Space to Camera Space,M2C)映射,以CAD模型點(diǎn)云M為輸入,該點(diǎn)云包含了點(diǎn)云坐標(biāo)、法向量、RGB信息,利用一個(gè)簡單的編碼器提取幾何和顏色特征,并同樣進(jìn)行像素級(jí)融合,再經(jīng)過上采樣解碼得到相機(jī)空間下的點(diǎn)云S?。

        在C2M分支中,將相機(jī)空間下的場景點(diǎn)云S作為模板點(diǎn)云,預(yù)測的模型空間下的點(diǎn)云M?作為源點(diǎn)云;在M2C分支中,將模型空間下的CAD模型點(diǎn)云M作為模板點(diǎn)云,預(yù)測的相機(jī)空間下的點(diǎn)云S?作為源點(diǎn)云,目的是通過這樣雙向映射的方式更好地獲取源點(diǎn)云與模板點(diǎn)云之間的變換關(guān)系,便于提高后續(xù)2.3節(jié)中六自由度位姿估計(jì)的準(zhǔn)確性。

        2.2 輔助學(xué)習(xí)網(wǎng)絡(luò)

        輔助學(xué)習(xí)的目的是在訓(xùn)練階段增加一些網(wǎng)絡(luò)分支,對(duì)其計(jì)算損失項(xiàng),但在評(píng)估階段忽略這些分支,以求取得更好的特征表示。增加的這些分支可能與任務(wù)預(yù)測的參數(shù)并不相關(guān),只是單純地希望網(wǎng)絡(luò)特征能具有這個(gè)能力。在本方法中,借鑒輔助學(xué)習(xí)的思想,考慮到主干網(wǎng)絡(luò)進(jìn)行點(diǎn)云配準(zhǔn)的本質(zhì)是為了獲取一對(duì)點(diǎn)云之間的變換矩陣,但最終的輸出并沒有涉及具體的旋轉(zhuǎn)矩陣和偏移矩陣,因此,為了在訓(xùn)練過程中得到豐富且良好的監(jiān)督信息,設(shè)計(jì)了一個(gè)輔助學(xué)習(xí)網(wǎng)絡(luò)用于直接回歸全局位姿,核心思想是將回歸的結(jié)果作為一種先驗(yàn),對(duì)損失計(jì)算進(jìn)行約束。輔助學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)分為兩部分:多模態(tài)特征提取及融合模塊(Multi-modal Feature Extraction and Fusion Module,MFEF)和由粗到細(xì)的位姿估計(jì)網(wǎng)絡(luò)(Coarseto-Fine Net,C2F-Net)。

        2.2.1 多模態(tài)特征提取及融合模塊

        由于給定的RGB-D圖像是良好對(duì)齊的,因此,可以使用三維點(diǎn)云作為連接像素和點(diǎn)特征的橋梁。即利用相機(jī)內(nèi)參矩陣將每個(gè)像素的深度提升到其對(duì)應(yīng)的三維點(diǎn),獲得與RGB圖像對(duì)齊的Depth-XYZ??紤]到二維卷積運(yùn)算的一個(gè)特點(diǎn)是對(duì)相鄰信息進(jìn)行分組來提取局部特征,于是在MFEF模塊中,通過二維卷積同時(shí)提取RGB和點(diǎn)云的局部特征。

        MFEF模塊的輸入有兩項(xiàng):一是同主干網(wǎng)絡(luò)一樣的包含目標(biāo)物體的圖像塊I;另一個(gè)是由深度圖轉(zhuǎn)換得到的點(diǎn)云信息Depth-XYZ。Depth-XYZ表示每個(gè)圖像像素的標(biāo)準(zhǔn)化三維坐標(biāo),與圖像塊I具有同樣的尺寸,嚴(yán)格對(duì)齊。給定一幅深度圖像,每個(gè)像素(u,v)中存儲(chǔ)的深度值為D,且深度值和相機(jī)坐標(biāo)系下的Z軸值相同,因此,可以通過公式(1)所示的深度圖像和相機(jī)坐標(biāo)系下點(diǎn)云之間的轉(zhuǎn)換關(guān)系獲得Depth-XYZ圖像:

        其中:cx,cy是相機(jī)中心,fx,fy是x軸和y軸的焦距,[u,v,1]T為圖像像素坐標(biāo),[X,Y,Z]T為轉(zhuǎn)換后相機(jī)坐標(biāo)系下的點(diǎn)云坐標(biāo)。

        為了有效提取來自異構(gòu)數(shù)據(jù)源的信息,盡可能防止丟失點(diǎn)云的空間信息,同時(shí)提取語義信息和幾何信息,對(duì)提取的來自二維圖像和三維點(diǎn)云的多模態(tài)特征進(jìn)行融合,本模塊共包含三個(gè)部分:局部特征提取、空間信息編碼及特征融合。

        局部特征提取器將圖像塊I和Depth-XYZ一起作為輸入,通過ResNet18的一個(gè)變體提取局部的語義和幾何特征,設(shè)置不同的卷積核大小和下采樣率擴(kuò)大感受野。具體結(jié)構(gòu)如圖3所示,輸出大小為(1 024×32×32)的局部特征。

        圖3 局部特征提取器Fig.3 Local feature extractor

        空間信息編碼器通過一個(gè)類似PointNet的全卷積網(wǎng)絡(luò)對(duì)具有局部特征的點(diǎn)云進(jìn)行編碼,用全局信息增強(qiáng)特征。將第一部分獲得的局部特征和Depth-XYZ下采樣的結(jié)果進(jìn)行連接后,用二維卷積操作對(duì)每個(gè)點(diǎn)的局部特征和坐標(biāo)進(jìn)行編碼,然后通過自適應(yīng)最大池化獲得全局特征,并與點(diǎn)級(jí)特征相連接,提供全局上下文。具體結(jié)構(gòu)如圖4所示,輸出大小為(1 024×32×32)的全局特征。

        圖4 空間信息編碼器Fig.4 Spatial information encoder

        特征融合部分將前兩部分提取的局部特征和點(diǎn)云特征整合在一起,輸出大小為(2 048×32×32)的特征圖。最終形成既具有局部和全局特征,又具有語義和幾何特征的點(diǎn)級(jí)特征,這樣的融合有利于使位姿估計(jì)對(duì)少紋理和嚴(yán)重遮擋的情況具有魯棒性。

        2.2.2 由粗到細(xì)的位姿估計(jì)網(wǎng)絡(luò)

        圖像塊I是對(duì)原始RGB圖像語義分割的結(jié)果,由于語義分割結(jié)果的背景帶來的干擾以及存在遮擋等問題,若對(duì)位姿進(jìn)行直接回歸,則不可避免地存在誤差。為了充分利用點(diǎn)云數(shù)據(jù),更好地使用圖像顏色信息和點(diǎn)云幾何信息,進(jìn)而對(duì)粗略的初始姿態(tài)進(jìn)行細(xì)化,設(shè)計(jì)了C2FNet,目的是使網(wǎng)絡(luò)能夠?qū)W習(xí)糾正自己的位姿估計(jì)誤差,改進(jìn)之前的逐點(diǎn)預(yù)測,最終獲得新的全局的預(yù)測。

        C2F-Net網(wǎng)絡(luò)包含兩個(gè)步驟:粗(Coarse)位姿估計(jì)和細(xì)(Fine)位姿估計(jì),是一個(gè)由粗到細(xì)的過程。

        粗位姿估計(jì)部分的輸入為經(jīng)過MFEF模塊后輸出的融合特征,在經(jīng)過四個(gè)卷積層后,得到大小分別為(num_obj×4×N)和(num_obj×3×N)的位姿R和t,即為所有類別的每個(gè)點(diǎn)都預(yù)測了位姿,其中,num_obj表示物體類別總數(shù),N表示點(diǎn)云的采樣點(diǎn)數(shù),4表示四元數(shù)的4個(gè)參數(shù)(ω,x,y,z),3表示平移矩陣的3個(gè)參數(shù)(tx,ty,tz)。然后根據(jù)類別找到當(dāng)前輸入物體類別下對(duì)應(yīng)的位姿,經(jīng)過該操作后的輸出位姿大小為(N×4)和(N×3),也就是為輸入目標(biāo)物體的每個(gè)采樣點(diǎn)都預(yù)測了位姿。此時(shí),將當(dāng)前輸出的位姿結(jié)果輸入粗預(yù)測過程,即進(jìn)行粗略的位姿預(yù)測。該過程包含以下操作:

        2.2.2.1參數(shù)轉(zhuǎn)換

        首先將把預(yù)測的旋轉(zhuǎn)參數(shù)轉(zhuǎn)化為旋轉(zhuǎn)矩陣。網(wǎng)絡(luò)回歸出的是四元數(shù)的4個(gè)數(shù)值,要轉(zhuǎn)換成原始的9個(gè)數(shù)值。旋轉(zhuǎn)矩陣R可以由四元數(shù)Q=(ω,x,y,z)表示為:

        2.2.2.2 點(diǎn)云變換

        為每個(gè)點(diǎn)求取平均的旋轉(zhuǎn)矩陣R和平移矩陣t后,由深度數(shù)據(jù)轉(zhuǎn)換過來的點(diǎn)云p0,根據(jù)剛體變換公式:

        其中:p0是相機(jī)坐標(biāo)系下的點(diǎn)云,pnew為預(yù)測得到的模型坐標(biāo)系下的點(diǎn)云。獲得的變換后的新點(diǎn)云pnew包含了空間信息,因此,可以對(duì)其提取幾何特征。

        細(xì)位姿估計(jì)具體實(shí)現(xiàn)過程如圖5所示。根據(jù)當(dāng)前輸入幀,利用PSPNet(Pyramid Scene Parsing Network)提取包含了顏色信息的color embeddings特征,將其同pnew一起作為輸入,進(jìn)入細(xì)預(yù)測過程,利用PointNet思想將兩者進(jìn)行特征融合,輸出細(xì)化后的位姿。此時(shí)的輸出位姿R和t的大小分別為(1×4)和(1×3),也就是為當(dāng)前幀輸入的目標(biāo)物體預(yù)測了一個(gè)整體的、全局的位姿。最后,將細(xì)化后的位姿輸入損失函數(shù),同樣用類似上述參數(shù)轉(zhuǎn)換和點(diǎn)云變換操作進(jìn)行損失計(jì)算,與粗位姿估計(jì)過程不同的是,此時(shí)每個(gè)采樣點(diǎn)都共享同一個(gè)位姿。

        圖5 細(xì)位姿估計(jì)流程圖Fig.5 Pipeline of fine pose estimation

        2.3 六自由度位姿估計(jì)

        Drost等人[6]提出了一種基于有向點(diǎn)對(duì)特征PPF的“全局建模,局部匹配”的識(shí)別框架,只在點(diǎn)云上操作。點(diǎn)對(duì)特征PPF為兩個(gè)有向點(diǎn)的相對(duì)位置和方向進(jìn)行編碼,示意圖如圖6所示。

        圖6 點(diǎn)對(duì)特征示意圖Fig.6 Illustration of point pair feature

        給定參考點(diǎn)p1和目標(biāo)點(diǎn)p2,其法向量分別為n1和n2,PPF可由式(4)形式化定義:

        其中:d=p2-p2,∠(a,b)∈[0,π]為向量a和向量b之間的夾角。

        基于PPF方法,通過匹配有向點(diǎn)對(duì)生成的局部特征來描述目標(biāo)位姿[22]。在2.1節(jié)的主干網(wǎng)絡(luò)中,已經(jīng)能夠獲得兩組相機(jī)空間和模型空間的有向點(diǎn)云,即可以對(duì)S中任意一個(gè)有向點(diǎn)對(duì)與中相應(yīng)的有向點(diǎn)對(duì)進(jìn)行軸角計(jì)算,進(jìn)而確定位姿。類似地,對(duì)M和采用同樣的方式進(jìn)行處理。采用基于PPF的方法估計(jì)六自由度位姿,僅依賴單個(gè)點(diǎn)對(duì)進(jìn)行預(yù)測,因此對(duì)于稀疏點(diǎn)和分布不均勻的點(diǎn)具有良好的魯棒性,在嚴(yán)重遮擋的情況下也能取得較好的性能。

        最后,將兩個(gè)分支的兩組結(jié)果取平均,得到最終預(yù)測的目標(biāo)物體的六自由度位姿,這樣的做法能夠充分利用兩個(gè)集合的互補(bǔ)信息,獲得更準(zhǔn)確的結(jié)果。

        3 損失函數(shù)

        對(duì)于主干網(wǎng)絡(luò)的兩個(gè)分支,使用源點(diǎn)云與模板點(diǎn)云之間的L2距離作為損失函數(shù):

        其中:N為由深度圖轉(zhuǎn)換得到的點(diǎn)云的采樣點(diǎn)數(shù),M為從CAD模型表面采樣點(diǎn)數(shù),λ為權(quán)重超參數(shù)(實(shí)驗(yàn)中根據(jù)文獻(xiàn)[16]設(shè)置為0.05),(mi,ni)和(aj,bj)分別為C2M和M2C分支的有向點(diǎn)真值為對(duì)應(yīng)的預(yù)測點(diǎn)。

        在訓(xùn)練過程中,評(píng)估位姿估計(jì)網(wǎng)絡(luò)可以簡單地對(duì)旋轉(zhuǎn)和平移分別使用單獨(dú)的損失函數(shù),例如使用角距離度量旋轉(zhuǎn)誤差,使用L2距離度量平移誤差。然而,在六自由度位姿估計(jì)中,旋轉(zhuǎn)和平移通常是耦合的,它們相互影響,物體的平移變化可能會(huì)導(dǎo)致物體的旋轉(zhuǎn)變化,反之亦然。因此,將它們分別處理可能會(huì)導(dǎo)致不一致性或不穩(wěn)定性。此外,位姿使用一個(gè)4×4的變換矩陣表示,該矩陣同時(shí)包含了旋轉(zhuǎn)和平移信息,它們在本質(zhì)上是相關(guān)聯(lián)的,分別處理也會(huì)帶來數(shù)學(xué)表達(dá)上的不一致。同時(shí),單獨(dú)設(shè)計(jì)旋轉(zhuǎn)和平移的損失函數(shù)可能會(huì)增加模型的復(fù)雜性,并需要更多的數(shù)據(jù)參與訓(xùn)練。綜合以上考慮,在本方法中,對(duì)于輔助學(xué)習(xí)網(wǎng)絡(luò)的直接回歸分支,采用基于ADD(-S)度量的點(diǎn)匹配損失變體來耦合旋轉(zhuǎn)和平移的估計(jì)。位姿估計(jì)的點(diǎn)匹配損失定義為真實(shí)位姿下目標(biāo)模型點(diǎn)云上的采樣點(diǎn),與經(jīng)過預(yù)測位姿變換后同一目標(biāo)模型點(diǎn)云上的對(duì)應(yīng)點(diǎn)之間的距離。即對(duì)于非對(duì)稱物體,損失計(jì)算定義為:

        其中:xk表示K個(gè)采樣點(diǎn)中的第k個(gè)點(diǎn),T=[R|t]為位姿真值為預(yù)測的位姿,需要注意的是,這里的為全局位姿,即每個(gè)點(diǎn)都共享同一個(gè)位姿,而不是同文獻(xiàn)[12]和文獻(xiàn)[16]等方法中所采用的每個(gè)采樣點(diǎn)都有各自的位姿。

        而對(duì)于對(duì)稱物體,考慮到其具有非唯一性,將優(yōu)化目標(biāo)定為最小化預(yù)測目標(biāo)模型上的每個(gè)點(diǎn)與真實(shí)目標(biāo)模型上最近點(diǎn)之間的距離,損失計(jì)算定義為:

        因此,整體的損失函數(shù)可由式(11)表示:

        4 實(shí)驗(yàn)與結(jié)果

        本文在YCB-Video、LineMOD和LineMOD-Occluded(以下簡稱LM-O)三個(gè)常用的公開數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)硬件配置為Intel i9-12900K CPU,內(nèi)存為32 GB,單張NVIDIA Ge-Force RTX 3080顯卡,顯存為12 GB。網(wǎng)絡(luò)模型通過Pytorch框架搭建。

        4.1 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

        4.1.1 數(shù)據(jù)集

        YCB-Video:具有強(qiáng)遮擋、背景雜波和多個(gè)對(duì)稱物體,包含了21個(gè)不同形狀、不同紋理的YCB對(duì)象,共有92個(gè)RGB-D視頻序列,其中80個(gè)序列用于訓(xùn)練,其余12個(gè)序列中的2 949個(gè)關(guān)鍵幀用于測試,并另外將80 000張合成圖像包含在訓(xùn)練集中。

        LineMOD:由13個(gè)序列組成,每個(gè)序列包含約1 200張雜亂場景中單個(gè)無紋理物體的RGB-D圖像和三維模型。該數(shù)據(jù)集的主要挑戰(zhàn)是雜亂場景、無紋理對(duì)象和光照變化。遵循該領(lǐng)域常規(guī)的數(shù)據(jù)集劃分方式,將約15%的圖像用于訓(xùn)練,85%用于測試。

        LM-O:是LineMOD的子集,由來自LineMOD序列的1 214張圖像組成,包含了8個(gè)帶標(biāo)注的具有嚴(yán)重遮擋的物體。該數(shù)據(jù)集的主要挑戰(zhàn)是嚴(yán)重遮擋,尤其是對(duì)于小目標(biāo)。在本章實(shí)驗(yàn)中,LM-O數(shù)據(jù)集僅用于測試,訓(xùn)練在LineMOD數(shù)據(jù)集上完成。

        4.1.2 評(píng)價(jià)指標(biāo)

        本文使用常用的六自由度物體位姿評(píng)價(jià)指標(biāo)進(jìn)行性能評(píng)估。對(duì)于YCB-Video數(shù)據(jù)集,考慮對(duì)稱和非對(duì)稱物體的總體評(píng)價(jià),遵循其他模型常用的評(píng)估方法,采用平均距離ADD(-S)和曲線下面積AUC(Area under Curve)作為性能評(píng)價(jià)指標(biāo)。給出ADD-S<2 cm的百分比結(jié)果,并將AUC的最大閾值設(shè)置為10 cm,通過改變距離閾值(0~10 cm)計(jì)算ADD-S的AUC。

        針對(duì)LineMOD和LM-O數(shù)據(jù)集,對(duì)非對(duì)稱物體,計(jì)算經(jīng)過預(yù)測位姿和真實(shí)位姿變換后,目標(biāo)物體點(diǎn)對(duì)之間的平均距離ADD(Average Distance of Model Points);對(duì)對(duì)稱物體,計(jì)算基于最近點(diǎn)距離的ADD-S。將計(jì)算距離小于目標(biāo)物體直徑10%(ADD-0.1d)的結(jié)果認(rèn)為是預(yù)測正確的位姿,作為準(zhǔn)確性度量。

        4.2 實(shí)驗(yàn)結(jié)果分析

        4.2.1 六自由度位姿估計(jì)結(jié)果

        為了證明所提方法的有效性,將本文方法與國內(nèi)外現(xiàn)有的其他基于RGB-D圖像的物體六自由度位姿估計(jì)方法進(jìn)行了對(duì)比,包括基于直接回歸的方法DenseFusion[12],REDE[15]和PRGCN[23],基于對(duì)應(yīng)學(xué)習(xí)的方法PVN3D[13],BiCo-Net[16]和DCL-Net[24]。

        表1展示了YCB-Video數(shù)據(jù)集上21個(gè)目標(biāo)物體的評(píng)估結(jié)果,其中,“<2 cm”表示ADD-S<2 cm預(yù)測結(jié)果百分比,加粗的物體為對(duì)稱物體。可以看出,本文方法與基準(zhǔn)網(wǎng)絡(luò)BiCo-Net[13]相比,在AUC和ADD-S<2 cm這兩個(gè)指標(biāo)上均能達(dá)到較好的估計(jì)效果,且在ADD-S<2 cm指標(biāo)上提高了0.2%。在表中所列方法中,綜合評(píng)估結(jié)果僅次于DCL-Net[24]。圖7(彩圖見期刊電子版)展示了YCB-Video數(shù)據(jù)集上部分幀的定性估計(jì)結(jié)果,將采樣點(diǎn)利用預(yù)測的位姿變換后投影到原始二維圖像中,從左到右依次為RGB圖像、對(duì)應(yīng)的深度圖、BiCo-Net[16]預(yù)測結(jié)果、DCL-Net[24]預(yù)測結(jié)果以及本文方法預(yù)測結(jié)果??梢钥吹?,本文方法能夠獲得相對(duì)更優(yōu)的估計(jì)結(jié)果,與基準(zhǔn)網(wǎng)絡(luò)BiCo-Net[16]相比,在第一行中的大型夾具(天藍(lán)色)和超大型夾具(紫色)都有明顯的準(zhǔn)確性提高,這兩類物體由于僅具有尺寸上的不同也被認(rèn)為是有挑戰(zhàn)性的;再如第二行中的金槍魚罐頭(綠色)、第三行中的餅干盒(深藍(lán)色)、第四行中的剪刀(珊瑚紅),這些物體都具有不同程度的遮擋或自遮擋情況,本文預(yù)測結(jié)果較BiCo-Net[16]均更加貼近目標(biāo)物體,除了網(wǎng)絡(luò)本身帶來的作用外,還因?yàn)楸痉椒ㄔ谠O(shè)計(jì)損失函數(shù)時(shí),對(duì)待測物體的每個(gè)采樣點(diǎn)都使用同一個(gè)共享位姿,彌補(bǔ)了遮擋區(qū)域部分采樣點(diǎn)可能存在的誤差。此外,與DCL-Net[24]相比,也有一定程度的改進(jìn)。

        表1 YCB-Video數(shù)據(jù)集上的定量評(píng)估結(jié)果Tab.1 Quantitative evaluation results on YCB-Video Dataset(%)

        圖7 YCB-Video數(shù)據(jù)集上的位姿估計(jì)定性結(jié)果Fig.7 Qualitative results of pose estimation on YCB-Video Dataset

        表2總結(jié)了不同方法在LnieMOD數(shù)據(jù)集上全部13個(gè)目標(biāo)物體的ADD(-S)結(jié)果。根據(jù)表2可以看到,本文方法的評(píng)估結(jié)果略優(yōu)于BiCo-Net[16],同樣僅次于DCL-Net[24]。然而,DCLNet[24]在獲得兩個(gè)坐標(biāo)系下的點(diǎn)云特征并進(jìn)行匹配后,還通過了一個(gè)迭代的基于置信度的位姿優(yōu)化后處理網(wǎng)絡(luò),這樣的設(shè)置在一定程度上增加了網(wǎng)絡(luò)模型的復(fù)雜性,而本文方法則在性能評(píng)估階段舍棄輔助學(xué)習(xí)直接回歸分支,大大減少了網(wǎng)絡(luò)參數(shù)。因此,相比較而言,本文所提方法仍具有一定優(yōu)勢。圖8(彩圖見期刊電子版)展示了LineMOD數(shù)據(jù)集上的部分幀的位姿估計(jì)定性結(jié)果,同樣將采樣點(diǎn)利用預(yù)測的位姿變換后投影到原始二維圖像中,從左到右依次為RGB圖像、對(duì)應(yīng)的深度圖、位姿估計(jì)真值預(yù)測結(jié)果、BiCo-Net[16]預(yù)測結(jié)果、DCL-Net[24]預(yù)測結(jié)果以及本文方法預(yù)測結(jié)果。從圖中也可以看出,本文方法較基準(zhǔn)網(wǎng)絡(luò)BiCo-Net[16]能夠在雜亂場景中具有單色、少紋理特征的物體,如大猩猩擺件、鉆頭、水壺模型上獲得更加準(zhǔn)確的位姿估計(jì)結(jié)果,與DCL-Net[24]也有可比性,這表明本文方法針對(duì)少紋理情況也能達(dá)到良好的估計(jì)效果。

        表2 LineMOD數(shù)據(jù)集上的定量評(píng)估結(jié)果Tab.2 Quantitative evaluation results on LineMOD Dataset(%)

        圖8 LineMOD數(shù)據(jù)集上的位姿估計(jì)定性結(jié)果Fig.8 Qualitative results of pose estimation on LineMOD Dataset

        表3列出了不同方法在LM-O數(shù)據(jù)集上8個(gè)具有不同程度嚴(yán)重遮擋的目標(biāo)物體位姿估計(jì)的定量評(píng)估結(jié)果??梢钥吹?,本文方法在所有方法中取得了最優(yōu)的性能,與其他模型相比,獲得了較大的提升,ADD(-S)結(jié)果較BiCo-Net[16]提升了1.8%,較DCL-Net[24]提升了0.7%,表明本文方法在處理具有不同程度的遮擋情況時(shí)有較為突出的優(yōu)勢。

        表3 LM-O數(shù)據(jù)集上的定量評(píng)估結(jié)果Tab.3 Quantitative evaluation results on LM-O Dataset(%)

        由表1~3可以看出,本文方法在進(jìn)行定量評(píng)估的過程中,部分單個(gè)目標(biāo)估計(jì)的準(zhǔn)確性稍遜于其他方法,但所有物體的平均位姿估計(jì)準(zhǔn)確率尚佳,這是由于圖像噪聲、光照變化等不確定性因素帶來的結(jié)果不穩(wěn)定性;此外,物體在不同視角和遮擋條件下的外觀可能會(huì)發(fā)生較大變化,這也會(huì)導(dǎo)致單個(gè)目標(biāo)估計(jì)容易受到外部因素的干擾,通過平均估計(jì),可以減小這些噪聲和不確定性的影響,提高魯棒性。

        表4給出了本文方法與BOP Challenge 2022上部分基于RGB數(shù)據(jù)、RGB-D數(shù)據(jù)方法的比較。對(duì)于YCB-Video數(shù)據(jù)集,本文方法僅在AUC這一指標(biāo)上略低于RCVPose3D[29];對(duì)于LM-O數(shù)據(jù)集,較基于RGB數(shù)據(jù)的GDR-Net[25]和PFA[26]分別提高了9.1%和7.2%,與ZebraPose[27]和RCVPose3D[29]還有一定的差距。在后續(xù)研究中,將思考學(xué)習(xí)這些方法中對(duì)PBR(Physicallybased Rendering)以及3D Mesh數(shù)據(jù)的有效利用,不斷挖掘模型潛力。

        表4 與BOP Challenge 2022上部分方法的比較Tab.4 Comparison on BOP Challenge 2022(%)

        為了進(jìn)一步驗(yàn)證本文所提方法在提高網(wǎng)絡(luò)運(yùn)行效率方面的有效性,在LineMOD數(shù)據(jù)集上對(duì)平均推理時(shí)間進(jìn)行評(píng)估,同時(shí),為確保實(shí)驗(yàn)結(jié)果的公平性和可比性,采用與同行研究中所報(bào)道的相同硬件配置,在單張NVIDIA GeForce GTX 1080 Ti顯卡上進(jìn)行實(shí)驗(yàn),每幀圖像的平均推理時(shí)間如表5所示,其中,Seg表示Segmentation分割,PE表示Pose estimation位姿估計(jì),Refine表示位姿優(yōu)化。從表中可以看出,本文方法雖然在位姿估計(jì)部分比DenseFusion[12]和PRGCN[23]耗時(shí)略久,但由于不需要位姿優(yōu)化后處理,每幀圖像的平均推理時(shí)間總計(jì)為69ms,與表中所列方法相當(dāng),這在機(jī)器人抓取等下游任務(wù)中能夠滿足實(shí)時(shí)性需求。

        表5 LineMOD數(shù)據(jù)集上的推理時(shí)間比較Tab.5 Comparison of inference time on LineMOD dataset(ms)

        本文還對(duì)相關(guān)模型的參數(shù)量進(jìn)行了比較,用于驗(yàn)證所提方法在空間復(fù)雜度上所占的優(yōu)勢,比較結(jié)果如表6所示。根據(jù)表6,本文方法由于在推理階段舍棄了輔助學(xué)習(xí)網(wǎng)絡(luò),極大程度地減少了模型參數(shù),降低了網(wǎng)絡(luò)復(fù)雜度。此外,與DCLNet[24]相比,不需要對(duì)主干網(wǎng)絡(luò)的位姿估計(jì)結(jié)果進(jìn)行優(yōu)化后處理,也體現(xiàn)了所提方法在網(wǎng)絡(luò)構(gòu)建方面的優(yōu)越性。

        表6 模型參數(shù)量比較Tab.6 Comparison of model parameters(M)

        4.2.2 消融實(shí)驗(yàn)

        為了驗(yàn)證提出的網(wǎng)絡(luò)中各模塊的有效性,本文設(shè)置了一系列消融實(shí)驗(yàn)進(jìn)行驗(yàn)證,實(shí)驗(yàn)均在LM-O數(shù)據(jù)集上進(jìn)行。實(shí)驗(yàn)結(jié)果如表7~表8所示。

        表7 不同分支下的實(shí)驗(yàn)結(jié)果Tab.7 Experiment results of different branches

        表8 輔助學(xué)習(xí)網(wǎng)絡(luò)模塊實(shí)驗(yàn)結(jié)果Tab.8 Experiment results of auxiliary learning network(%)

        表7中,C2M表示雙分支點(diǎn)云配準(zhǔn)模型中的相機(jī)空間-模型空間映射分支,M2C表示模型空間-相機(jī)空間映射分支,AL-Net表示輔助學(xué)習(xí)網(wǎng)絡(luò)分支。這里需要注意的是,當(dāng)不采用AL-Net分支時(shí)(即表格中的前三行),由于網(wǎng)絡(luò)的損失函數(shù)需要一個(gè)六自由度位姿的估計(jì)值對(duì)雙分支點(diǎn)云配準(zhǔn)網(wǎng)絡(luò)的輸出進(jìn)行計(jì)算,因此,使用類似Bi-Co-Net[16]中的直接回歸分支(Pose Reg)計(jì)算位姿變換矩陣;而采用AL-Net時(shí)(即表格中的最后一行),直接將AL-Net的輸出結(jié)果作為損失計(jì)算的位姿估計(jì)值。從表中可以看出,本文提出的輔助學(xué)習(xí)網(wǎng)絡(luò)分支大大提高了模型在LM-O數(shù)據(jù)集上的估計(jì)結(jié)果,相較于未使用該分支時(shí)提升了2.5%,這表明輔助學(xué)習(xí)分支在網(wǎng)絡(luò)學(xué)習(xí)的過程中能夠提供更加豐富并有效的監(jiān)督信息,利用良好的先驗(yàn)估計(jì)結(jié)果增強(qiáng)網(wǎng)絡(luò)的學(xué)習(xí)能力,進(jìn)而提升位姿估計(jì)的準(zhǔn)確性。

        表8中,LFE表示局部特征提取器,SIE表示空間信息編碼器,Coarse表示僅使用粗位姿估計(jì),即輸出的是物體每個(gè)點(diǎn)的位姿,C2F表示采用由粗到細(xì)的位姿估計(jì)。根據(jù)表8的實(shí)驗(yàn)結(jié)果,當(dāng)同時(shí)使用局部特征提取器和空間信息編碼器,并將兩者得到的融合特征輸入C2F-Net時(shí),能夠取得所有方案中的最佳性能,表明多模態(tài)特征提取及融合模塊獲得的來自二維圖像和三維點(diǎn)云的特征為物體位姿估計(jì)提供了良好的信息。此外,由粗到細(xì)的位姿估計(jì)方法也證明對(duì)提高估計(jì)準(zhǔn)確性有較大的幫助。

        5 結(jié) 論

        本文提出了一種采用輔助學(xué)習(xí)策略的物體六自由度位姿估計(jì)網(wǎng)絡(luò),以雙分支點(diǎn)云配準(zhǔn)網(wǎng)絡(luò)為主干網(wǎng)絡(luò),并設(shè)計(jì)了一個(gè)直接回歸全局位姿的輔助學(xué)習(xí)網(wǎng)絡(luò),利用輔助學(xué)習(xí)的思想大大降低了網(wǎng)絡(luò)模型的復(fù)雜度,提升網(wǎng)絡(luò)效率。針對(duì)具有少紋理和嚴(yán)重遮擋的場景,在三個(gè)常用的公開數(shù)據(jù)集上對(duì)所提方法進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,本文方法在YCB-Video數(shù)據(jù)集上所有物體的AUC結(jié)果為95.9%,ADD-S<2 cm的估計(jì)結(jié)果為99.0%;在LineMOD數(shù)據(jù)集上所有物體的平均ADD(-S)結(jié)果為99.4%;在LM-O數(shù)據(jù)集上所有物體的平均ADD(-S)結(jié)果為71.3%。相比于國內(nèi)外現(xiàn)有的基于RGB-D數(shù)據(jù)的物體六自由度位姿估計(jì)方法而言,本文所提方法利用輔助學(xué)習(xí)網(wǎng)絡(luò)簡化模型,在模型性能上具有明顯優(yōu)勢,在位姿估計(jì)準(zhǔn)確率上較基準(zhǔn)網(wǎng)絡(luò)有一定提升,與目前最新的一些方法相比也有較好的競爭力,能夠?qū)ι偌y理和遮擋情況具有良好的魯棒性。實(shí)驗(yàn)中大部分?jǐn)?shù)據(jù)集是從相關(guān)工程應(yīng)用中采集的數(shù)據(jù),通過實(shí)驗(yàn)已驗(yàn)證了本文方法的可行性,可應(yīng)用于自動(dòng)化和機(jī)器人等領(lǐng)域的實(shí)際場景。后續(xù)的工作將進(jìn)一步優(yōu)化模型,以在實(shí)時(shí)應(yīng)用中具有更高的效率,減少推理時(shí)間,并考慮在嵌入式系統(tǒng)中部署的可能性,如將本文方法運(yùn)用在機(jī)器人抓取、AGV小車跟蹤等具體場景下,結(jié)合實(shí)際的精度及實(shí)時(shí)性需求,探索引入更多多樣性的數(shù)據(jù)以改進(jìn)模型的性能,包括在不同環(huán)境、不同光照條件和不同物體紋理下進(jìn)行數(shù)據(jù)采集,以增加模型對(duì)各種情況的適應(yīng)能力。

        猜你喜歡
        特征方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        可能是方法不對(duì)
        3D打印中的模型分割與打包
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        白白色免费视频一区二区| 中文字幕日本人妻久久久免费 | 澳门精品无码一区二区三区| 国产三级黄色的在线观看 | 国产精品午夜福利亚洲综合网| 国产在线视频一区二区天美蜜桃 | 久久精品国产亚洲av高清三区 | 一区二区三区国产在线视频| 女人被狂c躁到高潮视频| 国产成人无码免费网站| 色综合久久精品中文字幕| 少妇高潮精品正在线播放| 日韩精品无码熟人妻视频| 99久久精品费精品国产一区二区| 亚洲VA欧美VA国产VA综合| 国产不卡av一区二区三区| 97一期涩涩97片久久久久久久| 久久免费的精品国产v∧| 亚州AV成人无码久久精品| 美女被黑人巨大入侵的的视频| 中文字幕人妻无码视频| 精品国产三级a在线观看| 日韩有码中文字幕第一页| 日本熟女人妻一区二区| 欧美成人精品三级网站| 国产97色在线 | 免| 日本一区二区三区激视频| 粉嫩av国产一区二区三区| 日产精品久久久久久久蜜臀 | 无码人妻丰满熟妇区免费| 欧美性色黄大片手机版| 日韩免费小视频| 亚洲伊人伊成久久人综合| 亚洲国产精品成人久久| 亚洲国产综合精品 在线 一区 | 国产va在线播放| 亚洲最大av在线精品国产| 亚洲 卡通 欧美 制服 中文| 欧美丰满大屁股ass| 美女黄频视频免费国产大全 | 精品一区三区视频在线观看|