亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于渲染技術(shù)改進的一套點云配準(zhǔn)流程

2023-09-26 07:19:40梁昊天鄔義杰

組合機床與自動化加工技術(shù) 2023年9期

梁昊天,鄔義杰

(浙江大學(xué)工程師學(xué)院,杭州 310027)

0 引言

隨著激光雷達、RGBD相機等高精度傳感器的快速發(fā)展,點云數(shù)據(jù)變得更易獲取、成本得到控制[1]。相較于二維圖片,點云能提供豐富的幾何、形狀和尺度信息,使機器人對周圍環(huán)境的理解更加深刻,因而其已成為計算機表示三維世界的主要數(shù)據(jù)格式之一[2]。由于傳感器只能在其有限的視野范圍內(nèi)捕獲掃描,因此需要配準(zhǔn)算法來生成大型三維場景。點云配準(zhǔn)是估計兩點云之間的變換矩陣的問題。應(yīng)用變換矩陣,我們可以將關(guān)于同一三維場景或?qū)ο蟮牟糠謷呙韬喜⒊梢粋€完整的三維點云[3]。點云配準(zhǔn)在眾多計算機視覺應(yīng)用中起著關(guān)鍵而不可替代的作用,如三維重建、三維定位、位姿估計、自動駕駛等[4]。

點云配準(zhǔn)按點云來源分類可分為同源配準(zhǔn)和跨源配準(zhǔn),按配準(zhǔn)策略分類可分為基于優(yōu)化的配準(zhǔn)方法、基于特征對應(yīng)的配準(zhǔn)方法和端到端學(xué)習(xí)的配準(zhǔn)方法[5]。

基于優(yōu)化的配準(zhǔn)方法借助優(yōu)化的策略估計剛體變換矩陣。大部分基于優(yōu)化的配準(zhǔn)方法包含兩個步驟:對應(yīng)點搜索和變換估計,兩個步驟迭代進行。其中,BESL等[6]提出的迭代最近點(iterative closest point,ICP)算法,該算法基于奇異值分解(singular value decomposition,SVD),思想簡單、精度高,然而其計算開銷大,且使用需要滿足兩個前提條件,即兩個點云間存在包含關(guān)系且兩個點云初始位置不能相差太大。YANG、BRENNER等[7-9]對其提出了改進。

不同于經(jīng)典的基于優(yōu)化的配準(zhǔn)算法,基于特征對應(yīng)的配準(zhǔn)方法分為三步:對點云中的點進行特征提取、在特征空間中搜索點對、無需迭代的一步估計(如隨機抽樣一致性算法(random sample consencus,RANSAC)[10]、TEASER++算法[11]等)獲得剛體變換矩陣。點的特征描述是其中關(guān)鍵的一環(huán),傳統(tǒng)的特征描述子有FPFH[12]、PPF[13]等。使用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的特征描述子如3DMatch[14]、PPFNet[15]、FCGF[16]等及將注意力機制應(yīng)用于點云處理的Point Transformer[17],希望通過深度學(xué)習(xí)的方法得到具有更強的特征表達能力和更高的魯棒性的特征描述子。其劣勢在于:①深度學(xué)習(xí)需要大量的訓(xùn)練數(shù)據(jù);②當(dāng)訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)存在尺度、精度差異時,配準(zhǔn)效果會大幅下降;③通過獨立的訓(xùn)練過程學(xué)習(xí)的特征提取網(wǎng)絡(luò)確定的是點的配對關(guān)系而非配準(zhǔn)結(jié)果。

端到端學(xué)習(xí)的配準(zhǔn)方法使用端到端的深度神經(jīng)網(wǎng)絡(luò)解決配準(zhǔn)問題,如DGR[18]、DeepGMR[19]、FMR[20]等。網(wǎng)絡(luò)的輸入是兩個原始點云,輸出是對齊兩個點云的剛體變換矩陣。

渲染技術(shù)通常用于計算機生成場景與模型的可視化,在眾多計算機圖形領(lǐng)域起著不可或缺的作用,如工業(yè)設(shè)計、醫(yī)學(xué)影像等[21]。在深度學(xué)習(xí)領(lǐng)域,也有使用渲染技術(shù)生成訓(xùn)練集的案例,如HODAN等[22]提出一種使用三維模型合成擬真度較高的圖像的方法,并利用這些生成的PBR(physically-based rendering)圖像訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)在真實照片中目標(biāo)檢測的能力。這種物理渲染方法獲得的訓(xùn)練集由于2D目標(biāo)檢測框、實例分割掩膜、6D位姿數(shù)據(jù)都可以自動生成,相較于時間、人工成本極高的人工標(biāo)注真實數(shù)據(jù)集,具有極大的優(yōu)勢。

本文提出了一套點云配準(zhǔn)實現(xiàn)及評價的算法流程,其核心是改造的將自注意力機制應(yīng)用于點云處理的Point Transformer點云特征提取網(wǎng)絡(luò)模型,InfoNCE[23]作為其損失函數(shù),通過應(yīng)用渲染技術(shù),將ShapeNet[24]數(shù)據(jù)集模型在不同視角下投影成外參已知的深度圖,生成其訓(xùn)練集。在點云的特征空間內(nèi)KDTree的方式互相尋找其最近鄰點,構(gòu)成點對關(guān)系。使用RANSAC算法由點對估計點云剛體變換矩陣,作為粗配準(zhǔn)結(jié)果。在ICP算法的基礎(chǔ)上開發(fā)了Rendering-ICP算法作為精配準(zhǔn)環(huán)節(jié),優(yōu)化得出最終的剛體變換矩陣,即位姿估計結(jié)果。最后,在Linemod數(shù)據(jù)集上與FPFH、PPF、FCGF的點云描述子進行對比測試,使用基于渲染的可見表面差異(visible surface discrepancy,VSD)的回歸作為6D位姿估計評價指標(biāo)進行評價,驗證了本文算法的優(yōu)勢。

1 6D位姿估計應(yīng)用場景描述

物體的6D位姿是指物體坐標(biāo)系到相機參考坐標(biāo)系的幾何映射。最常見的,該映射是由三維旋轉(zhuǎn)(物體方向)和三維平移(物體位置)定義的。推斷物體的6D位姿是機器人與外界環(huán)境交互的一個關(guān)鍵性問題。

在實際應(yīng)用中,物體的6D位姿估計通常包含兩個階段:①將目標(biāo)物體從實際場景中識別并分離出來;②根據(jù)分離后的物體信息判斷其6D位姿。第一步由基于卷積神經(jīng)網(wǎng)絡(luò)的實例分割方法完成(如Mask-RCNN[25]等),本文不再贅述,本文給出第二個階段使用點云配準(zhǔn)方法的解決思路。

本文選用Linemod[26]數(shù)據(jù)集作為本文算法的應(yīng)用場景,Linemod數(shù)據(jù)集包含了15個物體,提供了這15個物體的模型文件和真實采集的每個模型200張用于測試的RGBD圖像,及采集所用深度相機的內(nèi)參、用于評估6D位姿估計結(jié)果的真值變換矩陣等。已知相機內(nèi)參如表1所示。

表1 Linemod數(shù)據(jù)集采集所用Kinect相機內(nèi)參

由相機內(nèi)參,對一張深度圖,已知其上坐標(biāo)為(u,v)的某個像素點的深度值有效(非零),值為d,則可以計算得該像素點對應(yīng)的點云點空間坐標(biāo)(x,y,z),如式(1)～式(3)所示:

(1)

(2)

(3)

圖1a、圖1b分別為Linemod數(shù)據(jù)集的測試集的一張RGB圖像與深度圖像樣例,及這兩張圖像合成的點云圖。

(a) Linemod數(shù)據(jù)集測試集RGB圖(左)、深度圖(右)

目標(biāo)物體的實例分割結(jié)果由前置的Mask-RCNN算法獲得,將實例分割獲得的RGB圖像二值掩膜與深度圖點乘獲得濾除了背景的目標(biāo)物體深度圖,由相機內(nèi)參計算得獨立的待估計6D位姿的目標(biāo)物體點云。從而,將6D位姿估計問題轉(zhuǎn)換為計算目標(biāo)物體模型點云到實際采集點云中目標(biāo)物體局部點云的空間變換矩陣,即模型點云和局部點云之間的配準(zhǔn)問題。為此,本文設(shè)計了一套基于深度學(xué)習(xí)的點云配準(zhǔn)流程。

2 渲染技術(shù)應(yīng)用于深度學(xué)習(xí)的網(wǎng)絡(luò)訓(xùn)練

2.1 網(wǎng)絡(luò)模型設(shè)計

基于優(yōu)化的配準(zhǔn)算法不適用于初始位姿相差大的配準(zhǔn)場景,而端到端學(xué)習(xí)的配準(zhǔn)算法則存在解釋性差、對模態(tài)不同的輸入點云配準(zhǔn)效果差等問題,因而本文選用基于特征對應(yīng)的配準(zhǔn)方法。傳統(tǒng)的特征描述子對模型特征的描述注重局部幾何特征,對全局信息的把握較弱,對抗噪聲的魯棒性差,而基于深度學(xué)習(xí)的特征描述子則可以通過合理的網(wǎng)絡(luò)結(jié)構(gòu)和大量充分的訓(xùn)練解決上述問題。

Transformer和自注意力機制對自然語言處理和機器視覺領(lǐng)域都產(chǎn)生了革命性的影響。自注意力算子可以分為兩種類型:標(biāo)量注意力和向量注意力。本文使用向量注意力作為基礎(chǔ),設(shè)X={xi}i作為特征向量的集合。通常,注意力權(quán)重是可針對單個特征通道進行調(diào)節(jié)的向量,其計算如下:

(4)

式中:yi表示輸出的特征,φ、ψ和α表示逐點特征變換(如線性投影或MLP),δ表示位置編碼函數(shù),β表示關(guān)系函數(shù)(如差),γ表示為特征聚合生成注意力向量的映射函數(shù)(如MLP),ρ表示歸一化函數(shù)(如softmax),⊙表示Hadamard乘積,即對應(yīng)位置元素相乘。

自注意力機制對點云對象具有天然的適配性,這是由于點云是不規(guī)則地嵌入在三維空間中。本文使用的Point Transformer層基于向量的自注意力機制,其使用差作為關(guān)系函數(shù),并對每個注意力向量γ和特征變換α添加一個位置編碼,如下:

(5)

本文基于Point Transformer改進了一套點云的特征描述學(xué)習(xí)網(wǎng)絡(luò)。Point Transformer原本被設(shè)計用于點云的語義分割與點云分類任務(wù),通過改造其輸出頭的全局池化層和多層感知器,使得網(wǎng)絡(luò)的輸入是一個點云對象,輸出則是該點云中逐點的特征描述。網(wǎng)絡(luò)包含5個下采樣階段和5個上采樣階段,對逐步下采樣的點云進行特征編碼操作,其中各個階段的下采樣率分別為[1,4,4,4,4],因此每個階段產(chǎn)生的點云的點數(shù)分別為[N,N/4,N/16,N/64,N/256],其中N為輸入點云的點數(shù)。而后對逐步上采樣的點云進行特征解碼操作,之前解碼器階段的特征與相應(yīng)編碼器階段的特征進行插值匯總,通過解碼器后作為當(dāng)前層的解碼后的特征。通過五層編碼器和解碼器之后的逐點特征作為最后的網(wǎng)絡(luò)輸出。這樣的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計保證了點云中每個點的特征都包含了5個不同采樣率下對全局信息的把握。

(6)

式中:f是對數(shù)雙線性模型。

(7)

2.2 訓(xùn)練集的構(gòu)建

Transformer架構(gòu)解決了卷積神經(jīng)網(wǎng)絡(luò)需要深層次的卷積網(wǎng)絡(luò)對相距較遠的元素進行交互的限制,然而其訓(xùn)練的難度也更大。點云配準(zhǔn)的數(shù)據(jù)集如3DMatch等,多為室內(nèi)場景點云,與本文算法對中小型物體6D姿態(tài)估計的應(yīng)用場景存在尺度差異,適用性較差。因而,本文設(shè)計了一套利用渲染技術(shù)生成點云特征對比學(xué)習(xí)數(shù)據(jù)集的算法。

2.2.1 渲染技術(shù)生成點云特征對比學(xué)習(xí)數(shù)據(jù)集

ShapeNet數(shù)據(jù)集包含了約300萬個模型,其子集ShapeNetCore包含了來自55類的約5萬個模型,根據(jù)模型類型和大小篩選后保留了其中約2萬個模型,作為原始模型。對每一個原始模型,以其中心點為空間零點與視點球面球心,其隨機2～5倍直徑作為視點球面半徑,生成16個同心視點球面,在每個視點球面上隨機取1個點,作為模擬的相機位置,相機朝向模型中心點并適當(dāng)擾動,將觀察到的原始模型渲染成RGB圖像和深度圖像,稱為一個視圖,如圖2所示。

圖2 渲染生成的ShapeNet模型的16個視圖

對這樣一個渲染的視圖,其相機內(nèi)參是自定義的,外參是由相機在空間確定的,因而可以通過相機內(nèi)參重建視圖的點云,通過相機外參獲取視圖點云與模型點云間,視圖點云與視圖點云間的真值配準(zhǔn)結(jié)果。這樣的一組初始點云對和其真值配準(zhǔn)結(jié)果構(gòu)成了訓(xùn)練數(shù)據(jù)集中的一條原始數(shù)據(jù)。

2.2.2 渲染生成數(shù)據(jù)集的數(shù)據(jù)增強

與渲染生成的視圖點云數(shù)據(jù)相比,由于深度相機分辨率、自然噪聲等影響,真實采集的視圖點云數(shù)據(jù)具有深度分層,噪聲干擾,深度信息缺失等特點,如圖3所示。因此,對渲染數(shù)據(jù)集中的視圖點云須進行數(shù)據(jù)增強操作,使網(wǎng)絡(luò)對模型和視圖間不同模態(tài)特征一致性的學(xué)習(xí)達到更加魯棒的效果。

圖3 深度相機采集的真實點云的分層現(xiàn)象

針對以上的真實采集點云數(shù)據(jù)的特點,本文分別設(shè)計了對深度圖進行深度分層、添加柏林噪聲和生成隨機多邊形孔洞的數(shù)據(jù)增強操作,圖4b～圖4d分別是圖4a的原始點云經(jīng)上述操作處理后的效果。

(a) 原始點云 (b) 深度分層 (c) 柏林噪聲 (d) 隨機多邊形孔洞

2.3 網(wǎng)絡(luò)的訓(xùn)練

本文所用的實驗平臺為NVIDIA DGX系統(tǒng),軟件平臺為Python 3.8.10,PyTorch 1.10.0,CUDA 11.3。使用8個NVIDIA GeForce RTX 3090 GPU對網(wǎng)絡(luò)進行多卡訓(xùn)練。網(wǎng)絡(luò)訓(xùn)練的優(yōu)化器使用Adam,各參數(shù)設(shè)置如表2所示,訓(xùn)練30個epoch。

表2 Point Transformer訓(xùn)練參數(shù)設(shè)置表

3 配準(zhǔn)方法完成物體的6D位姿估計

3.1 點云特征的可視化

通過訓(xùn)練好的Point Transformer網(wǎng)絡(luò)對點云的特征提取,點云中的每一個點獲得了一個獨特的64維的特征表達。將64維的特征使用主成分分析(principal component analysis,PCA)方法降維至3維,并標(biāo)準(zhǔn)化至RGB通道,作為顏色表示,可視化效果如圖5所示。

(a) 臺鉗(左:模型、右:視圖) (b) 茶杯(左:模型、右:視圖)

3.2 特征空間中搜索互相最近鄰點對

一個視圖的目標(biāo)物體的點云與目標(biāo)物體完整模型的點云在相同位置應(yīng)具有相似的特征表達。對物體模型的每個點的64維特征表達建立一個KDTree搜索空間,歐式距離作為距離的度量指標(biāo)。設(shè)x(x1,x2,…,xn)和y=(y1,y2,…,yn)是n維空間中的兩點,其歐氏距離計算如下:

(8)

對于一個視圖點云中的每個點,在特征空間中尋找其在模型點云中的最近鄰點(與其具有最小歐式距離的點)。將模型與視圖互換進行同樣的操作。如果分別來自模型點云和視圖點云的兩個點在特征空間中互為最近鄰,則認(rèn)為它們構(gòu)成一個點對。

3.3 由點對推理變換矩陣構(gòu)成粗配準(zhǔn)結(jié)果

在特征空間搜索到的互相最近鄰點對,由于模型點云和視圖點云間存在模態(tài)差異,并非完全正確,錯誤點對的存在是不可忽略的。因而本文使用RANSAC(隨機抽樣一致性)算法由點對估計點云剛體變換矩陣。RANSAC算法的思想在于假設(shè)與驗證,即:①從所有互相最近鄰點對中隨機選取3組,假定它們是正確的,并基于其求解剛體變換矩陣;②計算剩余的點對在該剛體變換矩陣下的誤差,如果誤差值小于預(yù)定誤差閾值,則被認(rèn)為是樣本內(nèi)點,否則為樣本外點。統(tǒng)計內(nèi)點的數(shù)量;③重復(fù)上述步驟,直到達到設(shè)定的最大迭代次數(shù);④統(tǒng)計不同剛體變換矩陣下的樣本內(nèi)點數(shù),內(nèi)點數(shù)最多的矩陣即為最佳數(shù)學(xué)模型。使用最小二乘法對該模型的所有內(nèi)點重新估計剛體變換矩陣,作為最終的粗配準(zhǔn)結(jié)果。

3.4 Rendering-ICP算法優(yōu)化配準(zhǔn)結(jié)果

RANSAC算法獲得的粗配準(zhǔn)結(jié)果在精度上仍不可避免的存在一定誤差,因而一般需要使用精配準(zhǔn)算法(如ICP算法)優(yōu)化配準(zhǔn)精度,而在實際測試中發(fā)現(xiàn)局部視圖點云對完整模型點云的配準(zhǔn)受不重合部分的影響較大,如圖6a和圖6b所示,鉆孔機的上半部分近似于圓柱體,當(dāng)視圖點云的上半部分被包裹于模型點云之中時,受模型視圖不重合部分無關(guān)點的影響,迭代最近點的優(yōu)化策略失效,進而導(dǎo)致ICP算法失效。因此,開發(fā)了Rendering-ICP算法,即根據(jù)粗配準(zhǔn)結(jié)果,從待估計位姿的視圖點云的相機觀測點觀測渲染的模型點云,保留可見點,剔除不可見點,將模型點云投影成局部視圖,以排除模型不重合部分對配準(zhǔn)的干擾。ICP算法與Rendering-ICP算法的配準(zhǔn)效果對比如圖6c和圖6d所示。

(a) 粗配準(zhǔn)結(jié)果(軸測圖) (b) 粗配準(zhǔn)結(jié)果(正視圖) (c) ICP精配準(zhǔn)結(jié)果 (d) Rendering-ICP精配準(zhǔn)結(jié)果

4 實驗驗證與結(jié)果分析

(9)

對每個單獨目標(biāo)的6D位姿估計結(jié)果,其eVSD若小于設(shè)定的錯誤閾值,則視為正確的結(jié)果,否則視為錯誤,在實驗中,選取閾值為0.3。則VSD的回歸RecallVSD計算如下:

(10)

式中:TP為正確的結(jié)果數(shù),FN為錯誤的結(jié)果數(shù)。

FPFH、PPF、FCGF算法與Point Transformer算法在Linemod數(shù)據(jù)集上6D位姿估計結(jié)果的評價指標(biāo)如表3所示。

表3 點云描述子在Linemod數(shù)據(jù)集上的VSD回歸評價結(jié)果

對Linemod數(shù)據(jù)集中15個物體的VSD回歸結(jié)果單獨分析,結(jié)果如圖7所示。

圖7 點云描述子在Linemod數(shù)據(jù)集上逐物體的VSD回歸評價結(jié)果

通過表3和圖7可以看出Point Transformer點云描述網(wǎng)絡(luò)模型在設(shè)計的訓(xùn)練集訓(xùn)練后的性能顯著優(yōu)于其他算法。

5 結(jié)束語

本文針對點云的特征描述子在深度學(xué)習(xí)訓(xùn)練中訓(xùn)練集構(gòu)造困難的問題,創(chuàng)新性地提出了應(yīng)用渲染技術(shù)將點云模型在不同視角投影后重建,構(gòu)建成點云配準(zhǔn)訓(xùn)練集的方法。立足于6D位姿估計應(yīng)用場景,改造了被設(shè)計用于點云語義分割的Point Transformer作為點云的特征描述子,設(shè)計了局部視圖點云到整體模型點云的配準(zhǔn)訓(xùn)練集,并結(jié)合真實采集點云的特征,設(shè)計了深度分層、柏林噪音、隨機多邊形孔洞等數(shù)據(jù)增強方法,增強了學(xué)習(xí)的點云特征的魯棒性。使用訓(xùn)練好的模型處理點云對象,推理每個點的64維特征,并做了可視化呈現(xiàn)。在特征空間中搜索互相最近鄰點構(gòu)建點對,RANSAC方法獲取粗配準(zhǔn)結(jié)果,在ICP算法基礎(chǔ)上創(chuàng)新的Rendering-ICP算法作為精配準(zhǔn)算法獲得最后的配準(zhǔn)結(jié)果,即6D位姿估計結(jié)果。最后與FPFH、PPF、FCGF等算法進行了對比實驗,VSD的回歸作為評價指標(biāo),證明了本文算法的優(yōu)勢。

點云配準(zhǔn)的應(yīng)用場景很多,由于著眼于6D位姿估計場景,渲染的訓(xùn)練集均為直徑不超過1米的物體局部視圖到全局點云的配準(zhǔn),因而本文訓(xùn)練出的Point Transformer點云特征描述子是針對小型物體特化的。在后續(xù)研究中,可以著眼于訓(xùn)練集的擴充和泛化性的增強,將本文的算法應(yīng)用于室內(nèi)場景、室外大型場景三維點云重建等。