連遠(yuǎn)鋒裴守爽胡偉
融合NFFD與圖卷積的單視圖三維物體重建
連遠(yuǎn)鋒1,2*,裴守爽1,胡偉1
(1.中國(guó)石油大學(xué)(北京) 計(jì)算機(jī)科學(xué)與技術(shù)系,北京 102249;2.石油數(shù)據(jù)挖掘北京市重點(diǎn)實(shí)驗(yàn)室,北京 102249)
為了解決復(fù)雜拓?fù)浣Y(jié)構(gòu)及非規(guī)則表面細(xì)節(jié)缺失等導(dǎo)致的單視圖三維物體重建結(jié)果不準(zhǔn)確問(wèn)題,本文提出了一種融合非均勻有理B樣條自由形變(NFFD)與圖卷積神經(jīng)網(wǎng)絡(luò)的三維物體重建方法。首先,通過(guò)引入連接權(quán)重策略的控制點(diǎn)生成網(wǎng)絡(luò)對(duì)2D視圖進(jìn)行特征學(xué)習(xí),獲得其控制點(diǎn)拓?fù)浣Y(jié)構(gòu)。然后,利用NURBS基函數(shù)對(duì)控制點(diǎn)坐標(biāo)自適應(yīng)特性建立點(diǎn)云模型輪廓間頂點(diǎn)的形變關(guān)系。最后,為增強(qiáng)細(xì)節(jié)信息,將混合注意力模塊嵌入圖卷積網(wǎng)絡(luò)對(duì)形變后的點(diǎn)云位置進(jìn)行調(diào)整,從而實(shí)現(xiàn)復(fù)雜拓?fù)浣Y(jié)構(gòu)和非規(guī)則表面的高效重建。在ShapeNet數(shù)據(jù)集的實(shí)驗(yàn)表明,CD指標(biāo)平均值為3.79,EMD指標(biāo)平均值為3.94,并在Pix3D真實(shí)場(chǎng)景數(shù)據(jù)集上取得較好重建效果。與已有的單視圖點(diǎn)云三維重建方法比較,本文方法有效地提高了重建精度,具有較強(qiáng)的魯棒性。
NURBS自由形變;三維重建;圖卷積網(wǎng)絡(luò);混合注意力;控制點(diǎn)生成網(wǎng)絡(luò)
單視圖三維物體重建技術(shù)廣泛應(yīng)用于姿態(tài)估計(jì)、形狀檢索、自動(dòng)駕駛和增強(qiáng)現(xiàn)實(shí)等多種場(chǎng)景,成為計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱點(diǎn)。由于物體單視圖受觀察視角影響導(dǎo)致幾何信息缺失,使得恢復(fù)物體完整的三維結(jié)構(gòu)非常具有挑戰(zhàn)性。
近年來(lái),基于深度學(xué)習(xí)的三維模型重建得到了廣泛應(yīng)用。根據(jù)重建對(duì)象的表示形式可分為網(wǎng)格、體素和點(diǎn)云[1-2]?;诰W(wǎng)格[3]和體素[4]進(jìn)行物體三維重建是利用網(wǎng)絡(luò)學(xué)習(xí)二維圖像到三維網(wǎng)格或三維體素塊上的概率分布映射關(guān)系來(lái)表達(dá)三維幾何形狀。由于三維物體的網(wǎng)格表示形式存在復(fù)雜的拓?fù)潢P(guān)系,使得在利用同類(lèi)形狀模板進(jìn)行變形過(guò)程中容易出現(xiàn)網(wǎng)格自交叉[5]。基于體素的物體表示形式可以直接實(shí)現(xiàn)卷積與池化操作,但受限于計(jì)算資源和分辨率等問(wèn)題會(huì)丟失局部細(xì)節(jié),難以處理高精度的模型[6]。一些工作[7-8]基于點(diǎn)云的不規(guī)則數(shù)據(jù)形式進(jìn)行三維形狀重建。Fan等[9]提出了一種基于點(diǎn)云的三維模型重建方法PSGN,通過(guò)定義倒角距離與空間距離等損失函數(shù),取得了較好的重建精度。Zhang等[10]基于融合特征對(duì)內(nèi)部點(diǎn)和外部點(diǎn)進(jìn)行分類(lèi),并提出一種點(diǎn)云采樣優(yōu)化策略,使得重建點(diǎn)云的細(xì)節(jié)更為豐富。為了有效恢復(fù)物體單視圖的遮擋區(qū)域,Yang等[11]將3D編碼器-解碼器結(jié)構(gòu)與生成對(duì)抗網(wǎng)絡(luò)結(jié)合,從單幅視圖重建物體精細(xì)的三維結(jié)構(gòu),在合成數(shù)據(jù)集上得到較好的實(shí)驗(yàn)結(jié)果。
基于點(diǎn)云的三維重建方法中,三維模型中每個(gè)頂點(diǎn)的位置及其鄰接關(guān)系可以通過(guò)拓?fù)鋱D來(lái)表示,而圖卷積網(wǎng)絡(luò)(Graph Convolution Network,GCN)能夠更好地在拓?fù)鋱D上捕獲隱含、非線(xiàn)性空間特征,因而采用GCN模型實(shí)現(xiàn)點(diǎn)云的三維重建得到了廣泛應(yīng)用[12-13]。Wang等[14]提出一種多階段網(wǎng)格形變的三維重建方法Pixel2Mesh,通過(guò)圖卷積神經(jīng)網(wǎng)絡(luò)精確預(yù)測(cè)三維模型中每個(gè)頂點(diǎn)的位置,實(shí)現(xiàn)網(wǎng)格的形變。在文獻(xiàn)[14]基礎(chǔ)上,Nguyen等[15]通過(guò)多尺度的編碼器獲得更為準(zhǔn)確的圖像特征,并將這些特征映射到隨機(jī)點(diǎn)云的每個(gè)頂點(diǎn)實(shí)現(xiàn)模型重建。雖然上述方法在部分?jǐn)?shù)據(jù)集上取得較好的結(jié)果,但仍存在由于局部紋理缺失、物體拓?fù)浣Y(jié)構(gòu)復(fù)雜等因素導(dǎo)致重建結(jié)果不準(zhǔn)確的局限性。
由于點(diǎn)云具有可伸縮性和延展性,一些方法將自由形變(Free-Form Deformation, FFD)引入三維物體重建任務(wù)中。Kurenkov等[16]基于FFD模型,提出一種點(diǎn)云三維重建方法,利用網(wǎng)格體包圍目標(biāo),并在網(wǎng)格上定義若干控制點(diǎn),通過(guò)深度學(xué)習(xí)方法預(yù)測(cè)控制點(diǎn)偏移來(lái)實(shí)現(xiàn)三維重建。Pontes等[17]擴(kuò)展了這種方法,并引入模型檢索思想,根據(jù)輸入的圖像在數(shù)據(jù)庫(kù)中查找與其最為相近的三維模型,然后經(jīng)過(guò)自由形變技術(shù)得到最終模型。由于FFD模型對(duì)計(jì)算資源要求較高,任意控制點(diǎn)的坐標(biāo)變化均會(huì)導(dǎo)致模型整體形變,文獻(xiàn)[18]改進(jìn)了FFD模型,提出NFFD (NURBS-based Free-Form Deformation)自由形變模型,增加了形變自由度,在一定程度上提升了自由形變的精度。
為了提升單視圖三維物體重建精度,本文提出了一種融合NFFD與圖卷積神經(jīng)網(wǎng)絡(luò)的三維重建方法。首先,通過(guò)引入連接權(quán)重策略的控制點(diǎn)生成網(wǎng)絡(luò)對(duì)2D視圖進(jìn)行特征學(xué)習(xí),獲得其控制點(diǎn)拓?fù)浣Y(jié)構(gòu)。其次,利用NURBS基函數(shù)對(duì)控制點(diǎn)坐標(biāo)自適應(yīng)特性建立點(diǎn)云模型輪廓間頂點(diǎn)的形變關(guān)系。最后,為增強(qiáng)細(xì)節(jié)信息,將混合注意力模塊嵌入圖卷積網(wǎng)絡(luò)對(duì)形變后的點(diǎn)云位置進(jìn)行調(diào)整。通過(guò)以上兩階段的位置映射,實(shí)現(xiàn)復(fù)雜拓?fù)浣Y(jié)構(gòu)和非規(guī)則表面的高效重建。
本文提出的系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,包括控制點(diǎn)生成網(wǎng)絡(luò)、NFFD自由形變和圖卷積局部點(diǎn)云形變模塊。首先將單幅圖像輸入到控制點(diǎn)生成網(wǎng)絡(luò)獲得三維模型的控制點(diǎn),然后利用NFFD自由形變方法對(duì)模板模型進(jìn)行調(diào)整,最后利用圖卷積對(duì)局部點(diǎn)云進(jìn)行調(diào)整,得到最終的三維點(diǎn)云重建結(jié)果。
為了利用單幅圖像的特征信息生成準(zhǔn)確的三維模型控制點(diǎn),采用編碼器-解碼器-預(yù)測(cè)器機(jī)制,設(shè)計(jì)了一個(gè)對(duì)復(fù)雜三維模型結(jié)構(gòu)具有良好表現(xiàn)力的控制點(diǎn)生成網(wǎng)絡(luò)(Control Points Generation Network,CPGN),如圖2所示。編碼器由卷積層和ReLU層組成,這里采用了多尺度的卷積層以獲得不同層次的特征信息。解碼器由反卷積層和ReLU層組成,利用步長(zhǎng)為1的卷積代替pooling層,同樣用步長(zhǎng)為2的反卷積代替unpooling層,這種設(shè)計(jì)可以減少圖像紋理信息的丟失。編碼器中每一層的輸出與相應(yīng)的解碼器輸出通過(guò)矩陣加法相融合,以產(chǎn)生增強(qiáng)的特征。為了防止過(guò)擬合,加快收斂速度,預(yù)測(cè)器由卷積模塊和兩個(gè)全連接層組成,最后的一個(gè)全連接層實(shí)現(xiàn)維度變換,輸出控制點(diǎn)坐標(biāo)偏移量,并與初始控制點(diǎn)坐標(biāo)相加,獲得最終的控制點(diǎn)坐標(biāo)。
圖1 系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)
圖2 控制點(diǎn)生成網(wǎng)絡(luò)結(jié)構(gòu)
基于非均勻有理B樣條曲面自由形變,采用非均勻控制點(diǎn)矩陣對(duì)曲面進(jìn)行約束,能夠有效提升模型形變精度[19-20]。NFFD方法形變過(guò)程描述如下:
首先根據(jù)輸入圖像的類(lèi)別,從模型數(shù)據(jù)庫(kù)選擇模型點(diǎn)云,其中每個(gè)類(lèi)別對(duì)應(yīng)一種模型點(diǎn)云。建立方向上的局部坐標(biāo)系,定義模型點(diǎn)云頂點(diǎn)的三元組坐標(biāo),記為(,,)。CPGN根據(jù)輸入圖像生成對(duì)應(yīng)三維模型的控制點(diǎn)坐標(biāo)形變量,并與初始控制點(diǎn)坐標(biāo)相加,獲得最終的控制點(diǎn)坐標(biāo)。
初始控制點(diǎn)在各個(gè)方向上均勻分布,設(shè)在三個(gè)方向上分別有個(gè)控制點(diǎn),已知坐標(biāo)系原點(diǎn)為,則初始控制點(diǎn)p的坐標(biāo)滿(mǎn)足如下公式:
設(shè)p為最終的控制點(diǎn)坐標(biāo),形變后點(diǎn)云模型的頂點(diǎn)坐標(biāo)由公式(2)定義:
(2)
通常,B樣條基函數(shù)的次數(shù)與控制點(diǎn)影響的區(qū)域正相關(guān)。在三個(gè)方向上,B樣條基函數(shù)的次數(shù)滿(mǎn)足以下條件:
通道注意力模塊能有效提取通道間有用的信息。輸入特征經(jīng)過(guò)與自身兩次矩陣相乘后,再與自身相加獲得輸出特征。通道注意力模塊的表達(dá)式為:
圖3 圖卷積點(diǎn)云形變模塊
為實(shí)現(xiàn)對(duì)點(diǎn)云的位置進(jìn)行預(yù)測(cè),采用EMD、CD、等距先驗(yàn)損失與對(duì)稱(chēng)損失作為模型訓(xùn)練的損失函數(shù),具體定義如下:
241Earth mover’s distance(EMD)
242倒角距離(CD)
倒角距離(CD)用于衡量?jī)山M點(diǎn)云之間的距離。形式上被定義為:
243等距先驗(yàn)損失
等距先驗(yàn)損失定義如下:
244對(duì)稱(chēng)損失
為了使形變過(guò)程中的點(diǎn)云模型保持對(duì)稱(chēng)性,引入點(diǎn)云的對(duì)稱(chēng)損失函數(shù),即:
245歸一化
總損失函數(shù)為上述各項(xiàng)損失函數(shù)之和:
在所有的實(shí)驗(yàn)中,模型輸入均為RGB彩色圖像,輸出頂點(diǎn)數(shù)為2 048的三維點(diǎn)云。同時(shí),為了端到端訓(xùn)練圖卷積網(wǎng)絡(luò),在實(shí)驗(yàn)中使用了Adam優(yōu)化器[26],學(xué)習(xí)率初始化為5×105。模型的迭代次數(shù)為50個(gè)epoch,批量大小(Batchsize)為32。所有實(shí)驗(yàn)均在NVIDIA GeForce GTX1080Ti GPU上使用開(kāi)源機(jī)器學(xué)習(xí)框架Pytorch實(shí)現(xiàn)。
為評(píng)估本文所提算法的重建性能,使用了ShapeNet[27]合成數(shù)據(jù)集和Pix3D[28]真實(shí)場(chǎng)景數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。ShapeNet中共有13個(gè)模型類(lèi)別,共51 300個(gè)3D模型,將部分遮擋或截?cái)嗟臄?shù)據(jù)排除,并按照4:1的比例隨機(jī)劃分訓(xùn)練集與測(cè)試集。同樣對(duì)Pix3D數(shù)據(jù)集做了預(yù)處理,用提供的背景遮罩信息去除無(wú)用背景并將物體移動(dòng)至中心位置,最終將圖像縮放或裁剪至224×224作為輸入圖像。
此外,本文使用IoU(Intersection-over-Union)、CD和EMD作為實(shí)驗(yàn)結(jié)果的衡量指標(biāo)。IoU表示網(wǎng)絡(luò)重建的3D體素形狀與真實(shí)體素形狀的交并比,這里采用與PSGN[9]相同的體素生成方法。CD與EMD表示兩個(gè)點(diǎn)云之間的差異性,這里對(duì)GT點(diǎn)云進(jìn)行采樣,生成頂點(diǎn)數(shù)為2 048的點(diǎn)云模型,并與本文重建點(diǎn)云進(jìn)行對(duì)比。
對(duì)本文提出的損失函數(shù)設(shè)計(jì)策略的魯棒性進(jìn)行驗(yàn)證如圖4所示,圖4(a)展示了損失函數(shù)在不同訓(xùn)練集上的效果對(duì)比。通過(guò)對(duì)比可知,在三種不同的訓(xùn)練集上,損失函數(shù)在訓(xùn)練中總體保持不斷下降的趨勢(shì),訓(xùn)練集的損失函數(shù)在前20次epoch中下降較為迅速,而在第40次之后總體趨于穩(wěn)定,可知本文方法具有較高的魯棒性。進(jìn)一步,圖4(b)展示了圖卷積點(diǎn)云形變過(guò)程中損失函數(shù)收斂情況。通過(guò)圖4(b)可以看到圖卷積形變階段網(wǎng)絡(luò)收斂結(jié)果較好,表明模型具有較好的三維重建效果。
圖4 訓(xùn)練過(guò)程損失函數(shù)收斂曲線(xiàn)
圖5展示了本文方法與3D-LMNet[29]、Occupancy networks[30]、DISN[31]與PSGN在lamp、phone與monitor數(shù)據(jù)集上的重建結(jié)果對(duì)比。通過(guò)觀察可以發(fā)現(xiàn),本文方法在不同數(shù)據(jù)集下的重建精度均高于其他方法。對(duì)于不同的幾何結(jié)構(gòu)都有良好的表達(dá)能力,并保留更多細(xì)節(jié)。
圖5 本文三維重建結(jié)果與3D-LMNet、Occupancy networks、DISN、PSGN對(duì)比
圖6展示了本文方法和Pixel2Mesh[14]、DISN、PSGN方法在bench與airplane數(shù)據(jù)集上對(duì)比結(jié)果。為了更好地展示對(duì)比效果,這里選取三種不同的Pixel2Mesh模型??梢钥闯?,在非孔洞的airplane模型中,VGG-Pixel2Mesh重建效果與本文方法差別不大,優(yōu)于其他兩種Pixel2Mesh方法;在有孔洞的模型中,本文方法明顯具有更好的重建效果,能夠更準(zhǔn)確地表達(dá)物體的拓?fù)浣Y(jié)構(gòu)。
為了進(jìn)一步展示本文方法的三維重建效果,在rifle、monitor和chair數(shù)據(jù)集上與VGG-Pixel2Mesh、Occupancy networks、DISN和PSGN四種方法進(jìn)行比較。如圖7所示,本文方法在rifle與monitor數(shù)據(jù)集上的重建效果要優(yōu)于其他方法,更加接近GT。在chair數(shù)據(jù)集中,本文重建效果與Pixel2Mesh、Occupancy networks和DISN相近,均取得較好的重建效果。但本文重建的點(diǎn)云模型分布更加均勻,細(xì)節(jié)更加準(zhǔn)確,視覺(jué)效果更好。在圖7中,Occupancy networks方法對(duì)第四幅輸入圖像的重建效果較好。但總體來(lái)看,本文重建效果的細(xì)節(jié)更加準(zhǔn)確。
圖6 本文三維重建結(jié)果與Pixel2Mesh、DISN與PSGN對(duì)比
圖7 本文三維重建結(jié)果與VGG-Pixel2Mesh、Occupancy networks、DISN與PSGN對(duì)比
為了定量分析本文的方法和其他方法的差異,表1展示了在ShapeNet數(shù)據(jù)集中的重建精度對(duì)比。將評(píng)價(jià)指標(biāo)縮放100倍,與PSGN、3D-LMNet和pix2point[32]方法比較,在CD評(píng)價(jià)指標(biāo)上,本文方法在airplane等13個(gè)類(lèi)別上取得了更高的重建精度;同樣在EMD評(píng)價(jià)指標(biāo)上,本文方法在所有類(lèi)別均優(yōu)于其他方法。在平均重建精度上,CD和EMD比其他方法均有較大的提高。
表1CD、EMD評(píng)價(jià)指標(biāo)
Tab.1 CD、EMD evaluation indicators
進(jìn)一步地,我們對(duì)比了本文方法與PSGN、3D-R2N2在不同類(lèi)別中IoU的差異。從表2可以看出,本文方法在airplane等8個(gè)類(lèi)別中IoU較高,PSGN在sofa與speaker類(lèi)別中IoU較高。3D-R2N2在5視圖重建下,在cabinet、car與phone類(lèi)別取得最好表現(xiàn)。但在平均IoU上,本文比3D-R2N2在5視圖下提升7.7%,比PSGN提升6.25%。
表2IoU評(píng)價(jià)指標(biāo)
Tab.2 IoU evaluation indicators
361圖卷積模塊消融實(shí)驗(yàn)
本文2.3節(jié)利用圖卷積模塊對(duì)NFFD重建點(diǎn)云模型進(jìn)行調(diào)整。為了驗(yàn)證該方法的有效性,這里將圖卷積模塊替換為普通的全連接層,并對(duì)模型進(jìn)行訓(xùn)練與測(cè)試。使用CD與EMD兩個(gè)指標(biāo)來(lái)衡量生成點(diǎn)云的質(zhì)量,測(cè)試結(jié)果如表3所示。
從表3可以發(fā)現(xiàn),加入圖卷積模塊后,CD與EMD在大部分?jǐn)?shù)據(jù)集上均有一定提升,但在部分?jǐn)?shù)據(jù)集略有下降。其中,CD平均提升0.11,EMD平均提升0.06。對(duì)于CD指標(biāo),chair數(shù)據(jù)集提升0.32;對(duì)于EMD指標(biāo),monitor數(shù)據(jù)集提升0.40。由此可知,引入圖卷積模塊可以有效提升點(diǎn)云的重建精度。
表3圖卷積消融實(shí)驗(yàn)評(píng)價(jià)指標(biāo)
Tab.3 Evaluation indicators of GCN ablation experiments
為了驗(yàn)證NFFD點(diǎn)云映射圖像特征圖的有效性,針對(duì)bench數(shù)據(jù)集,去除圖卷積模塊的NFFD點(diǎn)云映射圖像特征圖,并重新訓(xùn)練網(wǎng)絡(luò)。經(jīng)過(guò)測(cè)試,未添加映射操作,CD評(píng)價(jià)指標(biāo)為3.348 6,添加點(diǎn)云映射圖像特征圖操作后,CD評(píng)價(jià)指標(biāo)為3.342 0,驗(yàn)證了點(diǎn)云映射圖像特征圖的有效性。
為了驗(yàn)證NFFD形變網(wǎng)絡(luò)性能,在bench、monitor與phone數(shù)據(jù)集上訓(xùn)練并測(cè)試評(píng)價(jià)指標(biāo)。如表4所示,加入圖卷積模塊后,不同數(shù)據(jù)集的評(píng)價(jià)指標(biāo)均有提升,CD指標(biāo)平均提升0.35,EMD指標(biāo)平均提升0.52。由此證明所提出的圖卷積模塊對(duì)點(diǎn)云坐標(biāo)具有良好的預(yù)測(cè)性。
表4NFFD消融實(shí)驗(yàn)評(píng)價(jià)指標(biāo)
Tab.4 Evaluation indicators of NFFD ablation experiments
362損失函數(shù)消融實(shí)驗(yàn)
為了驗(yàn)證本文采用損失函數(shù)的有效性,選取不同的損失函數(shù)組合,并對(duì)模型進(jìn)行重新訓(xùn)練,基于bench、rifle與vessel數(shù)據(jù)集,測(cè)試結(jié)果如表5所示。觀察表5可知,采用全部損失函數(shù)后,CD指標(biāo)取得較好表現(xiàn),超過(guò)其他兩種策略,且對(duì)不同數(shù)據(jù)集均有效,提高了模型的泛化性能。
表5損失函數(shù)消融實(shí)驗(yàn)CD對(duì)比
Tab.5 CD comparison of loss function ablation experiments
363控制點(diǎn)生成網(wǎng)絡(luò)消融實(shí)驗(yàn)
為了驗(yàn)證CPGN設(shè)計(jì)合理性,我們將CPGN解碼器中步長(zhǎng)為1的卷積替換為平均池化,將反卷積替換為反池化,并重新訓(xùn)練網(wǎng)絡(luò)。測(cè)試過(guò)程中,隨機(jī)選取bench數(shù)據(jù)集80幅圖像,分別用兩種網(wǎng)絡(luò)生成控制點(diǎn),采用NFFD方法進(jìn)行三維重建。其中,卷積-反卷積CPGN的CD指標(biāo)平均值為3.69,而池化-反池化CPGN的CD指標(biāo)平均值為3.93,比卷積-反卷積CPGN減少約6.50%。由此說(shuō)明本文CPGN的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)的合理性。
進(jìn)一步,與文獻(xiàn)[33]的控制點(diǎn)生成網(wǎng)絡(luò)對(duì)比,以car數(shù)據(jù)集為例,隨機(jī)選取100幅圖像進(jìn)行測(cè)試。通過(guò)對(duì)比,CPGN效果更好,評(píng)價(jià)指標(biāo)CD與EMD的數(shù)值更小,比文獻(xiàn)[33]的控制點(diǎn)生成網(wǎng)絡(luò)提升3.81%。
364混合注意力模塊消融實(shí)驗(yàn)
為了驗(yàn)證2.3節(jié)圖卷積網(wǎng)絡(luò)中混合注意力模塊的作用,本節(jié)去除混合注意力模塊,重新訓(xùn)練網(wǎng)絡(luò)。以bench數(shù)據(jù)集為例,添加混合注意力模塊后,模型的收斂效果更好,局部細(xì)節(jié)得到一定提升,更加接近GT點(diǎn)云,如圖8所示。
圖8 混合注意力模塊對(duì)點(diǎn)云局部細(xì)節(jié)的影響
本文選取了Pix3D數(shù)據(jù)集中真實(shí)場(chǎng)景下的圖像進(jìn)行了三維重建,以驗(yàn)證所提出方法的適應(yīng)性和泛化能力。圖9展示了本文方法對(duì)于不同場(chǎng)景的重建效果。如圖9所示,本文方法在包含椅子、桌子與沙發(fā)三個(gè)類(lèi)別的真實(shí)場(chǎng)景中達(dá)到較好的三維重建效果。
圖9 本文真實(shí)場(chǎng)景三維重建效果
本文提出了一種融合NFFD與圖卷積的點(diǎn)云三維重建網(wǎng)絡(luò)。設(shè)計(jì)了控制點(diǎn)生成網(wǎng)絡(luò)對(duì)2D視圖進(jìn)行特征學(xué)習(xí),獲得其控制點(diǎn)拓?fù)浣Y(jié)構(gòu)。為了實(shí)現(xiàn)高質(zhì)量的3D點(diǎn)云重建模型,利用NURBS基函數(shù)對(duì)控制點(diǎn)坐標(biāo)自適應(yīng)特性建立點(diǎn)云模型輪廓間頂點(diǎn)的形變關(guān)系,并在此基礎(chǔ)上將混合注意力模塊嵌入圖卷積網(wǎng)絡(luò)對(duì)形變后的點(diǎn)云位置進(jìn)行調(diào)整。在ShapeNet數(shù)據(jù)集的實(shí)驗(yàn)表明,CD指標(biāo)平均值為3.79,EMD指標(biāo)平均值為3.94,本文所提出的方法提升了單視圖的三維重建結(jié)果,能夠從不同角度保持重建的一致性。未來(lái)將優(yōu)化圖卷積網(wǎng)絡(luò)模型,進(jìn)一步提高點(diǎn)云重建精度。
[1] JIN Y W, JIANG D Q, CAI M. 3D reconstruction using deep learning: a survey[J]., 2020, 20(4): 389-413.
[2] FAHIM G, AMIN K, ZARIF S. Single-View 3D reconstruction: a Survey of deep learning methods[J]., 2021, 94: 164-190.
[3] HENDERSON P, FERRARI V. Learning single-image 3D reconstruction by generative modelling of shape, pose and shading[J]., 2020, 128(4): 835-854.
[4] CHOY C B, XU D F, GWAK J,. 322:3[M]. Computer Vision – ECCV 2016. Cham: Springer International Publishing, 2016: 628-644.
[5] 李雷,徐浩,吳素萍. 基于DDPG的三維重建模糊概率點(diǎn)推理[J]. 自動(dòng)化學(xué)報(bào), 2022, 48(4): 1105-1118.
LI L, XU H, WU S P. Fuzzy Probability Points Reasoning for 3D Reconstruction via Deep Deterministic Policy Gradient[J]., 2022, 48(4): 1105-1118. (in Chinese)
[6] 夏清,李帥,郝愛(ài)民,等. 基于深度學(xué)習(xí)的數(shù)字幾何處理與分析技術(shù)研究進(jìn)展[J]. 計(jì)算機(jī)研究與發(fā)展, 2019, 56(1): 155-182.
XIA Q, LI S, HAO A M,. Deep learning for digital geometry processing and analysis: a review[J]., 2019, 56(1): 155-182.(in Chinese)
[7] CHENG Q Q, SUN P Y, YANG C S,. A morphing-Based 3D point cloud reconstruction framework for medical image processing[J]., 2020, 193: 105495.
[8] JIN P, LIU S L, LIU J H,. Weakly-supervised single-view dense 3D point cloud reconstruction via differentiable renderer[J]., 2021, 34: 93.
[9] FAN H Q, SU H, GUIBAS L. A point set generation network for 3D object reconstruction from a single image[C]. 20172126,2017,,,IEEE, 2017: 2463-2471.
[10] ZHANG S F, LIU J, LIU Y H,. DIMNet: Dense implicit function network for 3D human body reconstruction[J]., 2021, 98: 1-10.
[11] YANG B, ROSA S, MARKHAM A,. Dense 3D object reconstruction from a single depth view[J]., 2019, 41(12): 2820-2834.
[12] WU Z H, PAN S R, CHEN F W,. A comprehensive survey on graph neural networks[J]., 2021, 32(1): 4-24.
[13] VALSESIA D, FRACASTORO G, MAGLI E. Learning localized representations of point clouds with graph-convolutional generative adversarial networks[J]., 2021, 23: 402-414.
[14] WANG N Y, ZHANG Y D, LI Z W,. Pixel2Mesh: generating 3D mesh models from single RGB images[C].(). 2008:52-67
[15] NGUYEN D, CHOI S, KIM W,. GraphX-convolution for point cloud deformation in 2D-to-3D conversion[C]. 2019()272,2019,,(). IEEE, 2019: 8627-8636.
[16] KURENKOV A, JI J W, GARG A,. DeformNet: free-form deformation network for 3D shape reconstruction from a single image[C]. 20181215,2018,,,IEEE, 2018: 858-866.
[17] PONTES J K, KONG C, SRIDHARAN S,.2:3[M]. Computer Vision-ACCV 2018. Cham: Springer International Publishing, 2019: 365-381.
[18] LAMOUSIN H J, WAGGENSPACK N N. NURBS-based free-form deformations[J]., 1994, 14(6): 59-65.
[19] TAO J, SUN G, SI J Z,. A robust design for a winglet based on NURBS-FFD method and PSO algorithm[J]., 2017, 70: 568-577.
[20] ORAZI L, REGGIANI B. Point inversion for triparametric NURBS[J].(), 2021, 15(1): 55-61.
[21] 孟月波,金丹,劉光輝,等. 共享核空洞卷積與注意力引導(dǎo)FPN文本檢測(cè)[J]. 光學(xué)精密工程, 2021, 29(8): 1955-1967.
MENG Y B, JIN D, LIU G H,. Text detection with kernel-sharing dilated convolutions and attention-guided FPN[J]., 2021, 29(8): 1955-1967.(in Chinese)
[22] 李經(jīng)宇,楊靜,孔斌,等. 基于注意力機(jī)制的多尺度車(chē)輛行人檢測(cè)算法[J]. 光學(xué)精密工程, 2021, 29(6): 1448-1458.
LI J Y, YANG J, KONG B,. Multi-scale vehicle and pedestrian detection algorithm based on attention mechanism[J]., 2021, 29(6): 1448-1458.(in Chinese)
[23] 蔡體健,彭瀟雨,石亞鵬,等. 通道注意力與殘差級(jí)聯(lián)的圖像超分辨率重建[J]. 光學(xué)精密工程, 2021, 29(1): 142-151.
CAI T J, PENG X Y, SHI Y P,. Channel attention and residual concatenation network for image super-resolution[J]., 2021, 29(1): 142-151.(in Chinese)
[24] 秦傳波,宋子玉,曾軍英,等. 聯(lián)合多尺度和注意力-殘差的深度監(jiān)督乳腺癌分割[J]. 光學(xué)精密工程, 2021, 29(4): 877-895.
QIN C B, SONG Z Y, ZENG J Y,. Deeply supervised breast cancer segmentation combined with multi-scale and attention-residuals[J]., 2021, 29(4): 877-895.(in Chinese)
[25] MA J Y, ZHANG H, YI P,. SCSCN: a separated channel-spatial convolution net with attention for single-view reconstruction[J]., 2020, 67(10): 8649-8658.
[26] KINGMA D P, BA J. Adam: a method for stochastic optimization[EB/OL]. 2014:: 1412.6980[cs.LG]. https://arxiv.org/abs/1412.6980
[27] CHANG A X, FUNKHOUSER T A, GUIBAS L J,. ShapeNet: an information-rich 3D model repository[J]., 2015, abs/1512.03012.
[28] SUN X Y, WU J J, ZHANG X M,. Pix3D: dataset and methods for single-image 3D shape modeling[C]. 20181823,2018,,,IEEE, 2018: 2974-2983.
[29] MANDIKAL P, MURTHY N, AGARWAL M,. 3D-LMNet: latent embedding matching for accurate and diverse 3D point cloud reconstruction from a single image[C].,:, 2018.55-56.
[30] MESCHEDER L, OECHSLE M, NIEMEYER M,. Occupancy networks: learning 3D reconstruction in function space[C]. 2019()1520,2019,,,IEEE, 2019: 4455-4465.
[31] XU Q G, WANG W Y, CEYLAN D,. DISN: deep implicit surface network for high-quality single-view 3D reconstruction[J]., 2019, 32: 492-502.
[32] AFIFI A J, MAGNUSSON J, SOOMRO T A,. Pixel2point: 3D object reconstruction from a single image using CNN and initial sphere[J]., 2020, 9: 110-121.
[33] JACK D, PONTES J K, SRIDHARAN S,. Learning free-form deformations for 3D object reconstruction[C].2018, 2019: 317-333.
Single-view 3D object reconstruction based on NFFD and graph convolution
LIAN Yuanfeng1,2*,PEI Shoushuang1,HU Wei1
(1,,102249,;2,102249,),:
To address the issue of inaccurate single-view three-dimensional (3D) object reconstruction results caused by complex topological objects and the absence of irregular surface details, a novel single-view 3D object reconstruction method combining non-uniform rational B-spline free deformation with a graph convolution neural network is proposed. First, a control points generation network, which introduces the connection weight policy, is used for the feature learning of two-dimensional views to obtain their control points topology. Subsequently, the NURBS basis function is used to establish the deformation relationship between the vertex contours of the point cloud model. Finally, to enhance the details, a convolutional network embedded with a mixed attention module is used to adjust the position of the deformed point cloud to reconstruct complex topological structures and irregular surfaces efficiently. Experiments on ShapeNet data show that the average values of the CD and EMD indices are 3.79 and 3.94, respectively, and that good reconstruction is achieved on the Pix3D real scene dataset. In contrast to existing single view point cloud 3D reconstruction methods, the proposed method offers a higher reconstruction accuracy of 3D objects and demonstrates higher robustness.
NURBS-based free-form deformation; 3D reconstruction; graph convolution network; mixed attention; control points generation network
TP391
A
10.37188/OPE.20223010.1189
1004-924X(2022)10-1189-14
2021-11-10;
2021-12-08.
國(guó)家自然科學(xué)基金資助項(xiàng)目(No.61972353);中國(guó)石油天然氣集團(tuán)有限公司-中國(guó)石油大學(xué)(北京)戰(zhàn)略合作科技專(zhuān)項(xiàng):“一帶一路”海外長(zhǎng)輸管道完整性關(guān)鍵技術(shù)研究與應(yīng)用項(xiàng)目(No.2006A10401006)
連遠(yuǎn)鋒(1977-),男,吉林延吉人,博士,副教授,碩士生導(dǎo)師,2012年于北京航空航天大學(xué)獲得博士學(xué)位,主要研究方向?yàn)閳D像處理與虛擬現(xiàn)實(shí)、機(jī)器視覺(jué)與機(jī)器人、深度學(xué)習(xí)與數(shù)字幾何。E-mail:lianyuanfeng@cup.edu.cn
裴守爽(1997-),男,河北唐山人,碩士研究生,2020 年于河北農(nóng)業(yè)大學(xué)取得學(xué)士學(xué)位,主要研究方向?yàn)樯疃葘W(xué)習(xí)與三維重建。E-mail:peishoushuang@163.com