亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多層次感知的多視圖三維模型重建

        2023-01-29 13:22:20靜,徐
        關(guān)鍵詞:體素視圖物體

        白 靜,徐 昊

        1.北方民族大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,銀川750021

        2.國(guó)家民委圖形圖像智能處理實(shí)驗(yàn)室,銀川750021

        得益于增強(qiáng)現(xiàn)實(shí)、機(jī)器人導(dǎo)航及自動(dòng)駕駛等領(lǐng)域的蓬勃發(fā)展,從視圖中重建物體的三維模型受到了越來(lái)越多研究者的關(guān)注。然而,視圖作為三維模型的離散化表征,其所包含的深度信息及空間信息有限,在很大程度上影響了重建結(jié)果的整體結(jié)構(gòu)及局部細(xì)節(jié)。

        為重建出精細(xì)化的三維模型,現(xiàn)有方法均采用卷積神經(jīng)網(wǎng)絡(luò)對(duì)二維視圖進(jìn)行特征編碼,然后使用3D反卷積將視圖特征映射為體素在空間網(wǎng)格中的占位概率,最后使用二元交叉熵來(lái)對(duì)所有體素進(jìn)行懲罰約束。但是,常規(guī)的卷積方式在單層網(wǎng)絡(luò)上僅能夠在局部感受野內(nèi)進(jìn)行特征提取,難以獲取不同空間位置上特征的相關(guān)性。此外,空間網(wǎng)格中占位狀態(tài)為0和1的網(wǎng)格比例極其不均衡,使用二元交叉熵對(duì)所有體素進(jìn)行平等學(xué)習(xí)會(huì)使細(xì)節(jié)結(jié)構(gòu)難以重建。并且二元交叉熵僅在體素層面上進(jìn)行分類約束,無(wú)法對(duì)物體進(jìn)行全局結(jié)構(gòu)約束。這些問(wèn)題會(huì)在整體上限制網(wǎng)絡(luò)的表征能力,導(dǎo)致重建結(jié)果存在結(jié)構(gòu)及細(xì)節(jié)的缺失。

        為解決上述問(wèn)題,本文提出了多層次感知的多視圖三維模型重建方法。本文的主要貢獻(xiàn)包括:

        (1)為充分獲取視圖內(nèi)潛在空間信息,在視圖特征提取階段設(shè)計(jì)了上下文感知的CA-CAM(context aware channel attention module)來(lái)對(duì)全局結(jié)構(gòu)特征與局部細(xì)節(jié)特征進(jìn)行加權(quán)融合。

        (2)為解決空間網(wǎng)格中體素分布不均衡,且精細(xì)結(jié)構(gòu)體素難分問(wèn)題,提出了體素感知的Vox-Focal Loss來(lái)促進(jìn)體素生成。通過(guò)賦予難分體素更大損失權(quán)重的方式來(lái)減緩重建過(guò)程中的結(jié)構(gòu)缺失問(wèn)題。

        (3)為對(duì)三維模型的全局結(jié)構(gòu)進(jìn)行約束,使用了具有物體感知能力的3D判別器來(lái)自適應(yīng)地消除三維模型中冗余體素,提升三維模型重建網(wǎng)絡(luò)的表征能力,以使重建結(jié)果更具真實(shí)感。

        1 相關(guān)工作

        1.1 傳統(tǒng)三維模型重建方法

        傳統(tǒng)三維模型重建方法以傳感器是否主動(dòng)向物體照射光源為依據(jù),可將傳統(tǒng)方法分為被動(dòng)式三維重建方法和主動(dòng)式三維重建方法。

        被動(dòng)式三維重建方法通過(guò)環(huán)境光成像,依據(jù)圖像幾何原理來(lái)獲取物體的三維信息,其中的代表性方法包括

        SFT(shape from texture)[1]、SFS(shape from shading)[2-3]

        及SFM(structure from motion)[4]等。此類方法利用成像投影過(guò)程中物體自身的幾何特征來(lái)逆向計(jì)算物體的深度信息,局限性在于需要設(shè)置嚴(yán)苛的先驗(yàn)及約束。

        主動(dòng)式三維重建方法主要依靠外部傳感設(shè)備將光源或能量源發(fā)射至目標(biāo)物體,通過(guò)接收返回信號(hào)來(lái)獲取物體的深度信息。隨著精密傳感設(shè)備的更新迭代,飛行時(shí)間法(time of flight,ToF)、結(jié)構(gòu)光法(structured light)等主動(dòng)式三維重建方法在工業(yè)領(lǐng)域廣泛應(yīng)用。但是精密的硬件設(shè)備意味著高昂的成本,并且設(shè)備的使用容易受環(huán)境因素影響。

        1.2 面向三維模型重建的深度學(xué)習(xí)方法

        深度學(xué)習(xí)三維模型重建領(lǐng)域主要的數(shù)據(jù)格式包括體素、點(diǎn)云和網(wǎng)格,本文主要討論基于體素表征的重建方法。

        基于體素表征的三維模型重建方法近年來(lái)取得了長(zhǎng)足發(fā)展,這主要得益于2015年提出的VoxNet[5]和3D ShapeNet[6],為使用卷積神經(jīng)網(wǎng)絡(luò)處理體素?cái)?shù)據(jù)開(kāi)辟了思路。3D-R2N2[7]基于LSTM的結(jié)構(gòu)設(shè)計(jì)了3D-LSTM,用以處理從編碼器提取的特征向量。由于LSTM固有的結(jié)構(gòu)特點(diǎn),該方法的重建精度不可避免地受限于視圖輸入順序及視圖數(shù)量。Girdhar等人[8]提出的TLEmbedding Network約束二維視圖特征與三維模型特征在屬性嵌入空間具有一致性,從而實(shí)現(xiàn)三維模型的生成與重建。Wu等人[9]使用生成對(duì)抗網(wǎng)絡(luò)(GAN)來(lái)進(jìn)行三維模型重建,提出了3D-VAE-GAN的網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)變分自編碼網(wǎng)絡(luò)的編碼器將輸入編碼成潛在向量(latent vector),然后連接生成器來(lái)得到重建后的三維模型。該方法取得了比之前工作更好的性能,也為后續(xù)研究工作[10]提供了思路。MarrNet[11]及其變體[12-13]從輸入中預(yù)測(cè)中間信息(如2.5D深度圖)來(lái)幫助完成三維模型重建,此類方法緩解了物體的紋理、反照率等外觀變化在物體形狀推理過(guò)程中產(chǎn)生的影響。Xie等人[14]提出的Pix2Vox精心設(shè)計(jì)了多視圖感知融合模塊,用于從不同的三維模型中并行地為每個(gè)部分選擇高質(zhì)量重建。在Pix2Vox的基礎(chǔ)上,Pix2Vox++[15]通過(guò)使用更加復(fù)雜的編碼器骨干網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)更好的重建效果。胡飛等人[16]通過(guò)自動(dòng)編碼器生成三維輪廓,同時(shí)使用注意力網(wǎng)絡(luò)提取細(xì)節(jié)信息并將其補(bǔ)充到自動(dòng)解碼器的生成結(jié)果中,從而生成完整的三維形狀。Wallace等人[17]設(shè)計(jì)了用于少樣本三維模型重建的雙線性網(wǎng)絡(luò),該方法同時(shí)以二維視圖和類內(nèi)平均三維形狀作為輸入,旨在提升網(wǎng)絡(luò)在少樣本類別上的泛化能力。

        本文針對(duì)二維視圖所含空間信息離散與空間網(wǎng)格中體素分布不均衡問(wèn)題,提出了多層次感知的三維模型重建方法。

        2 本文方法

        設(shè)計(jì)了基于多層次感知的多視圖三維模型重建網(wǎng)絡(luò),其整體網(wǎng)絡(luò)架構(gòu)如圖1所示。在視圖特征提取階段,通過(guò)設(shè)計(jì)對(duì)視圖內(nèi)潛在空間信息進(jìn)行上下文感知的CA-CAM來(lái)引導(dǎo)網(wǎng)絡(luò)盡可能充分地提取二維視圖特征,從而更為精準(zhǔn)地建立二維視圖與三維模型間的特征映射;在三維模型生成階段,Vox-Focal Loss對(duì)空間網(wǎng)格中分布不均衡占位網(wǎng)格進(jìn)行體素感知,為不同占位狀態(tài)的網(wǎng)格賦予不同程度的懲罰權(quán)重并使網(wǎng)絡(luò)更關(guān)注于難分體素,從而約束基于CA-CAM的編碼器解碼器重建出全局結(jié)構(gòu)盡可能完整的三維模型;在三維模型細(xì)化階段,融合后的三維模型經(jīng)過(guò)細(xì)化器完成進(jìn)一步優(yōu)化,本文使用具有物體感知能力的3D判別器來(lái)與細(xì)化器協(xié)同工作,基于對(duì)抗學(xué)習(xí)思想自適應(yīng)地去除融合三維模型中的冗余部分,從而重建出更具真實(shí)感的三維模型。

        圖1 整體網(wǎng)絡(luò)架構(gòu)Fig.1 Overview of proposed network architecture

        2.1 基于上下文感知的視圖特征提取

        二維視圖作為三維模型的離散化表征,其潛在的空間信息有限。為充分提取視圖內(nèi)的潛在空間特征,設(shè)計(jì)了上下文感知的注意力模塊CA-CAM并將其嵌入到二維視圖編碼器。CA-CAM的具體網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,該模塊由三個(gè)分支構(gòu)成,分別用于對(duì)物體進(jìn)行細(xì)節(jié)特征感知、顯著特征感知及位置特征感知。

        圖2 CA-CAM模塊示意圖Fig.2 Illustration of proposed CA-CAM

        CA-CAM通過(guò)改變感受野和池化類型來(lái)實(shí)現(xiàn)視圖特征的上下文感知與通道維度的特征賦權(quán)。在注意力信息的學(xué)習(xí)過(guò)程中,Conv1與Conv2的卷積核尺寸分別為C/r×1×1與C×1×1,二者步長(zhǎng)均為1,采用逐點(diǎn)卷積(point-wise convolution)的方式來(lái)對(duì)通道信息進(jìn)行聚合。

        細(xì)節(jié)特征感知:在此分支中,除通道外的其他特征維度始終保持不變,通過(guò)逐點(diǎn)卷積來(lái)增加網(wǎng)絡(luò)的非線性表征能力,使得輸入特征X中的局部細(xì)節(jié)信息更為突出,用于關(guān)注目標(biāo)物體三維形狀細(xì)節(jié)特征的L()

        X∈

        RC×H×W可以表示為:

        其中,β表示批標(biāo)準(zhǔn)化[18](batch normalization),δ表示修正線性單元[19](rectified linear unit,ReLU)。

        顯著特征感知:與細(xì)節(jié)特征感知分支不同,此分支首先采用全局最大值池化來(lái)對(duì)輸入特征X進(jìn)行處理,從而在后續(xù)的卷積操作中獲取目標(biāo)物體的最顯著特征。用于學(xué)習(xí)目標(biāo)物體顯著特征的全局通道注意力可以表示為:

        其中,ε表示全局最大池化。

        位置特征感知:此分支通過(guò)全局平均池化來(lái)對(duì)輸入特征X的H×W維度進(jìn)行壓縮,然后通過(guò)卷積來(lái)對(duì)目標(biāo)的空間位置特征進(jìn)行感知,用于學(xué)習(xí)目標(biāo)物體位置特征的全局通道注意力可以表示為:

        其中,ψ表示全局平均池化。在給定L(X)、G1(X)與G2(X)后,由上下文通道注意力模塊CA-CAM優(yōu)化后的特征X′可以表示為:

        其中,C(X)∈RC×H×W表示由CA-CAM學(xué)習(xí)到的注意力權(quán)重,σ表示Sigmoid非線性激活函數(shù),⊕表示廣播加法(broadcast addition),?表示矩陣乘法。三個(gè)子分支提取到的特征通過(guò)廣播加法融合成C×H×W維度的特征,然后該特征經(jīng)過(guò)非線性激活函數(shù)Sigmoid映射成取值在(0,1)區(qū)間的通道注意力權(quán)重,最后輸入特征X與該注意力權(quán)重進(jìn)行矩陣相乘得到優(yōu)化后的特征X′。如圖3所示,CA-CAM對(duì)期望關(guān)注的區(qū)域賦予了更大的注意力權(quán)重。

        圖3 驗(yàn)證CA-CAM有效性的熱力圖可視化效果Fig.3 Heatmap visualization to verify effectiveness of CA-CAM

        2.2 基于體素感知的三維模型生成

        在三維模型生成階段,解碼器對(duì)由上下文通道注意力模塊CA-CAM優(yōu)化后的特征X′進(jìn)行解碼,然后將對(duì)應(yīng)于不同視圖的解碼結(jié)果進(jìn)行融合,最后通過(guò)損失函數(shù)對(duì)融合結(jié)果進(jìn)行懲罰約束。

        在損失函數(shù)的選擇上,現(xiàn)有的大多數(shù)體素表征三維模型重建網(wǎng)絡(luò)使用二元交叉熵作為損失函數(shù),為兩種占位狀態(tài)(占位:1,未占位:0)設(shè)置相同的懲罰權(quán)重。然而,在體素占位空間中,占位網(wǎng)格和未占位網(wǎng)格的比例嚴(yán)重失衡。如表1所示,本文對(duì)公共數(shù)據(jù)集ShapeNet Core中的43 783個(gè)樣本進(jìn)行了體素占比統(tǒng)計(jì),并以類別為單位取均值,可以觀察到整體的體素占比僅為8.78%。因此,基于二元交叉熵的方法會(huì)缺乏目標(biāo)體素感知能力,即使將目標(biāo)體素全部錯(cuò)誤分類為0,網(wǎng)絡(luò)也難以得到較大的損失值進(jìn)行梯度傳播。

        表1 體素占比統(tǒng)計(jì)Table 1 Voxel ratio statistics

        為解決上述問(wèn)題,在三維模型生成階段基于[20]設(shè)計(jì)了體素感知的VoxFocal Loss,用來(lái)保證重建結(jié)果的結(jié)構(gòu)完整性與連續(xù)性:

        2.3 基于物體感知的三維模型細(xì)化

        通過(guò)以上步驟,可以獲得結(jié)構(gòu)完整的三維模型重建結(jié)果,然而其細(xì)節(jié)部分還不夠準(zhǔn)確。為此,通過(guò)引入細(xì)化器對(duì)其進(jìn)行優(yōu)化。如圖1所示,細(xì)化器可以看作一個(gè)具有U-Net連接的三維編碼器-解碼器,借助逐層編碼解碼及它們之間的跳層連接,充分捕捉模型細(xì)節(jié),優(yōu)化重建結(jié)果??紤]到三維模型生成階段和細(xì)化階段均缺乏對(duì)三維模型整體結(jié)構(gòu)的感知,進(jìn)一步地,在細(xì)化器之后添加3D判別器來(lái)對(duì)優(yōu)化結(jié)果進(jìn)行整體真?zhèn)闻袛啵瑥亩鴺?gòu)建起包含上下文感知、體素感知和物體感知的多層次約束,重建出更具真實(shí)感的三維模型。具體來(lái)說(shuō),3D判別器由4個(gè)3D卷積層構(gòu)成,每層的卷積核尺寸均為43,步長(zhǎng)為2。前3個(gè)3D卷積層的padding為1,并且后面跟有批歸一化層與LeakyReLU激活層;第4個(gè)3D卷積層將padding設(shè)置為1,通過(guò)Sigmoid激活層將三維模型最終映射為(0,1)區(qū)間的概率值,該概率值與對(duì)應(yīng)的真?zhèn)螛?biāo)簽進(jìn)行損失計(jì)算,實(shí)現(xiàn)對(duì)三維模型的全局物體感知。三維模型重建網(wǎng)絡(luò)與物體感知3D判別器間的對(duì)抗損失可以表示為:

        其中,x表示三維模型在323維空間網(wǎng)格中的真實(shí)值,對(duì)應(yīng)的類標(biāo)簽設(shè)置為1;V表示三維模型重建網(wǎng)絡(luò)的重建結(jié)果,對(duì)應(yīng)的類標(biāo)簽設(shè)置為0。在訓(xùn)練過(guò)程中判別器會(huì)接收真實(shí)三維模型x和重建三維模型V,通過(guò)對(duì)x和V進(jìn)行真?zhèn)闻袛鄟?lái)調(diào)整三維模型重建網(wǎng)絡(luò)與3D判別器的參數(shù)。如果3D判別器判斷正確,則會(huì)對(duì)三維模型重建網(wǎng)絡(luò)的參數(shù)進(jìn)行調(diào)整,從而使得生成的三維模型更加具有真實(shí)感;反之則需要調(diào)整3D判別器的參數(shù)來(lái)避免判斷出錯(cuò)。這種對(duì)抗訓(xùn)練會(huì)一直持續(xù)到三維模型重建網(wǎng)絡(luò)與3D判別器進(jìn)入到均衡狀態(tài)。結(jié)束訓(xùn)練后,得益于3D判別器的物體感知能力,三維模型重建網(wǎng)絡(luò)會(huì)實(shí)現(xiàn)更高質(zhì)量的重建效果。

        2.4 損失函數(shù)

        網(wǎng)絡(luò)的整體損失函數(shù)由3個(gè)子損失構(gòu)成,子損失分別作用于網(wǎng)絡(luò)的不同階段,多次反向傳播來(lái)進(jìn)行梯度累積。整體損失函數(shù)Lsum可以表示為:

        其中,Lvfl表示三維模型生成階段的VoxFocal Loss,Lbce與Ladv表示三維模型細(xì)化階段的二元交叉熵?fù)p失與生成對(duì)抗損失。

        在三維模型重建過(guò)程中,多個(gè)層次的感知機(jī)制協(xié)同作用,從局部到整體地對(duì)重建三維模型進(jìn)行逐步細(xì)化:視圖特征級(jí)的上下文感知獲取豐富的深度信息,幫助建立二維視圖與三維模型間的特征映射,從而可以更為準(zhǔn)確地生成融合體素;VoxFocal Loss對(duì)融合體素進(jìn)行體素級(jí)的懲罰約束,提高三維模型生成階段重建結(jié)果的完整性;最后,細(xì)化器對(duì)融合體素中錯(cuò)誤的重建部分進(jìn)行優(yōu)化,從而生成最終的重建結(jié)果。值得注意的是,3D判別器并不直接參與三維模型的推理過(guò)程,其目標(biāo)是通過(guò)與三維模型重建網(wǎng)絡(luò)的對(duì)抗學(xué)習(xí)來(lái)隱式地賦予網(wǎng)絡(luò)全局結(jié)構(gòu)級(jí)的物體感知能力,從而使得網(wǎng)絡(luò)能夠重建出結(jié)構(gòu)更為完整且更具真實(shí)感的三維模型。

        3 實(shí)驗(yàn)結(jié)果及分析

        3.1 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

        3.1.1 數(shù)據(jù)集與對(duì)比方法選取

        ShapeNet數(shù)據(jù)集:本文參照文獻(xiàn)[5]中的設(shè)置選取了合成圖像數(shù)據(jù)集ShapeNet的子集,并將數(shù)據(jù)集劃分為4/5的訓(xùn)練集與1/5的測(cè)試集。

        ShapeNet數(shù)據(jù)集對(duì)比方法選?。河捎诒疚木劢褂跓o(wú)形狀先驗(yàn)的多視圖三維模型重建。因此選擇無(wú)顯式存儲(chǔ)模塊的多視圖三維模型重建方法進(jìn)行定量和定性比較,其中包括經(jīng)典方法3D-R2N2、現(xiàn)有先進(jìn)方法AAN、Pix2Vox及其變體Pix2Vox++。在定性實(shí)驗(yàn)中,在無(wú)特殊說(shuō)明的情況下,輸入視圖數(shù)量均為3。

        Pix3D數(shù)據(jù)集:本文參照文獻(xiàn)[12]中的數(shù)據(jù)集使用策略對(duì)真實(shí)世界數(shù)據(jù)集Pix3D[21]數(shù)據(jù)集進(jìn)行了處理。由于Pix3D數(shù)據(jù)集僅構(gòu)建了物體的單張視圖與三維模型的對(duì)應(yīng)關(guān)系,數(shù)據(jù)集中具有相同三維結(jié)構(gòu)但不同紋理的視圖會(huì)對(duì)應(yīng)到同一個(gè)三維模型,并且不同的二維視圖可能會(huì)對(duì)應(yīng)同一個(gè)視點(diǎn)。因此,本文僅將Pix3D數(shù)據(jù)集用于單視圖重建效果的評(píng)估。

        Pix3D數(shù)據(jù)集對(duì)比方法選取:對(duì)比方法包括Pix3D與Pix2Vox,由于Pix2Vox++構(gòu)建了未開(kāi)源的真實(shí)世界數(shù)據(jù)集Things3D,并額外在該數(shù)據(jù)集上進(jìn)行了訓(xùn)練,因此本文不將其加入此類實(shí)驗(yàn)進(jìn)行比較。

        3.1.2 評(píng)價(jià)指標(biāo)

        采用公認(rèn)的交并比(intersection-over-union,IoU)評(píng)價(jià)指標(biāo)來(lái)對(duì)重建質(zhì)量進(jìn)行定量評(píng)價(jià)。IoU可以表示為:

        其中,pi,j,k表示(i,j,k)處空間網(wǎng)格的占位概率,yi,j,k表示對(duì)應(yīng)位置的真實(shí)占位狀態(tài),t表示進(jìn)行體素化的閾值。

        3.2 實(shí)驗(yàn)設(shè)計(jì)細(xì)節(jié)

        網(wǎng)絡(luò)以尺寸為224×224的圖像作為輸入并輸出323分辨率的三維空間網(wǎng)格,體素化閾值t設(shè)置為0.3。

        選用Adam優(yōu)化器進(jìn)行梯度運(yùn)算,將其初始學(xué)習(xí)率設(shè)置為0.001,衰減率設(shè)置為0.5。由于生成對(duì)抗網(wǎng)絡(luò)難以訓(xùn)練,因此采用兩階段的訓(xùn)練策略:(1)在不添加3D判別器的條件下訓(xùn)練300個(gè)批次。各個(gè)子損失的權(quán)重設(shè)置為λ1=10,λ2=20,λ3=0,Adam優(yōu)化器的學(xué)習(xí)率將在[100,175,225,250,275]批次時(shí)進(jìn)行衰減。(2)添加3D判別器后,加載階段(1)訓(xùn)練的模型參數(shù)來(lái)完成200批次的對(duì)抗訓(xùn)練。各個(gè)子損失的權(quán)重設(shè)置為λ1=10,λ2=20,λ3=10,Adam優(yōu)化器的學(xué)習(xí)率將在[50,100,150]批次時(shí)進(jìn)行衰減。

        3.3 消融實(shí)驗(yàn)分析

        為驗(yàn)證本文提出的CA-CAM、Vox-Focal Loss及3D判別器的有效性,在輸入為多視圖的前提下對(duì)網(wǎng)絡(luò)進(jìn)行了消融實(shí)驗(yàn)。表2展示了不同版本模型取得的IoU值。從表2結(jié)果可以看出,同未添加任何模塊的基準(zhǔn)方法相比,在編碼器中添加了CA-CAM的模型v1提升了0.013的IoU值。相比于模型v1,損失函數(shù)替換為Vox-Focal Loss的模型v2將IoU值提升了0.003。添加3D判別器進(jìn)行對(duì)抗學(xué)習(xí)之后的模型v3在模型v2的基礎(chǔ)上再次提升了0.001,并取得了最佳的重建結(jié)果。

        表2 不同版本模型的多視圖三維模型重建結(jié)果對(duì)比Table 2 Comparison of multi-view 3D model reconstruction results of different versions of models

        本文還對(duì)各版本模型進(jìn)行了定性比較。圖4展示了重建的可視化效果,從可視化效果中可以直觀地觀察到:模型v1的重建結(jié)果要比基準(zhǔn)模型的重建結(jié)果更為完整,填補(bǔ)了結(jié)構(gòu)中的部分孔洞;與模型v1相比,基于CA-CAM與Vox-Focal Loss的模型v2的重建結(jié)果最為完整且具有連續(xù)的結(jié)構(gòu);在細(xì)化器中添加3D判別器后,模型v3通過(guò)從模型v2的重建結(jié)果中消除冗余體素獲得了更準(zhǔn)確且更細(xì)節(jié)的結(jié)果;即從基準(zhǔn)模型到模型v3的重建效果在逐步提升。

        綜合表2與圖4,模型v3在定量比較上雖然并沒(méi)取得顯著提升,但是模型v3的重建視覺(jué)效果要遠(yuǎn)優(yōu)于模型v2。經(jīng)過(guò)分析,認(rèn)為這是因?yàn)樵诩尤?D判別器后,關(guān)鍵位置冗余體素的消除僅在度量指標(biāo)上獲得了0.001的提升,但是重建結(jié)果在視覺(jué)上更為準(zhǔn)確與真實(shí)。

        圖4 消融實(shí)驗(yàn)的可視化實(shí)例(上為ShapeNet數(shù)據(jù)集樣本,下為Pix3D數(shù)據(jù)集樣本)Fig.4 Visual examples of ablation experiment

        3.4 與現(xiàn)有方法的對(duì)比分析

        表3展示了本文方法在5種視圖數(shù)量設(shè)置下與現(xiàn)有代表性方法的定量比較。與最先進(jìn)方法Pix2Vox++比較,在以單視圖作為輸入時(shí),本文方法取得0.01的提升;在以2、3張視圖作為輸入時(shí),本文方法取得了0.008的提升;在以4、5張視圖作為輸入時(shí),本文均取得了0.013的提升。表4展示了單視圖條件下本文方法與現(xiàn)有方法在ShapeNet數(shù)據(jù)集上的重建結(jié)果對(duì)比,各個(gè)類別的最優(yōu)重建結(jié)果通過(guò)加粗表示,次優(yōu)重建結(jié)果通過(guò)下劃線表示。

        可以觀察到本文方法在大多數(shù)類別上都取得了更先進(jìn)的重建結(jié)果,并且整體的重建IoU值要優(yōu)于現(xiàn)有的代表性方法。

        如圖5所示,本文對(duì)在數(shù)據(jù)集ShapeNet上的多視圖重建結(jié)果進(jìn)行了可視化??梢杂^察到3D-R2N2的部分重建結(jié)果包含孔洞,從而導(dǎo)致整體結(jié)構(gòu)缺乏完整性與連續(xù)性;Pix2Vox及其改進(jìn)版本Pix2Vox++的重建結(jié)果有著較為完整的全局結(jié)構(gòu);相比于現(xiàn)有方法,本文方法的重建結(jié)果不僅結(jié)構(gòu)完整,并且在局部結(jié)構(gòu)(例如柜子的邊緣和椅子的腿)上要更加精確。

        如圖6所示,本文對(duì)在數(shù)據(jù)集Pix3D上的單視圖重建結(jié)果進(jìn)行了可視化。可以觀察到本文方法在以前兩張視圖作為輸入時(shí)取得了更為完整的重建結(jié)果。在以后兩張視圖作為輸入時(shí),本文方法的重建結(jié)果既有完整的形狀,又有精確的局部細(xì)節(jié)。此外,如表5所示,本文對(duì)在Pix3D數(shù)據(jù)集上的重建結(jié)果進(jìn)行了定量比較,與現(xiàn)有最優(yōu)方法Pix2Vox相比,本文方法取得了0.017的重建效果提升。綜合表3、表4、表5與圖5、圖6,本文方法在合成圖像數(shù)據(jù)集和真實(shí)世界數(shù)據(jù)集上都獲得具有先進(jìn)性的重建結(jié)果。

        表5 在Pix3D數(shù)據(jù)集上的定量比較Table 5 Quantitative comparison on Pix3D

        圖5 ShapeNet數(shù)據(jù)集重建結(jié)果可視化Fig.5 Visualization of reconstruction results on ShapeNet dataset

        圖6 Pix3D數(shù)據(jù)集重建結(jié)果可視化Fig.6 Visualization of reconstruction results on Pix3D dataset

        表3 不同視圖數(shù)量設(shè)置下的定量對(duì)比Table 3 Quantitative comparison under different view quantity settings

        4 結(jié)語(yǔ)

        本文針對(duì)二維視圖的離散化及體素?cái)?shù)據(jù)的稀疏性特性,提出了多層次感知的多視圖三維模型重建方法。該方法在二維視圖提取階段通過(guò)可學(xué)習(xí)的上下文感知注意力機(jī)制CA-CAM,有效地提取和融合離散視圖中的空間幾何特征。在三維模型生成階段,體素感知的Vox-Focal Loss有效緩解了空間占位網(wǎng)格的樣本不均衡問(wèn)題,保證了重建三維模型的結(jié)構(gòu)完整性與連續(xù)性。在三維模型細(xì)化階段,具有物體感知能力的3D判別器以微調(diào)的方式參與模型訓(xùn)練,限制了冗余體素的生成,提升了重建結(jié)果的真實(shí)性。經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證,該方法在三維模型重建任務(wù)上具有有效性與先進(jìn)性。

        在具有挑戰(zhàn)性的真實(shí)世界數(shù)據(jù)集Pix3D上,本文方法的重建結(jié)果會(huì)存在較為嚴(yán)重的體素缺失。認(rèn)為這是因?yàn)檎鎸?shí)世界中目標(biāo)物體的背景復(fù)雜,因此在未來(lái)的工作中,將致力于將目標(biāo)物體與背景進(jìn)行自適應(yīng)分割,從而提升在真實(shí)世界數(shù)據(jù)集上的重建效果。

        猜你喜歡
        體素視圖物體
        基于超體素聚合的流式細(xì)胞術(shù)自動(dòng)門(mén)控方法
        基于多級(jí)細(xì)分的彩色模型表面體素化算法
        運(yùn)用邊界狀態(tài)約束的表面體素加密細(xì)分算法
        深刻理解物體的平衡
        基于體素格尺度不變特征變換的快速點(diǎn)云配準(zhǔn)方法
        我們是怎樣看到物體的
        5.3 視圖與投影
        視圖
        Y—20重型運(yùn)輸機(jī)多視圖
        SA2型76毫米車(chē)載高炮多視圖
        亚洲AV无码永久在线观看| 国产免费牲交视频| 国产熟女自拍视频网站| 午夜一区二区三区福利视频| 欧洲美女黑人粗性暴交视频| 性色av一区二区三区| 国产精品麻豆成人AV电影艾秋| 国产亚洲一区二区三区成人| 午夜福利视频一区二区二区| 把女的下面扒开添视频| 亚洲综合av在线在线播放| 在线观看国产高清免费不卡黄| 中国老太老肥熟女视频| 久久精品国产亚洲av蜜臀久久| 变态另类人妖一区二区三区 | 无码一级视频在线| 欧美日韩中文字幕日韩欧美| 中文字幕色一区二区三区页不卡| 国精产品一区一区二区三区mba| 波多野结衣av手机在线观看 | 欧美疯狂做受xxxx高潮小说| 精品国产性色av网站| 国产精品高清国产三级国产av| 日本最新一区二区三区在线视频| 中文字幕日韩一区二区不卡| 欧美粗大无套gay| 免费va国产高清不卡大片| 精品国产色哟av一区二区三区| 久久久久亚洲av成人网人人软件| 国产香蕉97碰碰视频va碰碰看 | 国产人妖一区二区在线| 国产麻豆精品传媒av在线| 亚洲精品乱码久久久久久金桔影视 | 久久久久久人妻无码| 国产96在线 | 欧美| 日韩精人妻无码一区二区三区 | 精品亚洲国产成人蜜臀av| 亚洲av片不卡无码久久| 亚洲日韩成人无码不卡网站| 日韩精品一区二区三区乱码 | 日本激情视频一区在线观看|