亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        三維補(bǔ)全關(guān)鍵技術(shù)研究綜述

        2023-04-10 00:41:34肖海鴻吳秋遐李玉瓊康文雄
        光學(xué)精密工程 2023年5期
        關(guān)鍵詞:形狀語(yǔ)義卷積

        肖海鴻,吳秋遐,李玉瓊,康文雄*

        (1.華南理工大學(xué) 自動(dòng)化科學(xué)與工程學(xué)院,廣東 廣州 510640;2.華南理工大學(xué) 軟件學(xué)院,廣東 廣州 510006;3.中國(guó)科學(xué)院 力學(xué)研究所 國(guó)家微重力實(shí)驗(yàn)室,北京 100190)

        1 引言

        近年來(lái),隨著深度學(xué)習(xí)和傳感器技術(shù)的快速發(fā)展,三維視覺(jué)受到了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注,在目標(biāo)檢測(cè)[1]、語(yǔ)義分割[2]、三維重建[3]等領(lǐng)域都取得了突破性的進(jìn)展。然而,一個(gè)固有的問(wèn)題仍然存在,即由于物體遮擋、表面反射、材料透明、視角變換和傳感器分辨率的限制,傳感器在真實(shí)場(chǎng)景下所獲取的數(shù)據(jù)并不完整,阻礙了下游任務(wù)的研究進(jìn)展。在無(wú)人駕駛領(lǐng)域,三維補(bǔ)全技術(shù)可為環(huán)境感知任務(wù)提供精確的物體識(shí)別和跟蹤信息[4]。在生產(chǎn)制造領(lǐng)域,三維補(bǔ)全技術(shù)可為機(jī)械臂抓取任務(wù)提供準(zhǔn)確的物體位姿信息[5]。在文物保護(hù)領(lǐng)域,三維補(bǔ)全技術(shù)可為數(shù)字化的文物鑒定、檢測(cè)和修復(fù)提供依據(jù)[6]。此外,三維補(bǔ)全技術(shù)還可為虛擬數(shù)字人的重建[7]和元宇宙生態(tài)體系的構(gòu)建[8]奠定基礎(chǔ),如圖1 所示。理解三維環(huán)境是人類(lèi)的一種自然能力,人們可以利用學(xué)到的先驗(yàn)知識(shí)估計(jì)出缺失區(qū)域的幾何和語(yǔ)義信息,然而,這對(duì)計(jì)算機(jī)而言是比較困難的[9]。

        圖1 研究目的導(dǎo)向圖Fig.1 Research purpose oriented map

        針對(duì)上述問(wèn)題,研究人員開(kāi)展了一系列圍繞三維形狀補(bǔ)全、三維場(chǎng)景補(bǔ)全和三維語(yǔ)義場(chǎng)景補(bǔ)全方面的研究工作。其中,三維形狀補(bǔ)全可以提高場(chǎng)景理解的準(zhǔn)確度,其目的是根據(jù)已觀測(cè)到的局部形狀恢復(fù)出物體的完整幾何形狀,其補(bǔ)全對(duì)象通常是單個(gè)物體[10]。傳統(tǒng)的三維形狀補(bǔ)全方法主要是通過(guò)幾何對(duì)稱(chēng)性[11-12]、表面重建[13-16]、模板匹配[17-20]等方式進(jìn)行補(bǔ)全。近年來(lái),隨著深度學(xué)習(xí)的發(fā)展,基于學(xué)習(xí)的形狀補(bǔ)全工作[21-24]取得重要進(jìn)展。然而,基于學(xué)習(xí)的形狀補(bǔ)全方法目前大多是在合成數(shù)據(jù)集上進(jìn)行,在真實(shí)場(chǎng)景下的補(bǔ)全效果仍然存在較大的提升空間。

        三維場(chǎng)景補(bǔ)全是形狀補(bǔ)全的擴(kuò)展,需要在掃描的場(chǎng)景中對(duì)缺失部分進(jìn)行補(bǔ)全[25],其核心在于補(bǔ)全后場(chǎng)景細(xì)粒度的保持。相較于形狀補(bǔ)全,場(chǎng)景補(bǔ)全具有補(bǔ)全面積大和補(bǔ)全對(duì)象多的特點(diǎn)[25]。當(dāng)缺失區(qū)域較小的時(shí)候,可以采用平面擬合[26]和插值[27]的方法。當(dāng)缺失區(qū)域較大的時(shí)候,這類(lèi)方法難以達(dá)到令人滿(mǎn)意的結(jié)果。因此,一些工作試圖通過(guò)模型擬合的方法[28-30]來(lái)得到干凈而緊湊的場(chǎng)景表示。最近,利用深度神經(jīng)網(wǎng)絡(luò)直接作用于整個(gè)場(chǎng)景的生成補(bǔ)全方法[31-32]顯示出了很大的研究潛力。然而,這類(lèi)方法忽略了語(yǔ)義信息對(duì)場(chǎng)景補(bǔ)全的輔助,當(dāng)補(bǔ)全的場(chǎng)景過(guò)于復(fù)雜時(shí),其精度會(huì)有所下降。

        三維語(yǔ)義場(chǎng)景補(bǔ)全是在場(chǎng)景補(bǔ)全的幾何基礎(chǔ)上同時(shí)估計(jì)出場(chǎng)景的語(yǔ)義信息。事實(shí)證明,語(yǔ)義信息和幾何信息是相互交織耦合的[33]。換句話說(shuō),當(dāng)在未完整觀測(cè)一個(gè)物體的情況下,已知它的語(yǔ)義信息有助于估計(jì)出它可能占據(jù)的場(chǎng)景區(qū)域。如圖2 所示,看到桌子后面的椅子頂部,推斷出椅子的座位和腿的存在。同理,已知一個(gè)對(duì)象的完整幾何信息,有助于識(shí)別其語(yǔ)義類(lèi)別。然而,語(yǔ)義場(chǎng)景補(bǔ)全是相對(duì)復(fù)雜的,表現(xiàn)為數(shù)據(jù)的稀疏性和沒(méi)有真實(shí)完整的地面參考值(通過(guò)多幀融合形成的參考值僅能提供較弱的監(jiān)督信號(hào))。相較于形狀補(bǔ)全,語(yǔ)義場(chǎng)景補(bǔ)全需要深入了解整個(gè)場(chǎng)景,嚴(yán)重依賴(lài)于學(xué)習(xí)到的先驗(yàn)知識(shí)來(lái)解決歧義性。伴隨著大規(guī)模語(yǔ)義場(chǎng)景數(shù)據(jù)集[34-37]的出現(xiàn),基于深度學(xué)習(xí)的語(yǔ)義場(chǎng)景補(bǔ)全方法[38-41]相繼被提出并取得不錯(cuò)的結(jié)果。然而,現(xiàn)有的方法在物體幾何細(xì)節(jié)、模型內(nèi)存占用、場(chǎng)景不確定性估計(jì)等方面還存在諸多不足。

        圖2 場(chǎng)景信息觀測(cè)視角圖Fig.2 Scene information observation perspective map

        在過(guò)去幾年,關(guān)于三維視覺(jué)的相關(guān)工作,如三維深度學(xué)習(xí)[42]、三維目標(biāo)檢測(cè)[43]、三維語(yǔ)義分割[44]、三維重建[45]、實(shí)時(shí)重建[46]等方面都有相對(duì)應(yīng)的綜述,但系統(tǒng)總結(jié)三維補(bǔ)全的工作幾乎沒(méi)有,而與本文并行的工作[47]也僅是總結(jié)基于點(diǎn)云輸入的形狀補(bǔ)全。本文將系統(tǒng)地介紹國(guó)內(nèi)外在三維形狀補(bǔ)全、三維場(chǎng)景補(bǔ)全和三維語(yǔ)義場(chǎng)景補(bǔ)全這三方面所展開(kāi)的相關(guān)研究工作,并選取其中部分具有代表性的算法進(jìn)行客觀評(píng)價(jià)和歸納總結(jié)。最后,本文討論了該領(lǐng)域目前存在的問(wèn)題并展望了未來(lái)的發(fā)展趨勢(shì)。希望本文能夠?qū)傔M(jìn)入這一新興領(lǐng)域的研究者起到導(dǎo)航的作用,同時(shí),也希望能夠?qū)ο嚓P(guān)領(lǐng)域的研究者提供一些參考和幫助。

        本文的后續(xù)內(nèi)容安排為:第2 節(jié)整理三維補(bǔ)全相關(guān)數(shù)據(jù)集和評(píng)價(jià)指標(biāo);第3 節(jié)根據(jù)模型構(gòu)建過(guò)程中有無(wú)神經(jīng)網(wǎng)絡(luò)的參與,將現(xiàn)有的形狀補(bǔ)全算法分為傳統(tǒng)方法和基于深度學(xué)習(xí)方法兩大類(lèi)并進(jìn)行梳理與小結(jié);第4 節(jié)分別從模型擬合和生成式的角度梳理了場(chǎng)景補(bǔ)全任務(wù)中具有代表性的算法并進(jìn)行小結(jié);第5 節(jié)根據(jù)輸入數(shù)據(jù)的不同類(lèi)型,分別從深度圖輸入、深度圖聯(lián)合彩色圖像輸入、點(diǎn)云輸入三方面梳理了語(yǔ)義場(chǎng)景補(bǔ)全任務(wù)中具有代表性的算法并進(jìn)行小結(jié);第6 節(jié)討論了三維補(bǔ)全領(lǐng)域存在的問(wèn)題,并對(duì)未來(lái)可能的發(fā)展方向進(jìn)行展望;第7 節(jié)對(duì)本文內(nèi)容進(jìn)行總結(jié)。

        2 數(shù)據(jù)集和評(píng)價(jià)指標(biāo)

        2.1 數(shù)據(jù)集

        隨著傳感器技術(shù)的突破和三維視覺(jué)的快速發(fā)展,三維補(bǔ)全相關(guān)數(shù)據(jù)集的廣泛獲取成為可能。為了便于研究者能夠直接展開(kāi)相關(guān)工作,本文匯總了常用的數(shù)據(jù)集,并根據(jù)數(shù)據(jù)集的類(lèi)型不同,將其劃分為合成數(shù)據(jù)集和真實(shí)數(shù)據(jù)集。其中,合成數(shù)據(jù)集包括:ShapeNet-Part(ShapeNet[48]子 集)、SUNCG[33]、Fandisk[49]、Raptor[49]和NYUCAD[31],真實(shí)數(shù)據(jù)集包括:KITTI[50]、Scan-Net[51]、Matterport3D[52]、DFAUST[52]、MHAD[53]、NYUv2[54]、tabletop[31]、Semantic KITTI[35]和SemanticPOSS[37]。數(shù)據(jù)集的詳細(xì)介紹如表1 所示。

        表1 三維補(bǔ)全相關(guān)數(shù)據(jù)集Tab.1 3D completion related datasets

        續(xù)表1 三維補(bǔ)全相關(guān)數(shù)據(jù)集Tab.1 3D completion related datasets

        2.2 評(píng)價(jià)指標(biāo)

        2.2.1 形狀補(bǔ)全結(jié)果評(píng)價(jià)指標(biāo)

        由于三維形狀表示的不同形式,補(bǔ)全結(jié)果的評(píng)價(jià)標(biāo)準(zhǔn)也是不同的。針對(duì)體素網(wǎng)格形式的補(bǔ)全評(píng)價(jià)標(biāo)準(zhǔn),主要采用一定分辨率下的誤差率衡量補(bǔ)全性能的好壞(誤差率即補(bǔ)全形狀和真值之間的差異體素網(wǎng)格數(shù)除以真值體素網(wǎng)格總數(shù))[55]。針對(duì)三角網(wǎng)格或多邊形網(wǎng)格形式的補(bǔ)全評(píng)價(jià)標(biāo)準(zhǔn),主要是通過(guò)計(jì)算補(bǔ)全網(wǎng)格頂點(diǎn)和真值網(wǎng)格頂點(diǎn)之間的平均歐幾里得距離(Euclidean Distance,ED)進(jìn)行評(píng)估[56]。針對(duì)點(diǎn)云表示的補(bǔ)全評(píng)價(jià)標(biāo)準(zhǔn),大多數(shù)方法采用補(bǔ)全點(diǎn)云與真值點(diǎn)云之間的倒角距離(Chamfer Distance,CD)[10]或地球移動(dòng)距 離(Earth Mover′s Distances,EMD)[10]進(jìn)行評(píng)估,其公式定義如下:

        其中:P1和P2分別表示生成的點(diǎn)云和真實(shí)完整點(diǎn)云,a和b分別表示P1和P2中的點(diǎn),φ表示雙向映射函數(shù)。

        Shu 等[57]提出弗雷歇點(diǎn)云距 離(Fr′echet Point Cloud Distance,F(xiàn)PD)用于衡量補(bǔ)全點(diǎn)云與真實(shí)點(diǎn)云之間相似度,其公式定義如下:

        其中:mP1和mP2分別表示生成點(diǎn)云和真實(shí)點(diǎn)云的特征向量,ΣP1和ΣP2分別表示生成點(diǎn)云和真實(shí)點(diǎn)云的協(xié)方差矩陣,Tr(A)表示矩陣A 的主對(duì)角線元素之和。

        Wu 等[58]提出密度感知倒角距離(Density-Aware Chamfer Distance,DCD),和 原始CD 相比,它對(duì)密度分布的一致性更加敏感,而和EMD相比,它更擅長(zhǎng)于捕捉局部細(xì)節(jié),其公式定義如下:

        其中:α表示溫度標(biāo)量,P1和P2分別表示生成的點(diǎn)云和真實(shí)完整點(diǎn)云。

        Chen 等[59]提出視覺(jué)相似度評(píng)價(jià)指標(biāo)——光場(chǎng)描述符(Light Field Descriptor,LFD)。它的原理是對(duì)3D 形狀渲染的2D 視圖通過(guò)Zernike 矩陣和傅里葉變換(Fourier Transform,F(xiàn)T)進(jìn)行相似度分析。對(duì)于一些無(wú)監(jiān)督的點(diǎn)云補(bǔ)全方法,由于沒(méi)有真值參考,使用單向倒角距離(Unidirectional Chamfer Distance,UCD)[60]或單向豪斯多夫距離(Unidirectional Hausdorff Distance,UHD)[60]進(jìn)行評(píng)估。

        2.2.2 場(chǎng)景補(bǔ)全結(jié)果評(píng)價(jià)指標(biāo)

        在場(chǎng)景補(bǔ)全任務(wù)中,由于最終輸出場(chǎng)景的表示形式不同,因此也有不同的評(píng)價(jià)標(biāo)準(zhǔn)。大多數(shù)方法輸出的場(chǎng)景表示是TSDF[25]編碼的矩陣,因此常用L1距離[32]作為評(píng)價(jià)標(biāo)準(zhǔn)。其中,一些方法的輸出是網(wǎng)格或點(diǎn)云。因此,可以使用CD[10]、EMD[10]、FPD[57]和DCD[58]作為評(píng)價(jià)指標(biāo)。對(duì)于基于模型擬合的場(chǎng)景補(bǔ)全方法,其評(píng)價(jià)標(biāo)準(zhǔn)大多采用模型對(duì)齊精度[28]作為評(píng)價(jià)指標(biāo)。Dahnert等[30]使用混淆分?jǐn)?shù)(Confusion Score,CS)衡量嵌入空間的學(xué)習(xí)程度,以此進(jìn)一步衡量補(bǔ)全模型和CAD 模型之間的平衡程度。

        2.2.3 語(yǔ)義場(chǎng)景補(bǔ)全結(jié)果評(píng)價(jià)指標(biāo)

        在三維語(yǔ)義場(chǎng)景補(bǔ)全任務(wù)中,評(píng)價(jià)指標(biāo)是相對(duì)統(tǒng)一的,為預(yù)測(cè)結(jié)果和真值結(jié)果之間的交并比(Intersection over Union,IoU)[33]或平均交并比(Mean Intersection over Union,mIoU)[33],其 公式定義如下:

        其中:NTP表示“正陽(yáng)性”即預(yù)測(cè)已占用體素結(jié)果中的預(yù)測(cè)正確的樣本數(shù)量,NFP表示“假陽(yáng)性”即預(yù)測(cè)錯(cuò)誤的樣本數(shù)量,NFN表示“假陰性”即未被檢測(cè)到的已占用體素?cái)?shù)量,C表示類(lèi)別。

        3 三維形狀補(bǔ)全

        3.1 基于傳統(tǒng)的形狀補(bǔ)全方法

        3.1.1 基于對(duì)稱(chēng)的方法

        對(duì)稱(chēng)是自然界廣泛存在的一種現(xiàn)象,對(duì)稱(chēng)性是重要的科學(xué)思維方法之一,最初的形狀補(bǔ)全方法主要是利用物體或空間呈現(xiàn)的幾何對(duì)稱(chēng)性[11-12]恢復(fù)缺失區(qū)域的重復(fù)結(jié)構(gòu)。該方法假設(shè)了缺失的幾何部分在現(xiàn)有的部分觀測(cè)信息中具有重復(fù)結(jié)構(gòu),對(duì)于大部分呈現(xiàn)立體對(duì)稱(chēng)結(jié)構(gòu)的簡(jiǎn)單物體是有效的。然而,對(duì)稱(chēng)性假設(shè)并不適用于自然界中的所有物體。

        3.1.2 基于表面重建的方法

        現(xiàn)有的表面重建方法主要分為插值和擬合兩種方式[13]。插值是將表面上集中的數(shù)據(jù)點(diǎn)作為初始條件,通過(guò)不同算法執(zhí)行插值操作得到密集表面。擬合是利用采樣點(diǎn)云直接重建近似表面,通常以隱式形式表示。

        Lee 等[14]提出基于多層B 樣條的快速分散數(shù)據(jù)插值算法。該算法在插值效果和計(jì)算時(shí)間上都具有較好的優(yōu)勢(shì)。但在選點(diǎn)方式和定義權(quán)重上存在一定的困難,導(dǎo)致重建的表面存在不連續(xù)情況。Price 等[15]采用分形插值方法來(lái)重建三維曲面。與傳統(tǒng)插值方法相比,分形插值在擬合具有分形特征或較為復(fù)雜的事物時(shí)具有優(yōu)勢(shì)。但它計(jì)算復(fù)雜,并且分形的參數(shù)H較難估計(jì)。泊松表面重建[13]是一種隱函數(shù)表面重建方法,它通過(guò)平滑濾波指示函數(shù)構(gòu)建泊松方程,將表面重建問(wèn)題等同為泊松方程的求解問(wèn)題。通過(guò)對(duì)該方程進(jìn)行等值面提取,得到具有幾何實(shí)體信息的表面模型;其構(gòu)建的表面能容忍一定程度的噪聲,但存在過(guò)度平滑問(wèn)題。針對(duì)泊松表面重建的過(guò)度平滑問(wèn)題,Kazhdan 等[16]通過(guò)引入樣本點(diǎn)的位置約束,將其表示為屏蔽泊松方程進(jìn)行求解,生成更為貼合的表面,但該方法比較依賴(lài)于準(zhǔn)確的點(diǎn)云法向量。盡管以上基于插值和擬合的表面重建方法都取得了較好的結(jié)果,但這類(lèi)方法通常用于孔洞修復(fù),存在補(bǔ)全面積小的限制。

        3.1.3 基于模板匹配的方法

        基于模板匹配的形狀補(bǔ)全方法主要包括部分形狀匹配方法[17]和整體形狀匹配方法[18]。部分形狀匹配主要是在預(yù)先定義的大型形狀模型庫(kù)中尋找能夠最佳擬合的對(duì)象部件,然后將它們組裝起來(lái)獲得完整形狀。整體形狀匹配是在模型庫(kù)中直接檢索完整的最佳擬合形狀。其中,尋優(yōu)算法的選取對(duì)最終模板匹配的結(jié)果起到至關(guān)重要的作用。

        Rock 等[19]提出模型變形的匹配方法,其核心是將從數(shù)據(jù)庫(kù)中檢索到的候選模型執(zhí)行非剛性曲面對(duì)齊使其形狀變形以擬合輸入。Sun 等[20]進(jìn)一步提出基于補(bǔ)丁的檢索-變形方法。該方法首先從輸入形狀中選擇候選補(bǔ)丁,其次,對(duì)檢索到的候選對(duì)象執(zhí)行變形操作并縫合成完整形狀。該方法可以重建在拓?fù)浣Y(jié)構(gòu)上不同于訓(xùn)練數(shù)據(jù)的形狀。盡管基于模板匹配的方法取得了較好的補(bǔ)全結(jié)果。但這類(lèi)方法通常存在尋優(yōu)速度慢和對(duì)噪聲比較敏感的問(wèn)題。同時(shí),它依賴(lài)于較大的模型庫(kù)來(lái)覆蓋補(bǔ)全的全部形狀,這在真實(shí)世界中往往是不切實(shí)際的。

        3.2 基于深度學(xué)習(xí)的形狀補(bǔ)全方法

        目前常用的三維數(shù)據(jù)表示形式包括點(diǎn)云[61]、體素[62]和網(wǎng)格[63]。盡管最近基于深度隱式表示的方式,如占用網(wǎng)絡(luò)(Occupancy Networks)[64]、連續(xù)符號(hào)距離函數(shù)(Sign Distance Function,SDF)[65]和神經(jīng)輻射場(chǎng)(Neural Radiance Field,NeRF)[66]在三維重建和三維語(yǔ)義場(chǎng)景補(bǔ)全任務(wù)中有相關(guān)的工作。但在形狀補(bǔ)全任務(wù)中,目前大多數(shù)補(bǔ)全方法都依賴(lài)于點(diǎn)云的數(shù)據(jù)形式,這不僅與點(diǎn)云自身的特性有關(guān),即存儲(chǔ)空間小且表征能力強(qiáng),還與點(diǎn)云數(shù)據(jù)集相對(duì)容易獲取有關(guān)。

        基于學(xué)習(xí)的形狀補(bǔ)全方法根據(jù)其算法原理,可歸納為6 種主要類(lèi)型:基于逐點(diǎn)的多層感知機(jī)(Multi-layer Perceptron,MLP)方法[10,21-24,67-68]、基于卷積的方法[69-72]、基于圖的方法[56,73-76]、基于生成對(duì)抗的方法[77-81]、基于Transformer 的方法[82-83]和其他方法[65,84-85],其發(fā)展歷程如圖3 所 示。下面,本文將對(duì)其中具有代表性的一些算法進(jìn)行介紹和總結(jié)。

        圖3 基于深度學(xué)習(xí)的三維形狀補(bǔ)全方法發(fā)展歷程Fig.3 Development history of 3D shape complementation methods based on deep learning

        3.2.1 基于逐點(diǎn)的MLP 方法

        點(diǎn)云是三維形狀補(bǔ)全任務(wù)中最常使用的數(shù)據(jù)形式。盡管它具有存儲(chǔ)空間小且表征能力強(qiáng)的優(yōu)點(diǎn),但是它的無(wú)序性和不規(guī)則性也給特征提取帶來(lái)了巨大挑戰(zhàn)。PointNet[61]是首個(gè)被提出直接作用于點(diǎn)云數(shù)據(jù)的深度學(xué)習(xí)網(wǎng)絡(luò),它采用MLP 對(duì)每個(gè)點(diǎn)進(jìn)行獨(dú)立地特征提取。然后,使用最大池化(Max Pooling)函數(shù)得到點(diǎn)云的全局特征。得益于這項(xiàng)工作的啟發(fā),基于逐點(diǎn)的MLP 形狀補(bǔ)全算法相繼被提出[10,21-24,67-68]。

        作為點(diǎn)云形狀補(bǔ)全的開(kāi)創(chuàng)性工作,PCN[10]遵循編碼器-解碼器范式來(lái)完成點(diǎn)云補(bǔ)全任務(wù)。編碼器主要由堆疊的MLP 層構(gòu)成,解碼器包括全連接層解碼器[21]和折疊解碼器[22]兩部分。其中,全連接層解碼器負(fù)責(zé)估計(jì)點(diǎn)云的幾何形狀,而折疊解碼器負(fù)責(zé)近似出局部幾何形狀的光滑表面。盡管該算法能夠獲得較好的完整點(diǎn)云和稠密點(diǎn)云,基于折疊的二維網(wǎng)格變形操作在某種程度上會(huì)限制三維點(diǎn)云的幾何表達(dá)。Tchapmi 等[23]提出分層的樹(shù)結(jié)構(gòu)點(diǎn)云補(bǔ)全網(wǎng)絡(luò)TopNet,其核心思想是采用基于MLP 的樹(shù)解碼器生成結(jié)構(gòu)化的完整點(diǎn)云。該算法允許網(wǎng)絡(luò)學(xué)習(xí)任意的拓?fù)浣Y(jié)構(gòu),而不是強(qiáng)制執(zhí)行某一種拓?fù)浣Y(jié)構(gòu)。然而,該算法需要足夠的冗余空間來(lái)學(xué)習(xí)任意的體系結(jié)構(gòu),因此,解碼器的容量在某種程度上會(huì)限制學(xué)習(xí)到的拓?fù)浣Y(jié)構(gòu)。

        Huang 等[24]提出點(diǎn)云分形網(wǎng)絡(luò)PF-Net。首先,該算法使用FPS 采樣方法將輸入點(diǎn)云下采樣為不同分辨率的點(diǎn)云。其次,使用提出的組合多層感知機(jī)(Combined Multi-layer Perception,CMLP)分別進(jìn)行特征提取并融合成全局特征向量。最后,將得到的全局特征向量輸入到點(diǎn)云金字塔解碼器(Point Pyramid Decoder,PPD)進(jìn)行多階段預(yù)測(cè)。該算法采用的多分辨率特征提取方法能夠更好地捕獲輸入點(diǎn)云的局部特征。然而,PF-Net 僅預(yù)測(cè)缺失的點(diǎn)云,對(duì)已有的部分不進(jìn)行預(yù)測(cè),導(dǎo)致生成的點(diǎn)云和已有的點(diǎn)云在拼接時(shí)存在間隙。Liu 等[67]提出兩階段的稠密點(diǎn)云補(bǔ)全算法MSN。首先,該算法通過(guò)自動(dòng)編碼器預(yù)測(cè)一個(gè)完整但粗粒度的點(diǎn)云。其次,通過(guò)采樣算法將粗粒度的預(yù)測(cè)和輸入點(diǎn)云合并生成致密點(diǎn)云。值得一提的是,為了防止參數(shù)化表面元素的重疊,文中提出擴(kuò)展懲罰損失來(lái)引導(dǎo)表面元素集中在一個(gè)局部區(qū)域。Tang 等[68]提出基于關(guān)鍵點(diǎn)-骨架-形狀預(yù)測(cè)的點(diǎn)云補(bǔ)全算法LAKe-Net,該算法主要包括3 個(gè)步驟:(1)使用非對(duì)稱(chēng)關(guān)鍵點(diǎn)定位器(Asymmetric Keypoint Locator,AKL)定位出輸入點(diǎn)云和完整點(diǎn)云中對(duì)齊的關(guān)鍵點(diǎn);(2)利用基于幾何先驗(yàn)的關(guān)鍵點(diǎn)生成表面骨架來(lái)充分顯示拓?fù)湫畔?;?)使用遞歸細(xì)化模塊輔助點(diǎn)云骨架的精細(xì)化完成。該算法嚴(yán)重依賴(lài)于缺失和完整的形狀匹配對(duì)進(jìn)行監(jiān)督訓(xùn)練。在某些情況下,完整的點(diǎn)云數(shù)據(jù)是無(wú)法獲取的,從而限制了其在實(shí)際場(chǎng)景下的適用性。

        盡管基于逐點(diǎn)的MLP 形狀補(bǔ)全算法表現(xiàn)出不錯(cuò)的性能,但仍然存在著以下局限:

        (1)基于逐點(diǎn)的MLP 算法大多沿用PointNet的特征提取思路,而這種方式是獨(dú)立的處理每個(gè)點(diǎn),忽略了相鄰點(diǎn)之間的幾何關(guān)系。

        (2)一些方法采用了由粗到細(xì)的點(diǎn)云生成策略,但是它們對(duì)形狀的高頻信息并不敏感,難以對(duì)復(fù)雜的拓?fù)浣Y(jié)構(gòu)進(jìn)行友好生成。

        3.2.2 基于卷積的方法

        卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[86]近年來(lái)在視覺(jué)圖像領(lǐng)域取得了巨大的成功,其相關(guān)工作也啟發(fā)了研究者使用體素來(lái)表示三維形狀。相較于點(diǎn)云的無(wú)序形式,體素更貼近于規(guī)則像素的表達(dá)方式,同時(shí)也更容易使用CNN 進(jìn)行特征提取和學(xué)習(xí)。

        3D-EPN[69]使用三維卷積層組成的編碼-解碼器網(wǎng)絡(luò)預(yù)測(cè)部分輸入的完整形狀,但是隨著分辨率的提升,計(jì)算量會(huì)呈指數(shù)增加,給網(wǎng)絡(luò)的訓(xùn)練帶來(lái)了極大挑戰(zhàn)。Xie 等[70]提出網(wǎng)格殘差網(wǎng)絡(luò)GRNet,通過(guò)將無(wú)序點(diǎn)云轉(zhuǎn)為規(guī)則網(wǎng)格的中間表示,然后利用3DCNN 進(jìn)行特征提取和中間數(shù)據(jù)生成,最后將生成的網(wǎng)格單元再次轉(zhuǎn)化為點(diǎn)云形式。此外,該算法設(shè)計(jì)了立方特征采樣(Cubic Feature Sampling,CFA)層來(lái)提取相鄰點(diǎn)信息和上下文信息。然而,該方法存在以下2 個(gè)缺點(diǎn):(1)點(diǎn)云體素化的過(guò)程不可避免的導(dǎo)致信息丟失;(2)體素表示僅適用于低分辨率的形狀重建。

        Wang 等[71]提出基于體素的多尺度點(diǎn)云補(bǔ)全網(wǎng)絡(luò)VE-PCN。相比于GRNet 采用逆體素點(diǎn)云化策略生成粗糙點(diǎn)云,VE-PCN 增加了邊生成器(Edge Generator)將補(bǔ)全對(duì)象的高頻結(jié)構(gòu)信息注入到形狀補(bǔ)全分支中,并取得較好的補(bǔ)全結(jié)果。需要注意的是,這里的高頻結(jié)構(gòu)信息指代三維對(duì)象的邊緣結(jié)構(gòu)信息[71]。Liu 等[72]提出多分辨率各向異性卷積網(wǎng)絡(luò)MRAC-Net。文中設(shè)計(jì)了一種多分辨率各向異性卷積編碼器(Anisotropic Convolutional Encoder,ACE)提取三維對(duì)象的局部和全局特征,以提高網(wǎng)絡(luò)對(duì)語(yǔ)義和幾何信息的理解能力。此外,該網(wǎng)絡(luò)提出的組合金字塔解碼器能夠分層輸出不同分辨率的完整結(jié)構(gòu)點(diǎn)云,實(shí)現(xiàn)更好的監(jiān)督。

        盡管基于卷積的形狀補(bǔ)全算法均表現(xiàn)出不錯(cuò)的性能,但是仍然存在著以下局限:

        (1)內(nèi)存隨分辨率呈立方增加,現(xiàn)有的網(wǎng)絡(luò)算法依舊局限于相對(duì)較低的分辨率。

        (2)使用體素的中間表示會(huì)不可避免的導(dǎo)致細(xì)節(jié)丟失。

        3.2.3 基于圖的方法

        點(diǎn)云作為一種無(wú)序的非歐幾里德結(jié)構(gòu)數(shù)據(jù),無(wú)法直接將經(jīng)典的CNN 應(yīng)用于點(diǎn)云學(xué)習(xí),點(diǎn)云中的拓?fù)湫畔⒂牲c(diǎn)之間的距離隱式表示。因此,一種可行的思路是將點(diǎn)云中的點(diǎn)看作圖頂點(diǎn),使用圖卷積網(wǎng) 絡(luò)(Graph Convolutional Network,GCN)[87]提取鄰域頂點(diǎn)間的結(jié)構(gòu)信息。動(dòng)態(tài)圖CNN(Dynamic Graph CNN,DGCNN)[87]使用一種可插拔的邊卷積(EdgeConv.)模塊動(dòng)態(tài)地捕獲點(diǎn)云的鄰域特征,該工作也啟發(fā)了后續(xù)基于圖卷積的形狀補(bǔ)全工作[56,73-76,88]。

        Litany 等[56]提出基于可變形的形狀補(bǔ)全方法GCNet,其核心是通過(guò)一個(gè)帶有圖卷積的變分自動(dòng)編碼器(Variational Autoencoder,VAE)來(lái)學(xué)習(xí)完整真實(shí)形狀的潛在空間表示。然而,該方法假定所有的形狀都與一個(gè)共同的參考形狀相對(duì)應(yīng),從而限制了對(duì)某些類(lèi)別形狀的適用性。Zhang等[73]提出3D 目標(biāo)檢測(cè)網(wǎng)絡(luò)PC-RGNN。他們首次使用點(diǎn)云補(bǔ)全技術(shù)輔助三維目標(biāo)檢測(cè)任務(wù),設(shè)計(jì)了一種基于注意力的多尺度圖卷積(Attention Based Multi-scale Graph Convolution,AMSGCN)模塊來(lái)編碼點(diǎn)之間的幾何關(guān)系,增強(qiáng)對(duì)應(yīng)特征的傳遞。在點(diǎn)云生成階段,該方法沿用了PF-Net 的思路,采用PPD 生成多階段的完整點(diǎn)云,在補(bǔ)全數(shù)據(jù)集和檢測(cè)數(shù)據(jù)集上均表現(xiàn)良好。Pan[74]提出具有圖卷積的邊緣感知點(diǎn)云補(bǔ)全網(wǎng)絡(luò)ECG。該網(wǎng)絡(luò)包括兩個(gè)階段,第一階段生成粗糙的骨架,以方便捕獲有用的邊緣特征;第二階段采用圖卷積層次編碼器來(lái)傳播多尺度邊緣特征,以實(shí)現(xiàn)局部結(jié)構(gòu)的細(xì)化。為了在上采樣時(shí)保留局部幾何細(xì)節(jié),作者進(jìn)一步提出邊緣感知特征擴(kuò)展(Edge-aware Feature Expansion,EFE)模塊來(lái)平滑上采樣點(diǎn)的特征。實(shí)驗(yàn)結(jié)果表明,該算法在稠密點(diǎn)云的生成方面具有一定的優(yōu)勢(shì)。

        Shi 等[75]提出一種以輸入數(shù)據(jù)和中間生成為控制點(diǎn)和支撐點(diǎn)的圖引導(dǎo)變形網(wǎng)絡(luò)GGD-Net,通過(guò)利用網(wǎng)格變形方法模擬最小二乘的拉普拉斯變形過(guò)程,這為建模幾何細(xì)節(jié)的變化帶來(lái)了自適應(yīng)。據(jù)公開(kāi)文獻(xiàn)[75],這是第一個(gè)通過(guò)使用GCN引導(dǎo)變形操作來(lái)模擬傳統(tǒng)圖形算法優(yōu)化的點(diǎn)云補(bǔ)全工作,在室內(nèi)和室外數(shù)據(jù)集上均表現(xiàn)良好。Cai 等[76]提出無(wú)監(jiān)督 點(diǎn)云補(bǔ)全方 法LSLS-Net。他們認(rèn)為不同遮擋程度的缺失點(diǎn)云共享統(tǒng)一完整的潛在空間編碼,其核心思想是引入遮擋碼對(duì)潛在空間的統(tǒng)一編碼進(jìn)行掩碼,再通過(guò)解碼器對(duì)掩碼的潛在編碼解碼成不同遮擋比例的殘缺點(diǎn)云。編碼器主要包括多個(gè)EdgeConv 層,解碼器主要由多層MLP 組成。盡管該方法在泛化性上取得了較好的結(jié)果,但是該方法設(shè)計(jì)的解碼器較為簡(jiǎn)單,在補(bǔ)全結(jié)果的細(xì)節(jié)性上還有待提升。

        基于圖的形狀補(bǔ)全算法在鄰域特征提取上表現(xiàn)出良好的性能,但是仍然存在著以下局限:

        (1)基于圖的形狀補(bǔ)全方法大多是采用K 近鄰(K-nearest Neighbor,KNN)算法選取每個(gè)點(diǎn)的n個(gè)最近點(diǎn)作為它的鄰居集合,然后利用圖濾波操作來(lái)學(xué)習(xí)這些點(diǎn)的表示。然而,n的取值會(huì)極大地影響網(wǎng)絡(luò)的性能。此外,KNN 算法對(duì)點(diǎn)云的密度分布非常敏感。

        (2)基于圖的算法是相對(duì)耗費(fèi)時(shí)間的,當(dāng)點(diǎn)云數(shù)據(jù)更大或者堆疊的圖模塊更多時(shí),其內(nèi)存消耗更為明顯。因此針對(duì)點(diǎn)云的圖濃縮(Graph Condensation)[88]技術(shù)是值得探討的。

        3.2.4 基于生成對(duì)抗的方法

        生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)[89]創(chuàng)新性地采用了相互對(duì)抗的網(wǎng)絡(luò)框架,通過(guò)生成模型和判別模型進(jìn)行最小化和最大化博弈學(xué)習(xí)不斷提升數(shù)據(jù)的生成能力。為了提升點(diǎn)云的生成質(zhì)量,相關(guān)研究者結(jié)合GAN 來(lái)完成形狀補(bǔ)全任務(wù)。

        Sarmad 等[77]提出將自動(dòng)編碼器(Autoencoder,AE)、GAN 和強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)相結(jié)合的點(diǎn)云補(bǔ)全網(wǎng)絡(luò)RL-GANNet。通過(guò)RL 代理優(yōu)化GAN 的潛在變量輸入,并使用預(yù)訓(xùn)練解碼器對(duì)GAN 生成的潛在全局特征向量解碼為完整點(diǎn)云。然而,多階段訓(xùn)練過(guò)程增加了網(wǎng)絡(luò)的復(fù)雜性。此外,基于RL 的代理控制難以找到最優(yōu)的潛在變量輸入。Wang 等[78]提出級(jí)聯(lián)細(xì)化補(bǔ)全網(wǎng)絡(luò)CRNet,該方法遵循由粗到細(xì)的生成策略。在第1 階段采用PCN 的特征提取方式通過(guò)全連接層生成粗糙點(diǎn)云,在第2 階段引入條件迭代細(xì)化子網(wǎng)絡(luò)生成高分辨的點(diǎn)云。為了提升生成點(diǎn)云的逼真性,文中提出了塊判別器(Patch Discriminator)來(lái)保證每個(gè)區(qū)域都是真實(shí)的。此外,該方法加入類(lèi)別的平均形狀先驗(yàn)信息來(lái)提升補(bǔ)全結(jié)果的完整性,但同時(shí)也降低了類(lèi)內(nèi)補(bǔ)全結(jié)果的多樣性。此外,由于塊之間的互斥性易導(dǎo)致生成點(diǎn)云的不均勻分布。

        Hu 等[79]將點(diǎn)云的補(bǔ)全問(wèn)題轉(zhuǎn)化為深度圖補(bǔ)全問(wèn)題。通過(guò)將點(diǎn)云從固定視角渲染成8 個(gè)多視圖,并執(zhí)行每個(gè)視圖的補(bǔ)全。值得一提的是每個(gè)視圖的補(bǔ)全并不是獨(dú)立的,而是利用所有視圖的信息來(lái)輔助每一個(gè)視圖的補(bǔ)全。此外,為了提升深度圖補(bǔ)全的逼真性,采用深度圖判別器對(duì)補(bǔ)全結(jié)果和真實(shí)點(diǎn)云的渲染結(jié)果進(jìn)行真假判斷。然而,該方法缺乏對(duì)點(diǎn)云的直接監(jiān)督,通過(guò)渲染的方式會(huì)導(dǎo)致信息的丟失。Xie 等[80]提出基于風(fēng)格生成和對(duì)抗渲染的點(diǎn)云補(bǔ)全網(wǎng)絡(luò)SpareNet。該算法分別從特征提取、點(diǎn)云生成和優(yōu)化三個(gè)方面進(jìn)行了改進(jìn)。針對(duì)特征提取部分,引入通道注意力的邊卷積(Channel-attentive EdgeConv,CAEdgeConv)模塊來(lái)增強(qiáng)點(diǎn)云的局部特征提取能力。針對(duì)點(diǎn)云生成部分,通過(guò)將學(xué)習(xí)到的特征作為樣式碼(Style Code)來(lái)提高折疊生成能力。為了進(jìn)一步優(yōu)化生成質(zhì)量,引入了可微分對(duì)抗渲染器來(lái)提升點(diǎn)云的視覺(jué)逼真度。該方法在ShapeNet-part和KITTI數(shù)據(jù)集上均表現(xiàn)良好。

        Wen 等[81]提出雙向循環(huán)的無(wú)監(jiān)督點(diǎn)云補(bǔ)全網(wǎng)絡(luò)Cycle4Completion,與現(xiàn)有的無(wú)監(jiān)督形狀補(bǔ)全方法不同[60,76],之前的方法都只考慮從缺失點(diǎn)云到完整點(diǎn)云的正向?qū)?yīng)關(guān)系,而該算法同時(shí)考慮了正向和逆向的對(duì)應(yīng)關(guān)系。此外,該算法中判別器的輸入是潛在表示而不是點(diǎn)云。潛在表示在這里代表一個(gè)完整點(diǎn)云的特征向量,根據(jù)這個(gè)特征向量能夠恢復(fù)出點(diǎn)云結(jié)構(gòu)。然而,雙向循環(huán)網(wǎng)絡(luò)需要單獨(dú)建模,這對(duì)訓(xùn)練過(guò)程提出了較大的挑戰(zhàn)。Zhang 等[60]提出無(wú)監(jiān)督形狀反演補(bǔ)全網(wǎng)絡(luò)ShapeInversion,首次將GAN 逆 映射(GAN Inversion)引入到點(diǎn)云補(bǔ)全任務(wù)中。類(lèi)比GAN 逆映射在二維圖像修復(fù)中的應(yīng)用,文中提出了kmask 退化函數(shù)將生成的完整點(diǎn)云轉(zhuǎn)化為與輸入點(diǎn)云對(duì)應(yīng)的殘缺點(diǎn)云。利用GAN 提供的先驗(yàn)知識(shí),ShapeInversion 在多個(gè)數(shù)據(jù)集上表現(xiàn)出優(yōu)異的結(jié)果,甚至超過(guò)了部分有監(jiān)督方法。然而,該方法需要額外的預(yù)訓(xùn)練生成模型,降低了其在實(shí)際情況下的適用性。

        盡管基于生成對(duì)抗的形狀補(bǔ)全算法在相關(guān)數(shù)據(jù)集上均表現(xiàn)良好,但是仍然存在著以下限制:

        (1)雖然相比于直接訓(xùn)練GAN 生成完整點(diǎn)云的方式,在潛在空間表示上訓(xùn)練GAN 會(huì)相對(duì)容易。但是,訓(xùn)練GAN 需要達(dá)到納什均衡,因此其訓(xùn)練過(guò)程充滿(mǎn)著不穩(wěn)定性。

        (2)在無(wú)監(jiān)督形狀補(bǔ)全方法中,一些算法需要借助額外的預(yù)訓(xùn)練生成模型,這會(huì)大大降低算法在實(shí)際情況下的適用性。

        3.2.5 基于Transformer 的方法

        近 兩年,Transformer[90]在自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)和語(yǔ)音處理領(lǐng)域取得了巨大成功,吸引了研究者的廣泛關(guān)注。原始的Transformer 模型主要包括編碼器和解碼器,其中編解碼器主要由多頭注意力(Multi-head Self-attention,MSA)模塊和前饋神經(jīng)網(wǎng)絡(luò)(Feed-forward Network,F(xiàn)FN)組成;而解碼器的內(nèi)部結(jié)構(gòu)與編碼器類(lèi)似,在MSA 模塊和FFN 模塊之間額外插入了一個(gè)交叉注意力(Cross-attention,CA)模塊。受此啟發(fā),Zhao 等[91]提出Point transformer 框架,在點(diǎn)云分類(lèi)和語(yǔ)義分割任務(wù)上達(dá)到了當(dāng)時(shí)的最先進(jìn)水平。幾乎同一時(shí)間,Guo 等[92]提出了Point cloud transformer 網(wǎng)絡(luò),在點(diǎn)云分類(lèi)、法向量估計(jì)和語(yǔ)義分割任務(wù)上均表現(xiàn)優(yōu)異。

        Yu 等[82]首次將Transformer 應(yīng)用到點(diǎn)云補(bǔ)全任務(wù)中,即PointTr。該方法將無(wú)序點(diǎn)云表示為一組帶有位置嵌入的無(wú)序點(diǎn)組,從而將點(diǎn)云轉(zhuǎn)換為一系列點(diǎn)代理,并使用幾何感知的Transformer 編碼-解碼器生成缺失部分的點(diǎn)代理(Point Proxy)。最后,基于生成的點(diǎn)代理結(jié)合折疊網(wǎng)絡(luò)生成細(xì)粒度的缺失點(diǎn)云。然而,Transformer 模型的二次方計(jì)算量需要極大的顯存和內(nèi)存占用。Zhang 等[83]提出具有骨架-細(xì)節(jié)Transformer 的點(diǎn)云補(bǔ)全框架SDTNet,該方法遵循由粗到細(xì)的生成策略。該算法探索了局部模塊和骨架點(diǎn)云之間的相關(guān)性,有效地恢復(fù)出點(diǎn)云細(xì)節(jié)。此外,文中引入了一種選擇性注意力機(jī)制(Selective Attention Mechanism,SAM),在顯著降低Transformer 記憶容量的同時(shí)而不影響整體網(wǎng)絡(luò)性能。

        盡管基于Transformer 的形狀補(bǔ)全方法在相關(guān)數(shù)據(jù)集上表現(xiàn)優(yōu)異,但仍然存在著以下局限:

        (1)Transformer 的二階計(jì)算量和內(nèi)存復(fù)雜度極大地限制了它的可適用性。

        (2)由于Transformer 的計(jì)算復(fù)雜度會(huì)隨著上下文長(zhǎng)度的增加而增長(zhǎng),這使其難以有效地建模長(zhǎng)期記憶。

        (3)Transformer 對(duì)形狀補(bǔ)全的增益需要更多的訓(xùn)練數(shù)據(jù)作為基礎(chǔ)。

        3.2.6 其他方法

        Pan 等[84]提出變分關(guān)系點(diǎn)云補(bǔ)全網(wǎng)絡(luò)VRCNet,它由概率建模子網(wǎng)絡(luò)和關(guān)系增強(qiáng)子網(wǎng)絡(luò)級(jí)聯(lián)而成。在第1 階段,通過(guò)重建路徑引導(dǎo)補(bǔ)全路徑學(xué)習(xí)生成粗粒度完整點(diǎn)云,實(shí)現(xiàn)從高層次的特征分布到低層次的信息流動(dòng)。在第2 階段,通過(guò)并聯(lián)的多尺度自注意力模塊增強(qiáng)點(diǎn)云的細(xì)節(jié)生成,該算法顯著提升了點(diǎn)云的細(xì)節(jié)生成能力。

        Zhang 等[85]提出視覺(jué)引導(dǎo)的跨模態(tài)點(diǎn)云補(bǔ)全網(wǎng)絡(luò)ViPC。不同于現(xiàn)有的算法僅依賴(lài)部分點(diǎn)云作為輸入,該算法從額外輸入的單視圖中挖掘缺失點(diǎn)云的全局結(jié)構(gòu)信息作為引導(dǎo)。此外,該算法引入動(dòng)態(tài)偏移預(yù)測(cè)器(Dynamic Offset Predictor,DOP)和差分精調(diào)策略(Differential Refinement Strategy,DRS)對(duì)低質(zhì)量點(diǎn)進(jìn)行維精調(diào),對(duì)高質(zhì)量點(diǎn)執(zhí)行重度精煉,并在所提出的ShapeNet-ViPC 數(shù)據(jù)集上取得了最好的結(jié)果。

        Park 等[65]提出基于學(xué)習(xí)的深度隱式形狀補(bǔ)全算法DeepSDF。該方法利用連續(xù)SDF 生成像水一樣密集的封閉形狀表面,不僅具有良好的視覺(jué)效果,需要的內(nèi)存空間也大幅降低,為在復(fù)雜形狀的生成方面提供了新的思路。

        3.3 分析與小結(jié)

        分析不同類(lèi)型的三維形狀補(bǔ)全方法,并根據(jù)表2、表3 和圖4 所示的部分方法對(duì)比結(jié)果,得出下列結(jié)論:

        圖4 部分形狀補(bǔ)全方法結(jié)果對(duì)比Fig.4 Comparison of the results of some shape completion methods

        表2 基于深度學(xué)習(xí)的三維形狀補(bǔ)全主要方法對(duì)比Tab.2 Comparison of the main methods of 3D shape completion based on deep learning

        續(xù)表2 基于深度學(xué)習(xí)的三維形狀補(bǔ)全主要方法對(duì)比Tab.2 Comparison of the main methods of 3D shape completion based on deep learning

        表3 Completion3D 數(shù)據(jù)集上部分方法的定量結(jié)果Tab.3 Quantitative results of partial methods on the Completion3D dataset

        (1)在基于深度學(xué)習(xí)的三維形狀補(bǔ)全工作中,點(diǎn)云因其存儲(chǔ)空間小、表征能力強(qiáng)的特點(diǎn),成為廣泛使用的三維數(shù)據(jù)表示形式。因此,基于點(diǎn)云的深度學(xué)習(xí)補(bǔ)全算法也成為當(dāng)今的研究熱點(diǎn)之一。

        (2)之前的形狀補(bǔ)全方法嚴(yán)重依賴(lài)于形狀匹配對(duì)的形式進(jìn)行監(jiān)督訓(xùn)練,在域內(nèi)數(shù)據(jù)集上能夠表現(xiàn)出較好的結(jié)果,當(dāng)擴(kuò)展到其他部分形狀數(shù)據(jù)集或真實(shí)世界所觀測(cè)的部分?jǐn)?shù)據(jù)時(shí),模型泛化性還存在較大的提升空間。同時(shí),考慮到在真實(shí)情況下獲取的數(shù)據(jù)是沒(méi)有對(duì)應(yīng)真值的。因此,無(wú)需匹配對(duì)的無(wú)監(jiān)督形狀補(bǔ)全方法仍然是進(jìn)一步研究的方向。

        (3)現(xiàn)有方法難以對(duì)形狀細(xì)節(jié)進(jìn)行精細(xì)補(bǔ)全。同時(shí),很少有方法考慮補(bǔ)全結(jié)果的忠實(shí)性,即補(bǔ)全生成的點(diǎn)能否忠實(shí)地落在真值參考點(diǎn)或面上。在最近的深度隱式重建[65]和點(diǎn)云上采樣[93]工作中,忠實(shí)性問(wèn)題有被提到。因此,點(diǎn)云補(bǔ)全的忠實(shí)性也是形狀補(bǔ)全任務(wù)需要考慮的因素。

        4 三維場(chǎng)景補(bǔ)全

        圍繞三維形狀補(bǔ)全的研究已經(jīng)有較多的工作,但關(guān)于場(chǎng)景補(bǔ)全的工作仍然較少。一方面原因在于相較于形狀補(bǔ)全,場(chǎng)景補(bǔ)全具有補(bǔ)全面積大和補(bǔ)全對(duì)象多的特點(diǎn)[28]。另一方面在于場(chǎng)景補(bǔ)全任務(wù)希望補(bǔ)全的缺失內(nèi)容與現(xiàn)有場(chǎng)景內(nèi)容的語(yǔ)義信息是一致的[32],而這也是場(chǎng)景補(bǔ)全的主要挑戰(zhàn)。

        盡管場(chǎng)景補(bǔ)全面臨著以上挑戰(zhàn),但其中仍不乏優(yōu)秀的研究工作,根據(jù)場(chǎng)景補(bǔ)全算法所遵循的主要策略,可將其歸納為2 種主要類(lèi)型:基于模型擬合的場(chǎng)景補(bǔ)全方法[28-30,94]和基于生成式的場(chǎng)景補(bǔ)全方法[25,31-32,95-98],其發(fā)展歷程 如圖5 所示。下面,本文將對(duì)發(fā)展進(jìn)程中具有代表性的算法進(jìn)行介紹和總結(jié)。

        圖5 三維場(chǎng)景補(bǔ)全方法發(fā)展歷程Fig.5 Development history of 3D scene complementary methods

        4.1 基于模型擬合的場(chǎng)景補(bǔ)全方法

        針對(duì)場(chǎng)景缺失區(qū)域較小時(shí),可以通過(guò)平面擬合[26]和表面插值[16]這類(lèi)早期方法進(jìn)行補(bǔ)全。然而,這與藝術(shù)家所需求的精細(xì)化場(chǎng)景模型相比是遠(yuǎn)遠(yuǎn)不夠的。一個(gè)可行的思路是通過(guò)從預(yù)先創(chuàng)建的形狀數(shù)據(jù)庫(kù)中檢索一組CAD 模型,并將它們與不完整掃描場(chǎng)景中的形狀對(duì)象進(jìn)行對(duì)齊、替換,以此來(lái)得到干凈而緊湊的場(chǎng)景表示,如圖6所示。

        圖6 模型擬合場(chǎng)景Fig.6 Model fitting scenario

        Avetisyan 等[28]提出CAD 模型對(duì)齊的場(chǎng)景補(bǔ)全算法Scan2CAD。首先,將RGB-D 掃描的場(chǎng)景數(shù)據(jù)通過(guò)體融合(Volumetric Fusion)方式[99]轉(zhuǎn)換成有符號(hào)距離場(chǎng)表示,并使用Batty 提供的SDFGen 工具包計(jì)算CAD 模型的無(wú)符號(hào)距離場(chǎng)。其次,使用3DCNN 學(xué)習(xí)場(chǎng)景對(duì)象和CAD 模型對(duì)象之間的嵌入關(guān)系,并預(yù)測(cè)出對(duì)應(yīng)的熱圖。最后,基于對(duì)應(yīng)的熱圖,通過(guò)變分優(yōu)化公式(Variational Optimization Formulation,VOF)優(yōu)化對(duì)齊的結(jié)果。該算法在Scan2CAD 基準(zhǔn)上超越了基于手工特征的方法和基于CNN 的方法。Avetisyan等[29]提出一種端到端的CAD 模型檢索對(duì)齊算法RALNet。該算法提出了可微概率對(duì)齊策略和對(duì)稱(chēng)幾何感知策略,并通過(guò)全卷積網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN)一次對(duì)齊場(chǎng)景中檢測(cè)到的所有對(duì)象,在速度上具有較大的提升。Dahnert 等[30]提出聯(lián)合嵌入的場(chǎng)景補(bǔ)全方法,簡(jiǎn)稱(chēng)JENet。利用堆疊沙漏方法(Stacked Hourglass Approach)從掃描場(chǎng)景中分離出對(duì)象并將其轉(zhuǎn)化成類(lèi)似CAD 模型的表示形式,以學(xué)習(xí)一個(gè)共享的嵌入空間用于CAD 模型檢索。該算法在實(shí)例檢索精度方面比當(dāng)時(shí)最先進(jìn)的CAD 模型檢索算法提高12%。Zeng 等[94]提出基于數(shù)據(jù)驅(qū)動(dòng)的三維匹配描述符3DMatch。該算法通過(guò)學(xué)習(xí)局部空間塊的描述符來(lái)建立局部三維數(shù)據(jù)的對(duì)應(yīng)關(guān)系。為了獲取訓(xùn)練數(shù)據(jù),提出了一種自監(jiān)督的特征學(xué)習(xí)方法在現(xiàn)有的RGB-D 重建結(jié)果中獲取大量的對(duì)應(yīng)關(guān)系。實(shí)驗(yàn)結(jié)果表明該描述符不僅在重建的局部幾何匹配上表現(xiàn)良好,還可以泛化到不同的任務(wù)和空間尺度中。

        盡管基于模型擬合的場(chǎng)景補(bǔ)全方法取得了一定的進(jìn)展,然而,這類(lèi)方法存在固有的自身局限性,主要包括兩個(gè)方面:

        (1)模型庫(kù)中模型并不能包括真實(shí)場(chǎng)景中的所有對(duì)象。

        (2)模型擬合方法對(duì)場(chǎng)景中的實(shí)例對(duì)象進(jìn)行補(bǔ)全,但對(duì)場(chǎng)景中的背景信息通常不進(jìn)行補(bǔ)全,例如墻壁和地面。

        4.2 基于生成式的場(chǎng)景補(bǔ)全方法

        近兩年,基于深度學(xué)習(xí)從部分RGB-D 觀測(cè)信息中生成完整場(chǎng)景的方法顯示出較大的研究前景。其中,基于截?cái)喾?hào)距離函數(shù)(Truncated Signed Distance Function,TSDF)[25]的體素編碼是常用的數(shù)據(jù)處理形式和場(chǎng)景輸出表征形式,如圖7 所示。

        圖7 場(chǎng)景生成補(bǔ)全Fig.7 Scene generation complementary

        Dai 等[25]提出能夠處理任意比例大小的場(chǎng)景補(bǔ)全網(wǎng)絡(luò)SCNet。首先,將RGB-D 觀測(cè)的局部場(chǎng)景深度圖通過(guò)體融合方法生成TSDF 編碼的場(chǎng)景表示;其次,利用3DCNN 進(jìn)行場(chǎng)景生成補(bǔ)全。其算法補(bǔ)全過(guò)程遵循由粗到細(xì)的策略,在補(bǔ)全質(zhì)量和處理速度方面都有大幅度的提升。Firman 等[31]提出一種結(jié)構(gòu)化預(yù)測(cè)的場(chǎng)景補(bǔ)全算法Voxlets。算法核心是使用結(jié)構(gòu)化的隨機(jī)森林(Structured Random Forest,SRF)從局部觀測(cè)的深度圖中估計(jì)出周?chē)砻嫘螤?。然而,該算法補(bǔ)全的場(chǎng)景較小,僅適用于桌面大小的場(chǎng)景。Wang 等[95]提出基于八叉樹(shù)卷積神經(jīng)網(wǎng)絡(luò)(Octree-based Convolutional Neural Networks,OCNN)的場(chǎng)景補(bǔ)全算法。該算法以類(lèi)似U-Net[100]的結(jié)構(gòu)進(jìn)行特征提取,并引入以輸出為引導(dǎo)的跳躍連接方式來(lái)更好地保持輸入數(shù)據(jù)的幾何信息。值得一提的是,該算法具有較高的計(jì)算效率,并支持深層次的O-CNN 結(jié)構(gòu),在形狀補(bǔ)全數(shù)據(jù)集和場(chǎng)景補(bǔ)全數(shù)據(jù)集上取得了較好的實(shí)驗(yàn)結(jié)果。Azinovi? 等[96]同時(shí)使用NeRF 和TSDF 實(shí)現(xiàn)高質(zhì)量的場(chǎng)景表示。該方法具有兩個(gè)優(yōu)勢(shì):(1)雖然目前使用NeRF 的體渲染新視圖合成方法顯示出了良好的結(jié)果,但是NeRF 不能重建實(shí)際的表面,當(dāng)使用標(biāo)記立方體(Marching Cube,MC)提取曲面時(shí),基于密度的曲面體積表示會(huì)導(dǎo)致偽影。因此,該方法使用隱式函數(shù)來(lái)表示場(chǎng)景曲面。在這里,隱式函數(shù)為截?cái)喾?hào)距離函數(shù)。(2)該方法整合了深度先驗(yàn)信息,并提出了姿態(tài)和相機(jī)細(xì)化技術(shù)來(lái)改善重建質(zhì)量,在真實(shí)數(shù)據(jù)集ScanNet 上取得了較好的場(chǎng)景表示結(jié)果。Han等[101]提出基于深度強(qiáng)化學(xué)習(xí)的場(chǎng)景表面生成算法。該算法創(chuàng)新性地引入了深度強(qiáng)化學(xué)習(xí)策略來(lái)確定場(chǎng)景補(bǔ)全的最優(yōu)視點(diǎn)序列。此外,為了保證不同視點(diǎn)之間的一致性和更好地利用上下文信息,該算法進(jìn)一步提出了體素引導(dǎo)的視圖補(bǔ)全框架產(chǎn)生高分辨率的場(chǎng)景輸出。

        盡管上述方法在大規(guī)模域內(nèi)數(shù)據(jù)集,如SUNCG[33]、ShapeNet[48]和NYUv2[54]上,取得了較好的補(bǔ)全效果,但擴(kuò)展到其他觀測(cè)的不完整場(chǎng)景數(shù)據(jù)集時(shí),由于數(shù)據(jù)集間的域差距,其補(bǔ)全的效果仍然是有限的。同時(shí),在大部分真實(shí)場(chǎng)景下,是沒(méi)有與之對(duì)應(yīng)的完整場(chǎng)景真實(shí)值的。為了解決上述有監(jiān)督方法的缺陷,一些無(wú)監(jiān)督的場(chǎng)景補(bǔ)全方法被提出。

        Dai 等[32]首次提出自監(jiān)督的場(chǎng)景補(bǔ)全算法SG-NN,該算法直接在不完整場(chǎng)景數(shù)據(jù)上進(jìn)行訓(xùn)練,其核心思想是在RGB-D 掃描的場(chǎng)景信息中移除部分圖像以此得到更加不完整的場(chǎng)景信息。然后,通過(guò)在這兩個(gè)不同程度的缺失場(chǎng)景中構(gòu)建自監(jiān)督信號(hào)進(jìn)行訓(xùn)練,并最終得到以TSDF 表示的高分辨率場(chǎng)景。受SG-NN 的啟發(fā),Dai 等[97]提出一種能夠同時(shí)補(bǔ)全場(chǎng)景幾何信息和顏色信息的自監(jiān)督算法SPSG。值得一提的是該算法對(duì)于幾何信息和顏色信息的推斷不是依賴(lài)于模型補(bǔ)全的3D 損失,而是依賴(lài)于在模型渲染所得到的2D 圖像上進(jìn)行監(jiān)督引導(dǎo),這樣充分利用了原始RGD-D 掃描的高分辨率圖像信息。Chen 等[98]介紹了一種基于點(diǎn)云中間表示的場(chǎng)景補(bǔ)全框架CIRCLE。該算法首先將RGB-D 深度圖在已知相機(jī)位姿的情況下轉(zhuǎn)化為點(diǎn)云數(shù)據(jù),其轉(zhuǎn)換過(guò)程遵 循Kinectfusion[102]。其 次,分別使用Point Encoder、UNet 和SDF Decoder 進(jìn)行特征提取和幾何補(bǔ)全。最后,使用可微分隱式渲染(Differentiable Implicit Rendering,DIR)模塊進(jìn)行補(bǔ)全細(xì)化。該算法不僅具有更好的重建質(zhì)量,而且在速度上比第2 名快10~50 倍。

        盡管以上無(wú)監(jiān)督場(chǎng)景補(bǔ)全方法在真實(shí)數(shù)據(jù)集上取得了令人振奮的結(jié)果,但是他們?cè)趶?fù)雜場(chǎng)景的生成方面仍存在不足。由于缺乏先驗(yàn)信息的引導(dǎo),在面對(duì)更加復(fù)雜的場(chǎng)景時(shí),不同對(duì)象的生成結(jié)果具有歧義性。

        4.3 分析與小結(jié)

        對(duì)比分析不同類(lèi)型的三維場(chǎng)景補(bǔ)全方法,并根據(jù)圖8 和表4、表5 中的部分方法對(duì)比結(jié)果,得出下列結(jié)論:

        表4 三維場(chǎng)景補(bǔ)全主要方法對(duì)比Tab.4 Comparison of the main methods of 3D scene completion

        表5 SUNCG 數(shù)據(jù)集上部分方法的定量結(jié)果Tab.5 Quantitative results of partial methods on the SUNCG dataset

        圖8 部分場(chǎng)景補(bǔ)全方法結(jié)果對(duì)比Fig.8 Comparison of the results of some scenario complementary methods

        (1)對(duì)于三維場(chǎng)景補(bǔ)全任務(wù),三維TSDF 矩陣是常用的場(chǎng)景表示形式。相較于模型擬合場(chǎng)景補(bǔ)全方法的自身局限性,基于生成式的場(chǎng)景補(bǔ)全方法表現(xiàn)出更好的優(yōu)勢(shì)。

        (2)在場(chǎng)景補(bǔ)全任務(wù)中,由于合成數(shù)據(jù)集與真實(shí)數(shù)據(jù)集之間存在域差距,采用直接作用于真實(shí)數(shù)據(jù)集的無(wú)監(jiān)督場(chǎng)景補(bǔ)全方法取得了令人振奮的結(jié)果。因此,基于無(wú)監(jiān)督的場(chǎng)景補(bǔ)全方法仍然是接下來(lái)的重要研究方向。

        (3)現(xiàn)有的場(chǎng)景補(bǔ)全方法大多在室內(nèi)場(chǎng)景數(shù)據(jù)集上進(jìn)行補(bǔ)全,在室外場(chǎng)景上的補(bǔ)全工作相對(duì)較少,希望在之后的研究中能有更多關(guān)于室外場(chǎng)景的補(bǔ)全工作。

        (4)以上的場(chǎng)景補(bǔ)全方法沒(méi)有考慮語(yǔ)義信息對(duì)場(chǎng)景補(bǔ)全的輔助,當(dāng)補(bǔ)全的場(chǎng)景過(guò)于復(fù)雜時(shí),補(bǔ)全的精度會(huì)下降,因此將語(yǔ)義信息和幾何信息相結(jié)合的方式也是進(jìn)一步研究的方向。這方面的工作在接下來(lái)的語(yǔ)義場(chǎng)景補(bǔ)全任務(wù)中將會(huì)介紹。此外,顏色信息也是場(chǎng)景補(bǔ)全任務(wù)中需要考慮的重要因素。

        5 三維語(yǔ)義場(chǎng)景補(bǔ)全

        三維場(chǎng)景的全面理解對(duì)許多應(yīng)用領(lǐng)域而言都是至關(guān)重要的,如機(jī)器人感知、自動(dòng)駕駛、數(shù)字孿生等。較早的場(chǎng)景理解工作大多是從語(yǔ)義分割或場(chǎng)景補(bǔ)全的角度分別展開(kāi)研究。然而,文獻(xiàn)[33]表明語(yǔ)義分割和場(chǎng)景補(bǔ)全并不是相互獨(dú)立的,其語(yǔ)義信息和幾何信息是相互交織耦合的,是相互促進(jìn)的,并由此引出了語(yǔ)義場(chǎng)景補(bǔ)全(Semantic Scene Completion,SSC)的概念。語(yǔ)義場(chǎng)景補(bǔ)全是指從局部觀測(cè)信息中推斷出場(chǎng)景的完整幾何信息與語(yǔ)義信息,實(shí)現(xiàn)與現(xiàn)實(shí)世界更好地交互。

        目前,三維語(yǔ)義場(chǎng)景補(bǔ)全方法根據(jù)輸入數(shù)據(jù)的不同類(lèi)型,可以歸納為3 種主要類(lèi)型:基于深度圖的語(yǔ)義場(chǎng) 景補(bǔ)全方法[33,38-41,103-105]、基于深度圖聯(lián)合彩色圖像的語(yǔ)義場(chǎng)景補(bǔ)全方法[106-113]和基于點(diǎn)云的語(yǔ)義場(chǎng)景補(bǔ)全方法[114-117],其發(fā)展歷程如圖9 所示。下面,本文將對(duì)研究發(fā)展進(jìn)程中具有代表性的算法進(jìn)行介紹和總結(jié)。

        圖9 三維語(yǔ)義場(chǎng)景補(bǔ)全方法發(fā)展歷程Fig.9 Development history of 3D semantic scene complementation methods

        5.1 基于深度圖的語(yǔ)義場(chǎng)景補(bǔ)全方法

        Song 等[33]開(kāi)創(chuàng)性地提出語(yǔ)義場(chǎng)景補(bǔ)全網(wǎng)絡(luò)SSCNet。該網(wǎng)絡(luò)以單張深度圖作為輸入,使用擴(kuò)展上下文卷積模塊同時(shí)進(jìn)行場(chǎng)景的體素網(wǎng)格占用和語(yǔ)義標(biāo)簽預(yù)測(cè)。該算法對(duì)深度圖的體素編碼采用翻轉(zhuǎn)的截?cái)喾?hào)距離函數(shù)(Flipped Truncated Signed Distance Function,f-TSDF)。普通的TSDF 容易在離物體表面較遠(yuǎn)的地方出現(xiàn)強(qiáng)梯度,基于投影的截?cái)喾?hào)距離函數(shù)(Projective Truncated Signed Distance Function,p-TSDF)有嚴(yán)重的視角依賴(lài)性,而f-TSDF 在離物體較近的表面進(jìn)行強(qiáng)梯度引導(dǎo),如圖10 所示。該算法在其提出的SUNCG 數(shù)據(jù)集[33]上取得了當(dāng)時(shí)最好的結(jié)果。

        圖10 TSDF 變體Fig.10 TSDF variants

        Guo 等[38]提出視圖-體 素卷積網(wǎng)絡(luò)VV-Net,該網(wǎng)絡(luò)將2DCNN 與3DCNN 相結(jié)合。相較于SSCNet 直接使用3DCNN 對(duì)TSDF 編碼的體素網(wǎng)格進(jìn)行特征提取,VV-Net 先使用2DCNN 從深度圖中提取幾何特征并投影為三維體素網(wǎng)格,從而降低了一定的計(jì)算量。Zhang 等[39]將密集條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)引 入SSC 任務(wù)中,首先將深度圖通過(guò)f-TSDF 編碼為體素矩陣。其次,將SSCNet 輸出的概率圖與經(jīng)過(guò)CRF 處理后的深度圖相結(jié)合,組成VD-CRF模 型。該算法分別 在SUNCG、NYUv2 和NYUCAD 數(shù)據(jù)集上驗(yàn)證了其有效性,并分別取得了2.5%、3.7%和5.4%的提升。Zhang 等[40]提出通過(guò)高效的空間分組卷積(Spatial Group Convolution,SGC)來(lái)加速密集任務(wù)的計(jì)算。為了避免3DCNN 過(guò)大的計(jì)算量,目前常用的方法是通過(guò)稀疏卷積網(wǎng)絡(luò)[118]或閔可夫斯基卷積網(wǎng)絡(luò)[119]進(jìn)行特征提取。然而,與這些方法不同,SGC 是沿著空間維度來(lái)創(chuàng)建組,同時(shí)使每個(gè)組中的體素網(wǎng)格更加稀疏,進(jìn)一步降低網(wǎng)絡(luò)的計(jì)算量。為了便于對(duì)比分析,文中將該方法簡(jiǎn)稱(chēng)為ESSCNet。Zhang 等[41]提出級(jí)聯(lián)上下文金字塔網(wǎng)絡(luò)CCPNet,該算法不僅改進(jìn)了金字塔上下文中的標(biāo)簽一致性,還提出了基于引導(dǎo)的殘差細(xì)化(Guided Residual Refinement,GRR)模塊漸進(jìn)式地恢復(fù)場(chǎng)景的精細(xì)化結(jié)構(gòu),在SUNCG 和NYUv2數(shù)據(jù)集上取得了有競(jìng)爭(zhēng)力的結(jié)果,尤其在場(chǎng)景細(xì)節(jié)的生成方面更具優(yōu)勢(shì)。

        Wang 等[103]提出多分支結(jié)構(gòu)的語(yǔ)義補(bǔ)全網(wǎng)絡(luò)ForkNet,該網(wǎng)絡(luò)包括1 個(gè)共享的編碼器分支和3 個(gè)獨(dú)立的解碼器分支,3 個(gè)分支分別預(yù)測(cè)不完整的表面幾何形狀、完整的幾何體積和完整的語(yǔ)義體積。此外,該方法還引入多個(gè)判別器來(lái)提升語(yǔ)義場(chǎng)景補(bǔ)全任務(wù)的準(zhǔn)確性和真實(shí)性。Chen等[104]提出一種融合特征聚合策略(Feature Aggregation Strategy,F(xiàn)AS)與條件預(yù)測(cè)模塊(Conditioned Prediction Module,CPM)的實(shí)時(shí)語(yǔ)義場(chǎng)景補(bǔ)全算法RTSSC。首先,該方法通過(guò)具有擴(kuò)張卷積的編碼器來(lái)獲得較大的感受野。其次,利用分階段FAS 融合全局上下文特征。最后,采用逐步CPM 進(jìn)行最終結(jié)果預(yù)測(cè)。該算法在單張1080Ti GPU 上實(shí)現(xiàn)了110 FPS 的速度。Li 等[105]提出具有位置重要性感知損失的語(yǔ)義場(chǎng)景補(bǔ)全網(wǎng)絡(luò)PAL-Net。該算法通過(guò)考慮局部各向異性來(lái)確定場(chǎng)景內(nèi)不同位置的重要性,有利于恢復(fù)對(duì)象的邊界信息和場(chǎng)景角落信息。實(shí)驗(yàn)表明所提出的位置重要性感知損失在訓(xùn)練過(guò)程中收斂速度更快,可以取得更好的性能。

        盡管以上基于深度圖的語(yǔ)義場(chǎng)景補(bǔ)全算法取得了不錯(cuò)的結(jié)果,但RGB 圖像包含的豐富顏色信息和紋理信息并沒(méi)有被充分地利用。接下來(lái),將介紹基于深度圖聯(lián)合彩色圖像的語(yǔ)義場(chǎng)景補(bǔ)全方法。

        5.2 基于深度圖聯(lián)合彩色圖像的語(yǔ)義場(chǎng)景補(bǔ)全方法

        RGB 圖像具有豐富的顏色信息和紋理信息,可以作為深度圖的重要補(bǔ)充,進(jìn)一步提升三維語(yǔ)義場(chǎng)景補(bǔ)全的性能。

        Garbade 等[106]提出基于雙流卷積的語(yǔ)義場(chǎng)景補(bǔ)全網(wǎng)絡(luò) TS3D,該方法首先使用Resnet101[122]對(duì)RGB 圖 像進(jìn)行語(yǔ)義分割。其 次,將圖像的語(yǔ)義分割結(jié)果映射到由深度圖生成的3D 網(wǎng)格上,得到不完整語(yǔ)義體。最后,使用具有上下文感知的3DCNN 推斷出完整的語(yǔ)義場(chǎng)景信息。實(shí)驗(yàn)表明,引入RGB 圖像作為輸入可以顯著地提高SSC 任務(wù),在NYUv2 數(shù)據(jù)集上相較于第2 名提升了9.4%。Li 等[107]提出一種輕量級(jí)的維度分解殘差網(wǎng)絡(luò)DDRNet。該方法通過(guò)引入維度分解殘差(Dimensional Decomposition Residual,DDR)模塊降低網(wǎng)絡(luò)的參數(shù)。同時(shí),使用多尺度融合策略提升網(wǎng)絡(luò)對(duì)不同大小物體的適應(yīng)能力。相較于SSCNet 算法,該方法僅使用了21%的參數(shù)量。Li 等[108]提出各向異性卷積的語(yǔ)義場(chǎng)景補(bǔ)全網(wǎng)絡(luò)AICNet。相較于標(biāo)準(zhǔn)3DCNN的固定感受野,該算法使用提出的各向異性卷積(Anisotropic Convolution,AIC)模塊將三維卷積分解為三個(gè)連續(xù)的一維卷積實(shí)現(xiàn)各向異性的三維感受野,每個(gè)一維卷積的核大小是自適應(yīng)的。實(shí)驗(yàn)表明,疊加多個(gè)AIC 模塊,可以進(jìn)一步提升該算法在SSC 任務(wù)上的性能。

        Liu 等[109]提出首個(gè)使用門(mén)控循環(huán)單元(Gated Recurrent Unit,GRU)的語(yǔ)義場(chǎng)景補(bǔ)全的網(wǎng)絡(luò)GRFNet。該方法根據(jù)DDRNet 網(wǎng)絡(luò)進(jìn)行擴(kuò)展,改進(jìn)了多尺度融合策略,并構(gòu)建具有自主選擇和自適應(yīng)記憶保存的多模態(tài)特征融合模塊。此外,通過(guò)引入非顯著性參數(shù)融合不同層級(jí)特征并進(jìn)一步提出多階段的融合策略。該算法在SSC 數(shù)據(jù)融合方面顯示出優(yōu)越的性能。Cai 等[110]提出場(chǎng)景到實(shí)例與實(shí)例到場(chǎng)景的迭代語(yǔ)義補(bǔ)全網(wǎng)絡(luò)SISNet。具體而言,場(chǎng)景到實(shí)例指通過(guò)編碼實(shí)例對(duì)象的上下文信息,將實(shí)例對(duì)象與場(chǎng)景解耦,以此得到更多細(xì)節(jié)信息的高分辨率對(duì)象。而實(shí)例到場(chǎng)景指將細(xì)粒度的實(shí)例對(duì)象重新集成到場(chǎng)景中,從而實(shí)現(xiàn)更精確的語(yǔ)義場(chǎng)景完成。該算法在合成數(shù)據(jù)集和真實(shí)數(shù)據(jù)集上均表現(xiàn)出良好的性能。

        Li 等[111]提出基于注意力機(jī)制的多模態(tài)融合網(wǎng)絡(luò)AMFNet。該算法使用2D 分割結(jié)果指導(dǎo)SSC 任務(wù)。值得一提的是,相較于以前直接從深度圖中提取幾何信息的方法,該方法先將深度圖轉(zhuǎn)換成3 通道的HHA 編碼格式再進(jìn)行特征提取。HHA 編碼圖像[112]的三個(gè)通道依次代表水平視差、高于地面的高度和像素的局部表面法線與重力方向的傾角,如圖11 所示。該算法在SUNCG 和NYUv2 數(shù)據(jù)集上分別有2.5% 和2.6%的相對(duì)增益。Liu 等[113]提出一種解糾纏的語(yǔ)義場(chǎng)景補(bǔ)全網(wǎng)絡(luò)SATNet。該方法首先使用編碼-解碼網(wǎng)絡(luò)結(jié)構(gòu)得到語(yǔ)義分割圖像。其次,通過(guò)2D 到3D 重投影變換得到不完整場(chǎng)景的語(yǔ)義體素表示。最后,通過(guò)3DCNN 得到完整場(chǎng)景的語(yǔ)義體素表示。實(shí)驗(yàn)結(jié)果表明該算法在合成數(shù)據(jù)集和真實(shí)數(shù)據(jù)集上均表現(xiàn)出良好的性能。

        圖11 HHA 圖像Fig.11 HHA map

        盡管基于深度圖聯(lián)合彩色圖像的語(yǔ)義場(chǎng)景補(bǔ)全方法具有較好的性能。然而,基于體素的三維表示仍然受到分辨率和內(nèi)存的限制,當(dāng)在室外場(chǎng)景下時(shí),其內(nèi)存缺陷尤其明顯。接下來(lái),將介紹基于點(diǎn)云的語(yǔ)義場(chǎng)景補(bǔ)全方法。

        5.3 基于點(diǎn)云的語(yǔ)義場(chǎng)景補(bǔ)全方法

        Cheng 等[114]提出基于點(diǎn)云輸入的語(yǔ)義場(chǎng)景補(bǔ)全網(wǎng)絡(luò)S3CNet。由于雷達(dá)點(diǎn)云具有的稀疏性導(dǎo)致直接提取其空間特征較為困難。因此,該算法首先將點(diǎn)云依次通過(guò)球形投影算法、擴(kuò)展算法[123]、基于修改的f-TSDF 編碼方法得到高效的稀疏三維張量。其次,將稀疏3D 張量投影的鳥(niǎo)瞰圖進(jìn)行語(yǔ)義分割。最后,將得到的2D 分割結(jié)果用于強(qiáng)化3D SSC。值得一提的是該方法對(duì)體素的融合是動(dòng)態(tài)的,抵消了對(duì)3D 卷積的顯著內(nèi)存要求。

        Yan 等[115]提出上下文形狀先驗(yàn)的稀疏雷達(dá)點(diǎn)云語(yǔ)義分割框架JS3C-Net。該方法將雷達(dá)獲取的多幀進(jìn)行配準(zhǔn)合并,其合并結(jié)果不僅可以作為場(chǎng)景補(bǔ)全任務(wù)的參考真值,還可以捕獲那些顯著對(duì)象形狀的先驗(yàn)信息,而這些得到的形狀先驗(yàn)信息有利于進(jìn)一步的語(yǔ)義分割任務(wù)。此外,該算法還引入了點(diǎn)云-體素交互(Point-voxel Interaction,PVI)模塊,用于語(yǔ)義分割和語(yǔ)義場(chǎng)景補(bǔ)全之間的隱式信息融合。該算法分別在SemanticKITTI 和SemanticPOSS 基準(zhǔn)上提升了4%和3%。Zhong 等[116]提出一種融 合RGB 圖像紋理信息與點(diǎn)云幾何信息的場(chǎng)景補(bǔ)全網(wǎng)絡(luò)IPF-SPCNet。該算法首先使用2D 分割網(wǎng)絡(luò)得到語(yǔ)義分割圖像。其次,將分割圖像的語(yǔ)義信息重投影到對(duì)應(yīng)的點(diǎn)云上,得到包含語(yǔ)義信息的不完整場(chǎng)景點(diǎn)云。最后,再通過(guò)基于點(diǎn)云的觀測(cè)編碼器和遮擋解碼器得到完整的語(yǔ)義場(chǎng)景補(bǔ)全點(diǎn)云。實(shí)驗(yàn)結(jié)果表明該算法在場(chǎng)景補(bǔ)全和語(yǔ)義場(chǎng)景補(bǔ)全任務(wù)上均表現(xiàn)良好。Rist 等[117]提出基于局部深度隱式函數(shù)的語(yǔ)義場(chǎng)景補(bǔ)全網(wǎng)絡(luò)LMSCNet。該方法與之前的場(chǎng)景補(bǔ)全方法不同,采用非體素化的連續(xù)場(chǎng)景表示,并引入自由空間信息作為監(jiān)督信號(hào),在室外場(chǎng)景數(shù)據(jù)集Semantic KITTI 上得了較好的實(shí)驗(yàn)結(jié)果。然而,該方法在不確定性估計(jì)方面仍然還有提升的空間。

        盡管上述基于點(diǎn)云的語(yǔ)義場(chǎng)景補(bǔ)全方法在大規(guī)模室外場(chǎng)景數(shù)據(jù)集上表現(xiàn)出了良好的性能,但這方面的研究工作仍然較少。此外,現(xiàn)有的點(diǎn)云處理方法尚沒(méi)有統(tǒng)一認(rèn)可的特征提取范式,還沒(méi)有一種點(diǎn)云特征提取算法能夠像CNN 或Transformer 在圖像領(lǐng)域獲得那么高的認(rèn)可度。盡管近幾年基于點(diǎn)云的特征提取方法蓬勃發(fā)展,但是人們依然還是使用相對(duì)較早的點(diǎn)云特征提取算法,如:PointNet[61]和DGCNN[87]。

        5.4 分析與小結(jié)

        分析不同類(lèi)型的語(yǔ)義場(chǎng)景補(bǔ)全方法,并根據(jù)表6、表7 和圖12 所示的部分方法對(duì)比結(jié)果,得出下列結(jié)論:

        圖12 部分語(yǔ)義場(chǎng)景補(bǔ)全方法結(jié)果對(duì)比Fig.12 Comparison of the results of some semantic scene completion methods

        表6 三維語(yǔ)義場(chǎng)景補(bǔ)全主要方法對(duì)比Tab.6 Comparison of the main methods of 3D semantic scene completion

        表7 NYUv2 數(shù)據(jù)集上部分方法的定量結(jié)果Tab.7 Quantitative results of partial methods on the NYUv2 dataset

        (1)現(xiàn)有的語(yǔ)義場(chǎng)景補(bǔ)全方法大多是通過(guò)3DCNN 對(duì)體素網(wǎng)格表示的三維空間進(jìn)行特征提取。盡管其中有些算法使用了稀疏卷積、閔可夫斯基卷積或空間分組卷積來(lái)降低參數(shù)量,但當(dāng)場(chǎng)景規(guī)模足夠大時(shí)或者針對(duì)室外場(chǎng)景時(shí),其內(nèi)存和顯存上的消耗仍然是致命的。

        (2)最近,基于局部深度隱式的語(yǔ)義場(chǎng)景補(bǔ)全工作被提出,然而模型預(yù)測(cè)的不確定性問(wèn)題還有待進(jìn)一步的解決。

        6 面臨問(wèn)題與研究趨勢(shì)

        盡管目前圍繞三維形狀補(bǔ)全、三維場(chǎng)景補(bǔ)全和三維語(yǔ)義場(chǎng)景補(bǔ)全的研究取得了一定的成果,但在現(xiàn)有的方法中,還存在一些亟待解決的問(wèn)題,本節(jié)將對(duì)此進(jìn)行深入分析,并從技術(shù)角度對(duì)三維補(bǔ)全未來(lái)的發(fā)展趨勢(shì)進(jìn)行展望。

        6.1 三維補(bǔ)全面臨的主要問(wèn)題

        (1)幾何細(xì)節(jié)丟失問(wèn)題:由于局部觀測(cè)信息缺乏魯棒的幾何約束,現(xiàn)有的三維補(bǔ)全方法在對(duì)個(gè)體形狀或大面積場(chǎng)景進(jìn)行補(bǔ)全時(shí),往往會(huì)丟失細(xì)節(jié)或無(wú)法預(yù)測(cè)正確的幾何信息。盡管已有方法采用注意力機(jī)制[124]或Transformer 模型[82-83]實(shí)現(xiàn)細(xì)節(jié)生成,但其二階計(jì)算量和內(nèi)存復(fù)雜度極大地限制了它的可適用性。

        (2)模型泛化性不足問(wèn)題:現(xiàn)有的大部分三維補(bǔ)全方法存在泛化性差的問(wèn)題,這主要可以歸納為兩方面的因素,(a)依賴(lài)于缺失-完整匹配對(duì)的監(jiān)督訓(xùn)練方式易導(dǎo)致模型過(guò)擬合和泛化性差。(b)不同合成數(shù)據(jù)集之間以及合成數(shù)據(jù)集與真實(shí)數(shù)據(jù)集之間存在域差距(Domain Gap)。

        (3)計(jì)算資源受限問(wèn)題:計(jì)算資源包括內(nèi)存資源和顯存資源,其受限的主要因素來(lái)源于場(chǎng)景表征的方式和場(chǎng)景數(shù)據(jù)的規(guī)模。由于大部分方法依賴(lài)于三維TSDF 矩陣或大規(guī)模點(diǎn)云來(lái)表征場(chǎng)景信息,雖然可以直接或間接使用3DCNN 進(jìn)行特征提取,但是其計(jì)算量隨分辨率呈立方增加。盡管有研究者通過(guò)和空間分組卷積[40]、稀疏卷積[125]和閔可夫斯基卷積[126]來(lái)緩解三維卷積參數(shù)量的問(wèn)題,但當(dāng)場(chǎng)景規(guī)模足夠大時(shí),其計(jì)算資源的缺陷仍然是致命的。此外,部分研究者使用圖卷積神經(jīng)網(wǎng)絡(luò)對(duì)點(diǎn)云進(jìn)行特征提取,但是這類(lèi)方法需要耗費(fèi)較長(zhǎng)的模型訓(xùn)練時(shí)間和推理時(shí)間,對(duì)一些計(jì)算成本敏感和實(shí)時(shí)性較高的應(yīng)用并不友好。

        (4)實(shí)例區(qū)分模糊問(wèn)題:針對(duì)三維形狀補(bǔ)全或部分場(chǎng)景補(bǔ)全任務(wù),本文關(guān)注到大部分方法都遵循編碼器-解碼器的范式,而這種范式易導(dǎo)致補(bǔ)全的不同實(shí)例存在區(qū)分性不足的問(wèn)題。不同實(shí)例包括相同對(duì)象類(lèi)別下的實(shí)例和不同對(duì)象類(lèi)別下的實(shí)例。

        (5)數(shù)據(jù)集類(lèi)別不平衡問(wèn)題:深度學(xué)習(xí)能夠在大規(guī)模均衡數(shù)據(jù)集上取得顯著成績(jī)。但現(xiàn)有的三維補(bǔ)全數(shù)據(jù)集,特別是室外數(shù)據(jù)集,其類(lèi)別分布存在嚴(yán)重的不平衡,如:Semantic KITTI 數(shù)據(jù)集[35]。這導(dǎo)致樣本量少的類(lèi)別包含的特征過(guò)少,模型學(xué)習(xí)效果大打折扣,難以完成高質(zhì)量的補(bǔ)全任務(wù)。

        6.2 未來(lái)的研究方向

        針對(duì)上述三維補(bǔ)全研究存在的主要問(wèn)題,并結(jié)合實(shí)際的應(yīng)用場(chǎng)景和當(dāng)下的研究熱點(diǎn),本文提出未來(lái)可能的研究方向:

        (1)針對(duì)幾何細(xì)節(jié)丟失問(wèn)題,可以從以下兩個(gè)層面展開(kāi)研究:(a)常見(jiàn)的三維數(shù)據(jù)表示形式包括點(diǎn)云、體素和網(wǎng)格。點(diǎn)云表示具有存儲(chǔ)空間小和表征能力強(qiáng)的特點(diǎn),但它不能描述拓?fù)浣Y(jié)構(gòu),亦不能產(chǎn)生水密的表面[65]。體素表示易受分辨率和計(jì)算存儲(chǔ)空間的限制[69]。網(wǎng)格表示易受固定拓?fù)浣Y(jié)構(gòu)的限制[75]。相較于點(diǎn)云、體素和網(wǎng)格的離散表示形式,隱式函數(shù)能夠支持以任意分辨率的形狀恢復(fù),處理不同的拓?fù)浣Y(jié)構(gòu),并且輸出結(jié)果是連續(xù)的。因此,基于隱式函數(shù)的三維補(bǔ)全是值得進(jìn)一步探討的研究方向。(b)通過(guò)引入幾何先驗(yàn)信息、語(yǔ)義先驗(yàn)信息、顏色先驗(yàn)信息和場(chǎng)景圖信息解開(kāi)復(fù)雜場(chǎng)景中不同對(duì)象之間的糾纏和構(gòu)建不同語(yǔ)義對(duì)象之間的關(guān)聯(lián),從而進(jìn)一步提升幾何信息預(yù)測(cè)的正確性,是值得進(jìn)一步探討的研究方向。

        (2)針對(duì)模型泛化不足問(wèn)題,可以從以下三個(gè)方面進(jìn)行探索:(a)由于在真實(shí)世界中收集大量完整的3D 數(shù)據(jù)是耗時(shí)甚至是不現(xiàn)實(shí)的,因此,無(wú)需匹配對(duì)的無(wú)監(jiān)督三維補(bǔ)全方法仍是接下來(lái)值得探討的方向。(b)對(duì)于合成數(shù)據(jù)集與真實(shí)數(shù)據(jù)集之間存在的域差距,使用無(wú)監(jiān)督域自適應(yīng)方法縮小域差距是值得進(jìn)一步探討的方向。(c)現(xiàn)有的三維補(bǔ)全方法依賴(lài)于已經(jīng)對(duì)齊的訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,其測(cè)試的數(shù)據(jù)也需滿(mǎn)足與訓(xùn)練數(shù)據(jù)一致的對(duì)齊要求,否則訓(xùn)練好的模型在擴(kuò)展到未對(duì)齊場(chǎng)景中時(shí)無(wú)法實(shí)現(xiàn)有效的補(bǔ)全。因此,實(shí)現(xiàn)三維補(bǔ)全算法在未對(duì)齊情況下的局部觀測(cè)輸入補(bǔ)全是值得進(jìn)一步探討的研究方向。

        (3)針對(duì)計(jì)算資源受限問(wèn)題,可以分別從以下兩個(gè)角度深入挖掘:(a)使用隱式函數(shù)表征場(chǎng)景信息可以大幅降低內(nèi)存的占用。但在場(chǎng)景補(bǔ)全任務(wù)中,模型預(yù)測(cè)的不確定性問(wèn)題還有待進(jìn)一步的解決。因此,結(jié)合概率統(tǒng)計(jì)學(xué)知識(shí)提升補(bǔ)全場(chǎng)景質(zhì)量是很有價(jià)值的研究方向。(b)針對(duì)一些計(jì)算成本敏感的應(yīng)用,通過(guò)模型壓縮[127]或圖濃縮技術(shù)[88]開(kāi)發(fā)更輕便的實(shí)時(shí)應(yīng)用模型是一個(gè)有趣和值得探討研究方向。

        (4)針對(duì)實(shí)例區(qū)分模糊問(wèn)題,可以從以下兩個(gè)方面進(jìn)行探索:(a)從對(duì)比學(xué)習(xí)和實(shí)例持續(xù)學(xué)習(xí)的角度展開(kāi)研究,實(shí)現(xiàn)不同實(shí)例的可區(qū)分性是值得進(jìn)一步探討的研究方向。(b)引入額外的語(yǔ)義信息來(lái)指導(dǎo)三維補(bǔ)全任務(wù)是值得進(jìn)一步探討的研究方向。例如,如果知道一個(gè)椅子缺失腿的數(shù)量是4 而不是3,那么模型在面對(duì)數(shù)據(jù)分布偏差時(shí)將提升預(yù)測(cè)結(jié)果的可靠性。

        (5)針對(duì)數(shù)據(jù)集類(lèi)別的不平衡問(wèn)題,采用類(lèi)別再平衡策略和主動(dòng)學(xué)習(xí)策略緩解數(shù)據(jù)集類(lèi)別的不平衡是值得進(jìn)一步探討的方向。

        (6)現(xiàn)有的三維補(bǔ)全方法還停留在相對(duì)獨(dú)立的領(lǐng)域展開(kāi)研究,結(jié)合具體應(yīng)用場(chǎng)景的工作相對(duì)較少。盡管已有相關(guān)工作將三維補(bǔ)全技術(shù)應(yīng)用于目標(biāo)檢測(cè)這類(lèi)高階任務(wù)。然而,在高精度地形圖構(gòu)建、數(shù)字虛擬人重建、機(jī)械臂精確抓取等應(yīng)用領(lǐng)域,三維補(bǔ)全作為一種輔助技術(shù)的潛力還未充分挖掘。因此,基于三維補(bǔ)全技術(shù)結(jié)合具體應(yīng)用領(lǐng)域的研究是值得進(jìn)一步探討的方向。

        7 結(jié)論

        三維補(bǔ)全是計(jì)算機(jī)視覺(jué)研究的基礎(chǔ)性課題,可以指導(dǎo)多種下游高階視覺(jué)任務(wù)的學(xué)習(xí),且具有重要的理論意義和廣闊的應(yīng)用前景,已成為計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱點(diǎn)。本文分別從三維形狀補(bǔ)全、三維場(chǎng)景補(bǔ)全和三維語(yǔ)義場(chǎng)景補(bǔ)全三方面對(duì)近年來(lái)的相關(guān)研究工作進(jìn)行了梳理和小結(jié),討論了現(xiàn)有的三維補(bǔ)全方法所存在的問(wèn)題,并從技術(shù)角度提出了未來(lái)的研究趨勢(shì)??偠灾?,深度學(xué)習(xí)為解決三維補(bǔ)全問(wèn)題提供了新的技術(shù),取得了較為顯著的成果,但將其應(yīng)用到真實(shí)場(chǎng)景中仍然存在很多問(wèn)題。后續(xù)可以在計(jì)算資源、模型泛化性、補(bǔ)全質(zhì)量等方面開(kāi)展進(jìn)一步的研究,這對(duì)于促進(jìn)三維視覺(jué)領(lǐng)域的發(fā)展具有重要的意義。

        猜你喜歡
        形狀語(yǔ)義卷積
        挖藕 假如悲傷有形狀……
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        語(yǔ)言與語(yǔ)義
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        你的形狀
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        看到的是什么形狀
        “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語(yǔ)義模糊
        一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
        国产女人好紧好爽| 久久99久久99精品免视看国产成人| 亚洲中文字幕有综合久久| 国产一区二区三区的区| 亚洲av无码电影在线播放| 国产精自产拍久久久久久蜜 | 中文字幕人妻av一区二区| 午夜性刺激免费看视频 | 欧美人与动牲交片免费| 国产成人精品一区二免费网站| 人妖在线一区二区三区| 色婷婷亚洲一区二区三区| 人妻被黑人粗大的猛烈进出 | 四虎在线中文字幕一区| 日本精品视频免费观看| 无码不卡av东京热毛片| AV无码中文字幕不卡一二三区 | 巨大欧美黑人xxxxbbbb| 国产亚洲一区二区三区成人| 亚洲中文av中文字幕艳妇| 狠狠躁天天躁中文字幕| 高清在线亚洲中文精品视频| 日本无吗一区二区视频| 一本久久a久久免费综合| 搡老熟女中国老太| 久久久久久99精品| 经典黄色一区二区三区| 久久久中文久久久无码| 国产极品美女高潮无套在线观看| 亚洲国产精品国自产拍av在线| 亚洲高清在线免费视频| 亚洲av无码xxx麻豆艾秋| 岛国大片在线免费观看| av一区二区三区观看| 中文字幕人妻熟女人妻| 中文字幕高清在线一区二区三区| 亚洲黄色官网在线观看| 国产欧美综合一区二区三区| 又爽又黄又无遮挡的激情视频| 久久熟女五十路| 久久精品女同亚洲女同|