王江安,龐大為,黃 樂(lè),秦林珍
基于多尺度特征遞歸卷積的稠密點(diǎn)云重建網(wǎng)絡(luò)
王江安,龐大為,黃 樂(lè),秦林珍
(長(zhǎng)安大學(xué)信息工程學(xué)院,陜西 西安 710064)
針對(duì)在三維重建任務(wù)中,由于弱紋理區(qū)域的光度一致性測(cè)量誤差較大,使得傳統(tǒng)的多視圖立體算法難以處理的問(wèn)題,提出了一種多尺度特征聚合的遞歸卷積網(wǎng)絡(luò)(MARDC-MVSNet),用于弱紋理區(qū)域的稠密點(diǎn)云重建。為了使輸入圖像分辨率更高,該方法使用一個(gè)輕量級(jí)的多尺度聚合模塊自適應(yīng)地提取圖像特征,以解決弱紋理甚至無(wú)紋理區(qū)域的問(wèn)題。在代價(jià)體正則化方面,采用具有遞歸結(jié)構(gòu)的分層處理網(wǎng)絡(luò)代替?zhèn)鹘y(tǒng)的三維卷積神經(jīng)網(wǎng)絡(luò)(CNN),極大程度地降低了顯存占用,同時(shí)實(shí)現(xiàn)高分辨率重建。在網(wǎng)絡(luò)的末端添加一個(gè)深度殘差網(wǎng)絡(luò)模塊,以原始圖像為指導(dǎo)對(duì)正則化網(wǎng)絡(luò)生成的初始深度圖進(jìn)行優(yōu)化,使深度圖表述更準(zhǔn)確。實(shí)驗(yàn)結(jié)果表明,在DTU數(shù)據(jù)集上取得了優(yōu)異的結(jié)果,該網(wǎng)絡(luò)在擁有較高深度圖估計(jì)精度的同時(shí)還節(jié)約了硬件資源,且能擴(kuò)展到航拍影像的實(shí)際工程之中。
深度學(xué)習(xí);計(jì)算機(jī)視覺(jué);遙感測(cè)繪;三維重建;多視圖立體;遞歸神經(jīng)網(wǎng)絡(luò)
基于多視圖立體(multi-view stereo,MVS)信息的稠密點(diǎn)云重建是計(jì)算機(jī)視覺(jué)的經(jīng)典研究課題,是虛擬現(xiàn)實(shí)、智能駕駛和考古研究等多個(gè)領(lǐng)域中的關(guān)鍵技術(shù)[1]。傳統(tǒng)的稠密重建方法[2-4]利用計(jì)算相似性來(lái)衡量多視圖的一致性,盡管該方法已經(jīng)應(yīng)用多年,近年來(lái)隨著深度學(xué)習(xí)[5-10]的不斷深入拓展了更多思路,在最近的研究中,通過(guò)引入深度神經(jīng)網(wǎng)絡(luò)提升了特征提取和代價(jià)體正則的速度和準(zhǔn)確性。
傳統(tǒng)的三維重建方法是建立在尺度不變特征的基礎(chǔ)上,通過(guò)提取并匹配所有圖像的特征,找到不同視圖和相機(jī)姿勢(shì)之間的成對(duì)關(guān)系[11]。根據(jù)輸出場(chǎng)景可將傳統(tǒng)的稠密重建方法分為:基于體素的方法[12-13]、基于特征點(diǎn)擴(kuò)散的方法[14]和基于深度圖融合的方法[15]?;隗w素的方法將整個(gè)三維空間離散為規(guī)則的立方體,使用光度一致性度量來(lái)確定體素是否屬于曲面。該方法需消耗大量計(jì)算資源,其精度主要取決于體素的分辨率[6],因此不能適應(yīng)大規(guī)模場(chǎng)景。特征點(diǎn)擴(kuò)散方法從匹配關(guān)鍵點(diǎn)的稀疏點(diǎn)集開(kāi)始,使用傳播策略來(lái)加密點(diǎn)云。由于傳播是按順序進(jìn)行的,因此該方法限制了并行數(shù)據(jù)的處理能力。基于深度圖融合的方法,也是目前主流的方法,其核心思想為先對(duì)每張圖像進(jìn)行深度估計(jì)并得到深度圖,然后將所有深度圖融合到一起形成最終的點(diǎn)云。典型的有COLMAP[1],該算法引入迭代的捆綁調(diào)整和幾何驗(yàn)證策略,通過(guò)計(jì)算特征選擇視圖、估計(jì)深度圖和表面法線(xiàn),顯著提高重建完整性和準(zhǔn)確性。
自機(jī)器學(xué)習(xí)被廣泛應(yīng)用,稠密重建的研究也受到深度學(xué)習(xí)的影響。基于學(xué)習(xí)的方法能夠在重建過(guò)程中考慮全局語(yǔ)義信息,因此可以提高重建的準(zhǔn)確性和完整性。學(xué)術(shù)界首先提出了基于體素的SurfaceNet[6],該方法使用多視圖圖像扭曲到3D空間構(gòu)建代價(jià)體,并使用三維卷積神經(jīng)網(wǎng)絡(luò)( convolutional neural networks,CNN)來(lái)正則化和聚合體素,但由于體積表示的常見(jiàn)缺點(diǎn),SurfaceNet僅限于小規(guī)模重建。YAO等[16]提出了一種基于深度圖的端到端架構(gòu)MVSNet。該方法將代價(jià)體用于3D CNN正則化進(jìn)而深度回歸,大大提高了稠密重建的性能。
基于深度學(xué)習(xí)的稠密重建存在如下問(wèn)題:如早期的MVSNet[16]方法使用具有下采樣模塊為主干網(wǎng)絡(luò)來(lái)提取特征,這種直連的卷積層網(wǎng)絡(luò)具有固定的感受野,提取特征時(shí)在處理弱紋理或無(wú)紋理表面處存在困難,這限制了三維重建的魯棒性和完整性。另代價(jià)體正則部分使用3D CNN結(jié)構(gòu),其占用的GPU內(nèi)存消耗隨圖片分辨率增加呈立方體增長(zhǎng),因此MVSNet無(wú)法處理大分辨率的圖像。R-MVSNet[17]中不再使用消耗高額顯存的3D CNN,網(wǎng)絡(luò)將代價(jià)體正則部分更換為堆疊式的GRU模塊,進(jìn)一步提高了對(duì)大規(guī)模場(chǎng)景深度估計(jì)的可能性,但重建的完整性和準(zhǔn)確性仍有不足。
近年來(lái)發(fā)布的網(wǎng)絡(luò),大多數(shù)有監(jiān)督網(wǎng)絡(luò)舍棄了深度圖優(yōu)化部分,這并不利于完整的重建。為了進(jìn)一步提高估計(jì)深度圖的質(zhì)量,M3VSNet中[18]深度圖優(yōu)化使用基于法線(xiàn)深度一致性的算法,結(jié)合了世界坐標(biāo)空間中的法線(xiàn)深度一致性,以約束從估計(jì)深度圖獲得的局部表面切線(xiàn)與計(jì)算出的法線(xiàn)正交,這種正交化可提高估計(jì)深度圖的準(zhǔn)確性和連續(xù)性。此外,高斯-牛頓修正算法[19]簡(jiǎn)單而快速地將粗略的高分辨率深度圖細(xì)化為密集的高分辨率深度圖。
為了解決上述問(wèn)題,本文提出了一種基于深度學(xué)習(xí)的具有動(dòng)態(tài)一致性檢驗(yàn)的多尺度遞歸卷積多視圖立體網(wǎng)絡(luò)(multi-scale aggregation recursive multi view stereo net with dynamic consistency,MARDC-MVSNet),該網(wǎng)絡(luò)包含視圖之間的多尺度自適應(yīng)聚合模塊A2MDCNN,遞歸結(jié)構(gòu)的分層正則化網(wǎng)絡(luò)模塊和引入殘差思想的深度圖優(yōu)化模塊。本文方法可以解決諸如弱紋理區(qū)域重建和大場(chǎng)景建模之類(lèi)的問(wèn)題,可實(shí)現(xiàn)準(zhǔn)確和高完整度的稠密重建。
圖1為本文設(shè)計(jì)的一款新穎的分層式多尺度特征遞歸卷積網(wǎng)絡(luò)MARDC-MVSNet。其吸收了MVSNet中3D CNN和R-MVSNet中GRU遞歸單元的優(yōu)點(diǎn),充分利用了3D CNN聚合局部上下文信息能力和堆棧式遞歸網(wǎng)絡(luò)的效率。本文輸入圖像分為1個(gè)參考圖像和–1個(gè)源圖像,所謂的參考圖像就是需要得到深度圖的圖像,源圖像則是與參考圖像有特征聯(lián)系的相鄰圖像。通過(guò)卷積網(wǎng)絡(luò)得到個(gè)圖像的特征圖,再將源圖像的特征圖通過(guò)可微單應(yīng)性變換扭曲到參考圖像的主光軸上聚合成代價(jià)體,然后對(duì)代價(jià)體進(jìn)行正則化得到用于預(yù)測(cè)深度圖的概率體,最后對(duì)所有深度圖進(jìn)行融合生成場(chǎng)景稠密點(diǎn)云。MARDC-MVSNet通過(guò)在多尺度特征提取、代價(jià)體正則化和深度圖優(yōu)化上改進(jìn)重建體系結(jié)構(gòu)。
圖1 MARDC-MVSNet網(wǎng)絡(luò)架構(gòu)
反射面和弱紋理或無(wú)紋理區(qū)域是造成完整性和準(zhǔn)確性低的重要原因。這是常規(guī)的卷積處理所產(chǎn)生的問(wèn)題,一般卷積網(wǎng)絡(luò)在固定規(guī)格的網(wǎng)格上進(jìn)行運(yùn)算。從某種意義上講,應(yīng)同等地對(duì)待正常紋理和弱紋理區(qū)域,因此在弱紋理情況下,常規(guī)的卷積無(wú)法獲得足夠的圖像特征。對(duì)于那些缺乏紋理的區(qū)域,卷積的感受野應(yīng)該更大,而對(duì)于紋理豐富的區(qū)域,卷積的感受野則應(yīng)較小。為實(shí)現(xiàn)上述思路,本文運(yùn)用可變形卷積構(gòu)建一個(gè)多尺度聚合模塊A2MDCNN以實(shí)現(xiàn)感受野的變化。
可變形卷積定義為
其中,()為像素的特征值;w和p為在普通卷積運(yùn)算中定義的卷積核參數(shù)和固定偏移量;Dp和Dm是可變形卷積經(jīng)過(guò)學(xué)習(xí)產(chǎn)生的偏移量和權(quán)重。
圖2 A2MDCNN特征聚合模塊
每個(gè)參考圖像對(duì)應(yīng)的代價(jià)體是通過(guò)匹配對(duì)應(yīng)源圖像的特征來(lái)計(jì)算的。通過(guò)平面掃描法[20]對(duì)參考圖像以其主光軸為掃面方向,以相同間距構(gòu)造一個(gè)錐形體,再根據(jù)單應(yīng)性變換,將每一張?jiān)磮D像投影到每一層深度上構(gòu)成特征體,最后利用插值法使每張投影尺寸相同。其中單應(yīng)性變換定義為
其中,{,,}為內(nèi)部參數(shù),代表旋轉(zhuǎn)和平移;為參考圖像的主光軸;為深度值;為單位矩陣;為該參考圖像對(duì)應(yīng)多個(gè)源圖像的索引。
假定源圖像個(gè)數(shù)為,理論上每一張參考圖像有個(gè)對(duì)應(yīng)的特征體,將這些特征體基于方差的形式構(gòu)建一個(gè)代價(jià)體為
使用方差計(jì)算出不同角度的各個(gè)圖像在同一深度位置特征的差異大小,差異的大小表明了特征的匹配程度,若無(wú)差異,則說(shuō)明此深度位置的點(diǎn)為多個(gè)角度投影的交點(diǎn),即深度確定。
代價(jià)體正則化是利用空間上下文信息將匹配的代價(jià)體轉(zhuǎn)化為深度概率分布,學(xué)術(shù)界提出了2種方案:多階段方法和遞歸處理方法。多階段方法,如CasMVSNet[21],AA-CVP[22],Vis-MVSNet[23]和Point MVSNet[9],此類(lèi)使用由粗到精策略,首先預(yù)測(cè)大深度間隔的低分辨率深度圖,然后多次迭代上采樣細(xì)化具有窄深度范圍的深度圖。盡管由粗到細(xì)的體系結(jié)構(gòu)成功地減少了顯存消耗,但由于在較大的深度間隔下粗階段的深度預(yù)測(cè)可能是錯(cuò)誤的,同時(shí)正則化網(wǎng)絡(luò)大多還是用U型結(jié)構(gòu)的3D CNN,因此不適合高分辨率的深度估計(jì)。另一種思路是遞歸方法,如R-MVSNet和D2HC-RMVSNet[24]。此類(lèi)使用遞歸網(wǎng)絡(luò)沿深度方向順序的正則化代價(jià)圖,以代替內(nèi)存密集型3D CNN。R-MVSNet使用堆棧式GRU卷積門(mén)控遞歸單元以順序方式處理代價(jià)體,D2HC-RMVSNet通過(guò)更強(qiáng)大的LSTM遞歸卷積單元LSTMConvCell[25],同時(shí)使用動(dòng)態(tài)一致性檢查策略來(lái)改善深度圖融合。
本文使用遞歸思想,具體采用分層式遞歸卷積(CNN_RNN)作為代價(jià)體的正則網(wǎng)絡(luò),如圖3所示,在水平方向上網(wǎng)絡(luò)為2D的U-Net結(jié)構(gòu),其各層均是LSTMConvCell[25],其不僅具有LSTM的時(shí)序性,還能像CNN一樣刻畫(huà)局部特征;在垂直方向上有5個(gè)平行遞歸模塊,每個(gè)模塊將前一個(gè)遞歸卷積的中間結(jié)果傳送到后一個(gè)。這個(gè)堆棧式模塊可以很好地吸收多尺度上下文信息又能高效地處理代價(jià)體??紤]到訓(xùn)練存在收斂難的問(wèn)題,在網(wǎng)絡(luò)末端添加一個(gè)殘差塊,加速網(wǎng)絡(luò)訓(xùn)練。
圖3 U型堆棧式LSTMConv模塊
表1 正則網(wǎng)絡(luò)形式構(gòu)成
深度圖的生成遵循贏者通吃原則,但贏者通吃原則會(huì)造成深度突變、不平滑情況,無(wú)法在亞像素級(jí)別上估計(jì)深度。借鑒argmax思想,沿著概率體的深度方向,以深度期望值作為該像素的深度估計(jì)值,使得整個(gè)深度圖中的不同部分內(nèi)部更加平滑。
概率體得到的初始深度圖存在一些問(wèn)題,即在正則化過(guò)程中會(huì)出現(xiàn)深度圖邊界過(guò)平滑現(xiàn)象。深度圖優(yōu)化的方法有多種,M3VSNet[18]考慮到法線(xiàn)與局部表面切線(xiàn)之間的正交性,引入了新的法線(xiàn)深度一致性來(lái)細(xì)化得到優(yōu)化的深度圖。為了減少訓(xùn)練時(shí)間和簡(jiǎn)化網(wǎng)絡(luò),本文借鑒圖像引導(dǎo)思想,由于參考圖像包含了邊界信息,因此可用參考圖像引導(dǎo)優(yōu)化初始深度圖。受摳圖算法的啟發(fā),在網(wǎng)絡(luò)末端添加一個(gè)殘差網(wǎng)絡(luò)。即將初始深度圖和參考圖像連接成一個(gè)4通道的張量,與MVSNet不同在于,該深度圖和參考圖像的寬高相同。將該張量送入3個(gè)32通道的卷積層和一個(gè)1通道的卷積層可得到學(xué)習(xí)的深度差值,最后加到初始深度圖以得到最終的深度圖。
在深度圖估計(jì)時(shí),該網(wǎng)絡(luò)可分為初始深度圖和深度圖優(yōu)化2部分。在進(jìn)行初始深度圖估計(jì)時(shí),視其為多重分類(lèi)任務(wù),而非回歸任務(wù)。在概率體和真實(shí)深度圖的one-hot編碼體之間使用交叉熵?fù)p失函數(shù),即
其中,valid為有效的像素集;(,)為真實(shí)深度圖在像素的第個(gè)深度處one-hot編碼生成;(,)為概率體中的像素。
深度圖優(yōu)化部分將真實(shí)深度圖到優(yōu)化深度圖的距離作為損失,即
其中,()為真實(shí)像素深度值;()為優(yōu)化的深度值。
因此,本文訓(xùn)練時(shí)的損失函數(shù)定義為
其中,決定網(wǎng)絡(luò)是否開(kāi)啟深度圖優(yōu)化模塊。
本文使用DTU[26]數(shù)據(jù)集訓(xùn)練和測(cè)試MARDC- MVSNet網(wǎng)絡(luò)。DTU數(shù)據(jù)集是在實(shí)驗(yàn)室條件下收集的室內(nèi)MVS數(shù)據(jù)集,其具有固定的攝像機(jī)軌跡,一共包含128次掃描,分為79次訓(xùn)練掃描、18次驗(yàn)證掃描和22次測(cè)試掃描。其中包括124種不同場(chǎng)景,并在7種不同的照明條件下顯示49個(gè)或64個(gè)視圖。除此之外,該數(shù)據(jù)集提供了由精密的結(jié)構(gòu)光掃描儀獲取的參考模型以及高分辨率圖像,這些數(shù)據(jù)可生成真實(shí)的深度圖。為了證明網(wǎng)絡(luò)的可擴(kuò)展性,在Blended_MVS[27]數(shù)據(jù)集上使用DTU數(shù)據(jù)集訓(xùn)練得到的模型可直接進(jìn)行測(cè)試。Blended_MVS是一個(gè)新型的大規(guī)模MVS數(shù)據(jù)集,該數(shù)據(jù)集包含具有各種不同相機(jī)軌跡的113個(gè)不同場(chǎng)景,每個(gè)場(chǎng)景由20到1 000個(gè)輸入圖像組成,包括建筑、雕塑和小物體。最后,為了進(jìn)一步說(shuō)明本文方法適用于復(fù)雜場(chǎng)景,網(wǎng)絡(luò)在自采集的數(shù)據(jù)下進(jìn)行測(cè)試。
2.2.1 網(wǎng)絡(luò)訓(xùn)練
本文在由79個(gè)不同場(chǎng)景組成的DTU訓(xùn)練集上進(jìn)行網(wǎng)絡(luò)訓(xùn)練。DTU數(shù)據(jù)集僅提供真實(shí)的點(diǎn)云模型,通過(guò)屏蔽泊松曲面重建算法和深度渲染生成粗糙的參考圖像的真實(shí)深度圖。再與相鄰的源圖像進(jìn)行交叉過(guò)濾來(lái)細(xì)化真實(shí)深度圖。在訓(xùn)練時(shí)圖像大小設(shè)置為160×128,輸入圖像的數(shù)量設(shè)置為=7,在深度方向上均勻采樣,將深度層假設(shè)為=192。本文使用PyTorch實(shí)現(xiàn)了網(wǎng)絡(luò)模型,并使用Adam對(duì)網(wǎng)絡(luò)進(jìn)行端到端的訓(xùn)練,初始學(xué)習(xí)率為0.001,并設(shè)定每個(gè)epoch學(xué)習(xí)率衰減0.9,共訓(xùn)練12個(gè)epoch。網(wǎng)絡(luò)在一個(gè)NVIDIA RTX 3090顯卡上訓(xùn)練,批大小batch size設(shè)置為1,整個(gè)訓(xùn)練階段至少需要20 GB內(nèi)存。
2.2.2 網(wǎng)絡(luò)測(cè)試
本文通過(guò)DTU訓(xùn)練集得到模型,用于DTU數(shù)據(jù)測(cè)試、Blended_MVS數(shù)據(jù)測(cè)試及自采集數(shù)據(jù)測(cè)試。使用=7個(gè)視圖作為輸入,并將深度平面假設(shè)為=512,以獲得具有更精細(xì)細(xì)節(jié)的深度圖。為了配合網(wǎng)絡(luò)的設(shè)計(jì),測(cè)試樣本輸入圖像的尺寸必須是8的倍數(shù),因此使用800×600大小的輸入圖像進(jìn)行測(cè)試。同時(shí)也在Blended_MVS數(shù)據(jù)集進(jìn)行測(cè)試,其輸入的大小設(shè)置為768×576的圖像。其生成的深度圖如圖4所示,圖中清晰地顯示了MVSNet生成的深度圖在細(xì)節(jié)處理上劣于本文,如圖4(a)所示,本文能更好地描述盒子的邊緣;如圖4(d)所示,本文除了能刻畫(huà)更準(zhǔn)確的邊緣外,還能描述一些更為細(xì)小物品的深度圖,如路燈。
圖4 DTU數(shù)據(jù)在本文MARDC-MVSNet網(wǎng)絡(luò)和MVSNet網(wǎng)絡(luò)上測(cè)試結(jié)果對(duì)比((a),(d)原圖;(b),(e) MVSNet網(wǎng)絡(luò)結(jié)果;(c),(f)本文網(wǎng)絡(luò)結(jié)果)
與之前的MVS方法類(lèi)似,網(wǎng)絡(luò)為每個(gè)輸入多視圖圖像生成稠密的深度圖。本網(wǎng)絡(luò)為深度圖引入了光度和幾何約束,在融合所有估計(jì)的深度圖之前,需要過(guò)濾掉不匹配的錯(cuò)誤并存儲(chǔ)正確可靠的深度,在實(shí)驗(yàn)中丟棄了估計(jì)深度概率低于0.3的像素。遵循D2HC中提出的動(dòng)態(tài)幾何一致性檢查方法交叉過(guò)濾原始深度圖,并融合以生成相應(yīng)的三維稠密點(diǎn)云,其中參數(shù)設(shè)置為=200,=1.8。
首先在DTU測(cè)試數(shù)據(jù)集上評(píng)估了本文提出的MARDC-MVSNet網(wǎng)絡(luò)。所有掃描設(shè)置深度范圍為[425 mm,905 mm],并使用通用評(píng)估指標(biāo)[16-17]。將本文方法與傳統(tǒng)方法和一些基于學(xué)習(xí)的方法進(jìn)行了比較,定量結(jié)果見(jiàn)表2,其中準(zhǔn)確度和完整性是由官方MATLAB評(píng)估代碼計(jì)算的2個(gè)絕對(duì)距離[26],Overall是2個(gè)指標(biāo)的平均值。表中Gipuma[15]在準(zhǔn)確性方面取得了最佳,CasMVSNet在綜合數(shù)值上取得了最好效果,由于本網(wǎng)絡(luò)的深度推斷使用的是遞歸算法,可能會(huì)失去一些上下文信息,因此僅在完整性上取得了最優(yōu)的成果。但針對(duì)三維重建,點(diǎn)云的完整性在實(shí)際應(yīng)用上更為重要。對(duì)比Gipuma本網(wǎng)絡(luò)在完整性及綜合指標(biāo)上已彌補(bǔ)了準(zhǔn)確性略顯不足的問(wèn)題。雖然CasMVSNet綜合數(shù)值較好,但該值為平均所得,在完整性上本文網(wǎng)絡(luò)具有優(yōu)勢(shì)。綜上,本文方法在完整性和整體質(zhì)量方面均優(yōu)于所有競(jìng)爭(zhēng)方法。本文方法得益于多尺度特征聚合模塊和CNN-RNN正則網(wǎng)絡(luò),由于能處理弱紋理,與經(jīng)典的MVSNet和R-MVSNet相比,本文可以顯著提高準(zhǔn)確性和完整性。圖5顯示了與其他方法相比的定性結(jié)果,圖5(a)為建筑物,本文在刻畫(huà)窗戶(hù)上更具完整性,同樣在圖5(d)的人像上也有體現(xiàn),圖中人物的手和肩膀在R-MVSNet網(wǎng)絡(luò)重建下有太多的細(xì)節(jié)丟失,造成了空洞現(xiàn)象,本文網(wǎng)絡(luò)有效地改善了這一情況;在圖5(g)的蛋糕邊緣部分本文刻畫(huà)的更清晰,字母細(xì)節(jié)的描繪更真實(shí)。這是因?yàn)楸疚木W(wǎng)絡(luò)所生成的特征圖尺度較大,圖像保存的細(xì)節(jié)信息較多,這得益于高效的正則網(wǎng)絡(luò)實(shí)現(xiàn)了大尺寸特征圖的網(wǎng)絡(luò)重建。因此,該方法獲得了更完整、更精細(xì)的三維稠密點(diǎn)云,以此來(lái)證明該網(wǎng)絡(luò)的有效性。
表2 DTU測(cè)試數(shù)據(jù)集上的定量結(jié)果(mm)
注:加粗?jǐn)?shù)據(jù)為最優(yōu)值
本實(shí)驗(yàn)還在BlendedMVS測(cè)試集上進(jìn)行了測(cè)試。所用模型為DTU數(shù)據(jù)集訓(xùn)練得出,只需要在數(shù)據(jù)集預(yù)處理上做一些改動(dòng)。如圖6所示,本文方法可以很好地重建整個(gè)大型場(chǎng)景并能清晰地展示其細(xì)節(jié),而經(jīng)典R-MVSNet因正則模塊的缺點(diǎn)無(wú)法在有限的資源下重建,因此在Blended_MVS數(shù)據(jù)集上表現(xiàn)的效果并不好。本文在處理教堂、房屋和村莊場(chǎng)景時(shí)能夠準(zhǔn)確地描繪建筑的小細(xì)節(jié)并在完整性上有更大的優(yōu)勢(shì);在處理博物館場(chǎng)景時(shí),本網(wǎng)絡(luò)可還原完整的場(chǎng)景,點(diǎn)云模型的空洞更少。本文方法通過(guò)多尺度聚合模塊和基于LSTM的CNN_RNN模塊做到了在兼顧上下文信息的同時(shí)進(jìn)行高效的稠密深度估計(jì),并得到更健壯和完整的稠密三維點(diǎn)云。
圖5 本文與R-MVSNet在DTU測(cè)試數(shù)據(jù)集上定性結(jié)果比較((a),(d),(g)原圖測(cè)試集;(b),(e),(h) R-MVSNet測(cè)試效果;(c),(f),(i) 本文測(cè)試效果)
圖6 本文與R-MVSNet在Blended_MVS測(cè)試集上定性結(jié)果比較((a),(c),(e),(g)本文在教堂、房屋、博物館、村莊的測(cè)試效果;(b),(d),(f),(h) R-MVSNet在教堂、房屋、博物館、村莊的測(cè)試效果)
最后在自采集數(shù)據(jù)上進(jìn)行測(cè)試并對(duì)比本文與R-MVSNet的重建效果,數(shù)據(jù)由五目相機(jī)進(jìn)行拍攝,經(jīng)過(guò)空三得到相機(jī)位姿作為輸入數(shù)據(jù)集,在DTU數(shù)據(jù)集訓(xùn)練得出的模型下測(cè)試得到稠密重建效果。自采集數(shù)據(jù)包含2個(gè)場(chǎng)景工地和操場(chǎng),如圖7所示。圖中對(duì)比了2個(gè)網(wǎng)絡(luò)在自采集數(shù)據(jù)集上的效果,可以看出本文網(wǎng)絡(luò)在細(xì)節(jié)和場(chǎng)景完整性上更有優(yōu)勢(shì),即能夠清楚地重建操場(chǎng)跑道的數(shù)字;也能夠更完整地重建房屋,在建筑邊緣上描述更準(zhǔn)確;對(duì)于建筑材料和汽車(chē)能夠更精細(xì)地描述。而R-MVSNet無(wú)法完成較準(zhǔn)確的大場(chǎng)景重建。
本節(jié)用消融實(shí)驗(yàn)來(lái)分析本文體系結(jié)構(gòu)關(guān)鍵組件的效果,并與不同的網(wǎng)絡(luò)體系結(jié)構(gòu)進(jìn)行比較,除自適應(yīng)的深度圖聚合模塊,本次僅討論從輸入圖像到深度圖生成的過(guò)程。實(shí)驗(yàn)設(shè)置以Baseline,MVSNet,R-MVSNet,AACVP-MVSNet和本文作對(duì)比,并對(duì)照討論各個(gè)網(wǎng)絡(luò)在測(cè)試時(shí)的顯存占用與生成稠密深度圖的準(zhǔn)確度與完整性(Acc,Comp),實(shí)驗(yàn)結(jié)果見(jiàn)表3。討論了多尺度特征聚合模塊和CNN_RNN正則模塊帶來(lái)的增益,各個(gè)網(wǎng)絡(luò)分別代表不同組件的組合見(jiàn)表4,本網(wǎng)絡(luò)的多尺度特征聚合模塊相對(duì)于單純的卷積特征提取在運(yùn)行占用顯存方面額外占用1.75 G,在完整性與準(zhǔn)確度上也有提高。本文網(wǎng)絡(luò)在測(cè)試時(shí),在DTU數(shù)據(jù)集上800×600分辨率背景下僅占用顯存4.16 G,作為對(duì)照組的R-MVSNet與MVSNet其測(cè)試運(yùn)行時(shí)占用的顯存分別為6.9 G和15.9 G,在準(zhǔn)確度與完整性指標(biāo)上本文也擁有優(yōu)勢(shì)。AACVP-MVSNet是目前排名靠前的多階段方法,并使用由粗到細(xì)的深度推斷結(jié)合自注意機(jī)制得到深度圖,該網(wǎng)絡(luò)雖然在準(zhǔn)確性與完整性指標(biāo)上略高于本文,但在顯存占用上本網(wǎng)絡(luò)有極大的優(yōu)勢(shì),考慮到目前硬件限制是實(shí)際應(yīng)用的門(mén)檻,本文網(wǎng)絡(luò)綜合表現(xiàn)良好。
圖7 本文與R-MVSNet在自采集數(shù)據(jù)集上定性結(jié)果比較((a),(c),(e),(g)本文在跑道、房屋、建筑材料、停車(chē)場(chǎng)的測(cè)試效果;(b),(d),(f),(h)R-MVSNet在跑道、房屋、建筑材料、停車(chē)場(chǎng)的測(cè)試效果)
表3 DTU測(cè)試數(shù)據(jù)集上不同網(wǎng)絡(luò)的指標(biāo)效果和占用顯存
表4 網(wǎng)絡(luò)的組件構(gòu)成
其次,本文網(wǎng)絡(luò)使用一種更節(jié)約顯存的方式正則代價(jià)體,因此能夠使用更高分辨率的圖像進(jìn)行重建。在設(shè)定=7和=512情況下,將重建結(jié)果與1600×1200和800×600的圖像分辨率進(jìn)行比較。由表5可知,指標(biāo)越低越好,更大的分辨率會(huì)增加重建占用顯存和運(yùn)行時(shí)間,但在完整性和準(zhǔn)確度上則有利于重建。對(duì)比同分辨率輸入下的R-MVSNet和AACVP-MVSNet,本文網(wǎng)絡(luò)的損耗和指標(biāo)比R-MVSNet皆有所提升;與AACVP-MVSNet相比,本文網(wǎng)絡(luò)在顯存占用上具有優(yōu)勢(shì),且擁有相近的完整性。這說(shuō)明本文網(wǎng)絡(luò)在DTU數(shù)據(jù)集上已超越經(jīng)典的MVSNet,構(gòu)建的三維模型更加完整。
表5 不同分辨率下的重建結(jié)果
本文提出了一種新型的MARDC-MVSNet網(wǎng)絡(luò)。輕量級(jí)的多尺度特征聚合模塊通過(guò)使用可變形卷積自適應(yīng)的提取圖像稠密特征,解決了傳統(tǒng)的CNN無(wú)法有效處理反射面、弱紋理和無(wú)紋理區(qū)域的問(wèn)題。在深度圖生成的代價(jià)體正則過(guò)程中,不再使用3D CNN與GRU模塊,而是使用一種融合了LSTM的卷積在深度方向上分層地處理代價(jià)圖,這大大地降低了重建所需顯存。以參考圖像為引導(dǎo)使用深度殘差學(xué)習(xí)網(wǎng)絡(luò)優(yōu)化初始深度圖解決邊界過(guò)平滑現(xiàn)象,使深度圖表述更準(zhǔn)確。本文方法與其他先進(jìn)方法相比,實(shí)現(xiàn)了相當(dāng)或更好地重建結(jié)果,同時(shí)更加高效和節(jié)省內(nèi)存消耗。實(shí)驗(yàn)證明,本文方法在DTU數(shù)據(jù)集上有效地提高了重建場(chǎng)景的完整性,特別的,其顯存消耗只有R-MVSNet的60%,并能擴(kuò)展到Blended_MVS數(shù)據(jù)集與自采樣數(shù)據(jù)集上,有很強(qiáng)的通用性。
本文網(wǎng)絡(luò)的不足之處為運(yùn)行時(shí)間較長(zhǎng),當(dāng)數(shù)據(jù)量龐大時(shí)無(wú)法實(shí)時(shí)運(yùn)行。因此接下來(lái)的研究方向?yàn)榻Y(jié)合多階段思想加速深度圖的生成。
[1] SCH?NBERGER J, ZHENG E, FRAHM J. Pixelwise view selection for unstructured multi-view stereo[C]//European Conference on Computer Vision. Cham: Springer International Publishin, 2016: 501-518.
[2] CAMPBELL N, VOGIATZIS G, HERNáNDEZ C. Using multiple hypotheses to improve depth-maps for multi-view stereo[C]//European Conference on Computer Vision. Heidelbeg: Springer, 2008: 766-779.
[3] FURUKAWA Y, PONCE J. Accurate, dense, and robust multiview stereopsis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 32(8): 1362-1376.
[4] BARNES C, SHECHTMAN E, FINKELSTEIN A, et al. PatchMatch: a randomized correspondence algorithm for structural image editing[J]. ACM Transactions on Graphics, 2009, 28(3): 24l.
[5] FLYNN J, NEULANDER I, PHILBIN J. Deepstereo: Learning to predict new views from the world's imagery[C]// The IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 5515-5524.
[6] JI M, GALL J, ZHENG H, et al. Surfacenet: an end-to-end 3d neural network for multiview stereopsis[C]//The IEEE International Conference on Computer Vision. New York: IEEE Press, 2017: 2307-2315.
[7] HUANG P, MATZEN K, KOPF J. Deepmvs: learning multi-view stereopsis[C]//The IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 2821-2830.
[8] IM S, JEON H, LIN S, et al. Dpsnet: end-to-end deep plane sweep stereo[EB/OL]. [2022-02-10]. https://arxiv.org/pdf/ 1905.00538.pdf.
[9] CHEN R, HAN S, XU J, et al. Point-based multi-view stereo network[C]//The IEEE/CVF International Conference on Computer Vision. New York: IEEE Press, 2019: 1538-1547.
[10] LUO K, GUAN T, JU L, et al. P-mvsnet: learning patch-wise matching confidence aggregation for multi-view stereo[C]//The IEEE/CVF International Conference on Computer Vision. New York: IEEE Press, 2019: 10452-10461.
[11] SCH?NBERGER J L, FRAHM J M. Structure-from-motion revisited[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 4104-4113.
[12] KUTULAKOS K, SEITZ S. A theory of shape by space carving[J]. International Journal of Computer Vision, 2000, 38(3): 199-218.
[13] SEITZ S, DYER C. Photorealistic scene reconstruction by voxel coloring[J]. International Journal of Computer Vision, 1999, 35(2): 151-173.
[14] LHUILLIER M, QUAN L. A quasi-dense approach to surface reconstruction from uncalibrated images[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(3): 418-433.
[15] GALLIANI S, LASINGER K, SCHINDLER K. Massively parallel multiview stereopsis by surface normal diffusion[C]// 2015 IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 873-881.
[16] YAO Y, LUO Z X, LI S W, et al. MVSNet: depth inference for unstructured multi-view stereo[M]//Computer Vision - ECCV 2018. Cham: Springer International Publishing, 2018: 785-801.
[17] YAO Y, LUO Z X, LI S W, et al. Recurrent MVSNet for high-resolution multi-view stereo depth inference[C]//The IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 5520-5529.
[18] HUANG B, YI H, HUANG C, et al. M3VSNet: Unsupervised multi-metric multi-view stereo network[C]//2021 IEEE International Conference on Image Processing. New York: IEEE Press, 2021: 3163-3167.
[19] YU Z, GAO S. Fast-mvsnet: sparse-to-dense multi-view stereo with learned propagation and Gauss-Newton refinement[C]// The IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 1949-1958.
[20] COLLINS R T. A space-sweep approach to true multi-image matching[C]//The CVPR IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 1996: 358-363.
[21] GU X, FAN Z, ZHU S, et al. Cascade cost volume for high-resolution multi-view stereo and stereo matching[C]//The IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 2495-2504.
[22] YU A Z, GUO W Y, LIU B, et al. Attention aware cost volume pyramid based multi-view stereo network for 3D reconstruction[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2021, 175: 448-460.
[23] ZHANG J, YAO Y, LI S, et al. Visibility-aware multi-view stereo network[EB/OL]. [2022-02-10]. https://arxiv.org/pdf/ 2008.07928.pdf.
[24] YAN J F, WEI Z Z, YI H W, et al. Dense hybrid recurrent multi-view stereo net with dynamic consistency checking[M]// Computer Vision - ECCV 2020. Cham: Springer International Publishing, 2020: 674-689.
[25] SHI X J, CHEN Z R, WANG H, et al. Convolutional LSTM network: a machine learning approach for precipitation nowcasting[EB/OL]. [2022-02-10]. https://arxiv.org/pdf/1506. 04214.pdf.
[26] AAN?S H, JENSEN R R, VOGIATZIS G, et al. Large-scale data for multiple-view stereopsis[J]. International Journal of Computer Vision, 2016, 120(2): 153-168.
[27] YAO Y, LUO Z X, LI S W, et al. BlendedMVS: a large-scale dataset for generalized multi-view stereo networks[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 1787-1796.
Dense point cloud reconstruction network using multi-scale feature recursive convolution
WANG Jiang-an, PANG Da-wei, HUANG Le, QING Lin-zhen
(School of Information Engineering, Chang’an University, Xi’an Shaanxi 710064, China)
In the task of 3D reconstruction, it is difficult to deal with the traditional multi view stereo algorithm because of the large photometric consistency measurement error in the weak texture region. To solve this problem, a recursive convolution network of multi-scale feature aggregation was proposed, named MARDC-MVSNet (multi-scale aggregation recursive multi view stereo net with dynamic consistency), which was utilized for dense point cloud reconstruction in weak texture areas. In order to boost the resolution of the input image, this method used a lightweight multi-scale aggregation module to adaptively extract image features, thereby addressing the problem of weak texture or even no texture region. In terms of cost volume regularization, a hierarchical processing network with recursive structure was used to replace the traditional 3D CNN (convolutional neural networks), greatly reducing the occupation of video memory and realizing high-resolution reconstruction at the same time. A depth residual network module was added at the end of the network to optimize the initial depth map generated by the regularized network under the guidance of the original image, so as to produce more accurate expressions of the depth map. The experimental results show that excellent results were achieved on the DTU data set. The proposed network can not only achieve high accuracy in depth map estimation, but also save hardware resources, and it can be extended to aerial images for practical engineering.
deep learning; computer vision; remote sensing mapping; 3D reconstruction; multi view stereo; recurrent neural network
TP 391
10.11996/JG.j.2095-302X.2022050875
A
2095-302X(2022)05-0875-09
2022-04-15;
2022-06-29
15 April,2022;
29 June,2022
國(guó)家自然科學(xué)基金面上項(xiàng)目(61771075);陜西省自然科學(xué)基金項(xiàng)目(2017JQ6048);廣西精密導(dǎo)航技術(shù)與應(yīng)用重點(diǎn)實(shí)驗(yàn)室項(xiàng)目(DH201711)
National Natural Science Foundation of China (61771075); Natural Science Foundation of Shaanxi Province (2017JQ6048); Guangxi Key Laboratory of Precision Navigation Technology and Application, Guilin University of Electronic Technology (DH201711)
王江安(1981-),男,副教授,博士。主要研究方向?yàn)橛?jì)算機(jī)視覺(jué)與三維建模。E-mail:wangjiangan@126.com
WANG Jiang-an (1981-), associate professor, Ph.D. His main research interests cover computer vision and 3D modeling. E-mail:wangjiangan@126.com