劉鵬 王建龍 竇新宇
摘? 要:針對(duì)基于編解碼結(jié)構(gòu)的單目深度估計(jì)網(wǎng)絡(luò)模型,對(duì)細(xì)粒度深度信息估計(jì)精度差和算力需求大的問(wèn)題,提出了一種聯(lián)合引導(dǎo)式深度圖像超分辨率的單目深度估計(jì)方法。該方法設(shè)計(jì)了一種基于選擇性特征融合的引導(dǎo)式深度圖像超分辨率網(wǎng)絡(luò)模型,并將其與單目深度估計(jì)網(wǎng)絡(luò)模型結(jié)合在一個(gè)監(jiān)督學(xué)習(xí)框架下估計(jì)深度。在NYU-Depth-V2數(shù)據(jù)集上,以三種單目深度估計(jì)網(wǎng)絡(luò)模型開展實(shí)驗(yàn),結(jié)果證明該方法具有更好的深度邊界預(yù)測(cè)效果和較低的算力消耗指標(biāo)。關(guān)鍵詞:?jiǎn)文可疃裙烙?jì);深度圖像超分辨;特征融合;編解碼結(jié)構(gòu)
中圖分類號(hào):TP391.4? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):2096-4706(2023)11-0011-04
Monocular Depth Estimation Method Combining Guided Depth Image Super-Resolution
LIU Peng, WANG Jianlong, DOU Xinyu
(Intelligence and Information Engineering College, Tangshan University, Tangshan? 063000, China)
Abstract: Aiming at the problem of poor fine-grained depth information estimation precision and high demand for computational power in monocular depth estimation network models based on encoder-decoder structure, a monocular depth estimation method combining guided depth image super-resolution is proposed. This method designs a guided depth image super-resolution network model based on selective feature fusion, and combines it with monocular depth estimation network model to estimate depth under a supervised learning framework. This paper performs experiments with three monocular depth estimation network models on NYU-Depth-V2 dataset, and the results prove that the method has a better depth boundary prediction effect and lower computational power consumption index.
Keywords: monocular depth estimation; depth image super-resolution; feature fusion; encoder-decoder structure
0? 引? 言
深度圖像每個(gè)像素點(diǎn)記錄著攝像機(jī)與場(chǎng)景中物體之間的距離信息,能夠準(zhǔn)確反映出場(chǎng)景三維空間結(jié)構(gòu)信息,在自動(dòng)駕駛、場(chǎng)景理解、三維重建等領(lǐng)域有著廣泛的應(yīng)用。從單幅RGB圖像中恢復(fù)深度圖像的單目深度估計(jì)方法,是移動(dòng)設(shè)備感知環(huán)境的主要手段之一,但單目深度估計(jì)病態(tài)性的本質(zhì)[1],使其一直是計(jì)算機(jī)視覺(jué)領(lǐng)域的難點(diǎn)課題。
目前效果較好的單目深度估計(jì)均采用的是基于深度學(xué)習(xí)的方法[2,3],從大量單幅RGB圖像到對(duì)應(yīng)視角的深度圖像的映射過(guò)程中提取深度線索,完成深度圖像的單目估計(jì)。其中,基于編解碼結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)是主流的設(shè)計(jì)模型。這類模型的設(shè)計(jì)思路是:編碼器基于圖像分類網(wǎng)絡(luò),通過(guò)在大型圖像分類庫(kù)(如ImageNet[4])上的預(yù)訓(xùn)練完成參數(shù)的初始化,在對(duì)輸入圖像進(jìn)行漸進(jìn)下采樣過(guò)程中,逐步增加感受野,將RGB圖像低級(jí)特征分組為抽象的高級(jí)特征;解碼器聚合來(lái)自編碼器的特征,并將其轉(zhuǎn)換為最終的深度估計(jì)。這類模型主要存在以下不足:1) 編碼器的下采樣操作,會(huì)帶來(lái)特征分辨率和粒度在模型的較深階段丟失。盡管各種深度學(xué)習(xí)方法(如跳躍連接[5]、多尺度特征提取[6,7]、注意機(jī)制[8-10]等)被融入到了解碼器的設(shè)計(jì)過(guò)程中,提高了特征的聚合質(zhì)量,但對(duì)深度圖像邊界輪廓等細(xì)粒度信息的預(yù)測(cè)仍不夠清晰。2)以更高分辨率的輸入數(shù)據(jù)集進(jìn)行訓(xùn)練和測(cè)試,可以減輕特征粒度損失[11,12],但更高分辨率的模型有著更高的硬件算力需求,這大大限制了此類模型的應(yīng)用場(chǎng)合。
與深度估計(jì)類似,引導(dǎo)式深度圖像超分辨也是針對(duì)深度圖像的重要計(jì)算機(jī)視覺(jué)任務(wù),受到了廣泛的研究。引導(dǎo)式深度圖像超分辨是提高深度圖像分辨率的重要途徑,通過(guò)將RGB圖像的特征信息有效融入深度圖像的超分辨過(guò)程,來(lái)引導(dǎo)深度圖像細(xì)粒度特征的修復(fù)。目前,基于深度學(xué)習(xí)的引導(dǎo)式深度圖像超分辨方法[13,14],能較好地實(shí)現(xiàn)深度圖像的高分辨率恢復(fù)。
針對(duì)基于編解碼結(jié)構(gòu)的單目深度估計(jì)網(wǎng)絡(luò)模型存在的不足之處,本文結(jié)合引導(dǎo)式深度圖像超分辨的技術(shù)特性,提出一種聯(lián)合引導(dǎo)式深度圖像超分辨的單目深度估計(jì)方法,對(duì)現(xiàn)有單目深度估計(jì)網(wǎng)絡(luò)模型進(jìn)行改進(jìn)。具體做法是:使現(xiàn)有單目深度估計(jì)網(wǎng)絡(luò)模型負(fù)責(zé)估計(jì)包含場(chǎng)景深度一致性結(jié)構(gòu)信息的低分辨率深度圖像;設(shè)計(jì)一種基于選擇性特征融合(Selective Feature Fusion)的引導(dǎo)式深度圖像超分辨網(wǎng)絡(luò)模型SFFNet,負(fù)責(zé)從RGB圖像中提取有效的高頻細(xì)節(jié)信息,以彌補(bǔ)深度圖像上采樣過(guò)程中的細(xì)粒度結(jié)構(gòu)損失;兩個(gè)網(wǎng)絡(luò)模型組合在一個(gè)監(jiān)督學(xué)習(xí)框架內(nèi),完成深度圖像的單目估計(jì)任務(wù),從而使單目深度估計(jì)具有細(xì)粒度估計(jì)效果的同時(shí),也具有較少的算力需求。
1? 相關(guān)工作
在單目深度估計(jì)研究領(lǐng)域,相比較傳統(tǒng)的環(huán)境假設(shè)法和機(jī)器學(xué)習(xí)法,深度學(xué)習(xí)方法因其強(qiáng)大的特征學(xué)習(xí)和映射能力,使得單目深度估計(jì)性能得到了大范圍的提升。
Eigen等[15]首次將CNN引入到深度圖像的單目估計(jì)任務(wù)中,該方法首先用CNN對(duì)場(chǎng)景全局深度信息進(jìn)行粗估計(jì),再對(duì)深度圖像局部信息進(jìn)行精估計(jì)。隨后,編解碼結(jié)構(gòu)的CNN模型成為主流的設(shè)計(jì)模型,例如,Zheng等[6]通過(guò)自定義的特征多尺度上卷積操作,將編碼器不同分辨率的層次化特征進(jìn)行有效整合,實(shí)現(xiàn)了編碼器特征從粗到精處理的映射;Chen等[7]用一種自適應(yīng)密集特征聚合模塊融合多尺度特征,實(shí)現(xiàn)了場(chǎng)景深度圖像結(jié)構(gòu)信息的有效推斷;Liu等[8]使用跳躍連接將卷積神經(jīng)網(wǎng)絡(luò)不同階段的相同分辨率特征進(jìn)行有效融合,提高了深度圖像邊緣細(xì)節(jié)的估計(jì)精度;Huynh等[9]引入非局部共平面性約束和非局部注意機(jī)制來(lái)提高深度圖像中平面結(jié)構(gòu)區(qū)域的估計(jì)效果;Lee等[10]在解碼器的每個(gè)階段特征的處理中,設(shè)計(jì)了一種局部平面約束的操作,提高了深度圖像的整體估計(jì)效果。
為了處理編碼器下采樣操作時(shí),深度特征分辨率和粒度丟失的問(wèn)題,Miangoleh[11]等設(shè)計(jì)了一種將多個(gè)分辨率深度預(yù)測(cè)結(jié)果進(jìn)行融合的機(jī)制。最近,各類視覺(jué)轉(zhuǎn)換器(Transformer)模型[16,17]也被應(yīng)用在單目深度估計(jì)任務(wù)中,通過(guò)RGB圖像分塊的方式,維持在較高分辨率下提取特征,進(jìn)一步提高了深度估計(jì)效果。以更高分辨率的輸入數(shù)據(jù)集進(jìn)行訓(xùn)練和測(cè)試,可以減輕特征粒度損失,但如何合理設(shè)計(jì)網(wǎng)絡(luò)模型,同時(shí)保證計(jì)算效率和預(yù)測(cè)精度,目前仍需進(jìn)一步的研究。
2? 方法設(shè)計(jì)
2.1? 網(wǎng)絡(luò)結(jié)構(gòu)
本文方法的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,包括單目深度估計(jì)和SFFNet兩個(gè)子網(wǎng)絡(luò)。對(duì)分辨率為W×H的RGB圖像,單目深度估計(jì)子網(wǎng)絡(luò)采用典型的單目深度估計(jì)模型結(jié)構(gòu),以降采樣后的RGB圖像為輸入,完成W/4×H/4分辨率深度圖像的估計(jì),此深度圖像為最終輸出的W×H分辨率深度圖像提供全局一致性結(jié)構(gòu)信息。設(shè)計(jì)的SFFNet以單目深度估計(jì)子網(wǎng)絡(luò)估計(jì)出的深度圖像和原始分辨率的RGB圖像為輸入,完成上采樣率為4的深度圖像重建。兩個(gè)子網(wǎng)絡(luò)相互配合,在一個(gè)監(jiān)督學(xué)習(xí)框架內(nèi)完成深度圖像的單目估計(jì)任務(wù)。
2.2? SFFNet子網(wǎng)絡(luò)模型
本文設(shè)計(jì)的SFFNet采用了漸進(jìn)式特征聚合的設(shè)計(jì)模式,結(jié)構(gòu)如圖1所示。首先,對(duì)深度圖像和RGB圖像進(jìn)行淺層特征提取,這里采用了兩個(gè)3×3卷積+ ReLU激活函數(shù)和一個(gè)1×1卷積+ ReLU激活函數(shù)串聯(lián)組合實(shí)現(xiàn)。然后,通過(guò)跨步卷積+ ReLU激活函數(shù)對(duì)RGB圖像的淺層特征進(jìn)行逐步下采樣操作。接著,在深度圖像逐步上采樣操作過(guò)程中,先通過(guò)一個(gè)選擇性特征融合模塊實(shí)現(xiàn)相同分辨率RGB圖像特征和深度圖像特征的融合,然后通過(guò)卷積+像素重組(Pixel Shuffle,PS)實(shí)現(xiàn)深度圖像的上采樣。最后,在到達(dá)目標(biāo)分辨率后,通過(guò)3×3卷積實(shí)現(xiàn)對(duì)深度圖像插值上采樣殘差的預(yù)測(cè)。
選擇性特征融合模塊結(jié)構(gòu)如圖2所示,模塊設(shè)計(jì)目的是通過(guò)特征空間域二維注意力圖的獲取,自適應(yīng)地完成RGB圖像特征和深度圖像特征的融合,達(dá)到細(xì)化特征處理以捕獲細(xì)粒度信息的目的。這里,將包含場(chǎng)景結(jié)構(gòu)上下文線索的深度圖像特征,稱為全局特征Fglobal;將可彌補(bǔ)深度圖像上采樣過(guò)程中邊界輪廓結(jié)構(gòu)損失的RGB圖像特征,稱為局部特征Flocal。對(duì)這些全局和局部特征,首先,通過(guò)1×1卷積操作將特征沿著信道維度合并起來(lái)。然后,通過(guò)兩個(gè)3×3卷積+批量歸一化(Batch Normalization, BN)+ReLU激活函數(shù)的操作,進(jìn)行合并特征的融合和約減。接著,通過(guò)3×3卷積和Sigmoid函數(shù)產(chǎn)生兩個(gè)空間域二維注意力圖,并將這兩個(gè)注意力圖與對(duì)應(yīng)的局部和全局特征相乘,以達(dá)到對(duì)特征的細(xì)化處理。最后,將這些細(xì)化后的特征按元素相加以構(gòu)建最后的融合特征。
2.3? 損失函數(shù)
本文網(wǎng)絡(luò)模型訓(xùn)練時(shí),總損失函數(shù)為單目深度估計(jì)訓(xùn)練損失LMDE和SFFNet訓(xùn)練損失LSFFNet的和,即L = LMDE + LSFFNet。其中,LMDE表示對(duì)應(yīng)方法中典型單目深度估計(jì)子網(wǎng)絡(luò)選擇的損失函數(shù),LSFFNet本文使用Charbonnier損失函數(shù)[18],計(jì)算方法如下:
式中,y*表示真實(shí)深度值,y表示重建深度值,n表示每個(gè)訓(xùn)練批次的總像素個(gè)數(shù),ε表示值為1×10-3的常數(shù)。
3? 實(shí)驗(yàn)過(guò)程與結(jié)果分析
3.1? 數(shù)據(jù)集
實(shí)驗(yàn)選擇NYU-Depth-V2數(shù)據(jù)集[19],進(jìn)行模型的訓(xùn)練和測(cè)試。按照單目深度估計(jì)通用的分類方式,使用249個(gè)場(chǎng)景,約5萬(wàn)組RGB-D圖像對(duì)用于網(wǎng)絡(luò)的訓(xùn)練;使用215個(gè)場(chǎng)景,約654組RGB-D圖像對(duì)用于網(wǎng)絡(luò)的測(cè)試。訓(xùn)練集和測(cè)試集均居中剪切為608×456,以去除圖像邊緣區(qū)域相對(duì)準(zhǔn)確率不高的深度值。
3.2? 實(shí)施細(xì)節(jié)
網(wǎng)絡(luò)的實(shí)現(xiàn)采用PyTorch深度學(xué)習(xí)框架。硬件平臺(tái)使用四個(gè)NVIDIA RTX 2080 Ti顯卡,實(shí)現(xiàn)高性能的GPU并行運(yùn)算。Adam梯度優(yōu)化算法作為網(wǎng)絡(luò)的優(yōu)化器,基本學(xué)習(xí)率設(shè)置為0.000 1,并且每5個(gè)周期降低10%,參數(shù)β1 = 0.9,β2 = 0.999,使用0.000 1的衰減率。網(wǎng)絡(luò)訓(xùn)練參數(shù)Batch的大小為16。各種對(duì)比網(wǎng)絡(luò)的訓(xùn)練次數(shù)均設(shè)置為30個(gè)Epoch。
3.3? 評(píng)估指標(biāo)
選用單目深度估計(jì)任務(wù)常用的誤差和精度評(píng)價(jià)指標(biāo),對(duì)模型進(jìn)行定量對(duì)比分析。評(píng)價(jià)指標(biāo)和對(duì)應(yīng)計(jì)算公式為:
1)均方根誤差(RMSE):
2)絕對(duì)相對(duì)差(Abs Rel):
3)均方對(duì)數(shù)誤差(Log10):
4)相對(duì)誤差在1.25k以內(nèi)的像素比例,其中
3.4? 實(shí)驗(yàn)結(jié)果
為了驗(yàn)證本文方法的通用性,選擇SARPN、JADN、BTS三種典型單目深度估計(jì)網(wǎng)絡(luò)模型為方法中的單目深度估計(jì)子網(wǎng)絡(luò)。因?yàn)镾ARPN和JADN的輸出分辨率是輸入分辨率的一半,因此圖1所示的本文方法對(duì)輸入RGB圖像進(jìn)行1/2降采樣,而BTS的輸入和輸出分辨率相同,因此圖1中使用的是1/4降采樣。三種網(wǎng)絡(luò)直接完成深度圖像的單目估計(jì)時(shí),各項(xiàng)指標(biāo)如表1的一、三、五行所示。將三種網(wǎng)絡(luò)分別聯(lián)合本文設(shè)計(jì)的SFFNet,進(jìn)行單目深度估計(jì),各項(xiàng)指標(biāo)如表1的二、四、六行所示。表1同時(shí)給出了模型參數(shù)及算力需求的變化情況。可見(jiàn),本文方法在保證三種典型模型獲得同等水平評(píng)價(jià)指標(biāo)的同時(shí),以非常小的參數(shù)代
價(jià)(0.6 M),大幅度降低了模型對(duì)算力的需求,對(duì)于性能指標(biāo)GFLOPS,SARPN降低了66.7%,JADN降低了48.1%,BTS降低了40.7%。
圖3顯示了以BTS為方法中的單目深度估計(jì)子網(wǎng)絡(luò)時(shí),加入SFFNet前后,對(duì)NYU-Depth-V2測(cè)試數(shù)據(jù)集不同場(chǎng)景的定性比較結(jié)果,這里選擇了廚房、臥室、餐廳三種典型應(yīng)用場(chǎng)景。通過(guò)對(duì)比可以發(fā)現(xiàn),用本文提出的方法改造后,對(duì)場(chǎng)景全局結(jié)構(gòu)深度信息的預(yù)測(cè)變化不大,但深度圖像具有更清晰的邊緣和更細(xì)節(jié)的信息,比如圖3深度圖像中框標(biāo)出的廚房置物架、臥室酒瓶、餐廳家居等部分。這表明了通過(guò)本方法對(duì)原有網(wǎng)絡(luò)模型的改進(jìn)后,深度圖像細(xì)粒度信息的預(yù)測(cè)效果得到了提升。
4? 結(jié)? 論
本文提出了一種聯(lián)合引導(dǎo)式深度圖像超分辨的單目深度估計(jì)方法。該方法將常用單目深度估計(jì)模型與設(shè)計(jì)的SFFNet網(wǎng)絡(luò)模型進(jìn)行合理結(jié)合,使常用的單目深度估計(jì)網(wǎng)絡(luò)模型推斷包含場(chǎng)景全局一致性結(jié)構(gòu)信息的低分辨率深度圖像,利用SFFNet將從RGB圖像中提取到的高頻細(xì)節(jié)信息補(bǔ)充到深度圖像的超分辨重建過(guò)程,兩個(gè)網(wǎng)絡(luò)在一個(gè)監(jiān)督學(xué)習(xí)框架下。實(shí)驗(yàn)結(jié)果表明,提出的方法可保證深度估計(jì)精度的情況下,有效提升細(xì)粒度信息的預(yù)測(cè)效果,并降低模型的硬件算力需求。
參考文獻(xiàn):
[1] HE L,WANG G,HU Z. Learning depth from single images with deep neural network embedding focal length [J]. IEEE Transactions on Image Processing,2018,9(27):4676-4689.
[2] 羅會(huì)蘭,周逸風(fēng).深度學(xué)習(xí)單目深度估計(jì)研究進(jìn)展 [J].中國(guó)圖象圖形學(xué)報(bào),2022,27(2):390-403.
[3] 江俊君,李震宇,劉賢明.基于深度學(xué)習(xí)的單目深度估計(jì)方法綜述 [J].計(jì)算機(jī)學(xué)報(bào),2022,45(6):1276-1307.
[4] DENG J,DONG W,SOCHER R,et al. ImageNet:A large-scale hierarchical image database [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Miami:IEEE,2009:248-255.
[5] CHEN T,AN S,ZHANG Y,et al. Improving monocular depth estimation by leveraging structural awareness and complementary datasets [C]//Proceedings of the European Conference on Computer Vision.Glasgow:IEEE,2020:90-108.
[6] ZHENG Z,XU C,YANG J,et al. Deep hierarchical guidance and regularization learning for end-to-end depth estimation [J].Pattern Recognition,2018,83:430-442.
[7] CHEN X,CHEN X,ZHA Z. Structure aware residual pyramid network for monocular depth estimation [C]//Proceedings of the International Joint Conference on Artificial Intelligence.Macao:AAAI Press,2019:694-700.
[8] LIU J,LI Q,CAO R,et al. A contextual conditional random field network for monocular depth estimation [J].Image and Vision Computing,2020,98:103922-103934.
[9] HUYNH L,NGUYEN-HA P,MATAS J,et al. Guiding monocular depth estimation using depth-attention volume [C]//Proceedings of the European Conference on Computer Vision.Glasgow:IEEE,2020:581-597.
[10] LEE J H,HAN M K,KO D W,et al. From big to small:multi-scale local planar guidance for monocular depth estimation [J/OL].arXiv:1907.10326 [cs.CV].(2021-08-23).https://arxiv.org/abs/1907.10326.
[11] MIANGOLEH S M,DILLE S,MAI L,et al. Boosting monocular depth estimation models to high-resolution via content-adaptive multi-resolution merging [C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Nashville:IEEE,2021:9685-9694.
[12] RANFTL R,BOCHKOVSKIY A,KOLTUN V. Vision transformers for dense prediction [C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV).Montreal:IEEE,2021:12159-12168.
[13] YE X,SUN B,WANG Z,et al. PMBANet:Progressive multi-branch aggregation network for scene depth super-resolution [J].IEEE Transactions on Image Processing,2020,29:7427-7442.
[14] LIU P,ZHANG Z,MENG Z,et al. PDR-Net:Progressive depth reconstruction network for color guided depth map super-resolution [J].Neurocomputing,2022,479:75-88.
[15] EIGEN D,PUHRSCH C,F(xiàn)ERGUS R. Depth map prediction from a single image using a multi-scale deep network [C]//Proceedings of the IEEE Conference and Workshop on Neural Information Processing Systems.Montreal:IEEE,2014:2366-2374.
[16] BHAT S F,ALHASHIM I,WONKA P. AdaBins:Depth estimation using adaptive bins [C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Nashville:IEEE,2021:4009-4018.
[17] PATIL V,SAKARIDIS C,LINIGER A,et al. P3Depth:Monocular depth estimation with a piecewise planarity prior [C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).New Orleans:IEEE,2022:1600-1611.
[18] BRUHN A,WEICKERT J,SCHNORR C. Combining local and global optic flow methods [J].International Journal of Computer Vision,2005,61(3):211-231.
[19] SILBERMANM N,HOIEM D,KOHLI D,et al. Indoor segmentation and support inference from RGBD images [C]//Proceedings of the European Conference on Computer Vision.Florence:Springer,2012:746-760.
作者簡(jiǎn)介:劉鵬(1982—),男,漢族,遼寧沈陽(yáng)人,講師,碩士,研究方向:深度學(xué)習(xí)、單目深度估計(jì);王建龍(1983—),男,漢族,河北唐山人,講師,碩士,研究方向:圖像處理、深度學(xué)習(xí);竇新宇(1983—),男,漢族,河北唐山人,副教授,博士,研究方向:深度學(xué)習(xí)。
收稿日期:2023-01-04
基金項(xiàng)目:唐山市市級(jí)科技計(jì)劃項(xiàng)目(22130205H)