基于編解碼卷積神經(jīng)網(wǎng)絡(luò)的單張圖像深度估計(jì)

2019-09-09 03:21:54賈瑞明劉立強(qiáng)劉圣杰崔家禮

圖學(xué)學(xué)報(bào) 2019年4期

賈瑞明，劉立強(qiáng)，劉圣杰，崔家禮

賈瑞明，劉立強(qiáng)，劉圣杰，崔家禮

(北方工業(yè)大學(xué)信息學(xué)院，北京 100144)

針對傳統(tǒng)方法在單目視覺圖像深度估計(jì)時(shí)存在魯棒性差、精度低等問題，提出一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的單張圖像深度估計(jì)方法。首先，提出層級融合編碼器-解碼器網(wǎng)絡(luò)，該網(wǎng)絡(luò)是對端到端的編碼器-解碼器網(wǎng)絡(luò)結(jié)構(gòu)的一種改進(jìn)。編碼器端引入層級融合模塊，并通過對多層級特征進(jìn)行融合，提升網(wǎng)絡(luò)對多尺度信息的利用率。其次，提出多感受野殘差模塊，其作為解碼器的主要組成部分，負(fù)責(zé)從高級語義信息中估計(jì)深度信息。同時(shí)，多感受野殘差模塊可靈活地調(diào)整網(wǎng)絡(luò)感受野大小，提高網(wǎng)絡(luò)對多尺度特征的提取能力。在NYUD v2數(shù)據(jù)集上完成網(wǎng)絡(luò)模型有效性驗(yàn)證。實(shí)驗(yàn)結(jié)果表明，與多尺度卷積神經(jīng)網(wǎng)絡(luò)相比，該方法在精度<1.25上提高約4.4%，在平均相對誤差指標(biāo)上降低約8.2%。證明其在單張圖像深度估計(jì)的可行性。

CNN；編碼器-解碼器；深度估計(jì)；單目視覺

隨著人工智能技術(shù)的快速發(fā)展，虛擬現(xiàn)實(shí)[1]和自動(dòng)駕駛[2]等技術(shù)對于三維重建需求巨大。準(zhǔn)確的深度信息對于重建三維場景具有重要意義，其廣泛應(yīng)用于語義分割[3-4]、目標(biāo)跟蹤[5-6]和機(jī)器人控制系統(tǒng)[7]等任務(wù)。工業(yè)界多使用激光雷達(dá)或激光掃描儀獲取深度圖。前者可用于動(dòng)態(tài)場景，但獲取的深度圖較為稀疏；后者獲取的深度圖稠密但成像耗時(shí)長，且一般用于靜態(tài)場景。同時(shí)兩者的成本較高，而單張圖像獲取成本較低。因此，研究通過單張圖像進(jìn)行深度估計(jì)具有較大的實(shí)用價(jià)值。然而，由于單張圖像本身存在信息缺失，使用單張圖像進(jìn)行深度估計(jì)屬于病態(tài)問題，具有較大的挑戰(zhàn)。

傳統(tǒng)圖像估計(jì)深度的方法多基于雙目視覺系統(tǒng)，其精度易受視差圖質(zhì)量的影響。實(shí)際場景中，受光照條件、圖像紋理分布及觀測視角的影響，難以獲取高質(zhì)量的視差圖。因此，研究者們提出了多種算法用于獲取較高質(zhì)量的視差圖[8-10]。然而，單目視覺算法著重解決如何估計(jì)物體間的相對位置關(guān)系。通過單張圖像恢復(fù)深度的原理包括：①在實(shí)際場景中，物體間存在確定的相對關(guān)系及幾何結(jié)構(gòu)；②人的視覺形成過程中，可根據(jù)經(jīng)驗(yàn)知識推斷物體間的距離。與傳統(tǒng)方法相比，深度神經(jīng)網(wǎng)絡(luò)具備較強(qiáng)的擬合能力，在經(jīng)過大量訓(xùn)練后，可以擬合真實(shí)樣本分布。本文提出基于卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network, CNN)的單張圖像深度估計(jì)網(wǎng)絡(luò)：層級融合編碼器-解碼器網(wǎng)絡(luò)(fused-layers encoder-decoder network, FLEDNet)，具體貢獻(xiàn)如下：

(1) 編碼器端。提出層級融合模塊(fused-layers block, FLB)，該模塊提升編碼器網(wǎng)絡(luò)對多尺度特征的利用率。

(2)解碼器端。提出多感受野殘差模塊(multi-receptive field res-block, MRFRB)作為解碼器主要組成部分。相較于Inception-ResNet網(wǎng)絡(luò)[11]，MRFRB可靈活增加網(wǎng)絡(luò)的感受野，同時(shí)殘差結(jié)構(gòu)的引入改善了網(wǎng)絡(luò)在加深時(shí)梯度消失的問題。

1 相關(guān)工作

從圖像或視頻中估計(jì)深度信息一直以來是研究熱點(diǎn)，目前大量的研究工作多集中于基于深度神經(jīng)網(wǎng)絡(luò)與非深度神經(jīng)網(wǎng)絡(luò)方法的研究。

(1) 非深度神經(jīng)網(wǎng)絡(luò)方法。KARSCH等[12]提出基于最近鄰(k-nearest neighbor, kNN)的搜索方法，從RGBD數(shù)據(jù)庫中選取候選圖像，通過SIFT Flow算法[13]對深度信息進(jìn)行優(yōu)化，實(shí)現(xiàn)圖像深度估計(jì)。但該方法需要建立完善的數(shù)據(jù)庫，計(jì)算量較大，在實(shí)際應(yīng)用時(shí)局限性較大。TIAN等[14]基于馬氏距離(Mahalanobis distance)和高斯加權(quán)函數(shù)(Gaussian weighting function)的深度信息采樣方法，在Make3D數(shù)據(jù)集上取得較好的實(shí)驗(yàn)結(jié)果。HERRERA等[15]提出基于聚類的學(xué)習(xí)框架，通過在色彩空間分析結(jié)構(gòu)相似性以及使用kNN搜索算法從圖像中提取深度信息。LIU等[16]使用高階離散-連續(xù)的條件隨機(jī)場從單張圖像獲取深度。CHOI等[17]提出一種在梯度域建模的方法，是一種非參數(shù)模型。當(dāng)輸入圖像紋理分布重復(fù)時(shí)，該方法失效。本文采用的深度卷積神經(jīng)網(wǎng)絡(luò)對輸入圖像的紋理分布較為魯棒。

(2) 深度神經(jīng)網(wǎng)絡(luò)方法。其在計(jì)算機(jī)視覺任務(wù)中表現(xiàn)出色，文獻(xiàn)[18]提出多尺度CNN以及尺度不變的損失函數(shù)，實(shí)現(xiàn)對單張圖像的深度、表面法線和語義標(biāo)簽的估計(jì)，但圖像分辨率較低。文獻(xiàn)[19]使用多孔卷積神經(jīng)網(wǎng)絡(luò)(atrous convolution neural network, ACNN)與條件隨機(jī)場相結(jié)合的策略，獲得了較好的單張圖像深度估計(jì)效果。袁建中等[20]提出基于ResNet和DenseNet結(jié)合的深度卷積神經(jīng)網(wǎng)絡(luò)用于解決道路場景的單目視覺深度估計(jì)問題。JUNG等[21]使用條件生成對抗網(wǎng)絡(luò)(conditional generative adversarial network)實(shí)現(xiàn)單張圖像深度估計(jì)，采用基于編碼器-解碼器與精煉網(wǎng)絡(luò)(refinement network)相結(jié)合的生成器網(wǎng)絡(luò)，在客觀數(shù)據(jù)集上達(dá)到了較好的實(shí)驗(yàn)結(jié)果。LAINA等[22]使用殘差結(jié)構(gòu)設(shè)計(jì)網(wǎng)絡(luò)，并提出快速上卷積(up-convolution)網(wǎng)絡(luò)，在NYUD v2[23]上有優(yōu)異的表現(xiàn)。

2 深度估計(jì)網(wǎng)絡(luò)

使用CNN從單張圖像中估計(jì)深度信息屬于密集預(yù)測任務(wù)，編碼器-解碼器網(wǎng)絡(luò)廣泛應(yīng)用于密集預(yù)測任務(wù)中，例如語義分割[24]、圖像風(fēng)格轉(zhuǎn)換[25]等。本文對傳統(tǒng)編碼器-解碼器網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn)，提出端到端的FLEDNet。同時(shí)，針對深度預(yù)測問題，設(shè)計(jì)了MRFRB，進(jìn)一步提升網(wǎng)絡(luò)的深度信息預(yù)測能力。

2.1 層級融合編碼器-解碼器網(wǎng)絡(luò)結(jié)構(gòu)

針對單目視覺中，深度預(yù)測存在過程復(fù)雜、精度較低等問題，例如文獻(xiàn)[16,19]依賴條件隨機(jī)場對網(wǎng)絡(luò)輸出的深度圖進(jìn)行處理，以得到精度更高的深度圖。本文提出FLEDNet，其輸入為RGB彩色圖像，網(wǎng)絡(luò)直接輸出的是估計(jì)的深度圖，且無需任何后處理操作，實(shí)現(xiàn)了端到端的深度估計(jì)。本文采用監(jiān)督方式訓(xùn)練FLEDNet，使用與輸入圖像對應(yīng)的深度圖作為監(jiān)督信息，網(wǎng)絡(luò)學(xué)習(xí)從二維彩色圖像(RGB)到深度圖的映射關(guān)系，完成密集預(yù)測任務(wù)。FLEDNet包括編碼器網(wǎng)絡(luò)、層級融合模塊和解碼器網(wǎng)絡(luò)3個(gè)部分，如圖1所示。

圖1 FLEDNet網(wǎng)絡(luò)結(jié)構(gòu)圖

(1) 編碼器網(wǎng)絡(luò)(encoder network)。ResNet[26]廣泛用于密集預(yù)測任務(wù)中的基礎(chǔ)網(wǎng)絡(luò)，文獻(xiàn)[22]提出基于ResNet的深度估計(jì)網(wǎng)絡(luò)，取得了較好的效果。因此，F(xiàn)LEDNet編碼器網(wǎng)絡(luò)采用ResNet-50，對輸入的彩色圖像進(jìn)行特征提取，但保留ResNet-50至block4(level-1)。同時(shí)，為利用不同尺度的特征圖，從ResNet-50中引出block4(level-1)和block3(level-2)的輸出作為層級融合模塊的輸入。

(2) 層級融合模塊(fused-layers block, FLB)。傳統(tǒng)編碼器-解碼器網(wǎng)絡(luò)結(jié)構(gòu)中，僅使用編碼器的最后一層輸出作為解碼器的輸入，該方式缺乏對多層級特征的利用?？紤]到不同層級的特征圖差異，例如，特征的抽象程度和特征圖的空間分辨率，本文提出層級融合模塊，以解決不同尺度特征的融合問題。

(3) 解碼器網(wǎng)絡(luò)(decoder network)。本文使用4個(gè)MRFRB和1個(gè)3×3卷積層構(gòu)建解碼器網(wǎng)絡(luò)。MRFRB負(fù)責(zé)對編碼器輸出的特征圖進(jìn)行解碼，每級MRFRB對輸入特征圖的寬高放大2倍。MRFRB-4輸出特征圖的空間分辨率較大，若繼續(xù)使用MRFRB對特征圖放大至輸出尺寸，會大幅增加網(wǎng)絡(luò)參數(shù)量且消耗大量的計(jì)算資源。因此，借鑒文獻(xiàn)[27]的設(shè)計(jì)，本文在MRFRB-4后采用卷積核大小為3×3，步長為1的卷積層將輸出特征圖通道降為1，并采用雙線性插值操作，將特征圖放大至輸出尺寸，以適應(yīng)網(wǎng)絡(luò)輸出。

2.2 層級融合模塊

隨著網(wǎng)絡(luò)的加深，編碼器網(wǎng)絡(luò)提取特征信息的抽象層次不斷提高，特征圖的空間分辨率不斷縮小，但通道數(shù)較多，特征圖含有更多的高級語義信息。多尺度思想廣泛應(yīng)用于語義分割、目標(biāo)檢測的任務(wù)中。本文提出的層級融合模塊(圖2)通過對不同層級的特征圖進(jìn)行融合，實(shí)現(xiàn)了多尺度思想，經(jīng)實(shí)驗(yàn)驗(yàn)證，提升了網(wǎng)絡(luò)深度估計(jì)的精度。

圖2 層級融合模塊結(jié)構(gòu)示意圖

FLB包括尺度調(diào)整、拼接層(concatenate)、dropout和1×1卷積層4個(gè)部分。其中，尺度調(diào)整用于將不同分辨率的輸入統(tǒng)一至相同尺寸，以便進(jìn)行拼接操作。例如，圖1需通過使用步長為2的均值池化將level-2 (15×19)降至level-1 (8×10)的大小，以實(shí)現(xiàn)不同層級特征在通道維度上的拼接操作。實(shí)驗(yàn)中發(fā)現(xiàn)直接使用拼接不同層級得到的特征進(jìn)行解碼會造成網(wǎng)絡(luò)收斂過慢，訓(xùn)練難的問題。因此，加入dropout操作，對拼接后的特征進(jìn)行隨機(jī)丟失操作(設(shè)dropout失活率為0.2)，再使用1×1卷積降低通道數(shù)，以加速網(wǎng)絡(luò)訓(xùn)練。

2.3 多感受野殘差模塊

考慮到編碼器網(wǎng)絡(luò)ResNet可通過最大值池化操作不斷縮減特征圖大小，即從多個(gè)尺度對輸入圖像進(jìn)行特征提取，獲得高級語義信息。因此，解碼器網(wǎng)絡(luò)應(yīng)設(shè)計(jì)具有多個(gè)感受野的卷積層，以從不同尺度對高級語義信息進(jìn)行解碼。如何設(shè)計(jì)具有多感受野的網(wǎng)絡(luò)結(jié)構(gòu)成為研究重點(diǎn)。受Inception-ResNet啟發(fā)，本文提出MRFRB，其作為FLEDNet解碼器的主要組成部分，包括：縮減模塊和多感受野模塊2部分，如圖3所示。

(1) 縮減模塊。該模塊的主要功能是放大特征圖并降低通道數(shù)。編碼器輸出帶有高級語義信息的特征圖，其具有空間分辨率較小但通道數(shù)較大的特點(diǎn)。例如，圖1中，ResNet-50中block4 (level-1)輸出特征圖的大小為8×10 (高×寬)，但通道數(shù)高達(dá)2 048。與編碼過程不同，解碼操作需要不斷放大特征圖尺寸且減小通道數(shù)，本文采用雙線性插值方法放大特征圖，通過卷積層來降低通道數(shù)。考慮到隨著網(wǎng)絡(luò)加深，梯度易消失的問題，該模塊采用殘差結(jié)構(gòu)。其中，2個(gè)3×3卷積層對輸入特征圖進(jìn)行信息提取并降低通道數(shù)。在跳躍卷積連接上的1×1卷積層可負(fù)責(zé)調(diào)整特征圖的通道數(shù)，以使其輸出的通道數(shù)與3×3卷積層輸出的特征圖通道數(shù)一致。

圖3 多感受野殘差模塊結(jié)構(gòu)圖

(2) 多感受野模塊。該模塊主要負(fù)責(zé)從高級語義信息中解碼深度信息。人類的視覺系統(tǒng)中，估計(jì)深度信息并不僅僅只關(guān)注局部場景，通常需要使用場景中的參照物來估計(jì)距離。因此，設(shè)計(jì)具有多種感受野的解碼器模塊是能否較好地重建深度信息的關(guān)鍵?？s減模塊中的結(jié)構(gòu)具備一定的特征映射能力，但僅使用3×3卷積層，其感受野有限。Inception-ResNet中，Inception模塊中使用了多種卷積，例如，卷積核大小為3×3、5×5、7×7等卷積層以使得網(wǎng)絡(luò)具有多種感受野，提升特征提取的能力。其使用的大尺寸卷積核，例如盡管5×5卷積層可拆分為1×5和5×1卷積層進(jìn)行等效，但參數(shù)量仍然較大，特別是當(dāng)模塊數(shù)量增多時(shí)，網(wǎng)絡(luò)參數(shù)量巨大。故多感受野模塊中，使用不同膨脹率(dilation rate)的空洞卷積(atrous convolution)[28]實(shí)現(xiàn)多感受野功能。空洞卷積優(yōu)勢包括：①可通過設(shè)置膨脹率，靈活的控制感受野大小；②同等大小的感受野條件下，相較于傳統(tǒng)卷積，空洞卷積參數(shù)量大幅下降。多感受野模塊中，使用了2個(gè)卷積核為3×3且有填充的空洞卷積，膨脹率=2時(shí)，空洞卷積可提供7×7的感受野；=4的空洞卷積可提供15×15的感受野。隨著網(wǎng)絡(luò)層數(shù)的增多，網(wǎng)絡(luò)的表達(dá)能力隨之提升，但易產(chǎn)生梯度消失現(xiàn)象，網(wǎng)絡(luò)訓(xùn)練較為困難，故在多感受野模塊中，加入了殘差結(jié)構(gòu)。為盡量避免卷積層對梯度傳播的影響，多感受野中的跳躍連接中未使用1×1卷積，輸入的特征圖以恒等映射的方式與卷積層輸出構(gòu)成殘差結(jié)構(gòu)。多感受野殘差模塊中的卷積層均使用ReLU作為激活函數(shù)。

3 實(shí)驗(yàn)結(jié)果及分析

為驗(yàn)證FLEDNet及深度感知損失函數(shù)的有效性，本文使用公開數(shù)據(jù)集NYUD v2作為評估數(shù)據(jù)集。評估本文方法的性能。

3.1 實(shí)驗(yàn)設(shè)置及評價(jià)指標(biāo)

本文實(shí)驗(yàn)環(huán)境為E5-2620 v4 處理器、NVIDIA Titan XP和16 GB內(nèi)存。使用Tensorflow作為網(wǎng)絡(luò)訓(xùn)練平臺，Adam作為優(yōu)化器，設(shè)初始學(xué)習(xí)率為0.001，batch size設(shè)置為16。本文使用準(zhǔn)確率、平均相對誤差、對數(shù)平均誤差和均方根誤差等指標(biāo)評估方法的有效性，各指標(biāo)表達(dá)式為：

其中，為真實(shí)的深度值；為預(yù)測的深度值。

3.2 NYUD v2數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

表1 不同深度估計(jì)方法對比

(注：表現(xiàn)最好的指標(biāo)均加粗)

本文提出的方法在大部分指標(biāo)上均優(yōu)于文獻(xiàn)[12]、文獻(xiàn)[16]和文獻(xiàn)[18]的方法。與文獻(xiàn)[18]方法相比，本文方法在<1.25指標(biāo)上高了約4%，在平均相對誤差(Abs rel)指標(biāo)上高了約8%。另外，在<1.25指標(biāo)上比文獻(xiàn)[19]的方法高了約14%，且其方法需要CRF對CNN的輸出做后處理，而本文不需要任何后處理步驟即可達(dá)到較好的深度估計(jì)效果。

從圖4可以看出，文獻(xiàn)[18]提出的方法在部分區(qū)域的深度預(yù)測結(jié)果誤差較大。例如，圖4第4行矩形框“1”標(biāo)出的區(qū)域與真實(shí)深度值差異較大；本文的預(yù)測結(jié)果(矩形框“2”標(biāo)出的區(qū)域)與真實(shí)深度值較為接近。表明本文方法具有一定的有效性。

(a) 彩色輸入圖像(b) 文獻(xiàn)[18] 結(jié)果(c) 本文結(jié)果(d) 真實(shí) 深度

3.3 層級融合模塊實(shí)驗(yàn)結(jié)果

FLB通過對不同抽象層級的特征圖進(jìn)行融合，使得解碼器可利用具有多抽象層次的信息。為驗(yàn)證不同層級對網(wǎng)絡(luò)性能的影響，需研究如何使用各層級特征，表2給出了層級組合與網(wǎng)絡(luò)性能的實(shí)驗(yàn)結(jié)果。

表2 不同層級的網(wǎng)絡(luò)性能指標(biāo)

其中，“層級-1”表示FLB的輸入只有ResNet50的block4(對應(yīng)圖1中的level-1)；“層級-1,2”包括ResNet50的block4和block3(分別對應(yīng)圖1中的level-1和level-2)；“層級-1,2,3”包括ResNet50的block4、 block3和block2(分別對應(yīng)圖1中的level-1、 level-2和level-3)。網(wǎng)絡(luò)均使用FLEDNet，損失函數(shù)為L1，其他實(shí)驗(yàn)超參數(shù)均一致。

圖5給出不同層級組合對準(zhǔn)確率的影響，其中“l(fā)evel-1”，“l(fā)evel-1,2”和“l(fā)evel-1,2,3”分別對應(yīng)表2中的“層級-1”、“層級-1,2”和“層級-1,2,3”。

結(jié)合表2及圖5可知，層級組合“l(fā)evel-1,2”表現(xiàn)最好。原因?yàn)椋孩賹蛹壗M合“l(fā)evel-1”僅使用ResNet50 block4的輸出，尺度單一，且特征的抽象層次單一；②層級組合“l(fā)evel-1,2,3”利用ResNet50的3個(gè)輸出，F(xiàn)LB的輸出包括多尺度信息及不同抽象程度高級語義信息，有利于解碼器恢復(fù)深度信息。

理論上，“l(fā)evel-1,2,3”性能應(yīng)超過層級組合“l(fā)evel-1,2”，但實(shí)驗(yàn)發(fā)現(xiàn)，其參數(shù)量比“l(fā)evel-1,2”高5.2% (表3)，表明“l(fā)evel-1,2,3”的網(wǎng)絡(luò)更難訓(xùn)練。因此，層級組合“l(fā)evel-1,2”不僅利用了多尺度信息且易于網(wǎng)絡(luò)訓(xùn)練，故本文選擇該層級組合作為層級模塊的輸入方式。

表3 不同層級組合的網(wǎng)絡(luò)模型參數(shù)量

3.4 多感受野殘差網(wǎng)絡(luò)結(jié)構(gòu)實(shí)驗(yàn)結(jié)果

3.4.1 MRFRB有效性驗(yàn)證

MRFRB作為解碼器網(wǎng)絡(luò)的核心組成部分，其性能直接影響輸出結(jié)果的精度。本文分別使用反卷積deconv和文獻(xiàn)[22]的up-Projection模塊替換圖1中的MRFRB，驗(yàn)證不同解碼模塊對網(wǎng)絡(luò)造成的影響。其中，up-Projection模塊結(jié)構(gòu)如圖6所示。

圖6 up-Projection結(jié)構(gòu)示意圖

實(shí)驗(yàn)中，本文使用卷積核大小為3×3，步長為2的轉(zhuǎn)置卷積實(shí)現(xiàn)反卷積deconv，損失函數(shù)使用L1。對比表4結(jié)果可知，本文提出的MRFRB模塊在準(zhǔn)確率和誤差指標(biāo)上均優(yōu)于deconv和up-Projection[22]。原因如下：①M(fèi)RFRB模塊的多感受野設(shè)計(jì)有利于解碼器網(wǎng)絡(luò)從不同尺度恢復(fù)深度信息；②MRFRB使用空洞卷積，在相同感受野條件下，具有參數(shù)量小，易于訓(xùn)練的優(yōu)點(diǎn)。

表4 不同解碼器模塊的實(shí)驗(yàn)結(jié)果

3.4.2 縮減模塊實(shí)驗(yàn)

在MRFRB中，縮減模塊負(fù)責(zé)提升特征圖空間分辨率并降低通道數(shù)。該模塊結(jié)構(gòu)類似于殘差結(jié)構(gòu)，但因需調(diào)整通道數(shù)，跳躍連接中加入了一層卷積，稱為跳躍卷積連接。為研究其對深度估計(jì)結(jié)果的影響，去掉該模塊中的跳躍卷積連接，網(wǎng)絡(luò)命名為FLEDNet-no-scc。實(shí)驗(yàn)結(jié)果見表5。

表5 Reduction模塊實(shí)驗(yàn)結(jié)果

根據(jù)表5實(shí)驗(yàn)數(shù)據(jù)可知，若去掉跳躍卷積連接，則FLEDNet效果下降較大，表明其設(shè)計(jì)有利于提高網(wǎng)絡(luò)對特征的利用率，同時(shí)可增強(qiáng)梯度的傳播，有利于網(wǎng)絡(luò)訓(xùn)練。

4 結(jié) 論

本文針對單目視覺深度估計(jì)問題提出一種基于編解碼結(jié)構(gòu)的FLEDNet模型：編碼器端引入層級融合模塊，該模塊對來自不同層級的編碼器輸出進(jìn)行特征融合，并作為解碼器的輸入，提高網(wǎng)絡(luò)對多尺度特征信息的利用率。提出MRFRB，以構(gòu)建解碼器網(wǎng)絡(luò)，使得網(wǎng)絡(luò)“關(guān)注”的區(qū)域大小多樣化，有利于提升精度。同時(shí)，殘差結(jié)構(gòu)的設(shè)計(jì)避免網(wǎng)絡(luò)加深時(shí)，梯度消失問題，有利于網(wǎng)絡(luò)訓(xùn)練。本文網(wǎng)絡(luò)模型以ResNet50為編碼器的主干網(wǎng)絡(luò)，通過FLB利用其多個(gè)層級輸出。解碼器直接輸出預(yù)測的深度圖，實(shí)現(xiàn)了端到端的深度估計(jì)。與文獻(xiàn)[19]等基于CRF做后處理的方法相比，本文方法無需任何后處理。實(shí)驗(yàn)結(jié)果表明，在NYUD v2數(shù)據(jù)集上，相較于多尺度卷積神經(jīng)網(wǎng)絡(luò)，本文提出的方法在精度<1.25上提高約4.4%；在平均相對誤差指標(biāo)上降低約8.2%。下一步將嘗試對網(wǎng)絡(luò)訓(xùn)練的損失函數(shù)進(jìn)行改進(jìn)，以提升深度估計(jì)的精度。

[1] 劉源, 陳杰, 龔國成, 等. 常用三維重建技術(shù)研究[J]. 電子技術(shù)與軟件工程, 2018(11): 86-88.

[2] 葉語同, 李必軍, 付黎明. 智能駕駛中點(diǎn)云目標(biāo)快速檢測與跟蹤[J]. 武漢大學(xué)學(xué)報(bào):信息科學(xué)版, 2019, 44(1): 139-144, 152.

[3] QI X J, LIAO R J, JIA J Y, et al. 3D graph neural networks for RGBD semantic segmentation [C]//2017 IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2017: 5209-5218.

[4] GHAFARIANZADEH M, BLASCHKO M B, SIBLEY G. Efficient, dense, object-based segmentation from RGBD video [C]//2016 IEEE International Conference on Robotics and Automation (ICRA). New York: IEEE Press, 2016: 2310-2317.

[5] KIM J S. Object detection using RGBD data for interactive robotic manipulation [C]//2014 11th International Conference on Ubiquitous Robots and Ambient Intelligence (URAI). New York: IEEE Press, 2014: 339-343.

[6] LIN D H, FIDLER S, URTASUN R. Holistic scene understanding for 3D object detection with RGBD cameras [C]//2013 IEEE International Conference on Computer Vision. New York: IEEE Press, 2013: 1417-1424.

[7] TUBMAN R, POTGIETER J, ARIF K M. Efficient robotic SLAM by fusion of RatSLAM and RGBD-SLAM [C]//2016 23rd International Conference on Mechatronics and Machine Vision in Practice (M2VIP). New York: IEEE Press, 2016: 1-6.

[8] ZAGORUYKO S, KOMODAKIS N. Learning to compare image patches via convolutional neural networks [C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 4353-4361.

[9] ?BONTAR J, LECUN Y. Computing the stereo matching cost with a convolutional neural network [C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 1592-1599.

[10] LUO W J, SCHWING A G, URTASUN R. Efficient deep learning for stereo matching [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 5695-5703.

[11] SZEGEDY C, IOFFE S, VANHOUCKE V, et al. Inception-v4, Inception-ResNet and the impact of residual connections on learning [EB/OL].[2019-02-03]. https://arxiv.org/abs/1602.07261.

[12] KARSCH K, LIU C, KANG S B. Depth transfer: Depth extraction from video using non-parametric sampling [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(11): 2144-2158.

[13] LIU C, YUEN J, TORRALBA A. SIFT flow: Dense correspondence across scenes and its applications [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(5): 978-994.

[14] TIAN H, ZHUANG B J, HUA Y, et al. Depth extraction from a single image by sampling based on distance metric learning [C]//2014 IEEE International Conference on Image Processing (ICIP). New York: IEEE Press, 2015: 2017-202.

[15] HERRERA J L, DEL-BLANCO C R, GARCIA N. Automatic depth extraction from 2D images using a cluster-based learning framework [J]. IEEE Transactions on Image Processing, 2018, 27(7): 3288-3299.

[16] LIU M M, SALZMANN M, HE X M. Discrete-continuous depth estimation from a single image [C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2014: 716-723.

[17] CHOI S, MIN D B, HAM B, et al. Depth analogy: Data-driven approach for single image depth estimation using gradient samples [J]. IEEE Transactions on Image Processing, 2015, 24(12): 5953-5966.

[18] EIGEN D, FERGUS R. Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture [C]//2015 IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2015: 2650-2658.

[19] 廖斌, 李浩文.基于多孔卷積神經(jīng)網(wǎng)絡(luò)的圖像深度估計(jì)模型[J/OL].計(jì)算機(jī)應(yīng)用, 2018: 1-10. [2019-02-03]. http://kns.cnki.net/kcms/detail/51.1307.TP.20180926.1508.004.html.

[20] 袁建中, 周武杰, 潘婷, 等.基于深度卷積神經(jīng)網(wǎng)絡(luò)的道路場景深度估計(jì)[J/OL].激光與光電子學(xué)進(jìn)展, 2018: 1-17. [2019-02-03]. http://kns.cnki.net/KCMS/detail/31.1690.TN.20181203.1637.048.html.

[21] JUNG H, KIM Y, MIN D B, et al. Depth prediction from a single image with conditional adversarial networks [C]//2017 IEEE International Conference on Image Processing (ICIP). New York: IEEE Press, 2017: 1717-1721.

[22] LAINA I, RUPPRECHT C, BELAGIANNIS V, et al. Deeper depth prediction with fully convolutional residual networks [C]//2016 Fourth International Conference on 3D Vision (3DV). New York: IEEE Press, 2016: 239-248.

[23] SILBERMAN N, HOIEM D, KOHLI P, et al. Indoor segmentation and support inference from RGBD images [M]//Computer Vision – ECCV 2012. Heidelberg: Springer, 2012: 746-760.

[24] RONNEBERGER O, FISCHER P, BROX T. U-net: Convolutional networks for biomedical image segmentation [M]//Lecture Notes in Computer Science. Cham: Springer International Publishing, 2015: 234-241.

[25] ISOLA P, ZHU J Y, ZHOU T, et al. Image-to-image translation with conditional adversarial networks [EB/OL]. [2019-02-03]. https://arxiv.org/abs/1611.07004.

[26] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 770-778.

[27] MA F C, KARAMAN S. Sparse-to-dense: Depth prediction from sparse depth samples and a single image [C]//2018 IEEE International Conference on Robotics and Automation (ICRA)New York: IEEE Press, 2018:1-8.

[28] CHEN L C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image segmentation [EB/OL]. [2019-02-03]. https://arxiv. org/abs/1706.05587.

[29] ZHUO W, SALZMANN M, HE X M, et al. Indoor scene structure analysis for single image depth estimation [C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)New York: IEEE Press, 2015: 614-622.

[30] EIGEN D, PUHRSCH C, FERGUS R. Depth map prediction from a single image using a multi-scale deep network [EB/OL]. [2019-02-03]. https://arxiv.org/ abs/1406.2283.

[31] LIU F Y, SHEN C H, LIN G S, et al. Learning depth from single monocular images using deep convolutional neural fields [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(10): 2024-2039.

Single Image Depth Estimation Based on Encoder-Decoder Convolution Neural Network

JIA Rui-ming, LIU Li-qiang, LIU Sheng-jie, CUI Jia-li

(School of Information Science and Technology, North China University of Technology, Beijing 100144, China)

Focusing on the poor robustness and lower accuracy in traditional methods of estimating depth in monocular vision, a method based on convolution neural network (CNN) is proposed for predicting depth from a single image. At first, fused-layers encoder-decoder network is presented. This network is an improvement of the end-to-end encoder-decoder network structure. Fused-layers block is added to encoder network, and the network utilization of multi-scale information is improved by this block with fusing multi-layers feature. Then, a multi-receptive field res-block is proposed, which is the main component of the decoder and used for estimating depth from high-level semantic information. Meanwhile, the network capacity of multi-scale feature extraction is enhanced because the size of receptive field is flexible to change in multi-receptive field res-block. The validation of proposed network is conducted on NYUD v2 dataset, and compared with multi-scale convolution neural network, experimental results show that the accuracy of proposed method is improved by about 4.4% in<1.25 and average relative error is reduced by about 8.2%. The feasibility of proposed method in estimating depth from a single image is proved.

CNN; encoder-decoder; depth estimation; monocular vision

TP 391

10.11996/JG.j.2095-302X.2019040718

2095-302X(2019)04-0718-07

2019-02-14；

定稿日期：2019-03-18

北京市教委面上基金(KM201510009005)；北方工業(yè)大學(xué)學(xué)生科技活動(dòng)項(xiàng)目(110051360007)

賈瑞明(1978-)，男，北京人，助研，博士，碩士生導(dǎo)師。主要研究方向?yàn)閳D像處理與智能識別等。E-mail：jiaruiming@ncut.edu.cn

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于編解碼卷積神經(jīng)網(wǎng)絡(luò)的單張圖像深度估計(jì)

1 相關(guān)工作

2 深度估計(jì)網(wǎng)絡(luò)

2.1 層級融合編碼器-解碼器網(wǎng)絡(luò)結(jié)構(gòu)

2.2 層級融合模塊

2.3 多感受野殘差模塊

3 實(shí)驗(yàn)結(jié)果及分析

3.1 實(shí)驗(yàn)設(shè)置及評價(jià)指標(biāo)

3.2 NYUD v2數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

3.3 層級融合模塊實(shí)驗(yàn)結(jié)果

3.4 多感受野殘差網(wǎng)絡(luò)結(jié)構(gòu)實(shí)驗(yàn)結(jié)果

4 結(jié) 論