梁?煜,張金銘,張?為
一種改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)的室內(nèi)深度估計(jì)方法
梁?煜,張金銘,張?為
(天津大學(xué)微電子學(xué)院,天津 300072)
針對(duì)單幅圖像的室內(nèi)深度估計(jì)缺少顯著局部或全局特征問(wèn)題,提出了一種基于多種網(wǎng)絡(luò)(全卷積網(wǎng)絡(luò)分別與通道注意力網(wǎng)絡(luò)、殘差網(wǎng)絡(luò)結(jié)合)構(gòu)成的編碼器解碼器結(jié)構(gòu).該網(wǎng)絡(luò)采用端到端的學(xué)習(xí)框架.首先使用全卷積網(wǎng)絡(luò)與通道注意力網(wǎng)絡(luò)結(jié)合的全卷積通道注意力網(wǎng)絡(luò)模塊作為編碼器,通過(guò)信道信息獲取全局感受野,提高特征圖精度,并適當(dāng)?shù)貙⑷B接層改為卷積層以達(dá)到減少網(wǎng)絡(luò)參數(shù)的目的.然后將全卷積網(wǎng)絡(luò)與殘差網(wǎng)絡(luò)結(jié)合構(gòu)成的上采樣模塊作為解碼器,利用ResNet的特點(diǎn)——跳層連接,將解碼器網(wǎng)絡(luò)加深,提高深度圖的精度,將卷積網(wǎng)絡(luò)與殘差網(wǎng)絡(luò)結(jié)合,實(shí)現(xiàn)端對(duì)端,并減少網(wǎng)絡(luò)運(yùn)行所用時(shí)間.最后,使用1損失函數(shù)優(yōu)化模型.在公開(kāi)數(shù)據(jù)集NYU Depth v2的測(cè)試下,實(shí)驗(yàn)結(jié)果表明,和現(xiàn)有的其他單目深度估計(jì)方法相比,本文所提出的網(wǎng)絡(luò)模型不僅精簡(jiǎn)了繁瑣的精化粗圖的過(guò)程,而且所預(yù)測(cè)的深度圖精度更高,閾值精度的提升不少于0.5%,運(yùn)行網(wǎng)絡(luò)結(jié)構(gòu)的平均用時(shí)21ms,為實(shí)現(xiàn)實(shí)時(shí)性奠定了基礎(chǔ),具有一定的理論研究?jī)r(jià)值和實(shí)際應(yīng)用價(jià)值.
機(jī)器視覺(jué);卷積神經(jīng)網(wǎng)絡(luò);室內(nèi)深度估計(jì);單目圖像;深度學(xué)習(xí)
在計(jì)算機(jī)視覺(jué)領(lǐng)域中,二維圖像的深度估計(jì)是場(chǎng)景理解與重建至關(guān)重要的一步,而且在面對(duì)某些深度不可測(cè)的情況下,深度估計(jì)有著重要的研究意義.早期的工作重點(diǎn)是通過(guò)開(kāi)發(fā)幾何約束的算法,從立體圖像中估計(jì)深度,這些算法依靠圖像和三角測(cè)量之間的點(diǎn)的對(duì)應(yīng)關(guān)系來(lái)估計(jì)深度.在單視圖情況下,大多數(shù)方法依賴于運(yùn)動(dòng)或不同的拍攝條件(不同的拍攝角度等).盡管缺乏幾何約束這類信息會(huì)導(dǎo)致深度圖產(chǎn)生一定的模糊度,但受人類單眼對(duì)深度感知的類比啟發(fā),對(duì)單個(gè)RGB圖像的深度圖預(yù)測(cè)也進(jìn)行了研究.
近年來(lái),深度學(xué)習(xí)在圖像領(lǐng)域上的成功應(yīng)用,使得人們開(kāi)始研究并提出大量用于深度估計(jì)的網(wǎng)絡(luò)結(jié)構(gòu),從一定程度上解決了單目深度估計(jì)的問(wèn)題.但是,由于神經(jīng)網(wǎng)絡(luò)中的一系列下采樣操作,導(dǎo)致深度圖的分辨率比輸入圖的分辨率低很多,現(xiàn)今大部分的研究致力于解決該問(wèn)題.如:2016年Laina等[1]提出一個(gè)新的上采樣模塊——up-projection,可以使高級(jí)特征信息在網(wǎng)絡(luò)中更有效率地傳播.2017年Dharmasiri?等[2]使用聯(lián)合學(xué)習(xí),通過(guò)一個(gè)簡(jiǎn)單的網(wǎng)絡(luò),同時(shí)學(xué)習(xí)3種不同的變量(深度,表面法向量,語(yǔ)義標(biāo)簽)也得到了不錯(cuò)的效果.2018年Fu等[3]為了減少網(wǎng)絡(luò)訓(xùn)練、節(jié)約計(jì)算空間,引入了一個(gè)新的網(wǎng)絡(luò)結(jié)構(gòu)——空洞卷積,避免了冗余的下采樣,并且在不用跳層連接的前提下,捕獲了多尺度信息,將深度估計(jì)的精確度推向新高.
此外,越來(lái)越多的深度卷積網(wǎng)絡(luò)被提出并用于深度估計(jì).全卷積網(wǎng)絡(luò)[4]早先應(yīng)用在語(yǔ)義分割領(lǐng)域,用卷積層代替?zhèn)鹘y(tǒng)卷積網(wǎng)絡(luò)中的全連接層,可以令參數(shù)數(shù)量急劇下降,降低大量的計(jì)算內(nèi)存,而且全卷積網(wǎng)絡(luò)可以接收任意尺寸的輸入圖像,并統(tǒng)一輸出經(jīng)過(guò)下采樣的特征圖,實(shí)現(xiàn)端對(duì)端的傳輸方式.目前全卷積網(wǎng)絡(luò)也應(yīng)用于一些深度估計(jì)的網(wǎng)絡(luò)上.ResNet是由He等[5]首次提出.他們?cè)谘芯恐蟹治瞿P退p、梯度消失的原因,引入了跳層,該層繞過(guò)兩個(gè)或多個(gè)卷積,然后對(duì)通過(guò)跳層和卷積的結(jié)果求和輸出.按照這種設(shè)計(jì),可以避免模型退化或梯度消失的情況,創(chuàng)建更深層的網(wǎng)絡(luò).另外,最新實(shí)驗(yàn)研究表明[6],SENet通過(guò)將“注意力”學(xué)習(xí)機(jī)制集成到神經(jīng)網(wǎng)絡(luò)中,可以得到不錯(cuò)的增強(qiáng)特征的效果,改善特征圖的質(zhì)量,有助于恢復(fù)信息并捕獲特征間的空間相關(guān)性.在神經(jīng)網(wǎng)絡(luò)的每一個(gè)卷積層中,大量的卷積核會(huì)表現(xiàn)出相鄰空間的連接屬性,沿著輸入通道,并在局部的感受野中,融合空間與通道的像素信息.
同戶外場(chǎng)景相比,室內(nèi)場(chǎng)景通常缺少顯著的局部或全局視覺(jué)特征,但是深度估計(jì)標(biāo)簽又具有信息密度大、細(xì)節(jié)繁雜等問(wèn)題,因此,本文針對(duì)以上兩個(gè)問(wèn)題設(shè)計(jì)了一種網(wǎng)絡(luò)模型,將三者——全卷積網(wǎng)絡(luò)、SENet、ResNet,結(jié)合在一起搭建本文所使用的網(wǎng)絡(luò),主要包含3個(gè)過(guò)程:①設(shè)計(jì)一種端對(duì)端的網(wǎng)絡(luò)結(jié)構(gòu),融合全卷積網(wǎng)絡(luò)、SENet和ResNet 3種網(wǎng)絡(luò),充分利用3種網(wǎng)絡(luò)的優(yōu)越性實(shí)現(xiàn)深度估計(jì);②使用由全卷積通道注意力網(wǎng)絡(luò)(fully convolutional squeeze-and-excitation networks,F(xiàn)CSE)構(gòu)成的FCSE_block模塊作為編碼器,目的在于增強(qiáng)網(wǎng)絡(luò)提取室內(nèi)場(chǎng)景特征的能力,改善特征圖的質(zhì)量;③將全卷積殘差網(wǎng)絡(luò)(fully convolutional residual networks,F(xiàn)CRN)構(gòu)成的Trans模塊作為解碼器,將下采樣后的特征圖進(jìn)行上采樣,輸出成原始圖像尺寸大小的深度預(yù)測(cè)圖,減少深度估計(jì)原本需要的巨大參數(shù)量.本文通過(guò)結(jié)合3種網(wǎng)絡(luò),發(fā)揮三者的優(yōu)勢(shì),提高深度估計(jì)圖的精確度.
為捕獲更多的全局信息,幾乎所有的深度網(wǎng)絡(luò)模型都是通過(guò)大量的普通卷積和池化操作來(lái)實(shí)現(xiàn)收斂,賦予高級(jí)神經(jīng)元更大的感受野,但這樣同時(shí)會(huì)使輸入圖的分辨率降低.而深度估計(jì)是一個(gè)回歸問(wèn)題,此類問(wèn)題的期望輸出是高分辨率的圖像.因此,經(jīng)過(guò)一系列下采樣操作后得到的特征圖必須是高質(zhì)量的高分辨率圖像,故筆者將全卷積網(wǎng)絡(luò)融入到SENet[6]中,在訓(xùn)練網(wǎng)絡(luò)的過(guò)程中,進(jìn)行特征重標(biāo)定,通過(guò)這一過(guò)程,學(xué)習(xí)全局信息,并且重點(diǎn)學(xué)習(xí)信息比較豐富的特征區(qū)域.同時(shí),為了得到高分辨率的深度圖,上采樣也是個(gè)重要的過(guò)程,本文利用FCRN設(shè)計(jì)了Trans上采樣模塊,使用深度卷積網(wǎng)絡(luò),提高深度估計(jì)的精度.
本文所提出的網(wǎng)絡(luò)結(jié)構(gòu),如圖1所示,圖中Conv表示卷積層,Down表示下采樣卷積層,F(xiàn)CSE1、FCSE2、FCSE3、FCSE4分別表示提取特征層1、提取特征層2、提取特征層3、提取特征層4,Trans表示FCRN上采樣模塊,⊕表示連接層.采用端到端的學(xué)習(xí)方式,該框架學(xué)習(xí)從彩色圖像到相應(yīng)深度圖像的直接映射,采用編碼器-解碼器結(jié)構(gòu)(encoder-decoder)的網(wǎng)絡(luò)框架.encoder部分采用10個(gè)FCSE_block模塊(即圖1中的FCSE)和卷積層Conv以及Down1、Down2、Down3、Down4.decoder部分采用4個(gè)Trans上采樣模塊.Conv1包含一個(gè)尺寸為7×7、步長(zhǎng)為2的卷積層,一個(gè)3×3的最大池化,一個(gè)Relu層. Down1、Down2、Down3、Down4和Conv2中的是??3×3、步長(zhǎng)為1的卷積層,同時(shí)Conv2又包含一個(gè)Relu層.首先將輸入圖像送入一個(gè)卷積層,和一個(gè)最大池化層,特征圖尺寸變?yōu)?6×57×64.受文獻(xiàn)[1]中up-projection模塊結(jié)構(gòu)的啟發(fā),將下采樣模塊的結(jié)構(gòu)設(shè)計(jì)為Down1、FCSE1(FCSE_block×2)、Down2、FCSE2(FCSE_block×3)、Down3、FCSE3(FCSE_ block×4)、Down4、FCSE4(FCSE_block×1).FCSE_ block×2是指將特征圖依次傳入2個(gè)FCSE_block模塊(如圖2所示),F(xiàn)CSE1、FCSE2、FCSE3、FCSE4同理.各層輸出參數(shù)如表1所示.本文所提出的深度模型中,所有的卷積層之后均連接著批量正則化層(batch normalization,BN層),文中為了簡(jiǎn)化而忽略.
圖1?網(wǎng)絡(luò)結(jié)構(gòu)
圖2?FCSE_block模塊結(jié)構(gòu)示意
表1?輸出特征圖的尺寸
Tab.1?Sizes of output features
深度神經(jīng)網(wǎng)絡(luò)中的每個(gè)卷積層含有大量的卷積核,會(huì)沿著輸入信道表現(xiàn)出相鄰空間的連接屬性,并在局部感受野中融合空間與信道的像素信息.通過(guò)使用非線性激活函數(shù)和下采樣操作等來(lái)連接一系列卷積層,獲得全局感受野,可以有效解決室內(nèi)場(chǎng)景缺乏顯著視覺(jué)特征的問(wèn)題.而普通的SENet模塊由于其是通過(guò)全連接層進(jìn)行降維,會(huì)大大提高輸入網(wǎng)絡(luò)參數(shù).故筆者在SENet模塊的基礎(chǔ)上,將其中的全連接層進(jìn)行適當(dāng)?shù)卣{(diào)整,合理地將卷積層替換全連接層,在提高特征圖質(zhì)量的同時(shí)減少訓(xùn)練所需的參數(shù)數(shù)量,實(shí)現(xiàn)端對(duì)端的學(xué)習(xí)方式.因此,本文設(shè)計(jì)了一個(gè)FCSE_block模塊,如圖2所示,在此結(jié)構(gòu)中,全部使用卷積網(wǎng)絡(luò),所以該模塊最后得到的是特征圖而非固定長(zhǎng)度的特征向量,從而實(shí)現(xiàn)端對(duì)端.
采用第2個(gè)步驟激勵(lì)操作ex,以便利用壓縮后的信息,這一操作目的是獲取全部的信道依賴關(guān)系.要想實(shí)現(xiàn)這一目標(biāo),本文選用的函數(shù)必須具備兩個(gè)特性:靈活性和學(xué)習(xí)非互斥的能力,因?yàn)楸仨毚_保多個(gè)信道均被強(qiáng)化.為了滿足這些要求,本文在此選用一個(gè)簡(jiǎn)單的門(mén)函數(shù)以實(shí)現(xiàn)激勵(lì)過(guò)程:
當(dāng)卷積網(wǎng)絡(luò)應(yīng)用于深度估計(jì)課題時(shí),特征圖像一定會(huì)通過(guò)上采樣操作,如果僅使用簡(jiǎn)單的上采樣模塊,如雙線性插值,又會(huì)丟失很多信息.為了改善這一情況,卷積神經(jīng)網(wǎng)絡(luò)的深度是至關(guān)重要的.大量的研究工作表明,VGG-16網(wǎng)絡(luò)比較淺層的AlexNet的性能更為優(yōu)越.但是,簡(jiǎn)單地疊加更多的層數(shù),會(huì)出現(xiàn)梯度消失等嚴(yán)重問(wèn)題,妨礙訓(xùn)練時(shí)的收斂.而ResNet通過(guò)引入跳層連接,解決了這一問(wèn)題.深度殘差網(wǎng)絡(luò)不是直接地學(xué)習(xí)一些堆積層的底層映射,而是學(xué)習(xí)殘差映射,這樣原始映射可以通過(guò)具有“跳層連接”的前饋神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn).另外,為了實(shí)現(xiàn)數(shù)據(jù)端對(duì)端的傳輸,接收任意尺寸的特征圖像,以及提高室內(nèi)深度估計(jì)的精度,故將全卷積網(wǎng)絡(luò)與ResNet的跳層有機(jī)結(jié)合,用卷積層代替全連接層,在加深網(wǎng)絡(luò)的同時(shí),減少網(wǎng)絡(luò)模型運(yùn)行的時(shí)間,實(shí)現(xiàn)端到端的學(xué)習(xí)方式.因此本文使用FCRN構(gòu)成Trans上采樣模塊,恢復(fù)特征圖的信息.
從Trans1模塊開(kāi)始,就是本文網(wǎng)絡(luò)的解碼器部分.除了最后的卷積層Conv2(一個(gè)3×3的卷積層),其他所有在解碼器中的都是殘差層.前4層Trans1、Trans2、Trans3、Trans4中,第1層Trans1上采樣模塊對(duì)特征圖以因數(shù)2進(jìn)行上采樣,將特征圖的長(zhǎng)和寬增加2倍.在解碼器中上采樣塊Trans1有2個(gè)連續(xù)的卷積層用于殘差計(jì)算,如圖3(a)所示,其中,卷積[(3×3),1,*1]是指卷積核為3×3、步長(zhǎng)為1、特征信道變?yōu)樵瓉?lái)的1/2.Trans2以因數(shù)4進(jìn)行上采樣,有4個(gè)連續(xù)的卷積層用于殘差計(jì)算,將特征圖的長(zhǎng)和寬增加4倍,特征信道變?yōu)樵瓉?lái)的1/4. Trans3、Trans4同理.定義為
(a)Trans1模塊
(b)Trans2、Trans3、Trans4模塊
圖3?Trans上采樣模塊結(jié)構(gòu)示意
Fig.3?Diagram of the Trans module
在回歸問(wèn)題上,一般用于優(yōu)化訓(xùn)練效果的標(biāo)準(zhǔn)損失函數(shù)有3種:均方誤差函數(shù)2(mean square error,MSE)、BerHu[7]函數(shù)、平均絕對(duì)值誤差函數(shù)1(mean absolute error,MAE).一般默認(rèn)選擇2函數(shù)作為回歸問(wèn)題的優(yōu)化函數(shù),因?yàn)?對(duì)訓(xùn)練數(shù)據(jù)的異常值十分敏感,而且其懲罰體制比其他兩種更為嚴(yán)格.但筆者經(jīng)過(guò)大量實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示,發(fā)現(xiàn)使用1函數(shù)作為損失函數(shù),所產(chǎn)生的最終結(jié)果比其他兩種更好,故選擇1函數(shù)作為本文的默認(rèn)損失函數(shù).
表2?損失函數(shù)對(duì)比實(shí)驗(yàn)的深度估計(jì)結(jié)果
Tab.2?Depth estimation results of the loss function comparison experiment
本文的結(jié)果評(píng)估是基于最大RGB-D數(shù)據(jù)集之一的NYU Depth v2[8]數(shù)據(jù)集,該數(shù)據(jù)多用于室內(nèi)深度估計(jì),由于室內(nèi)場(chǎng)景缺乏顯著的局部和全局視覺(jué)特征,而且室內(nèi)場(chǎng)景標(biāo)簽密集復(fù)雜.故而模型中使用了使用FCSE提取室內(nèi)場(chǎng)景特征,卷積網(wǎng)絡(luò)與ResNet進(jìn)行了降低參數(shù),提高精度處理.本文采用官方訓(xùn)測(cè)比,共464個(gè)場(chǎng)景,將249個(gè)場(chǎng)景用于訓(xùn)練,215個(gè)用于測(cè)試,并隨機(jī)選擇圖像以減少同一場(chǎng)景的圖像相似性.本文先對(duì)原始尺寸為640×480的圖像進(jìn)行下采樣,大小為304×228.訓(xùn)練時(shí),使用795對(duì)訓(xùn)練圖像,將深度圖下采樣至適合輸出的尺寸.測(cè)試時(shí),使用654對(duì)圖像.在前人的研究[9]中,數(shù)據(jù)增強(qiáng)有助于提高精度,同時(shí)可以避免過(guò)擬合.因此,本文使用相同的方法增加訓(xùn)練數(shù)據(jù)多樣性:水平翻轉(zhuǎn)、平面旋轉(zhuǎn)、顏色抖動(dòng)(亮度、對(duì)比度、飽和度).
本文對(duì)深度學(xué)習(xí)模型的訓(xùn)練與測(cè)試實(shí)驗(yàn)都是基于pytorch環(huán)境,在一個(gè)具備12GB的TITAN Xp GPU的計(jì)算機(jī)上完成的,批尺寸為16,訓(xùn)練60代.網(wǎng)絡(luò)的訓(xùn)練是基于RGB的輸入,用對(duì)應(yīng)的Ground Truth深度進(jìn)行訓(xùn)練.下采樣部分的權(quán)重是由ResNet-50模型初始化的,新增加的上采樣部分的層經(jīng)初始化為從具有零均值和0.01方差的正態(tài)分布中采樣的隨機(jī)濾波器,每層的學(xué)習(xí)速率為0.001,隨著代的疊加,學(xué)習(xí)速率會(huì)逐漸減小,直到最優(yōu)解出現(xiàn),沖量為0.9.
本文將預(yù)測(cè)深度圖與Ground Truth(原圖的深度標(biāo)簽)作對(duì)比,參照文獻(xiàn)[10]使用4個(gè)評(píng)價(jià)指標(biāo)比較提出的算法與現(xiàn)有方法的精度:平均相對(duì)誤差、平均對(duì)數(shù)誤差、均方根誤差和閾值精度threshold(<1.25、<1.252、<1.253).閾值精度公式為
表3將本文提出的方法與現(xiàn)有的方法在4個(gè)常用的評(píng)價(jià)標(biāo)準(zhǔn)上進(jìn)行了比較.由表3可知,對(duì)于室內(nèi)單目深度估計(jì)問(wèn)題,本文的網(wǎng)絡(luò)模型所計(jì)算出的精度相比于其他網(wǎng)絡(luò)模型的是有更大的提升.又對(duì)網(wǎng)絡(luò)結(jié)構(gòu)的運(yùn)行時(shí)間進(jìn)行了實(shí)驗(yàn),預(yù)測(cè)一張深度圖的平均用時(shí)為21ms,與近期文獻(xiàn)[1]相比具有明顯優(yōu)勢(shì).
表3?數(shù)據(jù)集NYU Depth v2的深度估計(jì)比較結(jié)果
Tab.3?Comparisons of different depth estimation methods on the NYU Depth v2 dataset
而且,通過(guò)消融實(shí)驗(yàn)的方法來(lái)論證所提出的FCSE_block和Trans模塊的優(yōu)勢(shì),為本文所提出的方法.先將4個(gè)常規(guī)的卷積層以及池化層和本文解碼器部分構(gòu)成的卷積神經(jīng)網(wǎng)絡(luò)稱為方法1,再將本文編碼器部分與4個(gè)普通的反卷積層組合一起的神經(jīng)網(wǎng)絡(luò)稱為方法2.表4為本文消融實(shí)驗(yàn)的結(jié)果.
表4?消融實(shí)驗(yàn)深度估計(jì)結(jié)果
Tab.4?Depth estimation results of the ablation experiments
將表4中本文方法的實(shí)驗(yàn)結(jié)果與方法1的實(shí)驗(yàn)結(jié)果進(jìn)行比較可得,在使用相同解碼器結(jié)構(gòu)的情況下,本文所使用的FCSE_block和Down作為編碼器的主體部分構(gòu)成的網(wǎng)絡(luò)的方法要優(yōu)于卷積層加最大池化的組合網(wǎng)絡(luò)的方法1.同樣地,將本文采用的方法與方法2的實(shí)驗(yàn)結(jié)果對(duì)比,可以發(fā)現(xiàn)在使用相同編碼器結(jié)構(gòu)的情況下,本文使用Trans作為解碼器的主體部分所構(gòu)成的卷積網(wǎng)絡(luò)的方法比僅僅使用雙線性插值作為上采樣的神經(jīng)網(wǎng)絡(luò)的方法2更優(yōu).實(shí)驗(yàn)結(jié)果如圖4所示.
圖4?NYU Depth v2數(shù)據(jù)的實(shí)驗(yàn)結(jié)果
本文針對(duì)室內(nèi)深度估計(jì)問(wèn)題,設(shè)計(jì)了一種端對(duì)端傳輸?shù)木W(wǎng)絡(luò)結(jié)構(gòu),將全卷積網(wǎng)絡(luò)與SENet結(jié)合作為網(wǎng)絡(luò)結(jié)構(gòu)的編碼器部分,該模塊主要使用特征信道信息,獲得全局感受野,提高了室內(nèi)場(chǎng)景特征圖的質(zhì)量;將由全卷積網(wǎng)絡(luò)與ResNet結(jié)合組成的Trans模塊作為解碼器部分,提高了網(wǎng)絡(luò)從特征圖恢復(fù)深度信息的能力,改善了前人研究中上采樣深度信息大量損失的情況,實(shí)現(xiàn)了端到端的數(shù)據(jù)傳輸方式,大大縮短模型運(yùn)行所需的時(shí)間;本文將3種網(wǎng)絡(luò)結(jié)合,不僅簡(jiǎn)化現(xiàn)有的網(wǎng)絡(luò)模型,減少繁瑣的精化粗深度圖的過(guò)程,而且實(shí)驗(yàn)結(jié)果表明,本文所提出的方法在NYU Depth v2數(shù)據(jù)集上取得了較為理想的效果.但仍有許多方面需要改進(jìn),如:設(shè)計(jì)一種網(wǎng)絡(luò)模型使其對(duì)室內(nèi)及戶外場(chǎng)景具有普適性,找出深度預(yù)測(cè)圖與深度之間的具體聯(lián)系;實(shí)現(xiàn)深度測(cè)量的實(shí)時(shí)性等.
[1] Laina I,Rupprecht C,Belagiannis V,et al. Deeper depth prediction with fully convolutional residual networks[C]// 2016 4th International Conference on 3D Vision. Stanford,CA,USA,2016:239-248.
[2] Dharmasiri T,Spek A,Drummond T. Joint prediction of depths,normals and surface curvature from RGB images using CNNs[C]// 2017 IEEE International Conference on Intelligent Robots and Systems. Vancouver,BC,Canada,2017:1505-1512.
[3] Fu H,Gong M,Wang C H,et al. Deep ordinal regression network for monocular depth estimation[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City,UT,USA,2018:2002-2011.
[4] Shelhamer E,Long J,Darrell T. Fully convolutional networks for semantic segmentation[J]. IEEE Transac-tions on Pattern Analysis and Machine Intelligence,2017(39):640-651.
[5] He K M,Zhang X Y,Ren S Q,et al. Deep residual learning for image recognition[C]//2016 IEEE Confer-ence on Computer Vision & Pattern Recognition. Las Vegas,NV,USA,2016:770-778.
[6] Hu J,Shen L,Albanie S,et al. Squeeze-and-excitation networks[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City,UT,USA,2018:7132-7141.
[7] Owen A B. A robust hybrid of lasso and ridge regression[J]. Contemporary Mathematics,2007(443):59-71.
[8] Silberman N,Hoiem D,Kohli P,et al. Indoor segmentation and support inference from RGBD images[C]// 2012 IEEE European Conference on Computer Vision. Florence,Italy,2012:746-760.
[9] Eigen D,Puhrsch C,F(xiàn)ergus R. Depth map prediction from a single image using a multi-scale deep network [C]// 2014 Conference and Workshop on Neural Information Processing Systems. Montreal,Canada,2014:2366-2374.
[10] Hu J,Ozay M,Zhang Y,et al. Revisiting single image depth estimation:Toward higher resolution maps with accurate object boundaries[C]//. Waikoloa Village,HI,USA,2019:1043-1051.
[11] Liu F,Shen C,Lin G. Deep convolutional neural fields for depth estimation from a single image[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston,MA,USA,2015:5162-5170.
[12] Xu D,Ricci E,Ouyang W,et al. Multi-scale continuous crfs as sequential deep networks for monocular depth estimation[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu,HI,USA,2017:161-169.
[13] Zhang Z,Xu C,Yang J,Gao J,et al. Progressive hard-mining network for monocular depth estimation [J],IEEE Transactions on Image Processing,2018,27(8):3691-3702.
[14] Liu J,Wang Y,Li Y,et al. Collaborative deconvolutional neural networks for joint depth estimation and semantic segmentation[J]. IEEE Transactions on Neural Networks and Learning Systems,2018,29(11):5655-5666.
An Improved Indoor Depth Estimation Method Using Convolutional Neural Networks
Liang Yu,Zhang Jinming,Zhang Wei
(School of Microelectronics,Tianjin University,Tianjin 300072,China)
There exists a general lack of significant local or global features for the indoor depth estimation of a single image. To address this,an encoder-decoder structure based on multiple networks(full convolutional networks (FCN),SENet and ResNet)was proposed. This network adopted an end-to-end learning framework to construct the model. First,the fully convolutional squeeze-and-excitation net(FCSE_block)module,consisting of the fully con-volutional networks and SENet,was used as the encoder. The global receptive field was obtained by channel informa-tion to improve accuracy of the feature map,and the fully connected layers were replaced by the convolutional layers to reduce the network parameters. Then the up-sampling module composed of fully convolutional networks and Res-Net was used as the decoder. The decoder network was deepened,and accuracy of the depth map was improved using ResNet’s characteristic,skip-connection. The convolutional network and ResNet were combined to realize an end-to-end learning framework. Finally,the1loss function was used to optimize the proposed network architecture. Under the test of the open data set NYU Depth v2,the experimental results showed that,compared with other existing mo-nocular depth estimation methods,the proposed network model not only simplified the tedious process of refinement of rough maps,but also had higher accuracy in predicting depth maps. The improvement in threshold accuracy was not less than 0.5%. Moreover,the average running time of the network structure was 21ms,which laid the founda-tion for realizing real-time performance and had certain theoretical research and practical application value.
computer vision;convolutional neural network;indoor depth estimation;monocular image;deep learning
the National Key Research and Development Program(No.2018YFC0807605-4).
TP391
A
0493-2137(2020)08-0840-07
10.11784/tdxbz201906008
2019-06-04;
2019-08-12.
梁?煜(1975—??),男,博士,副教授,liangyu@tju.edu.cn.Email:m_bigm@tju.edu.cn
張?為,tjuzhangwei@tju.edu.cn.
國(guó)家重點(diǎn)研發(fā)計(jì)劃資助項(xiàng)目(2018YFC0807605-4).
(責(zé)任編輯:王曉燕)