亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于卷積神經(jīng)網(wǎng)絡(luò)的單目深度估計(jì)

2020-07-06 13:35:08王欣盛張桂玲

計(jì)算機(jī)工程與應(yīng)用 2020年13期

關(guān)鍵詞：視差空洞視圖

王欣盛，張桂玲

1.天津工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，天津 300387

2.天津市自主智能技術(shù)與系統(tǒng)重點(diǎn)實(shí)驗(yàn)室，天津 300387

1 引言

深度估計(jì)是計(jì)算機(jī)視覺中的一個(gè)重要課題。隨著人工智能技術(shù)的不斷發(fā)展，越來越多的智能產(chǎn)品逐漸問世。計(jì)算機(jī)科學(xué)、模式識別和智能控制技術(shù)的逐步發(fā)展和融合，能夠?qū)χ車h(huán)境進(jìn)行感知的技術(shù)和自主運(yùn)動(dòng)的技術(shù)也越發(fā)成熟。這些技術(shù)都離不開對圖像深度的估計(jì)，所以對圖像的深度估計(jì)在所有的自主導(dǎo)航技術(shù)中都有著寶貴的研究價(jià)值。

深度估計(jì)在無人駕駛汽車、機(jī)器人等領(lǐng)域中有著廣泛的應(yīng)用。深度估計(jì)在三維重建的課題中起著至關(guān)重要的作用，可以對現(xiàn)有的識別任務(wù)進(jìn)行改善，如3D 建模、機(jī)器人運(yùn)動(dòng)[1-2]等。在出現(xiàn)深度學(xué)習(xí)技術(shù)之前，若完成場景中的物體距離估計(jì)需要通過多個(gè)攝像頭和激光雷達(dá)等設(shè)備，設(shè)備昂貴且笨重。隨著深度學(xué)習(xí)技術(shù)的不斷更新，出現(xiàn)了越來越多的算法通過深度神經(jīng)網(wǎng)絡(luò)來完成圖像深度的估計(jì)，最新的研究已經(jīng)可以通過單目相機(jī)來完成深度估計(jì)，如Moukari 等人[3]在單目深度估計(jì)的方向中提供了有效的方法。但是如果將單目深度估計(jì)作為監(jiān)督回歸問題來解決，需要大量地面深度和場景中各個(gè)物體的具體距離，不僅步驟復(fù)雜，而且設(shè)備相當(dāng)昂貴，導(dǎo)致沒有足夠密集標(biāo)注深度信息的數(shù)據(jù)集。本文提出了一種無監(jiān)督的端到端網(wǎng)絡(luò)進(jìn)行深度估計(jì)，計(jì)算左右視圖差來對圖像進(jìn)行像素級的密集預(yù)測[4]，結(jié)合Deeplab[5]語義分割模型設(shè)計(jì)了一個(gè)全新的深度估計(jì)模型，通過對KITTI街道數(shù)據(jù)集進(jìn)行訓(xùn)練，可以對任意一張街道圖像進(jìn)行深度估計(jì)。優(yōu)點(diǎn)是預(yù)測深度只需一個(gè)攝像頭，不需要其他工具即可進(jìn)行密集估計(jì)，相比傳統(tǒng)方法方便快捷，在無人駕駛汽車以及機(jī)器人中有著更大的應(yīng)用空間。訓(xùn)練過程不需要任何深度數(shù)據(jù)，對左右圖像進(jìn)行擬合，利用計(jì)算左右視差的損失函數(shù)即可完成深度估計(jì)。模型中使用空洞卷積[6]增加增大感受野，從而減少圖像的下采樣程度，減少原始圖像中的信息損失，這也是在深度估計(jì)方向的研究中首次使用空洞卷積增加準(zhǔn)確率。其中難點(diǎn)有：（1）無監(jiān)督估計(jì)深度需要構(gòu)建合理的網(wǎng)絡(luò)模型，選取合適的參數(shù)，否則容易出現(xiàn)梯度消失或模型不收斂等情況。（2）通過左右視圖視差估計(jì)需要嚴(yán)謹(jǐn)?shù)膿p失函數(shù)來計(jì)算誤差。（3）最后輸出的深度圖盡可能清晰。

本文做出如下貢獻(xiàn)：

（1）提出一種新穎的深度估計(jì)網(wǎng)絡(luò)架構(gòu)，采用類似于DispNet[7]來進(jìn)行特征金字塔的提取，并與DeepLab相結(jié)合，執(zhí)行端到端的無監(jiān)督單目深度估計(jì)，根據(jù)左右圖像的差異來計(jì)算深度。

（2）采用編碼-解碼器結(jié)構(gòu)，在編碼器（表1）中添加語義分割層，采用多個(gè)空洞卷積并行來增大卷積核的感受野，從而減少了圖像縮小的程度，使生成的圖像更為清晰，可以顯示更遠(yuǎn)地方的物體。

2 深度估計(jì)研究現(xiàn)狀

雖然深度估計(jì)在計(jì)算機(jī)視覺中有著很長的研究時(shí)間，但是始終難以跨越檢測硬件昂貴、笨重，計(jì)算效果與效率的很難平衡。完成視覺導(dǎo)航任務(wù)的傳統(tǒng)方法通常是使用SLAM，原理是通過在梯度變化明顯的圖像區(qū)域中采樣像素來進(jìn)行直接稀疏視覺測距，但是難以擺脫測量過程復(fù)雜，在復(fù)雜環(huán)境無法測量，難以進(jìn)行密集測量等缺點(diǎn)。隨著深度學(xué)習(xí)技術(shù)的不斷成熟，不斷有更加高效的卷積神經(jīng)網(wǎng)絡(luò)提出，利用深度學(xué)習(xí)進(jìn)行深度估計(jì)的研究也越來越受到重視。文獻(xiàn)[8]提出了對光流預(yù)測的FlowNet框架，對深度估計(jì)的研究起到了重要作用，并得到顯著的效果。最新研究也有將SLAM 與深度學(xué)習(xí)進(jìn)行結(jié)合，如通過深度學(xué)習(xí)改進(jìn)傳統(tǒng)SLAM 中的漂移問題[9]，通過深度學(xué)習(xí)將SLAM 的稀疏預(yù)測轉(zhuǎn)化為稠密預(yù)測[10]等等。

表1 編碼器結(jié)構(gòu)詳情

本文介紹的方法通過左右視圖差進(jìn)行深度估計(jì)，不需要傳統(tǒng)SLAM 算法所需的設(shè)備。采用無監(jiān)督的訓(xùn)練方式，不需要大量密集標(biāo)注的數(shù)據(jù)集，便可以對圖像進(jìn)行像素級的密集預(yù)測，同時(shí)避免了在傳統(tǒng)的單目深度估計(jì)中，與相機(jī)共同運(yùn)動(dòng)的物體則顯示為無限遠(yuǎn)的情況。有一些現(xiàn)有方法也解決了同樣的問題，但有一些缺點(diǎn)。例如，圖像的形成模型不是完全可微分的，使得訓(xùn)練欠優(yōu)[11]，或者不能生成輸出最大分辨率的圖像[12]。

2.1 監(jiān)督單目深度估計(jì)

Kuznietsov等人[13]提出的帶有稀疏標(biāo)注的數(shù)據(jù)集進(jìn)行半監(jiān)督訓(xùn)練，在有標(biāo)注的地方進(jìn)行監(jiān)督訓(xùn)練，無標(biāo)注的地方采用左右圖像對比的方法生成連續(xù)密集深度圖。Eigen等人[14]的采用兩個(gè)網(wǎng)絡(luò)疊加，第一個(gè)網(wǎng)絡(luò)對圖像進(jìn)行粗尺度的全局預(yù)測，第二個(gè)網(wǎng)絡(luò)負(fù)責(zé)對局部進(jìn)行細(xì)化，采用大量帶有標(biāo)注深度信息的數(shù)據(jù)集進(jìn)行訓(xùn)練。并通過CRF 正則化[1]對性能進(jìn)行提升。Ummenhofer 等人[15]提出了Demon模型，采用Flownet模型，通過一串連續(xù)的圖像中估計(jì)估計(jì)物體的運(yùn)動(dòng)，將深度估計(jì)作為一個(gè)運(yùn)動(dòng)恢復(fù)的問題。Liu等人[16]創(chuàng)造性地提出了一種深度卷積神經(jīng)場模型，用來探究深層卷積神經(jīng)網(wǎng)絡(luò)（CNN）和連續(xù)隨機(jī)條件場（CRF）相結(jié)合的性能，在多個(gè)數(shù)據(jù)集上得到優(yōu)秀的效果。由于現(xiàn)有數(shù)據(jù)集的深度信息標(biāo)簽是稀疏的，無法對場景深度進(jìn)行密集預(yù)測，所以無監(jiān)督深度估計(jì)的優(yōu)勢體現(xiàn)在這一方面。

2.2 無監(jiān)督單目深度估計(jì)

現(xiàn)在的無監(jiān)督單目深度估計(jì)大多根據(jù)場景之間的視圖差，如左右視圖差和視頻的前后差異來進(jìn)行訓(xùn)練。Garg 等人[17]提出將左側(cè)圖像傳入DeepCNN，再與右視圖形成視圖差重構(gòu)出擬合圖像。Godard 等人[4]提出了一種無監(jiān)督的框架，用于從單目的視頻中進(jìn)行深度估計(jì)，可以通過沒有標(biāo)注的圖像序列和運(yùn)動(dòng)的視頻來進(jìn)行訓(xùn) 練。Poggi 等提出的 PyDNet 對 Godard 等人[4]的框架進(jìn)行了簡化，極大地減少了參數(shù)量，使其可以在樹莓派等低功率的設(shè)備中運(yùn)行。Casser等人[18]在最新的研究中表明，將目標(biāo)檢測結(jié)合到深度估計(jì)的計(jì)算中也可以得到出色的結(jié)果。

2.3 對圖像進(jìn)行語義分割

在之前的研究中，證實(shí)了全連接神經(jīng)網(wǎng)絡(luò)是可以有效進(jìn)行語義分割，不過需要多次池化，才能使卷積核獲得更大的感受野，然后在通過上采樣恢復(fù)到原來尺寸，這樣在反復(fù)的池化操作中丟失掉了很多信息。Chen等人[19]提出將DeepCNN 和全連接的條件隨機(jī)場進(jìn)行結(jié)合，同時(shí)通過空洞卷積增大感受野，從而解決語義分割中過多下采樣和空間感知差等缺點(diǎn)?？斩淳矸e[15]的概念在隨后的文章中提出，rate=5 的空洞卷積結(jié)構(gòu)如圖1 所示，在原先3×3 的卷積核中間添加4 個(gè)值為0 的空洞，在計(jì)算復(fù)雜度上與步長為1的3×3卷積核一樣，卻能達(dá)到11×11 卷積核的感受野。所以空洞卷積的作用是在不增加計(jì)算量的情況下增加感受野。同時(shí)并且提出ASPP，將多個(gè)尺度的空洞卷積串行連接，進(jìn)一步提升了空洞卷積的使用效率。隨后改進(jìn)了多尺度空洞卷積的聯(lián)級方式[5]，比較了串行連接和并行連接兩種方式的不同，進(jìn)行改進(jìn)之后獲得的更好的結(jié)果。在串聯(lián)模式中，連續(xù)使用多個(gè)擴(kuò)展卷積，隨著采樣率變大，有效濾波器權(quán)重的數(shù) 量變小，當(dāng)擴(kuò)展的卷積核感受野過大，與圖像的分辨率相當(dāng)時(shí)，就不會捕獲整個(gè)圖像上下文，反而退化為1×1 的濾波器，只有中間的濾波器權(quán)重是有效的，所以連續(xù)使用擴(kuò)展卷積對語義分割是有害的。為了克服這個(gè)問題，改進(jìn)了ASPP模型，將提取到的特征分別通過一個(gè)1×1卷積和3個(gè)空洞卷積，將擴(kuò)張率分別為6、12、18 的3×3 卷積核并聯(lián)，再將這些卷積層的提取到的特征匯集在最后一個(gè)特征圖上。

圖1 空洞卷積圖例

3 單目深度估計(jì)網(wǎng)絡(luò)模型

本章介紹該模型如何通過一張圖像來進(jìn)行深度預(yù)測。網(wǎng)絡(luò)模型分為編碼和解碼兩部分，采用特征金字塔來提取特征。特征金字塔不同于圖像金字塔，圖像金字塔分別對縮小到不同尺寸的圖像進(jìn)行特征提取，特征金字塔在特征收縮階段先對已提取到的特征圖繼續(xù)進(jìn)行跨步提取，如圖2所示，在底層的特征擁有高的分辨率，但是提取的信息少，高層的特征分辨率較低，但是提取到了更多的信息。高層特征在預(yù)測的同時(shí)結(jié)合低層的特征圖，生成高清晰度的高階特征圖。編解碼器將輸入的原始圖像信息轉(zhuǎn)變成深度圖像信息。編碼器階段利用殘差網(wǎng)絡(luò)對輸入的圖像提取大量特征，并且在不同的階段對特征進(jìn)行大量提取，解碼器階段對提取到的特征進(jìn)行計(jì)算并進(jìn)行像素級預(yù)測，得到深度圖像。

圖2 特征金字塔圖例

3.1 編碼器階段的特征提取

在網(wǎng)絡(luò)的編碼階段，使用深度殘差網(wǎng)絡(luò)Resnet50[21]進(jìn)行特征提取。在深度殘差網(wǎng)絡(luò)中，與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)不同，跳過一些層，將前面提取到的信息直接傳到后面的層中，從而解決隨著網(wǎng)絡(luò)層數(shù)不斷加深，網(wǎng)絡(luò)性能反而退化的問題。將某些層的結(jié)果H(x)直接近似于殘差函數(shù)F(x)=H(x)-x，而不是通過多層的卷積層計(jì)算得到H(x)，雖然這兩種計(jì)算方式都能夠使結(jié)果直接地等于期望函數(shù)，但是學(xué)習(xí)到的內(nèi)容有所不同，使網(wǎng)絡(luò)模型在更深的層次中也能進(jìn)行學(xué)習(xí)。

整個(gè)網(wǎng)絡(luò)分為5個(gè)部分，conv2_x、conv3_x、conv4_x、為3個(gè)殘差塊，每個(gè)殘差塊內(nèi)部具體結(jié)構(gòu)如圖3所示，采用跳躍連接，其中conv2_x、conv3_x的步長為2。不同于Resnet，在這個(gè)模型中，為了保留更多的信息，只把分辨率降到原始圖像的1/16。通過ASPP可以極大地增加卷積核的感受野，使得網(wǎng)絡(luò)模型可以免去過度下采樣的步驟。下采樣過程可以有效減少模型的參數(shù)量，如果完全舍棄下采樣會出現(xiàn)模型參數(shù)量過大無法訓(xùn)練，模型容易過擬合等問題，但本文算法是根據(jù)左右視差進(jìn)行深度的計(jì)算，由于左右視圖的差別比較小，過度下采樣會造成計(jì)算的不準(zhǔn)確從而影響模型的精準(zhǔn)度，所以在權(quán)衡模型參數(shù)量與計(jì)算精度后決定下采樣的壓縮系數(shù)為16。

網(wǎng)絡(luò)模型中第5 部分為ASPP，是由多個(gè)擴(kuò)展卷積并行連接組成的，可以對圖像進(jìn)行整體感知。連接如圖4所示，在文獻(xiàn)[13]中說明，空洞卷積的感受野計(jì)算方式如下：對于一個(gè)大小為3×3，步長為s，無空洞的卷積核來說，它在第n層網(wǎng)絡(luò)中的感受野計(jì)算為：

圖3 編碼器結(jié)構(gòu)圖例

圖4 殘差網(wǎng)絡(luò)圖例

Rn-1表示上一層的感受野。某一層中，一個(gè)大小為k，擴(kuò)張率為d的空洞卷積感受野為：

網(wǎng)絡(luò)中ASPP 輸出的結(jié)果先通過一個(gè)大小為3×3，擴(kuò)張率為2 的卷積核，再通過一個(gè)1×1 和3 個(gè)擴(kuò)張率分別為6、12、18 的卷積核。所以擴(kuò)張率分別為6、12、18 的3×3卷積核感受野分別為18、30和42。

3.2 解碼器結(jié)構(gòu)

解碼器根據(jù)提取到的特征圖生成深度圖。解碼器通過疊加卷積層和池化層來提取圖像特征，在空間上縮小特征映射。在文獻(xiàn)[8]提出了一種優(yōu)化池化層帶來的圖像粗糙的方法，將“上卷積”用于特征映射，同時(shí)接收來自網(wǎng)絡(luò)“收縮”部分的特征進(jìn)行結(jié)合來執(zhí)行圖像細(xì)化?！吧暇矸e”層包括上采樣和卷積，上采樣層使用最近鄰插值法使特征圖分辨率翻倍。

解碼器的結(jié)構(gòu)詳情如表2所示。編碼其階段由“上卷積”（upconv）、卷積層（iconv）和視差層（disp）交替組成，上采樣層（Udisp）對獲得的視差層（disp）使用最近鄰插值使分辨率擴(kuò)大一倍，從而能夠和下一層進(jìn)行卷積。結(jié)構(gòu)流程為：首先將編碼器輸出作為輸入，經(jīng)過“上卷積”擴(kuò)大分辨率。再將“上卷積”的輸出，來自編碼器階段的特征圖和來自上一個(gè)視差層的上采樣，結(jié)合在一起進(jìn)行卷積（iconv），生成視差（disp）。最后通過上采樣層（Udisp）對視差層（disp）進(jìn)行上采樣。

表2 解碼器結(jié)構(gòu)詳情

3.3 訓(xùn)練損失

這個(gè)模型計(jì)算深度的方法是通過左右圖像一致性對圖像進(jìn)行深度估計(jì)。在DispNet的基礎(chǔ)上增加了視差層（disp）的計(jì)算，使此網(wǎng)絡(luò)在較高的層面上，通過推斷左圖像與正確圖像匹配的差異來估計(jì)深度。此方法的關(guān)鍵部分是，可以通過從左側(cè)采樣生成右邊的圖像，將產(chǎn)生的圖像與右圖像（目標(biāo)）對比，同時(shí)從生成的右圖像產(chǎn)生左圖形，再進(jìn)行對比。使用雙線性采樣器生成具有反向映射的預(yù)測圖像，因?yàn)檫@種方法可以產(chǎn)生完全可微分的圖像，解決深度不連續(xù)處的“紋理復(fù)制”的誤差，并且通過強(qiáng)制它們彼此一致來獲得更好的深度。訓(xùn)練時(shí)給定左側(cè)圖像，訓(xùn)練目標(biāo)是可以預(yù)測每個(gè)像素的場景深度f。在訓(xùn)練時(shí)，將左視圖作為輸入，右視圖會在訓(xùn)練中用到。對于在同一時(shí)刻捕獲的左右圖像Il和Ir，首先嘗試找到密集的對應(yīng)部分dr，從左視圖重構(gòu)右視圖，我們定義從左視圖重構(gòu)的圖像為Ir′，同時(shí)從右視圖重構(gòu)左視圖，定義從右視圖重構(gòu)的圖像為Il′。d表示圖像的視圖差，b表示左右視圖相機(jī)的距離，f表示相機(jī)的焦距，可以得到深度d'=bf/d。

由于該算法的原理是根據(jù)左右視差進(jìn)行深度估計(jì)，所以模型可以在沒有真實(shí)深度的情況下進(jìn)行非監(jiān)督訓(xùn)練。在解碼階段，每個(gè)階段下都會通過損失模塊對當(dāng)前損失進(jìn)行計(jì)算，定義損失為L，總損失L由三部分組成：

Lam表示重建的圖像與對應(yīng)的輸入圖像的相似度，Ldp表示視差圖的平滑度，Llr表示預(yù)測的左右視差的一致性。

由于在訓(xùn)練網(wǎng)絡(luò)中需要使用視差對輸入的左右視角圖進(jìn)行采樣，再通過雙線性采樣來生成圖像，使用結(jié)合L1 正則化和單一尺度下的SSIM來組成我們的損失函數(shù)Lam：

SSIM(I,J)用于計(jì)算I與J兩個(gè)圖像的相似度，根據(jù)文獻(xiàn)[22]提出的方案，用SSIM圖像相似度函數(shù)與L1 正則項(xiàng)相結(jié)合作為訓(xùn)練中的損失函數(shù)，將文獻(xiàn)[22]中使用的高斯濾波器用3×3的卷積核代替，將α設(shè)為0.85 時(shí)獲得較好的實(shí)驗(yàn)效果和收斂速度。

Ldp的作用是使得視差變得平滑。通過L1 正則化來使得視差盡可能的平滑，在深度不連續(xù)的地方出現(xiàn)圖像漸變。

根據(jù)文獻(xiàn)[23]中得到的結(jié)論，由于圖像的不連續(xù)處常常在圖形梯度變化劇烈的地方，D用于計(jì)算相鄰兩個(gè)像素間的像素差，使用e|i|進(jìn)行像素級優(yōu)化，使圖像邊緣變得平滑。

Llr是構(gòu)建左右視圖一致性的損失，在只輸入左視圖的前提下，同時(shí)對左右視圖的視圖差進(jìn)行預(yù)測。為了生成更準(zhǔn)確的視差圖，再一次根據(jù)生成的右側(cè)視圖生成左側(cè)視圖，計(jì)算誤差。表示由原始右視圖生成的左視圖，表示由生成的右視圖再生成的左視圖，計(jì)算兩者之間的差異，同樣引進(jìn)L1 正則化對損失函數(shù)進(jìn)行約束。

4 實(shí)驗(yàn)細(xì)節(jié)

4.1 數(shù)據(jù)集介紹

實(shí)驗(yàn)使用了KITTI[24]數(shù)據(jù)集和Cityscapes[25]數(shù)據(jù)集。該數(shù)據(jù)集通過在2個(gè)灰度攝像機(jī)，2個(gè)彩色攝像機(jī)，1個(gè)Velodyne 3D激光雷達(dá)，4個(gè)高分辨率攝像機(jī)，以及1個(gè)先進(jìn)的GPS導(dǎo)航系統(tǒng)，對街道進(jìn)行取景，并對車輛、行人等進(jìn)行標(biāo)注，是目前最大的自動(dòng)駕駛數(shù)據(jù)集。KITTI數(shù)據(jù)集中有37 830張訓(xùn)練圖片，包括28個(gè)場景，分辨率為1 242×375。對KITTI 官方訓(xùn)練集提供的697 張圖像進(jìn)行評估。實(shí)驗(yàn)中用到的另一個(gè)數(shù)據(jù)集是Cityscapes，其中包括22 972 張訓(xùn)練圖片，這個(gè)數(shù)據(jù)集的分辨率為2 048×1 024。實(shí)驗(yàn)中進(jìn)行了數(shù)據(jù)增強(qiáng)，以50%的幾率對圖像進(jìn)行水平翻轉(zhuǎn)，同時(shí)交換兩個(gè)圖像，使它們處于相對正確的位置。還增加了色彩增強(qiáng)，有50%的幾率，對圖像重新進(jìn)行γ采樣，隨機(jī)伽馬、亮度和色彩偏移。

4.2 實(shí)驗(yàn)具體介紹

本文實(shí)驗(yàn)基于tensorflow 框架實(shí)現(xiàn)，在ubuntu18.04系統(tǒng)下運(yùn)行，硬件環(huán)境為GTX1080Ti。模型中包括2 449萬個(gè)參數(shù)，通過47 小時(shí)的訓(xùn)練得到結(jié)果。在輸出多尺寸的視差圖時(shí)，使用非線性Sigmoid作為激活函數(shù)，輸出圖像的色彩范圍約束在0到dmax之間，其中dmax設(shè)定為圖像色彩的0.3 倍。學(xué)習(xí)率為0.000 1，訓(xùn)練進(jìn)程到60%和80%的時(shí)候?qū)W習(xí)率減半。對于網(wǎng)絡(luò)中的非線性，使用指數(shù)線性函數(shù)（eLU）而不是常用的整流線性函數(shù)（ReLU），因?yàn)榘l(fā)現(xiàn)使用ReLU激活函數(shù)在訓(xùn)練中會過早地將中間尺度的預(yù)測差異固定為單個(gè)值，從而使后續(xù)改進(jìn)變得困難。在用最近鄰使用Adam優(yōu)化器，其中參數(shù)設(shè)置為β1=0.9，β2=0.999，?=10-8。在每個(gè)殘差塊前面均增加批標(biāo)準(zhǔn)化（BatchNorm）[26]，為了使來自不同層的特征圖可以有效的合并在一起，參數(shù)decay為0.99，在實(shí)驗(yàn)中發(fā)現(xiàn)，添加BatchNorm 能夠明顯增加訓(xùn)練時(shí)的收斂速度和減少梯度消失的現(xiàn)象。整個(gè)訓(xùn)練過程共經(jīng)過50 次迭代，訓(xùn)練時(shí)間47 小時(shí)。在訓(xùn)練過程中計(jì)算損失時(shí)，將4 個(gè)尺度下的損失一起進(jìn)行優(yōu)化。由于損失函數(shù)主要用來計(jì)算通過左右視圖生成深度圖的準(zhǔn)確性，同時(shí)增加平滑項(xiàng)增加深度圖的質(zhì)量，所以損失函數(shù)的各項(xiàng)權(quán)重αam=1，αlr=1，αdp=0.1。實(shí)驗(yàn)分為兩個(gè)：一種為直接通過KITTI 數(shù)據(jù)集進(jìn)行訓(xùn)練；另一種為先在Cityscapes 上做預(yù)訓(xùn)練，再通過KITTI 數(shù)據(jù)集完成訓(xùn)練。

5 實(shí)驗(yàn)結(jié)果

本文實(shí)驗(yàn)從各個(gè)場景下的街道中取樣，將KITTI官方提供的697個(gè)未訓(xùn)練的視差圖像用于評估實(shí)驗(yàn)結(jié)果，這個(gè)數(shù)據(jù)集中包括29 個(gè)不同的場景。在表3 中列出了該實(shí)驗(yàn)結(jié)果與相同條件下其他的實(shí)驗(yàn)數(shù)據(jù)之間的對比，其中Abs Rel、Sq Rel、RMSE、RMSE log 這 4 個(gè)指標(biāo)的數(shù)值越小越好，δ<1.25，δ<1.252，δ<1.253這3 個(gè)指標(biāo)為越大越好。性能均優(yōu)于現(xiàn)有的算法。標(biāo)題后面的“k”表示使用KITTI 數(shù)據(jù)集訓(xùn)練，“cs+k”表示使用KITTI和Cityscapes兩個(gè)數(shù)據(jù)集訓(xùn)練。從實(shí)驗(yàn)效果圖中抽取了幾張有代表性的圖像，在圖5中展示了本文實(shí)驗(yàn)的效果圖與Godard等人的實(shí)驗(yàn)效果圖對比，可以看出，使用空洞卷積提取特征，除了可以正確估計(jì)深度外，可以將原圖不同的物體清晰的表現(xiàn)出來，可以增強(qiáng)模型對圖像整體的感知，一些原本與背景融合的物體重新展現(xiàn)出來。但是如果使用擴(kuò)張率過大的卷積核，反而會使圖像變模糊，不能擬合出正確的圖像。在第一個(gè)例子中，例如原圖中與背景融合的電線桿在我們的效果圖中完整的展現(xiàn)出來，并沒有出現(xiàn)斷裂，第二個(gè)例子地上的柱子和地面完全分割開來，第三個(gè)例子體現(xiàn)出人物和樹木等事物的輪廓更為清晰。通過對比可以看出，如果圖像中出現(xiàn)與遠(yuǎn)處事物顏色相近的物體，在Godard 的算法表現(xiàn)欠佳，而在本實(shí)驗(yàn)中可以準(zhǔn)確表達(dá)。圖6選取了一些具體的事物的差別。Cityscapes數(shù)據(jù)集中測試的效果圖如圖7所示。

表3 實(shí)驗(yàn)數(shù)據(jù)對比

圖5 深度圖整體效果對比

圖6 深度圖具體細(xì)節(jié)效果對比

圖7 Cityscapes數(shù)據(jù)集效果圖

6 結(jié)束語

本文提出了一種基于特征金字塔結(jié)合語義分割的深度估計(jì)模型，在特征提取階段采取深度殘差網(wǎng)絡(luò)提取特征，并結(jié)合空洞卷積對圖形進(jìn)行語義分割，通過大型街道數(shù)據(jù)集KITTI 和Cityscapes 的訓(xùn)練，使該模型可以對街道圖像進(jìn)行有效的深度估計(jì)，證實(shí)了在網(wǎng)絡(luò)中添加語義分割層可以有效地提高生成圖像的質(zhì)量，保證圖像中物體的完整性，使生成圖像更加接近于原圖像。在無人駕駛等方向有著重要的作用。通過左右視圖生成的視圖差計(jì)算深度。相比原先的算法[3]，本文算法得到更好的實(shí)驗(yàn)數(shù)據(jù)，可以將街道場景中陰影部分的物體處理得更好，對遠(yuǎn)處物體也有更好的處理。今后的工作將從以下方面做進(jìn)一步研究：

（1）從連續(xù)圖像或者視頻中檢測深度，通過預(yù)測物體運(yùn)動(dòng)變化來估計(jì)深度。

（2）本文使用的是ResNet50 的網(wǎng)絡(luò)，嘗試使用更深的網(wǎng)絡(luò)使結(jié)果更加精確。