亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于卷積神經(jīng)網(wǎng)絡(luò)的單目深度估計(jì)

        2020-07-06 13:35:08王欣盛張桂玲
        關(guān)鍵詞:視差空洞視圖

        王欣盛 ,張桂玲

        1.天津工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津 300387

        2.天津市自主智能技術(shù)與系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,天津 300387

        1 引言

        深度估計(jì)是計(jì)算機(jī)視覺中的一個(gè)重要課題。隨著人工智能技術(shù)的不斷發(fā)展,越來越多的智能產(chǎn)品逐漸問世。計(jì)算機(jī)科學(xué)、模式識別和智能控制技術(shù)的逐步發(fā)展和融合,能夠?qū)χ車h(huán)境進(jìn)行感知的技術(shù)和自主運(yùn)動(dòng)的技術(shù)也越發(fā)成熟。這些技術(shù)都離不開對圖像深度的估計(jì),所以對圖像的深度估計(jì)在所有的自主導(dǎo)航技術(shù)中都有著寶貴的研究價(jià)值。

        深度估計(jì)在無人駕駛汽車、機(jī)器人等領(lǐng)域中有著廣泛的應(yīng)用。深度估計(jì)在三維重建的課題中起著至關(guān)重要的作用,可以對現(xiàn)有的識別任務(wù)進(jìn)行改善,如3D 建模、機(jī)器人運(yùn)動(dòng)[1-2]等。在出現(xiàn)深度學(xué)習(xí)技術(shù)之前,若完成場景中的物體距離估計(jì)需要通過多個(gè)攝像頭和激光雷達(dá)等設(shè)備,設(shè)備昂貴且笨重。隨著深度學(xué)習(xí)技術(shù)的不斷更新,出現(xiàn)了越來越多的算法通過深度神經(jīng)網(wǎng)絡(luò)來完成圖像深度的估計(jì),最新的研究已經(jīng)可以通過單目相機(jī)來完成深度估計(jì),如Moukari 等人[3]在單目深度估計(jì)的方向中提供了有效的方法。但是如果將單目深度估計(jì)作為監(jiān)督回歸問題來解決,需要大量地面深度和場景中各個(gè)物體的具體距離,不僅步驟復(fù)雜,而且設(shè)備相當(dāng)昂貴,導(dǎo)致沒有足夠密集標(biāo)注深度信息的數(shù)據(jù)集。本文提出了一種無監(jiān)督的端到端網(wǎng)絡(luò)進(jìn)行深度估計(jì),計(jì)算左右視圖差來對圖像進(jìn)行像素級的密集預(yù)測[4],結(jié)合Deeplab[5]語義分割模型設(shè)計(jì)了一個(gè)全新的深度估計(jì)模型,通過對KITTI街道數(shù)據(jù)集進(jìn)行訓(xùn)練,可以對任意一張街道圖像進(jìn)行深度估計(jì)。優(yōu)點(diǎn)是預(yù)測深度只需一個(gè)攝像頭,不需要其他工具即可進(jìn)行密集估計(jì),相比傳統(tǒng)方法方便快捷,在無人駕駛汽車以及機(jī)器人中有著更大的應(yīng)用空間。訓(xùn)練過程不需要任何深度數(shù)據(jù),對左右圖像進(jìn)行擬合,利用計(jì)算左右視差的損失函數(shù)即可完成深度估計(jì)。模型中使用空洞卷積[6]增加增大感受野,從而減少圖像的下采樣程度,減少原始圖像中的信息損失,這也是在深度估計(jì)方向的研究中首次使用空洞卷積增加準(zhǔn)確率。其中難點(diǎn)有:(1)無監(jiān)督估計(jì)深度需要構(gòu)建合理的網(wǎng)絡(luò)模型,選取合適的參數(shù),否則容易出現(xiàn)梯度消失或模型不收斂等情況。(2)通過左右視圖視差估計(jì)需要嚴(yán)謹(jǐn)?shù)膿p失函數(shù)來計(jì)算誤差。(3)最后輸出的深度圖盡可能清晰。

        本文做出如下貢獻(xiàn):

        (1)提出一種新穎的深度估計(jì)網(wǎng)絡(luò)架構(gòu),采用類似于DispNet[7]來進(jìn)行特征金字塔的提取,并與DeepLab相結(jié)合,執(zhí)行端到端的無監(jiān)督單目深度估計(jì),根據(jù)左右圖像的差異來計(jì)算深度。

        (2)采用編碼-解碼器結(jié)構(gòu),在編碼器(表1)中添加語義分割層,采用多個(gè)空洞卷積并行來增大卷積核的感受野,從而減少了圖像縮小的程度,使生成的圖像更為清晰,可以顯示更遠(yuǎn)地方的物體。

        2 深度估計(jì)研究現(xiàn)狀

        雖然深度估計(jì)在計(jì)算機(jī)視覺中有著很長的研究時(shí)間,但是始終難以跨越檢測硬件昂貴、笨重,計(jì)算效果與效率的很難平衡。完成視覺導(dǎo)航任務(wù)的傳統(tǒng)方法通常是使用SLAM,原理是通過在梯度變化明顯的圖像區(qū)域中采樣像素來進(jìn)行直接稀疏視覺測距,但是難以擺脫測量過程復(fù)雜,在復(fù)雜環(huán)境無法測量,難以進(jìn)行密集測量等缺點(diǎn)。隨著深度學(xué)習(xí)技術(shù)的不斷成熟,不斷有更加高效的卷積神經(jīng)網(wǎng)絡(luò)提出,利用深度學(xué)習(xí)進(jìn)行深度估計(jì)的研究也越來越受到重視。文獻(xiàn)[8]提出了對光流預(yù)測的FlowNet框架,對深度估計(jì)的研究起到了重要作用,并得到顯著的效果。最新研究也有將SLAM 與深度學(xué)習(xí)進(jìn)行結(jié)合,如通過深度學(xué)習(xí)改進(jìn)傳統(tǒng)SLAM 中的漂移問題[9],通過深度學(xué)習(xí)將SLAM 的稀疏預(yù)測轉(zhuǎn)化為稠密預(yù)測[10]等等。

        表1 編碼器結(jié)構(gòu)詳情

        本文介紹的方法通過左右視圖差進(jìn)行深度估計(jì),不需要傳統(tǒng)SLAM 算法所需的設(shè)備。采用無監(jiān)督的訓(xùn)練方式,不需要大量密集標(biāo)注的數(shù)據(jù)集,便可以對圖像進(jìn)行像素級的密集預(yù)測,同時(shí)避免了在傳統(tǒng)的單目深度估計(jì)中,與相機(jī)共同運(yùn)動(dòng)的物體則顯示為無限遠(yuǎn)的情況。有一些現(xiàn)有方法也解決了同樣的問題,但有一些缺點(diǎn)。例如,圖像的形成模型不是完全可微分的,使得訓(xùn)練欠優(yōu)[11],或者不能生成輸出最大分辨率的圖像[12]。

        2.1 監(jiān)督單目深度估計(jì)

        Kuznietsov等人[13]提出的帶有稀疏標(biāo)注的數(shù)據(jù)集進(jìn)行半監(jiān)督訓(xùn)練,在有標(biāo)注的地方進(jìn)行監(jiān)督訓(xùn)練,無標(biāo)注的地方采用左右圖像對比的方法生成連續(xù)密集深度圖。Eigen等人[14]的采用兩個(gè)網(wǎng)絡(luò)疊加,第一個(gè)網(wǎng)絡(luò)對圖像進(jìn)行粗尺度的全局預(yù)測,第二個(gè)網(wǎng)絡(luò)負(fù)責(zé)對局部進(jìn)行細(xì)化,采用大量帶有標(biāo)注深度信息的數(shù)據(jù)集進(jìn)行訓(xùn)練。并通過CRF 正則化[1]對性能進(jìn)行提升。Ummenhofer 等人[15]提出了Demon模型,采用Flownet模型,通過一串連續(xù)的圖像中估計(jì)估計(jì)物體的運(yùn)動(dòng),將深度估計(jì)作為一個(gè)運(yùn)動(dòng)恢復(fù)的問題。Liu等人[16]創(chuàng)造性地提出了一種深度卷積神經(jīng)場模型,用來探究深層卷積神經(jīng)網(wǎng)絡(luò)(CNN)和連續(xù)隨機(jī)條件場(CRF)相結(jié)合的性能,在多個(gè)數(shù)據(jù)集上得到優(yōu)秀的效果。由于現(xiàn)有數(shù)據(jù)集的深度信息標(biāo)簽是稀疏的,無法對場景深度進(jìn)行密集預(yù)測,所以無監(jiān)督深度估計(jì)的優(yōu)勢體現(xiàn)在這一方面。

        2.2 無監(jiān)督單目深度估計(jì)

        現(xiàn)在的無監(jiān)督單目深度估計(jì)大多根據(jù)場景之間的視圖差,如左右視圖差和視頻的前后差異來進(jìn)行訓(xùn)練。Garg 等人[17]提出將左側(cè)圖像傳入DeepCNN,再與右視圖形成視圖差重構(gòu)出擬合圖像。Godard 等人[4]提出了一種無監(jiān)督的框架,用于從單目的視頻中進(jìn)行深度估計(jì),可以通過沒有標(biāo)注的圖像序列和運(yùn)動(dòng)的視頻來進(jìn)行訓(xùn) 練 。Poggi 等提出的 PyDNet 對 Godard 等人[4]的 框 架進(jìn)行了簡化,極大地減少了參數(shù)量,使其可以在樹莓派等低功率的設(shè)備中運(yùn)行。Casser等人[18]在最新的研究中表明,將目標(biāo)檢測結(jié)合到深度估計(jì)的計(jì)算中也可以得到出色的結(jié)果。

        2.3 對圖像進(jìn)行語義分割

        在之前的研究中,證實(shí)了全連接神經(jīng)網(wǎng)絡(luò)是可以有效進(jìn)行語義分割,不過需要多次池化,才能使卷積核獲得更大的感受野,然后在通過上采樣恢復(fù)到原來尺寸,這樣在反復(fù)的池化操作中丟失掉了很多信息。Chen等人[19]提出將DeepCNN 和全連接的條件隨機(jī)場進(jìn)行結(jié)合,同時(shí)通過空洞卷積增大感受野,從而解決語義分割中過多下采樣和空間感知差等缺點(diǎn)??斩淳矸e[15]的概念在隨后的文章中提出,rate=5 的空洞卷積結(jié)構(gòu)如圖1 所示,在原先3×3 的卷積核中間添加4 個(gè)值為0 的空洞,在計(jì)算復(fù)雜度上與步長為1的3×3卷積核一樣,卻能達(dá)到11×11 卷積核的感受野。所以空洞卷積的作用是在不增加計(jì)算量的情況下增加感受野。同時(shí)并且提出ASPP,將多個(gè)尺度的空洞卷積串行連接,進(jìn)一步提升了空洞卷積的使用效率。隨后改進(jìn)了多尺度空洞卷積的聯(lián)級方式[5],比較了串行連接和并行連接兩種方式的不同,進(jìn)行改進(jìn)之后獲得的更好的結(jié)果。在串聯(lián)模式中,連續(xù)使用多個(gè)擴(kuò)展卷積,隨著采樣率變大,有效濾波器權(quán)重的數(shù) 量變小,當(dāng)擴(kuò)展的卷積核感受野過大,與圖像的分辨率相當(dāng)時(shí),就不會捕獲整個(gè)圖像上下文,反而退化為1×1 的濾波器,只有中間的濾波器權(quán)重是有效的,所以連續(xù)使用擴(kuò)展卷積對語義分割是有害的。為了克服這個(gè)問題,改進(jìn)了ASPP模型,將提取到的特征分別通過一個(gè)1×1卷積和3個(gè)空洞卷積,將擴(kuò)張率分別為6、12、18 的3×3 卷積核并聯(lián),再將這些卷積層的提取到的特征匯集在最后一個(gè)特征圖上。

        圖1 空洞卷積圖例

        3 單目深度估計(jì)網(wǎng)絡(luò)模型

        本章介紹該模型如何通過一張圖像來進(jìn)行深度預(yù)測。網(wǎng)絡(luò)模型分為編碼和解碼兩部分,采用特征金字塔來提取特征。特征金字塔不同于圖像金字塔,圖像金字塔分別對縮小到不同尺寸的圖像進(jìn)行特征提取,特征金字塔在特征收縮階段先對已提取到的特征圖繼續(xù)進(jìn)行跨步提取,如圖2所示,在底層的特征擁有高的分辨率,但是提取的信息少,高層的特征分辨率較低,但是提取到了更多的信息。高層特征在預(yù)測的同時(shí)結(jié)合低層的特征圖,生成高清晰度的高階特征圖。編解碼器將輸入的原始圖像信息轉(zhuǎn)變成深度圖像信息。編碼器階段利用殘差網(wǎng)絡(luò)對輸入的圖像提取大量特征,并且在不同的階段對特征進(jìn)行大量提取,解碼器階段對提取到的特征進(jìn)行計(jì)算并進(jìn)行像素級預(yù)測,得到深度圖像。

        圖2 特征金字塔圖例

        3.1 編碼器階段的特征提取

        在網(wǎng)絡(luò)的編碼階段,使用深度殘差網(wǎng)絡(luò)Resnet50[21]進(jìn)行特征提取。在深度殘差網(wǎng)絡(luò)中,與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)不同,跳過一些層,將前面提取到的信息直接傳到后面的層中,從而解決隨著網(wǎng)絡(luò)層數(shù)不斷加深,網(wǎng)絡(luò)性能反而退化的問題。將某些層的結(jié)果H(x)直接近似于殘差函數(shù)F(x)=H(x)-x,而不是通過多層的卷積層計(jì)算得到H(x),雖然這兩種計(jì)算方式都能夠使結(jié)果直接地等于期望函數(shù),但是學(xué)習(xí)到的內(nèi)容有所不同,使網(wǎng)絡(luò)模型在更深的層次中也能進(jìn)行學(xué)習(xí)。

        整個(gè)網(wǎng)絡(luò)分為5個(gè)部分,conv2_x、conv3_x、conv4_x、為3個(gè)殘差塊,每個(gè)殘差塊內(nèi)部具體結(jié)構(gòu)如圖3所示,采用跳躍連接,其中conv2_x、conv3_x的步長為2。不同于Resnet,在這個(gè)模型中,為了保留更多的信息,只把分辨率降到原始圖像的1/16。通過ASPP可以極大地增加卷積核的感受野,使得網(wǎng)絡(luò)模型可以免去過度下采樣的步驟。下采樣過程可以有效減少模型的參數(shù)量,如果完全舍棄下采樣會出現(xiàn)模型參數(shù)量過大無法訓(xùn)練,模型容易過擬合等問題,但本文算法是根據(jù)左右視差進(jìn)行深度的計(jì)算,由于左右視圖的差別比較小,過度下采樣會造成計(jì)算的不準(zhǔn)確從而影響模型的精準(zhǔn)度,所以在權(quán)衡模型參數(shù)量與計(jì)算精度后決定下采樣的壓縮系數(shù)為16。

        網(wǎng)絡(luò)模型中第5 部分為ASPP,是由多個(gè)擴(kuò)展卷積并行連接組成的,可以對圖像進(jìn)行整體感知。連接如圖4所示,在文獻(xiàn)[13]中說明,空洞卷積的感受野計(jì)算方式如下:對于一個(gè)大小為3×3,步長為s,無空洞的卷積核來說,它在第n層網(wǎng)絡(luò)中的感受野計(jì)算為:

        圖3 編碼器結(jié)構(gòu)圖例

        圖4 殘差網(wǎng)絡(luò)圖例

        Rn-1表示上一層的感受野。某一層中,一個(gè)大小為k,擴(kuò)張率為d的空洞卷積感受野為:

        網(wǎng)絡(luò)中ASPP 輸出的結(jié)果先通過一個(gè)大小為3×3,擴(kuò)張率為2 的卷積核,再通過一個(gè)1×1 和3 個(gè)擴(kuò)張率分別為6、12、18 的卷積核。所以擴(kuò)張率分別為6、12、18 的3×3卷積核感受野分別為18、30和42。

        3.2 解碼器結(jié)構(gòu)

        解碼器根據(jù)提取到的特征圖生成深度圖。解碼器通過疊加卷積層和池化層來提取圖像特征,在空間上縮小特征映射。在文獻(xiàn)[8]提出了一種優(yōu)化池化層帶來的圖像粗糙的方法,將“上卷積”用于特征映射,同時(shí)接收來自網(wǎng)絡(luò)“收縮”部分的特征進(jìn)行結(jié)合來執(zhí)行圖像細(xì)化?!吧暇矸e”層包括上采樣和卷積,上采樣層使用最近鄰插值法使特征圖分辨率翻倍。

        解碼器的結(jié)構(gòu)詳情如表2所示。編碼其階段由“上卷積”(upconv)、卷積層(iconv)和視差層(disp)交替組成,上采樣層(Udisp)對獲得的視差層(disp)使用最近鄰插值使分辨率擴(kuò)大一倍,從而能夠和下一層進(jìn)行卷積。結(jié)構(gòu)流程為:首先將編碼器輸出作為輸入,經(jīng)過“上卷積”擴(kuò)大分辨率。再將“上卷積”的輸出,來自編碼器階段的特征圖和來自上一個(gè)視差層的上采樣,結(jié)合在一起進(jìn)行卷積(iconv),生成視差(disp)。最后通過上采樣層(Udisp)對視差層(disp)進(jìn)行上采樣。

        表2 解碼器結(jié)構(gòu)詳情

        3.3 訓(xùn)練損失

        這個(gè)模型計(jì)算深度的方法是通過左右圖像一致性對圖像進(jìn)行深度估計(jì)。在DispNet的基礎(chǔ)上增加了視差層(disp)的計(jì)算,使此網(wǎng)絡(luò)在較高的層面上,通過推斷左圖像與正確圖像匹配的差異來估計(jì)深度。此方法的關(guān)鍵部分是,可以通過從左側(cè)采樣生成右邊的圖像,將產(chǎn)生的圖像與右圖像(目標(biāo))對比,同時(shí)從生成的右圖像產(chǎn)生左圖形,再進(jìn)行對比。使用雙線性采樣器生成具有反向映射的預(yù)測圖像,因?yàn)檫@種方法可以產(chǎn)生完全可微分的圖像,解決深度不連續(xù)處的“紋理復(fù)制”的誤差,并且通過強(qiáng)制它們彼此一致來獲得更好的深度。訓(xùn)練時(shí)給定左側(cè)圖像,訓(xùn)練目標(biāo)是可以預(yù)測每個(gè)像素的場景深度f。在訓(xùn)練時(shí),將左視圖作為輸入,右視圖會在訓(xùn)練中用到。對于在同一時(shí)刻捕獲的左右圖像Il和Ir,首先嘗試找到密集的對應(yīng)部分dr,從左視圖重構(gòu)右視圖,我們定義從左視圖重構(gòu)的圖像為Ir′,同時(shí)從右視圖重構(gòu)左視圖,定義從右視圖重構(gòu)的圖像為Il′。d表示圖像的視圖差,b表示左右視圖相機(jī)的距離,f表示相機(jī)的焦距,可以得到深度d'=bf/d。

        由于該算法的原理是根據(jù)左右視差進(jìn)行深度估計(jì),所以模型可以在沒有真實(shí)深度的情況下進(jìn)行非監(jiān)督訓(xùn)練。在解碼階段,每個(gè)階段下都會通過損失模塊對當(dāng)前損失進(jìn)行計(jì)算,定義損失為L,總損失L由三部分組成:

        Lam表示重建的圖像與對應(yīng)的輸入圖像的相似度,Ldp表示視差圖的平滑度,Llr表示預(yù)測的左右視差的一致性。

        由于在訓(xùn)練網(wǎng)絡(luò)中需要使用視差對輸入的左右視角圖進(jìn)行采樣,再通過雙線性采樣來生成圖像,使用結(jié)合L1 正則化和單一尺度下的SSIM來組成我們的損失函數(shù)Lam:

        SSIM(I,J)用于計(jì)算I與J兩個(gè)圖像的相似度,根據(jù)文獻(xiàn)[22]提出的方案,用SSIM圖像相似度函數(shù)與L1 正則項(xiàng)相結(jié)合作為訓(xùn)練中的損失函數(shù),將文獻(xiàn)[22]中使用的高斯濾波器用3×3的卷積核代替,將α設(shè)為0.85 時(shí)獲得較好的實(shí)驗(yàn)效果和收斂速度。

        Ldp的作用是使得視差變得平滑。通過L1 正則化來使得視差盡可能的平滑,在深度不連續(xù)的地方出現(xiàn)圖像漸變。

        根據(jù)文獻(xiàn)[23]中得到的結(jié)論,由于圖像的不連續(xù)處常常在圖形梯度變化劇烈的地方,D用于計(jì)算相鄰兩個(gè)像素間的像素差,使用e|i|進(jìn)行像素級優(yōu)化,使圖像邊緣變得平滑。

        Llr是構(gòu)建左右視圖一致性的損失,在只輸入左視圖的前提下,同時(shí)對左右視圖的視圖差進(jìn)行預(yù)測。為了生成更準(zhǔn)確的視差圖,再一次根據(jù)生成的右側(cè)視圖生成左側(cè)視圖,計(jì)算誤差。表示由原始右視圖生成的左視圖,表示由生成的右視圖再生成的左視圖,計(jì)算兩者之間的差異,同樣引進(jìn)L1 正則化對損失函數(shù)進(jìn)行約束。

        4 實(shí)驗(yàn)細(xì)節(jié)

        4.1 數(shù)據(jù)集介紹

        實(shí)驗(yàn)使用了KITTI[24]數(shù)據(jù)集和Cityscapes[25]數(shù)據(jù)集。該數(shù)據(jù)集通過在2個(gè)灰度攝像機(jī),2個(gè)彩色攝像機(jī),1個(gè)Velodyne 3D激光雷達(dá),4個(gè)高分辨率攝像機(jī),以及1個(gè)先進(jìn)的GPS導(dǎo)航系統(tǒng),對街道進(jìn)行取景,并對車輛、行人等進(jìn)行標(biāo)注,是目前最大的自動(dòng)駕駛數(shù)據(jù)集。KITTI數(shù)據(jù)集中有37 830張訓(xùn)練圖片,包括28個(gè)場景,分辨率為1 242×375。對KITTI 官方訓(xùn)練集提供的697 張圖像進(jìn)行評估。實(shí)驗(yàn)中用到的另一個(gè)數(shù)據(jù)集是Cityscapes,其中包括22 972 張訓(xùn)練圖片,這個(gè)數(shù)據(jù)集的分辨率為2 048×1 024。實(shí)驗(yàn)中進(jìn)行了數(shù)據(jù)增強(qiáng),以50%的幾率對圖像進(jìn)行水平翻轉(zhuǎn),同時(shí)交換兩個(gè)圖像,使它們處于相對正確的位置。還增加了色彩增強(qiáng),有50%的幾率,對圖像重新進(jìn)行γ采樣,隨機(jī)伽馬、亮度和色彩偏移。

        4.2 實(shí)驗(yàn)具體介紹

        本文實(shí)驗(yàn)基于tensorflow 框架實(shí)現(xiàn),在ubuntu18.04系統(tǒng)下運(yùn)行,硬件環(huán)境為GTX1080Ti。模型中包括2 449萬個(gè)參數(shù),通過47 小時(shí)的訓(xùn)練得到結(jié)果。在輸出多尺寸的視差圖時(shí),使用非線性Sigmoid作為激活函數(shù),輸出圖像的色彩范圍約束在0到dmax之間,其中dmax設(shè)定為圖像色彩的0.3 倍。學(xué)習(xí)率為0.000 1,訓(xùn)練進(jìn)程到60%和80%的時(shí)候?qū)W習(xí)率減半。對于網(wǎng)絡(luò)中的非線性,使用指數(shù)線性函數(shù)(eLU)而不是常用的整流線性函數(shù)(ReLU),因?yàn)榘l(fā)現(xiàn)使用ReLU激活函數(shù)在訓(xùn)練中會過早地將中間尺度的預(yù)測差異固定為單個(gè)值,從而使后續(xù)改進(jìn)變得困難。在用最近鄰使用Adam優(yōu)化器,其中參數(shù)設(shè)置為β1=0.9,β2=0.999,?=10-8。在每個(gè)殘差塊前面均增加批標(biāo)準(zhǔn)化(BatchNorm)[26],為了使來自不同層的特征圖可以有效的合并在一起,參數(shù)decay為0.99,在實(shí)驗(yàn)中發(fā)現(xiàn),添加BatchNorm 能夠明顯增加訓(xùn)練時(shí)的收斂速度和減少梯度消失的現(xiàn)象。整個(gè)訓(xùn)練過程共經(jīng)過50 次迭代,訓(xùn)練時(shí)間47 小時(shí)。在訓(xùn)練過程中計(jì)算損失時(shí),將4 個(gè)尺度下的損失一起進(jìn)行優(yōu)化。由于損失函數(shù)主要用來計(jì)算通過左右視圖生成深度圖的準(zhǔn)確性,同時(shí)增加平滑項(xiàng)增加深度圖的質(zhì)量,所以損失函數(shù)的各項(xiàng)權(quán)重αam=1,αlr=1,αdp=0.1。實(shí)驗(yàn)分為兩個(gè):一種為直接通過KITTI 數(shù)據(jù)集進(jìn)行訓(xùn)練;另一種為先在Cityscapes 上做預(yù)訓(xùn)練,再通過KITTI 數(shù)據(jù)集完成訓(xùn)練。

        5 實(shí)驗(yàn)結(jié)果

        本文實(shí)驗(yàn)從各個(gè)場景下的街道中取樣,將KITTI官方提供的697個(gè)未訓(xùn)練的視差圖像用于評估實(shí)驗(yàn)結(jié)果,這個(gè)數(shù)據(jù)集中包括29 個(gè)不同的場景。在表3 中列出了該實(shí)驗(yàn)結(jié)果與相同條件下其他的實(shí)驗(yàn)數(shù)據(jù)之間的對比,其中Abs Rel、Sq Rel、RMSE、RMSE log 這 4 個(gè)指標(biāo)的數(shù)值越小越好,δ<1.25,δ<1.252,δ<1.253這3 個(gè)指標(biāo)為越大越好。性能均優(yōu)于現(xiàn)有的算法。標(biāo)題后面的“k”表示使用KITTI 數(shù)據(jù)集訓(xùn)練,“cs+k”表示使用KITTI和Cityscapes兩個(gè)數(shù)據(jù)集訓(xùn)練。從實(shí)驗(yàn)效果圖中抽取了幾張有代表性的圖像,在圖5中展示了本文實(shí)驗(yàn)的效果圖與Godard等人的實(shí)驗(yàn)效果圖對比,可以看出,使用空洞卷積提取特征,除了可以正確估計(jì)深度外,可以將原圖不同的物體清晰的表現(xiàn)出來,可以增強(qiáng)模型對圖像整體的感知,一些原本與背景融合的物體重新展現(xiàn)出來。但是如果使用擴(kuò)張率過大的卷積核,反而會使圖像變模糊,不能擬合出正確的圖像。在第一個(gè)例子中,例如原圖中與背景融合的電線桿在我們的效果圖中完整的展現(xiàn)出來,并沒有出現(xiàn)斷裂,第二個(gè)例子地上的柱子和地面完全分割開來,第三個(gè)例子體現(xiàn)出人物和樹木等事物的輪廓更為清晰。通過對比可以看出,如果圖像中出現(xiàn)與遠(yuǎn)處事物顏色相近的物體,在Godard 的算法表現(xiàn)欠佳,而在本實(shí)驗(yàn)中可以準(zhǔn)確表達(dá)。圖6選取了一些具體的事物的差別。Cityscapes數(shù)據(jù)集中測試的效果圖如圖7所示。

        表3 實(shí)驗(yàn)數(shù)據(jù)對比

        圖5 深度圖整體效果對比

        圖6 深度圖具體細(xì)節(jié)效果對比

        圖7 Cityscapes數(shù)據(jù)集效果圖

        6 結(jié)束語

        本文提出了一種基于特征金字塔結(jié)合語義分割的深度估計(jì)模型,在特征提取階段采取深度殘差網(wǎng)絡(luò)提取特征,并結(jié)合空洞卷積對圖形進(jìn)行語義分割,通過大型街道數(shù)據(jù)集KITTI 和Cityscapes 的訓(xùn)練,使該模型可以對街道圖像進(jìn)行有效的深度估計(jì),證實(shí)了在網(wǎng)絡(luò)中添加語義分割層可以有效地提高生成圖像的質(zhì)量,保證圖像中物體的完整性,使生成圖像更加接近于原圖像。在無人駕駛等方向有著重要的作用。通過左右視圖生成的視圖差計(jì)算深度。相比原先的算法[3],本文算法得到更好的實(shí)驗(yàn)數(shù)據(jù),可以將街道場景中陰影部分的物體處理得更好,對遠(yuǎn)處物體也有更好的處理。今后的工作將從以下方面做進(jìn)一步研究:

        (1)從連續(xù)圖像或者視頻中檢測深度,通過預(yù)測物體運(yùn)動(dòng)變化來估計(jì)深度。

        (2)本文使用的是ResNet50 的網(wǎng)絡(luò),嘗試使用更深的網(wǎng)絡(luò)使結(jié)果更加精確。

        猜你喜歡
        視差空洞視圖
        基于自適應(yīng)窗的立體相機(jī)視差圖優(yōu)化方法研究
        基于梯度域引導(dǎo)濾波的視差精煉迭代算法
        5.3 視圖與投影
        視圖
        Y—20重型運(yùn)輸機(jī)多視圖
        SA2型76毫米車載高炮多視圖
        空洞的眼神
        基于分割樹的視差圖修復(fù)算法研究
        立體視差對瞳孔直徑影響的研究
        用事實(shí)說話勝過空洞的說教——以教育類報(bào)道為例
        新聞傳播(2015年20期)2015-07-18 11:06:46
        日本啪啪视频一区二区| 日韩精品中文字幕无码专区| 成 人 网 站 免 费 av| 国产成人国产在线观看入口| 国产精品制服一区二区| 亚洲图文一区二区三区四区| 亚洲国产精品自拍成人| 亚洲av无码国产精品色午夜软件 | 亚洲一区二区高清在线| 一区二区三区免费观看日本 | 色婷婷综合久久久久中文| 全免费a级毛片免费看| 国产午夜视频高清在线观看| av网站大全免费在线观看| 日本真人边吃奶边做爽动态图 | 无码人妻精品中文字幕免费| 亚洲国产人成自精在线尤物| 国产成人久久精品一区二区三区| 高潮潮喷奶水飞溅视频无码| 亚洲精品网站在线观看你懂的| 丰满人妻无套中出中文字幕 | 全部亚洲国产一区二区| 欧美亚洲日本国产综合在线美利坚| 怡红院免费的全部视频| 999国产精品亚洲77777| 国产亚洲精选美女久久久久| 中文字幕日韩精品中文字幕| 亚洲中文字幕无码av永久| 人妻无码一区二区三区四区| 中文字幕久热精品视频免费| 中文字幕人妻少妇久久| 一本色道久在线综合色| 亚洲av成人片在线观看| 日本高清www无色夜在线视频| 国产成人香蕉久久久久| 91人妻人人做人人爽九色| 国产毛片黄片一区二区三区| 搡老熟女中国老太| www.五月激情| 在线观看国产自拍视频| 久久综合狠狠综合久久综合88|