亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多層級特征融合結(jié)構(gòu)的單目圖像深度估計網(wǎng)絡(luò)

        2020-12-16 02:18:08賈瑞明崔家禮王一丁
        計算機工程 2020年12期
        關(guān)鍵詞:深度圖編碼器層級

        賈瑞明,李 陽,李 彤,崔家禮,王一丁

        (北方工業(yè)大學(xué) 信息學(xué)院,北京 100144)

        0 概述

        深度圖像包含場景的三維結(jié)構(gòu)信息,廣泛應(yīng)用于三維重建[1]、語義分割[2]、機器人視覺[3]與智能駕駛[4]等圖像處理任務(wù)中。采用Kinect或者激光雷達等硬件專用設(shè)備獲取場景深度信息時,存在設(shè)備昂貴、采集成本高、捕獲的深度圖像分辨率低以及大面積深度缺失等問題。目前,分布較為廣泛的視頻監(jiān)控系統(tǒng)、行車記錄儀、手機與平板等電子設(shè)備中的攝像機多數(shù)是單目圖像采集設(shè)備,因此,研究單目圖像深度估計具有重要的實用價值和推廣意義。

        研究人員根據(jù)圖像中包含的光學(xué)反射關(guān)系、幾何位置等關(guān)系,提出多種用于估計圖像深度信息的算法,根據(jù)是否采用卷積神經(jīng)網(wǎng)絡(luò)技術(shù)可以分為傳統(tǒng)算法和基于深度學(xué)習(xí)算法。其中,傳統(tǒng)算法獲取深度圖的方式可分為兩類:一類是從單目圖像中估計深度信息,利用圖像中的物體結(jié)構(gòu)特點以及物體與物體之間的相互聯(lián)系,歸納出估計深度信息的相關(guān)規(guī)律,典型算法主要有從陰影中恢復(fù)形狀算法[5]、從紋理中恢復(fù)形狀算法[6]等,這些算法需要嚴格規(guī)定圖像場景,比如從陰影中恢復(fù)形狀算法需要假設(shè)場景中的物體都是朗伯輻射體,增加了算法的實現(xiàn)難度。另一類是從多目圖像中估計深度信息,使用2個攝像頭獲取同一個場景的2幅圖像,利用三角測量法將2幅圖像間的匹配信息轉(zhuǎn)化為深度信息,典型算法包括SGM算法[7]、ADCensus算法[8]等。利用多張圖像中物體的相對位置來估計深度信息可提高預(yù)測精度,但是造成了計算量及復(fù)雜程度的增加。

        采用深度學(xué)習(xí)算法獲取深度圖信息時,按照輸入圖像的數(shù)量可分為單目圖像和多目圖像2種。在基于深度學(xué)習(xí)單目圖像預(yù)測深度圖算法中,文獻[9]提出利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)預(yù)測深度圖,采用不同尺度的卷積核對RGB圖像進行卷積,并將不同尺度的特征圖相融合。文獻[10]提出多任務(wù)網(wǎng)絡(luò)結(jié)構(gòu),不僅可以預(yù)測深度圖,而且可以預(yù)測表面法向量和語義分割。文獻[11]采用ResNet50[12]作為編碼器,利用上投影模塊進行解碼,進而獲取深度圖。文獻[13]針對預(yù)測深度圖像邊緣較為模糊的問題,提出雙流網(wǎng)絡(luò)結(jié)構(gòu),一部分網(wǎng)絡(luò)結(jié)構(gòu)用來估計深度信息,另一部分用來估計圖像梯度,將兩者融合,從而確保深度圖像邊緣更加清晰。文獻[14]更改了ResNet101網(wǎng)絡(luò)結(jié)構(gòu),將6個不同尺度的輸出相融合,并采用視野更大的空洞進行卷積。文獻[15]通過網(wǎng)絡(luò)獲取深度圖后,在頻域內(nèi)對其進行處理以提高深度圖效果。在基于深度學(xué)習(xí)雙目圖像預(yù)測深度圖算法中,文獻[16]提出一種快速且精度較高的網(wǎng)絡(luò)結(jié)構(gòu),通過計算網(wǎng)絡(luò)輸出結(jié)果的置信度來提高預(yù)測準(zhǔn)確度。文獻[17]提出一種基于深度學(xué)習(xí)改善的立體匹配算法,通過多級加權(quán)跳躍連接及匯聚視差來估計深度信息。文獻[18]采用非監(jiān)督方式將左右視圖分別發(fā)送至網(wǎng)絡(luò)進行訓(xùn)練,同時利用左右視圖的深度圖標(biāo)簽來約束網(wǎng)絡(luò)輸出結(jié)果。文獻[19]將多張圖片輸入網(wǎng)絡(luò),經(jīng)過特征提取后,通過計算圖像的可微單應(yīng)矩陣來構(gòu)建代價量,由三維卷積網(wǎng)絡(luò)優(yōu)化得到三維概率空間,并基于參考影像估計出深度信息。

        基于深度學(xué)習(xí)的估計深度圖算法主要依賴于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的性能,對圖像采集場景沒有嚴格要求,且在運行過程中不需要攝像機標(biāo)定及圖像校正等繁瑣操作,因此其效率明顯優(yōu)于傳統(tǒng)算法。然而,在單目估計深度、多目估計深度2個發(fā)展方向中,單目估計更具有實用性和推廣價值,且二維圖像的距離信息缺失使其更具有挑戰(zhàn)性。

        在單目圖像預(yù)測深度圖任務(wù)中,深度圖的預(yù)測存在深度信息不精確、圖像邊緣模糊以及細節(jié)缺失等問題。基于此,本文提出一種多層級特征融合編-解碼網(wǎng)絡(luò)結(jié)構(gòu),單目圖像經(jīng)過卷積后得到低維特征圖和高維特征圖,利用低維特征圖與高維特征圖之間的空間關(guān)系,分別在編碼器和解碼器上設(shè)計2種不同形式的多層級特征融合結(jié)構(gòu),以提高深度圖的預(yù)測精度。

        1 多層級特征融合編-解碼器網(wǎng)絡(luò)

        人類大腦在觀察一張圖像時,先會了解圖像中場景的大致布局,再根據(jù)場景中物體的相對位置,推斷出某一個物體的深度信息,經(jīng)過不斷地推斷場景中物體的相對位置,進而獲取場景中整個深度信息。本文提出一種多層級特征融合結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)采用端到端的編-解碼器結(jié)構(gòu),其優(yōu)勢在于具備抽象和重建能力,且在編碼器和解碼器中分別添加多層級融合結(jié)構(gòu),以提高網(wǎng)絡(luò)性能。

        1.1 編碼器多層級融合結(jié)構(gòu)

        目前,針對圖像預(yù)測密集深度圖像任務(wù)的研究中多數(shù)采用ResNet作為編碼器,這是因為其對圖像具有很強的抽象能力。本文采用ResNet101在ImageNet圖像分類任務(wù)中訓(xùn)練得到的預(yù)訓(xùn)練模型作為編碼器,采用遷移學(xué)習(xí)的方法加快網(wǎng)絡(luò)收斂,并防止梯度爆炸和梯度彌散現(xiàn)象的發(fā)生。ResNet網(wǎng)絡(luò)結(jié)構(gòu)簡單,殘差塊主要有BasicBlock和Bottleneck 2種形式,具體結(jié)構(gòu)如圖1所示。

        圖1 殘差塊的2種結(jié)構(gòu)形式Fig.1 Two structural forms of residuals block

        本文采用Bottleneck結(jié)構(gòu),將2個1×1卷積層替換BasicBlock中的一個3×3卷積層,實現(xiàn)了數(shù)據(jù)的降維和升維,同時加深了網(wǎng)絡(luò)結(jié)構(gòu),提高網(wǎng)絡(luò)的特征描述能力。編碼器的多層級融合思想主要來源于ResNet[12]網(wǎng)絡(luò)結(jié)構(gòu),如圖1所示,ResNet模塊的結(jié)構(gòu)是將經(jīng)過卷積的特征圖與恒等映射的殘差塊相加,相當(dāng)于將卷積前的特征與卷積后的特征進行相加融合。本文在ResNet結(jié)構(gòu)的基礎(chǔ)上,提出一種在更大范圍模塊間進行融合相加的結(jié)構(gòu),稱為多層級特征融合結(jié)構(gòu),具體如圖2中的編碼器(Encoder)部分所示。

        圖2 多層級特征融合編-解碼網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Multiple level feature fusion encoder and decoder network structure

        在編碼過程中,隨著卷積層數(shù)的遞進,輸出的特征圖分辨率呈現(xiàn)從高到低的變化趨勢,維度呈現(xiàn)從低到高的變化趨勢,特征圖的表征也從具象逐漸變?yōu)槌橄蟆T谔卣鲌D分辨率降低過程中,原始圖像中場景的內(nèi)在幾何空間關(guān)系會被逐步削弱。為了保持這種空間位置關(guān)系,將原始高分辨特征圖經(jīng)過調(diào)整之后,疊加到當(dāng)前輸出特征圖中,使得網(wǎng)絡(luò)能夠保留原始高分辨特征圖中的空間關(guān)系,以提升網(wǎng)絡(luò)對空間位置細節(jié)信息的保持能力。

        編碼器多層級融合結(jié)構(gòu)是通過跨層級調(diào)整模塊實現(xiàn)的,該模塊對上一層級的特征圖進行調(diào)整,并與當(dāng)前輸出特征圖相加,實現(xiàn)特征圖的多層級融合。該模塊主要由一個1×1卷積層和一個最大池化層(Max-pooling Layer)構(gòu)成,1×1卷積層提高了低維信息的通道數(shù),與高維特征圖融合時保證通道數(shù)一致;最大池化層將特征圖的尺寸縮小了一半,與高維特征圖大小保持一致。在以ResNet101為編碼器的基礎(chǔ)上,按一定形式添加多個跨層級調(diào)整模塊,從而提高編碼器的特征整合能力。編碼器如圖2中Encoder部分所示:單張RGB圖像經(jīng)過步長為2的7×7卷積以及批標(biāo)準(zhǔn)化(Batch Normalization,BN)層、線性整流函數(shù)(Rectified Linear Unit,ReLU)層與最大池化層,將特征圖大小由304×228降為76×57,再發(fā)送至ResNet101殘差塊中,且從左往右依次是Block-i(i=1,2,3,4)輸出端。在Block-1輸出端,將特征圖分別發(fā)送至Block-2及跨層級調(diào)整模塊,經(jīng)過跨層級調(diào)整模塊調(diào)整通道數(shù)和降低特征圖尺寸操作后,與Block-2輸出端的輸出相加,相加后的特征圖分別發(fā)送至Block-3和跨層級調(diào)整模塊中,接下來將跨層級調(diào)整模塊輸出與Block-3的輸出相加并發(fā)送至Block-4中,經(jīng)過Block-4編碼后輸出最終特征圖。至此,完成一張圖像的編碼任務(wù)。

        多層級融合的結(jié)構(gòu)形式有很多種,圖3、圖4表示編碼器的2種其他結(jié)構(gòu)。圖2采用了2個跨層級調(diào)整模塊,分別應(yīng)用在Block-1及Block-2輸出端。在圖3中,只保留了圖2中Block-2輸出端的一個跨層級調(diào)整模塊。圖4則在圖2的基礎(chǔ)上,在7×7卷積層輸出端添加一個跨層級調(diào)整模塊。下文將通過實驗驗證上述3種編碼器結(jié)構(gòu)的性能。

        圖3 編碼器單層級融合結(jié)構(gòu)Fig.3 Single layer level fusion structure of encoder

        圖4 編碼器三層級融合結(jié)構(gòu)Fig.4 Three layers level fusion structure of encoder

        1.2 解碼器結(jié)構(gòu)

        解碼器對編碼器輸出的10×8@2 048多通道、低分辨特征圖進行解碼,逐步降低通道數(shù)、提高分辨率,最終得到160×128的單通道、高分辨率的深度估計圖像。本文解碼器由4個上投影(Up-projection)模塊[11]構(gòu)成,上投影模塊結(jié)構(gòu)如圖5所示。該模塊結(jié)構(gòu)包含一個反池化(Un-pooling)操作、2個5×5卷積層與一個3×3卷積層的雙路卷積結(jié)構(gòu),其中,反池化操作將圖像放大一倍,雙路卷積結(jié)構(gòu)則對放大的圖像進行調(diào)整。解碼器如圖2中Decoder部分所示:首先,編碼器輸出的特征圖通過1×1卷積層調(diào)整通道數(shù),從原來的2 048降至1 024;其次,將特征圖依次輸入4個上投影模塊處理,接下來,對第2層、第3層上投影模塊輸出的特征圖進行融合模塊處理,并加權(quán)疊加到第4層上投影模塊的輸出上;最后,融合后的特征圖經(jīng)過一個3×3卷積輸出單通道的深度預(yù)測圖。其中,解碼器第1層上投影的輸出虛線S1并不能達到最優(yōu)結(jié)果,因此最終網(wǎng)絡(luò)結(jié)構(gòu)中沒有S1。

        圖5 上投影模塊Fig.5 Up-projection module

        1.3 解碼器多層級融合模塊

        解碼器的多層級融合思想主要來源于FPN網(wǎng)絡(luò)結(jié)構(gòu)[20],FPN通過構(gòu)建特征圖金字塔,融合多種分辨率下的特征,以提高獲取更高級別圖像語義的能力。在本文解碼器中,上投影模塊輸出的特征圖可看作是多分辨率下的特征,因此采用多層級融合結(jié)構(gòu)融合多分辨率特征,以提升網(wǎng)絡(luò)性能。

        由于高維特征圖的感受野較大,學(xué)習(xí)到的是局部特征組合而成的更加宏觀、抽象的結(jié)構(gòu)信息特征,而低維特征圖的感受野較小,學(xué)習(xí)到的是圖像的細節(jié)信息和局部特征。因此,將高維特征圖中的空間信息與低維特征圖的細節(jié)信息和局部特征相結(jié)合,通過優(yōu)勢互補,可以提高預(yù)測圖像的質(zhì)量。

        解碼器多層級融合模塊結(jié)構(gòu)如圖6所示,第2層、第3層上投影模塊的輸出分別為S2、S3。其中,S3經(jīng)過上采樣、3×3卷積處理,再經(jīng)過超參數(shù)λ1加權(quán)后,與S2經(jīng)上采樣、超參數(shù)λ2加權(quán)結(jié)果相疊加后輸出。融合模塊的目的是將感受野更大的S2和S3疊加至感受野較小的S4上,由于S3相對S2感受野小,因此在融合模塊中對S3增加一個3×3卷積進行調(diào)整。如果融合模塊的輸出Sf與主干輸出S4直接相加,Sf會干擾預(yù)測深度圖的精度,因此本文使用2個較小的超參數(shù)λ1和λ2對S3和S2削弱,降低融合模塊輸出數(shù)據(jù)對主干數(shù)據(jù)的影響。

        圖6 解碼器融合模塊Fig.6 Fusion module of decoder

        1.4 損失函數(shù)

        選用L1范數(shù)作為網(wǎng)絡(luò)結(jié)構(gòu)的損失函數(shù),用以約束標(biāo)簽與預(yù)測圖像之間對應(yīng)像素的差異來監(jiān)督訓(xùn)練。L1范數(shù)定義如式(1)所示:

        (1)

        2 實驗與結(jié)果分析

        2.1 網(wǎng)絡(luò)參數(shù)配置

        本文實驗在Ubuntu-16.04上完成,內(nèi)存大小為16 GB,顯卡使用NVIDIA Titan Xp,深度學(xué)習(xí)框架采用Pytorch-0.4.0。在訓(xùn)練過程中,編碼器ResNet101的初始化采用在ImageNet圖像分類任務(wù)獲得的預(yù)訓(xùn)練模型,網(wǎng)絡(luò)優(yōu)化器采用SGD,動量(Momentum)設(shè)置為0.9,學(xué)習(xí)率初始設(shè)置為0.4,隨著訓(xùn)練步數(shù)不斷衰減,λ1和λ2超參數(shù)均設(shè)定為0.1。實驗過程中采用邊訓(xùn)練邊測試的模式,大約經(jīng)過40個Epoch后,網(wǎng)絡(luò)才達到收斂狀態(tài),并選取測試最佳模型為最終結(jié)果。

        2.2 評價指標(biāo)

        目前,預(yù)測深度圖相關(guān)研究在評估預(yù)測深度圖質(zhì)量時,常采用平均相對誤差(Average Relative Error,ARE)、對數(shù)平均誤差(Logarithmic Mean Error,LME)、均方根誤差(Root Mean Square Error,RMSE)與閾值準(zhǔn)確率(Threshold Accuracy,TA)4種評價指標(biāo)進行評價,其計算方法分別如式(2)~式(5)所示:

        (2)

        (3)

        (4)

        (5)

        其中,y*為真實深度值,y為預(yù)測深度值,式(5)中的thr=1.25,1.252,1.253。在深度圖質(zhì)量評價指標(biāo)中,δ1<1.25是評價深度信息準(zhǔn)確度最重要的指標(biāo),其反映整個深度圖中深度準(zhǔn)確像素的占比。

        2.3 數(shù)據(jù)集與預(yù)處理

        基于深度學(xué)習(xí)預(yù)測深度圖任務(wù)可采用的數(shù)據(jù)集包括有NYUv2[21]、KITTI[22]、Make3D、Places365與SUNCG等。目前,室內(nèi)預(yù)測深度圖多采用NYUv2數(shù)據(jù)集,室外預(yù)測深度圖多采用KITTI數(shù)據(jù)集。NYUv2數(shù)據(jù)集包括3個城市的464個室內(nèi)場景,總共有408 473張RGB-D圖像對,數(shù)據(jù)集由Kinect采集生成,RGB圖像分辨率為480×640×3,Depth圖像分辨率為480×640。官方在464個場景中選取249個場景用于訓(xùn)練,其余215個場景用于測試。本文對數(shù)據(jù)集的劃分和測試方式,與表1中列出的文獻相同,在249個場景中等間隔抽取圖像對來構(gòu)建訓(xùn)練數(shù)據(jù)集,總共有47 584個未精標(biāo)圖像對;同樣,在215個測試場景中選取654個精標(biāo)圖像對構(gòu)建測試數(shù)據(jù)集。KITTI數(shù)據(jù)集通過激光雷達、光學(xué)鏡頭與攝像機等硬件設(shè)備采集了市區(qū)、鄉(xiāng)村、高速公路與校園等總共61個室外場景。RGB圖像分辨率為375×1 242×3,Depth圖像分辨率為228×912。在KITTI數(shù)據(jù)集的選擇上,本文從32個場景中取得46 413個圖像對構(gòu)建訓(xùn)練集,在29個場景中選取697個圖像對構(gòu)建測試集。

        在數(shù)據(jù)預(yù)處理過程中,NYUv2和KITTI數(shù)據(jù)集改變圖像大小后再發(fā)送至網(wǎng)絡(luò)結(jié)構(gòu),并對RGB-Depth圖像對進行隨機旋轉(zhuǎn)、水平反轉(zhuǎn)等操作,以擴大數(shù)據(jù)集。

        2.4 實驗結(jié)果與對比

        為了驗證本文方法提出網(wǎng)絡(luò)結(jié)構(gòu)的有效性,分別在NYUv2和KITTI數(shù)據(jù)集上進行訓(xùn)練與測試,為保證對比的公平性,實驗將深度距離上限設(shè)置為80 m,并將得到的實驗結(jié)果與文獻[9,11,13]、文獻[23-25]、文獻[26-28]方法進行對比,具體如表1、表2所示。其中,最優(yōu)結(jié)果加粗表示。

        表1 本文網(wǎng)絡(luò)與先進網(wǎng)絡(luò)在NUYv2數(shù)據(jù)集上的實驗結(jié)果對比Table 1 Comparison of experimental results between the proposed network and advanced network on NUYv2 dataset

        表2 本文網(wǎng)絡(luò)與先進網(wǎng)絡(luò)在KITTI數(shù)據(jù)集上的實驗結(jié)果對比Table 2 Comparison of experimental results between the proposed network and advanced network on KITTI dataset

        從表1可以看出:相比其他網(wǎng)絡(luò),本文網(wǎng)絡(luò)在6個評價指標(biāo)中,有4個指標(biāo)結(jié)果最優(yōu),且最重要的δ1參數(shù)有較大提升;與文獻[25]網(wǎng)絡(luò)相比,本文網(wǎng)絡(luò)的δ1提高了1.849%,RMSE降低了14.1%;與文獻[24]網(wǎng)絡(luò)相比,本文網(wǎng)絡(luò)預(yù)測深度圖的δ1提高了2.86%,RMSE降低了6.67%,這說明本文所提網(wǎng)絡(luò)在NYUv2數(shù)據(jù)集上表現(xiàn)更佳。

        從表2可以看出:與其他4種先進網(wǎng)絡(luò)相比,本文網(wǎng)絡(luò)在6種評價指標(biāo)中,有4個指標(biāo)結(jié)果最優(yōu),且最重要的δ1參數(shù)有較大提升;本文網(wǎng)絡(luò)預(yù)測深度圖的δ1為0.864,與文獻[27]網(wǎng)絡(luò)相比,本文網(wǎng)絡(luò)的δ1提高了6.6%,RMSE降低了4.3%;與文獻[28]網(wǎng)絡(luò)相比,本文網(wǎng)絡(luò)的δ1提高了5.6%,這說明本文所提網(wǎng)絡(luò)在KITTI數(shù)據(jù)集上也具有優(yōu)勢。

        2.5 網(wǎng)絡(luò)測試時間對比

        圖7表示本文網(wǎng)絡(luò)與其他4種先進網(wǎng)絡(luò)的測試時間與均方根誤差(RMSE)結(jié)果對比。實驗選用NYUv2數(shù)據(jù)集,文獻[11]采用編解碼結(jié)構(gòu)的網(wǎng)絡(luò),文獻[25,29]提出基于條件隨機場的神經(jīng)網(wǎng)絡(luò)。從圖7可以看出,本文網(wǎng)絡(luò)在取得最低誤差的同時,單張圖像處理時間也最短;本文網(wǎng)絡(luò)的計算時間遠低于文獻[25,29]網(wǎng)絡(luò),且相比文獻[28]提出的結(jié)構(gòu)注意力引導(dǎo)網(wǎng)絡(luò),其測試時間降低了41.6%。因此,與其他先進網(wǎng)絡(luò)相比,本文提出的多層級特征融合結(jié)構(gòu)的單目圖像深度估計網(wǎng)絡(luò)具有更高的準(zhǔn)確率和計算效率。

        圖7 本文網(wǎng)絡(luò)與先進網(wǎng)絡(luò)的測試時間與RMSE對比Fig.7 Comparison of test time and RMSE between theproposed network and advanced network

        2.6 深度圖的主觀對比

        實驗將真實深度、文獻[11]預(yù)測圖與本文預(yù)測圖進行比較,如圖8所示。從圖8可以看出,在第一行走廊圖像中,文獻[11]預(yù)測圖中黑色虛線標(biāo)記框處并未顯示房梁部分,然而本文預(yù)測圖在相同位置有與真實深度相同的房梁部分;在第二行書架圖像中,柜子的左邊有白色的門,本文預(yù)測圖黑色虛線標(biāo)記框處表明了門的深度信息,然而文獻[11]預(yù)測圖丟失了部分深度信息,同時,本文預(yù)測圖中的柜子邊緣清晰可見;在第三行客廳圖像中,本文和文獻[11]預(yù)測圖均可以預(yù)測出客廳中桌子的深度,但是文獻[11]沒有得到圖像左下角沙發(fā)的深度信息,而本文預(yù)測圖在左下角的相對應(yīng)位置上估計出沙發(fā)的深度信息。通過對比可以看出,本文預(yù)測圖的深度信息更加完整、準(zhǔn)確,同時還保持了圖像的細節(jié)信息。

        圖8 文獻[11]與本文預(yù)測深度圖對比Fig.8 Comparison of the predicted depth maps byreference[11] and this paper

        3 網(wǎng)絡(luò)結(jié)構(gòu)測試

        本節(jié)通過對比網(wǎng)絡(luò)結(jié)構(gòu)中模塊的不同形式來說明本文網(wǎng)絡(luò)結(jié)構(gòu)性能最佳。其中,實驗過程中的數(shù)據(jù)集均采用NYUv2數(shù)據(jù)集,且數(shù)據(jù)劃分、數(shù)據(jù)預(yù)處理及網(wǎng)絡(luò)參數(shù)配置與上文相同。

        3.1 多層級融合結(jié)構(gòu)測試

        為了驗證本文提出的多層級融合結(jié)構(gòu)對網(wǎng)絡(luò)性能的提升,實驗對以下4種結(jié)構(gòu)進行對比:第1種是基本編-解碼結(jié)構(gòu),沒有跨層級的融合;第2種僅在編碼器中增加多層級融合;第3種是僅在解碼器中增加多層級融合結(jié)構(gòu);第4種是編-解碼器兩者都加入多層級融合,結(jié)果如表3所示。其中,最優(yōu)結(jié)果加粗表示。從表3可以看出:當(dāng)同時采用2種融合結(jié)構(gòu)時,有5個評價指標(biāo)結(jié)果達到最優(yōu),這說明了本文提出的多層級融合結(jié)構(gòu)對深度預(yù)測任務(wù)有效;此外,僅對編碼器添加多層級融合結(jié)構(gòu)時,網(wǎng)絡(luò)性能也得到了提升;僅當(dāng)在解碼器添加多層級融合結(jié)構(gòu)時,網(wǎng)絡(luò)性能反而下降,這可能是由于編碼器與解碼器的能力不匹配而導(dǎo)致的結(jié)果。

        表3 多層級融合結(jié)構(gòu)性能對比Table 3 Performance comparison of multiple level fusion structures

        3.2 編碼器多層級融合結(jié)構(gòu)測試

        多層級融合的結(jié)構(gòu)形式有很多種,本文對多種結(jié)構(gòu)和調(diào)整模塊進行對比分析,表4列舉了編碼器中具有代表性的3種結(jié)構(gòu),分別為圖2中的雙層級結(jié)構(gòu)、圖3中的單層級結(jié)構(gòu)和圖4中的三層級結(jié)構(gòu)。其中,最優(yōu)結(jié)果加粗表示。在實驗過程中,編碼器的多層級融合結(jié)構(gòu)會發(fā)生變化,而網(wǎng)絡(luò)結(jié)構(gòu)的其他部分仍保持不變。從表4可以看出,雙層級結(jié)構(gòu)的性能最優(yōu),這說明融合的層級并不是越多越好,過多的層級會干擾高維特征圖的輸出,而過低的層級不能保證有效信息的導(dǎo)入。因此,雙層級結(jié)構(gòu)可以在低維干擾和信息導(dǎo)入之間達到平衡狀態(tài)。

        表4 編碼器跨層級結(jié)構(gòu)性能對比Table 4 Performance comparison of encodersacross hierarchies

        3.3 解碼器上投影模塊測試

        上投影模塊的結(jié)構(gòu)有很多種,本文列舉了4種典型結(jié)構(gòu)進行對比,如圖9所示。其中,圖9(a)是本文采用的上投影結(jié)構(gòu),圖9(b)中2個5×5卷積核均采用空洞卷積的方法來增加感受野,其膨脹率為1,圖9(c)增添了一條跳躍連接,期望獲取更多的局部特征和細節(jié)信息,圖9(d)用Inception-v1替代雙路卷積部分,用以簡化計算量。

        圖9 不同結(jié)構(gòu)的上投影模塊Fig.9 Up-projection modules of different structures

        在實驗過程中,只有解碼器中上投影模塊結(jié)構(gòu)發(fā)生了變化,網(wǎng)絡(luò)結(jié)構(gòu)的其他部分仍保持不變。解碼器上不同結(jié)構(gòu)的上投影模塊對比如表5所示。其中,最優(yōu)結(jié)果加粗表示。從表5可以看出:圖9(a)模塊結(jié)構(gòu)性能最佳;圖9(b)模塊結(jié)構(gòu)雖然增加了感受野,但是忽略了周圍緊鄰的信息影響;圖9(c)模塊結(jié)構(gòu)中增加了5×5通道數(shù)期望獲取更多的圖像特征,反而造成數(shù)據(jù)冗余;圖9(d)模塊結(jié)構(gòu)中采用Inception-v1結(jié)構(gòu)降低參數(shù)量,但是參數(shù)量的減少造成了恢復(fù)性能降低。

        表5 解碼器中上投影模塊結(jié)構(gòu)對比Table 5 Comparison of up-projection model structuresin decoder

        本文通過實驗驗證上投影模塊中的上采樣算法,結(jié)果表明,亞像素卷積[30]的效果優(yōu)于反池化、雙線性插值及反卷積等算法,因此本文采用亞像素卷積。

        3.4 解碼器多層級融合結(jié)構(gòu)測試

        如圖10所示:單層融合結(jié)構(gòu)僅將S3輸入到融合模塊中,中間經(jīng)過上采樣與3×3卷積操作,之后再經(jīng)過超參數(shù)加權(quán)操作;雙層結(jié)構(gòu)將S2、S3同時輸入到融合模塊中,S3與單層融合模塊操作相同,S2僅經(jīng)過上采樣和超參數(shù)加權(quán)操作;三層結(jié)構(gòu)將S1、S2、S3同時輸入到融合模塊,S2、S3輸入與雙層融合模塊操作相同,S1僅經(jīng)過上采樣和超參數(shù)加權(quán)操作。在實驗過程中,只有解碼器的多層級融合模塊結(jié)構(gòu)發(fā)生改變,而網(wǎng)絡(luò)結(jié)構(gòu)的其他部分保持不變。

        圖10 解碼器的不同層級融合Fig.10 Different levels fusion of decoder

        與編碼器結(jié)構(gòu)分析類似,實驗分別對單層、雙層和三層融合結(jié)構(gòu)進行對比,結(jié)果如表6所示,其中,最優(yōu)結(jié)果加粗表示。從表6可以看出:S1、S2與S3同時存在時,δ1指標(biāo)反而下降,高維信息中的空間信息未經(jīng)過充分解碼,還處于一個抽象狀態(tài),如果將高維信息與低維信息在融合模塊中融合,反而干擾了預(yù)測的精準(zhǔn)度,因此最終網(wǎng)絡(luò)結(jié)構(gòu)中不包含S1;當(dāng)S3單獨存在時,其δ1指標(biāo)明顯提高,可見調(diào)整后有利于優(yōu)化預(yù)測圖像,但是其缺少相對應(yīng)的空間關(guān)系,因此其結(jié)果不能達到與S2、S3同時存在時的效果。

        表6 解碼器中融合模塊對比 Table 6 Comparison of fusion module in decoder

        4 結(jié)束語

        針對單目圖像預(yù)測深度圖任務(wù)中存在的信息不精確、細節(jié)缺失等問題,本文提出多層級特征融合結(jié)構(gòu)的單目圖像深度估計網(wǎng)絡(luò)。通過對編碼器ResNet101與解碼器進行多層級特征融合,提高其特征整合能力,并在NYUv2數(shù)據(jù)集和KITTI數(shù)據(jù)集上進行對比實驗。實驗結(jié)果表明,在相同的測試環(huán)境和評價指標(biāo)下,該網(wǎng)絡(luò)在單目深度估計任務(wù)中性能最佳,不僅能夠提高預(yù)測深度圖的精度,而且還保留了細節(jié)信息。雖然本文網(wǎng)絡(luò)結(jié)構(gòu)在現(xiàn)有評價指標(biāo)上得到了提升,但是預(yù)測圖像邊緣仍呈模糊狀態(tài),不符合人類的直觀感受。因此,下一步將結(jié)構(gòu)相似度參數(shù)與圖像梯度相結(jié)合作為深度圖像評價指標(biāo),利用該指標(biāo)評判預(yù)測深度圖像的優(yōu)劣,以改善預(yù)測深度圖像邊緣較為模糊的現(xiàn)狀。

        猜你喜歡
        深度圖編碼器層級
        軍工企業(yè)不同層級知識管理研究實踐
        基于軍事力量層級劃分的軍力對比評估
        基于深度圖的3D-HEVC魯棒視頻水印算法
        基于FPGA的同步機軸角編碼器
        基于PRBS檢測的8B/IOB編碼器設(shè)計
        一種基于局部直方圖匹配的深度編碼濾波算法
        任務(wù)期內(nèi)多層級不完全修復(fù)件的可用度評估
        疊加速度譜在鉆孔稀少地區(qū)資料解釋中的應(yīng)用
        科技視界(2016年2期)2016-03-30 11:17:03
        JESD204B接口協(xié)議中的8B10B編碼器設(shè)計
        電子器件(2015年5期)2015-12-29 08:42:24
        多總線式光電編碼器的設(shè)計與應(yīng)用
        亚洲AV无码一区二区一二区教师| 亚瑟国产精品久久| 少妇被躁爽到高潮无码文| 日韩欧美亚洲中字幕在线播放| 国产精品很黄很色很爽的网站| 日本午夜理论片在线观看| 性裸交a片一区二区三区| 亚洲精品成人专区在线观看| 亚欧免费无码AⅤ在线观看| 蜜桃高清视频在线看免费1| 久久婷婷五月国产色综合| 亚洲国产综合精品 在线 一区| 日韩精品久久久中文字幕人妻| 中国黄色偷拍视频二区| 亚洲精品乱码久久久久蜜桃| 人妻少妇精品中文字幕av蜜桃| 国产精品国产三级在线高清观看| 日韩亚洲在线一区二区| 国产成人无码a区在线观看导航 | 99久久久国产精品免费蜜臀| 精品2021露脸国产偷人在视频| 玩弄极品少妇被弄到高潮| 麻豆精品一区二区av白丝在线| 欧美人与物videos另类| 色窝窝无码一区二区三区2022| 日本免费三级一区二区| 久久精品国产亚洲av麻豆长发| 精品国产v无码大片在线观看| 无码国产一区二区色欲| 在线播放草猛免费视频| 99精品人妻少妇一区二区| 在线观看亚洲AV日韩A∨| 在线视频精品少白免费观看| 内射干少妇亚洲69xxx| 国产精品内射后入合集| 国产丝袜高跟美腿一区在线| 国产av剧情一区二区三区| 国产在线一区二区三区av| 久久夜色精品国产亚洲噜噜| 美女免费观看一区二区三区| 亚洲精品国产suv一区88|