亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于金字塔分割注意力網(wǎng)絡(luò)的單目深度估計(jì)方法

        2023-07-03 14:11:46李文舉李夢穎儲(chǔ)王慧
        計(jì)算機(jī)應(yīng)用 2023年6期
        關(guān)鍵詞:深度方法

        李文舉,李夢穎,崔 柳,儲(chǔ)王慧,張 益,高 慧

        (1.上海應(yīng)用技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與信息工程學(xué)院,上海 201418;2.上海應(yīng)用技術(shù)大學(xué) 藝術(shù)與設(shè)計(jì)學(xué)院,上海 201418)

        0 引言

        深度信息往往應(yīng)用于三維(Three-Dimensional,3D)重建、自動(dòng)駕駛、虛擬現(xiàn)實(shí)等多個(gè)領(lǐng)域,然而單目相機(jī)無法獲得三維場景中物體的深度信息,需要在一定時(shí)間序列內(nèi)才能有前后幀的估算深度,因此深度信息的預(yù)測是計(jì)算機(jī)視覺研究的重點(diǎn)問題之一。

        單目深度估計(jì)比較經(jīng)典的算法有運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)(Structure From Motion,SFM)信息法[1]、光照恢復(fù)結(jié)構(gòu)(Shape From Shading,SFS)信息法[2]等,這些算法主要從運(yùn)動(dòng)和陰影中恢復(fù)形狀,但是精度不高,無法滿足實(shí)際的要求。近年來,深度學(xué)習(xí)不斷應(yīng)用于各行各業(yè)。它包含各種網(wǎng)絡(luò)模型,如深度置信網(wǎng)絡(luò)、自編碼(Auto Encoder,AE)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)等,利用深度學(xué)習(xí)強(qiáng)大的建模優(yōu)勢以及網(wǎng)絡(luò)模型對內(nèi)在數(shù)據(jù)相關(guān)性的強(qiáng)大學(xué)習(xí)能力可以對單目圖像進(jìn)行較為精確的深度估計(jì)[3]。隨著各種網(wǎng)絡(luò)在圖像領(lǐng)域的成功應(yīng)用,越來越多的學(xué)者使用編碼器-解碼器解決單目圖像深度預(yù)測問題[4-6],然而編碼器網(wǎng)絡(luò)在下采樣過程中會(huì)嚴(yán)重扭曲三維重建中深度預(yù)測的準(zhǔn)確性。為了解決該問題,文獻(xiàn)[7]中將包含更多細(xì)節(jié)信息的淺層特征與深層特征進(jìn)行融合。雖然在減少深度誤差方面具有很好的性能,但受到場景不穩(wěn)定的限制,仍然會(huì)錯(cuò)誤地估計(jì)三維場景中的相對深度,或者對一些數(shù)據(jù)集(包含多張占據(jù)整個(gè)平面的圖片)預(yù)測效果較差[8]。

        目前基于單目圖像深度估計(jì)依然存在兩大問題:1)對深度梯度變化劇烈的邊緣預(yù)測不準(zhǔn)確;2)錯(cuò)誤預(yù)估深度最深區(qū)域。本文提出一種基于金字塔分割注意力(Pyramid Split Attention,PSA)網(wǎng)絡(luò)的單目深度估計(jì)方法(monocular depth estimation method based on Pyramid Split attention Network,PS-Net),通過向網(wǎng)絡(luò)中輸入RGB(Red Green Blue)圖,利用新設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)特征進(jìn)行訓(xùn)練,有效提高深度估計(jì)的精度。本文方法如下:PS-Net 基于邊界引導(dǎo)和場景聚合網(wǎng)絡(luò)(Boundary-induced and Scene-aggregated Network,BS-Net)[8]的結(jié)構(gòu),引入PSA 模塊,改進(jìn)解碼器中的激活函數(shù)。新的網(wǎng)絡(luò)通過添加PSA 模塊將低級(jí)特征作為輸入,提取出更多的細(xì)節(jié)信息,通過新的Mish 激活函數(shù)[9],有效提升網(wǎng)絡(luò)的性能,獲得精確的深度圖。

        本文的主要工作如下:

        1)提出基于金字塔分割注意力網(wǎng)絡(luò)的單目深度估計(jì)方法,用于估計(jì)單目圖像的深度信息。通過該網(wǎng)絡(luò)提取出的多尺度信息具有更好的像素級(jí)注意力,在預(yù)測邊緣深度和深度最深的區(qū)域表現(xiàn)出了較好的性能。

        2)在解碼器中使用Mish 激活函數(shù),利用它的平滑性、無上界、有下界、非單調(diào)性等特點(diǎn)提高網(wǎng)絡(luò)的性能。

        3)在NYUD v2(New York University Depth dataset v2)和iBims-1(independent benchmark images and matched scans v1)數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),結(jié)果表明相較于對比方法,本文方法具有更好的效果,驗(yàn)證了本文方法的有效性。

        1 相關(guān)工作

        單目圖像的深度估計(jì)方法可分為兩大類:基于特征線索的深度估計(jì)算法和基于機(jī)器學(xué)習(xí)的深度估計(jì)算法。

        基于特征線索的深度估計(jì)算法在估算深度時(shí)需要相機(jī)捕獲各種啟發(fā)式線索,常用的單目特征線索有陰影、線性透視、相對高度、遮擋和運(yùn)動(dòng)線索等。此外還可以從紋理[10]恢復(fù)深度,但是該方法僅適用于紋理信息明顯的物體,主要通過外部的紋理線索預(yù)測物體表面的形狀。最早的估計(jì)圖像深度的方法就是采用這些輔助的線索特征,但是這些線索的獲取對光照的要求十分嚴(yán)格,因?yàn)橹亟▓D像的三維形狀主要通過光照反射模型利用圖像中的亮度信息計(jì)算法向量,在復(fù)雜場景下難以實(shí)現(xiàn),并且得到的特征都不穩(wěn)定。

        隨著人工智能技術(shù)的不斷涌現(xiàn),機(jī)器學(xué)習(xí)的方法不斷應(yīng)用于各個(gè)領(lǐng)域,在深度估計(jì)方向也得到了很好的效果?;趥鹘y(tǒng)的機(jī)器學(xué)習(xí)方法[11-13]嘗試解決深度估計(jì)問題,Saxena等[11]利用馬爾可夫隨機(jī)場(Markov Random Field,MRF)學(xué)習(xí)輸入圖像特征與輸出深度之間的對應(yīng)關(guān)系,實(shí)現(xiàn)對深度的預(yù)測。之后深度估計(jì)有了新的研究方向,基于深度學(xué)習(xí)的深度估計(jì)方法逐漸成為研究重點(diǎn),主要分為無監(jiān)督的深度學(xué)習(xí)方法和有監(jiān)督的深度學(xué)習(xí)方法。

        針對有監(jiān)督的學(xué)習(xí)方法,Eigen等[14]通過兩個(gè)尺度的神經(jīng)網(wǎng)絡(luò)的方法對RGB 圖像進(jìn)行深度預(yù)測:第一個(gè)尺度預(yù)測圖像的全局信息,第二個(gè)尺度更精細(xì)地預(yù)測局部信息。Eigen等[15]根據(jù)上述的研究引入了一個(gè)統(tǒng)一的多尺度網(wǎng)絡(luò),該網(wǎng)絡(luò)以VGG(Visual Geometry Group)網(wǎng)絡(luò)為基礎(chǔ),在文獻(xiàn)[14]的基礎(chǔ)上,改進(jìn)第一尺度和第二尺度的網(wǎng)絡(luò),引入第三個(gè)尺度提取圖像更多的細(xì)節(jié)信息,通過CNN 提高特征圖的分辨率。同時(shí),Liu等[16]為了提高深度估計(jì)的精度,提出將連續(xù)條件隨機(jī)場與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合的思想,之后經(jīng)過研究人員的不斷探索,逐漸演變出CNN 改進(jìn)模型[17-18]。Ali 等[19]針對大型網(wǎng)絡(luò)往往會(huì)扭曲低分辨率層中的邊緣細(xì)節(jié),導(dǎo)致物體邊緣附近的深度預(yù)測較差,提出一種顯示解耦圖像低頻和高頻區(qū)域?qū)?yīng)的物體和邊緣的深度特征方法。該方法使用一個(gè)具有自適應(yīng)卷積單元和多元融合單元的輕量級(jí)編碼器-解碼器框架,極大減少了參數(shù)量并且沒有任何顯著的性能損失?;谟斜O(jiān)督學(xué)習(xí)方式的單目深度估計(jì)方法往往需要大量的真實(shí)數(shù)據(jù)進(jìn)行對照訓(xùn)練,對于數(shù)據(jù)集中真實(shí)數(shù)據(jù)的獲取成本較高,往往需要一些精密的儀器設(shè)備,并且這些設(shè)備采集的深度值受物體移動(dòng)和反光的環(huán)境影響,導(dǎo)致深度預(yù)測不準(zhǔn)確,因此,有人提出無監(jiān)督的深度學(xué)習(xí)方式。

        無監(jiān)督學(xué)習(xí)通過圖像對之間的幾何關(guān)系重新構(gòu)建對應(yīng)的圖像,然后通過圖像重建損失監(jiān)督網(wǎng)絡(luò)的訓(xùn)練。Garg等[20]提出利用立體圖像對的方法進(jìn)行無監(jiān)督單目深度估計(jì),通過雙目立體理論和像素點(diǎn)之間的對應(yīng)關(guān)系間接獲得單目圖像深度。Godard等[21]通過對極幾何約束對上述方法進(jìn)行了改進(jìn),使輸入圖像生成視差圖,通過左右視差一致性優(yōu)化性能。雖然無監(jiān)督的學(xué)習(xí)方式能夠避免有監(jiān)督學(xué)習(xí)中數(shù)據(jù)采集的缺點(diǎn),但是沒有真實(shí)數(shù)據(jù)的對照學(xué)習(xí),一定程度上降低了深度估計(jì)的精度。

        2 PS-Net深度估計(jì)網(wǎng)絡(luò)

        2.1 網(wǎng)絡(luò)結(jié)構(gòu)

        有監(jiān)督學(xué)習(xí)方式的深度估計(jì)網(wǎng)絡(luò)通過對輸入RGB 圖片和對應(yīng)真實(shí)的深度值進(jìn)行學(xué)習(xí)訓(xùn)練,得到最優(yōu)的網(wǎng)絡(luò)模型,通過將新的圖片輸入到該模型中就可以得到圖片對應(yīng)的深度值。圖1 為本文設(shè)計(jì)的PS-Net 深度估計(jì)網(wǎng)絡(luò)結(jié)構(gòu),PS-Net以BS-Net 為基礎(chǔ)。該網(wǎng)絡(luò)使用傳統(tǒng)的編碼器-解碼器(Encoder-Decoder)結(jié)構(gòu),融合了深度相關(guān)模塊DCE(Depth Correlation Encoder),添加了條紋細(xì)化(Stripe Refinement,SR)模塊和 多層邊 界融合(Bottom-Up Boundary Fusion,BUBF)模塊。本文在此基礎(chǔ)上引入PSA 模塊,并使用Mish 激活函數(shù)替換解碼器中的ReLU(Rectified Linear Unit)函數(shù)。網(wǎng)絡(luò)整體采用ResNet50(Residual Network)作為基礎(chǔ)的骨干網(wǎng)絡(luò),下采樣的第4、5 階段采用空洞卷積替換原有3×3 卷積的方式,所以獲得較大的感受野并減少計(jì)算量,并且自下而上地依次輸入BUBF。BUBF 將淺層的信息逐層傳入網(wǎng)絡(luò)深處,便于提取出下采樣中深度的變化信息以及高分辨率中存在的信息,獲得豐富的細(xì)節(jié)信息,BUBF 模塊的輸出送入SR中。深度相關(guān)模塊以編碼器的輸出作為輸入,利用空洞卷積和金字塔場景編碼器捕獲長距離像素和多尺度區(qū)域的相關(guān)性,輸出解碼器中。解碼器中主要包括四步:前兩步通過大核細(xì)化塊(large-kernel Refinement Block,l-RB)壓縮通道并保持分辨率,本文在l-RB 中使用Mish 激活函數(shù),如圖2 所示;后兩步采用l-RB 和上采樣結(jié)合的方式,類似文獻(xiàn)[22]中的向上投影。PSA 模塊的輸入為數(shù)據(jù)集下采樣之后得到的114×152×64 的圖片,將淺層圖片作為輸入,增強(qiáng)了特征圖中細(xì)節(jié)的表征能力,提高深度預(yù)測的精度,輸出與BUBF 一同送入SR 模塊。SR 將解碼器的輸出結(jié)果與BUBF 和PSA 模塊的輸出進(jìn)行融合,輸出最終需要的深度圖。按照上述方法獲得的深度圖深度誤差較小。

        圖1 PS-Net深度估計(jì)網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of PS-Net depth estimation network

        圖2 大核細(xì)化塊Fig.2 Large-kernel refinement block

        2.2 金字塔分割注意力模塊

        在深度估計(jì)中受場景以及數(shù)據(jù)集的影響,在估計(jì)深度邊緣梯度變化劇烈和深度最大的區(qū)域往往無法達(dá)到理想的效果。為了解決這些問題,本文提出PS-Net,保留了原有網(wǎng)絡(luò)的優(yōu)勢,并在此基礎(chǔ)上融合PSA 模塊,該模塊通過使用多尺度卷積核和全局平均池化的操作增強(qiáng)了多尺度和跨信道之間的信息相關(guān)性[23],提高了邊緣和最遠(yuǎn)距離預(yù)測的精度。

        PSA 模塊如圖3 所示,主要通過以下幾步內(nèi)容實(shí)現(xiàn):首先將輸入圖像通過拆分和融合(SPlit and Concat,SPC)模塊按照通道劃分為S組,通過不同大小的卷積核得到通道級(jí)別上的含有多尺度信息的特征圖;然后將SPC 模塊的輸出送入權(quán)重模塊獲得不同通道上的權(quán)重,進(jìn)而得到每個(gè)尺度特征圖的注意力權(quán)值,并對S組的注意力權(quán)值進(jìn)行歸一化;最后通過上述的操作將多尺度的空間信息和跨通道注意力整合到每個(gè)分割特征組的塊中,產(chǎn)生更好的像素級(jí)注意力。

        圖3 PSA模塊Fig.3 PSA module

        SPC 模塊如圖4 所示,為了得到不同的空間分辨率和深度,將輸入張量X從通道級(jí)別上劃分成S組,取S=4,每組Xi進(jìn)行不同尺度的卷積ki=2 × (i+1)+1(i=0,1,…,S-1),以便于獲得較大的感受野。為了避免由于卷積核尺寸的增加導(dǎo)致的計(jì)算量變大,對每一組的特征進(jìn)行分組卷積,分組數(shù)量為G=2(ki-1)/2,最后對得到的不同尺度的特征圖在通道Fi上進(jìn)行拼接,拼接函數(shù)如式(1)所示:

        圖4 SPC模塊Fig.4 SPC module

        其中F表示特征圖。

        然后將SPC 模塊的輸出作為擠壓和激勵(lì)(Squeeze-and-Excitation,SE)權(quán)重的輸入如圖5 所示,對SPC 模塊得到的多尺度特征圖進(jìn)行擠壓操作Fsq(·),通過全局平均池化的操作編碼全局的信息,如式(2)所示;然后進(jìn)行激勵(lì)操作Fex(·,Wi),通過兩層全連接和激活函數(shù)以自適應(yīng)校準(zhǔn)通道關(guān)系,如式(3)所示,獲得信道注意權(quán)重信息;最后對不同通道拼接的注意力值進(jìn)行歸一化,與SE 模塊的輸入進(jìn)行加權(quán)融合Fscale(·,·)。

        圖5 SE權(quán)重模塊Fig.5 SE weight module

        其中:H和W分別表示特征圖的高和寬,gc表示第c通道對特征圖進(jìn)行全局平局池化操作后得到的信息,wc表示第c通道特征圖通過兩層全連接和激活函數(shù)之后得到的信息,δ表示ReLU 激活函數(shù)的操作,W0和W1表示全連接層操作。

        2.3 Mish激活函數(shù)

        本文使用Mish 激活函數(shù)[9]代替解碼器中l(wèi)-RB 中的ReLU激活函數(shù)。Mish 是一種新的平滑且非單調(diào)的激活函數(shù),被定義為:

        其中δ(x)=ln(1+ex)是一個(gè)softplus 激活函數(shù)。Mish 函數(shù)的圖像如圖6 所示。

        圖6 Mish函數(shù)圖像Fig.6 Mish function image

        與ReLU 相比,Mish 函數(shù)具有下界、無上界、平滑、非單調(diào)的特點(diǎn),性能比較高。具體地,有下界無上界:無上界避免在訓(xùn)練過程中因?yàn)轱柡蛯?dǎo)致的梯度消失,負(fù)值部分保證信息的流動(dòng),優(yōu)于ReLU 中的硬零邊界;非單調(diào)性:很小的負(fù)值,有助于穩(wěn)定網(wǎng)絡(luò)的梯度流;平滑性:每個(gè)點(diǎn)都具有平滑性,使得梯度下降的效果優(yōu)于ReLU 函數(shù),具有很好的泛化能力。但是與ReLU 函數(shù)相比,Mish 也具有計(jì)算量大的特點(diǎn),不宜大量使用,所以本文只在解碼器中進(jìn)行小范圍使用,并取得了不錯(cuò)的效果。

        2.4 損失函數(shù)

        其中α是一個(gè)超參數(shù),本文取值為0.5。網(wǎng)絡(luò)的整體損失為:

        3 實(shí)驗(yàn)與結(jié)果分析

        本文在NVIDIA 2080Ti GPU 上進(jìn)行實(shí)驗(yàn),使用Ubuntu 系統(tǒng),PyTorch 1.8 框架。使用iBims-1 和NYUD v2 兩個(gè)數(shù)據(jù)集進(jìn)行多次實(shí)驗(yàn),取平均值評(píng)估提出的方法性能。在NYUD v2數(shù)據(jù)集上訓(xùn)練和測試,在iBims-1 數(shù)據(jù)集上進(jìn)行評(píng)估。

        根據(jù)以前的研究工作[5-6],本文選取NYUD v2 數(shù)據(jù)集中50 000對RGB-D圖像進(jìn)行訓(xùn)練,654對進(jìn)行測試。實(shí)驗(yàn)設(shè)置20個(gè)epoch 訓(xùn)練模型,batch_size=8,使用Adam 優(yōu)化器,采用的參數(shù)為(β1,β2)=(0.9,0.999),權(quán)重按照10-4衰減。設(shè)置0.000 1為初始學(xué)習(xí)率,每5個(gè)epoch減少10%。為了訓(xùn)練模型,所有的圖像和標(biāo)簽使用雙線性插值將640×480 的原始圖像下采樣到320×240,再從中間進(jìn)行裁剪到304×228[24]。為了對齊網(wǎng)絡(luò)輸出,對裁剪后的標(biāo)簽進(jìn)行下采樣到152×114。此外為了評(píng)估模型,在測試過程中網(wǎng)絡(luò)的輸出被上采樣到304×228。

        本文使用以前研究[24]中常用的精度評(píng)價(jià)指標(biāo)平均絕對相對誤差(mean absolute ReLative Error,REL)、均方根誤差(Root Mean Squared error,RMS)、均方對數(shù)誤差(mean Log10 error,Log10)和閾值td下的準(zhǔn)確性,計(jì)算公式如下:

        預(yù)測深度的邊界精度通過準(zhǔn)確率和召回率評(píng)估,本文設(shè)定閾值t(t∈{0.25,0.5,1}),大于閾值t的像素視為邊界,tp是預(yù)測正確邊界像素的數(shù)量,fp是將錯(cuò)誤的邊界像素預(yù)測為正確邊界像素的數(shù)量,fn是將正確邊界像素的數(shù)量預(yù)測為錯(cuò)誤邊界像素的數(shù)量,計(jì)算公式如下,準(zhǔn)確率:P=tp/(tp+fp),召回率:R=tp/(tp+fn),綜合指標(biāo):F1=(2 ×P×R)/(P+R)。

        還有一些新的評(píng)價(jià)指標(biāo)[25]用于評(píng)估iBims-1 數(shù)據(jù)集,深度邊界誤差(Depth Boundary Error,DBE)用于衡量預(yù)測深度圖中邊界的完整性和準(zhǔn)確性,分別用DBE_com和DBE_acc表示;平面性誤差(Planarity Error,PE)用于衡量三維空間中的深度精度,分別用PE_plan和PE_ori表示平面誤差和定向誤差;定向深度誤差(Directed Depth Error,DDE)衡量過遠(yuǎn)或過近預(yù)測深度像素的比例,分別用DDE_0、DDE_m、DDE_p表示正確預(yù)測深度像素的比例、高度預(yù)估深度像素的比例和低估深度像素的比例(高度預(yù)估深度像素的比例和低估深度像素的比例分別表示高估了正確像素的比例和低估了正確像素的比例)。另外還有用于評(píng)估深度最深區(qū)域的距離誤差,計(jì)算式如式(13)所示:

        其中:Pmax表示預(yù)測深度圖中平均深度最大的區(qū)域,Gmax表示真實(shí)深度圖中平均深度最大的區(qū)域,m用來表示不同分辨率,取值為6,12,24。

        3.1 數(shù)據(jù)集

        iBims-1 數(shù)據(jù)集是一個(gè)新的高質(zhì)量的RGB-D 數(shù)據(jù)集,專門用來測試單目深度估計(jì)效果。通過由數(shù)碼單反相機(jī)(Digital Single Lens Reflex,DSLR)和高精度激光掃描儀組成的特殊裝置拍攝得來,記錄了各種高分辨率的室內(nèi)場景圖和高精度的深度圖。與其他相關(guān)的RGB-D 數(shù)據(jù)集相比,iBims-1 數(shù)據(jù)集具有無遮擋、深度范圍大和噪聲水平低等特點(diǎn)。該數(shù)據(jù)集包含100 對RGB-D 圖像對用于測試,測試的所有模型都是在NYUD v2 數(shù)據(jù)集上進(jìn)行訓(xùn)練得到的。由于實(shí)驗(yàn)環(huán)境不同,部分實(shí)驗(yàn)數(shù)據(jù)不同于原論文中的數(shù)據(jù)。NYUD v2 數(shù)據(jù)集有51 342 對彩色圖像及對應(yīng)的深度圖,它們采集于3 個(gè)城市的464 個(gè)場景,由微軟Kinect 拍攝獲得。

        3.2 定量分析

        表1 是在iBims-1 數(shù)據(jù)集上的一些新的衡量指標(biāo),雖然相較于重骨干網(wǎng)絡(luò)[26]不是最好的,但總體來看本文方法相較于其他對比方法依然具有顯著的優(yōu)勢。衡量定向深度誤差方面與文獻(xiàn)[8]的方法相比DDE_m降低了1.42 個(gè)百分點(diǎn),正確預(yù)測深度像素的比例達(dá)到81.69%。

        表1 在iBims-1數(shù)據(jù)集上的平面性誤差、深度邊界誤差和定向深度誤差Tab.1 Planarity errors,depth boundary errors,directed depth errors on iBims-1 dataset

        在衡量邊界完整性、準(zhǔn)確性以及平面誤差方面,表現(xiàn)出了較好的效果,原因是本文在金字塔結(jié)構(gòu)中通過多尺度卷積核得到了不同的空間分辨率和深度,并通過全局平均池化將全局信息嵌入到通道描述符中,從而實(shí)現(xiàn)不同尺度上下文信息的融合。

        表2 是一些常用的衡量指標(biāo)的性能,是本文方法與對比方法在像素級(jí)精度和計(jì)算誤差之間的比較。前3 個(gè)參數(shù)表示預(yù)測深度圖與真實(shí)深度圖之間的誤差,越小精度越高;后3 個(gè)參數(shù)衡量預(yù)測深度圖在不同閾值下的像素級(jí)精度,參數(shù)值越大越好。結(jié)果表明,在iBims-1 數(shù)據(jù)集上,相較于文獻(xiàn)[27,22,5,8]方法,本文方法的各項(xiàng)指標(biāo)都有一定的提升。另外從表2 中可以看出,在NYUD v2 數(shù)據(jù)集上,本文方法在一定程度上取得了較好的效果,獲得的精確值較高,誤差較小,效果優(yōu)于文獻(xiàn)[8,22,27-30]方法,因?yàn)楸疚谋A袅嗽猩疃裙烙?jì)網(wǎng)絡(luò)的優(yōu)勢,同時(shí)融合PSA 增強(qiáng)多尺度的空間信息,提取更多的細(xì)節(jié)信息,使得在邊緣預(yù)測和預(yù)測深度最深的區(qū)域具有更高的精確度。

        表2 在iBims-1和NYUD v2數(shù)據(jù)集上的相關(guān)深度誤差和精度Tab.2 Relative depth errors and accuracies on iBims-1 and NYUD v2 datasets

        表3 表示不同方法在兩個(gè)數(shù)據(jù)集上預(yù)測深度最深區(qū)域的誤差。在iBims-1 數(shù)據(jù)集上,與文獻(xiàn)[8,27]方法相比,本文方法歸一化誤差更小,在m=24 時(shí)本文方法也優(yōu)于文獻(xiàn)[22,5]方法,表明本文方法在預(yù)測深度最深區(qū)域時(shí)具有更高的準(zhǔn)確性;在NYUD v2 數(shù)據(jù)集上也優(yōu)于其他對比方法。從表3 中可以看出,與文獻(xiàn)[27,22,8]方法相比,本文方法在預(yù)測深度最深區(qū)域上收獲了較好的性能,因?yàn)楸疚囊氲腜SA模塊可以將跨信道注意力和多尺度的空間信息融合到每個(gè)塊中,有效增強(qiáng)了不同區(qū)域的上下文關(guān)系,突出了物體之間的相對深度。

        表3 在iBims-1和NYUD v2數(shù)據(jù)集上不同劃分率下的深度最深區(qū)域的距離誤差Tab.3 Distance errors of the farthest region under different partition rates on iBims-1 and NYUD v2 datasets

        邊界精度在預(yù)測深度圖中是一項(xiàng)重要的衡量指標(biāo),邊界梯度很大程度上影響了生成深度圖的可視化。表4 表示預(yù)測深度圖中的邊界精度,本文方法相較于文獻(xiàn)[8,22,27-28]方法在恢復(fù)邊界時(shí)都具有較高的準(zhǔn)確率和召回率,并且對應(yīng)的綜合指標(biāo)值也具有一定程度的提升,當(dāng)進(jìn)行深度可視化時(shí)具有較好的效果。

        3.3 定性分析

        對于背景復(fù)雜的深度預(yù)測,PS-Net具有相對準(zhǔn)確的估計(jì)能力。圖7展示的圖片背景是帶有柜子的書架,書架上放滿了各種書籍和擺件。在真實(shí)深度圖中,書架及其前面的書桌、沙發(fā)具有很多的噪點(diǎn),與原圖相比有相對較多的差距。而利用本文網(wǎng)絡(luò)預(yù)測的深度圖,可以清晰地呈現(xiàn)場景的布局和相對深度,沙發(fā)在前,其次是書桌,最后是書架在最后,整個(gè)圖片邊緣非常整潔,從圖7中可以發(fā)現(xiàn),相較于BS-Net的方法依然具有很好的效果。

        圖7 復(fù)雜背景的深度預(yù)測效果Fig.7 Depth prediction effects of complex background

        圖8展示了NYUD v2數(shù)據(jù)集上定性的結(jié)果,當(dāng)預(yù)測大的完整的物體(如墻面)時(shí),預(yù)測的效果更好。本文方法邊緣預(yù)測的效果相較于BS-Net的方法更準(zhǔn)確;而對小物體、色差不明顯的物體的識(shí)別效果不太理想,如墻上白色的控制盒會(huì)被作為墻面的一個(gè)整體進(jìn)行預(yù)測深度。從圖8 中可以準(zhǔn)確判斷墻面、椅子、箱子之間的相對深度關(guān)系,椅子和箱子相對在前,墻面在后。

        圖8 大物體和小物體的深度預(yù)測效果Fig.8 Depth prediction effects of large objects and small objects

        圖9 展示了走廊的深度預(yù)測效果,從圖9 中可以看出本文方法在預(yù)測深度最深的區(qū)域具有很好的效果,網(wǎng)絡(luò)預(yù)測到了左前方的柜子深度較小,然后是左前方墻上的嵌入式書柜,走廊的盡頭是深度最深的區(qū)域,相較于BS-Net 的方法,本文方法具有明顯的優(yōu)勢。

        圖9 走廊深度預(yù)測效果Fig.9 Depth prediction effects of corridor

        3.4 消融實(shí)驗(yàn)

        為了闡明PSA 模塊的有效性,本節(jié)在iBims-1 和NYUD v2 數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn)。本文定義編碼器、解碼器和條紋細(xì)化模塊為基線,另外構(gòu)建了3 個(gè)變體進(jìn)行評(píng)估,如表5、6所示。

        表5 iBims-1數(shù)據(jù)集上消融實(shí)驗(yàn)的預(yù)測結(jié)果Tab.5 Prediction results of ablation experiments on iBims-1 dataset

        如表5 所示,由于PSA 模塊能夠提取上下文的空間信息,建立通道間的長期依賴關(guān)系,變體基線+PSA 模塊在所有評(píng)價(jià)指標(biāo)上都表現(xiàn)出了較好的性能。表6 中3 個(gè)變體在恢復(fù)邊界中相較于基線+DCE+BUBF 具有更高的準(zhǔn)確性。通過結(jié)合PSA、DCE 和BUBF 之后形成的變體既提高了準(zhǔn)確率也提高了召回率,在預(yù)測深度最深的區(qū)域以及深度突然變化的區(qū)域時(shí)取得了較好的效果。

        表6 NYUD v2數(shù)據(jù)集上不同閾值下預(yù)測邊界像素的精度Tab.6 Accuracies of predicted boundary pixels in depth maps under different thresholds on NYUD v2 dataset

        4 結(jié)語

        本文提出一種新的融合金字塔分割注意力的深度估計(jì)網(wǎng)絡(luò)方法(PS-Net)。該網(wǎng)絡(luò)使用傳統(tǒng)的Encoder-Decoder 和DCE 結(jié)構(gòu),并結(jié)合SR 和BUBF 模塊提取重要的邊緣特征信息,在此基礎(chǔ)上融合金字塔分割注意力,將低級(jí)特征作為該模塊的輸入,低級(jí)特征具有豐富的細(xì)節(jié)位置信息,通過該模塊增強(qiáng)不同區(qū)域之間的相關(guān)性,使用Mish 激活函數(shù),提高網(wǎng)絡(luò)的性能,增強(qiáng)邊緣和深度最大區(qū)域預(yù)測的準(zhǔn)確性。該方法在NYUD v2 數(shù)據(jù)集和iBims-1 數(shù)據(jù)集上都表現(xiàn)出了良好的效果,與最新的方法相比性能具有一定的提升。下一步工作可考慮提高小物體嵌套在大物體上預(yù)測的準(zhǔn)確性。

        猜你喜歡
        深度方法
        深度理解一元一次方程
        學(xué)習(xí)方法
        深度觀察
        深度觀察
        深度觀察
        深度觀察
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        91精品啪在线观九色| 午夜免费观看日韩一级片| 一区二区三区国产精品乱码| 色www永久免费视频| 在线看片免费人成视频久网下载| 性夜影院爽黄a爽在线看香蕉| 免费一级欧美大片久久网| 国产成人精品一区二三区在线观看| 精品人妻va一区二区三区| 久久久老熟女一区二区三区| 日本边添边摸边做边爱的网站| 中文人妻无码一区二区三区信息 | 日本岛国大片不卡人妻| 日本人妻系列中文字幕| 国产精品久久久久9999吃药| 亚洲国产成人精品无码区在线观看| 亚洲偷自拍另类图片二区| 国产精品亚洲av无人区一区蜜桃| 国产精品会所一区二区三区| 免费观看激色视频网站| 99在线视频精品费观看视| 精品中文字幕精品中文字幕| 日本精品少妇一区二区三区| 日韩成人无码一区二区三区| 国产成人AⅤ| 亚洲av无一区二区三区| 一本一道波多野结衣av中文| 欧美久久久久中文字幕| 亚洲av推荐网站在线观看| 久久久噜噜噜久久中文福利| 97一区二区国产好的精华液| 日韩精品中文字幕人妻系列| 日韩人妻精品中文字幕专区| 国产亚洲精品bt天堂精选| 国产高清国内精品福利99久久| 亚洲啪啪色婷婷一区二区| 男人的天堂免费a级毛片无码| 国产人成精品免费视频| 一本之道加勒比在线观看| 亚洲av一二三区成人影片| 亚洲精品无码人妻无码|