亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于通道注意力機(jī)制的單目深度估計(jì)

        2022-12-26 13:21:58馬燕新萬(wàn)建偉徐國(guó)權(quán)
        信號(hào)處理 2022年11期
        關(guān)鍵詞:深度圖解碼器編碼器

        張 聰 馬燕新 萬(wàn)建偉 許 可 徐國(guó)權(quán)

        (1.國(guó)防科技大學(xué)電子科學(xué)學(xué)院,湖南長(zhǎng)沙 410073;2.國(guó)防科技大學(xué)氣象海洋學(xué)院,湖南長(zhǎng)沙 410073;3.海洋探測(cè)技術(shù)湖南省重點(diǎn)實(shí)驗(yàn)室,湖南長(zhǎng)沙 410073)

        1 引言

        人工智能發(fā)展的三個(gè)階段:低級(jí)-計(jì)算智能、中級(jí)-感知智能、高級(jí)-認(rèn)知智能。感知智能中最重要的一個(gè)部分就是數(shù)據(jù)的收集。數(shù)據(jù)收集就要求機(jī)器人對(duì)自己所處的環(huán)境進(jìn)行信息采集,獲得有用的信息。單目深度估計(jì)技術(shù)就是賦予人工智能系統(tǒng)從一張RGB 圖像中獲取世界坐標(biāo)系下的三維深度信息的能力,是數(shù)據(jù)收集系統(tǒng)中的一項(xiàng)重要技術(shù)。深度指的是空間中的目標(biāo)到相機(jī)的距離[1]。

        獲取深度信息的第一種方法是通過(guò)深度傳感器直接獲取對(duì)應(yīng)三維空間中的信息,如LIDAR[2-6]、RGB-D 相機(jī)[7-10]。RGB-D 相機(jī)通過(guò)TOF、雙目、結(jié)構(gòu)光等技術(shù)直接獲得RGB 圖像的像素級(jí)深度圖,但是存在很大的缺陷,如測(cè)量范圍有限、室外測(cè)量時(shí)對(duì)光照敏感。LiDAR 在無(wú)人駕駛和工業(yè)感知領(lǐng)域中廣泛應(yīng)用于對(duì)深度的測(cè)量,但是LiDAR 操作復(fù)雜難以普及。深度傳感器的大尺度和高功耗以及成本高的缺陷,導(dǎo)致它們很難廣泛應(yīng)用于無(wú)人機(jī)和其他小型機(jī)器人上。綜上所述,傳感器直接獲取深度的方法存在技術(shù)復(fù)雜,成本高,容易受環(huán)境影響[11]的問(wèn)題,且很難直接生成稠密點(diǎn)云數(shù)據(jù),因此很難大范圍推廣使用。獲取深度信息的第二種辦法就是通過(guò)多視角的立體匹配,但是這種方法不能處理遮擋,特征缺少或者具有重復(fù)紋理的區(qū)域。

        獲取深度的第三種方法是基于深度學(xué)習(xí)的深度估計(jì)的方法,其主要分為多視圖深度估計(jì)和單幅圖像深度估計(jì)。

        基于深度學(xué)習(xí)的多視圖深度估計(jì)MVS(Multiview stereo)將多幀圖像和位姿輸入到CNN 網(wǎng)絡(luò)中直接得到深度圖,基于學(xué)習(xí)的特征匹配解決了部分無(wú)紋理透明、反光等傳統(tǒng)深度估計(jì)方法難以克服的問(wèn)題,但由于GPU 的內(nèi)存限制仍難以重建高分辨率場(chǎng)景,且需要對(duì)相機(jī)進(jìn)行精準(zhǔn)的校準(zhǔn)。最具有代表性的工作就是MVSNet[12],其在網(wǎng)絡(luò)中首先在2D 圖像上進(jìn)行特征提取,后通過(guò)單應(yīng)變換構(gòu)造代價(jià)體,最后對(duì)代價(jià)體進(jìn)行正則化,回歸得到深度圖。其他的多視圖立體匹配的方法有[13-16]。

        相比于多視角深度估計(jì),單幅圖像的深度估計(jì)方法不需要對(duì)相機(jī)進(jìn)行精準(zhǔn)的校準(zhǔn)。主要的思路就是通過(guò)卷積神經(jīng)網(wǎng)絡(luò)擬合輸入的RGB 圖像和輸出深度之間的關(guān)系。Eigen 等人[17]首次利用卷積神經(jīng)網(wǎng)絡(luò)解決單目深度估計(jì)的問(wèn)題,該網(wǎng)絡(luò)由全局粗尺度網(wǎng)絡(luò)和局部?jī)?yōu)化網(wǎng)絡(luò)組成,首先對(duì)初始深度圖進(jìn)行回歸,再通過(guò)優(yōu)化網(wǎng)絡(luò)得到深度圖。但其處理方式太過(guò)簡(jiǎn)單以至于得到的深度圖細(xì)節(jié)恢復(fù)不準(zhǔn)確,存在邊界扭曲的問(wèn)題。Hu[18]等人在網(wǎng)絡(luò)中引入多層特征和多任務(wù)損失。Hao[19]等人利用連續(xù)的膨脹卷積保留特征圖的高分辨率。

        基于上述問(wèn)題和思路,本文提出了一種基于通道注意力機(jī)制的單目深度估計(jì)算法,具體貢獻(xiàn)為:

        1)設(shè)計(jì)通道注意力層:本文依據(jù)不同的通道對(duì)深度信息的貢獻(xiàn)度不同,對(duì)通道進(jìn)行編碼具體操作將RGB圖像通過(guò)一個(gè)全連接層將通道數(shù)擴(kuò)展為64,將通道進(jìn)行編碼后送入編碼器解碼器網(wǎng)絡(luò)中去估計(jì)深度圖。實(shí)驗(yàn)表明,對(duì)通道進(jìn)行編碼后,在遠(yuǎn)距離與攝像機(jī)平行的平面上的估計(jì)效果有顯著提升且能恢復(fù)出深度圖中更多的細(xì)節(jié)信息。

        2)設(shè)計(jì)跳躍連接:為解決現(xiàn)有的深度估計(jì)的方法在進(jìn)行特征提取的時(shí)候使用連續(xù)的卷積和下采樣極大地壓縮了分辨率導(dǎo)致在恢復(fù)深度圖的時(shí)候邊緣定位不準(zhǔn)確的問(wèn)題,本文建立編碼器到解碼器的跳躍連接,提高網(wǎng)絡(luò)對(duì)原始像素信息的利用率,提高網(wǎng)絡(luò)對(duì)深度突然變化的細(xì)節(jié)方面估計(jì)的效果。

        3)實(shí)驗(yàn)情況:在NYU Depth V2數(shù)據(jù)集上進(jìn)行不同算法的深度估計(jì)對(duì)比實(shí)驗(yàn),具體結(jié)果在除去rms指標(biāo)以外的所有其他指標(biāo)上,本文提出的算法取得了最優(yōu)結(jié)果。在得到的深度圖上恢復(fù)的物體邊界更清晰,遠(yuǎn)距離同一平面上深度連續(xù)。

        2 網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)

        整體網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示,網(wǎng)絡(luò)整體采用編碼器-解碼器結(jié)構(gòu),其中編碼器采用的是DenseNet-169[20],解碼器通過(guò)雙線性插值的方法將特征圖的上采樣,最終回歸出深度圖。為了提高編碼器對(duì)圖像特征的表征能力,對(duì)通道進(jìn)行編碼,首先通過(guò)自動(dòng)學(xué)習(xí)的方式獲得通道對(duì)深度信息的貢獻(xiàn)值,利用貢獻(xiàn)值的大小為特征通道賦予權(quán)值,從而讓網(wǎng)絡(luò)特別關(guān)注某些通道,學(xué)習(xí)到更多的信息。此外,為了解決連續(xù)的卷積和下采樣極大地壓縮了分辨率導(dǎo)致在恢復(fù)深度圖的時(shí)候邊緣定位不準(zhǔn)確的問(wèn)題,本文融合低層的位置信息和高層的語(yǔ)義信息,建立編碼器到解碼器的跳連接。

        圖1 網(wǎng)絡(luò)整體架構(gòu)圖Fig.1 Overall network architecture diagram

        2.1 通道注意力編碼

        在神經(jīng)網(wǎng)絡(luò)中,注意力機(jī)制通常是一個(gè)額外的神經(jīng)網(wǎng)絡(luò),能夠通過(guò)學(xué)習(xí)的方式選擇輸入的數(shù)據(jù)中較為重要的部分,在大量的信息中篩選出網(wǎng)絡(luò)更加需要的信息[21]。本文的通道注意力編碼主要分為壓縮Fsq和擴(kuò)展Fex兩個(gè)部分[22],其作用是顯式地實(shí)現(xiàn)對(duì)特征通道相互依賴關(guān)系的捕捉,選擇對(duì)深度估計(jì)網(wǎng)任務(wù)更重要的通道。

        進(jìn)行通道注意力編碼之前要通過(guò)標(biāo)準(zhǔn)卷積Fc完成維度的映射Fc:X→U,X∈RH'×W'×C',U∈RH×W×C,對(duì)應(yīng)著網(wǎng)絡(luò)中[3 × 480 × 640]映射到[64 × 480 ×640],F(xiàn)c對(duì)應(yīng)的公式(1):

        其中,*表示卷積,vc=表示第c個(gè)卷積核,X=[x1,x2,…,xC'],uc表示U中第c個(gè)二維矩陣,下標(biāo)c表示通道數(shù)。是一個(gè)2D 的卷積核,xs是第s個(gè)輸入。由于輸出是通過(guò)所有通道的和來(lái)產(chǎn)生的,所以通道之間的關(guān)系被隱式地嵌入到vc中,這些依賴性與空間的相關(guān)性混淆在一起,為了提高網(wǎng)絡(luò)對(duì)信息特征的敏感度,因此重新校正通道編碼,即通過(guò)壓縮和擴(kuò)展操作。

        壓縮操作Fsq的含義為:通過(guò)平均池化模塊實(shí)現(xiàn)特征壓縮,實(shí)現(xiàn)全局信息嵌入獲取,具體而言為將H×W×C的特征層壓縮到1 × 1 ×C。這屬于空間維度的一種特征選擇,由于全像素參與計(jì)算,所以使得該特征向量具有全局的感受野。通過(guò)壓縮操作在網(wǎng)絡(luò)編碼器階段得到更抽象的語(yǔ)義信息,有助于深度估計(jì)網(wǎng)絡(luò)估計(jì)全局大平面深度的場(chǎng)景。

        擴(kuò)展操作Fex的含義為:在壓縮操作之后通過(guò)擴(kuò)展操作來(lái)完整的捕獲通道維度上的依賴性,實(shí)現(xiàn)自適應(yīng)重新校準(zhǔn)的目標(biāo)。具體而言就是將壓縮操作后得到的全局特征描述符依次通過(guò)全連接層、RELU激活層、全連接層、Sigmoid激活層。通過(guò)擴(kuò)展操作能使網(wǎng)絡(luò)選取更加重要的通道信息,從而學(xué)習(xí)到場(chǎng)景中更多的細(xì)節(jié)信息。整個(gè)過(guò)程如下:

        2.2 編碼器-解碼器

        單幅圖像深度估計(jì)的網(wǎng)絡(luò)主要分為兩個(gè)部分,第一部分是編碼器,圖像通過(guò)編碼器提取特征,其中低層的是像素的位置信息,高層的是語(yǔ)義信息,然后送入第二部分解碼器網(wǎng)絡(luò)中,回歸得到深度圖。連續(xù)的卷積和下采樣操作會(huì)損失很多像素信息,這是深度估計(jì)問(wèn)題中需要解決的問(wèn)題。本文利用跳躍連接的操作,將還沒(méi)有經(jīng)過(guò)下采樣和卷積的特征圖加到解碼器網(wǎng)絡(luò)中,提高網(wǎng)絡(luò)對(duì)像素信息的利用率。通過(guò)這種方式,有助于深度圖中的細(xì)節(jié)的恢復(fù),即深度突然變化的邊緣。編碼器-解碼器網(wǎng)絡(luò)如圖2所示。

        圖2 編碼器-解碼器網(wǎng)絡(luò)Fig.2 Encoder-decoder network

        編碼器:編碼器使用的是主流的分類(lèi)網(wǎng)絡(luò)DenseNet,并利用遷移學(xué)習(xí),遷移在ImageNet[23]上的預(yù)訓(xùn)練模型DenseNet-169 的參數(shù),減少網(wǎng)絡(luò)模型的訓(xùn)練時(shí)間。編碼器將輸入的RGB 圖片編碼為特征向量。

        解碼器:將編碼器得到的特征向量輸入到解碼器。解碼器由編碼器的跳連接和連續(xù)的上采樣層構(gòu)成。其中每個(gè)上采樣層由2個(gè)雙線性上采樣塊組成。最后編碼器輸出分辨率為320×240大小的深度圖。

        2.3 損失函數(shù)

        深度估計(jì)任務(wù)中標(biāo)準(zhǔn)的損失函數(shù)就是定義預(yù)測(cè)的深度值和深度圖的真實(shí)值之間的距離差別。不同的損失函數(shù)對(duì)深度估計(jì)網(wǎng)絡(luò)的訓(xùn)練速度和估計(jì)性能的表現(xiàn)有很大影響。在深度估計(jì)文獻(xiàn)[14-17]中有許多用于優(yōu)化神經(jīng)網(wǎng)絡(luò)的損失函數(shù)。為了恢復(fù)場(chǎng)景物體的邊界,本文定義的整體損失函數(shù)為L(zhǎng)(y,)(公式(4)),其中利用預(yù)測(cè)的深度值和真實(shí)的深度值之間的差距對(duì)深度信息進(jìn)行估計(jì)(公式(5)),利用像素梯度損失對(duì)深度圖的高頻信息(深度邊緣)進(jìn)行約束(公式(6)),利用結(jié)構(gòu)相似性(Structural Similarity,SSIM)[24]圖像任務(wù)的常用度量,來(lái)約束深度圖的質(zhì)量(公式(7))。

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 數(shù)據(jù)集和實(shí)驗(yàn)參數(shù)設(shè)置

        目前,最常用、引用最廣泛的單目深度估計(jì)數(shù)據(jù)集是NYU Depth V2[8],本文同樣采樣該數(shù)據(jù)集進(jìn)行訓(xùn)練與測(cè)試。NYU Depth V2 數(shù)據(jù)集是一個(gè)面向室內(nèi)環(huán)境的、主要用于場(chǎng)景理解RGBD 數(shù)據(jù)集。數(shù)據(jù)集中的RGBD 數(shù)據(jù)均是基于微軟的Kinect 在不同室內(nèi)環(huán)境采集到的,共包含1449 幅帶有詳細(xì)標(biāo)注、深度進(jìn)行補(bǔ)全的圖像對(duì),RGB 圖像與深度圖像的分辨率分別為640×480 和320×240,其中795 幅圖像對(duì)用于訓(xùn)練,其余654 幅圖像對(duì)用于深度估計(jì)測(cè)試。在訓(xùn)練階段,將原始分辨率的圖像作為網(wǎng)絡(luò)的輸入,同時(shí)將數(shù)據(jù)集中的真值深度圖下采樣到320×240,并且設(shè)置網(wǎng)絡(luò)中深度圖的深度范圍為0~10 m。在測(cè)試階段,網(wǎng)絡(luò)將得到的一半分辨率的深度圖進(jìn)行2 倍上采樣以匹配真值深度圖的分辨率,同時(shí)對(duì)得到的深度圖精度進(jìn)行評(píng)估。

        本實(shí)驗(yàn)基于顯存為11 G 的2080ti 顯卡進(jìn)行訓(xùn)練;環(huán) 境:python 版本為3.7,cuda 版本為11.4,paddlepaddle 版本為2.2.1;初始參數(shù)設(shè)置:學(xué)習(xí)率為0.0001,塊大小設(shè)置為2,訓(xùn)練輪數(shù)設(shè)置為20。

        3.2 評(píng)價(jià)指標(biāo)

        為了評(píng)價(jià)和比較各種深度估計(jì)網(wǎng)絡(luò)的性能,參考文獻(xiàn)[19]中提出了一種普遍接受的評(píng)價(jià)方法,該方法有四個(gè)評(píng)價(jià)指標(biāo):不同閾值下的準(zhǔn)確率(δ1,δ2,δ3)、絕對(duì)相對(duì)誤差(AbsRel)、均方根誤差(RMSE)、平均絕對(duì)對(duì)數(shù)誤差(log10)。這些指標(biāo)的具體公式為:

        其中di是像素i的預(yù)測(cè)深度值,而表示深度的真值。N為具有實(shí)際深度值的像素總數(shù),thr為閾值。

        3.3 實(shí)驗(yàn)結(jié)果

        3.3.1 公開(kāi)數(shù)據(jù)集結(jié)果與分析

        在NYU Depth V2數(shù)據(jù)集上進(jìn)行不同算法的深度估計(jì)對(duì)比實(shí)驗(yàn),定量實(shí)驗(yàn)結(jié)果如表1 所示,部分估計(jì)結(jié)果示例如圖3 所示。由表1 可以看出,在除去RMSE指標(biāo)以外的所有其他指標(biāo)上,本文提出的算法取得了最優(yōu)結(jié)果,具體而言,在δ1指標(biāo)上取得了0.889的最優(yōu)結(jié)果,在δ2指標(biāo)上取得了0.978的最優(yōu)結(jié)果,在δ3指標(biāo)上取得了0.994 的最優(yōu)結(jié)果,在AbsRel 取得了0.109 的最優(yōu)結(jié)果,在log10取得了0.046的最優(yōu)結(jié)果,證明了本文算法的有效性。與文獻(xiàn)[27]的算法相比,本文算法在δ1、δ2、δ3三個(gè)指標(biāo)上分別提升了7.3%、13.4%、0.2%。在AbsRel、RMSE、log10三個(gè)指標(biāo)上,誤差分別減少了5.5%、8.5%、10.8%。在網(wǎng)絡(luò)結(jié)構(gòu)上,本文算法相較于[27]建立編碼器到解碼器的連接,融合低層的像素信息和高層的語(yǔ)義信息,降低網(wǎng)絡(luò)的損失,保證了本文算法的有效性。與文獻(xiàn)[28]的算法相比,本文算法在δ1、δ2兩個(gè)指標(biāo)上,分別提升了5.0%、0.4%。在AbsRel、log10兩個(gè)指標(biāo)上,誤差分別減少了12.8%、15.2%。在網(wǎng)絡(luò)結(jié)構(gòu)上,本文算法與[28]的區(qū)別在于在編碼器中嵌入通道注意力,能夠使網(wǎng)絡(luò)自適應(yīng)的學(xué)習(xí)通道的權(quán)重能夠提高得到的深度圖的精度,減少像素深度信息的誤差,保證了本文算法的有效性。

        表1 單目深度估計(jì)網(wǎng)絡(luò)性能Tab.1 Monocular depth estimation network performance

        圖3 深度圖可視化結(jié)果圖Fig.3 Depth map visualisation results

        部分估計(jì)結(jié)果如圖3所示,圖中第一列為實(shí)驗(yàn)場(chǎng)景的RGB 圖像,第二列為準(zhǔn)確深度結(jié)果。后面三列分別為文獻(xiàn)[27]、文獻(xiàn)[28]以及本文算法的深度估計(jì)結(jié)果。不難看出,本文算法的估計(jì)結(jié)果更光滑,對(duì)場(chǎng)景細(xì)節(jié)恢復(fù)更好,同時(shí)在與攝像機(jī)平行的平面上獲得的深度是連續(xù)的。如圖中方框標(biāo)注區(qū)域,該區(qū)域均是距離攝像機(jī)較遠(yuǎn)的位置且存在陰影或者透明區(qū)域,本文算法的估計(jì)效果均為最優(yōu)。第一行方框標(biāo)注中的沙發(fā)以及角落,文獻(xiàn)[27]與[28]恢復(fù)效果均較比本文算法要模糊。第二行中,紅色框標(biāo)注出的柱子本文算法大致恢復(fù)出來(lái)并有所區(qū)分,白色框標(biāo)注的椅子也完全區(qū)分開(kāi)來(lái)。第三行中,白色框與紅色框標(biāo)注區(qū)域均存在直角角落區(qū)域,本文算法估計(jì)結(jié)果中角落區(qū)域十分明顯,其余算法均將該角落恢復(fù)成平面區(qū)域了。本文算法對(duì)局部區(qū)域的細(xì)節(jié)學(xué)習(xí)更為充分,因而可以恢復(fù)出更多的細(xì)節(jié)結(jié)構(gòu)。

        3.3.2 真實(shí)場(chǎng)景測(cè)試結(jié)果與分析

        用訓(xùn)練好的網(wǎng)絡(luò)模型在真實(shí)場(chǎng)景下進(jìn)行測(cè)試,結(jié)果良好,可視化結(jié)果如圖4。該模型用于真實(shí)場(chǎng)景時(shí),能夠精確的恢復(fù)出物體的邊界。同時(shí)在距離相機(jī)深度相同的平面上,獲得的深度是連續(xù)的。具體而言,辦公室和會(huì)議室場(chǎng)景中能夠清晰恢復(fù)場(chǎng)景邊界。由真實(shí)場(chǎng)景測(cè)試結(jié)果可知,該模型具有良好的泛化性,具有實(shí)用價(jià)值。

        圖4 真實(shí)場(chǎng)景測(cè)試結(jié)果Fig.4 Real scenario test results

        3.3.3 消融實(shí)驗(yàn)結(jié)果與分析

        為了驗(yàn)證本文算法中各個(gè)模塊在深度估計(jì)中的性能,本節(jié)在NYU Depth V2數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),主要分析通道注意力機(jī)制、編碼器結(jié)構(gòu)、跳連接結(jié)構(gòu)等。設(shè)置三個(gè)消融方式:①編碼器端是否嵌入通道注意力;②編碼器不同的層數(shù)對(duì)網(wǎng)絡(luò)模型精度的影響;③是否加入跳躍連接。具體精度結(jié)果見(jiàn)表2。由表2可以看出,在沒(méi)有跳連接和通道注意力模塊的時(shí)候網(wǎng)絡(luò)模型精度較低。當(dāng)編碼器的層數(shù)為169 時(shí),網(wǎng)絡(luò)模型在大多數(shù)評(píng)價(jià)指標(biāo)上取得最高精度。詳細(xì)結(jié)果分析如下:

        (1)通道注意力機(jī)制分析

        消融方式①對(duì)通道注意力機(jī)制對(duì)網(wǎng)絡(luò)的性能影響進(jìn)行分析,設(shè)計(jì)網(wǎng)絡(luò)SE-Densedepth-161 與網(wǎng)絡(luò)None SE 進(jìn)行測(cè)試,SE-Densedepth-161 中包含有通道注意力機(jī)制,None SE 不含注意力機(jī)制,其實(shí)驗(yàn)結(jié)果如表2 中第三行與第一行所示,對(duì)應(yīng)的示例結(jié)果為圖5中第二列與第五列。在編碼器中嵌入通道注意力后,在δ1、δ2兩個(gè)指標(biāo)上,分別提升了5.0%、0.4%。在AbsRel、log10兩個(gè)指標(biāo)上,誤差分別減少了12.8%、15.2%。在編碼器中嵌入通道注意力,能夠使網(wǎng)絡(luò)自適應(yīng)的學(xué)習(xí)通道的權(quán)重能夠提高得到的深度圖的精度,減少像素深度信息的誤差,保證了本文算法的有效性。

        (2)編碼器層數(shù)分析

        消融方式②對(duì)編碼器層數(shù)對(duì)網(wǎng)絡(luò)的性能影響進(jìn)行分析,設(shè)計(jì)網(wǎng)絡(luò)SE-Densedepth-161、網(wǎng)絡(luò)SEDensedepth-169和網(wǎng)絡(luò)SE-Densedepth-201進(jìn)行測(cè)試,SE-Densedepth-161 中編碼器層數(shù)為161,SEDensedepth-169中編碼器層數(shù)為169,SE-Densedepth-201中編碼器層數(shù)為201,其實(shí)驗(yàn)結(jié)果如表2中第二行、第三行和第四行所示,對(duì)應(yīng)的示例結(jié)果為圖5中第二列、第三列和第四列。SE-Densedepth-169相較于SEDensedepth-161的實(shí)驗(yàn)結(jié)果,在δ1、δ2、δ3三個(gè)指標(biāo)上,分別提升了5.7%、1.3%、0.2%。在AbsRel、RMSE、log10三個(gè)指標(biāo)上,誤差分別減少了21.1%、14.4%、19.5%。SE-Densedepth-169相較于SE-Densedepth-201 的實(shí)驗(yàn)結(jié)果,在δ1、δ2兩個(gè)指標(biāo)上,分別提升了0.5%、0.3%。在AbsRel、RMSE、log10三個(gè)指標(biāo)上,誤差分別減少了2.7%、2.5%、2.1%。當(dāng)編碼器的層數(shù)為169 時(shí),網(wǎng)絡(luò)模型在大多數(shù)評(píng)價(jià)指標(biāo)上取得最高精度。編碼器層數(shù)減少會(huì)失去精度,編碼器層數(shù)為201 時(shí)不但造成網(wǎng)絡(luò)參數(shù)過(guò)多的問(wèn)題,也難以帶來(lái)精度的提升。

        (3)跳連接操作分析

        消融方式③對(duì)跳連接操作對(duì)網(wǎng)絡(luò)的性能影響進(jìn)行分析,設(shè)計(jì)網(wǎng)絡(luò)SE-Densedepth-169 與網(wǎng)絡(luò)None skip connect 進(jìn)行測(cè)試,SE-Densedepth-169 中包含有跳連接操作,None skip connect 不含跳連接操作,其實(shí)驗(yàn)結(jié)果如表2中第三行與第五行所示,對(duì)應(yīng)的示例結(jié)果為圖5中第三列與第六列。在δ1、δ2、δ3三個(gè)指標(biāo)上,分別提升了15.4%、3.4%、0.6%。在AbsRel、RMSE、log10三個(gè)指標(biāo)上,誤差分別減少了51.3%、33.2%、45.6%。加入跳連接操作后,能夠融合低層特征圖像素的位置信息和高層特征圖的語(yǔ)義信息提高逐個(gè)像素估計(jì)的精度,證明了本算法的有效性。

        表2 消融實(shí)驗(yàn)性能結(jié)果比較Tab.2 Comparison of ablation performance results

        部分消融實(shí)驗(yàn)的估計(jì)結(jié)果如圖5 所示,圖中第一列為實(shí)驗(yàn)場(chǎng)景的RGB 圖片,第二列、第三列和第四列分別為編碼器層數(shù)161、169 和201 的深度估計(jì)結(jié)果,第五列和最后一列分別為沒(méi)有嵌入通道注意力和沒(méi)有跳連接的深度估計(jì)結(jié)果。不難看出,SEDensedepth-169 的估計(jì)結(jié)果更光滑對(duì)場(chǎng)景細(xì)節(jié)恢復(fù)的更好。具體如圖中紅色方框標(biāo)注的區(qū)域,該區(qū)域?qū)?chǎng)景中物體邊界的恢復(fù)效果均優(yōu)于其他結(jié)果。具體而言,第一個(gè)場(chǎng)景中沙發(fā)邊界區(qū)域以及角落、第二個(gè)場(chǎng)景人手中的水杯、第三個(gè)場(chǎng)景人和人背后的電腦、第四個(gè)場(chǎng)景的門(mén)框和第五個(gè)場(chǎng)景左側(cè)背景墻均比其他消融方案邊界清晰。通過(guò)直觀可視化可以得到三點(diǎn)結(jié)論:①?zèng)]有嵌入通道注意力的可視化結(jié)果相比于其他結(jié)果,在與攝像機(jī)平行的平面上深度不連續(xù)且細(xì)節(jié)恢復(fù)不準(zhǔn)確。嵌入通道注意力,即網(wǎng)絡(luò)通過(guò)對(duì)特征通道的權(quán)重學(xué)習(xí),有利于解決深度估計(jì)任務(wù)中與攝像機(jī)平行的平面的深度出現(xiàn)斷層的情況且能學(xué)習(xí)到場(chǎng)景中更多細(xì)節(jié);②層數(shù)少于169 的情況或多于169 的情況均會(huì)出現(xiàn)深度邊緣的模糊,如第三行辦公室人物的輪廓;③在沒(méi)有跳連接時(shí),得到場(chǎng)景的深度出現(xiàn)模糊。這表明跳連接能夠提高網(wǎng)絡(luò)對(duì)低層信息的利用率,有助于得到高精度的深度圖。因此通道注意力模塊和跳連接操作對(duì)同一距離像素點(diǎn)的深度和局部區(qū)域的細(xì)節(jié)學(xué)習(xí)更為充分,可以得到同一距離深度連續(xù)且細(xì)節(jié)更為豐富的深度圖。

        圖5 消融實(shí)驗(yàn)結(jié)果可視化Fig.5 Visualization of ablation results

        4 結(jié)論

        本文利用對(duì)圖像的通道進(jìn)行編碼,通過(guò)學(xué)習(xí)的方法重點(diǎn)關(guān)注對(duì)深度估計(jì)性能貢獻(xiàn)較大的通道,提高編碼器對(duì)圖像特征的表征能力,然后送入編碼器-解碼器網(wǎng)絡(luò)中去進(jìn)行單幅圖像的深度估計(jì)。編碼器采用的是訓(xùn)練好的DenseNet169模型,能夠避免重復(fù)訓(xùn)練,減少訓(xùn)練時(shí)長(zhǎng)。在NYU Depth V2數(shù)據(jù)集上的測(cè)試結(jié)果與之前的方法相比,在與攝像機(jī)平行的平面上,獲得的深度是連續(xù)的,在深度突然變化的區(qū)域中,獲得的物體邊緣更加準(zhǔn)確。同時(shí)在真實(shí)數(shù)據(jù)集上進(jìn)行測(cè)試,網(wǎng)絡(luò)能夠準(zhǔn)確的得到場(chǎng)景中物體的邊緣,證明了網(wǎng)絡(luò)具有優(yōu)秀的泛化性和魯棒性,進(jìn)一步推動(dòng)了單目圖像深度估計(jì)的實(shí)用化進(jìn)程。

        猜你喜歡
        深度圖解碼器編碼器
        科學(xué)解碼器(一)
        科學(xué)解碼器(二)
        科學(xué)解碼器(三)
        線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
        基于深度圖的3D-HEVC魯棒視頻水印算法
        基于FPGA的同步機(jī)軸角編碼器
        基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
        一種基于局部直方圖匹配的深度編碼濾波算法
        疊加速度譜在鉆孔稀少地區(qū)資料解釋中的應(yīng)用
        科技視界(2016年2期)2016-03-30 11:17:03
        JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
        電子器件(2015年5期)2015-12-29 08:42:24
        3344永久在线观看视频| 人妻一区二区三区av| 国产av无码国产av毛片| 最好看的最新高清中文视频| 国产av综合一区二区三区最新| 亚洲一区二区三区一区| 伊人久久精品亚洲午夜| 成年无码av片在线| 国产欧美日韩网站| av天堂一区二区三区精品| 激情五月婷婷一区二区| 欧美精品videossex少妇| 精品国产高清一区二区广区| 成人一区二区三区蜜桃| 亚洲av精二区三区日韩| 国産精品久久久久久久| 久久中国国产Av秘 入口| 97女厕偷拍一区二区三区| 无套内内射视频网站| 国产福利姬喷水福利在线观看| 亚洲日本无码一区二区在线观看 | 激情五月开心五月啪啪| 中国老熟妇506070| 亚洲欧美成人a∨| 久久精品网站免费观看| 亚洲综合极品美女av| 麻豆亚洲av永久无码精品久久| 久久亚洲国产成人精品v| av在线播放中文专区| 全免费a敌肛交毛片免费| 天天爽夜夜爽人人爽曰喷水| 青青草最新在线视频观看| 日本三级香港三级人妇99| 国产女女精品视频久热视频| 91精品国产高清久久久久| 校园春色日韩高清一区二区| 国语对白嫖老妇胖老太| 无码国产精品第100页| 久久综合五月天啪网亚洲精品| 亚洲国产精品久久电影欧美 | 国产一级毛片卡|