亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于全卷積編解碼網(wǎng)絡(luò)的單目圖像深度估計

        2021-07-28 12:37:08夏夢琪
        計算機工程與應(yīng)用 2021年14期
        關(guān)鍵詞:深度方法模型

        夏夢琪,郝 琨,趙 璐

        天津城建大學(xué) 計算機與信息工程學(xué)院,天津300384

        圖像深度信息對于重建場景的三維結(jié)構(gòu)具有重要意義,在視覺導(dǎo)航、3D 重建、自動駕駛[1-3]等領(lǐng)域有著廣泛的應(yīng)用。然而市場上用于獲取圖像深度信息的深度傳感器具有成本過高、噪聲過大等不足,使其很難在工業(yè)界中推廣使用。相比之下,基于單目圖像進行深度估計的方法,可應(yīng)用的范圍更廣[4],并且具有方便部署、計算成本低等優(yōu)點。因此,研究者們將目標轉(zhuǎn)向了單目圖像的深度估計上。

        單目圖像深度估計方法可分為傳統(tǒng)方法和深度學(xué)習(xí)方法。傳統(tǒng)方法是通過利用概率圖模型[5]和非參數(shù)技術(shù)[6-7]尋求解決方案。其中概率圖模型將馬爾可夫隨機場(Markov Random Field,MRF)以及連續(xù)條件隨機場(Conditional Random Field,CRF)等運用于模型中,此方法使用的特征信息都是基于手工進行特征提取,導(dǎo)致估計速度較低并且在性能和效率上均顯示出局限性。非參數(shù)技術(shù)依賴于場景之間的相似性來推斷測試圖像的深度,但是當(dāng)數(shù)據(jù)庫中缺乏類似場景時,就很難估計出精確的深度圖。

        近年來,應(yīng)用深度學(xué)習(xí)方法進行單目圖像的深度估計得到迅速發(fā)展。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)作為深度學(xué)習(xí)的典型代表算法之一,在單目圖像深度估計領(lǐng)域已經(jīng)取得了重大進展[8-15]。文獻[8]首次提出基于卷積神經(jīng)網(wǎng)絡(luò)的單目圖像深度估計模型,該模型包含兩個網(wǎng)絡(luò):第一個粗網(wǎng)絡(luò)利用整個圖像做粗略的全局預(yù)測,第二個精細網(wǎng)絡(luò)局部地優(yōu)化預(yù)測結(jié)果,這一方法與傳統(tǒng)方法相比獲得了不錯的結(jié)果,但是由于網(wǎng)絡(luò)層數(shù)少,感受野小,無法提取到圖像深層次的特征,使得深度圖邊緣模糊。之后,大量研究人員在此基礎(chǔ)上進行了優(yōu)化改進。比如,文獻[13]結(jié)合了一個深度卷積神經(jīng)網(wǎng)絡(luò)和一個連續(xù)的條件隨機場(CRF)設(shè)計模型,并在視覺上獲得了更清晰的過渡和局部細節(jié)。文獻[14]提出了兩種順序的深度網(wǎng)絡(luò),通過條件隨機場融合了從卷積神經(jīng)網(wǎng)絡(luò)的多個側(cè)輸出獲得的互補信息。文獻[13-14]雖然精度有所提升,但是條件隨機場的引入使得模型更加復(fù)雜化,計算效率降低,并且隨著網(wǎng)絡(luò)的加深,梯度消失和網(wǎng)絡(luò)退化現(xiàn)象越發(fā)明顯。文獻[15]利用深度殘差網(wǎng)絡(luò)[16(]Deep Residual Network,Resnet)的殘差學(xué)習(xí)方法,提出了一種完全卷積的架構(gòu),并采用了一種新穎的上采樣方法,稱為上投影。該方法采用Resnet進行特征提取,其中殘差結(jié)構(gòu)中的跳躍連接的運用有效解決了梯度消失和網(wǎng)絡(luò)退化現(xiàn)象,但是上采樣單純使用上投影或者上卷積方法,特征圖中包含了大量0 值的情況,造成了冗余,導(dǎo)致最終的輸出結(jié)果分辨率不高。所以,盡管經(jīng)過十多年的基于RGB 的深度預(yù)測的研究,其準確性和可靠性仍遠遠不夠。而一直以來,通過融合來自不同傳感器信息的深度預(yù)測方法也層出不窮。例如,文獻[17]提出了一個CNN,它同時接收RGB 圖像和光流圖像作為預(yù)測的輸入。文獻[18]研究了安裝在移動地面機器人上的2D 激光掃描儀的使用,以提供額外的參考深度信號作為輸入,并且比單獨使用RGB 圖像獲得更高的精度。但是他們的傳感器需要嚴格的規(guī)定方向和位置,對研究工作造成了限制。

        本文針對上述方法的不足,提出了一種全卷積編碼-解碼網(wǎng)絡(luò)模型。該模型將稀疏的深度樣本和RGB圖像作為輸入,通過融合來自不同傳感器的信息來改善深度預(yù)測,本文方法不限定傳感器的方向或位置,也不限定深度樣本在像素空間中的空間分布,大大降低了繁雜程度。并將Resnet用于編碼層,進一步增強了網(wǎng)絡(luò)的特征提取能力,解決了梯度消失和網(wǎng)絡(luò)退化現(xiàn)象。解碼層由兩個上采樣層和一個雙線性上采樣層組成,上采樣層采用上卷積模塊和上投影模塊交叉使用,使信息能夠更高效地在網(wǎng)絡(luò)中傳遞,提升最終的輸出結(jié)果分辨率。模型中使用了全卷積,有效降低了棋盤效應(yīng)并保留了預(yù)測深度圖像的邊緣信息,并且使得參數(shù)減少,提升了預(yù)測速度。

        1 深度估計模型及方法

        本章描述了網(wǎng)絡(luò)模型以及深度采樣策略,并介紹了本文中用于訓(xùn)練的損失函數(shù)。

        1.1 全卷積編碼-解碼網(wǎng)絡(luò)結(jié)構(gòu)

        整體網(wǎng)絡(luò)采用了全卷積編碼-解碼網(wǎng)絡(luò)結(jié)構(gòu),其輸入為稀疏深度樣本和RGB 圖像,網(wǎng)絡(luò)直接輸出估計的深度圖,不需要后處理操作。該結(jié)構(gòu)由兩部分組成,即編碼層和解碼層,編碼層基于深度殘差網(wǎng)絡(luò)進行特征提取,解碼層基于上卷積模塊和文獻[15]中提出的上投影模塊作為上采樣層。整體結(jié)構(gòu)如圖1所示。

        1.1.1 編碼層

        網(wǎng)絡(luò)的編碼層由Resnet-50 和一個卷積層組成,其中原始的Resnet-50最后一個平均池化層和全連接層已被刪除,即圖1 中藍色所示。經(jīng)過前期處理后得到4×228×304的圖像,將其輸入到網(wǎng)絡(luò)模型中,經(jīng)過Resnet-50的最后一個卷積層產(chǎn)生2 048 個空間分辨率為10×8 像素的特征圖。編碼層的第二個部分為一個卷積核1×1的卷積層,通道數(shù)減半,之后進行歸一化操作。

        圖1 全卷積編碼-解碼網(wǎng)絡(luò)模型

        本文模型運用Resnet-50[16]進行特征提取,能更好地解決模型層數(shù)加深后帶來的精度下降的問題。Resnet中提出了跳躍連接,這種方式可以創(chuàng)建更深的網(wǎng)絡(luò),而不會導(dǎo)致梯度消失或退化。由于接收范圍更廣,Resnet-50可以捕獲更高分辨率的輸入圖像。

        1.1.2 解碼層

        解碼層由兩個上采樣層和一個雙線性上采樣層組成,以此獲得分辨率更高的輸出結(jié)果。上采樣層采用上卷積模塊和上投影模塊交叉使用,較僅使用上卷積模塊進行上采樣相比,增加了特征信息的利用率,有效提高了預(yù)測精度,并在內(nèi)存消耗上更加平衡。

        上卷積模塊首先進行一個內(nèi)核為2×2的上池化,缺少值的地方填補0,之后采用5×5 大小的卷積核進行卷積操作,并依次通過Relu激活函數(shù),具體結(jié)構(gòu)如圖2所示。

        圖2 上卷積模塊

        上投影模塊[15]是對上卷積模塊進行了擴展,在上卷積模塊后加一個3×3卷積,并從較低分辨率的特征圖到結(jié)果添加投影連接。由于尺寸的不同,需要在投影分支中使用另一個上卷積對小尺寸圖進行上采樣,但由于兩個分支只需使用一次上池化,所以在兩個分支上分別應(yīng)用5×5 卷積,之后通過Relu 激活函數(shù),具體結(jié)構(gòu)如圖3所示。上投影模塊可以使特征信息在網(wǎng)絡(luò)中更有效地向前傳遞,同時逐步增加特征圖的分辨率。

        圖3 上投影模塊圖

        通過四個上采樣層之后產(chǎn)生分辨率為128×160 的圖像,之后采用雙線性插值進行上采樣,產(chǎn)生跟輸入圖像分辨率一樣的輸出預(yù)測圖,大小為228×304。雙線性插值是圖像縮放的一種方式,其主要分為兩步線性插值,而雙線性上采樣的使用,使得產(chǎn)生的新圖像效果更好,過渡更自然,邊緣也更為光滑。具體表達式如下:

        其中,(x,y)為插值點P在原圖像的坐標,f(p)為待計算插值;(x,y1)為下方插值點R1的坐標,f(R1)為下方插值;(x,y2)為上方插值點R2的坐標,f(R2)為上方插值;(x1,y1)和(x2,y1)分別為下方插值點R1相鄰兩點Q11、Q21的坐標,f(Q11)為點Q11的像素值,f(Q21)為點Q21的像素值;(x1,y2)和(x2,y2)分別為上方插值點R2相鄰兩點Q12、Q22的坐標,f(Q12)為點Q12的像素值,f(Q22)為點Q22的像素值。

        1.2 深度采樣

        本節(jié)介紹根據(jù)真實深度圖像創(chuàng)建輸入稀疏深度圖像的采樣策略。在訓(xùn)練期間,輸入的稀疏深度D從真實深度圖像D*中隨機抽取。對于任何像素(i,j)

        其中,D為稀疏深度,D*為真實深度,伯努利概率p=m/n,n為D*中有效深度像素的總數(shù),m為目標深度樣本數(shù),其在訓(xùn)練過程中固定。使用此采樣策略,每個訓(xùn)練樣本的實際非零深度像素數(shù)在期望值m左右變化。

        1.3 損失函數(shù)

        損失函數(shù)是最基礎(chǔ)也是最為關(guān)鍵的一個要素,它可以很好地反映模型與實際數(shù)據(jù)之間的差距。本文選用平均絕對誤差(Mean Absolute Error,MAE)L1范數(shù)作為網(wǎng)絡(luò)結(jié)構(gòu)的損失函數(shù),用以度量目標值和預(yù)測值之間絕對差之和的平均值。L1范數(shù)定義如下:

        其中,y表示目標值,y表示預(yù)測值。

        2 實驗設(shè)置

        使用NYU-Depth-v2[19]數(shù)據(jù)集對本文模型進行訓(xùn)練以及測試。該數(shù)據(jù)集是使用微軟Kinect 相機從464 種不同室內(nèi)場景中采集的,由RGB和深度圖像組成,并且廣泛應(yīng)用于單目圖像深度估計任務(wù)中。本文實驗使用官方的數(shù)據(jù)劃分,其中249個場景用于訓(xùn)練,其余215個場景用于測試。本文從訓(xùn)練數(shù)據(jù)集中的每個原始視頻序列在空間上進行均勻采樣,生成大約48 000張圖像用于訓(xùn)練,為了進行基準測試,使用帶有654 張圖像的小標簽測試數(shù)據(jù)集來評估最終性能。訓(xùn)練過程中參照先前的經(jīng)驗[15,20]對訓(xùn)練圖像進行隨機縮放、RGB和深度圖像均以0.5的概率水平翻轉(zhuǎn)以及改變顏色和對比度等處理進行數(shù)據(jù)擴充,并將原始640×480的RGB圖降采樣為一半,然后進行中心裁剪,最終尺寸為304×228 作為模型輸入。

        實驗硬件配置為Intel?CoreTMi7-7700 CPU@3.60 GHz處理器,模型在具有16 GB內(nèi)存的NVIDIA Tesla K20M GPU上進行訓(xùn)練。編碼層中Resnet的權(quán)重使用在ImageNet數(shù)據(jù)集[21]上預(yù)先訓(xùn)練的模型進行初始化。實驗設(shè)置批處理大小為8,迭代次數(shù)設(shè)置為20,初始學(xué)習(xí)率設(shè)置為0.01,每5次迭代降低到20%,并且以10-4的小權(quán)重衰減以進行正則化。

        本文通過4個實驗分別對損失函數(shù)、網(wǎng)絡(luò)成分以及稀疏深度樣本數(shù)量的影響作了對比,并與Eigen 等人[8]的多尺度卷積神經(jīng)網(wǎng)絡(luò)和Laina等人[15]基于殘差學(xué)習(xí)的全卷積網(wǎng)絡(luò)以及最新方法進行了比較。本文使用如下評價指標對實驗結(jié)果進行評估:

        均方根誤差(Root Mean Squared Error,RMSE):

        平均絕對相對誤差(average Relative Error,REL):

        3種閾值下的準確率δ,公式為:

        其中,N為像素總數(shù),Di為第i個像素的估計深度值,為第i個像素對應(yīng)的真實深度值。

        3 實驗結(jié)果分析

        3.1 損失函數(shù)評估

        本文上采樣層使用2×2卷積核的簡單反卷積網(wǎng)絡(luò),在相同網(wǎng)絡(luò)體系結(jié)構(gòu)下對L1范數(shù)、平方損失函數(shù)(Mean-Square Error,MSE)L2范數(shù)和Berhu[15]損失函數(shù)進行了測試,結(jié)果如圖4所示。Berhu和L1各項指標均明顯優(yōu)于L2,而對比Berhu 和L1,L1產(chǎn)生了更好的結(jié)果。其中,使用L1在精度δ<1.25 上比L2提高3%,RMSE 降低約3%,而跟Berhu 損失函數(shù)相比準確率雖然相差不大,但是RMSE降低約1%。這是因為L2范數(shù)雖然是目前最常用的回歸問題的損失函數(shù),是目標變量和預(yù)測值的差值平方和,但是在實驗中,L2損失放大了較大誤差和較小誤差之間的差距,即其對較大誤差的懲罰力度更大,而對較小誤差更為容忍,因此造成了訓(xùn)練的不穩(wěn)定和發(fā)散,而L1對于輸入值有著穩(wěn)定的梯度,不會導(dǎo)致梯度爆炸問題,具有較為穩(wěn)健性的解。

        圖4 損失函數(shù)對比圖

        3.2 上采樣層評估

        本文對不同上采樣層產(chǎn)生的影響進行了對比,包括對具有不同大小的卷積核進行反卷積和上卷積模塊進行反卷積,以及本文提出的方法,結(jié)果如表1 所示。在100 稀疏深度樣本數(shù)量下進行比較,使用3×3 卷積核進行反卷積要優(yōu)于僅使用2×2 卷積核進行反卷積。而本文模型與上卷積模塊進行比較,效果有所提升。這是因為本文將上卷積模塊與上投影模塊交叉使用,增加了特征信息的利用率,較好地保留了預(yù)測深度圖像的邊緣信息,有效提升了預(yù)測精度,得到了較好的結(jié)果。

        表1 上采樣層評估

        3.3 稀疏深度樣本數(shù)量對深度估計的影響

        為了驗證稀疏深度樣本數(shù)量對深度估計的影響,本文隨機采樣了不同數(shù)量的稀疏深度樣本作為網(wǎng)絡(luò)模型的輸入,實驗結(jié)果如表2 所示??梢钥闯?,與不添加稀疏深度樣本相比,僅添加100 稀疏深度樣本在精度δ<1.25 上提高16%,誤差RMSE 降低26%。隨著稀疏深度樣本數(shù)量的進一步增加,深度值的誤差呈下降趨勢,精度不斷提高。與Liao 等人[18]的方法進行對比,本文方法僅輸入100 個樣本,預(yù)測精度提高約10%,誤差降低17%,這是由于本文中樣本在空間上是均勻的,因此能夠提供更多的信息進行深度估計。

        表2 稀疏深度樣本數(shù)量結(jié)果對比

        本文方法所得深度圖也有更清晰的場景結(jié)構(gòu)和更豐富的場景細節(jié),圖5顯示了使用不同輸入進行預(yù)測的示例。其中從上到下依次為原圖、基于RGB 圖像的預(yù)測圖、100 稀疏深度樣本和RGB、500 稀疏深度樣本和RGB,最后一行是真實值。由圖5 可以看出,添加了稀疏深度樣本的深度圖比僅使用RGB預(yù)測的深度圖更加清晰,而添加了500稀疏深度樣本所預(yù)測的深度圖比添加了100 稀疏深度樣本所預(yù)測的深度圖邊緣細節(jié)處理得更好,可視化效果更理想。

        圖5 NYU-Depth-v2數(shù)據(jù)集結(jié)果對比圖

        3.4 不同深度估計方法評估

        本節(jié)將本文方法與現(xiàn)有方法進行了比較,在大部分指標上均優(yōu)于現(xiàn)有方法,對比結(jié)果如表3所示。在僅使用RGB 圖像的預(yù)測結(jié)果下,本文方法預(yù)測結(jié)果的均方根誤差達到了0.534,比Laina等人[15]的基于殘差學(xué)習(xí)的全卷積方法降低了4%,比Eigen 等人[8]的多尺度卷積網(wǎng)絡(luò)降低了11%。從指標上來看,本文提出的方法能夠得到更精確的預(yù)測深度圖。

        表3 NYU Depth-v2數(shù)據(jù)集上實驗結(jié)果對比

        4 總結(jié)

        本文提出了一種全卷積編碼-解碼網(wǎng)絡(luò)模型,編碼層由Resnet 組成,緩解了梯度消失和網(wǎng)絡(luò)退化問題,解碼層中的上采樣層采用上卷積模塊和上投影模塊交叉使用,使高層的信息更為高效地在網(wǎng)絡(luò)中傳遞,提升最終的輸出結(jié)果分辨率。全卷積的使用有效降低了棋盤效應(yīng)并保留了預(yù)測深度圖像的邊緣信息。本文還引入了一種根據(jù)RGB圖像和稀疏深度圖像進行深度預(yù)測的方法,實驗結(jié)果證明了這種方法與僅使用RGB 圖像和其他現(xiàn)有的RGB-D融合技術(shù)相比有明顯的優(yōu)勢。后續(xù)工作中,將嘗試保證精度可接受的前提下提高運算效率,將相關(guān)成果運用在嵌入式設(shè)備中。

        猜你喜歡
        深度方法模型
        一半模型
        深度理解一元一次方程
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        深度觀察
        深度觀察
        深度觀察
        可能是方法不對
        3D打印中的模型分割與打包
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        亚洲一区二区三区免费av| 亚洲av乱码二区三区涩涩屋 | 无码少妇丰满熟妇一区二区| 放荡的美妇在线播放| 中文字幕日韩精品一区二区三区| 国产zzjjzzjj视频全免费| 少妇的诱惑免费在线观看| 久久精品国产亚洲av桥本有菜| 久久精品女同亚洲女同| 国产欧美一区二区三区在线看| 国产免费又色又爽又黄软件| 自慰高潮网站在线观看| 日本妇女高清一区二区三区| 永久亚洲成a人片777777| 国产真实强被迫伦姧女在线观看| 在线va免费看成| 亚洲欧洲AV综合色无码| 国产乱人伦偷精品视频还看的| 日韩日韩日韩日韩日韩| 国产丝袜视频一区二区三区| 亚洲中文字幕在线爆乳| 亚洲又黄又大又爽毛片| 日本a级一级淫片免费观看| 中文 在线 日韩 亚洲 欧美| 中文字幕久无码免费久久| 久久精品爱国产免费久久| 日本中出熟女一区二区| 加勒比东京热中文字幕| 国产一区二区精品久久| 亚洲福利天堂网福利在线观看| 精品一区二区三区国产av| 少妇做爰免费视频了| 狠狠久久亚洲欧美专区| 丝袜美腿一区二区在线观看| 免费久久99精品国产| 亚洲妇女自偷自偷图片 | 国内成人精品亚洲日本语音| 黑丝美女喷水在线观看| 亚洲国产精品自拍成人| 国产精品久久久久久久久久红粉| 美丽的熟妇中文字幕|