亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于注意力機(jī)制的自監(jiān)督單目圖像深度估計(jì)

        2021-09-09 07:36:30彭濤胡智程劉軍平張自力黃子杰
        現(xiàn)代計(jì)算機(jī) 2021年19期
        關(guān)鍵詞:單目注意力深度

        彭濤,胡智程,劉軍平,張自力,黃子杰

        (1. 武漢紡織大學(xué)數(shù)學(xué)與計(jì)算機(jī)學(xué)院,武漢 430201;2. 湖北省服裝信息化工程技術(shù)研究中心,武漢 430201)

        0 引言

        近年來,隨著人工智能技術(shù)高速發(fā)展,圖像深度估計(jì)對計(jì)算機(jī)視覺具有重大研究意義。為了更好地獲得場景的深度信息,眾多學(xué)者已進(jìn)行了大量研究。2014年,Eigen等人[1]首次引入深度學(xué)習(xí)的概念,提出使用兩個(gè)尺度的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對單目圖像進(jìn)行深度估計(jì),采用大量帶有標(biāo)注深度信息的數(shù)據(jù)集進(jìn)行訓(xùn)練。2015年,Eigen和Fergus改進(jìn)了文獻(xiàn)[1]中算法,在原有的網(wǎng)絡(luò)基礎(chǔ)上加入采樣網(wǎng)絡(luò)[2],加深了網(wǎng)絡(luò)結(jié)構(gòu)。Jun等人[3]在Eigen等人[2]的多尺度網(wǎng)絡(luò)基礎(chǔ)上加入跳躍連接,加速了網(wǎng)絡(luò)收斂。Daniel等人[4]通過學(xué)習(xí)順序?qū)D像的某些特征進(jìn)行深度估計(jì),但該方法沒有直接估計(jì)特征的度量值。上述研究采用有監(jiān)督的訓(xùn)練方式,需要使用具有真實(shí)深度信息的圖像數(shù)據(jù)集作為目標(biāo)訓(xùn)練,在單目圖像深度估計(jì)中,很難大規(guī)模獲取每像素地面真實(shí)深度數(shù)據(jù)。因此,部分學(xué)者提出了自監(jiān)督的單目深度估計(jì)方法[5-12]。Garg等人[5]提出了通過全卷積神經(jīng)網(wǎng)絡(luò)生成深度圖,并使用傳統(tǒng)的雙目攝像頭測距原理重構(gòu)源輸入圖像,對比原輸入圖像,構(gòu)建目標(biāo)函數(shù),進(jìn)而反向訓(xùn)練網(wǎng)絡(luò)得出深度圖結(jié)果。Zhou等人[7]把未做標(biāo)記的單目視頻的每一幀圖像作為訓(xùn)練集,使用深度估計(jì)網(wǎng)絡(luò)和相機(jī)位姿網(wǎng)絡(luò)對其進(jìn)行訓(xùn)練。Eldesokey等人[10]提出了自監(jiān)督的概率歸一化的卷積網(wǎng)絡(luò),該方法估計(jì)了輸入數(shù)據(jù)的不確定度,使得網(wǎng)絡(luò)可以基于數(shù)據(jù)可靠性進(jìn)行針對性的學(xué)習(xí),實(shí)現(xiàn)了輸出不確定度的估計(jì)。由于現(xiàn)有的數(shù)據(jù)集存在物體間遮擋以及物體運(yùn)動(dòng)等問題,因此,上述采用自監(jiān)督方法的研究不僅未能利用好場景中上下文信息,而且深度估計(jì)的結(jié)果會受到物體遮擋、紋理復(fù)制偽影、輪廓不準(zhǔn)確等影響。

        為了解決上述問題,本文提出在深度網(wǎng)絡(luò)模型中加注意力機(jī)制并結(jié)合最小化光度重投影函數(shù),對目標(biāo)圖像前后幀中選擇最小誤差進(jìn)行匹配。主要貢獻(xiàn)如下:①提出了一種新的深度網(wǎng)絡(luò)架構(gòu),將注意力機(jī)制與深度網(wǎng)絡(luò)相結(jié)合,提升了相對遠(yuǎn)距離物體輪廓顯示,同時(shí)使得物體輪廓呈現(xiàn)更為精準(zhǔn),提高了準(zhǔn)確率;②結(jié)合最小化光度重投影函數(shù)和自動(dòng)掩蔽損失,對目標(biāo)圖像前后幀中選擇最小誤差進(jìn)行匹配,解決物體被遮擋的問題,減少了物體偽影。③在KITTI數(shù)據(jù)集[13]和Make3D數(shù)據(jù)集[14]上的對比實(shí)驗(yàn)結(jié)果表明,相比于文獻(xiàn)[5-8,15-17],本文所提方法結(jié)果更優(yōu),實(shí)現(xiàn)了基于注意力機(jī)制的自監(jiān)督單目圖像深度估計(jì)。

        圖1 整體網(wǎng)絡(luò)架構(gòu)圖

        1 整體網(wǎng)絡(luò)框架

        本文參考Zhou等人[7]單目深度估計(jì)算法的思想,采用深度網(wǎng)絡(luò)和位姿網(wǎng)絡(luò)聯(lián)合工作的網(wǎng)絡(luò)架構(gòu),網(wǎng)絡(luò)架構(gòu)圖如圖1所示。其中,深度網(wǎng)絡(luò)是由加入注意力機(jī)制的深度網(wǎng)絡(luò)(Attention-UNet)和ResNet18相融合的編碼、解碼架構(gòu)結(jié)合而成,網(wǎng)絡(luò)輸入的是某時(shí)刻的單幀圖像。位姿網(wǎng)絡(luò)[7]參照的是Zhou等人[7]的網(wǎng)絡(luò)結(jié)構(gòu),輸入的是三幀相鄰時(shí)刻的圖像。本節(jié)將從深度網(wǎng)絡(luò)模型的構(gòu)造來和損失函數(shù)介紹本文提出的自監(jiān)督單目深度估計(jì)方法。

        1.1 結(jié)合注意力機(jī)制的深度網(wǎng)絡(luò)

        注意力機(jī)制在分割網(wǎng)絡(luò)[18]上表現(xiàn)良好,視覺系統(tǒng)傾向于關(guān)注圖像中輔助判斷的部分信息并忽略無關(guān)的信息。注意力機(jī)制可以選擇物體聚焦的位置,能夠極大程度上節(jié)約資源,使物體特征更具分辨性。而自注意力機(jī)制(self-attention)[19]對注意力機(jī)制進(jìn)行了改進(jìn),能更好地獲取數(shù)據(jù)和特征的相關(guān)性,減少外部信息的干擾。因此,在編解碼極端處引入自注意力機(jī)制,可以敏銳地關(guān)注到更重要的特征信息,合理利用有限的視覺信息進(jìn)行針對性的處理。加入注意力機(jī)制的深度網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。本文深度估計(jì)網(wǎng)絡(luò)基于Attention-UNet體系結(jié)構(gòu),在解碼時(shí),將編碼器輸出的部分輸入Attention Gate處理后再進(jìn)行解碼,本文使用的自注意力機(jī)制模塊如圖3所示。

        其中,將前一隱含層x∈RC×N的圖像(C為通道數(shù),N為特征所在的位置數(shù))特征轉(zhuǎn)化為f、g兩個(gè)特征空間來計(jì)算注意:

        f(x)=Wfx,g(x)=Wgx

        (1)

        (2)

        公式(1)中Wf、Wg都是網(wǎng)絡(luò)的參數(shù)。公式(2)中βj,i表示在合成第j個(gè)區(qū)域時(shí)模型關(guān)注第i個(gè)位置的程度。

        圖2 加入注意力機(jī)制的深度網(wǎng)絡(luò)結(jié)構(gòu)圖

        圖3 Self-attention結(jié)構(gòu)

        圖3的self-attention模塊中,self-attention結(jié)構(gòu)自上而下分為三個(gè)分支,圖片x經(jīng)過一個(gè)第一個(gè)分支時(shí),經(jīng)過一個(gè)1×1的卷積,將得到f(x)。依次往下,圖中第二個(gè)分支,首先經(jīng)過一個(gè)1×1的卷積操作,得到g(x),將轉(zhuǎn)置后的f(x)與g(x)進(jìn)行矩陣相乘,得到attention map I,注意層的輸出為:

        ο=(ο1,ο2,…,οj,…,οN)∈RC×N

        (3)

        其中:

        (4)

        在最后一個(gè)分支,經(jīng)過卷積核為1×1的卷積層獲得h(x),將attention map I轉(zhuǎn)置,轉(zhuǎn)置后每一列權(quán)重和為1。將h(x)與轉(zhuǎn)置后的attention map I相乘可以得到某個(gè)點(diǎn)的最終值,最終輸出特征圖yi為:

        yi=γοi+xi

        (5)

        其中γ是一個(gè)可學(xué)習(xí)的參數(shù),并且初始化為0,往后再逐漸增大權(quán)重。

        在其他條件一致的情況下,對增加注意力機(jī)制前后的結(jié)果進(jìn)行對比,對比圖如圖4所示,從圖中可以看出,加入注意力機(jī)制后的深度預(yù)測比未加的效果要更好,相對遠(yuǎn)處的物體輪廓更清晰,層次感更強(qiáng)。

        圖4 加入注意力機(jī)制前后對比圖

        1.2 損失函數(shù)

        本文的損失函數(shù)是參考Godard等人[6]和Zhou[7]的損失函數(shù)的方法,對自動(dòng)掩蔽損失的光度重投影損失函數(shù)和邊緣感知平滑函數(shù)[6]加權(quán)求和。本文將目標(biāo)圖像表示為It,每個(gè)源視圖相對于目標(biāo)圖像的相機(jī)姿態(tài)表示為It′→t,其中光度重投影誤差[6]表達(dá)式為:

        Lp=∑pe(It,It′→t)

        (6)

        公式中為pe為光度重投影誤差,其定義為式(7),其中? 為圖片的SSIM相似度所占的比重,SSIM為圖片結(jié)構(gòu)相似度函數(shù)。為了生成的視差圖各個(gè)部分能夠盡可能地平滑,對? 進(jìn)行L1懲罰。

        (7)

        最終的每像素最小光度損失表達(dá)式為:

        Lp=minpe(It,It′→t)

        (8)

        本文采用自動(dòng)掩蔽[15]方法解決處理圖像的偽影問題,同時(shí),將像素掩碼μ損失應(yīng)用于掩蔽損失,有選擇地對像素進(jìn)行加權(quán),μ∈{0,1}在網(wǎng)絡(luò)前向傳遞時(shí)自動(dòng)計(jì)算。該函數(shù)表達(dá)式為:

        μ=[minpe(It,It′→t)

        (9)

        最終的訓(xùn)練損失函數(shù)為每像素邊緣感知平滑函數(shù)Ls[6]和結(jié)合了自動(dòng)掩蔽損失的光度重投影損失函數(shù)之和,并分別求平均值。

        L=μLp+λLs

        (10)

        其中λ為常數(shù),取值為0.001取值參考Godard等人[6]的設(shè)置。

        2 實(shí)驗(yàn)過程

        本文使用主流的KITTI 2015數(shù)據(jù)集[13]進(jìn)行訓(xùn)練,該數(shù)據(jù)集是是當(dāng)前最大的自動(dòng)駕駛場景下的計(jì)算機(jī)視覺算法測評數(shù)據(jù)集,包含了城市、住宅、道路、校園和行人。實(shí)驗(yàn)中,對KITTI數(shù)據(jù)集進(jìn)行了拆分,拆分后的39810張圖片用于訓(xùn)練模型,4424張圖片用于驗(yàn)證。訓(xùn)練后的模型在KITT2015數(shù)據(jù)集[13]和Make3D數(shù)據(jù)集[14]上進(jìn)測試驗(yàn)證。

        本文提出的深度網(wǎng)絡(luò)基于Attention-UNet體系結(jié)構(gòu),即具有跳過連接和注意力機(jī)制的編解碼器網(wǎng)絡(luò),既能表示深層抽象特征,又能表示局部信息。本文提出的模型需要進(jìn)行預(yù)訓(xùn)練,訓(xùn)練次數(shù)為20,批大小為12,輸入/輸出分辨率為640×192。本文的實(shí)驗(yàn)訓(xùn)練使用GPU為NVIDIA Tesla v100,GTX 2080顯卡、64G顯存的服務(wù)器。系統(tǒng)為CentOS 10。整個(gè)輸入輸出網(wǎng)絡(luò)采用PyTorch搭建,訓(xùn)練時(shí)間為12個(gè)小時(shí)。

        實(shí)驗(yàn)使用了Eigen等人[1]的數(shù)據(jù)分割方法,用單目序列進(jìn)行訓(xùn)練,遵循Zhou等人[7]的預(yù)處理來去除靜態(tài)幀。在評估期間,按照標(biāo)準(zhǔn)做法將深度限制在80米,并使用每幅圖像的中位數(shù)地面真值縮放來報(bào)告結(jié)果。實(shí)驗(yàn)數(shù)據(jù)衡量指標(biāo)中,平均相對誤差A(yù)bs Rel、平方根相對誤差Sq Rel、線性均方根誤差RMSE、對數(shù)均方根誤差log RMSE的值越小表示結(jié)果越好,準(zhǔn)確率δ的值越大表示結(jié)果越好。

        3 結(jié)果分析

        表1和表2是加入注意力機(jī)制前后的實(shí)驗(yàn)結(jié)果對比,實(shí)驗(yàn)對比數(shù)據(jù)結(jié)果表明,在深度網(wǎng)絡(luò)中加入注意力機(jī)制后,在KITTI 2015數(shù)據(jù)集[13]上表現(xiàn)更優(yōu)異。由大量注意力模塊組成的深度網(wǎng)絡(luò),能產(chǎn)生注意力感知的特征,同時(shí)網(wǎng)絡(luò)中使用了大量的Skip-Connections,能把所有特征信息融合,加速網(wǎng)絡(luò)收斂[3],故一些稀少的具有負(fù)面作用的特征信息也得到了加強(qiáng),進(jìn)而提升了模型的性能。

        表1 加入注意力機(jī)制前后在KITTI數(shù)據(jù)集上的誤差測度對比

        表2 加入注意力機(jī)制前后在KITTI數(shù)據(jù)集[13]上準(zhǔn)確率指標(biāo)對比

        表3列出的現(xiàn)有方法與本文方法在KITTI 2015數(shù)據(jù)集[13]上(使用Eigen等人[1]的數(shù)據(jù)分割方法)評估的結(jié)果可以看出,本文的方法明顯優(yōu)于現(xiàn)有的自監(jiān)督單目深度估計(jì)訓(xùn)練方法。實(shí)驗(yàn)結(jié)果如圖5所示,可以觀察到本文的單目深度估計(jì)算法在三個(gè)場景中的結(jié)果明顯優(yōu)于其他算法。例如,場景C中可以看出,Yang等人[15]的實(shí)驗(yàn)結(jié)果存在明顯的偽影,越深處輪廓越模糊,而本文的實(shí)驗(yàn)中左側(cè)汽車、右側(cè)柱子與相對遠(yuǎn)處的車輛輪廓都能夠很好地呈現(xiàn)。因此,文中方法所得到深度圖輪廓更準(zhǔn)確,對場景深度圖的邊緣處理地更好,可視化效果更理想。

        表3 實(shí)驗(yàn)結(jié)果對比

        表4給出了在Make3D數(shù)據(jù)集[14]上的測試結(jié)果。我們采用與Godard等人[6]相同的測試方案和評估標(biāo)準(zhǔn)進(jìn)行比較。從表4可以看出,本文提出的方法比以前同樣基于自監(jiān)督的方法產(chǎn)生了更好的結(jié)果。

        圖5 KITTI 2015測試集結(jié)果對比圖

        表4 在Make3D數(shù)據(jù)集上的誤差測度結(jié)果

        4 結(jié)語

        本文提出了一種基于注意力機(jī)制的自監(jiān)督單目深度估計(jì)方法,通過在深度網(wǎng)絡(luò)模型中添加注意力機(jī)制并結(jié)合最小化光度重投影函數(shù),對目標(biāo)圖像前后幀中選擇最小誤差進(jìn)行匹配,解決了單目圖像深度估計(jì)研究中監(jiān)督學(xué)習(xí)存在的邊界偽影、輪廓不清晰、預(yù)測范圍較小等問題。本文所提方法模型經(jīng)過實(shí)驗(yàn)驗(yàn)證,相比于目前的單目深度模型算法,在加入了注意力機(jī)制后誤差測度和某一閾值下的準(zhǔn)確率都達(dá)到了最優(yōu)。本文算法相比其他工作達(dá)到了最先進(jìn)的性能,但是本文所提的位姿網(wǎng)絡(luò)還有待改善。未來工作是進(jìn)一步改善本文網(wǎng)絡(luò)結(jié)構(gòu)中的位姿網(wǎng)絡(luò),提升網(wǎng)絡(luò)的精度。

        猜你喜歡
        單目注意力深度
        讓注意力“飛”回來
        深度理解一元一次方程
        一種單目相機(jī)/三軸陀螺儀/里程計(jì)緊組合導(dǎo)航算法
        深度觀察
        深度觀察
        深度觀察
        單目SLAM直線匹配增強(qiáng)平面發(fā)現(xiàn)方法
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        基于CAD模型的單目六自由度位姿測量
        A Beautiful Way Of Looking At Things
        欧美视频第一页| 97se亚洲国产综合在线| 久久久精品人妻无码专区不卡| 亚洲一区爱区精品无码| 无码国产精品一区二区免费式芒果 | 国产夫妇肉麻对白| 无码少妇一区二区三区| 国产精品久久久一本精品| 亚洲高清激情一区二区三区| 久久成人国产精品一区二区| 日本aⅴ大伊香蕉精品视频| 中文字幕在线久热精品| 激情视频国产在线观看| 人妻少妇精品中文字幕专区| 国产精品无码午夜福利| 精品 无码 国产观看| 色av色婷婷18人妻久久久| 成人影院在线视频免费观看| 国产青草视频在线观看| chinese国产在线视频| 日本一道本加勒比东京热| 精品卡一卡二卡3卡高清乱码| 黄色视频免费在线观看| 玩弄人妻奶水无码AV在线| 国产亚洲中文字幕一区| 夜夜揉揉日日人人青青| 亚洲国产精品自拍一区| 久久夜色精品国产九色| 友田真希中文字幕亚洲| 久久99精品国产麻豆| 日本色偷偷| 亚洲成人精品在线一区二区| 中文无码一区二区三区在线观看| 中文字幕在线亚洲日韩6页手机版| 国内自拍视频在线观看| 不卡日韩av在线播放| 日产精品久久久久久久性色| 中文字幕午夜AV福利片| 华人在线视频精品在线| 成人免费无码大片a毛片软件| 无码中文日韩Av|