鄧慧萍 盛志超 向 森 吳 謹(jǐn)
(武漢科技大學(xué)信息科學(xué)與工程學(xué)院 武漢 430081)
(武漢科技大學(xué)冶金自動(dòng)化與檢測(cè)技術(shù)教育部工程研究中心 武漢 430081)
在計(jì)算機(jī)視覺領(lǐng)域中,深度反映了場景的3維空間信息,是3維重建[1]、顯著性檢測(cè)[2]、語義分割[3]等計(jì)算機(jī)視覺任務(wù)的基礎(chǔ)。因此,精確的深度估計(jì)對(duì)計(jì)算機(jī)視覺領(lǐng)域的發(fā)展具有重要的意義。傳統(tǒng)相機(jī)在某一視角采集場景的信息,生成的圖像只能記錄光線的位置信息,丟失了與場景深度有關(guān)的角度信息。與傳統(tǒng)相機(jī)結(jié)構(gòu)不同,光場相機(jī)[4]在主透鏡和傳感器之間放置了一個(gè)微透鏡陣列。得益于這種特殊的光學(xué)結(jié)構(gòu),光場相機(jī)不僅記錄了輸入光線的強(qiáng)度,同時(shí)也捕捉了光線的方向。通過整合這些角度信息可以生成不同性質(zhì)的圖像,如多視角和極平面圖像(Epipolar Plane Image, EPI)等。這些成像形式包含了豐富的信息,為精確的光場深度估計(jì)提供了可能。
盡管光場圖像在深度估計(jì)方面有著特殊的優(yōu)勢(shì),但目前仍然面臨著巨大的挑戰(zhàn)。由于光場子孔徑圖像之間的基線較窄,在受限的圖像傳感器中存在空間分辨率和角度分辨率之間的權(quán)衡。在之前的工作中[5–11],已經(jīng)提出了很多方法來克服這些限制。Jeon等人[5]提出了基于相移的亞像素多視角立體匹配算法,該算法需要為每個(gè)子視角構(gòu)建代價(jià)函數(shù),時(shí)間復(fù)雜度較高。Chen等人[6]引入了雙邊一致性度量用于光場深度估計(jì)以處理顯著的遮擋問題。Wanner和Goldluecke[7]提出了一種全局一致性標(biāo)記算法,采用結(jié)構(gòu)張量提取EPI圖像中的斜率。隨后Zhang等人[8]提出了一種平行四邊形算子,通過距離計(jì)算EPI中斜線的斜率,該方法對(duì)噪聲和遮擋具有很好的魯棒性,但提取EPI的過程中工作量較大,實(shí)時(shí)性較差。Tao等人[9]從焦堆棧出發(fā)提出將散焦線索、一致性線索和陰影線索相融合獲取局部深度圖。Wang等人[10]為了更好地處理遮擋問題,提出了一種遮擋感知的深度估計(jì)算法。隨后,Williem等人[11]在此研究的基礎(chǔ)上,采用角度熵和自適應(yīng)散焦相應(yīng)地提高算法對(duì)遮擋的魯棒性和噪聲的敏感性。以上這些傳統(tǒng)方法在一定程度上提高了深度估計(jì)的準(zhǔn)確性,但是由于計(jì)算量較大,在得到精度的同時(shí)失去了速度方面的優(yōu)勢(shì)。
近年來,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)被用于深度估計(jì),在精度和時(shí)間復(fù)雜度上都有了顯著的提升。Heber等人[12]提出了U型網(wǎng)絡(luò)的結(jié)構(gòu)框架和基于編解碼結(jié)構(gòu)的深層端到端網(wǎng)絡(luò)結(jié)構(gòu),該方法在低計(jì)算量的前提下獲得了精確的結(jié)果,但是對(duì)于數(shù)據(jù)的預(yù)處理不夠精確。Luo等人[13]以十字EPI為卷積神經(jīng)網(wǎng)絡(luò)的輸入,并采用圖割法全局優(yōu)化策略對(duì)結(jié)果進(jìn)行優(yōu)化。在此基礎(chǔ)上,Shin等人[14]引入了左右對(duì)角線輸入,并設(shè)計(jì)了一種將子孔徑圖像以EPI結(jié)構(gòu)作為輸入的卷積神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)的預(yù)處理方式加強(qiáng)了視角信息的相關(guān)性,但未對(duì)復(fù)雜區(qū)域作出合理有效的處理,在融合信息時(shí)也沒有對(duì)不同通道的信息進(jìn)行整合。隨后,Tsai等人[15]將全部的子孔徑圖像作為輸入,并設(shè)計(jì)了一個(gè)基于注意力的視圖選擇網(wǎng)絡(luò)來消除視圖間信息的冗余,該網(wǎng)絡(luò)輸入量較大,訓(xùn)練成本較高。Zhou等人[16]提出了一個(gè)從焦點(diǎn)堆棧中學(xué)習(xí)深度語義特征和局部結(jié)構(gòu)信息的光場深度估計(jì)網(wǎng)絡(luò)。Shi等人[17]引入了3D深度估計(jì)中的光流法,并提出一個(gè)用于稀疏光場的深度估計(jì)方法。Guo等人[18]考慮到遮擋的問題,設(shè)計(jì)一個(gè)遮擋預(yù)測(cè)網(wǎng)絡(luò)得到遮擋掩模,通過遮擋掩模對(duì)初始深度圖進(jìn)行細(xì)化得到最終的深度圖。早期的基于學(xué)習(xí)的方法[12,14]將深度預(yù)測(cè)看作一個(gè)數(shù)據(jù)傳輸?shù)暮诤?,忽略了光場圖像之間的幾何特征,在邊緣、遮擋、弱紋理等區(qū)域無法得到精確的深度估計(jì)結(jié)果。針對(duì)這些困難區(qū)域,本文利用上下文信息來增強(qiáng)網(wǎng)絡(luò)的魯棒性,通過注意力機(jī)制來獲取有效的上下文信息,以提高深度圖邊緣的質(zhì)量。
上下文信息是像素與其周圍環(huán)境交互的語義特征信息。語義分割具有捕獲圖像中不同對(duì)象邊緣信息的能力,而深度估計(jì)最容易產(chǎn)生錯(cuò)誤的區(qū)域是容易發(fā)生遮擋的邊緣區(qū)域,這與語義分割問題存在很大的空間和強(qiáng)度相關(guān)性。因此,本文考慮到豐富的語義信息可以幫助糾正對(duì)象邊界的視差值,為復(fù)雜區(qū)域提供了更多的視差細(xì)節(jié),提出了一個(gè)基于語義信息導(dǎo)向的光場深度估計(jì)網(wǎng)絡(luò)框架,該網(wǎng)絡(luò)學(xué)習(xí)到充分的上下文信息,解決了深度估計(jì)中難以優(yōu)化的不適定區(qū)域問題。實(shí)驗(yàn)結(jié)果表明,本文算法在實(shí)驗(yàn)精度和速度上均優(yōu)于大部分的算法,且保留較好的深度圖邊緣。該深度學(xué)習(xí)網(wǎng)絡(luò)具有以下特點(diǎn):
(1)設(shè)計(jì)了語義感知模塊(Semantic Perception module, SP_module)用于復(fù)雜信息的特征提取,其中空洞金字塔池化(Atrous Spatial Pyramids Pooling, ASPP)可以引入多尺度信息,通過增大感受野來捕捉層次上下文信息,編解碼結(jié)構(gòu)通過逐步恢復(fù)空間信息來捕獲更清晰的對(duì)象邊界。通過將ASPP和編解碼結(jié)構(gòu)結(jié)合,可以獲得更加清晰的深度圖邊緣。
(2)由于光場相機(jī)的特殊結(jié)構(gòu),光場的子孔徑圖像之間具有很強(qiáng)的相關(guān)性,導(dǎo)致在獲取充分的光場圖像特征信息的同時(shí)會(huì)造成大量的信息冗余。本文通過加入一個(gè)輕量化的特征注意力模塊(Feature Attention module, FA_module),用于學(xué)習(xí)特征交互時(shí)每個(gè)特征的重要性,該模塊用較少的參數(shù)可以帶來了較大的性能提升。
(3)大部分網(wǎng)絡(luò)在聚合特征時(shí)只使用網(wǎng)絡(luò)的最后一層,導(dǎo)致了部分信息的丟失。本文使用堆疊沙漏模塊(Stacked Hourglass module, SH_module)來聚合特征,其編解碼結(jié)構(gòu)可以更好地學(xué)習(xí)上下文信息,跳躍連接可以將淺層信息和深層信息結(jié)合起來,細(xì)化低紋理的模糊度和遮擋部分。串聯(lián)的沙漏模型通過復(fù)用的方式提高捕獲重要特征的精度。
深度估計(jì)的核心思想是計(jì)算視差。對(duì)于4D光場圖像L(x,y,u,v),其中心子孔徑視圖L(x,y,0,0)與相鄰視圖之間的關(guān)系可以表示為
其中,(x,y)代表空間坐標(biāo),(u,v)代表角度坐標(biāo),d(x,y)是中心視點(diǎn)像素與其相鄰視點(diǎn)中相應(yīng)像素的視差。為了獲得中心視角的深度圖,需要在其它視角中尋找對(duì)應(yīng)像素點(diǎn)的偏移量d(x,y)。
4D光場圖像可以表示為陣列的子孔徑圖像,相比于傳統(tǒng)圖像包含更加豐富的信息,但是由于光場圖像子孔徑之間的基線較窄,包含了大量相同的信息,這些龐大的數(shù)據(jù)量會(huì)增大訓(xùn)練的難度,給網(wǎng)絡(luò)增加不必要的計(jì)算。因此,在光場的輸入形式上既要去除信息的冗余,又要避免信息的丟失。
考慮到光場圖像的幾何特征,有效的方式是采用水平、垂直和左右對(duì)角線4個(gè)具有一致基線視點(diǎn)的EPI結(jié)構(gòu)作為輸入。多個(gè)方向的EPI輸入在降低信息冗余、減少有效信息丟失的同時(shí),能夠解決部分遮擋問題,獲取更加精確的深度圖。本文的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,4路輸入分別被送到語義感知模塊SP_module來提取每條分支的特征信息,該模塊在引入多尺度信息的同時(shí)能夠細(xì)化邊緣細(xì)節(jié),因此可以提取場景的語義信息和多尺度上下文信息;然后,將4條支路的特征進(jìn)行融合,考慮到每一路特征的重要性不同,設(shè)計(jì)了特征注意力模塊FA_module為每個(gè)特征賦予不同的權(quán)重;最后,將融合后的特征塊送到一個(gè)堆疊沙漏模塊SH_module,以編解碼的方式重復(fù)處理特征,進(jìn)一步將全局多尺度上下文信息聚合得到精確的深度圖。
圖1 網(wǎng)絡(luò)結(jié)構(gòu)圖
圖像的邊緣信息被解釋為高頻信息,為了獲得清晰的深度圖邊緣,必須保持高頻細(xì)節(jié)的完整性。為了提高深度圖的精確度,本文設(shè)計(jì)了一個(gè)語義感知模塊SP_module用于提取每條通道的特征,結(jié)構(gòu)及參數(shù)如圖2所示。編碼模塊通過減少特征圖的分辨率捕獲高級(jí)語義信息,解碼模塊通過恢復(fù)空間信息細(xì)化物體邊緣,因此本文設(shè)計(jì)的編解碼結(jié)構(gòu)可以捕捉清晰的目標(biāo)邊界??紤]到光場圖像存在窄基線的問題,需要采用2×2的小卷積核來捕捉圖像間的差異信息。然而卷積核過小會(huì)導(dǎo)致感受野不足的問題,從而影響深度圖的精度。為了解決該問題,本文使用空洞金字塔池化ASPP來增大感受野,通過在不同的分支采樣不同的空洞率獲得多尺度圖像表征,以多個(gè)比例來捕捉不同尺度和位置的上下文信息。這種將編解碼結(jié)構(gòu)和ASPP模塊相結(jié)合的方式,既可以捕獲豐富的上下文信息,又可以獲得清晰的物體邊界。
圖2 語義感知模塊SP_module的網(wǎng)絡(luò)結(jié)構(gòu)
為保留網(wǎng)絡(luò)的底層特征,首先用兩個(gè)“Conv-ReLU-Conv-BN-ReLU”結(jié)構(gòu)的卷積塊獲取淺層信息。接著,用步長為2的卷積下采樣進(jìn)行特征編碼提取深層語義信息。ASPP模塊由4個(gè)不同采樣率rate={1, 2, 4, 8}的空洞卷積和1個(gè)全局平均池化組成,不同采樣率的卷積層可以應(yīng)對(duì)不同大小的物體及細(xì)節(jié)區(qū)域。我們將各級(jí)特征圖連接起來,通過1個(gè)1×1的卷積來壓縮特征,并使用雙線性插值來恢復(fù)特征的尺寸,進(jìn)行特征的解碼。最后,將淺層信息通過1個(gè)1×1的卷積來壓縮特征,融合低級(jí)結(jié)構(gòu)信息和高級(jí)語義信息,實(shí)現(xiàn)信息的交互。
在經(jīng)過多路特征提取后,需要將特征進(jìn)行融合。目前在光場深度估計(jì)中有兩種方式進(jìn)行特征融合:(1)構(gòu)建匹配代價(jià)塊,將特征圖在視差的范圍內(nèi)進(jìn)行平移,但這種方法受限于在單幅視圖中進(jìn)行特征提取,且需要擴(kuò)大張量維度,在4D光場中會(huì)導(dǎo)致計(jì)算量過大的問題;(2)將特征圖直接拼接,這種方法結(jié)構(gòu)簡單,無需引入額外的參數(shù),但缺點(diǎn)是忽略了光場圖像之間存在的相關(guān)性問題,沒有引入特征圖之間關(guān)系的表述,造成了大量信息的冗余。
考慮到光場的輸入形式,本文采用了將特征圖進(jìn)行直接拼接的方法,并針對(duì)信息冗余問題,設(shè)計(jì)了一個(gè)局部跨通道交互的特征注意力模塊FA_module,用于在尋找有效特征的同時(shí)抑制無用信息。FA_block學(xué)習(xí)每個(gè)特征的重要性,為每一個(gè)特征賦予從0-1的不同權(quán)重,表示每個(gè)特征的重要程度。與以往的注意力機(jī)制SENet[19]不同,F(xiàn)A_module采用無降維的方式進(jìn)行通道間的交互,提高了注意力機(jī)制的學(xué)習(xí)能力。
FA_block的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。在不降低通道維數(shù)的情況下,執(zhí)行全局平均池化以整合全局信息,執(zhí)行全局最大池化以細(xì)化邊緣信息,通過兩種池化方式的結(jié)合進(jìn)一步提高捕捉有效信息的能力。在每一個(gè)池化層后接一個(gè)1×1×k的一維卷積,其中卷積核大小為k的1維卷積是用來計(jì)算每個(gè)通道與其k個(gè)鄰域間的相互作用,表示局部跨通道間的覆蓋范圍。k的大小是通過一個(gè)與特征通道數(shù)相關(guān)的函數(shù)自適應(yīng)確定,具體的形式如下:
圖3 特征注意力模塊FA_module的網(wǎng)絡(luò)結(jié)構(gòu)
多路信息融合之后,需要對(duì)已經(jīng)賦予不同權(quán)重的特征塊進(jìn)行高階特征提取以獲得視差。高/低層之間存在信息差異,具體表現(xiàn)為低層特征分辨率更高,主要包含了位置、細(xì)節(jié)等信息,但是語義性較低,噪聲更多;而高層特征分辨率較低,具有更強(qiáng)的語義信息,但細(xì)節(jié)、紋理信息較少[20]。以前的工作[13,14]大都采用堆疊多個(gè)卷積塊的方式來進(jìn)一步提取特征,實(shí)現(xiàn)多路信息的特征聚合。然而這種方法會(huì)導(dǎo)致信息在網(wǎng)絡(luò)傳遞中有少量的丟失,從而造成部分細(xì)節(jié)的缺失。因此,本文設(shè)計(jì)如圖4所示的堆疊沙漏模塊SH_module用于多路信息的特征聚合,它對(duì)不同層的特征進(jìn)行整合實(shí)現(xiàn)信息互補(bǔ),有效緩解了卷積層數(shù)增加所造成的信息丟失問題,帶來了網(wǎng)絡(luò)性能的提升。
圖4 堆疊沙漏模塊SH_module的網(wǎng)絡(luò)結(jié)構(gòu)
SH_module包含1個(gè)預(yù)處理結(jié)構(gòu)和3個(gè)串聯(lián)的沙漏結(jié)構(gòu),以捕獲不同尺度的上下文信息。預(yù)處理結(jié)構(gòu)由卷積塊和殘差塊組成,用于提取低級(jí)特征,為最終的視差預(yù)測(cè)提供細(xì)節(jié)信息。沙漏結(jié)構(gòu)被設(shè)計(jì)為自上而下-自下而上的編解碼形式,在細(xì)化低紋理模糊度的同時(shí)可以解決部分遮擋問題。在編碼部分,用卷積核為3×3、步長為2的卷積層進(jìn)行下采樣操作,降低特征圖分辨率的同時(shí)將通道數(shù)翻倍。接著,在后面接一個(gè)卷積核大小為2×2、步長為1的卷積層。由于在編碼部分進(jìn)行兩次的下采樣操作,在解碼部分相應(yīng)地執(zhí)行兩次上采樣操作,即用卷積核為3×3,步長為2的反卷積層恢復(fù)特征圖分辨率,同時(shí)將特征通道數(shù)減半。此外,每一次反卷積操作后,將恢復(fù)的特征與編碼器中同分辨率的特征級(jí)聯(lián),使得淺層信息和深層信息結(jié)合,避免有效信息的丟失。最后,通過將多個(gè)沙漏結(jié)構(gòu)串聯(lián)復(fù)用先前的信息進(jìn)一步提高了預(yù)測(cè)結(jié)果的精度。
為了驗(yàn)證本文算法的效果,在4D光場數(shù)據(jù)集new HCI[21]上進(jìn)行實(shí)驗(yàn)。光場數(shù)據(jù)集new HCI共有28組視差在(–4, 4)之間的數(shù)據(jù),共分為4類:Training, Test, Stratified, Additional。使用Additional中的16個(gè)場景進(jìn)行訓(xùn)練,對(duì)Training和Stratified中的7個(gè)場景進(jìn)行算法的驗(yàn)證,每個(gè)場景都包含9×9個(gè)子視角和中心視角的真實(shí)深度圖(Ground Truth, GT),其中,每個(gè)子視角圖像的空間分辨率為512×512,Test由于沒有真值并未參與訓(xùn)練和測(cè)試。實(shí)驗(yàn)在NVIDIA GTX2070Ti GPU上運(yùn)行,使用TensorFlow框架作為后端,Keras庫搭建網(wǎng)絡(luò),訓(xùn)練大約花了7 d的時(shí)間。
深度學(xué)習(xí)需要大量的訓(xùn)練樣本,而new HCI中16個(gè)訓(xùn)練場景所包含的訓(xùn)練樣本滿足不了需求,這可能會(huì)給網(wǎng)絡(luò)帶來過擬合的問題。為了解決數(shù)據(jù)不足的問題,本文從訓(xùn)練數(shù)據(jù)集中隨機(jī)分割32×32的塊進(jìn)行批量訓(xùn)練,并對(duì)塊進(jìn)行了數(shù)據(jù)增強(qiáng),包括旋轉(zhuǎn)、縮放、翻轉(zhuǎn)、視角平移、色彩增強(qiáng)以及隨機(jī)顏色變換。
本文使用的卷積核大小大部分是2×2的,這在之前的工作[14]中已經(jīng)被驗(yàn)證更適合處理光場相鄰視角間的窄基線問題。本文訓(xùn)練時(shí)使用小批量隨機(jī)梯度下降,批次大小設(shè)為16,這樣的訓(xùn)練方式有利于更魯棒性收斂,避免局部最優(yōu),同時(shí)減少了對(duì)顯存的依賴。優(yōu)化器使用RMSprop,初始學(xué)習(xí)率為10–4,損失函數(shù)是MAE,該損失函數(shù)對(duì)異常點(diǎn)有更好的魯棒性
其中,yi表示第i個(gè)像素的真實(shí)值,y^i表示初始估計(jì)值,m為視差圖像素點(diǎn)的總數(shù)。
為了評(píng)估算法的實(shí)驗(yàn)結(jié)果,定量分析的評(píng)價(jià)指標(biāo)選擇了均方誤差(Mean Square Error, MSE),定性分析的評(píng)價(jià)指標(biāo)選擇了不良像素率(Bad Pixel,BP)。
不良像素率為不良像素的數(shù)量占總像素的比例。它描述為,當(dāng)一個(gè)像素點(diǎn)估計(jì)出的值與真實(shí)值的差異大于一定閾值t時(shí),該點(diǎn)被判斷為不良像素點(diǎn)。在本文中,取t=0.07。
本文的算法在HCI 4D光場數(shù)據(jù)集上與一些主流的方法進(jìn)行了定性和定量的比較。對(duì)比的方法有:基于多視角的方法LF[5],基于EPI的方法SPO[8],基于焦堆棧的方法LF_OCC[10],CAE[11],基于學(xué)習(xí)的方法EPINET[14],F(xiàn)SNET[16]。圖5是各方法在4個(gè)場景下的壞點(diǎn)圖和深度圖。其中,壞點(diǎn)圖中BP>0.07顯示為紅色,否則為綠色,深度圖采用偽彩圖顯示。表1為各方法在7個(gè)場景下的MSE定量指標(biāo)結(jié)果,表2為BP定量指標(biāo)結(jié)果,其中最后一列(Avg)為所有場景平均值,每列的最優(yōu)值用黑色加粗,次優(yōu)值加下劃線。
從圖5的壞點(diǎn)圖可以發(fā)現(xiàn),傳統(tǒng)方法在處理細(xì)小深度變化的場景中表現(xiàn)結(jié)果較好,在大量遮擋存在的區(qū)域或者密集的物體邊界處容易發(fā)生錯(cuò)誤預(yù)測(cè)?;趯W(xué)習(xí)的方法在處理復(fù)雜場景時(shí)已經(jīng)有了較高的提升,但在邊緣、遮擋區(qū)域仍有較高的邊緣模糊。本文方法在低紋理的場景Cotton, Dino以及在有大量邊緣和遮擋區(qū)域的場景Boxes, Sideboard中壞點(diǎn)像素較少,均可以取得優(yōu)秀的結(jié)果。從表1和表2可以看出,本文算法在所有場景的MSE均低于所比較的算法,BP在Cotton, Sideboard, Backgammon和Pyramids上低于所比較的算法,在其它場景略高于次優(yōu)值的算法。均方誤差和不良像素率的平均值在所有比較的算法均處于最優(yōu)值,比次優(yōu)算法的結(jié)果分別提升22.2%和1.5%。
表1 MSE指標(biāo)對(duì)比
表2 BP指標(biāo)對(duì)比
圖5 測(cè)試數(shù)據(jù)集的4個(gè)場景的深度圖和壞點(diǎn)圖
為了探索本文的方法在復(fù)雜區(qū)域的有效性,將本文的算法和其它算法在含有大量場邊緣、遮擋以及弱紋理區(qū)域的場景Boxes和Sideboard上進(jìn)行了比較,圖6是在所有算法深度圖的局部放大圖。在Boxes中,本文算法在鏤空區(qū)域有清晰的網(wǎng)格,在Sideboard中,本文算法在難以訓(xùn)練的交互線上有極強(qiáng)的分辨能力。對(duì)于各種梯度邊緣和物體交接邊緣,大部分的算法無法捕捉非常細(xì)微的深度變化,在遮擋區(qū)域的邊緣無法得到正確的結(jié)果,這導(dǎo)致了很高的錯(cuò)誤率。從圖6可以看出,本文的深度圖有銳利、清晰的邊緣,更接近真值圖的邊緣。
圖6 實(shí)驗(yàn)結(jié)果的局部放大圖
表3是本文算法和所比較的算法在4個(gè)場景的運(yùn)行時(shí)間的比較。相比各種傳統(tǒng)算法和深度學(xué)習(xí)算法,本文的算法在取得較高精度的同時(shí)具有明顯的速度優(yōu)勢(shì)。
表3 各算法的運(yùn)行時(shí)間(s)對(duì)比
本文在4D HCI光場數(shù)據(jù)集上對(duì)所提出的網(wǎng)絡(luò)進(jìn)行了消融實(shí)驗(yàn),用MSE和BP作為評(píng)估指標(biāo)定量分析了SP_module, FA_module和SH_module對(duì)深度估計(jì)性能的影響。表4為消融實(shí)驗(yàn)的結(jié)果,其中,未使用到的模塊用卷積塊來代替,加粗表示最優(yōu)。從表4可以看出,當(dāng)使用SP_module時(shí),復(fù)雜區(qū)域的特征提取能力更強(qiáng),語義信息有助于產(chǎn)生更好的邊緣細(xì)節(jié)。當(dāng)結(jié)合SP_module和SH_module時(shí),編解碼結(jié)構(gòu)提供了更多的上下文信息,均方誤差有了顯著的下降。當(dāng)在上述網(wǎng)絡(luò)融入FA_module時(shí),對(duì)提取到的特征進(jìn)行了有目的的選擇,降低了無效特征造成的干擾。消融實(shí)驗(yàn)結(jié)果表明,融合3個(gè)模塊的網(wǎng)絡(luò)產(chǎn)生了最佳的效果,所提出的方法顯著提高了深度估計(jì)的性能。
表4 模塊消融實(shí)驗(yàn)的定量結(jié)果比較
本文提出了一種基于語義導(dǎo)向的光場圖像深度估計(jì)網(wǎng)絡(luò),該網(wǎng)絡(luò)將語義信息融入到深度估計(jì)中給視差圖提供了重要的邊緣細(xì)節(jié)。考慮到邊緣遮擋問題,本文將編解碼結(jié)構(gòu)和空洞金字塔池化結(jié)合進(jìn)行特征的提取,通過引入多尺度信息來解決感受野不足的問題。為應(yīng)對(duì)光場圖像特殊的幾何結(jié)構(gòu)造成的特征冗余,本文設(shè)計(jì)了用于多路特征融合的注意力模塊,該模塊增強(qiáng)了網(wǎng)絡(luò)的學(xué)習(xí)效率。此外,使用堆疊沙漏模塊來聚合特征,進(jìn)一步豐富邊緣、弱紋理等復(fù)雜區(qū)域的細(xì)節(jié)。在4D光場數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明了本文方法的有效性,與現(xiàn)有的算法相比,本文的方法在邊緣細(xì)節(jié)處有明顯的改善。后續(xù)工作考慮在堆疊沙漏模塊融入注意力機(jī)制,以提高特征聚合時(shí)多模塊、多尺度選擇性鑒別信息特征和關(guān)注顯著特征的能力。