周 濤, 郁 梅*, 陳曄曜, 蔣志迪, 蔣剛毅
(1. 寧波大學 信息科學與工程學院,浙江 寧波 315211;2. 寧波大學科學技術學院 信息工程學院,浙江 寧波 315212)
區(qū)別于傳統(tǒng)成像只能在單個方向上捕獲三維空間的光線信息,光場成像技術能夠同時記錄場景中光線的強度和方向信息?;诠鈭龀上竦墓鈱W儀器(即光場相機)也被開發(fā)以獲取更豐富的場景信息。許多光場應用也隨之產(chǎn)生,如深度感知[1]、反射率估計[2]、視圖渲染[3]、前景去遮擋[4]等技術。通過在主鏡頭和成像傳感器之間插入微透鏡陣列等光學組件,光場相機可以通過單次曝光同時采集空間信息和角度信息。但受限于傳感器的尺寸,密集的空間采樣會導致稀疏的角度采樣,這嚴重阻礙了光場成像的實際應用。
為了解決這個問題,基于卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)的光場角度超分辨率算法被提出。但由于光場圖像的四維 (4-Dimensions,4D)結(jié)構(gòu)限制,其空間信息與角度信息高度耦合,給卷積神經(jīng)網(wǎng)絡的光場應用帶來了挑戰(zhàn)?,F(xiàn)有的基于卷積神經(jīng)網(wǎng)絡的方法通過直接生成或者間接生成兩種方式來獲得密集的光場圖像。
直接生成法先從稀疏光場圖像中建模空間和角度信息的相關性,再沿角度維上采樣重建光場。Yoon 等[5]首次用CNNs 對光場圖像建模,通過鄰域視圖建模的方法從相鄰的兩個子孔徑圖(Sub-Aperture Image,SAI)中生成中間視圖。Yeung 等[6]提出空間角度可分離卷積來代替4D卷積提取光場4D 結(jié)構(gòu)信息。Wu 等[7]將極平面圖像(Epipolar Plane Image,EPI)視為光場圖像的基本單元,提出基于EPI 的重建網(wǎng)絡,但因EPI本身分辨率的問題,該網(wǎng)絡在低角度分辨率作為輸入的情況表現(xiàn)欠佳。Wang 等[8]提出一個端到端的偽4D CNN,將二維(2-Dimensions,2D)EPIs堆疊成三維(3-Dimensions,3D)形式作為輸入進行角度重建。Wang 等[9]將光場圖像視為宏像素圖像陣列,并設計了一種解耦機制來充分利用光場的角度信息。間接生成法大多通過生成一些中間輸出,通過中間輸出與輸入的操作來重建光場圖像。Kalantari 等[10]提出一個端到端的兩階段網(wǎng)絡,將角度重建看作視差估計和色彩估計兩部分,在生成中間輸出視差圖后,根據(jù)輸入與視差圖繪制出粗糙結(jié)果,后續(xù)進行色彩補償。Wu等[11]通過預移位的EPIs 隱式地估計場景深度,并提出一種克服EPI 不匹配的CNN 重建網(wǎng)絡,可實現(xiàn)更大視差范圍下的光場重建。除此之外,Jin 等[12]提出一個能從非結(jié)構(gòu)化稀疏光場輸入重建出密集分布的兩階段網(wǎng)絡。上述直接和間接方法都只能生成密集分布的光場圖像,無法從稀疏分布的光場圖像中重建出任意角度位置的新視圖。近期,Han[13]等提出一個基于變分自編碼器的間接生成網(wǎng)絡,它能夠從稀疏分布的光場輸入圖像中為每個參考視圖生成一組非共享卷積核,通過與參考視圖的卷積可以靈活地得到任意角度位置的新視圖。但它與其他角度超分方法存在一樣的問題,即特征提取時受限于感受野,在更大尺寸光場圖像上對空間和角度信息的相關性建模不充分。
為了解決上述問題,本文提出了一個簡單有效的方法來調(diào)整光場空角相關性建模時的感受野。鑒于頻域上的一點能影響空域上的全局信息、頻域的全局信息與空間上局部信息存在相關性,基于快速傅里葉卷積[14]提出了一個密集快速傅里葉卷積殘差(Dence Fast Fourier Convolutions Residual,DFFCR)塊來更有效地建模光場的空間和角度相關性。該模塊分別在頻域和空域上進行了卷積操作,以提取場景的全局和局部信息。同時,通過引入基于全局響應歸一化(Global Response Normalization,GRN)[15]的通道注意塊,能夠?qū)⑷中畔⑴c局部信息進行通道級融合,更有效地利用光場圖像的空間和角度信息。其次,提出了一種視點加權(quán)的間接合成(Viewpoint Weighting Indirect View Synthesis,VWIVS)塊,該塊能結(jié)合多個參考視圖以生成最終結(jié)果。為每個參考視圖生成置信圖,并根據(jù)置信圖來決定每個參考視圖生成結(jié)果的權(quán)重。將每個參考視圖生成結(jié)果進行融合后,得到最終輸出。這一策略能夠保留更多的細節(jié)信息,增強生成結(jié)果的可視化效果。
基于雙平面光場參數(shù)化模型[16],光場圖像通常表示為一個4D 函數(shù)L(u,v,s,t)∈RU×V×S×T,其中U和V表示角度維度,S和T表示空間維度,在 角 度 位 置 (u,v) 上 的 SAI 表 示 為I(u,v)(s,t)∈RS×T,與自然2D 圖像具有相似的風格。
本文旨在從稀疏分布的參考子孔徑圖重建出新角度位置上的SAI,使其盡可能接近真值。即給定輸入?yún)⒖甲涌讖綀DLref和目標角度位置ptar,該問題可以表示為:
圖1 聯(lián)合傅里葉卷積與通道注意力的光場重建方法的總體框圖Fig.1 Framework of light field reconstruction method with joint Fourier convolution and channel attention
圖1 為所提方法的整體框架。重建過程主要包括初始特征提取模塊、空頻域特征學習模塊、目標角度位置特征映射模塊和視點加權(quán)的間接視圖合成模塊4 個模塊。首先,利用初始特征提取模塊結(jié)合通道注意塊初步提取參考子孔徑圖的空間信息。之后結(jié)合空域和頻域上的卷積對參考子孔徑圖的空間和角度信息進行融合。結(jié)合目標角度位置后,將融合后的特征映射至目標角度位置,利用帶有目標角度信息的特征通過映射模塊為每個參考子孔徑圖的每個像素生成非共享卷積核,最后用該卷積核和參考子孔徑圖間接合成高質(zhì)量且細節(jié)豐富的目標角度位置子孔徑圖。
首先,使用由少量3×3 卷積加上激活層構(gòu)成的Spatial Conv 塊將參考子孔徑圖映射至特征維度,如圖2(a)所示。為了在空間維度上更好地融合參考子孔徑圖之間的信息,結(jié)合基于GRN 的通道注意塊進一步融合參考子孔徑圖間的信息,以便在不產(chǎn)生額外參數(shù)的情況下增加通道間的對比和選擇性,如圖2(b)所示。其中,使用K個級聯(lián)的ConvNeXt v2[15]塊來實現(xiàn)對參考子孔徑圖在特征域中的信息融合。初步提取的特征表示為F∈RC×S×T,其中C表示通道維度。
圖2 初始特征提取模塊示意圖Fig.2 Schematic diagram of initial feature extraction module
為整合多級特征學習與傅里葉卷積,設計了DFFCR 塊以提取子孔徑圖間的空域和頻域信息。如圖1 所示,每個DFFCR 塊由3 個級聯(lián)的快速傅里葉卷積殘差(Fast Fourier Convolutions Residual,F(xiàn)FCR)塊和一個1×1 卷積塊組成,前兩個FFCR 塊的輸出會拼接至最后一個FFCR 塊,并通過1×1 卷積塊進行融合。假定表示第s個DFFCR 塊內(nèi)的第l個FFCR 的輸出,那么第s個DFFCR 塊的輸出可以表示為:
如圖3 所示,每個FFCR 塊包含兩個快速傅里葉卷積(Fast Fourier Convolution,F(xiàn)FC)塊。FFC 塊是基于通道級的快速傅里葉變換,它將輸入特征沿著通道維度劃分為局部和全局兩個部分分別進行處理。局部分支使用普通的卷積來捕獲局部特征;全局分支則利用一個頻域變換塊,在頻域上考慮圖像的全局結(jié)構(gòu)并提取非局部信息。最終兩個分支的輸出堆疊在一起進行輸出。頻域變換塊使用傅里葉卷積單元來提取全局信息。傅里葉卷積單元中主要使用Real FFT2d 將輸入從空域變換至頻域中,然后在頻域上進行卷積操作,最后使用Inverse FFT2d 將特征恢復至空域。
圖3 快速傅里葉卷積殘差塊示意圖Fig.3 Schematic diagram of FFCR block
經(jīng)過空頻域特征學習后的輸出特征只是對輸入的參考子孔徑圖的空間和方向信息建模,還需要將它映射至角度位置。因此,對于給定目標角度位置Ptar,使用一個空間卷積塊卷積Wsc進行初步融合。融合角度過程可以表示為:
其中,F(xiàn)fused∈RC×S×T表示初步融合角度后的輸出,F(xiàn)DFFCR∈RC×S×T表示DFFCR 輸出的特征。由于DFFCR 塊和角度融合都是通道級別的,需要解決如何在模型穩(wěn)定的情況下,有效地融合目標角度位置和所提取特征的問題。為此,采用一個與初始特征提取過程相同結(jié)構(gòu)但不共享權(quán)重的通道注意力(Channel Attention,CA)塊,穩(wěn)定地融合提取特征和目標角度位置。參考現(xiàn)有的光場靈活角度位置重建工作[14],使用殘差密度塊(Residual Dense Block,RDB)[17]將輸入映射至目標卷積核。
現(xiàn)有的光場間接視圖合成方法[13]先用自適應卷積[18]得到參考子孔徑圖的合成結(jié)果,再用相加的方式得到最終的子孔徑圖。這種融合方式不能保留真實的細節(jié)。本文借鑒立體匹配研究[19],在最終融合過程中加入一個中間操作,通過置信圖的方式調(diào)整參考子孔徑圖合成結(jié)果間的關系,以獲得更真實的圖像。
圖4 為每個參考子孔徑圖自適應卷積融合的結(jié)果分配一個像素級的置信圖,在最終融合的過程中通過加權(quán)每個參考子孔徑圖的結(jié)果,輔以全局殘差得到最終的目標子孔徑圖。考慮到l1損失函數(shù)對異常值穩(wěn)定,采用l1損失函數(shù)來最小化重建子孔徑圖與真值(Ground Truth,GT)之間的平均絕對誤差:
圖4 視點加權(quán)的間接視圖合成示意圖Fig.4 Schematic of viewpoint weighting indirect view synthesis module
其中:n表示圖像的像素總數(shù),Igt代表GT 子孔徑圖表示網(wǎng)絡重建的子孔徑圖。
基于文獻[9]中的策略,使用自然光場數(shù)據(jù)集30Scenes[10],STFlytro[20]進行實驗。自然光場圖像通常具有較小的基線,即相鄰子孔徑圖視差較小,所有場景的光場圖像的角度分辨率為14×14,空間分辨率為376×541。由于光場相機成像特性,光場圖像的邊緣子孔徑圖通常并不完整,因此,所有的光場圖像都取其中心7×7 的子孔徑圖作為參考的高角度分辨率光場圖像。對于每個光場圖像,選擇2×2 的角子孔徑圖作為輸入的低角度分辨率光場圖像。訓練集和測試集劃分如表1 所示,使用30Scenes 數(shù)據(jù)集中的100 個自然光場圖像用作訓練。測試集則由30 個選自30Scenes 數(shù)據(jù)集的光場圖像以及STFlytro 數(shù)據(jù)集的15 個Reflective 場景和25 個Occlusion 場景的光場圖像構(gòu)成,訓練集和測試集互不相交。在訓練過程中,每個子孔徑圖被裁剪成64×64 的圖像塊。測試則使用完整子孔徑圖。
表1 實驗所用訓練和測試集劃分Tab.1 Partition of training and testing sets in experiments
采用YCbCr 顏色空間中Y 通道的峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)和結(jié)構(gòu)相似度(Structure Similarity Index Measure,SSIM)來衡量合成結(jié)果的客觀質(zhì)量。由于所提出的方法能夠合成任意角度位置的新視圖,首先計算所有位置的合成結(jié)果(即由光場圖像2×2 邊角位置的SAIs 生成的7×7 共45 個新視圖)的PSNR 和SSIM,然后取其平均值作為該光場圖像的客觀結(jié)果。此外,數(shù)據(jù)集的PSNR 和SSIM 是所有光場圖像結(jié)果的平均值。
所有實驗基于Pytorch 深度學習框架完成,實驗環(huán)境配置為24 vCPU Intel(R) Xeon(R)Platinum 8255C CPU @ 2.50GHz,兩張RTX 3090(24GB)顯卡。采用Adam 算法作為優(yōu)化器,初始學習率設置為0.000 2,并采用周期為60ep-och 的余弦退火優(yōu)化策略。訓練和測試過程與文獻[14]一致。
為驗證所提方法的有效性,采用ShearedEPI[11],Yeung[6],LFASR-geo[21],F(xiàn)S-GAF[12],DistgASR[9]和IRVAE[13]等進行對比實驗。其中,IRVAE 和所提方法均為靈活角度位置的重建方法。公平起見,所有方法都是在相同的數(shù)據(jù)集上進行訓練。表2 給出了對比實驗結(jié)果,其中最好的性能指標用粗體標記。
表2 不同光場角度重建方法在2×2→7×7 任務上的PSNR 和SSIM 值Tab.2 PSNR and SSIM of different light field angular reconstruction methods on task of 2×2→7×7
由于稀疏光場圖像的EPI 僅包含2 個像素行或像素列,很難重建光場圖像中間的線性結(jié)構(gòu),因此如表2 所示,基于EPI 的方法[11]性能不如其他方法。相比之下,基于深度估計的方法如LFASR-geo[21]和FS-GAF[12]取得了優(yōu)于基于EPI 方法的性能。DistgASR[9]通過將光場結(jié)構(gòu)解耦成4 個2D 分支進行多維信息融合直接重建缺失的視圖,在真實場景上取得了比基于視差估計方法更好的性能。IRVAE[13]通過變分自編碼器生成非共享卷積核間接合成任意缺失視圖,取得比前兩類方法更好的性能。所提出的方法通過結(jié)合光場的空頻域信息學習光場的空間角度相關性以重建缺失的視圖,在真實場景的所有數(shù)據(jù)集上取得了最好的性能指標。
圖5 展示了不同方法重建的缺失視圖的主觀視覺效果,重建視圖在光場圖像中的角度位置如圖5(a)所示。圖5(a)表示30Scenes 數(shù)據(jù)集中的IMG_1554(上)和IMG_1541(下)光場圖像重建視圖對應角度位置的真值視圖,圖5(b)~5(e)給出了用不同方法重建的視圖相對于真實視圖的誤差圖,同時也給出了對應的2 處局部放大結(jié)果以及一幅EPI 圖像。從誤差圖可以看出,所提方法相比其他方法更接近真值,能夠很好地還原場景的細節(jié)結(jié)構(gòu),如IMG_1541 場景中草尖的輪廓形狀。如圖5 局部放大圖所示,該方法可以較好地從參考視圖恢復出目標視圖的顏色以及紋理細節(jié),而對比方法在這些細節(jié)處產(chǎn)生失真。
為了展示密集分布光場圖像的重建方法與靈活位置光場圖像的重建方法的差異,圖6 進一步展示了DistgASR 與所提方法在數(shù)據(jù)集30 Scenes 上重建的各個SAIs 的PSNR 分布圖。DistgASR 為當前性能最好的密集分布光場圖像的重建方法,方格中的數(shù)字代表對應角度位置上所有場景的光場SAI 重建結(jié)果與其GT 之間的平均PSNR。由圖可以看出,DistgASR 與所提方法在距離參考視圖近的角度位置重建性能較好;而距離參考視圖較遠的位置如中心SAI,兩種方法的重建性能相對略差,但也在42.7 dB 之上。所提方法的重建性能在除少數(shù)距離參考試圖較近的位置外均優(yōu)于DistgASR,這說明它能更好地建模光場圖像的空間和角度相關性。
圖6 2×2→7×7 任務上DistgASR [9]和所提方法在數(shù)據(jù)集30 Scenes 上重建的SAIs 的PSNR 分布Fig.6 PSNR distribution of SAIs achieved by DistgASR[9] and proposed method on 30 Scenes dataset on task of 2×2→7×7
選擇性地從所提方法中刪除DFFCR,CAB和VWIVS 塊,以驗證各個塊的有效性。表3 為消融實驗結(jié)果。如表3 所示,對于前二者而言,缺少其中任意一個均會造成模型性能的下降,這歸因于DFFCR 塊是通道級的,缺少CAB 塊的通道級特征融合會導致光場圖像特征利用不充分;也證明DFFCR 塊融合空頻域特征的有效性。其次,缺少VWIVS 塊會導致模型在所有數(shù)據(jù)集上的性能略微下降,說明聯(lián)合參考視圖進行融合會帶來更好的結(jié)果。此外,通過對比所提方法是否包含DFFCR 塊來驗證空頻域信息充分結(jié)合對光場空間和角度信息建模的有效性。圖7 給出了所提方法中空頻域特征學習模塊對重建視圖的影響。這里展示了重建出的中心子孔徑圖的誤差圖以及兩個局部放大圖。由圖可知,帶有DFF-CR 塊的方法相比不帶DFFCR 塊的方法的誤差更小。
表3 所提方法在2×2→7×7 任務上的消融實驗Tab.3 Ablation experiments of proposed method on task of 2×2→7×7
圖7 所提方法的DFFCR 塊在光場圖像IMG_1743 上的有效性視覺驗證Fig.7 Visual verification of validity of DFFCR block in proposed method on light field image IMG_1743
本文提出了一種聯(lián)合傅里葉卷積和通道注意力的間接視圖合成方法,通過合成任意角度位置的新視圖間接進行光場角度重建。該方法包括初始特征提取、空頻域特征學習、目標角度位置特征映射和視點加權(quán)的間接視圖合成,獲得了比一些先進方法更真實的結(jié)果和富有高頻信息的結(jié)構(gòu)。實驗結(jié)果表明,相比IRVAE,所提方法的重建光場圖像質(zhì)量在自然光場數(shù)據(jù)集30Scenes,Occlusion 和Reflective 上的平均PSNR 分別提升了0.08,0.13 和0.13 dB,綜合性能優(yōu)于現(xiàn)有方法。所提出的方法在保證光場角度一致性的前提下取得了清晰的重建結(jié)果。但本文只能從固定分布的參考子孔徑圖重建任意角度位置的新視圖,在面向靈活輸入分布、靈活輸入數(shù)量重建問題時無法以單模型應對。在未來的工作中,將研究有效結(jié)合空頻域信息對光場圖像進行更合理建模的方法,以及面向光場可伸縮編碼的更靈活的光場重建方法。