亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于空間角度解耦融合網(wǎng)絡(luò)的光場重建

2022-09-28 08:59:38張洪基鄧慧萍向森吳謹

液晶與顯示 2022年10期

張洪基，鄧慧萍，向森，吳謹

（武漢科技大學信息科學與工程學院，湖北武漢430081）

1 引言

光場相機可以在一次攝影曝光中從多個視角捕捉一個場景，記錄場景的二維空間信息和二維角度信息，在深度估計、三維重建等領(lǐng)域具有重要的研究價值［1-2］。然而，由于光場相機內(nèi)部傳感器分辨率有限，捕獲的光場圖像在滿足空間分辨率需求時只能在角度域稀疏采樣。因此，通過稀疏采樣光場合成中間視圖的光場重建［3-5］成為光場應用的關(guān)鍵技術(shù)。光場角度分辨率重建又稱為視點合成或視點繪制。依據(jù)是否依賴深度圖的輔助可分為直接三維重建和基于深度輔助的光場重建。

傳統(tǒng)的三維重建常采用信號的頻域分析方法。Shi等人［6］只對邊界或?qū)蔷€子孔徑圖像進行采樣，利用傅里葉域的稀疏性分析來恢復全光場，然而這種方法需要以特定的模式捕獲光場，這限制了它的應用。Vagharshakyan等人［7］對光場極平面圖像（Epipolar Plane Image，EPI）進行頻域分析，在傅里葉域中采用了一種自適應的離散剪切變換來消除引入混疊效應［8］的高頻光譜。Pendu等人［9］新提出了一種稱為傅里葉視差層的光場表示方法，通過移動不同的視差層對光場進行重建。以上從頻域重建的方法在一定程度上能獲取密集采樣的光場，但是針對深度層次較多的復雜場景時，光場的頻域特點難以分析，頻譜更加復雜，頻域混疊問題難以解決。

基于深度學習的三維重建方法，利用卷積神經(jīng)網(wǎng)絡(luò)強大的學習能力，通過堆疊的卷積層將稀疏采樣光場映射到密集采樣光場。Yeung等人［10］將整個四維光場輸入一個偽四維卷積網(wǎng)絡(luò)，并提出了一種空間-角度交替卷積來迭代細化重建結(jié)果。Meng等人［11-12］使用密集連接的4D卷積對光場進行上采樣和優(yōu)化，實現(xiàn)了在空間或角度維度的多個尺度上的重建。雖然4D卷積可以同時提取光場的空間和角度信息，但是會導致過擬合并且計算代價非常高。以上利用深度學習的直接重建方法雖然無需對頻譜進行分析，但是以稀疏采樣的光場，特別是大基線光場作為輸入時，提供的信息十分有限，盡管使用了高維卷積來提取特征，仍然難以建立起稀疏輸入和密集光場之間的關(guān)系，需要復雜的優(yōu)化網(wǎng)絡(luò)進行后處理。

基于深度輔助的光場重建由于增加了光場的深度信息，往往能取得更好的重建質(zhì)量。經(jīng)典的3D warping算法［13-14］就是通過深度信息的輔助，使參考視點與待合成視點建立幾何映射關(guān)系，從而合成新視點。目前，也有不少工作將深度信息利用到基于深度學習的光場重建框架中。Flynn等人［15］利用顏色、深度和紋理先驗，首次實現(xiàn)了使用神經(jīng)網(wǎng)絡(luò)來預測新視圖。Kalantari等人［16］采用順序卷積網(wǎng)絡(luò)估計深度和顏色，然后使用連續(xù)的二維空間卷積層融合從不同輸入視點映射到新視點的視圖來產(chǎn)生最終的重建。以上早期的重建網(wǎng)絡(luò)考慮到了使用顏色等先驗信息輔助重建，但是顏色等信息只是光場空域特征的一部分，空間信息未能得到充分利用。Jin等人［17］首先估計出新視點的深度圖，然后通過空間角度交替細化進行重構(gòu)。該網(wǎng)絡(luò)在細節(jié)方面能保持較好的效果，但由于是將所有子孔徑圖像一同輸入順序連接的卷積層來估計深度，忽略了光場視圖之間的方向信息，導致了嚴重的遮擋問題。

除了顯式的深度估計以外，Wu等人［18］利用編解碼網(wǎng)絡(luò)對不同剪切值的EPI進行評估，網(wǎng)絡(luò)隱式地使用深度信息來選擇重建良好的EPI，然后使用金字塔分解重建技術(shù)融合多個剪切EPI來得到密集采樣EPI。該方法不需要顯式地估計出深度圖，但是EPI只是四維光場的二維采樣，使用EPI進行重建沒有完全利用到光場的空間角度信息。Zhou等人［19］提出了一種新的基于學習的多平面圖表示方法，通過對不同圖像的alpha通道進行融合來合成新的視圖。Mildenhall等人［20］進一步提出利用多平面圖來合成一個局部光場?；诙嗥矫鎴D的方法對小基線視圖有著不錯的重建效果，但這種未顯式估計出深度圖的方法由于受深度平面數(shù)量的限制，在面對大基線輸入時會超出極限外推范圍，使重建視圖邊緣產(chǎn)生偽影。

綜上所述，利用深度輔助的光場重建算法由于引入了額外的深度信息，有利于提高大基線條件下稀疏光場的角度超分辨率重建質(zhì)量，但是現(xiàn)有的基于深度的方法還存在幾個方面的問題與挑戰(zhàn)。首先，視點間基線增大會使深度估計面臨嚴重的遮擋問題，遮擋區(qū)域的深度估計錯誤將會導致重建視圖邊緣模糊；其次，現(xiàn)有的方法僅考慮了光場角維度的重建，沒有充分利用到光場空域信息，未能充分挖掘光場蘊含的四維特征，使重建視圖在紋理重復區(qū)域發(fā)生錯誤。因此，本文從提高深度估計的準確性并充分利用空域信息的角度出發(fā)，提出了一種基于空間角度解耦融合的光場重建網(wǎng)絡(luò)。該網(wǎng)絡(luò)主要包含一個多路輸入的深度估計模塊和一個整合光場空間角度信息的光場融合模塊，在獲得較為精確的重建視圖的同時，保留了更多的紋理細節(jié)。該深度學習網(wǎng)絡(luò)具有以下特點：

（1）充分利用光場的多方向信息，采用多支路輸入方式，更好地解決遮擋問題；對每條支路使用空洞空間卷積池化金字塔模塊（Atrous Spatial Pyramid Pooling，ASPP）以引入多尺度信息，通過增大感受野來捕捉更多的視差信息并獲取豐富的上下文信息，提高深度估計的準確性。

（2）設(shè)計了空間角度解耦融合模塊（Spatial-

Angular Decouple and Fuse Module，SADFM），提取了光場空間維度蘊含的紋理信息和角維度蘊含的視差信息并使之融合。在模塊內(nèi)使用殘差連接方式將淺層特征與融合之后的深層特征連接，獲取更豐富的特征表示。引入空間信息輔助角度超分辨率，使重建結(jié)果在紋理重復區(qū)域更加清晰。

2 光場重建算法

2.1 整體網(wǎng)絡(luò)結(jié)構(gòu)

一個4D光場可以表示為L(x，u)，其中x=(x，y)是空間坐標，u=(u，v)是角度坐標。光場角度超分辨率可以解釋為：

其中L(x，u)為輸入稀疏采樣的光場，為密集采樣的光場=為密集光場的角度坐標，f表示要學習的重建過程的函數(shù)。

重建過程的整體框架如圖1所示。本文利用了具有多個特征提取支路的深度估計模塊來獲取密集采樣光場的深度圖D(x，?)，然后通過3D warping將輸入視點L(x，u)映射到深度圖D(x，?)上，映射得到的初始光場記為W(x，?，u)。再把W(x，?，u)輸入空間角度解耦融合模塊以充分探索光場空間角度之間的關(guān)系，最后通過3D卷積得到重建的殘差圖fb(W(x，?，u))。

圖1 本文的整體框架Fig.1 Overall framework of the proposed network

最終重建的密集采樣光場可以表示為：

其中W(x，?，u1)是從第一個輸入視圖u1映射到深度圖D(x，?)的光場，fb表示光場視圖融合過程的函數(shù)。

2.2 深度估計模塊

深度估計模塊利用輸入的稀疏采樣光場估計出待重建密集采樣光場各視點的深度，可以表示為：

其中fd為表示深度估計過程的函數(shù)。

深度估計的準確性對光場重建的結(jié)果至關(guān)重要，但是在圖像邊緣等區(qū)域，特別是大基線輸入視圖的邊緣，估計出的深度圖往往具有嚴重的遮擋問題。本文采用多路輸入形式，將每一個輸入子孔徑圖像單獨作為一個支路進行特征提取，各個支路之間權(quán)重共享。多路輸入形式可以獲取每個子孔徑圖像獨特的位置信息和方向信息，在一定程度上解決了遮擋問題。

在每條支路上，為了獲取大基線輸入視圖之間的視差信息，需要一個具有密集像素采樣率的大接受域來提取層次特征。本文使用兩個交替的ASPP模塊和殘差塊作為特征提取模塊。ASPP模塊如圖2所示，首先對輸入的每張子孔徑圖像進行1×1卷積，生成初始特征，然后輸入ASPP模塊進行深度特征提取，在每個ASPP塊中，利用3個3×3空洞卷積（空洞率分別為1、2、4）并行合并，引入了多尺度信息并增大感受野，提取到豐富的上下文信息和有密集采樣率的層次特征。用參數(shù)為0.1的leaky ReLU層進行激活后，將這三個分支的特征通過1×1的卷積連接和融合。

圖2 空間空洞金字塔模塊Fig.2 ASPP module

在4張子孔徑圖分別經(jīng)過特征提取之后，將提取的特征進行拼接并使用6個連續(xù)的卷積層來重建深度圖，在加深網(wǎng)絡(luò)的同時增大了感受野，進一步解決大基線問題。

2.3 視圖3D warping模塊

基于得到的密集采樣光場各視點的深度圖，可以通過3D warping建立稀疏采樣光場和該深度圖的映射關(guān)系，獲取一系列從不同輸入視圖warping的光場圖像，具體過程如式（4）所示：

由于不同的子孔徑圖像擁有各自的視點信息，對于待合成的目標子孔徑視圖有著不同的視角貢獻，本文使用了從輸入視點warping到其他待合成視點的所有視圖進行融合。在框架中沒有使用真實深度圖，通過最小化warping光場的重建誤差為深度估計網(wǎng)絡(luò)提供適當?shù)闹笇?。此外，通過懲罰空間梯度來確保每個深度圖的平滑性。深度估計模塊的訓練損失ld如式（5）所示：

其中L(x，?)為真實光場圖像。

2.4 光場融合模塊

在3D warping之后，需要融合從不同輸入視點warping的光場視圖來得到殘差圖，然而，在warping過程中子孔徑圖像之間的視差不一致性將不可避免地造成高頻損失。為了緩解這種高頻損失，需要在角度重建過程中充分挖掘光場空域蘊含的二維圖像信息?，F(xiàn)有的融合方式未能利用完整的光場空間信息［16］，或者未能提取到光場空域的淺層特征［17］。這些方法不能充分利用光場所蘊含的空間信息，造成重建視圖紋理重復區(qū)域的模糊。因此，在重構(gòu)光場的過程中除了要關(guān)注角度信息，還要注重光場的空域特性。

本文利用空間卷積和角度卷積來分別提取光場的空間和角度信息，并設(shè)計了SADFM來充分探索光場空間角度之間的關(guān)系。在重構(gòu)過程中額外引入的空間信息可以增強空域細節(jié)，使重建視圖的紋理重復區(qū)域更加清晰。SADFM如圖3所示，空間和角度卷積將特征張量分別變換為空間圖像的堆棧X×Y×UV和角塊堆棧U×V×XY，其中X、Y表示空間維度的大小，U、V表示角維度的大小，然后實行相應的卷積操作。

圖3 空間角度解耦融合塊Fig.3 Spatial-angular decouple and fuse module

卷積核的大小設(shè)置為3×3，步長為1，在空間卷積上設(shè)置空洞率為2以增大空間感受野，保證在較大基線光場中仍能捕獲細節(jié)特征。由于光場特征張量XY×UV中空間維度XY遠大于角維度UV，在重建步驟中可利用的角度信息遠小于空間信息，因此本文利用了一次空間卷積和兩個級聯(lián)的角度卷積來分別提取空間信息和角度特征，然后將所有特征進行連接并輸入1×1卷積進行深度特征融合。級聯(lián)的角度卷積權(quán)重共享，不僅能減小模型大小，還能加深網(wǎng)絡(luò)，提取更深層次的角度特征。然后使用殘差連接方式將初始特征與融合之后的特征進行連接，用淺層特征強化特征張量，形成層次表示。

本文以殘差連接方式級聯(lián)6個SADFM加深網(wǎng)絡(luò)，在空間角度信息不斷的解耦和融合步驟中整合信息流，充分探索光場視圖空間角度之間的關(guān)系，進一步提高重建視圖的質(zhì)量。光場融合模塊的損失函數(shù)為lb，通過在最小化預測光場的重構(gòu)誤差來監(jiān)督光場后續(xù)的重建：

考慮到高質(zhì)量的重建光場在EPI上應有嚴格的線型結(jié)構(gòu)，因此，本文使用了一種基于EPI梯度的損失函數(shù)le來對輸出EPI添加額外的約束［17］，以進一步保持光場的視差結(jié)構(gòu)，增加新視點之間的視覺連續(xù)性。

其中，le為重建EPI（?）和真實EPI（E）梯度之間的l1距離，梯度在水平和垂直EPI上沿空間和角度尺寸計算。

3 實驗結(jié)果及分析

3.1 實驗設(shè)置

本文提出的網(wǎng)絡(luò)使用合成光場圖像HCI［21］、HCI old［22］和Lytro Illum相機拍攝的真實光場圖像30 scenes［16］進行訓練和測試。從以上數(shù)據(jù)集的9×9個視點中選取左上角的7×7個視點作為真實密集采樣光場，然后對其進行稀疏下采樣，獲取7×7子孔徑陣列的4個角落的視圖作為稀疏輸入的光場，實驗采用提出的方法從2×2稀疏采樣光場重建出7×7的密集采樣光場。

具體來說，使用來自HCI數(shù)據(jù)集的20張合成圖像進行訓練，使用HCI、HCI old中的測試集和來自LytroIllum相機拍攝的30 scenes進行測試。這些數(shù)據(jù)集涵蓋了評價光場重建方法的幾個重要因素，合成數(shù)據(jù)集包含高分辨率的紋理，以測量保持高頻細節(jié)的能力。真實數(shù)據(jù)集30 scenes包含了豐富的遮擋場景，可以評估不同方法在自然照明和實際相機失真下對遮擋的處理能力。此外，合成光場數(shù)據(jù)集包含視差范圍為［-4，4］的大基線光場圖像。在7×7的光場中，視圖之間的基線范圍是視差的6倍，即在［-24，24］的范圍內(nèi)，遠遠大于商業(yè)相機捕獲的光場的視差范圍。這驗證了本文提出方法在大基線輸入的有效性。

所有用于訓練的圖像的空間分辨率為512×512。在訓練過程中，為了解決數(shù)據(jù)量不足的問題，把每張圖像隨機裁剪成96×96的塊進行訓練。為了保持空間分辨率不變，所有卷積層都使用了零填充。模型在NVIDIA GTX3080Ti GPU上運行，采用PyTorch實現(xiàn)。實驗使用了Adam優(yōu) 化器［23］進行優(yōu) 化。β1和β2分別設(shè) 置為0.9，0.999。學習率最初設(shè)置為1e-4，每5e3個周期降低0.5倍。Batch size設(shè)為1，訓練大約花了6天時間。最終的損失函數(shù)為min(ld+lb)+λle。其中，λ為EPI梯度損失的權(quán)重。

為了驗證本文所提方法的有效性，將本文的實驗結(jié)果與一些利用深度信息的光場重建方法進行了定性和定量的比較。對比的方法有Kalantari等人［16］、Wu等人［18］、Jin等人［17］的方法。為了公平比較，本文使用作者直接公布的光場重建結(jié)果或者使用它們公開的參數(shù)和代碼進行了測試。

3.2 定量與定性分析

本文采用峰值信噪比（Peak Signal to Noise Ratio，PSNR）和結(jié) 構(gòu) 相似度指數(shù)（Structural Similarity，SSIM）來評估光場重建算法的性能。表1、2、3顯示了在HCI、HCI old以及30 scenes上的定量比較。每個場景的最優(yōu)值用加粗表示。

從表1、2、3中可以看出，本文算法的PSNR和SSIM在除了stillLife的所有場景上均高于所比較的算法，在stillLife場景中略低于Jin等人［17］的方法，處于次優(yōu)值。在HCI、HCI old和30 scenes數(shù)據(jù)集上的平均PSNR比次優(yōu)算法分別提高了1.0，0.68，0.6 dB，平均SSIM提高了0.013，0.001，0.002。

表1 不同方法在HCI數(shù)據(jù)集上的PSNR（dB）/SSIMTab.1 PSNR（dB）/SSIM of different methods over HCI datasets

表2 不同方法在HCI old數(shù)據(jù)集上的PSNR（dB）/SSIMTab.2 PSNR（dB）/SSIM of different methods over HCI old datasets

表3 不同方法在30 scenes數(shù)據(jù)集上的PSNR（dB）/SSIMTab.3 PSNR（dB）/SSIM of different methods over 30 scenes datasets

實驗在HCI、HCI old兩個大基線合成數(shù)據(jù)集中選取了具有豐富紋理信息的bicycle和buddha，在真實場景數(shù)據(jù)集30 scenes上選取了具有豐富遮擋的IMG1528和IMG1555來定性分析所提出算法的有效性。

在具有豐富高頻特征的合成數(shù)據(jù)集上，對紋理重復區(qū)域的重建效果進行比較，如圖4所示。由于引入了空間信息來指導角度重建，本文方法在bicycle的鏤空金屬網(wǎng)格區(qū)域和buddha的白色紋理區(qū)域都取得了較為清晰的重建效果。

Kalantari等人［16］和Wu等人［18］未能充分利用光場空間信息，紋理重復區(qū)域重建模糊；Jin等人［17］在重建過程中引入了空間卷積，因此在上述紋理重復區(qū)域重建出較為清晰的結(jié)果。但是他們的方法未能使用淺層特征，在自行車（bicycle）的金屬網(wǎng)格區(qū)域產(chǎn)生了比本文方法模糊的效果。

為了證明本文算法對遮擋的處理能力，在合成和真實世界數(shù)據(jù)集上對各個方法進行比較，如圖4、圖5所示。Wu等人［18］隱式地利用了深度信息。受限于剪切值的數(shù)量，他們的方法不能應對復雜遮擋的區(qū)域，會產(chǎn)生嚴重的模糊和偽影，如IMG1528和IMG1541；Kalantari等人［16］的方法雖然顯式地估計了深度圖，但是他們的網(wǎng)絡(luò)過于簡單，僅使用4層順序連接的卷積，同樣在遮擋附近出現(xiàn)了模糊；Jin等人［17］使用了9層順序連接的卷積估計深度圖，在融合步驟使用了空間角度卷積來提取光場空間角度特征，在大多數(shù)場景取得了次優(yōu)的效果。但是他們的深度估計模塊未能利用光場子孔徑圖像蘊含的多方向信息，不能很好地解決遮擋問題。從自行車中的后座邊緣、IMG1528的樹枝和IMG1555的樹葉等場景可以看出，本文提出的方法能更好地應對各種遮擋問題。

圖4 不同方法對合成光場數(shù)據(jù)集的重建結(jié)果Fig.4 Reconstruction results of synthetic light field data set by different methods

圖5 不同方法對真實世界數(shù)據(jù)集的重建結(jié)果Fig.5 Reconstruction results of real-world data sets by different methods

從所有場景的EPI結(jié)果可以看出，本文提出算法的EPI在物體邊緣等區(qū)域保留了更好的線型結(jié)構(gòu)，進一步驗證了本文算法能較好地處理遮擋問題。

3.3 消融實驗

本文通過多個消融實驗來驗證本文所提出的多路輸入模式和空間角度解耦融合模塊在光場重建過程中所起到的作用和對最終結(jié)果的貢獻程度，定性和定量地評估了本文的多路輸入和空間角度解耦融合模塊的有效性，給出了消融不同模塊下重建光場的局部放大圖。

表4 不同模塊的消融實驗Tab.4 Ablation experiments of different modules

圖6給出了重建中心子孔徑圖像局部放大圖。可以看到多路輸入使重建視圖在遮擋區(qū)域保持良好的效果，但是空間紋理部分產(chǎn)生較粗糙的結(jié)果，并且會出現(xiàn)一些不適定區(qū)域。多路輸入加上解耦融合模塊充分探索了光場空間角度內(nèi)在關(guān)系，并以空間信息輔助角度重建，使結(jié)果在紋理重復區(qū)域更加清晰，并且消除了不適定區(qū)域。

圖6 消融不同模塊的對比效果Fig.6 Comparative effects of different ablation modules

4 結(jié) 論

本文提出了一種基于空間角度解耦融合的光場重建算法。本文方法充分利用光場蘊含的深度信息和神經(jīng)網(wǎng)絡(luò)強大的學習能力，通過顯式估計場景深度和充分探索空間角度信息來實現(xiàn)有效的大基線光場重建。實驗結(jié)果表明，本文方法對比Jin等人［17］的方法，在HCI、HCI old和30 scenes數(shù)據(jù)集上的平均PSNR分別提高了1.0、0.68和0.6 dB，平均SSIM提高了0.013、0.001和0.002。本文方法具有更高的重建質(zhì)量，在遮擋區(qū)域、紋理重復區(qū)域保持了更好的重建效果。