摘 要:光場圖像新視圖生成算法在視點內(nèi)插和外插方面已經(jīng)取得了良好的研究成果,但在視點位置平移和旋轉(zhuǎn)一定角度情形下的透視視圖生成仍然是一項具有挑戰(zhàn)性的任務(wù)。針對上述問題,提出了一種基于條件生成對抗網(wǎng)絡(luò)的光場圖像透視視圖生成算法LFIPTNet(light field image perspective transformation network),利用相機的位姿信息作為條件來引導(dǎo)條件生成對抗網(wǎng)絡(luò)學(xué)習(xí)新視圖的內(nèi)容。提出了多個模塊,充分利用相機位姿信息和光場宏像素圖像(macro pixel image,MPI)記錄空間信息、角度信息、深度信息來生成預(yù)測視圖。提出的方法在構(gòu)建的數(shù)據(jù)集上與最新的三種方法進行了比較,相比于性能第二的StereoMag模型,PSNR提高了7.77 dB,SSIM提高了0.35。消融實驗部分對提出的模塊進行了評估,驗證了創(chuàng)新點的有效性。充分的實驗結(jié)果表明LFIPTNet相比于現(xiàn)有算法,生成的預(yù)測視圖更加準(zhǔn)確。
關(guān)鍵詞:光場圖像;視圖生成;透視變換;深度估計;宏像素圖像;條件生成對抗網(wǎng)絡(luò)
中圖分類號:TP301文獻標(biāo)志碼:A
文章編號:1001-3695(2023)08-041-2501-07
doi:10.19734/j.issn.1001-3695.2022.12.0776
Light field image perspective view synthesis method based on
conditional generative adversarial network
Zhang Yichenga,Jing Huahua Yan Tao
(a.School of Artificial Intelligence amp; Computer Science,b.Jiangsu Key Laboratory of Media Design amp; Software Technology,Jiangnan University,Wuxi Jiangsu 214122,China)
Abstract:In recent years,researchers have proposed a lot of excellent view synthesis methods for light field image for view interpolation and extrapolation.However,it is still a challenging task to generate perspective views when the desired viewpoint is transitioned and rotated by a certain angle.In order to address the aforementioned challenge,this paper proposed a conditional generative adversarial network called LFIPTNet,for light field image perspective view synthesis,which used the position and pose matrix information of the target camera as a condition to guide the network to generate the desired novel perspective view.This paper proposed multiple modules to utilize camera position and pose matrix information,spatial and angular information and depth information from the MPI to generate accurate novel views.It compared LFIPTNet with three state-of-the-art methods on the proposed dataset.Comparing with the second-best StereoMag network,the PSNR value obtained by LFIPTNet was improved by 7.77 dB,and the SSIM value produced by LFIPTNet was improved by 0.35,which demonstrated that the proposed method outperforms existing state-of-the-art methods by a large margin.The ablation experiment assessed the performance of the proposed modules of LFIPTNet and confirmed the effectiveness of the proposed innovations.Extensive experiments demonstrate the effectiveness and efficiency of proposed network for predicting high-quality novel views with specified perspective transformation.
Key words:light field image; view synthesis;perspective transform;depth estimation;macro pixel image;conditional generative adversarial network
0 引言
光場相機通過記錄入射光線的強度和方向信息來捕獲豐富的三維場景信息,可廣泛應(yīng)用于具有挑戰(zhàn)性的計算機視覺任務(wù),如新視圖生成[1,2]、超分辨率[3]、深度估計[4,5]、三維重建[6]、目標(biāo)檢測[7]等。受限于光場相機傳感器有限的像素分辨率導(dǎo)致的角度分辨率和空間分辨率之間固有的折中關(guān)系,光場相機在空間或角度域采樣稀疏。為了提高光場圖像的角度分辨率,近年來提出了許多新視圖生成算法。新視圖生成任務(wù)不僅要求提取目標(biāo)場景的三維結(jié)構(gòu)信息,還要求理解輸入圖像的語義信息,如三維場景的遮擋關(guān)系和物體的輪廓,而真實光場數(shù)據(jù)記錄的場景比較復(fù)雜。目前新視圖生成算法研究大都基于視點平移[8]和內(nèi)插[9~11],而支持視點外插[12]和視點平移加旋轉(zhuǎn)的透視視圖生成算法的相關(guān)工作相較視點內(nèi)插算法數(shù)量不多。優(yōu)秀的視點旋轉(zhuǎn)和平移情況下的外插算法在構(gòu)建擁有自由視點,全視角任意看的可交互直播模式等領(lǐng)域擁有重要意義。
光場圖像記錄了目標(biāo)三維場景豐富的光場結(jié)構(gòu)信息,4D卷積能夠同時處理光場圖像的所有子視點以獲得光場圖像的空間和角度信息,但是網(wǎng)絡(luò)參數(shù)量太大[13,14]。同時光場圖像擁有子視點、宏像素、極平面等多種表現(xiàn)形式。為了充分利用光場圖像的空間和角度特征且在深度神經(jīng)網(wǎng)絡(luò)中引入較少的參數(shù)量,選擇將光場圖像以宏像素圖像形式輸入到光場特征提取模塊中,利用2D卷積分別提取空間和角度特征再融合,這樣既可以得到兩者的特征又不會引入大量的網(wǎng)絡(luò)參數(shù)。視點旋轉(zhuǎn)的透視視圖生成需要預(yù)先知道相機的位姿信息,因此將相機的位姿矩陣輸入到網(wǎng)絡(luò)中來引導(dǎo)新視圖的生成和優(yōu)化判別器的判別標(biāo)準(zhǔn)。深度圖反映了目標(biāo)場景的三維結(jié)構(gòu),可以幫助網(wǎng)絡(luò)理解三維場景信息,從而有益于新視圖的生成。本文將得到的角度特征輸入到數(shù)層卷積中獲得各個子視圖的深度圖。透視視圖的生成除了準(zhǔn)確的場景結(jié)構(gòu)透視變化外還需要在結(jié)果圖像上記錄豐富的紋理細節(jié)信息,因此本文提出了一個宏像素卷積注意力模塊(macro-pixel convolution block attention mo-dule,MPCBAM)來更好地恢復(fù)透視視圖的紋理細節(jié)。
本文提出了一種新穎的光場透視視圖生成網(wǎng)絡(luò)LFIPTNet,其算法流程如圖1所示。相機的位姿信息經(jīng)過卷積層輸入到網(wǎng)絡(luò)中,作為條件特征引導(dǎo)新視圖的生成。生成器的第一部分首先使用光場特征提取模塊(light field feature extraction module, LFFEM),從輸入光場宏像素圖像中提取空間和角度特征,然后將提取的空間和角度特征進行交互融合,以充分地利用光場圖像全部子視點信息。第二部分將空間角度特征,從位姿信息得到的條件特征以及利用角度特征經(jīng)過數(shù)層卷積得到的深度圖輸入到深度信息引導(dǎo)融合模塊(depth guided fusion module,DGFM)中融合。第三部分將融合后的特征輸入宏像素卷積注意力模塊(MPCBAM)中,更好地恢復(fù)新視圖的細節(jié)信息。條件生成對抗網(wǎng)絡(luò)的判別器通常以生成的樣本或真實樣本,再加上對應(yīng)樣本的條件特征作為輸入。本文提出的生成對抗網(wǎng)絡(luò)中的判別器同時將生成器生成的樣本、對應(yīng)的真實樣本以及經(jīng)過位姿信息提取模塊提取出的位姿特征作為輸入。本文的貢獻分為以下幾個方面:
a)本文提出了一個基于條件生成對抗網(wǎng)絡(luò)的光場透視視圖生成網(wǎng)絡(luò)LFIPTNet,提出位姿信息提取模塊(pose information extraction module,PIEM),利用相機位姿信息作為條件,引導(dǎo)深度神經(jīng)網(wǎng)絡(luò)生成透視視圖。
b)本文提出深度引導(dǎo)融合模塊(DGFM)有效地融合深度信息,空間角度特征。并且提出了一種宏像素卷積注意力模塊(MPCBAM)來恢復(fù)光場圖像的細節(jié)信息。
c)本文構(gòu)建了一個以光場相機光心為原點,圍繞相機坐標(biāo)軸旋轉(zhuǎn)一定角度捕獲的光場數(shù)據(jù)集對,包含真實場景和合成場景來訓(xùn)練所提網(wǎng)絡(luò),如圖2所示。本文以沿Y軸旋轉(zhuǎn),旋轉(zhuǎn)角度設(shè)置為5°和10°為例。
1 相關(guān)工作
1.1 單張圖像新視圖生成算法
近年來,相關(guān)研究人員提出了很多單張圖像的新視圖生成算法。Riegler等人[15]首次利用SfM(structure-from-motion) 校準(zhǔn)輸入的圖像,然后通過MVS(multi view stereo) 構(gòu)建幾何支架,為場景的新視圖計算深度圖,并將該深度圖和其他視圖輸入到循環(huán)編解碼器中重新投影生成新視圖。雖然該算法在具有挑戰(zhàn)性的真實世界數(shù)據(jù)集上首次實現(xiàn)了新視圖生成,但不適用于動態(tài)場景。Liu等人[16]提出了一個新的區(qū)域感知幾何變換網(wǎng)絡(luò),通過一定數(shù)量的平面來近似模擬真實場景,并學(xué)習(xí)預(yù)測一組單應(yīng)性矩陣及其對應(yīng)的區(qū)域編碼,從而將輸入圖像轉(zhuǎn)換為新視圖,該算法解決了其他視圖生成算法因過于關(guān)注場景內(nèi)容而產(chǎn)生的預(yù)測結(jié)果與底層場景結(jié)構(gòu)不一致的問題。Li等人[17]提出了一個MINE(multiplane images neural radiance field)網(wǎng)絡(luò),通過對單張圖像進行三維重建來生成新視圖和深度估計。該算法首先通過引入神經(jīng)輻射場(neural radiance field,NeRF)來對多平面圖像進行連續(xù)的深度泛化,然后利用MINE來預(yù)測并生成任意深度值的四通道圖像并結(jié)合重建的相機截錐體來恢復(fù)被遮擋的內(nèi)容。但該算法深度估計結(jié)果不夠精確,限制了網(wǎng)絡(luò)的性能。Zhou等人[18]提出了一種基于深度的新視圖生成算法,從單張2D RGB圖像來重建光場。首先提出了一個單目深度估計網(wǎng)絡(luò),根據(jù)光場的中心子視點來預(yù)測每個子視點的視差圖,再通過warp操作生成目標(biāo)子視點圖像。Shih等人[19]提出了一種將輸入的單張RGB-D圖像轉(zhuǎn)換為3D圖像的方法,其中包含在原始視圖的遮擋區(qū)域中的顏色和深度結(jié)構(gòu),并提出了一種基于學(xué)習(xí)的修復(fù)模型,以空間上下文感知方式將新的局部顏色和深度內(nèi)容合成到遮擋區(qū)域中,然后使用標(biāo)準(zhǔn)的圖形引擎來渲染3D圖像,算法充分地利用了圖像的上下文信息,產(chǎn)生的視覺偽影較少。Xu等人[20]提出了一個基于編碼器解碼器結(jié)構(gòu)的生成對抗網(wǎng)絡(luò)VI-GAN,使用估計的相機位姿矩陣作為原始圖和目標(biāo)視圖的輸入條件,取代了原本的獨熱條件向量。Dosovitskiy等人[21]提出一個卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN),給定對象的類型、視點和顏色,它能夠在給定的視點之間進行內(nèi)插以生成缺失的視點。該網(wǎng)絡(luò)以包含形狀和相機位姿的低維代碼作為輸入,并將其映射為高維圖像。
單張圖像的新視圖生成算法研究成果較為豐富,已經(jīng)提出了很多優(yōu)秀的算法。近年來基于單張圖像生成視點的算法大多受限于輸入單張圖像的信息較少,故通常以其他信息(深度圖[17~19]、相機位姿[20,21]等)作為支撐,幫助生成較為精準(zhǔn)的視圖。
1.2 光場圖像新視圖生成算法
由于光場的結(jié)構(gòu)信息可以更好地支撐新視圖的生成,近年來研究人員提出很多基于深度神經(jīng)網(wǎng)絡(luò)的光場圖像新視點生成算法。Kalantari等人[22]提出一種新的基于學(xué)習(xí)的方法,從一組稀疏的輸入視圖中生成新視圖。算法過程分為視差估計和顏色估計兩部分,并利用連續(xù)的兩個卷積神經(jīng)網(wǎng)絡(luò)來對兩部分進行建模,最后通過最小化生成圖像和真值之間的誤差來同時訓(xùn)練上述網(wǎng)絡(luò)。Wang等人[14]提出了一個端到端的深度學(xué)習(xí)網(wǎng)絡(luò),通過探索偽4D CNN來生成新視圖。首先將在光場極平面圖像(epipolar plane image,EPI)上操作的2D跨步卷積和用于細節(jié)恢復(fù)的3D卷積結(jié)合成偽4D卷積,然后利用4D卷積將一組稀疏的輸入視圖有效地生成密集的4D光場。Wafa等人[23]提出了一種基于深度遞歸殘差網(wǎng)絡(luò)(deep recursive resi-dual network,DRRN)的光場視圖生成方法來改善光場圖像在傳輸和存儲時的數(shù)據(jù)大小。該算法在發(fā)出端刪除特定的視圖,并在接收端有效地生成視圖,并且利用EPI信息來保證生成視圖和原始視圖之間的平滑視差。Jia等人[24]提出了一個基于對抗生成網(wǎng)絡(luò)的光場子視圖生成算法。首先對光場中的子視圖進行稀疏采樣,然后利用神經(jīng)網(wǎng)絡(luò)捕獲光場結(jié)構(gòu)的空間角度上下文信息生成未采樣的子視圖,最后將采樣子視圖和生成的未采樣子視圖組織為偽序列并由標(biāo)準(zhǔn)視頻編解碼器壓縮。
Wu等人[25]利用光場數(shù)據(jù)中EPI的清晰紋理結(jié)構(gòu),將稀疏視點的光場重建問題建模為基于CNN的EPI角度細節(jié)恢復(fù)。為了平衡空間和角度信息,在EPI饋送到網(wǎng)絡(luò)之前,首先利用EPI模糊去除空間高頻分量,最后使用非盲去模糊操作來恢復(fù)之前被EPI模糊抑制的空間細節(jié)。Mildenhall等人[26]提出了一種從不規(guī)則網(wǎng)格采樣的視圖生成算法,該算法首先利用多平面圖像的場景表示,將每個采樣的視圖擴展成一個局部光場,然后通過混合相鄰的局部光場渲染新的視圖。Li等人[27]提出一種用于復(fù)雜場景的新視圖生成的深度學(xué)習(xí)算法。該算法首先利用4D參數(shù)來表示每條光線,然后將光場公式轉(zhuǎn)換為一個4D函數(shù),將4D坐標(biāo)映射到每條光線對應(yīng)的顏色值,并訓(xùn)練一個深度全連接網(wǎng)絡(luò)來優(yōu)化此隱式函數(shù),最后使用特定場景的模型生成新的視圖。
上述描述的算法都專注于光場視圖內(nèi)插任務(wù),雖然生成的結(jié)果圖較準(zhǔn)確,但視圖之間的視差較小,獲得的輔助信息較少,網(wǎng)絡(luò)訓(xùn)練的難度也較低?;诠鈭龅男乱晥D生成任務(wù)相較于基于單張圖像的新視圖生成任務(wù),可利用的信息更多,光場的空間特征和光場獨有的角度特征可以更好地滿足對算法要求較高的視圖外插任務(wù)。同時,如何充分地利用光場圖像中的空間信息和角度信息也是問題所在,目前部分光場圖像的新視點生成算法[22]僅僅將輸入的光場圖像視為多張圖像輸入,而忽視了子視點之間的聯(lián)系。
1.3 新視圖外插生成算法
無論是單張圖像還是光場圖像,現(xiàn)有的新視圖生成算法大多聚焦于視圖內(nèi)插算法,而視圖外插領(lǐng)域算法相對較少,且其中較多是通過三維重建方法來實現(xiàn)。Wiles等人[28]引入了一個可微的點云渲染器來將潛在的三維特征點云轉(zhuǎn)換為目標(biāo)視圖,投影后的特征通過細化網(wǎng)絡(luò)解碼來繪制缺失區(qū)域并生成新視圖。Zhou等人[29]提出了一個深度學(xué)習(xí)網(wǎng)絡(luò)來實現(xiàn)視圖外插,利用YouTube上的大量在線視頻的數(shù)據(jù)進行訓(xùn)練。該算法從輸入的立體圖像對中預(yù)測多平面圖像,然后利用該多平面圖像生成一系列新視圖。Zhang等人[30]提出了一種結(jié)合 NeRF 和基于截斷符號函數(shù)(truncated signed distance function,TSDF)的融合技術(shù)的方法,以實現(xiàn)高效的大規(guī)模重建和照片級真實感渲染,網(wǎng)絡(luò)以圖像序列作為輸入,實時增量重建全局稀疏場景表示。Ren等人[31]提出一個新方法,給定單個場景圖像和攝像機運動軌跡,網(wǎng)絡(luò)利用自回歸Transformer來合成前后一致的相機運動視頻。Xu等人[32]提出了Point-NeRF,通過使用神經(jīng)三維點云和相關(guān)的神經(jīng)特征來模擬輻射場,從而結(jié)合了體積神經(jīng)渲染方法和深度多視圖立體方法的優(yōu)點,在基于光線行進的渲染管道中,通過聚集場景表面附近的神經(jīng)點特征來進行三維場景的高效重建。
以上三維重建方法盡管可以在重建的三維場景上生成任意要求視點的圖像,但其通常要求較多相機位姿變化明顯的圖像作為輸入,以獲得三維場景的信息,且通常計算量也較大。視圖外插相較于視圖內(nèi)插任務(wù),視圖之間的視差較大,遮擋關(guān)系變化較大,目標(biāo)視圖的獲取較難,對數(shù)據(jù)集和模型的學(xué)習(xí)能力都有較高的要求。相較于平移的視圖外插,旋轉(zhuǎn)一定角度的視圖外插的算法通過學(xué)習(xí)數(shù)據(jù)集的結(jié)構(gòu)和語義信息來對輸入的場景未知部分進行合理推測的要求更高。因此,在光場領(lǐng)域基于旋轉(zhuǎn)的新視圖外插任務(wù)的研究有著十分重要的意義。
2 算法原理
2.1 光場特征提取模塊(LFFEM)
2.2 位姿信息提取模塊(PIEM)
2.3 深度引導(dǎo)融合模塊(DGFM)
2.4 宏像素卷積注意力模塊(MPCBAM)
2.5 損失函數(shù)
3 實驗結(jié)果
3.1 光場數(shù)據(jù)集
3.2 視圖生成結(jié)果定量分析
3.3 視圖生成結(jié)果定性分析
3.4 效率對比
3.5 消融實驗
4 結(jié)束語
本文提出了一個基于條件對抗生成神經(jīng)網(wǎng)絡(luò)的光場透視視圖生成網(wǎng)絡(luò)LFIPTNet,利用相機的位姿信息引導(dǎo)網(wǎng)絡(luò)生成新視圖。首先通過LFFEM分別提取光場空間和角度特征,從而獲得光場的結(jié)構(gòu)信息;然后利用角度特征生成深度圖,將其與空間角度特征以及位姿信息送入DGFM中融合,從而得到目標(biāo)光場圖像的結(jié)構(gòu)信息;最后進入重建模塊MPCBAM中恢復(fù)目標(biāo)光場圖像的細節(jié)信息,得到重建的光場圖像。在大量合成和真實數(shù)據(jù)集上的實驗結(jié)果表明,本文算法能有效地實現(xiàn)光場圖像透視視圖的生成。
但是本文提出的網(wǎng)絡(luò)模型仍然存在不足,由于真實場景中光場圖像的復(fù)雜性,本文實驗結(jié)果在細節(jié)和顏色方面的修復(fù)不是非常理想。所以,下一步針對此問題可以引入其他損失函數(shù)以提高圖像細節(jié)修復(fù)的能力。本文獲得的真實場景的深度圖效果也不是非常理想,可以通過引入半監(jiān)督的學(xué)習(xí)策略同時利用仿真數(shù)據(jù)和真實數(shù)據(jù)來提高模型的泛化能力。
參考文獻:
[1]Mildenhall B,Srinivasan P P,Tancik M,et al.NeRF:representing scenes as neural radiance fields for view synthesis[J].Communications of the ACM,2021,65(1):99-106.
[2]Meng Nan,Li Kai,Liu Jianzhuang,et al.Light field view synthesis via aperture flow and propagation confidence map[J].IEEE Trans on Image Processing,2021,30:3908-3921.
[3]Rossi M,F(xiàn)rossard P.Geometry-consistent light field super-resolution via graph-based regularization[J].IEEE Trans on Image Proces-sing,2018,27(9):4207-4218.
[4]Jeon H G,Park J,Choe G,et al.Accurate depth map estimation from a lenslet light field camera[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:1547-1555.
[5]熊偉,張駿,高欣健,等.自適應(yīng)成本量的抗遮擋光場深度估計算法[J].中國圖象圖形學(xué)報,2017,22(12):1709-1722.(Xiong Wei,Zhang Jun,Gao Xinjian,et al.Anti-occlusion light-field depth estimation from adaptive cost volume[J].Journal of Image and Graphics,2017,22(12):1709-1722.)
[6]Zhu Hao,Zhang Qi,Wang Qing.4D light field superpixel and segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:6384-6392.
[7]Zhang Miao,Ji Wei,Piao Yongri,et al.LFNet:light field fusion network for salient object detection[J].IEEE Trans on Image Processing,2020,29:6276-6287.
[8]Liu Kanglin,Li Qing,Qiu Guoping.PoseGAN:a pose-to-image translation framework for camera localization[J].ISPRS Journal of Photogrammetry and Remote Sensing,2020,166:308-315.
[9]Chang Yuan,Zhang Congyi,Chen Yisong,et al.Homography-guided stereo matching for wide-baseline image interpolation[J].Computational Visual Media,2022,8(1):119-133.
[10]崔璨.基于感知的立體內(nèi)容深度調(diào)整及視點生成技術(shù)研究[D].北京:北京郵電大學(xué),2018.(Cui Can.Research on perception-based stereo content depth adjustment and viewpoint generation technology[D].Beijing:Beijing University of Posts and Telecommunications,2018.)
[11]韓冬雪.多視點裸眼 3D 電視的虛擬視點生成方法研究[D].濟南:山東大學(xué),2019.(Han Dongxue.Research on virtual viewpoint generation method for multi-view glasses-free 3D TV[D].Jinan:Shandong University,2019.)
[12]Zhu Hao,Su Hao,Wang Peng,et al.View extrapolation of human body from a single image[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:4450-4459.
[13]Li Yingjie,Yang Wei,Xu Zhenbo,et al.Mask4D:4D convolution network for light field occlusion removal[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2021:2480-2484.
[14]Wang Yunlong,Liu Fei,Wang Zilei,et al.End-to-end view synthesis for light field imaging with pseudo 4D CNN[C]//Proc of European Conference on Computer Vision.2018:333-348.
[15]Riegler G,Koltun V.Free view synthesis[C]//Proc of European Conference on Computer Vision.Cham:Springer,2020:623-640.
[16]Liu Miaomiao,He Xuming,Salzmann M.Geometry-aware deep network for single-image novel view synthesis[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:4616-4624.
[17]Li Jiaxin,F(xiàn)eng Zijian,She Qi,et al.Mine:towards continuous depth MPI with NeRF for novel view synthesis[C]//Proc of IEEE/CVF International Conference on Computer Vision.2021:12578-12588.
[18]Zhou Wenhui,Liu Gaomin,Shi Jiangwei,et al.Depth-guided view synthesis for light field reconstruction from a single image[J].Image and Vision Computing,2020,95:103874.
[19]Shih M L,Su S Y,Kopf J,et al.3D photography using context-aware layered depth inpainting[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2020:8028-8038.
[20]Xu Xiaogang,Chen Y C,Jia Jiaya.View independent generative adversarial network for novel view synthesis[C]//Proc of IEEE/CVF International Conference on Computer Vision.2019:7791-7800.
[21]Dosovitskiy A,Tobias S J,Brox T.Learning to generate chairs with convolutional neural networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:1538-1546.
[22]Kalantari N K,Wang T C,Ramamoorthi R.Learning-based view synthesis for light field cameras[J].ACM Trans on Graphics,2016,35(6):1-10.
[23]Wafa A,Pourazad M T,Nasiopoulos P.Learning-based light field view synthesis for efficient transmission and storage[C]//Proc of IEEE International Conference on Image Processing.Piscataway,NJ:IEEE Press,2021:354-358.
[24]Jia Chuanmin,Zhang Xinfeng,Wang Shanshe,et al.Light field image compression using generative adversarial network-based view synthesis[J].IEEE Journal on Emerging and Selected Topics in Circuits and Systems,2018,9(1):177-189.
[25]Wu Gaochang,Zhao Mandan,Wang Liangyong,et al.Light field reconstruction using deep convolutional network on EPI[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2017:6319-6327.
[26]Mildenhall B,Srinivasan P P,Ortiz-Cayon R,et al.Local light field fusion:practical view synthesis with prescriptive sampling guidelines[J].ACM Trans on Graphics,2019,38(4):1-14.
[27]Li Zhong,Song Liangchen,Liu Celong,et al.NeuLF:efficient novel view synthesis with neural 4D light field[EB/OL].(2021).https://arxiv.org/abs/2105.07112.
[28]Wiles O,Gkioxari G,Szeliski R,et al.SynSin:end-to-end view synthesis from a single image[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2020:7467-7477.
[29]Zhou Tinghui,Tucker R,F(xiàn)lynn J,et al.Stereo magnification:learning view synthesis using multiplane images[EB/OL].(2018).https://arxiv.org/abs/1805.09817.
[30]Zhang Xiaoshuai,Bi Sai,Sunkavalli K,et al.NeRFusion:fusing radiance fields for large-scale scene reconstruction[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2022:5449-5458.
[31]Ren Xuanchi,Wang Xiaolong.Look outside the room:synthesizing a consistent long-term 3D scene video from a single image[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2022:3563-3573.
[32]Xu Qianggeng,Xu Zexiang,Philip J,et al.Point-NeRF:point-based neural radiance fields[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2022:5438-5448.
[33]Wang Yingqian,Wang Longguang,Yang Jungang,et al.Spatial-angular interaction for light field image super-resolution[C]//Proc of European Conference on Computer Vision.Cham:Springer,2020:290-308.
[34]Woo S,Park J,Lee J Y,et al.CBAM:convolutional block attention module[C]//Proc of European Conference on Computer Vision.2018:3-19.
[35]Tucker R,Snavely N.Single-view view synthesis with multiplane images[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2020:551-560.
[36]Liu A,Tucker R,Jampani V,et al.Infinite nature:perpetual view gene-ration of natural scenes from a single image[C]//Proc of IEEE/CVF International Conference on Computer Vision.2021:14458-14467.