晏 濤,謝檸宇,王建明,王士同,2,劉 淵,2
1.江南大學(xué) 數(shù)字媒體學(xué)院,江蘇 無錫 214122
2.江蘇省媒體設(shè)計(jì)與軟件技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇 無錫 214122
隨著消費(fèi)級和工業(yè)級光場相機(jī)的快速發(fā)展,光場圖像處理算法引起了越來越多研究者的關(guān)注。光場相機(jī)主要采用主鏡頭加微鏡頭陣列的設(shè)計(jì)方案,僅需一次曝光便可在單個(gè)圖像傳感器上記錄下完整的四維光場信息。光場圖像能夠同時(shí)記錄場景中光線的位置和方向信息,其保存的豐富三維場景結(jié)構(gòu)信息可以支持各種核心的圖像編輯任務(wù),如圖像重聚焦、圖像拼接[1]、全景圖生成[2]、立體透視圖像生成[3]和立體顯示等。
光場圖像相鄰子視點(diǎn)間的軸距(baseline)和子視點(diǎn)圖像中心像素在圖像傳感器上的偏移量(shift)是兩個(gè)核心參數(shù),可以通過編輯這兩個(gè)參數(shù)重構(gòu)光場圖像。通過移動(dòng)單個(gè)相機(jī)拍攝一組規(guī)則的多視點(diǎn)圖像[4]或者采用相機(jī)陣列的方案[5]可以獲取一組光場數(shù)據(jù)。光場圖像可以分解為一個(gè)二維的子視點(diǎn)陣列。相對于普通的多視點(diǎn)立體圖像,光場圖像分解得到的子視點(diǎn)之間軸距較小,圖像的空間分辨率較低,且目前在光場相機(jī)硬件實(shí)現(xiàn)上尚無有效的解決辦法。在進(jìn)行光場圖像編輯(如光場圖像拼接,不同光場圖像之間物體的拷貝和粘貼)和立體顯示時(shí),往往需要修改子視點(diǎn)之間的軸距。本文研究通過修改光場圖像的軸距來實(shí)現(xiàn)光場圖像的重定向。
光場圖像新視點(diǎn)生成和圖像內(nèi)容修復(fù)/補(bǔ)全是同光場圖像的重定向密切相關(guān)的兩個(gè)研究問題。目前針對光場圖像的超分辨率(角度和空間超分辨率)研究比較充分。其中角度超分辨率本質(zhì)上是視點(diǎn)插值,尤其是視點(diǎn)內(nèi)插已經(jīng)能夠得到不錯(cuò)的效果。但是,能夠有效支持視點(diǎn)外插的算法非常少。另一方面,因?yàn)楣鈭鰣D像子視點(diǎn)之間的軸距的改變,可能導(dǎo)致光場圖像子視點(diǎn)位置和旋轉(zhuǎn)角度發(fā)生變化,會在子視點(diǎn)圖像中引入去除遮擋后的區(qū)域,需要借助光場圖像修復(fù)算法來進(jìn)行修復(fù)/補(bǔ)全。
Wanner 等[6]提出了一個(gè)全變分框架實(shí)現(xiàn)光場圖像的超分辨率新視點(diǎn)生成,Pujades等[7]在貝葉斯方法的基礎(chǔ)上結(jié)合基于啟發(fā)式的方法來得到新視點(diǎn)圖像。近年來,不斷涌現(xiàn)基于深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural network,DCNN)的新視點(diǎn)生成算法。Yoon 等[8]提出了一個(gè)基于DCNN 的光場圖像角度分辨率和空間分辨率增強(qiáng)算法,但是只實(shí)現(xiàn)了基于四個(gè)角上的子視點(diǎn)來生成兩倍的角度和空間超分辨率效果。Kalantari等[9]提出了一個(gè)基于兩個(gè)簡單的DCNN模型的光場圖像新視點(diǎn)生成算法。一個(gè)四層的DCNN 網(wǎng)絡(luò)實(shí)現(xiàn)輸入光場圖像的視差圖估計(jì),另外一個(gè)四層的DCNN網(wǎng)絡(luò)用于新視點(diǎn)合成。該方法受限于第一步得到的并不準(zhǔn)確的視差圖,且僅基于四個(gè)角上的子視點(diǎn)圖像來實(shí)現(xiàn)視點(diǎn)內(nèi)插。Wu等[10]提出了一個(gè)基于光場圖像極平面圖(epipolar plane image,EPI)超分辨來實(shí)現(xiàn)角度超分辨率的算法,引入了模糊和去模糊操作避免超分辨率過程中引入的圖像鋸齒和模糊效應(yīng),該方法無需依賴輸入光場圖像的視差圖。Wang 等[11]提出了一個(gè)偽4DCNN 網(wǎng)絡(luò)實(shí)現(xiàn)光場圖像的角度分辨率增強(qiáng),能夠更好地利用光場圖像子視點(diǎn)圖像之間的關(guān)聯(lián)信息。
針對光場圖像修復(fù)/補(bǔ)全的研究工作相對比較少。Pendu等[12]提出了一個(gè)基于矩陣補(bǔ)全的光場圖像修復(fù)算法,能夠?qū)⒅行囊朁c(diǎn)修復(fù)的結(jié)果傳播到光場圖像的其他子視點(diǎn)。不過,因?yàn)橹行囊朁c(diǎn)的修復(fù)需要借助已有的2D 圖像修復(fù)算法和用戶交互,該算法適用于將單個(gè)較大的物體從光場圖像中移除以后的背景修復(fù),不適合光場圖像重定向情況下對物體邊界處眾多較小孔洞的修復(fù)。Liu等[13]提出了一個(gè)基于部分卷積網(wǎng)絡(luò)的2D 圖像修復(fù)方法。Yu 等[14]提出了一個(gè)基于注意力圖和生成式對抗網(wǎng)絡(luò)的2D圖像修復(fù)算法。上述兩個(gè)算法均能在單張圖像的修復(fù)上取得不錯(cuò)的圖像修復(fù)結(jié)果。
本文提出一個(gè)基于深度神經(jīng)網(wǎng)絡(luò)的光場圖像基線編輯方法,通過構(gòu)建一個(gè)U型深度學(xué)習(xí)網(wǎng)絡(luò)模型來實(shí)現(xiàn)基線編輯的光場圖像重定向,對目標(biāo)光場圖像進(jìn)行優(yōu)化和修復(fù),生成高質(zhì)量的目標(biāo)光場圖像。
本文算法主要包含三個(gè)步驟:(1)對輸入光場圖像進(jìn)行預(yù)處理,使用光場相機(jī)標(biāo)定算法獲取光場圖像的關(guān)鍵參數(shù),并計(jì)算每個(gè)子視點(diǎn)圖像的視差圖。(2)對光場圖像的每個(gè)子視點(diǎn)進(jìn)行基于DIBR(depth image based rendering)的直接重定向處理,即將每個(gè)子視點(diǎn)圖像投影到目標(biāo)光場圖像對應(yīng)的子視點(diǎn),得到基線編輯之后比較粗糙的目標(biāo)光場圖像。(3)構(gòu)建一個(gè)深度神經(jīng)網(wǎng)絡(luò)模型來優(yōu)化目標(biāo)光場圖像,實(shí)現(xiàn)對遮擋去除后區(qū)域的修復(fù),得到子視點(diǎn)間圖像內(nèi)容一致的目標(biāo)光場圖像。在下列章節(jié)中,將對算法的每個(gè)部分進(jìn)行詳細(xì)介紹。
本文采用LFToolBox 工具[15]對光場圖像L進(jìn)行標(biāo)定,獲取所需的關(guān)鍵相機(jī)參數(shù),如焦距f,相鄰子視點(diǎn)間的軸距b和子視點(diǎn)在成像傳感器上的偏移量ds。采用該分解方法得到的子視點(diǎn)光軸成匯聚關(guān)系,子視點(diǎn)的光軸相交于焦平面焦點(diǎn)位置。
為了對基線編輯后的光場圖像進(jìn)行重定向處理,即將基線修改為b′,除中心子視點(diǎn)外的每個(gè)子視點(diǎn)圖像都需要三維透視投影到新的視點(diǎn)位置。因此本文算法需要得到每個(gè)子視點(diǎn)圖像對應(yīng)的視差圖。因?yàn)楝F(xiàn)有的絕大多數(shù)光場圖像視差圖計(jì)算方法只考慮計(jì)算中心子視點(diǎn)的視差圖,且有著較高的時(shí)間開銷,采用基于結(jié)構(gòu)張量和GPU 計(jì)算卡加速的從EPI中計(jì)算視差的算法[16]來獲得輸入光場圖像的子視點(diǎn)的視差圖。光場圖像基線編輯示意圖如圖1所示。
Fig.1 Overview of baseline editing for light field images圖1 光場圖像基線編輯示意圖
本文算法的目標(biāo)是將光場圖像的基線修改為b′,保持光場圖像的焦平面距離不變,即f′d=fd,生成目標(biāo)光場圖像L′?;€編輯模型如圖1 所示,左邊為輸入光場圖像,右邊為基線編輯之后的光場圖像,中心子視點(diǎn)圖像在基線編輯過程中位置保持不變,其他子視點(diǎn)圖像位置變化為基線編輯后對應(yīng)的子視點(diǎn)圖像位置。
得到每個(gè)子視點(diǎn)的視差圖以及相機(jī)參數(shù)后,使用DIBR的思想[17]將每個(gè)子視點(diǎn)圖像進(jìn)行透視變換得到初始目標(biāo)光場圖像。對于角度索引為(s,t)的子視點(diǎn)圖像,其透視變換過程為:
式中,函數(shù)P-1將子視點(diǎn)圖像v=L(s,t)中的一個(gè)像素p=v(x,y)投影到以該子視點(diǎn)位置為坐標(biāo)原點(diǎn)的三維空間:
式中,(x0,y0)表示子視點(diǎn)圖像中心點(diǎn)的像素坐標(biāo),d(x,y)表示像素p的視差值,f表示光場相機(jī)的等效焦距,ds為子視點(diǎn)中心像素在成像傳感器上的偏移量參數(shù)[18],b為編輯前的光場圖像基線。得到p的三維坐標(biāo)后,通過透視投影函數(shù)P得到基線編輯后對應(yīng)的子視點(diǎn)圖像v′=L′(s,t)中的像素位置(x′,y′):
式中,t=[t1,t2,0]表示光場圖像重定向過程中子視點(diǎn)位置發(fā)生的偏移量:
式中,(s0,t0)表示中心子視點(diǎn)圖像的角度索引。R=RαRβ,因?yàn)楣潭ń蛊矫娌蛔?,?dǎo)致子視點(diǎn)需要繞X和Y軸旋轉(zhuǎn)(如圖2所示),其旋轉(zhuǎn)量α和β分別為:
光場圖像基線編輯后子視點(diǎn)圖像對應(yīng)的視差值表示為:
子視點(diǎn)圖像在成像傳感器上的偏移量ds和子視點(diǎn)圖像焦距fd的關(guān)系定義如下:
Fig.2 Changes of position and orientation of subaperture viewpoints for baseline editing in light field images圖2 光場圖像基線編輯中子視點(diǎn)位置和方向變化
基線編輯后得到的初步光場圖像容易出現(xiàn)內(nèi)容空洞,主要有兩方面的原因:一是基線編輯過程中由于子視點(diǎn)位置和方向發(fā)生變化導(dǎo)致原本被遮擋的區(qū)域變?yōu)榭梢妳^(qū)域;二是依賴于并不非常準(zhǔn)確的視差圖進(jìn)行基于DIBR 的新視點(diǎn)渲染容易引入圖像內(nèi)容失真。目前基于深度學(xué)習(xí)的圖像修復(fù)方法[19-20]都是以單張圖像作為輸入進(jìn)行圖像修復(fù),但是光場圖像子視點(diǎn)之間圖像內(nèi)容存在極大的相關(guān)性,2D 圖像的修復(fù)算法并不考慮子視點(diǎn)圖像之間內(nèi)容的相關(guān)性。根據(jù)場景的差異,光場圖像的基線修改之后,不同的場景存在內(nèi)容空洞的區(qū)域位置和形狀也不盡相同,需要神經(jīng)網(wǎng)絡(luò)能夠處理不規(guī)則區(qū)域以及不確定位置的圖像空洞。本文基于部分卷積的思想[13]設(shè)計(jì)了一種U型網(wǎng)絡(luò)進(jìn)行基線修改后的光場圖像修復(fù)和優(yōu)化。
部分卷積網(wǎng)絡(luò)[13]的思想是僅對圖像有效像素區(qū)域進(jìn)行卷積操作,可以用于修復(fù)形狀不規(guī)則的圖像空洞。為了能區(qū)分圖像的有效像素區(qū)域和空洞區(qū)域,將待修復(fù)圖像的掩膜一起作為網(wǎng)絡(luò)的輸入,在卷積操作的過程中同時(shí)更新對應(yīng)的掩膜作為下一個(gè)卷積層的輸入。部分卷積的操作可以表示為:
式中,⊙表示矩陣對應(yīng)元素的乘法。1/sum(M)作為一個(gè)比例因子,用于調(diào)整有效輸入的變化量。在每次卷積操作后,需要對圖像掩膜進(jìn)行更新,如果卷積核區(qū)域內(nèi)至少有一個(gè)有效像素,則該位置的卷積結(jié)果對應(yīng)的掩膜置為1,表示為:
從式中可以看出,掩膜的更新規(guī)則會逐步消除空洞區(qū)域。在網(wǎng)絡(luò)深度足夠的情況下,可以修復(fù)任意大小的空洞。
本文提出的深度神經(jīng)網(wǎng)絡(luò)模型以光場圖像的一行或者一列子視點(diǎn)作為輸入數(shù)據(jù),即三維極平面圖像(3D epipolar-plane image,3D EPI),這使網(wǎng)絡(luò)可以充分挖掘光場圖像記錄的場景深度和遮擋等信息,而無需顯示的輸入或者計(jì)算輸入光場圖像的視差圖。同時(shí)利用一組子視點(diǎn)圖像包含的冗余信息,每個(gè)視點(diǎn)的圖像的語義信息,以及場景的深度信息來提高圖像修復(fù)的質(zhì)量。以一整行的輸入為例,對于一個(gè)待修復(fù)的光場圖像L(x,y,s,t),固定一行的子視點(diǎn)圖像可以表示為
通過多次實(shí)驗(yàn)發(fā)現(xiàn)直接使用同一行或一列子視點(diǎn)堆疊構(gòu)成的3D EPI 作為輸入,神經(jīng)網(wǎng)絡(luò)輸出的連續(xù)子視點(diǎn)圖像顏色與真值相差過大。因此為了減少不同通道顏色之間的干擾,將原本一行的子視點(diǎn)圖像的顏色通道進(jìn)行重排列,首先將所有的R通道拼接在一起,其次是G通道,最后是B通道,即:
式中,函數(shù)A表示子視點(diǎn)圖像的顏色通道重排列操作。子視點(diǎn)圖像對應(yīng)的掩膜也進(jìn)行類似操作,通道重新排列后的子視點(diǎn)圖像及其掩膜通過網(wǎng)絡(luò)的生成器得到修復(fù)后的結(jié)果:
式中,Gp表示卷積神經(jīng)網(wǎng)絡(luò)的修復(fù)和優(yōu)化過程。
本文網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示,輸入分為兩部分,一部分是一行(列)顏色通道重排列后的子視點(diǎn)圖像,大小為512×512×27,另一部分為同樣大小的對應(yīng)掩膜。網(wǎng)絡(luò)可以分為編碼器和解碼器兩部分,前面7層為編碼器,使用部分卷積代替了傳統(tǒng)網(wǎng)絡(luò)的卷積操作,每個(gè)卷積層后接一個(gè)Relu激活函數(shù),之后接了一個(gè)BN(batch normalization)層對數(shù)據(jù)進(jìn)行歸一化處理后作為下一層的輸入。解碼器部分首先對上一層的結(jié)果進(jìn)行上采樣(本文使用的是最近鄰采樣),將上采樣的結(jié)果與編碼器部分對應(yīng)的輸出進(jìn)行跳級連接,然后對連接的結(jié)果進(jìn)行步長為1 的卷積操作,解碼器每個(gè)層的卷積操作都后接一個(gè)α為0.2 的LeakyRelu 激活函數(shù)。網(wǎng)絡(luò)的輸出大小與輸入一致,為512×512×54,需要經(jīng)過通道的重排列,恢復(fù)成一行(列)單獨(dú)的子視點(diǎn)圖像。原網(wǎng)絡(luò)[13]的輸入為單張圖像,信息量有限,僅依靠U型網(wǎng)絡(luò)難以獲取足夠的圖像紋理特征,因此在設(shè)計(jì)損失函數(shù)時(shí)借助VGG 網(wǎng)絡(luò)[21]結(jié)構(gòu)以提取高層的視覺感知特征,計(jì)算風(fēng)格損失與感知損失[22]。本文所提算法針對光場圖像進(jìn)行處理,子視點(diǎn)圖像之間具有豐富的紋理結(jié)構(gòu)相關(guān)信息。本文修改了U 型網(wǎng)絡(luò)輸入數(shù)據(jù)為一列光場圖像子視點(diǎn)(9張子視點(diǎn)圖像),可以使網(wǎng)絡(luò)學(xué)習(xí)到足夠的圖像紋理特征,因此本文去除了原網(wǎng)絡(luò)中的風(fēng)格損失與感知損失。實(shí)驗(yàn)結(jié)果表明,去除風(fēng)格損失和感知損失后對結(jié)果圖像的質(zhì)量并沒有明顯的影響。由于在計(jì)算損失函數(shù)時(shí)少了一個(gè)VGG 網(wǎng)絡(luò),網(wǎng)絡(luò)訓(xùn)練的速度得到大幅度的提高,同樣為1 200 的訓(xùn)練次數(shù),網(wǎng)絡(luò)的訓(xùn)練時(shí)間降低到28 h。
Fig.3 U-shaped DCNN model for baseline editing圖3 U形深度神經(jīng)網(wǎng)絡(luò)光場圖像基線編輯模型
修改后的損失函數(shù)由兩部分組成,分別為有效像素區(qū)域生成圖像與真值的L1損失Lossvalid和空洞區(qū)域生成圖像與真值的L1損失Losshole:
式中,每個(gè)單獨(dú)的損失函數(shù)定義為:
式中,Vgen表示網(wǎng)絡(luò)生成的圖像,Vgt表示圖像的真值。λ1和λ2的取值通過對比不同權(quán)重設(shè)置下的實(shí)驗(yàn)結(jié)果質(zhì)量來最終決定,在本文實(shí)驗(yàn)中,λ1=1,λ2=6。
神經(jīng)網(wǎng)絡(luò)的訓(xùn)練需要大量的數(shù)據(jù)集,使用LytroIllum光場相機(jī)采集的真實(shí)光場圖像其基線是單一和固定的,且相機(jī)參數(shù)精確標(biāo)定和高質(zhì)量視差圖獲得有一定的難度,因此難以用光場相機(jī)大規(guī)模采集真實(shí)場景數(shù)據(jù)作為神經(jīng)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)。本文采用Blender(https://www.blender.org/)軟件作為網(wǎng)絡(luò)訓(xùn)練的數(shù)據(jù)來源,主要有兩方面的優(yōu)勢。一是Blender可以直接獲取光場圖像每個(gè)子視點(diǎn)圖像對應(yīng)的視差圖,無需額外的視差圖計(jì)算算法;二是Blender軟件在獲取更改基線后的光場圖像時(shí)只需要簡單調(diào)整相機(jī)參數(shù)便可以渲染相應(yīng)的光場圖像及其視差圖。本文渲染了13 個(gè)不同的場景共計(jì)88 組光場圖像數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),每組光場數(shù)據(jù)包含原始基線下的光場圖像以及編輯為2倍基線的光場圖像,每組數(shù)據(jù)光場圖像的空間分辨率均為512×512,角度分辨率均為9×9。其中75 張光場圖像用于神經(jīng)網(wǎng)絡(luò)訓(xùn)練,對應(yīng)的2倍基線的光場圖像作為真值,3個(gè)用于評估模型,剩下10個(gè)圖像用于測試。本文同時(shí)利用了少部分斯坦福真實(shí)場景光場數(shù)據(jù)集(http://lightfield.stanford.edu/lfs.html)中的圖像對本文的深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。本文在Titan X GPU上進(jìn)行網(wǎng)絡(luò)的訓(xùn)練,訓(xùn)練次數(shù)為1 200,初始學(xué)習(xí)率設(shè)為2E-4。
Fig.4 Initial results of baseline editing for synthetic light field images圖4 虛擬光場圖像基線編輯的初步結(jié)果
Fig.5 Initial results of baseline editing for real light field images圖5 真實(shí)場景光場圖像基線編輯的初步結(jié)果
基線編輯后的光場圖像重定向結(jié)果如圖4和圖5所示(第一行為輸入光場圖像的子視點(diǎn)圖像,第二行為重定向后對應(yīng)的粗糙子視點(diǎn)圖像(綠色標(biāo)注區(qū)域?yàn)檎趽跞コ蟮目斩矗?,第三行為第一行子視點(diǎn)對應(yīng)的視差圖)。由于篇幅有限,本文只選取距離中心子視點(diǎn)最遠(yuǎn)的子視點(diǎn)圖像進(jìn)行展示,即角度坐標(biāo)索引為(-4,-4)的子視點(diǎn)圖像。光場圖像的核心參數(shù)(如修改前基線以及修改后的基線)如表1和表2所示。
本文將合成光場圖像的基線編輯結(jié)果與全變分優(yōu)化[6]、基于貝葉斯的新視點(diǎn)生成算法[7]結(jié)果進(jìn)行對比。同時(shí),本文算法與基于單張圖像的神經(jīng)網(wǎng)絡(luò)修復(fù)算法[13-14]進(jìn)行比較。實(shí)驗(yàn)結(jié)果如圖6~圖11所示,其中(a)為文獻(xiàn)[7]得到的結(jié)果,(b)為文獻(xiàn)[6]得到的結(jié)果,(c)為文獻(xiàn)[14]得到的修復(fù)結(jié)果,(d)為文獻(xiàn)[13]得到的結(jié)果,(e)為本文算法得到的結(jié)果,(f)為基線編輯后子視點(diǎn)的真值圖像。
Table 1 Parameters of synthetic light field image表1 合成光場圖像的參數(shù)
從結(jié)果圖像可以看出,基于貝葉斯的新視點(diǎn)生成算法結(jié)果圖像容易產(chǎn)生紋理的缺失和混亂,如圖8中熊的腳部放大細(xì)節(jié)和圖1中自行車的細(xì)節(jié),并且在物體的邊緣處容易產(chǎn)生模糊和大量噪聲。本文算法結(jié)果能較好還原圖像的紋理細(xì)節(jié),不存在明顯的噪聲現(xiàn)象,具有較好的視覺效果,但是可能在較大空洞區(qū)域的邊緣會產(chǎn)生一個(gè)輕微的偽影,這是目前深度學(xué)習(xí)方法面臨的一個(gè)共性問題。
Table 2 Parameters of real light field image表2 真實(shí)光場圖像的參數(shù)
Fig.6 Comparison of light field image retargeting results(scene1)圖6 光場圖像重定向結(jié)果比較(場景1)
Fig.7 Comparison of light field image retargeting results(scene 2)圖7 光場圖像重定向結(jié)果比較(場景2)
Fig.8 Comparison of light field image retargeting results(scene 3)圖8 光場圖像重定向結(jié)果比較(場景3)
Fig.9 Comparison of light field image retargeting results(scene4)圖9 光場圖像重定向結(jié)果比較(場景4)
Fig.10 Comparison of light field image retargeting results(scene5)圖10 光場圖像重定向結(jié)果比較(場景5)
Fig.11 Comparison of light field image retargeting results(scene6)圖11 光場圖像重定向結(jié)果比較(場景6)
實(shí)驗(yàn)結(jié)果表明,基于單張圖像的神經(jīng)網(wǎng)絡(luò)無法充分學(xué)習(xí)光場圖像子視點(diǎn)之間圖像內(nèi)容的相關(guān)性,在空洞區(qū)域的紋理生成時(shí),容易產(chǎn)生紋理預(yù)測錯(cuò)誤和疊影現(xiàn)象,如圖6 中路燈的燈柱和圖9 中書架邊緣。相比之下,本文提出的深度學(xué)習(xí)算法框架能正確修復(fù)目標(biāo)光場圖像空洞區(qū)域的紋理細(xì)節(jié)。
本文通過計(jì)算不同結(jié)果圖像子視點(diǎn)的平均峰值信噪比(peak signal to noise ratio,PSNR)和平均結(jié)構(gòu)相似性(structural similarity index measure,SSIM)對不同的算法結(jié)果進(jìn)行定量分析。定量分析見表3。從結(jié)果可看出,本文所提算法在大部分?jǐn)?shù)據(jù)的數(shù)值上遠(yuǎn)遠(yuǎn)高于對比算法。定量分析結(jié)果表明,本文算法在合成場景數(shù)值上高于對比算法,具有更好的修復(fù)準(zhǔn)確度,可以看出所提算法的有效性。
真實(shí)場景的光場圖像往往場景內(nèi)容更為復(fù)雜,子視點(diǎn)圖像和視差圖含有相當(dāng)?shù)脑肼?,?dǎo)致處理起來更加困難。本文將真實(shí)光場圖像的基線編輯結(jié)果與全變分優(yōu)化的新視點(diǎn)生成方法[6]、基于貝葉斯的新視點(diǎn)生成算法[7],以及基于單張圖像的神經(jīng)網(wǎng)絡(luò)修復(fù)算法[13-14]的結(jié)果進(jìn)行對比,實(shí)驗(yàn)結(jié)果如圖12~圖16所示。
實(shí)驗(yàn)結(jié)果表明,本文算法在真實(shí)圖像上也具有較大優(yōu)勢,在視差圖有大量噪聲與錯(cuò)誤的情況下也能獲得較好的視覺效果?;谪惾~斯的新視點(diǎn)生成算法在真實(shí)場景上容易出現(xiàn)紋理與結(jié)構(gòu)上的破壞,如圖12中的推土機(jī)尾部,并且伴隨著大量噪聲,如圖16中的葉子區(qū)域以及圖13中的車頭后視鏡區(qū)域?;趩螐垐D像的神經(jīng)網(wǎng)絡(luò)則容易出現(xiàn)色彩上的誤差,如圖14的天空和圖15的椅子背部。
Table 3 Quantitative analysis of synthetic light field image baseline editing results表3 合成光場圖像基線編輯結(jié)果定量分析
本文通過計(jì)算不同結(jié)果圖像子視點(diǎn)的平均PSNR 和平均SSIM 對不同的算法結(jié)果進(jìn)行定量分析,如表4 所示。定量分析結(jié)果表明,本文算法在真實(shí)場景數(shù)值上高于對比算法,具有更好的修復(fù)準(zhǔn)確度,能夠適應(yīng)較為復(fù)雜的場景結(jié)構(gòu),對子視點(diǎn)和視差圖噪聲/錯(cuò)誤具有較好的魯棒性。
Fig.12 Comparison of light field image retargeting results(scene 7)圖12 光場圖像重定向結(jié)果比較(場景7)
Fig.13 Comparison of light field image retargeting results(scene 8)圖13 光場圖像重定向結(jié)果比較(場景8)
Fig.14 Comparison of light field image retargeting results(scene 9)圖14 光場圖像重定向結(jié)果比較(場景9)
Fig.15 Comparison of light field image retargeting results(scene 10)圖15 光場圖像重定向結(jié)果比較(場景10)
Fig.16 Comparison of light field image retargeting results(scene 11)圖16 光場圖像重定向結(jié)果比較(場景11)
Table 4 Quantitative analysis of real light field image baseline editing results表4 真實(shí)光場圖像基線編輯結(jié)果定量分析
本文提出了一種基于深度神經(jīng)網(wǎng)絡(luò)的光場圖像基線編輯方法,使用光場圖像一行(或一列)的子視點(diǎn)圖像堆疊成3D EPI并將不同子視點(diǎn)相同的顏色通道排列在一起作為神經(jīng)網(wǎng)絡(luò)的輸入,進(jìn)行基線編輯后目標(biāo)光場圖像的重構(gòu)和優(yōu)化。本文提出的深度神經(jīng)網(wǎng)絡(luò)模型能夠?qū)崿F(xiàn)基線編輯的光場圖像重定向處理,對重定向過程中因遮擋去除產(chǎn)生的空洞區(qū)域可以實(shí)現(xiàn)快速準(zhǔn)確的圖像修復(fù)和優(yōu)化,得到具有較好準(zhǔn)確度和視覺效果的結(jié)果圖像。提出的光場圖像基線編輯方法能夠服務(wù)于一系列光場圖像編輯應(yīng)用,如光場圖像拼接、不同場景光場圖像的物體拷貝和復(fù)制、合成立體圖像和光場圖像顯示等。
本文提出的進(jìn)行目標(biāo)光場圖像優(yōu)化的DCNN模型主要基于合成光場數(shù)據(jù)進(jìn)行訓(xùn)練,能夠有高質(zhì)量的視差圖和目標(biāo)光場圖像真值來方便模型的訓(xùn)練。但是,真實(shí)場景得到的光場圖像往往場景更為復(fù)雜,面臨子視點(diǎn)存在噪聲和視差圖可能很不準(zhǔn)確等問題,會影響光場圖像重定向的結(jié)果圖像質(zhì)量。下一步需要研究改進(jìn)本文的深度學(xué)習(xí)模型和訓(xùn)練方法,爭取在真實(shí)場景光場圖像上取得更好的實(shí)驗(yàn)結(jié)果。同時(shí),研究對光場圖像的另外一個(gè)非常重要的參數(shù)ds實(shí)現(xiàn)有效的編輯。