劉震
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)
在數(shù)字圖像領(lǐng)域,動(dòng)態(tài)范圍(Dynamic Range)是指所拍攝場(chǎng)景中最大亮度與最小亮度的比值,即最大像素值與最小像素值之比。對(duì)于傳統(tǒng)的低動(dòng)態(tài)范圍(Low Dynamic Range,LDR)圖像,每個(gè)像素值用8 位二進(jìn)制數(shù)表示,最大只能表示256 個(gè)灰度等級(jí),因此圖像所能表示的動(dòng)態(tài)范圍有限。相較于LDR 圖像,高動(dòng)態(tài)范圍(High Dynamic Range,HDR)圖像中每個(gè)像素值具有更高的位深,能夠更加準(zhǔn)確地記錄和展示真實(shí)場(chǎng)景中的亮部與暗部細(xì)節(jié),從而獲得更好的視覺(jué)效果。
隨著智能手機(jī)與超高清電視等電子設(shè)備的普及,HDR 成像與顯示技術(shù)的需求日趨旺盛。同時(shí),HDR 在衛(wèi)星氣象、遙感探測(cè)、醫(yī)療等諸多方面也具有廣泛的應(yīng)用前景。受限于成本,目前絕大部分智能手機(jī)的攝像頭傳感器只能拍攝LDR 圖像。目前獲得HDR 圖像的方式主要有兩種,一種是用專(zhuān)用的設(shè)備直接拍攝與存儲(chǔ)HDR 圖像,但是這種方法成本過(guò)高,無(wú)法普及[1]。另一種方法則是拍攝多張LDR 圖像,通過(guò)算法后期合成為HDR 圖像,這種方法無(wú)需特定設(shè)備,預(yù)期成本低,因此在近些年受到很多研究人員的關(guān)注[2-5]。
在本文中,我們針對(duì)動(dòng)態(tài)場(chǎng)景下的多曝光高動(dòng)態(tài)范圍成像技術(shù)進(jìn)行研究。在同一場(chǎng)景中,不同曝光值(Exposure Value,EV)的LDR 圖像包含的圖像細(xì)節(jié)不同,例如,高EV 圖像中整體亮度較高,場(chǎng)景暗部細(xì)節(jié)更豐富,低EV 圖像整體偏暗,場(chǎng)景中亮部細(xì)節(jié)更多??缙毓釮DR 融合問(wèn)題就是需要將不同EV 的LDR 圖像融合成一張具有豐富的亮、暗部細(xì)節(jié)的HDR 圖像。對(duì)動(dòng)態(tài)場(chǎng)景來(lái)說(shuō),由于手持相機(jī)抖動(dòng)或者被拍攝目標(biāo)物的運(yùn)動(dòng),經(jīng)常會(huì)在融合后產(chǎn)生鬼影問(wèn)題,導(dǎo)致最終融合的結(jié)果圖效果不好。
針對(duì)上述問(wèn)題,本文基于深度神經(jīng)網(wǎng)絡(luò),提出一種特征融模型,用于動(dòng)態(tài)場(chǎng)景下的多曝光HDR 成像。該模型由特征編碼器、特征融合模塊以及后處理模塊組成。特征編碼器負(fù)責(zé)提出多個(gè)尺度的LDR 圖像特征,特征融合模塊利用融合掩碼(mask)對(duì)每一個(gè)尺度的特征進(jìn)行融合,最后使用一個(gè)后處理模塊優(yōu)化融合的特征,產(chǎn)生最終的HDR 結(jié)果。本文做了大量的測(cè)試與對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明我們的方法在HDR 效果與鬼影去除能力上均要優(yōu)于傳統(tǒng)方法。
目前通過(guò)LDR 合成HDR 圖像主要有兩種形式:通過(guò)單一曝光或者多重曝光。對(duì)于單一曝光HDR 成像,其思路是直接學(xué)習(xí)LDR 圖像到HDR 圖像的映射,這種方法由于只需要對(duì)輸入圖像進(jìn)行一次曝光,因此不存在鬼影問(wèn)題,但是需要算法具有能夠有效恢復(fù)出飽和區(qū)域的細(xì)節(jié)的能力。另一種更為常見(jiàn)的形式則是通過(guò)多張不同曝光的LDR 圖像融合產(chǎn)生最終的HDR結(jié)果。此類(lèi)方法通過(guò)融合不同曝光圖像中的良好曝光區(qū)域(如高曝光圖像中的暗部以及低曝光圖像中的亮部),因此通常能夠獲得更好的圖像細(xì)節(jié)。Sen 等人[4]和Hu 等人[5]先后提出基于塊匹配的方法,這種方法在靜態(tài)場(chǎng)景下能夠獲得較好的結(jié)果。對(duì)于手持相機(jī),由于手的抖動(dòng)或者前景目標(biāo)運(yùn)動(dòng),導(dǎo)致不同曝光的LDR 圖像內(nèi)容存在沒(méi)有對(duì)齊的區(qū)域,直接融合會(huì)導(dǎo)致鬼影現(xiàn)象。本文主要針對(duì)動(dòng)態(tài)場(chǎng)景進(jìn)行研究。
近年來(lái),隨著計(jì)算機(jī)硬件的發(fā)展,深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)逐漸成為主流方法,在人臉識(shí)別[6]、目標(biāo)檢測(cè)[7]、醫(yī)療影像[8]等領(lǐng)域取得了巨大成功。DNN 獲得成功的一個(gè)重要原因是其擁有傳統(tǒng)方法無(wú)法比擬的數(shù)據(jù)表征能力。與傳統(tǒng)方法不一樣,DNN是基于數(shù)據(jù)驅(qū)動(dòng)的學(xué)習(xí)方法,能夠更好地挖掘數(shù)據(jù)中的信息。在本文中,針對(duì)傳統(tǒng)方法在動(dòng)態(tài)場(chǎng)景多曝光HDR 成像任務(wù)中表現(xiàn)不佳的問(wèn)題,我們引入DNN,旨在設(shè)計(jì)一個(gè)高性能的神經(jīng)網(wǎng)絡(luò),用于合成高質(zhì)量、無(wú)鬼影的HDR 圖像。
與傳統(tǒng)塊匹配方法或者基于圖像尺度的DNN 方法不同,本文從特征尺度出發(fā),提出一個(gè)特征融合網(wǎng)絡(luò)。算法的整體流程為:輸入三幀動(dòng)態(tài)場(chǎng)景下拍攝的LDR 圖像Il、Ir和Ih,通過(guò)我們提出的特征融合網(wǎng)絡(luò)進(jìn)行訓(xùn)練,輸出HDR 圖像IH,即:
其中f 表示本文提出的特征融合網(wǎng)絡(luò),θ表示網(wǎng)絡(luò)需要優(yōu)化的參數(shù)。
如圖1 所示,我們的特征融合網(wǎng)絡(luò)的結(jié)構(gòu)主要分為三部分:特征編碼器、特征融合模塊以及后處理模塊。特征編碼器用于抽取輸入三張LDR 圖像的四級(jí)尺度特征,即:
E 表示特征編碼器。我們的出發(fā)點(diǎn)是,在多尺度特征上進(jìn)行由粗糙到精細(xì)的融合要比在單一尺度上容易獲得更好的融合效果。與此同時(shí),為了能夠適應(yīng)性的選取亮幀和暗幀LDR 圖像中相對(duì)應(yīng)的細(xì)節(jié)區(qū)域,同時(shí)有效地去除鬼影,我們將輸入圖像Il和Ih拼接起來(lái)送入一個(gè)mask 生成器,輸出相對(duì)應(yīng)尺度的mask:
M 表示mask 生成器,這里我們同樣生成四個(gè)尺度的mask。
圖1 網(wǎng)絡(luò)結(jié)構(gòu)圖
在獲取了多尺度特征和mask 之后,我們對(duì)每一個(gè)尺度的特征進(jìn)行融合,如圖所示,對(duì)于第k 個(gè)尺度,特征融合過(guò)程如下:
同樣的,對(duì)于四級(jí)尺度特征的融合也是一個(gè)由粗糙到精細(xì)的過(guò)程,在獲取一個(gè)尺度的融合特征fkfusion之后,我們將其與上一級(jí)輸出特征fk-1up以及中間幀的特征fkr拼接起來(lái),作為當(dāng)前尺度融合模塊的輸出,即:
最后,在獲得最高級(jí)融合特征f4up之后,我們將其送入后處理模塊進(jìn)行優(yōu)化,獲得最終的HDR 結(jié)果。后處理模塊由一系列殘差模塊組成。為了網(wǎng)絡(luò)更好的訓(xùn)練與優(yōu)化,我們采用了殘差連接(圖1 紅色實(shí)線所示)。
本文提出的模型使用Kalantari[9]提出的數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)。該數(shù)據(jù)集具有74 組訓(xùn)練樣本和15 組測(cè)試樣本,每一組樣本包含三張LDR 圖像作為輸入以及一張HDR 圖像作為標(biāo)簽。每一張圖片的尺寸為1500×1000。為了提升硬件利用率以及更好的優(yōu)化模型,我們不是直接輸入原圖,而是在訓(xùn)練過(guò)程中隨機(jī)裁剪出256×256 的圖像快作為輸入,同時(shí)我們隨機(jī)對(duì)輸入圖像塊進(jìn)行隨機(jī)翻轉(zhuǎn)和旋轉(zhuǎn)等數(shù)據(jù)增強(qiáng)。
本文中所有的實(shí)驗(yàn)均在Linux 操作環(huán)境下進(jìn)行,使用NVIDIA RTX 2080Ti 顯卡訓(xùn)練模型,訓(xùn)練代碼使用PyTorch 框架實(shí)現(xiàn)。在實(shí)驗(yàn)過(guò)程中,使用Xavier 初始化函數(shù)對(duì)模型參數(shù)進(jìn)行初始化,初始學(xué)習(xí)率設(shè)為1x10-4,每訓(xùn)練100 輪,學(xué)習(xí)率減半,一共需要訓(xùn)練300 輪收斂。我們使用L2 損失作為模型的目標(biāo)函數(shù),使用Ad?am 優(yōu)化器優(yōu)化模型。
為了評(píng)價(jià)生成HDR 圖像內(nèi)容的質(zhì)量,我們使用PSNR(Peak Signal-to-Noise Ratio)和SSIM(Structure SIMilarity)作為實(shí)驗(yàn)結(jié)果的評(píng)價(jià)指標(biāo)。PSNR 用于計(jì)算圖像的峰值信噪比:
其中MAXI2表示圖像可能的最大像素值,對(duì)于8位圖像來(lái)說(shuō)就是255,MSE 表示圖像的均方誤差。SSIM 是計(jì)算圖片結(jié)構(gòu)相似性的一個(gè)重要指標(biāo)。除此之外,我們還記算了HDR-VDP-2 作為評(píng)價(jià)HDR 效果的指標(biāo),HDR-VDP-2 用于衡量HDR 圖片質(zhì)量。這三個(gè)評(píng)價(jià)指標(biāo)的值均是越大越好。
在模型訓(xùn)練收斂以后,我們?cè)跍y(cè)試集上對(duì)模型進(jìn)行測(cè)試。對(duì)于測(cè)試結(jié)果,我們進(jìn)行了客觀評(píng)價(jià)指標(biāo)分析和主觀結(jié)果對(duì)比。如表1 所示,我們記算和對(duì)比了兩個(gè)傳統(tǒng)方法和我們方法測(cè)試結(jié)果的PSNR、SSIM 和HDR-VDP-2 等指標(biāo)。從表中數(shù)據(jù)可以看出來(lái),本文方法在這三個(gè)指標(biāo)上均大幅超過(guò)傳統(tǒng)方法,證明本文方法恢復(fù)出來(lái)的HDR 圖像在圖像質(zhì)量以及HDR 效果上均要優(yōu)于傳統(tǒng)方法。
除了客觀指標(biāo),我們還從主觀結(jié)果圖上進(jìn)行了對(duì)比分析。如圖2 所示,左邊展示了動(dòng)態(tài)場(chǎng)景下輸入的三張不同曝光值LDR 圖像,右邊分別為Sen 的方法[4]、Hu 的方法[5]、本文方法和真實(shí)標(biāo)簽結(jié)果。從圖中可以看出來(lái),由于輸入場(chǎng)景中人的手臂運(yùn)動(dòng),導(dǎo)致Sen 和Hu 的方法在融合之后產(chǎn)生了鬼影(背景墻壁處),而本文方法的結(jié)果則能夠有效的去除鬼影且融合的HDR結(jié)構(gòu)質(zhì)量更好,更接近真實(shí)標(biāo)簽結(jié)果。綜上可知,本文基于深度神經(jīng)網(wǎng)絡(luò)的特征融合模型要優(yōu)于傳統(tǒng)方法。
表1 客觀評(píng)價(jià)指標(biāo)對(duì)比
圖2 主觀結(jié)果對(duì)比圖
本文針對(duì)傳統(tǒng)HDR 成像技術(shù)在動(dòng)態(tài)場(chǎng)景中效果不佳和存在鬼影的問(wèn)題,利用深度神經(jīng)網(wǎng)絡(luò),提出一種用于多曝光HDR 成像的特征融合模型。該模型由特征編碼器、特征融合模塊和后處理模塊組成,分別用于多尺度特征提取,特征融合和融合特征的優(yōu)化。實(shí)驗(yàn)結(jié)果表明,本文提出的模型在PSNR、SSIM、HDR-VDP-2 等指標(biāo)上高于傳統(tǒng)方法,且主觀視覺(jué)效果更好。然后,由于訓(xùn)練數(shù)據(jù)中缺乏極度過(guò)曝/欠曝場(chǎng)景,導(dǎo)致模型在極限場(chǎng)景下的表現(xiàn)不佳。在未來(lái)的研究工作中,我們將致力于更好地恢復(fù)極限場(chǎng)景中飽和區(qū)的細(xì)節(jié)。