高浩然,劉靜超
(西京學(xué)院 計(jì)算機(jī)學(xué)院,陜西 西安 710123)
圖像超分辨率重建是將低分辨率(Low Resolution,LR)圖像重建為高分辨率(High Resolution, HR)圖像的過(guò)程,在數(shù)字圖像處理和計(jì)算機(jī)視覺(jué)等領(lǐng)域有著重要的應(yīng)用價(jià)值?,F(xiàn)有的深度學(xué)習(xí)超分辨率方法大多需要大量的高低分辨率圖像對(duì)作為監(jiān)督信號(hào),但這樣的圖像對(duì)在實(shí)際應(yīng)用中并不總是易于獲取或準(zhǔn)確對(duì)齊,這限制了這些方法的泛化能力。為了解決這個(gè)問(wèn)題,無(wú)監(jiān)督超分辨率方法日益受到重視。它們無(wú)需任何對(duì)齊數(shù)據(jù),完全依賴于未標(biāo)注的數(shù)據(jù)實(shí)現(xiàn)訓(xùn)練,這使其可以應(yīng)用到更加廣泛的場(chǎng)景。
然而,無(wú)監(jiān)督超分辨率任務(wù)非常艱巨。由于缺乏監(jiān)督信號(hào),如何學(xué)習(xí)低高分辨率圖像之間的復(fù)雜映射關(guān)系是一個(gè)重要的挑戰(zhàn)?;诖?本文提出一種基于CycleGAN[1]的無(wú)監(jiān)督超分辨率框架,此框架通過(guò)將未知退化的LR圖像與進(jìn)行過(guò)人為退化的HR圖像之間的映射學(xué)習(xí)問(wèn)題建模為一個(gè)CycleGAN框架,通過(guò)在兩個(gè)圖像域之間訓(xùn)練生成器和判別器網(wǎng)絡(luò)來(lái)學(xué)習(xí)復(fù)雜的映射關(guān)系,實(shí)現(xiàn)低分辨率到高分辨率的像素級(jí)遷移,達(dá)到超分辨率重建的目的。
本文通過(guò)PyTorch框架實(shí)現(xiàn)了提出的方法,并在多個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證。結(jié)果表明,本方法可以有效地學(xué)習(xí)高低分辨率圖像域之間的映射。特別在數(shù)據(jù)稀缺的情況下,本方法具有比同類方法更強(qiáng)的生成效果。
隨著SRGAN[2]的出現(xiàn),以GAN[3]為基礎(chǔ)的超分辨架構(gòu)走進(jìn)了蓬勃發(fā)展的新階段。Deng等[4]提出新的增強(qiáng)型GAN loss,包含對(duì)抗損失和相似性損失兩部分。相似性損失直接匹配超分辨率圖像與真實(shí)高分辨率圖像的特征圖,可以產(chǎn)生更加相似的圖像結(jié)構(gòu)。Gauthier等[5]提出融合GAN,使用多個(gè)GAN模型共同產(chǎn)生超分辨率圖像并聚攏結(jié)果。Wang等[6]將ESR網(wǎng)絡(luò)與GAN架構(gòu)結(jié)合,引入新的超分辨率圖像評(píng)價(jià)指標(biāo),產(chǎn)生真實(shí)逼真的結(jié)果。Chen等[7]提出基于圖像質(zhì)量的HAT loss來(lái)訓(xùn)練超分辨率GAN,可以產(chǎn)生視覺(jué)效果更優(yōu)的圖像,但訓(xùn)練較難收斂。
以上方法都是有監(jiān)督的超分辨率模型,需要使用配對(duì)的數(shù)據(jù)進(jìn)行訓(xùn)練。但是,當(dāng)處理現(xiàn)實(shí)世界采樣的數(shù)據(jù)時(shí),配對(duì)的數(shù)據(jù)往往難以采集或準(zhǔn)確對(duì)齊,因此使用非配對(duì)樣本進(jìn)行訓(xùn)練的無(wú)監(jiān)督超分辨模型成了解決這類問(wèn)題的關(guān)鍵。Zhou等[8]提出的Cross-MPI是一種基于參考的超分辨率方法,利用多平面圖像的表示來(lái)實(shí)現(xiàn)跨尺度的立體匹配,將參考圖中的細(xì)節(jié)信息傳輸?shù)降头直媛蕡D像。
而本文通過(guò)特征遷移的方式實(shí)現(xiàn)了無(wú)監(jiān)督超分辨重建,借鑒CycleGAN的思想,對(duì)未知退化的真實(shí)世界圖像進(jìn)行像素特征的域遷移。通過(guò)將未知退化的像素分布遷移到干凈的低分辨率像素域,然后再用超分辨網(wǎng)絡(luò)對(duì)其進(jìn)行超分重構(gòu)生成高清圖像。
圖1 無(wú)監(jiān)督超分辨模型
為了在網(wǎng)絡(luò)訓(xùn)練的過(guò)程中保證像素遷移過(guò)程的可逆,并讓輸入圖像的細(xì)節(jié)信息不完全丟失,本文在此引入了循環(huán)一致性損失(Cycle Loss),在本文中將其定義為:
(1)
為了使生成的結(jié)果更真實(shí)可信,并約束重建結(jié)果與輸入圖像的一致性,本文還引入了身份損失函數(shù)(Identity Loss)。在無(wú)監(jiān)督學(xué)習(xí)或?qū)R數(shù)據(jù)缺失的條件下,它可以為模型提供自監(jiān)督信號(hào),指導(dǎo)參數(shù)的更新方向。具體的表達(dá)式如下:
(2)
在本文提出的方法中,以CycleGAN為基礎(chǔ)模型來(lái)構(gòu)建低分辨率圖像映射網(wǎng)絡(luò),但為了使網(wǎng)絡(luò)可以更有效以及更全面地學(xué)習(xí)目標(biāo)域的特征,本文對(duì)生成器和判別器進(jìn)行了改進(jìn)。為了學(xué)習(xí)到不同尺度的特征信息,在生成器的構(gòu)建上,本方法分別使用3×3和7×7大小的卷積塊進(jìn)行特征提取。輸入圖像分別進(jìn)入兩個(gè)通道提取不同尺度的特征,然后通過(guò)相加操作進(jìn)行特征融合,融合后通過(guò)1×1卷積降維后輸出圖像。
本文借鑒了SRGAN的設(shè)計(jì),在判別器中,輸入圖像經(jīng)過(guò)一個(gè)卷積層和一個(gè)激活層,然后通過(guò)堆疊的小尺度卷積塊來(lái)提取高頻細(xì)節(jié)信息,最后通過(guò)線性層來(lái)輸出圖像判斷概率。
在構(gòu)建循環(huán)對(duì)抗網(wǎng)絡(luò)時(shí),為了促進(jìn)生成器產(chǎn)生更加真實(shí)的圖像,提高判別器的判斷能力,本文采用了對(duì)抗損失進(jìn)行約束,其表達(dá)式為:
(3)
(4)
(5)
(6)
本文在構(gòu)建超分辨網(wǎng)絡(luò)時(shí)只使用了ESRGAN模型的生成器部分。但在最初對(duì)超分辨網(wǎng)絡(luò)訓(xùn)練時(shí),使用了整個(gè)網(wǎng)絡(luò)。首先用DIV2K數(shù)據(jù)集中的配對(duì)數(shù)據(jù)訓(xùn)練ESRGAN,當(dāng)模型收斂后,凍結(jié)整個(gè)超分辨網(wǎng)絡(luò),使其在后期的訓(xùn)練中不再進(jìn)行梯度更新。
本實(shí)驗(yàn)在訓(xùn)練退化學(xué)習(xí)網(wǎng)絡(luò)時(shí),對(duì)兩個(gè)對(duì)抗生成網(wǎng)絡(luò)都采用同步更新的訓(xùn)練策略。每次迭代先更新判別器,提高其對(duì)真實(shí)圖像和生成圖像的判斷精度;然后更新生成器,生成更真實(shí)的圖像來(lái)欺騙判別器。本文在此設(shè)置參數(shù)λ=0.2,μ=0.2,δ=0.2,θ=0.4,同時(shí)使用Adam優(yōu)化器來(lái)進(jìn)行優(yōu)化。
本實(shí)驗(yàn)在超分辨網(wǎng)絡(luò)的訓(xùn)練中,設(shè)置batch_size=16,epoch=100。在整體架構(gòu)訓(xùn)練時(shí),設(shè)置batch_size=16,epoch=200。在PyTorch框架下,使用NVIDIA 4070ti顯卡訓(xùn)練了45 h,并取得了不錯(cuò)的成效。
本文在DIV2K、Set5、Set14 3個(gè)數(shù)據(jù)集上對(duì)提出的模型進(jìn)行了驗(yàn)證,這3個(gè)數(shù)據(jù)集都包含高低分辨率圖像。需要說(shuō)明的是,DIV2K數(shù)據(jù)集中有一部分測(cè)試數(shù)據(jù)沒(méi)有高分辨率圖像,這也可以用來(lái)檢測(cè)超分辨率模型對(duì)未知退化圖像的處理能力。
峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)和結(jié)構(gòu)相似度(Structure Similarity Index Measure,SSIM)是兩種常用的圖像質(zhì)量評(píng)價(jià)指標(biāo),本文通過(guò)衡量不同數(shù)據(jù)集上的PSNR和SSIM來(lái)測(cè)試本模型的生成效果。
本文在DIV2K Track2數(shù)據(jù)集上,使用提出的方法分別與3個(gè)當(dāng)前優(yōu)秀的方法進(jìn)行了比較。SRGAN是首個(gè)使用對(duì)抗生成網(wǎng)絡(luò)進(jìn)行超分辨的模型。ESRGAN是一種增強(qiáng)型的超分辨網(wǎng)絡(luò),它采用殘差連接和更深層結(jié)構(gòu)的生成器,能夠產(chǎn)生更真實(shí)的超分辨率圖像。Cross-MPI是一種跨尺度立體方法,用于實(shí)現(xiàn)圖像跨超分辨率重建,它通過(guò)多平面圖像表示場(chǎng)景的結(jié)構(gòu)和外觀。
由于該測(cè)試集沒(méi)有對(duì)應(yīng)的高分辨率圖像,本文只展示了部分測(cè)試結(jié)果。如圖2所示,從視覺(jué)效果來(lái)看,本文提出的方法比SRGAN和ESRGAN生成的圖像更清晰,與Cross-MPI生成的圖像相似。無(wú)論是圖像的流暢度還是高頻細(xì)節(jié)的恢復(fù),本方法都展示出了令人滿意的效果。
圖2 本模型在DIV2K數(shù)據(jù)集上與其他模型的比較
在有配對(duì)的測(cè)試數(shù)據(jù)集上,本文也用提出的方法與其他方法進(jìn)行了對(duì)比試驗(yàn),并用PSNR和SSIM指標(biāo)評(píng)價(jià)其效果。
從表1中可以看出,本方法在不同的數(shù)據(jù)集上的PSNR和SSIM指標(biāo)都優(yōu)于SRGAN和ESRGAN。在DIV2K和Set5數(shù)據(jù)集中,本方法的PSNR指標(biāo)低于Cross-MPI,這是因?yàn)楸灸P透P(guān)注高頻細(xì)節(jié)的學(xué)習(xí),而低頻部分的重建效果不夠理想,但在實(shí)際的視覺(jué)效果上與Cross-MPI相差不大。
表1 提出的方法在不同數(shù)據(jù)集上與其他方法的比較
本文提出了一種新的無(wú)監(jiān)督超分辨方法,該方法旨在利用非配對(duì)的高低分辨率數(shù)據(jù)進(jìn)行圖像超分辨。借鑒CycleGAN的思想,通過(guò)域轉(zhuǎn)換的方式實(shí)現(xiàn)像素的域遷移,將真實(shí)世界采集的圖像通過(guò)退化學(xué)習(xí)重新映射到已知且干凈的低分辨率域。最終在PS損失函數(shù)的約束下,通過(guò)超分辨網(wǎng)絡(luò)生成質(zhì)量更高的高分辨率圖像。實(shí)驗(yàn)表明,本方法可以更好且更方便地提升生成圖像的質(zhì)量,為圖像提供更高的平滑度以及更好的細(xì)節(jié)紋理特征。