黃慧玲
超分辨率重建是計(jì)算機(jī)視覺(jué)和圖像處理領(lǐng)域一個(gè)經(jīng)典的問(wèn)題,旨在從低分辨率的圖像中重建出具有清晰的紋理、邊緣和高質(zhì)量視覺(jué)感官的高分辨率圖像。在計(jì)算機(jī)視覺(jué)領(lǐng)域中被認(rèn)為是一個(gè)經(jīng)典的病態(tài)逆問(wèn)題[1]。高分辨的圖片經(jīng)過(guò)模糊、扭曲和下采樣等多種操作后,可得到一張低分辨率圖像。然而從低分辨率圖像重建到高分辨率這個(gè)過(guò)程中,存在無(wú)限多種高分辨率圖像對(duì)應(yīng),是不可逆的。目前基于深度學(xué)習(xí)超分辨重建方法研究熱度最高,這類(lèi)算法利用機(jī)器學(xué)習(xí)方法從大量訓(xùn)練數(shù)據(jù)中學(xué)習(xí)低分辨率和高分辨率圖像之間的映射關(guān)系,通常能夠更好地恢復(fù)圖像細(xì)節(jié),缺點(diǎn)是需要大量的訓(xùn)練數(shù)據(jù)和計(jì)算資源。深度學(xué)習(xí)本質(zhì)上是利用大量訓(xùn)練數(shù)據(jù)和強(qiáng)大的模型學(xué)習(xí)能力,能夠更好地重建圖像細(xì)節(jié),獲得更高質(zhì)量的超分辨率結(jié)果。
本文主要討論的是基于深度學(xué)習(xí)的超分辨率重建,針對(duì)如何在提取更加豐富的特征時(shí),關(guān)注提取特征與重建特征的相關(guān)性這一問(wèn)題,提出了多尺度的混合注意力機(jī)制超分辨重建網(wǎng)絡(luò),主要貢獻(xiàn)如下:
(1)多尺度提取特征:一個(gè)大的感受野可提供更多的上下文細(xì)節(jié),并通過(guò)結(jié)合本地和全局信息幫助重建出更好的性能。因此,將局部信息和全局信息結(jié)合起來(lái),在不同尺度上為圖像提供上下文信息,設(shè)計(jì)了一個(gè)多分支網(wǎng)絡(luò)。
(2)混合注意力機(jī)制:由通道注意力和空間注意力相結(jié)合,并融合到多分支模型中,實(shí)現(xiàn)在提取更加豐富特征情況下,關(guān)注提取特征與重建特征的相關(guān)性,從而提高重建質(zhì)量。
整個(gè)網(wǎng)絡(luò)的結(jié)構(gòu)如圖1所示,分為特征提取、全局殘差學(xué)習(xí)和上采樣模塊。特征提取的作用是提取超分辨重建需要的低中高分辨率信息,豐富的特征信息利于圖像重建。設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)的關(guān)鍵是采用多尺度融合注意力模塊級(jí)聯(lián)的方式,其中多尺度是指運(yùn)用了兩條信息流獲取上下文的信息,混合注意力是指從通道和空間兩個(gè)角度來(lái)優(yōu)化選擇的特征,使獲取的特征更利于超分辨率重建。全局殘差學(xué)習(xí)的作用就是不丟失剛進(jìn)入網(wǎng)絡(luò)的初始特征,即低頻特征通過(guò)全局殘差可以將低頻信息流流向網(wǎng)絡(luò)的最后階段,參與重建,實(shí)現(xiàn)了全局跳躍連接,以增強(qiáng)模型的非線性映射能力。上采樣(Upsampling)模塊的作用是生成與SR圖像相同的目標(biāo)尺寸。
圖1 網(wǎng)絡(luò)整體結(jié)構(gòu)
網(wǎng)絡(luò)結(jié)構(gòu)除了深度會(huì)帶來(lái)更多的特征信息,網(wǎng)絡(luò)的寬度也會(huì)。在GoogleLeNet中采用的inception模塊中,由四條并行路徑組成,旨在從不同的空間大小中提取信息[2]。這種多分支的結(jié)構(gòu)在SR上也得到了應(yīng)用[3-4],因此在本網(wǎng)絡(luò)中借助了拓展寬度獲取特征信息的思想,提出了多尺度模塊,如圖2所示:
圖2 多尺度混合注意力模塊圖
多尺度混合注意力模塊是構(gòu)成網(wǎng)絡(luò)的關(guān)鍵部分,以實(shí)現(xiàn)更強(qiáng)大的多尺度特征表達(dá)和特征相關(guān)性學(xué)習(xí)。為了改進(jìn)信息豐富的多尺度特征表示能力,設(shè)計(jì)了一個(gè)帶有注意機(jī)制的殘差多尺度模塊MSMAM,該模塊由卷積核、注意力機(jī)制和殘差連接組成,首先通過(guò)一個(gè)3×3的卷積核,接著分為一個(gè)并行網(wǎng)絡(luò),依次通過(guò)不同數(shù)量的3×3的卷積核,然后分別經(jīng)過(guò)通道注意力和空間注意力接著兩條網(wǎng)絡(luò)求和,最后經(jīng)過(guò)一個(gè)1×1的卷積核,并且運(yùn)用殘差連接用輸入卷積核與從1×1輸出的卷積進(jìn)行融合。
本網(wǎng)絡(luò)提出的融合網(wǎng)絡(luò)是通道注意力網(wǎng)絡(luò)與空間注意力網(wǎng)絡(luò)的結(jié)合,并把其放在多尺度特征提取中,有選擇性地提取出更有利于超分辨率重建的特征。
通道注意力的計(jì)算過(guò)程如圖3所示,首先模塊輸入一個(gè)H×W×C的一組特征圖,其中H指特征圖的高度,W指寬度,C指通道數(shù)。經(jīng)過(guò)全局和平均池化計(jì)算得到每個(gè)通道的均值,即1×1×C。之后通過(guò)1×1卷積操作將通道數(shù)量縮小一定的倍數(shù),接著經(jīng)過(guò)Relu函數(shù)進(jìn)行非線性化,然后再通過(guò)1×1卷積操作將通道數(shù)放大相同的倍數(shù)至原來(lái)的數(shù)量,接著再經(jīng)過(guò)一個(gè)Sigmoid激活函數(shù),即可得到每個(gè)通道的權(quán)重,即通道注意力。通過(guò)學(xué)習(xí)得到每個(gè)通道注意力參數(shù),再與輸入的特征圖相乘,得到選擇后化特征信息輸出。
圖3 通道注意力
空間注意力機(jī)制是一種在計(jì)算機(jī)視覺(jué)任務(wù)中應(yīng)用的注意力機(jī)制。它允許模型集中注意力在圖像的不同空間位置上,以便更好地處理圖像中的相關(guān)信息。其基本思想是對(duì)輸入圖像的空間內(nèi)容信息映射到另一個(gè)空間內(nèi)容上并保留通過(guò)計(jì)算選定的關(guān)鍵信息,對(duì)每個(gè)區(qū)域根據(jù)權(quán)重計(jì)算并輸出,從而確定圖像中比較重要區(qū)域的位置信息??臻g注意力機(jī)制形成的基本流程通常是通過(guò)降低輸入張量的通道維數(shù)來(lái)挖掘位置信息,然后利用卷積計(jì)算空間注意力從而使得目標(biāo)區(qū)域得以增強(qiáng)。
在服務(wù)器主機(jī)上搭建的實(shí)驗(yàn)環(huán)境,CPU為Intel(R)Xeon(R) Platinum 8375C CPU @ 2.90GHzPC,GPU為RTX 4090(24GB) * 1,配備了1.10.0版本的PyTorch,以及3.8版本的python,采用了ubuntu20.04操作系統(tǒng)。本實(shí)驗(yàn)采用數(shù)據(jù)集DIV2K[5]作為訓(xùn)練集,使用Set5作為驗(yàn)證集,基于驗(yàn)證集上的實(shí)驗(yàn)結(jié)果選取出最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu),并用最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu)來(lái)測(cè)試Set14、BSD100和Urban100數(shù)據(jù)集。在訓(xùn)練過(guò)程中,本實(shí)驗(yàn)將每1000次迭代作為一個(gè)epoch。每個(gè)epoch后在Set5數(shù)據(jù)集上進(jìn)行驗(yàn)證從而選出最好的模型。初始學(xué)習(xí)率被設(shè)置為1×10-4,并每隔300個(gè)epoch將其減半。為了優(yōu)化提出的網(wǎng)絡(luò),采用了Adam優(yōu)化器[6],相應(yīng)的超參數(shù)為β1=0.9,β2=0.999,∈=10-8。
為了驗(yàn)證本網(wǎng)絡(luò)的重建質(zhì)量,將與一些經(jīng)典的超分辨率重建領(lǐng)域的模型進(jìn)行比較,模型有:Bicubic、SRCNN、VDSR、ESCPN、LapSRN等。將模型在數(shù)據(jù)集Set5、Set14、BSD100和Urban100進(jìn)行測(cè)試,選取PSNR和SSIM為評(píng)價(jià)指標(biāo),在×3的放大因子下與設(shè)計(jì)的網(wǎng)絡(luò)模型進(jìn)行定量比較。
通過(guò)表1可以看出,通過(guò)在×3的放大因子以及4個(gè)不同的測(cè)試集測(cè)試實(shí)驗(yàn)下,相較于淺層網(wǎng)絡(luò)SRCNN,網(wǎng)絡(luò)較深的VDSR、LapSRN、DRRN都取得了更好的PSNR以及SSIM平均值,其中VDSR是單信息流的線性結(jié)構(gòu),Lap-SRN使用了金字塔結(jié)構(gòu)逐漸重建連接,DRR是使用遞歸鏈接的卷積層,這是三類(lèi)有代表的超分辨率重建模型。與設(shè)計(jì)的多尺度混合注意力機(jī)制相對(duì)比,都略低于它的PSNR以及SSIM平均值。
表1 不同模型在放大因子為3的PSNR和SSIM均值對(duì)比
為了體現(xiàn)重建圖片在視覺(jué)上的效果,將Bicubic、SRCNN、VDSR、LapSRN與提出的模型在set5和urban100數(shù)據(jù)集上分別選一張圖片來(lái)進(jìn)行重建效果對(duì)比,如圖4展示了×3放大尺度的視覺(jué)對(duì)比。對(duì)于Set5中的“baby”,提出的模型能以較少的模糊和噪聲還原眼部輪廓。對(duì)于urban100中的“img_069”,提出的模型可以以更少的模糊恢復(fù)出可信的邊緣。因此,提出的模型可以恢復(fù)出更精確的圖像細(xì)節(jié),圖像整體的清晰度更高,視覺(jué)效果上更進(jìn)一步。
圖4 不同超分辨率方法在Set5和BSDS100上的重建結(jié)果對(duì)比(重建倍數(shù)為3)
為了解決提取豐富特征的同時(shí)關(guān)注提取特征與重建特征的相關(guān)性問(wèn)題,提出了多尺度的混合注意力機(jī)制超分辨重建網(wǎng)絡(luò)。從多尺度特征提取、通道注意力機(jī)制、空間注意力等角度分析了模型的搭建,接著在一定的實(shí)驗(yàn)條件下進(jìn)行實(shí)驗(yàn)。通過(guò)從定量和定性的角度做對(duì)比實(shí)驗(yàn),把本模型與在超分辨率重建上經(jīng)典的模型相對(duì)比,實(shí)驗(yàn)結(jié)果表明,該模型在定量比較上優(yōu)于經(jīng)典模型,在客觀評(píng)價(jià)指標(biāo)PSNR/SSIM上取得了較高的數(shù)值;在定性比較上也取得了接近HR圖像的重建質(zhì)量,在視覺(jué)效果上相比于其他模型也具有良好的感知質(zhì)量。