劉錫澤,范 紅,海 涵,王鑫城,許武軍,倪 林
(東華大學(xué) 信息科學(xué)與技術(shù)學(xué)院,上海 201620)
單幅圖像超分辨率(SISR)重建是利用軟件算法將低分辨率(Low-Resolution,LR)圖像重建為更清晰的高分辨率(High-Resolution,HR)圖像,其被廣泛應(yīng)用于衛(wèi)星圖像、醫(yī)學(xué)影像、監(jiān)控等計(jì)算機(jī)視覺(jué)領(lǐng)域。
傳統(tǒng)的圖像超分辨率方法包括基于插值的方法、基于重建的方法[1-2]、基于傳統(tǒng)學(xué)習(xí)的方法[3-4]等。近年來(lái),研究者在SISR 中廣泛采用基于卷積神經(jīng)網(wǎng)絡(luò)的方法。DONG 等[5]提出圖像超分辨率網(wǎng)絡(luò)SRCNN,該網(wǎng)絡(luò)包含特征提取、非線(xiàn)性映射和重建3 個(gè)部分,且網(wǎng)絡(luò)經(jīng)過(guò)大量樣本訓(xùn)練,重建效果超過(guò)了傳統(tǒng)的圖像超分辨率方法。KIM 等[6]于2016 年提出VDSR 網(wǎng)絡(luò),該網(wǎng)絡(luò)將層數(shù)提升到了20 層并且受殘差網(wǎng)絡(luò)ResNet[7]的影響,設(shè)計(jì)全局殘差學(xué)習(xí)方法,在提升重建效果的同時(shí)加快網(wǎng)絡(luò)收斂。為減少模型參數(shù),TAI 等[8]提出一種深度遞歸殘差網(wǎng)絡(luò)DRRN,在減少參數(shù)量的同時(shí)進(jìn)一步提升了重建效果。
由于以上算法在重建之前都要經(jīng)過(guò)雙三次插值算法的預(yù)處理,而這種處理會(huì)丟失原圖像中的一部分高頻信息,同時(shí)提高了計(jì)算的復(fù)雜程度,因此研究者又提出了直接在原始LR 圖像上進(jìn)行卷積,最后上采樣到HR 圖像的算法。DONG 等[9]提出FSRCNN 網(wǎng)絡(luò)在圖像重建過(guò)程中采用反卷積層進(jìn)行上采樣操作。SHI 等[10]提出一種高效的亞像素卷積網(wǎng)絡(luò)ESPCN,相比反卷積層,該網(wǎng)絡(luò)的亞像素卷積算法降低了計(jì)算復(fù)雜度,避免產(chǎn)生由反卷積層帶來(lái)的棋盤(pán)格效應(yīng),提升了重建效果。
在上述網(wǎng)絡(luò)基礎(chǔ)上,一些研究者致力于增加網(wǎng)絡(luò)深度,提升網(wǎng)絡(luò)重建效果。如LIM 等[11]提出MDSR網(wǎng)絡(luò),堆疊了80個(gè)殘差模塊,層數(shù)達(dá)到了165 層。ZHANG 等[12]提出RCAN,堆疊了20 個(gè)有注意力機(jī)制的殘差模塊,層數(shù)達(dá)到了400 層以上。這類(lèi)模型重建效果較好,但模型結(jié)構(gòu)簡(jiǎn)單,參數(shù)利用效率低;體積過(guò)于龐大,運(yùn)算速度慢且不易部署。
為充分利用網(wǎng)絡(luò)中間層提取到的特征,促進(jìn)信息傳播,在殘差網(wǎng)絡(luò)基礎(chǔ)上,不同類(lèi)型的網(wǎng)絡(luò)結(jié)構(gòu)相繼被提出。TONG 等[13]提出SRDenseNet,將前一層的輸出廣播到其后面層的輸入中,從而促進(jìn)信息傳播,降低訓(xùn)練難度。TAI 等[14]提出MemNet,利用有門(mén)控機(jī)制的記憶模塊保留所需要的信息,具有較強(qiáng)的學(xué)習(xí)能力。ZHENG 等[15]提出IDN,其中的信息蒸餾單元采用切片方式將不同長(zhǎng)度路徑的信息進(jìn)行組合,輸入到下一層中,信息壓縮單元過(guò)濾出更有用的特征,提升模型的重建精度。
本文提出密集反饋?zhàn)⒁饬W(wǎng)絡(luò)(Dense Feedback Attention Network,DFAN)模型,以進(jìn)一步優(yōu)化超分辨率模型中各層之間的信息流和參數(shù)的利用效率。采用多尺度殘差注意力模塊(Multi-scale Residual Attention Block,MRAB)作為基本塊,通過(guò)膨脹卷積方式使卷積核具有不同大小的感受野,在保持參數(shù)較少的同時(shí)提取出更豐富的特征。由于MRAB 融合了通道與空間注意力機(jī)制,因此可使模型關(guān)注更有利于圖像重建的高頻信息。
SISR 目標(biāo)是由大小為H×W×C的低分辨率圖像ILR預(yù)測(cè)出對(duì)應(yīng)大小為rH×rW×rC的高分辨率圖像ISR,其中r為放大倍數(shù)。基于深度學(xué)習(xí)的圖像超分辨率方法利用大量訓(xùn)練樣本訓(xùn)練模型參數(shù)θ,最終得到一個(gè)映射函數(shù)ISR=f(ILR,θ),使模型預(yù)測(cè)的圖像ISR最接近真實(shí)的高分辨率圖像IHR。
DFAN 整體架構(gòu)如圖1 所示。特征提取網(wǎng)絡(luò)中,LR 圖像首先通過(guò)含ReLu 激活函數(shù)的3×3 卷積核提取淺層特征,再通過(guò)數(shù)個(gè)堆疊的特征融合(Feature Fusion,F(xiàn)F)模塊與MRAB-Group 提取圖像的高層次特征。此過(guò)程如式(1)、式(2)所示:
圖1 DFAN 整體架構(gòu)Fig.1 The overall architecture of DFAN
其中:F0為第一個(gè)卷積層輸出;Fi為第i個(gè)MRAB-Group輸出;C0為對(duì)LR 圖像的卷積操作;CMRAB?Group(i)為第i個(gè)MRAB-Group的特征提取函數(shù);CFF(i)為第i個(gè)FF模塊的特征融合函數(shù);σ為ReLu激活函數(shù);w0為第一個(gè)卷積層的權(quán)值,省略偏置項(xiàng)。
在圖像通過(guò)特征提取網(wǎng)絡(luò)后,第一個(gè)卷積層輸出與每個(gè)MRAB-Group 輸出進(jìn)行合并,通過(guò)全局特征融合(Global Feature Fusion,GFF)模塊進(jìn)行特征融合降維,如式(3)所示:
其 中:FGFF為GFF 模塊輸 出;CGFF為全局特征 融合函數(shù);[]為特征圖的串聯(lián)操作。
在圖像重建階段,本文采用ESPCN[10]算法進(jìn)行重建網(wǎng)絡(luò)。第一個(gè)卷積層的輸出通道數(shù)為64r2,Pixel-Shuffle層將特征圖像素重新排列,特征圖的寬度和高度尺寸放大到目標(biāo)倍數(shù)r,輸出通道數(shù)為64;最后一個(gè)卷積層輸出重建后的高分辨率圖像,由于重建是在RGB格式的圖像上進(jìn)行,因此輸出通道數(shù)為3。重建過(guò)程如式(4)所示:
其中:CUP為圖像的上采樣函數(shù);wup1和wup2分別為重建網(wǎng)絡(luò)中兩個(gè)卷積層的權(quán)值;CPS為亞像素卷積操作。
本文提出一種含注意力機(jī)制的多尺度殘差模塊(MRAB)作為DFAN模型的基本塊,MRAB結(jié)構(gòu)如圖2所示。
圖2 MRAB 結(jié)構(gòu)Fig.2 The structure of MRAB
在MRAB模塊中,特征圖首先通過(guò)含ReLu激活函數(shù)的32個(gè)通道,1×1大小的卷積層進(jìn)行降維,降低網(wǎng)絡(luò)的計(jì)算復(fù)雜度并增加網(wǎng)絡(luò)的非線(xiàn)性;其次分別通過(guò)膨脹因子為1、2、3的膨脹卷積層提取不同尺度的特征,其中膨脹因子為1的卷積層相當(dāng)于一個(gè)普通的3×3卷積層。膨脹卷積層在不增加網(wǎng)絡(luò)參數(shù)與計(jì)算復(fù)雜度的情況下,使每個(gè)MRAB模塊具有不同大小的感受野,捕獲到不同尺度的空間信息,從而提升模型提取到有效信息的概率。
3 種不同尺度的特征圖分別經(jīng)過(guò)卷積模塊注意力模塊(Convolutional Block Attention Module,CBAM),提取出對(duì)圖像重建更有利的高頻信息進(jìn)行特征圖的串聯(lián)與降維。與輸入特征圖求和,形成殘差結(jié)構(gòu),作為MRAB的最終輸出。特征圖經(jīng)過(guò)MRAB的過(guò)程如式(5)、式(6)所示:
RCAN[12]網(wǎng)絡(luò)將通道注意力機(jī)制[16]引入殘差模塊,在SISR 領(lǐng)域取得了顯著的性能。CBAM 結(jié)合空間注意力與通道注意力機(jī)制,在ImageNet-1K 數(shù)據(jù)集上的分類(lèi)問(wèn)題中提高了性能的穩(wěn)定性,而且計(jì)算復(fù)雜度非常低。本文在MRAB 每個(gè)通道的膨脹卷積層后增加了CBAM,使模塊在不同尺度的特征圖下關(guān)注更有利于重建的邊緣、紋理等高頻信息,并在一定程度上利用卷積核局部感受野外其他上下文信息。本文CBAM 由空間注意力模塊(Spatial Attention Block,SAB)與通道注意力模塊(Channel Attention Block,CAB)組合而成,CBAM 的結(jié)構(gòu)如圖3 所示。SAB 的結(jié)構(gòu)如圖4 所示。
圖3 CBAM 結(jié)構(gòu)Fig.3 The structure of CBAM
圖4 SAB 結(jié)構(gòu)Fig.4 The structure of SAB
從圖4 可以看出,SAB 的特征圖首先在H與W方向上進(jìn)行二維最大池化和平均池化,再將特征圖串聯(lián)并經(jīng)過(guò)帶有ReLu 激活函數(shù)的7×7 大小卷積核自適應(yīng)地學(xué)習(xí)每個(gè)空間位置的權(quán)重,最后經(jīng)過(guò)Sigmoid 函數(shù)將權(quán)重值壓縮到[?1,1]區(qū)間中,如式(7)所示:
其 中:F為CBAM 的輸入特征;F'為SAB 的輸出;φ為Sigmoid 激活函數(shù);CMAP與CMEP分別為最大池化與平均池化操作。
CAB 結(jié)構(gòu)如圖5 所示。特征圖首先按通道方向進(jìn)行最大池化與平均池化,得到1×1×C大小的特征圖;其次分別用1×1 卷積核進(jìn)行特征圖收縮與擴(kuò)張操作,收縮率為s,本文取16;最后將計(jì)算得到的特征圖通過(guò)Sigmoid 函數(shù)并相加,獲得通道注意力特征圖。
圖5 CAB 結(jié)構(gòu)Fig.5 The structure of CAB
CAB 輸出過(guò)程如式(8)所示:
其中:F″為CAB 輸出;CMAP-C與CMEP-C分別為按特征圖通道方向進(jìn)行的最大池化與平均池化操作。
SAB 輸出與CAB 輸出相乘得到空間-通道注意力特征圖,用特征圖對(duì)CBAM 輸入特征進(jìn)行加權(quán),即可得到最終的輸出特征。CBAM模塊最終輸出如式(9)所示:
受CliqueNet[17]啟 發(fā),本文將4 個(gè)MRAB 組 成MRAB-Group,MRAB 采用密集反饋連接方式,具體結(jié)構(gòu)如圖6 所示。
圖6 MRAB-Group 結(jié)構(gòu)Fig.6 The structure of MRAB-Group
在SRDenseNet[13]中,卷積層采用密集連接方式,即每個(gè)卷積層輸出都是其后面所有卷積層的輸入,而在密集反饋網(wǎng)絡(luò)結(jié)構(gòu)中,每個(gè)MRAB 輸出都是其他所有MRAB 的輸入。在階段1 中,連接方式與密集連接相同,所有已更新模塊的輸出特征圖被連接起來(lái),經(jīng)過(guò)1×1 卷積融合后,作為下一個(gè)將要更新模塊的輸入。階段1 第i個(gè)MRAB 輸出如式(10)所示:
在階段2 中,除將要更新的MRAB 之外,其他所有MRAB 的輸出特征圖被連接起來(lái),經(jīng)FF 層降維后作為即將更新的MRAB 輸入,如式(11)~式(13)所示:
本文使用DIV2K[18]數(shù)據(jù)集的800 張訓(xùn)練圖片作為訓(xùn)練數(shù)據(jù)集。DIV2K 是一個(gè)2K 分辨率的高清數(shù)據(jù)集,含有豐富的內(nèi)容,近年來(lái)在圖像超分辨率網(wǎng)絡(luò)的訓(xùn)練中被廣泛采用,另外,在DIV2K 的100 張驗(yàn)證圖片中選擇10 張圖片作為驗(yàn)證數(shù)據(jù)集。本文使用Set5[19]、Set14[20]、BSD100[21]與Urban100[22]在圖像超分辨率領(lǐng)域中通用的基準(zhǔn)數(shù)據(jù)集作為測(cè)試數(shù)據(jù)集,其 中Set5、Set14 與BSD100 主要包括景觀(guān)、動(dòng)植物圖像,Urban100 主要包括真實(shí)的城市景像,并在放大3 倍與4 倍時(shí)對(duì)測(cè)試集做了大量的實(shí)驗(yàn)和評(píng)估。
在網(wǎng)絡(luò)中如無(wú)特殊說(shuō)明,各卷積層的通道數(shù)均設(shè)置為64,MRAB-Group 的個(gè)數(shù)設(shè)置為3。在訓(xùn)練前,先使用雙三次插值算法降低訓(xùn)練圖像分辨率,再使用Matlab 中自帶的randsample 函數(shù)將訓(xùn)練圖像隨機(jī)裁剪分辨率為48 像素×48 像素的圖像。為提高模型的泛化能力,本文使用以下方式對(duì)訓(xùn)練圖片進(jìn)行數(shù)據(jù)增強(qiáng):順時(shí)針旋轉(zhuǎn)90°、旋轉(zhuǎn)180°、順時(shí)針旋轉(zhuǎn)270°、水平翻轉(zhuǎn)。最終的訓(xùn)練數(shù)據(jù)集中含有約15 萬(wàn)張分辨率為48 像素×48 像素的圖像作為模型輸入。本文使用平均絕對(duì)誤差(Mean Absolute Error,MAE)作為模型的損失函數(shù)。模型使用Adam[23]優(yōu)化器,初始學(xué)習(xí)率設(shè)置為0.000 2,優(yōu)化器的初始參數(shù)設(shè)置為:β1=0.9,β2=0.999,ε=10-8。
本文實(shí)驗(yàn)環(huán)境如下:Windows10 操作系統(tǒng),Tensorflow 2.1.0 深度學(xué)習(xí)框架,結(jié)合并行計(jì)算框架CUDA10.1 對(duì)實(shí)驗(yàn)進(jìn)行加速。實(shí)驗(yàn)采用的硬件設(shè)備為:運(yùn)行內(nèi)存為12 GB 的Intel?CoreTMi5-8500CPU@3.00 GHz 處理器,顯存為12 GB 的NVIDIA TITAN Xp顯卡。模型訓(xùn)練時(shí),設(shè)置每次迭代的批大小為16,總共迭代350 000 次,每迭代10 000 次將學(xué)習(xí)率調(diào)整為原來(lái)的1/2。
2.3.1 實(shí)驗(yàn)分析
首先研究MRAB中的注意力機(jī)制和MRAB-Group中的反饋階段對(duì)最終實(shí)驗(yàn)結(jié)果的影響。在迭代200 000 次時(shí)模型接近于收斂,所以為方便實(shí)驗(yàn),消融研究的實(shí)驗(yàn)結(jié)果均為各模型迭代200 000 次時(shí)的重建效果。在模型M2 中,去除MRAB 中的CBAM;在模型M3 中,去除了MRAB-Group 中的階段2,使MRAB 的連接方式相當(dāng)于SRDenseNet[13]中的密集連接方式;在模型M1 中,同時(shí)去除CBAM 與階段2;模型M4 的結(jié)構(gòu)與原模型保持一致。在驗(yàn)證數(shù)據(jù)集上M2、M3、M4 模型的峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)的對(duì)比如圖7 所示。
圖7 在驗(yàn)證數(shù)據(jù)集上M2、M3、M4 模型的峰值信噪比對(duì)比Fig.7 Peak signal-to-noise ratio comparison between M2,M3,M4 models on the validation data set
在Set5 數(shù)據(jù)集上不同模型參數(shù)量的重建結(jié)果如表1 所示(放大倍數(shù)為3)。從表1 可以看出,相比M1模型,M2 模型的參數(shù)量增加了約161×103,M3 模型的參數(shù)量約16×103,在Set5 數(shù)據(jù)集上M4 模型的測(cè)試結(jié)果增加了0.17 dB。在模型中引入反饋階段和CBAM,不會(huì)使模型的參數(shù)有大量增長(zhǎng),但能明顯提升模型的重建效果。
表1 在Set5 數(shù)據(jù)集上不同模型的重建結(jié)果Table 1 The reconstruction results among different models on Set5 data set
為分析MRAB-Group 中不同階段提取特征對(duì)重建結(jié)果的影響,本文在不同數(shù)據(jù)集上采用4 種版本的DFAN 模型進(jìn)行測(cè)試,具體結(jié)果如表2 所示(放大倍數(shù)為3)。
表2 在不同數(shù)據(jù)集上4 種版本的DFAN 重建結(jié)果對(duì)比Table 2 The reconstruction results comparison among four versions of DFAN on different data sets
從表2 可以看出,輸入到FF 代表MRAB-Group 經(jīng)FF層輸入到下一個(gè)MRAB-Group的特征圖;輸入到GFF代表MRAB-Group 輸入到GFF 層用于最后圖像重建的特征圖。DFAN(2+2)的重建結(jié)果最好,說(shuō)明階段2 比階段1 提取的特征更豐富,更有利于圖像重建,本文采用DFAN(2+2)作為最終的模型結(jié)構(gòu)。
為進(jìn)一步探索反饋階段功能,本文將模型中4 組MRAB-Group 階段1 和階段2 的平均輸出特征圖進(jìn)行可視化,特征圖可視化結(jié)果如圖8 所示(彩色效果見(jiàn)《計(jì)算機(jī)工程》官網(wǎng)HTML 版)。
圖8 特征圖可視化結(jié)果Fig.8 Visualization results of feature map
從圖8 可以看出,相比階段1,階段2 在平滑區(qū)域的特征圖像素值降低,但在邊緣區(qū)域的像素值增加,并且階段2 的特征圖明顯比階段1 更加細(xì)致,激活了更多高頻特征。因此,引入反饋階段使模型恢復(fù)出圖像更多的高頻紋理細(xì)節(jié)。
2.3.2 PSNR 與結(jié)構(gòu)相似性的對(duì)比
在放大倍數(shù)分別為3 和4 的情況下,以PSNR 和結(jié)構(gòu)相似性(Structure Similarity Index,SSIM)為評(píng)估指標(biāo),其他模型均采用原作者的公開(kāi)代碼。在各測(cè)試集上不同模型的平均PSNR 與SSIM 值對(duì)比如表3 所示(不同的放大倍數(shù))。從表3 可以看出,DFAN 模型具有優(yōu)異的重建效果。在放大倍數(shù)為4時(shí),圖像重建難度大,DFAN 模型除了在Set5 數(shù)據(jù)集上的SSIM 值略低于IDN 模型,在其他數(shù)據(jù)集上的PSNR 和SSIM 均取得了最好的結(jié)果。在4 個(gè)數(shù)據(jù)集上DFAN 模型的平均PSNR 值比VDSR 模型提高了約0.35 dB,比IDN 模型提高了約0.1 dB。
表3 在各測(cè)試集上不同模型的平均PSNR 與SSIM 值Table 3 Average PSNR and SSIM between different models on each testsets
2.3.3 重建結(jié)果對(duì)比
在所有測(cè)試集中,Urban100 數(shù)據(jù)集包含豐富的紋理和不同尺度空間的重復(fù)圖案,重建難度較大,但更便于對(duì)比。當(dāng)放大倍數(shù)為4時(shí),Urban100數(shù)據(jù)集中img_061圖像上不同模型的重建效果如圖9 所示。當(dāng)放大倍數(shù)為4 時(shí),在Urban100 數(shù)據(jù)集中img_034 圖像上不同模型的重建效果如圖10 所示。當(dāng)放大倍數(shù)為4 時(shí),在Urban100 數(shù)據(jù)集中img_047 圖像上不同模型的重建效果如圖11 所示。本文采用Urban100 數(shù)據(jù)集中3 張圖像進(jìn)行模型的主觀(guān)視覺(jué)評(píng)價(jià)。從圖9~圖11 可以看出,DFAN 模型重構(gòu)出的圖像更清晰,包含了更多圖像的邊緣和紋理細(xì)節(jié)。因此,DFAN 模型無(wú)論是主觀(guān)視覺(jué)效果還是客觀(guān)評(píng)價(jià)指標(biāo)上,都超越了其他基于深度學(xué)習(xí)的圖像超分辨重建算法。
圖9 在Urban100 數(shù)據(jù)集中img_061 圖像上不同模型的重建效果對(duì)比Fig.9 Reconstructed effects comparison among different models on img_061 image in Urban100 data set
圖10 在Urban100 數(shù)據(jù)集中img_034 圖像上不同模型的重建效果對(duì)比Fig.10 Reconstructed effects comparison among different models on img_034 image in Urban100 data set
圖11 在Urban100 數(shù)據(jù)集img_047 圖像上不同模型重建效果對(duì)比Fig.11 Reconstructed effects comparison among different models on img_047 image in Urban100 data set
2.3.4 運(yùn)算復(fù)雜度對(duì)比
為進(jìn)一步對(duì)比DFAN 模型與其他模型的參數(shù)量與運(yùn)算復(fù)雜度。在放大倍數(shù)為4 時(shí),在Set14 數(shù)據(jù)集上不同模型的參數(shù)量與PSNR 對(duì)比如圖12 所示。DFAN 模型具有最高的PSNR 值,參數(shù)量是一個(gè)輕量級(jí)的模型,約1.2×106,可以輕易部署在移動(dòng)端等對(duì)模型大小要求較為嚴(yán)格的服務(wù)端。
圖12 在Set14 數(shù)據(jù)集上不同模型的PSNR 與參數(shù)量對(duì)比Fig.12 PSNR and parameters comparison among different models on Set14 data set
在分析模型的運(yùn)算復(fù)雜度時(shí),假設(shè)模型在放大倍數(shù)為4 的情況下恢復(fù)出尺寸為1 280 像素×720 像素的高分辨率圖像,對(duì)比結(jié)果如圖13 所示。DFAN 模型的運(yùn)算復(fù)雜度約為VDSR 模型的0.18 倍,DRRN 模型的0.016 倍。因此,DFAN 模型不僅是易部署的輕量級(jí)模型,在計(jì)算效率方面相比其他模型更有優(yōu)勢(shì)。
圖13 在Set14 數(shù)據(jù)集上不同模型的PSNR 與運(yùn)算復(fù)雜度對(duì)比Fig.13 PSNR and computational complexity comparison among different models on Set14 data set
本文提出一種包含注意力機(jī)制的輕量級(jí)密集反饋網(wǎng)絡(luò)(DFAN)模型,將高層次卷積核提取的高頻信息反饋給低層次卷積核。MRAB 作為模型的基本塊,融合了空間注意力機(jī)制和通道注意力機(jī)制,能夠篩選出更有利于重建的特征。實(shí)驗(yàn)結(jié)果表明,相比VDSR、DRRN、MemNet 等模型,DFAN 模型能提高參數(shù)的利用效率,重建效果更優(yōu)。后續(xù)將對(duì)DFAN 模型結(jié)構(gòu)的有效性以及更深層次的圖像超分辨率網(wǎng)絡(luò)進(jìn)行研究,進(jìn)一步提升重建效果。