程德強 袁 航 錢建生 寇旗旗 江 鶴*
①(中國礦業(yè)大學(xué)信息與控制工程學(xué)院 徐州 221116)
②(中國礦業(yè)大學(xué)計算機科學(xué)與技術(shù)學(xué)院 徐州 221116)
高分辨率圖像在智能監(jiān)控[1]、醫(yī)學(xué)成像[2]和目標(biāo)跟蹤[3]等領(lǐng)域十分重要。然而,獲得圖像的硬件設(shè)備存在局限且成本高昂[4]。相較之下,基于信號處理的超分辨率重建算法更加靈活,成本更低。
圖像超分辨率(Super-Resolution, SR)重建有3類方法,即插值法[5]、重建法[6]和學(xué)習(xí)法[7-10]。近年來,深度學(xué)習(xí)在計算機視覺中逐漸占據(jù)重要地位,Dong等人[11]提出了基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)SRCNN (Super-Resolution Convolutional Neural Network),并基于此實現(xiàn)了SR重建。Shi等人[12]提出了ESPCN (Efficient Sub-pixel Convolutional Neural Network),首次用亞像素卷積來實現(xiàn)了SR重建。Lim等人[13]提出EDSR (Enhanced Deep residual networks for single image Super-Resolution),將不適合SR重建的批歸一化層移除,極大減少了網(wǎng)絡(luò)參數(shù)量,同時提升了重建性能。Li等人[14]提出MSRN (Multi-Scale Residual Network),在網(wǎng)絡(luò)中充分地融合全局和局部特征,避免了特征消失。Hui等人[15]提出IMDN (Information Multi-distillation Network),使用了自適應(yīng)裁剪方法。Cheng等人[16]在此基礎(chǔ)上提出遞歸交叉的方式學(xué)習(xí)特征,取得了更好的效果。He等人[17]受到常微分方程啟發(fā),組成了網(wǎng)絡(luò)OISR-RK2 (ODEInspired network design for single image Super-Resolution)來實現(xiàn)SR重建。Li等人[18]在DID(a nested Dense In Dense structure)中提出用嵌套密集結(jié)構(gòu)來融合特征信息。Gao等人[19]混合卷積神經(jīng)網(wǎng)絡(luò)和Transformer,提出了輕量級的高效網(wǎng)絡(luò)LBNet (Lightweight Bimodal Network)?;赥ransformer結(jié)構(gòu),Choi等人[20]利用滑動窗口擴大感受野,使網(wǎng)絡(luò)能夠更好地恢復(fù)退化像素。
雖然以上算法有著較好的重建性能,但仍然存在以下問題:(1) 部分網(wǎng)絡(luò)通過加深網(wǎng)絡(luò)深度來提升性能,但同時會帶來更大的參數(shù)量,增加網(wǎng)絡(luò)的訓(xùn)練難度;(2) 網(wǎng)絡(luò)的感受野較小,使其不能充分捕獲特征來擬合潛在退化模型,進而造成上下文信息的損失;(3) 傳統(tǒng)網(wǎng)絡(luò)往往是深層特征的堆疊,忽略了深層特征的差異性,容易造成信息冗余。
為了解決以上提出的這些問題,本研究提出了深層特征差異性網(wǎng)絡(luò)(DFDN),創(chuàng)新點具體如下:
(1)提出相互投影融合模塊MPFB(Mutual-Projected Fusion Block),利用交替上下采樣對不同深度的差異性信息進行捕獲和融合。
(2)受增強空間注意力ESA (Enhanced Spatial Attention)的啟發(fā),本研究提出了性能更好的注意力機制,它可以充分學(xué)習(xí)特征的差異性信息。
(3)本研究提出了一種深層特征差異性網(wǎng)絡(luò)用于實現(xiàn)SR任務(wù),不僅在量化指標(biāo)上取得了最優(yōu)的成績,同時在主觀視覺方面表現(xiàn)優(yōu)異。
淺層特征提取使用兩個卷積核為3的卷積層,對輸入圖像進行初步的特征提取。對于深層特征提取模塊,本研究選擇嵌入3個殘差特征融合模塊(Residual Feature Fusion Block, RFFB),并采用遞歸方式連接,以實現(xiàn)特征的多層提取。重建模塊采用的是Shi等人提出的亞像素卷積上采樣。圖1描述了本研究提出的網(wǎng)絡(luò)結(jié)構(gòu),其中藍色虛線框?qū)⒕W(wǎng)絡(luò)分為3個部分,分別對應(yīng)淺層特征提取、深層特征提取和圖像重建3個過程。
圖1 整體網(wǎng)絡(luò)結(jié)構(gòu)圖
本研究使用卷積層來對輸入圖像進行淺層特征提取 3×3,如圖1所示,該過程可以表示為
在式(1)中,ILR代表輸入的低分辨率圖像,conv3是卷積核大小為3×3的卷積層,B0表示淺層特征。
深層特征提取模塊由3個RFFB組成,以遞歸方式連接,這個過程可以用式(2)、式(3)描述。
其中,Hn為第n個RFFB模塊,b0為經(jīng)過卷積層轉(zhuǎn)換通道數(shù)后的輸出,B1為輸出的深層特征。
MPFB的結(jié)構(gòu)圖如圖2所示,在MPFB中,首先對輸入的特征進行特征提取并輸出不同深度的特征圖,為了集中于更多的信息特征,本研究首先計算第1層和第2層特征圖之間的差異性信息O1,然后,對差異性信息O1進行像素掩碼,該過程使用卷積核為1×1的卷積層,并與第2層特征圖進行特征相加獲得新的特征圖O2,如式(4)和式(5)所示。
圖2 相互投影融合模塊結(jié)構(gòu)圖
式(5)中 c onv1為 1×1的卷積核。接著,對特征圖O2和第3層特征圖分別進行上采樣,獲得兩者之間的差異性信息O3,將差異性信息O3降采樣,與特征圖O2進行特征相加,并通過一個卷積核為1×1的卷積層降維,最終得到MPFB融合了3層特征之后的特征圖,如式(6)、式(7)所示。其中Hu為亞像素卷積上采樣,Hd為步幅卷積實現(xiàn)的下采樣,步幅為2,O4為一個MPFB模塊的輸出。
差異性信息表示在一個特征中存在,而在另一個特征中不存在的信息。差異性信息之間的投影使得網(wǎng)絡(luò)繞過共有信息,去更多地關(guān)注信息的不同,從而提高了判別能力。本研究提出的網(wǎng)絡(luò)結(jié)構(gòu)借鑒了DBPN (Deep Back-Projection Network)[21]的反投影思路,確保在融合不同特征的同時,進行差異性信息的學(xué)習(xí)。在圖2中可以看到,輸入特征會經(jīng)過3層遞歸殘差網(wǎng)絡(luò)RRB (Recursive Residual Network)的特征提取,其結(jié)構(gòu)如圖2(b)所示。RRB由殘差塊和卷積層組成,本研究采用了Lim等人提出的簡化殘差塊RB (Residual Block),如圖2(c)所示。
受到ESA(Enhanced Spatial Attention)[22]的啟發(fā),本文提出了差異性空間注意力模塊DSA (Differentiated Spatial Attention),如圖3所示,該注意力模塊被放置在MPFB的末端,盡可能地讓網(wǎng)絡(luò)感興趣的區(qū)域中集中更多具有代表性的特征,同時也能夠?qū)μ卣鞑町愋赃M行學(xué)習(xí)。
圖3 DSA模塊
在設(shè)計注意力模塊時,有幾個因素必須被考慮。首先,注意力模塊必須有較小的參數(shù)量,因為它將被多次用在網(wǎng)絡(luò)中。其次,該模塊還需具有足夠大的感受野來學(xué)習(xí)特征[23]。本研究設(shè)計的注意力模塊用1×1的卷積層來減小信道尺寸,從而實現(xiàn)輕量級的設(shè)計。然后,為了保證感受野足夠大,本研究使用步幅為3的最大池化層。與此同時,本研究注意到ESA中缺少對差異性信息之間的學(xué)習(xí),因此,分別在步幅卷積和最大池化后面加入上采樣層和Conv Groups,在恢復(fù)空間維度的基礎(chǔ)上學(xué)習(xí)兩個分支間的差異性信息。Conv Groups的結(jié)構(gòu)圖如圖3(b)所示,它由卷積層和激活層組成。上采樣模塊采用的是雙線性插值法,下采樣模塊則是利用步幅為2的步幅卷積來實現(xiàn)。除此之外,本研究還使用跳躍連接將空間維度縮減之前的高分辨率特征直接傳遞到注意力模塊的末端,與剛剛學(xué)習(xí)到的殘差特征融合。
本研究選用亞像素卷積作為網(wǎng)絡(luò)的重建方法,如圖4所示,其中Shuffle為像素操作。
圖4 亞像素卷積
相比于流行的SR網(wǎng)絡(luò)中的重建模塊,本研究還添加了一條重建支路,該重建支路使用卷積核為5×5的卷積層和一個亞像素卷積層,直接從輸入圖像中提取粗尺度的特征并進行重建,過程用式(8)、式(9)表示。在公式中: conv5代表卷積核為5×5的卷積層。最后,對兩者相加之后的特征圖進行重建,將特征圖的通道數(shù)轉(zhuǎn)化為3,如式(10)所示。
實驗采用Ubuntu18.04平臺,代碼框架為Pytorch1.7,處理器為Intel(R) Core? i7-7800X CPU @2.5 GHzx12,內(nèi)存為32 GB,顯卡為GTX1080Ti,顯存為11 GB, cuda版本為8.0。訓(xùn)練過程中,采用DIV2K數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)集。初始學(xué)習(xí)率為0.000 1,每訓(xùn)練200輪學(xué)習(xí)率降為之前的一半,損失函數(shù)為L1, 優(yōu)化器使用Adam,其參數(shù)為β1=0.9:ε=10-8,β1=0.9,β2=0.999。
本研究選擇SR任務(wù)中通用的峰值信噪比(PSNR)和結(jié)構(gòu)相似性(SSIM)作為重建性能的評價指標(biāo)。PSNR衡量了像素域之間的差異,它的單位為dB,PSNR數(shù)值越大,證明方法越優(yōu)。考慮到評價的全面性,本研究還選用了SSIM作為另一個評價指標(biāo),它的數(shù)值越接近1,表示重建出來的圖像與原圖像越相似。
為了驗證MPFB和注意力模塊的有效性,本研究分別將MPFB和注意力模塊去除,以Urban100[24]作為測試數(shù)據(jù)集,進行消融研究。
從表1的數(shù)據(jù)可以看出,若移除本研究提出的MPFB和注意力模塊,PSNR分別降低了0.14 dB和0.11 dB, SSIM分別降低0.001 3和0.000 9,這證明了MPFB和注意力模塊能夠有效地提升模型性能,改善重建效果。
表1 MPFB模塊和DSA模塊對模型性能的影響
本研究將提出的模型DFDN與SRCNN[11], VDSR[25], CARN[26], MSRN[14], IMDN[15], OISRRK2[17], LatticeNet[27], DID-D5[18], LBNet[19], NGswin[20], SwinIR-light[28]等多種SR算法比較,并測試PSNR和SSIM的值。為了比較的公平性,本研究修改了DID網(wǎng)絡(luò)中密集塊的卷積數(shù),將參數(shù)量調(diào)整到與DFDN相似的大小,并命名為DID-D5。
表2展示了10種算法在數(shù)據(jù)集Set5[29], Set14[30],BSD100[31]和Urban100[24]上3種不同縮放因子的情況下測試的結(jié)果。圖5-圖6為不同算法重建出的圖像對比圖,本研究從Set14和Urban100數(shù)據(jù)集中選取了3張圖片,對比不同模型的重建效果。從對比圖中看出, DFDN相比于其它算法,能夠重建出紋理更加清晰的圖像。
表2 縮放因子為2、3、4時在基準(zhǔn)數(shù)據(jù)集下的指標(biāo)對比
圖5 Set14中barbara重建結(jié)果
圖6 Urban100中Img075重建結(jié)果
圖7 Urban100中Img092的重建結(jié)果
將MPFB的數(shù)量記為M,將每個模型訓(xùn)練400輪,以Urban100數(shù)據(jù)集為測試集,其中在計算重建時間時假設(shè)SR尺寸為1920×960。
從表3中的測試結(jié)果可以看出,當(dāng)MPFB數(shù)量從2增加到3時,參數(shù)量增加了1.61 M,而PSNR值僅提高了0.15 dB, SSIM也僅提高了0.001??紤]到在模型參數(shù)量提升的同時,網(wǎng)絡(luò)訓(xùn)練的難度也會加大,本研究最終選擇M=2的模型。
表3 不同MPFB數(shù)量對網(wǎng)絡(luò)性能的影響
為了驗證提出的注意力模塊DSA相較于ESA擁有更好的性能,本研究進行了消融實驗。從表4中可以清晰地看出,本研究模型在Set5, BSD100,Urban100等3個數(shù)據(jù)集上的重建結(jié)果均優(yōu)于使用ESA的模型,且在Set14數(shù)據(jù)集上差距微小,證明DSA能夠更好地對完成圖像重建任務(wù)。
表4 不同注意力模塊對網(wǎng)絡(luò)性能的影響
為了驗證通道數(shù)對網(wǎng)絡(luò)性能的影響,將不同通道數(shù)下的數(shù)據(jù)進行對比,使用的測試集為Set5,對比結(jié)果如表5所示。當(dāng)通道數(shù)為64時,相比于本模型,模型性能略微提升,但參數(shù)量卻大幅增加了83.99%,重建時間也增加了34.10%。
表5 通道數(shù)對網(wǎng)絡(luò)性能的影響
本研究進一步分析MPFB中特征提取殘差塊數(shù)量Res對模型性能的影響。將殘差塊的數(shù)量分別設(shè)置為2, 4, 6,對其在Set5數(shù)據(jù)集上的重建結(jié)果進行對比,表6為對比結(jié)果。實驗結(jié)果表明,增加模型殘差塊數(shù)量,對PSNR和SSIM值都有部分提升,然而過多的殘差塊卻帶來了參數(shù)量和重建時間的增長,以及梯度消失的隱患,綜合考慮以上因素,本研究將殘差塊數(shù)量置為4。
表6 不同殘差塊數(shù)量對網(wǎng)絡(luò)性能的影響
本研究將RFFB的數(shù)量記為D,為提高訓(xùn)練速度,設(shè)第一個RFFB的通道數(shù)為16,其余皆為32,
測試集為Urban100,結(jié)果如表7所示??梢詮谋碇星逦乜闯?,每增加一個RFFB模塊都會帶來參數(shù)量的大幅度提升。綜合考慮重建速度和性能指標(biāo),本研究最終確定RFFB的數(shù)量為3。
表7 不同RFFB數(shù)量對網(wǎng)絡(luò)性能的影響
相比于CNN,研究者們嘗試用Transformer來實現(xiàn)圖像超分辨率重建任務(wù),如SwinIR、NGswin等,將本研究算法與其在參數(shù)量和性能指標(biāo)兩方面進行對比,如表8所示,測試集為4倍Urban100。
表8 與基于Transformer算法的對比
相比于參數(shù)量為11.8M的SwinIR, DFDN在參數(shù)量減少67.29%的情況下,指標(biāo)僅降低了0.49%,而相比于SwinIR-light、LBNet等參數(shù)量較少的網(wǎng)絡(luò),DFDN通過犧牲小部分參數(shù)量,換來了指標(biāo)的大幅度提升,達到了參數(shù)量與指標(biāo)之間的平衡。
為了驗證DFDN在學(xué)習(xí)圖像高頻細節(jié)方面的能力,本研究設(shè)計了對比實驗,使用均方誤差MSE(Mean Square Error)作為度量標(biāo)準(zhǔn)。MSE值越大,說明該圖像塊的重建結(jié)果與真實結(jié)果之間的差距越大,即模型的性能越差。
具體而言,實驗通過計算重建圖像和真實圖像Y通道分量的MSE值來評估模型性能,如式(12)所示。其中,ISR和IHR分別為重建圖像和輸入圖像的Y通道分量,H和W為圖像塊的高和寬。
圖8-圖10展示了本研究提出的模型與先進的Transformer模型在恢復(fù)細節(jié)信息方面的對比。可以觀察到,在紋理特別復(fù)雜的區(qū)域(如頭發(fā)、草地、云朵),DFDN具有最小的MSE值。這進一步證明了DFDN在不規(guī)則紋理細節(jié)上能夠充分關(guān)注到圖像的高頻細節(jié)信息。
圖8 Set5中head的差異圖
圖9 B100中291 000的差異圖
圖10 Urban100中Img027的差異圖
本文提出了一種深層特征差異性重建網(wǎng)絡(luò),該模型通過構(gòu)建特征融合模塊、差異性空間注意力模塊解決了現(xiàn)有網(wǎng)絡(luò)不能夠充分學(xué)習(xí)圖像特征差異性的問題。該模型核心模塊由6個相互投影融合模塊和3個差異性空間注意力模塊構(gòu)成。相互投影融合模塊將提取到的差異性信息充分融合學(xué)習(xí),從而有效地關(guān)注圖像細節(jié)。通過在多個公開測試集上的實驗結(jié)果表明,本研究提出的網(wǎng)絡(luò)模型在保持了參數(shù)量和處理效率的同時,對圖像細節(jié)信息的提取能力、量化評價指標(biāo)和主觀視覺效果上均優(yōu)于現(xiàn)有的網(wǎng)絡(luò)。本文未來的后續(xù)實驗中將進一步優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)、研究出參數(shù)量更小,性能更高效的模型。