張宇浩,程培濤,張書豪,王秀美
(1.西安電子科技大學(xué) 機(jī)電工程學(xué)院,陜西 西安 710071;2.西安電子科技大學(xué) 電子工程學(xué)院,陜西 西安 710071)
圖像超分辨率重建(Super-Resolution,SR)是計(jì)算機(jī)視覺領(lǐng)域中的一個(gè)重要研究方向,目的在于根據(jù)給定低分辨率圖像(Low Resolution,LR)恢復(fù)對(duì)應(yīng)的高分辨率圖像(High Resolution,HR)[1]。近年來,基于深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)的圖像超分辨率重建方法取得了較好的效果,成為超分辨率重建領(lǐng)域的重要研究方向之一[2]。
文獻(xiàn)[3]在2014年將深度學(xué)習(xí)應(yīng)用于超分辨率重建,提出了基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像超分辨率重建方法(Super-Resolution Convolutional Neural Network,SRCNN)。在此之后,學(xué)者們圍繞設(shè)計(jì)更準(zhǔn)確、更高效的超分辨率重建網(wǎng)絡(luò)展開了廣泛研究[4-17]。文獻(xiàn)[6]提出了一個(gè)用于圖像超分辨率重建的超深度卷積神經(jīng)網(wǎng)絡(luò)(Super-Resolution using Very Deep convolutional networks,VDSR),利用全局跳躍連接加深網(wǎng)絡(luò),將上采樣的低分辨率圖像逐元素添加到輸出的重建圖像中,提升了網(wǎng)絡(luò)性能。文獻(xiàn)[18]提出的拉普拉斯金字塔超分辨率網(wǎng)絡(luò)(Laplacian pyramid Super-Resolution Network,LapSRN)使用逐步上采樣、逐級(jí)預(yù)測殘差的方案來解決速度和精度問題。文獻(xiàn)[7]提出了增強(qiáng)型深度超分辨率重建網(wǎng)絡(luò)(Enhanced Deep Super-Resolution network,EDSR)和多尺度深度超分辨率重建系統(tǒng)(Multi-scale Deep Super-Resolution system,MDSR),這兩種方法刪除了前人方法中常用的BN層,使網(wǎng)絡(luò)中信息更新范圍更加靈活,從而極大地提高了性能。文獻(xiàn)[8]借鑒文獻(xiàn)[9]提出的密集連接網(wǎng)絡(luò)(DenseNet),提出了基于殘差密集連接的超分辨率重建網(wǎng)絡(luò)(Residual Dense Network for image super-resolution,RDN),在減小參數(shù)量的同時(shí)提高了性能,但密集連接網(wǎng)絡(luò)有更高的時(shí)間復(fù)雜度,導(dǎo)致推理時(shí)間過長。
注意力機(jī)制是使設(shè)備計(jì)算資源的分配更偏向于信息中最有表征意義的一種方法[20]。近些年來,注意力機(jī)制已經(jīng)成功地應(yīng)用于深度卷積超分辨率重建網(wǎng)絡(luò),將網(wǎng)絡(luò)的操作重點(diǎn)引向含有更多信息的特征區(qū)域。注意力機(jī)制主要分為通道注意力機(jī)制與空間注意力機(jī)制,其中通道注意力機(jī)制的代表性工作是文獻(xiàn)[5]提出的基于殘差注意力的超分辨率重建網(wǎng)絡(luò)(very deep Residual Channel Attention Networks,RCAN)。它將通道注意力應(yīng)用于超分辨率重建,通過通道之間的相互依賴自適應(yīng)地調(diào)整通道特征,使得RCAN的重建結(jié)果在準(zhǔn)確性和視覺效果上均超越了EDSR方法;但是該方法只提取了一階圖像特征,忽略了高階圖像特征,因而無法獲取局部區(qū)域以外的信息。針對(duì)此問題,文獻(xiàn)[21]提出了一個(gè)基于二階注意力的超分辨率重建網(wǎng)絡(luò)(Second-order Attention Network,SAN),利用二階的特征統(tǒng)計(jì)量自適應(yīng)地細(xì)化通道間的特征。這種二階通道注意力機(jī)制更關(guān)注有用的高頻信息,提高了網(wǎng)絡(luò)判別能力。文獻(xiàn)[22]提出的深度殘差非局部注意力網(wǎng)絡(luò)(very deep Residual Non-local Attention Networks,RNAN)則是利用Non-local模塊[23]提取整個(gè)特征圖之間的空間相關(guān)性,實(shí)現(xiàn)更好的重建效果。文獻(xiàn)[24]提出的基于整體注意力的超分辨率重建網(wǎng)絡(luò)(Holistic Attention Network,HAN)結(jié)合了兩種注意力機(jī)制,從而捕獲更多有用信息,學(xué)習(xí)到不同深度、通道和位置之間信息的相關(guān)性。
上述方法顯著提高了重建性能,但是隨著網(wǎng)絡(luò)參數(shù)量的不斷增加,網(wǎng)絡(luò)的時(shí)間復(fù)雜度和空間復(fù)雜度也在逐步增大,導(dǎo)致這些方法無法應(yīng)用于移動(dòng)終端等輕量化場景。針對(duì)這一問題,文獻(xiàn)[25]提出的一種級(jí)聯(lián)殘差網(wǎng)絡(luò)(CAscading Residual Network,CARN)使用逐層逐塊的多級(jí)連接結(jié)構(gòu),使信息高效地傳遞,雖然減小了參數(shù)量,但是重建性能也大幅降低。文獻(xiàn)[26]提出了一種信息蒸餾網(wǎng)絡(luò)(Information Distillation Network,IDN),通過通道拆分策略,聚合當(dāng)前信息與局部跳躍連接的信息,從而利用較小的參數(shù)量獲得了良好的性能。之后,文獻(xiàn)[27]又提出了信息多級(jí)蒸餾網(wǎng)絡(luò)(Information Multi-Distillation Network,IMDN),通過信息精細(xì)蒸餾模塊進(jìn)一步改進(jìn)了IDN,重復(fù)使用通道拆分策略,從而提取細(xì)粒度的圖像特征。IMDN在峰值信噪比和測試時(shí)間方面均有良好的表現(xiàn),但其參數(shù)量大于VDSR[6]、IDN[26]和MemNet[28]等大多數(shù)輕量級(jí)重建網(wǎng)絡(luò)。
為了進(jìn)一步減小網(wǎng)絡(luò)規(guī)模,文獻(xiàn)[29]提出了一種像素級(jí)注意力網(wǎng)絡(luò)(Pixel Attention Network,PAN),以極小的參數(shù)量取得了更好的重建結(jié)果,但其網(wǎng)絡(luò)結(jié)構(gòu)中含有多個(gè)注意力模塊,需要為網(wǎng)絡(luò)設(shè)置苛刻的超參數(shù)和訓(xùn)練策略,同時(shí)網(wǎng)絡(luò)的表征能力也有所下降,在相同數(shù)據(jù)集下訓(xùn)練的效果略遜于其他方法。文獻(xiàn)[30]在此基礎(chǔ)上提出了一種基于attention in attention機(jī)制的重建網(wǎng)絡(luò)。此機(jī)制提升了重建能力,但網(wǎng)絡(luò)參數(shù)量從261 000增加至1 063 000。
為更好地平衡網(wǎng)絡(luò)參數(shù)量與性能,筆者提出了一種基于自適應(yīng)權(quán)重學(xué)習(xí)的輕量化超分辨率重建方法。該方法基于像素級(jí)注意力網(wǎng)絡(luò)的整體框架,設(shè)計(jì)了一種堆疊多個(gè)自適應(yīng)權(quán)重模塊(Adaptive Weight Block,AWB)的非線性映射網(wǎng)絡(luò),每個(gè)模塊能夠提取到不同層級(jí)的特征信息。另外,引入了一種低參數(shù)量的自適應(yīng)權(quán)重分配機(jī)制,將網(wǎng)絡(luò)分為注意力分支和無注意力分支。注意力分支用于增強(qiáng)有用信息,無注意分支用于學(xué)習(xí)其他信息。為了充分利用兩個(gè)分支提取的信息、增強(qiáng)高貢獻(xiàn)度信息并抑制冗余信息,利用自適應(yīng)權(quán)重融合分支以動(dòng)態(tài)方式分配兩個(gè)分支的權(quán)重,同時(shí)通過特定的卷積層拆分和融合兩條分支,大幅降低了注意力分支和無注意力分支的參數(shù)量,更好地與自適應(yīng)權(quán)重分配機(jī)制結(jié)合,在保證網(wǎng)絡(luò)重建性能的同時(shí),降低了網(wǎng)絡(luò)的參數(shù)量。
筆者提出的基于自適應(yīng)權(quán)重學(xué)習(xí)的輕量化超分辨率重建網(wǎng)絡(luò)由3個(gè)子網(wǎng)絡(luò)組成,即特征提取網(wǎng)絡(luò)、由多個(gè)自適應(yīng)權(quán)重模塊構(gòu)成的非線性映射網(wǎng)絡(luò)以及由上采樣模塊與3×3卷積層構(gòu)成的重建網(wǎng)絡(luò),其結(jié)構(gòu)如圖1所示,特征提取網(wǎng)絡(luò)和重建網(wǎng)絡(luò)與PAN[29]方法保持一致,而文中提出的基于自適應(yīng)學(xué)習(xí)的非線性映射網(wǎng)絡(luò)則是重建網(wǎng)絡(luò)的核心部分。
圖1 基于自適應(yīng)權(quán)重學(xué)習(xí)的輕量化超分辨率重建網(wǎng)絡(luò)示意圖
重建時(shí)首先利用特征提取網(wǎng)絡(luò)對(duì)低分辨率圖像提取淺層特征。該過程可表示為
xshallow=fshallow(ILR) ,
(1)
其中,fshallow(·)表示卷積核大小為3×3的卷積層,其作用是從輸入的低分辨率圖像ILR中提取特征;xshallow是提取的特征圖。為了盡可能輕量化網(wǎng)絡(luò),此處僅使用了一個(gè)卷積層。
完成特征提取后,利用由多個(gè)堆疊的自適應(yīng)權(quán)重模塊(AWB)組成的非線性映射網(wǎng)絡(luò)來學(xué)習(xí)有足夠表征能力的映射關(guān)系,該過程可表示為
(2)
其中,xn為第n個(gè)自適應(yīng)權(quán)重模塊輸出的特征圖。
最后,利用重建網(wǎng)絡(luò)將特征上采樣到指定的高分辨率圖像大小。參考PAN[29]方法,重建網(wǎng)絡(luò)由兩個(gè)帶有像素級(jí)注意力機(jī)制的上采樣塊(Upsampling block with Pixel Attention,U-PA)和一個(gè)3×3卷積層構(gòu)成。在網(wǎng)絡(luò)中同時(shí)引入了全局連接操作fbi對(duì)輸入ILR執(zhí)行雙線性插值,將插值結(jié)果與重建網(wǎng)絡(luò)的輸出進(jìn)行逐元素相加求和,最終可以得到:
ISR=frec(xn)+fbi(ILR) ,
(3)
其中,frec(·)表示重建網(wǎng)絡(luò),ISR是網(wǎng)絡(luò)最終的輸出結(jié)果。
自適應(yīng)權(quán)重模塊堆疊而成的非線性映射網(wǎng)絡(luò)是LAWN網(wǎng)絡(luò)的核心部分,也是網(wǎng)絡(luò)中參數(shù)量占比最大的部分。自適應(yīng)權(quán)重模塊的結(jié)構(gòu)如圖2所示。與PAN方法不同,筆者提出的自適應(yīng)權(quán)重模塊包含3個(gè)分支:注意力分支、無注意力分支和自適應(yīng)權(quán)重融合分支。其中注意力分支與無注意力分支分別使用1×1卷積層作為分支首層,記作fbranch(·)。假設(shè)xn-1和xn分別為第n個(gè)自適應(yīng)權(quán)重模塊的輸入和輸出,則對(duì)于給定輸入特征xn-1,有
圖2 自適應(yīng)權(quán)重模塊結(jié)構(gòu)示意圖
x′n-1=f′branch(xn-1) ,
(4)
x″n-1=f″branch(xn-1) ,
(5)
注意力分支包含兩個(gè)3×3卷積層和一個(gè)1×1卷積層,其中在第1個(gè)3×3卷積層后加入了像素級(jí)注意力機(jī)制,該分支將x′n-1轉(zhuǎn)換為x′n。而在無注意力分支中,為了盡可能保證原始的無注意力信息,僅使用一個(gè)3×3卷積層進(jìn)行特征映射,使用一個(gè)1×1卷積層進(jìn)行通道重組,以便與自適應(yīng)權(quán)重融合分支進(jìn)行權(quán)重融合。
像素級(jí)注意力機(jī)制可以為不同通道分配不同的權(quán)重,因此筆者為每個(gè)自適應(yīng)權(quán)重模塊都引入了注意力機(jī)制。但是并非所有注意力機(jī)制都可以提高網(wǎng)絡(luò)性能[30],網(wǎng)絡(luò)中仍然存在一些無效的、多余的參數(shù)。為了進(jìn)一步增強(qiáng)特征表達(dá)能力,受文獻(xiàn)[31]的啟發(fā),筆者提出了自適應(yīng)權(quán)重融合分支作為模塊的第3分支,該分支利用加權(quán)求和分配注意力分支和無注意力分支的權(quán)重,自動(dòng)舍去一些不重要的注意力特征以使兩個(gè)分支達(dá)到自適應(yīng)平衡。注意力分支的輸出x′n和無注意力分支的輸出x″n分別傳入1×1卷積層提升通道數(shù),然后乘以不同的權(quán)重λ1和λ2,并進(jìn)行對(duì)應(yīng)元素相加,最后傳遞到1×1卷積層輸出,與自適應(yīng)權(quán)重模塊殘差相加,得到最終特征xn。
自適應(yīng)權(quán)重模塊的框架受到了PAN方法的啟發(fā),而二者的不同之處在于,筆者提出的自適應(yīng)權(quán)重模塊利用1×1卷積層將兩個(gè)分支輸出特征(x′n與x″n)的通道數(shù)升至與xn-1相同的通道數(shù);更為重要的是,利用自適應(yīng)權(quán)重融合分支動(dòng)態(tài)調(diào)整兩個(gè)分支的權(quán)重占比,進(jìn)一步提高了網(wǎng)絡(luò)的表征能力,以上兩點(diǎn)使得LAWN網(wǎng)絡(luò)能夠在只增加極少參數(shù)量的前提下將自適應(yīng)權(quán)重機(jī)制融入模塊內(nèi),提高了網(wǎng)絡(luò)表示的泛化能力。
為了驗(yàn)證筆者提出的基于自適應(yīng)權(quán)重學(xué)習(xí)的輕量化超分辨率網(wǎng)絡(luò)的重建性能,選用了DRRN[9]、IDN[26]、CARN[25]、IMDN[27]和PAN[29]這5種輕量化超分辨率重建方法進(jìn)行對(duì)比實(shí)驗(yàn)。
實(shí)驗(yàn)中使用DIV2K[32]作為訓(xùn)練數(shù)據(jù)集,DIV2K數(shù)據(jù)集包括800張高質(zhì)量的RGB訓(xùn)練圖像。在測試中,使用Set5[33]、Set14[34]、BSD100[35]和Urban100[36]這4個(gè)數(shù)據(jù)集作為測試數(shù)據(jù)集。采用峰值信噪比(PSNR)和結(jié)構(gòu)相似性(SSIM)[37]作為客觀質(zhì)量評(píng)價(jià)指標(biāo)。所有值均在YCbCr通道中的Y通道上計(jì)算。
在MATLAB中使用雙3次插值對(duì)高分辨率圖像進(jìn)行下采樣,同時(shí)使用90°、180°、270°旋轉(zhuǎn)以及水平翻轉(zhuǎn)進(jìn)行數(shù)據(jù)增強(qiáng),生成大小為64×64的低分辨率圖像作為訓(xùn)練數(shù)據(jù),batchsize設(shè)置為32,總迭代次數(shù)為1×106,使用Adam優(yōu)化器對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,參數(shù)分別為β1=0.9,β2=0.99,ε=10-8。初始學(xué)習(xí)率設(shè)置為1×10-3,每隔2×10-5次迭代衰減一半。硬件配置為Intel(R)Core(TM)i7-8700K CPU @ 3.70GHz處理器,GeForce RTX 3090顯卡,32GB內(nèi)存,實(shí)驗(yàn)是在Ubuntu18.04.5操作系統(tǒng)下進(jìn)行的,運(yùn)行庫版本為CUDA 11.2,開發(fā)環(huán)境為Pytorch 1.8。
不同方法在Set5、Set14、BSD100和Urban100數(shù)據(jù)集上進(jìn)行不同放大倍數(shù)重建結(jié)果的客觀質(zhì)量評(píng)價(jià)如表1所示,其中×2、×3和×4表示超分辨率重建的放大倍數(shù)分別為2倍、3倍和4倍。
從表1可以看出,筆者提出的LAWN方法在大多數(shù)數(shù)據(jù)集上的性能優(yōu)于其他方法,尤其在Set5數(shù)據(jù)集上×2和×3時(shí)重建結(jié)果的峰值信噪比相較于排名第2的方法分別提升了0.03 dB和0.06 dB。雖然在×4時(shí)的重建結(jié)果與第2名基本保持一致或略有升降,但參數(shù)量僅有其65%,證明文中方法在性能和網(wǎng)絡(luò)大小之間實(shí)現(xiàn)了更好的平衡。
表1 在Set5、Set14、BSD100和Urban100數(shù)據(jù)集上不同超分辨率重建方法的平均PSNR/SSIM
在主觀質(zhì)量評(píng)價(jià)方面,圖3給出了不同方法對(duì)BSD100數(shù)據(jù)集中的圖像58 060進(jìn)行2倍超分辨率重建的結(jié)果,從圖中可以看出,IDN、CARN、IMDN方法的重建結(jié)果無法正確重建出第3組黑條紋,PAN方法雖然可以重建出黑色條紋,但重建效果沒有LAWN方法的重建效果清晰。圖4給出了不同方法對(duì)Urban100中的圖像062進(jìn)行3倍超分辨率重建的結(jié)果。從圖中可以看出,其他方法的重建結(jié)果會(huì)將窗戶豎向邊緣錯(cuò)誤地重建為橫向邊緣,而LAWN可以正確地重建出窗戶的邊緣輪廓。圖5給出了不同方法對(duì)Urban100中的圖像093進(jìn)行4倍超分辨率重建的結(jié)果,其他方法重建的圖片會(huì)將橫向條紋錯(cuò)誤地重建為豎向條紋,而LAWN對(duì)條紋的重建結(jié)果最為準(zhǔn)確,與原圖接近。
圖3 BSD100數(shù)據(jù)集中img_58 060的2倍超分辨率重建結(jié)果
圖4 Urban100數(shù)據(jù)集中img_062的3倍超分辨率重建結(jié)果
針對(duì)主流超分辨率重建網(wǎng)絡(luò)參數(shù)量過大而無法應(yīng)用于移動(dòng)終端等場景的問題,筆者提出了一種基于自適應(yīng)權(quán)重學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò),以實(shí)現(xiàn)精確且輕量化的超分辨率重建。筆者構(gòu)建了一種自適應(yīng)權(quán)重模塊提取圖像特征,使用注意力分支和無注意力分支提取不同信息,并設(shè)計(jì)自適應(yīng)權(quán)重融合機(jī)制動(dòng)態(tài)分配網(wǎng)絡(luò)中兩個(gè)分支的權(quán)重,從而在保證網(wǎng)絡(luò)性能的前提下大幅度降低網(wǎng)絡(luò)的參數(shù)量。實(shí)驗(yàn)表明,筆者所提出的方法相較其他主流輕量化超分辨率重建方法有明顯優(yōu)勢。在后續(xù)研究中可以繼續(xù)探索該網(wǎng)絡(luò)在其他視覺任務(wù)中的應(yīng)用。