柳 聰,屈 丹,司念文,魏紫薇
(中國人民解放軍戰(zhàn)略支援部隊信息工程大學(xué) 信息系統(tǒng)工程學(xué)院,鄭州 450000)
圖像超分辨率重建技術(shù)是指采用某種算法將低分辨率(Low Resolution,LR)圖像重建為近似真實的高分辨率(High Resolution,HR)圖像的方法。在實際生活中,受成像設(shè)備性能差、環(huán)境干擾等因素的影響,重建圖像清晰度較低,無法從中提取有效的信息。因此,圖像超分辨率重建方法成為計算機領(lǐng)域的研究熱點。
超分辨率重建方法分為基于插值的方法、基于重建的方法和基于學(xué)習(xí)的方法。其中,基于插值和基于重建的方法在重建HR 圖像時,當無法獲得圖像先驗信息時,重建性能降低。然而,基于學(xué)習(xí)的方法是通過學(xué)習(xí)LR 圖像與HR 圖像之間的映射關(guān)系,構(gòu)建學(xué)習(xí)圖像之間的對應(yīng)關(guān)系,從而有效提升重建性能。因此,大多數(shù)研究人員都在研究基于學(xué)習(xí)的方法,尤其是卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN),使得超分辨率重建性能得到顯著提升。
基于卷積神經(jīng)網(wǎng)絡(luò)的超分辨率重建方法通常以加深網(wǎng)絡(luò)層數(shù)、增大網(wǎng)絡(luò)復(fù)雜度的方式提高重建性能。文獻[1]提出基于卷積神經(jīng)網(wǎng)絡(luò)的超分辨率重建方法,利用單隱含層的網(wǎng)絡(luò)實現(xiàn)LR 圖像到HR 圖像的映射,以獲取超分辨率重建圖像。隨著網(wǎng)絡(luò)層數(shù)的增加,重建性能不斷提高。文獻[2]提出基于殘差密集連接的圖像超分辨率重建網(wǎng)絡(luò),將網(wǎng)絡(luò)隱含層加深到100 層以上,重建性能得到顯著提高。但是網(wǎng)絡(luò)參數(shù)量達到1×107以上,造成巨大的計算開銷。針對內(nèi)存開銷小、計算資源有限等問題[3-5],早期設(shè)計的超分辨率重建網(wǎng)絡(luò)不適用于實際應(yīng)用中。為此,研究人員提出一系列輕量級圖像超分辨率重建網(wǎng)絡(luò),分為基于網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計的輕量級網(wǎng)絡(luò)、基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索的輕量級網(wǎng)絡(luò)和基于知識蒸餾的輕量級網(wǎng)絡(luò),其中,基于網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計的輕量級網(wǎng)絡(luò)占主要地位。文獻[6]提出基于信息蒸餾網(wǎng)絡(luò)(Information Distillation Network,IDN)的輕量級圖像超分辨率重建方法,采用通道拆分策略減少網(wǎng)絡(luò)參數(shù)量。文獻[7]提出基于殘差特征蒸餾網(wǎng)絡(luò)(Residual Feature Distillation Network,RFDN)的輕量級圖像超分辨率重建方法,進一步簡化特征提取操作,從而提升網(wǎng)絡(luò)重建性能,但是網(wǎng)絡(luò)參數(shù)量仍較大而且重建速度也較慢,從而限制其在內(nèi)存資源小的終端設(shè)備上的應(yīng)用。
本文設(shè)計一種基于深度可分離卷積的輕量級圖像超分辨率重建網(wǎng)絡(luò)。構(gòu)建基于深度可分離卷積的特征提取模塊,采用深度可分離卷積操作和對比度感知通道注意力機制,實現(xiàn)提取深層特征的同時有效降低網(wǎng)絡(luò)參數(shù)量、加快重建速度,通過亞像素卷積操作對圖像特征進行上采樣,使得低分辨率圖像重建出近似真實的高分辨率圖像。
針對大多數(shù)網(wǎng)絡(luò)參數(shù)量龐大、重建速度慢等問題,研究人員提出輕量級圖像超分辨率重建方法。在早期的輕量級圖像超分辨率重建的研究過程中,文獻[8]提出基于深度遞歸卷積網(wǎng)絡(luò)(Deeply-Recursive Convolutional Network,DRCN)的圖像超分辨率重建方法,文獻[9]提出基于深度遞歸殘差網(wǎng)絡(luò)(Deeply-Recursive Residual Network,DRRN)的圖像超分辨率重建方法,這2 種方法采用遞歸網(wǎng)絡(luò)參數(shù)共享的方法減少網(wǎng)絡(luò)參數(shù)量。但是上述方法以增加網(wǎng)絡(luò)的深度為前提,保證重建圖像的質(zhì)量。DRCN 網(wǎng)絡(luò)與DRRN 網(wǎng)絡(luò)雖然減少了網(wǎng)絡(luò)參數(shù)量,但是增加了網(wǎng)絡(luò)的深度,并且降低了網(wǎng)絡(luò)的重建速度。因此,模型參數(shù)量少和重建速度快的高效專用網(wǎng)絡(luò)的構(gòu)建成為研究熱點?;诖?,文獻[6]提出IDN 網(wǎng)絡(luò),通過沿著通道維度將中間特征劃分為2 個部分,一部分被保留,另一部分被后續(xù)的卷積層繼續(xù)處理,傳到下一層并提取特征。輕量級網(wǎng)絡(luò)通過通道拆分策略將提取的特征與上一層部分提取的特征相融合,實現(xiàn)較優(yōu)的性能。文獻[7]提出RFDN 網(wǎng)絡(luò),簡化特征提取塊,充分提取特征信息,進一步提升網(wǎng)絡(luò)的重建性能。
本文提出基于深度可分離卷積的輕量級圖像超分辨率重建網(wǎng)絡(luò),其結(jié)構(gòu)如圖1 所示。
圖1 本文網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of the proposed network
該網(wǎng)絡(luò)整體分為特征提取和圖像重建2 個階段。在特征提取階段,輸入的LR 圖像首先經(jīng)過3×3標準卷積得到淺層特征X0,然后將淺層特征X0輸入到K個基于深度可分離卷積的特征提取模塊中,提取出每層特征[X1,X2,…,Xn,…,Xk]。當K=6 時,經(jīng)過1×1 卷積將特征[X1,X2,…,Xn,…,Xk]相融合,再通過深度可分離卷積提取深層特征Xj。在圖像重建階段,將淺層特征X0與深層特征Xj相加,之后輸入到3×3 標準卷積和亞像素卷積模塊進行上采樣,并且與LR 圖像特征相加,最終完成重建過程。
從圖1 可以看出,在特征提取階段,本文主要設(shè)計了K個基于深度可分離卷積的特征提取模塊,以提取深層特征。因此,在整個特征提取階段,基于深度可分離卷積的特征提取模塊至關(guān)重要,其整體結(jié)構(gòu)如圖2 所示。本文采用深度可分離卷積操作和對比度感知通道注意力機制,在保持網(wǎng)絡(luò)重建性能的前提下,減少網(wǎng)絡(luò)參數(shù)量。
圖2 基于深度可分離卷積的特征提取模塊Fig.2 Feature extraction module based on depthwise separable convolution
從圖2 可以看出,該模塊主要分為特征提取與融合及注意力的分配。在特征提取與融合過程中,對輸入特征進行特征保留、特征提取和特征融合操作。特征保留主要采用1×1 卷積將原有特征的通道數(shù)減少一半,以減少參數(shù)量。特征提取是采用卷積核大小為3×3 的深度可分離卷積提取特征,并將其與原特征相加,以學(xué)習(xí)特征中的信息,從而提取深層特征,為后續(xù)的深度可分離卷積操作提供輸入特征。特征融合是將特征保留的不同層次特征按維度進行拼接,并采用1×1 卷積進行融合,得到融合后的特征。注意力的分配是通過對比度感知通道注意力機制對提取特征的不同通道進行重新分配權(quán)重,再與輸入特征相加,最終得到輸出特征。
2.1.1 深度可分離卷積
文獻[10]提出深度可分離卷積操作,以解決網(wǎng)絡(luò)參數(shù)量大的問題,采用深度可分離卷積操作替換標準卷積操作,在保證模型性能的前提下,網(wǎng)絡(luò)參數(shù)量大幅降低。因此,深度可分離卷積對輕量級圖像超分辨率重建方法的研究具有重要意義。標準卷積操作如圖3 所示。當輸入特征的通道個數(shù)為3 時,則卷積核通道個數(shù)也為3,將對應(yīng)通道位置的卷積相加得到輸出的一個特征通道。當輸出M個特征通道時,卷積核的數(shù)量也為M,以獲取圖像更深層的特征。
圖3 標準卷積過程Fig.3 Standard convolution process
深度可分離卷積如圖4 所示,主要對標準卷積進行拆分處理,分為深度卷積和1×1 的點向卷積2 個部分。首先,采用深度卷積操作將輸入特征中的每個通道與對應(yīng)的單通道卷積核進行卷積操作,保持特征圖數(shù)量不變,從而對輸入特征進行濾波操作。其次,通過1×1 的點向卷積操作,采用M個1×1 卷積核對濾波后的所有特征圖進行整合處理,獲得M個輸出特征圖,即提取的輸出特征。
圖4 深度可分離卷積過程Fig.4 Depthwise separable convolution process
為比較標準卷積和深度可分離卷積的參數(shù)量,假設(shè)輸入為N×H×W的特征,經(jīng)過尺寸為D×D的卷積核,輸出為M×H×W的特征[11-12]。標準卷積參數(shù)量為P1,如式(1)所示:
深度可分離卷積參數(shù)量為P2,如式(2)所示:
計算深度可分離卷積與標準卷積的比值γ,如式(3)所示:
因此,深度可分離卷積操作能夠大幅減少圖像超分辨率重建網(wǎng)絡(luò)的參數(shù)量,使網(wǎng)絡(luò)更加輕量化。
2.1.2 對比度感知通道注意力機制
文獻[13]提出的通道注意力機制最初用于圖像分類任務(wù)中,通過對特征的不同通道重新分配權(quán)重,突出有價值的區(qū)域,更利于分類或檢測。通道注意力機制根據(jù)全局平均或最大池化獲取全局信息,使得網(wǎng)絡(luò)學(xué)習(xí)更有價值的區(qū)域。通道注意力機制雖然能夠有效提升網(wǎng)絡(luò)性能,但是對于超分辨率重建網(wǎng)絡(luò),缺少有助于增強圖像細節(jié)的信息(如紋理、邊緣等)。為解決該問題,對比度感知通道注意力機制采用標準差和均值的總和(評估特征圖的對比度)代替全局平均,有助于增強圖像細節(jié)信息。對比度感知通道注意力機制整體過程如圖5 所示。
圖5 對比度感知通道注意力機制結(jié)構(gòu)Fig.5 Structure of contrast perception channel attention mechanism
假設(shè)X為輸入特征,具有C個通道,尺寸為H×W。首先,計算輸入特征中每個通道的對比度,將輸入特征X變?yōu)?×1×C大小的特征圖TC。第c個通道對比度如式(4)所示:
其中:c為通道,c=1,2,…,C;i、j為相應(yīng)位置的像素點;為第c個通道像素點(i,j)的特征;Tc為第c個通道的特征標準差與均值的和。
經(jīng)過對比度的計算,Tc=[T1,T2,…,TC]。為了在TC和各通道之間建立相關(guān)性,引入門控單元來學(xué)習(xí)各通道之間的非線性交互作用,如式(5)所示:
其中:W1∈RC/R×C和W2∈RC×C/R為通道變換參數(shù),通過不斷地訓(xùn)練學(xué)習(xí)得到;TC為對比度全局信息;ReLU 和sigmoid 為激活函數(shù)。特征值Z是對每個通道重新分配的權(quán)重集合。
通過特征值Z與對應(yīng)輸入特征X的通道相乘,得到通道重新分配權(quán)重后的特征,如式(6)所示:
將對比度信息作為全局信息,獲得每個通道的權(quán)重值,以實現(xiàn)對重要通道給予更多注意力,增強圖像細節(jié)信息,從而增強網(wǎng)絡(luò)的特征提取能力。
圖像重建階段的整體過程如圖6 所示,將深層特征Xj與淺層特征X0融合[14-16],輸入到3×3 標準卷積中,將特征通道數(shù)增加為原通道數(shù)的n倍(放大倍數(shù)的2),用于亞像素卷積操作。提取的特征通過亞像素卷積操作進行上采樣[17],并與原始的LR 圖像特征相加,最終完成圖像重建過程。
圖6 不同放大倍數(shù)的圖像重建過程Fig.6 Image reconstruction process with different magnifications
亞像素卷積的具體操作如圖7 所示,以3×3 大小的圖像像素進行2 倍放大為例。通過對3×3 大小的圖像特征四周補零,4 個3×3 大小的卷積核與擴充后的圖像特征卷積,輸出4 個3×3 大小的特征圖[18]。最后,將輸出特征圖按照對應(yīng)編號1、2、3、4 進行排列,即實現(xiàn)對圖像放大2 倍的操作。
圖7 亞像素卷積過程Fig.7 Sub-pixel convolution process
本文采用DIV2K 數(shù)據(jù)集作為訓(xùn)練集,其中包含人物、自然風(fēng)景、人文景觀等,總共800 幅圖像;采用Set5、Set14、BSD100、Urban100、Manga109[19]作為測試集。其中Set5、Set14、BSD100、Urban100 這4 種測試集都是拍攝的自然景觀、人物等真實圖像,數(shù)量分別為5 幅、14 幅、100 幅、100 幅,而Manga109[19]測試集則是動漫人物圖畫,數(shù)量為109 幅。另外,本文提供的數(shù)據(jù)集都只是高分辨率圖像,低分辨率圖像則是通過雙三次下采樣的方法分別獲取縮放因子X2、X3、X4 的圖像,組成成對數(shù)據(jù)集。
本文采用峰值信噪比(Peak Signal to Noise Ratio,PSNR)和結(jié)構(gòu)相似性(Structural Similarity,SSIM)作為評價指標。其中,PSNR 是超分辨率重建領(lǐng)域中最主要的評價指標值,主要是通過計算最大像素值(L)與圖像之間的均方誤差(MSE)來獲得,數(shù)值越大,性能越優(yōu),單位為dB。例如,有N個像素的真實HR 圖像(I)與網(wǎng)絡(luò)重建出的HR 圖像,MSE值如式(7)所示:
PSNR 值如式(8)所示:
在數(shù)據(jù)預(yù)處理方面,本文通過對訓(xùn)練集圖像進行數(shù)據(jù)增強(如隨機旋轉(zhuǎn)與翻轉(zhuǎn)),并且對圖像裁切成塊大小分別為256×256 像素、255×255 像素、256×256 像素,用于訓(xùn)練不同放大倍數(shù)的超分辨率重建網(wǎng)絡(luò)。
本文實驗采用Pytorch 進行網(wǎng)絡(luò)設(shè)計,采用單塊GPU 訓(xùn)練網(wǎng)絡(luò),型號為NVIDIA Quadro P5000。采用Adam 優(yōu)化器,參數(shù)β1=0.9、β2=0.999、ε=10-7,初始學(xué)習(xí)率設(shè)置為5×10-4,整體網(wǎng)絡(luò)采用L1 損失函數(shù),Batchsize=16,總共訓(xùn)練1 000 000 次,當訓(xùn)練到200 000 次、400 000 次、600 000 次時,學(xué)習(xí)率減半。此外,X2、X3、X4 網(wǎng)絡(luò)都是從頭開始訓(xùn)練,網(wǎng)絡(luò)中基于深度可分離卷積的特征提取模塊數(shù)量為6,整體通道數(shù)設(shè)置為48。
3.3.1 網(wǎng)絡(luò)重建性能對比
本文網(wǎng)絡(luò)與VDSR[20]、DRCN[8]、DRRN[9]、MemNet[21]、IDN[6]、RFDN[7]主流輕量級圖像超分辨率重建網(wǎng)絡(luò)進行性能對比。在5 種公開數(shù)據(jù)集上,不同放大倍數(shù)下各輕量級圖像超分辨率重建網(wǎng)絡(luò)的PSNR 均值、SSIM 均值對比如表1~表3 所示。表中加粗為最優(yōu)的數(shù)據(jù),加下劃線為次優(yōu)的數(shù)據(jù)。
表1 當放大倍數(shù)為2 時不同網(wǎng)絡(luò)PSNR 和SSIM 對比Table 1 PSNR and SSIM comparison among different networks when magnification is 2
表2 當放大倍數(shù)為3 時不同網(wǎng)絡(luò)PSNR 和SSIM 對比Table 2 PSNR and SSIM comparison among different networks when magnification is 3
表3 當放大倍數(shù)為4 時不同網(wǎng)絡(luò)PSNR 和SSIM 對比Table 3 PSNR and SSIM comparison among different networks when magnification is 4
從表1~表3 可以看出,RFDN 網(wǎng)絡(luò)性能最優(yōu),本文網(wǎng)絡(luò)性能次之。本文網(wǎng)絡(luò)與除了RFDN 網(wǎng)絡(luò)以外的其他輕量級圖像超分辨率重建網(wǎng)絡(luò)相比,整體網(wǎng)絡(luò)重建性能較優(yōu)。在BSD100 數(shù)據(jù)集上,當放大倍數(shù)為2 時,本文網(wǎng)絡(luò)的測試性能相比IDN 網(wǎng)絡(luò)較差,除此之外,無論放大倍數(shù)較低(2倍),還是放大倍數(shù)較高(3倍、4倍),重建圖像所取得的PSNR 均值與SSIM 均值,均高于其他輕量級圖像超分辨率重建網(wǎng)絡(luò)。
RFDN 網(wǎng)絡(luò)的PSNR 均值與SSIM 均值普遍優(yōu)于本文網(wǎng)絡(luò)。但是,兩者重建性能差距并不大,重建圖像所取得的PSNR 均值與SSIM 均值之間的整體差值約0.2 dB。因此,本文網(wǎng)絡(luò)的重建性能相比于大多數(shù)主流輕量級圖像超分辨率重建網(wǎng)絡(luò),具有明顯的競爭力。
3.3.2 網(wǎng)絡(luò)參數(shù)量對比
基于深度可分離卷積的輕量級圖像超分辨率重建網(wǎng)絡(luò)與VDSR、DRCN、DRRN、MemNet、IDN、RFDN 等輕量級圖像超分辨率重建網(wǎng)絡(luò)進行參數(shù)量對比,如表4 所示。加粗表示最優(yōu)的數(shù)據(jù)。
表4 不同網(wǎng)絡(luò)的參數(shù)量對比Table 4 Parameters comparison among different networks
從表4 可以看出,本文網(wǎng)絡(luò)的參數(shù)量最少,并且與其他輕量級圖像超分辨率重建網(wǎng)絡(luò)成倍數(shù)的差別。本文網(wǎng)絡(luò)相較于DRRN 網(wǎng)絡(luò)的參數(shù)量減少了約1/2,相較于IDN、RFDN 網(wǎng)絡(luò),參數(shù)量減少約3/4,相較于VDSR、MemNet 網(wǎng)絡(luò),參數(shù)量減少約4/5,相較于DRCN 網(wǎng)絡(luò),參數(shù)量減少約10/11。
參數(shù)量是衡量輕量級圖像超分辨率重建網(wǎng)絡(luò)性能的重要指標[22],參數(shù)量越小可以更好地應(yīng)用到顯存資源較小的終端設(shè)備中。通過網(wǎng)絡(luò)參數(shù)量的對比分析,相比其他主流輕量級圖像超分辨率重建網(wǎng)絡(luò),本文網(wǎng)絡(luò)的參數(shù)量成倍數(shù)減少,網(wǎng)絡(luò)更加輕量化,更易于部署到終端設(shè)備中。
3.3.3 網(wǎng)絡(luò)重建時間對比
在不同放大倍數(shù)情況下,本文網(wǎng)絡(luò)與VDSR、DRCN、DRRN、MemNet、RFDN 等輕量級圖像超分辨率重建網(wǎng)絡(luò)的重建時間對比如表5 所示。以基準測試集Set5 為例,對不同放大倍數(shù)的網(wǎng)絡(luò)進行重建,單位為s。VDSR、DRCN、DRRN 及MemNet 網(wǎng)絡(luò)重建時間依據(jù)文獻[6]統(tǒng)計的數(shù)據(jù)。RFDN 網(wǎng)絡(luò)與本文網(wǎng)絡(luò)是在GPU 顯存有部分占用的情況下測試的,不同設(shè)備測試時間會有所差距。加粗為重建時間最短的網(wǎng)絡(luò),加下劃線為重建時間次優(yōu)的網(wǎng)絡(luò)。
表5 不同網(wǎng)絡(luò)的重建時間對比Table 5 Reconstruction time comparison among different networks s
從表5 可以看出,本文網(wǎng)絡(luò)在不同放大倍數(shù)中重建時間最短,RFDN 網(wǎng)絡(luò)次之。本文網(wǎng)絡(luò)相較于其他輕量級圖像超分辨率重建網(wǎng)絡(luò),重建時間顯著縮短。相比VDSR、RFDN 網(wǎng)絡(luò),本文網(wǎng)絡(luò)的重建時間縮短了約2 倍。相比DRCN、DRRN、MemNet 網(wǎng)絡(luò),本文網(wǎng)絡(luò)的重建時間縮短幾十倍乃至上百倍。網(wǎng)絡(luò)的重建時間是衡量輕量級圖像超分辨率重建網(wǎng)絡(luò)性能的另一個重要指標。網(wǎng)絡(luò)重建時間越快,網(wǎng)絡(luò)應(yīng)用在終端設(shè)備中[23],給用戶帶來更舒適的體驗。通過網(wǎng)絡(luò)重建時間的對比,本文網(wǎng)絡(luò)相比于其他主流輕量級圖像超分辨率重建網(wǎng)絡(luò),重建時間最優(yōu)。
3.3.4 網(wǎng)絡(luò)重建結(jié)果示例
為對比圖像實際的重建效果,本文從測試集Set14 中選取3 張真實的高分辨率圖像。當放大倍數(shù)為2 時,重建圖像的效果對比如圖8 所示。從圖8 可以看出,本文網(wǎng)絡(luò)重建效果與RFDN 網(wǎng)絡(luò)重建效果幾乎相同,視覺體驗良好。與真實的高分辨率圖像相比,本文網(wǎng)絡(luò)重建圖像的胡須部分有些模糊;從圖8(d)中可以看出,本文網(wǎng)絡(luò)重建圖像的斑馬紋理明顯平滑,不夠清晰。雖然本文網(wǎng)絡(luò)與RFDN 網(wǎng)絡(luò)的重建效果趨于相同,但是與真實的高分辨率圖像相比,細節(jié)紋理還是不夠清晰。
圖8 重建圖像主觀視覺對比Fig.8 Subjective visual comparison of reconstruction images
本文提出一種基于深度可分離卷積的輕量級圖像超分辨率重建網(wǎng)絡(luò)。在特征提取階段,設(shè)計基于深度可分離卷積的特征提取模塊,通過深度可分離卷積與對比度感知通道注意力機制,減少網(wǎng)絡(luò)參數(shù)量。在圖像重建階段,采用亞像素卷積對圖像特征進行上采樣,實現(xiàn)圖像超分辨率重建。實驗結(jié)果表明,相比VDSR、RFDW、IDN 等網(wǎng)絡(luò),本文網(wǎng)絡(luò)具有較少的參數(shù)量。后續(xù)將通過引入生成對抗的方法,在保證網(wǎng)絡(luò)輕量化的同時提升重建圖像的視覺質(zhì)量。