陳喬松,蒲 柳,張 羽,孫開偉,鄧 欣,王 進
(重慶郵電大學計算機科學與技術學院數(shù)據(jù)工程與可視計算重慶市重點實驗室,重慶 400065)
圖像超分辨率重建[1]是將給定的低分辨率圖像通過特定的算法恢復成相應的高分辨率圖像。圖像分辨率泛指成像或顯示系統(tǒng)對細節(jié)的分辨能力,代表圖像中存儲的信息量。在一般情況下,高分辨率圖像的像素密度越大,圖像中包含的細節(jié)越多,但是由于硬件設備限制,往往無法直接獲取到高分辨率圖像,因此如何在現(xiàn)有的硬件條件下提高圖像分辨率成為亟待解決的問題。
圖像超分辨率重建方法主要分為基于插值[2]、基于建模[3]、基于學習[4]3 類?;诓逯档某直媛手亟ǚ椒ㄍㄟ^某個點周圍若干個已知點的值以及周圍點和此點的位置關系,根據(jù)計算公式得到未知點的值?;诮5某直媛手亟ǚ椒ㄊ菍ν粓鼍跋碌亩喾头直媛蕡D像之間的相關性進行建模,包含頻域法和空域法。目前,基于學習的超分辨率重建方法應用比較廣泛,通過使用大量的圖像數(shù)據(jù),建立高低分辨率圖像之間的映射關系,低分辨率圖像可依賴已建立好的關系生成高分辨率圖像,主要包括字典學習[5]、線性回歸[6]、隨機森林[7]和深度學習[8]等方法。
卷積神經網絡(Convolutional Neural Networks,CNN)是深度學習框架中的一種重要網絡結構,通過帶有卷積結構的深度神經網絡處理相關機器學習問題,在超分辨率重建中應用廣泛,而且取得了不錯的效果。文獻[9]提出三層神經網絡SRCNN 用于超分辨率重建,其相比于傳統(tǒng)方法具有更高的分辨率。文獻[10]在SRCNN 的基礎上提出改進的FSRCNN模型,該模型通過在網絡末端使用反卷積進行上采樣,減少了圖像的預處理過程。文獻[11]提出VDSR 模型,該模型借鑒殘差思想避免了深層網絡帶來的副作用,降低了網絡訓練難度。文獻[12]提出DRCN 模型,該模型使用遞歸結構,在增加網絡深度的同時擴大了感受野,提升了網絡表征能力。文獻[13]提出RED 模型,該模型采用編碼-解碼框架,利用對稱結構便于反向傳播,且避免了梯度消失問題。文獻[14]提出的SRGAN 利用感知損失和對抗損失來提升恢復圖片的真實感,使得輸出圖像具有逼真視覺效果。文獻[15]提出MSRN 模型,該模型利用多尺度殘差塊來提取低分辨率圖像的特征,實驗結果表明其在客觀評價指標上優(yōu)于對比模型,在主觀視覺效果上得到的重建圖像邊緣和輪廓更加清晰。
然而,多數(shù)現(xiàn)有圖像超分辨率重建模型的特征提取能力不足,導致高頻信息丟失并且紋理細節(jié)無法被重建,同時大部分模型難以區(qū)分高頻和低頻信息,使得在網絡重建時不能注意到真正有用的特征圖,從而降低了網絡重建能力。針對以上問題,本文提出一種基于整體注意力機制與分形稠密特征增強的圖像超分辨率重建模型(簡稱為HAFN)。建立特征增強模塊,通過4 條分支路徑提取不同尺度的特征,同時利用局部稠密跳躍連接將高頻信息和低頻信息相結合,從而提供互補的上下文信息。引入整體注意力機制,通過層次、通道、空間三方面整體調整特征圖,從而有效篩選出高頻特征,為重建模塊提供更豐富的細節(jié)信息。
考慮到現(xiàn)有模型存在的局限性,本文設計一種新的HAFN 模型框架,如圖1 所示,主要包含淺層特征提取模塊、分形稠密特征增強模塊、重建模塊三部分,其中:淺層特征提取模塊由兩層卷積層組成,用來提取角點、顏色等低維信息;分形稠密特征增強模塊由4 條不同的分支組成,每條分支的卷積核數(shù)量不同,該模型共級聯(lián)了9 個分形稠密特征增強模塊,主要作用是提取更豐富的高頻信息,并且增加了模型的容錯性和穩(wěn)健性;重建模塊是超分辨率重建任務中非常重要的模塊,本文在重建圖像時首先利用亞像素卷積層[16]將提取的淺層特征圖放大至目標圖像大小,然后將主干網絡的輸出特征圖也進行同樣的放大操作,并將兩者進行逐像素相加,最后利用1×1 的卷積層將其壓縮至RGB 三通道得到網絡最終輸出圖像。
圖1 HAFN 模型框架Fig.1 Framework of HAFN model
本文采用分形稠密特征增強(Fractal Density Feature Enhancement,F(xiàn)DFE)來實現(xiàn)深層特征的提取,結構如圖2 所示,其中X表示輸入圖像。
圖2 分形稠密特征增強模塊結構Fig.2 Structure of FDFE module
FDFE 模塊利用4 條不同的分支路徑,每條路徑上的卷積個數(shù)不同,但卷積核大小一致,從而實現(xiàn)多尺度的特征提取,而且模型會將不同路徑的特征圖進行相互融合,充分利用不同的特征,然后繼續(xù)傳遞。同時,不同路徑實現(xiàn)了信息共享,在反向傳播時,當一條路徑學習到最優(yōu)參數(shù)時可以反饋給其他各條路徑,通過共同學習和優(yōu)化來重新校準特征,而且利用不同路徑的梯度可以緩解梯度消失問題,提高模型性能。
該模塊借鑒了DenseNet[17]思想,模塊輸入與各條路徑融合后的特征進行通道拼接,這樣可以綜合利用淺層復雜度低的特征,得到一個光滑且具有更好泛化性能的決策函數(shù)。因此,該模塊的抗過擬合性能較好,并且特征的重復利用大幅提升了重建精度。
在深度神經網絡訓練過程中產生的特征圖包含了通道、空間和層次信息,這些信息對高頻細節(jié)的恢復有不同程度的影響,若能增強目標特征,則網絡的表達能力會進一步加強。首先引入層次注意力(Layer Attention,LA)單元獲取不同層次之間特征圖的相關性,然后設計全局混合特征重標定(Global Mixed Feature Recalibration,GMFR)單元建立特征圖通道和空間位置的相互依賴關系,最后使用特定結構將這兩個單元融合形成整體注意力模塊,自適應調整特征的表達能力。
1.3.1 層次注意力單元
層次注意力[18]單元結構如圖3 所示,首先將N個FDFE 提?。ū疚腘設置為9)的特征圖進行拼接后作為模塊輸入特征組(Feature Groups,F(xiàn)G),其維數(shù)為N×H×W×C,然后利用view()函數(shù)將輸入特征圖轉換為N×HWC的二維矩陣,并利用矩陣乘法和相應的轉置相乘得到相關性矩陣wi,j,計算公式如式(1)所示:
圖3 層次注意力單元結構Fig.3 Structure of LA unit
其中:i,j表示層的序號,i,j=1,2,…,N,N表示FDFE模塊個數(shù);FFG表示原輸入特征組;δ()表示Softmax操作;φ()表示矩陣變換操作。
最后將重構后的特征組與預測的相關矩陣和比例因子α相乘,并加上初始輸入特征組得到層次維度的加權自適應特征圖FLayer,如式(2)所示:
其中:α表示初始化為0 的可學習參數(shù),隨著訓練次數(shù)的增加而增大,直到學習到一個較好的值;FFGi表示經過矩陣變換操作的特征組。
1.3.2 全局混合特征重標定單元
全局混合特征重標定單元有效整合了空間注意力和通道注意力,如圖4 所示。本文對文獻[19]提出的空間注意力進行改進,首先通過一個3×3 的卷積層,然后使用深度可分離進行卷積,在減小參數(shù)量的同時能通過單獨對每個特征圖卷積,實現(xiàn)重要信息的最大化利用,執(zhí)行過程如式(3)所示:
圖4 全局混合特征重標定單元結構Fig.4 Structure of GMFR unit
其中:M1表示空間注意力單元的輸出;C和D分別表示普通3×3 卷積層和深度可分離卷積;I表示輸入特征圖。
通道注意力[20]分為擠壓和激勵兩個過程,擠壓是全局均值池化操作,可以幫助獲得更大的感受野,執(zhí)行過程如式(4)所示:
其中:下標C 表示通道;H和W表示特征圖的尺寸;S表示經過池化操作后的輸出;IC(i,j)表示輸入特征圖的某個像素點。
激勵操作通過一個全連接層對特征圖進行線性變換,將通道數(shù)量壓縮到個,其中r為超參數(shù),再通過ReLU 激活層和全連接層將通道數(shù)恢復至輸入通道數(shù),執(zhí)行過程如式(5)所示:
全局混合特征重標定單元融合了這兩種類型的注意力機制,并將融合后的特征圖與初始輸入特征進行跳躍連接,加強特征的信息表達能力,融合公式如式(6)所示:
其中:M表示混合特征重標定模塊的輸出;I表示模塊的初始輸入;M1和M2分別表示通道注意單元和空間注意力單元的輸出;σ表示Sigmoid 操作;+表示逐像素相加;?表示矩陣相乘。
1.3.3 整體注意力融合
為同時利用層次注意力單元和全局混合特征重標定單元的優(yōu)點,將兩者進行融合形成整體注意力模塊,融合結構如圖5 所示,其中i=9。
圖5 整體注意力模塊結構Fig.5 Structure of holistic attention module
層次注意力單元的輸出首先利用1×1 卷積進行擠壓,去除一些無用的特征信息,然后與全局混合特征重標定單元的輸出進行通道融合,從而得到不同類型的特征圖,最后使用卷積層進行激勵操作,整體注意力融合公式如(7)所示:
其中:F表示整體注意力模塊的輸出特征圖;C表示1×1 卷積層;FLayer表示層次注意力單元的輸出;M表示混合特征重標定的輸出;+表示通道拼接操作。
硬件環(huán)境為Intel?CoreTMi5-6500 CPU@3.2 GHz CPU、NVIDIA GTX1070 GPU、內存大小為16 GB。軟件環(huán)境為Windows 10 操作系統(tǒng)、MATLAB R2018b、CUDA v9.0 以及計算機視覺庫PyTorch[21]。
在不同圖像尺度下進行網絡模型訓練以及性能評估,使用DIV2K[22]作為訓練集,該數(shù)據(jù)集是新發(fā)布的用于圖像重建任務的高質量圖像數(shù)據(jù)集,包含了800 張訓練圖像、100 張驗證圖像,測試集采用Set5[23]、Set14[24]、BSDS100[25]和Urban100[26],其 中Set5、Set14、BSDS100 這3 個數(shù)據(jù)集由不同頻率的自然風光圖片組成,Urban100 由不同頻率的城市場景圖片組成。
在數(shù)據(jù)預處理階段,首先將高分辨率圖像隨機剪裁成48×48 像素的子圖像,然后進行水平垂直翻轉以實現(xiàn)數(shù)據(jù)增強并進行雙3 次插值的退化處理。在訓練過程中,最小批次設置為16,優(yōu)化算法為Adam[27-28],初始學習率為1e-4,并采用StepLR 策略,每訓練200 輪,學習率減半,總共訓練1 000 輪。使用L1 作為損失函數(shù),計算公式如式(8)所示:
其中:A表示總訓練樣本數(shù);O表示重建的超分辨率圖像;G表示對應的標簽;z表示訓練樣本的序號。
采用峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)[29]和結構相似性(Structural Similarity,SSIM)[30]作為重建圖像質量的評價指標。PSNR 計算公式如(9)所示:
其中:n是灰度圖像的比特數(shù),設置為8;eMSE為重建圖像與真實圖像的均方誤差。
eMSE計算公式如式(10)所示:
其中:X、Y表示重建圖像和真實圖像;X(i,j)和Y(i,j)分別表示重建圖像和真實圖像的某個像素值;H×W表示圖像尺度。
從亮度、對比度和結構三方面出發(fā)度量圖像相似性,計算公式如式(11)~式(14)所示:
其中:l(X,Y)、c(X,Y)、s(X,Y)分別表示亮度、對比度、結構比較;C1、C2、C3表示不為0 的常數(shù);μX和σX表示重建圖像的像素均值和方差;μY和σY分別代表真實圖像的像素均值和方差。
將本文HAFN 模型與Bicubic[31]、SRCNN[9]、VDSR[11]、LapSRN[32]、MSRN[15]、DRCN[12]、CARN[33]、IMDN[34]、DRRN[35]等圖像超分辨率模型進行性能 對比。表1~表3 給出了不同圖像超分辨率模型在4 個測試數(shù)據(jù)集上當圖像放大2~4 倍時的實驗結果,其中,最優(yōu)結果加粗表示,次優(yōu)結果添加下劃線表示。
表1 10 種超分辨率模型在圖像放大2 倍后的PSNR 和SSIM 對比Table 1 Comparison of PSNR and SSIM for ten super-resolution models when the image is magnified by two times
表2 10 種超分辨率模型在圖像放大3 倍后的PSNR 和SSIM 對比Table 2 Comparison of PSNR and SSIM for ten super-resolution models when the image is magnified by thee times
表3 10 種超分辨率模型在圖像放大4 倍后的PSNR 和SSIM 對比Table 3 Comparison of PSNR and SSIM for ten super-resolution models when the image is magnified by four times
從表1~表3可以看出,雖然圖像放大2 倍時,在BSDS100 數(shù)據(jù)集上HAFN 的SSIM 指標略低于MSRN,但是無論圖像放大2 倍、3 倍還是4 倍,HAFN 在4 個數(shù)據(jù)集上的PSNR 指標均超過其他模型,且在圖像放大2倍時,在PSNR指標上相比于MSRN最多超出0.44 dB,在圖像放大3 倍時,最多超出0.57 dB,在圖像放大4 倍時,最多超出了0.37 dB。綜上所述,HAFN 重建的圖像質量相比于其他模型更好。
如圖6 所示,選取Urban100 數(shù)據(jù)集中的img072.jpg 圖像進行主觀性能評價,首先切割局部子圖像,然后分別使用不同模型對其放大3 倍并將重建圖像進行可視化對比,可以看出HAFN 重建圖像相比于其他模型重建圖像背景中的線條更加分明,模糊度更小,邊緣更加突出,紋理信息更豐富。
圖6 圖像放大3 倍后的視覺效果對比Fig.6 Visual effect comparison when the image is magnified by three times
為從不同角度驗證HAFN 的優(yōu)越性,對HAFN和其他模型的計算量和參數(shù)量進行對比。在Urban100 數(shù)據(jù)集上,基于各個模型將圖像放大4 倍后得到819×1 024 像素的圖像,計算量對比如表4 所示,可以看出HAFN 的PSNR 值是最高的,而且計算量明顯少于MSRN 和VDSR。
表4 不同模型的計算量對比Table 4 Comparison of calculation quantity with different models
同時,在Urban100 數(shù)據(jù)集上,基于各個模型將圖像放大4 倍后得到819×1 024 像素的圖像,參數(shù)量對比如表5 所示,可以看出HAFN 的參數(shù)量相較于其他模型更具優(yōu)勢。
表5 不同模型的參數(shù)量對比Table 5 Comparison of parameter quantity with different models
在Set14 數(shù)據(jù)集上利用HAFN 與VDSR、DRCN、LapSRN 等模型將圖像放大3 倍和4 倍,并在GPU 上對其運行時間進行對比,對比模型的算法代碼來自相關文獻的公開源碼。從表6 可以看出,HAFN 的PSNR 值明顯高于其他模型,而且在圖像放大3 倍時,HAFN 運行時間約為LapSRN 的0.43 倍,為VDSR 的0.325 倍,證明了HAFN 更適用于對實時性要求較高的場景。
表6 不同模型的運行時間對比Table 6 Comparison of running time with different models
2.6.1 層次注意力機制的有效性驗證
為驗證LA 單元的有效性,主要設計了2 種模型,第1 種是加LA 的模型(簡稱為LA),第2 種是不加LA 并且不對層次特征做任何處理的模型(簡稱為No LA),其他模塊一致。如表7 所示,在Urban100數(shù)據(jù)集上,先將圖像放大2 倍,再將各個FDFE 模塊融合后加入層次注意力單元能夠有效地提高重建圖像的質量,LA 模型相比于No LA 模型的PSNR 和SSIM 分別提高了0.17 dB 和0.000 4。
表7 層次注意力機制的有效性驗證結果Table 7 Effectiveness verification results of layer attention mechanism
2.6.2 全局與局部混合特征重標定對模型性能的影響
為驗證全局和局部混合特征重標定方法對于模型重建性能的影響,分別訓練加入全局混合特征重標定單元的超分辨率重建模型(簡稱為GMFR)和加入局部混合特征重標定(Local Mixed Feature Recalibration,LMFR)單元的超分辨率重建模型(簡稱為LMFR)。如圖7(a)所示,在級聯(lián)的第9 個FDFE模塊末尾加入全局混合特征重標定單元。如圖7(b)所示,在每個FDFE 模塊末尾加入局部混合特征重標定單元。
圖7 混合特征重標定單元結構Fig.7 Structure of mixed feature recalibration unit
如表8 所示,在Urban100 數(shù)據(jù)集上,GMFR 模型在PSNR 和SSIM 兩個指標上均優(yōu)于LMFR 模型,因為局部混合特征重標定只考慮當前的輸出特征圖,而無法建立全局的上下文關聯(lián)關系,同時還增加了計算成本。
表8 加入全局與局部混合特征重標定單元的模型性能對比Table 8 Model performance comparison of adding LMFR and GMFR units
針對現(xiàn)有圖像超分辨率重建模型存在的局限性,本文提出一種基于整體注意力機制與分形稠密特征增強的圖像超分辨率重建模型。通過分形稠密特征增強模塊提取不同尺度下的特征圖,同時采用層次注意力機制和全局混合特征重標定方法自適應學習重要特征,為重建模塊提供豐富有效的高頻信息。實驗結果表明,該模型在測試數(shù)據(jù)集上相比于其他模型重建效果更好。后續(xù)將利用該模型對受不同噪聲干擾的退化圖像進行超分辨率重建,使其適用于復雜噪聲環(huán)境,進一步提升模型應用范圍。