王 宇,寧 媛
(貴州大學 電氣工程學院,貴陽 550025)
近年來,為了提升圖像的質(zhì)量,人們從設備著手,通過對硬件進行升級改造可以提升成像系統(tǒng)性能,提高圖像分辨率。然而,考慮到各方面的因素,諸如硬件的制作成本、制作工藝等一些限制,學者通過研究對原始圖像進行圖像處理操作來獲得更高分辨率的圖像,因此產(chǎn)生了圖像超分辨率技術[1-2]。
基于深度學習的圖像SR 積累了大量的關注度,它已經(jīng)延伸到各種現(xiàn)實世界的應用中。如醫(yī)學成像、視頻監(jiān)控、遙感、圖像分類、檢測、識別和去噪。然而,現(xiàn)有的用于圖像SR 的卷積神經(jīng)網(wǎng)絡一般有兩個局限性:一是網(wǎng)絡深度很深,不僅削弱了自下而上的信息流,而且模型容量大,計算負擔大;其二網(wǎng)絡架構往往是前饋式的,使得前幾層無法捕捉到后幾層的有用信息,限制了特征學習能力。
因此,根據(jù)網(wǎng)絡模型中存在的大量冗余參數(shù),研究者提出了網(wǎng)絡模型壓縮方法,并將模型壓縮方法分為淺層壓縮和深層壓縮兩大類。具體分類如圖1所示。本文主要從輕量化網(wǎng)絡模型出發(fā),介紹提出的幾種輕量化網(wǎng)絡模型。
圖1 模型壓縮分類Fig.1 Model compression classification
神經(jīng)網(wǎng)絡輕量化的原則是獲得更高效的網(wǎng)絡,優(yōu)化網(wǎng)絡結構和卷積計算,減少網(wǎng)絡參數(shù)的同時不損失性能,加強對網(wǎng)絡內(nèi)部的理解。下面將主要介紹近年來的幾種輕量化壓縮網(wǎng)絡。
文獻[3]中提出了一種針對SISR 的快速輕量級組卷積網(wǎng)絡(LGCN)模型,該模型結構如圖2 所示。其主要由三部分組成:特征提取網(wǎng)(F-Net)、級聯(lián)記憶群卷積網(wǎng)(C-Net)和重建網(wǎng)(R-Net)。創(chuàng)新之處主要集中在C-Net 上,即級聯(lián)多個記憶群卷積網(wǎng)(MGCN),結構如圖3 所示。具體來說,MGCN 包含一個記憶單元和一個通道注意單元。記憶單元由多個交替的組卷積層和1×1 卷積層組成,采用密集連接的結構建立記憶機制。與DenseNet[4]不同,利用1×1 卷積層作為中間層,逐步收集局部信息。因此,MGCN 中的1×1 卷積層不僅可以對組卷積層的輸出進行線性組合,而且可以逐步收集局部信息。信道關注單元的靈感來自于擠壓和激勵網(wǎng)[5]的思想,本文將擠壓和激勵網(wǎng)[5]中的完全連接層替換為1×1 卷積層,以更好地模擬通道方面的關系。
圖2 LGCN 整體框架結構Fig.2 LGCN overall framework structure
圖3 MGCN 內(nèi)部結構Fig.3 Internal structure of MGCN
通過實驗比較了LGCN 與幾種輕量級SISR 方法。其中包括Bicubic、SRCNN[6]、VDSR[7]、LapSRN[8]、MSLapSRN[9]、DRRN[10]和IDN[11]。實驗在4 個基準數(shù)據(jù)集上評估了超分辨率圖像的平均峰值信噪比(PSNR)和結構相似度(SSIM)值,其結果見表1。在大多數(shù)縮放因子下,提出的LGCN 方法在大多數(shù)數(shù)據(jù)集上實現(xiàn)了最佳性能。模型在Set5 上與IDN 相比,在2×和4×尺度上的PSNR 表現(xiàn)稍差。需要注意的是,Set5 數(shù)據(jù)集是最小的數(shù)據(jù)集,只包含5 張圖片。以4×尺度為例,模型在Set14 數(shù)據(jù)集上比IDN 高0.05 dB,在具有挑戰(zhàn)性的Urban 100 數(shù)據(jù)集上比IDN 提高0.08 dB。此外,在所有數(shù)據(jù)集上,LGCN 在所有縮放因子下都能獲得最高的SSIM 值,并且能夠生成與原始高分辨率圖像具有高度結構相似性的圖像。
此外,還選擇了兩種非輕量級SISR 方法,即SRResNet[12]和EDSR[13]進行比較,結果見表2。由表2 可見,兩種方法都優(yōu)于LGCN。這是一個合理的結果,因為其有更深、更廣的網(wǎng)絡結構,包含大量的卷積層和參數(shù)。實際上,SRResNet 和EDSR 的參數(shù)分別為1 543K 和43 000 K,而LGCN 的參數(shù)只有660 K。
表1 對比最新的SISR 算法的量化結果Tab.1 Comparison of quantification results of the latest SISR algorithm
表2 對比非輕量化網(wǎng)絡結果Tab.2 Comparison of non-lightweighted network results
實驗同時在Set14 數(shù)據(jù)集上進行了四倍縮放因子的視覺比較,如圖4 所示。在圖4 中可以觀察到,大部分的比較方法都會因高頻信息的丟失而導致紅框中的花朵出現(xiàn)模糊偽影。相比之下,LGCN 方法可以清晰地恢復花上的紅點。
在每個區(qū)塊訓練了不同分組大小,即G=1、2和4 時所提出的LGCN,并在表4 中顯示了它們的參數(shù)和PSNR。G=1 是無組的標準卷積。當分組大小為2 時,性能下降0.11 dB,對于222 K 參數(shù)減少。當分組大小改為4 時,性能比G=2 時降低0.16 dB,參數(shù)減少110 k??梢钥闯?,隨著組數(shù)的增加,性能越來越差,而參數(shù)數(shù)卻迅速減少。因此在最終的LGCN 模型中選擇G=2。從圖5 中可以看出,LGCN在G=2 時,實現(xiàn)了一個相對輕量級的模型,同時表現(xiàn)出了優(yōu)異的重建質(zhì)量。
圖4 set14 數(shù)據(jù)集的四倍因子的視覺比較Fig.4 Visual comparison of the four-fold factor for the set14 dataset
圖5 模型參數(shù)對比Fig.5 Comparison of model parameters
2019 年,xu[14]提出了一種基于反饋的輕量級復用神經(jīng)網(wǎng)絡(FRNN)。FRNN 是由一系列遞歸的密集連接塊(DCBs)與低分辨率(LR)圖像特征和輸出前的DCB 作為輸入。每個DCB 自適應地融合來自側(cè)面輸出中間特征圖的多層次特征,生成強大的特征表示。同時,DCB級聯(lián)了一組多尺度殘差塊(MRB),每一個MRB 都有一個放大的視場,以充分捕捉多尺度的上下文信息。
圖6 介紹了MFRSR 的網(wǎng)絡框架,包括一個上采樣分支和一個殘差學習分支。
圖6 MFRSR 的結構圖Fig.6 Structure of the MFRSR
上采樣分支利用一個簡單的雙線性上采樣核來調(diào)整LR 輸入的大小,使其與HR 輸出的大小相同。殘差學習分支由LR 特征提取塊(LRFEB)組成。
如圖8 所示,密集連接塊包含N個多尺度殘差快,展示了MRB 的內(nèi)部結構,利用不同的內(nèi)核來捕捉具有跳轉(zhuǎn)連接的多尺度上下文信息。
圖7 DCB 結構Fig.7 DCB structure
圖8 MRB 結構Fig.8 MRB structure
針對幾種算法(SRCNN、VDSR、MSRN[15]、DDBRN[16]、SRFBN[17])進行了仿真實驗。由圖9 可以看出,其它幾種算法都會產(chǎn)生更多錯誤的文本方向或令人不快的偽影。相比之下,MFRSR 能夠生成精確和真實的SR 圖像,準確地重建細節(jié)。
文獻[14]的創(chuàng)新之處在于:
(1)提出了一種基于反饋的輕量級RNN,用于高精度的SISR。該網(wǎng)絡充分利用了LR 圖像中豐富的多尺度上下文信息,生成了強大的特征呈現(xiàn),這對于精確的SISR 來說至關重要。
(2)設計了一種新型的多核融合機制,能夠在多尺度輸入的情況下動態(tài)調(diào)整輸出特征表征的感受野大小。因此,網(wǎng)絡不需要通過加深層數(shù)來擴大輸出表征的接受場大小,從而實現(xiàn)模型容量的輕量化。
(3)提出的MFRSR 是輕量級的,只有4.5M 的參數(shù),如圖10 所示。但卻在5 個基準數(shù)據(jù)集上的PSNR 和SSIM 方面達到了最先進的性能。
圖9 不同算法實驗效果對比Fig.9 Comparison of the experimental effects of different algorithms
圖10 不同算法PSNR 對比Fig.10 Comparison of different algorithms PSNR
Liu[18]提出了一種針對SISR 的輕量級網(wǎng)絡,即基于注意力的多尺度殘差網(wǎng)絡(AMSRN)。整個網(wǎng)絡的主框架由一個殘差空間金字塔池化(ASPP)塊以及一個空間和信道感知的注意力殘差(SCAR)塊交替堆疊構成。殘差ASPP 塊利用不同擴張率的平行擴張卷積,來達到捕捉多尺度特征的目的。SCAR塊在雙層卷積殘差塊的基礎上增加了通道注意力(CA)和空間注意力(SA)機制。此外,在SCAR 塊中還引入了分組卷積,在防止過擬合的同時進一步降低參數(shù)。同時還設計了一個多尺度特征注意模塊,為淺層特征提供指導性的多尺度注意信息。特別是提出了一種新穎的升標模塊,采用雙路徑聯(lián)合使用亞像素卷積層和最近插值層,對特征進行升標,而不是單獨使用解卷積層或亞像素卷積層。
為了使網(wǎng)絡集中在重要的特征上以增強其表示能力,根據(jù)通道和空間位置的相互依賴性,設計了一個空間和通道感知的注意力殘差塊,將SA 單元和CA 單元結合成殘差塊。圖11 描述了所提出的空間和通道感知注意力模塊。
AMSRN 的框架如圖12 所示,其中包括5 個部分:初始特征提取階段、多尺度特征提取階段、深層特征提取階段、上尺度特征提取階段以及重建階段。
圖12 AMSRN 的整體結構Fig.12 Overall structure of the AMSRN
定量的角度對提出的AMSRN 模型與一些最先進的方法進行評估,包括SRCNN、VDSR、DRCN[19]、LapSRN、MemNet[19]、EDSR、CARN[20]、MSRN、DCSR[21]、AWSRN[22]和DADN[23]。
圖13 描述了Set14 圖像的平均PSNR 與運行時間的權衡。值得注意的是,所提出的方法在保證重建性能的前提下,速度相對較快。
圖13 不同方法的精度和速度的比較Fig.13 Comparison of accuracy and speed of different methods
通過實驗,Liu[18]提出的模型達到了與最先進的方法相媲美的效果,網(wǎng)絡非常輕巧。然而,在升級因子較大的情況下存在不足。
Zhao 等[24]提出了一種輕量化橫向抑制網(wǎng)路來進行精準磁共振(MR)圖像超分辨率(SR)。所提出的網(wǎng)絡是受橫向抑制機制的啟發(fā),其假設相鄰神經(jīng)元之間存在抑制效應。網(wǎng)絡的主干由若干個側(cè)向抑制塊組成。其中,抑制效果是由一個級聯(lián)的局部抑制單元明確實現(xiàn)的。當模型規(guī)模較小時,明確抑制特征激活,能進一步探索模型的表達能力。為了更有效地提取特征,還使用了多個并行的擴張卷積,直接從輸入圖像中提取淺層特征。
為了提取不同接受場的淺層特征大小,在特征提取子網(wǎng)中使用一組3×3 稀釋率不同的conv 層,如圖14所示,只應用一個3×3 的conv 層來重建最終輸出。
通過適度的模型參數(shù)和計算開銷,實現(xiàn)了高精度和快速的SR 重建。在橫向抑制機制的激勵下,設計了一個局部抑制單元(LIU),明確地對特征圖進行抑制調(diào)節(jié),減輕了模型的表示負擔。通過整合不同接受場大小的淺層特征,提升了模型性能。通過這種策略增加提取特征的多樣性。將側(cè)向抑制機制與淺層特征提取相結合策略提高了深度模型的性能。
通過對幾種典型圖像超分辨率算法(NLM[25]、SRCNN、VDSR、IDN、RecNet[26]、FSCWRN[27])進行實驗對比分析,這些方法的定量結果直接利用峰值信噪比(PSNR)和結構性分析,并且只比較與LIN模型參數(shù)數(shù)量大致相似的模型。此外,還采用了幾何自編的技巧來進一步提高模型的性能,在這種情況下,其被表示為LIN+,見表3。
圖14 橫向抑制網(wǎng)絡的整體結構Fig.14 Overall structure of the transverse suppression network
表3 幾種典型SR 模型之間的定量比較Tab.3 Quantitative comparison between several typical SR models
根據(jù)表4,執(zhí)行最慢的是NLM,因為其是基于迭代優(yōu)化處理的。此外,基于深度CNN 方法的運行時間也很相似,都是每卷小于5 s。本文模型的效率與其它快速模型相當。例如,IDN 和RecNet,由于這些模型規(guī)模相似,提出的LIN 和LIN+的性能明顯優(yōu)于這些模型,見表3。該模型不僅在SR 性能上有很高的準確性,而且在應用中也有實際作用。
表4 比較模型處理的運行時間Tab.4 Comparison of model processing runtimes
在不同的MR 圖像上進行的廣泛實驗表明(如圖15),所提出的模型優(yōu)于其他輕量級SR 模型。由于模型規(guī)模和性能之間更好的權衡,LIN 模型更適合現(xiàn)實世界的應用和部署。
圖15 多種模型實驗仿真Fig.15 Experimental Simulation of Various Models
本文介紹了幾種輕量化網(wǎng)絡模型,這一些網(wǎng)絡模型在很大程度上都比傳統(tǒng)的神經(jīng)網(wǎng)絡在網(wǎng)絡參數(shù)、視覺效果上都有很明顯的優(yōu)勢。特別是在移動設備上的應用,小型化的神經(jīng)網(wǎng)絡的研究將會使得移動設備圖像超分辨率擁有更廣泛的發(fā)展前景。特別是解決傳統(tǒng)神經(jīng)網(wǎng)絡運算需求過大而無法在移動設備上高效運行的問題,但是其具有任務單一、泛化性差的缺點,因此,未來需要對網(wǎng)絡搜索算法進行研究,在不同的應用場景下,可以根據(jù)網(wǎng)絡搜索對該場景下最優(yōu)的輕量化網(wǎng)絡進行搜索并應用,使得不同的輕量化網(wǎng)絡都能發(fā)揮出其最優(yōu)的性能?;谳p量化網(wǎng)絡搜索的超分辨率將是未來的一個研究方向。