孫陽,丁建偉,張琪,鄧琪瑤
中國人民公安大學信息網(wǎng)絡安全學院,北京 100038
單圖像超分辨率(single image super-resolution,SISR)技術旨在將低分辨率(low resolution,LR)圖像重建為高分辨率(high resolution,HR)圖像。相較于LR 圖像來說,HR 圖像具有更豐富的細節(jié)信息和更友好的視覺感知,圖像質(zhì)量和可用性都更高。SISR技術是圖像復原領域的一個熱點研究問題,通常應用于刑偵、遙感和醫(yī)學診斷等領域。SISR 技術具有非常典型的不適定(ill-posed)特性,即一個LR 輸入對應許多可能的HR 輸出,映射空間太大,映射對象不唯一,具有非常大的挑戰(zhàn)性。
常見的超分辨率技術主要分為以下3 類:基于插值的方法、基于重建的方法和基于學習的方法。基于插值的方法主要依賴于圖像先驗信息和統(tǒng)計模型等進行插值計算,具有簡單易用和計算復雜度低的優(yōu)點。然而插值得到的圖像容易出現(xiàn)鋸齒狀的偽影,并且性能嚴重依賴于原始圖像的質(zhì)量。基于重建的方法通過融合同一場景下的多個低分辨率圖像中的高頻信息生成高分辨率圖像。但是在實際場景中,難以收集足夠多的低分辨率圖像。此外,基于重建的方法對先驗的依賴較強,生成的結果容易出現(xiàn)偽影或失真問題?;趯W習的方法對大量HR和LR圖像對的學習來構建高低分辨率字典,并通過深度學習網(wǎng)絡進行圖像重建。在這個過程中,算法從大量數(shù)據(jù)對中學習圖像的特征和結構信息,從而實現(xiàn)更加準確的重建效果。相較于基于插值和基于重建的方法,基于學習的方法能夠獲得更多的高頻信息,從而得到更清晰的紋理細節(jié)和更豐富的信息特征,在準確性和計算效率等方面具有很大的優(yōu)勢,因此受到越來越多的關注。
Dong 等人(2014)提出的SRCNN(convolutional neural network for image super-resolution)采用經(jīng)典的端到端結構,通過簡單的3 層卷積結構在保證圖像質(zhì)量的同時又可以實現(xiàn)高分辨率圖像的快速重建,開創(chuàng)了基于學習的超分辨率技術的先河。Shi 等人(2016)提出的ESPCN(efficient sub-pixel convolutional neural network)方法提高了基于學習的方法的計算效率,獲得了良好的重建效果。Kim 等人(2016)采用深度殘差網(wǎng)絡的思想,通過構建具有20 層的深度網(wǎng)絡VDSR(accurate image superresolution using very deep convolutional network),獲得了比SRCNN 更好的重建圖像質(zhì)量,證明加深網(wǎng)絡深度有助于學習圖像特征。Zhang 等人(2017)提出了深度卷積神經(jīng)網(wǎng)絡DnCNN(denoising convolutional neural network),通過學習圖像殘差進行去噪。Lim 等人(2017)通過舍棄SRResNet(super-resolution residual network)(Ledig 等,2017)中殘差塊的批歸一化(batch normalization,BN)層并優(yōu)化網(wǎng)絡結構,使圖像重建效果得到大幅提升。Zhang等人(2018a)首次將通道注意力(channel attention,CA)機制引入到SR任務中,提出的嵌套殘差結構(residual in residual,RIR)成為目前SR 任務中殘差塊堆疊的標準范式,其所提出的RCAN(image super-resolution using very deep residual channel attention network)網(wǎng)絡通過通道注意力機制區(qū)分不同通道特征對重建圖像的貢獻程度,自適應調(diào)整通道權重,圖像重建質(zhì)量獲得極大程度的提升。
基于Transformer 的方法在自注意力(selfattention,SA)的建模方面具有出色的能力,因此在處理輸入數(shù)據(jù)時可以更好地捕捉數(shù)據(jù)之間的關系,在自然語言處理領域大放異彩。Dosovitskiy 等人(2021)提出的ViT(vision Transformer)首次將廣泛應用于自然語言處理(natural language processing,NLP)任務中的Transformer(Vaswani 等,2017)遷移至視覺任務中。其首先將輸入圖像經(jīng)過一個嵌入層轉換為一組一維向量,并通過多個自注意力層學習圖像中的信息。SwinIR(image restoration using Swin Transformer)(Liang等,2021)將Swin Transformer(Liu等,2021)引入到SR任務中,將重建圖像質(zhì)量提高到了新的高度。通過將輸入圖像分割為很多小塊,然后將每個小塊作為Swin Transformer 的輸入來處理圖像,通過跨窗口交流保持對像素之間長距離關系的建模,顯著減少了模型的計算成本,同時這也是Transformer 首次應用于SR 任務中。劉花成等人(2022)提出了一種用于模糊圖像超分辨重建的Transformer 融合網(wǎng)絡(Transformer fusion network,TFN),采用了雙分支策略,在對模糊圖像進行重建的同時能有效去除部分模糊特性。邱德粉等人(2023)根據(jù)紅外圖像的特性并針對深度網(wǎng)絡中存在的特征冗余問題和計算效率問題,在超分辨率模塊使用通道拆分策略,提出了一種使用高分辨率可見光圖像引導紅外圖像進行超分辨率的神經(jīng)網(wǎng)絡模型。王美華等人(2022)使用Transformer模型計算圖像深層語義信息,提出了TDATDN 單幅圖像去雨算法。UFormer(U-shaped Transformer for image restoration)(Wang 等,2022)應用8 × 8 的局部窗口并引入U-Net(Ronneberge 等,2015)架構捕捉全局信息。ViT 將自注意力引入到視覺任務中,并在高級任務中表現(xiàn)優(yōu)異。但在應用到圖像超分辨率這類低級計算機視覺中,考慮到需要逐像素進行操作,其復雜性與輸入特征圖的尺寸呈平方關系,尤其是對于像素更多、分辨率更高的圖像而言,需要的計算成本極高,這限制了Transformer 在低級計算機視覺任務中的使用。Mei 等人(2021)提出的NLSA(non-local sparse attention)通過將圖像劃分為不重疊的塊,獨立計算注意力,但這樣會引入偽影并降低恢復圖像的質(zhì)量。SwinIR雖然也通過劃分窗口進行自注意力的計算,但是其通過移位機制與其他窗口建立聯(lián)系。然而SwinIR的計算量會隨著窗口大小的增加而急速增長,同時局部窗口會限制上下文的聚合范圍,不利于各像素之間長距離依賴關系的建模。
針對目前Transformer 在SR 任務中存在的一系列問題,本文提出一種全新的基于轉置自注意力的超分辨率神經(jīng)網(wǎng)絡(super-resolution network based on transposed self-attention,SRTSA),主要的貢獻點包括:1)提出了一個全局和局部信息提取模塊(global and local information extraction block,GLEIB),該模塊通過計算交叉協(xié)方差矩陣構建各像素點之間的長距離依賴關系對全局信息進行建模,同時引入通道注意力結構對局部信息進行建模。通過不同層級提取圖像信息,提高模型的學習能力。2)在GLEIB 中構建一個全新的雙門控深度卷積前饋網(wǎng)絡(double gated-dconv feed-forward network,DGDFN),控制信息在模型中的流動,提高模型對特征的建模能力及其魯棒性。3)提出的SRTSA 網(wǎng)絡通過對圖像的全局信息和局部信息進行建模,使用門控網(wǎng)絡控制信息流動以進一步改善網(wǎng)絡的學習能力。在5 個基準數(shù)據(jù)集上的測試結果驗證了本文方法的先進性和有效性,在SR任務中展現(xiàn)出極大的優(yōu)勢。
本文提出的SRTSA 網(wǎng)絡結構如圖1 所示,主要由淺層特征提取模塊、深層特征提取、上采樣模塊、重建模塊4 部分組成。定義輸入圖像為ILR∈RH×W×C,輸出圖像ISR∈RH×W×C,H、W、C分別為圖像的高度、寬度、通道數(shù)。
圖1 SRTSA網(wǎng)絡整體結構Fig.1 Overall architecture of the SRTSA network
首先,使用一個3 × 3 卷積從輸入圖像ILR中提取淺層特征F0,具體為
式中,HSF(·)表示卷積核大小為3 × 3 的卷積層,其可以將圖像空間映射到更高的維度上。
然后,將F0送入深層特征提取模塊中,可得
式中,HDF(·)表示深層特征提取模塊,由M個全局和局部信息提取組(global and local information extraction groups,GLEIG)和1 個卷積層堆疊而成,GLEIG由N個GLEIB和1個卷積層構成,M和N的詳細參數(shù)見2.1節(jié)。
深層特征FDF主要負責圖像的高頻部分的恢復,淺層特征F0負責圖像低頻部分的重建,因此需要將F0與FDF通過跳躍連接聚合再送到上采樣模塊中,得到
式中,HUP(·)表示由Shi 等人(2016)提出的ESPCN 一文中的亞像素卷積。它通過像素平移按給定上采樣系數(shù)的比例采樣。
經(jīng)過上采樣模塊后將得到相應尺寸的特征圖,最后,再將上采樣特征FUP送入重建模塊中,得到
式中,HREC(·)表示卷積核大小為3 × 3 的卷積層,用于將特征圖轉換為RGB 空間的SR 圖像。HSRTSA(·)表示整個SRTSA模型映射。
全局和局部信息提取模塊(GLEIB)結構如圖2所示,該模塊主要由3部分構成:
圖2 全局和局部信息提取模塊結構Fig.2 Architecture of the global and local information extraction block(GLEIB)
1)全局信息建模模塊。主要通過轉置自注意力機制計算交叉協(xié)方差矩陣進行圖像全局關系建模??紤]到如果只在通道維度建立長距離關系相關的話會損失一些有用的空間紋理和結構信息,這些信息對于重建高質(zhì)量圖像十分重要。因此在采用轉置自注意力機制前使用一種輕量高效的特征提取塊進行簡單關系建模保存部分空間結構信息。
2)局部信息建模模塊。自然圖像通常包含全局和局部信息結構,在對全局信息進行建模的同時也需要注意到圖像部分特性具有局部性,因此使用通道注意力塊補充局部信息,增強模型的學習能力。
3)雙門控深度卷積前饋網(wǎng)絡。DGDFN 通過在兩個并行路徑中采用門控機制抑制信息量較少的特征,并將篩選后的信息進行融合,進一步增強了模型對輸入特征的建模能力,提高模型的性能。
1.2.1 全局信息建模模塊
Transformer 中的計算資源主要消耗于自身的自注意力層中。對于一幅H×W像素的圖像來說,其需要計算任意兩個像素之間的相似度,計算復雜度為O(W2H2),將其應用于SR 任務中顯然是十分困難的。SwinIR 采用的Swin Transformer 雖然通過劃分窗口減輕了計算成本,但是劃分窗口限制了聚合上下文的范圍,不能有效連續(xù)提取特征。為了緩解這個問題,采用Zamir 等人(2022)提出的轉置自注意力機制隱式構建全局注意力圖。
轉置自注意力機制的結構如圖3 所示,輸入由NAFBlock 輸出的張量X∈RH×W×C經(jīng)過一個層歸一化(layer normalization,LN)之后生成張量Y∈RH×W×C。接著將Y輸入到卷積核大小為1 × 1的卷積中聚合跨通道信息,然后使用3 × 3大小的深度卷積生成Q,K,V,具體為
圖3 轉置自注意力機制結構圖Fig.3 Architecture of transposed self-attention
式中,Wp(·)表示卷積核大小為1 × 1 的卷積,Wd(·)表示3 × 3的深度卷積。
接著通過Reshape 操作重塑Q和K,使其生成大小為RC×C的轉置注意力圖,而不是大小為RHW×HW的常規(guī)注意力圖。整個過程可以表示為
式中,WP(·)表示1 × 1大小的卷積,fAttention為轉置自注意力機制。
Li 等人(2023)提出經(jīng)過softmax 歸一化生成的自注意力會影響特征聚合。根據(jù)ReLU(rectified linear unit)激活函數(shù)自身的特點,可以在保留對圖像重建呈積極效果的特征的同時去除負面特征,這樣極大地提升了網(wǎng)絡模型重建圖像的性能。因此本文搭建的轉置自注意力機制可以表示為
轉置自注意力機制通過在通道維度對全局注意力圖進行隱式建模很好地解決了計算復雜度與特征圖空間維度呈二次方的關系,但是考慮到如果只在通道維度建立長距離依賴關系的話會損失一些有用的空間紋理和結構信息,這些信息對于重建高質(zhì)量圖像十分重要。因此在使用轉置自注意力機制前需要對特征進行簡單關系建模保存部分空間結構信息。
Chen 等人(2022)通過揭示GELU(Gaussian error linear unit)、GLU(gated linear unit)和通道注意力之間的聯(lián)系,通過移除或替換非線性激活函數(shù)(例如sigmoid,ReLU,GELU),提出了一個適用于圖像復原領域的簡單基線模型非線性無激活函數(shù)模塊(nonlinear activation free block,NAFBlock)。該模型通過將Transformer 內(nèi)較為成熟的模塊和機制應用于卷積神經(jīng)網(wǎng)絡中,提升了卷積神經(jīng)網(wǎng)絡的學習能力。NAFBlock 的網(wǎng)絡結構如圖4 所示,其主要由兩個部分組成:移動卷積(mobile convolution,MBConv)模塊和具有兩個全連接層的前饋網(wǎng)絡(feedforward network,F(xiàn)FN)。在MBConv 和FFN 之前都加入了層歸一化(layer norm,LN)用于標準化輸入數(shù)據(jù),提高模型的泛化性能。同時對兩個模塊使用了殘差連接,加速網(wǎng)絡訓練和收斂。整個過程可以表示為
圖4 非線性無激活函數(shù)模塊結構圖Fig.4 Architecture of nonlinear activation free block
NAFBlock 通過引入SimpleGate 單元來替代非線性激活函數(shù),給定輸入X∈RH×W×C,將特征沿通道維度分割成兩個特征X1和X2,X1、X2∈RH×W×C/2,然后使用線性門控來計算輸出,具體計算為
式中,⊙表示逐元素相乘。由于簡化的SimpleGate引入了非線性,所以常用的激活函數(shù)就不需要再加入到網(wǎng)絡中。
需要注意的是,NAFBlock 分別在MBConv 和FFN 中采用正則化(dropout)技術隨機丟棄部分神經(jīng)元以達到減少模型過擬合、增強模型泛化性能的作用。但是GLEIB 將經(jīng)過NAFBlock 進行簡單關系建模后的特征送入轉置自注意力機制中進行全局信息建模,為防止全局信息建模時特征信息不全,本文不使用NAFBlock 中的dropout 層以使得轉置自注意力機制對所有特征進行全局關系建模,轉而將舍棄部分內(nèi)容增強模型泛化性能的任務交給轉置自注意力機制中的ReLU激活函數(shù)。
1.2.2 局部信息建模模塊
自然圖像包含全局信息和局部信息,通常使用自注意力機制對圖像的全局依賴關系進行建模,但是只使用自注意力機制對圖像信息進行建模會丟失圖像特有的局部相關性。圖像局部信息只涵蓋了幾個像素,典型局部特征表現(xiàn)為邊緣、局部色彩等,因此使用通道注意力塊(channel attention block,CAB)對圖像局部信息進行補充。
CAB 的結構如圖5 所示,由兩個標準的卷積層組成,兩者之間使用GELU 激活函數(shù),并且還包含一個通道注意力。CAB 通過壓縮和擴展通道特征,以及通過通道注意力模塊的自適應調(diào)整,實現(xiàn)了對輸入特征的處理和提取。這個過程有助于提取重要的特征信息,并為后續(xù)模型提供更有代表性的特征表示。整個過程可以表示為
圖5 通道注意力塊結構圖Fig.5 Architecture of channel attention block
式中,σ(·)表示GELU 激活函數(shù),W(·)表示3 × 3 大小的卷積,CA(·)表示通道注意力機制。
1.2.3 雙門控深度卷積前饋網(wǎng)絡
在傳統(tǒng)Transformer 中,F(xiàn)FN 通常包含兩個線性變換層和一個非線性激活函數(shù)。第1 個線性變換層用于擴展特征通道,第2 個用于將通道減回原始輸入維度。為了更好地捕捉輸入圖像的特征信息,本文在Restormer(Zamir 等,2022)的基礎上提出一個全新的雙門控深度卷積前饋網(wǎng)絡(DGDFN),其結構如圖6所示。
圖6 雙門控深度卷積前饋網(wǎng)絡結構圖Fig.6 Architecture of double gated-dconv feed-forward network
DGDFN 引入深度卷積對空間相鄰像素的信息進行編碼,豐富局部信息。在每條路徑上都通過GELU 激活函數(shù)以實現(xiàn)雙門控機制。在兩個并行路徑中將通過門控機制處理后的特征進行逐元素相乘操作,這樣可以過濾掉兩個路徑中相應位置上特征向量中的較小值,從而減少信息量較少的特征的影響。之后逐元素求和操作將對應位置的特征值相加,以合并兩個路徑中有用的信息,同時由于雙門控機制具有更強的非線性建模能力,因此可以學習更復雜的模式,提高模型的泛化性和建模能力。整個過程可以表示為
式中,σ(·)表示GELU激活函數(shù),即門控機制,Wp(·)表示卷積核大小為1 × 1 的卷積,Wd(·)表示3 × 3 大小的深度卷積,⊙表示逐元素相乘。
雖然L1損失函數(shù)、L2損失函數(shù)、感知損失以及對抗損失等多種損失函數(shù)的組合可以提高重建圖像的視覺效果,但為了驗證SRTSA 網(wǎng)絡的有效性,本文采用了與上述相關工作相同的損失函數(shù)——L1損失函數(shù)進行優(yōu)化。相較于其他損失函數(shù),L1損失函數(shù)提供了穩(wěn)定的梯度,并有助于模型快速收斂,使用L1損失函數(shù)進行優(yōu)化是驗證SR網(wǎng)絡性能的可靠方式。給定包含N個LR-HR 圖像對的訓練集,通過最小化L1損失優(yōu)化SRTSA的模型參數(shù)
式中,θ表示SRTSA網(wǎng)絡模型的參數(shù)。
本文使用DIV2K 數(shù)據(jù)集(Agustsson 和Timofte,2017)的800幅訓練圖像對SRTSA 網(wǎng)絡進行訓練,采用雙三次插值法(Bicubic)得到×2、×3、×4 共3 個比例因子的低分辨率圖像。為了增加訓練圖像的數(shù)據(jù)多樣性,將這800 幅訓練圖像水平翻轉或者隨機旋轉90°,180°,270°。在每次迭代中將16個48 × 48像素的低分辨率圖像送入網(wǎng)絡(batch size=16),使用Adam 優(yōu)化器進行訓練,其中,β1=0.9,β2=0.999,ε=1×10-8,初始學習率lr=5×10-4,總共迭代500 000次,迭代到200 000次時學習率減半。
使用具有不同特性的5 個標準測試集驗證網(wǎng)絡的有效性:Set5(Bevilacqua 等,2012)、Set14(Zeyde等,2012)、BSD100(Berkeley segmentation dataset 100)(Martin 等,2002)、Urban100(Huang 等,2015)、Manga109(Matsui 等,2017),并在輸出圖像的YCbCr空間Y 通道上計算峰值信噪比(peak signal-to-noise ratio,PSNR)和結構相似度(structural similarity,SSIM)指標評價SR 結果。使用PyTorch 框架在兩張NVIDIA GeForce RTX 3090 顯卡上訓練模型。在整個網(wǎng)絡中,為保持與SwinIR 模型進行公平對比,設置GLEIG 數(shù)M=6,GLEIB 數(shù)為N=6,CAB 輸出縮放權重α=0.05,轉置自注意力特征通道設置為120,多頭數(shù)設置為6。
為了展示SRTSA 模型的先進性,本文與Bicubic算法、SRCNN、VDSR、EDSR(enhanced deep residual network for single image super-resolution)、RCAN、SAN(second-order attention network for single image super-resolution)(Dai 等,2019)、HAN(single image super-resolution via a holistic attention network)(Niu等,2020)、NLSA、SwinIR 等模型在×2、×3、×4 共3 個比例因子上對PSNR指標和SSIM指標進行對比。較高的PSNR 值表示重建效果更好,SSIM 越接近1 表示SR圖像與HR圖像在結構上更為相似。
Chu 等人(2022)指出在圖像復原工作中由于計算資源限制,一般都將要修復的圖像裁剪成小塊(Patch)送入到模型中進行訓練。而在推理過程,一般則直接將需要修復的圖像送入到網(wǎng)絡中進行復原。這種模式存在著訓練與推理過程的不一致性,對利用全局信息的模型會產(chǎn)生負面影響。因此在測試過程中采用Chu等人(2022)提出的測試時間局部轉換器(test-time local converter,TLC)維持訓練與推理過程的一致性。
按照2.1 節(jié)的實驗設置對模型進行完整訓練,得到×2、×3、×4 共3 個不同比例因子的PSNR 和SSIM,分別展示在表1—表3 中。可以看到,在×4 倍SR 任務中,SRTSA 較SwinIR 在Set5、Set14、BSD100和Urban100 上,PSNR 分別提升0.07 dB、0.01 dB、0.03 dB 和0.08 dB,SSIM 也有較大提升。在×3 倍SR 任務中,SRTSA 較SwinIR 在Set5、BSD100、Urban100 和Manga109 上,PSNR 分別提升0.02 dB、0.04 dB、0.15 dB 和0.02 dB,SSIM 在5 個測試集上都獲得最佳指標。在×2 倍SR 任務中,SRTSA 較SwinIR在Set5、Set14、BSD100、Urban100和Manga109上,PSNR 分別提升0.03 dB、0.21 dB、0.05 dB、0.29 dB 和0.10 dB,SSIM 在除Manga109 以外的4個測試集上,分別提升0.000 4、0.001 6、0.000 9 和0.002 7,足以說明SRTSA的優(yōu)勢十分明顯。
表1 各模型在不同數(shù)據(jù)集上的表現(xiàn)(×2)Table 1 Performance of each model on different datasets(scale×2)
表2 各模型在不同數(shù)據(jù)集上的表現(xiàn)(×3)Table 2 Performance of each model on different datasets(scale×3)
表3 各模型在不同數(shù)據(jù)集上的表現(xiàn)(×4)Table 3 Performance of each model on different datasets(scale×4)
SRTSA 網(wǎng)絡在BSD100 和Urban100 這兩個包含豐富的結構和紋理信息且具有更高復雜度的測試集上的優(yōu)勢更為顯著。說明SRTSA網(wǎng)絡可以在復雜場景中保持高水平的細節(jié)保留和紋理重建能力,具有較強的結構感知能力和泛化性能,可以適應不同類型的圖像數(shù)據(jù)并提供高質(zhì)量的超分辨率重建圖像。
圖7 展示了Urban100 數(shù)據(jù)集044_img.png 圖像通過不同算法模型重建得到的圖像??梢钥吹?,Bicubic 算法所重建圖像十分模糊,VDSR、RDN(Zhang 等,2018b)等網(wǎng)絡只能重建出圖像較為模糊的輪廓且細節(jié)信息基本丟失,RCAN、SAN、SwinIR 可以重建出較為清晰的輪廓,但對于紋理結構的重建并不完善,SRTSA網(wǎng)絡所重建的圖像不但輪廓清晰,結構合理,并且對于細節(jié)紋理的恢復也最接近HR圖像。
圖7 Urban100數(shù)據(jù)集中044_img.png的測試結果(×4)Fig.7 Test results of 044_img.png in Urban100 dataset(scale×4)
圖8 展示了Urban100 數(shù)據(jù)集092_img.png 圖像經(jīng)過不同模型重建后的效果對比。Bicubic 插值法得到的結果呈現(xiàn)出非常模糊的特征,幾乎無法重建出圖像的細節(jié)?;谏疃葘W習的其他方法在重建過程中雖然保留了主要的輪廓信息,但在紋理結構和細節(jié)方面卻存在明顯的扭曲和偽影。而使用SRTSA網(wǎng)絡進行重建的圖像則具有紋理清晰、邊緣銳利以及細節(jié)豐富等優(yōu)點,通過恢復更多的信息獲得更好的結果。
圖8 Urban100數(shù)據(jù)集中092_img.png的測試結果(×4)Fig.8 Test results of 092_img.png in Urban100 dataset(scale×4)
圖8 中,不同方法重建結果差異性較大是因為SR 任務是一個典型的不適定問題,LR 圖像無法唯一確定對應的HR 圖像。VDSR、EDSR 等SR 模型受感受野較小、模型學習能力較弱等限制,無法充分考慮圖像的全局結構恢復細節(jié)信息,在生成SR圖像時都出現(xiàn)了將豎狀條紋重建為斜狀條紋、交叉條紋或者出現(xiàn)偽影等錯誤范式。相比之下,SRTSA 通過對全局信息進行建模,獲得更多紋理結構信息,極大地緩解了不適定問題,重建得到的SR 圖像也與HR 圖像更為相似。
局部歸因圖(local attribution maps,LAM)是由Gu和Dong(2021)針對SR 領域具有不可解釋性而提出的歸因分析方法,通過局部歸因圖的形式將對輸出結果產(chǎn)生強烈影響的像素重點標注出來。通過這種方式,可以很直觀地看到SR網(wǎng)絡的有效性。為了直觀地展示SRTSA 的優(yōu)勢,本文將SRTSA 和SwinIR同時使用LAM工具進行比較,比較結果如圖9所示。在LAM 中,作者提出擴散指數(shù)(diffusion index,DI)衡量LAM的結果,表示形式為
圖9 不同模型的LAM結果Fig.9 LAM results for different models
式中,GI表示基尼系數(shù)(Gini index,GI)。GI是國際上通用衡量一個國家或者地區(qū)收入差距的指標。在LAM 中,GI是衡量LAM 差距的指標,它可以反映LAM 所涉及的像素范圍。簡單理解就是對于重建圖像的某一部分來說,如果重建該部分只涉及少數(shù)像素點,則GI系數(shù)相對較高。因此DI和GI呈反比例關系,DI越大說明重建某一部分網(wǎng)絡考慮到更多的像素點。
從圖9 可以直觀地看到,SRTSA 生成SR 圖像時考慮到的像素范圍遠大于SwinIR 所考慮的像素范圍。實驗結果和客觀指標評價、主觀視覺感知高度一致,從可解釋性的角度證明了SRTSA的優(yōu)越性。
為了驗證SRTSA 網(wǎng)絡各組成部分的有效性,本文對不同結構進行消融實驗,并對實驗結果進行對比分析。1)實驗中把只有轉置自注意力機制和門控前饋網(wǎng)絡(GDFN)的模型作為Baseline;2)在Baseline上引入NAFBlock以驗證其對特征進行的簡單關系建模是否可以補充轉置自注意力機制損失的部分空間紋理和結構信息;3)在Baseline 上引入CAB 驗證補充局部信息是否可以增強圖像重建效果;4)同時引入NAFBlock 和CAB 驗證對特征進行簡單關系建模是否與對特征進行局部關系建模產(chǎn)生沖突;5)由于DGDFN 相對獨立,在實驗4)的基礎上引入DGDFN 即可驗證其是否可以提高模型的建模能力。在消融實驗中設置batch size=8,其余均按照2.1節(jié)的設置重新訓練網(wǎng)絡。
在Set5 測試集上的PSNR 如表4 所示。由表4中實驗2)可知,在Baseline 模型的基礎上引入NAFBlock 模塊之后PSNR/SSIM 獲得了0.01 dB/0.000 3的提升,說明對特征進行簡單關系建模可以保存部分空間結構信息。實驗3)結果表明,引入CAB 模塊后,PSNR 和SSIM 分別提升了0.02 dB 和0.000 3,說明CAB 通過捕捉圖像特有的局部相關性從而增強了網(wǎng)絡的建模能力。在實驗4)中,同時引入以上兩個模塊后,PSNR 和SSIM 分別提升了0.05 dB 和0.000 7。由實驗5)可知,本文DGDFN 的PSNR 和SSIM 分別提升了0.03 dB 和0.000 9,說明DGDFN可以提高模型的泛化性能和建模能力,同樣也說明在Transformer 模型中,自注意力機制和前饋網(wǎng)絡均發(fā)揮著不可或缺的作用。它們共同構成了模型的核心組件,并相互協(xié)作以實現(xiàn)高效的特征提取和建模。
表4 在 Set5(×4)測試上的消融實驗Table 4 Ablation study on Set5(scale×4)
同時,為了更直觀地展示各個模塊在SRTSA 模型中所做出的貢獻,采用LAM 工具分析模型的感受野,過程性結果如圖10所示。
圖10 過程性結果展示Fig.10 Process results display
為了解決主流方法通過在窗口內(nèi)使用自注意力機制,會限制特征聚合范圍而導致圖像重建效果不佳的問題,提出了基于轉置自注意力機制的超分辨率網(wǎng)絡(SRTSA)。通過轉置自注意力機制和通道注意力模塊分別對全局特征和局部特征進行建模,同時提出一個全新的雙門控深度卷積前饋網(wǎng)絡(DGDFN)提高模型的泛化性能。大量實驗結果表明,本文方法在客觀指標、主觀視覺和模型可解釋性方面均優(yōu)于目前主流的單圖像超分辨率算法。然而,本文算法也存在較多不足:1)用于局部信息增強的通道注意力塊在大通道數(shù)時會使用較大參數(shù)量,使得模型推理速度變慢,后期將構建一個全新的輕量級局部信息增強模塊對局部特征信息進行補充。2)盡管本文方法通過引入轉置自注意力機制隱式構建全局上下文關系節(jié)省了較多的參數(shù),但是全局信息建模網(wǎng)絡結構較為冗余,使得網(wǎng)絡復雜度更高。在未來的工作中,將設計一個更為簡潔的自注意力機制用于圖像全局信息的提取。