李哲遠 陳翔宇 喬 宇 董 超*井 焜 劉辰飛 許野平 陳英鵬
1(中國科學院深圳先進技術研究院 深圳 518055)
2(西北工業(yè)大學 西安 710072)
3(澳門大學 澳門 999078)
4(神思電子技術股份有限公司 濟南 250098)
單圖像超分辨率(Single Image Super Resolution,SISR,以下簡稱“超分”),旨在解決從低分辨率(Low-Resolution,LR)圖像重建相應高分辨率(High-Resolution,HR)圖像的問題,改善圖像的細節(jié)和紋理,提升視覺質量。目前,超分技術已廣泛應用于各領域,包括遙感、視頻監(jiān)控、醫(yī)療圖像,以及圖像分割、物體識別等高層視覺任務的預處理過程。超分技術在工業(yè)界和學術界都備受關注。
盡管大量研究已經(jīng)提出了許多高效的方法來推動超分網(wǎng)絡性能不斷快速發(fā)展,但超分問題始終是一個長期存在的基礎問題,在很多方面有待推進。由于超分是一個高度病態(tài)的問題,存在多個高分辨率圖像與相應的低分辨率圖像相對應,因此超分任務極具挑戰(zhàn)性。此外,隨著超分放大倍數(shù)的增加,問題的病態(tài)程度加劇,需要更多的先驗信息來重建丟失的像素。
近年來,神經(jīng)網(wǎng)絡和深度學習——計算機視覺和模式識別研究中應用最為廣泛的方法,利用大規(guī)模數(shù)據(jù)的強大學習能力克服了傳統(tǒng)算法嚴重依賴手工特征的缺點,在計算機視覺領域取得了矚目的成功。隨著深度學習相關理論和技術的發(fā)展,研究人員已注意到卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)的潛力。Dong 等[1]最先在超分領域提出先驅性的工作——超分卷積神經(jīng)網(wǎng)絡(Super-Resolution Convolutional Neural Network,SRCNN),探索了設計有效的超分網(wǎng)絡的可能性。隨后研究人員將最初應用于高層視覺任務和自然語言處理以增強深度網(wǎng)絡表達能力的注意力機制應用在單圖像超分網(wǎng)絡上,使網(wǎng)絡擬合能力大大增強,同時達到了最優(yōu)的性能,這些先進的網(wǎng)絡包括二階注意力網(wǎng)絡(Second-Order Attention Network,SAN)[2]、綜合注意力網(wǎng)絡(Holistic Attention Network,HAN)[3]、殘差通道注意力網(wǎng)絡(Residual Channel Attention Network,RCAN)[4]和 Swin 圖像恢復網(wǎng)絡(Image Restoration Using Swin Transformer,SwinIR)[5]等。
為了分析注意力機制在超分問題中的作用,以及不同注意力機制的有效性和效率,本文對注意力機制進行全面的分類和研究,總結了注意力機制的原理和發(fā)展過程。本文根據(jù)注意力機制的統(tǒng)計原理將相關網(wǎng)絡分為兩大類:基于一階注意力的超分網(wǎng)絡和基于高階注意力的超分網(wǎng)絡。為了進一步對比不同注意力機制的有效性和效率,本文設計了不同注意力機制模塊的性能對比實驗,驗證了部分注意力機制模塊的相對性能。
本文的主要貢獻有 4 點:(1)對比了不同特性的注意力機制的網(wǎng)絡架構和統(tǒng)計原理;(2)根據(jù)注意力機制的統(tǒng)計原理提出了一種新的分類方式;(3)設計了不同注意力機制模塊的性能對比實驗;(4)總結現(xiàn)有研究的局限性,歸納展望了多個未來發(fā)展方向。
針對圖像超分的問題,國內(nèi)外研究人員提出的各種算法和模型大致可以分為兩類:一類是基于神經(jīng)網(wǎng)絡的深度學習算法[1-7],另一類是模型傳統(tǒng)算法[8-9]。由于篇幅所限,本文只介紹基于深度神經(jīng)網(wǎng)絡的超分算法,使網(wǎng)絡專注于具有更多信息的通道。
自 SRCNN[1]成功地將深度學習網(wǎng)絡應用于超分任務以來,各種有效和更深層次的超分方法架構被陸續(xù)提出。Tai 等[10]提出的超深度持久記憶網(wǎng)絡(Very Deep Persistent Memory Network,MemNet)利用長期記憶網(wǎng)絡進行多任務圖像復原。Wang 等[11]將稀疏編碼領域的知識與深度CNN 結合,并訓練級聯(lián)網(wǎng)絡逐步恢復圖像。為了緩解梯度爆炸現(xiàn)象,降低模型復雜度,Kim等[12]提出深度遞歸卷積網(wǎng)絡(Deeply-Recursive Convolutional Network,DRCN)。Lai 等[13]提出的拉普拉斯金字塔超分辨率網(wǎng)絡(Laplacian Pyramid Super-Resolution Network,LapSR)采用金字塔框架,通過 3 個子網(wǎng)絡逐步生成×8 圖像。Lim 等[7]通過去除批量歸一化層修改了殘差網(wǎng)絡(Residual Network,ResNet)[14],這極大提高了超分效果。
目前,注意力機制已成功應用于基于深度卷積神經(jīng)網(wǎng)絡的圖像增強方法,幫助網(wǎng)絡忽略無關信息而專注于重要信息。Zhang 等[4]提出的殘差通道注意力網(wǎng)絡(Residual Channel Attention Network,RCAN)允許網(wǎng)絡專注于更多信息的通道。Choi 等[15]利用空間注意力機制,構建了SelNet 超分網(wǎng)絡。Dai 等[2]提出使用二階統(tǒng)計量的注意力模塊,使用二階特征統(tǒng)計自適應地細化特征。在單層信息被充分利用的情況下,Niu 等[3]提出一個融合層注意力機制和通道空間注意力機制的整體注意力網(wǎng)絡,以研究不同層、通道和位置的相互作用。Liang 等[5]結合卷積神經(jīng)網(wǎng)絡和基于自注意力機制的 Transformer,提出更具表達能力的 SwinIR,利用移位窗口對長程依賴進行建模,進一步提升了超分效果。
除了上述基于均方誤差(Mean Square Error,MSE)最小化的方法外,研究人員還提出了感知約束以實現(xiàn)更佳視覺質量[16]的方法。SRGAN[17]使用生成對抗網(wǎng)絡(Generative Adversarial Networks,GAN),通過引入多任務損失,包括均方誤差損失、感知損失[18]和對抗性損失[19],來預測高分辨率輸出。Zhang 等[20]根據(jù)紋理相似度從參考圖像進一步轉移紋理以增強紋理。
注意力機制是一種將可用計算資源偏向分配于信息量最大的信號的方法,應用于多個領域的研究,包括序列學習[21]、圖像中的定位[22]和理解以及圖像字幕[23]等。在這些應用中,注意力機制可以作為一個運算模塊合并到高級抽象層,以便在模態(tài)之間進行適配。注意力機制最先由 Bahdanau 等[24]提出并應用于機器翻譯。在2017 ILSVRC 競賽中,Hu 等提出冠軍模型——SENet[25],率先開發(fā)通道注意力機制,根據(jù)不同通道的重要程度,挖掘模型不同渠道相互依存關系。簡而言之,注意力機制幫助網(wǎng)絡忽略無關信息而專注于重要信息[26-27]。目前,注意力機制已成功應用于基于深度卷積神經(jīng)網(wǎng)絡的圖像增強方面。
本文根據(jù)注意力機制的統(tǒng)計原理將相關網(wǎng)絡分為兩大類——基于一階注意力的超分網(wǎng)絡和基于高階注意力的超分網(wǎng)絡。一階注意力超分網(wǎng)絡的核心是使用特征的一階統(tǒng)計量(如平均強度)生成注意力權重,而高階注意力超分網(wǎng)絡是利用高階統(tǒng)計量(如協(xié)方差)或自相似性方法生成注意力權重。為進一步說明對應的注意力機制,本文對每種注意力機制列舉一個具體的方法。
3.1.1 通道注意力機制
隨著深度學習的發(fā)展,Lim 等[7]充分發(fā)掘卷積神經(jīng)網(wǎng)絡在深度和廣度兩方面的潛力,提出了增強深度超分網(wǎng)絡(Enhanced Deep Super-Resolution Network,EDSR)和多尺度深度超分網(wǎng)絡(Multi-Scale Deep Super-Resolution Network,MDSR)。簡單地提高網(wǎng)絡的深度或廣度已經(jīng)很難獲得較大的性能提升,如何進一步提高超分網(wǎng)絡性能和構建可訓練的網(wǎng)絡成為當前亟待解決的問題。為了解決該問題,通道注意力機制被引入超分方法,其原理是通過對特征圖的處理,生成1×1×C特征權重,并捕捉每個通道之間的關系和重要程度,最后將該特征權重與每個對應的通道相乘,得到最終的加權特征圖。
Zhang 等[4]提出的通道注意力機制的重要代表網(wǎng)絡——殘差通道注意力網(wǎng)絡(Residual Channel Attention Network,RCAN),在殘差通道注意力模塊(Residual Channel Attention Block,RCAB)中使用了圖 1(a)所示的通道注意力機制。RCAB 包含 2 層卷積,1 個 ReLU[28]激活層和 1 個通道注意力模塊,以及 1 個鏈接模塊首尾的短連接。在通道注意力模塊中,特征圖通過非局部平均池化層,計算每個特征圖的平均值,將特征圖由H×W×C壓縮成 1×1×C。為了從聚合信息中完全捕獲通道維度的依賴關系,RCAN借鑒 Hu 等[25]的方法,首先使用 1×1 的卷積層來收縮特征圖以達到 1×1×C/r,其中r是收縮比(Reduction Ratio),設置r=16。然后經(jīng)過 1 個ReLU 激活層,通過 1×1 的卷積層重新恢復到初始大小為 1×1×C特征權重。最后經(jīng)過 Sigmoid函數(shù),輸出特征權重。新生成的特征權重已捕捉到每個通道之間的關系和重要程度,因此將該特征權重與每個對應的通道相乘,可得到最終的加權特征圖。
圖1 注意力機制示意圖Fig. 1 Schematic diagram of the attention mechanisms
3.1.2 空間注意力機制
空間注意力機制和通道注意力機制的作用方式類似,但它生成和原特征圖大小相同的二維特征權重,旨在加強空間域上的“注意力”,使網(wǎng)絡更加關注空間某些特定像素的信息,忽略冗余信息,凝聚模型的處理能力。盡管特征權重維度從一維擴展到了二維,但是超分問題和高層視覺問題有所不同,超分問題旨在恢復圖像的邊緣細節(jié)和高頻紋理。在殘差網(wǎng)絡的作用下,低頻信息通過長連接保留,而高頻信息在網(wǎng)絡主干中恢復,這與空間注意力機制的作用重復,故純粹的空間注意力機制網(wǎng)絡表現(xiàn)平庸。
受通道注意力機制的啟發(fā),Choi 等[15]提出選擇單元,利用空間注意力機制,構建 SelNet 超分網(wǎng)絡。如圖 1(b)所示,選擇單元由特征映射和選擇模塊組成。選擇模塊依次由 ReLU 激活層、卷積核大小為 1×1 的卷積層和 Sigmoid 函數(shù)層組成。選擇模塊計算空間域中的權重,生成二維的特征權重。
3.1.3 混合注意力機制
生成一維特征權重的方法存在忽略空間位置信息的局限性,生成二維特征權重的方法沒有充分利用通道間的相互依賴關系。因此研究人員開始嘗試結合兩者的特點,發(fā)掘通道和位置之間的依賴關系,生成三維特征權重,進一步增強網(wǎng)絡的表征能力。
3.1.3.1 基于 2D 卷積的混合注意力機制
Zhao 等[29]在通道注意力機制和空間注意力機制的啟發(fā)下,提出像素注意力機制,并構建超分網(wǎng)絡——像素注意力網(wǎng)絡(Pixel Attention Network,PAN)。通道注意力機制通過空間非局部池化層生成一維特征權重,空間注意力機制通過通道池化層生成二維特征權重,但這些注意力機制在超分任務中效果不明顯。如圖 1(c)所示的像素注意力機制進一步使用像素級的三維特征權重,同時移除池化層,可以顯著提高性能。
Zhao 等[29]提出的高效超分網(wǎng)絡 PAN 主要由像素注意力自校準模塊(Self-Calibrated block with Pixel Attention,SC-PA)和像素注意力上采樣模塊(Upsampling block with Pixel Attention,U-PA)組成。SC-PA 分為上下兩部分,上層負責更高層的特征提取,下層負責維護原始信息。SC-PA 結構簡單,沒有復雜的連接和尺度變換操作,使用多個 2D 卷積核生成三維特征權重,更利于硬件加速。
U-PA 負責圖像的重建步驟。目前,很少有超分網(wǎng)絡重點研究重建步驟的結構,通常使用反卷積或像素混洗層和規(guī)則卷積。然而,這種結構多余且低效。為了進一步提升模型的效率,PAN在 U-PA 卷積層中加入像素注意力模塊(Pixel Attention,PA),同時使用鄰近上采樣算法,進一步減少參數(shù)量。
3.1.3.2 基于 3D 卷積的混合注意力機制
空間注意力機制關注特征的平面維度,沒有充分利用通道維度信息,而通道注意力機制又忽略平面信息。基于此,使用 3D 卷積捕獲全部維度的信息,使通道空間注意力模塊利用強大的表達能力來描述連續(xù)通道的通道間和通道內(nèi)信息。
通道注意力機制已被證明可以有效保留每一層信息豐富的特征,然而通道注意力機制將每個特征通道視為一個單獨的過程,忽略了不同層之間的相關性。為了解決該問題,Niu 等[3]提出的混合注意力網(wǎng)絡 HAN 在 RCAN 基礎上增加了層注意力模塊(Layer Attention Module,LAM)和基于 3×3×3 的 3D 卷積的通道空間注意力模塊(Channel-Spatial Attention Module,CSAM),為層、通道和位置之間的整體相互依賴性建模。
3.2.1 基于高階統(tǒng)計量的注意力機制
Dai 等[2]認為大多數(shù)基于 CNN 的超分模型都沒有考慮特征的相互依賴性,盡管 SENet 通過重新調(diào)整通道特征的方法利用特征通道的相互依賴性,但使用全局平均池化層會導致網(wǎng)絡忽略高于一階的統(tǒng)計量,從而限制網(wǎng)絡性能。Lin 等[30]和Li 等[31]的相關工作也表明在深度卷積神經(jīng)網(wǎng)絡中,二階統(tǒng)計量比一階統(tǒng)計量的表達能力更強。
Dai 等[2]提出的 SAN 在通道注意力機制的基礎上,增加了非局部增強殘差組和二階通道注意力模塊。其中,二階通道注意力模塊,使用全局協(xié)方差池化層代替?zhèn)鹘y(tǒng)通道注意力機制中使用的一階池化層,如全局平均池化層。全局協(xié)方差池化層可以通過以下一系列公式表示:
3.2.2 基于卷積神經(jīng)網(wǎng)絡的非局部注意力機制
自注意力機制最早應用于自然語言處理領域,通過計算單詞間的互相影響解決長距離依賴問題。在純卷積神經(jīng)網(wǎng)絡中,卷積運算 1 次只處理 1 個局部鄰域,難以充分利用非局部的信息。為了充分利用自然圖像中的自相似性特征,加強網(wǎng)絡對于重復紋理的注意力,研究人員在超分領域引入了圖 2 所示的自注意力模塊,生成自注意力特征權重來增強網(wǎng)絡的特征提取和恢復能力。Liu 等[6]將自注意力機制應用于超分,和循環(huán)網(wǎng)絡結合,提出了非局部循環(huán)網(wǎng)絡(Non-Local Recurrent Network,NLRN);Zhang 等[32]結合自注意力機制和殘差網(wǎng)絡 ResNet[14]提出了殘差非局部注意力網(wǎng)絡(Residual Non-Local Attention Network,RNAN);Dai 等[2]在二階通道注意力的基礎上,融合區(qū)域自注意力機制,提出了SAN。
圖2 非局部注意力機制示意圖Fig. 2 Pipeline of non-local attention mechanism
對于給定的特征X,自注意力機制生成特征權重Zi,j可以用以下公式來表示:
與一般的利用空間自相似性原理的非局部注意力機制不同的是,HAN[3]的層注意力機制通過聚合多個網(wǎng)絡中間特征圖,并重塑聚合特征圖,生成層間相似性特征權重。
HAN 的密集連接和跳過連接允許繞過淺層信息,但并沒有利用不同層之間的相互依賴性。相比之下,HAN 的層注意力模塊將每一層的特征圖視為對特定類的響應,且不同層的響應相互關聯(lián)。對層間特征使用非局部注意力機制以獲取不同深度特征之間的依賴關系,使網(wǎng)絡可以為不同深度的特征分配不同的注意力權重,并自動提高特征的提取能力。
3.2.3 基于圖神經(jīng)網(wǎng)絡的非局部注意力機制
Zhou 等[33]提出的跨尺度內(nèi)部圖神經(jīng)網(wǎng)絡(Internal Graph Neural Network,IGNN)的靈感來自傳統(tǒng)的基于自我實例[30]的超分方法。IGNN的原理來自于經(jīng)過統(tǒng)計驗證的跨尺度切片重復屬性[34],因為在自然圖像中,局部切片往往跨尺度重復多次。IGNN 將跨尺度相似塊之間的這種內(nèi)部相關性建模為一個圖,其中每個切片是一個頂點,邊是來自兩個不同尺度切片之間的相似系數(shù)。基于該圖結構,IGNN 能夠處理不規(guī)則的圖數(shù)據(jù),并有效探索跨尺度遞歸屬性。如圖 3,相較于傳統(tǒng)方法將跨尺度切片作為約束,IGNN 利用圖模塊來聚合高分辨率圖像,包括圖構建和切片聚合兩個步驟。與其他超分網(wǎng)絡僅從外部數(shù)據(jù)學習從低分辨率向高分辨率的映射不同,IGNN充分利用了從低分辨率圖像發(fā)現(xiàn)的k個最可能的高分辨率切片來恢復更詳細的紋理。
圖3 跨尺度內(nèi)部圖神經(jīng)網(wǎng)絡原理示意圖[33]Fig. 3 Schematic diagram of IGNN[33]
在圖構建環(huán)節(jié),IGNN 首先通過 19 層的視覺幾何群網(wǎng)絡(Visual Geometry Group Network,VGG)[35]的前三層為低分辨率圖像IL和其下采樣圖 生成特征圖EL和 。然后對每個待查詢切片在 中搜索k個最近的鄰接切片來動態(tài)構建跨尺度圖 。將切片從 尺度的k個鄰接切片映射到EL尺度后,構建的跨尺度圖 可以為每個待查詢切片提供切片對。最終該跨尺度圖可以表示為 ,頂點 是低分辨率特征圖EL中的切片和高分辨率圖像中的對應k個鄰接切片,邊 包含了高分辨率切片和對應的k個鄰接切片的相關系數(shù)。
在切片聚合部分,IGNN 借鑒邊緣卷積(Edge-Conditioned Convolution)[36]的思想聚合了k個以邊緣標簽為條件的高分辨率切片,其過程可以表示為公式(7):
3.2.4 自注意力機制
大多數(shù)基于卷積神經(jīng)網(wǎng)絡的方法專注于精細的架構設計,如殘差學習和密集連接等。雖然與傳統(tǒng)基于模型的方法[38-39]相比,性能有了顯著提升,但它們存在兩個源于卷積層的基本問題。第一,圖像和卷積核之間的交互與內(nèi)容無關,使用相同的卷積核來恢復不同的圖像區(qū)域不是最合理的選擇;第二,在局部處理原理下,卷積對長程依賴建模效果不佳。Transformer[21]使用了一種自注意力機制來捕獲上下文之間的全局交互,并在多個視覺問題[40-41]中表現(xiàn)出良好的性能,但會產(chǎn)生兩個缺點:一是邊界像素不能利用切片外的相鄰像素進行圖像恢復;二是恢復的圖像可能會在每個切片周圍引入邊界偽影,雖然這個問題可以通過切片重疊來緩解,但它不可避免會引入額外的計算負擔。
2021 年,Liu 等[22]提出的 Swin Transformer融合了 CNN 和 Transformer 的優(yōu)點,潛力巨大。如圖 4 所示,其關鍵模塊 Swin Transformer Layer由多頭自注意力模塊(Multi-Head Self-Attention,MSA)和多層感知器(Multi-Layer Perceptron,MLP)組成。
圖4 Swin Transformer 層示意圖Fig. 4 Pipeline of Swin Transformer Layer
Liang 等[5]在 Swin Transformer 的基礎上,提出一種圖像恢復模型——SwinIR。該模型一方面利用局部注意力機制具有處理大尺寸圖像的優(yōu)勢,另一方面具有 Transformer 的優(yōu)勢,可以利用圖 5 所示的移窗機制對長程依賴進行建模。如圖 5 所示,給定大小為H×W×C的輸入特征圖,首先將輸入劃分為不重疊的大小為M×M的局部窗口,使其重塑為HW/M2×M2×C大小的特征圖,其中HW/M2為窗口總數(shù)。然后,分別計算每個窗口的標準自注意力權重。對于局部窗口特征圖 ,查詢、鍵和值矩陣Q、K和V的計算方式如下:
圖5 移窗機制示意圖Fig. 5 An illustration of shifted windows
其中,B是可學習的相對位置編碼,d是查詢、鍵的維度。而后并行執(zhí)行h次注意力函數(shù)并將結果連接起來用于 MSA 模塊。
本文使用 DIV2K 數(shù)據(jù)集[42]作為訓練數(shù)據(jù)集,其中包含 800 張訓練圖像。訓練使用的低分辨率圖像由高分辨率圖像經(jīng)過 Matlab 雙三次下采樣獲得,同時在訓練過程中對 800 張訓練圖像隨機旋轉 90°、180°、270° 并水平翻轉進行數(shù)據(jù)增強。
所有網(wǎng)絡都采用了階梯式學習率下降的方法,初始學習率為 10-4,每迭代 2×105次學習率下降一半,最小學習率設為 =10-8,共訓練8×105次迭代。統(tǒng)一使用了 Adam 優(yōu)化器[43],其中 Adam 優(yōu)化器的超參β1=0.9,β2=0.999,批量大小(Batch Size)設置為 32,采用低分辨率圖像為 48×48 大小的圖像切片作為訓練輸入。本文所有網(wǎng)絡均使用 Pytorch 框架[44],在 Nvidia GeForce RTX 3090 上訓練。
本文使用 5 個標準基準數(shù)據(jù)集:Set5[45]、Set14[46]、B100[47]、Urban100[48]、Manga109[49]進行評估。高分辨率結果通過 YCbCr 空間的 Y通道上的峰值信噪比(Peak Signal to Noise Ratio,PSNR)和結構相似性指數(shù)[50](Structural Similarity Index,SSIM)進行評估。
目前,研究人員已分析比較多個損失函數(shù),包括 損失函數(shù)[2,7,51]、 損失函數(shù)[1,17,52]和生成對抗損失函數(shù)[17]。本文主要聚焦注意力機制,故不討論使用生成對抗損失函數(shù)的算法。早期一些算法 SRCNN[1]、FSRCNN[53]等都使用
損失函數(shù),而在基于注意力機制的超分算法中,所有算法均使用了 損失函數(shù)。
表 1 展示了超分算法在峰值信噪比和結構相似性指數(shù)度量的結果。SAN[2]、HAN[3]、RCAN[4]和 SwinIR[5]均表現(xiàn)出了優(yōu)秀的性能,其中 HAN 的性能在卷積神經(jīng)網(wǎng)絡匯總中表現(xiàn)最佳,SwinIR 在所有測試集中的表現(xiàn)與其他方法都拉開了顯著的差距。
表 2 展示了不同超分網(wǎng)絡的對比分析。其中AIM 2020[54]比賽中的高效超分網(wǎng)絡 PAN 模型的超分效果較差,但激活次數(shù)(M)、卷積數(shù)量、浮點運算量(G)、參數(shù)量(M)、顯存占用(M)和平均計算時間(s)最優(yōu)。RNAN 與 PAN 相比,盡管超分效果領先較大,但模型規(guī)模急劇膨脹,且由于網(wǎng)絡中的殘差非局部注意力模塊(Residual Non-Local Attention Block,RNAB)的特性,在目標圖像尺寸較大的情況下,顯存占用會急劇提升,以致在測試過程中,Urban100 和 Manga109 數(shù)據(jù)集不能直接在 Nvidia GeForce RTX 3090 上運行。如表 1 所示,在 Set5 數(shù)據(jù)集的 4 倍超分結果中,IGNN 相比于 RNAN 雖然在 PSNR 指標上提升了 0.08 dB,但由于該網(wǎng)絡使用 VGG19 和基于多切片聚合圖神經(jīng)網(wǎng)絡的原因,網(wǎng)絡的參數(shù)量、運算量、顯存占用和計算時間等與其他網(wǎng)絡相比都產(chǎn)生了非常大的差距。本文所調(diào)研的模型中,計算成本和運行時間成本最大的網(wǎng)絡是 RNAN,但其效果并非最優(yōu)。RCAN、SAN 和 HAN 的超分性能優(yōu)秀,且激活次數(shù)、運算量和參數(shù)量接近。其中,SAN 的卷積層雖然較少,但由于網(wǎng)絡的區(qū)域級非局部模塊需要生成協(xié)方差矩陣和非局部注意力權重矩陣,在較大的圖像上,會產(chǎn)生大量額外的計算開銷和顯存占用,以致在測試過程中Urban100 和 Manga109 數(shù)據(jù)集不能直接在 Nvidia GeForce RTX 3090 上運行。
表1 不同超分網(wǎng)絡的定量結果Table 1 Quantitative results of different SR networks
表2 不同超分網(wǎng)絡的模型對比Table 2 Model summary of different SR networks
不同的注意力機制基于不同的原理,通過“注意”層、通道、位置之間的信息,增強網(wǎng)絡表達能力和恢復能力。為了進一步比較不同注意力模塊的性能,表 3 展示了在相同骨干網(wǎng)絡下,不同注意力模塊的性能表現(xiàn),所有網(wǎng)絡模型均取最后一次訓練結果。
表3 RCAN 骨干網(wǎng)絡下不同注意力模塊的性能對比Table 3 Comparison of different attention modules based on the same backbone
HAN 中的層注意力模塊和通道空間注意力模塊對網(wǎng)絡性能都產(chǎn)生顯著的提升效果。在RCAN 的基礎上添加通道注意力模塊后,網(wǎng)絡在Urban100 和 Manga109 數(shù)據(jù)集的超分效果分別提升了 0.118 8 dB 和 0.154 4 dB。使用層注意力模塊后,網(wǎng)絡 SSIM 指標有輕微提升。
PAN 性能最差,表明簡單堆疊像素注意力模塊并不能獲得更好的性能。對比表 4,像素注意力機制在 RCAN 骨干網(wǎng)絡上性能較差不是因為像素注意力模塊的參數(shù)量較小,而是因為網(wǎng)絡結構的限制。在加大網(wǎng)絡深度后,PAN 的性能仍然沒有明顯提升。
SAN 使用協(xié)方差特征矩陣傳遞特征矩陣性能明顯優(yōu)于直接傳遞特征矩陣的 RCAN,在Urban100 測試集上超分效果提升了 0.110 6 dB,表明二階統(tǒng)計量對于網(wǎng)絡的性能有顯著的提升。
表 4 展示了以 MDSR 的參數(shù)量為基準,在近似參數(shù)量的情況下各個注意力模塊的性能。HAN相比于 RCAN 主要改進的是 LAM 和 CSAM。在整體參數(shù)量相對 HAN 原網(wǎng)絡較小的情況下,HAN-L 中的 LAM 沒有如原模型對網(wǎng)絡起到增強作用,甚至對模型起到一定的負作用。而在不使用 LAM 的模型 HAN-L-woLA 中,CSAM對 HAN 的性能明顯增強,相比于 RCAN 在大部分指標上均有明顯提升。HAN-S-wLA 相比于RCAN 在 Set5、Set14 數(shù)據(jù)集測試具有明顯的性能優(yōu)勢,其在 Manga109 數(shù)據(jù)集上以 0.08 dB 大幅強于 RCAN,但是在 BSD100 和 Urban100 數(shù)據(jù)集上 PSNR 指標落后約 0.02 dB,SSIM 指標落后約 0.001。在參數(shù)量較小且沒有使用 RL-NL 模塊的情況下,SAN 與采用一階統(tǒng)計量的 RCAN性能接近,沒有表現(xiàn)出明顯的優(yōu)勢。高效超分網(wǎng)絡 PAN 在增加網(wǎng)絡寬度和深度后,性能明顯提升,與 RCAN 的性能相當。RNAN 在減少網(wǎng)絡參數(shù)量后,性能急劇下降。
表4 參數(shù)量相近的不同注意力網(wǎng)絡的性能對比Table 4 Comparison of different attention networks with comparable parameters
在訓練過程中,PAN 放大倍數(shù)為 4 的網(wǎng)絡可以直接使用以上設置獲得理想的效果,而IGNN、SAN、HAN、RNAN 和 RCAN 直接使用4.1 節(jié)中的訓練設置會與原文的效果產(chǎn)生一定差距,尤其是 HAN 容易出現(xiàn)梯度爆炸導致訓練崩潰,需要加載 RCAN 或 HAN 預訓練模型才能使訓練正常進行。HAN、SAN、RNAN 和 RCAN需要通過加載×2 預訓練模型,設置學習率為10-5,訓練 2×105次迭代,才可以得到原文的結果。
圖 6 展示了各網(wǎng)絡在“YumeiroCooking”和“img_004”圖像×4 超分的可視化對比。在“YumeiroCooking”可視化對比中,通過視覺感受和 PSNR/SSIM 指標量化分析可得,HAN、RCAN 的視覺效果明顯優(yōu)于其他超分網(wǎng)絡。其中,HAN 的效果最佳,是唯一 PSNR 高于 30 dB的網(wǎng)絡,線條邊界清晰,方向準確;RCAN 效果次佳,方向準確,但右側條紋密集區(qū)域輕微模糊。其他網(wǎng)絡均存在明顯的邊緣模糊和條紋方向錯誤問題。觀察“img_004”,其中 IGNN、RCAN 和 SAN 的視覺效果和量化指標較好。盡管在 IGNN 恢復的白色網(wǎng)格中存在一些黑色偽影,且將橢圓形網(wǎng)格恢復成了接近方形的情況,但網(wǎng)絡視覺效果和指標均為最佳。而 RCAN 和SAN 只生成了部分網(wǎng)格,SAN 在黑色網(wǎng)格部分效果明顯弱于 RCAN。
量化性能最好的 SwinIR 在圖 6 沒有表現(xiàn)出非常強的復原效果。為了進一步驗證 SwinIR 的性能,如圖 7 所示,本文挑選 Urban100 數(shù)據(jù)集中場景更加復雜的“img_073”和“img_076”,對比圖像邊緣和復雜結構疊加人臉紋理的超分效果。對比“img_073”的邊緣大樓效果,PAN、RNAN、IGNN 和 SAN 都產(chǎn)生了方向錯誤的線條,整個大樓的透視角度完全錯誤。HAN 的輸出結果盡管透視角度準確,但與 RCAN 和SwinIR 相比,邊緣明顯更為模糊。相似的效果在“img_076”也有所體現(xiàn),僅有 HAN、RCAN、SwinIR 輸出了清晰的紋理,但均受到人臉皮膚紋理的干擾,將矩形結構錯誤恢復成六邊形結構。
圖6 Urban100 測試集中 img_004 和 Manga109 測試集中 YumeiroCooking 在×4 超分的可視化對比Fig. 6 Visual comparison for ×4 SR on img_73 in Urban100 and YumeiroCooking in Manga109
圖7 Urban100 測試集中 img_073 和 img_076 在×4 超分的可視化對比Fig. 7 Visual comparison for ×4 SR on img_073 and img_076 in Urban100 datasets
總體來說,SwinIR、HAN 和 RCAN 的視覺效果最佳。HAN 和 RCAN 對單一紋理表現(xiàn)出非常強的恢復效果,而 SwinIR 能夠較好地處理復雜場景和圖像邊緣。HAN 和 RCAN 的優(yōu)秀視覺效果說明,基于通道注意力機制的主干網(wǎng)絡明顯提升單一紋理的復原效果,而對于復雜場景和疊加紋理,基于 Transformer 的自注意力機制表現(xiàn)出非常強的表征能力。
局部歸因圖是由 Gu 等[55]提出的一個超分網(wǎng)絡解釋性方法,繼承了積分梯度的方法,可以直觀展示網(wǎng)絡的實際感受野。如圖 8 所示,通過分析不同算法的局部歸因圖,觀察到不同算法的“視野”,分析不同算法的行為模式。圖中的紅色高亮部分表示對超分圖片影響最大的部分,理論上,對于相同的局部切片,越大的局部歸因圖代表網(wǎng)絡利用了更多像素中的信息。
圖8 超分結果和不同網(wǎng)絡局部歸因圖Fig. 8 Comparison of the SR results and LAM attribution results of different SR networks
從圖 8 分析可得,除了高效超分網(wǎng)絡 PAN以外,RCAN、RNAN、SAN、HAN 均通過非局部的算法利用全局信息,PAN 將“注意力”僅放在局部切片附近,未能成功復原豎直紋理,且邊緣模糊。而 RCAN、SAN 則“注意”到切片以外的相似結構,嘗試使用這些額外信息恢復該局部切片,盡管受到干擾,出現(xiàn)一些異常斜紋,但邊緣細節(jié)相對 PAN 的恢復效果更加清晰。對該切片成功復原的網(wǎng)絡有 HAN 和 SwinIR。在局部歸因圖中觀察到,相對 RCAN 和 SAN,HAN和 SwinIR 網(wǎng)絡利用了該切片左上方和左下方的豎直結構,恢復效果邊緣銳利,紋理正確。但對于該切片左上方和左下方的相似豎直紋理,HAN復原失敗,產(chǎn)生了斜向紋理;SAN 成功復原,但有嚴重斜向偽影;SwinIR 復原效果最佳,邊緣清晰,幾乎無斜向偽影,但目標切片右上方的紋理復原沒有 SAN 和 HAN 的效果清晰。
基于 CNN 的超分網(wǎng)絡結構已被充分研究和探索,主要骨干網(wǎng)絡均使用類似 EDSR 的單分支殘差網(wǎng)絡結構,并結合長連接和短連接。該類結構一方面增強了深度網(wǎng)絡的可訓練性,一定程度上緩解了深度超分網(wǎng)絡一直存在的梯度消失和梯度爆炸問題。另一方面,低分辨率輸入和特征中有許多冗余的低頻信息可以通過這些連接傳遞,使超分網(wǎng)絡能更專注于恢復損失的高頻信息。
在 CNN 網(wǎng)絡基礎上,RCAN 通過引入全局池化層,擴大網(wǎng)絡的感受野,提升網(wǎng)絡的信息獲取范圍。PAN 使用基于 2D 卷積的混合注意力機制,在參數(shù)量極小的情況下獲得可觀的超分效果。HAN 在 RCAN 基礎上,在網(wǎng)絡末尾使用基于 3D 卷積的混合注意力機制,配合基于二階自注意力機制的層注意力模塊,進一步提升網(wǎng)絡的表征能力。SAN 在 RCAN 基礎上,使用全局協(xié)方差池化層代替全局平均池化層,以及二階統(tǒng)計量方法增強網(wǎng)絡的表征能力。
但基于 CNN 結構的網(wǎng)絡仍存在兩個源于卷積層的基本問題導致性能出現(xiàn)瓶頸:第一,圖像和卷積核之間的交互與內(nèi)容無關,使用相同的卷積核來恢復不同的圖像區(qū)域不是最合理的選擇;第二,在局部處理原理下,卷積對長程依賴建模效果不佳。
為了解決上述問題,研究人員開始嘗試將自然語言處理中表現(xiàn)突出的自注意力機制引入超分方法。早期方法如 NLRN 和 RNAN 僅簡單地對中間特征圖使用自注意力操作,網(wǎng)絡的性能提升有限,同時犧牲了網(wǎng)絡的計算量和運算速度。IGNN 則嘗試通過圖神經(jīng)網(wǎng)絡,挖掘圖像跨尺度特征融合的方法,獲得較為可觀的性能,但存在圖像失真、網(wǎng)絡并行化程度低和運算速度慢的問題。
盡管基于 Transformer 的方法依靠極富競爭力的建模能力在多個高層視覺任務中取得不俗的表現(xiàn),但在超分領域基于 Transformer 的方法仍然不多。直到 SwinIR 在超分任務上的優(yōu)秀表現(xiàn)刷新了研究人員對于 Transformer 在超分任務上的認知。通過局部切片和移窗機制,SwinIR 解決了自注意力機制網(wǎng)絡計算量爆炸和切片邊緣模糊的問題,充分利用窗口內(nèi)部的局部信息和移窗時的長程依賴,同時保證了網(wǎng)絡的并行性,使超分網(wǎng)絡性能達到新高度。
但 SwinIR 顯然不是超分網(wǎng)絡的最終形態(tài),基于高階注意力機制的網(wǎng)絡結構仍有待進一步發(fā)掘,尤其基于 Transformer 的網(wǎng)絡展現(xiàn)出非常大的潛力。目前,基于 Transformer 的網(wǎng)絡結構設計由于計算量龐大,自注意力機制的應用仍然停留在固定大小的特征切片上。在 4.6 節(jié)可視化部分也可以觀察到,對于部分處于臨界恢復效果的圖像,SwinIR 相比于傳統(tǒng) CNN 方法沒有表現(xiàn)出明顯的優(yōu)勢,也容易受到重疊紋理的干擾。
基于 Swin Transformer 的結構本質是對全局自注意力機制的一種稀疏化表示,不可避免在某種程度上犧牲模型對全局信息的表征能力。然而,僅通過擴大窗口的尺寸來擴大感受野的方式雖然能在一定程度上改善該問題并使得模型能力得到一定提升,但由于該結構的計算量與窗口大小的平方成正比,會大量增加計算成本并與基于窗口的稀疏化自注意力機制的出發(fā)點相悖。對此,可能的改進方式包括:一是在基于窗口的自注意力結構下增強模型利用全局信息的能力;二是改進自注意力機制的計算方式,將復雜度O(n2)的注意力權重計算降低至O(nlogn)甚至O(n)。
目前,幾乎所有基于注意力機制的超分網(wǎng)絡在生成數(shù)據(jù)時,都默認使用理想的雙三次下采樣算法得到低分辨率圖像,和實際應用存在較大差異。實際應用的退化方式復雜,存在成像設備不同、圖像處理算法不同、壓縮方式不同等引起的不同退化問題。在不同退化處理過程損失的信息也各有差異,退化方式不匹配的問題使基于注意力機制的超分網(wǎng)絡在實際應用中效果較差,產(chǎn)生嚴重的偽影問題。如果將特定退化對應的超分模型應用于任意低分辨率輸入,超分輸出與目標高分辨率圖像之間將存在極大的域間隙,從而導致質量較差的結果。
為了對未知退化類型的低分辨率圖像進行超分增強,學界提出了另一種盲超分(Blind Super-Resolution)方法,包括:具有迭代內(nèi)核校正的盲超分辨率方法(Iterative Kernel Correction,IKC)[56]、深度交變網(wǎng)絡(Deep Alternating Network,AN)[57]、變體盲超分辨率(Variant Blind Super-Resolution,VBSR)[58]、核建模超分辨率網(wǎng)絡(Kernel Modeling Super-Resolution Network,KMSR)[59]、真實增強生成對抗超分網(wǎng)絡(Real-World Enhanced Generative Adversarial Network for Image Super-Resolution,Real-ESRGAN)[60]等。盲超分通過基于方程擴展的顯式建模和基于外部數(shù)據(jù)集內(nèi)固有分布的隱式建模方法,嘗試縮小自然圖像域和輸出圖像域之間的差距。顯式建模方法將模糊、下采樣、噪聲和 JPEG 壓縮經(jīng)典退化模型組合生成真實退化模型。
然而,現(xiàn)實世界的退化太復雜,無法通過多個退化模型的簡單組合進行建模。因此,以上方法在現(xiàn)實世界的樣本中容易失敗。隱式建模試圖繞過顯式建模的步驟,利用數(shù)據(jù)分布學習和生成對抗網(wǎng)絡(GAN)獲得退化模型。隱式建模通過數(shù)據(jù)分布隱式定義退化過程,且現(xiàn)有隱式建模的方法均需要外部數(shù)據(jù)集進行訓練。然而,它們僅限于訓練數(shù)據(jù)集的退化,不能很好地推廣到分布外圖像。
現(xiàn)有方法通常聲稱專注于現(xiàn)實世界的設置,實際上假設了某個場景,如某些數(shù)碼相機拍攝的圖像。事實上,真實世界的圖像在其潛在的退化類型上大有不同,為特定退化類型設計的超分模型容易在另一種退化類型上表現(xiàn)較差,而造成不同退化的主要因素有 3 個,包括獲取圖像的設備、圖像處理算法和存儲導致的圖像退化。
上述討論的現(xiàn)實世界的圖像都有自己的退化和挑戰(zhàn)。以往的工作通常專注于單一類型的真實圖像,如智能手機拍攝的圖像,這極大限制了它們在不同場景的表現(xiàn)。未來,期望看到對不同類型的真實世界圖像的更多探索以及更加綜合可靠的真實退化數(shù)據(jù)集。研究出針對每種不同類型均有效的解決方案,應該是超分研究的最終目標。
本文涵蓋的大部分方法,尤其是具有顯式退化建模和外部數(shù)據(jù)集的方法,需要“低分辨率-高分辨率”圖像對來優(yōu)化和評估超分模型。然而,由于難以獲得真實的配對數(shù)據(jù),到目前為止只有少數(shù)真實世界的數(shù)據(jù)集,大多數(shù)方法仍然從高分辨率圖像合成低分辨率輸入。使用精心設計的技術和先進的數(shù)字設備構建的真實圖像數(shù)據(jù)集屈指可數(shù),包括 City100[61]、DRealSR[62]和RealSR[63]。其中,DRealSR 數(shù)據(jù)量最大,每個超分倍數(shù)有 800 個圖像對,并通過調(diào)整成像設備的焦距來捕獲高分辨率圖像及其相應的低分辨率觀測值,然后將圖像對精確對齊并校正顏色。與合成數(shù)據(jù)相比,這些真實世界的數(shù)據(jù)集是在真實環(huán)境中研究盲超分的重要基準。 然而,構建真實世界的數(shù)據(jù)集既耗時又昂貴,并且由于不同成像系統(tǒng)之間的復雜差異,也無法涵蓋所有場景。希望未來會出現(xiàn)規(guī)模更大、場景更加復雜、退化方式更接近真實場景的數(shù)據(jù)集,為超分發(fā)展提供堅實的數(shù)據(jù)支持。
回顧注意力機制從一階向高階的發(fā)展歷程,不難看出,注意力機制仍處于快速發(fā)展階段,不斷有新網(wǎng)絡在現(xiàn)有基礎上改進,在測試集上顯示出更優(yōu)秀的超分效果。尤其是 SwinIR 的出現(xiàn),使自注意力機制擺脫了不適用于超分領域的質疑,不僅展現(xiàn)了最先進的超分性能,還減少了模型的計算量,顯存利用更加高效。
盡管近年來超分模型發(fā)展迅速,但當前先進的超分模型過于專注單個任務,如雙三次下采樣,結果為多個任務或環(huán)境單獨開發(fā)了數(shù)千個模型,消耗了大量的計算資源,卻無法處理真實場景下的復雜退化類型。行業(yè)中成千上萬的長尾任務,即各種退化方式,是人工智能研究和應用面臨的一個重大障礙。通用人工智能方法將“通用智能”作為一個不同的屬性,理應關注人工智能模型的通用性、適應性和靈活性。
視覺和語言是通用人工智能不可或缺的兩種模式。在語言方面,通用語言模型(General Vision Model,GLM)取得了令人矚目的進展。BERT[64]和 GPT-3[65]等大規(guī)模預訓練語言模型已顯示出開發(fā) GLM 的潛力,這些 GLM 通過使用情景學習和即時學習,不需要進行反向傳播,在控制大模型訓練成本的同時,有益于廣泛的語言相關下游任務。此外,隨著與任務無關的訓練目標的出現(xiàn),可以通過擴展網(wǎng)絡爬行數(shù)據(jù)和模型容量以及計算預算來穩(wěn)步提高預訓練的性能增益。
GLM 的成功激發(fā)了大規(guī)模超分預訓練模型學習的新方向。從事大規(guī)模監(jiān)督、自監(jiān)督和跨模態(tài)預訓練的先驅在有限范圍的下游視覺任務上表現(xiàn)出一定的普遍性。然而,設計可靠的大規(guī)模超分預訓練方法仍具挑戰(zhàn)性。大多數(shù)已有的工作主要利用一個監(jiān)督信號源,在單獨的監(jiān)督下進行單調(diào)預訓練生成在特定場景中表現(xiàn)良好的模型,但如果目標是獲得可推廣到大量下游任務(甚至是目前不可知的任務)的“真實”大規(guī)模超分預訓練模型,單一監(jiān)督則無法提供足夠的表征能力。如何實現(xiàn)不同退化類型超分視覺任務的通用網(wǎng)絡,集成各種監(jiān)督信號的、高度可擴展的上游預訓練模型,以及針對多樣化任務設計靈活的下游網(wǎng)絡,將會是超分大規(guī)模預訓練模型的關鍵突破點。
超分方法通常通過圖像質量評估指標(Image Quality Assessment,IQA),如 PSNR、SSIM,測量重建圖像和真實圖像之間的相似性來評估圖像恢復效果。隨著真實場景的退化類型引入超分領域,如何評估復雜退化圖像的超分效果成為研究人員面臨的新問題。一些非參考圖像質量評估方法,如 Ma[66]和感知指數(shù)(Perceptual Index,PI)[67],被引入評估感知驅動超分方法。在某種程度上,這些圖像質量評估方法是超分領域取得長足進步的主要原因之一。然而,雖然新算法在不斷刷新指標數(shù)值,但定量結果和感知質量之間不一致的情況卻越發(fā)明顯,甚至出現(xiàn)指標失靈的情況。Blau 等[68]認為 PI 與人類感知更相關,但具有高 PI 數(shù)值的算法,如 RankSRGAN[69]仍會在恢復圖像中生成明顯不真實的偽影。
在超分領域中,網(wǎng)絡設計遠遠超越了圖像質量評估指標的發(fā)展,現(xiàn)有的圖像評估機制存在的問題隨之暴露,這迫使研究者必須重新思考超分任務的有效評估方法。
首先,現(xiàn)有的量化指標和人類的感知效果還有顯著的差距。為了更加精準地評估網(wǎng)絡性能,為網(wǎng)絡發(fā)展提供有效的指導,自然圖像質量評價(Natural Image Quality Evaluator,NIQE)[70]、成對偏好的感知圖像錯誤評估(Perceptual Image-Error Assessment through Pairwise Preference,PieAPP)[71]、學習感知圖像切片相似度(Learned Perceptual Image Patch Similarity,LPIPS)[72]和用于全參考圖像質量評估的加權平均深度圖像質量度量(Weighted Average Deep Image QuAlity Measure for Full-Reference Image Quality Assessment,WaDIQaM)[73]等指標被相繼提出。Gu 等[74]在現(xiàn)有的圖像質量評估指標的基礎上,進一步提出了一個大規(guī)模數(shù)據(jù)集——感知圖像處理算法數(shù)據(jù)集(Perceptual Image Processing Algorithms,PIPAL),為圖像質量評估指標的改進提供新的基準。
其次,隨著生成對抗網(wǎng)絡在超分任務中的廣泛應用,盡管基于生成對抗網(wǎng)絡的方法輸出的圖像由于網(wǎng)絡生成虛假的紋理導致 PSNR 和 SSIM指標較低,但輸出圖像的視覺效果卻遠優(yōu)于傳統(tǒng)CNN 方法。研究人員對基于生成對抗網(wǎng)絡的方法普遍采用 NIQE 和 LPIPS 來評估模型輸出,但基于深度學習方法的指標存在依賴人工超參和內(nèi)容敏感導致的指標不穩(wěn)定問題,還有待進一步研究。
再者,現(xiàn)有的圖像評估指標還沒有針對模型處理過程以及模型本身進行評估的機制。隨著超分方法處理的低分辨率圖像由簡單的雙三次下采樣向復雜下采樣方式轉變,針對不同圖像退化方式、網(wǎng)絡的泛化能力和模型處理過程的評估機制,是一個非常有指導意義的方向。
現(xiàn)有的研究主要依據(jù)網(wǎng)絡結構[75]和特征圖利用的維度[76]對超分網(wǎng)絡進行分類,且停留在網(wǎng)絡性能對比,沒有對網(wǎng)絡關鍵模塊和重要構成機制進行系統(tǒng)的對比分析。而本文對現(xiàn)有的基于注意力機制的深度學習超分辨率方法,依據(jù)注意力機制的數(shù)學統(tǒng)計原理,對網(wǎng)絡進行了系統(tǒng)的分類;對關鍵模塊性能進行了全面的定量定性分析。通過廣泛的定量和定性比較,注意到現(xiàn)有方法的以下趨勢:
(1)網(wǎng)絡模型利用的數(shù)學統(tǒng)計量由一階向高階轉變。
(2)表現(xiàn)最好的方法開始發(fā)掘卷積神經(jīng)網(wǎng)絡以外的網(wǎng)絡結構。
(3)真實退化的低分辨率圖像正逐漸代替簡單的雙三次下采樣。
總的來說,近年來超分辨率性能得到了極大的提升,但仍存在一些亟待解決的關鍵問題。本文總結歸納了這些問題,并提出一些潛在的研究方向。值得注意的是,現(xiàn)實世界場景對先進的超分方法的限制正在逐步解除,最先進的方法在復雜退化的圖像超分上表現(xiàn)出越來越強的性能。盡管本文分析對比的模型數(shù)量較小和量化指標相對單一,但希望能夠為研究人員進一步發(fā)展超分提供幫助。