吳 靖,葉曉晶,黃 峰,陳麗瓊,王志鋒,劉文犀
(1.福州大學機械工程及自動化學院,福建福州 350116;2.福州大學先進技術創(chuàng)新研究院,福建福州 350116;3.福州大學計算機與大數(shù)據(jù)學院,福建福州 350116)
圖像超分辨率重建(Super-resolution Reconstruction,SR)是指將同一場景的一張或多張低分辨率(Low Resolution,LR)退化圖像恢復成對應的一張或多張高分辨率(High Resolution,HR)清晰圖像的技術,是計算機視覺和圖像處理領域的重要技術之一.圖像SR不僅可以提高圖像的感知質量,還有助于提升目標檢測、圖像去噪等其他計算機視覺任務的性能[1~3].相比于設計更復雜的光學成像系統(tǒng)來提升圖像質量,圖像SR技術能夠在達到相同效果的同時大大降低成本,也能突破衍射極限對光學成像系統(tǒng)的限制,獲取更高分辨率的重建圖像,因此在視頻監(jiān)控、醫(yī)療成像、衛(wèi)星遙感等領域有著廣泛的應用[4~8].
根據(jù)低分辨率圖像在網絡模型中輸入數(shù)量的不同,可將圖像SR技術分為單幀圖像超分辨率重建(Single Image Super-resolution Reconstruction,SISR)以及多幀圖像超分辨率重建(Multi-Image Super-resolution Reconstruction,MISR).其中,SISR可大致分為3類:基于插值的方法、基于重構的方法和基于學習的方法[9].基于學習的方法按照學習程度的不同,又可分為基于淺層學習的方法和基于深度學習的方法[10].MISR主要可分為頻域法和空域法[11].相較于MISR需要多張同一場景具有亞像素位移的LR圖像作為輸入,且圖像間亞像素位移的不可預知性給充分利用圖像的混疊信息帶來了一定難度,SISR只需輸入一張LR圖像即可重建出圖像的紋理細節(jié),具有較高的實用價值,因此是目前圖像超分辨率重建領域的主要研究方向.
早在20世紀60年代,Harris[12]和Goodman[13]就分別提出單幀圖像超分辨率重建的相關方法,并稱為Harris-Goodman頻譜外推法.隨后,Tsai等人[14]于1984年提出用于多幀圖像超分辨率重建的頻域處理法.自此,研究者開始關注并研究圖像超分辨率重建技術,各種基于插值的方法[15,16]、基于重構的方法[17~21]也相繼被提出.隨著機器學習在計算機視覺和圖像處理領域的發(fā)展,F(xiàn)reeman等人[22]將機器學習應用于圖像超分辨率重建領域,并于2000年首次提出了基于學習的圖像超分辨率重建方法.此后各種基于淺層學習的方法[23~26]也陸續(xù)被提出.然而這些傳統(tǒng)的方法大多是通過提取對圖像輪廓等紋理細節(jié)表達能力有限的圖像底層特征來重建高分辨率圖像,故在很大程度上限制了圖像的重建效果.
近年來,隨著深度學習技術的快速發(fā)展,研究人員對基于深度學習的圖像超分辨率重建技術展開積極的探索和研究.相較于傳統(tǒng)方法,基于深度學習的方法能夠從數(shù)據(jù)集中提取到更具表達能力的圖像特征,自適應地學習低分辨率與高分辨率圖像之間的映射關系,不僅有效地克服了圖像獲取過程中出現(xiàn)的模糊、噪聲等退化因素的影響,同時在各種標準數(shù)據(jù)集上取得了更好的重建效果并展現(xiàn)出更優(yōu)的網絡性能.
隨著圖像SR研究成果的逐年增多,綜述文獻的歸納整理變得極為重要.早期的圖像SR綜述文獻[27~29]主要針對傳統(tǒng)SR方法的算法原理及其研究成果進行總結歸納,本文不再贅述.自深度學習應用于圖像SR領域以來,相關SR綜述文獻開始側重于基于深度學習的圖像SR內容的闡述.大多數(shù)文獻[30~33]從網絡結構設計、上采樣方式和損失函數(shù)等方面對SR研究成果進行論述,并總結分析不同網絡模型的相關內容.部分文獻[11,34,35]從有、無監(jiān)督學習等角度出發(fā),闡述分析SR中具有代表性的研究成果.唐艷秋等人[36]從模型類型、網絡結構、信息傳遞方式等方面對各種SR算法進行詳細評述,并對比分析不同算法的優(yōu)缺點.而Wang等人[37]同樣從有、無監(jiān)督SR的角度出發(fā),詳細綜述了SR最新進展,并介紹了一些特定領域的應用,同時對比部分網絡模型的精度、大小和計算代價等內容.Anwar等人[38]則根據(jù)網絡模型的結構差異,提出了一種新的分類方法,將現(xiàn)有算法分為線性、殘差、多分支、遞歸、漸進等9種類型,并對模型之間的網絡復雜性、內存占用等加以比較.Chen等人[39]針對真實世界的單幀圖像超分辨率重建(Real-world SISR,RSISR)進行全面綜述,并總結出四大類RSISR方法,對RSISR技術的進一步發(fā)展和應用具有重要意義.
其中,部分文獻[30~32,35,38,39]僅介紹SR中常用的數(shù)據(jù)集和圖像質量評價指標.然而數(shù)據(jù)集和評價指標對SR網絡的訓練和重建圖像的評價具有重要作用,僅對常用的方法進行介紹是不夠的.同時,只有少量文獻[37,38]簡單提及了SR的相關挑戰(zhàn)賽,而挑戰(zhàn)賽恰恰是SR發(fā)展趨勢的一種體現(xiàn).隨著SR方法的逐年更新迭代,前期的綜述文獻已無法涵蓋最新的研究成果,也無法使讀者了解到更多的數(shù)據(jù)集信息及相關圖像質量評價指標,且僅從網絡模型的發(fā)展情況分析SR的發(fā)展趨勢是不全面的.因此本文在前人的基礎上,首先以網絡模型的設計、訓練、測試為邏輯思路介紹圖像SR的相關知識,完善并豐富數(shù)據(jù)集構建方式、網絡模型基本框架以及圖像質量評價指標等相關內容;其次根據(jù)學習模式的不同將現(xiàn)有方法劃分為監(jiān)督式SR和無監(jiān)督式SR,并根據(jù)模型的網絡結構及設計策略,重點對監(jiān)督式SR典型及最新的研究成果加以評述,力求系統(tǒng)和全面地介紹基于深度學習的SISR方法;最后從數(shù)據(jù)集構建方式、網絡模型研究進展及SR挑戰(zhàn)賽等角度分析基于深度學習的圖像SR未來的發(fā)展趨勢,以促進基于深度學習的SISR技術今后的發(fā)展及應用.
圖像SR旨在從低分辨率退化圖像中恢復出相應的高分辨率圖像.通常,低分辨率圖像滿足式(1)所示的退化過程:
其中,ILR和IHR分別表示LR圖像和HR圖像,D表示退化函數(shù),θ表示退化過程的參數(shù).根據(jù)θ是否已知,可將圖像SR分為退化已知的非盲超分辨率重建方法和退化未知的盲超分辨率重建方法,其中盲超分辨率重建方法主要應用于真實世界的圖像超分辨率重建.
圖像超分辨率重建是圖像退化過程的逆過程,可利用低分辨率圖像中的信息重建出對應的高分辨率圖像,即
其中,F(xiàn)表示超分辨率重建模型,β表示超分辨率重建模型的參數(shù).
數(shù)據(jù)集作為SR網絡的主要數(shù)據(jù)來源,可用于訓練、驗證及測試,其中訓練數(shù)據(jù)集作為網絡端到端學習的重要數(shù)據(jù)來源,對網絡性能的提升有著重要的作用,一個高質量、多數(shù)量、大范圍的圖像數(shù)據(jù)集能夠在很大程度上提升網絡性能.根據(jù)SISR網絡模型是否使用匹配的低分辨率-高分辨率(LR-HR)圖像對進行訓練,可以將其分為監(jiān)督式SISR和無監(jiān)督式SISR.監(jiān)督式SISR需要用匹配的LR-HR圖像對訓練網絡,因此訓練數(shù)據(jù)集的構建對監(jiān)督式SISR至關重要.
現(xiàn)有的數(shù)據(jù)集主要分為兩種類型.一種是只采集HR圖像的數(shù)據(jù)集,如DIV2K[40],DIV8K[41]等數(shù)據(jù)集,對于此類數(shù)據(jù)集可采用不同的退化方式獲取相應的LR圖像,從而構造匹配的LR-HR訓練圖像對,以這種方式獲得的訓練數(shù)據(jù)集一般被稱為合成數(shù)據(jù)集.另一種則是直接采集同一場景不同分辨率的圖像,從而獲取LRHR圖像對的數(shù)據(jù)集,如RealSR[42],DRealSR[43]等數(shù)據(jù)集,這類訓練數(shù)據(jù)集一般被稱為真實數(shù)據(jù)集.目前主要有3種方法用于真實數(shù)據(jù)集的構建,包括基于焦距調整的方法、基于硬件分箱的方法和基于波束分束器的方法[39].相較于合成數(shù)據(jù)集,真實數(shù)據(jù)集通常具有更真實的退化過程,適用于真實場景圖像的超分辨率重建.但真實數(shù)據(jù)集的構建存在一定難度,如真實數(shù)據(jù)集直接采集到的LR-HR圖像對通常是不匹配的,需要進行嚴格的配準操作才能得到具有相同視場且可用于訓練的LR-HR圖像對,且真實世界圖像的退化核會隨著景深的變化而變化,通常是不均勻的,往往需要根據(jù)實際情況采取不同的策略再進行超分辨率重建.
由于難以獲取同一場景下成對的LR圖像和HR圖像,所以現(xiàn)有數(shù)據(jù)集大多只采集HR圖像,再通過不同的退化方式得到相應的LR圖像,以構造合成數(shù)據(jù)集用于訓練SISR網絡模型.然而LR圖像的實際退化過程未知且復雜,易受到模糊、噪聲、下采樣、圖片壓縮等因素的影響,難以對其進行準確的定義.因此,在不同的SISR網絡模型中使用的退化方式沒有一個統(tǒng)一的標準.根據(jù)現(xiàn)有SISR網絡模型構造合成數(shù)據(jù)集時所采取退化方式的不同,可總結出以下幾種退化模型.
(1)簡單退化模型
簡單退化模型通過對HR圖像進行簡單的下采樣操作得到相應的LR圖像,如式(3)所示:
其中,↓s表示尺度因子為s的下采樣運算.以往的SISR網絡模型大多采用理想的雙三次下采樣進行退化以獲取LR圖像.然而簡單退化模型獲得的LR圖像與實際的退化過程存在較大差異,不僅難以應用于真實場景的圖像SR,也難以處理與雙三次下采樣具有不同退化空間的圖像.
(2)一般退化模型
一般退化模型對下采樣、模糊和噪聲等退化因素加以考慮,與簡單退化模型相比,退化過程更接近實際場景,如式(4)所示:
其中,k表示模糊核,?表示卷積操作,n表示噪聲,通常設置為標準差為δ的加性高斯白噪聲.
SRMD(SR network for Multiple Degradations)[44]等網絡模型驗證了一般退化模型的有效性,但其仍與圖像的真實退化過程存在一定差異,且退化范圍無法有效覆蓋實際場景中的各種退化,因此大規(guī)模退化模型應運而生.
(3)大規(guī)模退化模型
大規(guī)模退化模型是在一般退化模型或其變體的基礎上對各種退化因素進行擴展,考慮更真實和更復雜的退化過程,從而獲取具有更準確及更大范圍退化空間的LR圖像.大規(guī)模退化模型旨在通過更準確的模糊核估計等方式擴大圖像退化空間來模擬圖像的真實退化過程以獲取相應的LR圖像,因此適用于真實圖像的SR.
SFTMD(Spatial Feature Transform for Multiple Degradations)[45],DAN(Deep Alternating Network)[46]等網絡模型通過有效的模糊核估計,使其設計的大規(guī)模退化模型更有利于真實圖像的SR.BSRGAN(Blind SRGAN)[47]等網絡模型在一般退化模型的基礎上設計了一種更加復雜且實用的大規(guī)模退化模型,對更復雜的退化模糊、下采樣和噪聲等退化因素加以考慮,從而構造合成數(shù)據(jù)集用于訓練.而Real-ESRGAN網絡模型[48]則是在經典退化模型(式(5))的基礎上,對模糊、下采樣、噪聲和JPEG壓縮等退化元素加以考慮,通過“n階”退化過程(式(6))建模以擴大退化空間,每個退化過程采用不同參數(shù)的經典退化模型,從而合成具有更加真實退化過程的LR圖像,極大地提升了網絡重建質量.
(4)無監(jiān)督式退化模型
無監(jiān)督式退化模型通過生成對抗網絡(Generative Adversarial Networks,GAN)等無監(jiān)督的方式模擬圖像的退化過程,獲取相應的LR圖像.相比簡單退化模型和一般退化模型,無監(jiān)督式退化模型能夠利用生成對抗網絡的對抗博弈性使網絡更好地模擬圖像真實的退化過程,因此主要應用于真實場景的圖像SR.
KernelGAN(Kernel estimation using an internal-GAN)[49],DSGAN(Down-Sample GAN)[50]等網絡模型均是通過GAN以無監(jiān)督的方式得到與原始HR圖像有相同分布的LR圖像,從而構造合成數(shù)據(jù)集進行真實圖像的SR.FCA(Frequency Consistent Adaptation)[51]則是一種頻率一致性自適應方法,通過所提出的自適應生成器以無監(jiān)督的方式估計圖像的退化過程,從而得到與真實場景圖像具有頻率一致性的LR圖像,用于SR網絡的訓練.
目前,已有很多可用于圖像SR的數(shù)據(jù)集,這些數(shù)據(jù)集在圖像質量、數(shù)量、范圍和分辨率等方面都存在一定差異,可以為不同的圖像SR任務提供數(shù)據(jù)支持.表1對圖像SR中常用的數(shù)據(jù)集進行總結[40~43,47,49,52~68],以便了解數(shù)據(jù)集的相關內容并選擇合適的數(shù)據(jù)集用于SR網絡的訓練、驗證和測試.
表1 圖像超分辨率重建常用數(shù)據(jù)集概述
以不同退化方式或采集方式得到合成數(shù)據(jù)集或真實數(shù)據(jù)集后,即可對網絡模型進行相應的訓練.雖然現(xiàn)有SISR的網絡模型之間差異較大,但本質上可以將它們看成是網絡模型框架、網絡設計策略和網絡學習策略等模塊的不同組合[37],從而簡化復雜的網絡結構.
網絡模型框架是SISR網絡模型中最基本的模塊,根據(jù)上采樣層在網絡模型中位置的不同,可將模型基本框架劃分為4種類型:預上采樣、后上采樣、漸進式上采樣、迭代式上下采樣,如圖1所示.上采樣指的是將原始的LR圖像轉換為HR圖像的操作,它作為SR中必不可少的環(huán)節(jié),在網絡模型框架中占有重要地位.
2.2.1 預上采樣模型框架
預上采樣模型框架中的上采樣層位于網絡前端的圖像預處理環(huán)節(jié),如圖1(a)所示.該框架通常使用傳統(tǒng)的基于插值的上采樣方法,如線性插值、雙三次插值等,最常用的是雙三次插值的上采樣方法.
早期的SRCNN[69,70],VDSR[55],DRCN[71]等網絡模型都是使用預上采樣模型框架,先將LR圖像上采樣為所需尺寸的HR圖像,再將其輸入卷積神經網絡進行SR,以恢復HR圖像的更多細節(jié).預上采樣模型框架的結構簡單,能進行任意尺度因子圖像的SR.但它先對LR圖像進行上采樣后再輸入網絡進行訓練的操作,使網絡模型的計算在高維空間中進行,顯著增加了計算復雜度,時間及空間成本也隨之增加,因此在近年網絡模型中的使用逐漸減少.
2.2.2 后上采樣模型框架
為了避免在高維空間中計算帶來的影響,提高網絡計算效率,后上采樣模型框架將上采樣層放置于網絡末端,如圖1(b)所示,直接將LR圖像輸入卷積神經網絡中,在低維空間形成映射,最后在網絡末端進行上采樣后輸出重建的HR圖像.
圖1 圖像超分辨率重建網絡模型基本框架
后上采樣模型框架在網絡末端的上采樣層通常使用的是基于學習的上采樣方法,如轉置卷積(又稱反卷積)、亞像素卷積等,以實現(xiàn)端到端的自動學習.此外,元上采樣(meta-upscale)[72]等特殊的上采樣方法可用于任意尺度因子(1~4倍,步長為0.1)的SR.在后上采樣模型框架的影響下,F(xiàn)SRCNN[56],ESPCN[73],BTSRN[74]和RNAN[75]等網絡模型實現(xiàn)了網絡加速并取得了較好的網絡性能.
后上采樣模型框架在低維空間計算的方式,能夠在維持或提升網絡性能的同時,降低網絡計算量和空間復雜度,并提高網絡計算效率.但對大尺度因子的學習存在一定難度,且無法滿足單一模型的多尺度因子圖像SR的需求,對不同尺度因子的圖像需要訓練不同的網絡模型.
2.2.3 漸進式上采樣模型框架
漸進式上采樣模型框架如圖1(c)所示,是以級聯(lián)的方式連接卷積神經網絡,并通過多個上采樣層逐步重建得到最終的HR圖像.LapSRN[76]是典型的采用漸進式上采樣模型框架的網絡模型,它將網絡結構分成三級,每級進行兩倍的上采樣操作,通過逐級上采樣實現(xiàn)兩倍、四倍及八倍的超分辨率重建結果.MSLapSRN[77],LP-KPN[42]和E-ProSRNet[78]等網絡模型也采用這種框架,實現(xiàn)了單一模型的多尺度因子圖像SR.
漸進上采樣模型框架采用逐步上采樣的方式將困難的大尺度因子SR任務分解為多個簡單的小尺度因子SR任務,極大地降低了學習難度,且在不引入過多時間和空間成本的情況下,能夠滿足單一模型的多尺度因子SR的需求.但存在模型結構設計復雜、訓練穩(wěn)定性差等問題.
2.2.4 迭代式上下采樣模型框架
迭代式上下采樣模型框架如圖1(d)所示,該框架在網絡中交替使用上、下采樣層,再通過迭代反向投影不斷改進重建圖像細節(jié),從而得到最終的重建圖像.
DBPN[79](Deep Back-Projection Networks)網絡模型是首個采用該框架的方法,它利用迭代的上下采樣層的誤差反饋機制來指導網絡重建,獲得最終的HR圖像.相較于單向前饋神經網絡直接學習輸入圖像到目標空間非線性映射的方法,DBPN網絡模型將學習過程分成多個階段,并為每個階段的投影誤差提供誤差反饋機制,使模型具有自校正的過程用于修正重建細節(jié),從而獲得更好的重建結果.同時DBPN順應深度學習發(fā)展趨勢,將其擴展為多個變體以提升網絡性能[80].此外,DSRN[81],SRFBN[82]等網絡模型也在網絡中交替使用上、下采樣層,并通過不同的反饋機制改善HR圖像細節(jié).
相比于其他模型框架,迭代式上下采樣模型框架能夠更好地挖掘LR-HR圖像對之間的深層關系,從而獲得更多圖像細節(jié),構建更高質量的重建圖像.但迭代式上下采樣模型框架的網絡結構較為復雜、發(fā)展還不成熟,仍需進一步探索.
對于完成訓練的網絡模型,可通過不同的圖像質量評價指標評估重建圖像質量,驗證網絡模型有效性,測試網絡模型性能.根據(jù)評價主體不同,可以將SR的圖像質量評價指標分為主觀評價指標和客觀評價指標.
2.3.1 主觀評價指標
主觀評價指標是由評價人員根據(jù)自己的主觀感受對圖像質量進行評價的一種方式.根據(jù)是否有真實HR圖像作為標準參考圖像,可以將其分為絕對主觀評價指標和相對主觀評價指標.
絕對主觀評價指標,如平均意見排名(Mean Opinion Rank,MOR)[83],是在無標準參考圖像的情況下,評價人員根據(jù)自己的主觀視覺感受及設定好的評價尺度對幾種SR方法的重建圖像質量進行排名從而計算得出的.
相對主觀評價指標,如平均意見得分(Mean Opinion Score,MOS)[84],是在有標準參考圖像的情況下,評價人員將不同SR方法獲得的重建結果與標準的參考圖像進行對比,并將圖像進行組內對比,最后根據(jù)評價尺度對這組圖像進行評分.
表2所示是主觀評價指標兩種方法的評價尺度.可以發(fā)現(xiàn),這兩種主觀評價指標的評價尺度都是根據(jù)評價人員的主觀感受進行衡量的,評價結果符合人類視覺感受,因此主觀評價指標是最直接、最有效的評價方法.但主觀評價指標易受評價人員的主觀感受及各種因素的影響,有較大的不確定性,可重復性、實時性也較差,且評價過程需要耗費大量的時間、人力、物力、財力等,在實際使用過程中存在一定困難,因此難以被廣泛應用.
表2 主觀評價指標的評價尺度
2.3.2 客觀評價指標
客觀評價指標是指通過不同的數(shù)學模型和算法來評估圖像質量的方法[85,86],具有簡單、高效、可重復性強等優(yōu)點,因此SR中通常使用客觀評價指標對重建圖像進行質量評價.客觀評價指標根據(jù)是否需要真實的HR圖像作為參考圖像,可以大致分為全參考型和無參考型兩種.
全參考型的客觀評價指標是將重建的HR圖像與真實HR圖像進行比較計算得出的,一般用于監(jiān)督式SR的圖像評估.該評價指標包括峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)、結構相似度(Structural SIMilarity,SSIM)、信息保真度準則(Information Fidelity Criterion,IFC)、學習感知圖像塊相似度(Learned Perceptual Image Patch Similarity,LPIPS)等,其中PSNR和SSIM是最常用的客觀評價指標.
無參考型的客觀評價指標無可參考的真實HR圖像,因此常用于無監(jiān)督式SR的圖像評估.該評價指標包括自然圖像質量評價(Natural Image Quality Evaluator,NIQE)、基于感知的圖像質量評價(Perception-based Image QUality Evaluator,PIQUE)、無參考質量指標(No-Reference Quality Metric,NRQM)、感知指數(shù)(Perception Index,PI)等.
(1)峰值信噪比
PSNR是指通過計算重建HR圖像與真實HR圖像對應像素點之間的誤差,從而客觀地評估重建圖像失真程度的指標.PSNR值主要由均方誤差(Mean Square Error,MSE)決定,MSE表達式如式(7)所示:
其中,M和N分別表示圖像長、寬的像素數(shù);IHR(i,j)和ISR(i,j)分別表示真實HR圖像與重建HR圖像在空間位置(i,j)處的像素值.
PSNR表達式如式(8)所示,單位為分貝(dB):
其中,MAX為IHR(i,j)圖像的最大像素值,對于8比特(bit)精度的圖像,MAX取值為255.
由式(7)和式(8)可以看出,最小化MSE損失函數(shù)(即L2損失函數(shù))相當于最大化PSNR評價指標.PSNR值的取值范圍為[0,+∞),其值越大,則表示重建HR圖像與真實HR圖像之間的像素誤差越小,重建HR圖像相對于真實HR圖像的失真越少,重建圖像的質量越好.PSNR通過逐像素計算的方法簡單、高效,是SR領域最常用的圖像質量評價指標.但PSNR僅從數(shù)學角度計算圖像之間的差異,未從本質上考慮人類視覺系統(tǒng)(Human Visual System,HVS)特性,故PSNR計算結果反映的圖像質量情況與人類主觀視覺感受的圖像質量情況存在一定差異,不能完全、準確地反映重建圖像的感知質量.
(2)結構相似度
SSIM是由Wang等人[87]于2004年提出的,從亮度、對比度和結構三個方面來衡量參考圖像與失真圖像之間結構相似性的方法.SSIM主要由圖像間的亮度、對比度和結構三部分信息組成,且三者之間是相對獨立的,即亮度和/或對比度的信息變化不會影響圖像的結構信息.
SSIM的表達式如式(9)所示:
其中,α,β,γ為權重參數(shù),分別用于調整l(IHR,ISR),c(IHR,ISR),s(IHR,ISR)三個分量的相對重要性,且α>0,β>0,γ>0.l(IHR,ISR),c(IHR,ISR),s(IHR,ISR)分別表示亮度、對比度、結構三個分量,它們的表達式分別如式(10)~(12)所示:
其中,μIHR,μISR分別表示IHR和ISR的均值;σIHR,σISR分別表示IHR和ISR的標準差;σIHRISR表示IHR和ISR的協(xié)方差;C1,C2和C3是為了避免計算中出現(xiàn)不穩(wěn)定而添加的小常數(shù).
特別地,當α=β=γ=1,且C3=C2/2時,SSIM可以表示為式(13),該形式是SR圖像質量評價時最常使用的形式:
SSIM值的取值區(qū)間為[0,1],其值越大,表明圖像質量越好.由于考慮了HVS特性,SSIM的計算結果相比PSNR指標能夠更有效地反映重建HR圖像的感知質量,與人類感知結果具有較好的一致性,因此SSIM被廣泛用于SR圖像的質量評價.在SR質量評價中通常使用PSNR和SSIM共同衡量重建圖像質量.
(3)信息保真度準則
2005年,Sheikh等人[88]提出了一種基于自然場景統(tǒng)計信息對圖像質量進行評價的方法,即IFC評價指標,通過結合自然場景模型和失真模型的統(tǒng)計模型,量化參考圖像與測試圖像之間的相互信息,從而量化圖像感知質量,并以此衡量重建圖像質量的優(yōu)劣.
IFC的表達式如式(14)所示,該式量化了參考圖像和失真圖像之間共享的統(tǒng)計信息:
其中,CNk,k,DNk,k,sNk,k分別表示第k個子帶RFCk,Dk,sk的Nk系數(shù).
IFC是一個保真指標,而非失真指標,其值的取值范圍為[0,+∞),IFC值越大,圖像保真度越高,重建圖像質量越好.IFC在信息提取過程中使用感知質量建模,因此IFC計算結果與人類視覺感知結果具有較好的一致性.
(4)學習感知圖像塊相似度
2018年,Zhang等人[89]提出LPIPS感知評價指標,利用預訓練的深度卷積神經網絡提取參考圖像與失真圖像的特征,計算圖像在深度特征空間上的L2距離,并評估圖像間的感知相似度.
LPIPS的表達式如式(15)所示:
其中,l表示深度卷積神經網絡的第l層分別表示IHR和ISR從第l層中提取特征,并在通道維度上進行單元歸一化的結果,且是用于縮放激活通道的向量,wl∈RCl,當wl=1?l時,相當于計算余弦距離.
LPIPS是根據(jù)人類感知進行訓練的,因此LPIPS值可以較好地反映人們對圖像的主觀感受,LPIPS值越小,圖像的感知質量越好.
(5)自然圖像質量評價
Mittal等人[90]于2013年提出了基于空域特征的完全無參考型的評價指標NIQE,通過從失真圖像提取的自然場景統(tǒng)計特征和從自然圖像提取的感知質量特征的多元高斯模型(MultiVariate Gaussian model,MVG)擬合參數(shù)之間的距離來評估失真圖像的質量.
NIQE表達式如式(16)所示:
其中,ν1和Σ1分別表示自然圖像MVG模型的均值向量和協(xié)方差矩陣,ν2和Σ2分別表示失真圖像MVG模型的均值向量和協(xié)方差矩陣.NIQE的值越小,表示圖像的質量越好.
(6)基于感知的圖像質量評價
Venkatanath等人[91]于2015年提出了一種無參考感知的圖像質量評價指標PIQUE,基于測試圖像的局部塊級別特征,估計給定測試圖像中存在的失真量.PIQUE考慮了人類視覺注意力等人類感知圖像質量原則,通過對輸入圖像進行預處理,提取自然場景統(tǒng)計特征,再對圖像進行塊級別分析以識別不同失真塊的類型,并分配不同分數(shù),最后合并塊級別分數(shù)以確定整體圖像質量.
PIQUE表達式如式(17)所示:
其中,NSA表示給定圖像中空間活動塊的數(shù)量,C1是防止數(shù)值不穩(wěn)定添加的一個正常數(shù),Dsk是失真塊所分配的失真量.
PIQUE值的取值范圍為[0,1],其值越小,圖像質量越好.當PIQUE值接近于0(0~0.3)時,表示圖像質量良好;當PIQUE值接近于1(0.5~1.0)時,表示圖像質量較差;若PIQUE值介于0.3到0.5之間,則可將其視為平均質量圖像.PIQUE的計算考慮了HVS特性,因此該評價指標的評價結果接近人類感知質量的評價結果.
(7)無參考質量指標
Ma等人[92]于2017年提出了一種無參考型評價指標NRQM,在一些文獻中也將其簡寫為Ma.NRQM以重建的HR圖像作為輸入,將頻率域和空間域中計算的統(tǒng)計量作為輸入圖像的特征,在單獨的集成回歸樹中訓練特征,并利用線性回歸模型對大量的視覺感知分數(shù)進行學習,得到圖像質量分數(shù)以評估輸入圖像的質量.
NRQM的表達式如式(18)所示:
其中,?表示最終的質量分數(shù),由3種類型特征的預測質量分數(shù)組成;λn表示不同類型特征的權重;表示不同類型特征的預測質量分數(shù),通過對T個回歸樹的輸出進行平均得到,(xn表示不同類型的低級特征,n=1,2,3;pt表示森林中第t棵決策樹的概率,t=1,2,…,T).NRQM值越大,表明重建圖像的質量越好.
(8)感知指數(shù)
PI是Blau等人[68]結合NIQE和Ma兩個無參考客觀評價指標提出的感知指標,該指標聯(lián)合量化了準確性與感知質量,與主觀評價指標具有高度的相關性.
PI的表達式如式(19)所示:
PI值越小,表明重建圖像的感知質量越好.
目前大多數(shù)單幀圖像超分辨率重建技術都是基于深度學習的方法進行研究的,并取得了較為豐富的研究成果.從早期基于卷積神經網絡的超分辨率重建方法,如SRCNN[69]等,到很有前景的基于生成對抗網絡的超分辨率重建方法,如SRGAN[93]等,再到近來大火于低級(low level)視覺任務界的基于Transformer的超分辨率重建方法,如IPT[94]等,基于深度學習的方法在圖像重建效果上實現(xiàn)了很大的提升.圖2給出了部分代表性SR算法的發(fā)展歷程.按照學習模式的不同,可以將基于深度學習的SISR方法劃分為監(jiān)督式SISR(圖中黑色)和無監(jiān)督式SISR(圖中藍色);根據(jù)網絡結構及圖像重建效果的不同,將監(jiān)督式SISR進一步劃分為基于卷積神經網絡(Convolutional Neural Network,CNN)的方法(圖中軸線上方不加粗)、基于生成對抗網絡(GAN)的方法(圖中軸線下方)和基于Transformer的方法(圖中軸線上方加粗).本節(jié)首先從監(jiān)督式SISR角度出發(fā),對代表性的算法進行評述.
圖2 基于深度學習的SISR部分網絡模型的發(fā)展時間軸線
卷積神經網絡(CNN)是一種通過傳統(tǒng)梯度下降法訓練并學習圖像特征的前饋神經網絡,局部連接、權值共享等特性使其相較于其他神經網絡能夠更好地學習與表達圖像特征,因此被廣泛應用于圖像處理領域[95,96].基于卷積神經網絡的單幀圖像超分辨率重建方法主要采用卷積神經網絡的結構,以PSNR最大化為目標,旨在使網絡獲得更真實的細節(jié)、更好的保真度,即PSNR,SSIM等客觀指標的提升.雖然基于CNN的方法在評價指標方面表現(xiàn)較好,但其重建圖像往往過于平滑,無法帶來很好的感知效果.
現(xiàn)有SISR網絡模型是在不同模型框架的基礎上應用不同的網絡設計策略及學習策略構建的.根據(jù)網絡模型中設計策略的不同,可以進一步將近年來較為經典以及新提出的網絡模型分為以下幾類:基于淺層卷積神經網絡(Shallow Convolutional Neural Network,SCNN)的方法、基于殘差網絡(Residual Network,ResNet)的方法、基于遞歸神經網絡(Recurrent Neural Network,RNN)的方法、基于密集卷積網絡(Dense convolutional Network,DenseNet)的方法、基于注意力機制(Attentional Mechanism,AM)的方法和基于輕量化網絡(Lightweight Network,LN)的方法.
3.1.1 基于淺層卷積神經網絡的方法
2014年,Dong等人[69]首次將深度學習應用于圖像SR領域,提出了第一個基于卷積神經網絡的SISR網絡模型SRCNN(Super-Resolution CNN).受基于稀疏編碼的圖像SR方法的啟發(fā)對網絡結構進行設計,得到由圖像塊特征的提取與表示層、特征的非線性映射層及重建層等簡單的三層卷積神經網絡構成的SRCNN網絡(圖3),實現(xiàn)LR圖像到HR圖像之間的端到端映射.雖然SRCNN相較于傳統(tǒng)的SR方法在速度和重建質量上都有所提升,但預上采樣的模型框架給它帶來了計算復雜、訓練收斂速度慢等問題,同時SRCNN還存在結構簡單、難以充分利用圖像上下文信息等不足之處.
圖3 SRCNN網絡結構
針對SRCNN計算成本高、難以實時應用的問題,Dong等人[56]又于2016年對其進行改進及加速,提出了FSRCNN(Fast SRCNN)網絡模型.FSRCNN由特征提取層、收縮層、非線性映射層、擴張層以及反卷積層構成,它的主要改進是將SRCNN中的預上采樣模型框架替換為后上采樣模型框架,通過網絡末端的反卷積層(圖4)實現(xiàn)上采樣,以解決計算復雜度高等問題.另外,還通過改變特征維數(shù)、共享映射層參數(shù)等操作,提高網絡計算效率,提升重建圖像質量.
圖4 反卷積層卷積過程
為降低計算復雜度、提升網絡計算效率,Shi等人[73]也于2016年提出了另一種快速、高效的SR網絡模型ESPCN(Efficient Sub-Pixel CNN),與FSRCNN一樣采用后上采樣模型框架,但ESPCN使用的是亞像素卷積層(圖5)對圖像進行上采樣.ESPCN網絡由包含兩個卷積層的隱藏層和一個亞像素卷積層構成.它先從隱藏層中提取LR輸入圖像的特征,再從亞像素卷積層中獲取重建的HR圖像,從而實現(xiàn)快速高效的端到端學習,得到比FSRCNN網絡模型更好的重建效果.
圖5 亞像素卷積層卷積過程
盡管早期SRCNN,F(xiàn)SRCNN,ESPCN等淺層卷積神經網絡模型的網絡層數(shù)不超過5層,網絡結構相對簡單,沒有使用過多的網絡設計策略,但其重建效果相較于傳統(tǒng)的圖像SR方法得到了一定提升,對基于深度學習的圖像SR的發(fā)展具有開創(chuàng)性作用.
3.1.2 基于殘差網絡的方法
為了提取更多圖像特征,提升網絡模型性能,最直接的方式是通過增加網絡的深度或寬度來增多網絡參數(shù)量.然而單純地加深、加寬網絡,隨之出現(xiàn)的是梯度消失、梯度爆炸和網絡退化等問題.對于梯度問題,通常使用批歸一化或正則化等操作就能夠很大程度地解決,但退化問題卻仍然存在.對此,He等人[97]提出了殘差網絡用于解決深層網絡帶來的梯度和退化問題,其結構如圖6所示,即在普通網絡(plain network)中加入快捷連接(shortcut connections)/跳躍連接(skip connections)操作,使普通網絡經過殘差學習成為對應的殘差網絡.
圖6 殘差網絡應用于SR
ResNet具有全局殘差學習和局部殘差學習兩種殘差學習方式,主要區(qū)別在于全局殘差學習是對網絡模型的輸入和輸出之間進行快捷連接,局部殘差學習則是對網絡模型內部不同深度的層之間進行快捷連接.ResNet不僅能夠有效提取圖像細節(jié)信息,還能解決過深的網絡層帶來的梯度及退化問題,同時大量減少參數(shù)量和訓練時間,因此在深層網絡中被廣泛應用.
受ImageNet分類比賽中深度卷積神經網絡VGGnet的啟發(fā),Kim等人[55]首次將ResNet(圖7(a))應用于圖像SR中,于2016年提出了具有20個權重層的深度SISR網絡模型VDSR(Very Deep CNN for SR).考慮到低、高分辨率圖像之間的低頻信息在很大程度上是相似的,他們利用殘差學習的思想,在VDSR中學習低、高分辨率圖像之間高頻信息的殘差,從而減少訓練時間,提高訓練速度.另外,他們還將ResNet與提高學習率、自適應梯度裁剪等策略相結合,使VDSR深度網絡模型的訓練過程更加穩(wěn)定.此后,ResNet被廣泛應用于圖像SR網絡模型中.
同年,Mao等人[98]提出了深度全卷積編解碼網絡RED-Net(Residual Encoder-Decoder Network),不僅可以進行圖像SR,還能夠解決圖像去噪等其他圖像恢復任務.受高速公路網絡(highway network)和深度ResNet的啟發(fā),RED-Net模型在對稱的卷積層和反卷積層之間添加了跳躍連接,以解決深層網絡帶來的各種問題.卷積層用于提取輸入圖像特征,反卷積層則利用跳躍連接直接與卷積層所提取的特征結合,從而更好地恢復出圖像細節(jié)信息,也使得訓練深層網絡變得更加容易.
2017年,Lim等人[99]在SRResNet[93]結構(圖7(b))的基礎上進行優(yōu)化,利用ResNet的思想構建增強型深度SR網絡模型EDSR(Enhanced Deep SR),創(chuàng)新性地去除了SRResNet結構中的批歸一化(Batch Normalization,BN)層(圖7(c)).BN層在SR中對圖像特征進行歸一化的操作,會破壞圖像信息,影響圖像質量,因此去除BN層不僅可以改善圖像質量,還能夠在訓練期間節(jié)省約40%的內存,實現(xiàn)同等計算資源條件下更深層網絡的構建.同時,Lim等人采取殘差縮放等方法解決深度網絡訓練不穩(wěn)定的問題,從而實現(xiàn)深層網絡重建圖像質量的顯著提升.為解決EDSR網絡模型只能處理特定單尺度因子SR的問題,Lim等人對EDSR進行擴展,又提出了多尺度深度超分辨率網絡模型MDSR(Multiscale Deep SR)用于單一模型的多尺度因子SR,而MDSR不僅能夠大量減少參數(shù)量與訓練時間,還能實現(xiàn)與EDSR相當?shù)木W絡性能.
2018年,Li等人[100]指出一些網絡模型性能的提高不是來自模型結構的改變,而是使用了一些未知的訓練技巧,同時,大多數(shù)網絡模型通過加深網絡層數(shù)提升網絡性能的方法難以充分利用LR圖像特征,且無法使用單一模型處理多尺度任務.為此,Li等人在不使用任何訓練技巧的情況下,提出了多尺度殘差網絡MSRN(Multi-Scale Residual Network)用于實現(xiàn)單一模型的多尺度SR任務,旨在通過網絡結構的改變來提升網絡性能.MSRN引入多尺度殘差塊(Multi-Scale Residual Block,MSRB)作為網絡的基本構建模塊,如圖7(d)所示,MSRB將ResNet與不同尺度的卷積核結合,以獲取不同尺度的圖像特征,得到局部多尺度特征,最后將其與全局特征融合,充分利用LR圖像特征,得到最終的重建圖像.
圖7 不同網絡模型的殘差塊
2021年,Lan等人[101]指出大多數(shù)基于CNN的網絡模型沒有充分利用底層特征以致網絡性能相對較差,因此提出了兩個能夠有效提取圖像特征的網絡模型用于圖像SR.一個是包含多個局部共享組的級聯(lián)殘差網絡CRN(Cascading Residual Network),該網絡通過級聯(lián)機制促進特征融合和梯度傳播,以更有效地提取圖像特征.另一個是具有雙全局路徑結構的增強殘差網絡ERN(Enhanced Residual Network),該網絡通過雙全局路徑從原始輸入中捕獲長距離空間特征,以實現(xiàn)更強大的特征表達.通過結構的改進,CRN和ERN網絡模型能夠以更少的參數(shù)量實現(xiàn)與EDSR相當甚至更好的網絡性能.
ResNet不僅能夠通過局部或全局殘差學習有效提取SR網絡模型中低分辨率輸入圖像的特征信息,還可以解決過深網絡帶來的各種訓練及梯度問題,因此許多SR網絡模型都將殘差學習的思想應用于網絡結構中,以實現(xiàn)網絡性能的提升,后期的很多SR網絡模型也將殘差學習思想與其他網絡設計策略相結合,以獲取更好的超分辨率重建效果.
3.1.3 基于遞歸神經網絡的方法
RNN結構通常由輸入狀態(tài)x、輸出狀態(tài)y和循環(huán)狀態(tài)s組成,如圖8(a)所示,可以將其按照時間順序展開,以上一時刻(t-1)的輸出與當前時刻(t)的輸入同時作為當前網絡的輸入,從而得到當前時刻(t)的輸出,再不斷迭代上述過程得到最終的輸出[102].由于RNN的網絡層主要用于記憶數(shù)據(jù),而不是分層次處理,且每次迭代后新的圖像信息都會被添加到每一層中,所以RNN在無限次的網絡更新迭代后可以獲得無限的記憶深度[103].RNN在SR中是以遞歸的方式多次應用相同的模塊,如圖8(b)所示,其內部的模塊具有參數(shù)共享的特性,使網絡模型能夠在不引入過多參數(shù)的情況下學習更高層次的特征,從而提升網絡性能.
圖8 遞歸神經網絡
為了控制深度網絡中的參數(shù)量,避免增加網絡深度帶來的過擬合等問題,Kim等人[71]首次將RNN應用于圖像SR中,并結合殘差學習的思想,于2016年提出了多達16個遞歸層的深度遞歸卷積網絡DRCN(Deeply-Recursive Convolutional Network),通過對部分卷積層采用遞歸學習的方式,實現(xiàn)在不引入過多參數(shù)的情況下提升網絡性能.DRCN由用于特征提取的嵌入網絡、用于特征非線性映射的推理網絡和重建網絡等三個子網絡構成,是將全局殘差學習、單權重遞歸學習及多目標優(yōu)化結合的SR方法.Tai等人[104]在DRCN的基礎上,進一步結合ResNet和RNN,提出了多達52個卷積層的深度遞歸殘差網絡DRRN(Deep Recursive Residual Network),通過更深層次的網絡結構提升網絡模型的性能,同時結合多路徑模式的局部、全局殘差學習以及多權重的遞歸學習,控制參數(shù)量并穩(wěn)定網絡.
Han等人[81]認為許多深層SR網絡結構可以表示為具有各種遞歸函數(shù)的單狀態(tài)遞歸神經網絡的有限展開,并從RNN的角度理解深層結構,如圖9(a)~(c)所示.基于此,他們提出了雙狀態(tài)遞歸網絡DSRN(Dual-State Recurrent Network),其RNN結構如圖9(d)所示.與使用相同空間分辨率的單狀態(tài)模型不同,DSRN能夠在不同的空間分辨率中運行,在LR和HR空間采用兩個循環(huán)狀態(tài),通過網絡中的延遲反饋機制,在LR-HR之間交換循環(huán)信號,充分利用LR和HR空間的特征,得到最終的重建圖像.
圖9 不同網絡模型的RNN展開
2019年,Li等人[82]同樣利用反饋機制,提出了一種圖像超分辨率反饋網絡SRFBN(SR Feedback Network),將高階信息細化為低階表示,并逐步生成最終的HR圖像,實現(xiàn)較少參數(shù)量情況下的網絡性能提升.圖10所示是SRFBN網絡模型的反饋機制,反饋方式通過使用帶約束的RNN中的隱藏狀態(tài)來實現(xiàn).同時,SRFBN網絡模型還引入了課程學習(curriculum learning)策略,通過將逐步增加重建難度的目標HR圖像依次送入網絡進行連續(xù)迭代,使網絡能夠逐步學習復雜的退化模型,從而更好地適應復雜的任務.
圖10 SRFBN反饋機制
RNN參數(shù)共享的特性使其能夠在不引入過多參數(shù)的情況下學習更高層次的特征,但仍然無法避免深層網絡帶來的梯度和訓練等問題,因此RNN通常會與ResNet、多監(jiān)督學習、課程學習等網絡設計及學習策略相結合,以緩解梯度及訓練問題,實現(xiàn)網絡性能的提升.
3.1.4 基于密集卷積網絡的方法
2017年,Huang等人[105]提出DenseNet,并將其概括成一種簡單的連接模式,即為了確保網絡各層之間的最大信息流,直接連接具有相同特征圖大小的任意兩個層,并擴展到所有層的連接.DenseNet在SR中應用的結構圖如圖11所示,對于網絡中的每一層,該層前面所有層的特征圖都作為該層的輸入,而該層的特征圖將成為后續(xù)所有層的輸入之一.
圖11 密集卷積網絡應用于SR
與ResNet使用求和的方式將淺層特征傳遞到后續(xù)層再組合起來不同,DenseNet是通過連接的方式來組合它們.與傳統(tǒng)的連接方式也不同,DenseNet采用密集連接的方式進行組合能夠充分利用層間信息.DenseNet通過加強層間特征傳播,鼓勵層間特征重用,使網絡模型中各層的特征被充分利用,從而大大減少參數(shù)量,改進網絡的信息流動和梯度,有效緩解梯度消失的問題,使網絡更容易訓練.
2017年,Tong等人[106]首次將DenseNet應用于SR中,提出了SRDenseNet(Super-Resolution DenseNet)網絡模型,通過密集跳躍連接將低、高層特征有效融合,再利用反卷積層進一步提升重建圖像的細節(jié)信息.同年,Tai等人[107]提出了深度持久記憶網絡Mem-Net(deep persistent Memory Network),使用DenseNet中的密集連接操作來加強特征傳播,彌補信息丟失,進一步增強高頻信號.MemNet由特征提取網絡、多個堆疊的記憶塊以及重構網絡組成,其中最主要的結構是由用于模擬非線性函數(shù)的遞歸單元和用于自適應學習不同記憶權重的門單元組成的記憶塊(圖12).它通過自適應的學習過程來挖掘持久記憶,從而構建深度網絡的長期依賴關系.
圖12 記憶塊結構
單一的網絡設計策略通常難以獲取較大的網絡性能提升,因此多策略的有效結合對網絡性能的提升至關重要.2019年,Shamsolmoali等人[108]提出基于擴張卷積神經網絡的新模型,通過將DenseNet與擴張卷積進行適當?shù)慕Y合,得到性能與效率有效權衡的網絡模型.次年,Pan等人[109]提出基于密集殘差網絡的網絡模型,利用基于高斯過程的神經結構搜索(GP-NAS)和異構模型集成等策略在真實圖像SR中取得優(yōu)異性能,并得到高保真度的重建圖像.而Jiang等人[110]提出的分層密集殘差網絡HDRN(Hierarchical Dense Recursive Network)同樣在DenseNet的基礎上利用分層殘差塊和全局融合模塊實現(xiàn)整個網絡由粗到細的特征重建,從而得到準確的重建效果.
DenseNet在SR網絡中通過密集連接的方式使網絡模型中各層的特征被充分利用,不僅大大降低了網絡參數(shù)量,而且有效緩解了梯度消失的現(xiàn)象,使得深度網絡易于訓練.但單一的網絡設計策略往往難以實現(xiàn)較大的網絡性能提升,將DenseNet與不同網絡設計及學習策略進行有效組合,才能使基于DenseNet的SISR網絡模型實現(xiàn)更好的重建效果.
3.1.5 基于注意力機制的方法
注意力機制是根據(jù)圖像特征的重要性程度分配不同的權重,使網絡以高權重聚焦重要信息,以低權重忽略無關信息,從而改善圖像細節(jié),提升圖像重建質量的機制,具有較好的靈活性和魯棒性[111].目前主流的注意力機制包括通道注意力、空間注意力和自注意力.2018年,Hu等 人[112]提 出 的SENet(Squeeze-and-Excitation Network)將通道注意力機制引入深度神經網絡中,通過引入“擠壓-激勵”塊(SE block)顯式建模通道之間的相互依賴,提高網絡的特征學習能力,其結構如圖13所示.
圖13 通道注意力機制
前述基于CNN的網絡模型在通道中平等對待LR輸入圖像包含的豐富低頻信息,影響了網絡的表征能力,因此Zhang等人[113]于2018年首次將注意力機制應用于SR中,提出殘差通道注意力網絡RCAN(Residual Channel Attention Network).RCAN中的通道注意力機制能夠根據(jù)通道之間的依賴關系自適應地重新調整每個通道的特征,從而學習到更多有用的通道特征,提高網絡表征能力.此外,RCAN中還使用了殘差中的殘差(Residual In Residual,RIR)結構,通過長、短跳躍連接構建深度可訓練網絡.
2019年,Dai等人[114]指出現(xiàn)有的基于CNN的網絡模型大多通過設計更寬或更深層次的網絡結構來提升性能,忽視了對中間層特征相關性的探索,從而限制了網絡的表征能力.而RCAN中引入的經典通道注意力機制通過全局平均池化利用特征的一階統(tǒng)計量,卻忽略了高于一階的統(tǒng)計量,從而阻礙了網絡的判別能力,且研究表明二階統(tǒng)計量較一階統(tǒng)計量更有助于特征判別性的表示.為此,Dai等人提出了二階注意網絡SAN(Second-order Attention Network)并引入二階通道注意力(Second-Order Channel Attention,SOCA)機制(圖14),通過協(xié)方差歸一化獲取特征的二階統(tǒng)計量來學習特征的相關性,使網絡關注更多特別的特征,提高判別學習能力,從而實現(xiàn)更強大的特征相關學習和特征表達能力.受SOCA機制的影響,SAN網絡模型在具有紋理等更高階信息的圖像上表現(xiàn)更佳.
圖14 二階通道注意力機制
2020年,Wei等人[43]沒有通過統(tǒng)一處理圖像中的所有像素/區(qū)域/組件或者側重處理邊緣或紋理來訓練SR網絡模型,而是受Harris角點檢測的啟發(fā),根據(jù)圖像所傳達信息的重要性,將圖像分為平面、邊緣和角點三個低層次部分,并利用沙漏超分辨率網絡HGSR(Hour-Glass SR),分別構建與平面、邊緣和角點相關的三個組件注意力塊來探索不同組件的重要性,從而提出組件分治CDC(Component Divide-and-Conquer)網絡模型,旨在以分而治之的方式解決真實世界的SR.另外,Wei等人還提出了一種梯度加權損失函數(shù),根據(jù)圖像重建難度適應模型訓練,以解決圖像中不同區(qū)域在各個方向梯度不同的問題.
相比于其他類型的基于CNN的網絡模型,基于注意力機制的網絡模型通常會區(qū)別對待圖像中的重要和不重要區(qū)域,并通過設置高權重加強對圖像重要區(qū)域的特征提取,從而獲取更有效的圖像信息.與基于RNN,DenseNet等網絡設計策略的網絡模型相同,基于注意力機制的網絡模型也需要與殘差學習、課程學習等其他網絡設計及學習策略相結合,才能取得更好的網絡性能提升.
3.1.6 基于輕量化網絡的方法
輕量化網絡指的是通過設計更加緊湊的網絡結構或者在原始網絡結構的基礎上使用一些輕量化策略來減少網絡參數(shù)量,提升網絡速度,并保持或提升原有網絡性能的一種高效網絡.LN旨在將SR算法應用于實際,實現(xiàn)真正意義上的輕量化及移動設備端的SR任務部署,是對性能與效率的一種權衡.目前,輕量化網絡中常用的輕量化策略有很多,如使用擴張卷積(dilated convolution)、群卷積(group convolution)或者深度可分卷積(depthwise separable convolution)等先進卷積來替代傳統(tǒng)的卷積操作,從而實現(xiàn)更高效的性能,同時還有網絡剪枝(network pruning)、知識蒸餾(knowledge distillation)、神經架構搜索(neural architecture search)和自適應推理(adaptive inference)等輕量化策略可用于輕量化網絡的構建.
為實現(xiàn)SR算法的實際應用,2018年,Ahn等人[115]提出了一種精確、高效的深度級聯(lián)殘差網絡CARN(CAscading Residual Network)及其輕量化的移動變體CARN-M(CARN-Mobile).CARN網絡模型在ResNet的基礎上將殘差塊(圖15(a))替換為級聯(lián)塊(圖15(c)),并通過局部和全局殘差學習傳遞圖像信息,該網絡注重網絡性能的提升.CARN-M網絡模型則在CARN的基礎上結合有效的殘差塊(圖15(b))和將級聯(lián)塊進行參數(shù)共享的遞歸塊(圖15(d))來優(yōu)化參數(shù)量及操作數(shù)量,以實現(xiàn)性能與速度的權衡并獲得高效的SR網絡模型,使其能夠應用于移動設備.
圖15 CARN不同模塊結構對比
同年,Hui等人[116]為減少網絡運行時間,利用群卷積和信息蒸餾塊等輕量化策略提出了一種由特征提取塊、信息蒸餾塊和重建塊三部分組成的緊湊且深層的信息蒸餾網絡IDN(Information Distillation Network).由增強單元和壓縮單元組合而成的信息蒸餾塊(圖16)作為IDN網絡的重要結構,能夠逐步提取豐富而有效的圖像特征.其中,增強單元利用通道分離策略保留局部信息并處理后續(xù)信息,主要用于增強LR輸入圖像的輪廓區(qū)域,而壓縮單元則由1×1卷積層構成,主要用于降維及提取相關圖像信息.IDN網絡模型在群卷積、知識蒸餾和每層過濾器數(shù)量設置相對較少等各種策略的影響下,網絡速度有了很大的提升.
圖16 IDN網絡模型的信息蒸餾塊
2019年,Hui等人[117]在IDN的基礎上對信息蒸餾塊加以改進,設計出信息多蒸餾塊(圖17)用于構建輕量化的信息多蒸餾網絡IMDN(Information Multi-Distillation Network),并利用自適應裁剪策略解決任意尺度因子的SR問題.信息多蒸餾塊由漸進細化模塊(Progressive Refinement Module,PRM)、對比感知通道注意層以及能夠減少特征通道數(shù)量的1×1卷積構成,用于逐步提取更加細膩、更具真實感的圖像特征.在各種策略的作用下,IMDN在客觀評價指標和推理時間方面都表現(xiàn)良好,并取得了AIM 2019受限超分辨率重建挑戰(zhàn)賽的冠軍.次年,Liu等人[118]在IMDN基礎上加以改進,提出了與通道分離策略具有相同操作的特征蒸餾連接,用于構建殘差特征蒸餾網絡RFDN(Residual Feature Distillation Network).RFDN在信息蒸餾網絡的作用下實現(xiàn)了更輕量化和更靈活的圖像SR,并獲得了AIM 2020高效超分辨率重建挑戰(zhàn)賽的冠軍.
圖17 IMDN網絡模型的信息多蒸餾塊
為減少網絡參數(shù)量和運算量,Chu等人[119]引入一種融合微觀和宏觀搜索的、新型的彈性神經架構搜索(Neural Architecture Search,NAS)方法,微觀搜索空間用于提取特征單元塊,宏觀搜索空間則使用密集連接將特征單元塊連接起來,從而構建能夠實現(xiàn)快速、準確和輕量化的三種FALSR(Fast,Accurate and Lightweight SR)網絡模型,其中FALSR-A在視覺效果方面表現(xiàn)最好,F(xiàn)ALSR-B具有最低的參數(shù)量,F(xiàn)ALSR-C的網絡性能則表現(xiàn)得比輕量化的CARN網絡模型更好.而Li等人[120]提出的線性組合像素自適應回歸網絡模型LAPAR(Linearly-Assembled Pixel-Adaptive Regression)將直接學習LR圖像到HR圖像的映射問題轉化為基于多個預定義過濾器字典的線性回歸任務,同時根據(jù)特征通道數(shù)量(C)和局部融合模塊數(shù)量(M)提出了LAPAR-A(C32-M4),LAPAR-B(C24-M3)和LAPAR-C(C16-M2)三種模型以評估網絡的可擴展性.LAPAR三種網絡模型在兩倍尺度因子的情況下均表現(xiàn)出比FALSR三種網絡模型更高效的重建效果,且在保證運行速度的同時,該模型在圖像去噪、JPEG去塊等其他低級視覺任務中也表現(xiàn)良好.
2021年,Wang等人[121]提出了稀疏掩碼超分辨率重建網絡模型SMSR(Sparse Mask SR),通過研究圖像的稀疏性減少網絡的冗余計算,提高網絡的推理效率.相較于獨立關注空間及通道維度冗余計算的自適應推理和網絡剪枝方法,SMSR提供了一個統(tǒng)一的框架來考慮空間和通道維度的冗余計算,通過將空間掩碼與通道掩碼結合,使用空間掩碼學習識別圖像的重要區(qū)域,使用通道掩碼學習標記圖像的不重要區(qū)域,因此精確地刪除網絡中冗余計算的部分,使網絡能夠有效地降低計算成本,以獲得更好的效率,同時保持相當?shù)男阅?此外,SMSR在移動設備上的應用也有顯著的加速.
輕量化網絡能夠在維持或提升網絡性能的同時,降低網絡參數(shù)量,提高網絡速度,實現(xiàn)更高效的SR網絡,使SR算法能夠部署在現(xiàn)實應用中.盡管出現(xiàn)了越來越多的輕量化網絡并取得了一定的成果,但大多數(shù)網絡主要關注參數(shù)量和浮點運算次數(shù)(Floating Point Operations,F(xiàn)LOPs),然而FLOPs越少并不意味著網絡效率越好,相反,網絡激活的數(shù)量是網絡效率更準確的衡量標準[122].因此,對于輕量化網絡效率的衡量不能只關注參數(shù)量和FLOPs,而應該從各個角度進行全面的分析[123],進而實現(xiàn)高效的輕量化網絡.
生成對抗網絡是Goodfellow等人[124]于2014年提出的一個通過對抗過程評估生成模型的新框架.如圖18所示,該框架包含兩個子模塊:一個是生成器(Generator,G),用于捕獲數(shù)據(jù)分布;另一個是判別器(Discriminator,D),用于判斷輸入數(shù)據(jù)的“真?zhèn)巍?估計輸入數(shù)據(jù)是來自訓練數(shù)據(jù)而非來自G的概率,通過對抗博弈的方法訓練兩個網絡,不斷完善G和D,直至D“難辨真假”則完成訓練.
圖18 生成對抗網絡
基于GAN的方法主要采用生成對抗網絡的結構,以感知驅動的方式訓練網絡,旨在使重建圖像獲得更好的感知質量、更逼真的視覺效果,在視覺效果上更接近真實圖像,但該方法在客觀評價指標方面表現(xiàn)不佳,對圖像細節(jié)的恢復存在誤差.
2017年,Ledig等人[93]首次將GAN應用于圖像SR領域中,提出了SRGAN(Super-Resolution Generative Adversarial Network)網絡模型.SRGAN包含生成網絡和對抗網絡,生成網絡將輸入的LR圖像進行SR生成重建后的HR圖像,而判別網絡則判斷輸入的是重建的HR圖像還是原始的HR圖像.若判斷錯誤則兩者繼續(xù)相互迭代訓練,直至判別網絡將輸入的重建HR圖像當成是原始的HR圖像則完成訓練.相較于之前基于CNN的網絡模型,SRGAN不僅使用GAN改進網絡結構,同時也將感知損失應用于SR中,采用感知損失與對抗損失組合的損失函數(shù),從而使重建圖像的細節(jié)更加豐富、圖像更具真實感,在感知質量上得到了很好的提升.但GAN框架的“欺騙性”使它的PSNR和SSIM等客觀評價指標相對較低.
為生成紋理逼真、圖像自然的SR圖像,Sajjadi等人[125]提出了一種結合感知損失的自動紋理合成的增強型網絡EnhanceNet.EnhanceNet同樣采用了GAN的結構,生成網絡部分是一個用于紋理合成的前饋全卷積神經網絡,通過GAN與感知損失的結合,能夠實現(xiàn)高放大倍數(shù)的真實紋理,而判別網絡部分則遵循常見的設計模式.同時為證明不同損失函數(shù)對重建圖像質量的影響,Sajjadi等人還對各種損失函數(shù)的重建結果進行比較,驗證了以MSE為損失函數(shù)的重建圖像雖然有最高的PSNR和SSIM等客觀評價指標,但其重建結果較為平滑,缺乏高頻細節(jié),而將感知損失、對抗損失以及紋理損失相結合的損失函數(shù)所生成的重建圖像雖然客觀評價指標較低,但卻能產生具有真實紋理及逼真視覺效果的重建圖像.
受SRGAN的啟發(fā),Wang等人[126]于2018年提出了ESRGAN(Enhanced SRGAN)網絡模型,主要在網絡結構、損失函數(shù)等方面對SRGAN進行改進.在網絡結構方面,生成網絡去除了殘差塊中的BN層,并引入了殘差中的殘差密集塊(Residual-in-Residual Dense Block,RDDB)結構,判別網絡則用相對判別器代替原有的標準判別器.在損失函數(shù)方面,對感知損失進行改進,通過使用激活層前的特征,增強圖像的表征能力,并引入網絡插值[127]的方法使重建圖像從平滑的重建結果向感知質量較好的重建結果轉移.得益于這些改進,ESRGAN網絡模型的網絡性能及重建圖像都得到了很好的提升.
ESRGAN通過對SRGAN的改進,實現(xiàn)了優(yōu)異的感知重建效果,故此后基于GAN的網絡模型大多都是在ESRGAN網絡模型上進行改進創(chuàng)新.如BSRGAN[47],RFB-ESRGAN[128](NTIRE 2020感知極端SR挑戰(zhàn)賽的冠軍模型)和Real-ESRGAN[48]等網絡模型的結構都是基于ESRGAN結構進行改進,并取得了優(yōu)異的重建效果.
Zhang等人[129]指出許多與人類主觀評價高度相關的感知質量評價指標(無參考型客觀評價指標)通常是不可微的且無法作為損失函數(shù)優(yōu)化網絡模型,故提出由標準的SRGAN和Ranker組成的RankSRGAN網絡模型.其中Ranker是一個通用和可微的模型,可以通過學習排名的方法模擬任意感知指標的行為,并作為損失函數(shù)優(yōu)化網絡.RankSRGAN網絡模型在公共SR數(shù)據(jù)集上使用不同的SR方法生成SR圖像,再將成對的圖像對根據(jù)感知質量得分進行排名后構建排名(rank)數(shù)據(jù)集用于網絡模型的訓練.因此RankSRGAN網絡模型能夠結合不同SR方法的優(yōu)點,在感知質量方面產生更好的結果,并恢復出比SRGAN和ESRGAN網絡模型更真實的紋理.
基于GAN的方法利用GAN結構的對抗性使網絡重建效果更具真實感,對不關注細節(jié)的整體圖像具有較好的應用效果,但該方法存在大量的網絡參數(shù),使得網絡訓練不穩(wěn)定,推理速度也因此延緩.對于基于GAN的方法要注重圖像細節(jié)的重建,同時采用合適的策略構造輕量化網絡并使其訓練穩(wěn)定.
Transformer是由Google的Vaswani等人[130]于2017年提出的一種用于自然語言處理(Natural Language Processing,NLP)的網絡架構,其模型架構如圖19所示.它摒棄了RNN和CNN,是一個完全基于自注意力機制來獲取輸入和輸出之間全局依賴關系的轉換模型.相較于CNN通過堆疊卷積層擴大感受野以獲取全文信息,RNN通過遞推捕捉全局聯(lián)系,卻難以捕捉長距離依賴,而自注意力機制能夠更好地捕捉全局聯(lián)系,解決了長距離依賴的問題,同時能夠支持并行化計算,加快訓練速度,提升網絡效率.
圖19 Transformer模型架構
Transformer最初是為了NLP任務中的序列建模而設計的,而后隨著ViT(Vision Transformer)[131],DETR(Detection Transformer)[132],ViViT(Video Vision Transformer)[133]等網絡模型的相繼提出,Transformer逐漸被應用于計算機視覺領域,并取得比CNN、非極大抑制和3D卷積等更好的效果[134].
基于Transformer的方法主要采用Transformer的結構,將自注意力機制引入網絡中.由于Transformer強大的圖像表征能力和各式各樣的結構,此類網絡能夠得到較CNN更好的重建結果和評價指標.當前基于Transformer的SR方法主要有兩種類型:一種是完全使用Transformer結構作為網絡架構的純Transformer網絡模型;另一種是將Transformer作為主干網絡與CNN相結合的混合Transformer網絡模型.
2021年,Chen等人[94]將Transformer架構應用于計算機視覺領域,聯(lián)合提出了一種用于處理SR、去噪和去雨等多種低級計算機視覺任務的預訓練網絡模型IPT(Image Processing Transformer).該網絡屬于純Transformer模型,以端到端的方式進行學習,網絡結構主要由用于從輸入退化圖像提取特征的頭(heads)、用于從輸入數(shù)據(jù)中重建丟失信息的編-解碼器(encoderdecoder)Transformer和用于輸出重建圖像的尾(tails)三部分構成,其中編-解碼器Transformer與原始Transformer[130]中的結構相似,不同之處在于該網絡利用了特定任務的嵌入作為解碼器的附加輸入.為了最大限度地挖掘Transformer的潛力,作者采用包含1 000個類別的ImageNet數(shù)據(jù)集構造了大量的退化圖像數(shù)據(jù)對,并利用這些數(shù)據(jù)對對IPT模型進行訓練.同時,為了使IPT模型更好地適應不同的圖像處理任務并將其應用到未知任務上,作者還引入了對比學習(contrastive learning)來學習通用的特征.最后,經過微調后的預訓練IPT模型可以有效地用于所需的任務,且在不同任務上的表現(xiàn)超過了大多數(shù)現(xiàn)有的方法.
2021年,Liang等人[135]基于Swin Transformer[136]的結構,提出了一種用于圖像恢復的網絡模型SwinIR(Image Restoration Using Swin Transformer).該網絡屬于混合Transformer模型,網絡結構主要由淺層特征提取、深層特征提取和圖像重建三個模塊組成.淺層特征提取模塊采用卷積層提取淺層特征,并利用殘差連接將淺層特征直接傳遞給重建模塊,以保留圖像的低頻信息;深層特征提取模塊主要由多個RSTB(Residual Swin Transformer Block)和一個用于特征增強的卷積層組成,每個RSTB中利用STL(Swin Transformer Layer)進行局部注意和跨窗口交互;而圖像重建模塊則通過融合淺層和深層特征,實現(xiàn)高質量圖像的重建.SwinIR網絡模型整合了CNN和Transformer的優(yōu)勢,既能夠利用CNN處理大尺度因子的圖像SR問題,也能夠利用Transformer解決長距離依賴的問題,從而在圖像SR、圖像去噪和JPEG壓縮偽影減少等低級計算機視覺任務上表現(xiàn)出良好的性能.
同年,Lu等人[137]指出Vision Transformer計算成本高、GPU內存占用大等問題導致網絡無法設計得過深,為此,提出了一種新的高效網絡ESRT(Efficient SR Transformer),以研究在輕量級SR任務中使用Transformer的可行性.ESRT是一個混合Transformer的網絡模型,網絡結構主要由淺層特征提取、輕量級CNN骨干(Lightweight CNN Backbone,LCB)、輕量級Transformer骨干(Lightweight Transformer Backbone,LTB)和圖像重建四個部分組成.其中,LCB通過動態(tài)調整映射圖的大小,能夠以較低的計算成本提取深層圖像特征,可用于解決Transformer在小數(shù)據(jù)集上特征提取能力差的問題.而由一系列高效Transformer(Efficient Transformer,ET)組成的LTB,主要用于獲取圖像中相似塊的長期依賴關系,同時利用ET解決其他Vision Transformer參數(shù)大和GPU內存消耗大的問題.通過這些改進,ESRT能夠有效地增強圖像中相似塊的特征表達能力和長期依賴性,從而獲得更好的性能,驗證了Transformer在輕量級SR任務中的可行性.
無論是純Transformer網絡模型還是混合Transformer網絡模型,目前基于Transformer的方法均表現(xiàn)出比基于CNN的方法更好的網絡性能,但基于Transformer的方法目前仍處于發(fā)展階段,因此主要注重網絡模型重建質量的提升,對于實際的應用考慮較少,后續(xù)可結合實際應用考慮更具實用性的輕量化Transformer網絡模型.
無監(jiān)督式SISR旨在通過從未配對的LR-HR圖像中學習函數(shù)來解決SR問題,從而得到更能夠處理真實世界場景下SR問題的網絡模型.目前,大多數(shù)SR網絡模型都是采用有監(jiān)督學習的方法進行網絡訓練,但監(jiān)督式SR仍然存在一些難以解決的問題,如真實數(shù)據(jù)集構造過程存在一定難度,合成數(shù)據(jù)集采用的退化過程具有一定的人工先驗,無法完全符合圖像真實退化過程等.而無監(jiān)督式SR可以對未配對的LR-HR圖像對進行訓練,相比于需要使用成對的LR-HR圖像對進行網絡訓練的監(jiān)督式SR,其在真實世界的圖像SR任務上更具優(yōu)勢,因此逐漸受到研究人員的關注,如AIM 2019和NTIRE 2020等真實世界圖像超分辨率重建挑戰(zhàn)賽就旨在以弱監(jiān)督或無監(jiān)督的學習方法來實現(xiàn)SR.本章主要將無監(jiān)督式SISR分為“零樣本(zeroshot)”圖像超分辨率重建和弱監(jiān)督式圖像超分辨率重建兩類進行介紹.
2018年,Shocher等人[138]認為現(xiàn)實圖像是具有模糊、噪聲、偽影和壓縮等性質的非理想圖像,監(jiān)督式的SR方法無法很好地解決非理想圖像的SR問題,因此不適用于真實世界圖像的SR.為解決此問題,Shocher等人提出了第一個無監(jiān)督式的基于CNN的網絡模型ZSSR(Zero-Shot SR).ZSSR網絡不依賴模型的預訓練,而是利用單個圖像內部的信息,在測試時直接訓練一個小型的特定圖像的CNN,僅從輸入的LR測試圖像中提取內部信息,從而實現(xiàn)各種大小、尺度因子的非理想圖像的SR.圖20為監(jiān)督式SR與ZSSR的對比,相較于監(jiān)督式SR需要花費較多時間對網絡進行預訓練從而得到圖像的先驗知識,ZSSR能夠在測試時直接進行網絡的訓練與測試,同時在非理想的圖像上表現(xiàn)出比EDSR網絡模型更好的性能.但ZSSR存在測試時間較長以及對每張圖像都需要訓練一個特定網絡模型的缺點.
圖20 監(jiān)督式SR與ZSSR對比[138]
對于未配對的LR-HR圖像,弱監(jiān)督式SR主要是采用不同的方法,在不引入預定義退化的情況下進行SR.根據(jù)所用方法的不同,大致可以將其分為兩種類型:一種是運用無監(jiān)督式的退化模型學習圖像退化過程以構造合成數(shù)據(jù)集進行SR,另一種則是在網絡中通過不同的循環(huán)結構以實現(xiàn)弱監(jiān)督式SR.
為解決監(jiān)督式SR方法無法應用于現(xiàn)實世界場景圖像的問題,Bulat等人[139]于2018年提出了一個弱監(jiān)督式的兩階段網絡模型.首先利用一個GAN模型以無監(jiān)督的方法學習HR圖像的退化和下采樣過程,得到相應的LR圖像,再對前一個GAN模型的LR輸出圖像進行重建,訓練一個由LR圖像到HR圖像的GAN模型,從而實現(xiàn)真實世界圖像的SR,有效地提高真實世界LR圖像的質量.此外,DSGAN[50]和RealSR[60]等網絡模型同樣以無監(jiān)督的方式獲取相應LR圖像并構造合成數(shù)據(jù)集,解決LR-HR圖像不匹配的問題,再基于改進后的ESRGAN網絡模型進行圖像的重建,取得了很好的重建效果,并分別在AIM 2019和NTIRE 2020真實圖像超分辨率重建挑戰(zhàn)賽上獲得了冠軍.
2018年,Yuan等人[140]受CycleGAN[141]的啟發(fā),以生成對抗網絡為基本結構,提出了一種無監(jiān)督式的循環(huán)生成對抗網絡模型CinCGAN(Cycle-in-Cycle GAN).該模型包含2個CycleGAN:第一個CycleGAN通過將有噪聲和模糊的LR輸入圖像映射到一個雙三次下采樣的clean LR空間,從而得到去噪和去模糊后的LR圖像;第二個CycleGAN則用于學習從第一個CycleGAN中輸出的LR圖像到HR圖像的映射,即通過現(xiàn)有的SR網絡模型來重建中間結果到所需的放大倍數(shù),再以端到端的方式對這兩個模塊同時進行組合和微調,從而得到HR重建圖像的輸出.此外,為進一步提高CinCGAN的網絡性能,Zhang等人[142]又于2020年采用漸進式多循環(huán)策略及模糊損失對CinCGAN加以改進,提出了一個多循環(huán)網絡模型MCinCGAN(Multiple Cycle-in-Cycle GAN),用于處理多種尺度因子、退化未知且復雜和LRHR圖像不匹配的SR問題.
Wu等人[143]認為導致無監(jiān)督式SR模型產生不滿意重建效果的關鍵在于不真實的低頻信息和不準確的高頻紋理,因此利用數(shù)據(jù)約束策略從損失函數(shù)、訓練數(shù)據(jù)和后處理等方面對CycleGAN的結構進行改進,提出了無監(jiān)督的ECycleGAN(Enhanced CycleGAN)網絡模型.他們通過引入新的圖像約束損失函數(shù)來補償無監(jiān)督學習中像素級監(jiān)督的缺失,并限制判別器的數(shù)據(jù)內容,促進其抑制高頻紋理或偽影,此外還引入了模型平均策略用于后處理.由于這些改進,ECycleGAN的訓練變得更加穩(wěn)定,同時圖像重建能力也得到了有效提升.
為便于分析圖像超分辨率重建的發(fā)展趨勢,表3對前述部分網絡模型相關內容進行總結對比.表中的類型按照前述網絡模型進行分類.LR圖像獲取方式:Bicubic表示雙三次下采樣,B表示模糊核,GB表示高斯模糊核,N表示噪聲,GN表示高斯噪聲,J表示JPEG壓縮.由于數(shù)據(jù)增強[144]能夠擴大數(shù)據(jù)容量,減少迭代次數(shù),并在一定程度上提升網絡性能,所以許多網絡模型常通過隨機翻轉、旋轉和縮放等操作對數(shù)據(jù)集進行數(shù)據(jù)增強.
表3 基于深度學習的單幀圖像超分辨率重建典型網絡模型總結
續(xù)表
對于網絡模型的總結對比,除了表3所示的內容外,本文還在Wang等人[37]的基礎上,對最新網絡模型的SR精度(即PSNR)、模型大?。磪?shù)數(shù)量)和計算代價(即操作數(shù)multi-add)進行基礎測試對比,如圖21所示.SR精度由網絡模型在Set5,Set14,B100和Urban100四個基準數(shù)據(jù)集上的平均PSNR值來衡量,再計算模型大小和計算成本,尺度因子為2.
圖21 圖像超分辨率重建基準測試
ICCV(IEEE International Conference on Computer Vision,即國際計算機視覺大會)、CVPR(IEEE Conference on Computer Vision and Pattern Recognition,即國際計算機視覺與模式識別會議)和ECCV(European Conference on Computer Vision,即歐洲計算機視覺國際會議)是世界三大頂級的計算機視覺會議.近年來,利用深度學習技術的圖像SR研究取得了顯著進展,相關挑戰(zhàn)賽也層出不窮.其中最有影響力的圖像SR挑戰(zhàn)當屬三大頂會所組織的NTIRE(New Trends in Image Restoration and Enhancement,即圖像恢復與增強的新趨勢)挑戰(zhàn)賽、AIM(Advances in Image Manipulation,即圖像處理的進展)挑戰(zhàn)賽以及PIRM(Perceptual Image Restoration and Manipulation,即感知圖像恢復與處理)挑戰(zhàn)賽.
NTIRE挑戰(zhàn)賽一般是與同年的CVPR會議同期開展,研究圖像恢復與增強的新趨勢,聚焦圖像、視頻的質量改進與評估,涉及圖像及視頻的超分辨率重建、去噪、去霧、去模糊等內容.NTIRE挑戰(zhàn)賽自2017年開始舉辦至今,吸引了不少圖像處理領域的研究者和愛好者的關注,是近年來計算機視覺領域非常有影響力的一場賽事.2021年,NTIRE挑戰(zhàn)賽在圖像處理挑戰(zhàn)方面沒有關于SISR的相關挑戰(zhàn),但在視頻處理挑戰(zhàn)方面有一場關于MISR的挑戰(zhàn).另外,還有一場與CVPR 2021聯(lián)合舉辦的首屆Mobile AI 2021挑戰(zhàn)賽,旨在從移動設備端開發(fā)端到端基于深度學習的圖像SR的解決方案,并在移動或邊緣NPU上實現(xiàn)實時性.
AIM挑戰(zhàn)賽是關于圖像處理類的國際挑戰(zhàn)賽,涵蓋了圖像、視頻處理的多個熱門研究方向,例如超分辨率重建、重光照、圖像補全等.AIM挑戰(zhàn)賽中關于圖像SR的挑戰(zhàn)主要涉及真實世界的圖像SR和高效的圖像SR.AIM挑戰(zhàn)賽與NTIRE挑戰(zhàn)賽一樣在計算機視覺領域有很大的影響力,自2019年起連續(xù)舉辦了兩年,2021年由于時間和資源的限制沒有舉辦.
PIRM挑戰(zhàn)賽是2018年與ECCV 2018 PIRM研討會聯(lián)合舉辦的第一個關于感知圖像超分辨率重建的挑戰(zhàn).PIRM挑戰(zhàn)賽中提出的無參考型客觀評價指標PI聯(lián)合量化了準確性和感知質量,且與主觀評價指標具有較強的相關性,為感知SR的圖像質量提供了有效的評價指標.雖然PIRM挑戰(zhàn)賽只舉辦了一屆,但它為感知圖像SR今后的發(fā)展奠定了堅實的基礎.
為分析圖像超分辨率重建的發(fā)展趨勢,表4[59,68,83,123,145~153]從賽道設置、數(shù)據(jù)集使用、評價指標等方面總結了近年來上述挑戰(zhàn)賽的相關信息.
從基于CNN到基于GAN再到基于Transformer的單幀圖像超分辨率重建的發(fā)展,表明了基于深度學習的圖像超分辨率重建技術取得了階段性的成功,開始從PSNR目標最大化的SR向感知驅動的SR再到性能顯著提升的SR轉換.雖然現(xiàn)階段基于深度學習的圖像超分辨率重建技術已有很多表現(xiàn)優(yōu)異的成果,但仍存在很大的發(fā)展空間.根據(jù)表3對現(xiàn)有研究成果的總結和表4對近年相關挑戰(zhàn)賽的相關內容總結,可以從以下幾個方面對圖像超分辨率重建領域未來的發(fā)展趨勢進行展望.
(1)性能提升
當前,影響SR網絡性能的主要因素是訓練數(shù)據(jù)集以及網絡結構等.網絡結構包括網絡模型中使用的網絡框架、損失函數(shù)、網絡設計及學習策略、網絡深度及寬度等.改善這些因素可以提升網絡性能,獲得重建效果更好的網絡模型.
(a)訓練數(shù)據(jù)集.數(shù)據(jù)集是影響網絡性能的重要因素,如何采集數(shù)據(jù)集并構建訓練數(shù)據(jù)集則至關重要.目前,訓練數(shù)據(jù)集可以通過合成數(shù)據(jù)集以及真實數(shù)據(jù)集的兩種方式獲取.
從表3和表4可以看出,近年來訓練集中LR圖像的獲取方式已逐漸從簡單的雙三次合成數(shù)據(jù)集向真實數(shù)據(jù)集以及無監(jiān)督式模擬退化過程的合成數(shù)據(jù)集轉變.在網絡結構變化較小的情況下,通過轉變訓練集獲取方式的網絡模型性能也能有所提升,如RealSR[60]網絡模型在網絡結構方面只對ESRGAN判別網絡進行改進,并通過無監(jiān)督式退化模型合成數(shù)據(jù)集,就得到了很大的性能提升.因此為了獲得更好的圖像質量,可以通過改善訓練數(shù)據(jù)集的構建方式,模擬圖像真實退化過程,擴大退化空間使模型更具泛化性,以便對各種真實場景進行SR.
表4 圖像超分辨率重建相關挑戰(zhàn)賽內容總結
(b)損失函數(shù).損失函數(shù)作為網絡結構的一部分,在網絡模型中也占據(jù)重要地位.相較于之前單純使用一種損失函數(shù)(L2損失或L1損失)的方法來看,多種損失函數(shù)的組合已表現(xiàn)出明顯優(yōu)勢,能給圖像帶來更好的感知效果[125].但目前尚未出現(xiàn)標準的組合型損失函數(shù).如何進行損失函數(shù)的有效組合得到最佳的重建結果,仍需繼續(xù)探索研究.
(c)評價指標.圖像質量評價指標作為衡量圖像質量的重要方式之一,在SR圖像的質量評價中具有重要地位.MOS和MOR等常用的主觀評價指標雖然能夠較為準確地衡量圖像的感知質量,但昂貴的人工成本及不可復現(xiàn)性,使該指標并沒有被廣泛應用.盡管PSNR和SSIM等客觀評價指標通過計算圖像間的像素差距對圖像質量進行衡量的方式,與主觀評價指標存在反相關的關系,無法準確反映人對重建圖像的主觀評價,但從表3、表4中可以看出,PSNR和SSIM仍然是目前主流的SR評價指標,同時,從表中可以發(fā)現(xiàn),近年來的評價指標有從全參考型的客觀評價指標向無參考型客觀評價指標轉變的趨勢.由于現(xiàn)有的客觀評價指標與主觀評價指標存在一定的差異,所以探索一種符合人類視覺感受且便于使用的客觀評價指標也將是一個重要的研究方向.
目前,評價網絡模型視覺效果的測試圖像通常是采用一些自然圖像,如動物、建筑、文字等,并通過放大圖像,觀察動物毛發(fā)、建筑框架、文字信息等圖像細節(jié)來衡量重建圖像的視覺效果,該方法從整體及局部對圖像質量進行評估,雖然能夠較為準確地評價圖像重建質量,但對于一些視覺效果較為相似的圖案就難以辨別其重建質量.因此,可以通過引入西門子星圖(圖22(a))、USAF-1951分辨率板(圖22(b))等靶標圖對網絡模型的性能進行評估,并通過圖形的線對關系等判斷空間分辨率,從而更為準確地評估網絡模型的性能.
圖22 不同類型靶標圖
(d)算法結合.目前,已有將SR算法與其他計算機視覺任務相結合共同處理圖像問題的應用,如SCN[154],SinIR[155]和IPT[94]等網絡模型.圖像的退化過程是由模糊、噪聲等各種因素造成的,相較于單獨訓練網絡處理去模糊、去噪等單個圖像問題后再進行圖像SR,組合處理的方式能夠更有效地一次性處理各種圖像問題,很大程度上節(jié)省了存儲空間,提升了計算效率.因此,可以進一步研究SR算法與其他計算機視覺任務結合共同處理圖像恢復問題的方式.
(e)通用插件及框架.除了從整體的網絡結構上進行改進實現(xiàn)特定網絡模型的SR,也有不少研究人員研究通用的插件和框架旨,在從局部上對網絡進行改進,從而實現(xiàn)網絡性能的提升.如Kong等人[156]提出的一種利用數(shù)據(jù)特性加速SR網絡的通用框架ClassSR,通過類模塊將子圖像按照難易程度分類,用不同分支處理不同難度的類,最終實現(xiàn)幾乎所有基于學習的大圖像SR方法的加速.又如Wang等人[157]利用條件卷積開發(fā)的插件模塊,不僅可以處理任意尺度的SR問題,還可以處理非對稱的SR問題.
(2)實際應用
一個好的網絡模型不僅要具有良好的網絡性能,且要能夠將算法應用于實際才能真正起到作用.盡管現(xiàn)有的大多數(shù)網絡具有良好的性能,但很多卻無法應用于實際.因此現(xiàn)有的網絡模型越來越重視實際的應用,追求高效、實時、輕量化.從表4所示的挑戰(zhàn)賽發(fā)展趨勢可以看出,SR算法正在從學術研究向工業(yè)產品應用轉化.
(a)注重網絡效率,構建輕量化SR網絡模型.從AIM 2019受限SR及AIM 2020高效SR的挑戰(zhàn)賽中可以看出當前網絡對實時性的需求,同時從評價指標的變化也可以看出實時性不僅僅是由參數(shù)量、運行時間以及浮點運算次數(shù)(FLOPs)等決定的,網絡激活的數(shù)量等也具有一定的影響.所以衡量一個網絡的效率不僅是從運行時間、參數(shù)量和FLOPs方面考慮,還要從其他方面考慮并進行全面的分析.近來,SR網絡模型已實現(xiàn)較好的性能,但卻難以實現(xiàn)實時性需求,因此往后的發(fā)展要注重輕量化網絡模型的構建,使SR算法能夠應用于實際.
(b)注重網絡質量,構建應用于真實場景的SR網絡模型.從基于CNN到基于GAN方法的轉變,是從PSNR目標最大化的SR向感知驅動的SR轉變,同時也表明了感知SR的重要性.從表3、表4中訓練數(shù)據(jù)集構建方式的轉變可以看出,SR的發(fā)展逐漸從經典SR轉向真實世界的SR,網絡模型更加注重對現(xiàn)實場景SR的應用,可見能夠實現(xiàn)真實場景圖像而非合成場景圖像的應用才是各項SR技術的最終落腳點.
(c)注重網絡應用,構建基于移動設備的SR網絡模型.從Mobile AI 2021挑戰(zhàn)賽中可以看出,目前超分的一個發(fā)展趨勢是從硬件設備端轉向移動設備端,使相關的SR網絡模型能夠應用于實際,實現(xiàn)算法的落地.如Ayazoglu等人[158]針對現(xiàn)有模型在移動設備端運行的限制因素對網絡構建塊加以改進,提出了一個極輕量化的超分辨率網絡XLSR(Extremely Lightweight SR),在運行時間和模型參數(shù)等方面得到很大提升,并且能實現(xiàn)移動硬件端的高效運行,最終獲得了Mobile AI 2021挑戰(zhàn)賽的冠軍.
(d)特定領域的應用.目前大多數(shù)的SR網絡模型主要用自然圖像進行訓練,雖具有一定的泛化性,但對于紅外圖像、遙感圖像等特定場景圖像的SR依舊存在局限性.如何將這些特定場景的先驗知識與深度學習的框架結合起來應用于SR中是一個值得探索的方向.
本文對基于深度學習的單幀圖像超分辨率重建的相關知識及現(xiàn)有研究成果進行綜述.隨著單幀圖像超分辨率重建技術的發(fā)展,構建數(shù)據(jù)集的方式已逐漸從簡單的雙三次合成數(shù)據(jù)集向真實數(shù)據(jù)集以及大規(guī)模和無監(jiān)督式合成數(shù)據(jù)集轉變,旨在構建具有更大退化空間和更真實退化過程的退化模型.模型框架仍然以后上采樣模型框架為主.評價指標雖有向無參考型客觀評價指標轉變的趨勢,但目前仍以PSNR和SSIM為主.單幀圖像超分辨率重建從最初的以PSNR最大化為目標到以感知驅動為目標再到以Transformer為主干的發(fā)展,是圖像超分辨率重建算法的一大進步,也為后續(xù)超分辨率重建網絡的發(fā)展提供了新思路,促進了圖像超分辨率重建技術的進一步發(fā)展.目前,單幀圖像超分辨率技術已在學術研究上取得了較好的成果,后續(xù)的研究重點會向算法的應用部署以及工業(yè)產品研發(fā)方面轉移.