朱 磊,李志蒙,朱奇?zhèn)ィ┭?,馮 達(dá)
(1.西安工程大學(xué) 電子信息學(xué)院,陜西 西安 710048;2.杭州昇擎科技有限公司,浙江 杭州 310052)
SISR作為計(jì)算機(jī)視覺任務(wù)中的研究熱點(diǎn),旨在從低分辨率圖像上重建出對應(yīng)的高分辨率圖像[1-2],在醫(yī)學(xué)圖像增強(qiáng)[3]、遙感成像[4]、視頻感知[5]等方面具有廣泛的應(yīng)用。文獻(xiàn)[1]系統(tǒng)地總結(jié)了SISR算法,根據(jù)各類算法獲取圖像細(xì)節(jié)的方式差異,將其分成基于插值、基于重建和基于學(xué)習(xí)的算法等3種類型。
基于插值的算法主要是通過一定的基函數(shù)計(jì)算或插值核建立原圖像與目標(biāo)圖像的映射關(guān)系,完成重建過程。文獻(xiàn)[6]利用雙三次插值(Bicubic)算法重建圖像,雖然計(jì)算過程簡單,但重建結(jié)果缺乏細(xì)節(jié)信息,塊效應(yīng)明顯且視覺效果模糊?;谥亟ǖ乃惴▌t主要依靠添加先驗(yàn)信息約束解空間,重建結(jié)果能夠恢復(fù)更多的高頻細(xì)節(jié),例如凸集投影算法[7]等。雖然添加了先驗(yàn)信息約束重建過程,能夠取得較好的SR結(jié)果,但依然存在收斂不理想等問題。
基于學(xué)習(xí)的算法是使用機(jī)器學(xué)習(xí)技術(shù),通過大量訓(xùn)練樣本中低分辨率圖像與高分辨率圖像的映射關(guān)系實(shí)現(xiàn)SR重建。近年來,隨著卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)在多個領(lǐng)域中取得的顯著成效,眾多學(xué)者紛紛關(guān)注到其優(yōu)秀且強(qiáng)大的圖像表征能力,基于CNN的圖像SR算法因應(yīng)而生。文獻(xiàn)[8]提出的三層網(wǎng)絡(luò)結(jié)構(gòu)SRCNN成為以CNN完成SR任務(wù)的開創(chuàng)性工作,與傳統(tǒng)算法相比細(xì)節(jié)信息更加豐富,視覺效果有明顯改善?;贑NN的方法由此開始逐步主導(dǎo)圖像SR領(lǐng)域的相關(guān)研究[9]。文獻(xiàn)[10]對殘差模塊進(jìn)行改進(jìn)并提出EDSR,通過去除批歸一化操作,將計(jì)算資源用以堆疊更深的網(wǎng)絡(luò)或者提取更多的特征,從而改善SR結(jié)果。在此基礎(chǔ)上,文獻(xiàn)[10]還提出一種多尺度模型,使不同尺度的SR任務(wù)間能夠共享絕大部分參數(shù),與單尺度網(wǎng)絡(luò)具有相近表現(xiàn)力的情況下消耗的資源更少。EDSR曾經(jīng)是規(guī)模最大SISR模型并且在NTIRE2017[11]圖像超分辨率大賽上包攬全球冠亞軍。為了充分挖掘圖像細(xì)節(jié)信息,文獻(xiàn)[12]從網(wǎng)絡(luò)結(jié)構(gòu)角度出發(fā)提出RDN,構(gòu)造出更深的密度網(wǎng)絡(luò),通過密集連接方式使特征充分融合以提取有用的高頻信息,并采用殘差結(jié)構(gòu)保證網(wǎng)絡(luò)訓(xùn)練的穩(wěn)定性。文獻(xiàn)[13]則注意到基于CNN的超分辨方法在平坦區(qū)域存在計(jì)算冗余問題,認(rèn)為對低分辨率圖像的紋理區(qū)域、邊緣等信息應(yīng)給予更多關(guān)注。因此,探索了圖像超分辨中的稀疏性問題[14],提出SMSR學(xué)習(xí)稀疏掩碼以剪枝冗余計(jì)算量,并取得了SOTA性能,具有更好的感知質(zhì)量與視覺效果。然而,SR重建是一個不適定問題[15],無法求得唯一解。上述各類算法雖然都能夠出色地完成SR任務(wù),但均未充分利用圖像的尺度特征,對圖像的高頻細(xì)節(jié)信息的生成還有待進(jìn)一步打磨。
為了充分挖掘并提取圖像的尺度特征,重建細(xì)節(jié)豐富、視覺感知效果更好的SR圖像,本文提出一種融合多尺度特征的改進(jìn)RDN圖像超分辨率重建網(wǎng)絡(luò)MSRDN。構(gòu)建了特征提取模塊,并通過不同尺度的模塊多路組合結(jié)構(gòu),以充分提取圖像的多尺度細(xì)節(jié)特征,強(qiáng)化網(wǎng)絡(luò)對不同尺度圖的語義信息感知能力;構(gòu)建了自頂向下與自底向上相結(jié)合的特征融合模塊,對采集的多尺度特征進(jìn)行充分融合與關(guān)聯(lián),有利于重建圖像恢復(fù)出更豐富的細(xì)節(jié)信息。
RDN[12]網(wǎng)絡(luò)結(jié)構(gòu)主要由淺層特征提取網(wǎng)絡(luò)、殘差密集塊(RDBs)、密集特征融合(DFF)以及上采樣網(wǎng)絡(luò)(UPNet)等4個部分構(gòu)成,如圖1所示。
圖 1 RDN網(wǎng)絡(luò)結(jié)構(gòu)
淺層特征提取網(wǎng)絡(luò)由2個卷積層構(gòu)成。殘差密集塊是殘差塊和密集塊的集成,包含密集連接層、局部特征融合與局部殘差學(xué)習(xí)3個部分。該模塊形成了連續(xù)記憶機(jī)制,將前面所有層的輸出疊加連接到當(dāng)前層,保證前后層特征信息的緊密融合與積累。密集特征融合由全局特征融合和全局殘差學(xué)習(xí)構(gòu)成,連接方式與殘差密集塊類似,即將每一個RDB模塊的輸出特征以分層連接的方式全局融合,并將前面提取的淺層特征連接到殘差模塊,以輸出最后的稠密特征。上采樣網(wǎng)絡(luò)即網(wǎng)絡(luò)末端的上采樣和卷積部分完成圖像的放大操作。
圖像SR是一個逆向病態(tài)的重構(gòu)問題[16-17],因此對圖像退化過程做準(zhǔn)確的建模是保證SR結(jié)果符合預(yù)期的重要因素。圖像的退化模型[18-20]可以表述為
ILR=(IHR?k)↓s+n
(1)
式中:ILR為低分辨率圖像;IHR為高分辨率圖像;k為運(yùn)動模糊核;?為卷積操作;↓s為尺度因子s的下采樣操作;n為帶入的加性高斯噪聲。本文提出MSRDN首先對仿真圖像的退化模型逆向重構(gòu)學(xué)習(xí)得到SR結(jié)果,然后采取像素重組的方式進(jìn)行后上采樣得到目標(biāo)圖像,最后在真實(shí)世界的退化圖像上測試。
為了重建出高頻細(xì)節(jié)更豐富的高質(zhì)量復(fù)原圖像,MSRDN會對低分辨率圖像的特征進(jìn)行更加充分、有效提取。MSRDN的整體結(jié)構(gòu)包括多尺度特征提取模塊和特征融合模塊,2個模塊對于MSRDN的積極影響將在消融實(shí)驗(yàn)體現(xiàn)出來。
所提出的融合多尺度特征的改進(jìn)RDN圖像超分辨率重建網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖 2 改進(jìn)RDN圖像超分辨率重建網(wǎng)絡(luò)結(jié)構(gòu)
該模型由淺層特征提取模塊、多尺度特征融合模塊與圖像重建模塊等3個部分組成。輸入圖像通過淺層特征提取模塊生成淺層特征,該特征攜帶更多的空間特征但蘊(yùn)含的語義信息較弱。多尺度特征融合模塊作為編碼網(wǎng)絡(luò)的主體部分,負(fù)責(zé)生成高質(zhì)量特征。具體地,通過三路卷積核大小不同的多個RDB模塊提取不同尺度的特征,并通過自頂而下和自底而上的方式將不同分支的特征充分融合后輸出更高質(zhì)量的特征。圖像重建模塊包含1個亞像素卷積層和2個卷積層,提取到的所有特征都會送入圖像重建模塊重建出SR圖像。
提出的MSRDN將低分辨率圖像(ILR)作為輸入,預(yù)測輸入圖像的高分辨圖像(ISR),然后使用輸出SR圖像和真實(shí)高分辨圖像(IHR)之間的距離作為預(yù)測誤差指導(dǎo)MSRDN的訓(xùn)練。該過程可以表述為
ISR=fMSRDN(ILR)
(2)
L=fl(ISR,IHR)
(3)
式中:fMSRDN(·)表示MSRDN的SR過程;fl(·)為損失函數(shù)。使用L(·,·)函數(shù)作為損失函數(shù),其表達(dá)式為
(4)
淺層特征提取模塊由2個卷積層構(gòu)成,提取淺層特征的過程可以表示為
Fshallow=fc3(fc3(ILR))
(5)
式中:fc3(·)表示卷積核大小為3×3的卷積操作;Fshallow為提取到的淺層特征。由于淺層特征中的語義信息較少,使用多尺度特征融合模塊對淺層特征進(jìn)行深度編碼,從而獲取更高質(zhì)量的特征。若fms(·)表示多尺度特征融合模塊的編碼過程,則
Fdeep=fms(Fshallow)
(6)
式中Fdeep表示深層特征。為了提高生成的SR圖像的質(zhì)量,使用深層特征與淺層特征相結(jié)合的方式對其進(jìn)行恢復(fù)。該思想體現(xiàn)在2個方面:1)將多尺度特征融合模塊推理過程中的每層特征進(jìn)行融合;2)使用全局殘差連接將淺層特征的位置信息傳遞到深層。
與RDN類似,在經(jīng)過多尺度特征提取模塊得到不同尺度的語義信息后進(jìn)行密集特征融合,將所有層的特征信息緊密聯(lián)系與利用,其輸出特征可以表示為
FGF=fc1(F11,F21,F31,…,F1D,F2D,F3D)
(7)
式中:FGF為將所有層的特征信息進(jìn)行密集特征融合后的輸出特征圖;fc1(·)表示卷積核大小為1×1的卷積運(yùn)算。首先,使用式(7)復(fù)合運(yùn)算將不同深度不同尺度的特征進(jìn)行融合,然后,MSRDN使用全局殘差連接將淺層特征傳遞到深層,并與深層特征融合。由于各個特征具有相同的尺寸,所以采取逐像素相加的方式融合特征,即
FDF=FGF⊕F-1
(8)
式中:F-1為模型中經(jīng)過第一個卷積層后得到的淺層特征圖;FDF為編碼網(wǎng)絡(luò)最終的輸出。多尺度特征提取模塊充分利用了特征提取網(wǎng)絡(luò)在不同深度以及不同尺度所提取到的信息。該模塊生成多尺度的局部密集特征,這些特征進(jìn)一步自適應(yīng)融合形成FGF,而后經(jīng)過全局殘差連接生成整個編碼網(wǎng)絡(luò)的最終輸出特征FDF。將FDF輸入到亞像素卷積層,實(shí)現(xiàn)從低分辨率圖像到高分辨率圖像的重構(gòu),即
ISR=fSR(FDF)
(9)
式中:fSR(·)為圖像重建模塊的復(fù)合運(yùn)算函數(shù),其目的在于將最終的圖像特征圖從高維空間轉(zhuǎn)換回RGB空間,以得到最終的SR圖像。
不同尺度特征映射的感受野范圍不同:小卷積核的卷積層輸出特征的感受野范圍小,幾何細(xì)節(jié)信息表征能力強(qiáng),但語義信息表征能力弱;大卷積核的卷積層輸出特征則與之相反[21]。因此,如何充分利用多尺度特征信息對圖像任務(wù)而言舉足輕重。受目標(biāo)檢測任務(wù)中廣泛應(yīng)用的特征金字塔結(jié)構(gòu)[22-23]的啟發(fā),MSRDN將多尺度特征提取思想引入SR任務(wù)中,提出多尺度特征提取模塊,如圖3所示。
圖 3 多尺度特征提取模塊結(jié)構(gòu)
該模塊包括多尺度特征提取和局部殘差學(xué)習(xí)2個部分。
(10)
(11)
(12)
(13)
(14)
(15)
為了使多尺度特征提取部分在學(xué)習(xí)不同尺度特征時更加穩(wěn)定可靠,在RDB末端應(yīng)用了局部殘差學(xué)習(xí),使得前一個RDB模塊提取的特征和當(dāng)前RDB模塊整個卷積層提取的特征進(jìn)行自適應(yīng)融合。具體地,將前一個RDB模塊的輸出以殘差連接的方式引入到當(dāng)前RDB模塊的輸出特征中,故3個分支網(wǎng)絡(luò)中各RDB模塊的最終輸出可以表示為
(16)
(17)
(18)
局部殘差學(xué)習(xí)相當(dāng)于簡單執(zhí)行同等映射,可以進(jìn)一步改善信息流。與單純的增加網(wǎng)絡(luò)深度相比,局部殘差學(xué)習(xí)的引入緩解了梯度彌散或者梯度爆炸問題,能夠保證模型訓(xùn)練過程的穩(wěn)定性,有效地加速模型收斂。
在每個RDB模塊提取局部多尺度密集特征后,MSRDN進(jìn)一步提出多尺度特征融合模塊對不同尺度的特征進(jìn)行融合,如圖4所示。
圖 4 多尺度特征融合模塊
在模型中,多尺度特征融合采用自頂向下結(jié)合自底向上方式緊密融合各尺度特征,并且橫向連接的2層特征尺度大小相同,可以充分利用底層細(xì)節(jié)信息。將此融合方式嵌入到每個RDB模塊的后面,隨著網(wǎng)絡(luò)層數(shù)的加深,2種不同方向的多尺度特征融合模塊交替使用,直至多尺度特征提取模塊的最后一層。以自頂向下的融合方式為例,使用數(shù)學(xué)表達(dá)式描述這一過程:
F1=fMSF(F11⊕F21⊕F31)
(19)
式中:F1為融合后特征;fMSF(·)為多尺度特征融合運(yùn)算。每個RDB模塊輸出特征整體融合后,即得到最終的高質(zhì)量特征FGF,
FGF=fGFF([F11,F21,F31,…,F1D,F2D,F3D])
(20)
式中:[F11,F21,F31,…,F1D,F2D,F3D]表示將各個殘差密集塊輸出的特征圖進(jìn)行拼接;fGFF為1×1和3×3卷積層的復(fù)合運(yùn)算。1×1卷積層對一系列不同層次的特征自適應(yīng)提取有用信息并過濾掉冗余信息,以此降低模型的運(yùn)算復(fù)雜度;3×3卷積層則用于進(jìn)一步提取特征進(jìn)行全局殘差學(xué)習(xí)。
為充分評估所提的MSRDN,采用定性與定量實(shí)驗(yàn)對比方法,采用MSRDN與Bicubic[6]、SRCNN[8]、EDSR[10]、RDN[12]以及SMSR[13]的性能。采用DIV2K[10]作為訓(xùn)練數(shù)據(jù)集,該數(shù)據(jù)集是一個大型的高質(zhì)量(2k分辨率)圖像復(fù)原數(shù)據(jù)集,包含用于訓(xùn)練的800張高分辨率圖像,用于驗(yàn)證的100張高分辨率圖像和用于測試的100張低分辨率圖像;采用Set5[24]、Set14[25]和BSD100[26]等3個被廣泛使用的SR基準(zhǔn)數(shù)據(jù)集作為測試數(shù)據(jù)集,涵蓋多種多樣的場景,能夠充分評估模型的性能。此外,所有實(shí)驗(yàn)代碼均基于MMEditing進(jìn)行開發(fā)。MMEditing項(xiàng)目是基于PyTorch的圖像和視頻編輯開源工具箱,包含了SRCNN、EDSR、ESRGAN與RDN等眾多經(jīng)典網(wǎng)絡(luò)。
3.2.1 基準(zhǔn)數(shù)據(jù)集實(shí)驗(yàn)
為了客觀評價MSRDN的圖像重建結(jié)果,圖5展示了不同算法在×2、×3、×4等3個尺度因子測試圖像的視覺結(jié)果。其中HR為高分辨率圖像,重建的SR圖與HR越貼近則質(zhì)量越高。
圖 5 MSRDN與其他5種模型基準(zhǔn)數(shù)據(jù)集的視覺對比結(jié)果
由圖5可以看出:MSRDN重建的圖像在各個尺度因子的實(shí)驗(yàn)中較其他算法均具有更佳的視覺效果,圖像幾何結(jié)構(gòu)更加清晰,沒有發(fā)生嚴(yán)重的形變。在×2尺度因子的測試圖像視覺結(jié)果中,MSRDN對于字體的重建沒有出現(xiàn)嚴(yán)重的粘連情況;在×3尺度因子的測試圖像視覺結(jié)果中,MSRDN重建的SR圖像與其他算法相比更加貼近高分辨率圖像,紋理較為清晰且視覺感知最好;在×4尺度因子的測試圖像視覺結(jié)果中,MSRDN未受背景干擾影響,完整重建出了圖像中的主體目標(biāo),而其余算法重建的圖像中均出現(xiàn)了部分遮擋問題。從圖5中還可以看出:神經(jīng)網(wǎng)絡(luò)方法中,SRCNN重建的圖像幾何結(jié)構(gòu)效果最差,出現(xiàn)了嚴(yán)重形變;其余4種對比算法的重建圖像視覺效果均較好,但幾何結(jié)構(gòu)仍難以避免地出現(xiàn)部分失真情況;相較之下,MSRDN能夠更好地恢復(fù)圖像結(jié)構(gòu),紋理細(xì)節(jié)也更加豐富。通過實(shí)驗(yàn)的視覺效果對比能夠得出結(jié)論:MSRDN恢復(fù)圖像幾何結(jié)構(gòu)信息的能力更強(qiáng),重建圖像的效果更佳。
3.2.2 真實(shí)退化圖像實(shí)驗(yàn)
為證明所提MSRDN具有一定的泛化能力,將其應(yīng)用到真實(shí)圖像數(shù)據(jù)集RealSR[27]中。圖6為MSRDN與SMSR等其他5種算法在RealSR數(shù)據(jù)集3張經(jīng)典圖像上的視覺效果對比圖。從圖6可以看出:MSRDN能夠恢復(fù)出更豐富的高頻細(xì)節(jié),邊緣輪廓也更清晰,擁有更佳的視覺感知??梢?,對于未知的退化模型,多尺度特征提取與特征融合方式具備更強(qiáng)的魯棒性。
圖 6 MSRDN與其他5種模型在RealSR上的視覺對比結(jié)果
3.3.1 消融實(shí)驗(yàn)
為探索所提出的多尺度特征提取模塊與特征融合方式對網(wǎng)絡(luò)模型性能的影響,采取控制變量法驗(yàn)證各個模塊整體模型的貢獻(xiàn),進(jìn)行了3種情形的對比實(shí)驗(yàn):1) 去除多尺度特征提取模塊和特征融合方式。2) 僅保留多尺度特征提取模塊。3) 采用多尺度特征提取模塊和特征融合方式。采取峰值信噪比(PSNR)和結(jié)構(gòu)相似性(SSIM)等2個指標(biāo)評估重建圖像。PSNR是使用最廣泛的一種圖像質(zhì)量評價指標(biāo),計(jì)算清潔圖與含噪圖對應(yīng)像素點(diǎn)的誤差,重點(diǎn)在于像素點(diǎn)差異,而未考慮人眼視覺感知特性。SSIM從亮度、對比度和結(jié)構(gòu)3個方面衡量圖像的相似性,取值越接近1,圖像失真就越小,也更符合人眼視覺感知。實(shí)驗(yàn)結(jié)果如表1所示。
由表1可知:相比于實(shí)驗(yàn)3),在去除多尺度特征提取模塊和特征融合方式的情況下,PSNR與SSIM分別下降了0.1 dB和0.000 8;在僅保留多尺度特征提取模塊的情況下,PSNR和SSIM分別下降了0.04 dB和0.000 2??梢姡徽撊コ疚乃岢龅亩喑叨忍卣魈崛∧K和特征融合方式中的任何一個均會導(dǎo)致模型的評價指標(biāo)下降,即代表著網(wǎng)絡(luò)模型性能變差。因此,本文提出的多尺度特征提取模塊和特征融合方式對網(wǎng)絡(luò)均起到積極影響。
表 1 多尺度特征提取模塊與特征融合方式的消融結(jié)果
3.3.2 基準(zhǔn)數(shù)據(jù)集實(shí)驗(yàn)
為了進(jìn)一步比較算法的實(shí)驗(yàn)結(jié)果,將MSRDN與5種算法在3個基準(zhǔn)數(shù)據(jù)集分別進(jìn)行×2、×3與×4尺度因子的重建,采取PSNR與SSIM指標(biāo)評估算法輸出的重建圖像。為了使實(shí)驗(yàn)結(jié)果足夠客觀公正,本文出現(xiàn)的所有算法模型均在統(tǒng)一的硬件平臺上重新訓(xùn)練,并使用相同的測試算法進(jìn)行指標(biāo)計(jì)算。表2展示了MSRDN與其余5種經(jīng)典且較出色的SR算法在3個SR基準(zhǔn)數(shù)據(jù)集上,不同尺度的PSNR以及SSIM實(shí)驗(yàn)結(jié)果。
表 2 MSRDN與其他模型的峰值信噪比及結(jié)構(gòu)相似性對比
從表2可知,學(xué)習(xí)方法中,SRCNN的圖像重建結(jié)果評價指標(biāo)最差。EDSR去除了殘差結(jié)構(gòu)中不必要部分,增強(qiáng)了模型的表現(xiàn)力;SMSR有的放矢,提出稀疏掩碼模塊剪枝冗余計(jì)算,聚焦于紋理區(qū)與邊緣區(qū)。因此,2個網(wǎng)絡(luò)的圖像重建結(jié)果評價指標(biāo)仍舊可觀。RDN將殘差結(jié)構(gòu)與密集連接相結(jié)合,使得網(wǎng)絡(luò)模型更深,故其圖像重建結(jié)果評價指標(biāo)更優(yōu)。MSRDN在×2、×3與×4尺度因子上3個數(shù)據(jù)集的重建性能指標(biāo)方面均展現(xiàn)了一定的優(yōu)勢,并優(yōu)于上述4種對比的SR重建網(wǎng)絡(luò)中表現(xiàn)最好的RDN。充分證明了MSRDN能夠有效提升圖像SR的性能。此外,本文還對MSRDN與SMSR等其他4種模型進(jìn)行了復(fù)雜度對比,結(jié)果如表3所示。采用參數(shù)量(Params)和浮點(diǎn)運(yùn)算數(shù)(FLOPs)2個指標(biāo)衡量各個模型的推理效率。其中,F(xiàn)LOPs是在模型中輸入160×90像素的圖像計(jì)算所得。由表3數(shù)據(jù)可知,MSRDN模型規(guī)模最大,需要更多的計(jì)算資源,但伴隨著硬件設(shè)備的不斷發(fā)展,這一缺點(diǎn)也會日漸式微。
表 3 MSRDN與其他4種模型的復(fù)雜度對比
本文提出的圖像超分辨率重建網(wǎng)絡(luò)MSRDN,利用具有不同感受野的不同尺度卷積核構(gòu)建多尺度特征提取模塊,強(qiáng)化網(wǎng)絡(luò)對不同尺度圖的語言信息感知能力。采用自頂向下與自底向上相結(jié)合的多尺度特征融合模塊,融合形成具有更豐富細(xì)節(jié)信息的圖像特征,從而使得改進(jìn)網(wǎng)絡(luò)能夠重建出比SMSR等網(wǎng)絡(luò)細(xì)節(jié)更豐富、視覺感知更好的SR圖像。在未來的工作中,將考慮對MSRDN進(jìn)行輕量化處理以提升模型的競爭力。