孫有曉 馮銳成 關(guān)偉鵬 喬 宇 董 超*井 焜 劉辰飛 許野平 陳英鵬 周衛(wèi)東
1(山東大學(xué)微電子學(xué)院 濟(jì)南 250101)
2(中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院 深圳 518055)
3(山東中科先進(jìn)技術(shù)研究院有限公司 濟(jì)南 250101)
4(神思電子技術(shù)股份有限公司 濟(jì)南 250101)
圖像超分辨率(Image Super Resolution,SR)本質(zhì)也是多尺度問題,重建得到的高分辨(High-Resolution,HR)圖像,可以看作是通過擴(kuò)大低分辨率(Low-Resolution,LR)圖像的尺度得到的。隨著深度學(xué)習(xí)在 SR[1-2]中的開創(chuàng)性探索,多尺度技術(shù)以多種方式應(yīng)用于圖像超分辨率領(lǐng)域。在深度學(xué)習(xí)方法取得巨大成功之前,多尺度技術(shù)最早應(yīng)用在基于圖像自相似(Self-Similarity)的超分辨率算法中,其中圖像金字塔里的相似塊是由 LR圖像逐階下采樣得到的。
目前,多尺度技術(shù)被廣泛應(yīng)用于深度學(xué)習(xí)任務(wù)中。本文將多尺度技術(shù)的應(yīng)用概括為以下幾方面:(1)多尺度技術(shù)在計(jì)算機(jī)視覺任務(wù)中應(yīng)用廣泛。例如,基于多尺度中間特征的 Lap-SRN[3]和 U-Net[4]網(wǎng)絡(luò)結(jié)構(gòu)。FPN[5]和 PSP[6]在網(wǎng)絡(luò)末端融合不同深度的特征,主要應(yīng)用于目標(biāo)檢測(cè)和分割任務(wù)中。MSR-GCN[7]提出多尺度殘差圖卷積網(wǎng)絡(luò),用于端到端的人體姿勢(shì)預(yù)測(cè)。主要應(yīng)用于圖像分類識(shí)別的 MSDNet[8]提出了包含多個(gè)分支(每個(gè)分支都有對(duì)應(yīng)的空間分辨率)的網(wǎng)絡(luò)架構(gòu),實(shí)現(xiàn)了計(jì)算資源的合理分配。HRNets[9]通過在并行的多分辨率子網(wǎng)絡(luò)上交互信息來進(jìn)行多尺度特征的融合操作,實(shí)現(xiàn)用高分辨表征來估計(jì)姿態(tài)關(guān)鍵點(diǎn)。同樣應(yīng)用于姿態(tài)估計(jì)的 Hourglass[10]通過短連接將降采樣到升采樣過程中的底層特征與原尺度的特征進(jìn)行組合,以獲取多尺度特征信息。Big-Little Net[11]和 Elastic[12]亦采用類似的設(shè)計(jì),使用不同分支處理不同的尺度特征,從而捕獲跨尺度的信息。PMRN[13]改進(jìn)了多尺度殘差塊,用小濾波器的組合代替較大的濾波器,逐步探索每層信息,能夠有效地恢復(fù)結(jié)構(gòu)紋理。SRNTT[14]以多尺度的方式將匹配的特征自適應(yīng)地遷移到重建圖像。Multigrid CNNs[15]提出了一種多網(wǎng)格金字塔特征表示,并定義了可以在整個(gè)網(wǎng)絡(luò)中集成的多重網(wǎng)格卷積(Multi-grid Convolution,MG-Conv)算子。類似于 MG-Conv 算子,Octave Convolution(Oct-Conv)[16]在不同的空間分辨率下對(duì)特征圖進(jìn)行卷積,對(duì)低頻分量進(jìn)行了壓縮以減少空間冗余。(2)多尺度技術(shù)能夠很好地融合到神經(jīng)網(wǎng)絡(luò)的注意力機(jī)制中。例如,主要應(yīng)用在圖像識(shí)別分類任務(wù)中的 MViT[17]將多尺度特征層次結(jié)構(gòu)的核心思想與 Transformer 模型相結(jié)合。EPSANet[18]在通道注意力的基礎(chǔ)上,引入多尺度思想并構(gòu)建了 EPSA 模塊,相比其他單尺度注意力機(jī)制,EPSANet 能夠提取更加豐富的多尺度特征圖空間信息,實(shí)現(xiàn)跨維度通道注意力特征的交互。DMSANet[19]聚合不同尺度的特征,并使用空間和通道注意力模塊來自適應(yīng)地將局部特征與全局依賴關(guān)系相結(jié)合。TTSR[20]利用跨層級(jí)的特征融合機(jī)制來增強(qiáng)網(wǎng)絡(luò)的特征表示能力?;诜蔷植孔⒁饬C(jī)制的 RCAN[21]、SAN[22]網(wǎng)絡(luò)只是利用了單一尺度特征,而 CSNLN[23]提出了跨尺度非局部注意力模塊,利用自然圖像中廣泛存在的跨尺度特征相似性來提高重建性能。(3)由于深度學(xué)習(xí)網(wǎng)絡(luò)模型需要大量的數(shù)據(jù)樣本進(jìn)行訓(xùn)練才能達(dá)到較好的泛化能力,因此可以通過數(shù)據(jù)增強(qiáng)來增加訓(xùn)練樣本的數(shù)量以及多樣性。一般在數(shù)據(jù)增強(qiáng)任務(wù)中,常見的操作有圖像旋轉(zhuǎn)、鏡像變換以及圖像縮放。其中,圖像縮放操作通過設(shè)置不同的尺度縮放因子(0.6~0.9)來調(diào)整訓(xùn)練數(shù)據(jù)集的圖像大小比例就是利用多尺度技術(shù)。
雖然多尺度技術(shù)在圖像超分辨率領(lǐng)域應(yīng)用廣泛,但很少有文獻(xiàn)深入研究多尺度卷積本身。因此,本文系統(tǒng)地研究了 SR 中多尺度卷積的設(shè)計(jì)和使用,提出一種對(duì)不同形式的多尺度結(jié)構(gòu)進(jìn)行歸納的新框架。具體來說,在統(tǒng)一框架中現(xiàn)有的不同多尺度結(jié)構(gòu)可以寫成形式相同但轉(zhuǎn)換函數(shù)不同的表達(dá)式。如公式(1),使用統(tǒng)一框架表述U-Net、Octave 卷積和 Multi-grid 卷積。該公式表明,多尺度卷積的性能取決于兩個(gè)因素——特征傳播和跨尺度通信。其中,特征傳播決定每個(gè)尺度中信息轉(zhuǎn)化的方式,跨尺度通信控制跨尺度的信息流動(dòng)。在此基礎(chǔ)上,本文調(diào)整轉(zhuǎn)換函數(shù)以探究最有效的結(jié)構(gòu)設(shè)計(jì)。圖 1(c)展示了改進(jìn)多尺度卷積形式的過程。多尺度卷積(MS-Conv)將輸入圖像的特征信息劃分成兩個(gè)不同尺度的分支并單向傳播;多尺度+跨尺度卷積(MS2-Conv)增加了跨尺度的通信路徑,使信息可以在不同尺度之間轉(zhuǎn)換;為了進(jìn)一步減少參數(shù)量和計(jì)算成本,高/低尺度的濾波器采用權(quán)重共享的策略,使用較小尺度的跨尺度濾波器,并將這種卷積命名為多尺度+跨尺度+共享權(quán)重卷積(Multi-Scale+cross-Scale+Share-weight Convolution,MS3-Conv)。MS3-Conv 與基于標(biāo)準(zhǔn)卷積的網(wǎng)絡(luò)的性能指標(biāo)值(Peak Signal to Noise Ratio,PSNR)幾乎相同,但其計(jì)算復(fù)雜度、總參數(shù)量?jī)H分別為后者的 67%和 75%,MS3-Conv 與基于標(biāo)準(zhǔn)卷積的網(wǎng)絡(luò)的對(duì)比驗(yàn)證了該多尺度卷積結(jié)構(gòu)不同部件和策略的有效性。本文的貢獻(xiàn)主要有 3 個(gè)方面:(1)對(duì)理解和設(shè)計(jì)多尺度卷積網(wǎng)絡(luò)作出統(tǒng)一解釋。 在統(tǒng)一解釋多尺度卷積網(wǎng)絡(luò)這個(gè)框架中,現(xiàn)有的多尺度結(jié)構(gòu)可以使用相同的形式表述,但轉(zhuǎn)換函數(shù)不同。(2)基于這個(gè)統(tǒng)一解釋多尺度卷積網(wǎng)絡(luò)的框架,本文對(duì)多尺度卷積的形式進(jìn)行了系統(tǒng)的研究,并提出一種計(jì)算速度更快和重建性能更好的新型高效多尺度結(jié)構(gòu)。(3)本文全面研究了多尺度卷積網(wǎng)絡(luò)的重建圖像在不同區(qū)域的視覺質(zhì)量差異。通過大量實(shí)驗(yàn)證明多尺度網(wǎng)絡(luò)更優(yōu)于重建高頻細(xì)節(jié)。
圖1 標(biāo)準(zhǔn)卷積與多尺度卷積的結(jié)構(gòu)比較Fig. 1 The structural comparison of standard convolution and multi-scale convolution
本文提出歸納不同形式的多尺度卷積的統(tǒng)一框架,在該框架下提出了“多尺度+跨尺度+共享權(quán)重”卷積(MS3-Conv),并闡述了多尺度與權(quán)重的重要作用。
公式(1)概括了輸入特征的轉(zhuǎn)換融合過程。如圖 1(b)所示,多尺度特征表示與權(quán)重共享卷積層的展開形式類似于具有尺度間和尺度內(nèi)轉(zhuǎn)換的多尺度分支全連接網(wǎng)絡(luò)。如圖 1(a)所示,左側(cè)標(biāo)準(zhǔn)卷積等效于右側(cè)多分支的卷積,其中,XH和XL的尺度相同。在多尺度特征表示與權(quán)重共享卷積層的網(wǎng)絡(luò)中,通過尺度間轉(zhuǎn)換與上采樣或下采樣算子相結(jié)合來匹配融合特征的空間分辨率。同時(shí),公式(1)可以很容易地?cái)U(kuò)展到具有 2 個(gè)以上分支(尺度)并行的網(wǎng)絡(luò)。
對(duì)于 U-Net 網(wǎng)絡(luò)模型,先將 U-Net 結(jié)構(gòu)中的多尺度卷積歸納,其中,特征圖按比例因子 2 進(jìn)行下采樣。轉(zhuǎn)換矩陣定義為:
其中,I為恒等映射;WLL為低尺度內(nèi)部轉(zhuǎn)換的卷積。這表明高分辨率信息可以通過短連接傳播,低分辨率尺度通過卷積濾波器進(jìn)行轉(zhuǎn)換,不同尺度的分支之間并沒有實(shí)現(xiàn)信息轉(zhuǎn)換。
對(duì)于 Oct-Conv 網(wǎng)絡(luò)模型,Octave 多尺度卷積的轉(zhuǎn)換矩陣可以表示為:
MG-Conv 實(shí)現(xiàn)轉(zhuǎn)換和融合的過程表示為:
本文先研究最簡(jiǎn)單的多尺度卷積(MSConv)。MS-Conv 將輸入圖像的特征信息劃分成兩個(gè)不同尺度的分支并單向傳播。這種網(wǎng)絡(luò)結(jié)構(gòu)可以降低計(jì)算復(fù)雜度,但會(huì)導(dǎo)致重建性能下降。為了緩解這種情況,本文增加了跨尺度的通信路徑,使信息可以在不同尺度之間轉(zhuǎn)換。將改進(jìn)的卷積命名為多尺度+跨尺度卷積(MS2-Conv)。為減少網(wǎng)絡(luò)參數(shù)量和計(jì)算成本,進(jìn)一步提出了更高效的多尺度卷積,并稱為多尺度+跨尺度+共享權(quán)重卷積(MS3-Conv)。關(guān)鍵思想是保持尺度間的通信路徑——fHL,fLH≠0,尺度內(nèi)采用共享權(quán)重策略轉(zhuǎn)換信息——fHH=fLL。通過大量實(shí)驗(yàn)證明了跨尺度通信可以顯著提高重建性能。其中,采用共享權(quán)重策略是受 TridentNet[24]的啟發(fā),它構(gòu)建了一個(gè)并行的多尺度分支結(jié)構(gòu),并且不同的尺度使用相同的轉(zhuǎn)換參數(shù)。此外,跨尺度通信路徑使用的卷積大小為 1×1,而不是 3×3,這樣可以進(jìn)一步減少冗余的參數(shù)。綜上所述,MS3-Conv 的轉(zhuǎn)換矩陣可表示為:
其中,WIS為用于特征傳播的 3×3 卷積;WHL和WLH是用于跨尺度通信的 1×1 卷積。圖 2 展示了 MS3-Conv 如何替換 SRResNet 網(wǎng)絡(luò)模型中的標(biāo)準(zhǔn)卷積。
圖2 基于 MS3-Conv 的 SRResNet 網(wǎng)絡(luò)模型Fig. 2 SRResNet network model based on MS3-Conv
MS3-Conv 和 Oct-Conv 之間的主要差異有:(1)對(duì)于尺度內(nèi)轉(zhuǎn)換,MS3-Conv 每個(gè)尺度都共享參數(shù)。高/低尺度的劃分比例固定為 0.5。(2)對(duì)于尺度間的通信,MS3-Conv 采用兩個(gè) 1×1 卷積核,而 Oct-Conv 使用 3×3 卷積核。不同于TridentNet 構(gòu)建多尺度的分支塊并將它們集成到骨干網(wǎng)絡(luò)中,MS3-Conv 可以作為通用的“即插即用”卷積單元,很容易替換標(biāo)準(zhǔn)卷積融入到大多數(shù)網(wǎng)絡(luò)結(jié)構(gòu)中。另外,MS3-Conv 采用卷積進(jìn)行尺度間通信,而 TridentNet 沒有通信路徑,只是通過非極大值抑制來合并不同尺度分支的輸出。
多尺度表征一直被應(yīng)用于捕捉空間長(zhǎng)程依賴和空間冗余。為了研究多尺度卷積對(duì)空間冗余的影響,本文將多尺度卷積與空洞卷積[25]聯(lián)系在一起,通過空洞卷積(利用稀疏卷積核之間的空間來擴(kuò)大感受野),使網(wǎng)絡(luò)的不同分支可以具有相同的結(jié)構(gòu)和不同的感受野。
圖3 不同形式的多尺度結(jié)構(gòu)的比較Fig. 3 Comparison of diあerent forms of multi-scale structures
表1 在 BSD100 數(shù)據(jù)集上的預(yù)實(shí)驗(yàn)Tabel 1 Pilot experiments on BSD100 dataset
首先分析比較了基于多尺度卷積與標(biāo)準(zhǔn)卷積網(wǎng)絡(luò)的圖像重建性能。為了將多尺度卷積集成到基準(zhǔn)網(wǎng)絡(luò)模型中,使用 MS-Conv 替換對(duì)應(yīng)的標(biāo)準(zhǔn)卷積層。如圖 1(c),為了公平比較,網(wǎng)絡(luò)的主拓?fù)浜推渌Y(jié)構(gòu)的參數(shù)保持一致。每個(gè)分支(尺度)都采用一個(gè)通道數(shù)為 32、卷積核大小為 3×3 的卷積算子。它們?cè)?DIV2K 測(cè)試集上的 PSNR 值如表 2 所示,將一半的特征圖壓縮到較低尺度時(shí),計(jì)算復(fù)雜度從 42.76 G 下降到 16.70 G,但這樣直接壓縮會(huì)導(dǎo)致 PSNR 下降 0.16 dB。這說明 MSConv 可以實(shí)現(xiàn)重建性能和復(fù)雜性之間的平衡。在一些強(qiáng)調(diào)處理速度和低延時(shí)的實(shí)際應(yīng)用中,犧牲一定的重建性能是可接受的。其中,表 2 中的參數(shù)量(Parameters,Params.)的單位是兆(M)。
表2 標(biāo)準(zhǔn)卷積與多尺度卷積在 DIV2K 數(shù)據(jù)集上的性能對(duì)比Tabel 2 Comparison of the standard and multi-scale convolution on DIV2K
圖4 增加網(wǎng)絡(luò)復(fù)雜性的兩種情形Fig. 4 Two cases of increasing the complexity of a network
為了進(jìn)一步減少參數(shù)量,探究了跨尺度通信的濾波器采用共享權(quán)重策略的有效性,并提出改進(jìn)的卷積——MS3-Conv。將 MS3-Conv 與其他形式的多尺度卷積進(jìn)行比較,且評(píng)估了一系列不同深度網(wǎng)絡(luò)的效率。其中,MS3-Conv 的尺度間通信路徑的濾波器尺寸為 1×1。MS3-Conv-L 的尺度間通信路徑的濾波器尺寸為 3×3。為了評(píng)估濾波器大小對(duì)重建性能的影響,本文也對(duì)比了MS3-Conv 和 MS3-Conv-L 的重建性能。圖 5 展示了不同網(wǎng)絡(luò)結(jié)構(gòu)的性能變化,對(duì)比的指標(biāo)包括PSNR 和 Params.、PSNR 和 FLOPs。
如圖 5(a)所示,當(dāng)增加網(wǎng)絡(luò)層數(shù)時(shí),MS2-Conv、MS3-Conv 和 MS3-Conv-L 的圖像重建性能指標(biāo)值的變化趨勢(shì)相似,且所有基于多尺度卷積的網(wǎng)絡(luò)的重建性能始終優(yōu)于標(biāo)準(zhǔn)卷積網(wǎng)絡(luò)。特別是,基于多尺度卷積的網(wǎng)絡(luò)的計(jì)算復(fù)雜度僅為標(biāo)準(zhǔn)卷積網(wǎng)絡(luò)的 61%,而其圖像重建性能與標(biāo)準(zhǔn)卷積網(wǎng)絡(luò)幾乎相同,由此說明多尺度卷積可以充分利用特征表示。此外,在計(jì)算量大約 26 G FLOPs 的情況下,所有基于多尺度卷積的網(wǎng)絡(luò)比標(biāo)準(zhǔn)卷積網(wǎng)絡(luò)提升了 0.3 dB,這表明多尺度卷積的計(jì)算效率更高。從圖 5(b)可以觀察到,紫色曲線保持在綠色和黃色曲線上方,MS3-Conv 比MS2-Conv 和 MS3-Conv-L 的內(nèi)存效率更高。為達(dá)到標(biāo)準(zhǔn)卷積網(wǎng)絡(luò)的重建性能指標(biāo)值,MS3-Conv、MS3-Conv-L 和 MS2-Conv 分別只需要 1.15 M、1.87 M 和 2.33 M 參數(shù)量,這表明增加尺度間通信路徑的濾波器尺寸,只能得到較小的性能提升。值得注意的是,MS3-Conv-L 和 MS2-Conv 比標(biāo)準(zhǔn)卷積的參數(shù)量更多,這呼應(yīng)了本文降低內(nèi)存成本的操作。
圖5 多尺度網(wǎng)絡(luò)與標(biāo)準(zhǔn)卷積網(wǎng)絡(luò)結(jié)構(gòu)的性能比較Fig. 5 The performance comparison of multi-scale networks and standard convolutional networks
為了研究 MS3-Conv 并行分支的數(shù)量對(duì)圖像重建性能的影響(類似于 HRNet),本文通過在不同尺度的并行分支之間交換特征信息來實(shí)現(xiàn)多尺度通信。由于額外的通信路徑,具有更多分支模型的復(fù)雜度略高于兩個(gè)分支的 MS3-Conv。表 3中的結(jié)果表明,基于 MS3-Conv 網(wǎng)絡(luò)的重建性能始終優(yōu)于單分支的標(biāo)準(zhǔn)網(wǎng)絡(luò),大約增加 0.12 dB。另外,當(dāng)網(wǎng)絡(luò)增加額外分支時(shí),相比二分支網(wǎng)絡(luò),三分支網(wǎng)絡(luò)和四分支網(wǎng)絡(luò)并沒有顯著的改進(jìn)(小于 0.02 dB)。 因此,為了更好地平衡復(fù)雜性和性能,本文將網(wǎng)絡(luò)的尺度分支數(shù)量默認(rèn)為 2。
表3 在 DIV2K 數(shù)據(jù)集比較不同尺度數(shù)量的網(wǎng)絡(luò)Tabel 3 Comparison of networks with different numbers of scales on DIV2K
為了體現(xiàn)本文提出的多尺度卷積的整體高效性,將 MS3-Conv 應(yīng)用于兩個(gè) SR 網(wǎng)絡(luò)——CARN[35]和 SRResNet 中,構(gòu)造出相應(yīng)的多尺度網(wǎng)絡(luò)模型。表 4 總結(jié)了基于多尺度卷積的網(wǎng)絡(luò)模型在 SR 測(cè)試集上的測(cè)試結(jié)果。其中,以SRResNet 為骨干網(wǎng)絡(luò),用 MS3-Conv 替換標(biāo)準(zhǔn)卷積可以減少 67% 的參數(shù)量和 40% 的計(jì)算成本,但這樣會(huì)導(dǎo)致網(wǎng)絡(luò)的圖像重建性能顯著下降。為了補(bǔ)償重建性能的退化,本文訓(xùn)練了一個(gè)更深的網(wǎng)絡(luò),表示為 MS3-Conv+,僅使用 2/3 的計(jì)算復(fù)雜度和 3/4 的參數(shù)量就達(dá)到了標(biāo)準(zhǔn)網(wǎng)絡(luò)的重建性能指標(biāo)值。以 CARN為骨干網(wǎng)絡(luò),MS3-Conv+相比標(biāo)準(zhǔn)卷積提升了較小的重建性能指標(biāo)值PSNR(在 Urban100 和 DIV2K 測(cè)試集上分別提升 0.01 dB 和 0.02 dB),同時(shí)節(jié)省了 34% 的計(jì)算成本。有趣的是,在大多數(shù)測(cè)試數(shù)據(jù)集上,基于MS3-Conv+ 卷積的 SRResNet 網(wǎng)絡(luò)性能指標(biāo)值略優(yōu)于基于標(biāo)準(zhǔn)卷積的 CARN 網(wǎng)絡(luò)(兩者在 DIV2K 測(cè)試集上的性能指標(biāo)值分別為 30.46 dB 和 30.42 dB),同時(shí)降低 20% 的計(jì)算成本。這意味著多尺度卷積可以在不改變網(wǎng)絡(luò)拓?fù)涞那闆r下提高網(wǎng)絡(luò)性能。
表4 基于多尺度卷積的網(wǎng)絡(luò)模型的定量結(jié)果Tabel 4 Quantitative results of the network model based on multi-scale convolution
本文在公開的標(biāo)準(zhǔn)數(shù)據(jù)集上比較了不同形式的多尺度卷積,圖 6 展示了一些具有代表性的定性結(jié)果,并提供了 PSNR 和 SSIM 數(shù)值以供參考。對(duì)于圖像“img_093”,基于標(biāo)準(zhǔn)卷積的網(wǎng)絡(luò)復(fù)原的斑馬條紋結(jié)構(gòu)是錯(cuò)誤的,而所有基于多尺度卷積的網(wǎng)絡(luò)的重構(gòu)圖像在高頻細(xì)節(jié)方面都有較好的重建效果,并趨于復(fù)原出正確的結(jié)構(gòu)。對(duì)于圖像“img_038”,標(biāo)準(zhǔn)卷積網(wǎng)絡(luò)模型的復(fù)原圖像有振鈴偽影效果,而基于 MS-Conv、MS2-Conv 和 MS3-Conv 的網(wǎng)絡(luò)模型重建結(jié)果有較好的視覺感知質(zhì)量。除了基于不同形式的多尺度卷積的 SRResNet 網(wǎng)絡(luò)模型,本文還分析和比較了MS3-Conv 應(yīng)用于其他骨干網(wǎng)絡(luò)模型的重構(gòu)圖像。如圖 7 所示,多尺度卷積的重構(gòu)圖像在高頻細(xì)節(jié)方面具有更好的重建效果(如密集網(wǎng)格)。對(duì)于圖像“img_042”和“img_093”,基于標(biāo)準(zhǔn)卷積的兩個(gè)網(wǎng)絡(luò)模型都不能很好地恢復(fù)密集線條,而對(duì)應(yīng)的 MS3-Conv 網(wǎng)絡(luò)模型都有較好的重建效果。對(duì)于圖像“img_098”,觀察到基于標(biāo)準(zhǔn)卷積的SRResNet 網(wǎng)絡(luò)無法完整地重建格子圖形,基于標(biāo)準(zhǔn)卷積的 CARN 網(wǎng)絡(luò)重建的格子很模糊。相比之下,對(duì)應(yīng)的 MS3-Conv 網(wǎng)絡(luò)可以減輕模糊效果并能夠恢復(fù)更多高頻細(xì)節(jié)。如圖 8 所示,在平坦區(qū)域和平滑邊緣,可以觀察到基于多尺度卷積與標(biāo)準(zhǔn)卷積的網(wǎng)絡(luò)的 PSNR 數(shù)值有較大差距,但無顯著的視覺感知差異。對(duì)于圖像“img_0830”,基于 MS3-Conv 的網(wǎng)絡(luò)比基于標(biāo)準(zhǔn)卷積的網(wǎng)絡(luò)的圖像重建性能指標(biāo) PSNR 數(shù)值下降 3.4 dB,但兩者的視覺感知上無明顯差異。這些基于區(qū)域的變化表明,多尺度卷積與標(biāo)準(zhǔn)卷積對(duì)不同區(qū)域的重建能力不一致。如圖 9 所示,比較了多尺度圖像的可視化效果。本文使用縮放因子{0.8, 0.6, 0.5}調(diào)整圖像,以對(duì)比這些網(wǎng)絡(luò)模型的重建性能?;?MS3-Conv 的 SRResNet 網(wǎng)絡(luò)比基于標(biāo)準(zhǔn)卷積的SRResNet 網(wǎng)絡(luò)的圖像重建性能更好(見黃色框)。基于標(biāo)準(zhǔn)卷積和基于MS3-Conv 的 CARN 網(wǎng)絡(luò)模型都能正確地重建出尺度因子為 0.8 和 0.6 的建筑物結(jié)構(gòu)。對(duì)于較低的尺度(0.5)的圖像,標(biāo)準(zhǔn)卷積網(wǎng)絡(luò)重建的圖像丟失部分結(jié)構(gòu)并出現(xiàn)混疊效應(yīng)(見綠色框)。而基于 MS3-Conv 的 CARN 網(wǎng)絡(luò)則可以緩解這種現(xiàn)象并恢復(fù)正確的結(jié)構(gòu)。
圖6 基于標(biāo)準(zhǔn)卷積和基于不同形式的多尺度卷積的 SRResNet 網(wǎng)絡(luò)的定性比較Fig. 6 Qualitative comparisons of standard convolution and variants of multi-scale convolution on SRResNet backbone
圖7 密集網(wǎng)格區(qū)域的定性比較Fig. 7 Qualitative comparisons on dense-grid region
圖8 平坦區(qū)域的定性比較Fig. 8 Qualitative comparisons on flat region
圖9 縮放圖像的定性比較Fig. 9 Qualitative comparisons on rescaling images
在設(shè)計(jì)網(wǎng)絡(luò)模型時(shí),關(guān)于平衡網(wǎng)絡(luò)性能與復(fù)雜度的靈活性方面,由于本文提出的多尺度卷積層網(wǎng)絡(luò)使用了權(quán)重共享策略,所以靈活性稍差于Octave 網(wǎng)絡(luò)。在結(jié)果可視化方面,與標(biāo)準(zhǔn)卷積網(wǎng)絡(luò)相比,基于本文提出的多尺度和權(quán)重共享卷積層網(wǎng)絡(luò)的重構(gòu)圖像在高頻細(xì)節(jié)方面都有較好的重建效果,能夠減輕模糊現(xiàn)象且趨于恢復(fù)出正確的結(jié)構(gòu)。然而,在平坦區(qū)域和平滑邊緣,雖然基于多尺度卷積網(wǎng)絡(luò)的重建性能指標(biāo)值 PSNR 遠(yuǎn)高于基于標(biāo)準(zhǔn)卷積的網(wǎng)絡(luò),但兩者并沒有顯著的視覺感知差異。這也是未來工作的重點(diǎn),將進(jìn)一步探究多尺度和權(quán)重共享卷積對(duì)不同區(qū)域的重構(gòu)特點(diǎn),探究如何減少平坦區(qū)域中的恢復(fù)錯(cuò)誤的偽影現(xiàn)象,以此獲得更好的視覺感知效果。本文對(duì)其他退化類型的數(shù)據(jù)以及真實(shí)場(chǎng)景下的數(shù)據(jù)并沒有進(jìn)行充分的測(cè)試與評(píng)估,故在未來的工作中,將進(jìn)一步測(cè)試并評(píng)估基于本文提出的多尺度卷積網(wǎng)絡(luò)對(duì)其他退化類型圖像和真實(shí)場(chǎng)景圖像的重建性能。
本文深入研究基于超分辨率的多尺度特征交互傳播,并提出了一種基于多尺度和權(quán)重共享卷積層的圖像超分辨率方法,在相同尺度的卷積核之間,采用權(quán)重共享策略來減少參數(shù)量,使用不同尺度的信息經(jīng)過相同的非線性映射實(shí)現(xiàn)不同尺度特征的信息交互融合,提取不同尺度特征,進(jìn)而實(shí)現(xiàn)更好的圖像重建性能。并通過大量的對(duì)比實(shí)驗(yàn)表明,本文提出的多尺度卷積能夠解決網(wǎng)絡(luò)參數(shù)量過大以及計(jì)算量大的技術(shù)問題,而且具有較強(qiáng)的靈活性和適配性,可以“即插即用”地應(yīng)用到現(xiàn)有的網(wǎng)絡(luò)結(jié)構(gòu)中。