汪榮貴,雷 輝,楊 娟,薛麗霞
合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院,安徽 合肥 230601
單幀圖像超分辨率旨在從觀測(cè)的低分辨率圖像重建出清晰的高分辨率圖像,是計(jì)算機(jī)視覺(jué)領(lǐng)域中最經(jīng)典的圖像重建任務(wù)之一。清晰的高分辨率圖像不僅可以直接用于實(shí)際生活中,還能給計(jì)算機(jī)視覺(jué)的其他任務(wù)提供幫助,例如目標(biāo)檢測(cè)、語(yǔ)義分割。
單幀圖像超分辨率是一個(gè)病態(tài)的逆問(wèn)題,即同一張低分辨率圖像可由許多的高分辨率圖像退化得到。目前,解決這一問(wèn)題的方法主要有三類,基于插值的方法[1-2]、基于重構(gòu)的方法[3]、以及最近基于實(shí)例學(xué)習(xí)的方法[4-6]。
Dong 等人[7]在圖像插值后使用三層卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像超分辨率,展示出比以往所有傳統(tǒng)方法更優(yōu)異的性能。于是在過(guò)去的幾年里,一系列基于卷積神經(jīng)網(wǎng)絡(luò)的單幀圖像超分辨率方法被提出來(lái),學(xué)習(xí)從低分辨率圖像輸入到其相應(yīng)高分辨率圖像輸出的非線性映射函數(shù)。通過(guò)充分利用訓(xùn)練數(shù)據(jù)集中固有的圖像靜態(tài)特性,神經(jīng)網(wǎng)絡(luò)在單幀圖像超分辨率領(lǐng)域取得了顯著的進(jìn)步[8-9]。雖然圖像超分辨率方法已經(jīng)取得了很大的進(jìn)展,但現(xiàn)有的基于卷積神經(jīng)網(wǎng)絡(luò)的超分辨率模型仍然存在一定的局限性:1) 大多數(shù)基于卷積神經(jīng)網(wǎng)絡(luò)的超分辨率方法主要關(guān)注設(shè)計(jì)更深或更廣的網(wǎng)絡(luò)來(lái)學(xué)習(xí)更有鑒別性的高級(jí)特征,而沒(méi)有充分利用低分辨率圖像內(nèi)部的自相似特征;2) 許多模型沒(méi)有合理的利用多層次的自相似特征,即使有些方法考慮到了多層次自相似特征的重要性,也沒(méi)有一個(gè)很好的方法來(lái)融合它們;3) 大多數(shù)方法通過(guò)計(jì)算每個(gè)空間位置的大型關(guān)系矩陣來(lái)尋找自相似特征,性能往往較低。
本文提出了一種新的跨層次特征增強(qiáng)模塊來(lái)解決上述的第一個(gè)問(wèn)題和第二個(gè)問(wèn)題。該模塊在金字塔結(jié)構(gòu)的每一層嵌入了可變形卷積,并配合跨層次協(xié)同注意力來(lái)加強(qiáng)跨層次特征傳播的能力。由于可變形卷積有一個(gè)并行網(wǎng)絡(luò)學(xué)習(xí)偏移量,使得卷積核在淺層特征的采樣點(diǎn)發(fā)生偏移,從而大大提升了網(wǎng)絡(luò)對(duì)淺層特征的建模能力,并且利用可變形卷積還可以積極地使用設(shè)計(jì)的偏移估計(jì)器搜索自相似特征。本文采用了感受野模塊[10]作為可變形卷積的偏移估計(jì)器,它以多尺度方式執(zhí)行像素級(jí)別以及特征級(jí)別的相似性匹配。
對(duì)于第三個(gè)問(wèn)題,許多網(wǎng)絡(luò)模型引用了非局部網(wǎng)絡(luò)模塊以提高對(duì)卷積神經(jīng)網(wǎng)絡(luò)中對(duì)遠(yuǎn)程依賴關(guān)系建模的能力[11]。然而,單純的非局部圖像恢復(fù)方法只探索了相同尺度下的特征相似性,往往性能相對(duì)較低。隨后,研究人員在此基礎(chǔ)上改進(jìn)成了跨尺度非局部圖像恢復(fù)方法[12],雖然性能上有很大的提升,但仍需消耗大量?jī)?nèi)存來(lái)計(jì)算每個(gè)空間位置的大型關(guān)系矩陣。在本文中,為了更有效地捕獲這種遠(yuǎn)程依賴關(guān)系,本文提出了池化注意力機(jī)制。
實(shí)驗(yàn)結(jié)果表明,與以往算法的結(jié)果相比,本文的重建結(jié)果更加準(zhǔn)確和真實(shí)。如圖1 所示,本文所提出的超分辨率重建網(wǎng)絡(luò)的主要貢獻(xiàn)如下:
圖1 網(wǎng)絡(luò)結(jié)構(gòu)。(a) 本文的基本網(wǎng)絡(luò)結(jié)構(gòu);(b) 跨層次特征增強(qiáng)模塊;(c) 池化注意力密集塊Fig.1 Basic architectures.(a) The architecture of our proposed self-similarity enhancement network;(b) The cross-level feature enhancement module;(c) The pooling attention dense blocks
1)提出了一個(gè)跨層次特征增強(qiáng)模塊(cross-level feature enhancement module,CLFE),該模塊充分利用低分辨率圖像的自相似特征來(lái)增強(qiáng)淺層特征。
2)提出了跨層次協(xié)同注意力,在特征金字塔結(jié)構(gòu)中加強(qiáng)了跨層次特征傳播的能力。
3)提出了池化注意力機(jī)制,以較低的計(jì)算量自適應(yīng)捕獲遠(yuǎn)程依賴關(guān)系,增強(qiáng)了自相似的深層特征,從而顯著提高了重建效果。
在自然圖像中,相似的圖案往往在同一圖像中重復(fù)出現(xiàn)。關(guān)于如何利用自相似性進(jìn)行圖像重建,已有多種方法對(duì)此進(jìn)行了研究[11-12],這些方法試圖利用內(nèi)部信息作為參考來(lái)重建高質(zhì)量的圖像。STN[13]提出了一種允許幾何變換模型,該模型處理透視變形和仿射變換。然而,在基于深度學(xué)習(xí)的方法中利用自相似特征進(jìn)行圖像超分辨率重建的方法仍然是模糊的。為了解決這個(gè)問(wèn)題,一些研究者提出了基于非局部先驗(yàn)的方法。例如Dai 等人[11]設(shè)計(jì)了一種基于SENet 的二階注意力機(jī)制,并引入了非局部神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)一步提高圖像重建的性能。Mei 等人[12]引入了跨尺度非局部(cross-scale non-local,CS-NL)注意力模塊,在低分辨率圖像中挖掘更多的跨尺度特征相關(guān)性。非局部操作通過(guò)計(jì)算像素相關(guān)性,來(lái)捕捉全局相關(guān)性。相關(guān)性計(jì)算為輸入要素圖中所有位置的加權(quán)和。這些基于非局部網(wǎng)絡(luò)的方法雖然一定程度上克服了傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的局限性,但計(jì)算量大。因此,在計(jì)算能力有限的情況下,使用這些基于非局部網(wǎng)絡(luò)的方法進(jìn)行圖像恢復(fù)并不是一個(gè)很好的選擇。本文所提出的方法不僅多層次地搜索淺層特征的自相似性,還可以在池化注意力的幫助下搜索深層特征的自相似性。
神經(jīng)網(wǎng)絡(luò)中的注意機(jī)制的目的是為了對(duì)上一層輸入中最有益和最重要的部分重新校準(zhǔn)特征響應(yīng)。近年來(lái),注意力模塊在圖像分類[14]、圖像生成、圖像恢復(fù)[15]等一系列任務(wù)中取得的成功體現(xiàn)了其重要性。Hu 等人[14]通過(guò)研究網(wǎng)絡(luò)中卷積特征通道之間的相互依賴性,引入了一種稱為擠壓和激勵(lì)(squeeze-andexcitation,SE)塊的通道注意機(jī)制,自適應(yīng)地重新校準(zhǔn)用于圖像分類的通道特征響應(yīng)。受SE 網(wǎng)絡(luò)的啟發(fā),Zhang 等人[15]提出了RCAN,將通道注意力與殘差塊相結(jié)合,增強(qiáng)重要的通道特征,實(shí)現(xiàn)了SISR 的卓越性能。此外,還有一些通過(guò)整合通道信息和空間信息來(lái)增加注意力的研究,例如,Sanghyun 等人[16]引入了卷積塊注意模塊(convolutional block attention module,CBAM),該模塊應(yīng)用通道和空間注意來(lái)強(qiáng)調(diào)有意義的特征。然而,上述注意方法都是利用全局平均或最大池化來(lái)獲取信道或空間上的統(tǒng)計(jì)信息。
與上述方法不同的是,本文提出了跨層次協(xié)同注意力來(lái)融合金字塔不同層次的特征,并且還提出了一種計(jì)算量較小的池化注意力來(lái)捕獲深層特征的遠(yuǎn)程依賴關(guān)系,以便充分利用圖像的自相似特征。
多尺度的本質(zhì)是對(duì)信號(hào)進(jìn)行不同粒度的采樣,即在不同的尺度下能夠觀測(cè)到不同的特征。源于多尺度這一特性,該結(jié)構(gòu)已成為計(jì)算機(jī)視覺(jué)研究的熱點(diǎn)之一。HR-Nets[17]提出了精心設(shè)計(jì)的網(wǎng)絡(luò)體系結(jié)構(gòu),其中包含多個(gè)分支,每個(gè)分支都有自己的空間分辨率。沙漏網(wǎng)絡(luò)[18]通過(guò)跳躍連接將分辨率從高到低過(guò)程中的所有低分辨率組合為相同分辨率的特征。多網(wǎng)格卷積神經(jīng)網(wǎng)絡(luò)[19]提出了一種多網(wǎng)格金字塔特征表示方法,并定義了可以在整個(gè)網(wǎng)絡(luò)中集成的MG-Conv 算子。Oct-Conv[20]與MG-Conv 有相似的想法,但其動(dòng)機(jī)是減少參數(shù)的冗余。
同時(shí),一些學(xué)者也在探索多尺度在圖像重建任務(wù)中的作用,Han 等人提出了雙態(tài)遞歸網(wǎng)絡(luò)(dual-state recurrent networks,DSRN)[21],通過(guò)聯(lián)合低分辨率和高分辨率尺度上的信息來(lái)實(shí)現(xiàn)圖像超分辨率。具體來(lái)說(shuō),DSRN 中的遞歸信號(hào)通過(guò)延遲反饋的方式來(lái)進(jìn)行兩個(gè)尺度間的信息交換。多尺度殘差網(wǎng)絡(luò)(multi-scale residual network,MSRN)[22]通過(guò)使用不同尺度的卷積核來(lái)提取圖像在不同尺度下的特征。Yang 等人提出多級(jí)多尺度圖像超分辨率網(wǎng)絡(luò)(M2SR)[23],利用殘差U 型網(wǎng)絡(luò)和注意力U 型網(wǎng)絡(luò)提取圖像的多尺度特征,增強(qiáng)網(wǎng)絡(luò)的表達(dá)能力。
在上述思想的基礎(chǔ)上,本文設(shè)計(jì)了一個(gè)具有多尺度特征和不同層次特征之間信息交互的金字塔結(jié)構(gòu),進(jìn)一步增強(qiáng)了提取多尺度特征的能力。
如圖1 所示,本文提出的網(wǎng)絡(luò)結(jié)構(gòu)(self-similarity enhancement network,SSEN)主要由四個(gè)部分組成:淺層特征提取模塊、跨層次特征增強(qiáng)模塊(CLFE)、級(jí)聯(lián)的池化注意力密集塊以及重建模塊。其中ILR和ISR表示為SSEN 的輸入和輸出。如在文獻(xiàn)中[9]所研究的那樣,本文僅使用一個(gè)卷積層從低分辨率的輸入中提取淺層特征:
其中:HFE(·)表示淺層特征提取模塊,提取的淺層特征隨后作為跨層次特征增強(qiáng)模塊的輸入。HCLFE(·)表示本文提出的跨層次特征增強(qiáng)模塊,它是一個(gè)嵌入了若干特征增強(qiáng)模塊的金字塔結(jié)構(gòu),該模塊可作為淺層特征提取的一種延伸。因此,本文將其視為一種增強(qiáng)的淺層特征。FEF從而替代淺層特征作為級(jí)聯(lián)的池化注意力密集塊的輸入:
其中:HCPADB(·)表示本文提出的級(jí)聯(lián)的池化注意力密集塊,該模塊包含G個(gè)池化注意力密集塊。Hou 等人提出的條狀池化在語(yǔ)義分割中能夠有效的捕獲遠(yuǎn)程依賴關(guān)系。所以,本文通過(guò)池化注意力密集塊進(jìn)行深度特征提取,提取的深度特征為FDF,深度特征隨后被送入重建模塊:
其中:Hrec(·)和Hbic(·)分別表示重建模塊和雙立方插值函數(shù)。重建模塊又包含上采樣和重建兩部分,先使用亞像素卷積進(jìn)行上采樣,然后用一個(gè)普通的3×3卷積重建放大的特征。
董超在最近的工作MS3?Conv[24]中強(qiáng)調(diào)了多尺度特征對(duì)超分辨率重建的重要性,并根據(jù)多尺度的兩個(gè)重要因素即特征傳播和跨尺度通信,設(shè)計(jì)了一種通用高效的多尺度卷積單元。受其啟發(fā),本文提出了跨層次特征增強(qiáng)模塊,其內(nèi)部結(jié)構(gòu)如圖1(b)所示可分為三個(gè)部分,主體部分為提供多尺度特征的金字塔結(jié)構(gòu),以及嵌入的特征增強(qiáng)模塊和跨層次協(xié)同注意力模塊。
金字塔結(jié)構(gòu)是一種多尺度特征提取的成熟方案,就是通過(guò)多次使用跨步卷積層對(duì)輸入圖像進(jìn)行下采樣,使得大多數(shù)計(jì)算都在低分辨率空間中完成,從而大大節(jié)省了計(jì)算成本,最后的上采樣層會(huì)將特征大小調(diào)整為原始輸入分辨率。如圖1(b)中左下角的紅色虛線所示,本文使用跨步卷積在第(L-1)金字塔層將特征下采樣2 倍,獲得金字塔第L層的特征表示。本文將紅色虛線所構(gòu)成的路徑稱為特征收縮路徑。同理,上采樣過(guò)程如紫色的虛線所示,本文將紫色虛線所構(gòu)成的路徑為特征擴(kuò)張路徑。本文從收縮路徑中所獲得的參考特征一方面作為金字塔同一層次特征增強(qiáng)模塊的輸入,另一方面又可跨層次提供一些輔助信息。下面將詳細(xì)闡述特征增強(qiáng)模塊和跨層次協(xié)同注意力模塊。
3.2.1 特征增強(qiáng)模塊
首先簡(jiǎn)要回顧一下可變形卷積,文獻(xiàn)[25]提出了可變形卷積,以提高卷積神經(jīng)網(wǎng)絡(luò)的幾何變換的建模能力。它以可學(xué)習(xí)的偏移量進(jìn)行訓(xùn)練,這有助于使用變形的采樣網(wǎng)格對(duì)像素點(diǎn)進(jìn)行采樣。由于這個(gè)特性,它被廣泛地用于特征配準(zhǔn)或隱式運(yùn)動(dòng)估計(jì)。在這項(xiàng)工作中,本文利用收縮路徑的參考特征對(duì)擴(kuò)張路徑的輸入特征進(jìn)行增強(qiáng),采用調(diào)制可變形卷積[26],該方法可另外學(xué)習(xí)帶有調(diào)制標(biāo)量的采樣內(nèi)核的動(dòng)態(tài)權(quán)重。
對(duì)于輸出特征圖Y上的每個(gè)位置p,普通的卷積過(guò)程可以表示為
其中:X是輸入,pk表示具有K個(gè)采樣位置的采樣網(wǎng)格,而wk表示每個(gè)位置的權(quán)重。例如,K=9且pk∈{(?1,?1),(?1,0),...,(1,1)}可定義一個(gè)3×3的卷積核。而在調(diào)制的可變形卷積中,將預(yù)測(cè)的偏移量和調(diào)制標(biāo)量添加到采樣網(wǎng)格中,從而使可變形的內(nèi)核在空間上變化。形式上,可變形卷積運(yùn)算定義如下:
其中:XL,S是金字塔第L層的支撐特征作為輸入,YL是金字塔第L層特征增強(qiáng)模塊的輸出,k和K分別表示可變形卷積核的索引和數(shù)目。wk,p,pk和Δpk分別是第k個(gè)核的權(quán)重,中心索引,固定偏移和第k個(gè)位置的可學(xué)習(xí)偏移。Δmk為調(diào)制標(biāo)量,這里它能夠?qū)W習(xí)到下采樣過(guò)程的參考特征與輸入特征的對(duì)應(yīng)關(guān)系。
這樣可變形卷積將在具有動(dòng)態(tài)權(quán)重的不規(guī)則位置上進(jìn)行操作,以實(shí)現(xiàn)對(duì)輸入特征的自適應(yīng)采樣。由于偏移量和調(diào)制標(biāo)量都是可學(xué)習(xí)的,因此將每個(gè)收縮路徑的參考特征與擴(kuò)張路徑的支撐特征連接起來(lái)從而生成相應(yīng)的可變形采樣參數(shù):
其中:[,]表示串聯(lián)操作,下標(biāo)L表示金字塔第L層。RL表示金字塔第L層的參考特征。YL+1°↑表示金字塔第L+1 層的輸出結(jié)果再上采樣2 倍。而ΔP={Δpk},ΔM={Δmk}。由于Δpk可能為分?jǐn)?shù),本文使用雙線性插值,這與文獻(xiàn)[25]中提出的相同。
特征增強(qiáng)模塊由一個(gè)可變形卷積和一個(gè)給可變形卷積提供偏移量的并行網(wǎng)絡(luò)組成,如圖2 所示。在特征增強(qiáng)模塊中,一個(gè)參考特征和一個(gè)支撐特征被連接起來(lái)作為輸入。然后,它們通過(guò)一個(gè)3×3 的卷積層來(lái)減少通道,并通過(guò)一個(gè)感受野模塊(RFB)來(lái)增加感受野的大小。接下來(lái)的3×3 卷積層被用來(lái)獲得可變形核的偏移ΔPL和調(diào)制標(biāo)量ΔML。
圖2 提出的特征增強(qiáng)模塊Fig.2 The proposed feature enhancement module
圖3 描述了RFB 的結(jié)構(gòu)。它引入一種類似Inception 模塊的多分支卷積模塊,以相對(duì)低的計(jì)算成本有效地?cái)U(kuò)大感受野,這有助于處理高頻信息較豐富的邊緣和紋理。在RFB 的膨脹卷積層中,每個(gè)分支都是一個(gè)普通卷積后面加上一個(gè)膨脹因子不同的膨脹卷積。因此在保持參數(shù)量和同樣感受野的情況下,RFB 能夠獲取更精細(xì)的特征。關(guān)于RFB 的更多細(xì)節(jié)可以在文獻(xiàn)[10]中找到。RFB 的使用有利于獲得有效的感受野,因此本文可以更有效地利用全局特征的自相似性來(lái)生成采樣參數(shù)。
圖3 感受野模塊Fig.3 Receptive field block
特征增強(qiáng)模塊將可變形卷積和RFB 感受野模塊進(jìn)行巧妙的結(jié)合,使得特征在傳播過(guò)程中能夠充分利用全局信息,從而提升特征的表達(dá)能力。
3.2.2 跨層次協(xié)同注意力
本文提出的跨層次協(xié)同注意力(cross-level coattention,CLCA)的目的是自適應(yīng)地調(diào)整來(lái)自金字塔不同層次(圖1(a)中的深橘色方塊)的重要特征,并為特征融合生成可訓(xùn)練的權(quán)重。CLCA 的結(jié)構(gòu)如圖4所示。
圖4 提出的跨層次協(xié)同注意力結(jié)構(gòu),其中Fgp 表示全局平均池化Fig.4 The proposed Cross-Level Co-Attention architec-ture."Fgp" denotes the global average pooling
給定一個(gè)高層次特征XL和一個(gè)低層次特征XL+1,它們的大小分別為C×H×W和。首先通過(guò)一個(gè)全局平均池化將特征XL和XL+1的全局空間信息分別壓縮到兩個(gè)信道描述符z1和z2,它們第c個(gè)元素可分別由以下式子求出:
其中:Fgp(·)表示全局平均池化操作,是XL第c個(gè)通道且位置為(i,j)的值,(i,j)是XL+1第c個(gè)通道且位置為(i,j)的值。
然后將這兩個(gè)信道描述符串聯(lián)成一個(gè)信道匯總統(tǒng)計(jì)量S∈R2C×1×1,其中Cconcat(·)為串聯(lián)函數(shù)。
為了通過(guò)全局平均池從聚合信息中完全捕獲通道依賴,本文引入了一種能夠?qū)W習(xí)信道之間非線性交互的門控機(jī)制。在這里,本文選擇利用Sigmoid 函數(shù)σ,信道統(tǒng)計(jì)量可以用以下公式計(jì)算:
其中:δ(·)表示ReLU 激活函數(shù)。W1是第一個(gè)卷積層的權(quán)重,它作為降維層,具有壓縮比r。在被ReLU激活后,低維信號(hào)隨后以比率r升維,其權(quán)重是W2。最后將獲得的信道統(tǒng)計(jì)量劃分為a,b兩部分,用于重新標(biāo)定不同層次特征的權(quán)重。然后將這些特征融合起來(lái),過(guò)程如下:
其中:Sdown()表示下采樣過(guò)程,Cconv()表示普通的3×3卷積,F(xiàn)output表示跨層次協(xié)同注意力的輸出。
跨層次特征增強(qiáng)模塊輸出了增強(qiáng)的淺層特征并饋入后面級(jí)聯(lián)的池化注意力密集塊(pooling attention dense blocks,PADB)。池化注意力密集塊主要由具有池化注意機(jī)制的堆疊殘差密集塊組成,而堆疊殘差密集塊的更多細(xì)節(jié)可以在文獻(xiàn)[27]中找到。
池化注意力密集塊的結(jié)構(gòu)如圖1(c)所示。它結(jié)合了多級(jí)殘差網(wǎng)絡(luò)和密集連接。從而充分利用輸入圖像的層次特征,獲得更好的恢復(fù)質(zhì)量。
3.3.1 池化注意力
池化注意力機(jī)制利用空間池化來(lái)擴(kuò)大卷積神經(jīng)的感受野并收集提供有用信息的上下文,利用條狀池化[28]作為全局池化的替代方法,所謂條狀池化就是使用條狀池化窗口沿水平或垂直方向執(zhí)行池化,如圖5 所示。數(shù)學(xué)上,給定二維張量x∈RH×W,在條狀池化過(guò)程中,需要池化的空間范圍為(H,1)或(1,W)。與二維平均池不同,條狀池化對(duì)一行或一列中的所有特征值進(jìn)行平均。因此,水平條狀池化后的輸出yh∈RH可以寫成:
圖5 池化注意力示意圖Fig.5 Schematic illustration of the pooling attention
同理,垂直條狀池化后的輸出yv∈RH可以寫成:
條狀池化具有兩個(gè)全局池化所沒(méi)有的優(yōu)點(diǎn)。一方面,它可以沿一個(gè)空間維度部署較長(zhǎng)的內(nèi)核空間,因此可以捕獲離散區(qū)域的遠(yuǎn)程關(guān)系;另一方面,條狀池化考慮的是長(zhǎng)而窄的范圍,而不是整個(gè)特征圖,從而避免了在相距甚遠(yuǎn)的位置之間建立大多數(shù)不必要的連接。
圖5 描述了本文提出的池化注意力。設(shè)x∈RC×H×W為輸入張量,其中C表示通道數(shù)。本文首先將x饋入兩條并行路徑,每條路徑包含一個(gè)水平或垂直條狀池化層,后面是一個(gè)內(nèi)核大小為3 的一維卷積層,用于調(diào)制當(dāng)前位置及其相鄰特征。從而給出了水平方向上的池化結(jié)果yh∈RH×W和垂直方向上的池化結(jié)果yv∈RH×W。為了獲得包含更有用的全局信息輸出z∈RC×H×W,本文將yh和yv用雙線性插值法膨脹為輸入相同的大小,再將膨脹后的張量融合起來(lái),得到y(tǒng)∈RC×H×W,該過(guò)程可表示為
于是,池化注意力的結(jié)果為
其中:SScale(,)指的是逐元素乘法,σ是Sigmoid 函數(shù),f是1×1卷積。應(yīng)當(dāng)注意,有多種方式來(lái)組合由兩個(gè)條狀池化層提取的特征,例如計(jì)算兩個(gè)提取的一維特征向量之間的內(nèi)積。然而,考慮到效率并使池化注意力模塊更加輕量,本文采用了上述操作,發(fā)現(xiàn)這些操作仍然具有不錯(cuò)的效果。
根據(jù)文獻(xiàn)[9,15],本文選用了DIV2K[29]作為網(wǎng)絡(luò)的訓(xùn)練集,該數(shù)據(jù)集由800 張訓(xùn)練集圖片和100 張驗(yàn)證集圖片組成。為了測(cè)試模型的效果,本文選用5 個(gè)標(biāo)準(zhǔn)的基準(zhǔn)數(shù)據(jù)集,分別為:Set5[30],Set14[31],BSD100[32],Urban100[5],Manga109[33]。其中測(cè)試集BSD100 包含有多種風(fēng)格類型的圖片,Urban100為各種類型的建筑物圖片,Manga109 為各種類型的卡通圖片。這5 個(gè)測(cè)試集具有豐富多樣的信息,能夠很好地驗(yàn)證超分辨率方法的有效性。為了評(píng)估超分辨率性能,本文采用兩種常用的全參考圖像質(zhì)量評(píng)估標(biāo)準(zhǔn)來(lái)評(píng)估差異:峰值信噪比(PSNR)和結(jié)構(gòu)相似性(SSIM)。按照超分辨率的慣例,亮度通道被選擇用于全參考圖像質(zhì)量評(píng)估,因?yàn)閳D像的強(qiáng)度比色度對(duì)人類視覺(jué)更敏感。
本文采用L1損失函數(shù)[9,15]來(lái)優(yōu)化SSEN。對(duì)于給定的訓(xùn)練集,包含了N個(gè)低分辨率和高分辨率圖像對(duì)。本文的網(wǎng)絡(luò)目標(biāo)是訓(xùn)練圖像對(duì)并利用L1損失函數(shù)來(lái)進(jìn)行優(yōu)化,公式如下所示:
其中:HSSEN()表示網(wǎng)絡(luò)重建結(jié)果?!?定義為L(zhǎng)1范數(shù),而θ 表示了網(wǎng)絡(luò)中的參數(shù)。
下面具體說(shuō)明本文提出的SSEN 的實(shí)驗(yàn)細(xì)節(jié),在每一輪訓(xùn)練中,本文將低分辨率的RGB 圖像和對(duì)應(yīng)高分辨率的RGB 圖像的切分為大小為48×48 的塊。通過(guò)隨機(jī)旋轉(zhuǎn)90°、180°、270°和水平翻轉(zhuǎn)來(lái)增加訓(xùn)練數(shù)據(jù)。本文在堆疊的池化注意力密集塊中將密集塊的個(gè)數(shù)設(shè)置為 18,在每個(gè)池化注意力密集塊中,本文有三個(gè)殘差密集塊和三個(gè)池化注意力塊。其中殘差密集塊的增長(zhǎng)率為32,文中未說(shuō)明的通道數(shù)均為64,網(wǎng)絡(luò)最后輸出的通道數(shù)為3。此外,本文的模型采用ADAM 優(yōu)化函數(shù)來(lái)優(yōu)化網(wǎng)絡(luò),網(wǎng)絡(luò)的初始學(xué)習(xí)率設(shè)置為2×10?4,并且每迭代 2×105次學(xué)習(xí)率減半。本文所提出的方法實(shí)現(xiàn)測(cè)試的硬件環(huán)境搭配 IntelCoreTMi9-9900K(3.6 GHz)、內(nèi)存8 GB、配置NVIDIA GeForce GTX 2080 GPU 的計(jì)算機(jī)。軟件環(huán)境為64 位Ubuntu 操作系統(tǒng),PyTorch 框架和Matlab R2019a。
實(shí)驗(yàn)中,本文將SSEN 與現(xiàn)階段一些具有代表性的方法作對(duì)比,其中包含Bicubic、SRCNN[7]、VDSR[8]、LapSRN[34]、M2SR[23]、PMRN[35]和RDN[36]。為了比較的公平性,將所有的方法在5 個(gè)基準(zhǔn)數(shù)據(jù)集Set5、Set14、BSD100、Urban100 和Manga109 上進(jìn)行實(shí)驗(yàn)測(cè)試,然后對(duì)于不同基準(zhǔn)測(cè)試集上得到的PSNR 和SSIM 指標(biāo)值分別取平均值。獲得的結(jié)果列于表1 中,表中紅色字體表示最優(yōu)結(jié)果,藍(lán)色字體表示次優(yōu)結(jié)果。從表中可以看出SSEN 獲得的PSNR和SSIM 值都高于絕大部分其他的對(duì)比方法獲得的結(jié)果值,比如在數(shù)據(jù)集Set5 上放大4 倍的情況下本文的模型重建圖像的PSNR 和SSIM 值相比于M2SR 方法分別提高了0.19 dB 和0.003,相比于PMRN 方法分別提高了0.08 dB 和0.0011。在數(shù)據(jù)集Set14 上放大2 倍的情況下,本文的模型重建圖像的PSNR 和SSIM值相比于OISR-RK2 方法分別提高了0.12 dB和0.0011,相比于DBPN 方法分別提高了0.07 dB 和0.0014。表1 中的客觀指標(biāo)的實(shí)驗(yàn)對(duì)比結(jié)果證明了本文方法的有效性。
表1 在數(shù)據(jù)集Set5、Set14、BSD100、Urban100、Manga109 上放大倍數(shù)分別為2、3、4 的平均 PSNR(dB)和SSIM 的結(jié)果比較Table 1 The average results of PSNR/SSIM with scale factor 2×,3× and 4× on datasets Set5,Set14,BSD100,Urban100 and Manga109
為了從視覺(jué)質(zhì)量上對(duì)比不同超分辨率方法的重建性能,圖6 和圖7 分別展示了數(shù)據(jù)集Urban100 中“Img048”和“Img092”圖像在4 倍放大時(shí)的超分辨率重建結(jié)果。圖8 和圖9 分別展示了數(shù)據(jù)集B100 中“223061”和“253027”圖像在4 倍放大時(shí)的超分辨率重建結(jié)果。其中GT (ground truth)代表原始HR 圖像。為了突出對(duì)比效果,本文選取了圖像的局部區(qū)域使用雙三次插值的方法進(jìn)行放大。通過(guò)觀察圖7 和圖9 可以看出,雖然RDN 方法[36]能清晰地恢復(fù)圖像中顯著的紋理信息,但這些紋理信息存在明顯的方向性問(wèn)題,而OISR-RK2 方法[37]和DBPN[38]的方法雖在一定程度上恢復(fù)了正確的紋理信息,但難以抑制錯(cuò)誤的紋理,并且這兩種方法的紋理較為模糊。相比之下,本文方法在圖中局部放大區(qū)域上能夠產(chǎn)生方向正確的紋理和比較清晰的邊緣,而且更加符合人眼視覺(jué)。這是由于跨層次特征增強(qiáng)模塊中的可變形卷積有較強(qiáng)的特征對(duì)齊能力,從而使得網(wǎng)絡(luò)模型能夠更正確的恢復(fù)不同圖像中復(fù)雜的紋理結(jié)構(gòu)。在圖8 的局部放大部分可以清晰地觀察到,其他的方法重建出的圖像細(xì)節(jié)很模糊,甚至無(wú)法重建出圖像的邊緣信息,而本文方法重建出的細(xì)節(jié)更加清晰,具有較好的識(shí)別度。這些結(jié)果也表明,本文方法在主觀表現(xiàn)上取得了更優(yōu)的效果。
圖6 數(shù)據(jù)集Urban100 中“Img048”放大4 倍的超分辨率結(jié)果Fig.6 Super-resolution results of " Img048" in Urban100 dataset for 4× magnification
圖7 數(shù)據(jù)集Urban100 中“Img092”放大4 倍的超分辨率結(jié)果Fig.7 Super-resolution results of " Img092" in Urban100 dataset for 4× magnification
圖8 數(shù)據(jù)集BSD100 中“223061”放大4 倍的超分辨率結(jié)果Fig.8 Super-resolution results of " 223061" in BSD100 dataset for 4× magnification
圖9 數(shù)據(jù)集BSD100 中“253027”放大4 倍的超分辨率結(jié)果Fig.9 Super-resolution results of " 253027" in BSD100 dataset for 4× magnification
為了驗(yàn)證跨層次特征增強(qiáng)模塊和池化注意力密集塊的有效性,本文在測(cè)試集Set5 中對(duì)圖像放大 4倍的情況下進(jìn)行了消融實(shí)驗(yàn)來(lái)驗(yàn)證本文模型的優(yōu)越性。
圖10 給出了這五種網(wǎng)絡(luò)的收斂過(guò)程。本文選用18 個(gè)RRDB 塊作為基線,這五種網(wǎng)絡(luò)具有相同的RRDB 數(shù)。當(dāng)本文將跨層次特征增強(qiáng)模塊和池化注意力密集塊分別添加到基線中,得到了Baseline +CLFE 和Baseline+Cascaded PADB 這兩條曲線。從而驗(yàn)證這兩個(gè)模塊均能有效地提高基線的性能。當(dāng)本文在模塊CLFE 的基礎(chǔ)上去掉跨層次注意力得到了曲線Baseline+CLFE_no_attention,對(duì)比曲線Baseline+CLFE 可以看出失去注意力的約束后,雖然網(wǎng)絡(luò)收斂速度變快了,但最終的PSNR 卻下降了0.03 dB,但仍比基線網(wǎng)絡(luò)要高0.04 dB,從而分別驗(yàn)證了特征增強(qiáng)模塊和跨層次注意力模塊的有效性。當(dāng)本文同時(shí)向基線網(wǎng)絡(luò)添加了兩個(gè)模塊,得到曲線Baseline +CLFE+Cascaded PADB。可以看出,兩個(gè)模塊的組合性能比只有一個(gè)模塊性能更好。這些定量和可視化分析證明了本文提議的CLFE 和PADB 的有效性。
圖10 跨層次特征增強(qiáng)模塊和池化注意力密集塊聚合分析每種組合的曲線均基于Set5,放大因子為4,共800 epochFig.10 Convergence analysis on CLFE and PADB.The curves for each combination are based on the PSNR on Set5 with scaling factor 4× in 800 epochs.
表2 給出了網(wǎng)絡(luò)包含跨層次特征增強(qiáng)模塊和池化注意力密集塊中一種或者兩種的情況下的實(shí)驗(yàn)結(jié)果。從表中可以看出,當(dāng)本文的網(wǎng)絡(luò)同時(shí)包含跨層次特征增強(qiáng)模塊和池化注意力密集塊時(shí)PSNR值相比于只包含跨層次特征增強(qiáng)模塊和只包含池化注意力密集塊的情況下分別提高了0.07 dB 和0.05 dB,而在SSIM 上也獲得了最大值。
表2 跨層次特征增強(qiáng)模塊和池化注意力密集塊在數(shù)據(jù)集Set5 放大4 倍下結(jié)果比較Table 2 The results of cross-level and feature enhancement module and pooling attention dense block with scale factor 4× on Set5
為了更好地展示網(wǎng)絡(luò)中跨層次特征增強(qiáng)模塊的效果,本文分別對(duì)只包含淺層特征提取的特征圖和加入跨層次特征增強(qiáng)模塊的特征圖進(jìn)行了可視化,其中圖11(a)表示網(wǎng)絡(luò)在第一層卷積輸出的結(jié)果,圖11(b)和圖11(c)分別代表跨層次特征增強(qiáng)模塊輸出結(jié)果和堆疊的池化注意力密集塊輸出結(jié)果。從圖11(b)和11(c)可以看出,跨層次特征增強(qiáng)模塊學(xué)習(xí)到了圖像大量的自相似特征,比如蝴蝶身上的圓形斑點(diǎn)得到了很好的恢復(fù)。而堆疊的池化注意力密集塊則學(xué)習(xí)到了更多的圖像紋理細(xì)節(jié)。實(shí)驗(yàn)結(jié)果表明,本文網(wǎng)絡(luò)中的兩個(gè)增強(qiáng)模塊起到了很好的自相似特征增強(qiáng)的作用。
圖11 網(wǎng)絡(luò)中各模塊的輸出結(jié)果。(a) 第一層卷積輸出結(jié)果;(b) 跨層次特征增強(qiáng)模塊輸出結(jié)果;(c) 堆疊的池化注意力密集塊輸出結(jié)果Fig.11 Results of each module in the network.(a) The result of first layer convolution;(b) The results of cross-level feature enhancement module;(c) The results of Stacked pooling attention dense blocks
為了進(jìn)一步驗(yàn)證本文提出模型的有效性,本文在參數(shù)的數(shù)量方面和計(jì)算量方面將SSEN 與當(dāng)前公認(rèn)取得效果比較好的一些深度學(xué)習(xí)的超分辨率方法進(jìn)行了分析比較,這些方法包括EDSR,RDN,OISR-RK3和DBPN,參數(shù)和計(jì)算量結(jié)果如表3 所示。
表3 模型大小和計(jì)算量在數(shù)據(jù)集Set14 放大2 倍情況下的比較,計(jì)算量表示乘法操作和加法操作的數(shù)目之和Table 3 Model size and MAC comparison on Set14 (2×),"MAC" denotes the number of multiply-accumulate operations
從表中可以看出SSEN 在取得了較好客觀指標(biāo)的同時(shí),大幅縮減了網(wǎng)絡(luò)的參數(shù)量和計(jì)算量。在數(shù)據(jù)集Set14 上放大2 倍的情況下SSEN 模型參數(shù)量約等于EDSR 和OISR-RK3 參數(shù)量的36%,計(jì)算量也只有它們的37%,但獲得的PSNR 和SSIM 結(jié)果卻十分接近。雖然SSEN 的參數(shù)量和計(jì)算量略高于DBPN 方法,獲得的PSNR 和SSIM 值相比于DBPN 方法提高了0.07 dB 和0.0014。
由此可以證明,SSEN 在圖像重建質(zhì)量和模型壓縮以及計(jì)算效率上取得了更好的平衡,即SSEN 在參數(shù)較少時(shí)也能獲得較好的PSNR 和SSIM 結(jié)果。在主觀視覺(jué)效果上,如圖6?9 所示,SSEN 與目前客觀指標(biāo)上較優(yōu)的RDN 方法進(jìn)行比較,取得了相近的重建質(zhì)量,但SSEN 參數(shù)卻比它少了很多。
本文提出了一個(gè)基于自相似特征增強(qiáng)網(wǎng)絡(luò)結(jié)構(gòu)的單幀圖像超分辨率重建網(wǎng)絡(luò)。該方法著重對(duì)低分辨率圖像內(nèi)的自相似特征進(jìn)行增強(qiáng),本文將整個(gè)自相似特征增強(qiáng)的過(guò)程設(shè)計(jì)成兩個(gè)即插即用的模塊,即跨層次特征增強(qiáng)模塊和池化注意力密集塊。其中跨層次特征增強(qiáng)模塊可作為淺層特征增強(qiáng)模塊,在CLFE中,金字塔結(jié)構(gòu)的每一層都嵌入了可變形卷積,以便充分挖掘同一尺度下的自相似信息。金字塔的不同層次間也包含特征的傳遞,在一定程度上補(bǔ)充了跨尺度的自相似信息,為了防止不同層次的自相似信息相互之間產(chǎn)生干擾,本文提出了跨層次注意力來(lái)約束這種信息的傳遞。此外,本文還提出了池化注意力來(lái)挖掘中間特征的自相似特征。通過(guò)充分利用淺層特征和中間特征的自相似信息,本文提出的方法無(wú)論在客觀指標(biāo)還是在主觀表現(xiàn)下都取得了較好的效果。