亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于區(qū)域互補(bǔ)注意力和多維注意力的輕量級(jí)圖像超分辨率網(wǎng)絡(luò)

2022-08-15 12:20:54周登文王婉君高丹丹

模式識(shí)別與人工智能 2022年7期

周登文王婉君馬鈺高丹丹

單圖像超分辨率 (Single Image Super-Resolu- tion, SISR)[1]是一個(gè)基本的低級(jí)計(jì)算機(jī)視覺(jué)問(wèn)題,旨在由一個(gè)給定的低分辨率 (Low-Resolution, LR)圖像生成對(duì)應(yīng)的高分辨率 (High-Resolution, HR)圖像.SISR在醫(yī)學(xué)成像[2]、物體識(shí)別[3]、視頻監(jiān)控[4]和遙感成像[5]等領(lǐng)域都具有廣泛應(yīng)用.SISR是一個(gè)病態(tài)的逆問(wèn)題,因?yàn)樵S多HR圖像可退化為相同的LR圖像,重建的超分辨率(Super-Resolution, SR)圖像往往會(huì)出現(xiàn)模糊、紋理細(xì)節(jié)丟失和失真等問(wèn)題.

早期SISR的研究[6-7]主要是基于插值的方法,如雙線性插值和雙三次插值.基于插值的方法現(xiàn)仍廣泛使用,其優(yōu)勢(shì)是簡(jiǎn)單、計(jì)算復(fù)雜度很低,但是不能恢復(fù)LR圖像中丟失的圖像細(xì)節(jié).基于稀疏字典學(xué)習(xí)的方法[8-10]改進(jìn)基于插值的方法,旨在通過(guò)訓(xùn)練圖像,學(xué)習(xí)LR圖像和HR圖像之間的映射函數(shù).但是基于稀疏字典學(xué)習(xí)的方法往往優(yōu)化困難,同時(shí)具有較高的推理復(fù)雜度.卷積神經(jīng)網(wǎng)絡(luò)(Convolu-tional Neural Networks, CNN)[11-16]直接端到端地學(xué)習(xí)LR圖像和HR圖像之間的映射函數(shù),已主導(dǎo)當(dāng)前SISR技術(shù)的研究.但是基于CNN的SISR方法嚴(yán)重依賴(lài)于網(wǎng)絡(luò)規(guī)模,即網(wǎng)絡(luò)中參數(shù)量、深度(層數(shù))和寬度(通道數(shù))等.

為了提升SISR的性能,往往需要規(guī)模更大的網(wǎng)絡(luò).Lim等[17]提出EDSR(Enhanced Deep SR Network)，有65個(gè)卷積層,參數(shù)量為43 M.Zhang等[18]提出RCAN(Very Deep Residual Channel Attention Net-works)，卷積層數(shù)超過(guò)800,參數(shù)量為16 M.

EDSR和RCAN雖然在性能上有顯著提升,但是需要較高的計(jì)算和存儲(chǔ)能力,難以在資源受限的設(shè)備(如手機(jī))上應(yīng)用.設(shè)計(jì)輕量級(jí)SISR網(wǎng)絡(luò)(計(jì)算和存儲(chǔ)需求較低)是當(dāng)前SISR方法研究的熱點(diǎn),但面臨在CNN復(fù)雜度和性能之間如何建立更好平衡的挑戰(zhàn).

設(shè)計(jì)輕量級(jí)SISR網(wǎng)絡(luò)的一個(gè)選擇是使用遞歸結(jié)構(gòu)[19-24],卷積層(或塊)之間參數(shù)共享,在增加網(wǎng)絡(luò)深度時(shí)參數(shù)量不變,但依舊會(huì)增加計(jì)算量.特征蒸餾網(wǎng)絡(luò)是一個(gè)更有效的輕量級(jí)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)方案[25-26].Hui等[25]提出IMDN(Lightweight Information Multi-distillation Network)，構(gòu)造IMDB(Information Multi-distillation Blocks),包含蒸餾和選擇性融合2部分.IMDN采用通道分裂和分層的特征蒸餾,IMDB根據(jù)特征的重要性進(jìn)行融合.Liu等[26]提出RFDN(Residual Feature Distillation Network),改進(jìn)IMDB的通道分裂和特征蒸餾,更輕量、有效,獲得AIM 2020[27]高效SR挑戰(zhàn)賽第1名.學(xué)者們也提出其它的輕量級(jí)SR網(wǎng)絡(luò)架構(gòu)[28-31].Li等[28]提出LAPAR(Linearly-Assembled Pixel-Adaptive Regression Net-work),將LR圖像到HR圖像的映射學(xué)習(xí)轉(zhuǎn)換為多個(gè)預(yù)定義濾波器庫(kù)字典上的線性系數(shù)回歸任務(wù).Zhao等[29]使用自校準(zhǔn)卷積作為基本的網(wǎng)絡(luò)構(gòu)件,提出PAN(Pixel Attention Networks).Chen等[30]提出A2N (Attention in Attention Network),由非注意力分支與耦合注意力分支構(gòu)成,并為2個(gè)分支生成動(dòng)態(tài)注意力權(quán)重.李金新等[31]提出基于多層次特征的輕量級(jí)單圖像超分辨率網(wǎng)絡(luò).Li等[32]提出MSRN(Multi-scale Residual Network),基本構(gòu)件是MSRB(Multi-scale Residual Block),可提取與融合不同尺度的特征.MSRB是有效的,但是不夠輕量.

基于上述情況，本文提出基于區(qū)域互補(bǔ)注意力和多維注意力的輕量級(jí)圖像超分辨率網(wǎng)絡(luò)(Lightweight Image Super-Resolution Network Based on Regional Complementary Attention and Multi-dimen-sional Attention, RCA-MDA).首先提出通道重組聚合卷積單元(Channel Shuffle Aggregation Convolution Unit, CSAConv)和多交互殘差塊(Multiple Interactive Residual Block, MIRB),CSAConv使MIRB較輕量，可有效融合多尺度特征.為了提高特征利用率和表達(dá)能力，提出區(qū)域互補(bǔ)注意力塊(Region Comple-mentary Attention Block, RCAB)和多上下文信息融合塊(Multi-context Information Fusion Block, MI-FB),可使圖像不同區(qū)域的信息得到互補(bǔ),有效提取和融合局部與非局部的多尺度特征.同時(shí)設(shè)計(jì)多維注意力塊(Multi-dimensional Attention Block, MD-AB),可同時(shí)逐像素地關(guān)注特征通道維和空間維的相關(guān)性,更有效利用特征信息.實(shí)驗(yàn)表明本文網(wǎng)絡(luò)性能較優(yōu)，并將當(dāng)前輕量級(jí)超分辨率網(wǎng)絡(luò)的復(fù)雜度和性能平衡提升到一個(gè)較高水平.

1 基于區(qū)域互補(bǔ)注意力和多維注意力的輕量級(jí)圖像超分辨率網(wǎng)絡(luò)

本文提出基于區(qū)域互補(bǔ)注意力和多維注意力的輕量級(jí)圖像超分辨率網(wǎng)絡(luò)(RCA-MDA)，網(wǎng)絡(luò)架構(gòu)如圖1所示.

RCA-MDA主要包括4部分:淺層特征提取塊(Shallow Feature Extraction Block, SFEB)、非線性特征映射塊(Non-linear Feature Mapping Block, NFMB)、全局特征融合塊(Global Feature Fusion Block, GFFB)和上采樣塊(Upsampler).SFEB僅包括1個(gè)3×3卷積層和1個(gè)滲漏修正線性單元(Leaky Rectified Linear Unit, LReLU)[33].Upsampler使用亞像素卷積[34].NFMB級(jí)聯(lián)N(本文中N=3)個(gè)多上下文信息融合塊(MIFB).GFFB主要由多尺度的通道重組聚合卷積單元(CSAConv)和多維注意力塊(MDAB)組成.

給定輸入的LR圖像ILR,首先輸入到SFEB,得到淺層特征:

F0=LReLU(C3×3(ILR)),

其中,C3×3(·)表示3×3的卷積函數(shù),LReLU(·)表示LReLU激活函數(shù).

F0再輸入到NFMB中N個(gè)級(jí)聯(lián)的MIFB塊,提取多層深度上下文特征：

Ffusion=fGFFB(F1,F2,…,FN)，

其中fGFFB(·)表示全局特征融合的函數(shù).Ffusion和ILR同時(shí)輸入U(xiǎn)psampler塊,獲得目標(biāo)SR圖像：

ISR=fup(Ffusion)+fup(C3×3(ILR))，

其中,fup(·)表示亞像素卷積上采樣[35],C3×3(·)表示3×3的卷積函數(shù),ISR表示輸入的SR圖像.

圖1 RCA-MDA網(wǎng)絡(luò)架構(gòu)

1.1 通道重組聚合卷積單元

Zhang等[36]為移動(dòng)設(shè)備設(shè)計(jì)計(jì)算效率較高的CNN架構(gòu),稱(chēng)為ShuffleNet,基本構(gòu)件是ShuffleNet單元,結(jié)構(gòu)如圖2(a)所示.由于引入逐點(diǎn)的分組卷積,大幅降低計(jì)算代價(jià)，但ShuffleNet是為物體分類(lèi)和檢測(cè)等高級(jí)視覺(jué)任務(wù)設(shè)計(jì)的,包含批規(guī)范化(Batch Normalization, BN)層[37].BN層對(duì)低級(jí)視覺(jué)任務(wù)——圖像超分辨率是有害的[17].CSAConv結(jié)構(gòu)如圖2(b)所示,去掉ShuffleNet單元中的BN層,也去掉ShuffleNet單元中的殘差連接和修正的線性單元(Rectified Linear Unit, ReLU)[38].另外,考慮到分組卷積,不同組的通道之間無(wú)交互,會(huì)降低特征的表達(dá)能力,因此使用1×1卷積代替Shuffle-

Net單元中最后的逐點(diǎn)分組卷積(Group Convolution, GConv).CSAConv是一個(gè)結(jié)構(gòu)更簡(jiǎn)單、適用于SISR的基本網(wǎng)絡(luò)構(gòu)件.實(shí)驗(yàn)表明:相比使用逐點(diǎn)的分組卷積,使用1×1卷積時(shí),模型復(fù)雜度和性能之間具有更好的平衡.

CSAConv作為基本的計(jì)算單元,替代常規(guī)的卷積,可顯著減少參數(shù)量和計(jì)算量.假定輸出通道數(shù)均為C，特征圖大小為H×W，核大小為k×k的卷積的參數(shù)量為k2C2,計(jì)算量為k2C2HW.對(duì)于核大小為k×k的CSAConv,假定分組卷積的組數(shù)為g,參數(shù)量為

計(jì)算量為

在本文的設(shè)置中,C=48,k=3,g=3,若設(shè)H=W=64,常規(guī)卷積的參數(shù)量和計(jì)算量都大約是CSAConv的6倍.CSAConv-1表示去掉圖2(b)中逐深度卷積(Depthwise Convolution, DWConv).CSAConv-3表示CSAConv中的DWConv,使用核大小為3×3的標(biāo)準(zhǔn)卷積.CSAConv-d表示CSAConv中的DWConv,使用核大小為3×3、擴(kuò)張率為d的擴(kuò)張卷積.

(a)ShuffleNet單元[36]

(b)CSAConv

1.2 多上下文信息融合塊

如圖1所示,MIFB主要包括3條分支,從上到下分別為:分支1、分支2、分支3.分支1只是一個(gè)簡(jiǎn)單的殘差連接.分支2包含M(本文中,M=6)個(gè)級(jí)聯(lián)的MIRB.分支3為1個(gè)RCAB.

MIRB中的擴(kuò)張卷積有不同的擴(kuò)張率.例如,6個(gè)級(jí)聯(lián)的MIRB中的擴(kuò)張率分別為1、2、3、3、2、1,以捕獲不同尺度的上下文特征.RCAB使圖像不同區(qū)域的信息互相補(bǔ)充,在不同大小的感受野范圍融合互補(bǔ)信息.基于MIRB和RCAB,MIFB可充分融合多尺度、局部和非局部的多上下文特征信息,有效利用LR圖像的自相似性.第n個(gè)MIFB支路2的輸出特征可表示為

其中fRCAB(·)表示RCAB函數(shù).第n個(gè)MIFB的輸出特征可表示為

其中⊙表示逐元素相乘.

1.2.1 多交互殘差塊

Li等[32]提出MSRB,使用3×3和5×5的卷積核,捕獲多尺度特征信息,并進(jìn)行跨尺度的交互.不過(guò)MSRB每個(gè)支路只有2個(gè)卷積層.實(shí)驗(yàn)顯示: 增加卷積層數(shù)和跨尺度交互次數(shù),可更充分地利用特征信息,提高特征的表達(dá)能力.另外,MSRB使用的3×3和5×5的卷積,不夠輕量、靈活.本文提出的MIRB與MSRB結(jié)構(gòu)類(lèi)似,參見(jiàn)圖1.重要改進(jìn)如下:1)把MSRB中的3×3卷積替換為CSAConv-3,5×5的卷積替換為CSAConv-d,可大幅減少參數(shù)量和計(jì)算量;2)進(jìn)行更多次數(shù)的多尺度特征交互,改進(jìn)性能(為了平衡性能與參數(shù)量和計(jì)算量,文中進(jìn)行3次多尺度特征交互).值得注意的是,MIRB比MSRB更靈活,通過(guò)調(diào)整CSAConv-d中DWConv的擴(kuò)張率,可較容易獲得更多不同尺度的特征信息.假定第n個(gè)MIFB塊中第m個(gè)MIRB的第1次多尺度特征交互的輸出為(忽略LReLU非線性激活)

(1)

其中,fCUS3×3(·)表示MIRB上支路的第1個(gè)CSAConv-

3函數(shù),fCUD3×3(·)表示MIRB下支路的第1個(gè)CSAConv-d函數(shù),[·]表示特征通道拼接,Fn,m-1表示第n個(gè)MIFB中第m-1個(gè)MIRB的輸出,即第n個(gè)MIFB中第m個(gè)MIRB的輸入.

其中C1×1(·)表示1×1的卷積函數(shù).

1.2.2 區(qū)域互補(bǔ)注意力塊

Zhang等[39]提出分割拼接塊(Cutting-Splicing Block， CSB),首先把特征圖分割成n×n的單元,然后把它們?cè)谕ǖ谰S進(jìn)行拼接,再利用3×3的卷積提取局部和非局部的空間信息.受Zhang等[39]的啟發(fā),為了使網(wǎng)絡(luò)學(xué)習(xí)到圖像本身的自相似性,本文提出更輕量的RCAB,使圖像不同區(qū)域的特征信息可互相補(bǔ)充.

RCAB的結(jié)構(gòu)如圖1所示.輸入特征在通道維劃分成相等的兩部分,在2個(gè)支路上進(jìn)行如下處理.

1)在特征空間維度分別分割成大小相等的4塊,并在通道維進(jìn)行拼接.

2)對(duì)拼接后的特征：一個(gè)支路使用1×1卷積,學(xué)習(xí)4個(gè)像素點(diǎn)位置和通道的依賴(lài)性;另一個(gè)支路使用3×3的逐深度卷積和1×1逐點(diǎn)卷積(即深度可分離卷積),學(xué)習(xí)4個(gè)非局部區(qū)域間特征的依賴(lài)性,即令圖像不同區(qū)域的特征信息互相補(bǔ)充.

3)2個(gè)支路的特征自適應(yīng)地拼接,還原成輸入時(shí)的形狀，自適應(yīng)參數(shù)隨網(wǎng)絡(luò)模型端到端地學(xué)習(xí).

4)通過(guò)一個(gè)3×3逐深度卷積和一個(gè)1×1逐點(diǎn)卷積,進(jìn)一步融合特征,并使用Sigmoid函數(shù),獲得注意力權(quán)重.

RCAB包含兩條支路,假定RCAB使用單分支,輸入通道數(shù)為C,卷積核大小為k×k,僅用1×1卷積進(jìn)行區(qū)域間信息融合,參數(shù)量為C2+k2C+C2.雙分支RCAB如圖1所示,參數(shù)量為

若C=48,k=3,參數(shù)量大約減少30%.

其中,fCUT(·)表示特征空間維分割和特征通道拼接函數(shù),fICUT(·)表示fCUT(·)的逆函數(shù),DWC3×3(·)表示3×3的逐深度卷積函數(shù),λ1、λ2表示可學(xué)習(xí)的參數(shù),FRC表示兩個(gè)支路的輸出特征.

第n個(gè)MIFB的注意力塊RCAB的權(quán)重可計(jì)算為

1.3 全局特征融合塊

非線性特征映射塊(NFMB)中每個(gè)MIFB塊的輸出特征輸入到GFFB塊進(jìn)行分層的全局特征信息融合.GFFB有N個(gè)主支路(對(duì)應(yīng)N個(gè)層的特征),每個(gè)主支路處理一個(gè)層的特征(即對(duì)應(yīng)MIFB塊的輸出),如圖1所示.每個(gè)MIFB塊的輸出分別通過(guò)一個(gè)主支路中CSAConv-1和CSAConv-3,然后進(jìn)行通道拼接,再輸入MDAB.N個(gè)主分支的輸出分別乘以一個(gè)可學(xué)習(xí)的自適應(yīng)參數(shù)，再求和,作為GFFB塊的輸出.這個(gè)過(guò)程可表示為

其中,fCUS1×1(·)表示CSAConv-1函數(shù),fCUS3×3(·)表示CSAConv-3函數(shù),[·]表示特征通道拼接,fMDAB(·)表示MDAB塊函數(shù),μn表示可學(xué)習(xí)的參數(shù),Fn表示第n個(gè)MIFB的輸出,Ffusion表示GFFB的輸出.

當(dāng)前,在SISR中,常見(jiàn)的注意力機(jī)制是通道注意力[40]和空間注意力[41].假定特征圖的大小為C×H×W(C為特征的通道數(shù)，H、W為特征的高、寬),通道注意力計(jì)算1個(gè)一維向量(C×1×1),建模通道之間的依賴(lài)關(guān)系.空間注意力計(jì)算1個(gè)二維的矩陣(1×H×W),建?？臻g位置之間的依賴(lài)關(guān)系.

Zhang等[39]提出一階三元組注意力,類(lèi)似于通道注意力,它在特征的通道、行和列三個(gè)方向建?？缇S度之間的依賴(lài)關(guān)系.Zhao等[29]提出像素注意力(Pixel Attention， PA),使用1×1的卷積和Sigmoid函數(shù),計(jì)算一個(gè)三維逐像素的矩陣(C×H×W).MDAB結(jié)構(gòu)如圖3所示,與PA類(lèi)似,也是計(jì)算一個(gè)三維逐像素的矩陣(C×H×W).但是它們有如下區(qū)別:1)1×1的卷積替換為CSAConv-3,Sigmoid函數(shù)替換為Softmax函數(shù).2)為了更好地建模特征通道維和空間維的依賴(lài)關(guān)系,分別在通道維和空間維學(xué)習(xí)特征像素之間的依賴(lài)關(guān)系.MDAB包含1個(gè)CSA-Conv和2個(gè)1×1卷積,假定輸入通道數(shù)為48,MDAB的參數(shù)量?jī)H約為8.1 K.

圖3 MDAB結(jié)構(gòu)圖

假定MDAB的輸入特征為FMS,分別經(jīng)過(guò)一個(gè)1×1卷積和CSAConv-3.CSAConv的輸出分別在通道維和空間維執(zhí)行Softmax函數(shù),獲得2個(gè)像素級(jí)的注意力權(quán)重.1×1卷積的輸出被這2個(gè)注意力權(quán)重加權(quán),并求和,再通過(guò)一個(gè)1×1卷積進(jìn)行信息融合.

FMS通過(guò)1×1卷積后的輸出特征為

FCom=C1×1(FMS).

FMS通過(guò)CSAConv-3后的輸出特征可表示為

FCUS=fCUS3×3(FMS),

其中fCUS3×3(·)表示CSAConv-3函數(shù).MDAB塊的輸出特征可表示為

FMDA=FCom⊙τ1(FCUS)+FCom⊙τ2(FCUS)，

其中,⊙表示逐元素相乘,τ1(·)表示在通道維上執(zhí)行Softmax函數(shù),τ2(·)表示在空間維上執(zhí)行Softmax函數(shù).

MDAB實(shí)現(xiàn)簡(jiǎn)單,也可方便地組合到其它SR模型中.

2 實(shí)驗(yàn)及結(jié)果分析

2.1 實(shí)驗(yàn)設(shè)置

本文采用DIV2K數(shù)據(jù)集[42]作為訓(xùn)練和驗(yàn)證數(shù)據(jù)集.第1幅～第800幅圖像用于訓(xùn)練,第821幅圖像～第830幅圖像用于驗(yàn)證,標(biāo)記為DIV2K_val10.原HR訓(xùn)練圖像進(jìn)行雙三次下采樣,獲得配對(duì)的LR圖像.類(lèi)似其它方法,對(duì)輸入圖像隨機(jī)地進(jìn)行90°、180°、270°旋轉(zhuǎn)和水平翻轉(zhuǎn),增強(qiáng)訓(xùn)練圖像.測(cè)試數(shù)據(jù)是5個(gè)標(biāo)準(zhǔn)的測(cè)試數(shù)據(jù)集: Set5[43]、Set14[9]、B100[44]、Urban100[45]和Manga109[46].

在YCbCr空間[35]的亮度(Y)通道上,計(jì)算峰值信噪比(Peak Signal to Noise Ratio, PSNR)和結(jié)構(gòu)相似性指數(shù)(Structural Similarity Index, SSIM)[47].

本文也給出各方法的參數(shù)量和計(jì)算量.計(jì)算量即GFLOPs(Giga Floating-Point Operations Per Se-

cond)[36]，指乘法和加法運(yùn)算的次數(shù).在模型訓(xùn)練中,每批次隨機(jī)選取16個(gè)64×64的圖像塊.使用Adam(Adaptive Moment Estimation)優(yōu)化器[48],

β1=0.9，β2=0.999 ，ε=10-8.

2倍SR模型訓(xùn)練1 000個(gè)迭代周期,初始學(xué)習(xí)率設(shè)置為2.5×10-3,每200個(gè)迭代周期衰減一半.2倍SR模型作為3倍SR和4倍SR的預(yù)訓(xùn)練模型,3倍SR和4倍SR模型同樣訓(xùn)練1 000個(gè)迭代周期.所有訓(xùn)練過(guò)程均使用L1損失函數(shù).使用Pytorch[49]框架和一個(gè)NVIDIA 2080Ti GPU實(shí)現(xiàn)模型,并進(jìn)行模型的訓(xùn)練和測(cè)試.

在RCA-MDA架構(gòu)中,級(jí)聯(lián)3個(gè)MIFB塊,每個(gè)MIFB塊的輸入通道數(shù)和輸出通道數(shù)均為48.每個(gè)MIFB塊級(jí)聯(lián)6個(gè)MIRB塊,每個(gè)MIRB塊中擴(kuò)張卷積的擴(kuò)張率分別為1，2，3，3，2，1.每個(gè)MIRB塊中CSAConv的輸入通道數(shù)為48,輸出通道數(shù)為24,分組卷積的組數(shù)為3.每個(gè)RCAB塊中可學(xué)習(xí)參數(shù)的初始值設(shè)置為

λ1=0.5，λ2=0.5.

GFFB塊中可學(xué)習(xí)參數(shù)的初始值設(shè)置為

μ1=0.3，μ2=0.3，μ3=0.4.

2.2 各模塊性能分析

2.2.1 多上下文信息融合塊

當(dāng)NFMB中分別級(jí)聯(lián)2、3和4個(gè)MIFB塊時(shí),在DIV2K_val10驗(yàn)證集上,3倍SR的PSNR和參數(shù)量對(duì)比如表1所示.由表可看出，MIFB塊個(gè)數(shù)更多,即網(wǎng)絡(luò)深度更深,PSNR性能更優(yōu).MIFB個(gè)數(shù)由2增加到3時(shí),參數(shù)量增加141 K,PSNR增加0.142 dB.MIFB個(gè)數(shù)由3增加到4時(shí),參數(shù)量減少139 K,但是PSNR僅減少0.009 dB.因此當(dāng)MIRB個(gè)數(shù)為3時(shí),性能和參數(shù)量之間達(dá)到較好平衡.

表1 MIFB塊個(gè)數(shù)不同時(shí)，3倍SR的PSNR和參數(shù)量對(duì)比

2.2.2 多交互殘差塊

為了探究MIRB中擴(kuò)張卷積使用不同擴(kuò)張率對(duì)網(wǎng)絡(luò)性能的影響,進(jìn)行5組對(duì)比實(shí)驗(yàn).在6個(gè)MIRB中，一個(gè)支路的卷積核均為3×3，另一個(gè)支路擴(kuò)張卷積的擴(kuò)張率分別設(shè)置如下：1)均為1;2)均為2;3)均為3;4)1，2，3，1，2,3;5)1，2，3，3，2，1.這個(gè)設(shè)置是經(jīng)驗(yàn)性的，情形1)～情形3)使用相同大小卷積核，分別為3×3、5×5和7×7.情形4)逐漸增大卷積核.情形5)逐漸增大卷積核，再逐漸減少卷積核，這個(gè)設(shè)置也與 Zhang等[39]設(shè)置相同.在 DIV2K_val10驗(yàn)證集上,3倍SR的 PSNR值如下：情形1)時(shí)，PSNR為29.536 dB;情形2)時(shí)，PSNR為29.640 dB;情形3)時(shí)，PSNR為29.410 dB;情形4)時(shí)，PSNR為29.345 dB;情形5)時(shí)，PSNR為29.676 dB.由此可看出:情形4)結(jié)果最壞,情形5)結(jié)果最優(yōu).情形5)可更充分地融合3×3到7×7不同尺度的上下文特征信息.

分組卷積可減少參數(shù)量和計(jì)算量.MIRB塊中CSAConv最后的1×1卷積可替換為1×1的分組卷積.在DIV2K_val10驗(yàn)證集上,1×1的分組卷積組數(shù)為3.3倍SR時(shí)，使用1×1分組卷積，參數(shù)量為334 K,PSNR為29.605 dB.CSAConv最后使用1×1卷積時(shí)，參數(shù)量為425 K,PSNR為29.676 dB.相比分組卷積，1×1卷積時(shí),參數(shù)量增長(zhǎng)91 K,但PSNR增長(zhǎng)0.071 dB,說(shuō)明使用1×1卷積時(shí),模型在參數(shù)量和性能間取得較好平衡.

為了探索MIRB塊中多尺度特征間交互次數(shù)對(duì)性能的影響,進(jìn)行3組對(duì)比實(shí)驗(yàn),交互次數(shù)分別設(shè)為 2，3，4.在DIV2K_val10驗(yàn)證集上,3倍SR的PSNR和參數(shù)量對(duì)比如表2所示.由表可看出，交互次數(shù)越多,PSNR性能越優(yōu).交互次數(shù)由2增加到3時(shí),參數(shù)量增加92 K,PSNR提高0.112 dB;交互次數(shù)由3增加到4時(shí),參數(shù)量增加91 K,PSNR僅提高0.029 dB.因此交互次數(shù)為3是一個(gè)合理的折衷.

表2 MIRB塊中多尺度特征間交互次數(shù)不同時(shí),3倍SR的PSNR和參數(shù)量對(duì)比

2.2.3 區(qū)域互補(bǔ)注意力塊

為了驗(yàn)證RCAB的有效性,在MIFB中,進(jìn)行包含和不包含RCAB的2組對(duì)比實(shí)驗(yàn).在DIV2K_val10驗(yàn)證集上,MIFB中使用RCAB時(shí)3倍SR的PSNR為29.631 dB，不使用RCAB時(shí)3倍SR的PSNR為29.676 dB.可以看出，使用RCAB塊時(shí),PSNR提升0.047 dB.

2.2.4 多維注意力塊

為了驗(yàn)證MDAB的有效性,進(jìn)行6組對(duì)比實(shí)驗(yàn).對(duì)于GFFB塊：

1)去掉MDAB塊，模型稱(chēng)為MDAB_0.

2)MDAB塊替換為SE通道注意力塊[40]，模型稱(chēng)為MDAB_1.

3)MDAB塊替換為Woo等[41]提出的空間注意力塊，模型稱(chēng)為MDAB_2.

4)MDAB替換為Woo等[41]提出的通道和空間注意力塊CBAM(Convolutional Block Attention Mo-dule)，模型稱(chēng)為MDAB_3.

5)MDAB塊替換為PA[29]，模型稱(chēng)為MDAB_4.

6)使用本文的MDAB，模型稱(chēng)為MDAB_5(即RCA-MDA).

在DIV2K_val10驗(yàn)證集上，3倍SR的PSNR和參數(shù)量對(duì)比如表3所示.由表可看出，使用MDAB-5效果最優(yōu).

表3 GFFB中注意力塊不同時(shí),3倍SR的PSNR和參數(shù)量對(duì)比

2.3 實(shí)驗(yàn)結(jié)果對(duì)比

為了驗(yàn)證RCA-MDA性能,首先對(duì)比較大模型MSRN[29]與RCA-MDA的性能，結(jié)果如表4所示.

同時(shí)，選擇如下13個(gè)代表網(wǎng)絡(luò)進(jìn)行客觀定量對(duì)比和主觀視覺(jué)效果對(duì)比:SRCNN(Image SR Using Deep Convolutional Networks)[11]、DRCN(Deeply-Recursive Convolutional Network)[19]、MemNet(Very Deep Persistent Memory Network)[21]、IMDN[25]、RFD-N[26]、LAPAR[28]、CARN(Cascading Residual Net-work)[50]、IDN(Information Distillation Network)[51]、FSRCNN(Fast SR CNN)[52]、VDSR (Accurate Image SR Using Very Deep Convolutional Networks)[53]、LapSRN (Laplacian Pyramid SR Network)[54]、 AWS-RN(Adaptive Weighted Learning SR Network)[55]、SMSR(Sparse Mask SR)[56].在5個(gè)標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)集上,當(dāng)放大倍數(shù)為2，3，4時(shí)，各網(wǎng)絡(luò)的PSNR和SSIM值對(duì)比如表5～表7所示，表中黑體數(shù)字表示最優(yōu)值，斜體數(shù)字表示次優(yōu)值.

從表4～表7可看出,除早期網(wǎng)絡(luò)(SRCNN、FSRCNN和LapSRN)計(jì)算量小于RCA-MDA外,其它方法的計(jì)算量都大于RCA-MDA.以放大倍數(shù)為4為例,在所有測(cè)試數(shù)據(jù)集上,RCA-MDA的PSNR值和SSIM值幾乎是最好的.除MSRN以外,其它網(wǎng)絡(luò)的PSNR值和SSIM值結(jié)果來(lái)自作者的原論文.MSRN的結(jié)果源自作者在https://github.com/MIVRC-/MSRN-PyTorch上提交的結(jié)果.

對(duì)于輕量級(jí)模型,除了參數(shù)量以外,推理時(shí)間也是一個(gè)重要指標(biāo),在Urban100測(cè)試集上，各網(wǎng)絡(luò)4倍SR的推理時(shí)間如下：CARN為0.18 s，AWSRN為0.05 s，IMDN為0.08 s，LAPAR為0.13 s，RFDN為0.11 s，RCA-MDA為0.08 s.

表4 MSRN和RCA-MDA的性能對(duì)比

表5 放大倍數(shù)為2時(shí)各網(wǎng)絡(luò)的指標(biāo)值對(duì)比

表6 放大倍數(shù)為3時(shí)各網(wǎng)絡(luò)的指標(biāo)值對(duì)比

表7 放大倍數(shù)為4時(shí)各網(wǎng)絡(luò)的指標(biāo)值對(duì)比

圖4和圖5分別是各網(wǎng)絡(luò)在放大倍數(shù)為2和4時(shí)重建的SR圖像結(jié)果，圖中Bicubic表示LR圖像經(jīng)過(guò)雙三次上采樣得到的SR結(jié)果.由圖4和圖5可見(jiàn)，RCA-MDA的結(jié)果最優(yōu).以Set14數(shù)據(jù)集上bar-bara圖像為例,其它網(wǎng)絡(luò)的結(jié)果或過(guò)度模糊,或失真嚴(yán)重,或恢復(fù)的條紋方向錯(cuò)誤,RCA-MDA的結(jié)果接近于原HR圖像.再以Urban100數(shù)據(jù)集上img004圖像為例,其它網(wǎng)絡(luò)也大都過(guò)度模糊或失真,RCA-MDA的結(jié)果最優(yōu).Urban100數(shù)據(jù)集上img096、img005圖像的結(jié)果也是類(lèi)似的.

圖4 2倍SR時(shí)各網(wǎng)絡(luò)視覺(jué)效果對(duì)比

圖5 4倍SR時(shí)各網(wǎng)絡(luò)視覺(jué)效果對(duì)比

3 結(jié) 束語(yǔ)

本文提出基于區(qū)域互補(bǔ)注意力和多維注意力的輕量級(jí)圖像超分辨率網(wǎng)絡(luò)(RCA-MDA),引入輕量級(jí)的卷積單元(CSAConv),基于CSAConv構(gòu)造多交互殘差塊(MIRB),相比MSRN[32]的多尺度殘差塊,MIRB可大幅減少模型參數(shù)量,同時(shí)保持SR性能.同時(shí)提出區(qū)域互補(bǔ)注意力塊(RCAB),組合RCAB和MIRB的多上下文信息融合塊(MIFB).MIFB可有效融合局部、非局部和多尺度特征信息,使不同圖像不同區(qū)域間的信息得到互補(bǔ).本文也提出多維注意力塊(MDAB),可逐像素建模特征通道維和空間維之間的依賴(lài)關(guān)系.MDAB進(jìn)一步融合MIFB塊輸出的多層次特征信息.RCA-MDA網(wǎng)絡(luò)架構(gòu)輕量、有效.實(shí)驗(yàn)表明,RCA-MDA性能較優(yōu),把輕量級(jí)SISR模型復(fù)雜度和性能平衡提升到一個(gè)較高水平.本文對(duì)網(wǎng)絡(luò)模型進(jìn)行輕量化的方法和注意力機(jī)制也可應(yīng)用到其它計(jì)算機(jī)視覺(jué)任務(wù)當(dāng)中,其普適性和對(duì)不同網(wǎng)絡(luò)性能的影響值得進(jìn)一步研究.