亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于區(qū)域互補(bǔ)注意力和多維注意力的輕量級(jí)圖像超分辨率網(wǎng)絡(luò)

        2022-08-15 12:20:54周登文王婉君高丹丹
        模式識(shí)別與人工智能 2022年7期
        關(guān)鍵詞:支路注意力卷積

        周登文 王婉君 馬 鈺 高丹丹

        單圖像超分辨率 (Single Image Super-Resolu- tion, SISR)[1]是一個(gè)基本的低級(jí)計(jì)算機(jī)視覺(jué)問(wèn)題,旨在由一個(gè)給定的低分辨率 (Low-Resolution, LR)圖像生成對(duì)應(yīng)的高分辨率 (High-Resolution, HR)圖像.SISR在醫(yī)學(xué)成像[2]、物體識(shí)別[3]、視頻監(jiān)控[4]和遙感成像[5]等領(lǐng)域都具有廣泛應(yīng)用.SISR是一個(gè)病態(tài)的逆問(wèn)題,因?yàn)樵S多HR圖像可退化為相同的LR圖像,重建的超分辨率(Super-Resolution, SR)圖像往往會(huì)出現(xiàn)模糊、紋理細(xì)節(jié)丟失和失真等問(wèn)題.

        早期SISR的研究[6-7]主要是基于插值的方法,如雙線性插值和雙三次插值.基于插值的方法現(xiàn)仍廣泛使用,其優(yōu)勢(shì)是簡(jiǎn)單、計(jì)算復(fù)雜度很低,但是不能恢復(fù)LR圖像中丟失的圖像細(xì)節(jié).基于稀疏字典學(xué)習(xí)的方法[8-10]改進(jìn)基于插值的方法,旨在通過(guò)訓(xùn)練圖像,學(xué)習(xí)LR圖像和HR圖像之間的映射函數(shù).但是基于稀疏字典學(xué)習(xí)的方法往往優(yōu)化困難,同時(shí)具有較高的推理復(fù)雜度.卷積神經(jīng)網(wǎng)絡(luò)(Convolu-tional Neural Networks, CNN)[11-16]直接端到端地學(xué)習(xí)LR圖像和HR圖像之間的映射函數(shù),已主導(dǎo)當(dāng)前SISR技術(shù)的研究.但是基于CNN的SISR方法嚴(yán)重依賴(lài)于網(wǎng)絡(luò)規(guī)模,即網(wǎng)絡(luò)中參數(shù)量、深度(層數(shù))和寬度(通道數(shù))等.

        為了提升SISR的性能,往往需要規(guī)模更大的網(wǎng)絡(luò).Lim等[17]提出EDSR(Enhanced Deep SR Network),有65個(gè)卷積層,參數(shù)量為43 M.Zhang等[18]提出RCAN(Very Deep Residual Channel Attention Net-works),卷積層數(shù)超過(guò)800,參數(shù)量為16 M.

        EDSR和RCAN雖然在性能上有顯著提升,但是需要較高的計(jì)算和存儲(chǔ)能力,難以在資源受限的設(shè)備(如手機(jī))上應(yīng)用.設(shè)計(jì)輕量級(jí)SISR網(wǎng)絡(luò)(計(jì)算和存儲(chǔ)需求較低)是當(dāng)前SISR方法研究的熱點(diǎn),但面臨在CNN復(fù)雜度和性能之間如何建立更好平衡的挑戰(zhàn).

        設(shè)計(jì)輕量級(jí)SISR網(wǎng)絡(luò)的一個(gè)選擇是使用遞歸結(jié)構(gòu)[19-24],卷積層(或塊)之間參數(shù)共享,在增加網(wǎng)絡(luò)深度時(shí)參數(shù)量不變,但依舊會(huì)增加計(jì)算量.特征蒸餾網(wǎng)絡(luò)是一個(gè)更有效的輕量級(jí)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)方案[25-26].Hui等[25]提出IMDN(Lightweight Information Multi-distillation Network),構(gòu)造IMDB(Information Multi-distillation Blocks),包含蒸餾和選擇性融合2部分.IMDN采用通道分裂和分層的特征蒸餾,IMDB根據(jù)特征的重要性進(jìn)行融合.Liu等[26]提出RFDN(Residual Feature Distillation Network),改進(jìn)IMDB的通道分裂和特征蒸餾,更輕量、有效,獲得AIM 2020[27]高效SR挑戰(zhàn)賽第1名.學(xué)者們也提出其它的輕量級(jí)SR網(wǎng)絡(luò)架構(gòu)[28-31].Li等[28]提出LAPAR(Linearly-Assembled Pixel-Adaptive Regression Net-work),將LR圖像到HR圖像的映射學(xué)習(xí)轉(zhuǎn)換為多個(gè)預(yù)定義濾波器庫(kù)字典上的線性系數(shù)回歸任務(wù).Zhao等[29]使用自校準(zhǔn)卷積作為基本的網(wǎng)絡(luò)構(gòu)件,提出PAN(Pixel Attention Networks).Chen等[30]提出A2N (Attention in Attention Network),由非注意力分支與耦合注意力分支構(gòu)成,并為2個(gè)分支生成動(dòng)態(tài)注意力權(quán)重.李金新等[31]提出基于多層次特征的輕量級(jí)單圖像超分辨率網(wǎng)絡(luò).Li等[32]提出MSRN(Multi-scale Residual Network),基本構(gòu)件是MSRB(Multi-scale Residual Block),可提取與融合不同尺度的特征.MSRB是有效的,但是不夠輕量.

        基于上述情況,本文提出基于區(qū)域互補(bǔ)注意力和多維注意力的輕量級(jí)圖像超分辨率網(wǎng)絡(luò)(Lightweight Image Super-Resolution Network Based on Regional Complementary Attention and Multi-dimen-sional Attention, RCA-MDA).首先提出通道重組聚合卷積單元(Channel Shuffle Aggregation Convolution Unit, CSAConv)和多交互殘差塊(Multiple Interactive Residual Block, MIRB),CSAConv使MIRB較輕量,可有效融合多尺度特征.為了提高特征利用率和表達(dá)能力,提出區(qū)域互補(bǔ)注意力塊(Region Comple-mentary Attention Block, RCAB)和多上下文信息融合塊(Multi-context Information Fusion Block, MI-FB),可使圖像不同區(qū)域的信息得到互補(bǔ),有效提取和融合局部與非局部的多尺度特征.同時(shí)設(shè)計(jì)多維注意力塊(Multi-dimensional Attention Block, MD-AB),可同時(shí)逐像素地關(guān)注特征通道維和空間維的相關(guān)性,更有效利用特征信息.實(shí)驗(yàn)表明本文網(wǎng)絡(luò)性能較優(yōu),并將當(dāng)前輕量級(jí)超分辨率網(wǎng)絡(luò)的復(fù)雜度和性能平衡提升到一個(gè)較高水平.

        1 基于區(qū)域互補(bǔ)注意力和多維注意力的輕量級(jí)圖像超分辨率網(wǎng)絡(luò)

        本文提出基于區(qū)域互補(bǔ)注意力和多維注意力的輕量級(jí)圖像超分辨率網(wǎng)絡(luò)(RCA-MDA),網(wǎng)絡(luò)架構(gòu)如圖1所示.

        RCA-MDA主要包括4部分:淺層特征提取塊(Shallow Feature Extraction Block, SFEB)、非線性特征映射塊(Non-linear Feature Mapping Block, NFMB)、全局特征融合塊(Global Feature Fusion Block, GFFB)和上采樣塊(Upsampler).SFEB僅包括1個(gè)3×3卷積層和1個(gè)滲漏修正線性單元(Leaky Rectified Linear Unit, LReLU)[33].Upsampler使用亞像素卷積[34].NFMB級(jí)聯(lián)N(本文中N=3)個(gè)多上下文信息融合塊(MIFB).GFFB主要由多尺度的通道重組聚合卷積單元(CSAConv)和多維注意力塊(MDAB)組成.

        給定輸入的LR圖像ILR,首先輸入到SFEB,得到淺層特征:

        F0=LReLU(C3×3(ILR)),

        其中,C3×3(·)表示3×3的卷積函數(shù),LReLU(·)表示LReLU激活函數(shù).

        F0再輸入到NFMB中N個(gè)級(jí)聯(lián)的MIFB塊,提取多層深度上下文特征:

        Ffusion=fGFFB(F1,F2,…,FN),

        其中fGFFB(·)表示全局特征融合的函數(shù).Ffusion和ILR同時(shí)輸入U(xiǎn)psampler塊,獲得目標(biāo)SR圖像:

        ISR=fup(Ffusion)+fup(C3×3(ILR)),

        其中,fup(·)表示亞像素卷積上采樣[35],C3×3(·)表示3×3的卷積函數(shù),ISR表示輸入的SR圖像.

        圖1 RCA-MDA網(wǎng)絡(luò)架構(gòu)

        1.1 通道重組聚合卷積單元

        Zhang等[36]為移動(dòng)設(shè)備設(shè)計(jì)計(jì)算效率較高的CNN架構(gòu),稱(chēng)為ShuffleNet,基本構(gòu)件是ShuffleNet單元,結(jié)構(gòu)如圖2(a)所示.由于引入逐點(diǎn)的分組卷積,大幅降低計(jì)算代價(jià),但ShuffleNet是為物體分類(lèi)和檢測(cè)等高級(jí)視覺(jué)任務(wù)設(shè)計(jì)的,包含批規(guī)范化(Batch Normalization, BN)層[37].BN層對(duì)低級(jí)視覺(jué)任務(wù)——圖像超分辨率是有害的[17].CSAConv結(jié)構(gòu)如圖2(b)所示,去掉ShuffleNet單元中的BN層,也去掉ShuffleNet單元中的殘差連接和修正的線性單元(Rectified Linear Unit, ReLU)[38].另外,考慮到分組卷積,不同組的通道之間無(wú)交互,會(huì)降低特征的表達(dá)能力,因此使用1×1卷積代替Shuffle-

        Net單元中最后的逐點(diǎn)分組卷積(Group Convolution, GConv).CSAConv是一個(gè)結(jié)構(gòu)更簡(jiǎn)單、適用于SISR的基本網(wǎng)絡(luò)構(gòu)件.實(shí)驗(yàn)表明:相比使用逐點(diǎn)的分組卷積,使用1×1卷積時(shí),模型復(fù)雜度和性能之間具有更好的平衡.

        CSAConv作為基本的計(jì)算單元,替代常規(guī)的卷積,可顯著減少參數(shù)量和計(jì)算量.假定輸出通道數(shù)均為C,特征圖大小為H×W,核大小為k×k的卷積的參數(shù)量為k2C2,計(jì)算量為k2C2HW.對(duì)于核大小為k×k的CSAConv,假定分組卷積的組數(shù)為g,參數(shù)量為

        計(jì)算量為

        在本文的設(shè)置中,C=48,k=3,g=3,若設(shè)H=W=64,常規(guī)卷積的參數(shù)量和計(jì)算量都大約是CSAConv的6倍.CSAConv-1表示去掉圖2(b)中逐深度卷積(Depthwise Convolution, DWConv).CSAConv-3表示CSAConv中的DWConv,使用核大小為3×3的標(biāo)準(zhǔn)卷積.CSAConv-d表示CSAConv中的DWConv,使用核大小為3×3、擴(kuò)張率為d的擴(kuò)張卷積.

        (a)ShuffleNet單元[36]

        (b)CSAConv

        1.2 多上下文信息融合塊

        如圖1所示,MIFB主要包括3條分支,從上到下分別為:分支1、分支2、分支3.分支1只是一個(gè)簡(jiǎn)單的殘差連接.分支2包含M(本文中,M=6)個(gè)級(jí)聯(lián)的MIRB.分支3為1個(gè)RCAB.

        MIRB中的擴(kuò)張卷積有不同的擴(kuò)張率.例如,6個(gè)級(jí)聯(lián)的MIRB中的擴(kuò)張率分別為1、2、3、3、2、1,以捕獲不同尺度的上下文特征.RCAB使圖像不同區(qū)域的信息互相補(bǔ)充,在不同大小的感受野范圍融合互補(bǔ)信息.基于MIRB和RCAB,MIFB可充分融合多尺度、局部和非局部的多上下文特征信息,有效利用LR圖像的自相似性.第n個(gè)MIFB支路2的輸出特征可表示為

        其中fRCAB(·)表示RCAB函數(shù).第n個(gè)MIFB的輸出特征可表示為

        其中⊙表示逐元素相乘.

        1.2.1 多交互殘差塊

        Li等[32]提出MSRB,使用3×3和5×5的卷積核,捕獲多尺度特征信息,并進(jìn)行跨尺度的交互.不過(guò)MSRB每個(gè)支路只有2個(gè)卷積層.實(shí)驗(yàn)顯示: 增加卷積層數(shù)和跨尺度交互次數(shù),可更充分地利用特征信息,提高特征的表達(dá)能力.另外,MSRB使用的3×3和5×5的卷積,不夠輕量、靈活.本文提出的MIRB與MSRB結(jié)構(gòu)類(lèi)似,參見(jiàn)圖1.重要改進(jìn)如下:1)把MSRB中的3×3卷積替換為CSAConv-3,5×5的卷積替換為CSAConv-d,可大幅減少參數(shù)量和計(jì)算量;2)進(jìn)行更多次數(shù)的多尺度特征交互,改進(jìn)性能(為了平衡性能與參數(shù)量和計(jì)算量,文中進(jìn)行3次多尺度特征交互).值得注意的是,MIRB比MSRB更靈活,通過(guò)調(diào)整CSAConv-d中DWConv的擴(kuò)張率,可較容易獲得更多不同尺度的特征信息.假定第n個(gè)MIFB塊中第m個(gè)MIRB的第1次多尺度特征交互的輸出為(忽略LReLU非線性激活)

        (1)

        其中,fCUS3×3(·)表示MIRB上支路的第1個(gè)CSAConv-

        3函數(shù),fCUD3×3(·)表示MIRB下支路的第1個(gè)CSAConv-d函數(shù),[·]表示特征通道拼接,Fn,m-1表示第n個(gè)MIFB中第m-1個(gè)MIRB的輸出,即第n個(gè)MIFB中第m個(gè)MIRB的輸入.

        其中C1×1(·)表示1×1的卷積函數(shù).

        1.2.2 區(qū)域互補(bǔ)注意力塊

        Zhang等[39]提出分割拼接塊(Cutting-Splicing Block, CSB),首先把特征圖分割成n×n的單元,然后把它們?cè)谕ǖ谰S進(jìn)行拼接,再利用3×3的卷積提取局部和非局部的空間信息.受Zhang等[39]的啟發(fā),為了使網(wǎng)絡(luò)學(xué)習(xí)到圖像本身的自相似性,本文提出更輕量的RCAB,使圖像不同區(qū)域的特征信息可互相補(bǔ)充.

        RCAB的結(jié)構(gòu)如圖1所示.輸入特征在通道維劃分成相等的兩部分,在2個(gè)支路上進(jìn)行如下處理.

        1)在特征空間維度分別分割成大小相等的4塊,并在通道維進(jìn)行拼接.

        2)對(duì)拼接后的特征:一個(gè)支路使用1×1卷積,學(xué)習(xí)4個(gè)像素點(diǎn)位置和通道的依賴(lài)性;另一個(gè)支路使用3×3的逐深度卷積和1×1逐點(diǎn)卷積(即深度可分離卷積),學(xué)習(xí)4個(gè)非局部區(qū)域間特征的依賴(lài)性,即令圖像不同區(qū)域的特征信息互相補(bǔ)充.

        3)2個(gè)支路的特征自適應(yīng)地拼接,還原成輸入時(shí)的形狀,自適應(yīng)參數(shù)隨網(wǎng)絡(luò)模型端到端地學(xué)習(xí).

        4)通過(guò)一個(gè)3×3逐深度卷積和一個(gè)1×1逐點(diǎn)卷積,進(jìn)一步融合特征,并使用Sigmoid函數(shù),獲得注意力權(quán)重.

        RCAB包含兩條支路,假定RCAB使用單分支,輸入通道數(shù)為C,卷積核大小為k×k,僅用1×1卷積進(jìn)行區(qū)域間信息融合,參數(shù)量為C2+k2C+C2.雙分支RCAB如圖1所示,參數(shù)量為

        若C=48,k=3,參數(shù)量大約減少30%.

        其中,fCUT(·)表示特征空間維分割和特征通道拼接函數(shù),fICUT(·)表示fCUT(·)的逆函數(shù),DWC3×3(·)表示3×3的逐深度卷積函數(shù),λ1、λ2表示可學(xué)習(xí)的參數(shù),FRC表示兩個(gè)支路的輸出特征.

        第n個(gè)MIFB的注意力塊RCAB的權(quán)重可計(jì)算為

        1.3 全局特征融合塊

        非線性特征映射塊(NFMB)中每個(gè)MIFB塊的輸出特征輸入到GFFB塊進(jìn)行分層的全局特征信息融合.GFFB有N個(gè)主支路(對(duì)應(yīng)N個(gè)層的特征),每個(gè)主支路處理一個(gè)層的特征(即對(duì)應(yīng)MIFB塊的輸出),如圖1所示.每個(gè)MIFB塊的輸出分別通過(guò)一個(gè)主支路中CSAConv-1和CSAConv-3,然后進(jìn)行通道拼接,再輸入MDAB.N個(gè)主分支的輸出分別乘以一個(gè)可學(xué)習(xí)的自適應(yīng)參數(shù),再求和,作為GFFB塊的輸出.這個(gè)過(guò)程可表示為

        其中,fCUS1×1(·)表示CSAConv-1函數(shù),fCUS3×3(·)表示CSAConv-3函數(shù),[·]表示特征通道拼接,fMDAB(·)表示MDAB塊函數(shù),μn表示可學(xué)習(xí)的參數(shù),Fn表示第n個(gè)MIFB的輸出,Ffusion表示GFFB的輸出.

        當(dāng)前,在SISR中,常見(jiàn)的注意力機(jī)制是通道注意力[40]和空間注意力[41].假定特征圖的大小為C×H×W(C為特征的通道數(shù),H、W為特征的高、寬),通道注意力計(jì)算1個(gè)一維向量(C×1×1),建模通道之間的依賴(lài)關(guān)系.空間注意力計(jì)算1個(gè)二維的矩陣(1×H×W),建??臻g位置之間的依賴(lài)關(guān)系.

        Zhang等[39]提出一階三元組注意力,類(lèi)似于通道注意力,它在特征的通道、行和列三個(gè)方向建??缇S度之間的依賴(lài)關(guān)系.Zhao等[29]提出像素注意力(Pixel Attention, PA),使用1×1的卷積和Sigmoid函數(shù),計(jì)算一個(gè)三維逐像素的矩陣(C×H×W).MDAB結(jié)構(gòu)如圖3所示,與PA類(lèi)似,也是計(jì)算一個(gè)三維逐像素的矩陣(C×H×W).但是它們有如下區(qū)別:1)1×1的卷積替換為CSAConv-3,Sigmoid函數(shù)替換為Softmax函數(shù).2)為了更好地建模特征通道維和空間維的依賴(lài)關(guān)系,分別在通道維和空間維學(xué)習(xí)特征像素之間的依賴(lài)關(guān)系.MDAB包含1個(gè)CSA-Conv和2個(gè)1×1卷積,假定輸入通道數(shù)為48,MDAB的參數(shù)量?jī)H約為8.1 K.

        圖3 MDAB結(jié)構(gòu)圖

        假定MDAB的輸入特征為FMS,分別經(jīng)過(guò)一個(gè)1×1卷積和CSAConv-3.CSAConv的輸出分別在通道維和空間維執(zhí)行Softmax函數(shù),獲得2個(gè)像素級(jí)的注意力權(quán)重.1×1卷積的輸出被這2個(gè)注意力權(quán)重加權(quán),并求和,再通過(guò)一個(gè)1×1卷積進(jìn)行信息融合.

        FMS通過(guò)1×1卷積后的輸出特征為

        FCom=C1×1(FMS).

        FMS通過(guò)CSAConv-3后的輸出特征可表示為

        FCUS=fCUS3×3(FMS),

        其中fCUS3×3(·)表示CSAConv-3函數(shù).MDAB塊的輸出特征可表示為

        FMDA=FCom⊙τ1(FCUS)+FCom⊙τ2(FCUS),

        其中,⊙表示逐元素相乘,τ1(·)表示在通道維上執(zhí)行Softmax函數(shù),τ2(·)表示在空間維上執(zhí)行Softmax函數(shù).

        MDAB實(shí)現(xiàn)簡(jiǎn)單,也可方便地組合到其它SR模型中.

        2 實(shí)驗(yàn)及結(jié)果分析

        2.1 實(shí)驗(yàn)設(shè)置

        本文采用DIV2K數(shù)據(jù)集[42]作為訓(xùn)練和驗(yàn)證數(shù)據(jù)集.第1幅~第800幅圖像用于訓(xùn)練,第821幅圖像~第830幅圖像用于驗(yàn)證,標(biāo)記為DIV2K_val10.原HR訓(xùn)練圖像進(jìn)行雙三次下采樣,獲得配對(duì)的LR圖像.類(lèi)似其它方法,對(duì)輸入圖像隨機(jī)地進(jìn)行90°、180°、270°旋轉(zhuǎn)和水平翻轉(zhuǎn),增強(qiáng)訓(xùn)練圖像.測(cè)試數(shù)據(jù)是5個(gè)標(biāo)準(zhǔn)的測(cè)試數(shù)據(jù)集: Set5[43]、Set14[9]、B100[44]、Urban100[45]和Manga109[46].

        在YCbCr空間[35]的亮度(Y)通道上,計(jì)算峰值信噪比(Peak Signal to Noise Ratio, PSNR)和結(jié)構(gòu)相似性指數(shù)(Structural Similarity Index, SSIM)[47].

        本文也給出各方法的參數(shù)量和計(jì)算量.計(jì)算量即GFLOPs(Giga Floating-Point Operations Per Se-

        cond)[36],指乘法和加法運(yùn)算的次數(shù).在模型訓(xùn)練中,每批次隨機(jī)選取16個(gè)64×64的圖像塊.使用Adam(Adaptive Moment Estimation)優(yōu)化器[48],

        β1=0.9,β2=0.999 ,ε=10-8.

        2倍SR模型訓(xùn)練1 000個(gè)迭代周期,初始學(xué)習(xí)率設(shè)置為2.5×10-3,每200個(gè)迭代周期衰減一半.2倍SR模型作為3倍SR和4倍SR的預(yù)訓(xùn)練模型,3倍SR和4倍SR模型同樣訓(xùn)練1 000個(gè)迭代周期.所有訓(xùn)練過(guò)程均使用L1損失函數(shù).使用Pytorch[49]框架和一個(gè)NVIDIA 2080Ti GPU實(shí)現(xiàn)模型,并進(jìn)行模型的訓(xùn)練和測(cè)試.

        在RCA-MDA架構(gòu)中,級(jí)聯(lián)3個(gè)MIFB塊,每個(gè)MIFB塊的輸入通道數(shù)和輸出通道數(shù)均為48.每個(gè)MIFB塊級(jí)聯(lián)6個(gè)MIRB塊,每個(gè)MIRB塊中擴(kuò)張卷積的擴(kuò)張率分別為1,2,3,3,2,1.每個(gè)MIRB塊中CSAConv的輸入通道數(shù)為48,輸出通道數(shù)為24,分組卷積的組數(shù)為3.每個(gè)RCAB塊中可學(xué)習(xí)參數(shù)的初始值設(shè)置為

        λ1=0.5,λ2=0.5.

        GFFB塊中可學(xué)習(xí)參數(shù)的初始值設(shè)置為

        μ1=0.3,μ2=0.3,μ3=0.4.

        2.2 各模塊性能分析

        2.2.1 多上下文信息融合塊

        當(dāng)NFMB中分別級(jí)聯(lián)2、3和4個(gè)MIFB塊時(shí),在DIV2K_val10驗(yàn)證集上,3倍SR的PSNR和參數(shù)量對(duì)比如表1所示.由表可看出,MIFB塊個(gè)數(shù)更多,即網(wǎng)絡(luò)深度更深,PSNR性能更優(yōu).MIFB個(gè)數(shù)由2增加到3時(shí),參數(shù)量增加141 K,PSNR增加0.142 dB.MIFB個(gè)數(shù)由3增加到4時(shí),參數(shù)量減少139 K,但是PSNR僅減少0.009 dB.因此當(dāng)MIRB個(gè)數(shù)為3時(shí),性能和參數(shù)量之間達(dá)到較好平衡.

        表1 MIFB塊個(gè)數(shù)不同時(shí),3倍SR的PSNR和參數(shù)量對(duì)比

        2.2.2 多交互殘差塊

        為了探究MIRB中擴(kuò)張卷積使用不同擴(kuò)張率對(duì)網(wǎng)絡(luò)性能的影響,進(jìn)行5組對(duì)比實(shí)驗(yàn).在6個(gè)MIRB中,一個(gè)支路的卷積核均為3×3,另一個(gè)支路擴(kuò)張卷積的擴(kuò)張率分別設(shè)置如下:1)均為1;2)均為2;3)均為3;4)1,2,3,1,2,3;5)1,2,3,3,2,1.這個(gè)設(shè)置是經(jīng)驗(yàn)性的,情形1)~情形3)使用相同大小卷積核,分別為3×3、5×5和7×7.情形4)逐漸增大卷積核.情形5)逐漸增大卷積核,再逐漸減少卷積核,這個(gè)設(shè)置也與 Zhang等[39]設(shè)置相同.在 DIV2K_val10驗(yàn)證集上,3倍SR的 PSNR值如下:情形1)時(shí),PSNR為29.536 dB;情形2)時(shí),PSNR為29.640 dB;情形3)時(shí),PSNR為29.410 dB;情形4)時(shí),PSNR為29.345 dB;情形5)時(shí),PSNR為29.676 dB.由此可看出:情形4)結(jié)果最壞,情形5)結(jié)果最優(yōu).情形5)可更充分地融合3×3到7×7不同尺度的上下文特征信息.

        分組卷積可減少參數(shù)量和計(jì)算量.MIRB塊中CSAConv最后的1×1卷積可替換為1×1的分組卷積.在DIV2K_val10驗(yàn)證集上,1×1的分組卷積組數(shù)為3.3倍SR時(shí),使用1×1分組卷積,參數(shù)量為334 K,PSNR為29.605 dB.CSAConv最后使用1×1卷積時(shí),參數(shù)量為425 K,PSNR為29.676 dB.相比分組卷積,1×1卷積時(shí),參數(shù)量增長(zhǎng)91 K,但PSNR增長(zhǎng)0.071 dB,說(shuō)明使用1×1卷積時(shí),模型在參數(shù)量和性能間取得較好平衡.

        為了探索MIRB塊中多尺度特征間交互次數(shù)對(duì)性能的影響,進(jìn)行3組對(duì)比實(shí)驗(yàn),交互次數(shù)分別設(shè)為 2,3,4.在DIV2K_val10驗(yàn)證集上,3倍SR的PSNR和參數(shù)量對(duì)比如表2所示.由表可看出,交互次數(shù)越多,PSNR性能越優(yōu).交互次數(shù)由2增加到3時(shí),參數(shù)量增加92 K,PSNR提高0.112 dB;交互次數(shù)由3增加到4時(shí),參數(shù)量增加91 K,PSNR僅提高0.029 dB.因此交互次數(shù)為3是一個(gè)合理的折衷.

        表2 MIRB塊中多尺度特征間交互次數(shù)不同時(shí),3倍SR的PSNR和參數(shù)量對(duì)比

        2.2.3 區(qū)域互補(bǔ)注意力塊

        為了驗(yàn)證RCAB的有效性,在MIFB中,進(jìn)行包含和不包含RCAB的2組對(duì)比實(shí)驗(yàn).在DIV2K_val10驗(yàn)證集上,MIFB中使用RCAB時(shí)3倍SR的PSNR為29.631 dB,不使用RCAB時(shí)3倍SR的PSNR為29.676 dB.可以看出,使用RCAB塊時(shí),PSNR提升0.047 dB.

        2.2.4 多維注意力塊

        為了驗(yàn)證MDAB的有效性,進(jìn)行6組對(duì)比實(shí)驗(yàn).對(duì)于GFFB塊:

        1)去掉MDAB塊,模型稱(chēng)為MDAB_0.

        2)MDAB塊替換為SE通道注意力塊[40],模型稱(chēng)為MDAB_1.

        3)MDAB塊替換為Woo等[41]提出的空間注意力塊,模型稱(chēng)為MDAB_2.

        4)MDAB替換為Woo等[41]提出的通道和空間注意力塊CBAM(Convolutional Block Attention Mo-dule),模型稱(chēng)為MDAB_3.

        5)MDAB塊替換為PA[29],模型稱(chēng)為MDAB_4.

        6)使用本文的MDAB,模型稱(chēng)為MDAB_5(即RCA-MDA).

        在DIV2K_val10驗(yàn)證集上,3倍SR的PSNR和參數(shù)量對(duì)比如表3所示.由表可看出,使用MDAB-5效果最優(yōu).

        表3 GFFB中注意力塊不同時(shí),3倍SR的PSNR和參數(shù)量對(duì)比

        2.3 實(shí)驗(yàn)結(jié)果對(duì)比

        為了驗(yàn)證RCA-MDA性能,首先對(duì)比較大模型MSRN[29]與RCA-MDA的性能,結(jié)果如表4所示.

        同時(shí),選擇如下13個(gè)代表網(wǎng)絡(luò)進(jìn)行客觀定量對(duì)比和主觀視覺(jué)效果對(duì)比:SRCNN(Image SR Using Deep Convolutional Networks)[11]、DRCN(Deeply-Recursive Convolutional Network)[19]、MemNet(Very Deep Persistent Memory Network)[21]、IMDN[25]、RFD-N[26]、LAPAR[28]、CARN(Cascading Residual Net-work)[50]、IDN(Information Distillation Network)[51]、FSRCNN(Fast SR CNN)[52]、VDSR (Accurate Image SR Using Very Deep Convolutional Networks)[53]、LapSRN (Laplacian Pyramid SR Network)[54]、 AWS-RN(Adaptive Weighted Learning SR Network)[55]、SMSR(Sparse Mask SR)[56].在5個(gè)標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)集上,當(dāng)放大倍數(shù)為2,3,4時(shí),各網(wǎng)絡(luò)的PSNR和SSIM值對(duì)比如表5~表7所示,表中黑體數(shù)字表示最優(yōu)值,斜體數(shù)字表示次優(yōu)值.

        從表4~表7可看出,除早期網(wǎng)絡(luò)(SRCNN、FSRCNN和LapSRN)計(jì)算量小于RCA-MDA外,其它方法的計(jì)算量都大于RCA-MDA.以放大倍數(shù)為4為例,在所有測(cè)試數(shù)據(jù)集上,RCA-MDA的PSNR值和SSIM值幾乎是最好的.除MSRN以外,其它網(wǎng)絡(luò)的PSNR值和SSIM值結(jié)果來(lái)自作者的原論文.MSRN的結(jié)果源自作者在https://github.com/MIVRC-/MSRN-PyTorch上提交的結(jié)果.

        對(duì)于輕量級(jí)模型,除了參數(shù)量以外,推理時(shí)間也是一個(gè)重要指標(biāo),在Urban100測(cè)試集上,各網(wǎng)絡(luò)4倍SR的推理時(shí)間如下:CARN為0.18 s,AWSRN為0.05 s,IMDN為0.08 s,LAPAR為0.13 s,RFDN為0.11 s,RCA-MDA為0.08 s.

        表4 MSRN和RCA-MDA的性能對(duì)比

        表5 放大倍數(shù)為2時(shí)各網(wǎng)絡(luò)的指標(biāo)值對(duì)比

        表6 放大倍數(shù)為3時(shí)各網(wǎng)絡(luò)的指標(biāo)值對(duì)比

        表7 放大倍數(shù)為4時(shí)各網(wǎng)絡(luò)的指標(biāo)值對(duì)比

        圖4和圖5分別是各網(wǎng)絡(luò)在放大倍數(shù)為2和4時(shí)重建的SR圖像結(jié)果,圖中Bicubic表示LR圖像經(jīng)過(guò)雙三次上采樣得到的SR結(jié)果.由圖4和圖5可見(jiàn),RCA-MDA的結(jié)果最優(yōu).以Set14數(shù)據(jù)集上bar-bara圖像為例,其它網(wǎng)絡(luò)的結(jié)果或過(guò)度模糊,或失真嚴(yán)重,或恢復(fù)的條紋方向錯(cuò)誤,RCA-MDA的結(jié)果接近于原HR圖像.再以Urban100數(shù)據(jù)集上img004圖像為例,其它網(wǎng)絡(luò)也大都過(guò)度模糊或失真,RCA-MDA的結(jié)果最優(yōu).Urban100數(shù)據(jù)集上img096、img005圖像的結(jié)果也是類(lèi)似的.

        圖4 2倍SR時(shí)各網(wǎng)絡(luò)視覺(jué)效果對(duì)比

        圖5 4倍SR時(shí)各網(wǎng)絡(luò)視覺(jué)效果對(duì)比

        3 結(jié) 束 語(yǔ)

        本文提出基于區(qū)域互補(bǔ)注意力和多維注意力的輕量級(jí)圖像超分辨率網(wǎng)絡(luò)(RCA-MDA),引入輕量級(jí)的卷積單元(CSAConv),基于CSAConv構(gòu)造多交互殘差塊(MIRB),相比MSRN[32]的多尺度殘差塊,MIRB可大幅減少模型參數(shù)量,同時(shí)保持SR性能.同時(shí)提出區(qū)域互補(bǔ)注意力塊(RCAB),組合RCAB和MIRB的多上下文信息融合塊(MIFB).MIFB可有效融合局部、非局部和多尺度特征信息,使不同圖像不同區(qū)域間的信息得到互補(bǔ).本文也提出多維注意力塊(MDAB),可逐像素建模特征通道維和空間維之間的依賴(lài)關(guān)系.MDAB進(jìn)一步融合MIFB塊輸出的多層次特征信息.RCA-MDA網(wǎng)絡(luò)架構(gòu)輕量、有效.實(shí)驗(yàn)表明,RCA-MDA性能較優(yōu),把輕量級(jí)SISR模型復(fù)雜度和性能平衡提升到一個(gè)較高水平.本文對(duì)網(wǎng)絡(luò)模型進(jìn)行輕量化的方法和注意力機(jī)制也可應(yīng)用到其它計(jì)算機(jī)視覺(jué)任務(wù)當(dāng)中,其普適性和對(duì)不同網(wǎng)絡(luò)性能的影響值得進(jìn)一步研究.

        猜你喜歡
        支路注意力卷積
        讓注意力“飛”回來(lái)
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        基于限流可行方案邊界集的最優(yōu)支路投切
        能源工程(2020年6期)2021-01-26 00:55:22
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        A Beautiful Way Of Looking At Things
        多支路兩跳PF協(xié)作系統(tǒng)的誤碼性能
        利用支路參數(shù)的狀態(tài)估計(jì)法辨識(shí)拓?fù)溴e(cuò)誤
        多并聯(lián)支路型可控電抗器短路電抗對(duì)支路電抗和電流的影響
        国产亚洲日韩欧美久久一区二区| 亚洲欧洲成人精品香蕉网| 久久精品国产亚洲av桥本有菜| 国产目拍亚洲精品区一区| 男女上床免费视频网站| 亚洲精品国产成人久久av| 一级老熟女免费黄色片| 亚洲视频高清一区二区| 久久国产人妻一区二区| 无码字幕av一区二区三区| 中文字幕乱码熟女人妻水蜜桃| 国产丝袜视频一区二区三区| 亚洲免费人成在线视频观看| 亚洲欲色欲香天天综合网| 国产美女亚洲精品一区| 亚洲日本国产一区二区三区| 日韩精品免费视频久久 | 国产一区二区三区四色av| 麻豆国产在线精品国偷产拍| 真实国产老熟女粗口对白| 亚洲国产成人精品女人久久久 | 艳z门照片无码av| 爽爽精品dvd蜜桃成熟时电影院| 国产特级全黄一级毛片不卡| 免费一级国产大片| 国产精品视频免费一区二区三区| 开心五月激情五月天天五月五月天 | 亚洲av高清一区二区三| 人妻少妇-嫩草影院| 久久久精品一区aaa片| 久久亚洲私人国产精品| 欧美喷潮久久久xxxxx| 欧美韩国精品另类综合| 日韩熟女一区二区三区| 亚洲一区二区三区在线最新| 红桃av一区二区三区在线无码av| 欧美人妻少妇精品久久黑人| 中文字幕在线亚洲一区二区三区| 亚洲AV成人无码天堂| 亚洲精品视频一区二区三区四区| 日本熟女精品一区二区三区|