亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        高效二階注意力對偶回歸網(wǎng)絡(luò)的超分辨率重建

        2022-10-17 11:09:36廉煒雯張紅英
        關(guān)鍵詞:池化對偶二階

        廉煒雯,吳 斌,張紅英,李 雪

        1.西南科技大學(xué) 信息工程學(xué)院,四川 綿陽 621010

        2.特殊環(huán)境機(jī)器人技術(shù)四川省重點(diǎn)實(shí)驗(yàn)室,四川 綿陽 621010

        人類主要通過視覺獲取信息,圖像質(zhì)量的好壞決定了絕大多數(shù)基于視覺領(lǐng)域的應(yīng)用效果。這也是超分辨率重建技術(shù)興起,并日益發(fā)展的原因所在,高質(zhì)量的圖像也是順利開展大部分圖像處理研究與應(yīng)用的前提[1-2]。單幅圖像超分辨率(single image super resolution,SISR)重建方法主要分為以下三類:基于插值的方法[3-4]、基于重建的方法[5]和基于學(xué)習(xí)的方法[6-7]。雖然前兩種方法比較簡單,但重建后的圖像質(zhì)量不高,還伴有一定程度的模糊和偽影現(xiàn)象。近年來,基于深度學(xué)習(xí)的SISR方法因其優(yōu)異的重建性能成為本方向的研究重點(diǎn),其基本思想是通過學(xué)習(xí)算法建立高、低分辨率圖像之間的映射關(guān)系來指導(dǎo)圖像復(fù)原工作[8-9]。Dong等[10]首次將深度學(xué)習(xí)應(yīng)用于超分辨率重建領(lǐng)域,并提出端到端映射的SRCNN網(wǎng)絡(luò)。在此基礎(chǔ)上,Dong等[11]又提出了基于SRCNN的改進(jìn)算法FSRCNN,該算法能更快速、更清晰地重建低分辨率圖像。Kim等[12]提出了基于殘差的深層網(wǎng)絡(luò)結(jié)構(gòu)VDSR,該網(wǎng)絡(luò)采用較大的學(xué)習(xí)率加速收斂速度,同時采用自適應(yīng)梯度剪裁來解決梯度爆炸和梯度消失問題。Kim等[13]提出了DRCN方法,將深度遞歸思想應(yīng)用在SISR領(lǐng)域,達(dá)到卷積層間的參數(shù)共享,在加深網(wǎng)絡(luò)的同時,盡可能不增加網(wǎng)絡(luò)參數(shù)量。Li等[14]提出了SRFBN方法,將人類視覺系統(tǒng)中常見的反饋機(jī)制應(yīng)用到SISR中,來改進(jìn)具有高級信息的低級表示,在具有約束的循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)中使用隱藏狀態(tài)來實(shí)現(xiàn)反饋方式,該反饋模塊旨在處理反饋連接并生成強(qiáng)大的高級表示,為自上而下的反饋流提供高級信息。

        雖然深度學(xué)習(xí)近年來在SISR重建領(lǐng)域取得了顯著成就,但仍然存在以下不足:(1)超分辨率重建是一個典型的病態(tài)問題,其高分辨率(high-resolution,HR)圖像與低分辨率(low-resolution,LR)圖像的映射關(guān)系是非線性的,就會使得可能的函數(shù)映射空間過大,模型出現(xiàn)自適應(yīng)的問題。(2)現(xiàn)階段基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)的SISR方法在重建過程中沒有充分利用原始LR圖像中的信息,從而導(dǎo)致性能相對較低。(3)大多數(shù)基于CNN的SISR方法沒有充分學(xué)習(xí)更具辨識性的高級特征表示,很少利用中間層固有的特征相關(guān)性,阻礙了CNN的表達(dá)能力。針對以上問題,本文提出了一種高效二階注意力對偶回歸網(wǎng)絡(luò)(efficient second-order attention dual regression network,ESADRNet),該網(wǎng)絡(luò)通過在原始網(wǎng)絡(luò)的基礎(chǔ)上增加對偶回歸任務(wù)縮小映射空間,找到LR和HR之間的最優(yōu)映射關(guān)系。此外,本文還采用高效二階通道注意力機(jī)制(efficient second-order channel attention,ESOCA)來更好地學(xué)習(xí)特征間的相關(guān)性,通過高于一階的特征統(tǒng)計(jì)來自適應(yīng)的調(diào)整特征,使網(wǎng)絡(luò)專注于更多的特征信息,并增強(qiáng)網(wǎng)絡(luò)的學(xué)習(xí)能力。采用多級跳躍連接殘差注意力模塊(multi-level skip connection residual attention group,MLSCRAG)和共享源跳躍連接(shared skip connection,SSC)結(jié)構(gòu)的疊加,更好地利用LR圖像中的高頻信息,以產(chǎn)生更好的重建效果。實(shí)驗(yàn)結(jié)果表明,與SRCNN、FSRCNN、VDSR、DRCN和SRFBN-S網(wǎng)絡(luò)相比,本文方法的重建效果更好。

        1 高效二階注意力對偶回歸網(wǎng)絡(luò)基本塊設(shè)計(jì)

        1.1 對偶回歸網(wǎng)絡(luò)

        現(xiàn)階段,大多數(shù)圖像超分辨率重建網(wǎng)絡(luò)都只包含原始回歸任務(wù),即LR到HR的映射關(guān)系,但SISR是一個典型的病態(tài)問題,LR圖像與HR圖像的映射關(guān)系具有不適定性,即存在無限多的HR圖像可以通過下采樣的方式獲得相同的LR圖像,這就使得LR到HR的映射空間過大,模型出現(xiàn)自適應(yīng)的問題。本文的對偶回歸網(wǎng)絡(luò)可以很好地解決這一問題,該網(wǎng)絡(luò)既包含LR到HR的映射關(guān)系又包含HR到LR的映射關(guān)系。對偶回歸網(wǎng)絡(luò)的主要思路是利用機(jī)器學(xué)習(xí)中的對稱屬性來構(gòu)建網(wǎng)絡(luò),通過反饋對機(jī)器學(xué)習(xí)任務(wù)的效果進(jìn)行加強(qiáng)和指導(dǎo)[15-16]。對偶回歸網(wǎng)絡(luò)主要可以分為兩個任務(wù):原始回歸任務(wù)和對偶回歸任務(wù),該網(wǎng)絡(luò)的示意圖如圖1所示。

        圖1 對偶回歸網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.1 Schematic diagram of dual regression network structure

        從圖1可以看出,對偶回歸網(wǎng)絡(luò)將超分辨率重建分為LR圖像域和HR圖像域,建立兩者之間的閉環(huán)映射關(guān)系,相互學(xué)習(xí)和促進(jìn),提高模型的泛化能力。具體理論依據(jù)如下,設(shè)E(P,D)=E[LP(P(x),y)+λLD(D(P(x)),x)],并且E?(P,D)是其經(jīng)驗(yàn)損失。函數(shù)空間Hdual無窮大,設(shè)LP(P(x),y)+λLD(D(P(x)),x)為X×Y在區(qū)間為[0,C]上的映射。對于任意誤差δ>0,其概率至少是1-δ,并且泛化誤差E(P,D)中所有(P,D)∈Hdual,通過拉德馬赫爾復(fù)雜度得到模型的推廣界[17]:

        其中,N是樣本數(shù)量是對偶學(xué)習(xí)的經(jīng)驗(yàn)拉德馬赫爾復(fù)雜度。B(P,D)為對偶回歸任務(wù)的推廣界,可由以下公式表示:

        由此得出B(P,D)≤B(P)。其中B(P)(P∈H)是有監(jiān)督學(xué)習(xí)的推廣界,用拉德馬赫爾復(fù)雜度表示為

        以上公式表明,對偶回歸網(wǎng)絡(luò)的推廣界依賴于函數(shù)空間Hdual的拉德馬赫爾復(fù)雜度,根據(jù)公式(1)可知,在監(jiān)督學(xué)習(xí)中對偶回歸網(wǎng)絡(luò)比傳統(tǒng)網(wǎng)絡(luò)的推廣界更小,從而有助于實(shí)現(xiàn)精確的SISR。

        1.2 多級跳躍連接殘差注意力模塊(MLSCRAG)

        目前大多數(shù)CNN網(wǎng)絡(luò)模型的深度和復(fù)雜度增加,這就使得網(wǎng)絡(luò)的計(jì)算和收斂難度加大,為了能更好地提取具有區(qū)別性的特征表示,利用各個特征之間的相關(guān)性。本文提出的MLSCRAG由M個多級跳躍連接殘差塊(MLSCR)和一個高效二階通道注意力模塊(ESOCA)構(gòu)成,經(jīng)過第g個MLSCRAG模塊后的Fg用公式可表示為:

        其中,Wg是相應(yīng)的權(quán)重,如圖2所示的MLSCRAG在訓(xùn)練時能繞過豐富的低頻信息,使網(wǎng)絡(luò)更關(guān)注具有區(qū)別性的特征表示。此外,在每個MLSCRAG的末端都加入一個高效二階通道注意力模塊(ESOCA),這就讓重建網(wǎng)絡(luò)更加專注于特征的相互依賴性。

        圖2 MLSCRAG模塊結(jié)構(gòu)示意圖Fig.2 Schematic diagram of MLSCRAG module structure

        MLSCRAG模塊與典型的注意力機(jī)制模塊相比有以下三點(diǎn)優(yōu)勢:(1)典型的注意力機(jī)制模塊前期大多采用簡單的卷積殘差塊來提取圖像特征信息,而本文提出了MLSCR,能加強(qiáng)特征信息間的相互關(guān)聯(lián),提取更豐富的特征信息。(2)本文采用由全局協(xié)方差池化構(gòu)成的ESOCA模塊對串聯(lián)的MLSCR模塊提取到的特征進(jìn)行進(jìn)一步的處理,典型的注意力機(jī)制只利用全局平均池化的一階特征信息進(jìn)行特征提取,只能獲取單個通道的平均值,而二階統(tǒng)計(jì)量相較一階統(tǒng)計(jì)量能更有效地關(guān)注更具辨識性的特征表示。(3)典型的通道注意力機(jī)制采用兩個具有非線性全連接(fully connected,F(xiàn)C)層來捕獲非線性的跨通道交互信息,通過降維來控制模型的復(fù)雜度,但捕獲所有通道之間的依賴關(guān)系并非必要,本文采用卷積核大小為k的快速1D卷積實(shí)現(xiàn)一種不降維的局部跨通道交互策略,能更有效地捕獲跨通道交互,既能保證效率又能保證有效性。

        1.3 多級跳躍連接殘差塊(MLSCR)

        大多數(shù)卷積神經(jīng)網(wǎng)絡(luò)中的殘差塊都只是對特征向量多次堆疊卷積處理,并沒有很好地利用特征信息之間的相關(guān)性,從而使得上下文特征信息關(guān)聯(lián)性較差,網(wǎng)絡(luò)性能欠佳。針對以上問題,本文設(shè)計(jì)了多級跳躍連接殘差塊(MLSCR),其結(jié)構(gòu)如圖3所示。

        圖3 MLSCR模塊結(jié)構(gòu)示意圖Fig.3 Schematic diagram of MLSCR module structure

        由圖3所示,一個3×3卷積層、PReLU激活函數(shù)層和α倍跳躍連接組成一個子殘差塊,兩個子殘差塊和β倍跳躍連接組成一個MLSCR模塊。設(shè)其輸入為x,經(jīng)過第一個和第二個子殘差塊的輸出分別為y1和y2,經(jīng)一個MLSCR后的輸出為y3,則分別可由下式表示:

        從輸出y3可以看出,當(dāng)輸入x經(jīng)過MLSCR模塊后不僅可以得到經(jīng)第二個基本殘差塊G2(x)處理后的輸出,還可以得到經(jīng)第一個基本殘差塊G1(x)處理后的輸出和輸入x。

        以上為單個MLSCR模塊的輸出結(jié)果,若將多個MLSCR模塊串聯(lián),經(jīng)過第三個和第四個子殘差塊的輸出分別為y4和y5,經(jīng)第二個MLSCR模塊后的輸出為y6,則分別可由下式表示:

        通過經(jīng)第二個MLSCR模塊后的輸出y6可以得出,相鄰兩個MLSCR模塊的子殘差塊中的卷積層都要對前面每個卷積層的特征向量進(jìn)行卷積,然后再輸出。這就充分利用了相鄰子殘差塊內(nèi)部卷積層間特征向量的相關(guān)性,使網(wǎng)絡(luò)能提取到更豐富的特征信息。

        1.4 高效二階通道注意力模塊(ESOCA)

        研究表明,只利用全局平均池化的一階特征信息限制了網(wǎng)絡(luò)的表達(dá)能力,而深度卷積神經(jīng)網(wǎng)絡(luò)中的二階統(tǒng)計(jì)量比一階統(tǒng)計(jì)量更有效地關(guān)注具有區(qū)別性的特征表示,但這會使網(wǎng)絡(luò)的復(fù)雜度增加,為了克服性能和復(fù)雜性權(quán)衡的矛盾,本文設(shè)計(jì)了一種高效二階通道注意力(ESOCA)模塊,其結(jié)構(gòu)如圖4所示。

        圖4 ESOCA模塊結(jié)構(gòu)圖Fig.4 ESOCA module structure diagram

        ESOCA模塊主要由協(xié)方差歸一化和高效通道注意力機(jī)制兩部分組成。給一組H×W×C的特征圖f=[f1,f2,…,fC],其中C個特征圖的尺寸為H×W,將該特征圖重構(gòu)為具有C維s=WH個特征的特征矩陣X,然后樣本協(xié)方差矩陣可以計(jì)算為:

        歸一化后的協(xié)方差矩陣表征了通道特征的相關(guān)性,然后將歸一化后的協(xié)方差矩陣作為全局協(xié)方差池化的通道描述符。如圖4所示,設(shè)通過縮小得到通道統(tǒng)計(jì)量z∈RC×1,然后計(jì)算z的第c維統(tǒng)計(jì)量可表示為:

        其中,HGCP(·)表示全局協(xié)方差池化函數(shù),這也是本文ESOCA模塊與其他注意力機(jī)制模塊的區(qū)別之一。常用的一階池化操作有平均池化、最大池化、隨機(jī)池化和全局平均池化等。平均池化即對鄰域內(nèi)特征點(diǎn)求平均,能很好地保留圖像背景信息,但會使圖像變模糊;最大池化即對區(qū)域內(nèi)的特征點(diǎn)取最大值,能很好地保留圖像紋理特征,但在一定程度上影響了梯度回傳;隨機(jī)池化只需對特征圖中的元素按照其概率值大小隨機(jī)選擇,即元素值大的被選中的概率也大,與最大池化不同,并非只取最大值元素,該池化方法簡單,泛化能力更強(qiáng);全局平均池化則是直接把整幅特征圖進(jìn)行平均池化,然后輸入到softmax層中得到對應(yīng)的每個類別的得分,該方法大幅度降低了網(wǎng)絡(luò)參數(shù),減少了過擬合現(xiàn)象,但上述池化方法都屬于一階池化,只能提取到一階特征,而無法探索高層次的特征。全局協(xié)方差池化是用一個二階的統(tǒng)計(jì)方法來替換一階的全局平均池化,即將一階的均值替換為二階的協(xié)方差,解決了小樣本高維度難以統(tǒng)計(jì)的問題并且有效利用了協(xié)方差矩陣的幾何結(jié)構(gòu),探索更多的特征分布,并獲取高于一階且更具辨別性的特征表示。

        給定聚合特征y∈RC,在不進(jìn)行降維處理的情況下,通道注意可以通過下式計(jì)算得到:

        其中,W是參數(shù)量為C×C的矩陣,本文使用帶狀矩陣Wk來學(xué)習(xí)通道注意,該方法能更有效地捕獲本地跨通道交互信息,Wk可以表示為:

        由上式不難看出,Wk矩陣中涉及k×C個參數(shù),該方法相較于其他方法可以進(jìn)行快速高效的運(yùn)算,其主要原因有以下幾點(diǎn):(1)該方法參數(shù)量通常小于用群卷積方法實(shí)現(xiàn)的參數(shù),避免了群卷積方法中不同組之間的完全獨(dú)立性。(2)深度可分離卷積方法沒有考慮跨通道交互信息,使模型的性能不佳。(3)用FC層實(shí)現(xiàn)雖然考慮了跨通道交互,但是需要大量的參數(shù),導(dǎo)致模型的復(fù)雜性較高,特別是對于較大的通道數(shù)。

        對于式(15),yi的權(quán)重僅考慮yi與其k個鄰域之間的關(guān)系計(jì)算得到,并使所有通道共享相同的學(xué)習(xí)參數(shù),即:

        這種不降維的局部跨通道交互策略可以通過卷積核大小為k的快速1D卷積來實(shí)現(xiàn),充分利用全局協(xié)方差池化聚合信息的特征依賴性,在顯著降低模型復(fù)雜度的同時保持網(wǎng)絡(luò)性能,其函數(shù)表示如下[18]:

        式中,C1D表示1D卷積,式(17)中的方法由只調(diào)用涉及k參數(shù)的高效通道注意(efficient channel attention,ECA)模塊。該方法避免降低維度,有利于學(xué)習(xí)更有效的通道注意,比采用兩個FC層的通道注意力機(jī)制效果更好[19]。其交互的覆蓋范圍(即1D卷積的卷積核大小k)與通道維數(shù)c成正比,本文k=3。最后就可以得到通過通道注意力機(jī)制縮放后的特征圖:

        式中,ωc和fc分別表示第c個通道的比例因子和縮放后的特征圖。

        2 網(wǎng)絡(luò)框架設(shè)計(jì)

        2.1 總體網(wǎng)絡(luò)結(jié)構(gòu)

        本文的超分辨率卷積神經(jīng)網(wǎng)絡(luò)是基于U-Net網(wǎng)絡(luò)[20]構(gòu)建的,該模型由兩部分構(gòu)成:原始回歸網(wǎng)絡(luò)和對偶回歸網(wǎng)絡(luò)。原始回歸網(wǎng)絡(luò)主要由下采樣模塊和上采樣模塊構(gòu)成,下采樣模塊采用步長為2的卷積層,F(xiàn)ReLU激活函數(shù)和卷積層串聯(lián),該下采樣模塊能利用像素級的建模能力提取更復(fù)雜的細(xì)節(jié)信息。再基于多級跳躍連接殘差注意力模塊(MLSCRAG)、共享源跳躍連接(SSC)和亞像素卷積構(gòu)建漸進(jìn)式上采樣網(wǎng)絡(luò),使網(wǎng)絡(luò)具有更強(qiáng)大的特征表達(dá)和相關(guān)特征學(xué)習(xí)能力,讓網(wǎng)絡(luò)在訓(xùn)練時更關(guān)注具有區(qū)別性的相關(guān)特征,提取更豐富的特征向量相關(guān)信息;最后利用與原始回歸網(wǎng)絡(luò)下采樣模塊相同的結(jié)構(gòu)構(gòu)成對偶回歸網(wǎng)絡(luò),來約束映射空間,尋找最優(yōu)重建函數(shù)。結(jié)構(gòu)如圖5所示。

        2.2 原始回歸網(wǎng)絡(luò)

        原始回歸網(wǎng)絡(luò)(圖5中的黑線)由上采樣(圖5左半部分)和下采樣(圖5右半部分)模塊組成,網(wǎng)絡(luò)根據(jù)不同的比例因子,分別包含lbs個基本塊,其中s表示比例因子,每個基本塊包括一個下采樣模塊和一個對應(yīng)的上采樣模塊,即有2個基本塊用于4×上采樣網(wǎng)絡(luò)(如圖5),有3個基本塊用于8×上采樣網(wǎng)絡(luò)。

        圖5 ESADRNet網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.5 ESADRNet network structure diagram

        2.2.1 下采樣模塊

        原始網(wǎng)絡(luò)參考U-Net網(wǎng)絡(luò)的下采樣部分來設(shè)計(jì),由步長為2的卷積層、FReLU激活函數(shù)和卷積層構(gòu)成,如圖5所示。激活函數(shù)中的空間不敏感是阻礙視覺任務(wù)實(shí)現(xiàn)顯著改善的主要原因,自適應(yīng)的捕獲空間相關(guān)性成為激活函數(shù)需要解決的重點(diǎn)問題。本文采用FReLU激活函數(shù)作為下采樣模塊的激活層。FReLU[21]是2020年由曠視提出的一種新的激活函數(shù),實(shí)現(xiàn)像素級空間信息建模且性能優(yōu)于其他激活函數(shù)。為了使深度神經(jīng)網(wǎng)絡(luò)更好地重建復(fù)雜的細(xì)節(jié)信息,F(xiàn)ReLU采用漏斗激活可視化任務(wù),可以使用像素級的建模能力輕松獲取復(fù)雜的信息,有助于提取物體的精細(xì)空間布局,通過添加可忽略的空間條件開銷,將激活函數(shù)擴(kuò)展到二維激活。其表達(dá)式為:

        式中,t(·)是一個依賴于空間上下文的二維漏斗狀空間條件,本文將二維空間條件設(shè)置為ParamPool,即表達(dá)式可寫為y=max(x,ParamPool(x)),參數(shù)池化窗口為3×3。

        2.2.2 上采樣模塊

        與基本U-Net網(wǎng)絡(luò)不同,在上采樣部分本文采用B個MLSCRAG和SSC相結(jié)合的基本模塊及上采樣器構(gòu)成,如圖5所示。每個MLSCRAG還包括M個MLSCR模塊和一個ESOCA模塊,如圖2所示。該模塊能很好地解決由于神經(jīng)網(wǎng)絡(luò)深度過深導(dǎo)致的梯度消失和爆炸的問題,不僅有助于深層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,而且還可以從LR圖像中繞過豐富的低頻信息,使網(wǎng)絡(luò)集中在擁有更多紋理細(xì)節(jié)的高頻信息重建上。MLSCR模塊通過在基本的殘差塊中加入含有不同權(quán)值的多級跳躍連接來增加上下文信息的關(guān)聯(lián)性,增強(qiáng)網(wǎng)絡(luò)性能。ESOCA模塊主要是通過二階特征統(tǒng)計(jì)和高效通道注意力機(jī)制來自適應(yīng)地調(diào)整通道特征,使網(wǎng)絡(luò)擁有更強(qiáng)大的特征表示和特征相關(guān)學(xué)習(xí)能力,以獲得更具辨識性的特征表示。本文的上采樣器由一個卷積層和一個像素重洗(Pixel-Shuffle)層[22]組成,其中像素重洗層起到壓縮空間維度、擴(kuò)張分辨率維度的作用。設(shè)B是MLSCRAG的數(shù)目,M是MLSCR的數(shù)目,F(xiàn)是基本特征通道數(shù)目。對于4×網(wǎng)絡(luò)本文設(shè)置B=30,M=10,F=16,對于8×網(wǎng)絡(luò)本文設(shè)置B=30,M=10,F=8。此外,在ESOCA模塊中,本文用1D卷積實(shí)現(xiàn)一種不降維的局部跨通道交互策略,并設(shè)置1D卷積的卷積核k為3。在MLSCR模塊中,本文設(shè)置其參數(shù)分別為α=0.1,β=0.1。

        2.3 對偶回歸網(wǎng)絡(luò)

        對偶回歸網(wǎng)絡(luò)(圖5中的灰線)是對HR圖像進(jìn)行多次下采樣得到不同比例系數(shù)的LR圖像,對偶回歸任務(wù)的目的是學(xué)習(xí)一個降采樣操作,這比學(xué)習(xí)上采樣映射的原始任務(wù)簡單得多。因此,該對偶回歸網(wǎng)絡(luò)和原始回歸網(wǎng)絡(luò)中的下采樣模塊相同,只有兩個卷積層和一個FReLU激活函數(shù)層,其計(jì)算成本比原始模型低得多,但在實(shí)踐中效果良好,可以減少可能的函數(shù)映射空間,找到最優(yōu)的函數(shù)映射。

        2.4 損失函數(shù)

        本文采用對偶回歸網(wǎng)絡(luò),引入了對LR圖像的附加約束。除了學(xué)習(xí)LR到HR圖像的映射外,本文還學(xué)習(xí)了HR到LR圖像的映射。原始和對偶回歸任務(wù)可以形成一個閉環(huán),并提供相互監(jiān)督的訓(xùn)練模型P和D。如果P(x)是正確的HR圖像,那么下采樣得到的圖像D(P(x))在理論上也是非常接近輸入的LR圖像x。給定一組含有N對樣本的數(shù)據(jù)集其中xi和yi表示成對數(shù)據(jù)集中的第i對LR和HR圖像,其訓(xùn)練損失函數(shù)可表示為:

        其中,LP和LD分別表示原始回歸任務(wù)和對偶回歸任務(wù)的L1損失函數(shù),λ為控制對偶回歸損失的權(quán)重。經(jīng)過多次實(shí)驗(yàn)對比,在訓(xùn)練中設(shè)置λ=0.1,具體實(shí)驗(yàn)結(jié)果見3.2.2小節(jié)所示。

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 實(shí)驗(yàn)配置

        3.1.1 實(shí)驗(yàn)環(huán)境配置

        本次實(shí)驗(yàn)采用Facebook推出的Pytorch深度學(xué)習(xí)框架,實(shí)驗(yàn)操作系統(tǒng)為Ubuntu18.04,CUDA版本為CUDA10.0,CPU為Intel i5-9600KF,GPU為NVIDIA GeForce RTX 2060 SUPER,顯存大小為8 GB。

        3.1.2 數(shù)據(jù)集

        實(shí)驗(yàn)采用DIV2K和Flickr2K數(shù)據(jù)集進(jìn)行神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,分別包括800和2 650張訓(xùn)練圖片。通過隨機(jī)截取RGB輸入低分辨率圖像的48×48大小圖像與對應(yīng)的高分辨圖像區(qū)域作為配對訓(xùn)練數(shù)據(jù),并分別將圖像進(jìn)行旋轉(zhuǎn)90°、180°和270°,并對應(yīng)進(jìn)行翻轉(zhuǎn),得到每張圖像的變體,達(dá)到增加訓(xùn)練數(shù)據(jù)的目的。本文使用4個常用單幅圖像超分辨率測試集在2×比例因子、4×比例因子和8×比例因子分別進(jìn)行測試和比較,包括Set5、Set14、BSD100和Urban100。

        3.1.3 實(shí)驗(yàn)參數(shù)設(shè)置

        本方法使用Adam優(yōu)化器進(jìn)行參數(shù)優(yōu)化,設(shè)置β1=0.9,β2=0.999,并將minibatch設(shè)置為32。學(xué)習(xí)率初始化為10-4,然后每100個epochs減小一半。

        3.1.4 評價指標(biāo)

        本文采用客觀評價方法和主觀評價方法對圖像重建效果進(jìn)行評價,客觀評價方法包括兩種常用的圖像質(zhì)量評價指標(biāo):峰值信噪比(peak signal to noise ratio,PSNR)和結(jié)構(gòu)相似性(structural similarity,SSIM)。經(jīng)過模型重建后輸出的高分辨率重建結(jié)果與標(biāo)簽高分辨率圖像在YCbCr空間計(jì)算Y通道上的PSNR值和SSIM值,從而更客觀地表明本文算法優(yōu)于其他算法。PSNR通常用于測量圖像壓縮等有損變換的重建圖像質(zhì)量,數(shù)值越大,劣化程度越小,重建效果越好。SSIM表示圖像的相似性程度,SSIM(x,y)的取值范圍為[0,1],比較的x、y兩幅圖像越相似,SSIM的值就越大,重建后的結(jié)果就越接近真實(shí)圖像。

        3.1.5 模型細(xì)節(jié)

        網(wǎng)絡(luò)使用Conv(1,1)和Conv(3,3)分別表示卷積核大小為1×1和3×3的卷積層。使用Convs2表示步長為2的卷積層。采用一個卷積層和一個亞像素卷積層構(gòu)成上采樣器,來提高特征圖的比例大小。此外,使用h和w來表示輸入LR圖像的高度和寬度。因此,對于4×模型,輸出圖像的形狀應(yīng)為4h×4w。模型設(shè)計(jì)細(xì)節(jié)如表1所示。

        表1 4×模型設(shè)計(jì)細(xì)節(jié)Table 1 4×model design details

        3.2 對比實(shí)驗(yàn)與模型分析

        3.2.1 網(wǎng)絡(luò)實(shí)時性及參數(shù)規(guī)模

        如表2所示,本文在4×放大比例因子下對模型參數(shù)量以及圖像在不同的基準(zhǔn)數(shù)據(jù)集下總重建時間進(jìn)行實(shí)驗(yàn)。該網(wǎng)絡(luò)模型的總參數(shù)量是10.8×106,在Set5數(shù)據(jù)集上的平均重建速度是0.34 s/張;在Set14數(shù)據(jù)集上的平均重建速度是0.37 s/張;在BSD100數(shù)據(jù)集上的平均重建速度是0.236 2 s/張;由于Urban100數(shù)據(jù)集中的圖像分辨率較高,重建難度較大,模型的平均重建速度是1.086 6 s/張。綜上所述,該模型可以達(dá)到實(shí)時處理的效果。

        表2 4×模型上網(wǎng)絡(luò)實(shí)時性及參數(shù)規(guī)模Table 2 4×network real-time performance and parameter scale on model

        3.2.2對偶回歸損失權(quán)重λ對網(wǎng)絡(luò)性能的影響

        經(jīng)過多次實(shí)驗(yàn)來研究對偶回歸損失權(quán)重λ對網(wǎng)絡(luò)性能的影響,由表3可知,將λ從0.001增加到0.1時,對偶回歸損失逐漸變得重要,并增加了監(jiān)督能力。若進(jìn)一步將λ增加到1、2、5和10,對偶回歸損失項(xiàng)將遠(yuǎn)比原始回歸損失重要,并阻礙最終性能。為了在原始回歸和對偶回歸之間取得良好的平衡,本文選取λ=0.1對模型進(jìn)行訓(xùn)練。

        表3 4×模型上對偶回歸損失權(quán)重λ對網(wǎng)絡(luò)性能的影響Table 3 Impact of dual regression loss weight λ on network performance on 4×model

        3.2.3 高效二階通道注意力模塊(ESOCA)有效性

        為了驗(yàn)證高效二階通道注意力模塊(ESOCA)的有效性,本文在4×模型上用Set5測試集分別對算法的不同模塊進(jìn)行消融實(shí)驗(yàn),具體結(jié)果如表4所示。Ra表示有30個含有10個MLSCR的MLSCRAG模塊的實(shí)驗(yàn)?zāi)P?,該模型的PSNR值達(dá)到31.98 dB。Rb表示在Ra模型的基礎(chǔ)上,在每個MLSCRAG模塊間加入SSC的實(shí)驗(yàn)?zāi)P?,性能可以?1.98 dB提升到32.04 dB,主要原因是共享源跳躍連接在重建時繞過來自LR圖像的低頻信息。Rc表示在Ra模型的基礎(chǔ)上在每個MLSCRAG模塊末端加入一個一階通道注意力模塊(FOCA),網(wǎng)絡(luò)性能從31.98 dB提升到32.10 dB。Rd表示在Ra模型的基礎(chǔ)上在每個MLSCRAG模塊末端加入一個二階通道注意力模塊(SOCA),網(wǎng)絡(luò)性能從31.98 dB提升到32.14 dB。Re表示在Ra模型的基礎(chǔ)上在每個MLSCRAG模塊末端加入一個高效二階通道注意力模塊(ESOCA),網(wǎng)絡(luò)性能從31.98 dB提升到32.18 dB。Rf、Rg和Rh分別表示在Rc、Rd和Re的基礎(chǔ)上加入SSC后的網(wǎng)絡(luò)性能。由此可以看出ESOCA模塊的有效性,二階統(tǒng)計(jì)量比一階統(tǒng)計(jì)量更有效的關(guān)注具有區(qū)別性的特征表示,提升網(wǎng)絡(luò)性能,用1D卷積實(shí)現(xiàn)的不降維的局部跨通道交互高效注意力機(jī)制可以更好地提高網(wǎng)絡(luò)性能。由表可見,Rf、Rg和Rh模型的性能均在一定程度上優(yōu)于Rc、Rd和Re模型的網(wǎng)絡(luò)性能,而Rh模型在實(shí)驗(yàn)中的性能最好,故在本文網(wǎng)絡(luò)中采用該網(wǎng)絡(luò)對數(shù)據(jù)集進(jìn)行訓(xùn)練。

        表4 4×模型上高效二階通道注意力模塊(ESOCA)有效性Table 4 Effectiveness of efficient second-order channel attention module(ESOCA)on 4×model

        3.2.4 高效二階通道注意力模塊(ESOCA)實(shí)現(xiàn)成本

        如表5所示,對4×比例因子下MLSCRAG模塊末端分別加SOCA和ESOCA模塊的模型參數(shù)量,在Set5基準(zhǔn)數(shù)據(jù)集上總測試運(yùn)行時間和PSNR值進(jìn)行實(shí)驗(yàn)對比。MLSCRAG模塊末端加SOCA模塊的模型參數(shù)量是14.5×106,在Set5基準(zhǔn)數(shù)據(jù)集上總測試時間是2.48 s,PSNR值是20.20 dB。本文的ESOCA模塊通過1D卷積避免降低維度,比采用兩個FC層的通道注意力機(jī)制效果更好,網(wǎng)絡(luò)模型參數(shù)量減少了25.52%,在Set5基準(zhǔn)數(shù)據(jù)集上總測試時間提高了0.78 s,即平均重建速度提高了0.156 s/張。而PSNR值也由32.20 dB提高到32.25 dB。

        表5 4×模型上高效二階通道注意力模塊(ESOCA)實(shí)現(xiàn)成本Table 5 Realization cost of efficiency second-order channel attention module(ESOCA)on 4×model

        3.2.5 算法對比實(shí)驗(yàn)

        為了驗(yàn)證本文方法的有效性,本文選取了5種已有的基于深度學(xué)習(xí)的SISR方法,SRCNN、FSRCNN、VDSR、DRCN和SRFBN-S,與傳統(tǒng)的Bicubic算法,在2×、4×和8×的比例因子下分別進(jìn)行實(shí)驗(yàn)對比,結(jié)果如表6所示。從表中不難看出,無論是在2×、4×還是8×的比例因子下,在不同的測試集下,本文算法的客觀評價指標(biāo)PSNR和SSIM均處于領(lǐng)先。

        表6 不同算法PSNR和SSIM指標(biāo)對比Table 6 Comparison of PSNR and SSIM indicators of different algorithms

        本文還對不同算法的主觀視覺效果進(jìn)行了對比測試,圖像來自Set5、BSD100和Urban100測試集,結(jié)果如圖6所示。為了方便觀察重建效果,文中選取了各圖像中容易辨別的細(xì)節(jié)特征,例如圖6(a)中的眼睫毛部分,從圖中明顯可以看出本文方法重建的圖像睫毛根根分明,十分接近原圖;圖6(b)中的飛機(jī)螺旋槳部分,其他算法都未能很好地重建出圖像的邊緣細(xì)節(jié)信息,只有本文方法重建出來的圖像在細(xì)節(jié)紋理部分比較清晰;圖6(c)中的公交車內(nèi)飾部分,其他算法都有明顯的模糊和偽影現(xiàn)象,只有本文方法重建出來的圖像邊緣更銳利;圖6(d)中的建筑物細(xì)節(jié),只有本文方法重建出來的圖像細(xì)節(jié)信息更豐富。因此,定量數(shù)據(jù)與定性視覺效果,均表明低分辨率圖像通過本文算法重建后的效果整體優(yōu)于所對比的重建算法。

        圖6 與不同算法的視覺效果對比Fig.6 Comparison of visual effects with different algorithms

        4 結(jié)束語

        本文設(shè)計(jì)了一種基于高效二階注意力對偶回歸網(wǎng)絡(luò)(ESADRNet)的單幅圖像超分辨率結(jié)構(gòu),該網(wǎng)絡(luò)引入對偶回歸任務(wù)能有效縮小LR-HR圖像的映射空間,通過共享源跳躍連接(SSC)和多級跳躍連接殘差塊(MLSCR)繞過LR圖像中大量的低頻信息,使網(wǎng)絡(luò)專注于學(xué)習(xí)上下文特征表示間的相關(guān)性。此外,除了利用空間特征相關(guān)性外,本文還采用高效二階通道注意力(ESOCA)模塊,通過全局協(xié)方差池化來學(xué)習(xí)特征相關(guān)性,以獲得更具辨別性的特征表示。FReLU作為網(wǎng)絡(luò)的激活函數(shù)層,使網(wǎng)絡(luò)具有像素化建模能力。通過大量對比實(shí)驗(yàn)表明本文方法不論從客觀指標(biāo)還是主觀視覺上,均優(yōu)于對比方法。

        猜你喜歡
        池化對偶二階
        基于緊湊型雙線性網(wǎng)絡(luò)的野生茵識別方法研究
        無線電工程(2024年8期)2024-09-16 00:00:00
        基于Sobel算子的池化算法設(shè)計(jì)
        卷積神經(jīng)網(wǎng)絡(luò)中的自適應(yīng)加權(quán)池化
        一類二階迭代泛函微分方程的周期解
        一類二階中立隨機(jī)偏微分方程的吸引集和擬不變集
        基于卷積神經(jīng)網(wǎng)絡(luò)和池化算法的表情識別研究
        二階線性微分方程的解法
        一類二階中立隨機(jī)偏微分方程的吸引集和擬不變集
        對偶平行體與對偶Steiner點(diǎn)
        對偶均值積分的Marcus-Lopes不等式
        日韩手机在线免费视频| 精品国产亚洲av高清日韩专区 | 国产精品久久婷婷六月丁香| 国产精品亚洲av三区亚洲| 亚洲精品无码久久久影院相关影片| 亚洲影院天堂中文av色| 国产精品女同久久免费观看 | 亚洲乱码中文字幕视频| 日本少妇浓毛bbwbbwbbw| 久久国产精品二国产精品| 国产日韩精品一区二区在线观看播放 | 国产精品网站夜色| 激情网色图区蜜桃av| 亚洲乱码中文字幕在线| 爽爽精品dvd蜜桃成熟时电影院| 欧美精品区| 久久精品国产亚洲av高清蜜臀 | 一级一片内射视频网址| 亚洲乱码国产乱码精品精| 亚洲av久久无码精品九九| 狠狠躁夜夜躁人人爽天天不卡| 人日本中文字幕免费精品| 无码日韩精品一区二区免费暖暖| 成人黄色网址| 国产精品白浆视频免费观看| 天堂网av在线免费看| 国产在热线精品视频| 麻豆亚洲av永久无码精品久久| 亚洲电影久久久久久久9999| 日本免费精品一区二区三区视频| 国产精品久久久久9999| 国产95在线 | 欧美| 仙女白丝jk小脚夹得我好爽| 久久精品国产9久久综合| 精品国产乱码久久久久久郑州公司| 婷婷亚洲综合五月天小说| 极品粉嫩小仙女高潮喷水视频| 成人自拍小视频在线看| 狠狠色狠狠色综合| 亚洲AV无码久久久一区二不卡| 久久99国产精品久久99密桃|