亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于雙重注意力機制的圖像超分辨重建算法

        2021-05-13 13:31:46趙思逸
        圖學(xué)學(xué)報 2021年2期
        關(guān)鍵詞:雙重注意力卷積

        李 彬,王 平,趙思逸

        基于雙重注意力機制的圖像超分辨重建算法

        李 彬1,王 平1,趙思逸2

        (1. 國防科技大學(xué)電子科學(xué)學(xué)院,湖南 長沙 410072; 2. 國防科技大學(xué)計算機學(xué)院,湖南 長沙 410072)

        近年來,卷積神經(jīng)網(wǎng)絡(luò)(CNN)在單幅圖像超分辨率重建領(lǐng)域(SISR)展現(xiàn)出良好效果。深度網(wǎng)絡(luò)可以在低分辨率圖像和高分辨率圖像之間建立復(fù)雜的映射,使得重建圖像質(zhì)量相對傳統(tǒng)的方法取得巨大提升。由于現(xiàn)有SISR方法通過加深和加寬網(wǎng)絡(luò)結(jié)構(gòu)以增大卷積核的感受野,在具有不同重要性的空間域和通道域采用均等處理的方法,因此會導(dǎo)致大量的計算資源浪費在不重要的特征上。為了解決此問題,算法通過雙重注意力模塊捕捉通道域與空間域隱含的權(quán)重信息,以更加高效的分配計算資源,加快網(wǎng)絡(luò)收斂,在網(wǎng)絡(luò)中通過殘差連接融合全局特征,不僅使得主干網(wǎng)絡(luò)可以集中學(xué)習(xí)圖像丟失的高頻信息流,同時可以通過有效的特征監(jiān)督加快網(wǎng)絡(luò)收斂,為緩解MAE損失函數(shù)存在的缺陷,在算法中引入了一種特殊的Huber loss函數(shù)。在主流數(shù)據(jù)集上的實驗結(jié)果表明,該算法相對現(xiàn)有的SISR算法在圖像重建精度上有了明顯的提高。

        單幅圖像超分辨;特征監(jiān)督;殘差連接;通道注意力機制;空間注意力機制

        單幅圖像超分辨率重建(single image super- resolution,SISR)是一個低水平的計算機視覺任務(wù),其目標是利用低分辨率(low-resolution,LR)圖像,恢復(fù)出對應(yīng)的高分辨率(high-resolution,HR)圖像。由于硬件設(shè)備和信息傳輸條件的限制,通常獲取到的多為LR圖像。SISR技術(shù)在不增加硬件成本的同時能有效提升圖像的成像質(zhì)量,因而已經(jīng)在社會安全[1]、醫(yī)學(xué)成像[2]、軍事遙感[3]等領(lǐng)域取得廣泛應(yīng)用。但由于LR圖像丟失了大量的高頻紋理信息,導(dǎo)致同一幅LR圖像,可能存在多個HR圖像與之對應(yīng),因而SISR是一個不適定的問題。目前已經(jīng)提出的超分辨算法主要有3類:基于插值的算法、基于重建的算法和基于學(xué)習(xí)的算法?;谏疃葘W(xué)習(xí)的圖像超分辨率重建算法是基于學(xué)習(xí)算法的一種,該算法以機器學(xué)習(xí)算法理論為基礎(chǔ),通過建立輸入的LR圖像和對應(yīng)的HR圖像的樣本數(shù)據(jù)庫,學(xué)習(xí)LR圖像與HR圖像之間對應(yīng)的映射函數(shù)從而獲得有效的重建模型。DONG等[4]第一次將卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)引入圖像超分辨率重建領(lǐng)域,提出了SRCNN網(wǎng)絡(luò)算法,由于SRCNN算法建立了一種端對端模型,同時也展現(xiàn)出良好的重建效果,因而引起極大關(guān)注,目前已涌現(xiàn)出如VDSR[5],DRCN[6],DRRN[7]等網(wǎng)絡(luò)結(jié)構(gòu)算法,已逐步發(fā)展成為該領(lǐng)域的主流算法。

        雖然深度網(wǎng)絡(luò)模型在圖像超分辨率重建領(lǐng)域取得了非常好的效果,但其仍然暴露出許多問題,制約著模型效果的提升:①大部分的CNN網(wǎng)絡(luò)模型主要通過加深網(wǎng)絡(luò)結(jié)構(gòu)的深度,通過重復(fù)的卷積操作,增大卷積核感受野以捕捉長距離鄰域信息,使得圖像重建質(zhì)量有較大提升。但是加深網(wǎng)絡(luò)結(jié)構(gòu)往往會帶來較大的計算量,同時使得網(wǎng)絡(luò)優(yōu)化訓(xùn)練難度加大;②現(xiàn)有的CNN網(wǎng)絡(luò)多是通過卷積操作提取圖像信號特征,對于各通道、位置特征采用均等處理辦法,但實際上各特征有不同的重要程度,均等處理使得網(wǎng)絡(luò)花費很多的計算資源在不重要的特征上;③隨著CNN網(wǎng)絡(luò)深度增加,不同的卷積層有不同大小的感受野,因而獲取到的特征信息存在差異性,僅利用最后卷積層輸出的特征映射實現(xiàn)重建任務(wù),導(dǎo)致一部分可用信息被浪費。

        Senet[8]網(wǎng)絡(luò)將通道注意力機制引入深度神經(jīng)網(wǎng)絡(luò),在卷積操作中輸出每個通道的特征由一個卷積核與輸入特征計算獲得,因而不同卷積核提取的特征重要性不盡相同,Senet構(gòu)建了Squeeze和Excitation結(jié)構(gòu)學(xué)習(xí)代表各通道重要性的權(quán)重值,通過學(xué)習(xí)到的權(quán)重值自適應(yīng)地增強對重建任務(wù)有用的特征并抑制用處不大的特征。由于Senet結(jié)構(gòu)可以將有限的計算資源合理地分配到更需要的運算中,因而可以在有限計算資源條件下有效提升網(wǎng)絡(luò)算法的學(xué)習(xí)能力,同時也適合構(gòu)建輕量的網(wǎng)絡(luò)架構(gòu),因而獲得廣泛地應(yīng)用。Non-local[9]也是一種構(gòu)建注意力機制的方法,但在實際應(yīng)用中,由于需要對兩兩像素點之間進行權(quán)重計算,因而帶來的大量的計算量,難以大規(guī)模在網(wǎng)絡(luò)結(jié)構(gòu)中采用。RCAN[10]第一次將通道注意力機制引入到圖像超分辨率重建領(lǐng)域,使該算法展現(xiàn)出良好的重建效果。針對前面提到現(xiàn)有深度模型存在的一些缺陷,受RCAN算法的啟發(fā),本文提出了一個新穎的網(wǎng)絡(luò)結(jié)構(gòu)算法,以解決現(xiàn)有網(wǎng)絡(luò)模型存在的問題。該算法通過構(gòu)建一個基于通道注意力和空間注意力[11]的雙重注意力機制模塊(dual attention module,DAM),該模塊通過捕捉不同通道或空間位置特征重要性以獲取對應(yīng)位置的權(quán)重參數(shù),從而自適應(yīng)地根據(jù)通道內(nèi)特征的重要程度分配計算資源以增強有用特征抑制無用特征,同時算法中通過長跳躍連接[12]構(gòu)建特征監(jiān)督,將每個模塊輸出都自適應(yīng)的用于圖像重建,既有效監(jiān)督每級模塊輸出,加快網(wǎng)絡(luò)收斂,也充分利用各級特征進行圖像重建,使得各分層特征能夠得到有效利用。本文的主要工作包括:

        (1) 提出一個新穎的基于雙重注意力機制的深度網(wǎng)絡(luò)算法實現(xiàn)圖像超分辨率重建。通過在基準數(shù)據(jù)集上進行對比實驗,驗證了該算法相對目前最先進的SISR算法有了明顯的效果提升。

        (2) 構(gòu)建了包含DAM的殘差網(wǎng)絡(luò)塊。其包括2個基本的殘差塊和1個DAM。DAM模塊包括空間注意力機制和通道注意力機制。空間注意力機制是通過自適應(yīng)地學(xué)習(xí)不同空間位置像素的權(quán)重從而自適應(yīng)地強化重要位置的特征,以對空間位置特征進行建模,通道注意力機制能夠自適應(yīng)學(xué)習(xí)調(diào)整中間通道內(nèi)重要特征而抑制無用特征,從而更加高效地利用計算資源進行有效計算,提高模型的有效性。

        (3) 構(gòu)建了全局特征融合模塊,通過跳躍連接將各分層提取到的特征直接送入全局特征融合模塊。分層特征的引入使得本文模型能夠從淺層就加強特征監(jiān)督,促進網(wǎng)絡(luò)收斂,同時淺層信息也可以有效加強圖像重建效果,從而進一步強化圖像重建質(zhì)量。

        1 殘差雙重注意力網(wǎng)絡(luò)(RDAN)

        1.1 網(wǎng)絡(luò)基本結(jié)構(gòu)

        受RCAN算法的啟發(fā),本文提出了一個新穎的深度網(wǎng)絡(luò)算法稱為殘差雙重注意力網(wǎng)絡(luò)(residual dual attention network,RDAN),該網(wǎng)絡(luò)結(jié)構(gòu)主要包括淺層特征提取模塊、基于雙重注意力機制的特征融合模塊、上采樣模塊和圖像重建模塊。用I表示網(wǎng)絡(luò)輸入,用I表示網(wǎng)絡(luò)輸出,在淺層特征提取模塊,網(wǎng)絡(luò)用一個卷積層提取輸入圖像I的特征,即

        其中,H(·)為簡單的單層卷積映射實現(xiàn)淺層特征提取。然后將淺層卷積提取到的特征作為基于雙重注意力機制特征融合模塊的輸入,通過基于雙重注意力機制特征融合模塊得到特征映射后的高維特征,即

        其中,H(·)為雙重注意力機制的特征融合模塊映射關(guān)系。該模塊通過對每個子模塊的特征進行融合得到新的高維特征,與現(xiàn)有的SISR方法相比,本文提出的雙重注意力機制的特征融合模塊使得網(wǎng)絡(luò)可以更加有效地利用所提取到的有用特征,抑制無用特征,從而使得網(wǎng)絡(luò)在不增加算力的同時能夠有效加深網(wǎng)絡(luò)的深度,從而增大卷積核的感受野。融合轉(zhuǎn)變后的特征作為上采樣模塊的輸入,通過亞像素卷積[13]的方法對輸入特征進行上采樣,得到尺度增大的特征映射,上采樣后的特征為

        其中,H(·)為上采樣操作;F為上采樣后輸出特征。目前在超分辨率重建領(lǐng)域常用的上采樣方式有插值操作[14]、反卷積操作[15]和亞像素卷積操作。亞像素卷積操作是一種像素重排的方式實現(xiàn)上采樣,這種重排像素的方式使得其相對反卷積操作,減少了需要學(xué)習(xí)的參數(shù)。因而為了使網(wǎng)絡(luò)在重建速率和精度方面達到較好結(jié)果,本文選擇通過亞像素卷積操作實現(xiàn)上采樣。最后通過一個簡單的卷積層將輸入特征轉(zhuǎn)化為彩色圖像對應(yīng)的三通道的輸出圖像,即

        其中,H(·)為圖像重建模塊的映射函數(shù);H(·)為II的映射函數(shù)。

        1.2 雙重注意力機制的全局特征融合模塊

        在本文的網(wǎng)絡(luò)算法設(shè)計中,基于殘差雙重注意力機制特征融合的模塊(residual dual attention block,RDAB)是網(wǎng)絡(luò)中實現(xiàn)特征映射的主要結(jié)構(gòu)。該模塊構(gòu)建了殘差雙重注意力機制的全局特征融合結(jié)構(gòu),包括個雙重注意力組(dual attention group,DAG)和個跳躍結(jié)構(gòu),如圖1所示。每個DAG模塊的輸入經(jīng)過特征拼接后由瓶頸層(1×1卷積實現(xiàn))進行特征融合,有助于加強信息的流動,在有效降低特征通道數(shù)的同時也有助于提升重建圖像效果,每個DAG模塊包括個DAM和1個局部殘差結(jié)構(gòu),在DAG模塊中,殘差結(jié)構(gòu)有效加強了低頻信息的傳遞。雙重注意力、跳躍連接以及特征融合的機制使得本文的網(wǎng)絡(luò)算法能夠在不引入更多參數(shù)時,可進一步提高網(wǎng)絡(luò)學(xué)習(xí)非線性映射的能力,從而獲得更佳的重建效果。

        為了更加充分地利用各分層提取到的特征,將每個DAG模塊的輸出進行融合,使得網(wǎng)絡(luò)能夠提取到更充分的特征信息以獲得更佳的重建效果。網(wǎng)絡(luò)模塊中第個DAG塊的輸出特征可表示為

        圖1 殘差雙重注意力機制的網(wǎng)絡(luò)結(jié)構(gòu)

        其中,FF-1分別為第和第-1個DAG模塊的輸出映射,同時F-1也是第個DAG模塊的輸入;(·)為網(wǎng)絡(luò)中第個DAG模塊對應(yīng)的函數(shù)映射。為了強化信息的流動,網(wǎng)絡(luò)中有效利用跳躍連接對分層特征進行拼接,通過瓶頸層實現(xiàn)特征融合,使得網(wǎng)絡(luò)能夠充分利用分層特征,實現(xiàn)更佳的重建效果。具體RDAB特征映射可表達為

        其中,(·)為將各DAG模塊輸出的特征映射進行拼接;(·)為將拼接后的特征融合壓縮,通過長跳躍連接將融合后的殘差特征與輸入特征F進行合并,使網(wǎng)絡(luò)更加關(guān)注殘差細節(jié)的學(xué)習(xí)。

        由于超分辨(super-resolution,SR)圖像與LR圖像在低頻信息方面基本一致,因而超分辨網(wǎng)絡(luò)更加關(guān)注恢復(fù)圖像的高頻細節(jié)和紋理部分。為了更好地利用LR圖像淺層特征包含的豐富的低頻圖像信息,在DAG模塊內(nèi)部也構(gòu)建了局部跳躍連接,使得低頻信號可以直接通過跳躍連接傳遞到模塊尾端,每個DAG模塊需堆疊了個DAM,第個DAG中的第個DAM可表達為

        其中,F,n和F,n-1分別為第個DAG模塊中的第個DAM塊和第-1個DAM塊的輸出映射,同時F,n-1也是該DAG模塊中第個DAM塊的輸入;,n(·)為第個DAG模塊中的第個DAM塊的映射函數(shù)。同樣為了加快信息的傳遞,網(wǎng)絡(luò)中構(gòu)建了局部殘差連接。則第個DAG模塊可表達為

        其中,W為第個DAG模塊中最后一個卷積核的參數(shù),其余參數(shù)含義與前面保持一致,本文構(gòu)建的每個DAM中都包含雙重注意力機制。

        1.3 雙重注意力機制

        早期的基于CNN的超分辨網(wǎng)絡(luò)結(jié)構(gòu)主要關(guān)注點在提高網(wǎng)絡(luò)深度和寬度,對于網(wǎng)絡(luò)提取的特征在空間和通道間內(nèi)采用的是均等的處理辦法。該方法使得對于不同的特征映射網(wǎng)絡(luò)缺乏必要的靈活性,因而實際工程任務(wù)中,極大地浪費了計算資源。注意力機制的提出,使得網(wǎng)絡(luò)能夠更多地關(guān)注對目標任務(wù)更加有用的信息特征,抑制無用的特征。從而使得計算資源可以更加科學(xué)地分配到特征映射過程中,因而可以在不增大計算量的同時進一步加深網(wǎng)絡(luò)深度。

        將注意力機制應(yīng)用于SISR任務(wù),目前已有部分網(wǎng)絡(luò)結(jié)構(gòu)進行了探索,例如RCAN,SAN[16]等網(wǎng)絡(luò)結(jié)構(gòu)通過注意力機制的應(yīng)用使得SISR效果有了較大的提升。本文通過將空間注意力機制和通道注意力機制融合構(gòu)建一個新的模塊,并將其命名為雙重注意力機制(dual attention,DA),進一步強化了SISR的效果,在基準數(shù)據(jù)集上與目前現(xiàn)有的SISR算法相比取得了更佳的重建質(zhì)量。

        1.3.1 通道注意力機制

        為構(gòu)建通道注意力機制,SE(squeeze-excitation)塊通過聚合通道內(nèi)的特征映射獲得其描述,并利用通道全局描述有選擇地加強有用特征抑制無用特征。圖2(a)為Senet的通道注意力結(jié)構(gòu)圖,圖2(b)為本文提出的通道注意力結(jié)構(gòu)圖,在圖2(a)中,通過對輸入特征的每一個通道進行平均池化操作,假設(shè)輸入特征維度為××,則第個通道特征池化公式為

        通過觀察可以發(fā)現(xiàn),不同通道包含的特征信息存在差異性,因而具有不同的重要性,通過全局平均池化獲得每個特征圖對應(yīng)的均值,及計算每幅特征圖的標準差。圖3通過4幅特征圖對比發(fā)現(xiàn),其對應(yīng)的最大均值僅為最小均值的1.04倍,最大方差是最小方差的7倍,標準差也有2.6倍。由此認為標準差池化能為通道權(quán)重學(xué)習(xí)提供更加有效的信息。其表達式為

        其中,y為第個通道的標準差;(·)為全局標準差;z為第個通道的平均池化結(jié)果。為充分利用其信息,在圖2(b)中將全局平均池化和全局標準差池化的2個一維向量(C×1),通過特征拼接為二維矩陣(C×2),通過一個一維卷積操作將二維矩陣壓縮成一維向量,為進一步捕捉基于通道的依賴關(guān)系及對應(yīng)的權(quán)重值,需要構(gòu)建學(xué)習(xí)各通道間的非線性關(guān)系的網(wǎng)絡(luò)架構(gòu),以確保多個通道能被強化激活,從而有效學(xué)習(xí)非互斥的關(guān)系,因而本文采用了全連接的方式,并通過一個Sigmod[17]激活函數(shù)對權(quán)重值進行歸一化后將權(quán)重作用到輸入特征中。圖2(b)包括注意力機制部分和一個殘差結(jié)構(gòu),其注意力機制部分輸出特征可表示為

        其中,為通道注意力結(jié)構(gòu)的輸出特征;和分別為經(jīng)過平均池化和標準差池化后的結(jié)果;(·)為特征拼接;(·)和(·)為RELU[18]函數(shù)和Sigmod激活函數(shù);W為一個一維卷積參數(shù),將通道池化后拼接的二維向量壓縮成一維;WW為卷積核的權(quán)重參數(shù),其表示對特征通道按衰減尺度進行壓縮和擴增。

        圖2 Senet和本文的通道注意力結(jié)構(gòu)圖((a) Senet的通道注意力結(jié)構(gòu)圖;(b)本文的通道注意力結(jié)構(gòu)圖)

        圖3 卷積通道可視化結(jié)果

        1.3.2 空間注意力機制

        受Senet的啟發(fā),結(jié)合圖3可以發(fā)現(xiàn),不同通道之間存在不同的重要性,同樣空間上不同位置的紋理細節(jié)也各異,因而其具有不同的重要性,由此在網(wǎng)絡(luò)中構(gòu)建和計算空間注意力機制時,需在網(wǎng)絡(luò)結(jié)構(gòu)中分別沿通道軸進行平均池化和標準差池化,即

        本文將池化后的特征拼接經(jīng)二維卷積將通道數(shù)目壓縮為1,為了進一步減少計算量同時保證多個空間位置信息能夠被強化,本文通過卷積操作來實現(xiàn)空間權(quán)重信息的非線性映射,同時也使用Sigmod函數(shù)對計算的空間權(quán)重特征圖進行歸一化。圖4(a)為本文提出的空間注意力機制,包括注意力機制部分和一個殘差結(jié)構(gòu),注意力結(jié)構(gòu)的輸出特征可表達為

        圖4 本文提出的空間和全局注意力結(jié)構(gòu)圖((a)本文提出的空間注意力結(jié)構(gòu)圖;(b)本文提出的全局注意力結(jié)構(gòu)圖)

        最終,通過通道注意力和空間注意力機制的組合,構(gòu)建了具有雙重注意力的網(wǎng)絡(luò)結(jié)構(gòu),如圖4(b)所示??臻g注意力和通道注意力機制分別對空間位置像素和通道權(quán)重進行建模,將其組合對每個像素的位置權(quán)重進行建模,最后通過對應(yīng)位置相乘將學(xué)習(xí)的權(quán)重值疊加到每一個對應(yīng)的特征點位置,表達式為

        與結(jié)構(gòu)層透水混凝土施工間隔超過10h,攤鋪前應(yīng)對基層透水混凝土表面使用無機復(fù)合固化劑50倍加入稀釋噴涂基層透水混凝土表面。

        圖5為本文構(gòu)建的雙重注意力模塊(DAM)的主體網(wǎng)絡(luò)結(jié)構(gòu),其包括卷積操作、雙重注意力結(jié)構(gòu)和殘差連接,對于第個DAG中的第個DAM,其計算過程為

        其中,DAm,n(·)為映射函數(shù);Fm,n和Fm,n-1分別為模塊的輸出和輸入;和分別為前后2個卷積操作的參數(shù);s(·)為RELU激活函數(shù);Rm,n(·)為雙重注意力機制的映射函數(shù);Xm,n為網(wǎng)絡(luò)中間輸出。

        1.4 損失函數(shù)

        超分辨率重建的目的是使重建后的SR圖像I與真實圖像I盡可能接近,其為回歸問題,常用的損失函數(shù)有MAE(mean-absolute error)[19]、感知損失[20]、MSE(mean-square error)[19]等,基于MSE的損失函數(shù)對誤差進行平方操作,如果數(shù)據(jù)中存在離群點,將被賦予更大的權(quán)重值,而離群點往往為噪聲信息,因而犧牲了其他正常數(shù)據(jù)點的預(yù)測效果,降低了模型的魯棒性。Lapsrn[21]和IDN[22]的實驗證明了基于MAE的損失函數(shù)相對于基于MSE損失函數(shù)有更好的圖像重建效果。由于MAE損失函數(shù)中的梯度信息為一個固定值,當(dāng)模型計算的損失較低時,其梯度值較大,模型易在一個區(qū)間振蕩,不利于網(wǎng)絡(luò)收斂,在損失為0時,損失函數(shù)無法求解梯度。為應(yīng)對MAE損失函數(shù)存在的缺陷,本文利用特殊的Huber loss[23]損失函數(shù)來保持MAE損失函數(shù)的魯棒性,其可表示為

        本文網(wǎng)絡(luò)算法的損失函數(shù)為

        2 實驗設(shè)置及結(jié)果分析

        2.1 訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)

        本文采用與RCAN,RDN,IDN等相同的訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集進行比較。訓(xùn)練數(shù)據(jù)采用DIV2K[24]數(shù)據(jù)集,其包含了豐富的場景和邊緣及紋理細節(jié)的800幅訓(xùn)練圖像、100幅驗證圖像和100幅測試圖像。在訓(xùn)練模型時,本文使用該數(shù)據(jù)集的800幅訓(xùn)練圖像,為了避免在訓(xùn)練過程中出現(xiàn)欠擬合現(xiàn)象[25],通過隨機旋轉(zhuǎn)90°,180°,270°和水平翻轉(zhuǎn),進行了數(shù)據(jù)擴增[26],使其擴充為原來的8倍,以保證足夠的訓(xùn)練數(shù)據(jù),同時解決不同傾斜角度的圖像重建問題。訓(xùn)練數(shù)據(jù)中的LR圖像為通過雙三次插值下采樣的LR圖像。設(shè)置mini-batch為16,即每次訓(xùn)練中,抽取16幅48×48的LR圖像的子圖及對應(yīng)標簽圖像進行訓(xùn)練。另采用常用基準數(shù)據(jù)集Set5[27]和Set14[28]作為測試數(shù)據(jù)集,其中Set5包含5幅不同風(fēng)格類型的圖像,Set14包含14幅圖像。

        2.2 網(wǎng)絡(luò)超參數(shù)設(shè)置

        實驗的軟硬件條件見表1,在網(wǎng)絡(luò)結(jié)構(gòu)中設(shè)置=10,=20,即主體的RDAN算法框架包括10個DAG模塊,而每個DAG模塊內(nèi)又包含20個DAM模塊,從而構(gòu)成了一個復(fù)雜的深度網(wǎng)絡(luò)算法結(jié)構(gòu)。除了在通道注意力機制內(nèi)通道壓縮和擴增及特征融合的瓶頸層采用1×1的卷積核,其余卷積核大小均為3×3,在空間注意力機制采用的卷積和反卷積的卷積核大小也為3×3,其步長為3。在網(wǎng)絡(luò)訓(xùn)練過程,為使得中間特征映射的大小保持一致,網(wǎng)絡(luò)中應(yīng)用了補0策略。除了空間注意力機制中使用1個卷積核濾波器,如圖4(a)所示,輸出特征為單通道特征映射,通道注意力機制中通道壓縮層采用了通道壓縮策略,壓縮倍數(shù)為=16,即采用/=4個卷積核,如圖2(b)所示,為確保最后一層輸出為彩色圖像,網(wǎng)絡(luò)輸出使用3個卷積核,其余結(jié)構(gòu)均采用=64個卷積核,在上采樣結(jié)構(gòu)中,與ESPCN一致,采用亞像素卷積層結(jié)構(gòu)實現(xiàn)特征上采樣,從而獲得HR的彩色圖像。

        表1 實驗的軟硬件平臺

        網(wǎng)絡(luò)使用ADAM[29]優(yōu)化器,優(yōu)化參數(shù)為1=0.9,2=0.999,=10-8設(shè)置初始學(xué)習(xí)率為10-4,每2×105次迭代后學(xué)習(xí)率下降一半,每1 000次迭代后在Set5數(shù)據(jù)集上做一次測試,以直觀反映網(wǎng)絡(luò)的訓(xùn)練效果,從而可以引導(dǎo)調(diào)整網(wǎng)絡(luò)超參數(shù)。實驗采用PSNR和SSIM[30]進行重建圖像的質(zhì)量方法的比較,本文需將重建圖像轉(zhuǎn)換到Y(jié)CbCr空間,并在Y通道進行評價對比。

        2.3 消融實驗

        對本文提出的幾個改進點進行消融實驗對比,以驗證本文方法的有效性及可行性。

        2.3.1 全局標準差池化及空間注意力機制的影響

        本文在未設(shè)置空間注意力機制,使用MAE損失函數(shù),無全局特征融合的基礎(chǔ)網(wǎng)絡(luò)框架上進行如下對比實驗:①網(wǎng)絡(luò)中只包括全局平均池化的通道注意力機制;②網(wǎng)絡(luò)中只包括全局標準差池化的通道注意力機制;③在①的基礎(chǔ)上繼續(xù)引入全局標準差池化,消融實驗結(jié)構(gòu)見表2。

        表2 通道注意力中不同池化方式在Set5數(shù)據(jù)集4倍放大的比較

        注:√表示網(wǎng)絡(luò)算法中包括該模塊;×表示不包括該模塊。

        表2為Set5數(shù)據(jù)集4倍放大的評測指標對比,可以發(fā)現(xiàn)使用全局標準差池化相對于全局平均池化在PSNR指標上有0.02 dB的提升,說明本文提出的全局標準差池化相對于平均池化對通道權(quán)重學(xué)習(xí)具有更好的效果,通過自適應(yīng)地將平均池化和標準差池化合并,網(wǎng)絡(luò)算法相對于僅有平均池化的算法有0.05 dB的提升,同時與僅有平均池化的算法需要的參數(shù)(16 M)相比僅僅增加0.4 M的參數(shù)。因而該結(jié)構(gòu)的改進說明構(gòu)建標準差池化有利于提升圖像重建質(zhì)量。

        最后在Set5數(shù)據(jù)集上比較了構(gòu)建雙重注意力機制的網(wǎng)絡(luò)算法與僅有通道注意力機制的算法和僅有空間注意力機制的算法進行實驗對比(表3),可以看到雙重注意力機制相對僅有空間或者通道注意力機制的算法均有0.04~0.07 dB的提升,也說明雙重注意力機制對于圖像超分辨率重建具有更好的效果。

        表3 雙重注意力機制與部分注意力機制在Set5數(shù)據(jù)集4倍放大的比較

        2.3.2 Huber loss損失函數(shù)和全局特征融合的影響

        為了證明提出的基于Huber loss的損失函數(shù)和全局特征融合對于圖像超分辨率重建具有更好的效果,算法與基于MAE的損失函數(shù)的模型和無全局特征融合的模型進行了比較。

        實驗結(jié)果見表4,可以看到損失函數(shù)相對于MAE損失函數(shù)在PSNR指標上有0.02 dB的提升;增加全局特征融合相對于無全局特征融合算法也有0.02 dB提升;本文提出的模型在Set5數(shù)據(jù)集4倍放大條件下可以獲得32.76 dB的峰值信噪比。

        表4 不同損失函數(shù)和特征融合在Set5數(shù)據(jù)集4倍放大的比較

        2.4 實驗結(jié)果

        為了說明本文方法的有效性,特與VDSR、EDSR[31],RDN[32],RCAN等算法在Set5和Set14數(shù)據(jù)集不同尺度(×2, ×3, ×4)超分辨率重建結(jié)果在PSNR和SSIM評測指標上進行比較,見表5,最優(yōu)結(jié)果加粗顯示。從表5結(jié)果可以看出,本文提出的超分辨率算法在Set5和Set14數(shù)據(jù)集上,不同尺度的超分辨結(jié)果在PSNR和SSIM評測指標上均優(yōu)于其他算法(PSNR和SSIM值越大,圖像重建效果越好)。為了進一步說明本文提出的算法在實際SR重建圖像具有好的效果,本文對Set5、Set14和Urban100的部分圖像進行了可視化的重建,挑選了Urban100數(shù)據(jù)集中的天花板(img_073)和Set5數(shù)據(jù)集中的蝴蝶(butterfly)的進行了4倍尺度SR重建圖像可視化,Urban100數(shù)據(jù)集中的高樓(img_062)和Set14數(shù)據(jù)集中書房(barbara)的進行了3倍尺度SR重建圖像可視化,并與目前現(xiàn)有的Bicubic, VDSR, RCAN等重建圖像進行比較,圖6為4倍SR重建結(jié)果,在img_073圖像中,對天花板重建細節(jié)進行比較,大多數(shù)的重建算法天花板的孔洞基本模糊,相對較好的RCAN算法的結(jié)果孔洞接近矩形,而實際孔洞應(yīng)當(dāng)為橢圓形,本文的重建結(jié)果不僅孔洞顯示較清晰,形狀也更接近橢圓。在butterfly圖像中大部分重建算法的結(jié)果均丟失了右上角一條淺白色向上的紋理,RCAN雖然恢復(fù)了一部分,但是也非常模糊,本文算法基本恢復(fù)出該細節(jié)紋理。圖7為3倍SR重建結(jié)果,本文對barbara中桌布的細節(jié)進行了對比,可以看到方格網(wǎng)狀的桌布在絕大多數(shù)的SR重建模型(如RCAN,RDN)中重建為線狀,EDSR雖然能保留一些方格狀的信息,但非常模糊,而本文算法能較好地恢復(fù)出桌布的網(wǎng)格信息,同時可清晰地展現(xiàn)。在img_062圖像的高樓重建細節(jié)中,大部分的算法未恢復(fù)出線狀的高樓細節(jié)紋理,同時產(chǎn)生了橫線的錯誤信息,而本文算法能較好地恢復(fù)出細節(jié)信息且不存在錯誤信息。通過定量和可視化的結(jié)果比較可知,本文提出的算法相對現(xiàn)有的超分辨率重建算法有了一定的提高。

        表5 不同超分辨率模型重建效果比較

        圖6 在Urban100和Set5數(shù)據(jù)集4倍超分辨重建可視化比較

        圖7 在Urban100和Set14數(shù)據(jù)集3倍超分辨重建可視化比較

        3 結(jié)束語

        本文針對現(xiàn)有的基于深度學(xué)習(xí)的圖像超分辨率重建算法中網(wǎng)絡(luò)特征由于對不同位置、不同通道的特征采用均等處理的方法,從而使得網(wǎng)絡(luò)將大量的計算資源浪費在不重要的特征上,受Senet結(jié)構(gòu)啟發(fā),本文提出了基于雙重注意力機制的深度網(wǎng)絡(luò)超分辨算法,該算法構(gòu)建并融合了通道注意力機制和空間注意力機制,從而可以有效獲取不同特征的權(quán)重值,使得網(wǎng)絡(luò)可以根據(jù)權(quán)重精準分配計算資源,在僅僅引入極少參數(shù)的同時有效提升了超分辨率重建的質(zhì)量。特征監(jiān)督的引入使得網(wǎng)絡(luò)能夠?qū)Φ途S特征有效監(jiān)督,加快網(wǎng)絡(luò)收斂,針對MAE損失函數(shù)存在的局限性,引入一種特殊的Huber loss損失函數(shù),該損失函數(shù)可以實現(xiàn)在損失值較低時梯度遞減,從而提高網(wǎng)絡(luò)重建質(zhì)量。實驗證明本文提出的超分辨率重建算法不僅在評價指標上有所提高,同時在視覺上也有較好的結(jié)果。

        [1] ZHANG L P, ZHANG H Y, SHEN H F, et al. A super-resolution reconstruction algorithm for surveillance images[J]. Signal Processing, 2010, 90(3): 848-859.

        [2] PELED S, YESHURUN Y. Superresolution in MRI: Application to human white matter fiber tract visualization by diffusion tensor imaging[J]. Magnetic Resonance in Medicine, 2001, 45(1): 29-35.

        [3] THORNTON M W, ATKINSON P M, HOLLAND D A. Sub-pixel mapping of rural land cover objects from fine spatial resolution satellite sensor imagery using super-resolution pixel-swapping[J]. International Journal of Remote Sensing, 2006, 27(3): 473-491.

        [4] DONG C, LOY C C, HE K M, et al. Learning a deep convolutional network for image super-resolution[M]// Computer Vision – ECCV 2014. Cham: Springer International Publishing, 2014: 184-199.

        [5] KIM J, LEE J K, LEE K M. Accurate image super-resolution using very deep convolutional networks[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 1646-1654.

        [6] KIM J, LEE J K, LEE K M. Deeply-recursive convolutional network for image super-resolution[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 1637-1645.

        [7] TAI Y, YANG J, LIU X M. Image super-resolution via deep recursive residual network[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 2790-2798.

        [8] HU J, SHEN L, ALBANIE S, et al. Squeeze-and-excitation networks[C]//IEEE Transactions on Pattern Analysis and Machine Intelligence. New York: IEEE Press, 2019: 2011-2023.

        [9] WANG X L, GIRSHICK R, GUPTA A, et al. Non-local neural networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 7794-7803.

        [10] ZHANG Y L, LI K P, LI K, et al. Image super-resolution using very deep residual channel attention networks[M]//Computer Vision – ECCV 2018. Cham: Springer International Publishing, 2018: 294-310.

        [11] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[M]//Computer Vision – ECCV 2018. Cham: Springer International Publishing, 2018: 3-19.

        [12] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 770-778.

        [13] SHI W Z, CABALLERO J, HUSZáR F, et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 1874-1883.

        [14] FADNAVIS S. Image interpolation techniques in digital image processing: an overview[J]. International Journal of Engineering Research and Applications, 2014, 4(10): 70-73.

        [15] ZEILER M D, KRISHNAN D, TAYLOR G W, et al. Deconvolutional networks[C]//2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2010: 2528-2535.

        [16] DAI T, CAI J R, ZHANG Y B, et al. Second-order attention network for single image super-resolution[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 11057-11066.

        [17] HAN J, MORAGA C. The influence of the sigmoid function parameters on the speed of backpropagation learning[M]// Lecture Notes in Computer Science. Heidelberg: Springer, 1995: 195-201.

        [18] GLOROT X, BORDES A, BENGIO Y. Deep sparse rectifier neural networks[C]//Proceedings of the 14th International Conference on Artificial Intelligence and Statistics. Heidelberg: Springer, 2011: 315-323.

        [19] WILLMOTT C J, MATSUURA K. Advantages of the mean absolute error (MAE) over the root mean square error (RMSE) in assessing average model performance[J]. Climate Research, 2005, 30: 79-82.

        [20] JOHNSON J, ALAHI A, FEI-FEI L. Perceptual losses for real-time style transfer and super-resolution[C]//European Conference on Computer Vision. Heidelberg: Springer, 2016: 694-711.

        [21] LAI W S, HUANG J B, AHUJA N, et al. Deep Laplacian pyramid networks for fast and accurate super-resolution[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 5835-5843.

        [22] HUI Z, WANG X M, GAO X B. Fast and accurate single image super-resolution via information distillation network[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 723-731.

        [23] ONARAN I, INCE N F, CETIN A E. Sparse spatial filter via a novel objective function minimization with smooth ?1 regularization[J]. Biomedical Signal Processing and Control, 2013, 8(3): 282-288.

        [24] TIMOFTE R, AGUSTSSON E, GOOL L V, et al. NTIRE 2017 challenge on single image super-resolution: methods and results[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Washington, DC: IEEE Computer Society Press, 2017: 114-125.

        [25] AALST W M P, RUBIN V, VERBEEK H M W, et al. Process mining: a two-step approach to balance between underfitting and overfitting[J]. Software & Systems Modeling, 2008, 9(1): 87-111.

        [26] SHORTEN C, KHOSHGOFTAAR T M. A survey on image data augmentation for deep learning[J]. Journal of Big Data, 2019, 6(1): 1-48.

        [27] BEVILACQUA M, ROUMY A, GUILLEMOT C, et al. Low-complexity single-image super-resolution based on nonnegative neighbor embedding[C]//Procedings of the British Machine Vision Conference 2012. British Machine Vision Association, 2012: 132-143.

        [28] ZEYDE R, ELAD M, PROTTER M. On single image scale-up using sparse-representations[M]//Curves and Surfaces. Heidelberg: Springer, 2012: 711-730.

        [29] KINGMA D P, BA J. Adam: a method for stochastic optimization[EB/OL]. [2021-03-12]. https://xueshu.baidu.com/ usercenter/paper/show?paperid=37a73866f09edd03830b234716447e4f&site=xueshu_se.

        [30] WANG Z, BOVIK A C, SHEIKH H R, et al. Image quality assessment: from error visibility to structural similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612.

        [31] LIM B, SON S, KIM H, et al. Enhanced deep residual networks for single image super-resolution[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). New York: IEEE Press, 2017: 1132-1140.

        [32] ZHANG Y L, TIAN Y P, KONG Y, et al. Residual dense network for image super-resolution[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 2472-2481.

        Image super-resolution reconstruction based on dual attention mechanism

        LI Bin1, WANG Ping1, ZHAO Si-yi2

        (1. College of Electronic Science and Technology, National University of Defense Technology, Changsha Hunan 410072, China; 2. College of Computer Science and Technology, National University of Defense Technology, Changsha Hunan 410072, China)

        In recent years, the convolutional neural network (CNN) has achieved desired results in the field of single image super-resolution (SISR). Deep networks can establish complex mapping between low-resolution and high-resolution images, considerably enhancing the quality of reconstructed images, compared with the traditional methods. Since the existing SISR methods mainly increase the receptive field of convolution kernels by deepening and widening the network structure, and employ equal processing methods in spatial domains and channel domains of varying importance, a large number of computing resources are wasted on unimportant features. In order to address the realistic problems of the existing models, the algorithm proposed in this paper captured implicit weight information in channel and space domains through dual attention modules, so as to allocate computing resources more effectively and speed up the network convergence. The fusion of global features through residual connections in this network not only focused on learning the high-frequency information of images that had been lost, but also accelerated the network convergence through effective feature supervision. In order to alleviate the defects of the MAE loss function, a special Huber loss function was introduced in the algorithm. The experimental results on benchmark show that the proposed algorithm can significantly improve the image reconstruction accuracy compared with the existent SISR methods.

        single image super-resolution; feature supervision; residual connection; channel attention; spatial attention

        TP 399

        10.11996/JG.j.2095-302X.2021020206

        A

        2095-302X(2021)02-0206-10

        2020-08-25;

        25 August,2020;

        2020-10-19

        19 October,2020

        李 彬(1991-),男,陜西渭南人,碩士研究生。主要研究方向為計算機視覺。E-mail:libin10@nudt.edu.cn

        LI Bin (1991-), male, master student. His main research interest covers computer vision. E-mail:libin10@nudt.edu.cn

        王 平(1976-),男,湖北公安人,研究員,博士,碩士生導(dǎo)師。主要研究方向為智能目標識別。E-mail:wangping@nudt.edu.cn

        WANG Ping (1976-), male, researcher, Ph.D. His main research interest covers intelligent target recognition. E-mail:wangping@nudt.edu.cn

        猜你喜歡
        雙重注意力卷積
        自然與成長的雙重變奏
        讓注意力“飛”回來
        基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
        化解“雙重目標”之困
        中國外匯(2019年7期)2019-07-13 05:44:56
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標跟蹤算法
        “揚眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        “雙重打擊”致恐龍滅絕
        一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
        a级毛片免费观看网站| 久久亚洲乱码中文字幕熟女| 亚洲丁香婷婷久久一区二区| 国产无套内射久久久国产| 自拍偷拍亚洲一区| av在线网站手机播放| 日本熟女人妻一区二区| 内射爽无广熟女亚洲| 啪啪免费网站| 99久久免费中文字幕精品| 女同视频一区二区在线观看| 久久久国产精品免费a片3d| 四虎在线播放免费永久视频| 精品人妻久久av中文字幕| 人妻少妇进入猛烈时中文字幕| 久久久国产精品黄毛片| 国产黑色丝袜一区在线| 国产内射视频免费观看| 午夜视频在线瓜伦| 欧美巨大巨粗黑人性aaaaaa| 女人的天堂av免费看| 一本色道88久久加勒比精品 | 九色综合九色综合色鬼| 精品国精品国产自在久国产应用| 国产一级做a爱视频在线| 偷拍色图一区二区三区| 在线播放免费播放av片| 传媒在线无码| 国产精品中文字幕日韩精品| 领导边摸边吃奶边做爽在线观看| 亚洲精品国产v片在线观看| 国产精品国产三级国产在线观| 人妖一区二区三区在线| 日日碰狠狠添天天爽| 亚洲伊人久久成人综合网| 免费国产不卡在线观看| 成人在线免费电影| 国产精品无需播放器| av网站免费在线不卡| 国产97色在线 | 国产| 又爽又黄禁片视频1000免费|