亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于模糊核估計(jì)的圖像盲超分辨率神經(jīng)網(wǎng)絡(luò)

        2023-10-30 10:13:30李公平王子建吳紫薇汪順舟
        自動(dòng)化學(xué)報(bào) 2023年10期
        關(guān)鍵詞:特征方法

        李公平 陸 耀 王子建 吳紫薇 汪順舟

        圖像超分辨率任務(wù)的主要目標(biāo)是將輸入的低分辨率圖像(Low-resolution image,LR)重建成具有更多細(xì)節(jié)的高分辨率圖像(High-resolution image,HR).圖像超分辨率技術(shù)已經(jīng)具有廣泛的應(yīng)用,如遙感圖像分析[1]、醫(yī)學(xué)圖像處理[2]、視頻監(jiān)控圖像處理[3]等.

        近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于深度學(xué)習(xí)的方法在圖像超分辨率任務(wù)上取得了顯著進(jìn)展.其中大部分方法[4-19]只學(xué)習(xí)由雙三次插值(Bicubic)算法退化生成的低分辨率圖像與高分辨率圖像之間的映射關(guān)系.然而,現(xiàn)實(shí)生活中的低分辨率圖像的退化模式是復(fù)雜且未知的,包含了多種因素(如模糊、噪聲、壓縮、幾何失真等),其中模糊的影響最為重要.由于生成網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)時(shí)未考慮模糊,將上述這些模型應(yīng)用到現(xiàn)實(shí)生活的真實(shí)場景中其重建效果不理想,甚至?xí)霈F(xiàn)明顯的模糊和偽影等現(xiàn)象[20].

        為了解決真實(shí)場景圖像超分辨率問題,研究者們提出了許多盲圖像超分辨率方法.一種代表性的方法是從輸入的低分辨率圖像中估計(jì)出所對(duì)應(yīng)的模糊核并用來針對(duì)性地指導(dǎo)圖像超分辨率重建.例如,Zhang 等[21]使用網(wǎng)格搜索的方式來確定模糊核的參數(shù),并且提出了維度拉伸策略來利用模糊核信息.Gu 等[22]提出一種迭代模糊核修正的方法(Iterative kernel correction,IKC)來估計(jì)輸入圖像的模糊核,并結(jié)合維度拉伸策略[21]和空間特征變換(Spatial feature transform,SFT)[23]來利用模糊核信息重建高分辨率圖像.Luo 等[24]沿用了Gu 等[22]的方法來利用模糊核信息,并且提出迭代地進(jìn)行模糊核估計(jì)和圖像超分辨率重建.但是上述方法沒有顯式地從輸入圖像中估計(jì)出完整的模糊核,無法給出模糊核估計(jì)的質(zhì)量評(píng)價(jià),也無法評(píng)價(jià)估計(jì)到的模糊核對(duì)最終超分辨率結(jié)果的影響.此外,上述幾種方法都使用主成分分析(Principal component analysis,PCA)將模糊核拉成的向量進(jìn)行降維,然后將降維后的模糊核向量拉伸成和輸入圖像一樣大小的退化圖,再將退化圖和輸入圖像[21]或圖像特征[22,24]在通道維度上拼接來利用模糊核信息幫助超分辨率重建.這種做法具有一定的局限性,首先這樣做會(huì)丟失一部分模糊核中的信息,不能充分地利用模糊核信息去指導(dǎo)輸入圖像中結(jié)構(gòu)化信息的重建.其次,這種做法只是簡單地將圖像或圖像特征和模糊核特征在通道維度上拼接來利用模糊核信息.其中圖像特征是與輸入圖像的像素值高度相關(guān)的,而由模糊核得到的退化圖只是一組抽象的數(shù)字,將這二者簡單拼接無法高效地利用模糊核信息去指導(dǎo)超分辨率重建過程.

        為了克服上述局限,本文提出了一種基于模糊核估計(jì)的圖像盲超分辨率神經(jīng)網(wǎng)絡(luò)(Blurred image blind super-resolution network based on kernel estimation,BESRNet).BESRNet 主要包括兩部分:模糊核估計(jì)網(wǎng)絡(luò)(Blur kernel estimation network,BKENet)和模糊核自適應(yīng)的圖像重建網(wǎng)絡(luò)(Kernel adaptive super-resolution network,SRNet).此外,為了充分利用模糊核信息幫助超分辨率重建,本文還提出模糊核特征提取器(Blur kernel feature extractor,BKFE),用于從估計(jì)出的模糊核中提取關(guān)鍵信息.給定任意低分辨率圖像,BKENet 從中顯式地估計(jì)出完整的模糊核.緊接著,BKFE從估計(jì)出的模糊核中提取模糊核特征.最后,SRNet 利用提取到的模糊核特征對(duì)圖像特征進(jìn)行調(diào)整并完成輸入圖像的超分辨率重建.特別地,在SRNet 中本文利用提出的模糊核自適應(yīng)特征選擇模塊(Kernel adaptive feature selection,KAFS),根據(jù)模糊核特征對(duì)提取到的圖像特征進(jìn)行動(dòng)態(tài)選擇,從而更高效地利用模糊核信息.本文在多個(gè)圖像超分辨率數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),定性和定量的結(jié)果證明了提出方法的有效性.

        本文的主要貢獻(xiàn)總結(jié)如下:

        1)設(shè)計(jì)了一個(gè)模糊核估計(jì)網(wǎng)絡(luò)BKENet 來估計(jì)輸入低分辨率圖像對(duì)應(yīng)的模糊核.與其他盲超分辨率方法中只估計(jì)出經(jīng)由PCA 降維后的模糊核向量不同,BKENet 能夠顯式地從輸入圖像中估計(jì)出完整的模糊核,從而能夠直觀地評(píng)價(jià)估計(jì)的模糊核的質(zhì)量.

        2)設(shè)計(jì)了一個(gè)模糊核自適應(yīng)的特征選擇模塊KAFS,從而利用提取到的模糊核特征指導(dǎo)輸入圖像的超分辨率重建.與之前的方法不同,本文使用在所估計(jì)的模糊核上提取到的特征來指導(dǎo)輸入圖像的超分辨率重建.給定模糊核特征和低分辨率圖像特征作為輸入,KAFS 模塊能夠根據(jù)模糊核特征動(dòng)態(tài)地為當(dāng)前層級(jí)網(wǎng)絡(luò)選擇合適的特征,從而更有效地利用模糊核信息來指導(dǎo)圖像超分辨率重建.

        1 相關(guān)工作

        1.1 模糊核估計(jì)

        模糊核估計(jì)是圖像處理領(lǐng)域內(nèi)的一個(gè)熱點(diǎn)問題并得到了廣泛的研究.常振春等[25]將圖像的稀疏先驗(yàn)和結(jié)構(gòu)自相似性先驗(yàn)作為正則約束來求解模糊核和清晰圖像.Pan 等[26]提出了一個(gè)新的非線性模型用于處理圖像中過飽和的像素點(diǎn),并且設(shè)計(jì)了更加魯棒的能量函數(shù)來估計(jì)模糊核.Yan 等[27]首先使用一個(gè)分類網(wǎng)絡(luò)來確定輸入圖像中包含的模糊的種類,然后使用一個(gè)回歸網(wǎng)絡(luò)來估計(jì)對(duì)應(yīng)的模糊核.上述方法都是在模糊圖像上估計(jì)模糊核,而本文需要從輸入的低分辨率圖像中估計(jì)出對(duì)應(yīng)的模糊核,其中低分辨率圖像是模糊圖像進(jìn)行下采樣得到的.所以之前提到的方法并不適用于盲超分辨率問題中的模糊核估計(jì).Zhang 等[21]使用網(wǎng)格搜索的方式來確定模糊核的參數(shù).Gu 等[22]提出迭代修正的框架來不斷修正估計(jì)到的模糊核向量.Luo 等[24]提出迭代地進(jìn)行模糊核估計(jì)和超分辨率重建.然而這些方法都只是估計(jì)出模糊核經(jīng)由PCA 降維后的模糊核向量,并沒有顯式地從低分辨率圖像中估計(jì)出完整的模糊核,導(dǎo)致難以對(duì)估計(jì)出的模糊核進(jìn)行直觀的質(zhì)量評(píng)價(jià).為了解決這個(gè)問題,本文設(shè)計(jì)了一個(gè)新的模糊核估計(jì)網(wǎng)絡(luò)BKENet,用于從低分辨率圖像中估計(jì)完整的模糊核.

        1.2 圖像超分辨率

        基于深度學(xué)習(xí)的圖像超分辨率方法通過設(shè)計(jì)深度神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)低分辨率圖像與高分辨率圖像之間的非線性映射.代表性的圖像超分辨率方法可分為以下4 類:1)基于殘差學(xué)習(xí)的方法[5-8].這類方法專門設(shè)計(jì)網(wǎng)絡(luò)來學(xué)習(xí)高分辨率與低分辨率圖像之間的高頻殘差,重建圖像的低頻部分由輸入的低分辨率圖像來進(jìn)行補(bǔ)充.2)基于遞歸神經(jīng)網(wǎng)絡(luò)(Recursive neural network,RNN)的方法[9-12].基于RNN的圖像超分辨率方法通過共享參數(shù)的方式能夠在不引入額外參數(shù)的情況下增加網(wǎng)絡(luò)的深度和感受野并提升最終的效果.3)基于密集殘差連接的方法[13-16].這類方法通過向網(wǎng)絡(luò)中引入密集殘差連接來打通網(wǎng)絡(luò)不同層之間的數(shù)據(jù)和梯度流動(dòng),獲得更加高效的特征表達(dá)從而帶來性能上的提升.4)基于注意力機(jī)制的方法[17-19].通過向網(wǎng)絡(luò)中引入注意力機(jī)制,這類方法可以讓網(wǎng)絡(luò)更加注重于重建高分辨率圖像中的高頻信息,例如紋理邊緣等,最終提升重建結(jié)果的精度.

        然而,上述方式僅針對(duì)雙三次插值一種退化方式進(jìn)行研究,未考慮其他退化方式.因此,直接將上述方法應(yīng)用于多種退化模式生成的低分辨圖像時(shí)模型性能會(huì)下降.為了解決這個(gè)問題,研究者們提出了許多盲圖像超分辨率方法.主要包括以下3 類:1)基于圖像域轉(zhuǎn)換的方法[28-29].這類方法將低分辨率圖像和高分辨率圖像分別看作是兩個(gè)圖像域,然后借鑒圖像域轉(zhuǎn)換的思想對(duì)輸入的低分辨率圖像進(jìn)行超分辨率重建.2)基于內(nèi)部學(xué)習(xí)的方法[30-31].這類方法通過挖掘輸入低分辨率圖像內(nèi)部的重復(fù)信息,如色彩紋理等,來進(jìn)行自學(xué)習(xí)并完成超分辨率重建.3)基于建模退化過程的方法[21-22,24].這類方法使用多種模糊核來模擬真實(shí)的退化過程,生成更加貼近真實(shí)世界低分辨率圖像的訓(xùn)練數(shù)據(jù),并且針對(duì)該模型設(shè)計(jì)網(wǎng)絡(luò)完成超分辨率重建.本文方法屬于上述最后一類盲超分辨率方法.與之前的工作不同,本文提出了一種新的基于模糊核估計(jì)的圖像盲超分辨率網(wǎng)絡(luò)BESRNet.首先從輸入的低分辨率圖像中顯式地估計(jì)出完整的模糊核,然后根據(jù)所估計(jì)的模糊核,動(dòng)態(tài)地調(diào)整不同層級(jí)網(wǎng)絡(luò)的圖像特征,完成輸入圖像的超分辨率重建.

        2 BESRNet

        本文提出的BESRNet 結(jié)構(gòu)如圖1 所示,其包含兩部分:模糊核估計(jì)網(wǎng)絡(luò)(BKENet)和模糊核自適應(yīng)的圖像重建網(wǎng)絡(luò)(SRNet).BKENet 從輸入的低分辨率圖像中估計(jì)出模糊核,SRNet 根據(jù)估計(jì)到的模糊核動(dòng)態(tài)地調(diào)整各層網(wǎng)絡(luò)的特征,實(shí)現(xiàn)圖像超分辨率重建.具體來說,給定任意的低分辨率圖像x,BKENet 從中估計(jì)出對(duì)應(yīng)的模糊核,然后模糊核特征提取器(BKFE)從估計(jì)到的模糊核中提取特征,SRNet 利用模糊核特征對(duì)從輸入圖像中提取到的圖像特征進(jìn)行適應(yīng)性的調(diào)整,最終輸出高分辨率圖像sr.整個(gè)過程可形式化表示為

        其中,Φ(·)代表BKENet,Γ(·)代表模糊核特征提取器,代表提取到的模糊核特征,Ψ(·)代表SRNet.

        BKENet 的介紹見第2.1 節(jié),SRNet 中起特征調(diào)整作用的KAFS 模塊介紹見第2.2 節(jié),模糊核特征提取器用一個(gè)簡單的卷積網(wǎng)絡(luò)實(shí)現(xiàn),其結(jié)構(gòu)如圖1中標(biāo)注所示.

        2.1 模糊核估計(jì)網(wǎng)絡(luò)

        當(dāng)使用與真實(shí)模糊核不相符的模糊核作為先驗(yàn)時(shí),圖像超分辨率網(wǎng)絡(luò)的性能會(huì)有明顯的下降[32],并且會(huì)產(chǎn)生過于平滑或銳化的結(jié)果[22].因此,準(zhǔn)確地從輸入的低分辨率圖像中估計(jì)出模糊核十分必要.

        1)當(dāng)前模糊核估計(jì)方法

        當(dāng)前主流模糊核估計(jì)方法[26,33]將模糊圖像和清晰圖像之間關(guān)系建模為

        其中,b,l,k,n分別代表模糊圖像、清晰圖像、模糊核和加性白高斯噪聲,?代表卷積操作.它們通過優(yōu)化式(5)所示問題來獲取清晰圖像和模糊核

        其中,μ1Rl和μ2Rk分別代表清晰圖像和模糊核的正則項(xiàng).具體來說,給定一個(gè)初始化模糊核,清晰圖像和準(zhǔn)確的模糊核可由式(6)和式(7)迭代優(yōu)化獲得

        然而,上述方法并不適用于本文的問題,因?yàn)檫@些方法都是針對(duì)高分辨率的模糊圖像進(jìn)行設(shè)計(jì),沒有考慮下采樣操作.而本文需要從輸入的低分辨率圖像中估計(jì)出對(duì)應(yīng)的模糊核,其中低分辨率圖像是模糊圖像下采樣獲得的,與原始的模糊圖像的數(shù)據(jù)分布有差異.

        同樣,一些圖像盲超分辨率方法[22,24]也會(huì)估計(jì)低分辨率圖像中包含的模糊,但是它們只估計(jì)出經(jīng)由PCA 降維后的模糊核向量,導(dǎo)致無法直觀地對(duì)估計(jì)到的模糊核進(jìn)行質(zhì)量評(píng)價(jià).為了解決這個(gè)問題,本文設(shè)計(jì)了BKENet 用于從輸入的低分辨率圖像中估計(jì)出完整的模糊核.

        2)BKENet

        本文參考ResNet18[34]設(shè)計(jì)了一個(gè)新的模糊核估計(jì)網(wǎng)絡(luò)BKENet,用于從輸入的任意尺寸的低分辨率圖像中估計(jì)出模糊核,其結(jié)構(gòu)如圖2 所示.本文在ResNet18[34]中的全連接層之前插入了一個(gè)全局池化層,將從輸入圖像中提取到的特征在特征維度上進(jìn)行統(tǒng)一.本文也對(duì)全連接層進(jìn)行了改變,根據(jù)模糊核大小d將輸出層的神經(jīng)元個(gè)數(shù)改為d×d個(gè),網(wǎng)絡(luò)的輸出是模糊核拉成的向量,經(jīng)過變形得到對(duì)應(yīng)的模糊核.

        BKENet 的優(yōu)化目標(biāo)為

        其中,x代表輸入低分辨率圖像,Φ(·)代表BKENet,θB代表BKENet 的參數(shù),k代表待估計(jì)模糊核的真值,?(·)代表正則項(xiàng).

        對(duì)于正則項(xiàng),本文考慮兩個(gè)方面問題:1)估計(jì)得到的模糊核中的權(quán)值總和應(yīng)該等于1,否則會(huì)導(dǎo)致模糊核的能量溢出;2)估計(jì)得到的模糊核的質(zhì)心應(yīng)該在整個(gè)模糊核的中心位置,因?yàn)楸疚纳蓴?shù)據(jù)所用高斯模糊核的質(zhì)心在其正中心.故本文定義正則項(xiàng)為

        其中,Rsum和Rmass_center分別代表模糊核的能量約束和質(zhì)心約束,α和β分別代表這兩項(xiàng)的權(quán)重.具體為

        估計(jì)到的模糊核準(zhǔn)確與否直接影響到輸入低分辨率圖像的超分辨率重建,通過向模糊核估計(jì)網(wǎng)絡(luò)的損失函數(shù)中添加上述正則項(xiàng)能夠使得估計(jì)到的模糊核的精度更高,從而提升最終的超分重建效果.

        2.2 模糊核自適應(yīng)特征選擇模塊

        1)當(dāng)前模糊核利用方法

        當(dāng)前大多數(shù)模糊核均采用Zhang 等[21]提出的維度拉伸策略.具體來說,假定模糊核大小為d×d,首先將模糊核拉成一個(gè)d2維的向量,接著使用PCA技術(shù)對(duì)該向量進(jìn)行降維,得到t維的模糊核向量,再將降維后的模糊核向量每個(gè)維度都拉成與輸入圖像分辨率相同的退化圖,即t個(gè)通道,并且每個(gè)通道都是同一個(gè)值,最終將退化圖和輸入圖像疊加在一起作為網(wǎng)絡(luò)的輸入.但是這種方式并不是最優(yōu)的,退化圖只是一組抽象的數(shù)字,與輸入圖像像素值并沒有直接的關(guān)聯(lián),將其與輸入圖像疊加在一起是不合適的.Gu 等[22]對(duì)該方法進(jìn)行了改進(jìn),將退化圖與圖像特征疊加,然后使用SFT layer[23]來利用模糊核信息.但是圖像特征也是與輸入圖像的像素值高度相關(guān)的,直接將退化圖和輸入圖像或者圖像特征拼接并沒有本質(zhì)的區(qū)別.此外,這種方式破壞了模糊核的空間結(jié)構(gòu),可能無法高效地利用模糊核去指導(dǎo)重建輸入圖像中的結(jié)構(gòu)化信息.為了更高效地利用模糊核信息,本文設(shè)計(jì)了KAFS 模塊.KAFS 模塊在估計(jì)得到的模糊核上使用卷積提取模糊核特征,一定程度上保留了模糊核的空間結(jié)構(gòu),然后根據(jù)提取到的模糊核特征動(dòng)態(tài)地對(duì)圖像特征進(jìn)行調(diào)整和修正.

        2)KAFS 模塊

        為了高效地利用模糊核信息指導(dǎo)超分辨率重建過程,本文借鑒動(dòng)態(tài)卷積[35]中根據(jù)不同輸入進(jìn)行自適應(yīng)調(diào)整的思想設(shè)計(jì)了模糊核自適應(yīng)的特征選擇模塊(Kernel adaptive feature selection module,KAFS module),并將其嵌入到SRNet 中的殘差塊中.

        當(dāng)前標(biāo)準(zhǔn)卷積和動(dòng)態(tài)卷積的操作過程具體為

        其中,F是輸入特征,F′是卷積后的特征,Conv(·)代表卷積操作,π(·)一般稱為顯著性生成器.θ和?分別為Conv(·)和π(·)的參數(shù).對(duì)于標(biāo)準(zhǔn)卷積來說,π ≡1,Conv(·)直接執(zhí)行卷積操作;對(duì)于動(dòng)態(tài)卷積來說,π的輸出作用于Conv的輸出,作為動(dòng)態(tài)卷積層的輸出結(jié)果.

        本文設(shè)計(jì)的KAFS 模塊結(jié)構(gòu)如圖3 所示,其接受圖像特征和模糊核特征為輸入,并且根據(jù)模糊核特征對(duì)圖像特征進(jìn)行調(diào)整和修正.其中,圖像特征調(diào)整和修正的過程由多個(gè)并行的動(dòng)態(tài)特征選擇器(Dynamic feature selector,DFS)完成.本文將多個(gè)DFS 的輸出進(jìn)行融合得到調(diào)整后的圖像特征.KAFS 模塊可形式化表達(dá)為

        圖3 模糊核自適應(yīng)的特征選擇模塊示意圖Fig.3 Architecture of the proposed KAFS module

        其中,HKAFS代表KAFS 模塊,代表第i個(gè)DFS,代表調(diào)整后的圖像特征,代表輸入圖像特征,Fk代表輸入的模糊核特征,Conv(·)代表KAFS 模塊最后的卷積操作,[·,·]代表通道維度上的拼接操作,θConv代表Conv(·)的參數(shù),Fi代表第i個(gè)DFS 的輸出.

        神經(jīng)網(wǎng)絡(luò)中不同層級(jí)卷積提取到的特征包含不同層次的語義信息[36].因此,使用相同的模糊核特征去調(diào)整不同層級(jí)網(wǎng)絡(luò)提取到的圖像特征是不合理的.為了更高效地利用模糊核信息,本文設(shè)計(jì)了動(dòng)態(tài)特征選擇器(DFS),其中包含一個(gè)顯著性生成器π,能夠針對(duì)不同層級(jí)圖像特征的需要,自適應(yīng)地生成模糊核顯著性向量,對(duì)圖像特征進(jìn)行動(dòng)態(tài)選擇和加權(quán),從而更好地利用模糊核信息指導(dǎo)超分辨率重建過程.DFS 的結(jié)構(gòu)如圖4 所示.

        圖4 動(dòng)態(tài)特征選擇器結(jié)構(gòu)示意圖Fig.4 Architecture of the proposed DFS

        DFS 生成的顯著性向量g的具體計(jì)算為

        其中,?代表π的參數(shù),f代表全連接層,p(·)代表全局平均池化操作,?代表通道維度的乘法,(·)+代表ReLU 激活函數(shù).

        然后,DFS 根據(jù)得到的顯著性向量來動(dòng)態(tài)地選擇當(dāng)前層級(jí)網(wǎng)絡(luò)最需要的圖像特征.具體的做法是設(shè)定一個(gè)失活通道比例ξ,將特征圖的所有通道按其顯著性向量的值gj進(jìn)行排序,記輸入通道數(shù)為C,最小的ξ×C個(gè)通道被移除,剩下的每個(gè)通道特征增強(qiáng)gj倍.因此第i個(gè)DFS 可形式化表達(dá)為

        其中,Prun(·)代表顯著性向量的裁剪過程,v=代表從gi中返回(1-ξ)C個(gè)最大值索引,.

        與動(dòng)態(tài)卷積相比,本文設(shè)計(jì)的KAFS 模塊主要有兩點(diǎn)不同:1)動(dòng)態(tài)卷積一般使用顯著性生成器π處理卷積后的特征,而本文直接使用π處理輸入特征,根據(jù)超分辨率網(wǎng)絡(luò)不同層級(jí)的特征需要對(duì)輸入特征進(jìn)行動(dòng)態(tài)選擇;2)動(dòng)態(tài)卷積利用輸入特征對(duì)自身進(jìn)行調(diào)整,即π的輸入只有輸入特征本身,而本文設(shè)計(jì)的KAFS 模塊的輸入包括圖像特征和模糊核特征,KAFS 模塊根據(jù)模糊核特征對(duì)圖像特征進(jìn)行適應(yīng)性調(diào)整.特別地,本文直接在模糊核上提取特征,然后使用模糊核特征對(duì)圖像特征進(jìn)行動(dòng)態(tài)調(diào)整.這樣做保留了模糊核空間結(jié)構(gòu)化信息,更有利于神經(jīng)網(wǎng)絡(luò)利用模糊核進(jìn)行超分辨率圖像重建.

        3 實(shí)驗(yàn)部分

        本節(jié)主要介紹實(shí)驗(yàn)的實(shí)施細(xì)節(jié)與實(shí)驗(yàn)結(jié)果的分析對(duì)比.具體地,第3.1 節(jié)介紹用于訓(xùn)練網(wǎng)絡(luò)的訓(xùn)練集和測試集,第3.2 節(jié)介紹本文方法的實(shí)現(xiàn)細(xì)節(jié),第3.3 節(jié)論述本文方法與其他方法的結(jié)果對(duì)比和分析,第3.4 節(jié)對(duì)本文模型的各部分進(jìn)行分析和討論.

        3.1 數(shù)據(jù)準(zhǔn)備

        3.1.1 模糊核

        本文選用各向同性和各向異性兩種高斯模糊核來生成低分辨率圖像,描述高斯模糊核的協(xié)方差矩陣為

        本文使用8 個(gè)各向同性和8 個(gè)各向異性的高斯模糊核分別處理高分辨率圖像來生成低分辨率圖像.對(duì)于各向同性的高斯模糊核,設(shè)定σ12=σ21=0,并且令σ11=σ22以0.5 為步長在[ 2.5,6 ]之間進(jìn)行8 次采樣;對(duì)于各向異性的高斯模糊核,本文分別設(shè)定σ12=σ21=±1,并且令σ11=σ22以0.5 為步長在[ 2.5,4 ]之間進(jìn)行4 次采樣.訓(xùn)練過程中所用的高斯模糊核如圖5 所示.

        圖5 訓(xùn)練所用的高斯模糊核Fig.5 Visualization of Gaussian kernels used for training

        測試階段本文使用2 個(gè)各向同性和4 個(gè)各向異性的高斯模糊核.對(duì)于測試用的各向同性的高斯模糊核,本文設(shè)定σ12=σ21=0,σ11=σ22分別取 2.0和 6.5;對(duì)于測試用的各向異性的高斯模糊核,本文分別設(shè)定σ12=σ21=±1,σ11=σ22分別取2.0 和4.5.

        3.1.2 數(shù)據(jù)集

        1)訓(xùn)練集

        實(shí)驗(yàn)訓(xùn)練所用的高分辨率圖像來自DIV2K[37](800 幅)和Flickr2K[38](2 650 幅)數(shù)據(jù)集,共3 450幅2K 清晰度的高質(zhì)量圖像.本文首先使用之前介紹的用于訓(xùn)練的高斯模糊核對(duì)這些圖像進(jìn)行模糊,然后使用雙三次插值算法對(duì)其進(jìn)行下采樣,得到訓(xùn)練所用的低分辨率圖像.

        2)測試集

        本文測試所用圖像來自Set5[39],Set14[40],BSD100[41],Urban100[42]和DIV2K[37]的驗(yàn)證集.與訓(xùn)練所用低分辨率圖像生成方式相同,本文使用之前介紹的用于測試的模糊核對(duì)這些圖像進(jìn)行模糊,然后使用雙三次插值算法對(duì)其進(jìn)行下采樣,得到測試所用的低分辨率圖像.

        3.2 訓(xùn)練細(xì)節(jié)

        3.2.1 訓(xùn)練策略

        本文分別在超分辨率放大倍數(shù)為2 倍,4 倍,8倍的設(shè)定下進(jìn)行實(shí)驗(yàn),所有的訓(xùn)練和測試過程都是在RGB 三通道上進(jìn)行.訓(xùn)練過程分為兩步,首先分別訓(xùn)練好BKENet 和SRNet,然后將這兩部分連接在一起進(jìn)行微調(diào).在單獨(dú)訓(xùn)練SRNet 這部分時(shí),使用真值模糊核作為額外的輸入.可以通過優(yōu)化如下問題來獲取SRNet 的參數(shù),即

        其中,Ψ(·)代表SRNet,x代表輸入的低分辨率圖像,k代表用于生成當(dāng)前輸入的低分辨率圖像的模糊核,θ代表SRNet 的參數(shù),y代表輸入低分辨率圖像對(duì)應(yīng)的高分辨率圖像.

        在微調(diào)階段,將SRNet 和BKENet 同時(shí)訓(xùn)練,這一階段的損失函數(shù)定義為

        其中,Φ(·)代表BKENet,Limg代表圖像損失,Lkernel代表模糊核損失,δ代表模糊核損失的權(quán)重,Lkernel具體描述見式(8).損失函數(shù)中包含兩項(xiàng),第1 項(xiàng)是超分放大的圖像和真值圖像之間的L2 損失,第2 項(xiàng)是估計(jì)出來的模糊核的損失,本文使用δ參數(shù)平衡這兩項(xiàng)來達(dá)到最優(yōu)性能.

        3.2.2 參數(shù)設(shè)置

        本文提出的網(wǎng)絡(luò)一共包含16 個(gè)殘差塊,每個(gè)殘差塊中都嵌入了一個(gè)KAFS 模塊.訓(xùn)練網(wǎng)絡(luò)所用的優(yōu)化器選擇Adam[43],參數(shù)設(shè)為β1=0.9,β2=0.999,學(xué)習(xí)率初始化為1×10-4,并且每經(jīng)過40 000個(gè)迭代下降0.2 倍.本文從生成的低分辨率圖像上截取48×48 像素大小的圖像塊輸入到網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,從高分辨率圖像對(duì)應(yīng)的位置截取4 倍大小的圖像塊作為真值,批大小設(shè)為16.本文使用Pytorch 框架實(shí)現(xiàn)提出的方法,并且在一張Tesla V100顯卡上進(jìn)行訓(xùn)練.

        3.3 實(shí)驗(yàn)結(jié)果

        本文使用峰值信噪比(Peak signal noise ratio,PSNR)和結(jié)構(gòu)相似度(Structural similarity,SSIM)對(duì)超分結(jié)果進(jìn)行量化評(píng)價(jià).參與對(duì)比的方法有非盲超分辨率方法密集殘差超分辨率重建網(wǎng)絡(luò) (Residual dense network,RDN)[14],殘差通道注意力超分辨率網(wǎng)絡(luò) (Residual channel attention network,RCAN)[17],雙向回歸超分辨率網(wǎng)絡(luò) (Dual regression network,DRN)[8]和整體注意力超分辨率網(wǎng)絡(luò)(Holistic attention network,HAN)[19],盲超分辨率方法零樣本超分辨率網(wǎng)絡(luò) (“Zero-shot”super-resolution using deep internal learning,ZSSR)[30]和IKC[22].

        對(duì)于非盲超分辨率方法RDN[14]、RCAN[17]、DRN[8]和HAN[19],使用作者提供的預(yù)訓(xùn)練模型進(jìn)行測試;對(duì)于盲超分辨率方法ZSSR[30],重新訓(xùn)練后進(jìn)行測試;對(duì)于盲超分辨率方法IKC[22],使用作者提供的權(quán)重在本文所用訓(xùn)練數(shù)據(jù)上微調(diào)后進(jìn)行測試.此外,為了進(jìn)一步證明所提出方法的有效性,我們?cè)诒疚乃糜?xùn)練數(shù)據(jù)上重新訓(xùn)練了非盲超分辨率方法RDN[14],即多種退化的密集殘差超分辨率網(wǎng)絡(luò)(Residual dense network for multi-degradations,RDNMD),并與本文方法進(jìn)行對(duì)比.

        定量結(jié)果如表1 所示,其中結(jié)果被規(guī)范表示為PSNR (dB)/SSIM,加粗字體代表最優(yōu)的結(jié)果,下劃線代表次優(yōu)的結(jié)果,“—”表示原論文作者未提供相對(duì)應(yīng)的結(jié)果.從表1 中可看出,非盲超分辨率方法RDN[14]、RCAN[17]、DRN[8]和HAN[19]在遇到具有多種退化模式的數(shù)據(jù)時(shí)表現(xiàn)不佳,這表明非盲超分辨率方法很難處理具有多種退化模式的圖像.與RDNMD 對(duì)比,可以看出盡管使用具有多種退化模式的數(shù)據(jù)進(jìn)行訓(xùn)練,非盲超分辨率方法RDN[14]與BESRNet 仍然存在較大差距.這是因?yàn)槠浔旧頉]有考慮到模糊核這個(gè)因素.而BESRNet 可以先估計(jì)出輸入圖像的模糊核,然后根據(jù)估計(jì)到的模糊核來進(jìn)行動(dòng)態(tài)調(diào)整圖像特征以適應(yīng)不同的退化情況.與ZSSR[30]和IKC[22]對(duì)比,BESRNet 具有更高的圖像重建精度,這證明了BESRNet 的有效性.與其他盲圖像超分辨率方法對(duì)比,BESRNet 在多個(gè)放大倍數(shù)設(shè)定下均取得了最優(yōu)的SSIM 值,這表明BESRNet 能夠更加有效地利用模糊核去指導(dǎo)重建輸入圖像中的結(jié)構(gòu)化信息.

        表1 各個(gè)超分方法在基準(zhǔn)數(shù)據(jù)集上的性能對(duì)比(PSNR (dB)/SSIM)Table 1 Performance comparison of different super-resolution methods on benchmark datasets (PSNR (dB)/SSIM)

        放大4 倍任務(wù)上視覺效果對(duì)比如圖6 所示.從圖6中可以看出,非盲超分辨率方法RDN[14]、RCAN[17]、DRN[8]和HAN[19]重建出的圖像質(zhì)量較差,這說明了只考慮雙三次插值下采樣這樣一種簡單的退化模式訓(xùn)練得到的模型,在遇到模糊圖像時(shí)難以完成超分辨率任務(wù).與RDNMD 對(duì)比,本文方法的重建結(jié)果細(xì)節(jié)上更加清楚.如第3 組對(duì)比圖中,RDNMD重建出的結(jié)果窗戶部分的紋理模糊不清,而本文方法的結(jié)果明顯清晰很多,與真值圖像的差距較小,這證明了本文方法的有效性和優(yōu)越性.與盲超分辨率方法ZSSR[30]和IKC[22]的結(jié)果比較,本文方法恢復(fù)出的圖像具有更清楚的邊緣輪廓和更高的對(duì)比度,這進(jìn)一步證明了本文方法的有效性和優(yōu)越性.

        圖6 (×4)各個(gè)超分方法的視覺效果對(duì)比Fig.6 (×4)Visual comparison of different methods

        此外,本文也在真實(shí)世界圖片“chip”上進(jìn)行了放大4 倍結(jié)果對(duì)比,結(jié)果如圖7 所示.可以看出,ZSSR[30]放大后的圖像偽影較為嚴(yán)重.與IKC[22]的結(jié)果對(duì)比,本文提出的方法恢復(fù)出的圖像具有更加清楚的輪廓,并且偽影也更少.這表明在真實(shí)世界圖像上本文方法仍然優(yōu)于盲超分辨率方法ZSSR[30]和IKC[22].

        圖7 (×4)真實(shí)圖像“chip”上的視覺對(duì)比結(jié)果Fig.7 (×4)Visual comparison on real-world image“chip”

        3.4 模型分析

        3.4.1 模糊核估計(jì)網(wǎng)絡(luò)

        本文使用所估計(jì)的模糊核與真值模糊核之間的均方誤差(Mean square error,MSE)和平均絕對(duì)值誤差(Mean absolute error,MAE)來評(píng)價(jià)模糊核估計(jì)結(jié)果.為了驗(yàn)證正則項(xiàng)對(duì)模糊核估計(jì)結(jié)果的影響,本文分別訓(xùn)練了添加正則項(xiàng)和未添加正則項(xiàng)的BKENet,并將這二者的測試結(jié)果進(jìn)行了對(duì)比.為了證明傳統(tǒng)模糊核估計(jì)方法不適用于從低分辨率圖像中估計(jì)模糊核,本文與Pan 等[33]提出的在模糊圖像上估計(jì)模糊核的方法進(jìn)行了對(duì)比.實(shí)驗(yàn)結(jié)果如表2 所示,表2 中的數(shù)據(jù)被規(guī)范表示為MSE×10-5/MAE×10-3.表2 中BKENetw/oR 代表沒有添加正則項(xiàng)的BKENet,BKENetw/R 代表有正則項(xiàng)的BKENet.從表2 中可以看出,Pan 等[33]的方法估計(jì)出的模糊核偏差較大,這表明直接使用之前的從模糊核圖像中估計(jì)模糊核的方法在低分辨率圖像上估計(jì)模糊核不可行.相較于沒有添加正則項(xiàng)的模型,添加了正則項(xiàng)的模型估計(jì)出的模糊核的誤差更小,這表明正則項(xiàng)能夠幫助BKENet 更加準(zhǔn)確地估計(jì)出模糊核.本文從Set5[39]上的測試結(jié)果中隨機(jī)挑選了3 個(gè)模糊核估計(jì)結(jié)果進(jìn)行了可視化對(duì)比,視覺對(duì)比結(jié)果如圖8 所示.圖中第1 列是使用Pan 等[33]方法估計(jì)的結(jié)果;第2 列BKENetw/oR 代表不在損失函數(shù)中添加正則項(xiàng)訓(xùn)練模型的測試結(jié)果;第3 列BKENetw/R 代表在損失函數(shù)中添加正則項(xiàng)訓(xùn)練模型的測試結(jié)果;第4 列是對(duì)應(yīng)的真值(Ground truth,GT).從圖8 中可以看出,Pan 等[33]的方法估計(jì)出的模糊核出現(xiàn)了明顯的失真.這表明傳統(tǒng)的針對(duì)高分辨率模糊圖像進(jìn)行設(shè)計(jì)的模糊核估計(jì)算法無法準(zhǔn)確估計(jì)低分辨率模糊圖像的模糊核.并且添加了正則項(xiàng)之后的結(jié)果與真值也更加接近,這進(jìn)一步表明正則項(xiàng)能夠提升估計(jì)到的模糊核的精度.圖9 給出了其他幾個(gè)測試集上隨機(jī)選取的模糊核估計(jì)結(jié)果的視覺效果對(duì)比,其中每一小幅圖代表一個(gè)數(shù)據(jù)集上的測試結(jié)果,每一小幅圖中的每一列代表一個(gè)方法的估計(jì)結(jié)果,方法的排列順序與圖8中相同.從圖9 中可以看出,Pan 等[33]提出的傳統(tǒng)方法估計(jì)出的模糊核誤差較大,而本文方法估計(jì)出的模糊核與真值十分接近,這進(jìn)一步證明了BKENet 的有效性.

        表2 各個(gè)模糊核預(yù)測方法在基準(zhǔn)數(shù)據(jù)集上的定量結(jié)果對(duì)比 (MSE × 10-5/MAE × 10-3)Table 2 Quantitative comparison of kernel estimation methods on the benchmark datasets (MSE × 10-5/MAE × 10-3)

        圖8 不同方法在Set5[39]上估計(jì)出的模糊核的視覺效果對(duì)比Fig.8 Visual comparison of blur kernels estimated by different methods on Set5[39]

        圖9 不同基準(zhǔn)數(shù)據(jù)集上模糊核估計(jì)結(jié)果的視覺效果對(duì)比Fig.9 Visual comparison of blur kernels estimated by different methods on different benchmark datasets

        3.4.2 模糊核自適應(yīng)的特征選擇模塊

        為了驗(yàn)證KAFS 模塊的有效性,本文也與其他的模糊核利用方式進(jìn)行了對(duì)比.借鑒SRMD[21]中的思想,本文將模糊核放縮到與輸入圖像同樣大小,然后疊加在一起輸入到網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,本文將該模型命名為KZNet (Kernel zooming network).此外,本文使用真值模糊核作為先驗(yàn)來訓(xùn)練盲超分辨率模型ZSSR[30]并將其與SRNet 進(jìn)行比較.為了驗(yàn)證不匹配的模糊核對(duì)超分結(jié)果的影響,本文使用一個(gè)固定的模糊核作為先驗(yàn)來訓(xùn)練SRNet.比較的結(jié)果如表3 所示.

        表3 (×4)使用真值模糊核作為先驗(yàn)的不同方法的量化指標(biāo)對(duì)比(PSNR (dB)/SSIM)Table 3 (×4)Quantitative comparison of different methods with real blur kernels as prior (PSNR (dB)/SSIM)

        表3 中,ZSSRw/k代表使用真值模糊核進(jìn)行訓(xùn)練的ZSSR[30]模型,SRNetw/ok代表使用固定模糊核作為先驗(yàn)訓(xùn)練SRNet 得到的模型,SRNetw/k代表使用真值模糊核作為先驗(yàn)訓(xùn)練SRNet 得到的模型.比較SRNetw/ok與SRNetw/k

        可以看出,使用不匹配的模糊核作為先驗(yàn)會(huì)導(dǎo)致超分性能的嚴(yán)重下降,這也證明了準(zhǔn)確預(yù)測模糊核的必要性.觀察KZNet 的結(jié)果發(fā)現(xiàn),當(dāng)輸入圖像很大的時(shí)候(DIV2K 數(shù)據(jù)集中的測試數(shù)據(jù)是2K 大小),KZNet 性能下降十分明顯,這表明將模糊核放縮到和輸入圖像大小相同,然后再與低分辨率圖像疊加在一起作為輸入來利用模糊核的信息不是最優(yōu)的方式.與ZSSR[30]相比,同樣使用真值模糊核作為先驗(yàn),本文方法的效果提升十分顯著,這表明提出的KAFS 模塊能夠更好地利用模糊核的信息來指導(dǎo)輸入圖像的超分辨率重建過程.上述方法的視覺效果比較如圖10 所示.從圖10 中可以看出,當(dāng)使用真值模糊核作為先驗(yàn)時(shí),本文提出的方法重建出的圖像具有更加清晰的紋理邊緣.

        圖10 (×4)使用真值模糊核作為先驗(yàn)情況下,各個(gè)超分辨率方法的視覺效果對(duì)比,放大觀看效果更佳Fig.10 (×4)Visual comparison of different methods with real blur kernels as prior,zoom in for best view

        本文同樣也對(duì)KAFS 模塊中的DFS 分支數(shù)量和失活的通道數(shù)進(jìn)行了探究,結(jié)果如表4 和表5 所示.

        表4 (×4)不同DFS 分支數(shù)的KAFS 模塊在Set5[39]數(shù)據(jù)集上的定量結(jié)果對(duì)比Table 4 (×4)Quantitative comparison of KAFS module with different numbers of DFS on Set5[39]

        表5 (×4)不同失活通道數(shù)的KAFS 模塊在Set5[39]數(shù)據(jù)集上的定量結(jié)果對(duì)比Table 5 (×4)Quantitative comparison of KAFS module with different numbers of inactive channel on Set5[39]

        表4 中統(tǒng)計(jì)了不同DFS 分支數(shù)訓(xùn)練得到模型的性能指標(biāo)和相對(duì)應(yīng)的參數(shù)量以及乘法加法計(jì)算量(此時(shí)固定失活通道數(shù)為16).從表4 中可以看出,當(dāng)分支數(shù)為1 時(shí),其參數(shù)量和計(jì)算量最少,但是相應(yīng)的性能也最差;當(dāng)分支數(shù)為2 時(shí),參數(shù)量和計(jì)算量略微增加,性能上有明顯的提升;當(dāng)分支數(shù)為4時(shí),參數(shù)量和計(jì)算量繼續(xù)增加,但是性能并沒有隨之提升.這表明相較于單個(gè)分支,使用多個(gè)分支可以從不同方面對(duì)特征進(jìn)行選擇互補(bǔ),但是分支數(shù)量多了會(huì)造成特征冗余,反而不利于學(xué)習(xí).綜上考慮,本文將DFS 分支數(shù)設(shè)置為2.接著本文固定分支數(shù)為2,試驗(yàn)不同的失活通道數(shù)對(duì)性能的影響,結(jié)果如表5 所示.

        本文發(fā)現(xiàn),在特征通道數(shù)設(shè)為64 的情況下,失活通道數(shù)為8 時(shí)效果最好,這是因?yàn)楫?dāng)失活通道數(shù)過多時(shí)會(huì)導(dǎo)致?lián)p失的信息過多從而不利于學(xué)習(xí),而失活通道數(shù)過少又達(dá)不到特征選擇的作用.因此,本文最終將KAFS 模塊中的DFS 分支數(shù)設(shè)為2,每個(gè)DFS 中失活通道數(shù)設(shè)為8.

        3.4.3 BESRNet

        在微調(diào)階段,本文將BKENet 和SRNet 連接在一起構(gòu)成最終的網(wǎng)絡(luò)BESRNet,并且對(duì)BESRNet 使用式(18)中定義的損失函數(shù)再次進(jìn)行訓(xùn)練.本文對(duì)式(18)中用于平衡圖像損失和模糊核損失的系數(shù)δ進(jìn)行了探究,結(jié)果如表6 所示.

        表6 (×4)使用不同δ值訓(xùn)練的模型在DIV2K[37]數(shù)據(jù)集的驗(yàn)證集上的性能對(duì)比Table 6 (×4)Performance comparison of BESRNet with differentδon the validation set of DIV2K[37]

        從表6 中可以發(fā)現(xiàn),隨著δ值的增大網(wǎng)絡(luò)的性能呈現(xiàn)先上升后下降的趨勢,并且在對(duì)比實(shí)驗(yàn)中δ取0.1 時(shí)效果最好,所以本文最終將δ設(shè)置為0.1.

        4 結(jié)束語

        本文提出了一種基于模糊核估計(jì)的圖像盲超分辨率網(wǎng)絡(luò).其主要由兩個(gè)子網(wǎng)絡(luò)構(gòu)成:模糊核估計(jì)網(wǎng)絡(luò)和模糊核自適應(yīng)的圖像重建網(wǎng)絡(luò).模糊核估計(jì)網(wǎng)絡(luò)可以顯式地從任意低分辨率圖像估計(jì)出完整的模糊核.模糊核自適應(yīng)的圖像重建網(wǎng)絡(luò)能夠利用所估計(jì)的模糊核動(dòng)態(tài)地調(diào)整圖像特征,從而能夠適應(yīng)不同模糊圖像的超分辨率重建.本文在常用的超分辨率基準(zhǔn)數(shù)據(jù)集上進(jìn)行了不同模糊核的實(shí)驗(yàn),定量和定性的實(shí)驗(yàn)結(jié)果都表明本文所設(shè)計(jì)網(wǎng)絡(luò)能夠獲得更好的超分辨率效果.在未來的工作中可進(jìn)一步探究高斯模糊之外的更加復(fù)雜的退化模式下的模糊圖像盲超分辨率方法.

        猜你喜歡
        特征方法
        抓住特征巧觀察
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        學(xué)習(xí)方法
        抓住特征巧觀察
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        久久国产亚洲高清观看| 亚洲av成人波多野一区二区| 久久夜色国产精品噜噜亚洲av| 亚洲av无码专区在线观看下载 | 一区二区视频中文字幕| 吃奶呻吟打开双腿做受视频| 亚洲av无码一区二区乱子伦as| 国产精品无码不卡在线播放| 亚洲24小时免费视频| 国产成人av在线免播放观看新| 色噜噜狠狠色综合成人网| 天天射色综合| 成人性生交大片免费看l| 日产精品久久久一区二区 | 国产激情久久99久久| 国产精品美女自在线观看| 尹人香蕉久久99天天拍| 国产伦精品一区二区三区| 国产精品久久久久影视不卡| 白色月光免费观看完整版| 精品日韩亚洲av无码| 成人h动漫精品一区二区| 亚洲av中文无码乱人伦在线咪咕| 国产精品久久久黄色片| 成人乱码一区二区三区av| 精品久久综合亚洲伊人| 按摩师玩弄少妇到高潮hd| 精品国产成人av久久| 四虎影视免费观看高清视频| 女的把腿张开男的猛戳出浆| 一区二区三区高清视频在线| 日日躁夜夜躁狠狠躁| 中文在线√天堂| 日韩精品夜色二区91久久久| 国产亚洲av另类一区二区三区| 午夜精品久久久久久| 久久青青草原国产精品最新片| 日本午夜艺术一区二区| 激烈的性高湖波多野结衣| 99视频全部免费精品全部四虎| 国产一区二区三区不卡在线播放|