亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于模糊核校正的未知退化方式圖像超分辨率

        2022-11-16 02:25:28孔祥屹張海濤
        關(guān)鍵詞:低分辨率真實(shí)世界分辨率

        汪 瀾,孔祥屹,張海濤

        遼寧工程技術(shù)大學(xué) 軟件學(xué)院,遼寧 葫蘆島 125100

        圖像超分辨率重建(super-resolution,SR)是計(jì)算機(jī)視覺領(lǐng)域的經(jīng)典問題,旨在從低分辨率圖像重建出低頻信息準(zhǔn)確并具備豐富高頻紋理細(xì)節(jié)的高分辨率圖像,在監(jiān)控設(shè)備、衛(wèi)星圖像遙感、數(shù)字高清、顯微成像、視頻編碼通信、視頻復(fù)原和醫(yī)學(xué)影像等領(lǐng)域有廣泛的應(yīng)用[1]。自從SRCNN[2]開創(chuàng)了把深度學(xué)習(xí)運(yùn)用到圖像超分辨率問題上的先河以來,該領(lǐng)域有了長足的發(fā)展。傳統(tǒng)的超分辨率方法以深度學(xué)習(xí)與傳統(tǒng)稀疏編碼之間的關(guān)系為依據(jù),將網(wǎng)絡(luò)分為低分辨率圖像特征提取、特征圖非線性映射和圖像重建三個(gè)階段,實(shí)現(xiàn)由低分辨率圖像到高分辨率圖像之間的端到端學(xué)習(xí)。FSRCNN[3]對SRCNN改進(jìn),在最后的重建階段使用了反卷積層進(jìn)行上采樣,前階段直接對低分辨率圖像進(jìn)行處理,在映射前縮小輸入特征維數(shù),使用更小的卷積核,提高了運(yùn)行速度。ESPN[4]提出另一種上采樣方式即亞像素卷積層,先把低分辨率圖像經(jīng)過三個(gè)卷積層得到通道數(shù)為放大倍數(shù)平方的與輸入圖像大小一樣的特征圖像,再經(jīng)過通道重新排列的插值方式得到高分辨率圖像,提高了網(wǎng)絡(luò)效率。隨后,非線性映射部分的改進(jìn)也層出不窮。VDSR[5]加深了網(wǎng)絡(luò)深度,擴(kuò)大感受野并提出殘差結(jié)構(gòu)。其思想非常適用于解決超分辨率問題,在DRCN[6]、RED[7]、DRRN[8]、EDSR[9]和SRGAN[10]等方法中皆有運(yùn)用[11-12]。SRGAN首次將殘差結(jié)構(gòu)引入超分辨率網(wǎng)絡(luò),EDSR通過刪除批量歸一層來擴(kuò)大模型尺寸。SRDenseNet[13]提出Dense Block 在殘差結(jié)構(gòu)的基礎(chǔ)上進(jìn)行改進(jìn),更有效地利用特征圖減輕了梯度消失問題,而ESRGAN[14]進(jìn)一步利用殘差密集塊提高了超分辨率結(jié)果的感知質(zhì)量。但是,上述方法都是基于高分辨率圖像使用理想化的雙三次下采樣后得到的低分辨率圖像進(jìn)行訓(xùn)練。真實(shí)世界的低分辨率圖像由于接收器受不同影響因素,可能存在模糊、噪聲、暗光和其他低質(zhì)量問題。所以,理想化的下采樣得到的數(shù)據(jù)訓(xùn)練出的超分辨率方法不適用于復(fù)雜的真實(shí)世界圖像。

        面向未知退化方式圖像的超分辨率被稱為盲超分辨率。為了模擬真實(shí)世界模糊圖像Kernel GAN[15]使用生成對抗網(wǎng)絡(luò)退化高分辨率圖像,模擬出與真實(shí)世界低分辨率圖像相似的局部圖像塊,然而容易受到噪聲影響導(dǎo)致模擬不準(zhǔn)確。ZSSR[16]提出一種模糊核預(yù)測方法,使用深度學(xué)習(xí)的方法,對每張圖像使用小型CNN 網(wǎng)絡(luò)進(jìn)行無監(jiān)督訓(xùn)練輸出SR 結(jié)果,適用于超分辨率未知退化方式和不理想的圖像。然而,這種方法是一種線性模型,只進(jìn)行單方向的逼近真實(shí)值,不能得到足夠準(zhǔn)確的模糊核。

        為了解決上述問題,設(shè)計(jì)一個(gè)適用于未知模糊核的超分辨率網(wǎng)絡(luò),提出RRDB-SFT(residual-in-residual dense block-spatial feature transform)模型。通過預(yù)測器和校正器從真實(shí)世界模糊圖像中提取更真實(shí)的模糊核和噪聲信息,并注入噪聲,用以模擬出更真實(shí)的低分辨率圖像。非線性映射過程中在殘差密集塊里的每個(gè)卷積層后和全局連接后根據(jù)模糊核信息對特征圖進(jìn)行空間特征變換,提高SR網(wǎng)絡(luò)處理不同模糊圖像的能力,最終使用亞像素卷積得到高分辨率圖像。

        本文的貢獻(xiàn)點(diǎn)主要包括:

        (1)提出一種把真實(shí)世界圖像數(shù)據(jù)集DPED中提取出的模糊核和噪聲信息添加到DIV2K 和Flickr2K 數(shù)據(jù)集中的圖像退化方法,構(gòu)建新的用于訓(xùn)練未知退化方式圖像超分辨率網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)。

        (2)提出一種進(jìn)一步精準(zhǔn)預(yù)測圖像所包含模糊核的模糊核校正方法。

        (3)改進(jìn)非線性映射網(wǎng)絡(luò)結(jié)構(gòu),把殘差密集塊結(jié)構(gòu)和空間特征變換層結(jié)合,使模糊核從始至終參與到超分辨率的非線性映射過程中,對不同退化方式的圖像進(jìn)行有針對性的超分辨率。

        1 相關(guān)工作

        1.1 模糊核對超分辨率的影響

        傳統(tǒng)超分辨率方法為了獲取端到端訓(xùn)練圖像,把高分辨率圖像進(jìn)行雙三次下采樣為低分辨率圖像,即公式(1):

        其中,IHR為高分辨率圖像,ILR為低分辨率圖像。而真實(shí)世界圖像雖然退化方式未知,但是可以理解為包含模糊核和噪聲,即為公式(2):

        其中,k、n和s分別代表模糊核、噪聲和下采樣尺度。故求解準(zhǔn)確的模糊核和噪聲是模擬出準(zhǔn)確低分辨率圖像的關(guān)鍵。DPSR[17]方法設(shè)計(jì)了一個(gè)退化模型代替模糊核估計(jì),通過變量分割技術(shù)引入即插即用的模塊實(shí)現(xiàn)圖像恢復(fù)。所提出的退化參數(shù)模型更加真實(shí),考慮了任意模糊核,進(jìn)而引發(fā)出一個(gè)新的思路,即現(xiàn)有去模糊的方法可以用于模糊核的估計(jì)。KMSR[18]借助生成對抗網(wǎng)絡(luò)WGAN-GP[19]生成模糊核,存儲到模糊核池中。從模糊核池中采樣模糊核構(gòu)建成對的LR-HR訓(xùn)練數(shù)據(jù)集再通過現(xiàn)有的深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行超分辨率。KMSR的思想具有極強(qiáng)的實(shí)踐意義,首次提出難以獲取的真實(shí)世界模糊圖像可以由高分辨率圖像配合模糊核生成。然而模糊核估計(jì)的準(zhǔn)確度低,生成對抗網(wǎng)絡(luò)所生成的圖像不可避免地包含偽影,所以KMSR模擬的待超分辨率圖像無法完全符合完全真實(shí)世界。RealSR在創(chuàng)建訓(xùn)練數(shù)據(jù)時(shí)采用了類似KMSR 的方法,使用Kernel GAN 收集模糊核,并收集噪聲存儲到退化池中,但是單一的模糊核預(yù)測存在較大誤差,噪聲提取過于粗糙。本文采用了退化池的思想,構(gòu)建訓(xùn)練圖像,但是改進(jìn)了模糊核估計(jì)方法和噪聲提取方法。IKC[20]方法通過實(shí)驗(yàn)證明由于預(yù)測問題的不適定性,單個(gè)輸入可能存在多個(gè)候選k。超分辨率對模糊核的估計(jì)異常敏感,模糊核估計(jì)的誤差會在超分結(jié)果中相應(yīng)的放大,造成超分結(jié)果中帶有明顯的偽影。如圖1右上角,當(dāng)網(wǎng)絡(luò)使用的模糊核寬度小于真實(shí)值時(shí),超分結(jié)果的高頻紋理信息明顯存在模糊;與之相反,圖1 左下角模糊核的寬度大于真實(shí)值時(shí),得到的結(jié)果將會過分強(qiáng)調(diào)邊緣信息,甚至存在多層邊緣化的振鈴效果。IKC方法的校正思想具有一定的可取之處,校正過程中所得準(zhǔn)確模糊核可以存儲到退化池中,便于重新構(gòu)建更多適用于訓(xùn)練的圖像。

        1.2 模糊核運(yùn)用到超分辨率的方法

        帶有模糊和噪聲的低分辨率圖像直接輸入超分辨率網(wǎng)絡(luò)會導(dǎo)致圖像非內(nèi)容部分被一同放大產(chǎn)生偽影,SFTGAN[21]提出空間特征變換(spatial feature transform,SFT)的思想,把模糊核單獨(dú)作為非圖像信息輸入到超分辨率過程中。SFT 層位于每個(gè)殘差塊中的卷積層后對特征圖進(jìn)行仿射變換,與模糊核信息通道級聯(lián)后輸入到下一層卷積層中。原始的SFT 是為了生成語義紋理清晰的圖像,結(jié)構(gòu)如圖2所示。但是殘差結(jié)構(gòu)的批量標(biāo)準(zhǔn)化層[22](batch normalization,BN)在Mini-Batch 內(nèi)多張無關(guān)的圖像之間計(jì)算統(tǒng)計(jì)量,弱化了單張圖像本身的一些細(xì)節(jié),不適用于超分辨率網(wǎng)絡(luò)中。采用密集塊[23](dense block)代替殘差塊可以進(jìn)一步利用殘差結(jié)構(gòu),使SFT層更適用于超分辨率網(wǎng)絡(luò)。

        2 方法

        提出的圖像超分辨率算法主要針對傳感器采集的未知退化方式的真實(shí)世界圖像。進(jìn)一步解決了經(jīng)典算法只適用于理想數(shù)據(jù)集而無法應(yīng)用到實(shí)際場景中的問題。首先,為了提煉出與真實(shí)世界圖像處于同域的包含模糊和噪聲的低分辨率圖像,設(shè)計(jì)了更完善的圖像退化框架,得到用于訓(xùn)練的成對圖像。然后,為了精準(zhǔn)學(xué)習(xí)真實(shí)世界圖像包含的模糊核和噪聲,設(shè)計(jì)了模糊核預(yù)測器和校正器并采用了噪聲塊提取方法。所得到的模糊核和噪聲信息既可以擴(kuò)充數(shù)據(jù)集又用以幫助網(wǎng)絡(luò)對不同低質(zhì)量圖像進(jìn)行有針對性的超分辨率。最后,把空間特征變換層嵌入到ESRGAN 的基礎(chǔ)殘差密集塊結(jié)構(gòu)中,達(dá)到了根據(jù)模糊核進(jìn)行超分辨率并提高生成圖像的人眼感知指數(shù)的效果。

        2.1 模擬真實(shí)世界圖像

        用于端到端訓(xùn)練的數(shù)據(jù)集由低分辨率圖像LR和高分辨率圖像HR構(gòu)成。首先構(gòu)建高分辨率圖像。真實(shí)世界拍攝到的高分辨率圖像中雖然有豐富的高頻紋理信息,但包含噪聲,該圖像經(jīng)過雙三次下采樣去除噪聲保存重要低頻信息,所得無噪聲圖像視為高分辨率圖像的清晰圖像即訓(xùn)練HR。低分辨率圖像LR 由高分辨率圖像HR退化所得,退化的依據(jù)為真實(shí)世界圖像所包含的模糊核和噪聲信息。需要從現(xiàn)有圖像中提取模糊核和噪聲信息,用以退化高分辨率圖像。設(shè)計(jì)一個(gè)退化信息提取器,包含模糊核提取器和噪聲提取器。從現(xiàn)有真實(shí)世界圖像中提取模糊核信息和噪聲信息,并存儲至退化池的模糊核集合K和噪聲集合N中。具體流程結(jié)構(gòu)如圖3所示。

        2.1.1 預(yù)測模糊核

        真實(shí)世界圖像可以理解為高分辨率圖像經(jīng)過模糊核k0卷積操作后所得,設(shè)計(jì)小型卷積神經(jīng)網(wǎng)絡(luò),命名為“預(yù)測器”,模擬出模糊核k0。預(yù)測器包含四個(gè)用Leaky ReLU 激活的卷積層和一個(gè)全局平均池化層,結(jié)構(gòu)如圖4所示。

        卷積層給出模糊核k0的空間估計(jì)并形成分布圖。然后全局平均池化層通過取空間平均值給出全局估計(jì)。預(yù)測函數(shù)為公式(3):

        使用已知模糊核訓(xùn)練網(wǎng)絡(luò)參數(shù),達(dá)到網(wǎng)絡(luò)生成圖像接近真實(shí)世界模糊圖像的結(jié)果。所以優(yōu)化方法采用最小化真實(shí)模糊核和網(wǎng)絡(luò)所得模糊核的L2 距離,具體為公式(4):

        其中,θP是預(yù)測器P的參數(shù)。k代表用于訓(xùn)練的已知模糊核。噪聲提取器采用類似模糊核提取器的方式設(shè)計(jì)。對i張圖像進(jìn)行退化信息提取并存儲,為了方便描述,把從真實(shí)世界圖像中提取模糊核和噪聲存儲至退化池并借以生成低分辨率圖像的過程形象如下。

        從真實(shí)世界圖像中獲得LR-HR圖像

        真實(shí)世界圖像集合X中包含i張?jiān)从驁D像Isrc,首先初始化模糊核集合K和噪聲集合N,使用模糊核提取器得到模糊核ki添加到模糊核集合K中;同理使用噪聲提取器得到噪聲信息ni添加到噪聲集合N中。從退化池中隨機(jī)抽取ki和ni對高分辨率圖像IHR退化,得到低分辨率圖像ILR。

        2.1.2 校正模糊核

        即使有預(yù)測器對真實(shí)世界圖像的模糊核進(jìn)行了初步預(yù)測,精確的預(yù)測模糊核是不可能的。由于預(yù)測問題的不適定性,單個(gè)輸入可能存在多個(gè)候選k。超分辨率時(shí)如果使用核寬過大或過小的模糊核估計(jì)值導(dǎo)致超分結(jié)果中不對稱的偽影效果為校正器提供了修改模糊核的依據(jù),模糊核校正的核心思想是利用上一階段的超分結(jié)果,計(jì)算前一階段預(yù)測模糊核和真實(shí)值的誤差,這個(gè)差值即為模糊核需要更新的變量。

        設(shè)計(jì)小型卷積神經(jīng)網(wǎng)絡(luò),命名為校正器,用以校正預(yù)測不準(zhǔn)確的模糊核。結(jié)構(gòu)如圖5所示,輸入的超分結(jié)果首先被五個(gè)使用Leaky ReLU 激活的卷積層處理成特征圖Fsr。注意,超分結(jié)果可能包含模糊核錯(cuò)誤估計(jì)導(dǎo)致的偽影,這些模糊核預(yù)測誤差將被五個(gè)卷積層提取出來。因?yàn)閗是模糊核的低維表示,所以每個(gè)維度的相關(guān)性應(yīng)該越低越好,用兩個(gè)帶有LeakyReLU 的全連接層學(xué)習(xí)模糊核k的內(nèi)部相關(guān)性。模糊核k的內(nèi)部相關(guān)性就是模糊核預(yù)測的誤差。采用SRMD[24]中提出的拉伸策略把預(yù)測的模糊核或上一次校正后的模糊核fk拉伸成特征圖Fk。假設(shè)特征圖Fsr的大小為C×H×W,則模糊核k拉伸后Fk的大小為b×H×W。Fk的第i個(gè)特征圖等同于模糊核fk的第i個(gè)元素。Fk和Fsr兩個(gè)特征圖進(jìn)行通道連接后的大小為(b+C)×H×W。這個(gè)連接結(jié)果經(jīng)過與預(yù)測器相同的方法將其轉(zhuǎn)化為全局的向量表示,采用三個(gè)卷積核大小為1×1 且Leaky ReLU 激活的卷積層給出模糊核變化量的空間估計(jì),全局池化后即為模糊核更新的變化量Δk。訓(xùn)練完好的校正器函數(shù)C的參數(shù)可由最小化校正后的模糊核與真實(shí)值之間的L2距離得到:

        其中,θC為C的參數(shù),Isr為最近一次校正得到的SR結(jié)果。該校正器通過SR 圖像的特征調(diào)整估計(jì)的模糊核,利用調(diào)整后的模糊核得到的SR結(jié)果有較少的偽影。為了方便描述校正流程,本文把校正算法流程形象化如下:

        模糊核校正流程

        第一次校正采用預(yù)測器的結(jié)果k0=P(ILR) ,使用SR 模型得到第一個(gè)SR 結(jié)果ISR0=F(ILR),k0作為校正器的初始值。向校正器輸入預(yù)測模糊核k0,和第一個(gè)SR結(jié)果ISR0,得到模糊核的變化值△ki。改進(jìn)模糊核估計(jì)后輸入到SR模型得到新的SR結(jié)果ISR1。循環(huán)訓(xùn)練,具體可以寫為公式(6)和(7):

        經(jīng)過t次迭代,得到極為接近真實(shí)模糊核的估計(jì)值kt。校正器運(yùn)行結(jié)果得到的真實(shí)模糊核信息同時(shí)用來訓(xùn)練預(yù)測器,進(jìn)行預(yù)測器和校正器交替訓(xùn)練,最終預(yù)測器具有極強(qiáng)的預(yù)測模糊核能力,退化池中也收集了極為接近真實(shí)世界圖像的模糊核。

        2.1.3 噪聲過濾

        退化信息提取器中的噪聲提取器用于得到噪聲信息。真實(shí)世界的圖像中包含了未知分布的噪聲,人工添加的高斯噪聲不能完美模擬真實(shí)世界的噪聲信息。為了使生成的低分辨率圖像與真實(shí)世界圖像具有相似的噪聲分布,直接從真實(shí)世界圖像中提取噪聲圖像塊,注入到模糊下采樣的圖像中。受文獻(xiàn)[25]啟發(fā),設(shè)計(jì)解耦圖像中噪聲和內(nèi)容的規(guī)則,即公式(8)和(9):

        噪聲集合N中收集了{(lán)n1,n2,…,nl}等噪聲塊,從中隨機(jī)選擇ni注入到模糊核下采樣的圖像ID中。這種在訓(xùn)練階段將內(nèi)容和噪聲相結(jié)合的噪聲注入方法使得SR模型能夠區(qū)分圖像內(nèi)容與噪聲,經(jīng)過模糊核下采樣和噪聲注入,得到了與真實(shí)世界圖像處于同域的低分辨率圖像。

        2.2 超分辨率網(wǎng)絡(luò)RRDB-SFT模型

        由于超分辨率本身就是與一對多映射的逆向問題,即使是同一張高分辨率的真實(shí)世界圖像,當(dāng)模糊信息不同,退化后的圖像就會各不相同,相應(yīng)的超分辨率結(jié)果也不相同。所以高質(zhì)量的超分辨率網(wǎng)絡(luò)同時(shí)應(yīng)具備去模糊和超分辨率的能力。如果直接輸入模糊圖像,網(wǎng)絡(luò)會把模糊的內(nèi)容信息當(dāng)作圖像正確內(nèi)容一同放大,因而降低網(wǎng)絡(luò)性能,造成額外不可預(yù)期的偽影或模糊結(jié)果。為了解決以上問題,在ESRGAN 生成器的基礎(chǔ)上改進(jìn),引入空間特征變換SFT層構(gòu)建RRDB-SFT(residual in resdiual dense block-SFT)網(wǎng)絡(luò)。網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。

        網(wǎng)絡(luò)第一部分為特征提取,首次得到特征圖。第二部分為非線性映射基礎(chǔ)塊,基礎(chǔ)塊采用Dense Block 并以RRDB 結(jié)構(gòu)相連。第三部分采用亞像素卷積放大特征圖并卷積生成RGB 三通道圖像。在基礎(chǔ)塊中,對每個(gè)中間層的輸出結(jié)果采用空間特征變換SFT 層結(jié)合模糊核信息。如圖7所示,模糊核信息通過SFT層對每個(gè)中間層的輸出特征圖進(jìn)行仿射變換來影響網(wǎng)絡(luò)的輸出。仿射變換并未參與到對輸入圖像的處理過程中,所以即使模糊核信息不包含圖像內(nèi)容也不會影響原始網(wǎng)絡(luò)對輸入圖像的處理。除此之外,由于SFT層對每層網(wǎng)絡(luò)的中間輸出結(jié)果進(jìn)行操作,所以該操作也能保證殘差密集塊結(jié)構(gòu)起到應(yīng)有的作用。SFT 以模糊核信息為依據(jù),通過縮放和位移對每層中間網(wǎng)絡(luò)輸出的特征圖進(jìn)行仿射變換,具體操作的數(shù)學(xué)表達(dá)式如式(11):

        其中,γ和β為縮放和位移的參數(shù),⊙代表Hadamard積。

        具體來說,假設(shè)第一次卷積得到的特征圖大小為C1×H1×W1,那么模糊核k通過拉伸策略拉伸至b1×H1×W1,再與特征圖進(jìn)行通道連接得到大小為(b1+C1)×H1×W1的圖像。以此通道連接圖像作為輸入,由一個(gè)小型的卷積神經(jīng)網(wǎng)絡(luò)得到縮放和位移參數(shù)γ和β,對特征圖進(jìn)行仿射變換,仿射變換的結(jié)果輸入到下一個(gè)卷積層中。而下一個(gè)卷積層后的SFT層中,模糊核將被拉伸成與下一張?zhí)卣鲌D相同的大小,重復(fù)第一個(gè)卷積層的操作。整個(gè)網(wǎng)絡(luò)中,在基礎(chǔ)塊Dense Block 的每個(gè)卷積層后和基礎(chǔ)塊的全局連接后都使用了SFT層。

        如圖8所示到隨著網(wǎng)絡(luò)的加深,在享受感受野擴(kuò)大帶來優(yōu)化的同時(shí)考慮模糊核對網(wǎng)絡(luò)輸出結(jié)果的影響,避免了模糊核只在第一層被考慮的弊端。

        為了提高生成圖像的紋理細(xì)節(jié),超分辨率網(wǎng)絡(luò)RRDBSFT以GAN網(wǎng)絡(luò)為框架并用退化高分辨率圖像所構(gòu)建的數(shù)據(jù)集訓(xùn)練,使用RRDB-SFT作為生成器。在判別器部分,ESRGAN所采用的Raletivistic Discriminator相對注重全局感知損失而忽略了局部特征,因而會引入很多偽影。因此采用具有固定接收域的Patch Discriminator作為代替,判別器的每個(gè)輸出值都只針對局部的一塊,并反饋給生成器優(yōu)化局部細(xì)節(jié)梯度。為了保證全局一致性,最終的輸出值是所有局部輸出值的平均值。

        2.3 損失函數(shù)

        為了約束網(wǎng)絡(luò)生成高質(zhì)量且視覺效果好的圖像,采用像素?fù)p失、感知損失和對抗損失作為超分辨率網(wǎng)絡(luò)的總損失函數(shù)。L2 損失更多關(guān)注異常值,為了微小的模型提升去引入學(xué)習(xí)更多的噪聲違背了噪聲過濾的初衷,所以像素?fù)p失使用魯棒性更強(qiáng)的L1損失計(jì)算。感知損失采用激活前的VGG-19 提取特征圖計(jì)算MSE 損失促進(jìn)提高邊緣信息等低頻紋理特征的視覺效果。對抗損失用于配合判別器,促進(jìn)生成更真實(shí)的圖像。總體損失函數(shù)(12)由L1 損失函數(shù)(13)、感知損失函數(shù)(14)和對抗損失函數(shù)(15)加權(quán)相加構(gòu)成,依據(jù)ESRGAN 等方法中感知損失使用方式,λ1、λper和λadv分別設(shè)置為0.01、1和0.005。

        2.4 訓(xùn)練過程

        前文提到,校正模糊核依賴于超分辨率結(jié)果,而校正器的訓(xùn)練過程中需要保證超分辨率網(wǎng)絡(luò)的參數(shù)不變。所以首先使用提出的RRDB-SFT 網(wǎng)絡(luò)在傳統(tǒng)的雙三次下采樣的數(shù)據(jù)集上訓(xùn)練,過程中由于數(shù)據(jù)集沒有考慮到模糊核和噪聲的影響,所以k使用默認(rèn)值即可,空間特征變換過程不改變特征圖。這次訓(xùn)練得到的網(wǎng)絡(luò)稱為首次訓(xùn)練網(wǎng)絡(luò)。接下來提取噪聲后校正器和預(yù)測器進(jìn)行交替訓(xùn)練。使用真實(shí)世界圖像,由預(yù)測器先得模糊核信息預(yù)測值,而后校正器使用首次得到模糊核信息的真實(shí)值,這個(gè)真實(shí)值也將用于預(yù)測器的再次訓(xùn)練。最后,退化池中已經(jīng)存儲了相當(dāng)數(shù)量的模糊核信息和噪聲信息,按照圖1流程生成人工模擬的真實(shí)世界低分辨率圖像。這些圖像將用于RRDB-SFT 帶有空間特征變換的二次訓(xùn)練,得到的網(wǎng)絡(luò)即為最終生成器網(wǎng)絡(luò)。隨著退化池中存儲的模糊核和噪聲信息擴(kuò)充,網(wǎng)絡(luò)效果將持續(xù)提高。

        3 實(shí)驗(yàn)

        3.1 數(shù)據(jù)準(zhǔn)備和網(wǎng)絡(luò)訓(xùn)練

        DPED[26]數(shù)據(jù)集包含5 614張由iPhone3相機(jī)拍攝的圖像,該數(shù)據(jù)集都是未經(jīng)過處理的真實(shí)世界圖像,包括噪聲、模糊等低質(zhì)量問題。通過模糊核和噪聲提取器,從該數(shù)據(jù)集中收集模糊核和噪聲信息。

        DIV2K[27]包含了1 000 張高清圖像(2K 分辨率),采用從DPED 數(shù)據(jù)集收集到的噪聲和模糊信息對其進(jìn)行退化,得到用于訓(xùn)練網(wǎng)絡(luò)的LR-HR圖像對。其中800張為訓(xùn)練集,100張為驗(yàn)證集,100張為測試集。從該數(shù)據(jù)集的實(shí)驗(yàn)中可以得到具體定量分析的結(jié)果。

        Flickr2k[28]數(shù)據(jù)集包含了2 650 張高分辨率圖像和對應(yīng)的雙三次下采樣結(jié)果,用于進(jìn)行RRDB-SFT模型的首次訓(xùn)練。

        首次訓(xùn)練時(shí),模糊核提取器和校正器采用默認(rèn)值,此時(shí)在不考慮模糊核和噪聲的前提下,得到超分辨率模型的相關(guān)參數(shù)。然后對預(yù)測器和校正器進(jìn)行交替訓(xùn)練,二者訓(xùn)練過程中RRDB-SFT 參數(shù)固定不變。參照表1中的訓(xùn)練流程,首先使用公式(4)更新預(yù)測器的參數(shù),然后使用公式(5)至(7)更新校正器的參數(shù)。經(jīng)過實(shí)驗(yàn)最終采用β1=0.9,β2=0.999,學(xué)習(xí)率為1×10-4Adam 優(yōu)化器進(jìn)行訓(xùn)練。采用Pytorch 框架實(shí)現(xiàn)模型,并使用NVIDIA 1060 GPU進(jìn)行訓(xùn)練。

        3.2 評價(jià)指標(biāo)

        峰值信噪比PSNR和結(jié)構(gòu)相似性SSIM是使用最為廣泛的圖像客觀評價(jià)指標(biāo)。其中PSNR 基于計(jì)算對應(yīng)像素點(diǎn)之間的誤差,即基于誤差敏感的圖像質(zhì)量評價(jià)。SSIM 則利用滑動(dòng)窗將圖像分塊,采用高斯加權(quán)計(jì)算每一窗口的均值方差以及協(xié)方差,然后計(jì)算對應(yīng)塊的結(jié)構(gòu)相似性,最后將平均值作為兩圖像的結(jié)構(gòu)相似性度量。然而二者并未考慮到人眼的視覺特性,人眼對空間頻率交替和亮度對比差異敏感度較高,對一個(gè)區(qū)域的感知結(jié)果會受到其周圍鄰近區(qū)域的影響,因此常出現(xiàn)評價(jià)結(jié)果與人的主觀感覺不一致的情況。為此本文額外采用感知圖像塊相似度LPIPS指標(biāo),更注重圖像的視覺特征是否相似。其采用預(yù)先訓(xùn)練好的Alexnet[29]提取圖像特征然后計(jì)算兩個(gè)特征之間的距離,因此LPIPS 值越小,生成圖像視覺上越接近真實(shí)值。

        3.3 校正模糊核實(shí)驗(yàn)

        校正器無法只進(jìn)行一次校正得到模糊核的準(zhǔn)確值,存在校正不足和過度校正的情況。在退化的DIV2K數(shù)據(jù)集中的驗(yàn)證集100張圖像上進(jìn)行校正實(shí)驗(yàn),采用較小的校正尺度進(jìn)行多次校正,使用校正所得模糊核進(jìn)行超分辨率后與原DIV2K 數(shù)據(jù)集高分辨率圖像計(jì)算PSNR數(shù)值。

        圖9 中兩條折線分別代表驗(yàn)證集中校正次數(shù)最多和最少的兩張圖像,最理想的圖像1在第三次校正后收斂,最復(fù)雜的圖像2在第6次校正后收斂,收斂后超分網(wǎng)絡(luò)生成的圖像質(zhì)量增長趨于平緩。其余98張圖像的收斂點(diǎn)皆出現(xiàn)在兩條虛線之間。為了得到準(zhǔn)確的模糊核,測試時(shí)對每張圖像都采用6次校正。此時(shí)雖然SR結(jié)果并不是最優(yōu)結(jié)果,但模糊核估計(jì)已經(jīng)接近真實(shí)值,超分結(jié)果避免了模糊核估計(jì)誤差導(dǎo)致的偽影。

        3.4 退化圖像評估

        3.4.1 定量評估

        Flickr2K和DIV2K作為經(jīng)典雙三次下采樣數(shù)據(jù)集,與經(jīng)典算法的對比實(shí)驗(yàn)有實(shí)際意義,其訓(xùn)練結(jié)果能夠證明RRDB-SFT方法在傳統(tǒng)超分辨率范疇內(nèi)的魯棒性。選擇EDSR、ESPCN作為經(jīng)典方法代表,ZSSR、KernelGAN和IKC作為考慮模糊核方法的代表,以及ESRGAN作為考慮感知指數(shù)的代表方法與本文改進(jìn)方法在Flickr2K和DIV2K 數(shù)據(jù)集雙三次下采樣尺度為8 的部分上進(jìn)行對比實(shí)驗(yàn)。計(jì)算測試集中HR 圖像與生成圖像的PSNR、SSIM和LPIPS的平均值。

        從表1可見,在傳統(tǒng)雙三次下采樣情況下RRDB-SFT方法繼承了殘差結(jié)構(gòu)的優(yōu)點(diǎn),以足夠深的網(wǎng)絡(luò)結(jié)構(gòu)取得了與目前經(jīng)典方法相持平的PSNR和SSIM數(shù)值。由于EDSR 和ESPCN 等方法追求像素級的圖像保真而忽略了感知損失,所以RRDB-SFT獲得了最好的LPIPS性能,說明本文方法生成的圖像具備最更高的視覺感知質(zhì)量。雖然本方法的PSNR 略低于EDSR,但這是因?yàn)橐话闱闆r下PSNR 和LPIPS 指標(biāo)并不是正相關(guān)的,甚至在一定范圍內(nèi)呈相反關(guān)系。ESRGAN方法涉及到了感知指數(shù),在LPIPS 數(shù)值上取得了一定的提高,但其使用的VGG-128網(wǎng)絡(luò)更深,注重全局忽略了局部的細(xì)節(jié)紋理,所以效果沒有RRDB-SFT采用的VGG-19更理想。KernelGAN、ZSSR 和IKC 等方法的研究主要針對處理模糊核信息,在雙三次下采樣的數(shù)據(jù)集上相對于本文方法和經(jīng)典方法呈現(xiàn)出次優(yōu)水平。

        表1 在Flickr2k和DIV2K數(shù)據(jù)集上與EDSR、ESPCN、ZSSR、KernelGAN、IKC和ESRGAN的定量對比結(jié)果Table 1 Quantitative result on Flickr2K and DIV2K dataset compared with EDSR,ESPCN,ZSSR,KernelGAN,IKC,and ESRGAN

        為了量化RRDB-SFT 在處理未知模糊核的真實(shí)世界圖像的實(shí)驗(yàn)效果,從DPED數(shù)據(jù)集的真實(shí)世界圖像中收集到模糊核和噪聲信息,使用模糊核退化DIV2K 中的高分辨率圖像后進(jìn)行尺度為8 的下采樣并注入噪聲。使用800張圖像訓(xùn)練對比實(shí)驗(yàn)的方法,計(jì)算測試集中100 張圖像超分結(jié)果與DIV2K 中高分辨率圖像的PSNR、SSIM和LPIPS平均值。

        從表2可見,考慮了模糊核和噪聲影響的RRDB-SFT方法應(yīng)對未知模糊核的真實(shí)世界圖像超分辨率問題的能力明顯強(qiáng)于傳統(tǒng)超分辨率方法。由于退化處理為模糊化和注入噪聲,信號功率和噪聲功率明顯提高,所以本方法PSNR數(shù)值取得了顯著的提高。真實(shí)世界圖像退化方式更為復(fù)雜,所以數(shù)值無法比擬在簡單的雙三次下采樣數(shù)據(jù)集上的測試結(jié)果。退化處理并未對圖像亮度、結(jié)構(gòu)和對比度進(jìn)行過多改變,所以SSIM 數(shù)值的提高較小。ZSSR、KernelGAN 和IKC 等方法應(yīng)對模糊核的能力在該數(shù)據(jù)集上顯示出優(yōu)于經(jīng)典方法的結(jié)果,但由于ZSSR和KernelGAN的模糊核預(yù)測存在誤差,所以PSNR和SSIM指標(biāo)低于RRDB-SFT。IKC方法雖然能夠準(zhǔn)確預(yù)測模糊核,但其止步于糾正了模糊核匹配錯(cuò)誤導(dǎo)致的模糊,沒有考慮感知損失。較低的LPIPS 數(shù)值證明了RRDB-SFT 方法所重視的視覺感知質(zhì)量依舊明顯高于對比實(shí)驗(yàn)方法。

        表2 在未知模糊核退化的DIV2K數(shù)據(jù)集上與EDSR,ESPCN,ZSSR,KernelGAN,IKC和ESRGAN的定量對比結(jié)果Table 2 Quantitative result on degraded DIV2K data set compared with EDSR,ESPCN,ZSSR,KernelGAN,IKC,and ESRGAN

        3.4.2 定性評估

        對退化的DIV2K 采用不同方法進(jìn)行超分辨率,從圖10 中可以看到不同的方法在同一張圖像中展現(xiàn)出的局部細(xì)節(jié),和對比實(shí)驗(yàn)方法相比,RRDB-SFT,紋理更加豐富,產(chǎn)生的偽影要少得多,幾乎不含有明顯噪聲。這得益于注入的噪聲經(jīng)過過濾,網(wǎng)絡(luò)具備分辨噪聲和內(nèi)容的能力。但極個(gè)別情況下,模糊核估計(jì)還存在誤差,核寬度判斷過大導(dǎo)致了一些圖像邊緣過于銳化的問題。

        3.5 模型的優(yōu)越性

        為了驗(yàn)證在殘差密集塊中嵌入SFT 層的結(jié)構(gòu)在不同數(shù)據(jù)集中相較于原始在殘差網(wǎng)絡(luò)中使用的優(yōu)越性,設(shè)計(jì)對比實(shí)驗(yàn)。分別把SFT 層應(yīng)用在殘差塊和刪除BN層的殘差密集塊結(jié)構(gòu)中訓(xùn)練網(wǎng)絡(luò),在Set5[30]、Set14[31]、BSD100[32]和退化DIV2K數(shù)據(jù)集中按8∶1∶1比例隨機(jī)分配訓(xùn)練集、驗(yàn)證集和測試集,計(jì)算測試集生成圖像與Ground Truth的PSNR、SSIM和LIPIS的平均值。

        從表3 可見,RRDB-SFT 模型的結(jié)果輸出更令人滿意。證明了RRDB刪除了BN層并使用了殘差密集塊結(jié)構(gòu)相比于原始?xì)埐罱Y(jié)構(gòu)的優(yōu)越效果。對于圖像超分辨率問題來說,網(wǎng)絡(luò)輸出的圖像在色彩、對比度、亮度上要求和輸入一致,改變的僅僅是分辨率和一些細(xì)節(jié)。而Batch Norm 類似一種對比度的拉伸,任何圖像經(jīng)過Batch Norm后,其色彩的分布都會被歸一化,破壞了圖像原本的對比度信息所以Batch Norm的加入反而影響了網(wǎng)絡(luò)輸出的質(zhì)量。

        3.6 消融實(shí)驗(yàn)

        3.6.1 實(shí)驗(yàn)設(shè)置

        為了進(jìn)一步驗(yàn)證模糊核估計(jì)、校正、噪聲注入和SFT 層的必要性,對DPED 數(shù)據(jù)集隨機(jī)選取100 張圖像進(jìn)行了消融實(shí)驗(yàn)。實(shí)驗(yàn)設(shè)置如下:

        雙三次下采樣:在此設(shè)置下,僅采用Bicubic 核對Flickr2k數(shù)據(jù)集中的HR圖像下采樣,然后直接使用這些配對圖像訓(xùn)練不包含SFT 層的網(wǎng)絡(luò)。由于網(wǎng)絡(luò)中不涉及SFT層,所以不需要進(jìn)行模糊核預(yù)測和校正以及噪聲注入等操作。

        噪聲:此設(shè)置是在雙三次下采樣的圖像基礎(chǔ)上增加噪聲提取和注入操作,由于沒有使用模糊核預(yù)測和校正,所以SFT層采用默認(rèn)值??梢酝ㄟ^觀察這個(gè)設(shè)置來驗(yàn)證模糊核預(yù)測和校正與所提出完整方法的有效性。

        模糊核預(yù)測和校正:該設(shè)置使用模糊核預(yù)測和校正生成數(shù)據(jù)集訓(xùn)練網(wǎng)絡(luò)。由于訓(xùn)練集圖像沒有注入噪聲,所以可以證明噪聲注入的有效性。

        SFT層:該設(shè)置使用本文生成的含模糊和噪聲數(shù)據(jù)集訓(xùn)練不包含SFT層的網(wǎng)絡(luò),因此可以證明模糊核通過SFT層參與到超分辨率過程中的重要性。

        RRDB-SFT:采用全部組件訓(xùn)練完整網(wǎng)絡(luò),此設(shè)置下的結(jié)果與前四個(gè)設(shè)置進(jìn)行對比,所以可以證明每個(gè)步驟的有效性。

        3.6.2 消融實(shí)驗(yàn)結(jié)果分析

        模糊核預(yù)測和校正的影響:從圖11可以看出RRDBSFT比Noise更清晰。這證明了模糊核預(yù)測和校正在SR訓(xùn)練中是重要的,可以幫助SR 模型生成低頻信息區(qū)域更清晰的邊緣。

        噪聲注入的影響:在實(shí)驗(yàn)設(shè)置中,將噪聲注入作為一個(gè)選項(xiàng)來驗(yàn)證其是否必要。如圖11 所示,在沒有噪聲注入的情況下,“Kernel”結(jié)果有很多偽影。注入噪聲與源域圖像噪聲分布一致,保證了SR 模型在測試時(shí)對噪聲的魯棒性。

        SFT層的影響:如圖11所示RRDB-SFT結(jié)果比SFT結(jié)果更清晰,所以根據(jù)特定圖像的退化方式進(jìn)行有針對性的超分辨率結(jié)果要優(yōu)于固定網(wǎng)絡(luò)千篇一律的超分辨率流程所產(chǎn)生的結(jié)果。

        由于DPED數(shù)據(jù)集為手機(jī)拍攝圖像,沒有明確的超分辨率目標(biāo)。為了對消融實(shí)驗(yàn)結(jié)果進(jìn)行定量分析,使用DPED 數(shù)據(jù)集中收集的模糊核和噪聲信息隨機(jī)退化1 000 張F(tuán)lickr2K 中的高分辨率圖像,按照消融實(shí)驗(yàn)設(shè)置五組實(shí)驗(yàn),并計(jì)算其中100張測試集圖像PSNR、SSIM和LPIPS的平均值。

        從表4可見,第一組實(shí)驗(yàn)中采用雙三次下采樣數(shù)據(jù)對SR 模型直接進(jìn)行訓(xùn)練,可以理解為殘差密集塊網(wǎng)絡(luò)的微調(diào),本組實(shí)驗(yàn)僅證明方法在傳統(tǒng)意義上的魯棒性。從第二組與第三組實(shí)驗(yàn)可見準(zhǔn)確預(yù)測模糊核和噪聲注入都能有效提高超分辨率結(jié)果的圖像保真度。由于訓(xùn)練集選取的隨機(jī)性,模糊核預(yù)測準(zhǔn)確的效果要明顯優(yōu)于噪聲注入對超分辨率結(jié)果的影響。從第五組實(shí)驗(yàn)于其他四組實(shí)驗(yàn)的LPIPS結(jié)果對比可見,生成對抗網(wǎng)絡(luò)中判別器的加入對于圖像的感知指數(shù)有明顯的提高。

        表4 消融實(shí)驗(yàn)設(shè)置下的超分辨率結(jié)果對比Table 4 Comparison of super-resolution results under ablation experiment settings

        4 總結(jié)

        針對真實(shí)世界圖像超分辨率問題,通過退化信息提取器構(gòu)建專門用于此類問題的數(shù)據(jù),數(shù)據(jù)中的模糊核信息和噪聲信息經(jīng)過校正器和過濾比現(xiàn)有方法得到的模糊核估計(jì)值更準(zhǔn)確,生成的低分辨率圖像更接近于真實(shí)世界圖像。因此,把無監(jiān)督網(wǎng)絡(luò)要完成的任務(wù)變化為有監(jiān)督的端到端訓(xùn)練。構(gòu)建了一種新型且有效的網(wǎng)絡(luò)模型,充分考慮真實(shí)世界圖像中模糊核和噪聲因素的影響,借助RRDB結(jié)構(gòu)融入到超分辨率網(wǎng)絡(luò)中。

        本文進(jìn)一步的工作為區(qū)分不同環(huán)境下的真實(shí)世界存在的模糊核和噪聲信息,針對特殊環(huán)境設(shè)計(jì)特殊的退化池,擴(kuò)充數(shù)據(jù)集的同時(shí),設(shè)計(jì)更緊湊和高效的網(wǎng)絡(luò)結(jié)構(gòu),對算法進(jìn)行持續(xù)改進(jìn)。

        猜你喜歡
        低分辨率真實(shí)世界分辨率
        基于全局和局部特征集成的低分辨率人臉識別方法
        多替拉韋聯(lián)合拉米夫定簡化方案治療初治HIV感染者真實(shí)世界研究
        傳染病信息(2022年6期)2023-01-12 08:57:10
        紅外熱成像中低分辨率行人小目標(biāo)檢測方法
        參麥寧肺方治療223例新冠病毒感染者的真實(shí)世界研究
        基于偏移學(xué)習(xí)的低分辨率人體姿態(tài)估計(jì)
        EM算法的參數(shù)分辨率
        原生VS最大那些混淆視聽的“分辨率”概念
        樹木的低分辨率三維模型資源創(chuàng)建實(shí)踐
        虛擬世界和真實(shí)世界的紐帶
        基于深度特征學(xué)習(xí)的圖像超分辨率重建
        国产在线不卡一区二区三区| 国产精品无码一本二本三本色| 熟妇激情内射com| 中国凸偷窥xxxx自由视频妇科| 国产一在线精品一区在线观看| 中字无码av电影在线观看网站| 国产在线视频一区二区三区| 久久久噜噜噜久久中文字幕色伊伊| 国产精品毛片久久久久久l| AV中文码一区二区三区| 色婷婷一区二区三区四| 大香蕉国产av一区二区三区 | 亚洲精品久久国产精品| 九九久久99综合一区二区| 成人性做爰aaa片免费看| 国产毛片视频网站| 天堂Av无码Av一区二区三区 | 国产av在线观看91| 成人影院在线观看视频免费| 亚洲自偷精品视频自拍| 久久99精品久久久久久秒播| 四虎欧美国产精品| 亚洲精品2区在线观看| 精品国产色哟av一区二区三区 | 日韩人妻无码一区二区三区久久| 天堂草原电视剧在线观看图片高清| 亚洲AV无码秘 蜜桃1区| 日本女优禁断视频中文字幕| 国产精品内射久久一级二| 日本丰满熟妇videossex一| 精品人妻人人做人人爽| 国产一区二区三区韩国| 澳门精品一区二区三区| 国产在线无码精品无码| 无码国产一区二区三区四区| 人妻丰满av无码中文字幕| 白白色日韩免费在线观看| 国产亚洲精品一区二区无| 久久99精品九九九久久婷婷| 亚洲欧美日韩高清专区一区| 最新手机国产在线小视频|