王 威,張 彤,王 新
(長沙理工大學(xué) 計(jì)算機(jī)與通信工程學(xué)院,長沙 410114) E-mail:1214304762@qq.com
圖像超分辨率重構(gòu)是從一幅低分辨率圖像恢復(fù)出一幅相應(yīng)的高分辨率圖像.由于圖像超分辨重構(gòu)技術(shù)能在一定程度上修正由成像設(shè)備或環(huán)境對圖像造成的損壞,圖像超分辨率重構(gòu)技術(shù)被廣泛應(yīng)用于醫(yī)學(xué)[1],衛(wèi)星圖像,安防監(jiān)控[2]等領(lǐng)域.圖像的超分辨率重構(gòu)是一個(gè)病態(tài)的逆問題,從低分辨率圖像重構(gòu)得到的高分辨率圖像結(jié)果并不唯一.早期的超分辨率重構(gòu)方法主要是插值法,此類方法實(shí)現(xiàn)比較簡單,但是重構(gòu)效果不佳.傳統(tǒng)圖像超分辨率重構(gòu)的方法主要有:基于圖像先驗(yàn)信息的方法[3,4],內(nèi)部塊復(fù)用方法(internal patch recurrence)[5,6],傳統(tǒng)的基于學(xué)習(xí)的重構(gòu)方法[7-9].
近年來,隨著深度學(xué)習(xí)網(wǎng)絡(luò)模型展現(xiàn)出強(qiáng)大學(xué)習(xí)能力,一種更加有效的重構(gòu)方法被廣泛用于解決圖像超分辨重構(gòu)這一不適定問題:基于深度學(xué)習(xí)的圖像超分辨率方法.通過訓(xùn)練端到端的網(wǎng)絡(luò)模型,直接學(xué)習(xí)低分辨率圖像與高分辨率之間的映射關(guān)系.
深度學(xué)習(xí)的概念由Hinton等人[10]于2006年提出,是機(jī)器學(xué)習(xí)研究中的一個(gè)新的領(lǐng)域,其動(dòng)機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò).隨著深度學(xué)習(xí)各項(xiàng)技術(shù)的快速發(fā)展,目前深度學(xué)習(xí)被廣泛用于領(lǐng)域,主要包括圖像處理,自然語言處理,文本分析等.下面主要針對圖像超分辨重構(gòu)這一具體研究領(lǐng)域,介紹深度學(xué)習(xí)中相關(guān)關(guān)鍵技術(shù)和網(wǎng)絡(luò)模型的發(fā)展改進(jìn).
傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)采用全連接的方式搭建網(wǎng)絡(luò),這使得隨著網(wǎng)絡(luò)的加深和每一層神經(jīng)節(jié)點(diǎn)的增加,就會(huì)導(dǎo)致網(wǎng)絡(luò)參數(shù)驟增,卷積神經(jīng)網(wǎng)絡(luò)通過卷積核的權(quán)值共享技術(shù)大大減少了神經(jīng)網(wǎng)絡(luò)的參數(shù)數(shù)量.除此之外,卷積神經(jīng)網(wǎng)絡(luò)還由于其較強(qiáng)的特征提取能力和抗位移形變等能力,被廣泛用于圖像處理等領(lǐng)域.卷積神經(jīng)網(wǎng)絡(luò)處除了卷積層,一般還有池化層和全連接層.卷積神經(jīng)網(wǎng)絡(luò)的主要結(jié)構(gòu)如圖1所示.
圖1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)簡圖Fig.1 Schematic diagram of convolutional neural network structure
卷積神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力常常受限于梯度爆炸或梯度消失等問題,隨著 Nomalization[11]、Dropout[12]、Rectified Linear Unit(ReLU)[13]等技術(shù)方法的提出,卷積神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí)梯度爆炸或梯度消失問題有所改善.但是,隨著網(wǎng)絡(luò)層數(shù)不斷加深,網(wǎng)絡(luò)性能并不像我們期望的那樣變得更好,反而會(huì)變得飽和,甚至下降,即出現(xiàn)了退化問題.Kaiming He等人針對這一問題首次提出了殘差網(wǎng)絡(luò)結(jié)構(gòu)[14],殘差網(wǎng)絡(luò)通過恒等連接構(gòu)建深度殘差網(wǎng)絡(luò)來克服退化問題,基本的恒等連接網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,其中H(X)為我們想要學(xué)習(xí)到的最終映射關(guān)系,通過加入恒等連接,可知H(X)=F(X)+X.則恒等連接之間堆疊的非線性層需要學(xué)習(xí)的映射關(guān)系變?yōu)镕(X)=H(X)-X.恒等連接的加入使得中間網(wǎng)絡(luò)層只需要學(xué)習(xí)輸入和目標(biāo)之間的殘差.隨后,諸多基于殘差學(xué)習(xí)思想的深層網(wǎng)絡(luò)結(jié)構(gòu)[15-17]被提出,應(yīng)用到了各個(gè)領(lǐng)域中[18-20].
圖2 殘差學(xué)習(xí):恒等連接Fig.2 Residual learning:identity connection
圖3 密集連接:密集連接網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Dense connection:structure of dense connection network
生成式對抗網(wǎng)絡(luò)[25](Generative Adversarial Networks,GANs)是蒙特利爾大學(xué)的Goodfellow Ian于2014年提出的一種生成模型.如圖4所示,GANs中包含生成模型和鑒別模型.其中生成模型不斷學(xué)習(xí)訓(xùn)練集中真實(shí)數(shù)據(jù)的概率分布.判別模型:判斷輸入的圖片是否是真實(shí)圖片,目標(biāo)是能準(zhǔn)確區(qū)分生成模型生成的圖片與訓(xùn)練集中的圖片.GANs在訓(xùn)練過程中通過相互競爭讓這兩個(gè)模型同時(shí)得到增強(qiáng).由于判別模型的存在,使得在沒有大量先驗(yàn)知識(shí)以及先驗(yàn)分布的前提下也能很好的學(xué)習(xí)逼近真實(shí)數(shù)據(jù),最終讓模型生成的數(shù)據(jù)非常接近真實(shí)數(shù)據(jù).生成模型和鑒別模型可以根據(jù)需要靈活選擇網(wǎng)絡(luò)模型.雖然,生成式對抗網(wǎng)絡(luò)時(shí)還存在難以訓(xùn)練和難以收斂等問題,但其在諸多領(lǐng)域優(yōu)良的實(shí)際應(yīng)用表現(xiàn)和價(jià)值,還是引起了諸多學(xué)者的關(guān)注和業(yè)界的重視.
圖4 生成式對抗網(wǎng)絡(luò)結(jié)構(gòu)簡圖Fig.4 Structure of generative adversarial networks
基于卷積神經(jīng)網(wǎng)絡(luò)的超分辨率模型不同于一般的卷積神經(jīng)網(wǎng)絡(luò)模型,其中一般不包含池化層和全連接層.SRCNN[26]是首次被用于解決圖像超分辨率重構(gòu)問題的深度學(xué)習(xí)模型.ESPCN[27]和FSRCNN[28]在重構(gòu)方法和計(jì)算效率對SRCNN進(jìn)行改進(jìn).ESPCN通過引入了亞像素卷積層高效的完成重構(gòu)時(shí)的上采樣.FSRCNN是針對SRCNN的卷積層進(jìn)行改進(jìn)設(shè)計(jì),并且引入了反卷積層[29]用來實(shí)現(xiàn)上采樣.基于卷積神經(jīng)網(wǎng)絡(luò)的模型一般網(wǎng)絡(luò)結(jié)構(gòu)較淺,簡單的加深卷積神經(jīng)網(wǎng)絡(luò)的深度,在訓(xùn)練時(shí)往往會(huì)變得難以收斂.其中SRCNN只包含了三層卷積層,網(wǎng)絡(luò)感受野大小為13.較小的感受野會(huì)使得在重構(gòu)時(shí)只有小部分區(qū)域的低分辨率圖像信息可以作為參考信息,這在很大程度上制約重構(gòu)效果.
表1 網(wǎng)絡(luò)模型和對應(yīng)的損失函數(shù)
Table 1 Network model and their loss function
網(wǎng)絡(luò)模型 損失函數(shù)SRCNNL(Θ)=1n∑ni=1‖F(xiàn)(Yi;Θ)-Xi‖2EPSCN?(ω1:l,b1:l)=1r2HW∑rHx=1∑rWy=1(IHRx,y-flx,y(ΙLR))2FSRCNNL(θ)=minθ∑ni=1K‖F(xiàn)(Yis;θ)-Xi‖22
淺層的網(wǎng)絡(luò)模型一般感受野都很小,這會(huì)制約重構(gòu)效果,而深層的卷積神經(jīng)網(wǎng)絡(luò)又難以訓(xùn)練.由于在圖像超分辨時(shí),低分辨圖像和高分辨率圖像之間存在大量相同信息,同時(shí)殘差網(wǎng)絡(luò)具有一定的抗退化性能,所以基于殘差學(xué)習(xí)的模型充分利用這些特點(diǎn),使得網(wǎng)絡(luò)只需要學(xué)習(xí)低分辨率圖像和高分辨率圖像之間的殘差映射關(guān)系,這相比于直接學(xué)習(xí)低分辨圖像到高分辨率圖像之間的映射關(guān)系,降低了網(wǎng)絡(luò)參數(shù)的復(fù)雜性,在一定意義上降低了學(xué)習(xí)難度,所以基于殘差學(xué)習(xí)的模型[30,31]一般具有較深的網(wǎng)絡(luò)結(jié)構(gòu).
VDSR[32]提出的網(wǎng)絡(luò)結(jié)構(gòu)中引入了全局殘差學(xué)習(xí),并通過結(jié)構(gòu)可調(diào)梯度裁剪技術(shù)成功將網(wǎng)絡(luò)層數(shù)加深至20層,其感受野增加到41×41(相比SRCNN的13×13).EDSR[33]通過堆疊多個(gè)殘差單元加深網(wǎng)絡(luò),并在網(wǎng)絡(luò)中引入了全局殘差學(xué)習(xí),最終搭建了針對某一特殊重構(gòu)放大尺度的網(wǎng)絡(luò)模型.同時(shí),作者還在EDSR的基礎(chǔ)上,通過在網(wǎng)絡(luò)的前后兩端加入不同重構(gòu)放大尺度的處理模塊構(gòu)建了實(shí)現(xiàn)多尺度重構(gòu)的MDSR網(wǎng)絡(luò).除此之外,DRCN[34]和DRRN[35]通過不斷遞歸殘差單元加深網(wǎng)絡(luò),通過遞歸的方式可以使得在加深網(wǎng)絡(luò)的同時(shí)不增加網(wǎng)絡(luò)參數(shù),其中DRCN包含了16個(gè)遞歸層,整個(gè)網(wǎng)絡(luò)的感受野達(dá)到41×41.DRRN通過不斷遞歸殘差網(wǎng)絡(luò)塊將網(wǎng)絡(luò)結(jié)構(gòu)加深至52層.幾種主要的基于殘差學(xué)習(xí)的模型結(jié)構(gòu)如圖5所示.
低分辨率圖像相對于高分辨率圖像丟失了很多圖像高頻信息,并且每一個(gè)像素點(diǎn)的修復(fù)都與其周邊的圖像像素信息密切相關(guān),所以,在重構(gòu)高分辨率圖像時(shí)我們期望能盡可能多的提供低分辨率圖像信息,這不僅需要網(wǎng)絡(luò)具有更大的感受野,還需要充分利用網(wǎng)絡(luò)中提取的分層特征信息.基于分層特征融合的模型通過在網(wǎng)絡(luò)中引入密集跳步連接,充分融合利用網(wǎng)絡(luò)中的分層特征信息,為重構(gòu)高分辨率圖像提供了更多更豐富的特征信息,這有助于網(wǎng)絡(luò)進(jìn)行更加準(zhǔn)確的圖像重構(gòu).
圖5 基于殘差學(xué)習(xí)的模型的結(jié)構(gòu)簡圖Fig.5 Illustration of network structure based on residual learning
MenNet[36]以Memory block為網(wǎng)絡(luò)單元,對網(wǎng)絡(luò)中Memory block進(jìn)行密集跳步連接,目的就是為了實(shí)現(xiàn)網(wǎng)絡(luò)自適應(yīng)學(xué)習(xí)的連續(xù)記憶功能,同樣在Memory block中把每一個(gè)殘差單元都連接到最后的Gate Unit,與前面的Memory block輸出進(jìn)行特征融合.SRDenseNet[37]以密集網(wǎng)絡(luò)塊作為網(wǎng)絡(luò)的基本單元,在通過跳步連接將每一個(gè)密集單元的輸出連接到后面的卷積層進(jìn)行分層特征融合.RDN[38]在密集單元的基礎(chǔ)引入殘差學(xué)習(xí),構(gòu)建了殘差密集網(wǎng)絡(luò)作為網(wǎng)絡(luò)的基本單元,最后同樣地將每一個(gè)殘差密集網(wǎng)絡(luò)單元的跳步連接至一個(gè)1*1的卷積層進(jìn)行全局特征融合.基于分層特征融合的模型針對特征信息在網(wǎng)絡(luò)局部和全局進(jìn)行融合,使得深層網(wǎng)絡(luò)中各層的特征信息能更加充分的融合利用,為重構(gòu)提供了更多的特征信息,這有助于網(wǎng)絡(luò)實(shí)現(xiàn)更好的重構(gòu)效果.
基于對一般的深度學(xué)習(xí)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練學(xué)習(xí),建立的低分辨率圖像到高分辨率圖像之間的非線性映射關(guān)系,由于人為設(shè)置的基于均方誤差的損失函數(shù)常常使得網(wǎng)絡(luò)最后學(xué)習(xí)到的重構(gòu)結(jié)果往往過于平滑,會(huì)丟失一些真實(shí)高分辨率圖像中的細(xì)節(jié)和高頻信息,雖然在PSNR指標(biāo)評價(jià)取得了好的效果,但是卻不一定能達(dá)到良好的人類視覺感受.生成式對抗網(wǎng)絡(luò)通過生成器和鑒別器的相互博弈,可以使得生成器生成的圖像更加接近真實(shí)的高分辨率圖像,能更加準(zhǔn)確的重構(gòu)出圖像的高頻細(xì)節(jié)部分.
由于存在先天條件等多方面不足,小微企業(yè)普遍面臨嚴(yán)重的融資約束(financial constraints)。其中,如何緩解信貸約束(credit constraints)成為學(xué)術(shù)研究的焦點(diǎn)。在企業(yè)成長理論中,金融資源是小企業(yè)最基礎(chǔ)的資源,信貸約束及信貸可獲得性必然影響小企業(yè)的生存和發(fā)展。首先,信貸約束會(huì)對小企業(yè)的正常經(jīng)營產(chǎn)生直接影響,可能限制小企業(yè)正常支付、研發(fā)投入、新項(xiàng)目投資、經(jīng)營規(guī)模擴(kuò)大等經(jīng)營活動(dòng),最終影響其生存。[2]此外,信貸可獲得性對企業(yè)銷售、資本及就業(yè)等也有重要影響。[3]
SRGAN[39]中通過堆疊多個(gè)殘差模塊構(gòu)建了深層的生成網(wǎng)絡(luò),同時(shí)構(gòu)建了包含8個(gè)卷積層的鑒別網(wǎng)絡(luò).整個(gè)網(wǎng)絡(luò)通過生成器和鑒別器的博弈交替優(yōu)化,最終實(shí)現(xiàn)兩個(gè)網(wǎng)絡(luò)的納什平衡.整個(gè)網(wǎng)絡(luò)的優(yōu)化目標(biāo)如公式(1)所示,其中GθG,DθD分別表示生成函數(shù)和鑒別函數(shù),ILR,IHR分別表示訓(xùn)練圖像對中的低分辨圖像和相應(yīng)真實(shí)高分辨率圖像.
(1)
訓(xùn)練生成模型使其生成的圖像能夠混淆鑒別模型,使鑒別模型難以區(qū)分圖像是真實(shí)圖像還是生成圖像.而訓(xùn)練鑒別模型的目的就是使其盡可能區(qū)分圖像是否為真實(shí)圖像.此外,作者針對生成器的損失函數(shù)進(jìn)行了優(yōu)化,提出了感知損失函數(shù)(perceptual loss),由三部分組成:內(nèi)容損失(content loss),對抗損失(adversarial loss)以及正則化損失(regularization loss),這使得整個(gè)生成式對抗模型產(chǎn)生的圖像更加接近真實(shí)圖像.具體如表2所示,其中φi,j()表示在第i個(gè)池化層之前的第j層卷積層的特征圖譜,Wi,jHi,j表示VGG網(wǎng)絡(luò)中特征圖譜的維度.
表2 感知損失函數(shù)
Table 2 Perceptual loss
AttnGAN[40]提出了細(xì)粒度圖像生成,借助文本描述生成包含充分細(xì)節(jié)重構(gòu)圖像.利用多模態(tài)相似性為目標(biāo),協(xié)同優(yōu)化特征提取,使得GAN性能得到提升.Adrian Bulat[41]等人針對訓(xùn)練時(shí)常常人為對高分辨率圖像進(jìn)行雙線性下采樣以獲得用于訓(xùn)練的低分辨率圖像-高分辨率圖像對.這使得網(wǎng)絡(luò)在處理真實(shí)低分辨率圖像時(shí)難以取得良好的重構(gòu)效果,提出了先利用未配對的高分辨率圖像-低分辨率圖像訓(xùn)練生成式對抗網(wǎng)絡(luò),經(jīng)過訓(xùn)練學(xué)習(xí)到圖像的退化和下采樣方法.再把這個(gè)網(wǎng)絡(luò)的輸出用于訓(xùn)練進(jìn)行重構(gòu)的生成式對抗網(wǎng)絡(luò).這使得生成對抗式網(wǎng)絡(luò)能更好的學(xué)習(xí)到真實(shí)圖像的退化過程,能使重構(gòu)結(jié)果更加真實(shí).
基于深度學(xué)習(xí)的圖像超分辨率重構(gòu)模型在重構(gòu)時(shí)的處理模式一般分為直接處理低分辨率圖像和處理插值預(yù)處理的低分辨率圖像.SRCNN,VDSR,DRCN,DRRN等模型,通過雙三次插值對圖像進(jìn)行退化模糊處理,再通過插值處理對圖像進(jìn)行尺度變換,從而保持網(wǎng)絡(luò)的輸入和網(wǎng)絡(luò)重構(gòu)后的圖像大小保持一致.在重構(gòu)前通過插值預(yù)處理放大低分辨率圖像尺寸,這會(huì)相地應(yīng)增加計(jì)算代價(jià).因此,有些網(wǎng)絡(luò)模型[42,43]直接處理未經(jīng)過預(yù)處理的低分辨率圖像,通過在網(wǎng)絡(luò)中引入ESPCN中的亞像素卷積層模塊或反卷積層模塊實(shí)現(xiàn)重構(gòu)時(shí)的上采樣過程,這使得網(wǎng)絡(luò)可以直接對低分辨率圖像進(jìn)行尺度放大的超分辨率重構(gòu).
本章將對幾種主要得基于深度學(xué)習(xí)的圖像超分辨率重構(gòu)網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn)分析,通過PSNR,SSIM,MOS三個(gè)指標(biāo)對比各個(gè)模型的重構(gòu)效果,并對比分析了每個(gè)模型的重構(gòu)所耗時(shí)間.
實(shí)驗(yàn)以image91作為訓(xùn)練數(shù)據(jù)集,其中包含291張圖像,通過對數(shù)據(jù)集中的圖像進(jìn)行三個(gè)角度(90°,180°,270°)的旋轉(zhuǎn),將數(shù)據(jù)集人為擴(kuò)充到1164張圖像,其中1000張用作訓(xùn)練集,其余的164張用作驗(yàn)證集.測試數(shù)據(jù)集包括Set5,Set14,BSD100,三個(gè)數(shù)據(jù)集分別包含5張,14張,100張圖像,圖6給出了訓(xùn)練數(shù)據(jù)集的部分圖示.
圖6 訓(xùn)練數(shù)據(jù)集圖示Fig.6 Diagram of training data sets
具體的實(shí)驗(yàn)環(huán)境配置如表3所示.實(shí)驗(yàn)對傳統(tǒng)的重構(gòu)方法和幾種主要的深度學(xué)習(xí)框架在Set5數(shù)據(jù)集上的重構(gòu)結(jié)果進(jìn)行了可視化,如圖7所示.其中可以見得.傳統(tǒng)的基于稀疏編碼的重構(gòu)方法相比于基于深度學(xué)習(xí)的模型重構(gòu)效果較差,包含三層卷積層的SRCNN網(wǎng)絡(luò)的重構(gòu)效果較傳統(tǒng)方法有所提高,但是重構(gòu)圖像質(zhì)量整體效果一般.隨著網(wǎng)絡(luò)層數(shù)的加深,基于遞歸殘差學(xué)習(xí)的DRRN和基于密集連接的SRDenseNet重構(gòu)效果都明顯優(yōu)于SRCNN,但是重構(gòu)效果都過于平滑,重構(gòu)圖像中丟失了很多高頻信息.SRGAN通過生成式對抗網(wǎng)絡(luò)模型和對損失函數(shù)的改進(jìn),使得其重構(gòu)效果更加接近真實(shí)原圖.在幾種方法中,SRGAN重構(gòu)圖像更加符合人眼視覺感受,重構(gòu)效果最好,其次是DRRN和SRDenseNet,這表明:1)隨著網(wǎng)絡(luò)層數(shù)的增加和分層特征信息的融合可以重構(gòu)網(wǎng)絡(luò)提供更大的感受野和特征信息,有助于重構(gòu)效果的提升;2)基于生成式對抗網(wǎng)絡(luò)的模型和損失函數(shù)的改進(jìn)使網(wǎng)絡(luò)能學(xué)習(xí)到更加豐富的高頻信息,從而使得重構(gòu)圖像更加接近真實(shí)圖像.
表3 實(shí)驗(yàn)環(huán)境配置
Table 3 Experimental environment configuration
配置名稱 配置參數(shù)操作系統(tǒng)Ubuntu 16.04CPUIntel i7 3.30GHzGPUGTX1080Ti(11G)RAM16G/DDR3/2.10GHzcuDNN版本CuDNN 7.0CUDA版本CUDA9.0深度學(xué)習(xí)框架Caffe
圖7 不同方法在Set5數(shù)據(jù)集上重構(gòu)結(jié)果可視化Fig.7 Reconstruct result of different methods visualization on Set5 dataset
此外,表4給出各個(gè)模型在Set14數(shù)據(jù)集上在原圖進(jìn)行四倍尺度變換的基礎(chǔ)上進(jìn)行重構(gòu)時(shí)對于各個(gè)指標(biāo)的定量分析.下面根據(jù)表中的各種指標(biāo)進(jìn)行具體的比較分析.
對于PSNR和SSIM而言,深層的網(wǎng)絡(luò)模型明顯優(yōu)于淺層的模型,其中RDN由于結(jié)合密集連接和殘差學(xué)習(xí),充分融合利用分層特征信息,未重構(gòu)提供了大量的參考信息,其PSNR和SSIM都為所有比較模型中的最高值,分別為28.92dB和0.7891.基于生成式對抗網(wǎng)絡(luò)的SRGAN由于對目標(biāo)函數(shù)進(jìn)行了改進(jìn),其在PSNR和SSIM指標(biāo)上值并不高,甚至其PSNR結(jié)果在幾種模型中最低,僅有27.01dB.
表4 不同算法模型的定量分析
Table 4 Comparison of quantitative results of different algorithms
Set14(×4)BicubicSRCNNESPCNFSRCNNVDSRDRCNDRRNSRDenseNetRDNSRGANPSNR26.0127.5027.7327.6528.0328.0528.2128.5128.9227.01SSIM0.70250.75120.76110.75860.76750.76710.77210.77810.78910.7815MOS1.862.682.912.883.013.093.283.313.413.61Time0.023s0..237s0.038s0.059s0.301s0.313s0.3290.369s0.354s0.367s
對于MOS取值,也就是人眼視覺效果評價(jià)指標(biāo),該指標(biāo)能反映各個(gè)模型的重構(gòu)結(jié)果在人類視覺感官上的優(yōu)劣.可以看出基于生成式對抗網(wǎng)絡(luò)的SRGAN雖然在PSNR和SSIM指標(biāo)上結(jié)果并不理想,但由于利用對抗訓(xùn)練和對損失函數(shù)進(jìn)行了改進(jìn),SRGAN的重構(gòu)結(jié)果更加接近真實(shí)圖像,更加符合人類的視覺感受.取得的MOS值也是所有模型的最高值,高達(dá)3.61.
對于重構(gòu)時(shí)間而言,深層的網(wǎng)絡(luò)模型勢必會(huì)導(dǎo)致更多的權(quán)值參數(shù)和計(jì)算量,所以深層結(jié)構(gòu)的模型在重構(gòu)時(shí)間上遠(yuǎn)大于淺層模型.在淺層模型中ESPCN和FSRCNN通過對網(wǎng)絡(luò)結(jié)構(gòu)和卷積層的改進(jìn)較SRCNN重構(gòu)更快,用時(shí)分別為0.038s和0.059s.
綜上所述,隨著網(wǎng)絡(luò)層數(shù)的增加,通過殘差學(xué)習(xí)和密集連接使得特征信息的充分融合利用,有利于為網(wǎng)絡(luò)重構(gòu)提供更多的參考信息和緩減學(xué)習(xí)難度,網(wǎng)絡(luò)的重構(gòu)效果也越來越好.其中,以殘差密集網(wǎng)絡(luò)為單元的RDN模型綜合表現(xiàn)最優(yōu).然而,RDN雖然取得了較高的PSNR,SSIM和MOS值.但是其實(shí)際重構(gòu)圖像紋理細(xì)節(jié)過于平滑,很多細(xì)節(jié)高頻信息不能得到很好的重構(gòu)和修復(fù).針對這一問題,SRGAN對損失函數(shù)進(jìn)行改進(jìn),使得重構(gòu)圖像更加接近真實(shí)圖像,對高頻信息的重構(gòu)更加準(zhǔn)確.
圖像超分辨率重構(gòu)是計(jì)算機(jī)視覺領(lǐng)域重要的研究工作,可以促進(jìn)計(jì)算機(jī)視覺領(lǐng)域的其他工作,例如圖像識(shí)別,圖像分割等等,具有相當(dāng)重要的意義.基于深度學(xué)習(xí)的圖像超分辨率重構(gòu)方法自提出以來取得了較大的進(jìn)步和發(fā)展,接下來將對其未來的發(fā)展趨勢進(jìn)行討論.
1)更深更加融合的網(wǎng)絡(luò)結(jié)構(gòu),對于重構(gòu)網(wǎng)絡(luò)來說,更大的深度意味著更大的感受野,同時(shí)利用殘差跳步連接和密集連接重構(gòu)融合網(wǎng)絡(luò)中各個(gè)層的特征信息,都可以為重構(gòu)提供更多的參考信息.網(wǎng)絡(luò)的重構(gòu)效果也會(huì)隨之而提高.
2)改進(jìn)損失函數(shù),目前常見的損失函數(shù)基本上都是基于MSE,結(jié)果表明這種損失函數(shù)可以使得網(wǎng)絡(luò)取得較高的PSNR.但是往往使得重構(gòu)圖像過于平滑丟失了細(xì)節(jié)的高頻信息,通過研究真實(shí)低分辨圖像的退化模型,改進(jìn)損失函數(shù),使得網(wǎng)絡(luò)學(xué)習(xí)到能重構(gòu)更加接近真實(shí)圖像的參數(shù)模型.
3)優(yōu)化生成式對抗網(wǎng)絡(luò),生成式對抗網(wǎng)絡(luò)通過對抗學(xué)習(xí)可以使得網(wǎng)絡(luò)的重構(gòu)圖像具有更多的高頻細(xì)節(jié)信息,更加接近真實(shí)圖像.但是,生成式對抗網(wǎng)絡(luò)本身還存在諸多問題,比如難以訓(xùn)練,不穩(wěn)定等問題.所以對生成式對抗網(wǎng)絡(luò)進(jìn)行優(yōu)化將是接下來的研究熱點(diǎn).
4)更加科學(xué)準(zhǔn)確的評價(jià)標(biāo)準(zhǔn),目前主要的評價(jià)圖像重構(gòu)效果的指標(biāo)多為PSNR和SSIM,但是有些PSNR和SSIM取值高的圖像,質(zhì)量并不一定高.所以PSNR和SSIM并不能很科學(xué)準(zhǔn)確的評價(jià)圖像質(zhì)量,而已有的主觀評價(jià)比較繁雜,且需要大量的人力,操作難度較大.通過對真實(shí)高分辨率圖像的結(jié)構(gòu)分布特點(diǎn)進(jìn)行研究,得到更加準(zhǔn)確的圖像評價(jià)標(biāo)準(zhǔn).這也將是圖像超分辨率重構(gòu)的一個(gè)研究重點(diǎn).