王相海,趙曉陽,王鑫瑩,趙克云,宋傳鳴
(1.遼寧師范大學地理科學學院,遼寧大連 116029;2.遼寧師范大學計算機科學與信息技術學院,遼寧大連 116081)
卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN)[1,2]作為一 種具有 深層結 構的前 饋神經(jīng)網(wǎng)絡(Feedforward Neural Networks,F(xiàn)NN),其強勁的表征學習能力被計算機視覺領域所關注[3,4],其中CNN 所具有的網(wǎng)絡權值共享特性以及對平移、縮放的高度不變性被應用于圖像的超分辨率重建中,比如最早出現(xiàn)的超分辨率重建CNN 模型SRCNN[5]及其改進模型FSRCNN(Fast SRCNN,F(xiàn)SRCNN)模型[6],前者采用3層卷積層用以學習LR 圖像和相應HR 圖像之間端對端的直接映射;后者則通過將SRCNN 預處理中的雙三次插值替換為后處理的反卷積.這兩種模型為基于CNN 圖像超分辨率重建研究奠定了基礎.
隨著研究的不斷深入,如何通過加深CNN 層數(shù)來提高重建圖像的質量,以及如何減輕模型的計算負擔一直受到重視.對于提高CNN 層數(shù)的問題,有兩個比較經(jīng)典的模型:VDSR(Very Deep Super-Resolution,VDSR)[7]和DRCN(Deeply-Recursive Convolutional Network,DRCN)[8],前者設計了20 層的卷積層,后者則通過將同一卷積層進行16次遞歸提高CNN的層數(shù).進一步為了解決更深層次網(wǎng)絡所帶來的梯度“爆炸”和參數(shù)訓練增量問題,VDSR 采用了殘差學習與增大學習率的方法,DRCN 模型則采用了遞歸監(jiān)督和跳躍連接的方案;對于模型的計算負擔問題,文獻[9]提出一種子像素CNN 模型ESPCN(Efficient Sub-Pixel Convolutional Neural network,ESPCN),該模型通過把各低分辨率通道的同一位置像素視為高分辨率通道的對應子像素,將低分辨率圖像特征按照對應位置周期性的插入到高分辨率圖像中,實現(xiàn)圖像分辨率的提升;文獻[10]提出一種基于拉普拉斯金字塔超分辨率模型LapSRN(Laplacian pyramid Super-Resolution Network,LapSRN),其通過拉普拉斯金字塔框架漸進重建多等級高分辨率殘差,并采用Charbonnier 損失函數(shù)與跳躍連接實現(xiàn)了模型的有效訓練.此外,近年來生成對抗網(wǎng)絡模型(Generative Adversarial Network,GAN)也為超分問題的求解提供了新思路.文獻[11]提出了SRGAN 網(wǎng)絡模型用于圖像的超分辨重建,取得了更加逼真的重建圖像;文獻[12]提出了一種感知生成對抗網(wǎng)絡(Super Resolution Perceptual Generative Adversarial Network,SRPGAN),用實例標準化取代原始SRGAN 模型中的批量標準化,進一步提升了重建圖像的質量;文獻[13]針對SRGAN 模型重建圖像的偽影問題,提出了一種增強SRGAN 模型(Enhanced SRGAN,ESRGAN),利用稠 密殘差 塊(Residual-in-Residual Dense Block,RRDB)作為基本單元,借用相對GAN 網(wǎng)絡[14]思想,通過預測兩幅圖像的相對真實性對感知損失做出改進,在有效去除偽影的同時進一步提升了圖像的超分重建質量.
盡管目前基于深度神經(jīng)網(wǎng)絡的圖像超分辨率重建得到了較好的發(fā)展,但仍有許多工作尚需研究和完善,比如網(wǎng)絡的結構有待創(chuàng)新、效率有待提高,對有效特征的挖掘還有待加強,重建超分辨率圖像的質量還被期望進一步提升等等.近年來基于多尺度幾何分析(Multiscale Geometrical Analysis,MGA)的圖像稀疏表示取得了很好的發(fā)展[15,16],文獻[17]構建了一種Wavelet域深度殘差學習算法用于圖像去噪和超分辨率重建;文獻[18]構建了一個基于圖像Wavelet變換子帶的深度學習網(wǎng)絡,將輸入的低分辨率圖像作為圖像Wavelet變換的低頻子帶,通過預測圖像Wavelet變換的高頻子帶系數(shù)作為構建高分辨率子帶“丟失”的細節(jié)來實現(xiàn)超分辨率圖像的重建.
上述兩種方案對圖像Wavelet 變換后的各子帶采用了相同的學習策略.事實上低頻與高頻子帶表現(xiàn)出不同的統(tǒng)計特性,低頻子帶通常會顯著影響著兩幅圖像的主體內容相似程度;而高頻子帶則在圖像邊緣等梯度值較大的區(qū)域發(fā)揮著重要作用.受此啟發(fā),本文首先對LR 圖像與HR 圖像非抽取Wavele(tNon-Decimated Wavelet Transform,NDWT)的低頻和高頻子帶的統(tǒng)計特性進行分析,進而提出一種基于NDWT 邊緣學習的深度殘差網(wǎng)絡模型NDW-EDRN 用于單幅圖像超分辨率重建,對輸入圖像NDWT 低頻和高頻子帶采取不同的學習策略來學習LR 子帶與HR 子帶間的映射關系,對低頻子帶采用基于稠密跳躍連接的“整體式”學習方式,而對高頻子帶則采用了一種基于塊U-net 級聯(lián)的“缺失式”學習方式,即放棄原始將低、高分辨率圖像的高頻子帶直接進行學習,利用網(wǎng)絡模型學習它們間更為稀疏的差值,使網(wǎng)絡學習更具針對性.
單幅圖像超分辨率重建是指從觀察到的包含模糊、下采樣以及噪聲等退化情況的單幅低分辨率圖像中估計出高分辨率圖像的過程[19],其成像模型的一般過程可描述為
其中,ILR是觀測到的低分辨率圖像,B是模糊矩陣,IHR是原始高分辨率圖像,(m,n)是水平與豎直方向的降采樣因子,實際應用中一般假設二者相同,Nσ是方差為σ的噪聲.
單幅圖像超分辨率重建一般可以看成是圖像經(jīng)由IHR退化為ILR的反問題,參見圖1.由于圖像IHR在退化過程中損失了不可逆的高頻細節(jié)信息,因此該反問題的解并不唯一,從而導致圖像超分辨率重建問題具有高度的不適定性.
作為標準離散Wavelet 變換的擴展,文獻[20~22]等基于不同的應用領域提出了非抽取Wavelet 變換NDWT.假設低通濾波器H、高通濾波器G為正交鏡濾波器(Quadrature Mirror Filters,QMF)[23],即對于由有限個非零值序列{hn}定義的H,滿足如下正交性:
對于信號{…,x-2,x-1,x0,x1,,x2,…},H 濾波、G濾波過程為
進一步定義D0和D1分別為基于偶數(shù)和奇數(shù)的二抽樣算子:
標準離散Wavelet 變換是基于H、G和D0實現(xiàn)的[21]:對于原信號c:{cm|m=0,1,…,n-1},假設其具有周期性的邊界條件,定義第J層的平滑逼近信息cJ為
對于j=J-1,J-2,…,1,0,遞歸的定義信號第j層的平滑逼近信息cj和細節(jié)信息dj:
其中cj和dj的長度分別為2j.可以看出在式(7)的遞歸分解中,僅有當前層的平滑逼近信號參與下一層的平滑逼近信息與細節(jié)信息的分解.
NDWT對上述標準Wavelet過程進行了擴展,通過D1和D0算子在各個尺度上提取奇、偶索引的平滑逼近信息和細節(jié)信息:對于初始信號cJ,通過D1GcJ和D0GcJ獲得奇、偶索引的細節(jié)信息,通過D1HcJ和D0HcJ獲得奇、偶索引的平滑逼近信息,每一個奇、偶信息的長度分別為n/2,這樣所獲得的細節(jié)信息(即小波系數(shù))的總長度為2×n/2=n.
進一步對所獲得的奇、偶索引的細節(jié)信息分別進行D1G和D0G操作,獲得當前層的細節(jié)信息;對所獲得的奇、偶索引的平滑逼近信息進行D1H 和D0H 操作,獲得當前層的平滑逼近信息,這樣始終能夠保持每層分解所獲得的細節(jié)信息的總長度為n.該過程重復進行,直到完成整個變換.具體過程參見圖2,其中d0和d1為第一層的細節(jié)系數(shù),長度分別為n/2;d00、d10、d01和d11為第二層的細節(jié)系數(shù),長度分別為n/4.
圖2 NDWT過程流程圖[22]
NDWT不僅保留了離散Wavelet變換的多尺度特性和方向特性,同時還具有平移不變特性,更多的獲得了信號的細節(jié)信息,從而為圖像融合、圖像超分辨率重建等應用奠定了基礎.
選取文獻[24]提供的Set5 中具有豐富細節(jié)的bird圖像和邊緣明顯的butterfly圖像作為測試對象.
圖3 圖像NDWT子帶、差分子帶及其直方圖統(tǒng)計
對圖3的各子帶及其統(tǒng)計結果進行觀察與分析后,可分別得到以下結論:
(2)不論是IcH還是IcV,IcD,其統(tǒng)計直方圖均顯示圖像的任一高頻子帶絕大多數(shù)系數(shù)值分布在零點附近,只有少量系數(shù)值較大,具有“高峰拖尾”的稀疏性;
(3)從高頻差分子帶可看出同一方向高頻子帶差值較大的系數(shù)大多位于圖像退化過程中所丟失的邊緣、拐點等梯度值較大的位置.
基于以上對各子帶特性的分析與相關文獻的支撐[25]可知:低頻子帶的恢復決定著圖像的主體內容質量,它對應著較高的峰值信噪比值;高頻子帶的恢復則顯著影響著圖像的視覺感知質量,它呈現(xiàn)出較高的結構相似度.因此,本文設計兩種不同的學習策略與網(wǎng)絡結構來更有針對性地對圖像的低、高頻子帶進行區(qū)分學習.對于低頻子帶,采用稠密跳躍連接的“整體式”學習方式,將低分辨率圖像的低頻子帶作為網(wǎng)絡的輸入,將高分辨率圖像的低頻子帶作為網(wǎng)絡的輸出,網(wǎng)絡采用稠密跳躍的連接方式,使深層次的網(wǎng)絡學習更加充分,避免梯度彌散現(xiàn)象;對于高頻子帶,則采用塊U-net級聯(lián)的“缺失式”學習方式,將低分辨率的高頻子帶作為網(wǎng)絡的輸入,將高、低分辨率圖像的高頻子帶的差值作為網(wǎng)絡的輸出,網(wǎng)絡采用編解碼與塊級級聯(lián)的方式,增強稀疏性的同時,防止梯度彌散,使低分辨率圖像所丟失的邊緣等高頻信息得到有效的補充.
由前面的分析可以看出,圖像經(jīng)雙三次插值后的LR 圖像與原始HR 圖像之間相比,主要在于圖像退化過程中高頻信息的丟失,而低頻信息較為相近.為此本文構建如圖4 所示的深度殘差網(wǎng)絡模型NDW-EDRN(Non-Decimated Wavelet Edge learning using Deep Residual Networks,NDW-EDRN)用于單幅圖像超分辨率重建.
圖4 深度殘差網(wǎng)絡模型NDW-EDRN結構圖
模型NDW-EDRN對圖像的NDWT子帶采用了不同的學習方式,其中對低頻子帶間的映射關系學習采用了“整體式”的網(wǎng)絡結構[17,18],網(wǎng)絡采用了20 層的卷積操作,并通過稠密[26,27]的跳躍鏈接結構來充分學習低頻子帶內所包含的信息;而對高頻子帶間所丟失的邊緣信息則采用“缺失式”的網(wǎng)絡結構進行學習,表現(xiàn)為利用文獻[28]所提出的U-net 架構與文獻[29,30]所提出的深度殘差學習策略,構建一個學習丟失邊緣的端到端網(wǎng)絡,提取出圖像中更加深層且復雜的特征,彌補在圖像退化過程中所丟失的重要信息.主要包含以下四種操作:
(1)Conv(3×3) +ReLU:每階段獲取特征圖的主要方式;
(2)Conv(1×1):位于網(wǎng)絡的最后一層,用于映射期望;
(3)Pooling與Deconv:擴大感受野并還原;
(4)Skip block-wise connection:本文在傳統(tǒng)U-net通過級聯(lián)對應階段子特征圖增強網(wǎng)絡強度的基礎上,把單子特征圖拓展為塊子特征圖,以像素級累加的方式將網(wǎng)絡的編碼、解碼兩端更緊密地聯(lián)系在一起,進一步提升網(wǎng)絡的有效性.
對于模型上線路的稠密鏈接部分旨在讓當前第l層的輸入接收來自前[l-1,l-2,…,0]各層的輸出.若定義第l層的輸入為Il,輸出為Ol,那么
此處的fl是對應當前l(fā)層的運算處理.
對于模型下線路的改進U-net 部分旨在采用如下圖5所示的以塊為單位的跳躍級聯(lián),達到信息緊密傳遞的目的.
圖5 塊級級聯(lián)示意圖
模型的物理含義是對低頻分量而言,衡量LR 與HR 間對應子塊的相似程度;對高頻分量而言,訓練出一組能夠有效描述LR 對比HR 所缺失的邊緣算子,來有效補充高頻信息.
訓練集:BSD500[31](去除與測試集重復的部分)、General00[6]和91images[32];測試集:Set5[24]、Set14[33]和Urban100[34];采用雙三次函數(shù)模擬下采樣因子為2和4的Y通道退化;設置“整體式”網(wǎng)絡中子帶塊大小為64×64“,缺失式”網(wǎng)絡中子帶塊大小為192×192;網(wǎng)絡模型采用Adam優(yōu)化算法求解[35],設置初始學習率為0.001,在第40個周期后衰減為0.0001.實驗環(huán)境為Inte(lR)Xeon(R)CPU E5-2630 v4@2.20 GHz在Ubuntu 14.04,Caffe7.5平臺上進行,NVIDIA Titan X GPU用于網(wǎng)絡訓練.
表1給出與SRCNN[5]、VDSR[7]、SRMD[36]和DSRN[37]非多尺度且網(wǎng)絡層數(shù)小于等于20的深度學習模型,以及與DWSR[18]和WaveResNet[17]多尺度深度學習類模型分別放大2 倍與放大4 倍的PSNR 與SSIM 對比實驗結果;表2 給出與SRGAN[11]、SRPGAN[12]生成對抗網(wǎng)絡模型,以及與DRRN[38]、LapSRN[10]和MemNet[39]非多尺度且網(wǎng)絡層數(shù)大于50的深度學習模型別放大2倍與放大4倍的PSNR與SSIM對比實驗結果.兩個表中分別對最優(yōu)結果做出“加粗”處理,對次優(yōu)結果做出“下劃線”處理.同時圖6,7,8,9給出了Set5、Set14與Urban100數(shù)據(jù)集中的部分重建彩色結果圖及其細節(jié)處的放大對比圖,對各指標的最優(yōu)及次優(yōu)結果做出與表1、2中同樣的處理.
圖6 對比其他非多尺度網(wǎng)絡模型放大2倍的細節(jié)圖
表1 的實驗結果顯示,所提出的NDW-EDRN 模型較近幾年層數(shù)小于等于20的主流非多尺度深度學習模型和多尺度深度學習模型在客觀評價指標PSNR 與SSIM 表現(xiàn)上均呈現(xiàn)著一定的優(yōu)越性,除了對Set14放大2 倍的實驗結果取得了次優(yōu)結果,其余均為最優(yōu)結果.對表1的統(tǒng)計結果進行分析后,可以看出:PSNR的次優(yōu)結果大多分布于非多尺度深度學習模型實驗結果中,而SSIM的次優(yōu)結果則絕大多數(shù)分布于多尺度深度學習模型實驗結果中.這說明,非多尺度深度學習模型在恢復圖像主體內容,即與原始圖像的像素級相似度呈現(xiàn)上表現(xiàn)良好;而基于多尺度的深度學習模型則在恢復圖像邊緣結構時發(fā)揮著重要作用,能獲得比非多尺度深度學習模型更為優(yōu)異的紋理結構級相似度.
表1 重建圖像的定量比較1
表2 展現(xiàn)了本文模型與近幾年主流的生成對抗網(wǎng)絡模型及層數(shù)大于50的主流非多尺度深度學習模型間的實驗數(shù)據(jù)對比,亦可看出,本文模型相較于SRGAN與SRPGAN 在兩個評價指標上都表現(xiàn)得更為穩(wěn)健,更加具備實用性與穩(wěn)定性;與層數(shù)大于50 的主流非多尺度深度學習模型相比,本文模型在部分實驗結果中可與之持平甚至超過.
表2 重建圖像的定量比較2
圖6、7的生成結果同時在主觀上也能夠看出本文模型在圖像邊緣細節(jié)的重建方面,尤其重建倍數(shù)較大時,較其他模型有著明顯的優(yōu)勢,比如無論是butterfly圖像中蝴蝶翅膀的紋路、lenna圖像中的帽檐,亦或是img_087圖像中的樓房邊緣等都較其他模型重建后的圖像邊緣更清晰、穩(wěn)定和有效,在重建質量上表現(xiàn)出一定的優(yōu)勢.
圖8、9 所示的多尺度網(wǎng)絡模型的重建圖像細節(jié)對比圖顯示了在恢復圖像紋理、邊緣時,這類的網(wǎng)絡模型具備一定的優(yōu)越性與普適性.說明在構建超分辨率重建網(wǎng)絡時考慮多尺度變換,利用其提取圖像結構信息的這一優(yōu)勢,使網(wǎng)絡學習到更加具有針對性的邊緣的這一想法是成立且有效的.而本文在此基礎上進一步歸納總結非抽取小波變換的低、高頻兩種子帶系數(shù)分別呈現(xiàn)的規(guī)律后,提出了相應的網(wǎng)絡學習模式,使低頻子帶中所蘊涵的信息被學習得更加完備,使高頻子帶中所缺失的信息得到指向性補充.
圖8 對比其他多尺度網(wǎng)絡模型放大2倍的細節(jié)圖
圖9 對比其他多尺度網(wǎng)絡模型放大4倍的細節(jié)(注:WaveResNet網(wǎng)絡未公開四倍的預訓練模型)
表3 顯示了本文模型與其他流行超分辨率重建模型的參數(shù)與計算量對比.由于所提模型采用了“整體式”與“缺失式”兩種聯(lián)合學習模式來分別處理低頻子帶與高頻子帶,這無疑增加了一定的參數(shù)量,這也是需要在未來進一步優(yōu)化的地方.
表3 參數(shù)與計算量比較
為更全面地評估本模型,表4給出了在非抽取小波變換域下,各子帶只采用同一種學習模式網(wǎng)絡的消融實驗重建結果的定量比較,所有的對比使用與上文相同的超參數(shù)設置.
表4 消融實驗重建數(shù)據(jù)集的定量比較
與此同時,由于缺失式網(wǎng)絡層數(shù)大于整體式網(wǎng)絡層數(shù),為避免層數(shù)這一嫌疑,將缺失式網(wǎng)絡設置為與整體式網(wǎng)絡相同的層數(shù).即去除了解碼端最后一級子塊的最后一層以及該級的塊級級聯(lián)操作,只保留對輸入的殘差設計,將該網(wǎng)絡記為“缺失式_s”網(wǎng)絡,那么,采用該“缺失式_s”網(wǎng)絡的NDW-EDRN,則記為“NDWEDRN_s”.圖10 顯式了2 倍消融實驗結果圖,表5 給出相應的定量評價指標數(shù)值,同樣采用PSNR 與SSIM 來評估重建圖像的質量.
表5 消融實驗重建圖像的定量比較
由表4、5 與圖10 可以看到:雙學習模式的網(wǎng)絡比任意單一學習模式的網(wǎng)絡在提升圖像質量與圖像結構相似度方面均有些許提升,說明圖像中低頻信息在得到保證的同時,還被有效地補充進了高頻信息.此外還注意到:(1)相較于整體式學習,缺失式學習在網(wǎng)絡中更據(jù)主導地位,說明重建邊緣紋理信息是超分辨率任務中的重點與難點任務;(2)baby 圖像的整體式比缺失式網(wǎng)絡重建結果好,這可能是因為baby 圖像中存在大量平滑信息,整體式網(wǎng)絡更完全地保留了原始低分辨率圖像中的有效信息,而高頻信息較少,導致缺失式網(wǎng)絡所需補充的信息少.因此,雙學習模式的網(wǎng)絡可以融合上述兩種網(wǎng)絡的優(yōu)點,既可以對平滑圖像學習全面的低頻信息,又可以對復雜圖像有效地補充高頻信息,使網(wǎng)絡的學習更健壯、魯棒.
圖10 消融實驗放大2 倍的細節(jié)(左上角:GT,右上角“:整體式”學習,左下角“:缺失式_s”學習,右下角:NDW-EDRN_s)
本文從彌補低分辨率圖像高頻信息的角度為著眼點,針對傳統(tǒng)深度卷積神經(jīng)網(wǎng)絡學習圖像細節(jié)區(qū)域的不足,通過對NDWT 子帶間的對比與分析,獲得高頻子帶內系數(shù)存在稀疏性、退化圖像的低頻子帶與原始圖像的低頻子帶間存在相似性、圖像退化過程中大多丟失高頻信息的結論,在此基礎上提出一種對低、高頻子帶采用不同學習策略的深度殘差網(wǎng)絡模型—NDWEDRN,以解決超分辨率重建過程中難以有效補充邊緣細節(jié)這一難點問題.該網(wǎng)絡可主要分為兩部分:一是采用稠密跳躍連接的方式整體性學習低頻子帶間的映射關系;二是對于高頻子帶采用一種新型的U-net 模型,主要表現(xiàn)為將圖像退化過程中所丟失的邊緣作為網(wǎng)絡的期望輸出,并改進傳統(tǒng)U-net 的級聯(lián)結構,通過采用基于塊的跳躍連接來使網(wǎng)絡更加有效地學習缺失性邊緣.通過大量的實驗可以看出,本文提出的NDWEDRN 模型與當前一些經(jīng)典的單幅圖像超分辨率重建網(wǎng)絡模型相比,不論主觀還是客觀都更加有效地提高了重建圖像的質量,特別在恢復低分辨率圖像所缺失的邊緣信息上得到良好效果.