富振奇 邵楓
摘 要:對(duì)于重建圖像存在的邊緣失真和紋理細(xì)節(jié)信息模糊的問題,提出一種基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)(CNN)的圖像超分辨率重建方法。首先在底層特征提取層以三種插值方法和五種銳化方法進(jìn)行多種預(yù)處理操作,并將只進(jìn)行一次插值操作的圖像和先進(jìn)行一次插值后進(jìn)行一次銳化的圖像合并排列成三維矩陣;然后在非線性映射層將預(yù)處理后構(gòu)成的三維特征映射作為深層殘差網(wǎng)絡(luò)的多通道輸入,以獲取更深層次的紋理細(xì)節(jié)信息;最后在重建層為減少圖像重建時(shí)間在網(wǎng)絡(luò)結(jié)構(gòu)中引入亞像素卷積來完成圖像重建操作。在多個(gè)常用數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,與經(jīng)典方法相比,所提方法重建圖像的紋理細(xì)節(jié)信息和高頻信息能得到更好的恢復(fù),峰值信噪比(PSNR)平均增加0.23dB,結(jié)構(gòu)相似性(SSIM)平均增加0.0066。在保證圖像重建時(shí)間的前提下,所提方法更好地保持重建圖像的紋理細(xì)節(jié)并減少圖像邊緣失真,提升重建圖像的性能。
關(guān)鍵詞:?jiǎn)畏鶊D像超分辨率重建;深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);多通道卷積;亞像素卷積
中圖分類號(hào):TP391.41;TP389.1
文獻(xiàn)標(biāo)志碼:A
Abstract: Aiming at the problem of edge distortion and fuzzy texture detail information in reconstructed images, an image superresolution reconstruction method based on improved Convolutional Neural Network (CNN) was proposed. Firstly, various preprocessing operations were performed on the underlying feature extraction layer by three interpolation methods and five sharpening methods, and the images which were only subjected to one interpolation operation and the images which were sharpened after interpolation operation were arranged into a 3D matrix. Then, the 3D feature map formed by the preprocessing was used as the multichannel input of a deep residual network in the nonlinear mapping layer to obtain deeper texture detail information. Finally, for reducing image reconstruction time, subpixel convolution was introduced into the reconstruction layer to complete image reconstruction operation. Experimental results on several common datasets show that the proposed method achieves better restored texture detail information and highfrequency information in the reconstructed image compared with the classical methods. Furthermore, the Peak SignaltoNoise Ratio (PSNR) was increased by 0.23dB on average, and the structural similarity was increased by 0.0066 on average. The proposed method can better maintain the texture details of the reconstructed image and reduce the image edge distortion under the premise of ensuring the image reconstruction time, improving the performance of image reconstruction.
0 引言
近年來,圖像作為獲取信息最為直接的途徑,在遙感、醫(yī)療、軍事、公共安全、計(jì)算機(jī)視覺等諸多領(lǐng)域都有著重要的應(yīng)用[1]。單幅圖像超分辨率重建(Simple Image SuperResolution, SISR)技術(shù)的方法主要有基于插值的方法、基于重建的方法和基于學(xué)習(xí)的方法[2-3]?;趯W(xué)習(xí)的重建方法保存了圖像更多的高頻信息和細(xì)節(jié)信息,且算法適應(yīng)性和魯棒性更好,因此成為近年來的單幅圖像超分辨率重建技術(shù)研究的熱點(diǎn)[4]。
基于學(xué)習(xí)的超分辨率(SuperResolution, SR)方法的基本思路是通過大量樣本訓(xùn)練得到低分辨率圖像(Low Resolution, LR)與高分辨率圖像(High Resolution, HR)之間的映射關(guān)系,并以此作為先驗(yàn)知識(shí)進(jìn)行重建[5]。Yang等[6-7]提出基于稀疏編碼的圖像超分辨算法,對(duì)高、低分辨率的圖像塊進(jìn)行聯(lián)合訓(xùn)練得到相應(yīng)的一個(gè)過完備字典,通過這個(gè)字典進(jìn)行高低分辨率圖像塊的稀疏關(guān)聯(lián)重建圖像。在此基礎(chǔ)上,李云飛等[8]和Zeyde等[9]應(yīng)用K奇異值分解(KSingular Value Decomposition, KSVD)算法對(duì)字典的訓(xùn)練過程進(jìn)行改進(jìn),雖然提高了字典訓(xùn)練速度,使重建圖像在主客觀評(píng)價(jià)指標(biāo)上均有所改善,但重建過程的計(jì)算復(fù)雜度較高,HR圖像生成時(shí)間過長(zhǎng)。為了做到圖像的實(shí)時(shí)處理,Timofte等[10-11]提出錨點(diǎn)鄰域回歸(Anchored Neighborhood Regression, ANR)算法,在最近鄰域嵌入算法[12]上引入稀疏編碼思想,降低了算法的計(jì)算復(fù)雜度,但是圖像的細(xì)節(jié)紋理恢復(fù)效果較差,重建質(zhì)量仍需提高。
近幾年,隨著深度學(xué)習(xí)的不斷發(fā)展,2014年Dong等[13]在基于樣本學(xué)習(xí)的SR算法基礎(chǔ)上提出了基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)的圖像超分辨率重建(SuperResolution CNN, SRCNN)算法。SRCNN首次將CNN引入到SR任務(wù)中,將傳統(tǒng)SR算法的分步處理整合到一個(gè)深度學(xué)習(xí)模型中,大幅簡(jiǎn)化了SR工作流程[14]。SRCNN的提出證明將深度學(xué)習(xí),特別是CNN應(yīng)用到SR任務(wù)中是非常合適的,發(fā)展前景廣闊。同傳統(tǒng)的SR算法相比,SRCNN在SR性能上有不錯(cuò)的提升,但SRCNN重建的HR圖像仍存在紋理模糊的問題,SR性能有待進(jìn)一步提高[15]。在2016年,Youm等[16]提出基于多通道輸入卷積神經(jīng)網(wǎng)絡(luò)的圖像超分辨率算法(SuperResolution method using MultiChannelinput CNN, MCSRCNN),其輸入圖像是多通道的,即輸入圖像包含了18種低分辨率圖像,能更好地保留圖像的高頻信息。Shi等[17]提出了一種直接在低分辨率圖像上提取特征信息,從而高效重建得到高分辨率圖像算法,即有效的亞像素卷積神經(jīng)網(wǎng)絡(luò)(Efficient SubPixel Convolutional Neural network, ESPCN),其核心思想是亞像素卷積層,獲得了較好的效率。在2017年,Ledig等[18]提出將生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network, GAN)應(yīng)用在SR問題中,因?yàn)閭鹘y(tǒng)的SR算法在放大倍數(shù)較小時(shí)的圖像恢復(fù)效果較好,但當(dāng)圖像的放大倍數(shù)在4以上時(shí),傳統(tǒng)方法重建圖像的細(xì)節(jié)信息與邊緣過于平滑,缺少視覺真實(shí)感,因此基于生成對(duì)抗網(wǎng)絡(luò)的超分辨率(SuperResolution using Generative Adversarial Network,SRGAN)算法以犧牲峰值信噪比(Peak SignaltoNoise Ratio, PSNR)來用GAN生成圖像中的更多細(xì)節(jié),增加真實(shí)感。
綜上所述,考慮到圖像的重建性能和網(wǎng)絡(luò)的訓(xùn)練時(shí)間以及圖像恢復(fù)的真實(shí)感三方面的因素,本文提出一種基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的單幅圖像超分辨率重建方法。該方法以由單幅低分辨率圖像構(gòu)成的三維特征矩陣作為神經(jīng)網(wǎng)絡(luò)的多通道輸入,減少圖像預(yù)處理過程中的高頻信息的丟失;然后通過深層殘差網(wǎng)絡(luò),提取圖像中的多層次的細(xì)節(jié)信息,以提高圖像重建的真實(shí)感;最后為保證圖像重建的時(shí)間且盡可能地縮短重建時(shí)間,通過亞像素卷積層輸出得到高分辨率圖像。實(shí)驗(yàn)結(jié)果表明本文算法在保證訓(xùn)練時(shí)間的前提下,獲得了較好的單幅圖像重建性能,圖像的邊緣和細(xì)節(jié)信息的恢復(fù)效果更好。
1 相關(guān)工作
1.1 SRCNN算法
SRCNN是在單幅圖像超分辨率重建研究中較早跨越傳統(tǒng)算法的深度學(xué)習(xí)方法,將傳統(tǒng)SR算法的分步處理整合到一個(gè)深度學(xué)習(xí)模型中,簡(jiǎn)化了SR工作流程[19]。應(yīng)用卷積神經(jīng)網(wǎng)絡(luò),通過學(xué)習(xí)輸入和輸出之間的特征映射關(guān)系,實(shí)現(xiàn)了圖像由低分辨率到高分辨率的重建過程。SRCNN網(wǎng)絡(luò)框架如圖1所示,首先用雙立方插值,依據(jù)預(yù)先設(shè)計(jì)好的尺寸對(duì)一幅低分辨率圖像進(jìn)行簡(jiǎn)單的畫質(zhì)提升處理,此舉作為預(yù)處理操作,然后將預(yù)處理后的圖像表示為Y,原始的高分辨率圖像為X,但為了簡(jiǎn)化表述,仍將Y稱為低分辨率圖像,實(shí)際上Y與X具有相同的圖像尺寸。網(wǎng)絡(luò)訓(xùn)練的目標(biāo)主要是學(xué)習(xí)特征映射F,使得Y通過映射F(Y)盡可能地恢復(fù)到X的性能。
1)圖像塊的底層特征提取與特征表示。即從低分辨率圖像Y中提取圖像塊,可以進(jìn)行有重疊的特征提取;然后將每個(gè)提取的圖像塊表示為一個(gè)高維度的矢量,這些矢量被表示為一系列的特征映射,且令特征映射的數(shù)量等于高緯度矢量的維度。其計(jì)算公式如式(1)所示:
其中:W1和B1表示濾波器和偏差;“*”表示卷積運(yùn)算;W1表示包含n1個(gè)c×f1×f1的濾波器,c為圖像包含的通道數(shù)量, f1為濾波器空域大小,即W1對(duì)圖像進(jìn)行了n1次卷積,所使用卷積核為c×f1×f1,該層輸出n1個(gè)特征映射;B1是一個(gè)n1維的向量,它的每個(gè)元素對(duì)應(yīng)一個(gè)濾波器,激活函數(shù)使用ReLU(Rectified Linear Unit),即max(0,x)。算法的第1)部分表示為圖1網(wǎng)絡(luò)結(jié)構(gòu)中的第一層網(wǎng)絡(luò),提取到預(yù)處理圖像中的n1維特征,作為第二層網(wǎng)絡(luò)的輸入。
2)非線性映射。非線性地將每個(gè)高維度的矢量映射到另一個(gè)高維度的矢量上,每個(gè)被映射的矢量被表示為一個(gè)高分辨率圖像塊,這些被映射的矢量表示為另一系列的特征映射。其計(jì)算公式如式(2)所示:
其中:B2是n2維的向量。W2包含n2個(gè)n1×f2×f2的濾波器。
3)圖像重建。將以上步驟形成的高分辨率圖像塊再進(jìn)行卷積運(yùn)算,重建形成最終的盡可能接近真實(shí)的高分辨率圖像。其公式如式(3)所示:
SRCNN的主要貢獻(xiàn)是由稀疏編碼跨越為深度學(xué)習(xí),應(yīng)用完整的神經(jīng)網(wǎng)絡(luò)處理圖像超分辨率問題,并取得了較好的實(shí)驗(yàn)效果。SRCNN理論中還指出,將處理的單幅圖像由單一顏色通道更換為三顏色通道,即在圖像的YCbCr或RGB空間中完成圖像重建的效果應(yīng)優(yōu)于單一顏色通道,可以保留更多的圖像色彩信息[19]。而且SRCNN算法最先是采用較小的數(shù)據(jù)集Set5和Set14,網(wǎng)絡(luò)訓(xùn)練后學(xué)習(xí)到的知識(shí)較少,圖像重建性能受限制,而更換為相對(duì)較大的數(shù)據(jù)集BSD200后重建性能也明顯得到提高,可見數(shù)據(jù)集的大小對(duì)圖像的重建性能影響也較大。
SRCNN在重建HR圖像時(shí),網(wǎng)絡(luò)層數(shù)較少,感受野也相對(duì)較小,利用到的區(qū)域特征單一并且利用效率不高[8,18],最終導(dǎo)致重建的HR圖像紋理有些模糊,算法的適應(yīng)性受一定限制,SR性能有待進(jìn)一步提高。
1.2 MCSRCNN算法
在MCSRCNN[16]中,SR過程針對(duì)SRCNN中的網(wǎng)絡(luò)輸入的單通道作出改進(jìn)。在SRCNN中,卷積神經(jīng)網(wǎng)絡(luò)的輸入由圖像單一顏色通道形成的數(shù)據(jù)經(jīng)雙立方插值構(gòu)成,這種單一的預(yù)處理操作會(huì)使重建圖像存在邊界模糊和缺少高頻信息的問題。所以在MCSRCNN中,神經(jīng)網(wǎng)絡(luò)的輸入改為多通道,即輸入包含了18種低分辨率圖像,如圖2給出MCSRCNN算法的網(wǎng)絡(luò)框架。這18種低分辨率圖像由單幅圖像在預(yù)處理過程中生成,即結(jié)合不同銳化卷積核的優(yōu)勢(shì)和3種不同的插值方式(3種插值方法為最近鄰、雙線性、雙立方插值;5種圖像銳化強(qiáng)度值為0.4、0.8、1.2、1.6、2的被銳化的低分辨率圖像),令所有被銳化的低分辨率圖像通過最近鄰插值、雙線性插值或雙立方插值被插入到同樣的一幅高分辨率圖像中,然后令所有被銳化的和被插值的低分辨率圖像共同構(gòu)成卷積神經(jīng)網(wǎng)絡(luò)的多通道輸入。
MCSRCNN在經(jīng)過第一層網(wǎng)絡(luò)后構(gòu)建的特征映射比SRCNN的要好,因?yàn)閳D像本身是一種時(shí)域的波形圖,在其時(shí)域波形圖中只能觀察到波形的突起,但通過傅里葉公式可知,圖像是由低頻部分和高頻部分兩部分組成,圖像中的低頻部分表示圖像的內(nèi)容即灰度變化,而高頻部分則表示圖像的邊緣信息和細(xì)節(jié)信息即銳度變化。在SRCNN算法中重建的圖像存在邊緣模糊的問題,也就是預(yù)處理過程中單一的雙立方插值使得輸入圖像從進(jìn)入神經(jīng)網(wǎng)絡(luò)時(shí)就丟失了部分的高頻信息,而MCSRCNN中神經(jīng)網(wǎng)絡(luò)的多通道輸入解決了這一問題,并且該算法在卷積過程中對(duì)于多通道的輸入采用相同大小的卷積核,在提升重建效果的同時(shí)并未增添參數(shù)。
MCSRCNN雖然解決了重建過程中丟失高頻信息的問題,但它選用的數(shù)據(jù)集Set5和Set14較小,為了提高神經(jīng)網(wǎng)絡(luò)的圖像重建性能應(yīng)選用較大的數(shù)據(jù)集。而且在SRCNN算法中提出,雖然在實(shí)現(xiàn)單幅圖像的超分辨率重建的過程中一般使用圖像的單一顏色通道,但使用圖像的3個(gè)顏色通道的重建效果要優(yōu)于單一顏色通道。所以,為了更好地實(shí)現(xiàn)單幅圖像的超分辨率重建,應(yīng)將兩種算法中的優(yōu)勢(shì)結(jié)合起來,實(shí)現(xiàn)更好的重建效果。
1.3 SRGAN算法
均方誤差(Mean Squared Error,MSE)和PSNR在捕獲與知覺相關(guān)的差異方面的能力(比如高頻紋理細(xì)節(jié))非常有限,因?yàn)樗鼈兪歉鶕?jù)圖像的像素差異來定義的,PSNR值最高并不一定能更好地反映感知能力的結(jié)果,圖像的真實(shí)感未必是最好的[5]。
在以前的基于神經(jīng)網(wǎng)絡(luò)的SR算法中,雖然能夠獲得很高的PSNR值,但恢復(fù)出的單幅圖像通常會(huì)丟失部分高頻細(xì)節(jié)信息,使人不能有較好的視覺感受,忽略了細(xì)節(jié)紋理的恢復(fù)。
而更深層次的網(wǎng)絡(luò)結(jié)構(gòu)已被證明可以提高SISR的重建性能,傳統(tǒng)的基于CNN的SISR網(wǎng)絡(luò)模型的網(wǎng)絡(luò)層次較淺,雖然能夠提升一定的圖像重建性能,但重建過程中網(wǎng)絡(luò)的學(xué)習(xí)效果受限,提取特征的過程丟失高頻細(xì)節(jié)信息的問題較為嚴(yán)重,因此SRGAN使用深層的殘差網(wǎng)絡(luò)來恢復(fù)單幅圖像中更多的細(xì)節(jié)紋理信息,增強(qiáng)單幅圖像重建后的視覺真實(shí)感[18]。從實(shí)驗(yàn)數(shù)據(jù)中可知,雖然SRGAN的PSNR值不是最高,但它較好地恢復(fù)了圖像中的紋理與細(xì)節(jié),使重建圖像的視覺效果更為逼真。
2 改進(jìn)的圖像超分辨率重建算法
2.1 改進(jìn)思想
為了解決以上提出的問題,本文對(duì)需要進(jìn)行重建的低分辨率圖像保留三顏色通道,首先對(duì)其進(jìn)行預(yù)處理操作:先對(duì)低分辨率圖像進(jìn)行三種插值操作,即最近鄰插值、雙線性插值和雙立方插值;然后對(duì)進(jìn)行不同插值處理后的圖像分別進(jìn)行五種不同強(qiáng)度值的圖像銳化操作;最后將只進(jìn)行一次插值操作的圖像與先進(jìn)行一次插值、后進(jìn)行一次銳化的圖像合并排列成三維矩陣,即令預(yù)處理過程后的18幅圖像作為神經(jīng)網(wǎng)絡(luò)的多通道輸入。然后,為學(xué)習(xí)更深的圖像細(xì)節(jié)紋理信息和高頻信息,重建過程構(gòu)建了更深層次的網(wǎng)絡(luò)結(jié)構(gòu),但考慮到網(wǎng)絡(luò)的收斂問題和防止梯度消失的問題,本文采用深層殘差網(wǎng)絡(luò)結(jié)構(gòu),提高網(wǎng)絡(luò)的準(zhǔn)確率。最后在單幅圖像的重建過程中采用亞像素卷積層來實(shí)現(xiàn),提升重建效率,減少重建時(shí)間。
2.2 網(wǎng)絡(luò)結(jié)構(gòu)
考慮到重建性能和重建時(shí)間等多方面的因素,本文提出的基于改進(jìn)CNN的圖像超分辨率重建算法主要是構(gòu)建了一種深層卷積神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)共有6層,分別由3部分構(gòu)成,即底層特征提取、非線性映射和圖像重建。該網(wǎng)絡(luò)考慮到低分辨率圖像與高分辨率圖像之間的非線性映射關(guān)系,能提升網(wǎng)絡(luò)對(duì)高頻信息和細(xì)節(jié)紋理信息的學(xué)習(xí)效率,并在改進(jìn)重建性能的同時(shí)縮短網(wǎng)絡(luò)訓(xùn)練時(shí)間與圖像重建時(shí)間。本文搭建的卷積神經(jīng)網(wǎng)絡(luò)框架如圖3所示。
該網(wǎng)絡(luò)結(jié)構(gòu)的特點(diǎn)如下:
1)本文算法中采用圖像的三顏色通道進(jìn)行處理,以便在預(yù)處理操作中盡可能地保留輸入的原始低分辨率圖像中的高頻信息和細(xì)節(jié)紋理信息等特征,在預(yù)處理操作中同時(shí)考慮時(shí)間與圖像質(zhì)量?jī)煞矫嬉蛩?。不同插值算法的?jì)算復(fù)雜度不同,且插值時(shí)考慮周圍不同數(shù)目的相鄰像素點(diǎn)灰度值影響也不同,如最近鄰插值計(jì)算量最小但僅考慮位置最近的像素的灰度值,雙線性插值在兩水平方向與垂直方向均進(jìn)行一階線性插值,雙立方插值考慮周圍四個(gè)相鄰像素點(diǎn)灰度值影響。圖像在插值處理后,會(huì)出現(xiàn)邊緣和輪廓模糊問題,而圖像邊緣信息主要集中在高頻部分,使用銳化操作則可以有效減輕插值的不利影響。因此,本文算法采用插值與銳化操作完成圖像預(yù)處理,并以18幅低分辨率圖像作為神經(jīng)網(wǎng)絡(luò)的多通道輸入,相對(duì)于單一地使用雙立方插值,有利于學(xué)習(xí)到一種更好且更復(fù)雜的特征映射。
這種以插值和銳化構(gòu)成的18幅低分辨率圖像具有豐富的可用于重建高分辨率圖像過程中的補(bǔ)充信息,能提高重建過程的準(zhǔn)確性。
2)在非線性映射層加入殘差網(wǎng)絡(luò)結(jié)構(gòu),通過恒等映射將后層信息直接傳向前層,實(shí)現(xiàn)了特征的重復(fù)利用,減少了特征信息的丟失。通過增加非線性映射層來加深網(wǎng)絡(luò)結(jié)構(gòu),而且引入殘差網(wǎng)絡(luò)后,解決了由于網(wǎng)絡(luò)加深而易引起的梯度消失和梯度爆炸問題,網(wǎng)絡(luò)的每一層分別對(duì)應(yīng)于提取不同層次的特征信息,有效地加深網(wǎng)絡(luò)結(jié)構(gòu),提取到的不同層次的特征信息就會(huì)增多。
3)在圖像重建過程中引入亞像素卷積層,在網(wǎng)絡(luò)的最后一層使用上采樣操作,能減少在圖像重建中的重建步驟與時(shí)間,為減少計(jì)算量使用尺寸較小的濾波器,在保持特征信息前后關(guān)系的同時(shí),對(duì)高分辨率特征圖中的像素進(jìn)行重新排列,整合相同的信息,恢復(fù)成最終所需的高分辨率圖像。
2.3 殘差網(wǎng)絡(luò)結(jié)構(gòu)
在非線性映射過程中引入殘差網(wǎng)絡(luò),因?yàn)闅埐罹W(wǎng)絡(luò)更容易優(yōu)化,并且能夠通過增加有效的深度來提高準(zhǔn)確率。殘差網(wǎng)絡(luò)的優(yōu)勢(shì)是不僅解決了增加網(wǎng)絡(luò)深度導(dǎo)致的梯度消失與梯度爆炸問題,而且提高了網(wǎng)絡(luò)性能。
神經(jīng)網(wǎng)絡(luò)層數(shù)的不同,提取的淺層、中層和深層的特征信息不同,網(wǎng)絡(luò)層數(shù)越多,意味著能夠提取到不同層次的特征信息越豐富,并且,網(wǎng)絡(luò)越深提取的特征越抽象,具有的高頻信息越豐富[17]。使用殘差網(wǎng)絡(luò)不僅很好地避免了退化問題,而且其反向更新的特點(diǎn)引入快捷鏈接的概念,使連加運(yùn)算代替?zhèn)鹘y(tǒng)網(wǎng)絡(luò)中的連乘運(yùn)算,大幅降低了計(jì)算量[19]。
圖4中給出了殘差網(wǎng)絡(luò)中的一個(gè)殘差模塊的結(jié)構(gòu),殘差模塊由卷積層、快捷連接和激活函數(shù)ReLU組成。假設(shè)將采取某種預(yù)處理操作后的圖像a作為此殘差模塊的輸入,經(jīng)過快捷連接后為H(a)=F(a)+a,如果F(a)和a的通道相同,則可直接相加。殘差模塊的主要設(shè)計(jì)有兩個(gè)部分:快捷連接和恒等映射。通過在一個(gè)淺層網(wǎng)絡(luò)上令F(a)=0,使得H(a)=a,就構(gòu)成一個(gè)恒等映射,使網(wǎng)絡(luò)在深度增加時(shí)而不退化,因此快捷連接使殘差變得可能,而恒等映射使網(wǎng)絡(luò)變深。在卷積層后增加激活函數(shù),能使網(wǎng)絡(luò)的學(xué)習(xí)周期大幅縮短[18]。
2.4 亞像素卷積層
亞像素卷積層是在網(wǎng)絡(luò)輸出層進(jìn)行上采樣的操作,與在輸出層進(jìn)行卷積操作的SRCNN相比,在訓(xùn)練和測(cè)試時(shí)都降低了復(fù)雜度,減少了在輸出層卷積上的時(shí)間消耗[17]。在SRCNN中,對(duì)圖像進(jìn)行下采樣操作,r為下采樣因子,高分辨率圖像和低分辨率圖像都具有c個(gè)顏色通道,因此它們可表示為大小為H×W×c和rH×rW×c的實(shí)數(shù)張量。而亞像素卷積層的輸入為特征通道數(shù)為r2的特征映射,r表示上采樣因子,將每個(gè)像素的r2個(gè)通道重新排列成一個(gè)r×r的區(qū)域,對(duì)應(yīng)于高分辨率圖像中的一個(gè)r×r大小的圖像塊,從而大小為H×W×cr2的特征圖像被重新排列成大小為rH×rW×c的高分辨率圖像,這個(gè)變換就被稱作亞像素卷積,但它實(shí)際上并沒有進(jìn)行卷積操作[17]。因此亞像素卷積的本質(zhì)就是將維度為r2的低分辨率特征向量按一定排列要求周期性地排列來構(gòu)成高分辨率圖像。
在低分辨率空間中,令大小為fs的濾波器Ws與權(quán)重空間1/r進(jìn)行卷積操作,步幅為1/r,其結(jié)果雖未激活和計(jì)算像素之間的權(quán)重,但激活了濾波器Ws的不同部分。當(dāng)激活模型為r2個(gè)時(shí),每個(gè)激活模型依據(jù)其位置,有最多[fs/r]2個(gè)權(quán)重被激活。當(dāng)進(jìn)行卷積操作的濾波器依據(jù)不同的亞像素位置掃過圖片時(shí),這些激活模型就會(huì)被周期性地激活:
3 實(shí)驗(yàn)與結(jié)果分析
本文采用的實(shí)驗(yàn)平臺(tái)是使用NVIDIA顯卡GeForce GTX TITANX、3.20GHz Intel i5 CPU、32GB RAM,編譯軟件使用Matlab 2016a,并使用Caffe深度學(xué)習(xí)工具箱進(jìn)行神經(jīng)網(wǎng)絡(luò)模型的搭建和訓(xùn)練[20]。由于本文改建的網(wǎng)絡(luò)相對(duì)較深,算法應(yīng)使用更大的訓(xùn)練集,以體現(xiàn)該網(wǎng)絡(luò)的優(yōu)勢(shì),因此實(shí)驗(yàn)從ImageNet數(shù)據(jù)集中隨機(jī)抽取約6萬幅圖像組成訓(xùn)練集,抽取的圖像尺寸最大不超過512×512,原始高分辨率圖像為X,放大倍數(shù)取s=2,3,4,預(yù)處理后的多幅圖像為Y,作為網(wǎng)絡(luò)的多通道輸入。雖然選用較大的學(xué)習(xí)率可以加快網(wǎng)絡(luò)的收斂,但可能出現(xiàn)局部最優(yōu)問題,因此根據(jù)網(wǎng)絡(luò)模型訓(xùn)練的經(jīng)驗(yàn)與更公平地進(jìn)行對(duì)比實(shí)驗(yàn)和分析,將前五層網(wǎng)絡(luò)的學(xué)習(xí)率設(shè)為10-4,最后一層網(wǎng)絡(luò)的學(xué)習(xí)率設(shè)為10-5,動(dòng)量參數(shù)設(shè)為0.9,權(quán)重衰減參數(shù)設(shè)為0.0005。
本文從主客觀兩種角度對(duì)重建圖像的性能進(jìn)行評(píng)價(jià)分析。
4 結(jié)語
本文主要進(jìn)行的是深度學(xué)習(xí)在SISR技術(shù)領(lǐng)域的研究,通過改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)來提升圖像質(zhì)量,使用多種預(yù)處理手段構(gòu)成網(wǎng)絡(luò)的多通道輸入,以有效避免區(qū)域特征單一的問題;同時(shí),在非線性映射層采用殘差網(wǎng)絡(luò)結(jié)構(gòu)不僅獲取了圖像的不同層次的特征信息,而且有效解決了梯度消失和梯度爆炸問題;最后引入亞像素卷積完成圖像重建操作,提高了重建效率。本文算法使用更大的訓(xùn)練集,經(jīng)過實(shí)驗(yàn)和結(jié)果分析,不僅避免了網(wǎng)絡(luò)加深的過擬合現(xiàn)象,而且獲得了較好的重建效果,圖像紋理細(xì)節(jié)部分的區(qū)分度和清晰度得到有效提高,但邊緣重建效果與原始高分辨率圖像間仍有差距,需進(jìn)一步改進(jìn)算法,解決圖像邊緣區(qū)域的模糊問題,提升單幅圖像的超分辨率重建效果。
參考文獻(xiàn)(References)
[1]孫旭, 李曉光, 李嘉鋒, 等.基于深度學(xué)習(xí)的圖像超分辨率復(fù)原研究進(jìn)展[J]. 自動(dòng)化學(xué)報(bào), 2017, 43(5): 697-709. (SUN X, LI X G, LI J F, et al. Review on deep learning based image superresolution restoration algorithms [J]. Acta Automatica Sinica, 2017, 43(5): 697-709.)
[2]蘇衡, 周杰, 張志浩.超分辨率圖像重建方法綜述[J]. 自動(dòng)化學(xué)報(bào), 2013, 39(8): 1202-1213. (SU H, ZHOU J, ZHANG Z H. Survey of superresolution image reconstruction methods [J]. Acta Automatica Sinica, 2013, 39(8): 1202-1213.)
[3]李浪宇, 蘇卓, 石曉紅, 等.圖像超分辨率重建中的細(xì)節(jié)互補(bǔ)卷積模型[J]. 中國圖象圖形學(xué)報(bào), 2018, 23(4): 572-582. (LI L Y, SU Z, SHI X H, et al. Mutualdetail convolution model for image superresolution reconstruction [J]. Journal of Image and Graphics, 2018, 23(4): 572-582.)
[4]KIM J, LEE J K, LEE K M. Accurate image superresolution using very deep convolutional networks [C]// Proceedings of the 2016 IEEE Conference on Computer on Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 1646-1654.
[5]TIAN J, MA K K. A survey on superresolution imaging[J]. Signal, Image and Video Processing, 2011, 5(3): 329-342.
[6]YANG C Y, MA C, YANG M H. Singleimage superresolution: a benchmark [C]// Proceedings of the 2014 European Conference on Computer Vision. Berlin: Springer, 2014: 372-386.
[7]YANG J C, WRIGHT J, HUANG T S, et al. Image superresolution via sparse representation [J]. IEEE Transactions on Image Processing, 2010, 19(11): 2861-2873.
[8]李云飛, 符冉迪, 金煒, 等.多通道卷積的圖像超分辨率方法[J]. 中國圖象圖形學(xué)報(bào), 2017, 22(12): 1690-1700. (LI Y F, FU R D, JIN W, et al. Image superresolution using multichannel convolution [J]. Journal of Image and Graphics, 2017, 22(12): 1690-1700.)
[9]ZEYDE R, ELAD M, PROTTER M. On single image scaleup using sparserepresentations [C]// Proceedings of the 2010 International Conference on Curves and Surfaces, LNCS 6920. Berlin: Springer, 2010: 711-730.
[10]TIMOFTE R, DE V, GOOL L V. Anchored neighborhood regression for fast examplebased superresolution [C]// Proceedings of the 2013 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2013: 1920-1927.
[11]TIMOFTE R, ROTHE R, GOOL L V. A+: adjusted anchored neighborhood regression for fast superresolution [C]// Proceedings of the 12th Asian Conference on Computer Vision. Berlin: Springer, 2015: 111-126.
[12]CHANG H, XIONG Y, YEUNG D Y. Superresolution through neighbor embedding [C]// Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2004: 275-282.
[13]DONG C, CHEN C L, HE K, et al. Learning a deep convolutional network for image superresolution [C]// ECCV 2014: Proceedings of the 2014 European Conference on Computer Vision. Berlin: Springer, 2014: 184-199.
[14]徐冉, 張俊格, 黃凱奇.利用雙通道卷積神經(jīng)網(wǎng)絡(luò)的圖像超分辨率算法[J]. 中國圖象圖形學(xué)報(bào), 2016, 21(5): 556-564. (XU R, ZHANG J G, HUANG K Q. Image superresolution using twochannel convolutional neural networks [J]. Journal of Image and Graphics, 2016, 21(5): 556-564.)
[15]劉娜, 李翠華.基于多層卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的單幀圖像超分辨率重建方法[J]. 中國科技論文, 2015, 10(2): 201-206. (LIU N, LI C H. Single image superresolution reconstruction via deep convolutional neural network [J]. China Sciencepaper, 2015, 10(2): 201-206.)
[16]YOUM G Y, BAE S H, KIM M. Image superresolution based on convolution neural networks using multichannel input [C]// Proceedings of the 2006 IEEE 12th Image, Video, and Multidimensional Signal Processing Workshop. Piscataway, NJ: IEEE, 2016:1-5.
[17]SHI W, CABALLERO J, HUSZAR F, et al. Realtime single image and video superresolution using an efficient subpixel convolutional neural network [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 1874-1883.
[18]LEDIG C, THEIS L, HUSZAR F, et al. Photorealistic single image superresolution using a generative adversarial network [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 105-114.
[19]DONG C, CHEN C L, HE K, et al. Image superresolution using deep convolutional networks [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(2): 295-307.
[20]JIA Y Q, SHELHAMER E, DONAHUE J, et al. Caffe: convolutional architecture for fast feature embedding [C]// Proceedings of the 22nd ACM International Conference on Multimedia. New York: ACM, 2014: 675-678.
[21]MEGHA G, YASHPAL L, VIVEK L. Analytical relation & comparison of PSNR and SSIM on babbon image and human eye perception using Matlab [J]. International Journal of Advanced Research in Engineering and Applied Sciences, 2015, 4(5): 108-119.