宋昕 王保云
摘? 要:圖像超分辨率重構(gòu)是指將低分辨率圖像生成對應(yīng)的高分辨率圖像,在許多領(lǐng)域有著重要作用。文章在SRCNN方法的基礎(chǔ)上,提出了改進(jìn)模型。首先,在SRCNN基礎(chǔ)上使用小卷積代替大卷積。其次,加入殘差結(jié)構(gòu)。最后,在前兩層網(wǎng)絡(luò)后加入ReLU激活函數(shù)。結(jié)果表明,scale為3、4、6、8的PSNR分別提升了0.140 3 dB、0.084 5 dB、0.147 2 dB、0.113 5 dB,模型性能較改進(jìn)前有所提升。
關(guān)鍵詞:超分辨率;卷積神經(jīng)網(wǎng)絡(luò);SRCNN;深度學(xué)習(xí)
中圖分類號:TP391.4? 文獻(xiàn)標(biāo)識碼:A? 文章編號:2096-4706(2023)20-0054-04
Image Super-Resolution Reconstruction Based on Improved SRCNN Model
SONG Xin1, WANG Baoyun1,2
(1.School of Mathematics, Yunnan Normal University, Kunming? 650500, China;
2.Key Laboratory of Modeling and Application of Complex Systems in Universities of Yunnan Province, Kunming? 650500, China)
Abstract: Image Super-Resolution reconstruction refers to that the low-resolution images generate corresponding high-resolution images, and it plays an important role in many fields. Based on the SRCNN method, this paper proposes an improvement model. Firstly, it uses small convolution instead of large convolution based on SRCNN. Secondly, it adds the residual structure. Finally, it adds the ReLU activation function after the first two layers. The results show that the PSNR of 3, 4, 6, and 8 increases 0.140 3 dB, 0.084 5 dB, 0.147 2 dB, 0.113 5 dB respectively, and the model performance is improved comparing with before the improvement.
Keywords: Super-Resolution; Convolutional Neural Networks; SRCNN; Deep Learning
0? 引? 言
圖像分辨率是一組用于評估圖像中細(xì)節(jié)的豐富程度的性能參數(shù),體現(xiàn)了成像系統(tǒng)實際所能反映物體細(xì)節(jié)信息的能力。在圖像識別的應(yīng)用中高分辨率對于正確進(jìn)行決策具有重要作用,低圖像分辨率的圖像細(xì)節(jié)不夠豐富,不足以支持決策,所以研究和發(fā)展圖像的超分辨率重建技術(shù)顯得尤為關(guān)鍵。
圖像超分辨率重建技術(shù)是指通過特殊的算法或者特定的處理流程將一些給定好的低分辨率的模糊的圖像轉(zhuǎn)換為高分辨率的清晰的圖像。具體而言,利用數(shù)字圖像處理、計算機(jī)視覺等領(lǐng)域的相關(guān)知識,采用特定的算法和處理流程,將給定的低分辨率圖像重建為高分辨率圖像的過程就是圖像的超分辨率重建技術(shù)。它旨在解決并且彌補(bǔ)由于圖像的采集系統(tǒng)或采集的環(huán)境本身存在的局限性,從而導(dǎo)致的圖像模糊、質(zhì)量低、感興趣區(qū)域不顯著等問題。
圖像的超分辨率重建技術(shù)在許多重要領(lǐng)域有著廣泛的應(yīng)用和重要的研究意義,比如在醫(yī)學(xué)成像[1]領(lǐng)域,通過復(fù)原出清晰的醫(yī)學(xué)圖像,實現(xiàn)對病變細(xì)胞的檢測,幫助醫(yī)生對患者病情做出更高的判斷。在公共安防領(lǐng)域,可以為辦案人員恢復(fù)出清晰的臉部圖像,為偵破案件提供重要線索。在遙感成像領(lǐng)域,高分辨率遙感衛(wèi)星的研究和開發(fā)存在著很多問題,比如消耗時間長、消耗費(fèi)用高、使用流程復(fù)雜等。因此,研究者試圖將圖像超分辨率重建技術(shù)引入遙感成像領(lǐng)域,嘗試著解決高分辨率的遙感成像難以獲取這一艱巨的挑戰(zhàn),從而能夠使得在不改變探測系統(tǒng)本身的情況下提高觀測圖像的分辨率。
超分辨率重構(gòu)有一些傳統(tǒng)的非學(xué)習(xí)方法,比如有基于插值[2]的方法,基于重建[3]的方法,還有自適應(yīng)濾波方法,還有一些傳統(tǒng)的學(xué)習(xí)方法[4],比如K鄰近方法,幻想臉法和圖像類推法。SRCNN (super-resolution convolutional neural network)[5]網(wǎng)絡(luò)模型是首個基于深度學(xué)習(xí)的圖像超分辨率模型。但是SRCNN網(wǎng)絡(luò)模型也有很多問題,比如網(wǎng)絡(luò)深度太淺、訓(xùn)練層數(shù)少等問題,所以本文基于SRCNN網(wǎng)絡(luò)模型,根據(jù)SRCNN網(wǎng)絡(luò)模型的缺點和不足,對其進(jìn)行了些許改進(jìn),通過訓(xùn)練模型后,通過圖像的PSNR值的大小的對比,對改進(jìn)后的SRCNN網(wǎng)絡(luò)模型進(jìn)行評估。
1? SRCNN網(wǎng)絡(luò)模型
SRCNN網(wǎng)絡(luò)模型是基于深度學(xué)習(xí)圖像超分辨率重建的開山之作。2014年,香港中文大學(xué)的Dong等首次使用了三層卷積神經(jīng)網(wǎng)絡(luò)去模擬高分辨率圖像和低分辨率圖像之間的非線性關(guān)系,是首個基于深度學(xué)習(xí)端對端的圖像超分辨率算法。SRCNN網(wǎng)絡(luò)模型證明了深度學(xué)習(xí)在超分領(lǐng)域的應(yīng)用可以超越傳統(tǒng)的方法,比如插值方法和重建方法,能夠取得更為良好效果和表現(xiàn)。SRCNN網(wǎng)絡(luò)模型的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
可以看出SRCNN網(wǎng)絡(luò)模型的網(wǎng)絡(luò)結(jié)構(gòu)有三層:首先使用9×9×64的卷積核進(jìn)行特征提取區(qū)域特征提取,然后1×1×32的卷積核對第一層提取的特征進(jìn)行非線性映射,最后通過5×5×1的卷積核對非線性映射后的特征進(jìn)行重構(gòu),生成高分辨率的圖像。
SRCNN網(wǎng)絡(luò)模型結(jié)構(gòu)雖然簡單,效果對比之前的傳統(tǒng)方法,比如插值方法和重建方法更為突出,但也存在著一些缺點和不足,比如訓(xùn)練的時間較長,訓(xùn)練的網(wǎng)絡(luò)層數(shù)較少,視野不夠?qū)掗煹?。所以,這也就導(dǎo)致了在將放大倍數(shù)增加時,提取的信息不足以支撐高質(zhì)量的圖像重建,導(dǎo)致該模型的效果達(dá)不到所期待的效果。因此,本文對SRCNN網(wǎng)絡(luò)模型進(jìn)行了些許改進(jìn)。
2? 改進(jìn)的SRCNN網(wǎng)絡(luò)模型
改進(jìn)的SRCNN網(wǎng)絡(luò)模型如圖2所示。
2.1? 使用小卷積核代替大卷積核
SRCNN網(wǎng)絡(luò)模型使用了一個9×9卷積核,一個1×1卷積核,一個5×5卷積核。本文使用3×3卷積核代替9×9卷積核和5×5卷積核,兩個3×3卷積核可以代替一個5×5卷積核,六個3×3卷積核可以代替一個9×9卷積核。使用小卷積核代替大卷積核可以減少網(wǎng)絡(luò)的參數(shù),并且能夠增加網(wǎng)絡(luò)的深度,提高網(wǎng)絡(luò)的擬合能力,加強(qiáng)網(wǎng)絡(luò)的性能。同時將它的stride和padding都取1。根據(jù)式(1)可以得出,這種結(jié)構(gòu)使得了每個卷積層有相同的寬度和高度。
除了最后一層卷積層外,在每層卷積層后都使用了ReLU激活函數(shù)。ReLU激活函數(shù)能夠使網(wǎng)絡(luò)訓(xùn)練的速度更快,同時能夠增加網(wǎng)絡(luò)的非線性,防止梯度消失。
2.2? 使用殘差網(wǎng)絡(luò)結(jié)構(gòu)
殘差神經(jīng)網(wǎng)絡(luò)(ResNet)[6]于2015年被提出,獲得了當(dāng)年多個比賽的第一名。ResNet是基于深度卷積神經(jīng)網(wǎng)絡(luò)提出的改良的網(wǎng)絡(luò),其特有的網(wǎng)絡(luò)結(jié)構(gòu),也就是殘差模塊結(jié)構(gòu),可以克服一般網(wǎng)絡(luò)由于深度增加而形成的梯度破壞或消失以及網(wǎng)絡(luò)退化等問題,殘差模塊(BasicBlock)的結(jié)構(gòu)如圖3所示。
因為在模型中使用了小卷積核代替了大卷積核,模型的深度得到了加深,從原本的3層網(wǎng)絡(luò)結(jié)構(gòu)加深到了現(xiàn)在的10層網(wǎng)絡(luò)結(jié)構(gòu)。但是網(wǎng)絡(luò)深度的增加容易導(dǎo)致網(wǎng)絡(luò)的梯度不穩(wěn)定,并且使網(wǎng)絡(luò)退化。所以在這里使用ResNet網(wǎng)絡(luò)模型中的殘差塊來解決上述問題。
3? 實驗結(jié)果與分析
3.1? 數(shù)據(jù)集的選擇
現(xiàn)在有很多圖像的數(shù)據(jù)集能夠?qū)D像超分辨率重構(gòu)方法的好壞進(jìn)行評價,其中的大多數(shù)數(shù)據(jù)集都是根據(jù)深度的圖像數(shù)據(jù)進(jìn)行提取得到的。比如Set5[7],Set14[8],T91,BSD100[9],Urban100[10],Manga109[11]等。對于上面所提到的圖像數(shù)據(jù)集數(shù)據(jù)集,其中的圖像質(zhì)量和圖像數(shù)量有著比較大的差異,圖像的類別也有著很大的不同。當(dāng)使用不同的模型方法進(jìn)行超分辨率重構(gòu)的時候,在不同倍數(shù)下圖像超分辨率重構(gòu)的效果也各不相同。圖4~圖6是上面幾個數(shù)據(jù)集中比較有代表性的圖片。
在這里選取其中的Set5數(shù)據(jù)集和T91數(shù)據(jù)集進(jìn)行試驗。使用T91數(shù)據(jù)集作為訓(xùn)練集,Set5數(shù)據(jù)集作為測試集。
3.2? 評價指標(biāo)
圖像超分辨率重構(gòu)的常用指標(biāo)有兩種,一種是PSNR(峰值信噪比),另一種是SSIM(結(jié)構(gòu)相似性),這兩種評價指標(biāo)都是超分辨率重構(gòu)中最基礎(chǔ)的測量被壓縮的重構(gòu)圖像質(zhì)量的指標(biāo)。在這里只使用PSNR作為評價圖像超分辨率重構(gòu)方法好壞的指標(biāo)。
PSNR(峰值信噪比)是信號的最大功率和信號噪聲功率之間的比值,來測量已經(jīng)被壓縮的重構(gòu)圖像的質(zhì)量,單位是dB(分貝)。其計算方式如式(2)所示:
其中xmax表示真實圖像中像素值的最大值,MSE表示兩個圖像之間對應(yīng)像素之間差值平方的均值,也可以說MSN表示最小化損失函數(shù)。
PSNR的數(shù)值越大,說明圖像的失真越小,圖像的質(zhì)量越高。在進(jìn)行圖像的壓縮中,將PSNR值控制在30~50 dB這個區(qū)間內(nèi)是比較恰當(dāng)?shù)?,并且PSNR值是越高越好的。當(dāng)PSNR值距離50 dB非常接近的時候,就說明這個圖片經(jīng)過壓縮后的誤差是非常小的。并且當(dāng)PSNR值超過30 dB的時候,人的肉眼是觀察不出來圖像壓縮之前和圖像壓縮之后的區(qū)別的,自然人也就區(qū)分不出那張圖片是圖像壓縮之前的圖片,那張圖片是圖像壓縮之后的圖片。當(dāng)PSNR值在20~30 dB之間的時候壓縮圖像之前和壓縮圖像之后的區(qū)別是人用肉眼可以觀察出來,并且加以區(qū)分的。當(dāng)PSNR值介于10 dB和20 dB之間的時候,圖像之間雖然也會有一些差異,但是不會那么明顯,人的肉眼很難觀測出它們之間的差別。當(dāng)PSNR值低于10 dB的時候,就會很難判斷圖像是否相同,自然也不會聯(lián)想到它們是同一張圖像壓縮前和圖像壓縮后的效果。
3.3? 訓(xùn)練環(huán)境與超參數(shù)設(shè)置
本文的實驗是在PyTorch框架下完成的。硬件環(huán)境:CPU使用Intel(R) Xeon(R) CPUE5-2678v3 @
2.50 GHz,GPU使用NVIDIA GeForce RTX 2080Ti;軟件環(huán)境:Ubuntu 18.04,Python 3.8,CUDA 11.3,cuDNN8,NVCC,PyTorch 1.11.0,torchvision 0.12.0,torchaudio 0.11.0。
訓(xùn)練時的scale分別使用3、4、6、8,batchsize設(shè)置為16,訓(xùn)練次數(shù)epoch設(shè)置為600輪,學(xué)習(xí)率設(shè)置為0.000 4,優(yōu)化方法使用Adam,損失函數(shù)使用MSELoss(均方誤差)。
3.4? 實驗結(jié)果與分析
經(jīng)過實驗,在scale分別為3、4、6、8的情況下,得到了用兩種方法得到的在訓(xùn)練600輪中PSNR的最大值和PSNR達(dá)到最大值的輪數(shù),結(jié)果如表1所示。
圖7是四種不同scale在SRCNN網(wǎng)絡(luò)模型方法和改進(jìn)SRCNN網(wǎng)絡(luò)模型方法下的PSNR值變化曲線。
通過表格和不同倍數(shù)之間的PSNR值變化曲線,可以看出雖然在訓(xùn)練開始的時候改進(jìn)后方法的PSNR值比原方法的PSNR值低,但在訓(xùn)練100輪后,本文方法較原方法的PSNR值有著較為明顯的提升,并且訓(xùn)練效果一直高于原來的SRCNN方法。在放大倍數(shù)為3時,PSNR值提高了0.140 3 dB,PSNR值到達(dá)最大的輪數(shù)提前了28輪;在放大倍數(shù)為4時,PSNR值提高了0.084 5 dB,PSNR值到達(dá)最大的輪數(shù)提前了228輪;在放大倍數(shù)為6時,PSNR值提高了0.147 2 dB,PSNR值到達(dá)最大的輪數(shù)提前了163輪;在放大倍數(shù)為8時,PSNR值提高了0.113 5 dB,PSNR值到達(dá)最大的輪數(shù)提前了216輪。
通過以上數(shù)據(jù)可以看出本文方法效果對比原來的SRCNN網(wǎng)絡(luò)模型有著一定的提升,并且訓(xùn)練的速度有著些許提高。
4? 結(jié)? 論
本文在基于SRCNN網(wǎng)絡(luò)模型的方法上進(jìn)行了些許改進(jìn),一是使用小卷積核代替大卷積核,增加網(wǎng)絡(luò)深度,二是在模型中增加了殘差模塊,防止因為網(wǎng)絡(luò)模型的加深而導(dǎo)致的梯度破壞或消失以及網(wǎng)絡(luò)退化等問題,然后通過對比不同倍數(shù)和不同方法的的PSNR值的大小對網(wǎng)絡(luò)模型的好壞進(jìn)行判斷。改進(jìn)后的模型在scale分別為3、4、6、8的PSNR值分別提升了0.140 3 dB、0.084 5 dB、0.147 2 dB、0.113 5 dB,結(jié)果表明了改進(jìn)后的方法較原方法在效果上確實有所提升,但是提升效果并不大。
在后續(xù)的工作中應(yīng)該繼續(xù)尋找新的改進(jìn)方法和改進(jìn)思想,對模型進(jìn)行進(jìn)一步的改進(jìn),進(jìn)一步提高PSNR值,并且將SSIM和PSNR共同作為評價指標(biāo)對模型進(jìn)行評價。
參考文獻(xiàn):
[1] GU Y,ZENG Z,CHEN H,et al. MedSRGAN:medical images super-resolution using generative adversarial networks [J].Multimedia Tools and Applications,2020,79:21815-21840.
[2] 陸志芳,鐘寶江.基于預(yù)測梯度的圖像插值算法[J].自動化學(xué)報,2018,44(6):1072-1085.
[3] 孫京,袁強(qiáng)強(qiáng),李冀瑋,等.亮度——梯度聯(lián)合約束的車牌圖像超分辨率重建 [J].中國圖象圖形學(xué)報,2018,23(6):802-813.
[4] 陳曉,荊茹韻.單圖像超分辨率方法綜述 [J].電子測量技術(shù),2022,45(9):104-112.
[5] DONG C,LOY C C,HE K,et al. Image Super-Resolution Using Deep Convolutional Networks [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2016,38(2):295-307.
[6] HE K,ZHANG X,REN S,et al. Deep Residual Learning for Image Recognition [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vgas:IEEE,2016:770-778.
[7] BEVILACQUA M,ROUMY A,GUILLEMOT C,et al. Low-Complexity Single-Image Super-Resolution based on Nonnegative Neighbor Embedding [C]//British Machine Vision Conference (BMVC).Guildford:HAL-Inria,2012:00747054(2012-15-11).http://hal.univ-grenoble-alpes.fr/INRIA/hal-00747054#.
[8] ZEYDE R,ELAD M,PROTTER M. On single image scale-up using sparse-representations [C]//Proceedings of the 7th international conference on Curves and Surfaces.Springer-Verlag:711-730.
[9] MARTIN D,F(xiàn)OWLKES C,TAL D,et al. A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics [C]//Proceedings Eighth IEEE International Conference on Computer Vision. ICCV 2001. Vancouver:IEEE,2001:416-423.
[10] HUANG J,SINGH A,AHUJA N. Single image super-resolution from transformed self-exemplars [C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Boston:IEEE,2015:5197-5206.
[11] FUJIMOTO A,OGAWA T,YAMAMOTO K,et al. Manga109 dataset and creation of metadata [C]//MANPU '16:Proceedings of the 1st International Workshop on coMics ANalysis,Processing and Understanding.New York:Association for Computing Machinery,2016:1-5.
作者簡介:宋昕(2000—),男,漢族,山東臨沂人,碩士研究生在讀,研究方向:圖像處理和深度學(xué)習(xí);通訊作者:王保云(1977—),男,漢族,云南玉溪人,副教授,博士,研究方向:機(jī)器學(xué)習(xí)及圖像處理。
收稿日期:2023-03-24
基金項目:國家自然科學(xué)基金(61966040)