史永祥,蔣斌,黃雍晫,楊桂生,李慶武,張志良
1.國(guó)家電網(wǎng)溧陽(yáng)市供電公司,江蘇 溧陽(yáng) 213300
2.河海大學(xué) 物聯(lián)網(wǎng)工程學(xué)院,江蘇 常州 213000
紅外成像技術(shù)提供了重要的目標(biāo)熱輻射信息,在諸多領(lǐng)域都有著廣泛應(yīng)用,包括熱分析、視頻監(jiān)控、醫(yī)療診斷和遙感等方面。然而,由于紅外傳感器線性尺寸的關(guān)系,熱成像儀捕獲的紅外圖像空間分辨率低、清晰度差[1];同時(shí)高分辨率紅外成像儀制作困難、成本昂貴。因此,本文在不改變硬件成像設(shè)備的情況下,通過(guò)輸入低分辨率紅外圖像(low resolution infrared image,LRI),利用深度學(xué)習(xí)算法重建高分辨率紅外圖像(high resolution infrared image,HRI),提高紅外圖像的質(zhì)量,以支持高層的計(jì)算機(jī)視覺(jué)任務(wù)[2]。
傳統(tǒng)的超分辨率重建(super resolution,SR)算法主要有3 類:插值算法[3?4]實(shí)現(xiàn)簡(jiǎn)單、處理迅速,但會(huì)丟失圖像細(xì)節(jié)信息,導(dǎo)致重建圖像模糊;基于重建的算法通常需要利用多幀圖像,并結(jié)合先驗(yàn)知識(shí),屬于多幀圖像超分重建算法;而人工設(shè)計(jì)表示特征的局限性導(dǎo)致基于機(jī)器學(xué)習(xí)[5]的超分辨率重建算法也表現(xiàn)一般[6]。
近年興起的深度學(xué)習(xí)在圖像分類、圖像分割和目標(biāo)檢測(cè)識(shí)別等計(jì)算機(jī)任務(wù)有著顯著的效果,研究人員也嘗試通過(guò)設(shè)計(jì)深度神經(jīng)網(wǎng)絡(luò)來(lái)解決超分辨率重建問(wèn)題[7]。Dong 等[8]提出的SRCNN (image super-resolution using deep convolutional networks)首次使用卷積神經(jīng)網(wǎng)絡(luò)來(lái)完成超分辨率重建任務(wù),模型能夠自主學(xué)習(xí)低分辨率圖像和高分辨率圖像間的非線性映射關(guān)系,不需要人工參與設(shè)計(jì)特征,與傳統(tǒng)算法相比,重建效果得到了顯著提升;隨后的SRGAN(photo-realistic single image superresolution using a generative adversarial network)[9]則引入了殘差網(wǎng)絡(luò)[10],使用殘差塊構(gòu)建模型,并利用生成對(duì)抗網(wǎng)絡(luò)[11](generative adversarial network,GAN)輔助訓(xùn)練,提高了重建圖像的視覺(jué)效果和真實(shí)感;Lim 等[12]對(duì)SRGAN 的生成網(wǎng)絡(luò)SRResNet網(wǎng)絡(luò)的結(jié)構(gòu)進(jìn)行了修改,去除了殘差塊內(nèi)的批歸一化層(batch normalization,BN),構(gòu)建了EDSR 網(wǎng)絡(luò),使得重建圖像質(zhì)量得到了進(jìn)一步的提升;近期的SinGAN[13]網(wǎng)絡(luò),創(chuàng)新性地提出了只通過(guò)對(duì)單幅自然圖像進(jìn)行學(xué)習(xí),通過(guò)在單個(gè)樣本上訓(xùn)練應(yīng)用于特定任務(wù)的模型,可用于圖像的超分辨率重建。通過(guò)構(gòu)建金字塔結(jié)構(gòu)的全卷積生成對(duì)抗網(wǎng)絡(luò),捕捉不同尺度圖像內(nèi)部塊的分布信息,從而生成保留原始目標(biāo)結(jié)構(gòu)和圖像塊分布的高質(zhì)量的樣本。
但是,SRCNN 等[14]網(wǎng)絡(luò)都是為了解決可見(jiàn)光圖像超分辨率重建問(wèn)題而構(gòu)建的,不能直接應(yīng)用到紅外圖像的超分辨率重建問(wèn)題上。因此,本文根據(jù)紅外圖像噪聲大、圖像細(xì)節(jié)信息模糊的特性,在EDSR 網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,構(gòu)建了針對(duì)紅外圖像超分辨率重建的IEDSR(enhanced deep residual networks for infrared image super-resolution)網(wǎng) 絡(luò)。首先,針對(duì)EDSR[11]簡(jiǎn)單地移除BN 層可能帶來(lái)的訓(xùn)練困難問(wèn)題,IEDSR 引入了池化層,解決訓(xùn)練過(guò)程中的梯度彌散問(wèn)題,同時(shí)還能有效縮減模型參數(shù)量,提升性能;其次IEDSR 在殘差模塊中新加入了一層卷積層和激活層,通過(guò)增加網(wǎng)絡(luò)深度,提高網(wǎng)絡(luò)的學(xué)習(xí)能力,用于有效恢復(fù)圖像的邊緣、紋理等細(xì)節(jié)信息;最后模型在預(yù)測(cè)時(shí)使用了增強(qiáng)預(yù)測(cè)算法,通過(guò)取均值來(lái)達(dá)到提高精準(zhǔn)度的目的,有效地優(yōu)化重建圖像,提升重建高分辨率紅外圖像質(zhì)量。
IEDSR 網(wǎng)絡(luò)以殘差網(wǎng)絡(luò)結(jié)構(gòu)作為骨干網(wǎng)絡(luò),和EDSR 網(wǎng)絡(luò)相似,模型只需要學(xué)習(xí)圖像高頻信息,提高了學(xué)習(xí)速度;同時(shí)在網(wǎng)絡(luò)輸出端都使用了反卷積層,實(shí)現(xiàn)圖像空間分辨率的提升。不同的是,IEDSR 網(wǎng)絡(luò)針對(duì)紅外圖像分辨率低、信噪比差和對(duì)比度低等特性,對(duì)殘差模塊進(jìn)行了改進(jìn):加入了新的卷積層和池化層,擴(kuò)大感受野,提高模型的學(xué)習(xí)能力。另外,在模型預(yù)測(cè)時(shí)使用了增強(qiáng)預(yù)測(cè)算法來(lái)提高精準(zhǔn)度。
殘差網(wǎng)絡(luò)[15]是由多個(gè)結(jié)構(gòu)相同的殘差塊通過(guò)級(jí)聯(lián)的方式連接而成,單個(gè)殘差塊如圖1 所示。殘差塊分2 條路徑處理輸入:短接路和學(xué)習(xí)路,并在輸出時(shí)融合2 條路徑的特征數(shù)據(jù)。殘差網(wǎng)絡(luò)減輕了網(wǎng)絡(luò)的學(xué)習(xí)負(fù)擔(dān),網(wǎng)絡(luò)只需學(xué)習(xí)輸入與輸出的差別信息,有效地解決了深層網(wǎng)絡(luò)訓(xùn)練困難的問(wèn)題,同時(shí)也能保證良好的性能。
圖1 單個(gè)殘差塊
殘差網(wǎng)絡(luò)的引入,使得圖像超分辨率重建效果得到了進(jìn)一步的提高。各網(wǎng)絡(luò)殘差塊結(jié)構(gòu)如圖2 所示。在殘差模塊中,輸入經(jīng)卷積處理后,還需要通過(guò)批歸一化(batch normalization,BN)層,BN層通過(guò)計(jì)算卷積處理后的數(shù)據(jù)的均值和方差,增加正則化參數(shù),使批次數(shù)據(jù)具有相同的分布模型。因此,批歸一化層對(duì)特征進(jìn)行了規(guī)范化,縮小了數(shù)據(jù)的變化范圍[16],因此EDSR 網(wǎng)絡(luò)去除了BN層,其殘差塊結(jié)構(gòu)如圖2(b)所示。
圖2 各不同殘差模塊對(duì)比
如圖1 所示,x為輸入圖像,U(x)為學(xué)習(xí)路徑的輸出,殘差模塊的輸出為F(x),則有
F(x)=max{0,U(x)+x}
對(duì)于普通的堆疊非線性層的神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)需要學(xué)習(xí)的映射函數(shù)為F(x),增加短接路后,殘差網(wǎng)絡(luò)只需要學(xué)習(xí)映射函數(shù)U(x)=F(x)?x,原來(lái)的非線性映射函數(shù)變成了U(x)+x。通常情況下,優(yōu)化殘差網(wǎng)絡(luò)映射函數(shù)要比優(yōu)化原來(lái)的映射函數(shù)容易得多。特別地當(dāng)網(wǎng)絡(luò)要學(xué)習(xí)的是等價(jià)映射函數(shù)時(shí),學(xué)習(xí)U(x)=0要比學(xué)習(xí)F(x)=x簡(jiǎn)單得多[8]。
在生物神經(jīng)網(wǎng)絡(luò)上,一個(gè)神經(jīng)元所反應(yīng)的刺激區(qū)域叫做該神經(jīng)元的感受野,對(duì)應(yīng)卷積神經(jīng)網(wǎng)絡(luò),每個(gè)卷積層輸出的特征圖上的像素連接到輸入圖像上的區(qū)域即為感受野(receptive field,RF)。卷積神經(jīng)網(wǎng)絡(luò)某一層的感受野計(jì)算如式(1)所示,感受野的計(jì)算要由后層向前層推算,且最后一層輸出的特征圖的感受野即為其卷積核的大小。
式中:R為本層感受野的大?。籖′為后一卷積層感受野大??;S為卷積步長(zhǎng);K為卷積核的大小。由式(1)可知,卷積和池化的層數(shù)越多,層數(shù)越靠后,該層的感受野越大,網(wǎng)絡(luò)學(xué)習(xí)時(shí)“反應(yīng)”的圖像范圍更大,整體性更強(qiáng),提取的特征也更高級(jí)、抽象,表達(dá)圖像的能力更強(qiáng)。
因此,在構(gòu)建IEDSR 網(wǎng)絡(luò)時(shí),選用了殘差網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò)用于訓(xùn)練,同時(shí)在殘差塊的調(diào)整中,與EDSR 網(wǎng)絡(luò)一樣,IEDSR 網(wǎng)絡(luò)移除BN 層,但由于BN 層能夠使網(wǎng)絡(luò)模型更好地學(xué)習(xí),避免出現(xiàn)梯度彌散現(xiàn)象,因此只是簡(jiǎn)單地移除BN 層可能會(huì)帶來(lái)訓(xùn)練困難的問(wèn)題。所以在移除BN層的基礎(chǔ)上,加入了池化層,即使用池化層替代BN 層,提高訓(xùn)練效率,同時(shí)也能進(jìn)一步擴(kuò)大感受野。
深層神經(jīng)網(wǎng)絡(luò)依靠其更大的感受野范圍,能夠提取圖像更加深層次、更加抽象的特征,有利于更好地重建圖像。因此,在IEDSR 的殘差模塊中增加了卷積層和激活層的層數(shù),通過(guò)增加局部殘差模塊的感受野,提高學(xué)習(xí)能力[17],用于有效恢復(fù)圖像的大規(guī)模結(jié)構(gòu)信息,如圖2(c)所示。改進(jìn)的殘差網(wǎng)絡(luò)通過(guò)增加殘差模塊的卷積層,能夠增強(qiáng)模型非線性映射能力,擴(kuò)大感受野,在保證網(wǎng)絡(luò)深度的同時(shí),避免出現(xiàn)梯度彌散現(xiàn)象;同時(shí)池化層能夠減少網(wǎng)絡(luò)參數(shù)量、減小過(guò)擬合。
增強(qiáng)預(yù)測(cè)[18]算法通過(guò)沿邊翻轉(zhuǎn)、旋轉(zhuǎn)等數(shù)據(jù)增強(qiáng)方式,生成多張輸入,再對(duì)多個(gè)預(yù)測(cè)結(jié)果取均值,得到最終輸出結(jié)果。增強(qiáng)預(yù)測(cè)通過(guò)平均,使模型對(duì)同一“輸入”的預(yù)測(cè)不會(huì)產(chǎn)生較大的偏差,保證模型預(yù)測(cè)穩(wěn)定,提高重建精度。
對(duì)于卷積神經(jīng)網(wǎng)絡(luò),卷積運(yùn)算具有平移不變性和旋轉(zhuǎn)魯棒性,旋轉(zhuǎn)等操作對(duì)特征提取不會(huì)有較大影響。因此,可以將增強(qiáng)預(yù)測(cè)加入到模型測(cè)試階段,提高重建精度。具體到本文,在對(duì)IEDSR模型進(jìn)行測(cè)試時(shí),分別將輸入圖像以4 條邊線為軸翻轉(zhuǎn),再對(duì)輸入旋轉(zhuǎn)180°處理,得到5 張輸入,經(jīng)過(guò)網(wǎng)絡(luò)重建,將單張預(yù)測(cè)復(fù)原到正常位置,取5 張預(yù)測(cè)的均值,得到最終的重建結(jié)果。
本文將可見(jiàn)光圖像的超分辨率重建算法EDSR引入到紅外圖像的超分辨率問(wèn)題上,并根據(jù)紅外圖像的特性對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了改進(jìn),合理選擇網(wǎng)絡(luò)參數(shù),有效減少了網(wǎng)絡(luò)需要學(xué)習(xí)的參數(shù)和計(jì)算量。
本文模型的殘差網(wǎng)絡(luò)部分由16 個(gè)具有相同結(jié)構(gòu)的殘差塊級(jí)聯(lián)組成,卷積核尺寸均為3×3,其中殘差塊的特征圖的深度維數(shù)為256。相對(duì)于EDSR 網(wǎng)絡(luò)的32 個(gè)殘差塊、256 通道特征圖,IEDSR模型需要學(xué)習(xí)的參數(shù)大大降低。
本文訓(xùn)練過(guò)程采用Adam(adaptive moment estimation)優(yōu)化算法,Adam 算法通過(guò)使用指數(shù)加權(quán)平均和偏差修正算法更新權(quán)重,能夠加速梯度的下降,加快網(wǎng)絡(luò)收斂,具有較快的學(xué)習(xí)速度;并使學(xué)習(xí)率離散下降,在不同的迭代次數(shù)內(nèi)使用不同的學(xué)習(xí)率。具體的超參數(shù)設(shè)置如下:初始學(xué)習(xí)率為0.001,學(xué)習(xí)率衰減因子設(shè)置為0.5。在DIV2K數(shù)據(jù)集上預(yù)訓(xùn)練時(shí)的迭代次數(shù)為300,每經(jīng)過(guò)100次迭代,學(xué)習(xí)率衰減為原來(lái)的0.5 倍;使用紅外圖像對(duì)模型進(jìn)行微調(diào)時(shí),初始學(xué)習(xí)率為0.001,訓(xùn)練迭代次數(shù)為60 次,每經(jīng)過(guò)20 次迭代,學(xué)習(xí)率下降為原來(lái)的0.5 倍。Adam 算法權(quán)重衰減等其他超參數(shù)采用默認(rèn)值,不做調(diào)整。
原始高分辨率圖像Y經(jīng)下采樣得到的低分辨率圖像為X,模型預(yù)測(cè)得到的重建圖像為。良好的超分辨率算法,其重建圖像與原始高分辨率圖像Y應(yīng)該盡可能的相同。因此,本文在訓(xùn)練時(shí)選用了均方根誤差(mean squared error,MSE)函數(shù)作為網(wǎng)絡(luò)損失函數(shù),使與Y具有最小歐氏距離:
式中M、N為重建圖像的寬、高。
由于網(wǎng)絡(luò)規(guī)模較大,而紅外圖像數(shù)據(jù)資源比較稀缺,因此,為了保證模型收斂到較優(yōu)的位置,在訓(xùn)練時(shí)首先使用了DIV2K 數(shù)據(jù)集來(lái)對(duì)模型進(jìn)行預(yù)訓(xùn)練,學(xué)習(xí)可見(jiàn)光圖像重建映射函數(shù);完成初步訓(xùn)練后,再使用紅外圖像對(duì)模型進(jìn)行微調(diào),實(shí)現(xiàn)對(duì)紅外圖像的超分辨率重建。
微調(diào)訓(xùn)練的數(shù)據(jù)集紅外圖像大小為320×240,由于初步訓(xùn)練使用的是彩色RGB 通道圖像,因此微調(diào)時(shí),使用了Matlab 算法對(duì)單通道紅外圖像進(jìn)行了偽彩色上色處理,轉(zhuǎn)換為3 通道彩色圖像,增加圖像特征的豐富性[19]。預(yù)訓(xùn)練模型放大倍數(shù)為3。為方便計(jì)算峰值信噪比(peak signal-to-noise ratio,PSNR),訓(xùn)練前將圖像裁剪到318×240大小。將大小為318×240的圖像作為真值圖像(ground truth,GT),使用Matlab 的雙立方插值算法下采樣3 倍得到大小為106×80的圖像作為訓(xùn)練圖像,也即LR圖像。數(shù)據(jù)集由256 張紅外圖像組成,其中240張用作訓(xùn)練集,剩余的16 張作為測(cè)試集。預(yù)訓(xùn)練和模型微調(diào)過(guò)程均在配置為NVIDIA-1080 的GPU,內(nèi)存32 GB 的工程機(jī)上完成,網(wǎng)絡(luò)在PyTorch 神經(jīng)網(wǎng)絡(luò)平臺(tái)上搭建。圖3 為訓(xùn)練過(guò)程中模型在測(cè)試集上PSNR 隨迭代次數(shù)變化圖。
為了很好地表明本文算法的有效性和優(yōu)越性,本節(jié)從主觀和客觀2 個(gè)方面來(lái)對(duì)本文提出的方法進(jìn)行定性和定量分析。主觀定性分析主要觀察重建圖像的直觀視覺(jué)效果;定量分析主要采用常用的峰值信噪比(PSNR)和結(jié)構(gòu)相似度(structural SIMilarity index,SSIM)作為重建圖像質(zhì)量評(píng)價(jià)指標(biāo)。PSNR 即最大像素值與均方誤差的比值,該值越大,重建圖像的失真越小。其計(jì)算為
式中:MSE 為均方根誤差,計(jì)算如式(2)所示;MAX為圖像像素的最大值,對(duì)于本文的RGB 圖像,MAX即為255。SSIM 的計(jì)算為
式中:Y、表示原始高分辨率圖像和重建圖像;μ、σ表示圖像的均值和方差;表示2 幅圖像的協(xié)方差;C、C′為接近0 的正常數(shù)。SSIM 的計(jì)算基于圖像亮度、對(duì)比度和結(jié)構(gòu)信息,其值越大,表示2 幅圖像的相似度越高。
圖3 訓(xùn)練過(guò)程中PSNR 增長(zhǎng)曲線
實(shí)驗(yàn)對(duì)IEDSR、雙三次插值算法(Bicubic[20])、EDSR 和SinGAN 算法重建圖像的PSNR 和SSIM進(jìn)行比較。在16 張測(cè)試集中隨機(jī)選取5 張紅外圖像完成對(duì)比實(shí)驗(yàn),定性分析如圖4 所示,為了更好地對(duì)比重建效果,將局部細(xì)節(jié)放大2 倍并放置于圖像的左上方。從左往右依次為原圖(HR)、Bicubic 算法、EDSR 算法、SinGAN 算法及本文IEDSR 算法重建的圖像。可從主觀角度觀察紅外圖像的超分辨率重建效果。表1 展示了客觀評(píng)價(jià)指標(biāo)的對(duì)比結(jié)果,實(shí)驗(yàn)選擇的評(píng)價(jià)指標(biāo)為重建圖像的PSNR 和SSIM。
圖4 不同算法實(shí)現(xiàn)紅外圖像重建效果
表1 不同算法放大3 倍重建紅外圖像的PSNR 和SSIM
1)針對(duì)紅外圖像超分辨率重建問(wèn)題,提出了改進(jìn)的殘差網(wǎng)絡(luò),構(gòu)建IEDSR 深度神經(jīng)網(wǎng)絡(luò),解決了深層網(wǎng)絡(luò)訓(xùn)練困難問(wèn)題,避免了過(guò)擬合問(wèn)題,提高網(wǎng)絡(luò)的學(xué)習(xí)表達(dá)能力,在保證重建紅外圖像質(zhì)量的同時(shí),提高了圖像空間分辨率,更好地支持后續(xù)檢測(cè)識(shí)別等任務(wù)。
2)使用可見(jiàn)光圖像和紅外圖像樣本對(duì)模型進(jìn)行訓(xùn)練擬合,豐富了訓(xùn)練數(shù)據(jù)集的容量,提高模型的泛化能力,對(duì)不同場(chǎng)景的紅外圖像都能夠?qū)崿F(xiàn)較好的重建效果,利用增強(qiáng)預(yù)測(cè)算法增加模型的魯棒性,提升重建紅外圖像的精度。
實(shí)驗(yàn)證明,本文方法重建紅外圖像清晰度高、視覺(jué)效果好,并且算法處理迅速,具有較強(qiáng)實(shí)用價(jià)值。不足的是,僅實(shí)現(xiàn)了3 倍超分辨率放大,放大后的紅外圖像尺寸相對(duì)也較小。因此,高倍數(shù)紅外圖像超分辨率重建是下一步需要研究的方向。