孫 銳,章 晗*,程志康,張旭東
基于通道注意力與遷移學(xué)習(xí)的紅外圖像超分辨率重建算法
孫 銳1,2,章 晗1,2*,程志康1,2,張旭東1
1合肥工業(yè)大學(xué)計算機(jī)與信息學(xué)院,安徽 合肥 230009;2工業(yè)安全與應(yīng)急技術(shù)安徽省重點(diǎn)實驗室,安徽 合肥 230009
針對現(xiàn)有紅外圖像分辨率低、質(zhì)量不高的問題,提出了基于通道注意力與遷移學(xué)習(xí)的紅外圖像超分辨率重建方法。該方法設(shè)計了一個深度卷積神經(jīng)網(wǎng)絡(luò),融入通道注意力機(jī)制來增強(qiáng)網(wǎng)絡(luò)的學(xué)習(xí)能力,并且使用殘差學(xué)習(xí)方式來減輕梯度爆炸或消失問題,加速網(wǎng)絡(luò)的收斂??紤]到高質(zhì)量的紅外圖像難以采集、數(shù)目不足的情況,將網(wǎng)絡(luò)的訓(xùn)練分成兩步:第一步使用自然圖像來預(yù)訓(xùn)練網(wǎng)絡(luò)模型,第二步利用遷移學(xué)習(xí)的知識,用較少數(shù)量的高質(zhì)量紅外圖像對預(yù)訓(xùn)練的模型參數(shù)進(jìn)行遷移微調(diào),使模型對紅外圖像的重建效果更優(yōu)。最后,加入多尺度細(xì)節(jié)濾波器來提升紅外重建圖像的視覺效果。在Set5、Set14數(shù)據(jù)集以及紅外圖像上的實驗表明,融入通道注意力機(jī)制和殘差學(xué)習(xí)方法,均能提升超分辨率重建的效果,遷移微調(diào)能很好地解決紅外樣本數(shù)量不足的問題,而多尺度細(xì)節(jié)提升濾波則能提升重建圖像的細(xì)節(jié),增大信息量。
超分辨率;紅外圖像;卷積神經(jīng)網(wǎng)絡(luò);注意力;遷移學(xué)習(xí)
自然界中溫度在絕對零度(-273 ℃)以上的物體,都會因為自身的分子熱運(yùn)動而不斷向外發(fā)射紅外輻射,溫度越高的物體發(fā)射的紅外輻射越強(qiáng)。紅外圖像就是利用物體發(fā)射的紅外輻射來完成成像的。近些年來,紅外成像技術(shù)發(fā)展迅速,已經(jīng)在軍事偵察、安防監(jiān)控、醫(yī)療成像等方面得到了日益普遍的運(yùn)用。然而在紅外圖像成像或傳輸過程中,受到環(huán)境和設(shè)備等諸多因素的影響,經(jīng)常會出現(xiàn)紅外圖像分辨率偏低的情況,從而使紅外圖像所包含的信息量大打折扣,制約著紅外圖像的應(yīng)用價值。所以怎樣獲取高分辨率和高信息量的紅外圖像成為人們迫切需要解決的一個問題。通過改進(jìn)紅外成像設(shè)備來提高紅外圖像的質(zhì)量是最直接的方法,但是紅外成像設(shè)備設(shè)計繁雜,成本高,而且還受環(huán)境和諸多物理技術(shù)的限制?,F(xiàn)在在自然圖像領(lǐng)域興起了利用計算機(jī)通過圖像處理來提升圖像的分辨率的方法,這種由一幅或多幅低分辨率圖像來恢復(fù)高分辨率圖像或圖像序列的技術(shù),稱為圖像的超分辨率技術(shù)[1]。這項技術(shù)相對于物理方法實現(xiàn)容易,大大降低了成本,而且它不僅適用于自然圖像的超分辨率重建,也同樣適用于紅外圖像或其他類型的圖像的超分辨率重建。
超分辨率方法發(fā)展至今,主要分為三種類型:插值法[2]、基于重建的方法[3]和基于學(xué)習(xí)的方法[4-5]。插值法的重建速度很快,原理簡單,主要是利用鄰近像素點(diǎn)的像素值按照一定規(guī)則來生成新坐標(biāo)點(diǎn)的像素值,其中常用的插值法是最近鄰插值(nearest neighbor interpolation)和雙三次插值(Bicubic),但是這種方法處理后的圖像清晰度不高,細(xì)節(jié)難以重現(xiàn),而且常有鋸齒出現(xiàn)。基于重建的方法是先提取出多幅低分辨率圖像中的高頻信息,再將這些高頻信息按照一定規(guī)則組合起來指導(dǎo)重建高分辨率的圖像,其中常用的基于重建的方法有凸集投影法[6]和迭代反向投影法[7]等,這種方法需要配準(zhǔn)多幅圖像,過程相對繁雜,而且處理后的圖像細(xì)節(jié)不清晰,效果一般?;趯W(xué)習(xí)的方法從一出現(xiàn)就成為了人們關(guān)注的熱點(diǎn),該方法分別提取出高、低分辨率圖像的特征,再利用計算機(jī)去學(xué)習(xí)雙方特征之間的相互對應(yīng)關(guān)系,進(jìn)而指導(dǎo)圖像的超分辨率重建。Chang等提出的鄰域嵌入法[8],是學(xué)習(xí)高、低分辨率圖像塊之間的幾何相似度去獲取它們之間的對應(yīng)關(guān)系。Yang等提出的基于稀疏編碼的方法[9],是利用機(jī)器學(xué)習(xí)方法建立高、低分辨率圖像塊詞典間的對應(yīng)關(guān)系,通過建立高、低分辨率圖像間的聯(lián)系來指導(dǎo)重建。近些年深度學(xué)習(xí)技術(shù)的發(fā)展突飛猛進(jìn),作為基于學(xué)習(xí)的方法中的后起之秀——基于深度學(xué)習(xí)的超分辨率方法開始出現(xiàn)。Dong等率先提出了基于超分辨率卷積神經(jīng)網(wǎng)絡(luò)(super-resolution convolutional neural network,SRCNN)[10],這是深度學(xué)習(xí)在超分辨率領(lǐng)域的第一次應(yīng)用,該網(wǎng)絡(luò)用了三個卷積層學(xué)習(xí)高、低分辨率圖像的特征之間對應(yīng)關(guān)系來指導(dǎo)重建,此方法比傳統(tǒng)的方法在效果上有明顯提升。在同一年,Dong等又對SRCNN算法進(jìn)行了優(yōu)化,為了縮短訓(xùn)練時間,他們提出了快速超分辨率卷積神經(jīng)網(wǎng)絡(luò)(fast super-resolution convolutional neural network,F(xiàn)SRCNN)算法[11],它省去了用Bicubic放大尺寸這一步,直接將低分辨率圖像輸入網(wǎng)絡(luò),再將一個反卷積層接在網(wǎng)絡(luò)的后端以實現(xiàn)對應(yīng)比例的放大,最終得到了高分辨率的圖像,Shi等提出了基于亞像素卷積的神經(jīng)網(wǎng)絡(luò)超分辨率重建算法(efficient sub-pixel convolutional neural network for image super-resolution,ESPCN)[12],也是省去Bicubic這一步,直接提取低分辨率圖像的特征,網(wǎng)絡(luò)的后端用亞像素卷積層進(jìn)行上采樣,重建出對應(yīng)尺寸的高分辨率圖像,減少了計算復(fù)雜度。Ledig等提出了基于生成對抗網(wǎng)絡(luò)的超分辨率重建算法(super-resolution generative adversarial network,SRGAN)[13],該算法將GAN網(wǎng)絡(luò)(generative adversarial network)引入到超分辨率上來,而且用兩個損失函數(shù)來引導(dǎo)網(wǎng)絡(luò)訓(xùn)練,獲得了效果更逼真的重建圖像。
如果直接將這些卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用在紅外圖像領(lǐng)域,則會存在一些問題:SRCNN、FSRCNN和ESPCN方法的網(wǎng)絡(luò)卷積層數(shù)較少,網(wǎng)絡(luò)深度不夠,學(xué)習(xí)的特征會比較單一,忽略了圖像特征之間的相互關(guān)系,難以提取紅外圖像的深層次信息,而SRGAN方法可能會生成與原圖在某些細(xì)節(jié)上差別很大的超分辨率圖像,這不利于紅外圖像在軍事、醫(yī)療和監(jiān)控方面的應(yīng)用;此外還有一個需要克服的問題就是在現(xiàn)實生活中很難收集到數(shù)量充足的高質(zhì)量紅外圖像,而大量不同場景和目標(biāo)的圖像作為訓(xùn)練樣本是通常深度學(xué)習(xí)方法所必需的,只有這樣才能有較好的訓(xùn)練結(jié)果,所以直接將較少數(shù)量的紅外圖像作為訓(xùn)練數(shù)據(jù)集來實現(xiàn)深度學(xué)習(xí)方法往往達(dá)不到所需要的效果。
本文為了解決這些問題,提出了基于通道注意力與遷移學(xué)習(xí)的紅外圖像超分辨率重建方法。該方法首先設(shè)計了一個深度卷積神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)融入通道注意力機(jī)制來學(xué)習(xí)特征空間通道之間的相關(guān)性,增強(qiáng)網(wǎng)絡(luò)的學(xué)習(xí)能力,并且使用殘差學(xué)習(xí)方式來減輕梯度爆炸或消失問題,同時也加速網(wǎng)絡(luò)的收斂。考慮到高質(zhì)量的紅外圖像難以采集,數(shù)目不足,然后將網(wǎng)絡(luò)的訓(xùn)練分成兩步:第一步使用自然圖像來預(yù)訓(xùn)練出一個自然圖像的超分辨率模型,第二步利用遷移學(xué)習(xí)[14]的知識,用數(shù)量較少的高質(zhì)量紅外圖像將預(yù)訓(xùn)練獲取到的模型參數(shù)進(jìn)行快速遷移微調(diào)訓(xùn)練[15-16],提升模型對紅外圖像的重建效果,從而得到紅外圖像的超分辨率模型。最后加入多尺度細(xì)節(jié)提升(multi-scale detail boosting,MSDB)[17]模塊來提升紅外重建圖像的細(xì)節(jié)和視覺效果,增大信息量。
SRCNN算法使用Bicubic將低分辨率圖像擴(kuò)大到目標(biāo)尺寸,然后利用深度學(xué)習(xí)網(wǎng)絡(luò)完成特征的提取以及非線性映射,最終重建出高分辨率圖像,圖1(a)是SRCNN網(wǎng)絡(luò)的結(jié)構(gòu)圖,其中conv代表卷積層。FSRCNN則省去了用Bicubic放大尺寸這一步,直接將低分辨率圖像輸入網(wǎng)絡(luò),降低了計算量,再將一個反卷積層接在網(wǎng)絡(luò)的后端以實現(xiàn)對應(yīng)比例的放大,最終得到了高分辨率的圖像,F(xiàn)SRCNN網(wǎng)絡(luò)結(jié)構(gòu)圖如圖1(b)所示。相較于SRCNN,F(xiàn)SRCNN選擇了更小的卷積核和更深的網(wǎng)絡(luò),進(jìn)一步降低了計算量。ESPCN也是不經(jīng)Bicubic步驟直接將低分辨率圖像直接輸入網(wǎng)絡(luò),在網(wǎng)絡(luò)的最后用亞像素卷積層進(jìn)行像素的重排列來重建高分辨率圖像,減少了計算復(fù)雜度,提升了計算速度,但是網(wǎng)絡(luò)深度仍然不夠,ESPCN網(wǎng)絡(luò)結(jié)構(gòu)圖如圖1(c)所示。
一般基于卷積神經(jīng)網(wǎng)絡(luò)的超分辨率算法通常有4個步驟:1) 處理數(shù)據(jù)集;2) 構(gòu)建網(wǎng)絡(luò)模型;3) 用數(shù)據(jù)集訓(xùn)練網(wǎng)絡(luò)模型;4) 生成網(wǎng)絡(luò)參數(shù);5) 用訓(xùn)練好的網(wǎng)絡(luò)模型重建高分辨率圖像[5]。而本文為了完成紅外圖像的超分辨率重建,在一般步驟基礎(chǔ)上增加了遷移學(xué)習(xí)步驟,來克服紅外樣本數(shù)量不足帶來的網(wǎng)絡(luò)學(xué)習(xí)能力不足的問題。本文整體流程分為訓(xùn)練自然圖像超分辨率模型和遷移學(xué)習(xí)兩個步驟。
第一步的任務(wù)是通過深度學(xué)習(xí)獲取自然圖像超分辨率模型??紤]到人眼對亮度的視覺敏感性強(qiáng)于對色彩的視覺敏感性,所以為了降低計算復(fù)雜程度和減少訓(xùn)練量,本文對自然圖像取亮度通道圖像來學(xué)習(xí)重建。先將低分辨率自然圖像取亮度通道圖像送入深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到自然圖像超分辨率模型;再用該模型去重建高分辨率圖像;最后將重建后的圖像與色度空間圖像結(jié)合,生成完整的彩色自然圖像的重建圖像。
圖1 經(jīng)典超分辨率重建網(wǎng)絡(luò)結(jié)構(gòu)圖。(a) SRCNN;(b) FSRCNN;(c) ESPCN
第二步的任務(wù)是用遷移學(xué)習(xí)來獲取紅外圖像的超分辨率模型。與第一階段不同的是,因為紅外圖像自身是單通道圖像,所以無需對通道進(jìn)行操作,直接將完整的紅外圖像作為訓(xùn)練樣本送到深度學(xué)習(xí)網(wǎng)絡(luò)中,再用遷移學(xué)習(xí)的方法,將自然圖像的超分辨率重建模型的參數(shù)作為紅外圖像超分辨率模型的初始參數(shù),用紅外訓(xùn)練樣本對這些參數(shù)進(jìn)行微調(diào)訓(xùn)練,從而得到針對紅外圖像的超分辨率重建模型。最后使用MSDB濾波來提升圖像的細(xì)節(jié)。本文的超分辨率重建流程如圖2所示,其中Y是取亮度通道操作。
圖2 算法流程圖
本文設(shè)計的圖像超分辨率重建網(wǎng)絡(luò)SESR結(jié)構(gòu)如圖3所示。在網(wǎng)絡(luò)的前段,先串聯(lián)三個卷積層,完成特征提取和初步的非線性映射步驟。在網(wǎng)絡(luò)的后段,受ImageNet加深網(wǎng)絡(luò)可以提升識別準(zhǔn)確率的啟發(fā),串聯(lián)6個相同的卷積層、PReLU激活層與SE block三者的組合模塊來加深網(wǎng)絡(luò)深度,避免網(wǎng)絡(luò)的過擬合,增加網(wǎng)絡(luò)的感受野,實現(xiàn)完整的非線性映射操作。最后一層是反卷積層,通過反卷積來完成上采樣。反卷積層的輸出與前段網(wǎng)絡(luò)的輸出相加,最終獲得超分辨率圖像。
在網(wǎng)絡(luò)的細(xì)節(jié)設(shè)計方面,考慮到ReLU函數(shù)的負(fù)半軸始終為0,所以在神經(jīng)網(wǎng)絡(luò)訓(xùn)練時可能會出現(xiàn)神經(jīng)元“壞死”現(xiàn)象。而PReLU函數(shù)的負(fù)半軸斜率是一個可以學(xué)習(xí)的參數(shù),使負(fù)半軸的信息不會丟失,所以本文將選擇PReLU作為網(wǎng)絡(luò)的激活函數(shù),這樣可以避免神經(jīng)元“壞死”的現(xiàn)象,起到一定程度的正則作用,也能增加網(wǎng)絡(luò)的泛化能力;較深的網(wǎng)絡(luò)可能會出現(xiàn)難以收斂或過擬合的情況,使網(wǎng)絡(luò)訓(xùn)練的效果變差[17],所以本文加入了殘差網(wǎng)絡(luò)結(jié)構(gòu)以加速訓(xùn)練的收斂,減輕梯度爆炸或消失問題。表1為各卷積層參數(shù)的設(shè)置。
表1 各卷積層參數(shù)設(shè)置
注意力機(jī)制的作用可以視為將輸入的信息進(jìn)行權(quán)重標(biāo)定,對重要的信息賦予大的權(quán)重對其重視,對不重要的信息進(jìn)行權(quán)重削減,使網(wǎng)絡(luò)在能耗較低的情況下對關(guān)鍵位置的信息進(jìn)行提取,具有較好的映射表達(dá)能力,與此同時切合人類視覺觀察事物的特性。
圖3 SESR網(wǎng)絡(luò)結(jié)構(gòu)圖
圖4 SE block示意圖
圖5 SE block結(jié)構(gòu)圖
傳統(tǒng)的機(jī)器學(xué)習(xí)方法關(guān)注于解決單一領(lǐng)域內(nèi)的問題,需要訓(xùn)練集和測試集的特征具有相同的分布。在這種前提下,機(jī)器學(xué)習(xí)只需要盡可能擬合訓(xùn)練集,訓(xùn)練所得的模型就會最大可能在測試集上獲得優(yōu)良的性能。當(dāng)訓(xùn)練集和測試集的特征不具有相同分布時,通常就需要一個新的數(shù)據(jù)集,并且要在這個新的數(shù)據(jù)集上重新訓(xùn)練模型。但是,在實際應(yīng)用中,重新采集理想的數(shù)據(jù)集代價很高,往往難以完成。所以此時將從一個領(lǐng)域中學(xué)習(xí)到的可用的知識遷移到另外一個領(lǐng)域就變得很有必要。
隨著近幾年深度學(xué)習(xí)的不斷發(fā)展,遷移學(xué)習(xí)也吸引了越來越多的關(guān)注。遷移學(xué)習(xí)就是運(yùn)用已有的知識去解決不同但相關(guān)領(lǐng)域問題。遷移學(xué)習(xí)可以定義為:給定一個源域s和學(xué)習(xí)任務(wù)s,一個目標(biāo)域T和學(xué)習(xí)任務(wù)T,其中s1T和s1T,遷移學(xué)習(xí)就是利用s和s中的已有的有用知識,幫助提高目標(biāo)域T中目標(biāo)預(yù)測函數(shù)的學(xué)習(xí)[14]。當(dāng)源域和目標(biāo)域的數(shù)據(jù)集非常接近時,遷移學(xué)習(xí)可以有效解決目標(biāo)域樣本不足的問題。
基于卷積神經(jīng)網(wǎng)絡(luò)的自然圖像超分辨率方法以大量的不同場景、目標(biāo)、條件下的高分辨率自然圖像為樣本進(jìn)行訓(xùn)練,樣本越多,則訓(xùn)練效果越好。若想將這一方法應(yīng)用到紅外圖像的超分辨率上,則需要大量的高質(zhì)量紅外圖像作為訓(xùn)練樣本。而現(xiàn)實生活中難以收集如此多場景、目標(biāo)、條件下的高質(zhì)量紅外圖像,沒有足夠的紅外圖像訓(xùn)練樣本很容易導(dǎo)致訓(xùn)練過程中過擬合現(xiàn)象的發(fā)生,從而限制了最終的重建效果。這制約了基于卷積神經(jīng)網(wǎng)絡(luò)的超分辨率方法在紅外圖像上的應(yīng)用與發(fā)展。
已有的超分辨率方法大都屬于同質(zhì)圖像的超分辨率重建任務(wù),這種情況下深度網(wǎng)絡(luò)通過標(biāo)準(zhǔn)的有監(jiān)督訓(xùn)練基本上可以滿足應(yīng)用需求,但是因為高質(zhì)量紅外圖像數(shù)量少,很難使用同質(zhì)圖像超分辨率方法來完成任務(wù)。自然圖像與紅外圖像在成像原理上存在很大差異,這也造成了這兩種圖像特性不同,例如自然圖像包含顏色分量、紋理較多,而紅外圖像是灰度圖像,在目標(biāo)內(nèi)容的連通區(qū)域亮度值較為均勻等,但是從超分辨率任務(wù)的角度來說,任務(wù)的最終目的都是追求更高的清晰度和更豐富的細(xì)節(jié)信息,從主觀視覺效果上來看兩種圖像的超分辨率任務(wù)是相似的。所以我們考慮用自然圖像訓(xùn)練好的模型進(jìn)行參數(shù)微調(diào)這一遷移學(xué)習(xí)方法來完成紅外圖像的超分辨率任務(wù)。
本文用基于模型參數(shù)的遷移學(xué)習(xí)方式即網(wǎng)絡(luò)參數(shù)微調(diào)(fine-tuning)來克服高質(zhì)量紅外圖像數(shù)量不足的問題,具體步驟是:先用數(shù)量充足的自然圖像的亮度通道圖像作為數(shù)據(jù)集來預(yù)訓(xùn)練SESR網(wǎng)絡(luò),得到一個適用于自然圖像的超分辨率模型。因為在訓(xùn)練紅外圖像的超分辨率模型時仍然使用SESR網(wǎng)絡(luò),網(wǎng)絡(luò)的結(jié)構(gòu)不變,所以直接將預(yù)訓(xùn)練好的自然圖像超分辨率模型的參數(shù)作為紅外圖像超分辨率模型的初始參數(shù),再用較少數(shù)量的紅外圖像作為訓(xùn)練數(shù)據(jù)集來繼續(xù)訓(xùn)練,對這些參數(shù)進(jìn)行微調(diào)優(yōu)化,提升對紅外圖像的超分辨率的效果,從而得到針對紅外圖像的超分辨率網(wǎng)絡(luò)權(quán)重模型。這樣遷移學(xué)習(xí)就可以有效緩解深度學(xué)習(xí)對少量數(shù)據(jù)學(xué)習(xí)能力不足的問題。
實驗環(huán)境:硬件PC平臺為Intel Core i7-6700K CPU,32 GB內(nèi)存,Nvidia GeForce GTX1070顯卡,使用的軟件為Caffe,Matlab2016b,Cuda8.0,Cudnn5.1。
在第一步預(yù)訓(xùn)練時,本文選用與FRCNN[11]相同的191幅自然圖像作為訓(xùn)練集,這些圖片均有良好的畫質(zhì),在很多超分辨率方法中得到運(yùn)用。但是因為實驗中網(wǎng)絡(luò)具有較深的網(wǎng)絡(luò)結(jié)構(gòu),可能會造成過擬合現(xiàn)象。針對這個問題,本文對191幅訓(xùn)練圖像進(jìn)行數(shù)量擴(kuò)充:先將訓(xùn)練集中的圖像分別進(jìn)行90°、180°和270°的旋轉(zhuǎn),再對這些圖像進(jìn)行縮放,分別取原尺寸的60%、70%、80%和90%,最終獲取的圖像是初始圖像數(shù)量的20倍(4′5=20),即3820幅。
在第二步遷移微調(diào)訓(xùn)練時,本文利用搜集到的39幅清晰度較高的紅外圖像作為樣本,選擇30幅進(jìn)行擴(kuò)充20倍共600幅圖像作為訓(xùn)練集,剩下10幅里再隨機(jī)選擇4幅作為驗證集,其余5幅作為測試集。圖6是其中部分紅外圖像。
在第二步用遷移學(xué)習(xí)去微調(diào)紅外圖像超分辨率模型時,因為網(wǎng)絡(luò)結(jié)構(gòu)不變,仍然是SESR網(wǎng)絡(luò),所以利用第一步預(yù)訓(xùn)練的模型參數(shù)直接構(gòu)建并初始化第二步的網(wǎng)絡(luò),可以大幅減少第二步的訓(xùn)練時間。將基礎(chǔ)學(xué)習(xí)率降為0.0001,僅是預(yù)訓(xùn)練時的1/10,且固定不變,微調(diào)深度和迭代次數(shù)經(jīng)測試后再確定,其他參數(shù)與訓(xùn)練自然圖像超分辨率模型時保持一致。
圖6 部分紅外圖像樣本
本文采用的損失函數(shù)是均方誤差(mean squared error,MSE),這有助于后期使用峰值信噪比(PSNR)作為超分辨率重建圖像的質(zhì)量評價指標(biāo),MSE的計算公式為
本文采取的圖像重建質(zhì)量評價指標(biāo)有峰值信噪比(peak signal-to-noise ratio,PSNR)和結(jié)構(gòu)相似度(structural similarity,SSIM),其中PSNR是超分辨率領(lǐng)域使用最廣泛的圖像評價指標(biāo)之一,是基于對應(yīng)像素點(diǎn)之間的誤差進(jìn)行質(zhì)量評價,越大的PSNR的值表明越小的重建圖像失真度,即越好的重建效果,但PSNR的數(shù)值僅僅依賴于像素間低層次的差別,它不能完全代表人類視覺效果的優(yōu)劣。SSIM分別從結(jié)構(gòu)、亮度、對比度三個方面來度量圖像之間的相似性,SSIM值越接近1,說明重建后的圖像與原圖結(jié)構(gòu)越相似,重建效果越好。紅外圖像雖然成像原理與自然圖像不同,但是在判斷重建效果優(yōu)劣時,也是用原始高清圖像作為參考來判斷的,失真度和結(jié)構(gòu)、亮度、對比度等的差異同樣都可以作為判斷依據(jù),所以PSNR和SSIM作為紅外重建圖像的評價指標(biāo)也具有較高的說服力。
為了證明本文設(shè)計的網(wǎng)絡(luò)在超分辨率重建任務(wù)中的有效性,本文先將預(yù)訓(xùn)練的自然圖像超分辨率模型與幾種已有的模型分別在Set5和Set14數(shù)據(jù)集上與傳統(tǒng)的Bicubic方法、基于學(xué)習(xí)的SRCNN算法、FSRCNN算法以及ESPCN算法在自然圖像數(shù)據(jù)集上進(jìn)行測試比較,放大因子分別取2、3和4,它們的重建結(jié)果如表2所示。評價指標(biāo)取PSNR和SSIM。
為了更直觀地比較各方法的效果,圖7和圖8給出了表2中超分辨率方法在放大因子為3時的2幅圖像的重建結(jié)果并進(jìn)行局部放大。
由表2可以看出SESR網(wǎng)絡(luò)的重建結(jié)果評價指標(biāo)普遍優(yōu)于前3種重建方法,其中用Bicubic方法生成結(jié)果的PSNR值和SSIM值最低,SRCNN方法和FSRCNN方法均優(yōu)于Bicubic,而SESR方法的PSNR值和SSIM值均是這些方法中最高的,表明該方法的重建效果更好,與原始高清圖像最接近。在放大倍數(shù)為2時,Set5數(shù)據(jù)集上SESR方法的PSNR值達(dá)到了37.39 dB,SSIM值達(dá)到了0.9586,PSNR比Bicubic提升了3.73 dB,SSIM也提高了0.0287。
表2 5種方法在2個數(shù)據(jù)集上的重建結(jié)果(PSNR/SSIM)
圖7 Butterfly重建結(jié)果。(a) 原圖;(b) Bicubic;(c) SRCNN;(d) FSRCNN;(e) ESPCN;(f) SESR
圖8 Lenna重建結(jié)果。(a) 原圖;(b) Bicubic;(c) SRCNN;(d) FSRCNN;(e) ESPCN;(f) SESR
從圖7和圖8可以直觀地看出,Bicubic方法的重建圖像最模糊;SRCNN的效果有所提升但是細(xì)節(jié)不夠清晰,效果一般;ESPCN和SESR方法能夠較好的恢復(fù)細(xì)節(jié),但SESR方法的重建圖像的邊緣更清晰,細(xì)節(jié)更清楚,更接近原圖。
為了證明用PReLU作為神經(jīng)網(wǎng)絡(luò)的激活函數(shù)相較于ReLU的優(yōu)越性,本文做了對比實驗,分別用兩個函數(shù)作為網(wǎng)絡(luò)的激活函數(shù)訓(xùn)練模型。圖9是兩個函數(shù)分別用Set5和Set14數(shù)據(jù)集在3倍放大因子下的測試結(jié)果,可以看到,PReLU函數(shù)作為網(wǎng)絡(luò)激活函數(shù)的重建結(jié)果有更高的PSNR值,所以本文采用PReLU作為最終的網(wǎng)絡(luò)激活函數(shù)。
為了驗證通道注意力機(jī)制在超分辨率重建任務(wù)中的作用,本文將去除了通道注意力機(jī)制的SESR網(wǎng)絡(luò)(將原SESR網(wǎng)絡(luò)中去掉所有的SE block)和原始的SESR網(wǎng)絡(luò)重建效果進(jìn)行對比實驗,評價指標(biāo)用PSNR和SSIM,表3列出了3種方式在Set5和Set14數(shù)據(jù)集上的重建結(jié)果。
圖9 不同激活函數(shù)下Set5和Set14測試集的PSNR均值隨迭代次數(shù)增長的趨勢圖。(a) Set5;(b) Set14
表3 2種方式在2個數(shù)據(jù)集上的重建結(jié)果
圖10和圖11分別給出了2幅圖像在3種情況下放大因子為3時的超分辨率重建結(jié)果圖并進(jìn)行局部放大。
從表3、圖10和圖11可以看出,去除通道注意力機(jī)制的SESR網(wǎng)絡(luò)的PSNR值均稍低于原始的SESR網(wǎng)絡(luò),6組數(shù)據(jù)PSNR平均降低了0.05 dB,SSIM平均降低了0.0011,說明了SE block在超分辨率重建網(wǎng)絡(luò)中具有一定的優(yōu)化作用,它使網(wǎng)絡(luò)的學(xué)習(xí)能力更強(qiáng),重建效果更優(yōu)。
通常在CNN網(wǎng)絡(luò)中,網(wǎng)絡(luò)前端學(xué)習(xí)的是低層次圖像特征,如顏色、邊緣、形狀等,而網(wǎng)絡(luò)后端學(xué)習(xí)的是當(dāng)前任務(wù)要求的高層次特征。為了節(jié)約資源,一般的基于模型參數(shù)遷移通常對前若干層的參數(shù)不更新。但是本文考慮到自然圖像與紅外圖像成像、顏色以及邊緣等基本特征的差異性,所以對微調(diào)的深度進(jìn)行了測試并討論。本文將遷移的深度設(shè)置為微調(diào)Conv7至Conv10、微調(diào)Conv4至Conv10以及微調(diào)全部卷積層三種,測試的結(jié)果如圖12所示。
可以看出微調(diào)全部卷積層參數(shù)時,對5張紅外圖像的平均PSNR值能達(dá)到最高,而只微調(diào)Conv7至Conv10時細(xì)節(jié)效果最差,所以本文選擇微調(diào)全部卷積層的參數(shù)。另外從圖12上可以看出,微調(diào)全部卷積層時迭代次數(shù)選擇5′105時網(wǎng)絡(luò)就能收斂,所以本文的參數(shù)遷移迭代次數(shù)選擇5′105。
圖10 Baby重建結(jié)果。(a) 原圖;(b) SESR(no attention);(c) SESR
圖11 Comic重建結(jié)果。(a) 原圖;(b) SESR(no attention);(c) SESR
圖12 不同微調(diào)深度下5幅紅外圖像PSNR均值隨迭代次數(shù)增長的趨勢圖
為了證明遷移學(xué)習(xí)在紅外圖像超分辨率重建中的有效性,將遷移學(xué)習(xí)后的紅外圖像超分辨率模型(SESR_T)與其他3種經(jīng)典方法(Bicubic、SRCNN、FSRCNN)、遷移學(xué)習(xí)前的重建模型(SESR)以及直接用少量的紅外樣本直接訓(xùn)練出來的重建模型(SESR_I)在5幅紅外圖像測試集上進(jìn)行3倍放大重建測試,重建質(zhì)量的評價指標(biāo)為PSNR和SSIM,重建的結(jié)果分別如表4所示。
圖13和圖14分別給出了2幅紅外測試圖像在放大因子為3時各方法的超分辨率重建結(jié)果圖并進(jìn)行局部放大。
表4 6種方法在5幅紅外圖像上的測試結(jié)果(PSNR/SSIM)
從圖13、圖14能直觀地看出,預(yù)訓(xùn)練的模型SESR在紅外圖像上重建和遷移學(xué)習(xí)后的SESR_T重建結(jié)果相較于其他方法邊緣更明顯,線條更清晰,視覺效果更優(yōu),SESR和SESR_T兩者的視覺效果雖然差距不大,但是從表4結(jié)果看出,SESR_T重建的5幅紅外圖像的平均PSNR值和SSIM值分別為41.64 dB和0.9525,比SESR在紅外圖像上重建的PSNR值和SSIM值分別平均增加了0.25 dB和0.0005,比直接用少量紅外圖像訓(xùn)練的模型SESR_I分別平均增加了0.31 dB和0.0021,紅外圖像的超分辨率重建的質(zhì)量得到了提升,證明了遷移學(xué)習(xí)在高質(zhì)量紅外樣本不足情況下對紅外圖像超分辨率重建的有效性。SESR和FSRCNN都是用自然圖像訓(xùn)練的模型,SESR的評價標(biāo)準(zhǔn)有明顯優(yōu)勢,而SESR_I在紅外訓(xùn)練集較小(600幅)的情況下,其重建結(jié)果PSNR值仍能和FSRCNN方法(3820幅)很接近,這兩點(diǎn)能充分說明SESR超分辨率重建網(wǎng)絡(luò)具有一定的優(yōu)勢。
圖13 Car1重建結(jié)果。(a) 原圖;(b) Bicubic;(c) SRCNN;(d) FSRCNN;(e) SESR_I;(f) SESR;(g) SESR_T
圖14 Car2重建結(jié)果。(a) 原圖;(b) Bicubic;(c) SRCNN;(d) FSRCNN;(e) SESR_I;(f) SESR;(g) SESR_T
考慮到MSDB濾波不以與高清原圖的相似性為目的,而是盡可能提升圖像的細(xì)節(jié)以增大信息量,但是PSNR和SSIM都是以高清原始圖像為參考的質(zhì)量評價指標(biāo),所以為了更好地驗證MSDB濾波的效果,本文除了采用PSNR和SSIM外,還采用了一種無參考的空間域圖像質(zhì)量評價指標(biāo):NIQE[21],從重建圖像自身的質(zhì)量來比較重建效果的優(yōu)劣。NIQE的原理是正常圖像的歸一化亮度系數(shù)存在明顯的單位標(biāo)準(zhǔn)高斯分布,而噪聲或失真都會破壞這一規(guī)律,NIQE的數(shù)值越小,圖像質(zhì)量越高。相較于MSE、PSNR、SSIM等評價算法,NIQE算法表現(xiàn)出更好的預(yù)測穩(wěn)定性、單調(diào)性和一致性,而且NIQE在提取圖像統(tǒng)計特征時先對圖像提取了感興趣區(qū)域,所以NIQE算法與人眼主觀質(zhì)量評價有著更好的一致性,更加接近人類視覺系統(tǒng)[22]。為了驗證MSDB濾波的有效性,將普通的SESR_T模型與SESR_T+MSDB方法進(jìn)行重建效果對比,表5是兩種方法在三種圖像質(zhì)量評價指標(biāo)下對5幅紅外圖像的重建結(jié)果。
圖15和圖16分別給出了Car1和People2兩幅紅外圖像用SESR-T和SESR-T+MSDB重建的結(jié)果圖并進(jìn)行局部放大。
從表5可得,MSDB濾波會普遍降低重建圖像的PSNR,5幅紅外圖像PSNR值平均降低了0.97 dB,SSIM值有增有減,5幅紅外圖像平均只相差0.0005,說明MSDB不會對圖像的結(jié)構(gòu)、亮度、對比度產(chǎn)生較大的影響。而MSDB濾波使得NIQE值得到了降低,5幅圖像平均降低了0.4064,說明經(jīng)過MSDB濾波后的圖像雖然PSNR值稍低,但是其本身質(zhì)量更高,具有更多的信息量。從圖15、圖16中也能直觀地看到,經(jīng)過MSDB濾波后的各紅外圖像的輪廓更清晰,對比度更高,視覺效果更優(yōu),圖像自身的質(zhì)量得到了有效提高,主觀的視覺效果與客觀評價指標(biāo)NIQE基本一致。
表5 5幅紅外圖像上3種評價指標(biāo)的重建結(jié)果
圖15 Car1重建結(jié)果。(a) 原圖;(b) SESR_T;(c) SESR_T+MSDB
圖16 People2重建結(jié)果。(a) 原圖;(b) SESR_T;(c) SESR_T+MSDB
針對現(xiàn)有紅外圖像分辨率低、質(zhì)量不高的問題,本文提出了一種基于通道注意力與遷移學(xué)習(xí)的紅外圖像超分辨率重建方法。該方法首先設(shè)計了一個深度卷積神經(jīng)網(wǎng)絡(luò),融入通道注意力機(jī)制,來學(xué)習(xí)特征空間通道之間的相關(guān)性,增強(qiáng)了網(wǎng)絡(luò)的學(xué)習(xí)能力,并且使用殘差學(xué)習(xí)方式來減輕梯度爆炸或消失問題,加速網(wǎng)絡(luò)的收斂??紤]到高質(zhì)量的紅外圖像難以采集、數(shù)目不足,所以本文采用兩步學(xué)習(xí)方式:第一步使用自然圖像來預(yù)訓(xùn)練獲取一個自然圖像的超分辨率模型,第二步利用遷移學(xué)習(xí)的知識,用較少數(shù)量的高質(zhì)量紅外圖像將預(yù)訓(xùn)練獲取到的模型參數(shù)進(jìn)行遷移微調(diào)訓(xùn)練,提升模型對紅外圖像的重建效果,從而得到了針對紅外圖像的超分辨率模型。最后加入的多尺度細(xì)節(jié)濾波模塊來提升紅外重建圖像的視覺效果。實驗結(jié)果表明,加深網(wǎng)絡(luò)的深度和引入通道注意力機(jī)制,均能提升網(wǎng)絡(luò)的學(xué)習(xí)能力,對重建的效果有積極作用;遷移學(xué)習(xí)可以很好地解決高質(zhì)量紅外圖像數(shù)目不足的問題,遷移學(xué)習(xí)后的模型對紅外圖像的重建效果相較于遷移學(xué)習(xí)之前和直接用少量紅外圖像訓(xùn)練出來的模型均有所提升;MSDB濾波模塊能提升重建后的紅外圖像的細(xì)節(jié)和人類的視覺效果,增大了信息量,提升了紅外圖像的應(yīng)用價值。
[1] Su H, Zhou J, Zhang Z H. Survey of super-resolution image reconstruction methods[J]., 2013, 39(8): 1202–1213.
蘇衡, 周杰, 張志浩. 超分辨率圖像重建方法綜述[J]. 自動化學(xué)報, 2013, 39(8): 1202–1213.
[2] B?tz M, Eichenseer A, Seiler J,. Hybrid super-resolution combining example-based single-image and interpolation-based multi-image reconstruction approaches[C]//, 2015: 58–62.
[3] Kim K I, Kwon Y. Single-image super-resolution using sparse regression and natural image prior[J]., 2010, 32(6): 1127–1133.
[4] Lian Q S, Zhang W. Image super-resolution algorithms based on sparse representation of classified image patches[J]., 2012, 40(5): 920–925.
練秋生, 張偉. 基于圖像塊分類稀疏表示的超分辨率重構(gòu)算法[J]. 電子學(xué)報, 2012, 40(5): 920–925.
[5] Xiao J S, Liu E Y, Zhu L,. Improved image super-resolution algorithm based on convolutional neural network[J]., 2017, 37(3): 0318011.
肖進(jìn)勝, 劉恩雨, 朱力, 等. 改進(jìn)的基于卷積神經(jīng)網(wǎng)絡(luò)的圖像超分辨率算法[J]. 光學(xué)學(xué)報, 2017, 37(3): 0318011.
[6] Stark H, Oskoui P. High-resolution image recovery from image-plane arrays, using convex projections[J]., 1989, 6(11): 1715–1726.
[7] Irani M, Peleg S. Improving resolution by image registration[J]., 1991, 53(3): 231–239.
[8] Chang H, Yeung D Y, Xiong Y M. Super-resolution through neighbor embedding[C]//, 2004: 275–282.
[9] Yang J C, Wright J, Huang T S,. Image super-resolution via sparse representation[J]., 2010, 19(11): 2861–2873.
[10] Dong C, Loy C C, He K M,. Image super-resolution using deep convolutional networks[J]., 2016, 38(2): 295–307.
[11] Dong C, Loy C C, Tang X O. Accelerating the super-resolution convolutional neural network[C]//, 2016: 391–407.
[12] Shi W Z, Caballero J, Huszár F,. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]//, 2016: 1874–1883.
[13] Ledig C, Theis L, Huszár F,. Photo-realistic single image super-resolution using a generative adversarial network[C]//, 2017: 4681–4690.
[14] Pan S J, Yang Q. A survey on transfer learning[J]., 2010, 22(10): 1345–1359.
[15] Xu Z, Qu C W, He L Q. SAR target super-resolution based on transfer learning[J]., 2015, 36(6): 1940–1952.
徐舟, 曲長文, 何令琪. 基于遷移學(xué)習(xí)的SAR目標(biāo)超分辨重建[J]. 航空學(xué)報, 2015, 36(6): 1940–1952.
[16] Yanai K, Kawano Y. Food image recognition using deep convolutional network with pre–training and fine–tuning[C]//, 2015: 1–6.
[17] Du B, Xiong W, Wu J,. Stacked convolutional denoising auto-encoders for feature representation[J]., 2017, 47(4): 1017–1027.
[18] Hu J, Shen L, Sun G. Squeeze-and-excitation networks[C]//, 2018: 7132–7141.
[19] Kim Y, Koh Y J, Lee C,. Dark image enhancement based onpairwise target contrast and multi-scale detail boosting[C]//, 2015: 1404–1408.
[20] Kingma D P, Ba J. Adam: a method for stochastic optimization[Z]. arXiv: 1412.6980, 2014.
[21] Mittal A, Soundararajan R, Bovik A C. Making a “completely blind” image quality analyzer[J]., 2013, 20(3): 209–212.
[22] Shao X, Zeng T Y, Wang Z H. No-reference quality assessment method for printed image based on NIQE[J]., 2016, 8(4): 35–39.
邵雪, 曾臺英, 汪祖輝. 一種基于NIQE的印刷圖像無參考質(zhì)量評價方法[J]. 包裝學(xué)報, 2016, 8(4): 35–39.
Super-resolution reconstruction of infrared image based on channel attention and transfer learning
Sun Rui1,2, Zhang Han1,2*, Cheng Zhikang1,2, Zhang Xudong1
1School of Computer and Information, Hefei University of Technology, Hefei, Anhui 230009, China;2Anhui Province Key Laboratory of Industry Safety and Emergency Technology, Hefei, Anhui 230009, China
Effect picture
Overview:In recent years, infrared imaging technology has developed rapidly and has been increasingly used in military reconnaissance, security surveillance, and medical imaging. However, in the process of infrared image imaging or transmission, it is affected by many factors such as environment and equipment. The infrared image often has a low resolution, which greatly reduces the amount of information contained in the infrared image and restricts the application value of the infrared image. Therefore, how to obtain high-resolution and high-information infrared images has become an issue that people urgently need to solve. In recent years, the development of deep learning technology has made rapid progress, and super-resolution methods based on deep learning have begun to appear. However, if these convolutional neural networks are directly applied to the infrared image field, there are some problems: SRCNN, FSRCNN, and ESPCN have fewer network convolutional layers and insufficient network depth, and the learning features will be relatively single, ignoring the differences between image features. The mutual relationship makes it difficult to extract the deep-level information of the infrared image, and SRGAN may generate super-resolution images that are not close to the original image in certain details, which is not conducive to the application of infrared images in military, medical and surveillance. Another problem that needs to be overcome is that it is difficult to collect a sufficient number of high-quality infrared images in real life, and a large number of images of different scenes and targets are required as training samples for common deep learning methods. The infrared images used as training data sets to achieve deep learning methods often fail to achieve the desired effect. In order to solve these problems, this paper proposes a method for super-resolution reconstruction of infrared images based on channel attention and transfer learning. This method first designs a deep convolutional neural network, which integrates the channel attention mechanism to learn the correlation between the channels in the feature space, enhances the learning ability of the network, and uses residual learning to reduce the problem of gradient explosion or disappearance and to speed up network convergence. Then, considering that high-quality infrared images are difficult to collect and insufficient in number, the network training is divided into two steps: the first step uses natural images to pre-train a super-resolution model of natural images, and the second step is to use transfer learning knowledge. Using a small number of high-quality infrared images, the pre-trained model parameters are quickly transferred and fine-tuned to improve the reconstruction effect of the model on the infrared image, thereby obtaining a super-resolution model of the infrared image. Finally, a multi-scale detail boosting (MSDB) module is added to enhance the details and visual effects of the infrared reconstructed image and to increase the amount of information.
Sun R, Zhang H, Cheng Z K,Super-resolution reconstruction of infrared image based on channel attention and transfer learning[J]., 2021, 48(1): 200045; DOI:10.12086/oee.2021.200045
Super-resolution reconstruction of infrared image based on channel attention and transfer learning
Sun Rui1,2, Zhang Han1,2*, Cheng Zhikang1,2, Zhang Xudong1
1School of Computer and Information, Hefei University of Technology, Hefei, Anhui 230009, China;2Anhui Province Key Laboratory of Industry Safety and Emergency Technology, Hefei, Anhui 230009, China
A super-resolution reconstruction method of infrared images based on channel attention and transfer learning was proposed to solve the problems of low resolution and low quality of infrared images. In this method, a deep convolutional neural network is designed to enhance the learning ability of the network by introducing the channel attention mechanism, and the residual learning method is used to mitigate the problem of gradient explosion or disappearance and to accelerate the convergence of the network. Because high-quality infrared images are difficult to collect and insufficient in number, so this method is divided into two steps: the first step is to use natural images to pre-train the neural network model, and the second step is to use transfer learning knowledge to fine-tune the pre-trained model’s parameters with a small number of high-quality infrared images to make the model better in reconstructing the infrared image. Finally, a multi-scale detail boosting filter is added to improve the visual effect of the reconstructed infrared image. Experiments on Set5 and Set14 datasets as well as infrared images show that the deepening network depth and introducing channel attention mechanism can improve the effect of super-resolution reconstruction, transfer learning can well solve the problem of insufficient number of infrared image samples, and multi-scale detail boosting filter can improve the details and increase the amount of information of the reconstruction image.
super-resolution; infrared image; convolutional neural network; attention; transfer learning
TP391;TB866
A
10.12086/oee.2021.200045
National Natural Science Foundation of China (61471154, 61876057) and the Fundamental Research Funds for Central Universities (JZ2018YYPY0287)
* E-mail: 1402198087@qq.com
孫銳,章晗,程志康,等. 基于通道注意力與遷移學(xué)習(xí)的紅外圖像超分辨率重建算法[J]. 光電工程,2021,48(1): 200045
Sun R, Zhang H, Cheng Z K,Super-resolution reconstruction of infrared image based on channel attention and transfer learning[J]., 2021, 48(1): 200045
2020-02-11;
2020-05-09
國家自然科學(xué)基金面上項目(61471154,61876057);中央高?;究蒲袠I(yè)務(wù)費(fèi)專項資金資助項目(JZ2018YYPY0287)
孫銳(1976-),男,博士,教授,主要從事計算機(jī)視覺的研究。E-mail:sunrui@hfut.edu.cn
章晗(1995-),男,碩士研究生,主要從事計算機(jī)視覺的研究。E-mail:1402198087@qq.com