張艷,盧宣銘,劉國瑞,劉樹東,孫葉美
(天津城建大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,天津 300384)
遙感圖像作為地表信息的重要數(shù)據(jù),在遙感領(lǐng)域有著關(guān)鍵作用。高分辨率(high resolution,HR)的遙感圖像不但具有豐富而細(xì)致的紋理,而且其所包含的關(guān)鍵信息在物體識別[1]、目標(biāo)檢測[2-3]、土地覆蓋分類[4-6]等工作中有著不可取代的價(jià)值。然而,因?yàn)槭艿匠上裨O(shè)備以及圖像傳輸條件的限制[7-8],所獲得的衛(wèi)星圖像往往是低分辨率(low resolution,LR)圖像。因此,采用超分辨率(super-resolution,SR)重建技術(shù)來增強(qiáng)遙感圖像的分辨率具有重要的應(yīng)用價(jià)值。
隨著計(jì)算機(jī)視覺的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)在自然圖像超分辨率重建領(lǐng)域廣泛應(yīng)用。Dong等[9]提出的SRCNN(super-resolution convolutional neural network)算法,利用三層卷積完成圖像特征提取、特征非線性映射,獲得了較好的重建效果,但由于層數(shù)過少,導(dǎo)致提取的特征有限。Kim等[10]提出的算法加深了網(wǎng)絡(luò)層數(shù),通過加入殘差學(xué)習(xí)提高了學(xué)習(xí)速度和特征提取能力;他們還提出了一種具有短跳連接的遞歸卷積網(wǎng)絡(luò)[11],將所有訓(xùn)練結(jié)果進(jìn)行監(jiān)督,避免了梯度消失的問題,另外加入了殘差的思想,提高了圖像重建的效果。Tai等[12]提出的深度遞歸殘差網(wǎng)絡(luò)采用參數(shù)共享的策略,緩解了過深的網(wǎng)絡(luò)導(dǎo)致梯度消失的問題,但由于網(wǎng)絡(luò)比較龐大,增加了運(yùn)行計(jì)算的時(shí)間。劉樹東等[13]提出的對稱殘差卷積神經(jīng)網(wǎng)絡(luò)采用塊內(nèi)對稱短跳連接和塊外長跳連接的方式,彌補(bǔ)了深度網(wǎng)絡(luò)圖像細(xì)節(jié)退化嚴(yán)重的損失,但無法充分學(xué)習(xí)到遙感圖像的深層特征,重建性能有限。
在遙感圖像的超分辨率重建方面,Lei等[14]利用深度卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)遙感圖像中的多層次特征信息來提高遙感圖像的重建效果,但隨著網(wǎng)絡(luò)加深,梯度消失也越明顯。Ma等[15]結(jié)合小波變換和遞歸殘差網(wǎng)絡(luò),充分使用不同頻段的遙感圖像補(bǔ)充圖像細(xì)節(jié),但網(wǎng)絡(luò)復(fù)雜,加大了訓(xùn)練的難度。He等[16]把拉普拉斯金字塔加入遙感圖像超分辨率算法中,采用級聯(lián)的方式逐步細(xì)化,取得了不錯(cuò)的效果,但難以滿足實(shí)時(shí)應(yīng)用的需要。Xu等[17]提出的深度記憶連接算法,利用跳躍連接和殘差連接加快了網(wǎng)絡(luò)收斂速度。Gu等[18]的深度殘差激勵算法,利用殘差模塊和激勵模塊的組合,使不同層次的局部特征信息得到更好的融合,提高了網(wǎng)絡(luò)的魯棒性和重建能力,但模型在加深網(wǎng)絡(luò)的同時(shí),也加大了網(wǎng)絡(luò)計(jì)算量和內(nèi)存消耗等問題。
由于遙感圖像內(nèi)容復(fù)雜、細(xì)節(jié)信息豐富,在超分辨率重建方面仍然存在一些困難。通常,遙感圖像中的目標(biāo)具有比較廣泛的尺度,所以在設(shè)計(jì)模型上應(yīng)考慮局部和全局的特征信息,從而使模型能夠?qū)W習(xí)到多層次的特征,提高重建效果。為了解決上述問題,本文提出一種基于多路徑特征融合的遙感圖像超分辨率重建算法。該算法模型由3個(gè)部分組成:淺層特征提取模塊、特征融合模塊和圖像重建模塊,如圖1所示。其主要特點(diǎn)是:引入多路徑特征融合網(wǎng)絡(luò)結(jié)構(gòu),可充分融合各卷積層的特征內(nèi)容,從而學(xué)習(xí)到足夠的細(xì)節(jié)信息,增強(qiáng)了特征利用率;模型的輕量化設(shè)計(jì),在提高模型重建性能的同時(shí),減少了內(nèi)存的占用和計(jì)算時(shí)間。
圖1 多路徑特征融合的遙感圖像超分辨率重建算法模型
淺層特征提取模塊由2個(gè)3×3的卷積層構(gòu)成,其中每層卷積的特征維度為64。淺層特征提取模塊用于提取LR圖像中的特征信息。該模塊用式(1)表示。
S=F(ILR)
(1)
式中:ILR表示網(wǎng)絡(luò)的輸入;F表示淺層特征提取模塊的函數(shù);S表示輸出的特征。
由于帶泄露線性整流(leaky recitiffied linear unit,LReLU)函數(shù)可以緩解網(wǎng)絡(luò)訓(xùn)練中神經(jīng)元死亡的問題,因此,在相應(yīng)的卷積層后加入LReLU替代ReLU,以此增強(qiáng)網(wǎng)絡(luò)訓(xùn)練的穩(wěn)定性。LReLU的計(jì)算方法如式(2)所示。
(2)
式中:x為輸入信息;α為設(shè)置的參數(shù),本文設(shè)置為0.05。
特征融合模塊是本網(wǎng)絡(luò)的核心模塊,由4個(gè)多路徑特征融合模塊(multi path fusion,MPF)組成。MPF模塊包含增強(qiáng)融合單元和蒸餾單元,模塊圖如圖2所示。增強(qiáng)融合單元由3個(gè)基本單元組成,每2層卷積層可以看作一個(gè)基本單元。通過多條路徑的連接,充分融合了不同網(wǎng)絡(luò)層豐富的特征,使網(wǎng)絡(luò)能夠?qū)W習(xí)更多的細(xì)節(jié)信息,增強(qiáng)了特征利用率,從而使重建的圖像細(xì)節(jié)部分更為清晰。為了減少模型的尺寸,減少了基本單元中卷積層的通道數(shù),將通道數(shù)分別設(shè)置為48和64,從而減少參數(shù),提高了重建的速度。蒸餾單元由1×1的卷積層組成,用來蒸餾信息。MPF模塊如式(3)所示。
(3)
圖2 MPF模塊網(wǎng)絡(luò)結(jié)構(gòu)圖
圖像重建模塊由一個(gè)1×1的卷積層、一個(gè)轉(zhuǎn)置卷積層以及一個(gè)3×3卷積層組成。首先,利用1×1卷積層減少輸出特征圖的數(shù)目,從而降低計(jì)算成本;然后,通過轉(zhuǎn)置卷積層來放大圖像,為了進(jìn)一步加強(qiáng)網(wǎng)絡(luò)的有效性,根據(jù)2、3和4倍不同放大系數(shù)將轉(zhuǎn)置卷積的內(nèi)核分別設(shè)置為4×4、5×5和8×8,這樣既提高了模型的效率,而且有助于提高重建圖像的質(zhì)量;最后,利用3×3卷積層生成高分辨率圖像。
圖像重建使用最廣泛的損失函數(shù)為均方誤差(mean square error,MSE),但使用平均絕對誤差(mean absolute error,MAE)損失函數(shù)有時(shí)能獲得比MSE損失函數(shù)更好的效果。所以模型先利用MAE損失函數(shù)進(jìn)行訓(xùn)練網(wǎng)絡(luò),然后用MSE損失函數(shù)對網(wǎng)絡(luò)進(jìn)行微調(diào)。MAE和MSE的計(jì)算如式(4)、式(5)所示。
(4)
(5)
式中:N表示訓(xùn)練樣本的數(shù)量;xi表示第i個(gè)樣本的實(shí)際值;xk為第i個(gè)樣本的預(yù)估值。
為了驗(yàn)證本文算法的有效性,在NWPU-RESISC45和UC Merced 2個(gè)遙感數(shù)據(jù)集上,對模型結(jié)構(gòu)進(jìn)行了消融實(shí)驗(yàn),并將本文算法(multi fusion convolution network,MFCN)與Bicubic、SRCNN、FSRCNN、VDSR、DRRN、SymRCN 6種算法[19]進(jìn)行比較。采用峰值信噪比(peak signal to noise ratio,PSNR)與結(jié)構(gòu)相似度(structural similarity index,SSIM)[20]來衡量圖像重建質(zhì)量,其定義如式(6)、式(7)所示。
(6)
(7)
式中:Y和Y*表示原始高分辨率圖像和重建圖像;M和N表示圖像的尺寸;μY和μY*分別表示原始圖像的和重建圖像的平均灰度值;σY和σY*分別代表原圖與重建圖像的方差;σYY*代表原圖與重建圖像的協(xié)方差;C1、C2代表常數(shù)。PSNR和SSIM的值越大表示重建圖像效果越好,與原始圖像更加接近。
實(shí)驗(yàn)測試的硬件環(huán)境為搭載Intel(R) Xeon(R) CPU E5-1650 v4@3.6 GHz×12處理器,配置Tesla K20c GPU,內(nèi)存為64 GB的計(jì)算機(jī),軟件環(huán)境為Linux操作系統(tǒng)、Matlab R2016a軟件、caffe深度學(xué)習(xí)框架、CUDA Tookit 8.0開發(fā)包。
實(shí)驗(yàn)中將帶泄漏線性整流函數(shù)的斜率設(shè)為0.05,對于網(wǎng)絡(luò)的初始化,采用文獻(xiàn)[21]所使用的方式,并且用Adam算法對模型優(yōu)化。最小批量大小和權(quán)重衰減分別設(shè)置為64和10-4,網(wǎng)絡(luò)學(xué)習(xí)率設(shè)置為10-4,并且在迭代2×105后降低為10-5。
本實(shí)驗(yàn)使用的訓(xùn)練數(shù)據(jù)集包含了700幅遙感圖像,其中100幅圖像來自文獻(xiàn)[22]的NWPU-RESISC45數(shù)據(jù)集,另外600幅圖像來自文獻(xiàn)[23]的UC Merced數(shù)據(jù)集,并且從上述數(shù)據(jù)集中另外挑選了100幅遙感圖像用于實(shí)驗(yàn)測試。為了實(shí)現(xiàn)學(xué)習(xí)樣本的多樣性,本文算法對訓(xùn)練數(shù)據(jù)集中的圖像進(jìn)行了數(shù)據(jù)擴(kuò)充,得到了28 000幅訓(xùn)練圖像。由于人眼的視覺對亮度的感受較為敏銳[24],而且在Y通道上進(jìn)行映射并不影響重建的水平[9],因此實(shí)驗(yàn)僅在Y通道上做訓(xùn)練,在其他通道上只是使用插值放大操作,這樣在減輕計(jì)算量的同時(shí)也確保了圖像重建的質(zhì)量[25]。
使用雙三次插值法以因子m(m=2,3,4)倍對原始高分辨率圖像進(jìn)行下采樣,從而生成了相應(yīng)的低分辨率圖像,然后將獲得的低分辨率圖像裁剪成h×h大小的子圖像,以相同的方法將原始高分辨率圖像裁剪成mh×mh的子圖像。由于當(dāng)采樣因子變大時(shí),裁剪過大的子圖像無法獲得足夠的圖像信息,所以為了充分利用圖像中的信息,根據(jù)m(m=2,3,4)倍采樣大小,將低分辨率圖像和高分辨率圖像分別裁剪為352/702,252/752,192/762。
如圖3所示,針對不同路徑連接的模型進(jìn)行了對比實(shí)驗(yàn)。圖3中,結(jié)構(gòu)a中僅采用了單一的短路徑和長路徑連接;結(jié)構(gòu)b在結(jié)構(gòu)a模型上,多增加了中路徑的特征信息;結(jié)構(gòu)c模型在結(jié)構(gòu)b模型的基礎(chǔ)上,把輸入的信息也融合到了網(wǎng)絡(luò)中,充分利用了不同卷積層的特征。
表1 在NWPU-RESISC45數(shù)據(jù)集上3種結(jié)構(gòu)的特征融合模型的PSNR和SSIM對比
圖3 路徑模塊的局部圖
在NWPU-RESISC45數(shù)據(jù)集上對3種結(jié)構(gòu)模型進(jìn)行不同采樣因子的重建實(shí)驗(yàn),PSNR和SSIM平均值如表1所示。可以看出,結(jié)構(gòu)c模型的PSNR值和SSIM值的平均值高于結(jié)構(gòu)a和結(jié)構(gòu)b,分別提高0.08 dB和0.03 dB,表明多路徑特征融合模塊提取了更多的特征,提高了模型的重建性能。
為進(jìn)一步驗(yàn)證本文算法,將本文算法與Bicubic、SRCNN、FSRCNN、VDSR、DRRN、SymRCN算法進(jìn)行比較。表2給出了各算法在NWPU-RESISC45和UC Merced數(shù)據(jù)集上的PSNR和SSIM平均值??梢钥闯?,雙三次插值算法的PSNR和SSIM平均值最低。SRCNN和FSRCNN作為早期的超分辨率重建算法,雖然算法性能有一定的提高,但重建的圖像效果仍然欠佳。本文算法相較于VDSR、DRRN、SymRCN算法在PSNR平均值上分別提升了0.57 dB、0.42 dB和0.14 dB,在SSIM平均值上分別提高了0.032 7、0.021 3和0.002 2。該實(shí)驗(yàn)進(jìn)一步證明了本文算法引入的MPF模塊,充分利用了不同網(wǎng)絡(luò)層的特征,在評價(jià)指標(biāo)上相較其他算法均有不同程度的提升。
表2 在NWPU-RESISC45和UC Merced數(shù)據(jù)集上不同超分算法的平均PSNR和SSIM
圖4為采樣2倍情況下,NWPU-RESISC45數(shù)據(jù)集中Runway521圖像的各算法重建圖像。圖5為采樣2倍情況下,UC Merced數(shù)據(jù)集中Denseresident91圖像的各算法重建圖像。圖6為采樣3倍情況下,NWPU-RESISC45數(shù)據(jù)集中Baseball666圖像的各算法重建圖像。圖7為采樣4倍情況下,UC Merced數(shù)據(jù)集中Airplane94圖像的各算法重建圖像。
圖4 NWPU-RESISC45中的Runway521采樣2倍的重建對比圖
圖5 UC Merced中的Denseresident91采樣2倍的重建對比圖
圖6 NWPU-RESISC45中的Baseball666采樣3倍的重建對比圖
圖7 UC Merced中的Airplane94采樣4倍的重建對比圖
從圖4至圖6可以看出,Bicubic算法所重建的圖像較為模糊且信息丟失嚴(yán)重,重建的效果較差。SRCNN、FSRCNN、VDSR、DRRN和SymRCN算法雖然相較于Bicubic算法有了明顯的改善,但在細(xì)節(jié)方面仍然存在相應(yīng)的丟失,并且存在一些噪聲,影響主觀效果。而本文算法所重建的圖像細(xì)節(jié)信息更加豐富,且沒有明顯的噪聲,和原圖更為接近。圖7中,本文算法所重建的圖像雖在評價(jià)指標(biāo)上略低于SymRCN算法,但對生成的圖像細(xì)節(jié)控制較好,視覺效果更好。
表3給出了不同算法在NWPU-RESISC45和UC Merced數(shù)據(jù)集上的平均測試時(shí)間。從表3可以看出,SRCNN算法和DRRN算法在平均時(shí)間上明顯高于其他算法,F(xiàn)SRCNN算法和VDSR算法在平均時(shí)間上有所進(jìn)步。MFCN算法對比其他算法在平均時(shí)間上相對較少,雖然MFCN算法的平均時(shí)間略高于SymRCN算法,但在視覺效果上表現(xiàn)更好。
為了進(jìn)一步驗(yàn)證MFCN算法的魯棒性,本文對真實(shí)遙感圖像數(shù)據(jù)集RSSCN7中4張分辨率較低的遙感圖像進(jìn)行了不同倍數(shù)的重建。為清晰對比MFCN算法重建后的圖像與原始模糊的遙感圖像的紋理細(xì)節(jié),本文將原始模糊的遙感圖像放大,與重建后的圖像尺寸大小一致,重建結(jié)果如圖8至圖9所示。
由圖8可以看出,放大2模型重建的圖像細(xì)節(jié)信息豐富,邊緣清晰,視覺效果較好。圖9中放大3模型重建的圖像邊緣明顯,但丟失一些細(xì)節(jié),重建效果一般。圖9中的放大4模型重建的圖像邊緣較為平滑,細(xì)節(jié)信息不足,重建效果不理想。由此可知,MFCN算法可以有效重建復(fù)雜的真實(shí)遙感圖像,但對待圖像的高倍數(shù)重建,其效果有待加強(qiáng)。
圖8 RSSCN7中Resident003和RiverLake272實(shí)驗(yàn)對比圖
圖9 RSSCN7中Industry224和RiverLake118實(shí)驗(yàn)對比圖
表3 在NWPU-RESISC45和UC Merced數(shù)據(jù)集上不同超分算法的平均測試時(shí)間 s
本文提出一種基于多路徑特征融合網(wǎng)絡(luò)的遙感圖像超分辨率重建算法,通過引入MPF模塊,充分提取和深度融合了不同卷積層的特征,有效彌補(bǔ)了由于網(wǎng)絡(luò)加深造成丟失細(xì)節(jié)信息的問題;同時(shí)減少了卷積層的通道數(shù)以及模型的層數(shù),提高了重建效率。
在NWPU-RESISC45和UC Merced數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文算法的評價(jià)指標(biāo)相較于比較算法均有提高,并且本文算法的重建圖像細(xì)節(jié)信息豐富,視覺效果較好。在后續(xù)的工作中,該算法在客觀評價(jià)指標(biāo)上仍有提升空間,將考慮如何減少偽影和更加充分的恢復(fù)圖像的紋理,從而進(jìn)一步提高圖像的重建質(zhì)量。