孫佳敏,宋慧慧
(南京信息工程大學(xué) 自動(dòng)化學(xué)院,江蘇 南京 210044)
光譜圖像存儲(chǔ)了被觀測(cè)場(chǎng)景的不同光譜特征,廣泛應(yīng)用于軍事監(jiān)視、環(huán)境氣候監(jiān)測(cè)和空間觀測(cè)等領(lǐng)域[1-2]。通常,光譜圖像主要分為2類(lèi):高光譜(Hyperspectral,HS)圖像和多光譜(Multispectral,MS)圖像。HS圖像通常包含數(shù)百個(gè)光譜波段,具有很高的光譜覆蓋率,可以準(zhǔn)確地識(shí)別地面上的物質(zhì)和物體;MS圖像通常具有較高的空間分辨率。低空間分辨率的高光譜(Low Spatial Resolution Hyperspectral,LRHS)圖像與高空間分辨率的多光譜(High Spatial Resolution Multispectral,HRMS)圖像融合具有重要意義。
LRHS和HRMS圖像融合大致可以分為2類(lèi):傳統(tǒng)方法和深度學(xué)習(xí)方法。傳統(tǒng)方法包括基于矩陣分解的方法和基于張量的方法等。Yokoya等人[3]提出基于耦合非負(fù)矩陣分解(Coupled Nonnegative Matrix Factorization,CNMF)的圖像融合算法,求解LRHS圖像的端元矩陣和 HRMS圖像的豐度矩陣,將求得的端元矩陣和豐度矩陣相乘得到高分辨率的融合結(jié)果。與基于矩陣分解的方法不同,基于張量分解的方法通常將HS圖像看作一個(gè)三維張量,高空間分辨率的高光譜(High Spatial Resolution Hyperspectral,HRHS)圖像被分割成若干圖像塊,對(duì)圖像塊聚類(lèi),劃分為對(duì)應(yīng)的圖形塊集合?;谏疃葘W(xué)習(xí)的方法在計(jì)算機(jī)視覺(jué)領(lǐng)域取得了巨大成功,在遙感圖像處理中也得到了廣泛應(yīng)用[4-11]?;谏疃葘W(xué)習(xí)的方法在復(fù)雜的非線性關(guān)系表示和高層次圖像特征提取方面具有優(yōu)勢(shì),其結(jié)果的準(zhǔn)確性通常優(yōu)于一些傳統(tǒng)方法。雖然這些方法在LRHS和HRMS圖像融合中取得了優(yōu)異的性能,但如何有效地在空間和光譜之間傳遞信息仍然是一個(gè)挑戰(zhàn),對(duì)于提高融合圖像的質(zhì)量至關(guān)重要。
受文獻(xiàn)[12]的啟發(fā),本文提出了一種基于離散小波變換(Discrete Wavelet Transformation,DWT)[13]和生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)[14]來(lái)融合LRHS和HRMS圖像的模型,包括一個(gè)生成器網(wǎng)絡(luò)和一個(gè)判別器網(wǎng)絡(luò)。在生成器網(wǎng)絡(luò)中,首先使用設(shè)計(jì)的DWT下采樣模塊替換部分卷積層,以減少參數(shù)量,在較小的訓(xùn)練數(shù)據(jù)集上具有較好的性能,避免了模型冗余帶來(lái)的過(guò)擬合問(wèn)題,而且DWT保留了圖像和特征映射中的頻域信息,更有利于紋理細(xì)節(jié)的恢復(fù)。此外,結(jié)合上采樣模塊和跳躍連接可以獲得多層特征信息。其次,在對(duì)LRHS圖像上采樣重建的過(guò)程中融合多尺度的HRMS圖像信息。生成器的輸出是融合重建的HRHS圖像。判別器網(wǎng)絡(luò)以融合重建HRHS圖像、真值HRHS圖像作為輸入,進(jìn)一步增加了生成圖像的真實(shí)性效果。網(wǎng)絡(luò)的損失函數(shù)由均方誤差損失、對(duì)抗損失和焦點(diǎn)頻率損失[15]組成。
理想情況下,融合重建的HRHS圖像應(yīng)該與HRMS圖像具有相同的空間分辨率,與LRHS圖像具有相同的光譜分辨率。由于缺乏真實(shí)的HRHS圖像作為參考圖像,本文采用廣泛使用的Wald協(xié)議[16]。根據(jù)Wald協(xié)議,衛(wèi)星直接獲取的HS圖像作為HRHS圖像。LRHS和HRMS圖像分別通過(guò)對(duì)HRHS圖像進(jìn)行模糊下采樣和等間隔抽樣獲得。假設(shè)XL∈Rw×h×K表示具有K個(gè)波段數(shù)的w×hLRHS圖像,XM∈RW×H×k表示具有k個(gè)波段數(shù)的W×HHRMS圖像(w 1.1.1 生成器網(wǎng)絡(luò) 生成器網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,包括特征提取和融合重建兩部分。 特征提取部分使用卷積塊結(jié)合DWT以減少參數(shù)數(shù)量,避免模型冗余帶來(lái)的過(guò)擬合問(wèn)題。DWT可以將輸入的特征圖分解為低頻分量和高頻分量,保留了圖像和特征映射的頻域信息,更利于紋理細(xì)節(jié)的恢復(fù)。在融合重建部分,為了充分利用HRMS圖像的空間信息,采用在逐步上采樣過(guò)程中與多尺度的HRMS圖像融合的方式。LRHS圖像經(jīng)過(guò)特征提取后,通過(guò)多次亞像素卷積上采樣,逐步放大到與HRHS圖像相同的空間分辨率。在融合HRMS圖像之前,使用1×1卷積將HRMS圖像的通道進(jìn)行擴(kuò)展。為得到多個(gè)尺度的HRMS圖像,使用MaxPooling對(duì)長(zhǎng)和寬進(jìn)行縮放。在多次亞像素卷積上采樣過(guò)程中執(zhí)行上述過(guò)程,實(shí)現(xiàn)高光譜特征圖與不同尺度的HRMS圖像相加融合。以放大倍數(shù)為4為例,XL∈R32×32×K經(jīng)過(guò)特征提取和一次上采樣后得到XL1∈R64×64×Z,XM∈R128×128×k經(jīng)過(guò)1×1卷積和MaxPooling后得到XM1∈R64×64×Z,XL1與XM1相加后進(jìn)行第2次上采樣,與經(jīng)過(guò)1×1卷積的XM相加后送入最終的3×3卷積中,重建得到XH∈R128×128×K。 圖1 生成器網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Architecture of generative network 近年來(lái),小波變換與深度學(xué)習(xí)相結(jié)合得到了廣泛應(yīng)用[12]。DWT將圖像分解為低頻子圖和高頻子圖,能夠提供優(yōu)異的時(shí)頻局部化特征信息,具有提取圖像的邊緣、細(xì)節(jié)信息的優(yōu)勢(shì),可以在特征提取過(guò)程中全面地利用圖像的信息。特征提取部分使用了多層金字塔式卷積塊結(jié)合DWT的方法,如圖2所示,自下而上,從粗到細(xì),通過(guò)卷積下采樣和轉(zhuǎn)置卷積上采樣得到多層的特征信息,在下采樣的同時(shí)進(jìn)行二維DWT,將特征分解為低頻信息和高頻信息,在每個(gè)特征尺度上通過(guò)跳躍連接來(lái)傳遞高低頻信息。 圖2 DWT模塊結(jié)構(gòu)Fig.2 Architecture of DWT module DWT下采樣模塊和DWT上采樣模塊如圖3所示。在DWT下采樣模塊,DWT將輸入的特征圖分解為低頻分量和高頻分量。低頻分量與卷積輸出連接作為空域輸出繼續(xù)向下一個(gè)尺度傳遞,并且通過(guò)跳躍連接將低頻分量和高頻分量輸入到DWT上采樣模塊中。不僅從多個(gè)尺度學(xué)習(xí)了空域和頻域信息,而且通過(guò)跳躍連接保留了更多的紋理細(xì)節(jié)。 圖3 DWT下采樣模塊和DWT上采樣模塊Fig.3 DWT down-sampling module and DWT up-sampling module 本文使用二維Harr小波變換,二維DWT過(guò)程如圖4所示。輸入一張圖像,經(jīng)過(guò)二維DWT后得到4個(gè)子帶A,H,V,D,分別對(duì)應(yīng)低頻信息、水平高頻信息、垂直高頻信息和對(duì)角高頻信息。 圖4 二維DWTFig.4 Two dimensional discrete wavelet transform 1.1.2 判別器網(wǎng)絡(luò) 為了區(qū)分真實(shí)的HRHS圖像和融合重建的HRHS圖像,本文訓(xùn)練了一個(gè)判別器網(wǎng)絡(luò)。網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。真值圖像和融合重建圖像作為輸入,網(wǎng)絡(luò)包含7個(gè)卷積層、8個(gè)Leaky ReLU層、6個(gè)BN層、2個(gè)Dense層和Sigmoid層,最終的Sigmoid激活函數(shù)輸出真假樣本的概率值。 圖5 判別器網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Architecture of discriminator network (1) 均方誤差損失 給定融合重建后的HRHS圖像和對(duì)應(yīng)的真值圖像,均方誤差(MSE)損失記為: (1) (2) 對(duì)抗損失 為了使得到的融合圖像更趨向于真值圖像,可優(yōu)化如下對(duì)抗損失,使輸出的真假概率趨同,對(duì)抗損失的定義是所有訓(xùn)練樣本的判別器概率D(G(IL,IM))之和: (2) (3) 焦點(diǎn)頻率損失 在損失函數(shù)中引入了焦點(diǎn)頻率損失[14]LFFL,允許模型通過(guò)對(duì)容易合成的頻率分量進(jìn)行降權(quán)來(lái)自適應(yīng)地聚焦于難以合成的頻率分量,從而補(bǔ)充已有的空域損失,減少由于神經(jīng)網(wǎng)絡(luò)固有偏差造成的重要頻率信息的損失,即: (3) (4) 總損失 將均方誤差損失、對(duì)抗損失和焦點(diǎn)頻率損失結(jié)合在一起來(lái)監(jiān)督網(wǎng)絡(luò)的訓(xùn)練,即: Ltotal=LMSE+LADV+αLFFL, (4) 式中,α=0.001為超參數(shù)。 為了驗(yàn)證本文方法的有效性,選擇了3個(gè)典型數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),并和8個(gè)最新的融合算法進(jìn)行比較。 (1) 均方根誤差(Root Mean Squared Error,RMSE)可以比較融合圖像和真值圖像之間的差異,其定義為: (5) RMSE的值越小,融合圖像的質(zhì)量越好。 (2) 峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)評(píng)價(jià)各波段的重建質(zhì)量,是信號(hào)的最大功率與殘差功率的比值。第l個(gè)頻段的PSNR定義為: (6) (3) 相對(duì)全局誤差(Erreur Relative Globale Adimensionnelle de Synthèse,ERGAS)[17]提供融合數(shù)據(jù)質(zhì)量的全局統(tǒng)計(jì)度量,最佳值為0,其定義為: (7) (4) 光譜角制圖(Spectral Angle Mapper,SAM)[18]通常用于量化每個(gè)像素處的光譜信息保留量,其計(jì)算式為: (8) 本文使用了3個(gè)數(shù)據(jù)集(PU,PC,Botswana)來(lái)驗(yàn)證所提出的基于DWT的GAN用于高光譜多光譜圖像融合的有效性和泛化能力。 (1) Pavia University(PU)數(shù)據(jù)集是由反射光學(xué)光譜成像系統(tǒng)(ROSIS)傳感器于2003年在意大利PU上空獲得的。在該數(shù)據(jù)集共有103個(gè)波段,覆蓋的光譜范圍為0.43~0.86 μm,間隔為10 nm,每個(gè)波段的圖像大小為610 pixel×340 pixel,空間分辨率為1.3 m。 (2) Pavia Center(PC)數(shù)據(jù)集是由PU數(shù)據(jù)集的相同Hyperion傳感器以與PU數(shù)據(jù)集相同的空間分辨率獲得的。它比波段數(shù)為103的PU數(shù)據(jù)集少一個(gè)波段。每個(gè)波段的圖像大小為1 096 pixel×1 096 pixel,遠(yuǎn)遠(yuǎn)大于PU數(shù)據(jù)集。 (3) Botswana數(shù)據(jù)集是由NASA EO-1衛(wèi)星的Hyperion傳感器于2001—2004年在Botswana Okavango Delta上空獲得的。Botswana數(shù)據(jù)集共有242個(gè)波段,覆蓋的光譜范圍為0.4~2.5μm,光譜間隔為10 nm。去除噪聲波段后,剩余的145個(gè)波段保持不變,每個(gè)波段的圖像大小為1 476 pixel×256 pixel,空間分辨率為30 m。 對(duì)于3個(gè)數(shù)據(jù)集,裁剪中心128×128區(qū)域作為測(cè)試圖像,其余區(qū)域用于訓(xùn)練。使用步長(zhǎng)為2的128×128滑動(dòng)窗口從訓(xùn)練區(qū)域中提取圖像作為真值HRHS圖像。為了獲得LRHS圖像,本文使用4倍比率對(duì)HRHS圖像模糊下采樣,模糊核為5×5的高斯核,標(biāo)準(zhǔn)差為2。HRMS圖像由位于HRHS圖像中的5個(gè)圖像等間隔組成。 選擇CNMF[3]和基于張量分解(LTTR)[19]兩種傳統(tǒng)方法以及TFNet[20],ResTFNet[20],SSFCNN[21],ConSSFCNN[21],MSDCNN[22]和SSR-NET[23]六種深度學(xué)習(xí)方法與本文方法做比較。對(duì)于傳統(tǒng)方法,除數(shù)據(jù)處理外,所有參數(shù)均設(shè)置為與原始文獻(xiàn)相同。對(duì)于所有的深度學(xué)習(xí)模型,其輸入和輸出的通道數(shù)都是與所使用的數(shù)據(jù)集相適應(yīng)的。在訓(xùn)練網(wǎng)絡(luò)時(shí)使用Adam優(yōu)化器,β1=0.9,學(xué)習(xí)率設(shè)置為10-4,批量大小16。此外,所提出的方法用Pytorch實(shí)現(xiàn),并在單個(gè)GeForce GTX 2080Ti顯卡上運(yùn)行。 將本文方法與幾種最新的融合方法進(jìn)行了比較,包括CNMF[3]、LTTR[19]、基于深度學(xué)習(xí)的方法TFNet[20]、ResTFNet[20]、SSFCNN[21]、ConSSFCNN[21]、MSDCNN[22]和SSR-NET[23]。TFNet和ResTFNet是雙流網(wǎng)絡(luò),分別對(duì)空間特征和光譜特征進(jìn)行編碼,然后利用空間特征和光譜特征的融合來(lái)解碼HRHS圖像。與TFNet相比,ResTFNet中增加了跳躍連接。SSFCNN和ConSSFCNN使用LRHS和HRMS圖像的直接級(jí)聯(lián)預(yù)測(cè)HRHS圖像。MSDCNN基于殘差學(xué)習(xí)和多尺度特征提取。SSR-NET對(duì)空間邊緣損失和光譜邊緣損失2種損失進(jìn)行了優(yōu)化,這2種損失是專(zhuān)門(mén)為空間和光譜恢復(fù)設(shè)計(jì)的。與傳統(tǒng)方法相比,基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)的方法性能更好,因?yàn)镃NN可以自動(dòng)學(xué)習(xí)高層次特征。其次,CNN的高度非線性對(duì)于在空間域和光譜域上模擬LRHS和HRHS圖像之間復(fù)雜的非線性關(guān)系具有很大的潛力。 上述所有方法的實(shí)驗(yàn)結(jié)果如圖6~圖8所示,其中“GT”代表真值圖像。第一行顯示了融合的HRHS圖像的R-G-B圖像(67-29-1波段),第二行顯示了融合的R-G-B圖像與真值R-G-B圖像之間的差異圖像,這些圖像經(jīng)過(guò)偽彩色技術(shù)處理,顯示了從融合重建的HRHS圖像中選擇的R-G-B圖像以及融合R-G-B圖像與相應(yīng)的真值R-G-B圖像之間的差異圖像。結(jié)果表明,LTTR的融合性能較差,光譜失真明顯,圖像模糊。與LTTR相比,CNMF成像效果更好,圖像更清晰、逼真。對(duì)于基于深度學(xué)習(xí)的方法,生成的圖像質(zhì)量普遍較高。然而,在MSDCNN的結(jié)果中發(fā)現(xiàn)了明顯的顏色失真。與其他方法相比,ConSSFCNN的融合圖像更加模糊。與TFNet,ResTFNet,MSDCNN,SSFCNN和SSR-NET的融合效果相比,本文方法可以獲得更好的融合重建結(jié)果。 (a) CNMF (a) CNMF (a) CNMF 上述方法在3個(gè)測(cè)試數(shù)據(jù)集上的平均定量結(jié)果如表1~表3所示。最好的分?jǐn)?shù)被標(biāo)記為紅色,第二的分?jǐn)?shù)被標(biāo)記為藍(lán)色。 表1 不同方法在PU數(shù)據(jù)集上的融合結(jié)果 表2 不同方法在PC數(shù)據(jù)集上的融合結(jié)果 表3 不同方法在Botswana數(shù)據(jù)集上的融合結(jié)果 可以看出,對(duì)于所有4個(gè)評(píng)價(jià)指標(biāo),本文所提出的基于DWT的GAN取得了最好的性能,并且具有明顯的優(yōu)勢(shì)??傮w而言,本文所提方法在PU,PC和Botswana三個(gè)數(shù)據(jù)集上的融合性能最好。傳統(tǒng)的CNMF和LTTR方法的性能比深度學(xué)習(xí)方法要差。在深度學(xué)習(xí)方法中,本文方法具有更優(yōu)的性能。 本文提出了一種基于DWT和GAN的方法用于高光譜多光譜圖像融合。與現(xiàn)有的基于CNN的方法不同,首先利用DWT幫助網(wǎng)絡(luò)獲得更多的頻域信息,同時(shí)可以減少參數(shù)數(shù)量,然后充分利用多光譜圖像的空間信息,并且在訓(xùn)練中加入焦點(diǎn)頻率損失,縮小頻域差距。最后利用生成對(duì)抗網(wǎng)絡(luò)的對(duì)抗訓(xùn)練特性,生成更加真實(shí)清晰的高分辨率高光譜圖像。大量實(shí)驗(yàn)結(jié)果表明,本文方法在高光譜多光譜圖像融合方面具有很好的性能。由于實(shí)驗(yàn)是在模擬的HRMS和LRHS圖像上進(jìn)行的,因此不能確定本文方法是否適合實(shí)際應(yīng)用,今后將在真實(shí)圖像上測(cè)試其性能。1.1 網(wǎng)絡(luò)設(shè)計(jì)
1.2 損失函數(shù)
2 實(shí)驗(yàn)
2.1 評(píng)價(jià)指標(biāo)
2.2 數(shù)據(jù)集
2.3 實(shí)驗(yàn)細(xì)節(jié)
2.4 性能比較
3 結(jié)束語(yǔ)