范文盛,劉帆,李明
(太原理工大學(xué) 大數(shù)據(jù)學(xué)院,晉中 030600)
遙感圖像是地球觀(guān)測(cè)的重要參考數(shù)據(jù),這些圖像被廣泛應(yīng)用于土地覆蓋分類(lèi)[1]、環(huán)境變化檢測(cè)[2]和農(nóng)業(yè)監(jiān)測(cè)[3]等人類(lèi)活動(dòng)。但是,單一傳感器無(wú)法捕獲光譜和空間分辨率均高的遙感圖像。因此,將多光譜圖像(Multi-spectral Image, MS)和全色圖像(PANchromatic Image, PAN)這兩種遙感圖像融合,生成高空間分辨率的多光譜圖像成為研究熱點(diǎn)。
現(xiàn)有遙感圖像融合方法主要分為4 類(lèi):基于分量替換、基于多分辨率分析、基于變分優(yōu)化和基于深度學(xué)習(xí)的方法[4]?;诜至刻鎿Q的方法主要通過(guò)將多光譜圖像變換到特定域中以分離空間和光譜信息,然后替換掉空間分量來(lái)提升多光譜圖像的空間分辨率。這類(lèi)方法主要包括亮度-色度-飽和度變換[5]、主成分分析[6]、自適應(yīng)Gram-Schmidt 變換(Adaptive Gram-Schmidt, GSA)[7]和波段相關(guān)空間細(xì)節(jié)(Band-dependent Spatial Detail, BDSD)[8]等算法。多分辨率分析方法主要對(duì)全色圖像進(jìn)行多尺度分解以提取空間細(xì)節(jié)注入到多光譜圖像中[9],例如基于小波變換[10]、離散小波變換[11]、調(diào)制傳遞函數(shù)-廣義拉普拉斯金字塔-高通濾波調(diào)制(Modulation Transfer Function-generalized Laplacian Pyramid High-pass Modulation, MTF-GLPHPM)[12]的算法等。變分優(yōu)化方法依賴(lài)于定義變分模型并選取合適的算法進(jìn)行優(yōu)化。常見(jiàn)方法包括基于稀疏表示[13-15]和全變分[16]的算法等。最后一類(lèi)是近年出現(xiàn)的深度學(xué)習(xí)方法,這類(lèi)方法利用樣本來(lái)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)以獲得較好的融合結(jié)果。受超分辨率卷積神經(jīng)網(wǎng)絡(luò)(Super-resolution Convolutional Neural Network, SRCNN)[17]的啟發(fā),MASI G 等[18]提出了基于卷積神經(jīng)網(wǎng)絡(luò)的遙感圖像融合方法(cNN-based Pan-sharpening, PNN)。在此基礎(chǔ)上,多尺度多深度卷積神經(jīng)網(wǎng)絡(luò)(Multiscale and Multidepth Convolutional Neural Network, MSDCNN)[19]加深并拓寬了網(wǎng)絡(luò)結(jié)構(gòu),同時(shí)引入了多尺度特征提取來(lái)提升融合效果。PanNet[20]利用殘差學(xué)習(xí)在高通濾波域進(jìn)行特征的提取和融合,更好地保護(hù)了光譜信息。為了促進(jìn)網(wǎng)絡(luò)對(duì)光譜和空間特征的充分提取,SHAO Z 等[21]提出了雙分支的卷積神經(jīng)網(wǎng)絡(luò)融合方法(cNN-based Remote Sensing Image Fusion, RSIFNN),并結(jié)合殘差學(xué)習(xí)來(lái)產(chǎn)生光譜失真小且空間細(xì)節(jié)豐富的融合結(jié)果。LIU Q等[22]在雙分支結(jié)構(gòu)的基礎(chǔ)上結(jié)合了編解碼器結(jié)構(gòu),并引入了生成對(duì)抗網(wǎng)絡(luò)的概念來(lái)達(dá)到提升融合圖像質(zhì)量的目標(biāo)。使用生成對(duì)抗網(wǎng)絡(luò)的引導(dǎo)著色融合方法(Pansharpening with Guided Colorization Using GANs,PanColorGAN)[23]將擴(kuò)展的UNet[24]網(wǎng)絡(luò)結(jié)構(gòu)用作生成器進(jìn)行遙感圖像融合,避免了深度網(wǎng)絡(luò)的梯度消失問(wèn)題。但是,其過(guò)深的網(wǎng)絡(luò)結(jié)構(gòu)導(dǎo)致了光譜信息丟失和運(yùn)行耗時(shí)較長(zhǎng)的問(wèn)題。除了以上這些深度學(xué)習(xí)方法,為了充分利用傳統(tǒng)方法和深度學(xué)習(xí)的優(yōu)點(diǎn),近年來(lái)也出現(xiàn)了將深度學(xué)習(xí)與分量替換、多分辨率分析和變分優(yōu)化結(jié)合的混合方法[25-26]。
針對(duì)目前深度學(xué)習(xí)方法對(duì)全局上下文特征和多尺度特征的提取不充分的問(wèn)題,本文提出了一種基于雙分支U 形Transformer 的遙感圖像融合方法。首先將待融合圖像分割成不重疊的圖像塊,每個(gè)圖像塊被嵌入到一維向量中,接著將兩張圖像的嵌入向量被分別輸入Transformer 編碼器的兩個(gè)分支以分別提取多級(jí)特征表示。該編碼器由滑動(dòng)窗口自注意力機(jī)制和塊合并操作組成,因此能充分提取全局和多尺度的特征。在這個(gè)過(guò)程中,通過(guò)雙分支之間的跳躍連接,PAN 圖像的多級(jí)特征表示被分階段注入到MS 的特征表示中以獲得融合的多級(jí)特征表示。最后,Transformer 解碼器從多級(jí)融合表示中恢復(fù)出光譜信息和空間細(xì)節(jié)均較好的高分辨率融合圖像。在三種不同衛(wèi)星數(shù)據(jù)集的上的實(shí)驗(yàn)證明了所提方法的有效性。
Transformer[27]最初是為了解決自然語(yǔ)言處理領(lǐng)域的序列建模問(wèn)題而提出的。其對(duì)于序列中全局上下文信息的捕獲能力引起了計(jì)算機(jī)視覺(jué)領(lǐng)域的廣泛關(guān)注,并且被成功用于提取圖像中的全局特征。Transformer 的核心是自注意力機(jī)制。然而,常規(guī)自注意力機(jī)制對(duì)于高分辨率圖像處理存在計(jì)算開(kāi)銷(xiāo)過(guò)大的問(wèn)題。因此,將自注意力局限于局部窗口中并使用滑動(dòng)窗口策略促進(jìn)窗口之間的信息交流,可以在減少計(jì)算開(kāi)銷(xiāo)的同時(shí)保持Transformer 的全局特征提取能力。基于這一思想,LIU Z 等[28]提出使用一對(duì)連續(xù)的滑動(dòng)窗口Transformer 塊(Swin Transformer Block, STB)來(lái)進(jìn)行高分辨率圖像處理。第一個(gè)塊采用常規(guī)窗口自注意力機(jī)制,而第二個(gè)塊將窗口滑動(dòng)二分之一個(gè)窗口大小進(jìn)行自注意力。如圖1,每個(gè)STB 由一個(gè)多頭自注意力(Multi-head Self-attention, MSA)部分和一個(gè)多層感知機(jī)(Multi-layer Perceptron, MLP)部分組成。每個(gè)部分均含有殘差連接和層歸一化(Layer Normalization, LN)。圖中E為輸入的圖像塊嵌入序列,E2為經(jīng)過(guò)兩個(gè)連續(xù)STB 之后的輸出序列。E1W和E2SW分別為窗口注意力(Window-MSA, W-MSA)和滑動(dòng)后窗口注意力(Shifted W-MSA, SW-MSA)的輸出。E1為第一個(gè)STB 的輸出序列。
圖1 一對(duì)連續(xù)STB 的流程Fig.1 Flowchart of two successive STBs
W-MSA 和SW-MSA 中自注意力的計(jì)算表達(dá)式為
式中,Q、K和V都由LN 后的向量序列經(jīng)過(guò)線(xiàn)性變換得到。B為相對(duì)位置偏置矩陣。Q與KT進(jìn)行矩陣乘法,意味著Q中的每個(gè)向量與K中的每個(gè)向量作點(diǎn)積以獲取序列內(nèi)部向量之間的相關(guān)性。獲得的相關(guān)性矩陣通過(guò)Softmax 函數(shù)歸一化后作為權(quán)重與V作矩陣乘法以得到根據(jù)上下文依賴(lài)性重新生成的向量序列。因此,對(duì)于一系列嵌入向量的圖像塊,一對(duì)STB 可以提取出全局特征的向量表示。
所提方法的總體網(wǎng)絡(luò)是一個(gè)U 形結(jié)構(gòu),由雙分支編碼器、高層級(jí)特征融合瓶頸和多階段圖像重建解碼器構(gòu)成,如圖2,↑4 代表使用二次立方插值上采樣多光譜圖像4 倍到全色圖像的大小。傳統(tǒng)基于卷積神經(jīng)網(wǎng)絡(luò)的編碼器由于卷積核大小限制只能提取局部模式,為了更靈活地建模遠(yuǎn)距離關(guān)系,所提雙分支編碼器將圖像分割成圖像塊,將圖像塊特征嵌入到向量中,利用STB 中的自注意力機(jī)制來(lái)將遠(yuǎn)距離上下文信息編碼到圖像塊特征向量中,由于自注意力機(jī)制對(duì)圖像中遠(yuǎn)距離相關(guān)性的捕獲,改進(jìn)的雙分支編碼器不再需要堆疊大量卷積層來(lái)擴(kuò)大感受野,避免了過(guò)深的網(wǎng)絡(luò)造成的光譜扭曲和效率低下。具體來(lái)說(shuō),全色圖像和上采樣的多光譜圖像首先被分割成圖像塊并分別輸入一個(gè)可訓(xùn)練的線(xiàn)性層。每個(gè)P×P大小的圖像塊被線(xiàn)性映射到一個(gè)特征維數(shù)為C的向量中形成塊嵌入序列并輸入雙分支編碼器。雙分支編碼器被分為3 個(gè)階段,階段1 是高分辨率階段,低層級(jí)但是細(xì)粒度的圖像特征例如空間細(xì)節(jié)在這個(gè)階段被提取出來(lái)。階段2 是中分辨率階段,主要目標(biāo)是中等大小地面目標(biāo)的特征和較為抽象的上下文特征。階段3 是低分辨率階段,大型地面物體的特征和抽象的高層級(jí)特征在此階段被提取出來(lái)。
圖2 總體網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 The overall network architecture
編碼器的全色圖像分支用于提取全色圖像的多級(jí)特征表示,和,STB 作為基本模塊進(jìn)行表示的生成,生成的特征表示為一維向量序列,而非二維特征圖。為了降低特征表示在空間上的分辨率以提取不同尺度的特征,在階段2 和階段3 的開(kāi)始對(duì)向量序列使用了塊合并層,塊合并層包含兩個(gè)操作:首先每2×2 個(gè)在空間上相鄰的向量在特征維拼接,然后使用一個(gè)線(xiàn)性層對(duì)特征降維一半。最終塊合并層輸出的向量序列長(zhǎng)度縮小為原來(lái)的四分之一,每個(gè)向量的特征維數(shù)只增加為原來(lái)的兩倍。編碼器全色分支的流程可以表示為
式中,i=1、2,IP代表全色圖像,STBs 代表一對(duì)使用不同窗口劃分方式的STB,PEL 為圖像塊嵌入層,PM 為塊合并層。
多光譜圖像分支采用與全色分支相似的結(jié)構(gòu)。區(qū)別在于,多光譜分支包含跳躍連接,全色分支產(chǎn)生的多級(jí)特征表示通過(guò)跳躍連接與多光譜圖像的特征表示在塊嵌入的特征維進(jìn)行拼接,以產(chǎn)生融合了全色圖像信息的多光譜特征表示和。編碼器多光譜分支的流程可以表示為
式中,↑IM代表上采樣到全色圖像大小的多光譜圖像。是多光譜分支第一階段產(chǎn)生的多光譜特征表示,這一層級(jí)的特征表示并沒(méi)有注入全色圖像信息。[·]表示特征維拼接操作。
最終,雙分支產(chǎn)生的全色和多光譜高層級(jí)特征表示在特征維拼接并輸入由兩個(gè)連續(xù)STB 組成的高層級(jí)特征融合瓶頸進(jìn)行融合,產(chǎn)生高層級(jí)融合特征RF。其流程可以表示為
所提Transformer 的多階段圖像重建解碼器同樣分為三個(gè)階段來(lái)逐步融合多級(jí)特征表示以重建高分辨率多光譜圖像。在每個(gè)階段的開(kāi)始,首先使用特征壓縮層來(lái)削減冗余特征。特征壓縮層先將輸入序列層歸一化,再通過(guò)線(xiàn)性層對(duì)每個(gè)塊嵌入削減特征維度到原來(lái)的一半,如圖3(a)。
圖3 解碼器各模塊示意Fig.3 Schematic of different modules in the decoder
解碼器同樣包含跳躍連接,將編碼階段的多級(jí)特征表示與解碼器中的融合特征表示在特征維拼接,以避免編解碼過(guò)程中的信息丟失。相對(duì)于PanColorGAN 的U 形結(jié)構(gòu),所提方法在階段1 和階段6 之間增加了兩條跳躍連接,分別將MS 圖像和PAN 圖像的最淺層原始特征直接注入到階段6 中進(jìn)行最后的融合,以避免淺層光譜和空間信息的丟失。為了提升拼接特征表示的分辨率,階段4 和階段5 還使用了塊擴(kuò)張層。塊擴(kuò)張層被設(shè)計(jì)為塊合并層的反操作來(lái)提升特征表示的分辨率。塊擴(kuò)張層由兩個(gè)操作組成:先使用一個(gè)線(xiàn)性層對(duì)向量進(jìn)行升維,這一步通過(guò)可學(xué)習(xí)的線(xiàn)性變換將一個(gè)向量的特征細(xì)化為空間上相鄰的4 個(gè)向量的特征,然后每個(gè)升維了的向量被平均分割成4 個(gè)空間上相鄰的向量,如圖3(b)。塊擴(kuò)張后,嵌入序列的長(zhǎng)度增加為原來(lái)的四倍,每個(gè)嵌入的特征維數(shù)減少為輸入拼接特征的一半。在每個(gè)階段的最后,使用一對(duì)連續(xù)STB 來(lái)融合拼接特征。多階段圖像重建解碼器的流程可以表示為
式中,RL、RM和RH分別是解碼器在階段4、階段5 和階段6 輸出的低中高三個(gè)分辨率的融合特征表示。FC 為特征壓縮層,PE 為塊擴(kuò)張層。
最后,圖像重構(gòu)層被設(shè)計(jì)來(lái)將高分辨率融合特征表示映射回圖像域。如圖3(c),一維塊嵌入序列被重新排列成二維圖像,并通過(guò)卷積核大小和步長(zhǎng)均為塊大小P的轉(zhuǎn)置卷積映射成高分辨率多光譜圖像。
實(shí)驗(yàn)采用高分二號(hào)(Gaofen-2, GF2), QuickBird(QB)和WorldView-3(WV3)衛(wèi)星捕獲的多光譜和全色圖像對(duì)進(jìn)行訓(xùn)練和測(cè)試。由于融合結(jié)果的參考圖像,即真實(shí)高分辨率多光譜圖像是不存在的,訓(xùn)練集根據(jù)Wald 協(xié)議[29]來(lái)建立。多光譜和全色圖像都進(jìn)行下采樣,下采樣的比例是多光譜圖像和全色圖像的空間分辨率之比,則原始多光譜圖像可以作為參考圖像對(duì)深度網(wǎng)絡(luò)模型進(jìn)行有監(jiān)督訓(xùn)練。測(cè)試階段,降低分辨率圖像和全分辨率原始圖像都被用作測(cè)試數(shù)據(jù),分別進(jìn)行降低分辨率和全分辨率下的融合結(jié)果評(píng)估。
訓(xùn)練和測(cè)試圖像均被切割成大小為64×64 的多光譜圖像塊和大小為256×256 的全色圖像塊構(gòu)建數(shù)據(jù)集。GF2 數(shù)據(jù)集包含25 713 對(duì)訓(xùn)練圖像塊和2 857 對(duì)測(cè)試圖像塊。QB 數(shù)據(jù)集包含11 000 對(duì)訓(xùn)練圖像塊和940 對(duì)測(cè)試圖像塊。WV3 數(shù)據(jù)集包含10 072 對(duì)訓(xùn)練圖像塊和1 119 對(duì)測(cè)試圖像塊。
圖像塊大小P設(shè)為4,嵌入向量特征維數(shù)C設(shè)為128,STB 的窗口大小設(shè)置為8×8,多頭自注意力的頭數(shù)根據(jù)嵌入向量在網(wǎng)絡(luò)中特征維數(shù)的變化而改變,在階段1,2,3 中分別為4,8,16。在高層級(jí)特征融合瓶頸中為32。在階段4,5,6 中分別為16,8,12。
網(wǎng)絡(luò)模型使用PyTorch 深度學(xué)習(xí)框架實(shí)現(xiàn),并在一塊NVIDIA GEFORCE RTX 3090 GPU 上進(jìn)行訓(xùn)練。使用融合圖像和參考圖像之間的平均絕對(duì)誤差(Mean Absolute Error, MAE)作為損失函數(shù)指導(dǎo)模型訓(xùn)練。采用AdamW 優(yōu)化器進(jìn)行模型參數(shù)優(yōu)化。優(yōu)化器的學(xué)習(xí)率設(shè)置為0.000 5,動(dòng)量設(shè)為0.9,權(quán)重衰減系數(shù)設(shè)為0.05,β1設(shè)為0.9,β2設(shè)為0.999。對(duì)于每個(gè)訓(xùn)練集訓(xùn)練500 個(gè)周期,批量塊大小為8。
實(shí)驗(yàn)中使用了5 種常用評(píng)價(jià)指標(biāo)來(lái)對(duì)融合效果進(jìn)行定量評(píng)估。這5 種評(píng)價(jià)指標(biāo)可分為4 種全參考評(píng)價(jià)指標(biāo)和1 種無(wú)參考評(píng)價(jià)指標(biāo)。由于降低分辨率下原始多光譜圖像可以作為參考圖像,所以降低分辨率評(píng)估使用4 種全參考評(píng)價(jià)指標(biāo),分別為光譜角映射(Spectral Angle Mapper, SAM)[30]、相對(duì)無(wú)量綱全局誤差(Erreur Relative Global Adimensionnelle Synthesis, ERGAS)[31]、空間相關(guān)系數(shù)(spatial Correlation Coefficient, sCC)[32]和Q2n[33-34]。Q2n指標(biāo)對(duì)4 波段數(shù)據(jù)為Q4,對(duì)8 波段數(shù)據(jù)為Q8。由于全分辨率評(píng)估下參考圖像不存在,無(wú)參考混合質(zhì)量指標(biāo)(Hybrid Quality with No Reference, HQNR)[35]以及它的光譜失真分量Dλ和空間失真分量DS被用于全分辨率真實(shí)圖像下融合效果的定量評(píng)估。
嵌入向量的特征維數(shù)C和圖像塊大小P是重要的超參數(shù),它們影響了模型的融合表現(xiàn)和計(jì)算復(fù)雜度。為了分析這兩個(gè)超參的影響,三個(gè)采用不同C值和P值的模型變體被構(gòu)建出來(lái)與本文所提方法進(jìn)行融合效果和計(jì)算復(fù)雜度的比較。特征維數(shù)C必須能被STB 中多頭自注意力的頭數(shù)整除,因此改變C為96 和192 進(jìn)行比較,命名為c96 和c192。塊大小P需要是圖像大小的因數(shù),因此改變?yōu)? 進(jìn)行比較,命名為p8。表1 列出了不同模型變體在三個(gè)數(shù)據(jù)集上的測(cè)試結(jié)果。圖4 是客觀(guān)評(píng)價(jià)指標(biāo)和計(jì)算復(fù)雜度隨模型超參變化的折線(xiàn)圖??梢杂^(guān)察到,從p8 到c96 的融合效果提升非常大,同時(shí)計(jì)算復(fù)雜度的增加很小。從c96 到所提方法(c128)的融合結(jié)果提升也很可觀(guān)。雖然c192 在三個(gè)數(shù)據(jù)集上的融合結(jié)果都是最優(yōu),但是其計(jì)算復(fù)雜度提升也非常大。因此,選擇C=128,P=4 作為最終參數(shù)設(shè)置。
表1 不同模型變體的融合結(jié)果比較Table 1 Comparison on fused results of different model variants
圖4 不同模型變體融合效果與計(jì)算復(fù)雜度的對(duì)比Fig.4 Comparison on fusion performance and computational complexity of the model variants
為了驗(yàn)證所提方法的有效性,將本文方法與其他9 種融合算法進(jìn)行了對(duì)比實(shí)驗(yàn)。這9 種算法分別為基于分量替換的BDSD 算法[8]和GSA 算法[7],基于多分辨率分析的MTF-GLP-HPM 算法[12],基于變分優(yōu)化的注入細(xì)節(jié)的稀疏表示(Sparse Representation of Injected Details, SR-D)算法[14],基于卷積神經(jīng)網(wǎng)絡(luò)的PNN[18]、RSIFNN[21],基于生成對(duì)抗網(wǎng)絡(luò)的融合方法(Generative Adversarial Network for Pan-Sharpening,PSGAN)[22],基于非局部注意力的殘差網(wǎng)絡(luò)的融合方法(NonLocal attention Residual Network, NLRNet)[36]和PanColorGAN[23]。
圖5 為降低分辨率的GF2 衛(wèi)星圖像融合結(jié)果以及局部放大圖。圖6 是各融合結(jié)果和參考圖像之間的殘差圖,誤差較大的區(qū)域顯示為黃色,藍(lán)色區(qū)域誤差較小。相比于參考圖像,BDSD、GSA 和MTF-GLP-HPM算法的融合結(jié)果有明顯的光譜失真。SR-D 方法雖然光譜信息保留較好,但是視覺(jué)效果模糊,空間細(xì)節(jié)不足。PNN 和RSIFNN 方法的融合結(jié)果整體視覺(jué)效果與參考圖像接近,但是觀(guān)察局部放大區(qū)域的建筑物均存在一定的空間細(xì)節(jié)缺失。由圖6 的殘差圖可以觀(guān)察到,PSGAN 和NLRNet 方法在大部分區(qū)域誤差很小,但在局部放大區(qū)域仍然有少量的誤差。PanColorGAN 的殘差圖雖然沒(méi)有誤差較大的點(diǎn),但其整體藍(lán)色較淺,表明該方法的融合結(jié)果存在輕微的整體顏色失真。本文所提方法不僅視覺(jué)效果上光譜信息保留較好,建筑物細(xì)節(jié)清晰,其殘差圖也幾乎為深藍(lán)色,誤差較小。
圖5 降低分辨率GF2 測(cè)試圖像和不同算法的融合結(jié)果Fig.5 Reduced-resolution GF2 testing images and fusion results of different methods
圖6 降低分辨率GF2 測(cè)試圖像融合結(jié)果和參考圖像之間的殘差圖Fig.6 Residual maps between the fusion results on the GF2 testing images and the reference image
圖7 為降低分辨率QB 圖像的融合結(jié)果以及局部放大圖。圖8 為各融合結(jié)果的殘差圖。從圖7 的局部放大區(qū)域可以觀(guān)察到,SR-D 的融合結(jié)果有一定的空間和光譜失真。BDSD、GSA 和MTF-GLP-HPM 融合結(jié)果的空間細(xì)節(jié)較好,但是存在明顯的光譜失真。PNN、RSIFNN 和NLRNet 融合結(jié)果的局部放大區(qū)域中心的紅色建筑物顏色偏淡。PSGAN 融合結(jié)果的邊緣細(xì)節(jié)有一定的模糊效果。PanColorGAN 的融合圖像也存在一定的模糊效果,其殘差圖又一次出現(xiàn)整體誤差偏大的問(wèn)題。本文所提方法不僅視覺(jué)效果最佳,殘差圖顯示誤差也最小。
圖7 降低分辨率QB 測(cè)試圖像和不同算法的融合結(jié)果Fig.7 Reduced-resolution QB testing images and fusion results of different methods
圖8 降低分辨率QB 測(cè)試圖像融合結(jié)果和參考圖像之間的殘差圖Fig.8 Residual maps between the fusion results on the QB testing images and the reference image
圖9 為降低分辨率WV3 衛(wèi)星圖像的融合結(jié)果以及局部放大圖。圖10 為融合結(jié)果的殘差圖。通過(guò)局部放大圖可以觀(guān)察到,BDSD、GSA 和MTF-GLP-HPM 方法的融合結(jié)果空間細(xì)節(jié)較好但有輕微光譜失真。SR-D 方法的融合結(jié)果存在空間細(xì)節(jié)缺失較多的問(wèn)題。PNN 的融合結(jié)果中建筑物色彩較淡,也存在輕微的光譜失真。RSIFNN、PSGAN 和NLRNet 融合結(jié)果的整體視覺(jué)效果不錯(cuò),但是細(xì)微的空間細(xì)節(jié)有所不足。PanColorGAN 的融合圖像視覺(jué)效果不錯(cuò),但從其殘差圖可以發(fā)現(xiàn)其對(duì)于一些小型地面目標(biāo)仍存在較大誤差。所提方法的視覺(jué)效果最佳,殘差圖也顯示誤差較小。
圖9 降低分辨率WV3 測(cè)試圖像和不同算法的融合結(jié)果Fig.9 Reduced-resolution WV3 testing images and fusion results of different methods
圖10 降低分辨率WV3 測(cè)試圖像融合結(jié)果和參考圖像之間的殘差圖Fig.10 Residual maps between the fusion results on the WV3 testing images and the reference image
表2 給出了降低分辨率下三種衛(wèi)星數(shù)據(jù)集融合結(jié)果的客觀(guān)評(píng)價(jià)指標(biāo)。每種指標(biāo)的最優(yōu)結(jié)果以粗體顯示,次優(yōu)結(jié)果以下劃線(xiàn)標(biāo)明。BDSD、GSA 和MTF-GLP-HPM 方法在GF2 和WV3 圖像上的SAM 指標(biāo)均較差,說(shuō)明融合圖像光譜失真較為嚴(yán)重。SR-D 在GF2 圖像上的評(píng)價(jià)指標(biāo)普遍優(yōu)于前三種方法。在WV3 圖像上,GSA 相較于BDSD、SR-D 和MTF-GLP-HPM 評(píng)價(jià)指標(biāo)較優(yōu)。在QB 圖像上,BDSD、GSA 和MTFGLP-HPM 方法評(píng)價(jià)指標(biāo)相似,均優(yōu)于SR-D。PNN 和RSIFNN 的各項(xiàng)指標(biāo)相似,相對(duì)于之前的方法有了較大提升。在GF2 和QB 數(shù)據(jù)集上,PSGAN 取得了次優(yōu)的表現(xiàn),而在WV3 圖像上,PanColorGAN 的各項(xiàng)評(píng)價(jià)指標(biāo)優(yōu)于PSGAN。此外,相對(duì)于其他指標(biāo),PanColorGAN 的SAM 指標(biāo)普遍較差,說(shuō)明其有著光譜失真的問(wèn)題。本文所提方法在三種衛(wèi)星圖像上均取得了最優(yōu)的客觀(guān)評(píng)價(jià)指標(biāo)。
表2 降低分辨率下不同方法的融合結(jié)果定量比較Table 2 Quantitative comparison on fused results of different methods at reduced resolution
將本文方法與其他9 種融合算法同樣在全分辨率真實(shí)圖像上進(jìn)行了對(duì)比實(shí)驗(yàn)。圖11 為全分辨率GF2圖像的融合結(jié)果以及局部放大圖。BDSD、GSA 和MTF-GLP-HPM 融合結(jié)果的局部放大區(qū)域中心的藍(lán)色長(zhǎng)方形建筑物與道路之間的植物顏色也偏藍(lán),這是明顯的光譜失真。SR-D 方法的融合結(jié)果整體呈現(xiàn)出明顯的模糊效果。RSIFNN 的融合圖像比SR-D 的清晰很多,但是從建筑物邊緣依然能觀(guān)察出模糊的問(wèn)題。PSGAN 融合結(jié)果局部放大區(qū)域的窄長(zhǎng)方形藍(lán)色建筑物雖然邊緣清晰,但是上方的藍(lán)色大建筑物卻邊緣模糊,說(shuō)明模型對(duì)不同尺度地面物體的處理存在不足。PNN 和NLRNet 的融合結(jié)果在空間細(xì)節(jié)上比RSIFNN和PSGAN 更優(yōu),但是PNN 的融合結(jié)果表現(xiàn)出輕微的光譜失真,NLRNet 的融合結(jié)果仍然有少量的細(xì)節(jié)丟失。PanColorGAN 的融合圖像空間細(xì)節(jié)較好,但是在局部放大區(qū)域可以觀(guān)察到建筑物存在輕微的光譜失真。本文方法對(duì)光譜信息和空間細(xì)節(jié)均實(shí)現(xiàn)了較好的保留。
圖11 全分辨率GF2 測(cè)試圖像和不同算法的融合結(jié)果Fig.11 Full-resolution GF2 testing images and fusion results of different methods
表3 給出了全分辨率下三種衛(wèi)星數(shù)據(jù)集融合結(jié)果的客觀(guān)評(píng)價(jià)指標(biāo)。BDSD 和GSA 方法在三個(gè)數(shù)據(jù)集上均呈現(xiàn)比較高的Dλ值,這說(shuō)明融合結(jié)果的光譜失真普遍比較嚴(yán)重。MTF-GLP-HPM 的Dλ值普遍好于BDSD 和GSA 方法,但在空間失真分量DS上,這三種方法的表現(xiàn)接近,都比較高。SR-D 在三種數(shù)據(jù)上的Dλ指標(biāo)都比較好,說(shuō)明其融合結(jié)果的光譜失真普遍較小,但其空間失真分量DS仍然相對(duì)偏高。PNN 的各項(xiàng)指標(biāo)表現(xiàn)均與SR-D 接近。RSIFNN 雖然在GF2 數(shù)據(jù)上空間失真DS偏高,但其在QB 和WV3 數(shù)據(jù)上均呈現(xiàn)次優(yōu)的表現(xiàn)。NLRNet 在GF2 數(shù)據(jù)上的客觀(guān)指標(biāo)明顯好于RSIFNN,但略差于PSGAN。PanColorGAN 空間失真DS較小,但是仍然存在光譜失真Dλ略高的問(wèn)題。本文方法在GF2 數(shù)據(jù)集上所有指標(biāo)都是最優(yōu)。在QB和WV3 數(shù)據(jù)集上,本文方法僅有光譜失真指標(biāo)Dλ略差于對(duì)比方法,其他指標(biāo)均為最優(yōu)。
表3 全分辨率下不同方法的融合結(jié)果定量比較Table 3 Quantitative comparison on fused results of different methods at full resolution
為了進(jìn)一步驗(yàn)證本文方法對(duì)不同尺度特征的提取效果,圖12 展示了在一張GF2 圖像上編碼器提取的不同級(jí)別特征的可視化結(jié)果。在階段1 提取的特征中,矩形建筑物的輪廓明顯,植被以及小型地物的紋理豐富,這屬于細(xì)粒度的特征。在階段2,隨著相鄰向量的合并,特征圖的分辨率降低,這一階段所提取的特征不再局限于局部形狀和紋理,全圖的一些較為抽象的有關(guān)聯(lián)性的特征被顯示出來(lái),例如圖12(b)的最后一張?zhí)卣鲌D。到了最后的階段3,特征更為豐富,既有關(guān)注于局部區(qū)域的特征,也有展現(xiàn)全局關(guān)聯(lián)性的特征。這些不同抽象級(jí)別的特征提升了特征豐富性,為解碼階段高分辨率圖像的恢復(fù)提供了幫助。
圖12 編碼器不同階段輸出的多級(jí)特征表示的可視化Fig.12 The visualization of multi-level feature maps output by the encoder in each stage
為了進(jìn)一步比較不同方法的運(yùn)行時(shí)間和空間消耗,表4 給出了本文方法和所有對(duì)比方法在所有測(cè)試圖像上的平均運(yùn)行時(shí)間和參數(shù)量。所有傳統(tǒng)方法在一顆2.6-GHz Intel Core i7-10750H CPU 上測(cè)試,而所有深度學(xué)習(xí)方法在一張NVIDIA GeForce RTX 2060 GPU 上測(cè)試。傳統(tǒng)方法沒(méi)有可訓(xùn)練參數(shù),所以參數(shù)量可以忽略。通過(guò)比較發(fā)現(xiàn),PNN 和RSIFNN 因?yàn)槠渚W(wǎng)絡(luò)結(jié)構(gòu)非常簡(jiǎn)單,參數(shù)量和運(yùn)行時(shí)間消耗明顯少于其他方法。變分優(yōu)化方法SR-D 和PanColorGAN 的運(yùn)行時(shí)間明顯高于其他方法。本文方法的運(yùn)行時(shí)間消耗處于中間水平,相對(duì)于PanColorGAN 減少了很多。但是,因?yàn)門(mén)ransformer 是對(duì)向量序列進(jìn)行處理,有較多線(xiàn)性層,所以本文方法的參數(shù)量比基于卷積神經(jīng)網(wǎng)絡(luò)的PanColorGAN 大一些。
表4 不同方法的運(yùn)行時(shí)間和參數(shù)量比較Table 4 Comparison on runtimes and parameters of different methods
本文提出一種基于Transformer 的雙分支編解碼器結(jié)構(gòu)來(lái)進(jìn)行遙感圖像融合。首先將待融合的多光譜圖像和全色圖像分割成固定大小的圖像塊并嵌入到向量序列中。然后通過(guò)基于Transformer 的雙分支編碼器分別提取兩張圖像含有全局信息的多級(jí)特征表示。在編碼過(guò)程中,全色圖像信息被注入到多光譜特征表示里進(jìn)行初步融合。最后,基于Transformer 的多階段解碼器結(jié)合編碼過(guò)程中產(chǎn)生的多級(jí)特征表示由高層級(jí)融合特征逐步恢復(fù)出高分辨率多光譜圖像。實(shí)驗(yàn)結(jié)果表明,本文所提方法主觀(guān)視覺(jué)效果和客觀(guān)評(píng)價(jià)指標(biāo)兩個(gè)方面均取得了較好的表現(xiàn)。