種法亭,董張玉,3,楊學(xué)志,曾慶旺
基于雙通道多尺度特征提取和注意力的SAR與多光譜圖像融合
種法亭1,2,董張玉1,2,3,楊學(xué)志2,3,曾慶旺1,2
(1. 合肥工業(yè)大學(xué) 計(jì)算機(jī)與信息學(xué)院,安徽 合肥 230031;2. 工業(yè)安全與應(yīng)急技術(shù)安徽省重點(diǎn)實(shí)驗(yàn)室,安徽 合肥 230031;3. 智能互聯(lián)系統(tǒng)安徽省實(shí)驗(yàn)室,安徽 合肥 230031)
圖像融合的根本任務(wù)是提取圖像特征,由于合成孔徑雷達(dá)(Synthetic Aperture Radar,SAR)圖像和多光譜(Multi Spectral,MS)圖像存在通道差異,針對(duì)現(xiàn)有算法難以充分提取和利用SAR圖像的高頻細(xì)節(jié)信息和多光譜圖像的低頻光譜信息,融合圖像存在細(xì)節(jié)丟失和光譜失真問題。本文提出了一種基于雙通道多尺度特征提取和混合注意力的圖像融合算法。首先采用雙通道網(wǎng)絡(luò)提取SAR和多光譜圖像的多尺度高頻細(xì)節(jié)特征和低頻光譜特征,并連續(xù)使用不同空洞率的擴(kuò)張卷積擴(kuò)大感受野。然后將提取的特征映射到混合注意力模塊中進(jìn)行特征增強(qiáng),再將這些增強(qiáng)特征與上采樣的多光譜圖像疊加。同時(shí)構(gòu)建了基于光譜角度距離的損失函數(shù),可以進(jìn)一步緩解細(xì)節(jié)丟失和光譜失真。最后通過解碼網(wǎng)絡(luò)重建圖像,得到高分辨率的融合圖像。實(shí)驗(yàn)結(jié)果表明,本文算法達(dá)到了領(lǐng)先水平,并且融合圖像在細(xì)節(jié)和光譜上保持了較好的平衡。
SAR圖像融合;擴(kuò)張卷積;多尺度提?。粴埐罹W(wǎng)絡(luò);注意力機(jī)制
合成孔徑雷達(dá)是一種微波有源主動(dòng)成像雷達(dá),具有全天時(shí)、全天候、多極化、多角度、地表穿透力強(qiáng)等特點(diǎn),使得SAR衛(wèi)星廣泛地應(yīng)用于農(nóng)業(yè)、林業(yè)、海洋、災(zāi)害監(jiān)測(cè)等領(lǐng)域。
SAR衛(wèi)星能夠穿透云層以及地表覆蓋的自然植被,可以詳盡地繪制地形地貌,獲得高分辨率且細(xì)節(jié)清晰的地表圖像,MS傳感器可以提供地表不同波段的光譜信息,但MS圖像缺少細(xì)節(jié)和紋理信息。因此將來自不同傳感器的信息進(jìn)行互補(bǔ)整合,得到融合圖像。融合圖像可以保留MS圖像的光譜信息和SAR圖像的細(xì)節(jié)信息,同時(shí)具有高分辨率。
傳統(tǒng)的圖像融合方法包含以下3類。①主成分替換法:主要包括的方法有(Intensity Hue Saturation,HIS)變換[1]、主成分分析(Principal Component Analysis,PCA)變換[2]、施密特變換(Gram Schmid,GS)以及Brovey變換[3]等,該類算法直接融合源圖像的像素特征。此類算法簡(jiǎn)單易實(shí)現(xiàn),但需要較大的計(jì)算量,是其它融合算法的基礎(chǔ)。融合后的圖像包含顯著的SAR圖像細(xì)節(jié)信息,但由于兩種圖像的光譜信息和細(xì)節(jié)信息存在較大差異,融合后的圖像會(huì)產(chǎn)生較嚴(yán)重的光譜失真;②多尺度變換法:主要包括的方法有拉普拉斯金字塔多尺度變換法[4]、小波變換法[5]、非下采樣剪切波變換[6]和非下采樣輪廓波變換[7]。該類算法可以在較好保持光譜特征的同時(shí),加入SAR圖像的細(xì)節(jié)信息,它在一定程度上緩解光譜失真,但是會(huì)造成較嚴(yán)重的空間扭曲;③混合法:首先采用主成分分析法分解圖像,得到圖像的特征信息,然后采用多尺度分析法融合圖像的特征信息,最后采用逆變換得到融合圖像。雖然該類算法能夠更好保留源圖像的細(xì)節(jié)和光譜信息,但隨著場(chǎng)景的復(fù)雜度提高,該算法求解過程緩慢,且無法保證精度。
基于深度學(xué)習(xí)的算法:相較于傳統(tǒng)算法,卷積神經(jīng)網(wǎng)絡(luò)有著強(qiáng)大的特征提取和表達(dá)能力,廣泛應(yīng)用于圖像融合領(lǐng)域。例如,Masi等設(shè)計(jì)了一種基于深度學(xué)習(xí)的遙感圖像融合算法(CNN-based Pan-sharpening Neural Network,PNN),在融合效果上,相較于傳統(tǒng)算法有較大提升,由于兩種圖像存在通道差異,算法難以在高分辨率全色圖像和低分辨率高光譜圖像之間建立聯(lián)系[8]。Wei等提出了一種基于殘差網(wǎng)絡(luò)的遙感圖像融合算法DRPNN(Deep Residual Pan-Sharping Neural Network)[9],可以解決訓(xùn)練時(shí)出現(xiàn)的梯度消失現(xiàn)象,提升模型的魯棒性,但采用單一的卷積核,限制了網(wǎng)絡(luò)的特征提取能力。Yang等為提取更加豐富的圖像特征,提出了基于CNN的雙通道圖像銳化網(wǎng)絡(luò)(PanNet)[10],使用雙通道網(wǎng)絡(luò)提取多光譜圖像和全色圖像的光譜特征和細(xì)節(jié)特征,并采用殘差來改善特征連接。但在特征提取時(shí),每個(gè)通道的特征被同等對(duì)待,不能專注于更有用的特征。吳佼華等[11]使用的雙分支網(wǎng)絡(luò)結(jié)構(gòu)極大程度保留了SAR和MS圖像的細(xì)節(jié)特征和光譜特征,但是不能充分利用原始圖像的上下文信息,導(dǎo)致感受野受限。Xu等人設(shè)計(jì)了一種無監(jiān)督的圖像融合網(wǎng)絡(luò)U2Fusion[12],可以在無參考圖像的情況下建立統(tǒng)一的融合模型,但模型無法分辨聚焦區(qū)域和散焦區(qū)域。Liu Q.等提出一種基于注意力機(jī)制的遙感圖像融合算法HANet[13],注意力能夠充分利用特征圖的通道和空間之間的關(guān)系,增強(qiáng)關(guān)鍵特征并抑制光譜通道和空間位置中干擾特征,但融合圖像難以在光譜和細(xì)節(jié)上實(shí)現(xiàn)平衡。許道禮[14]等提出一種基于雙分支多尺度殘差融合嵌套的SAR和多光譜圖像融合算法,該算法使用多尺度殘差融合網(wǎng)絡(luò),增強(qiáng)多尺度的表達(dá)能力,并采用嵌套連接解碼器融合不同尺度的特征,但算法未關(guān)注不同注意力機(jī)制對(duì)圖像融合結(jié)果的影響,融合效果有待進(jìn)一步提升。
基于以上問題,在前人研究的基礎(chǔ)上,本文提出了一種基于雙通道多尺度特征提取和注意力的SAR與多光譜圖像融合算法,網(wǎng)絡(luò)使用多種不同尺度的卷積提取特征,可以有效構(gòu)建SAR和MS圖像之間的關(guān)系;加入擴(kuò)張卷積關(guān)注全局上下文信息,擴(kuò)大感受野的同時(shí)不增加計(jì)算量;使用混合注意力增強(qiáng)網(wǎng)絡(luò)的特征提取能力,提取隱藏在復(fù)雜背景中的SAR圖像特征,并抑制無關(guān)特征;使用SAD(Spectral Angle Distance,SAD)函數(shù)[15]構(gòu)建損失,進(jìn)一步平衡融合圖像在光譜和細(xì)節(jié)之間的關(guān)系。
本文在PanNet[10]和雙分支[11]網(wǎng)絡(luò)架構(gòu)的基礎(chǔ)上,結(jié)合多尺度特征提取、擴(kuò)張卷積、注意力機(jī)制和殘差網(wǎng)絡(luò),提出了一種基于雙通道多尺度特征提取和注意力的SAR與多光譜圖像融合算法,算法使用細(xì)節(jié)保持和光譜保持兩個(gè)支路,在細(xì)節(jié)和光譜上同時(shí)提升。網(wǎng)絡(luò)遵循“特征提取-特征融合-解碼器”結(jié)構(gòu),并含有跳線連接,算法的網(wǎng)絡(luò)框架如圖1所示。
雙通道模塊包含細(xì)節(jié)保持模塊(Detail Preservation Block,DPB)和光譜保持模塊(Spectral Preservation Block,SPB)兩部分。
1.3.1 細(xì)節(jié)保持模塊
由圖1可以看出,細(xì)節(jié)保持模塊由2組擴(kuò)張卷積模塊(Dilated Convolution Block,DCB)、6組多尺度特征提取模塊(Multi scale feature extraction block,MFEB)和3組混合注意力模塊(Mixed Attention Block,MAB)構(gòu)成。
圖1 本文算法網(wǎng)絡(luò)框架
“較小尺度的特征對(duì)較小尺寸的卷積做出反應(yīng),較粗糙的結(jié)構(gòu)傾向于被較大尺寸的卷積提取”[16],本文采用不同尺寸的卷積核分別提取SAR和MS圖像特征。主要步驟如下:①為了保持原始SAR圖像和MS圖像結(jié)構(gòu),首先將預(yù)處理后SAR圖像和MS圖像通過高通濾波器提取高頻分量。②然后采用小尺度3×3卷積核提取細(xì)節(jié)信息豐富的SAR圖像,采用較大尺度9×9卷積核提取分辨率較低的MS圖像,得到兩種圖像淺層特征。③其次將得到的淺層圖像特征通過擴(kuò)張卷積擴(kuò)大其感受野,再分別使用3種不同尺度的MFEB模塊,提取圖像的深層特征,將提取的深層特征分別映射到3組混合注意力機(jī)制模塊。④最后將上一步輸出的特征按照同尺度疊加,得到細(xì)節(jié)保持模塊的輸出(S, MS)。詳細(xì)運(yùn)算流程如下:
1)淺層特征提取。h表示原始SAR圖像通過高通濾波器后的圖像,-MSh表示原始MS圖像通過高通濾波器后并3倍上采樣后的圖像。hp表示用3×3的卷積提取的經(jīng)過高通濾波器后的SAR圖像的淺層特征,-MShp表示用9×9的卷積提取上采樣后并通過高通濾波器的MS圖像的淺層特征。淺層特征提取如公式(1)和(2)所示。
hp=3×3(h) (1)
-hp=9×9(-h) (2)
2)深層特征提取。將淺層特征依次通過擴(kuò)張卷積模塊(DCB)和多尺度特征提取模塊(MFEB),在MFEB中使用大小為3×3、5×5和7×7的3種尺度卷積核,提取SAR和MS圖像深層特征,深層特征用S和M表示,其中表示深層特征提取,=3,5,7。如公式(3)和(4)所示。
S=×i(hp) (3)
M=×i(-hp) (4)
圖2分別展示了3種尺度大小為3×3、5×5和7×7的多尺度特征提取模塊。
圖2 3種不同尺度的MFEB
3)特征重構(gòu)。將上一步提取的SAR圖像深層特征S和MS圖像深層特征M,按照同尺度進(jìn)行像素疊加,此操作可以將SAR圖像中的高分辨率細(xì)節(jié)特征融入MS圖像中,F表示按照同尺度像素疊加的特征,過程如公式(5)所示。然后將3組疊加后的特征F通過注意力機(jī)制模塊MAB進(jìn)行特征重構(gòu),得到重構(gòu)后的多尺度特征F,代表注意力模塊的特征重構(gòu)過程。如公式(6)所示。
F=S+M(5)
F=(F) (6)
4)特征融合。最后將3種不同尺度的重構(gòu)特征F進(jìn)行通道疊加,得到最終的細(xì)節(jié)保持模塊輸出(S, MS)。過程如公式(7)所示:
1.3.2 光譜保持模塊
在光譜保持模塊中,采用跳線連接細(xì)節(jié)保持模塊的輸出和3倍上采樣后的MS圖像,即MS圖像的光譜信息傳遞到融合圖像中,得到了SAR與MS圖像最終的融合結(jié)果。光譜特征融合的過程如圖3所示。
圖3 細(xì)節(jié)特征與光譜特征疊加流程圖
圖3中(S, MS)表示細(xì)節(jié)保持模塊的輸出,-表示按照雙三次插值法進(jìn)行3倍上采樣后的MS圖像。
在對(duì)圖像提取的過程中,可以通過增加卷積核的大小和網(wǎng)絡(luò)深度,來擴(kuò)大感受野獲取更豐富的上下文信息,但是以上操作會(huì)增加網(wǎng)絡(luò)參數(shù)和網(wǎng)絡(luò)的復(fù)雜度,不利于網(wǎng)絡(luò)的訓(xùn)練。擴(kuò)張卷積可以增加感受野,能夠讓卷積核更好地捕捉到輸入圖像的特征信息,提高網(wǎng)絡(luò)對(duì)圖像的理解能力,并且擴(kuò)張卷積不會(huì)改變輸入和輸出的大小,可以無縫地集成到現(xiàn)有網(wǎng)絡(luò)架構(gòu)中[17]。擴(kuò)張卷積中含有可以修改的“空洞率”(Dilation Rate,DR),使用不同的空洞率可以獲得不同的感受野,即在卷積核中插入空洞來實(shí)現(xiàn)這種操作。擴(kuò)張卷積雖然可在不損失特征圖尺寸的情況下增大感受野,但卷積核具有間隔,會(huì)造成卷積中心點(diǎn)不連續(xù),在疊加相同或成倍數(shù)的空洞率的擴(kuò)張卷積層時(shí)尤為嚴(yán)重,為避免這一問題,將空洞率分布設(shè)為“鋸齒狀”,依次為1、2、3,如圖4(c)所示,這樣卷積中心的分布便不再有遺漏。圖4展示了不同分布方式的擴(kuò)張卷積感受野。
標(biāo)準(zhǔn)卷積可以看作空洞率為1的擴(kuò)張卷積,其感受野的計(jì)算公式如公式(8)和(9)所示。
¢=+(-1)×(-1) (8)
式中:p為擴(kuò)張卷積的卷積核大小;d是空洞率,d-1代表卷積核點(diǎn)的間隔數(shù)量;p¢是其等價(jià)卷積核大?。籗p表示第p層卷積的步長(zhǎng)(stride);Rp+1表示當(dāng)前層的感受野;Rp表示上一層感受野。結(jié)合圖4和公式(8)(9)可知,擴(kuò)張卷積可以保持與標(biāo)準(zhǔn)卷積一致的分辨率并在不增加額外參數(shù)的情況下擴(kuò)大感受野。
在網(wǎng)絡(luò)中,所有輸入的特征都被平等地看待,但實(shí)際上一些特征對(duì)結(jié)果的貢獻(xiàn)更加重要,因此引入注意力機(jī)制可以讓模型在學(xué)習(xí)過程中自動(dòng)地關(guān)注那些更重要的特征,提高模型的精度[18]。但在構(gòu)建更深的網(wǎng)絡(luò)時(shí),通過逐層的非線性變換提取輸入數(shù)據(jù)的高層次特征,這種逐層的變換可能會(huì)導(dǎo)致梯度在反向傳播過程中逐漸變小,從而使訓(xùn)練過程變得非常困難,甚至無法收斂。在ResNet[19]網(wǎng)絡(luò)中,通過引入殘差連接,可以讓梯度更容易地在網(wǎng)絡(luò)中傳遞,從而避免梯度消失和梯度爆炸問題,使訓(xùn)練變得收斂。
基于文獻(xiàn)[18]、[19]本文設(shè)計(jì)一種混合注意力模塊(Mixed Attention Block,MAB)?;旌献⒁饬δK由殘差連接(Residual Network,ResNet)、通道注意力模塊(Channel Attention Block,CAB)和空間注意力模塊(Spital Attention Block,SAB)組合而成,MAB不僅可以在通道層面提高運(yùn)行效率,還可以增強(qiáng)目標(biāo)特征和抑制無關(guān)特征,例如增強(qiáng)SAR圖像中的紋理信息和MS圖像中的光譜信息,抑制SAR圖像中的噪聲信息和MS圖像中的粗糙紋理。MAB的結(jié)構(gòu)如圖5所示。
圖5 MAB結(jié)構(gòu)
1.5.1 通道注意力模塊(CAB)
對(duì)于傳統(tǒng)的通道注意力SENet來說,Wang等認(rèn)為捕獲所有通道間的依賴關(guān)系是低效率且不必要的,并且一維卷積具有良好的跨通道特征獲取能力[20]。設(shè)計(jì)的通道注意力模型如圖6所示。
F=W×X(12)
式中:GAP(X)表示對(duì)X做全局平均池化處理;表示使用Sigmoid函數(shù)激活。
1.5.2 空間注意力模塊(SAB)
因?yàn)镾AR圖像經(jīng)過預(yù)處理后仍存在一些噪聲和無關(guān)特征,我們采用了空間注意力模塊SAB讓網(wǎng)絡(luò)更加專注于更多有用信息的特征,例如,SAR圖像的高頻紋理和邊緣輪廓特征,并且SAB可以加強(qiáng)網(wǎng)絡(luò)對(duì)SAR圖像噪聲的抑制能力,從而獲得出色的細(xì)節(jié)保持效果。受文獻(xiàn)[21]啟發(fā),為了關(guān)注空間信息和減少計(jì)算參數(shù),在SAB中,本文采用一個(gè)卷積核大小自適應(yīng)變化的卷積層進(jìn)行空間信息融合,其中通道壓縮比設(shè)置為6。卷積核大小隨著多尺度卷積的大小變化而變化:=0.5(+1),=3,5,7,并且由于最大池化操作減少了信息的傳遞,與傳統(tǒng)的空間注意力相對(duì)比,本文刪除了最大池化,更加有利于信息的流動(dòng),且結(jié)構(gòu)更輕量。所構(gòu)建的空間注意力模塊如圖7所示。
圖6 通道注意力模塊
圖7 空間注意力模塊
CAB的輸入F,通過SAB后其大小與尺寸保持不變,即:
式中:代表sigmoid函數(shù);f×k和3×3分別表示使用×和3×3的卷積核運(yùn)算,最后與CAB的輸入F相乘得到最終的輸出(F)。
在解碼模塊中,本文參照一種端到端的網(wǎng)絡(luò)模型SRCNN[22](Super Resolution Convolutional Neural Network)設(shè)計(jì)解碼模塊,將融合后的特征進(jìn)行圖像超分辨。SRCNN模型由3個(gè)大小分別為9×9、1×1和5×5的卷積層組成,每個(gè)卷積層都包含許多濾波器,學(xué)習(xí)低級(jí)特征(如邊緣和紋理)到高級(jí)特征的映射,然后將這些高級(jí)特征重建為高分辨率圖像。在本文的解碼模塊中,第一層使用9×9的卷積層,將特征由128通道降至64通道;第二層使用1×1的卷積層,將特征由64通道降至32通道;最后一層使用5×5的卷積層將通道維度降至3維,獲得清晰的高分辨率融合圖像。SRCNN的結(jié)構(gòu)如圖1中的解碼模塊所示。
損失函數(shù)(Loss Function)是影響圖像融合的重要因素,本文采用L損失函數(shù)對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化,L損失函數(shù)由損失函數(shù)1和損失函數(shù)2構(gòu)成。1中的||表示的范數(shù),它表示生成的融合圖像與參考圖像之間的平均絕對(duì)誤差。由公式(15)確定,損失函數(shù)1如公式(16)所示:
光譜角度距離(Spectral Angle Distance,SAD)[15]是用于計(jì)算兩個(gè)光譜向量之間相似性的指標(biāo)。在遙感圖像處理中,每個(gè)像素都可以表示為一個(gè)光譜向量,該向量包含不同波段的反射率或輻射值。SAD使用光譜向量之間的夾角來度量它們之間的相似性,兩個(gè)光譜向量之間的夾角越小,則它們的SAD值越小,表示它們?cè)较嗨?。本文使用光譜角度距離SAD構(gòu)建損失函數(shù)2,假設(shè)有兩個(gè)光譜向量和,它們的長(zhǎng)度相等,它們之間的SAD可以計(jì)算為它們之間的夾角的反余弦值,即:
式中:||||2和||||2分別表示向量和向量的長(zhǎng)度。SAD的值通常在0~0.5p之間,值越小表示兩個(gè)向量越相似。
損失函數(shù)2表示測(cè)量MS圖像和融合圖像之間的差異,F(xiàn)表示第張融合圖像,損失函數(shù)2可由公式(18)表示:
最終的損失函數(shù)L可定義為1和倍的2相加,經(jīng)過實(shí)驗(yàn)測(cè)試,將2的系數(shù)設(shè)為0.1,融合的圖像可以在光譜和細(xì)節(jié)保持較好的平衡。計(jì)算過程如公式(19)所示:
試驗(yàn)區(qū)選取的圖像位置為天津市郊區(qū),地物信息豐富。研究數(shù)據(jù)包括Sentinel-1W GRD級(jí)SAR圖像(10m分辨率)和Landsat 8 MS圖像(30m分辨率),分別從阿拉斯加衛(wèi)星數(shù)據(jù)中心(Alaska Satellite Facility,ASF)和美國Earth Explorer網(wǎng)站下載。考慮到時(shí)序變化問題,兩種圖像的成像時(shí)間差控制在1周以內(nèi),Sentinel-1W GRD數(shù)據(jù)采集時(shí)間為2020年4月17日,Landsat 8數(shù)據(jù)采集時(shí)間為2020年4月22日。Sentinel-1 SAR數(shù)據(jù)選取其中VH極化方式成像的圖像,Landsat 8 MS數(shù)據(jù)選取30m分辨率波段中的2、3、4(藍(lán)、綠、紅)波段,將3個(gè)波段疊加形成30m分辨率RGB圖像。
選取兩組地物信息豐富且感興趣的區(qū)域,第一組實(shí)驗(yàn)數(shù)據(jù)包含船只、河道與港口等明顯的地物信息。第二組實(shí)驗(yàn)數(shù)據(jù)包含耕地、住宅區(qū)、河道與廠房等。兩組實(shí)驗(yàn)數(shù)據(jù)如圖8和圖9所示。
圖8 第1組實(shí)驗(yàn)數(shù)據(jù)
圖9 第2組實(shí)驗(yàn)數(shù)據(jù)
本文實(shí)驗(yàn)環(huán)境為64位Windows 10操作系統(tǒng),搭載RTX 2060顯卡,在TensorFlow和Python3.7的框架下搭建的卷積神經(jīng)網(wǎng)絡(luò)系統(tǒng)。采用Adam算法自適應(yīng)優(yōu)化網(wǎng)絡(luò)模型。初始學(xué)習(xí)率設(shè)置為0.001,有利于加速收斂過程,每迭代3000次時(shí),學(xué)習(xí)率下降一半,能夠減少反復(fù)震蕩,提高訓(xùn)練精度,模型全部迭代次數(shù)為30000次。
從預(yù)處理后的SAR和MS圖像裁剪出了12000組圖像用于模型訓(xùn)練,大小分別為180×180和60×60,按照9:1的比例,10800組圖像作為訓(xùn)練集,1200組圖像作為驗(yàn)證集,訓(xùn)練集總大小為4.5GB。最后裁剪2組大小900×900的SAR圖像和300×300的MS圖像驗(yàn)證實(shí)驗(yàn)。將原始的MS圖像設(shè)為Ground Truth,然后將裁剪好的SAR圖像、MS圖像和Ground Truth打包送入訓(xùn)練網(wǎng)絡(luò)。
在圖像融合實(shí)驗(yàn)部分,本文選擇相關(guān)系數(shù)(Correlation Coefficient,CC)、峰值信噪比(Peak Signal to Noise Ratio,PSNR)、光譜映射角度(Spectral Angle Mapping,SAM)[23]、空間相關(guān)系數(shù)(Spatial Correlation Coefficient,sCC)[24]、通用圖像質(zhì)量指標(biāo)(Universal Image Quality Index,UIQI)[25]這5種評(píng)價(jià)指標(biāo)用于評(píng)估融合結(jié)果。本文還采用了QNR(the Quality with No Reference Index)[26]以及QNR的光譜分量和空間分量D,這3種不需要參考圖像的客觀指標(biāo)來客觀評(píng)價(jià)融合圖像的質(zhì)量。QNR=(1-)(1-D),其中和的取值為1。
為了驗(yàn)證本算法在圖像紋理細(xì)節(jié)以及光譜保持上的提升,評(píng)估網(wǎng)絡(luò)性能,本文選取了9種對(duì)比實(shí)驗(yàn)算法。其中包含傳統(tǒng)算法:(Principal Component Analysis)PCA[2]、NSCT-SM-PCNN[27],以及基于深度學(xué)習(xí)的算法:(Remote Sensing Image Fusion Network)RSIFNN[28]、(Deep Residual Pan-Sharping Neural Network)DRPNN[9]、(Pan-sharpening Network)PanNet[10]、(Double Branch)雙分支[11]、(Unified Unsupervised Fusion)U2Fusion[12]、(Hybrid Attention Network)HANet[13]和(Double-branch Multiscale Residual-fusion Nested-connections Net)DMRN-Net[14]。對(duì)比實(shí)驗(yàn)中的參數(shù)設(shè)置全部按照原始論文中的參數(shù)進(jìn)行設(shè)置。
從主觀視覺評(píng)價(jià)和客觀定量評(píng)價(jià)兩個(gè)方面來評(píng)估分析不同算法的融合效果。主觀視覺評(píng)價(jià)是根據(jù)融合圖像和參考圖像光譜特征和細(xì)節(jié)特征的相似程度,來判斷融合算法的優(yōu)劣。客觀定量評(píng)價(jià)是根據(jù)評(píng)價(jià)函數(shù),從空間域和光譜域定量評(píng)價(jià)算法優(yōu)劣。在實(shí)驗(yàn)結(jié)果中,主觀視覺評(píng)價(jià)是依據(jù)融合后圖像的光譜信息與原始的MS圖像的光譜信息對(duì)比,如果光譜信息越接近,則光譜保持效果越好,細(xì)節(jié)信息與SAR圖像對(duì)比,越接近效果越好。
2.3.1 主觀視覺評(píng)價(jià)
在Sentinel-1B和Landsat 8的數(shù)據(jù)上選取兩組數(shù)據(jù)做實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如圖10、圖11所示。客觀評(píng)價(jià)指標(biāo)的結(jié)果如表1、2、3和4所示,最優(yōu)的結(jié)果已加粗。
圖10 第1組對(duì)比實(shí)驗(yàn)融合結(jié)果。(a) PCA; (b) NSCT_SM_PCNN; (c) RSIFNN; (d) DRPNN; (e) PanNet; (f)雙分支; (g) U2Fusion;(h) HANet; (i) DMRN-Net; (j)本文算法
圖11 第2組對(duì)比實(shí)驗(yàn)融合結(jié)果。(a) PCA; (b) NSCT_SM_PCNN; (c) RSIFNN; (d) DRPNN; (e) PanNet; (f) 雙分支; (g) U2Fusion; (h) HANet; (i) DMRN-Net; (j)本文算法
從第一組實(shí)驗(yàn)結(jié)果圖10來看,傳統(tǒng)算法PCA雖然在MS圖像中加入了SAR圖像的細(xì)節(jié)信息,但是光譜失真現(xiàn)象十分嚴(yán)重,得到的圖像局部變藍(lán),并且非常模糊。傳統(tǒng)算法NSCT_SM_PCNN在光譜上有一定程度提升,但與參考圖像對(duì)比,空間分辨率較低,如圖10(a)和(b)中的藍(lán)色房頂,整體的清晰度較低。從總體來看,深度學(xué)習(xí)算法在空間細(xì)節(jié)提升和光譜保持方面優(yōu)于傳統(tǒng)算法。在放大的區(qū)域中,RSIFNN(圖10(c))融合算法顯著增強(qiáng)了MS圖像的細(xì)節(jié)信息,但由于加入過多的SAR圖像信息,出現(xiàn)了十分嚴(yán)重的光譜失真,在建筑物中體現(xiàn)最為明顯。DRPNN、PanNet、雙分支和本文算法,整體上都保持了多光譜圖像的光譜特征,同時(shí)也改善了圖像的細(xì)節(jié)信息。但是DRPNN算法整體上出現(xiàn)了振鈴效應(yīng),在放大部分出現(xiàn)偽影。PanNet算法融合圖像的輪廓和邊緣保持較好,但是在光譜保持方面弱于本文算法。雙分支算法光譜保持較好,但加入的SAR圖像信息較少,導(dǎo)致局部細(xì)節(jié)不明顯。U2Fusion算法在光譜保持方面弱于本文算法,且圖像放大后較為模糊,源于算法網(wǎng)絡(luò)不能充分提取圖像特征。HANet算法能夠很好地保持光譜特征,但是在放大區(qū)域可以看到紅色屋頂粘連到一起,并且光譜保持能力較差,不利于后期的圖像識(shí)別(如圖10(h))。DMRN-Net算法(如圖10(i))從局部區(qū)域來看,目標(biāo)的細(xì)節(jié)信息沒有本文清晰,但結(jié)構(gòu)和輪廓優(yōu)于其它對(duì)比算法。本文算法融合后的圖像既不會(huì)因?yàn)镾AR圖像信息加入過多,造成光譜失真,也不會(huì)在邊緣出現(xiàn)偽影,所提出的方法在光譜保持和細(xì)節(jié)提升方面取得了平衡,從主觀評(píng)價(jià)來看本文算法優(yōu)于其它算法。第二組實(shí)驗(yàn)圖11效果與第一組實(shí)驗(yàn)大致相同。
2.3.2 客觀定量評(píng)價(jià)
對(duì)于參考的評(píng)價(jià)指標(biāo),當(dāng)CC、PSNR、sCC和UIQI較大而SAM較小時(shí),圖像融合算法更好。對(duì)于非參考評(píng)價(jià)指標(biāo),當(dāng)和D較小而QNR的值較大時(shí),圖像融合的效果更好。從表1~表4可以看出,本文算法在CC、PSNR、sCC和QNR取得了最大值,而在SAM、和D取得了最小值,以上這些指標(biāo)取得最優(yōu)值。
從光譜評(píng)價(jià)指標(biāo)CC、UIQI和SAM來看,傳統(tǒng)算法PCA表現(xiàn)的融合效果最差,相關(guān)系數(shù)僅為0.4373;RSIFNN也因?yàn)榧尤肓诉^多的SAR圖像信息導(dǎo)致光譜扭曲,與參考圖像相關(guān)性僅為87.34%,低于傳統(tǒng)算法NSCT_SM_PCNN。DRPNN和PanNet融合算法在光譜上有明顯的改善;傳統(tǒng)算法NSCT_SM_PCNN與PCA對(duì)比,各種指標(biāo)有明顯提高,但仍有提升空間。從空間細(xì)節(jié)評(píng)價(jià)指標(biāo)PSNR和sCC來看,PCA和RSIFNN算法對(duì)比于其它算法表現(xiàn)較差,是因?yàn)檫@兩種融合算法中存在嚴(yán)重的光譜畸變和色彩失真,這與主觀評(píng)價(jià)結(jié)果一致;PanNet和雙分支算法較于以上兩種算法在光譜和細(xì)節(jié)上有明顯提升;U2Fusion和HANet在CC上相較于其它算法有較大提升,但是在指標(biāo)PSNR和SAM上遠(yuǎn)不如本文算法,源于在特征提取上沒有將光譜和細(xì)節(jié)分開。從光譜評(píng)價(jià)指標(biāo)SAM來看,DMRN-Net與本文算法有較大差異,因此在光譜保持上弱于本文算法,同時(shí)從空間細(xì)節(jié)評(píng)價(jià)指標(biāo)PSNR來看,本文算法與DMRN-Net相比也有明顯提升,因此本文算法在細(xì)節(jié)保持上也取得不錯(cuò)效果。本文構(gòu)建了基于光譜角度距離的損失函數(shù),因此在評(píng)價(jià)指標(biāo)SAM上相對(duì)于其它算法有較大提升。在表1中,本文算法與最優(yōu)的對(duì)比算法DMRN-Net相比,從指標(biāo)CC、PSNR、sCC、UIQI來看,分別高了0.22%、4.76%、0.64%和0.87%,從指標(biāo)SAM來看,降低了0.72%,因此本文算法在5種評(píng)價(jià)指標(biāo)CC、PSNR、SAM、sCC、UIQI上取得最優(yōu)值,說明本文算法在光譜保持和細(xì)節(jié)提升上均取得較好的效果。
表1 第1組不同算法實(shí)驗(yàn)數(shù)據(jù)
表2 第2組不同算法實(shí)驗(yàn)數(shù)據(jù)
從算法運(yùn)行時(shí)間來看,PCA方法最簡(jiǎn)單,所用的時(shí)間最短,NSCT_SM_PCNN所用的時(shí)間最長(zhǎng)。RSIFNN、DRPNN、PanNet、雙分支、U2Fusion、HANet和本文算法采用的是基于深度學(xué)習(xí)的方法,使用的測(cè)試集相同。本文算法的訓(xùn)練時(shí)間為7h左右,測(cè)試時(shí)間為0.78s,DMRN-Net算法測(cè)試時(shí)間為0.84s,該算法采用嵌套連接的融合方式能夠?qū)崿F(xiàn)特征復(fù)用和緩解梯度消失,但由于嵌套連接需要進(jìn)行通道疊加,網(wǎng)絡(luò)需要加深且頻繁讀取內(nèi)存,導(dǎo)致運(yùn)行效率低于本文算法。本文算法運(yùn)行時(shí)間遠(yuǎn)小于傳統(tǒng)的多尺度分解法的80.6s,更適合處理海量的遙感數(shù)據(jù)。
綜上所述,本文所提出的圖像融合算法在保持光譜特征的基礎(chǔ)上,有效改善了MS圖像的空間細(xì)節(jié),在視覺上更接近MS圖像,并且所用的時(shí)間相對(duì)較少。
表3 第1組無參考客觀實(shí)驗(yàn)數(shù)據(jù)
為了驗(yàn)證本文所構(gòu)建的模塊會(huì)對(duì)實(shí)驗(yàn)產(chǎn)生怎樣的影響,本小節(jié)設(shè)計(jì)了3種不同的組合架構(gòu)來驗(yàn)證算法的有效性,分別是:(a)加入多尺度特征提取模塊和混合注意力模塊。(b)加入多尺度特征提取模塊、混合注意力模塊和擴(kuò)張卷積模塊。(c)加入多尺度特征提取模塊、混合注意力模塊、擴(kuò)張卷積模塊和損失函數(shù)。方法(c)也就是本文所提出的算法,可以用下列組合表示(a)MFEB+MAB;(b)MFEB+MAB+DC;(c)MFEB+MAB+DC+loss。選擇使用上述的兩組SAR和MS圖像,分別按照上述組合架構(gòu)依次做實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如圖12和圖13所示。
表4 第2組無參考客觀實(shí)驗(yàn)數(shù)據(jù)
圖12 第1組消融實(shí)驗(yàn)結(jié)果。(a1)MFEB+MAB;(b1)MFEB+MAB+DC;(c1)MFEB+MAB+DC+loss;(a2)、(b2)和(c2)分別為它們的區(qū)域放大圖
圖13 第2組消融實(shí)驗(yàn)結(jié)果。(a1)MFEB+MAB;(b1)MFEB+MAB+DC;(c1)MFEB+MAB+DC+loss;(a2)、(b2)和(c2)分別為它們的區(qū)域放大圖
通過表5和表6來看,對(duì)比3種構(gòu)架方式,可以看出方法(c) MFEB+MAB+DC+loss(本文算法)的實(shí)驗(yàn)效果最好,方法(a) MFEB+MAB的效果最差。從表5中可以看出,方法(c)在5個(gè)評(píng)價(jià)指標(biāo)CC、PSNR、SAM、sCC和UIQI上均取得最優(yōu)值,分別為0.9947、32.8233、1.6073、0.8387和0.9921。從圖12和圖13中(a1)、(b1)、(c1)局部區(qū)域圖,可以看出融合圖像的細(xì)節(jié)逐漸清晰,紋理逐漸豐富,可以看出本文所提出的模塊,對(duì)本章算法起到較為明顯的提升。
表5 第1組消融實(shí)驗(yàn)數(shù)據(jù)
表6 第2組消融實(shí)驗(yàn)數(shù)據(jù)
本文提出一種基于雙通道混合注意力的SAR和MS圖像融合算法。將雙通道多尺度特征提取模塊和混合注意力用于圖像的特征提取。最后采用Sentinel-1B SAR圖像和Landsat 8 MS圖像(SAR與MS圖像分辨率之比為3)驗(yàn)證實(shí)驗(yàn),具體結(jié)論如下:
1)本文設(shè)計(jì)的雙通道多尺度模塊有著不俗的特征提取能力,用來分別提取SAR圖像的細(xì)節(jié)特征和MS圖像的光譜特征,可以有效改善細(xì)節(jié)丟失和光譜失真現(xiàn)象,同時(shí)在光譜和細(xì)節(jié)上保持了較好的平衡。
2)本文構(gòu)建的混合注意力模塊,可以有效加強(qiáng)特征提取能力,并且通過對(duì)不同部分的輸入特征進(jìn)行加權(quán),使網(wǎng)絡(luò)更加關(guān)注有用信息,提高特征的表示能力。
3)構(gòu)建基于SAD的損失函數(shù),通過度量融合圖像與原始MS圖像之間的光譜角距,進(jìn)一步緩解融合圖像的光譜失真和細(xì)節(jié)丟失現(xiàn)象。
因?yàn)槿鄙傧嚓P(guān)的數(shù)據(jù)源,本文算法只在Sentinel-1B和Landsat 8圖像上驗(yàn)證實(shí)驗(yàn),未來可考慮在分辨率更高的遙感圖像上做進(jìn)一步研究,例如,高分3號(hào)SAR圖像和高分1號(hào)MS圖像,獲得更加清晰的融合圖像,提高算法的適用性。
[1] TU T M, HUANG P S, HUNG C L, et al. A fast intensity-hue-saturation fusion technique with spectral adjustment for IKONOS imagery[J]., 2004, 1(4): 309-312.
[2] Pal S K, Majumdar T J, Bhattacharya A K. ERS-2 SAR and IRS-1C LISS III data fusion: A PCA approach to improve remote sensing based geological interpretation[J]., 2007, 61(5): 281-297.
[3] TU T M, LEE Y C, CHANG C P, et al. Adjustable intensity-hue-saturation and Brovey transform fusion technique for IKONOS/QuickBird imagery[J]., 2005, 44(11): 116201.
[4] Burt P J, Adelson E H.[M]. Readings in Computer Vision. Morgan Kaufmann, 1987: 671-679.
[5] Ranchin T, Wald L. The wavelet transform for the analysis of remotely sensed images[J]., 1993, 14(3): 615-619.
[6] GUO K, Labate D, Lim W Q. Edge analysis and identification using the continuous shearlet transform[J]., 2009, 27(1): 24-46.
[7] DA Cunha A L, ZHOU J, DO M N. The nonsubsampled contourlet transform: theory, design, and applications[J]., 2006, 15(10): 3089-3101.
[8] Masi G, Cozzolino D, Verdoliva L, et al. Pansharpening by convolutional neural networks[J]., 2016, 8(7): 594.
[9] WEI Y, YUAN Q, SHEN H, et al. Boosting the accuracy of multispectral image pansharpening by learning a deep residual network[J]., 2017, 14(10): 1795-1799.
[10] YANG J, FU X, HU Y, et al. PanNet: A deep network architecture for pan-sharpening[C]//, 2017: 5449-5457.
[11] 吳佼華, 楊學(xué)志, 方帥, 等. 基于雙分支卷積神經(jīng)網(wǎng)絡(luò)的SAR與多光譜圖像融合實(shí)驗(yàn)[J]. 地理與地理信息科學(xué), 2021, 37(2): 22-30. WU J H, YANG X Z, FANG S, et al. SAR and multispectral image fusion experiment based on dual branch convolutional neural network [J]., 2021, 37(2): 22-30.
[12] XU H, MA J, JIANG J, et al. U2Fusion: A unified unsupervised image fusion network[J]., 2020, 44(1): 502-518.
[13] LIU Q, HAN L, TAN R, et al. Hybrid attention based residual network for pansharpening[J]., 2021, 13(10): 1962.
[14] 董張玉, 許道禮, 張晉, 等. 基于雙分支多尺度殘差融合嵌套的SAR和多光譜圖像融合架構(gòu)與實(shí)驗(yàn)[J]. 地理與地理信息科學(xué), 2023, 39(1): 23-30. DONG Z Y, XU D L, ZHANG J, et al. Architecture and experiments of SAR and multispectral image fusion based on double-branch multiscale residual-fusion nesting[J]., 2023, 39(1): 23-30.
[15] MIN A, GUO Z, LI H, et al. JMnet: Joint metric neural network for hyperspectral unmixing[J]., 2021, 60: 1-12.
[16] 郭彭浩. 基于卷積神經(jīng)網(wǎng)絡(luò)和貝葉斯理論的遙感圖像Pansharpening算法研究[D]. 南京: 南京信息工程大學(xué), 2021. GUO P H. Research on Pansharpening Algorithm of Remote Sensing Image Based on Convolution Neural Network and Bayesian Theory[D]. Nanjing: Nanjing University of Information Engineering, 2021.
[17] 申興成, 楊學(xué)志, 董張玉, 等. 結(jié)合擴(kuò)張卷積的殘差網(wǎng)絡(luò)SAR圖像去噪[J]. 測(cè)繪科學(xué), 2021, 46(12): 106-114. SHEN X C, YANG X Z, DONG Z Y, et al. Residual network combined with dilated convolution for SAR image denoising[J]., 2021, 46(12): 106-114.
[18] 黃玲琳, 李強(qiáng), 路錦正, 等. 基于多尺度和注意力模型的紅外與可見光圖像融合[J]. 紅外技術(shù), 2023, 45(2): 143-149. HUANG L L, LI Q, LU J Z, et al. Infrared and visible image fusion based on multi-scale and attention model[J]., 2023, 45(2): 143-149.
[19] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//, 2016: 770-778.
[20] WANG Q, WU B, ZHU P, et al. Supplementary material for ‘ECA-Net: Efficient channel attention for deep convolutional neural networks[C]//2020, 2020: 13-19.
[21] LIU Y, SHAO Z, Hoffmann N. Global attention mechanism: retain information to enhance channel-spatial interactions[J/OL]., 2021, https://arxiv.org/abs/2112.05561.
[22] DONG C, LOY C C, HE K, et al. Image super-resolution using deep convolutional networks[J]., 2015, 38(2): 295-307.
[23] LI P, LEE S H, HSU H Y, et al. Nonlinear fusion of multispectral citrus fruit image data with information contents[J]., 2017, 17(1): 142.
[24] ZHOU J, Civco D L, Silander J A. A wavelet transform method to merge Landsat TM and SPOT panchromatic data[J]., 1998, 19(4): 743-757.
[25] WANG Z, Bovik A C. A universal image quality index[J]., 2002, 9(3): 81-84.
[26] CHENG J, LIU H, LIU T, et al. Remote sensing image fusion via wavelet transform and sparse representation[J]., 2015, 104: 158-173.
[27] WANG X L, CHEN C X. Image fusion for synthetic aperture radar and multispectral images based on sub-band-modulated non-subsampled contourlet transform and pulse coupled neural network methods[J]., 2016, 64(2): 87-93.
[28] SHAO Z, CAI J. Remote sensing image fusion with deep convolutional neural network[J]., 2018, 11(5): 1656-1669.
SAR and Multispectral Image Fusion Based on Dual-channel Multi-scale Feature Extraction and Attention
CHONG Fating1,2,DONG Zhangyu1,2,3,YANG Xuezhi2,3,ZENG Qingwang1,2
(1. College of Computer and Information, Hefei University of Technology, Hefei 230031, China;2. Anhui Province Key Laboratory of Industry Safety and Emergency Technology, Hefei 230031, China;3. Anhui Province Laboratory of Intelligent Interconnection System, Hefei 230031, China)
The fundamental task of image fusion is to extract image features. Because of the channel differences between synthetic aperture radar (SAR) images and multispectral (MS) images, existing algorithms have difficulty in fully extracting and utilizing the high-frequency detail information of SAR images and low-frequency spectral information of multispectral images, and the fused images have problems with detail loss and spectral distortion. In this study, an image fusion algorithm based on dual-channel multiscale feature extraction and hybrid attention is proposed. First, a dual-channel network is used to extract multi-scale high-frequency detail features and low-frequency spectral features of SAR and multispectral images, and successively expand the perceptual field using dilated convolution with different void rates. The extracted features are then mapped to the hybrid attention module for feature enhancement, and these enhanced features are superimposed on the upsampled multispectral images. A loss function based on the spectral angular distance was also constructed, which could further alleviate the problems of detail loss and spectral distortion. Finally, the image is reconstructed using a decoding network to obtain a high-resolution fused image. The experimental results show that the proposed algorithm achieves thebest performance and that the fused image maintains a good balance of details and spectra.
SAR image fusion, dilated convolution, multiscale extraction, residual network, attention mechanism
TP391
A
1001-8891(2024)01-0061-13
2023-03-08;
2023-05-18 .
種法亭(1997-),男,碩士研究生。主要研究方向:遙感圖像融合。Email:fatingchong@163.com。
董張玉(1986-),男,副教授,碩士生導(dǎo)師。主要研究方向:遙感圖像處理、數(shù)字信號(hào)處理。Email:dzyhfut@hfut.edu.cn。
安徽省重點(diǎn)研究與開發(fā)計(jì)劃項(xiàng)目(202004a07020030);安徽省自然科學(xué)基金項(xiàng)目(2108085MF233);中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)(JZ2021HGTB0111)。