謝樹(shù)春,陳志華,盛斌
(1.華東理工大學(xué) 信息科學(xué)與工程學(xué)院,上海 200237;2.上海交通大學(xué) 電子信息與電氣工程學(xué)院,上海 200240)
遙感圖像中包含非常豐富的地物信息,遙感圖像的利用價(jià)值在于可對(duì)其進(jìn)行重要信息的提取,但處理過(guò)程也非常復(fù)雜。遙感圖像語(yǔ)義分割是提取遙感圖像重要信息的前提,也是學(xué)術(shù)界和工業(yè)界的研究難點(diǎn)。遙感圖像覆蓋范圍廣,地物信息復(fù)雜多樣,存在很多的小地物類(lèi)別,使得分割難度加大,并且存在類(lèi)間相似性和類(lèi)內(nèi)差異性問(wèn)題,進(jìn)一步加大了分割難度。
全卷積神經(jīng)網(wǎng)絡(luò)是目前實(shí)現(xiàn)圖像語(yǔ)義分割的主流方法?;谌矸e神經(jīng)網(wǎng)絡(luò)提出的FCN[1]是深度學(xué)習(xí)應(yīng)用在圖像語(yǔ)義分割的代表方法,其為一種端到端的分割方法,應(yīng)用于圖像語(yǔ)義分割領(lǐng)域時(shí)得到了很好的效果。SegNet[2]和U-Net[3]是對(duì)FCN 的改進(jìn),SegNet 引入了更多的跨層連接,U-Net 在上采樣階段依然保留有大量的通道,使得網(wǎng)絡(luò)可以將上下文信息向更高層分辨率傳播。ERFNet[4]使用殘差連接來(lái)加速特征學(xué)習(xí)以及消除梯度消失的現(xiàn)象,并使用深度可分離卷積來(lái)減少網(wǎng)絡(luò)的參數(shù)數(shù)量,提高模型推算速度。SKASNet[5]構(gòu)建了一個(gè)新的殘差模塊,通過(guò)調(diào)節(jié)感受野的大小獲得多尺度信息。DeepLabv3+[6]引入語(yǔ)義分割常用的編解碼結(jié)構(gòu)并使用可任意控制編碼器提取特征的分辨率,通過(guò)空洞卷積平衡精度和耗時(shí)?,F(xiàn)有的遙感圖像語(yǔ)義分割方法主要對(duì)上述模型進(jìn)行微調(diào)與改進(jìn)。文獻(xiàn)[7-8]將基于U-Net 改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)用于遙感圖像上進(jìn)行語(yǔ)義分割時(shí)獲得了可觀的效果。RWSNet[9]將SegNet 和隨機(jī)游走相結(jié)合,緩解了分割對(duì)象邊界模糊的問(wèn)題。
近年來(lái),研究者設(shè)計(jì)了很多用于提高語(yǔ)義分割網(wǎng)絡(luò)性能的模塊,如受到廣泛關(guān)注的注意力機(jī)制。注意力機(jī)制可以在網(wǎng)絡(luò)訓(xùn)練過(guò)程中加強(qiáng)對(duì)一些重要特征區(qū)域或者重要特征通道的注意力,提升網(wǎng)絡(luò)對(duì)特征的表達(dá)能力。在SENet[10]中,壓縮、激勵(lì)和重標(biāo)定三個(gè)部分組成注意力機(jī)制,使網(wǎng)絡(luò)利用全局信息有選擇地增強(qiáng)有用特征通道并抑制無(wú)用特征通道,實(shí)現(xiàn)特征通道自適應(yīng)校準(zhǔn)。CBAM[11]將注意力機(jī)制同時(shí)運(yùn)用在通道和空間兩個(gè)維度上來(lái)提升網(wǎng)絡(luò)模型的特征提取能力。卷積神經(jīng)網(wǎng)絡(luò)中的卷積單元每次只關(guān)注鄰域卷積核大小的區(qū)域,是局部區(qū)域的運(yùn)算。文獻(xiàn)[12]提出了Non-local Neural Networks 用于捕獲長(zhǎng)距離關(guān)系。文獻(xiàn)[13]在特征提取網(wǎng)絡(luò)中加入注意力模塊來(lái)減少分割精度損失。文獻(xiàn)[14]基于U-Net改進(jìn)通過(guò)注意力機(jī)制以提高模型的靈敏度,并抑制無(wú)關(guān)特征區(qū)域的背景影響。文獻(xiàn)[15]通過(guò)全局注意力金字塔與通道注意力解碼器來(lái)解決地物小和類(lèi)內(nèi)尺度存在差異的問(wèn)題。
特征融合也是一種提高分割性能的流行方法。高層語(yǔ)義特征具有大的語(yǔ)義結(jié)構(gòu),但對(duì)小結(jié)構(gòu)丟失嚴(yán)重,低層細(xì)節(jié)特征保留了豐富的細(xì)節(jié)信息,但語(yǔ)義類(lèi)別信息很差。文獻(xiàn)[16-17]通過(guò)設(shè)計(jì)一個(gè)優(yōu)秀的特征融合方法進(jìn)一步提高了網(wǎng)絡(luò)的分割性能。FPN[16]最初用于目標(biāo)檢測(cè)任務(wù),但是也可以應(yīng)用于語(yǔ)義分割,通過(guò)按元素相加的方式來(lái)融合全局和局部特征,而PSPNet[17]特征融合更強(qiáng)調(diào)全局特征,文獻(xiàn)[18]則提出了一種增強(qiáng)特征融合的解碼器來(lái)提高語(yǔ)義分割模型的性能。遙感圖像語(yǔ)義分割網(wǎng)絡(luò)需要設(shè)計(jì)優(yōu)異的特征融合方法來(lái)加強(qiáng)高低層特征的融合,對(duì)此,文獻(xiàn)[19]通過(guò)高層語(yǔ)義特征和低層細(xì)節(jié)特征融合來(lái)提高模型的分割準(zhǔn)確率,文獻(xiàn)[20]設(shè)計(jì)了自適應(yīng)融合模塊(AFM)。一些通過(guò)結(jié)合邊緣檢測(cè)[21]和融入深度信息[22-23]的網(wǎng)絡(luò)模型也能一定程度上提升語(yǔ)義分割的性能。此外,光照不足的條件也會(huì)導(dǎo)致RGB 圖像質(zhì)量下降。紅外圖像可以很好地彌補(bǔ)光照不足等問(wèn)題,捕捉到更多RGB 圖像所缺失的信息?;赗GB-IR(RGB 圖像和相對(duì)應(yīng)的Infrared 圖像按通道維度疊加后得到RGB-Infrared 圖像)的語(yǔ)義分割模 型MFNet[24]、RTFNet[25]通過(guò)融合RGB 和紅外信息來(lái)克服光照不足以及天氣條件惡劣等問(wèn)題,提高了語(yǔ)義分割的性能。
現(xiàn)有基于RGB-IR 的語(yǔ)義分割模型沒(méi)有很好地將RGB 和紅外信息充分融合,也較少提取到RGB 圖像相對(duì)于紅外圖像所缺失的信息。本文提出一個(gè)細(xì)節(jié)特征抽取模塊來(lái)提取RGB 圖像和紅外圖像的細(xì)節(jié)特征信息同時(shí)進(jìn)行融合,生成更具區(qū)分性的特征表示并彌補(bǔ)RGB 圖像相對(duì)于紅外圖像所缺失的信息。此外,提出一種特征融合注意力模塊來(lái)有效融合細(xì)節(jié)特征和高層語(yǔ)義特征,得到具有更準(zhǔn)確語(yǔ)義信息的優(yōu)化特征圖。基于以上模塊,構(gòu)建增強(qiáng)細(xì)節(jié)的RGB-IR 多通道特征融合語(yǔ)義分割網(wǎng)絡(luò)MFFNet,通過(guò)融合RGB 圖像和紅外圖像,解決現(xiàn)有方法地物邊緣分割不準(zhǔn)確、小地物分割效果差的問(wèn)題,同時(shí)提升光照不足、惡劣天氣條件情況下的分割效果。
為了解決上文提到的遙感圖像語(yǔ)義分割存在的難題,并提高模型的分割性能,需要提取更多的圖像細(xì)節(jié)特征,以便后續(xù)融合到高層語(yǔ)義特征中來(lái)進(jìn)一步豐富細(xì)節(jié)信息。此外,需要將抽取到的RGB 和紅外圖像的細(xì)節(jié)特征進(jìn)行深層次融合,生成更具分辨性的特征表示,彌補(bǔ)RGB 圖像相對(duì)于紅外圖像所缺失的信息,提高模型的特征表達(dá)能力,進(jìn)而提升模型的分割性能。本文提出由注意力模塊構(gòu)成的細(xì)節(jié)特征抽取模塊,如圖1 所示。
圖1 細(xì)節(jié)特征抽取模塊Fig.1 Detail feature extraction module
細(xì)節(jié)特征抽取模塊首先對(duì)某一階段的特征圖X(X是從RGB 或紅外圖像中提取到的特征圖)分別進(jìn)行全局平均池化操作和全局最大池化操作,然后對(duì)得到的結(jié)果進(jìn)行拼接操作,再進(jìn)行Alpha 線性變換得到Alpha 特征,之后通過(guò)一個(gè)Sigmoid 激活函數(shù)來(lái)得到注意力權(quán)重以加強(qiáng)對(duì)重要特征區(qū)域的注意力,最后和特征圖X相乘得到優(yōu)化后的特征圖Y。由于細(xì)節(jié)特征抽取模塊是接在低層卷積層后的,因此Y包含了非常豐富的細(xì)節(jié)信息,并且一些重要的細(xì)節(jié)特征也是被加強(qiáng)的,此計(jì)算過(guò)程和文獻(xiàn)[11]中的空間注意力相似,計(jì)算公式如下:
其中:X為輸入特征圖;Wα是可學(xué)習(xí)的權(quán)重矩陣,通過(guò)空間域的7×7 卷積實(shí)現(xiàn);AvgPool 和MaxPool 分別為全局平均池化操作和全局最大池化操作。
分別對(duì)同一階段RGB 和紅外圖像中提取到的特征圖Xrgb、Xir進(jìn)行上述計(jì)算得到Y(jié)rgb、Yir,然后再對(duì)這兩個(gè)優(yōu)化后的細(xì)節(jié)特征圖采用拼接操作進(jìn)行融合,再通過(guò)通道注意力來(lái)自適應(yīng)地為通道重新分配不同的權(quán)重,以?xún)?yōu)化融合后的細(xì)節(jié)特征圖,最終得到融合細(xì)節(jié)特征圖Z。此過(guò)程的計(jì)算公式如下:
其中:σ為Sigmoid 激活函數(shù)為2D 卷積操作,卷積核大小為1×1,通道數(shù)從c減為為2D 卷積操作,卷積核大小為1×1,通道數(shù)從c/r增加到c,r為減少率;AvgPool 和MaxPool 分別為全局平均池化操作和全局最大池化操作。
至此,已經(jīng)從RGB 圖像和紅外圖像中抽取到了細(xì)節(jié)特征信息,并且得到了融合后的細(xì)節(jié)特征圖。然后需要把這些融合后的細(xì)節(jié)特征圖整合到高級(jí)語(yǔ)義特征中來(lái)增加豐富細(xì)節(jié)信息,以?xún)?yōu)化網(wǎng)絡(luò)的特征表達(dá)能力,從而提高模型的靈敏度。
本文提出的特征融合注意力模塊不像其他網(wǎng)絡(luò)那樣簡(jiǎn)單地將低層細(xì)節(jié)特征和高層語(yǔ)義特征進(jìn)行相加或者拼接,這樣做會(huì)把干擾或者無(wú)關(guān)信息同時(shí)也融合到高層語(yǔ)義特征中,并且不能很好地融合高低層特征。本文把通過(guò)細(xì)節(jié)特征抽取模塊得到的RGB和紅外圖像融合后的細(xì)節(jié)特征通過(guò)特征融合注意力模塊來(lái)融合進(jìn)高層語(yǔ)義特征,從而在和高層語(yǔ)義特征進(jìn)行融合時(shí)抑制干擾或者避免無(wú)關(guān)細(xì)節(jié)信息的影響,突出重要關(guān)鍵細(xì)節(jié)特征。此外,本文在特征融合注意力模塊中嵌入通道注意力模塊,產(chǎn)生更具分辨性的特征表示,以提高網(wǎng)絡(luò)的靈敏度。
特征融合注意力模塊如圖2 所示。融合高低層特征的操作一般有拼接操作和相加操作。首先采用拼接操作來(lái)結(jié)合高低層特征,并通過(guò)一個(gè)卷積核大小為1×1 的卷積層來(lái)減少通道數(shù),提高模型的推理速度,然后經(jīng)過(guò)一個(gè)卷積核大小為3×3 的卷積層,最后通過(guò)一個(gè)通道注意力機(jī)制生成新的特征圖Xfuse。
圖2 特征融合注意力模塊Fig.2 Feature fusion attention module
特征融合注意力模塊的計(jì)算公式如下:
其中:X為輸入特征圖;σ為Sigmoid 激活函數(shù)為2D 卷積操作,卷積核大小為1×1,通道數(shù)從c減為為2D 卷積操作,卷積核大小為1×1,通道數(shù)從c/r增加到c,r為減少率;AvgPool 和MaxPool 分別為全局平均池化操作和全局最大池化操作;X1為細(xì)節(jié)分支生成的低層細(xì)節(jié)特征圖;X2為高層特征圖;f3×3為2D 卷積操作,卷積核大小為3×3,此卷積操作后跟隨有BatchNorm 操作和ReLu 操作。
特征融合注意力模塊融合細(xì)節(jié)特征抽取模塊得到的RGB 和紅外圖像融合后的細(xì)節(jié)特征和高層語(yǔ)義特征,在每一次上采樣階段前都采用特征融合注意力模塊進(jìn)行特征融合來(lái)豐富細(xì)節(jié)信息和上下文信息,保證像素語(yǔ)義分類(lèi)準(zhǔn)確,同時(shí)優(yōu)化小地物的分割效果,進(jìn)一步提高模型的分割準(zhǔn)確率,使網(wǎng)絡(luò)模型更好地定位到邊界。
本文基于細(xì)節(jié)特征抽取模塊和特征融合注意力模塊,提出一種增強(qiáng)細(xì)節(jié)的RGB-IR 多通道特征融合語(yǔ)義分割網(wǎng)絡(luò)MFFNet,如圖3 所示。
圖3 MFFNet 網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Network structure of MFFNet
MFFNet 包括細(xì)節(jié)分支和語(yǔ)義分支這兩個(gè)分支。細(xì)節(jié)分支通過(guò)細(xì)節(jié)特征抽取模塊從RGB 圖像和紅外圖像中抽取到細(xì)節(jié)特征信息,并且得到融合后的細(xì)節(jié)特征。語(yǔ)義分支使用輕量級(jí)的殘差網(wǎng)絡(luò)ResNet18 作為主干網(wǎng)絡(luò),從而進(jìn)行快速下采樣以提取高層語(yǔ)義特征。得益于BiSeNet[26]的啟發(fā),本文在語(yǔ)義分支中還利用了一個(gè)注意力優(yōu)化模塊來(lái)優(yōu)化輸出特征,注意力優(yōu)化模塊結(jié)構(gòu)如圖4 所示。最后,在MFFNet的上采樣階段把融合后的細(xì)節(jié)特征通過(guò)特征融合注意力模塊整合到高級(jí)語(yǔ)義特征中來(lái)增加豐富細(xì)節(jié)信息,以?xún)?yōu)化網(wǎng)絡(luò)的特征表達(dá)能力,從而提高模型的靈敏度。
圖4 注意力優(yōu)化模塊Fig.4 Attention optimization module
為了更好地指導(dǎo)模型訓(xùn)練進(jìn)而提高地物邊界的分割效果以及模型整體的分割性能,受文獻(xiàn)[27]的啟發(fā),本文在遙感圖像語(yǔ)義分割常用的交叉熵?fù)p失函數(shù)基礎(chǔ)上加權(quán)邊界損失[27]和Jaccard 損失。在損失函數(shù)中,加權(quán)邊界損失可以指導(dǎo)模型訓(xùn)練進(jìn)一步生成更好的地物邊界分割效果。通過(guò)在損失函數(shù)中加權(quán)Jaccard 損失直接指導(dǎo)模型訓(xùn)練,能夠有效提高模型整體的分割性能。
交叉熵?fù)p失函數(shù)是目前流行的語(yǔ)義分割任務(wù)中使用的損失函數(shù),用于指導(dǎo)模型進(jìn)行訓(xùn)練。交叉熵?fù)p失函數(shù)Eloss的定義如下:
其中:N是小批量樣本的數(shù)量是樣本n分類(lèi)為c類(lèi)別的softmax 概率;是以one-hot 編碼時(shí)相應(yīng)樣本類(lèi)別的標(biāo)簽;C是所有類(lèi)別數(shù)。
交叉熵?fù)p失函數(shù)通過(guò)對(duì)所有像素的求和計(jì)算得出,不能很好地反映不平衡類(lèi)。中位數(shù)頻率平衡加權(quán)交叉熵?fù)p失函數(shù)考慮到了不平衡類(lèi)問(wèn)題,通過(guò)在訓(xùn)練集中統(tǒng)計(jì)類(lèi)別的中位數(shù)頻率和實(shí)際類(lèi)別頻率的比率來(lái)進(jìn)行加權(quán)損失。中位數(shù)頻率平衡加權(quán)交叉熵?fù)p失函數(shù)的定義如下:
其中:wc是類(lèi)別c的權(quán)重;fc是類(lèi)別c的像素的頻率;median(fc|c∈C)是所有fc的中位數(shù)。
邊界損失函數(shù)建立在邊界度量邊界F1得分的基礎(chǔ)上,因此,應(yīng)先定義邊界準(zhǔn)確率和邊界召回率。邊界準(zhǔn)確率P和邊界召回率R分別定義如下:
其中:Bp表示預(yù)測(cè)邊界;Bg表示真實(shí)標(biāo)簽邊界;θ是預(yù)定義的閾值,實(shí)驗(yàn)時(shí)默認(rèn)取3;[[·]]表示邏輯表達(dá)式的指示函數(shù)。
邊界度量邊界F1得分和邊界損失函數(shù)Bloss定義如下:
Jaccard 損失函數(shù)Jloss定義如下:
其中:yp和yg分別表示預(yù)測(cè)標(biāo)簽和真實(shí)標(biāo)簽。
總的損失函數(shù)Lloss定義如下:
其中:a、b和c分別是中位數(shù)頻率平衡加權(quán)交叉熵?fù)p失、邊界損失和Jaccard 損失相應(yīng)的權(quán)重系數(shù)。
實(shí)驗(yàn)使用的測(cè)試基準(zhǔn)數(shù)據(jù)集是由國(guó)際攝影測(cè)量與遙感協(xié)會(huì)(ISPRS)組織發(fā)布的Postdam 數(shù)據(jù)集。攝影測(cè)量學(xué)的研究方向之一是從機(jī)載傳感器獲取的數(shù)據(jù)中自動(dòng)提取城市物體。這項(xiàng)任務(wù)的挑戰(zhàn)性在于,在高分辨率的圖像數(shù)據(jù)中,諸如建筑物、道路、樹(shù)木和汽車(chē)之類(lèi)的地面物體,同類(lèi)對(duì)象有著非常不同的外觀,這導(dǎo)致了較大的組內(nèi)差異,而組間差異卻很小。Postdam 數(shù)據(jù)集包括6 種地面物體:不透水地面(例如道路),建筑物,低矮植被、樹(shù)木,汽車(chē),雜物。Potsdam 數(shù)據(jù)集包含38 張高分辨率的RGB 和IR 遙感圖像,圖像分辨率大小均為6 000×6 000 像素。圖5 所示為Postdam 數(shù)據(jù)集的部分示例圖。
圖5 Postdam 數(shù)據(jù)集的部分示例圖Fig.5 Part of sample images in Postdam data set
平均交并比(Mean Intersection over Union,MIoU)是語(yǔ)義分割的標(biāo)準(zhǔn)評(píng)價(jià)指標(biāo),整體準(zhǔn)確率、精確率、召回率和F1 分?jǐn)?shù)是遙感圖像語(yǔ)義分割最常用的評(píng)價(jià)指標(biāo)。本文使用平均交并比、整體準(zhǔn)確率、精確率、召回率和F1 分?jǐn)?shù)來(lái)度量本文提出的模型。平均交并比是對(duì)每一類(lèi)預(yù)測(cè)的結(jié)果和真實(shí)值的交集與并集的比值求和平均的結(jié)果,交并比(Intersection over Union,IoU)利用混淆矩陣得到,計(jì)算公式如下:
其中:TP代表真陽(yáng)性,表示某一給定類(lèi)別中被正確分類(lèi)的像素?cái)?shù);FP代表假陽(yáng)性,表示被錯(cuò)誤分類(lèi)到特定類(lèi)別的其他類(lèi)別的像素?cái)?shù);FN表示假陰性,表示一個(gè)給定類(lèi)別被錯(cuò)誤分類(lèi)為其他類(lèi)別的像素?cái)?shù)。
整體準(zhǔn)確率是正確標(biāo)記的像素總數(shù)除以像素總數(shù)。精確率PPrecision、召回率RRecall以及F1 分?jǐn)?shù)F1利用混淆矩陣得到,計(jì)算公式如下:
本文模型使用開(kāi)源庫(kù)PyTorch 1.7.1 和torchvision 0.8.2 實(shí)現(xiàn),實(shí)驗(yàn)使用NVIDIA 公司的GeForce RTX 090 GPU,24 GB 的內(nèi)存,CUDA 的版本是11.2。本文提出的模型是輕量級(jí)的,在訓(xùn)練時(shí)設(shè)置mini-batch大小為48,使用Adam 作為優(yōu)化算法應(yīng)對(duì)梯度下降問(wèn)題,學(xué)習(xí)率大小設(shè)置為5×10-4,權(quán)重衰減因子設(shè)置為2×10-4,學(xué)習(xí)率衰減因子設(shè)置為0.1,每訓(xùn)練120 個(gè)epoch 調(diào)整學(xué)習(xí)率,共訓(xùn)練200 個(gè)epoch。
為了驗(yàn)證本文提出的MFFNet 模型對(duì)RGB 遙感圖像和紅外遙感圖像融合的有效性,以及是否能夠提高小地物和邊界的分割效果,在公開(kāi)的Potsdam 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。Potsdam 數(shù)據(jù)集被廣泛用于評(píng)估遙感圖像語(yǔ)義分割模型的性能,包含38 張高分辨率的RGB 遙感圖像和相對(duì)應(yīng)紅外遙感圖像,每張圖像分辨率大小為6 000×60 000 像素。本文將該數(shù)據(jù)集圖像分為20 張訓(xùn)練圖像、10 張驗(yàn)證圖像和8 張測(cè)試圖像,然后進(jìn)行數(shù)據(jù)預(yù)處理,通過(guò)裁剪20 張訓(xùn)練圖像,每張圖像都用滑動(dòng)窗口的方法進(jìn)行裁剪,步長(zhǎng)為滑動(dòng)窗口的大小,獲得225 張400×400 像素的圖像,共得到4 500 張訓(xùn)練圖像,然后再進(jìn)行數(shù)據(jù)增強(qiáng)操作(包括旋轉(zhuǎn)、模糊、添加噪聲等)擴(kuò)充一倍訓(xùn)練數(shù)據(jù)集,最后共得到9 000 張400×400 像素的訓(xùn)練圖像。使用同樣的滑動(dòng)窗口方法裁剪驗(yàn)證集圖像和測(cè)試集圖像,得到2 250 張400×400 像素的驗(yàn)證集圖像和1 800 張400×400 像素的測(cè)試集圖像,相對(duì)應(yīng)的紅外遙感圖像也以同樣的方式進(jìn)行裁剪。
本文使用平均交并比、整體準(zhǔn)確率、精確率、召回率和F1 分?jǐn)?shù)來(lái)評(píng)估MFFNet,實(shí)驗(yàn)結(jié)果如表1 所示,其中,加粗?jǐn)?shù)據(jù)表示最優(yōu)值,3c 表示網(wǎng)絡(luò)是三通道,輸入只有RGB 圖像,4c 是將RBG 和IR 通道疊加作為輸入,對(duì)比實(shí)驗(yàn)的網(wǎng)絡(luò)模型中RTFNet采用殘差網(wǎng)絡(luò)ResNet50作為主干網(wǎng)絡(luò),DeepLabv3+和PSPNet 采用殘差網(wǎng)絡(luò)ResNet101 作為主干網(wǎng)絡(luò)。對(duì)比表1 所有RGB-IR 四通道作為輸入的網(wǎng)絡(luò)模型實(shí)驗(yàn)結(jié)果可以看出,本文提出的MFFNet模型在上述的各個(gè)評(píng)價(jià)指標(biāo)上都是最優(yōu)的,對(duì)于語(yǔ)義分割的標(biāo)準(zhǔn)評(píng)價(jià)指標(biāo)平均交并比,MFFNet較對(duì)比模型中最優(yōu)的模型提升了2.72 個(gè)百分點(diǎn),在其他各個(gè)評(píng)價(jià)指標(biāo)上,MFFNet較對(duì)比模型中最優(yōu)的模型也都有很大的提升:整體準(zhǔn)確率提升1.14 個(gè)百分點(diǎn),精確率提升3.69 個(gè)百分點(diǎn),召回率提升0.04 個(gè)百分點(diǎn),F(xiàn)1 分?jǐn)?shù)提升2.04 個(gè)百分點(diǎn)。此外,對(duì)比表1 所有RGB-IR四通道作為輸入的網(wǎng)絡(luò)模型實(shí)驗(yàn)結(jié)果可以看出,本文提出的MFFNet 模型不僅僅是對(duì)于整體的分割效果是最好的,而且對(duì)于小物體類(lèi)別車(chē)的分割效果在每個(gè)評(píng)價(jià)指標(biāo)上也是最優(yōu)的,相對(duì)于對(duì)比實(shí)驗(yàn)中最優(yōu)的模型而言有非常大的提升:交并比提升7.3 個(gè)百分點(diǎn),精確率提升9.52 個(gè)百分點(diǎn),F(xiàn)1 分?jǐn)?shù)提升4.6 個(gè)百分點(diǎn)。
表1 Potsdam 數(shù)據(jù)集上不同模型的性能對(duì)比Table 1 Performance comparison of different models in Potsdam data set %
從表1 中還可以看到,在對(duì)比模型中,除PSPNet和UNet 外,其他模型直接把RGB 三通道(3c)圖像改為RGB-IR 四通道(4c)圖像作為網(wǎng)絡(luò)輸入,不僅不能改善反而還降低了網(wǎng)絡(luò)模型的分割效果,PSPNet 和UNet 直接把RGB 三通道(3c)圖像改為RGB-IR 四通道(4c)圖像作為網(wǎng)絡(luò)輸入,在整體分割性能上雖然有略微的一點(diǎn)提升,但對(duì)于小地物類(lèi)別車(chē)的分割效果卻受到大幅影響。
圖6 和圖7 為在Potsdam 數(shù)據(jù)集上的部分實(shí)驗(yàn)結(jié)果圖,從中可以清楚地看到,對(duì)比模型不能很好地分割小地物類(lèi)別車(chē),小地物的邊緣分割也是不準(zhǔn)確的,并且小區(qū)域的分割效果也很差。本文提出的MFFNet 模型對(duì)小地物的分割效果明顯優(yōu)于對(duì)比模型,小地物的分割效果很好,不存在邊緣分割不準(zhǔn)確的情況,并且對(duì)于小區(qū)域的分割效果要好很多。由此可以證明,本文模型不僅可使遙感圖像整體的分割效果有很大的提升,對(duì)于圖像中小地物的分割,效果的提升也是非常明顯的。
圖6 Potsdam 數(shù)據(jù)集上的實(shí)驗(yàn)的結(jié)果圖1Fig.6 Experimental result images 1 in Potsdam dataset
圖7 Potsdam 數(shù)據(jù)集上的實(shí)驗(yàn)的結(jié)果圖2Fig.7 Experimental result images 2 in Potsdam dataset
為了進(jìn)一步說(shuō)明本文提出的模型能夠有效地整合RGB 圖像和紅外圖像的信息,在Postdam 數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),將RGB 和RGB-IR 分別作為MFFNet網(wǎng)絡(luò)輸入。將RGB 作為網(wǎng)絡(luò)輸入時(shí),微調(diào)MFFNet網(wǎng)絡(luò),去掉IR 細(xì)節(jié)分支,整體分割性能對(duì)比如圖8 所示,小地物車(chē)類(lèi)別分割性能對(duì)比如圖9 所示,其中無(wú)填充的柱狀圖是RGB 圖像作為網(wǎng)絡(luò)輸入的實(shí)驗(yàn)結(jié)果,有填充的柱狀圖是RGB-IR 圖像作為網(wǎng)絡(luò)輸入的實(shí)驗(yàn)結(jié)果。在表2 中,3c 表示網(wǎng)絡(luò)是三通道輸入只有RGB 圖像,4c 是將RGB 和IR 通道疊加作為輸入。從表2 中數(shù)據(jù)的比較可以清楚地看出,本文提出的模型對(duì)紅外圖像融合具有有效性,對(duì)于整體的分割效果和小地物的分割性能均較優(yōu)。
圖8 RGB 和RGB-IR 分別作為MFFNet 網(wǎng)絡(luò)輸入的整體分割性能Fig.8 Overall segmentation performance when RGB and RGB-IR as input to the MFFNet network respectively
圖9 RGB 和RGB-IR 分別作為MFFNet 網(wǎng)絡(luò)輸入的車(chē)類(lèi)別分割性能Fig.9 Car category segmentation performance when RGB and RGB-IR as input to the MFFNet network respectively
表2 RGB 和RGB-IR 分別作為MFFNet 網(wǎng)絡(luò)輸入的具體性能對(duì)比Table 2 Spectific performance comparison when RGB and RGB-IR as input to the MFFNet network %
本文構(gòu)建增強(qiáng)細(xì)節(jié)的RGB-IR 多通道特征融合語(yǔ)義分割網(wǎng)絡(luò)MFFNet,以解決遙感圖像語(yǔ)義分割中存在的問(wèn)題。提出一種能夠有效融合RGB 圖像和紅外圖像的細(xì)節(jié)特征抽取模塊,從而獲取豐富的融合細(xì)節(jié)信息,并提出一種新的特征融合方法——特征融合注意力模塊,將細(xì)節(jié)特征抽取模塊提取到的融合細(xì)節(jié)特征充分融合進(jìn)高級(jí)語(yǔ)義特征中,以?xún)?yōu)化網(wǎng)絡(luò)的表達(dá)能力,提高模型的靈敏度。在Postdam 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明了該模型的有效性。下一步將結(jié)合神經(jīng)架構(gòu)搜索(Neural Architecture Search,NAS)技術(shù)優(yōu)化細(xì)節(jié)特征融合模塊的結(jié)構(gòu),加強(qiáng)RGB 圖像和紅外圖像細(xì)節(jié)特征信息的整合,提高模型的分割性能,同時(shí)降低模型的復(fù)雜度。