張銀勝,吉茹,童俊毅,楊宇龍,胡宇翔,單慧琳
1.無錫學(xué)院 電子信息工程學(xué)院,無錫 214105;
2.南京信息工程大學(xué) 電子與信息工程學(xué)院,南京 210044
遙感圖像和圖像處理技術(shù)廣泛應(yīng)用于城市規(guī)劃(Zhou 等,2011),變化檢測(cè)(Gerard 等,2010),植被檢測(cè)(Ahmed 等,2017),軍事偵察(王樹連,2005)等領(lǐng)域。隨著卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Networks)的發(fā)展,遙感圖像分割研究(Farabet等,2013;Mnih和Hinton,2010;Paisitkriangkrai 等,2015)進(jìn)展迅速。但是獲取的遙感圖像分辨率逐漸提高,導(dǎo)致了不同類別之間差異變小,相同類別之間差異變大的問題,即異物同譜和同物異譜現(xiàn)象嚴(yán)重。
目前高分辨率遙感圖像分割存在普通遙感圖像分割和雙模態(tài)遙感圖像分割等方法。在普通遙感圖像分割研究領(lǐng)域,Xu等(2018)將U-Net(Ronneberger 等,2015)中特征提取的主干網(wǎng)絡(luò)替換為ResNet(Residual Networks)(He 等,2016),并使用導(dǎo)向性濾波器來加強(qiáng)分割效果。Wu等(2018)使用了多尺度約束的損失函數(shù),加強(qiáng)了網(wǎng)絡(luò)上采樣階段對(duì)遙感圖像空間結(jié)構(gòu)的恢復(fù)。張小娟和汪西莉(2020)設(shè)計(jì)了一個(gè)采用完全殘差連接和多尺度特征融合的端到端遙感圖像分割模型,能夠提取豐富的上下文信息,同時(shí)使用疊加的ASPP(Atrous Spatial Pyramid Pooling)(Chen 等,2018)結(jié)構(gòu)應(yīng)對(duì)目標(biāo)尺度變化,提升分割性能。Sun和Li(2021)提出多尺度特征融合網(wǎng)絡(luò)MFFNet,使用三分支結(jié)構(gòu)提取圖像特征,并通過注意力機(jī)制進(jìn)行優(yōu)化,取得了較高的分割精度。Chen等(2021)提出多層次特征聚合網(wǎng)絡(luò)MFANet,在深度特征提取和上采樣特征融合兩方面進(jìn)行改進(jìn),對(duì)高分辨率特征圖進(jìn)行細(xì)化和恢復(fù)。
在雙模態(tài)高分辨率遙感圖像分割研究領(lǐng)域,遙感圖像的雙模態(tài)包括近紅外、紅綠IRRG(Infrared、Red、Green)圖像和數(shù)字表面模型DSM(Digital Surface Model)圖像,其中IRRG 圖像具有紋理、顏色、形狀等語(yǔ)義信息,語(yǔ)義信息一般指的是目標(biāo)區(qū)域像素和周圍區(qū)域像素之間的關(guān)聯(lián)性。DSM圖像具有高度等空間信息,空間信息是指圖像中分割出來的多個(gè)目標(biāo)之間的相互的空間位置或相對(duì)方向關(guān)系。Marcos等(2018)將IRRG圖像和DSM圖像簡(jiǎn)單結(jié)合作為輸入,產(chǎn)生冗余信息。Marmanis等(2016)設(shè)計(jì)雙分支網(wǎng)絡(luò)提取不同模態(tài)圖像的特征,并在中間層進(jìn)行特征融合,造成參數(shù)冗余。Audebert等(2018)采用兩個(gè)CNN 網(wǎng)絡(luò)對(duì)IRRG 圖像和DSM 圖像進(jìn)行處理,并通過元素相加的方式進(jìn)行模態(tài)特征融合。為了進(jìn)一步加強(qiáng)兩種模態(tài)之間的融合和上采樣恢復(fù),Yang等(2021)提出注意力融合網(wǎng)絡(luò)AFNet,利用FCN(Fully Convolutional Networks)(Shelhamer等,2017)提取多路徑特征,并利用通道注意力結(jié)構(gòu)和空間注意力結(jié)構(gòu)相互約束和引導(dǎo),融合多徑特征和多層次特征以逐步實(shí)現(xiàn)上采樣。Chen等(2021)提出一種高度感知多路徑并行網(wǎng)絡(luò)HA-MPPNet,在DSM圖像的監(jiān)督下學(xué)習(xí)高度特征來改進(jìn)上下文語(yǔ)義信息。孫漢淇等(2022)提出編碼器—解碼器結(jié)構(gòu)的網(wǎng)絡(luò)MMFNet融合雙模態(tài)特征,并使用密集連接的方式加強(qiáng)特征的傳播和復(fù)用。張文凱等(2022)提出MSFAFNet,利用高程信息強(qiáng)化光譜特征,結(jié)合非局部塊(Wang等,2018)和壓縮激勵(lì)塊(Hu 等,2020)的優(yōu)點(diǎn)實(shí)現(xiàn)遙感圖像分割。
由于單模態(tài)高分辨率遙感圖像僅利用可見光圖像進(jìn)行分割,無法充分獲取高分辨率遙感圖像特征。因此,為了高效學(xué)習(xí)高分辨率遙感圖像特征,本文采用雙模態(tài)結(jié)構(gòu)。但是現(xiàn)有雙模態(tài)分割方法沒有針對(duì)不同模態(tài)的圖像設(shè)計(jì)適合的特征提取網(wǎng)絡(luò),且存在融合特征不充分,上采樣恢復(fù)細(xì)節(jié)信息不足等問題,本文提出了一個(gè)基于雙模態(tài)高效特征學(xué)習(xí)DEFL(Dual-modal Efficient Feature Learning)的高分辨遙感圖像分割算法。主要包括:
(1)雙模態(tài)高效特征提取。在編碼模塊CM(Code Module)中提出了雙路徑結(jié)構(gòu)的IRRG 編碼器對(duì)IRRG 圖像的語(yǔ)義信息和細(xì)節(jié)信息進(jìn)行特征提??;提出了DSM 編碼器對(duì)DSM 圖像的空間信息進(jìn)行特征提取;并利用交互加強(qiáng)模塊IEM(Interactive Enhancement Module)融合多路徑特征,減少雙模態(tài)特征之間的差距。
(2)雙模態(tài)高效特征融合。在融合模塊中,提出了一個(gè)雙模態(tài)特征聚合模塊DFAB(Dual-modal Feature Aggregation Block),利用DSM 特征動(dòng)態(tài)的加強(qiáng)IRRG 特征,實(shí)現(xiàn)兩種模態(tài)的信息融合,有效避免噪聲對(duì)分割的影響;還提出了一個(gè)深層特征提取模塊DFEM(Deep Feature Extraction Module),對(duì)聚合后的遙感圖像特征進(jìn)行深層全局特征提取,獲得更多語(yǔ)義信息,提高圖像分割準(zhǔn)確率。
(3)雙模態(tài)高效上采樣特征恢復(fù)。在解碼模塊中提出了一個(gè)多層特征上采樣模塊MFUM(Multilayer Feature Upsampling Module),用高層特征對(duì)低級(jí)特征進(jìn)行校準(zhǔn),實(shí)現(xiàn)逐步上采樣特征融合,恢復(fù)更多的細(xì)節(jié)信息,實(shí)現(xiàn)遙感圖像的精準(zhǔn)分割。
本文提出的DEFLNet 的整體框架如圖1 所示,主要由編碼模塊、融合模塊和解碼模塊3 部分組成。其中編碼模塊包括IRRG 編碼器、DSM 編碼器和交互加強(qiáng)模塊,融合模塊包括雙模態(tài)特征聚合模塊和深層特征提取模塊,解碼模塊為多層特征上采樣模塊。
圖1 DEFLNet的整體框架Fig.1 The overall framework of DEFLNet
網(wǎng)絡(luò)將遙感圖像的IRRG圖像和DSM 圖像作為雙輸入,編碼模塊包括IRRG 編碼器和DSM 編碼器。其中IRRG 編碼器是雙分支結(jié)構(gòu),分別提取IRRG 圖像的語(yǔ)義信息和細(xì)節(jié)信息。同時(shí)該模塊采用多尺度融合策略,將IRRG 編碼器中提取的語(yǔ)義信息和細(xì)節(jié)信息、IRRG 編碼器提取的IRRG 特征和DSM 編碼器提取的DSM 特征在特征提取的不同階段進(jìn)行多次交互融合。融合模塊包括雙模態(tài)特征聚合模塊和深層特征提取模塊。其中雙模態(tài)特征聚合模塊利用DSM 特征動(dòng)態(tài)的加強(qiáng)IRRG 特征,有效的融合兩種模態(tài)信息。接著深層特征提取模塊從全局上提取融合后的遙感特征圖的深層信息,獲取更多語(yǔ)義信息。最后解碼模塊中的多層特征上采樣模塊利用高層信息對(duì)低層信息進(jìn)行加權(quán)操作,促進(jìn)高分辨率圖像的細(xì)節(jié)信息恢復(fù),通過高效特征學(xué)習(xí)獲得最終精準(zhǔn)的分割圖。
已有雙模態(tài)分割網(wǎng)絡(luò)采用相同的主干網(wǎng)絡(luò)對(duì)IRRG 圖像和DSM 圖像進(jìn)行特征提取,無法準(zhǔn)確高效的提取雙模態(tài)特征。編碼模塊如圖2所示,其內(nèi)部各模塊的詳細(xì)結(jié)構(gòu)如圖3 所示。編碼模塊由IRRG 編碼器和DSM 編碼器組成,分別對(duì)IRRG 圖像豐富的內(nèi)容信息和DSM 圖像豐富的空間信息進(jìn)行特征提取。其中IRRG 圖像的低層特征便于提取位置、邊緣等細(xì)節(jié)信息,但是語(yǔ)義信息較少;高層特征便于提取豐富的語(yǔ)義信息,但是細(xì)節(jié)信息比較粗略。因此,本文采用雙分支結(jié)構(gòu),分別提取IRRG 圖像的語(yǔ)義信息和細(xì)節(jié)信息,并在內(nèi)部通過IEM 將兩種信息進(jìn)行融合。分別獲取IRRG 圖像的語(yǔ)義信息、細(xì)節(jié)信息和DSM 圖像的空間信息的策略,可以加強(qiáng)網(wǎng)絡(luò)學(xué)習(xí)圖像不同特征的能力,進(jìn)而不斷建立不同特征之間的聯(lián)系,減少雙模態(tài)特征差異,達(dá)到高效融合。
圖2 編碼模塊結(jié)構(gòu)圖Fig.2 Code module structure diagram
圖3 各模塊詳細(xì)結(jié)構(gòu)Fig.3 Detailed structure of each module
IRRG 編碼器的目的是提取IRRG 圖像豐富的內(nèi)容信息,如外觀、顏色、紋理等。采用雙分支結(jié)構(gòu)同時(shí)獲取語(yǔ)義信息和細(xì)節(jié)信息,可以有效增強(qiáng)信息提取能力。左側(cè)的細(xì)節(jié)分支由卷積塊和多層殘差塊M-Res(Multi-Residual Block)組成。其中M-Res 將輸入特征圖Xin經(jīng)過最大池化層Pm、帶有BN和Sigmoid激活函數(shù)的1×1卷積C1σ獲取權(quán)重。然后對(duì)經(jīng)過帶有BN 和ReLU 激活函數(shù)的3×3 卷積C3δ之后的特征圖進(jìn)行加權(quán)。再經(jīng)過帶有BN 和ReLU 激活函數(shù)的1×1 卷積C1δ建立通道聯(lián)系。最后與3×3 卷積C3δ構(gòu)成殘差結(jié)構(gòu),在后續(xù)層中補(bǔ)充丟失的信息。
M-Res的過程可表示為
右側(cè)語(yǔ)義分支通過快速下采樣增大感受野,獲得IRRG 圖像豐富的語(yǔ)義信息。語(yǔ)義提取塊SEEB(Semantic Extraction Block)采用Pm和平均池化層Pa同時(shí)對(duì)特征圖進(jìn)行降維,然后經(jīng)過級(jí)聯(lián)Concat和C1δ建立跨通道信息聯(lián)系,最后經(jīng)過C3δ再次降維。該結(jié)構(gòu)達(dá)到了一個(gè)快速下采樣的效果,不斷擴(kuò)大感受野,同時(shí)通過卷積不斷對(duì)語(yǔ)義信息進(jìn)行提取。SEEB的過程可表示為
式中,Xse表示SEEB 模塊的輸入特征。在IRRG 編碼器的雙分支特征提取過程中加入IEM,它是一個(gè)雙輸入雙輸出的結(jié)構(gòu),利用注意力機(jī)制的思想實(shí)現(xiàn)兩種信息的特征交互學(xué)習(xí)。第一個(gè)特征圖Xie1通過全局平均池化層Pga保留顯著特征,然后經(jīng)過兩個(gè)1×1 卷積C1δ、C1σ實(shí)現(xiàn)跨通道信息整合、獲取各通道權(quán)重,對(duì)第二個(gè)特征圖Xie2進(jìn)行加權(quán)、求和,得到第一個(gè)輸出Xout2,同時(shí)第二個(gè)特征圖也對(duì)第一個(gè)特征圖進(jìn)行相同的操作得到第二個(gè)輸出Xout1。IEM的過程可表示為
DSM 編碼器的目的是提取DSM 圖像的空間信息,由卷積C1δ、C3δ和空間提取塊SPEB(Spatial Extraction Block)構(gòu)成的殘差結(jié)構(gòu)組成。SPEB 中的Pm和Pa并列提取特征并Concat,以關(guān)注重點(diǎn)特征學(xué)習(xí)。然后經(jīng)過兩個(gè)1×1卷積C1δ建立通道聯(lián)系,并利用殘差結(jié)構(gòu)逐步獲取更多空間信息。SPEB 的過程可表示為
式中,Xsp表示SPEB 模塊的輸入特征。在DSM 編碼器進(jìn)行空間信息提取的同時(shí)加入IEM 與IRRG 編碼器提取的內(nèi)容信息進(jìn)行交互,減小兩種模態(tài)特征之間的差異,避免雙模態(tài)特征聚合時(shí)產(chǎn)生噪聲對(duì)圖像分割造成影響。
2.2.1 雙模態(tài)特征聚合模塊
隨著遙感圖像的分辨率逐漸提高,IRRG 圖像所包含的內(nèi)容信息愈加豐富,DSM 圖像也包含豐富的空間信息,但是兩種模態(tài)特征之間存在差異。對(duì)此,提出一個(gè)新的雙模態(tài)特征聚合模塊DFAB如圖4 所示,進(jìn)一步融合編碼模塊輸出的DSM 特征和IRRG 特征,提高遙感圖像分割準(zhǔn)確率。DFAB利用兩種模態(tài)特征之間的映射關(guān)系,即利用DSM特征動(dòng)態(tài)的對(duì)IRRG 特征從全局上進(jìn)行特征重校準(zhǔn)。DFAB 有效的將DSM 特征融入到IRRG 通道中,同時(shí)避免冗余特征和過多噪聲對(duì)圖像分割產(chǎn)生影響,提高遙感圖像分割效率。
圖4 雙模態(tài)特征聚合模塊結(jié)構(gòu)圖Fig.4 Dual-modal feature aggregation Block structure diagram
編碼模塊輸出的DSM 特征Xa和IRRG 特征Xb經(jīng)過Concat級(jí)聯(lián),然后分別經(jīng)過1×1 卷積C1δ、空間全局平均池化層Psga和空間全局最大池化層Psgm得到一維特征圖T1=C1δ(Concat(Xa,Xb))、T2=C1δ(Psga(Xa,Xb)) 和T3=C1δ(Psgm(Xa,Xb))。接 著將T1經(jīng)過空洞率r為1、2、3 的并行空洞卷積i=1,2,3,得到具有不同感受野的一維特征圖T4=T5=和T6=然后對(duì)所有的一維特征圖進(jìn)行Concat級(jí)聯(lián),經(jīng)過C1σ建立通道之間的聯(lián)系并得到范圍固定在0—1 之間的特征權(quán)重s=C1σ(Concat(T1,T2,T3,T4,T5,最后利用權(quán)重對(duì)Xb進(jìn)行加權(quán),得到最后的雙模態(tài)聚合的特征圖Xc=s?Xb。
2.2.2 深層特征提取模塊
由于遙感圖像尺度差異較大,因此提取多尺度信息有利于遙感圖像的精準(zhǔn)分割。SENet經(jīng)過全局平均池化層對(duì)特征圖進(jìn)行壓縮。對(duì)像素級(jí)別的分割而言,SENet僅考慮通道信息,導(dǎo)致像素點(diǎn)之間的遠(yuǎn)程依賴較低,無法獲得全局之間的關(guān)系。因此本文引入了注意力機(jī)制的思想,提出一個(gè)新的深層特征提取模塊DFEM 如圖5 所示。該模塊從全局角度進(jìn)一步提取深層語(yǔ)義信息,同時(shí)過濾雙模態(tài)融合產(chǎn)生的冗余信息,進(jìn)一步提高遙感圖像分割準(zhǔn)確率。
圖5 深層特征提取模塊結(jié)構(gòu)圖Fig.5 Deep feature extraction module structure diagram
DFEM去除了SENet中的全局平均池化層,直接通過兩個(gè)3×3 卷積C3δ、C3σ獲取全局上下文之間的依賴性,對(duì)每個(gè)元素進(jìn)行加權(quán)操作,重新獲得具有全局信息的深層特征圖Xd=C3σ(C3δ(Xc))?Xc。
隨著對(duì)遙感圖像多層次的特征提取,圖像分辨率逐漸降低,丟失很多細(xì)節(jié)信息。圖像分割效果取決于上采樣對(duì)高分辨率圖像的信息恢復(fù)程度,因此為加強(qiáng)上采樣細(xì)節(jié)信息的恢復(fù),提出多層特征上采樣模塊MFUM 如圖6 所示。通過卷積、池化、反池化等操作對(duì)特征圖進(jìn)行兩次加權(quán)組合,使低層特征在上采樣過程中不斷獲得高層特征豐富的指導(dǎo)信息,充分恢復(fù)上采樣的細(xì)節(jié)信息,提高遙感圖像分割的準(zhǔn)確率。
圖6 多層特征上采樣模塊結(jié)構(gòu)圖Fig.6 Multilayer feature upsampling module structure diagram
該上采樣模塊有3個(gè)輸入,其中兩個(gè)輸入為編碼模塊中IRRG 編碼器的語(yǔ)義分支經(jīng)過第一個(gè)3×3卷積或IEM 加強(qiáng)之后輸出的相鄰特征;第3個(gè)輸入為DFEM 或上一個(gè)MFUM 輸出的特征,分別稱為低層特征、高層特征和最新特征。在MFUM 中,首先用最新特征對(duì)高層特征進(jìn)行加權(quán),得到新的特征,其次用新的特征對(duì)低層特征進(jìn)行加權(quán),實(shí)現(xiàn)上采樣。執(zhí)行4 次MFUM 后,經(jīng)過3×3 卷積輸出遙感分割結(jié)果圖。
虛線框表示對(duì)高層特征和低層特征均執(zhí)行3次具有BN 層和ReLU 激活函數(shù)的3×3 卷積操作,且保持通道數(shù)和尺寸大小不變,即前一個(gè)MFUM 的低層特征也可作為后一個(gè)MFUM 的高層特征。因此除了第一個(gè)上采樣模塊中對(duì)低層特征和高層特征進(jìn)行卷積操作,其余3個(gè)模塊均只對(duì)低層特征進(jìn)行卷積操作。高層特征卷積后的特征圖直接使用前一個(gè)模塊的低層特征卷積后的特征圖,在不影響上采樣效果的同時(shí)大幅度降低了參數(shù)量。
DEFLNet 的解碼部分重復(fù)使用了4 次MFUM,其運(yùn)算過程可表示為
式中,M(·)表 示MFUM的運(yùn)算過程,New0為DFEM 的輸出特征圖,Newi(i=1,2,3)為第i個(gè)MFUM 的輸出特征圖,均為最新特征;Bi為IRRG編碼器中語(yǔ)義分支輸出的第i個(gè)尺寸的特征圖,New4為精準(zhǔn)的分割結(jié)果圖。
本文使用隨機(jī)梯度下降法SGD(Stochastic Gradient Descent)對(duì)模型進(jìn)行訓(xùn)練,初始學(xué)習(xí)率設(shè)為0.01,動(dòng)量為0.9,權(quán)重衰減為0.0005,批量大小為16。實(shí)驗(yàn)環(huán)境見表1。
表1 實(shí)驗(yàn)環(huán)境Table 1 Experimental environment
為了驗(yàn)證提出的DEFLNet 對(duì)高分辨率遙感圖像的分割性能,本文在ISPRS Potsdam 和Vaihingen數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。Potsdam 數(shù)據(jù)集包含38幅高分辨率遙感圖像,Vaihingen 數(shù)據(jù)集包含33 幅高分辨率遙感圖像。每個(gè)數(shù)據(jù)集都分類為5個(gè)常見的土地覆蓋類型:不透明表面、建筑物、低矮植被、樹木和汽車。ISPRS Potsdam 和Vaihingen 數(shù)據(jù)集的樣例如圖7、8 所示,分別為正射影像、DSM 圖像和標(biāo)簽圖。
圖7 ISPRS Potsdam 數(shù)據(jù)集的樣例Fig.7 Examples of ISPRS Potsdam dataset
圖8 ISPRS Vaihingen數(shù)據(jù)集的樣例Fig.8 Examples of ISPRS Vaihingen dataset
Potsdam 數(shù)據(jù)集的尺寸達(dá)到6000×6000,本文選取24 幅用于訓(xùn)練,14 幅用于測(cè)試。Vaihingen 數(shù)據(jù)集的尺寸約為2500×2500,本文選取20 幅用于訓(xùn)練,13 幅用于測(cè)試。在訓(xùn)練網(wǎng)絡(luò)之前,將數(shù)據(jù)集對(duì)應(yīng)的IRRG 圖像、DSM 圖像和標(biāo)簽圖進(jìn)行數(shù)據(jù)增強(qiáng)并隨機(jī)裁剪為224×224大小。
為了驗(yàn)證DEFLNet 對(duì)遙感圖像分割的有效性,本文在Potsdam 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。首先,為了驗(yàn)證提出的各個(gè)模塊的性能,分別對(duì)主干網(wǎng)絡(luò)特征提取、雙模態(tài)融合方式、上采樣方式和深層特征提取方式進(jìn)行對(duì)比實(shí)驗(yàn)。其次,為了評(píng)估提出的各個(gè)模塊的重要性,還對(duì)其進(jìn)行消融實(shí)驗(yàn)。最后,將提出的DEFLNet 與其他已有的模型進(jìn)行對(duì)比實(shí)驗(yàn)。本文采用準(zhǔn)確率、精準(zhǔn)率、召回率、F1 指數(shù)和交并比IoU(Intersection over Union)作為模型的評(píng)價(jià)指標(biāo)來衡量遙感圖像分割效果。
3.2.1 主干網(wǎng)絡(luò)特征提取對(duì)比實(shí)驗(yàn)分析
為了驗(yàn)證DEFLNet 的編碼模塊對(duì)IRRG 圖像和DSM 圖像的特征提取效果,將其與MFFNet 的3 分支特征提取結(jié)構(gòu)和AFNet的多路徑特征結(jié)構(gòu)進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表2所示。
表2 主干網(wǎng)絡(luò)對(duì)比(Potsdam)Table 2 Comparison of backbone network(Potsdam)/%
由表2 可知,本文提出編碼模塊的準(zhǔn)確率為89.42%,比MFFNet 的特征提取模塊高2.8%,比AFNet 的特征提取模塊高0.98%。實(shí)驗(yàn)結(jié)果表明,本文提出的編碼模塊具有高效的特征提取能力和很好的分割性能。
3.2.2 雙模態(tài)融合方式對(duì)比實(shí)驗(yàn)分析
為了驗(yàn)證提出的DFAB的融合效果,本文將其與其他融合方式進(jìn)行實(shí)驗(yàn)對(duì)比。以本文提出的編碼模塊為基礎(chǔ),融合方式分別采用Fusenet(Hazirbas等,2016)中將編碼過程的兩種模態(tài)進(jìn)行元素相加融合的Add操作;V-Fusenet在Fusenet的基礎(chǔ)上添加了虛擬路徑VP(Virtual Path)的操作;將兩種模態(tài)特征進(jìn)行級(jí)聯(lián)融合的Concat 操作;本文提出的DFAB 操作。4 種不同融合方式的實(shí)驗(yàn)結(jié)果如表3所示。
表3 雙模態(tài)融合方式對(duì)比(Potsdam)Table 3 Comparison of dual-modal fusion methods(Potsdam)/%
由表3 可知,本文提出的DFAB 的準(zhǔn)確率、精確率、召回率、F1 指數(shù)和IoU 等評(píng)價(jià)指標(biāo)都優(yōu)于其他融合網(wǎng)絡(luò)。這表明DFAB具有高效的特征融合能力,可以有效提升分割準(zhǔn)確性。
3.2.3 上采樣方式對(duì)比實(shí)驗(yàn)分析
已有的分割網(wǎng)絡(luò)主要通過下采樣操作對(duì)多尺度、多層次的圖像進(jìn)行特征提取,但該方法容易丟失較多高分辨率圖像的細(xì)節(jié)信息,因此后續(xù)信息恢復(fù)效果將直接影響遙感圖像的分割效果。本文利用MFUM 對(duì)圖像特征進(jìn)行上采樣操作,與已有的上采樣方式反池化(unpool)、Unet 中的雙線性插值操作和全局注意力上采樣GAU(Global Attention Upsample)(Li等,2018)進(jìn)行實(shí)驗(yàn)對(duì)比,4種不同上采樣方式的實(shí)驗(yàn)結(jié)果如表4所示。
表4 上采樣方式對(duì)比(Potsdam)Table 4 Comparison of Upsampling Methods (Potsdam)/%
由表4可知,本文提出的MFUM 的各項(xiàng)指標(biāo)均優(yōu)于其他上采樣模塊。在相同的雙模態(tài)融合方式下,與unpool 上采樣、Unet 上采樣和GAU 上采樣相比,MFUM 的準(zhǔn)確率分別提升了1.79%,1.07%和0.1%;精確率分別提升了1.04%,0.15% 和0.68%;召回率分別提升了2.78%,1.2%和0.23%;F1 指數(shù)分別提升了2.28%,1.14%和0.17%;IoU分別提升了3.6%,3.15%和1.63%。實(shí)驗(yàn)結(jié)果表明MFUM 具有高效的上采樣細(xì)節(jié)信息恢復(fù)能力,可以實(shí)現(xiàn)精準(zhǔn)分割。
3.2.4 深層特征提取方式對(duì)比實(shí)驗(yàn)分析
隨著遙感圖像分辨率逐漸降低,感受野逐漸變大,特征圖從細(xì)節(jié)信息逐漸往語(yǔ)義信息轉(zhuǎn)變。語(yǔ)義信息可以強(qiáng)化網(wǎng)絡(luò)對(duì)各分割類別的理解,因此有效提取圖像的深層特征有利于進(jìn)一步改善遙感圖像分割效果。本文在融合模塊中增加DFEM,同時(shí)構(gòu)建了DEFLNet,與添加SE 通道注意力進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表5所示。
表5 深層特征提取方式對(duì)比(Potsdam)Table 5 Comparison of deep feature extraction methods(Potsdam)/%
由表5 可知,與SE 相比,本文提出的DFEM分割效果更好,準(zhǔn)確率提升了0.76%,精確率提升了0.46%,召回率提升了0.76%,F(xiàn)1 指數(shù)提升了0.76%,IoU提升了0.32%。
3.2.5 模塊消融實(shí)驗(yàn)
為了評(píng)估提出的各個(gè)模型的重要性,本節(jié)將逐步分解DEFLNet 以揭示每個(gè)模塊的效果。消融實(shí)驗(yàn)中基準(zhǔn)網(wǎng)絡(luò)(Baseline)的主干網(wǎng)絡(luò)采用本文提出的CM 去除IEM 后的結(jié)構(gòu),融合多路徑特征和聚合雙模態(tài)特征均采用元素相加的方式,上采樣采用unpool的操作。
由表6可知,融合多路徑特征時(shí),使用IEM 替換基準(zhǔn)網(wǎng)絡(luò)中元素相加的方式,使得遙感圖像分割的各項(xiàng)指標(biāo)均最高。與基準(zhǔn)網(wǎng)絡(luò)相比,準(zhǔn)確率提升了1.28%,精確率提升了1.19%,召回率提升了1.19%,F(xiàn)1 指數(shù)提升了0.87%,交并比提升了0.88%。因此,IEM 是DEFLNet 中提升性能最重要的模塊,MFUM次之。
表6 各個(gè)模塊的消融實(shí)驗(yàn)(Potsdam)Table 6 Ablation Experiments of Each Module(Potsdam)/%
3.2.6 DEFLNet與其他模型對(duì)比實(shí)驗(yàn)分析
為了證明本文提出的DEFLNet的分割性能,將其與已有先進(jìn)遙感圖像分割網(wǎng)絡(luò)MFFNet、MFANet,已有先進(jìn)的雙模態(tài)遙感圖像分割網(wǎng)絡(luò)HA-MPPNet、AFNet、MMFNet 和MSFAFNet 進(jìn)行對(duì)比。各類別的F1指數(shù)和總體精確率的實(shí)驗(yàn)結(jié)果如表7所示。
表7 DEFLNet與其他模型對(duì)比(Potsdam)Table 7 Comparison of DEFLNet with other models(Potsdam)/%
由表7可知,本文的DEFLNet比已有的遙感圖像分割網(wǎng)絡(luò)擁有更好的分割性能。DEFLNet 在不透明表面、建筑物、低矮植被、樹木和汽車等類別達(dá)到了最好的分割性能,各類別的F1 指數(shù)均最高,分割精度高達(dá)94.52%。與AFNet 相比,各類別的F1 指數(shù)分別提升了0.02%,0.26%,1.22%,0.48%和0.06%,總體精確率提升了2.07%。
同時(shí),本文在Vaihingen 數(shù)據(jù)集上進(jìn)行了相同的對(duì)比實(shí)驗(yàn),結(jié)果如表8所示。
表8 DEFLNet與其他模型對(duì)比(Vaihingen)Table 8 Comparison of DEFLNet with other models(Vaihingen)/%
為了進(jìn)一步驗(yàn)證所提出的DEFLNet 分割的優(yōu)越性,將該模型與MMFNet、MSFAFNet、HAMPPNet 和AFNet 在Potsdam 和Vaihingen 數(shù)據(jù)集進(jìn)行了泛化對(duì)比實(shí)驗(yàn)。圖9、圖10 和圖11 對(duì)Potsdam數(shù)據(jù)集中不同類別的特征分別進(jìn)行分析,主要分為光譜特征非常相似的低矮植被和樹木、光譜特征非常相似的道路和建筑物、較小且易被遮擋的汽車。圖12是Vaihingen數(shù)據(jù)集分割結(jié)果對(duì)比。
圖9 Potsdam中低矮植被和樹木分割圖Fig.9 Segmentation of low vegetation and trees in Potsdam
圖10 Potsdam中建筑物和道路分割圖Fig.10 Segmentation of buildings and roads in Potsdam
圖11 Potsdam中汽車分割圖Fig.11 Segmentation of cars in Potsdam
圖12 Vaihingen分割圖Fig.12 Segmentation in Vaihingen
圖9表示分割網(wǎng)絡(luò)對(duì)低矮植被和樹木的分割結(jié)果,低矮植被和樹木具有非常相似的光譜特征,分割難度較大。以第一組圖片為例,圖中樹木較少且分布較分散。MMFNet 的右上方區(qū)域存在大量將樹木分割為低矮植被的情況,且右下方區(qū)域存在嚴(yán)重的粗略分割的情況;MSFAFNet 右上方區(qū)域錯(cuò)誤分割較少,但是在左中的交界區(qū)域仍存在大量粗略分割,錯(cuò)將低矮植被分割為樹木;HA-MPPNet和AFNet在錯(cuò)誤分割方面有所改善,但是右下方區(qū)域邊緣分割仍然不夠清晰;DEFLNet 的分割效果最佳,分割錯(cuò)誤的區(qū)域最少,左中區(qū)域的小樹木與標(biāo)簽圖最符合,且右下方區(qū)域的邊緣分割最清晰。
圖10 表示分割網(wǎng)絡(luò)對(duì)建筑物和背景(道路)的分割結(jié)果,建筑物和道路具有非常相似的光譜特征,分割難度較大。以第一組圖片為例,圖中建筑物和道路斜對(duì)角分布,道路區(qū)域較多。MMFNet右邊區(qū)域和左中區(qū)域存在多處將道路分割為建筑物的情況;MSFAFNet 右中區(qū)域存在較多將建筑物分割為道路的情況,且分割邊緣模糊;HA-MPPNet右中區(qū)域分割錯(cuò)誤區(qū)域較少,但是右下區(qū)域存在小部分將建筑物分割為道路的情況;AFNet分割錯(cuò)誤區(qū)域有所改善,但是邊緣分割較粗糙;DEFLNet中建筑物和道路分割最精準(zhǔn),且兩者的邊緣分割最清晰。
圖11 表示分割網(wǎng)絡(luò)對(duì)汽車的分割結(jié)果,汽車尺寸較小且容易被遮擋,實(shí)現(xiàn)精準(zhǔn)分割難度較大。第一組圖片中汽車被大量遮擋,MMFNet 和HAMPPNet 的右上方區(qū)域均存在將汽車檢測(cè)為樹木的情況;MSFAFNet和AFNet對(duì)汽車的分割效果較好,但是MSFAFNet中下方區(qū)域邊緣分割模糊,AFNet中下區(qū)域分割錯(cuò)誤較多;DEFLNet 對(duì)汽車的分割效果最佳,中下方區(qū)域汽車的錯(cuò)誤分割的部分最少。
圖12 表示分割網(wǎng)絡(luò)對(duì)Vaihingen 數(shù)據(jù)集的分割結(jié)果,第一組以樹木和低矮植被為主,對(duì)左邊區(qū)域較少的樹木進(jìn)行分割時(shí),其余4個(gè)網(wǎng)絡(luò)均沒有檢測(cè)出樹木,DEFLNet 識(shí)別出部分樹木,分割最精準(zhǔn)。第二組以汽車為主,對(duì)特征不明顯的汽車進(jìn)行分割時(shí),MMFNet 和MSFAFNet 將其錯(cuò)誤分割為道路,HA-MPPNet 和AFNet 能識(shí)別汽車,但是邊緣分割模糊,DEFLNet 能夠完整分割出汽車,準(zhǔn)確度最高且邊緣清晰度有所改善。第三組以建筑物為主,本文模型分割建筑物邊緣最清晰,與標(biāo)簽圖最符合。第四組以不透明表面為主,其余4個(gè)網(wǎng)絡(luò)均存在將不透明表面分割為低矮植被的情況,而DEFLNet的分割效果最好。
針對(duì)已有雙模態(tài)網(wǎng)絡(luò)在遙感圖像分割上存在特征提取不充分、特征融合不合理、上采樣特征恢復(fù)不足等問題,本文提出了一個(gè)基于雙模態(tài)網(wǎng)絡(luò)的遙感圖像分割算法DEFLNet。首先,提出針對(duì)IRRG圖像和DSM 圖像特點(diǎn)的編碼模塊。該模塊分別提取IRRG 圖像的細(xì)節(jié)信息、語(yǔ)義信息和DSM圖像的空間信息,并在提取的過程中不斷交互融合。其次,提出雙模態(tài)特征聚合模塊動(dòng)態(tài)調(diào)整兩個(gè)模態(tài)特征之間的映射關(guān)系,有效融合兩種模態(tài)的信息。此外,提出深層特征提取模塊從全局角度通過注意力獲取深層語(yǔ)義信息,進(jìn)一步提高特征提取的充分性。最后,提出多層特征上采樣模塊對(duì)低分辨率圖像進(jìn)行多層特征融合。在上采樣過程中,高層特征為低層特征不斷提供指導(dǎo)信息,實(shí)現(xiàn)特征的有效恢復(fù)。本文在ISPRS Potsdam 和Vaihingen 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明與其他分割模型相比,DEFLNet 更適用于分割光譜特征非常相似的低矮植被和樹木、建筑物和道路。不僅如此,對(duì)汽車等小目標(biāo)也能實(shí)現(xiàn)精準(zhǔn)分割。
本文提出的DEFLNet達(dá)到顯著提升分割準(zhǔn)確度的效果,但是需要進(jìn)一步降低模型的復(fù)雜度,且準(zhǔn)確度仍有一定的提升空間。后續(xù)可以考慮融合兩種以上的模態(tài)特征,獲取更多特征信息,設(shè)計(jì)出更好的分割網(wǎng)絡(luò)以實(shí)現(xiàn)更加精準(zhǔn)的遙感圖像分割。