亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

特征融合注意力的遙感圖像目標(biāo)分割

2023-12-04 11:13:44李繼文徐杰杰劉光燦

計(jì)算機(jī)工程與設(shè)計(jì) 2023年11期

關(guān)鍵詞：語(yǔ)義特征融合

李繼文，徐杰杰，劉光燦

(南京信息工程大學(xué) 自動(dòng)化學(xué)院，江蘇南京 210044)

0 引言

與自然場(chǎng)景相比，遙感圖像的背景信息極為復(fù)雜，圖像中含有大量無(wú)用噪聲。在目標(biāo)的定位和識(shí)別上相比于自然場(chǎng)景有一定的挑戰(zhàn)性[1，2]。

隨著深度卷積神經(jīng)網(wǎng)絡(luò)的出現(xiàn)，基于深度學(xué)習(xí)的語(yǔ)義分割方法在遙感領(lǐng)域的研究也得到了發(fā)展[3]。例如全卷積神經(jīng)網(wǎng)絡(luò)FCN，場(chǎng)景解析網(wǎng)絡(luò)PSPNet[4]，金字塔池網(wǎng)絡(luò)DeeplabV3+[5]和條帶池化網(wǎng)絡(luò)SPNet[6]等都展現(xiàn)了優(yōu)異的性能。近年來(lái)，一些學(xué)者開(kāi)始將注意力機(jī)制應(yīng)用到圖像分割領(lǐng)域中。注意力機(jī)制主要作用于確定特征之間的相關(guān)性，是一種從大量信息中篩選高價(jià)值信息的手段。Woo等結(jié)合了空間和通道的注意力機(jī)制提出卷積注意力模塊CBAM[7]。Hu等構(gòu)建SENet來(lái)學(xué)習(xí)通道之間的相關(guān)性[8]。Sungha等利用場(chǎng)景中的內(nèi)在特征，提供了一個(gè)通用的注意力網(wǎng)絡(luò)HANet[9]。盡管語(yǔ)義分割技術(shù)在最近的幾年里取得了一定的成功，但是在特定的遙感圖像數(shù)據(jù)集上仍然存在局限性。部分遙感影像中包含道路、樹(shù)木、建筑物和汽車(chē)等類(lèi)別，這些物體通常具有大的尺寸差異。單一大小的感受野很難獲得具有足夠表征能力的物體特征，導(dǎo)致特征提取不全。其次，遙感圖像中背景復(fù)雜，外形特征相似度高，容易造成誤分類(lèi)現(xiàn)象?，F(xiàn)階段的網(wǎng)絡(luò)[10-12]只是將不同層之間的信息進(jìn)行簡(jiǎn)單的加和操作，沒(méi)有注意到類(lèi)間的特征相關(guān)性，無(wú)法很好解決這些問(wèn)題。

為了解決上述問(wèn)題，本文提出了特征融合注意力網(wǎng)絡(luò)FFANet，我們研究的主要工作如下：

(1)提出了一個(gè)多尺度特征表示模塊(multiscale feature representation，MFR)，該模塊將骨干網(wǎng)絡(luò)的輸出變化為多尺度信息作為輸入[13]，提取圖像不同尺度的特征，用于解決圖像中因目標(biāo)大尺度變化，難以提取特征的問(wèn)題。

(2)提出了一個(gè)特征融合注意力模塊(feature fusion attention，F(xiàn)FA)，利用深層特征為淺層特征提供指引[14]，有效將不同層級(jí)間的語(yǔ)義信息進(jìn)行融合，并且將深層語(yǔ)義信息作為淺層語(yǔ)義信息的指引，加強(qiáng)類(lèi)別之間的聯(lián)系，從而增強(qiáng)了空間細(xì)節(jié)信息和對(duì)目標(biāo)的識(shí)別能力。

(3)我們?cè)谏喜蓸舆^(guò)程中融合了一個(gè)特征細(xì)化模塊(feature refinement module，F(xiàn)RM)，這個(gè)模塊能夠細(xì)化高分辨率特征，提高圖像的分割精度。

(4)基于上述模塊，我們搭建了一個(gè)特征融合注意力網(wǎng)絡(luò)，如圖1所示。我們將該網(wǎng)絡(luò)在國(guó)際攝影測(cè)量與遙感學(xué)會(huì)(ISPRS)提供的Potsdam數(shù)據(jù)集和Vaihingen數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，并和其它分割方法作對(duì)比。

圖1 網(wǎng)絡(luò)結(jié)構(gòu)

1 特征融合注意力網(wǎng)絡(luò)

1.1 網(wǎng)絡(luò)總框架

遙感圖像目標(biāo)尺寸變化較大，常規(guī)的模型難以充分提取其中的類(lèi)別特征，同時(shí)隨著遙感圖像的分辨率不斷提高，目標(biāo)的細(xì)節(jié)和空間信息變得復(fù)雜，增加了分割難度。因此，如何有效提取圖像特征是提高遙感圖像分割精度的關(guān)鍵。

本文提出的特征融合注意力網(wǎng)絡(luò)主要分為4個(gè)部分，如圖1所示：A部分為基于殘差塊的主干網(wǎng)絡(luò)ResNet-50的改進(jìn)版本(詳細(xì)參數(shù)見(jiàn)表1)，殘差結(jié)構(gòu)的卷積網(wǎng)絡(luò)相比于普通的卷積網(wǎng)絡(luò)能夠提取圖像中更加復(fù)雜的特征[15]，同時(shí)有效防止隨著卷積層數(shù)加深而產(chǎn)生的梯度消失等問(wèn)題；B部分為多尺度特征表示模塊(MFR)；C部分為上采樣融合模塊(FFA)；D部分為特征細(xì)化模塊(FRM)。主干網(wǎng)絡(luò)包含四層殘差塊結(jié)構(gòu)，每一層殘差塊輸出不同語(yǔ)義信息的特征圖，底層網(wǎng)絡(luò)的感受野較小，相比于高層網(wǎng)絡(luò)對(duì)語(yǔ)義信息提取力較弱，我們嘗試將底層殘差塊的網(wǎng)絡(luò)結(jié)構(gòu)替換成3個(gè)3×3的卷積操作，以適當(dāng)增強(qiáng)底層網(wǎng)絡(luò)特征提取能力。而在高層輸出中，感受野較大，空間細(xì)節(jié)信息表征力弱，我們將第三和第四個(gè)殘差塊的卷積步長(zhǎng)降為1，使下采樣的分辨率維持在原圖的1/8，以減少像素流失。在網(wǎng)絡(luò)的解碼階段，為了恢復(fù)下采樣丟失的細(xì)節(jié)信息，我們令每層殘差塊輸出的特征矩陣都經(jīng)過(guò)多尺度特征表示模塊，從而獲得不同尺度的上下文信息，經(jīng)上采樣操作后連接到一起作為新的語(yǔ)義特征輸出。考慮到不同特征層之間特征的相關(guān)性，我們的網(wǎng)絡(luò)設(shè)置了3個(gè)特征融合注意力模塊，將殘差網(wǎng)絡(luò)每一層的輸出兩兩融合，以此類(lèi)推。為了進(jìn)一步細(xì)化融合后的語(yǔ)義特征，在特征細(xì)化模塊中使用殘差形式的網(wǎng)絡(luò)結(jié)構(gòu)減少了因上采樣放大導(dǎo)致的信息損失，達(dá)到優(yōu)化分割結(jié)果的目的。

表1 改進(jìn)ResNet-50的詳細(xì)參數(shù)設(shè)置

1.2 多尺度特征表示模塊

在自然圖像的語(yǔ)義分割中，多尺度上下文信息的提取非常重要，這同樣適用于遙感圖像。正如上文所述，遙感圖像中目標(biāo)尺寸差異明顯，僅僅通過(guò)單一的尺度信息提取目標(biāo)特征沒(méi)有足夠的表征力。

為了緩解目標(biāo)大小的差異對(duì)主干網(wǎng)絡(luò)的特征提取的影響，我們構(gòu)建了多尺度特征表示模塊，并在模塊中引入了多個(gè)空洞卷積的分支[5]。與普通卷積相比，空洞卷積在相同大小特征圖下可以獲得更大感受野，同時(shí)不會(huì)引入過(guò)多的計(jì)算量。如圖2所示，當(dāng)空洞率rate=1時(shí)，為普通的3×3卷積操作，當(dāng)空洞率rate=2時(shí)，表示在每?jī)蓚€(gè)卷積核之間插入一個(gè)零值，相當(dāng)于5×5卷積操作。

圖2 不同空洞率的空洞卷積

圖3所示為該模塊內(nèi)部結(jié)構(gòu)，對(duì)于輸入特征圖E，經(jīng)過(guò)3部分融合運(yùn)算得到輸出特征圖E′。圖中第1部分是特征圖本身，第2部分為3個(gè)并行的卷積塊分支，每個(gè)分支由一個(gè)3×3的空洞卷積和一個(gè)1×1的卷積塊組成，相比于DeeplabV3+中ASPP模塊所使用的空洞卷積空洞率更小，分支更少，本文使用的遙感數(shù)據(jù)圖像大小為256×256，使用較大空洞率的空洞卷積無(wú)法對(duì)特征圖進(jìn)行有效的運(yùn)算。綜合考慮空洞率和分辨率大小的關(guān)系，空洞率分別設(shè)置為[1，3，5]能夠最大限度下改善感受野并提高分割精度。在空洞卷積后加入1×1卷積是為了降低通道數(shù)統(tǒng)一維度。第3部分為全局池化的分支，用于提取全局特征信息。

圖3 多尺度特征表示模塊

以ResNet-50作為網(wǎng)絡(luò)的主干網(wǎng)絡(luò)，它的每個(gè)殘差塊對(duì)應(yīng)不同結(jié)構(gòu)的特征圖輸出。在圖像分割任務(wù)中，殘差網(wǎng)絡(luò)的最后一層往往包含更豐富的語(yǔ)義信息，由于頻繁的采樣導(dǎo)致圖像像素流失，通常在深層網(wǎng)絡(luò)的輸出部分進(jìn)行多尺度特征融合。然而，考慮到淺層網(wǎng)絡(luò)對(duì)小目標(biāo)特征也有一定的提取力，于是在ResNet-50的4個(gè)殘差塊后都加入了MFR模塊，以充分捕獲網(wǎng)絡(luò)各個(gè)階段的多尺度特征和上下文細(xì)節(jié)信息。

1.3 特征融合注意力模塊

隨著神經(jīng)網(wǎng)絡(luò)深度的增加，網(wǎng)絡(luò)從輸入到輸出會(huì)經(jīng)過(guò)多個(gè)下采樣卷積層，從而初步擴(kuò)大感受野，得到高層語(yǔ)義特征。在這個(gè)過(guò)程中，靠近底層的特征圖分辨率雖然高但缺少語(yǔ)義信息，而靠近高層的特征圖雖然語(yǔ)義信息豐富但是分辨率低，空間細(xì)節(jié)信息少[16]。以往特征融合的工作主要分為3點(diǎn)：①融合高低特征層信息后進(jìn)行特征細(xì)化；②在融合高底層特征信息后只提取語(yǔ)義特征信息進(jìn)行加權(quán)；③先提取高層語(yǔ)義信息進(jìn)行加權(quán)，再融合高低特征信息。而我們的工作受SENet和CBAM的啟發(fā)，在特征融合的過(guò)程中引入注意機(jī)制，先加強(qiáng)底層特征的空間細(xì)節(jié)信息，再利用高層特征的豐富語(yǔ)義信息，以加權(quán)方式提高特征的類(lèi)別識(shí)別能力。

1.3.1 語(yǔ)義信息的增強(qiáng)

圖4所示的是SENet的一個(gè)基本單元塊，輸入特征圖A的大小為h′×w′×c′。Conv是一個(gè)標(biāo)準(zhǔn)的卷積操作，對(duì)原始的特征圖進(jìn)行降維后得到大小為h×w×c的特征矩陣A′。然后進(jìn)行壓縮和激勵(lì)兩步運(yùn)算。

圖4 SENet基本單元塊

壓縮部分是將特征圖A′進(jìn)行空間上的全局平均池化操作，獲得1×1×c的向量q，向量q代表通道上權(quán)重值，具體過(guò)程可由如下公式表示

(1)

式中：h和w分別代表特征圖的長(zhǎng)和寬，A′c(i，j) 表示特征圖A′對(duì)應(yīng)第c個(gè)通道上坐標(biāo)為 (i，j) 的特征值Fgp(A′c)，即是對(duì)這個(gè)通道維度上所有特征值的和取平均值。

激勵(lì)部分是通過(guò)兩個(gè)全連接層的變換來(lái)捕獲通道間的依賴(lài)性，其計(jì)算過(guò)程由以下公式表示

k=Ffc(q)=Sig(W2Re(W1q))

(2)

式中：W1和W2分別代表兩個(gè)全連接層的降維參數(shù)，Re(·) 代表ReLU激活運(yùn)算，Sig(·) 代表Sigmoid激活運(yùn)算。Ffc(q) 的計(jì)算將上文生成的向量q進(jìn)行了維度轉(zhuǎn)換。

將輸出k與特征圖A′對(duì)應(yīng)通道元素相乘得到最終輸出特征圖A″。

1.3.2 空間信息的增強(qiáng)

圖5展示的是空間注意力模塊，對(duì)于大小為h×w×c的特征圖B，通過(guò)通道維度上的全局平局池化和全局最大池化操作獲得兩個(gè)富含空間信息的特征矩陣v和u，大小為h×w×1。兩個(gè)特征矩陣拼接后，經(jīng)卷積運(yùn)算再與原特征圖B作乘積得到最終輸出特征圖B′。具體過(guò)程如下

圖5 空間注意力模塊

FAM(B′)=Concat(Apl(B)，Mpl(B))

(3)

式中：Concat(·) 指通道維度上的拼接，Apl(·) 指通道維度上的全局平均池化操作，Mpl(·) 指通道維度上的全局最大池化操作。

1.3.3 空間信息與語(yǔ)義信息的結(jié)合

本文提出的特征融合注意力模塊如圖6所示。在特征融合注意力模塊中，輸入的高層語(yǔ)義特征H經(jīng)過(guò)兩倍的上采樣得到和底層大小相同的特征H′，再與底層特征L拼接成新的特征，然后利用3×3的卷積對(duì)進(jìn)行降維得到融合特征圖U，該過(guò)程可由以下公式表示

圖6 特征融合注意力模塊

U=C3×3(Concat(L，UP(H)))

(4)

式中：UP(·) 表示雙線性插值上采樣，Concat(·) 指通道維度上的拼接，C3×3為3×3的卷積運(yùn)算。

融合后的特征圖U利用空間注意力模塊進(jìn)一步增強(qiáng)它的空間細(xì)節(jié)信息，具體過(guò)程如下

U′=U⊙C7×7(FAM(U))

(5)

FAM(H′)=Concat(Apl(U)，Mpl(U))

(6)

式中：⊙表示空間維度上對(duì)應(yīng)特征的乘積運(yùn)算，C7×7為7×7的卷積運(yùn)算，Concat(·) 指通道維度上的拼接，Apl(·) 指通道維度上的全局平均池化操作，Mpl(·) 指通道維度上的全局最大池化操作。

接著通過(guò)全局平均池化提取高層語(yǔ)義特征H′的實(shí)數(shù)向量作為低層語(yǔ)義特征的指引，它的通道數(shù)對(duì)應(yīng)U通道的權(quán)重分布，二者在通道維度上作乘積運(yùn)算增強(qiáng)了通道之間的相關(guān)性。具體公式如下

U″=U′?(Ffc(Fgp(H′)))

(7)

(8)

式中：?表示通道維度上對(duì)應(yīng)特征的乘積運(yùn)算，h和w分別代表特征圖的長(zhǎng)和寬，H′c(i，j) 表示特征圖H′對(duì)應(yīng)第c個(gè)通道上坐標(biāo)為 (i，j) 的特征值。

最后將兩個(gè)不同信息的特征圖逐像素對(duì)應(yīng)相加，獲得最終特征圖Y。具體公式如下

Y=U″⊕H′

(9)

式中：⊕表示在高層特征圖H′與底層特征圖U″按對(duì)應(yīng)像素作加和操作。

1.4 特征細(xì)化模塊

在遙感圖像上，復(fù)雜背景特征和不同尺寸的類(lèi)別差異性仍會(huì)導(dǎo)致目標(biāo)邊緣粗糙等問(wèn)題。為了提取更精確的特征信息，條件隨機(jī)場(chǎng)CRF是最常用的一種后處理方法，雖然這種方法應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò)，但是沒(méi)有進(jìn)行端到端的訓(xùn)練。在我們的模型中提出一種新的特征細(xì)化模塊(FRM)，可以作用于端到端的網(wǎng)絡(luò)訓(xùn)練[17]。該模塊是ResNet中殘差模塊的一種變體結(jié)構(gòu)，對(duì)前端網(wǎng)絡(luò)生成的粗糙結(jié)果作進(jìn)一步細(xì)化處理。

如圖7所示，特征細(xì)化模塊由1×1卷積層和殘差單元組成。1×1卷積層將輸出特征圖的通道數(shù)統(tǒng)一，殘差單元執(zhí)行特征自適應(yīng)和細(xì)化操作，殘差單元中3×3和5×5的卷積層相當(dāng)于進(jìn)行了兩次感受野不同的細(xì)化操作。我們將該模塊放在網(wǎng)絡(luò)輸出之前，將FFA模塊的輸出作為輸入特征X，最終的輸出結(jié)果為X′。在進(jìn)一步提取了特征信息的同時(shí)避免了特征圖因直接上采樣導(dǎo)致的像素流失。因此，我們認(rèn)為該模塊在一定程度上細(xì)化了輸出特征。

圖7 特征細(xì)化模塊

1.5 網(wǎng)絡(luò)訓(xùn)練與評(píng)價(jià)指標(biāo)

1.5.1 實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置

實(shí)驗(yàn)環(huán)境使用的深度學(xué)習(xí)框架為Pytorch1.7，開(kāi)發(fā)環(huán)境為Python3.6，通過(guò)一張顯存為11 G的GeForce RTX20800Ti GPU計(jì)算。

實(shí)驗(yàn)參數(shù)設(shè)置如下：輸入圖片大小為256×256，每次選取18張樣本圖像訓(xùn)練網(wǎng)絡(luò)，初始化學(xué)習(xí)率設(shè)置為0.01，優(yōu)化器采用SGD算法，動(dòng)量參數(shù)為0.9。網(wǎng)絡(luò)訓(xùn)練使用的損失函數(shù)為交叉熵?fù)p失函數(shù)，其中交叉熵?fù)p失函數(shù)定義為

(10)

式中：N表示圖像中像素的數(shù)量，M表示類(lèi)別數(shù)量，yij為符號(hào)函數(shù)，如果像素i對(duì)應(yīng)標(biāo)簽類(lèi)別等于類(lèi)別數(shù)j則取1，反之取0，pij代表像素i屬于類(lèi)別j的預(yù)測(cè)概率。

1.5.2 評(píng)價(jià)指標(biāo)

在語(yǔ)義分割的過(guò)程中，為評(píng)估分割方法的性能效果，我們使用了如下指標(biāo)：召回率(R)、準(zhǔn)確率(P)、F1分?jǐn)?shù)(F1)、總體精確度(OA)、交并比(IoU)和平均交并比(MIoU)

(11)

(12)

(13)

(14)

其中，真正例(TP)表示正確預(yù)測(cè)正例的像素?cái)?shù)，假正例(FP)表示錯(cuò)誤預(yù)測(cè)正例的像素?cái)?shù)，真反例(TN)表示正確預(yù)測(cè)反例的像素?cái)?shù)，假反例(FN)表示錯(cuò)誤預(yù)測(cè)反例的像素?cái)?shù)。

每一類(lèi)交并比(IoUi)和平均交并比(MIoU)定義如下

(15)

(16)

式中：k為預(yù)測(cè)類(lèi)別數(shù)，pij和pji分別對(duì)應(yīng)假反例和假正例，pij表示屬于類(lèi)別i的像素被預(yù)測(cè)成j的像素，pji表示屬于類(lèi)別j的像素被預(yù)測(cè)成i的像素，而pii表示屬于類(lèi)別i的像素被預(yù)測(cè)成i的像素。

2 實(shí)驗(yàn)結(jié)果與分析

實(shí)驗(yàn)包括多尺度融合注意力網(wǎng)絡(luò)模型在ISPRS的Potsdam數(shù)據(jù)集和Vaihingen數(shù)據(jù)集上的消融實(shí)驗(yàn)以及和現(xiàn)有模型的對(duì)比實(shí)驗(yàn)。

2.1 數(shù)據(jù)集介紹與處理

ISPRS提供了城市分類(lèi)和三維建筑重建測(cè)試的兩個(gè)最先進(jìn)的機(jī)載圖像數(shù)據(jù)集Postdam和Vaihingen。這兩個(gè)數(shù)據(jù)集都采用了高分辨率正交照片和相應(yīng)的圖像匹配技術(shù)產(chǎn)生的數(shù)字地表模型(DSM)，也都涵蓋了城市場(chǎng)景。Potsdam是一個(gè)典型的歷史城市，有著大的建筑群和狹窄的街道，而Vaihingen是一個(gè)相對(duì)較小的村莊，有許多獨(dú)立的建筑和小的多層建筑。每個(gè)數(shù)據(jù)集內(nèi)涵蓋有6個(gè)標(biāo)記類(lèi)別：路面、建筑物、低矮植被、樹(shù)木、汽車(chē)以及復(fù)雜的背景。

ISPRS的Vaihingen數(shù)據(jù)集包含3波段IRRG(紅外、紅色和綠色)圖像數(shù)據(jù)。頂層影像和DSM的空間分辨率為9 cm，有33幅大小不一的遙感圖像。由于Vaihingen數(shù)據(jù)相比于Potsdam數(shù)據(jù)的圖像較小，以相同的方式切割可能造成數(shù)據(jù)量不足。所以我們挑選其中的28張，按像素步長(zhǎng)90，裁剪為256×256的像素大小，得到10 248張訓(xùn)練樣本，再將剩余圖像按相同方式裁剪得到2261張測(cè)試樣本。

2.2 Potsdam數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果與分析

2.2.1 Potsdam數(shù)據(jù)集消融實(shí)驗(yàn)

為了驗(yàn)證多尺度融合注意力網(wǎng)絡(luò)框架結(jié)構(gòu)的有效性，我們?cè)赑otsdam數(shù)據(jù)集上對(duì)網(wǎng)絡(luò)的3個(gè)模塊：多尺度特征表示模塊(MFR)、特征融合注意力模塊(FFA)和特征細(xì)化模塊(FRM)依次進(jìn)行消融實(shí)驗(yàn)。本實(shí)驗(yàn)中，使用ResNet-50作為骨干網(wǎng)絡(luò)，所有的模型均使用相同配置環(huán)境和訓(xùn)練策略，由于在ImageNet上學(xué)習(xí)到的預(yù)訓(xùn)練參數(shù)對(duì)遙感圖像的提升較小，所以后面實(shí)驗(yàn)涉及到的模型不設(shè)預(yù)訓(xùn)練權(quán)重，具體實(shí)驗(yàn)結(jié)果見(jiàn)表2。

表2 FFANet在Potsdam數(shù)據(jù)集上的消融實(shí)驗(yàn)

實(shí)驗(yàn)結(jié)果表明，網(wǎng)絡(luò)中添加的多尺度特征表示模塊(MFR)、特征融合注意力模塊(FFA)和特征細(xì)化模塊(FRM)均有一定的效果，與最初的骨干網(wǎng)絡(luò)ResNet-50相比，F(xiàn)FANet的MIoU、OA和F1分別提升了2.6%、1.6%和1.7%，驗(yàn)證了該網(wǎng)絡(luò)能夠有效地提升分割精度。圖表中，各個(gè)類(lèi)別的IoU也有相應(yīng)的提升，但是樹(shù)木這一類(lèi)別的提升相對(duì)有限，這可能和該類(lèi)的幾何特征和顏色紋理有關(guān)。在遙感圖像中，樹(shù)木枝葉間參雜著草地、路面等其它特征，使網(wǎng)絡(luò)在學(xué)習(xí)的過(guò)程中受到了噪聲影響，從而導(dǎo)致特征識(shí)別困難。

2.2.2 Potsdam數(shù)據(jù)集對(duì)比實(shí)驗(yàn)

為了對(duì)網(wǎng)絡(luò)作更全面的評(píng)估，我們?cè)赑otsdam數(shù)據(jù)集上將模型與現(xiàn)有的幾個(gè)網(wǎng)絡(luò)作對(duì)比。如表3所示，在對(duì)比的網(wǎng)絡(luò)中，F(xiàn)CN-8的MIoU和OA指標(biāo)較低，由于它使用VGG16作為骨干網(wǎng)絡(luò)，相比于ResNet-50特征提取能力較弱。PSPNet使用了金字塔池化模塊提取上下文信息，DeeplabV3+使用了空洞卷積增大了感受野，在一定程度上都提升了分割的精度，但這些網(wǎng)絡(luò)在特征融合部分沒(méi)有考慮到淺層特征和深層特征之間的聯(lián)系，只是在通道維度上直接拼接，對(duì)復(fù)雜的遙感圖像背景特征提取力較差。SPNet對(duì)于道路和水流等條狀目標(biāo)的特征提取效果較好，在建筑物和汽車(chē)等遙感目標(biāo)分割上有所欠缺。我們提出的FFANet網(wǎng)絡(luò)融合注意力機(jī)制建立了不同特征層之間的聯(lián)系，同時(shí)MIoU和OA指標(biāo)均超過(guò)這些語(yǔ)義分割模型。FFANet的MIoU、OA和F1分別達(dá)到了74.4%、87.7%和84.9%。

表3 FFANet在Potsdam數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)

為了便于直觀比較模型的預(yù)測(cè)結(jié)果，圖8展示了不同模型下的可視化結(jié)果圖，圖中每一行表示一幅遙感圖像在各個(gè)模型下的分割圖，從左到右依次是FCN-8、DeeplabV3+、PSPNet、SegNet、SPNet和FFANet。

圖8 本文方法和其它方法在Potsdam數(shù)據(jù)集上的分割結(jié)果

對(duì)于第一幅圖，由于低矮植被這一類(lèi)別紋理特征復(fù)雜，其它5個(gè)網(wǎng)絡(luò)在識(shí)別的過(guò)程中均有錯(cuò)誤分類(lèi)的區(qū)域，同時(shí)測(cè)試圖左下角的一小塊建筑物分割效果較為粗糙。對(duì)于第二幅圖，由于汽車(chē)本身之間的差異性，造成了其它網(wǎng)絡(luò)的誤分類(lèi)，從而引入了過(guò)多噪聲，而在FFANet中很好解決了這一問(wèn)題。對(duì)于第三幅圖，體現(xiàn)了FFANet的目標(biāo)識(shí)別能力，較好區(qū)分了低矮植被和樹(shù)木這兩種特征相似的目標(biāo)。對(duì)于第四幅圖，從建筑物的分割效果可以看出FFANet相比其它網(wǎng)絡(luò)具有較好的特征提取能力。

2.2.3 多尺度特征表示模塊消融實(shí)驗(yàn)

在多尺度特征表示模塊(MFR)的消融實(shí)驗(yàn)中，我們探討了空洞率大小和模塊作用位置對(duì)于網(wǎng)絡(luò)性能的影響。如表4所示，位置×1表示添加一個(gè)MFR模塊，×4表示添加4個(gè)MFR模塊，實(shí)驗(yàn)結(jié)果表明模型的精度隨著MFR模塊數(shù)量增加而提升，所以說(shuō)在主干網(wǎng)絡(luò)特征提取的初級(jí)階段也有提升的空間。與此同時(shí)，我們發(fā)現(xiàn)大的空洞率并不能給模型性能帶來(lái)好的提升，空洞率設(shè)置為[1，3，5]的情況下，模型指標(biāo)達(dá)到最優(yōu)，MIoU和OA分別為74.4%，87.7%，說(shuō)明小的空洞率更適合該數(shù)據(jù)集圖像的分割。

表4 MFR模塊消融實(shí)驗(yàn)

2.3 Vaihingen數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果與分析

2.3.1 Vaihingen數(shù)據(jù)集消融實(shí)驗(yàn)

為了驗(yàn)證本方法的泛化能力，在Vaihingen數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn)，同樣采用MIoU、OA和F1作為評(píng)價(jià)指標(biāo)。實(shí)驗(yàn)結(jié)果見(jiàn)表5，從表5中數(shù)據(jù)可以得知，本文模型較Baseline的MIoU有明顯提高，提升了2.4%。說(shuō)明網(wǎng)絡(luò)的3個(gè)模塊在Vaihingen數(shù)據(jù)集上均有一定效果。

表5 FFANet在Vaihingen數(shù)據(jù)集上的消融實(shí)驗(yàn)

汽車(chē)這一類(lèi)別在Vaihingen數(shù)據(jù)集中是一個(gè)較難處理的類(lèi)別，因?yàn)榕c其它類(lèi)別相比，汽車(chē)像素的數(shù)量遠(yuǎn)遠(yuǎn)要小，并且汽車(chē)本身也存在著較大的差異性。例如，圖像中汽車(chē)顏色的多樣性也會(huì)導(dǎo)致類(lèi)別內(nèi)的巨大差異。我們的方法在汽車(chē)的類(lèi)別中的識(shí)別效果較好，IoU4提升了6.3%。

2.3.2 Vaihingen數(shù)據(jù)集對(duì)比實(shí)驗(yàn)

表6給出了本方法在Vaihingen數(shù)據(jù)集上與現(xiàn)有模型的對(duì)比實(shí)驗(yàn)結(jié)果。與PSPNet、SPNet、DANet[18]、SegNet以及最近提出的一種分割方法MACUNet[22]相比，F(xiàn)FANet的MIoU、OA和F1分別達(dá)到了78.1%、91.4%和87.2%。

表6 FFANet在Vaihingen數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)

圖9給出了現(xiàn)有模型在Vaihingen數(shù)據(jù)集上的可視化結(jié)果圖。對(duì)于第一幅圖，建筑物樓頂?shù)乃嗯_(tái)被其它網(wǎng)絡(luò)錯(cuò)誤分類(lèi)成道路和汽車(chē)，左上角的樹(shù)木也沒(méi)能識(shí)別出來(lái)。對(duì)于第二幅圖，在淡灰色的低矮植被區(qū)域，其它網(wǎng)絡(luò)或多或少的都有特征提取不全的地方。對(duì)于第三和第四幅圖，相比于其它網(wǎng)絡(luò)，F(xiàn)FANet的分割結(jié)果圖較為清晰，不會(huì)引入過(guò)多噪聲。

圖9 本文方法和其它方法在Vaihingen數(shù)據(jù)集上的分割結(jié)果

3 結(jié)束語(yǔ)

針對(duì)遙感圖像中目標(biāo)多尺度現(xiàn)象以及特征信息復(fù)雜的問(wèn)題，本文提出了一種特征融合注意力的遙感圖像分割網(wǎng)絡(luò)。在數(shù)據(jù)集處理階段有針對(duì)性地選擇了部分的遙感大圖像，切割過(guò)程中按一定步長(zhǎng)滑動(dòng)切分，豐富了數(shù)據(jù)的多樣性。網(wǎng)絡(luò)在主干網(wǎng)絡(luò)增加了下采樣過(guò)程中特征圖的分辨率，然后利用多尺度特征表示模塊提取圖像中目標(biāo)的多尺度上下文信息，以增強(qiáng)對(duì)目標(biāo)的特征提取能力。在特征融合注意力模塊中引入了注意力機(jī)制的概念，將深層特征的通道信息作為淺層特征的指引，通過(guò)建立了二者之間的聯(lián)系來(lái)改善解碼過(guò)程中錯(cuò)誤分類(lèi)等現(xiàn)象。在最后的上采樣輸出過(guò)程中，利用殘差結(jié)構(gòu)進(jìn)一步細(xì)化特征，提高了分割精度。

本文的模型仍然存在一些問(wèn)題，例如：路面、建筑物、樹(shù)木和低矮植被在邊界附近任存在大量噪聲，遙感圖像在邊界信息的提取上亟待改進(jìn)。我們將繼續(xù)優(yōu)化該模型，在不降低分割精度的情況下，優(yōu)化邊緣分割效果，使分割邊界更加平滑。