亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

用于遙感圖像語義分割的多重預(yù)測網(wǎng)絡(luò)

2022-06-16 03:29:44倪家輝周激流

現(xiàn)代計算機 2022年7期

倪家輝，周激流

（1.四川大學(xué)電子信息學(xué)院，成都 610065；2.四川大學(xué)計算機學(xué)院，成都 610065）

0 引言

遙感圖像的語義分割是遙感圖像處理中最基本和最具挑戰(zhàn)的任務(wù)之一，特別是在一些具有超高分辨率的遙感圖像中，通過對遙感圖像進行精確的分割，能夠有效地實現(xiàn)道路建筑的提取、土地覆蓋的分類以及地貌變換的監(jiān)測等。相對于自然圖像的分割任務(wù)，遙感圖像可以具有多光譜的信息用于提取不同類別的語義特征，但同時，由于遙感圖像的地貌類別較為復(fù)雜、像素級的精確標(biāo)注難度較大以及不同數(shù)據(jù)集的差異，遙感圖像的語義分割任務(wù)難度較大。而近年來，由于卷積神經(jīng)網(wǎng)絡(luò)在圖像特征提取與物體表征的強大能力，越來越多基于深度學(xué)習(xí)的模型被應(yīng)用于遙感圖像的語義分割，其中，全卷積網(wǎng)絡(luò)（fully convolutional network）在圖像分割任務(wù)中取得了巨大的進步。與此同時，常見的卷積神經(jīng)網(wǎng)絡(luò)受限于卷積核的局部感受野以及短程的上下文語義信息，圖像分割仍是一個十分具有挑戰(zhàn)性的任務(wù)，特別是對于具有更加復(fù)雜地貌類別的遙感圖像來說，難度進一步加大。為解決圖像長短距離的依賴關(guān)系并進一步提取更顯著的語義特征，目前提出了穹狀空間金字塔池化模塊（ASPP），金字塔池化模塊（PPM）動態(tài)地獲取不同大小池化區(qū)域的特征表示；另一方面，為了獲取密集的像素級的上下文語義特征，研究者提出了自注意機制去增強不同像素之間的關(guān)系。但是，大多數(shù)方法是對較深特征圖的單一層次的預(yù)測輸出，并且常常忽略了相同類別和不同類別之間關(guān)系。鑒于此，本文提出了基于多層次特征預(yù)測的模型來進一步提高遙感圖像語義分割的效果。

本文的模型先利用特征提取網(wǎng)絡(luò)獲得不同深度的特征圖，對于同一層次的特征來說，先利用卷積注意力機制模塊（CBAM）獲取全局的依賴關(guān)系，將通道數(shù)轉(zhuǎn)化為輸出類別的通道數(shù)，生成預(yù)監(jiān)督的類別親和特征圖，用于加強類別內(nèi)和類別間的語義特征關(guān)系，最后輸出語義分割的結(jié)果。本文所提出的模型考慮了不同深度特征的差異性，實現(xiàn)了多層次預(yù)測結(jié)果的輸出，能夠有效地實現(xiàn)語義分割任務(wù)。本研究在兩個不同遙感圖像語義分割數(shù)據(jù)集上驗證了該方法的有效性，并對比了常見的遙感語義分割模型，證明了該方法的先進性，在相關(guān)的評價指標(biāo)上有一定的提升。

1 方法

如圖1所示，本文所提出的多層次預(yù)測網(wǎng)絡(luò)以ResNet101為基本骨干網(wǎng)絡(luò)提取不同深度的語義特征，然后將相鄰的特征圖利用注意力整合模塊進行特征重構(gòu)，得到相應(yīng)層次的特征圖。這些特征圖隨后被輸入到對應(yīng)的親和圖增強模塊中，輸出語義信息增強的特征圖和對應(yīng)的具有類別數(shù)的親和特征圖。語義增強的特征隨后會經(jīng)過一個1×1 的卷積層轉(zhuǎn)化為具有類別數(shù)的特征圖。最后，將多個層次的輸出特征圖相加并上采樣到輸入圖像的分辨率大小，最終得到相應(yīng)的分割圖。

圖1 網(wǎng)絡(luò)結(jié)構(gòu)

為了聚合不同深度的語義特征，本文利用注意力機制去整合ResNet 網(wǎng)絡(luò)提取的相鄰特征圖。使用了卷積核注意力機制模塊（CBAM），本文將相鄰特征圖分別輸入到空間注意力模塊和通道注意力模塊，將提取到的有用的特征相加，再經(jīng)過一個卷積層得到自適應(yīng)的注意力重構(gòu)特征。如圖2（a）所示。

對于親和特征增強模塊，我們先利用兩個卷積層將重構(gòu)后的特征轉(zhuǎn)為具有類別數(shù)的特征，再經(jīng)過Softmax激活函數(shù)得到類別親和圖特征A，并用此類別親和圖特征點乘輸入的原始特征，用于加強該層的類內(nèi)的語義關(guān)系，并用一個大小相同的全1矩陣減去類別親和特征，得到類間親和特征圖1-A，用于加強類間的語義信息特征，最后，將類內(nèi)特征圖、類間特征圖以及類別親和特征圖拼接在一起，得到輸出的親和增強特征圖，如圖2（b）所示。本文將多個層次輸出的結(jié)果相加得到最終的分割結(jié)果，并與標(biāo)簽計算損失，進行網(wǎng)絡(luò)的優(yōu)化。除此之外，我們將多層的親和圖相加得到全局親和圖，將此全局親和圖與語義分割的標(biāo)簽計算交叉熵?fù)p失，進行初步的約束，以此實現(xiàn)不同層次的輸出關(guān)注不同類別區(qū)域的特征。

圖2 模塊結(jié)構(gòu)示意圖

最終該模型的損失函數(shù)可以大致分為兩類：一個是多分類的交叉熵?fù)p失，另一個是基于親和圖的輔助損失，這個輔助損失不僅能使網(wǎng)絡(luò)關(guān)注不同類別區(qū)域，還能提升網(wǎng)絡(luò)的性能，使網(wǎng)絡(luò)更加易于收斂。最后，該模型的總損失函數(shù)可以表示如下：

其中，表示總的多分類的交叉熵?fù)p失，表示親和圖輔助損失，為超參數(shù)，用于權(quán)衡不同的損失，實驗中按經(jīng)驗設(shè)置為0.5。

2 實驗

為了驗證該模型的有效性，本文選擇經(jīng)典的語義分割網(wǎng)絡(luò)FCN為基準(zhǔn)網(wǎng)絡(luò)，并對比了幾個常見的語義分割方法，在ISPRS 2D 語義分割數(shù)據(jù)集Vaihingen和Potsdam進行實驗。對于結(jié)果的定量指標(biāo)，本文計算了每一類前景的分?jǐn)?shù)、平均的分?jǐn)?shù)、平均的交并比（mean IoU）以及總的分類準(zhǔn)確率（overall accuracy）。

2.1 數(shù)據(jù)集

實驗中，本文選用了ISPRS 比賽的兩個遙感圖像語義分割數(shù)據(jù)集。其中，Vaihingen 數(shù)據(jù)集包含33 張超高分辨率的遙感圖像，每張圖像有三個光譜帶（紅、綠，近紅外）以及一個歸一化的數(shù)字曲面模型（DSM）。該數(shù)據(jù)集的空間分辨率為9 cm，圖像的平均大小為2494×2064 像素，并且每張圖像都有較為精確的像素級手工標(biāo)注，包含6個土地覆蓋類（5個前景類以及1個背景類別）。在具體實驗中選擇了其中的16張圖像用于訓(xùn)練，另外的17 張用于測試。而Potsdam 2D 語義標(biāo)注數(shù)據(jù)集包含了38 張高分辨率的遙感圖像，其空間分辨率為5 cm，包含了四個光譜帶（紅、綠、藍，近紅外）以及歸一化的DSM 圖像。同樣地，依據(jù)之前的工作，本文將其中24 張圖像用于訓(xùn)練，剩下的14 張用于測試。在實驗中，未使用DSM圖像。

2.2 實驗設(shè)置

實驗中選用在ImageNet 上預(yù)訓(xùn)練好的ResNet101 網(wǎng)絡(luò)為模型的特征提取骨干網(wǎng)絡(luò)，并且骨干網(wǎng)絡(luò)是可訓(xùn)練的，其學(xué)習(xí)率與其他網(wǎng)絡(luò)層相同。對于不同數(shù)據(jù)集，初始的學(xué)習(xí)率都設(shè)置為0.01，使用了Poly 學(xué)習(xí)率調(diào)整策略。對于優(yōu)化器，使用SGD進行網(wǎng)絡(luò)梯度的反向傳播，優(yōu)化器的權(quán)重設(shè)為5e-04，動量設(shè)為0.9。同時，網(wǎng)絡(luò)訓(xùn)練時使用了幾種數(shù)據(jù)增強的方法，包括隨機裁剪、隨機旋轉(zhuǎn)、隨機翻轉(zhuǎn)和隨機放縮。該模型是基于Pytorch框架實現(xiàn)的，并且在GTX 1080 Ti顯卡上進行了200 k迭代訓(xùn)練。

2.3 實驗結(jié)果

為了得出綜合性的評價，實驗將該模型與現(xiàn)有的五種分割方法進行了比較，包括FCN、UNet、 Deep Labv3+、 PSPNet以及DANet。Vaihingen 數(shù)據(jù)集上的定量評估指標(biāo)如表1 所示。整體可以看到，該方法在平均指標(biāo)、平均交并比和總的分割準(zhǔn)確率上都優(yōu)于其他方法。相較于基線方法，該方法在各個指標(biāo)上都有較大的性能提升，在平均分?jǐn)?shù)、平均交并比和總的分割準(zhǔn)確率上都有約2%的提升，這也證明了本文所提出的相應(yīng)模塊能有效地獲取類內(nèi)和類間的語義信息。同時，為了進一步展示該方法的優(yōu)越性，本文展示了該方法與基線網(wǎng)絡(luò)在Vaihingen 測試集上的幾個分割結(jié)果例子，如圖3 和表1 所示。從圖中可以看到，該模型能夠更加平滑地分割建筑物，表明我們的模型能夠?qū)W習(xí)長短距離的上下文語義信息；而且，該模型對小物體的車輛分割效果也十分的明顯，不會像基線網(wǎng)絡(luò)那樣無法區(qū)別不同的車輛，表明該模型對不同尺度的物體都有較好的魯棒性。除此之外，本文在Potsdam數(shù)據(jù)集上也進行了實驗，其定量和定性的結(jié)果分別如表2 和圖4 所示，這進一步證明了該模型的有效性。

表1 不同方法在Vaihingen數(shù)據(jù)測試集上的分割指標(biāo)比較

表2 不同方法在Potsdam數(shù)據(jù)測試集上的分割指標(biāo)比較

圖3 該方法與基線網(wǎng)絡(luò)在Vaihingen測試集上的分割結(jié)果實例（白色：不透水表面；藍色：建筑物；青色：低矮的植被；綠色：樹木；黃色：汽車）

圖4 該方法與基線網(wǎng)絡(luò)在Potsdam測試集上的分割結(jié)果實例（白色：不透水表面；藍色：建筑物；青色：低矮的植被；綠色：樹木；黃色：汽車；紅色：雜物/背景）

3 結(jié)語

本文提出了一個用于遙感圖像語義分割的多重預(yù)測分割網(wǎng)絡(luò)，每個分支能夠自適應(yīng)地關(guān)注不同尺度的類別特征，在每一分支都包含一個特征聚合模塊和親和特征增強模塊，最后，將多個層次的綜合預(yù)測結(jié)果用于分割，與標(biāo)簽圖像計算交叉熵?fù)p失。在兩個遙感圖像分割數(shù)據(jù)集上進行實驗，該模型在定量和定性結(jié)果上性能都有明顯的提升，該模型能夠?qū)W習(xí)長短距離的上下文信息，對不同大小的物體都能進行有效的分割。