倪家輝,周激流
(1.四川大學(xué)電子信息學(xué)院,成都 610065;2.四川大學(xué)計算機學(xué)院,成都 610065)
遙感圖像的語義分割是遙感圖像處理中最基本和最具挑戰(zhàn)的任務(wù)之一,特別是在一些具有超高分辨率的遙感圖像中,通過對遙感圖像進行精確的分割,能夠有效地實現(xiàn)道路建筑的提取、土地覆蓋的分類以及地貌變換的監(jiān)測等。相對于自然圖像的分割任務(wù),遙感圖像可以具有多光譜的信息用于提取不同類別的語義特征,但同時,由于遙感圖像的地貌類別較為復(fù)雜、像素級的精確標(biāo)注難度較大以及不同數(shù)據(jù)集的差異,遙感圖像的語義分割任務(wù)難度較大。而近年來,由于卷積神經(jīng)網(wǎng)絡(luò)在圖像特征提取與物體表征的強大能力,越來越多基于深度學(xué)習(xí)的模型被應(yīng)用于遙感圖像的語義分割,其中,全卷積網(wǎng)絡(luò)(fully convolutional network)在圖像分割任務(wù)中取得了巨大的進步。與此同時,常見的卷積神經(jīng)網(wǎng)絡(luò)受限于卷積核的局部感受野以及短程的上下文語義信息,圖像分割仍是一個十分具有挑戰(zhàn)性的任務(wù),特別是對于具有更加復(fù)雜地貌類別的遙感圖像來說,難度進一步加大。為解決圖像長短距離的依賴關(guān)系并進一步提取更顯著的語義特征,目前提出了穹狀空間金字塔池化模塊(ASPP),金字塔池化模塊(PPM)動態(tài)地獲取不同大小池化區(qū)域的特征表示;另一方面,為了獲取密集的像素級的上下文語義特征,研究者提出了自注意機制去增強不同像素之間的關(guān)系。但是,大多數(shù)方法是對較深特征圖的單一層次的預(yù)測輸出,并且常常忽略了相同類別和不同類別之間關(guān)系。鑒于此,本文提出了基于多層次特征預(yù)測的模型來進一步提高遙感圖像語義分割的效果。
本文的模型先利用特征提取網(wǎng)絡(luò)獲得不同深度的特征圖,對于同一層次的特征來說,先利用卷積注意力機制模塊(CBAM)獲取全局的依賴關(guān)系,將通道數(shù)轉(zhuǎn)化為輸出類別的通道數(shù),生成預(yù)監(jiān)督的類別親和特征圖,用于加強類別內(nèi)和類別間的語義特征關(guān)系,最后輸出語義分割的結(jié)果。本文所提出的模型考慮了不同深度特征的差異性,實現(xiàn)了多層次預(yù)測結(jié)果的輸出,能夠有效地實現(xiàn)語義分割任務(wù)。本研究在兩個不同遙感圖像語義分割數(shù)據(jù)集上驗證了該方法的有效性,并對比了常見的遙感語義分割模型,證明了該方法的先進性,在相關(guān)的評價指標(biāo)上有一定的提升。
如圖1所示,本文所提出的多層次預(yù)測網(wǎng)絡(luò)以ResNet101為基本骨干網(wǎng)絡(luò)提取不同深度的語義特征,然后將相鄰的特征圖利用注意力整合模塊進行特征重構(gòu),得到相應(yīng)層次的特征圖。這些特征圖隨后被輸入到對應(yīng)的親和圖增強模塊中,輸出語義信息增強的特征圖和對應(yīng)的具有類別數(shù)的親和特征圖。語義增強的特征隨后會經(jīng)過一個1×1 的卷積層轉(zhuǎn)化為具有類別數(shù)的特征圖。最后,將多個層次的輸出特征圖相加并上采樣到輸入圖像的分辨率大小,最終得到相應(yīng)的分割圖。
圖1 網(wǎng)絡(luò)結(jié)構(gòu)
為了聚合不同深度的語義特征,本文利用注意力機制去整合ResNet 網(wǎng)絡(luò)提取的相鄰特征圖。使用了卷積核注意力機制模塊(CBAM),本文將相鄰特征圖分別輸入到空間注意力模塊和通道注意力模塊,將提取到的有用的特征相加,再經(jīng)過一個卷積層得到自適應(yīng)的注意力重構(gòu)特征。如圖2(a)所示。
對于親和特征增強模塊,我們先利用兩個卷積層將重構(gòu)后的特征轉(zhuǎn)為具有類別數(shù)的特征,再經(jīng)過Softmax激活函數(shù)得到類別親和圖特征A,并用此類別親和圖特征點乘輸入的原始特征,用于加強該層的類內(nèi)的語義關(guān)系,并用一個大小相同的全1矩陣減去類別親和特征,得到類間親和特征圖1-A,用于加強類間的語義信息特征,最后,將類內(nèi)特征圖、類間特征圖以及類別親和特征圖拼接在一起, 得到輸出的親和增強特征圖,如圖2(b)所示。本文將多個層次輸出的結(jié)果相加得到最終的分割結(jié)果,并與標(biāo)簽計算損失,進行網(wǎng)絡(luò)的優(yōu)化。除此之外,我們將多層的親和圖相加得到全局親和圖,將此全局親和圖與語義分割的標(biāo)簽計算交叉熵?fù)p失,進行初步的約束,以此實現(xiàn)不同層次的輸出關(guān)注不同類別區(qū)域的特征。
圖2 模塊結(jié)構(gòu)示意圖
最終該模型的損失函數(shù)可以大致分為兩類:一個是多分類的交叉熵?fù)p失,另一個是基于親和圖的輔助損失,這個輔助損失不僅能使網(wǎng)絡(luò)關(guān)注不同類別區(qū)域,還能提升網(wǎng)絡(luò)的性能,使網(wǎng)絡(luò)更加易于收斂。最后,該模型的總損失函數(shù)可以表示如下:
其中,表示總的多分類的交叉熵?fù)p失,表示親和圖輔助損失,為超參數(shù),用于權(quán)衡不同的損失,實驗中按經(jīng)驗設(shè)置為0.5。
為了驗證該模型的有效性,本文選擇經(jīng)典的語義分割網(wǎng)絡(luò)FCN為基準(zhǔn)網(wǎng)絡(luò),并對比了幾個常見的語義分割方法,在ISPRS 2D 語義分割數(shù)據(jù)集Vaihingen和Potsdam進行實驗。對于結(jié)果的定量指標(biāo),本文計算了每一類前景的分?jǐn)?shù)、平均的分?jǐn)?shù)、平均的交并比(mean IoU)以及總的分類準(zhǔn)確率(overall accuracy)。
實驗中,本文選用了ISPRS 比賽的兩個遙感圖像語義分割數(shù)據(jù)集。其中,Vaihingen 數(shù)據(jù)集包含33 張超高分辨率的遙感圖像,每張圖像有三個光譜帶(紅、綠, 近紅外)以及一個歸一化的數(shù)字曲面模型(DSM)。該數(shù)據(jù)集的空間分辨率為9 cm,圖像的平均大小為2494×2064 像素,并且每張圖像都有較為精確的像素級手工標(biāo)注,包含6個土地覆蓋類(5個前景類以及1個背景類別)。在具體實驗中選擇了其中的16張圖像用于訓(xùn)練,另外的17 張用于測試。而Potsdam 2D 語義標(biāo)注數(shù)據(jù)集包含了38 張高分辨率的遙感圖像,其空間分辨率為5 cm,包含了四個光譜帶(紅、綠、藍,近紅外)以及歸一化的DSM 圖像。同樣地,依據(jù)之前的工作,本文將其中24 張圖像用于訓(xùn)練,剩下的14 張用于測試。在實驗中,未使用DSM圖像。
實驗中選用在ImageNet 上預(yù)訓(xùn)練好的ResNet101 網(wǎng)絡(luò)為模型的特征提取骨干網(wǎng)絡(luò),并且骨干網(wǎng)絡(luò)是可訓(xùn)練的,其學(xué)習(xí)率與其他網(wǎng)絡(luò)層相同。對于不同數(shù)據(jù)集,初始的學(xué)習(xí)率都設(shè)置為0.01,使用了Poly 學(xué)習(xí)率調(diào)整策略。對于優(yōu)化器,使用SGD進行網(wǎng)絡(luò)梯度的反向傳播,優(yōu)化器的權(quán)重設(shè)為5e-04,動量設(shè)為0.9。同時,網(wǎng)絡(luò)訓(xùn)練時使用了幾種數(shù)據(jù)增強的方法,包括隨機裁剪、隨機旋轉(zhuǎn)、隨機翻轉(zhuǎn)和隨機放縮。該模型是基于Pytorch框架實現(xiàn)的,并且在GTX 1080 Ti顯卡上進行了200 k迭代訓(xùn)練。
為了得出綜合性的評價,實驗將該模型與現(xiàn)有的五種分割方法進行了比較,包括FCN、UNet、 Deep Labv3+、 PSPNet以 及DANet。Vaihingen 數(shù)據(jù)集上的定量評估指標(biāo)如表1 所示。整體可以看到,該方法在平均指標(biāo)、平均交并比和總的分割準(zhǔn)確率上都優(yōu)于其他方法。相較于基線方法,該方法在各個指標(biāo)上都有較大的性能提升,在平均分?jǐn)?shù)、平均交并比和總的分割準(zhǔn)確率上都有約2%的提升,這也證明了本文所提出的相應(yīng)模塊能有效地獲取類內(nèi)和類間的語義信息。同時,為了進一步展示該方法的優(yōu)越性,本文展示了該方法與基線網(wǎng)絡(luò)在Vaihingen 測試集上的幾個分割結(jié)果例子,如圖3 和表1 所示。從圖中可以看到,該模型能夠更加平滑地分割建筑物,表明我們的模型能夠?qū)W習(xí)長短距離的上下文語義信息;而且,該模型對小物體的車輛分割效果也十分的明顯,不會像基線網(wǎng)絡(luò)那樣無法區(qū)別不同的車輛,表明該模型對不同尺度的物體都有較好的魯棒性。除此之外,本文在Potsdam數(shù)據(jù)集上也進行了實驗,其定量和定性的結(jié)果分別如表2 和圖4 所示,這進一步證明了該模型的有效性。
表1 不同方法在Vaihingen數(shù)據(jù)測試集上的分割指標(biāo)比較
表2 不同方法在Potsdam數(shù)據(jù)測試集上的分割指標(biāo)比較
圖3 該方法與基線網(wǎng)絡(luò)在Vaihingen測試集上的分割結(jié)果實例(白色:不透水表面;藍色:建筑物;青色:低矮的植被;綠色:樹木;黃色:汽車)
圖4 該方法與基線網(wǎng)絡(luò)在Potsdam測試集上的分割結(jié)果實例(白色:不透水表面;藍色:建筑物;青色:低矮的植被;綠色:樹木;黃色:汽車;紅色:雜物/背景)
本文提出了一個用于遙感圖像語義分割的多重預(yù)測分割網(wǎng)絡(luò),每個分支能夠自適應(yīng)地關(guān)注不同尺度的類別特征,在每一分支都包含一個特征聚合模塊和親和特征增強模塊,最后,將多個層次的綜合預(yù)測結(jié)果用于分割,與標(biāo)簽圖像計算交叉熵?fù)p失。在兩個遙感圖像分割數(shù)據(jù)集上進行實驗,該模型在定量和定性結(jié)果上性能都有明顯的提升,該模型能夠?qū)W習(xí)長短距離的上下文信息,對不同大小的物體都能進行有效的分割。