郭新,張斌,程坤
(1.中國地質(zhì)大學(xué)(武漢) 地理與信息工程學(xué)院,武漢 430078;2.武漢工程大學(xué) 計算機科學(xué)與工程學(xué)院,武漢 430205)
遙感已經(jīng)成為觀測地球表面重要的技術(shù)手段。進入二十世紀(jì)以來,隨著傳感器技術(shù)的不斷改進,可以獲得如哨兵系列、高分系列等高分辨率多光譜圖像。此外,利用無人機技術(shù)(unmanned aerial vehicle,UAV)可以獲得亞米級的超高分辨率的遙感圖像。目前高分辨率遙感影像的解譯在城市環(huán)境、精準(zhǔn)農(nóng)業(yè)、基礎(chǔ)設(shè)施建設(shè)、林業(yè)調(diào)查、軍事目標(biāo)識別、災(zāi)害應(yīng)急評估等諸多領(lǐng)域都具有極其重要的意義。傳統(tǒng)的遙感影像解譯技術(shù)主要依靠人工目視解譯以及專家先驗知識構(gòu)建的物理模型,但其存在精度低、效率低等缺陷,面對井噴式增長的海量遙感數(shù)據(jù),傳統(tǒng)的影像解譯方法已經(jīng)無法滿足當(dāng)今的實際應(yīng)用需求。
近年來,隨著計算機視覺技術(shù)的不斷進步,圖像分割算法在深度學(xué)習(xí)的助推下取得了較大發(fā)展。全卷積神經(jīng)模型(fully convolutional networks,F(xiàn)CN)[1]是最早提出的基于卷積神經(jīng)模型(convolutional neural network,CNN)的具有較高影響力的圖像分割模型之一,之后FCN方法被用于提取高分辨率遙感影像的建筑物[2-3],但是FCN僅使用深層特征圖來執(zhí)行像素分類,忽略了含有豐富空間信息的淺層特征,導(dǎo)致其處理小目標(biāo)的能力較弱,使得模型最終的分割圖像較為粗糙。U-Net[4]和SegNet[5]采用了編碼器-解碼器結(jié)構(gòu),編碼器用于提取特征信息,解碼器將提取到的特征圖恢復(fù)至原始圖像維度。為了解決編碼器由于不斷卷積導(dǎo)致圖像細節(jié)信息嚴(yán)重丟失的問題,在編碼層中融合淺層特征,使模型能夠提取不同層級的特征信息,提升模型精度,Li等[6]在U-Net的基礎(chǔ)上提出了DeepUNet模型用于遙感影像分割,該模型引入了兩個帶有U連接和正連接的新模塊進一步提升模型性能。Pan等[7]提出了密集金字塔網(wǎng)絡(luò)(dense pyramid network,DPN)用于語義分割,該模型分別提取每個通道的特征圖以增強模型的表示能力,最終在Vaihingen數(shù)據(jù)集上表現(xiàn)良好。
最近,DeepLabV3+模型[8]由于其出色的分割性能變得較為流行,該模型由DeepLabV1~3[9-11]系列改進而來,其整體上繼承了U-Net等模型的編碼器-解碼器結(jié)構(gòu),在編碼器部分引入空間空洞金字塔池化(atrous spatial pyramid pooling,ASPP)模塊并添加了全局平均池化操作,解決了之前提取的特征圖尺度單一的問題,有效提升了模型的性能,但是也存在訓(xùn)練速度較慢、小尺度目標(biāo)信息丟失嚴(yán)重以及多類別分割任務(wù)中由于數(shù)據(jù)集類別不均衡導(dǎo)致性能欠佳等問題。部分學(xué)者對DeepLabV3+存在的缺陷進行了研究,劉文祥等[12]在該模型中引入雙注意力機制模塊(dual attention mechanism module,DAMM),并將該模塊與ASPP通過串聯(lián)和并聯(lián)兩種方式連接起來,結(jié)果證明DAMM注意力機制能夠有效提升模型訓(xùn)練收斂速度,增強圖像邊緣目標(biāo)特征,且在INRIA aerial image數(shù)據(jù)集上MIoU分別提升了1.12%和1.8%。張鑫祿等[13]提出了基于DeepLabV3的小波域(markov random field,MRF)算法,改善了邊緣目標(biāo)的分割效果,整體精度提升了3%;Du等[14]提出將DeepLabV3+和基于對象的圖像分析融合以增強地物輪廓;Baheti等[15]提出降低ASPP的空洞卷積采樣率可提升小目標(biāo)的特征提取能力;劉志贏等[16]提出異感受野融合策略擴大了空洞卷積感受野,提升了DeepLabV3+模型多尺度特征提取能力,并引入通道注意力模塊,強化了對重點通道的學(xué)習(xí)能力;劉航等[17]在DeepLabV3+模型引入了自適應(yīng)感受野機制可以有效提取不同形狀目標(biāo)的特征;郭夢利等[18]使用占比加權(quán)的方法解決了模型訓(xùn)練中正負樣本嚴(yán)重不均衡的問題。
以上學(xué)者只是針對DeepLabV3+的不足進行單方面改進,且改進效果有限。針對DeepLabV3+模型在遙感影像語義分割上存在小目標(biāo)提取能力弱等缺點,本文提出以下改進策略。
1)改進ASPP模塊。減小空洞卷積采樣率,采用多組并行空洞卷積增強多尺度特征提取能力,同時提出感受野融合策略,擴大感受野,提高特征信息利用率;
2)添加特征注意力融合模塊(feature attention fusion,F(xiàn)AF),利用通道注意力和空間注意力充分挖掘不同特征圖的信息;
3)優(yōu)化損失函數(shù),利用加權(quán)基于子模塊凸優(yōu)化的Lovasz-softmax損失函數(shù)能有效解決多類別分割任務(wù)時的類別不均衡現(xiàn)象。
基于以上策略分別對模型改進,最后融合改進策略整體提升模型性能,并通過Landcover和CCF2017高分辨率遙感影像數(shù)據(jù)集驗證改進策略的有效性。
DeepLabV3+是Google公司于2018年最新提出的語義分割算法,該算法由DeepLabV1~3發(fā)展而來,DeepLabV1提出帶空洞的卷積操作,在避免下采樣的情況下擴展了模型感受野,同時模型采用了條件隨機場(conditional random field,CRF)優(yōu)化分割結(jié)果,但是DeepLabV1對于多尺度目標(biāo)的分割性能欠佳。DeepLabV2在DeepLabV1基礎(chǔ)上提出了最初的ASPP結(jié)構(gòu),對輸入的特征圖使用不同采樣率的空洞卷積操作進行采樣,可以有效提取不同尺度目標(biāo)的特征信息,同時沿用CRF以提高模型的分割性能。DeepLabV3將ASPP結(jié)構(gòu)改為三個3×3卷積操作,采樣率分別為(6、12、18)和一個全局平均池化,由于ASPP融合了像素級特征,包含了目標(biāo)的位置信息,因此DeepLabV3取消了CRF操作。DeepLabV3+基礎(chǔ)模型的結(jié)構(gòu)如圖1所示,以改進的Xception為骨干模型,原始圖像輸入到編碼器模塊,經(jīng)過輸入流、中間流和輸出流卷積運算,生成分辨率為原圖1/16或1/8的特征張量,將提取的特征張量傳入ASPP結(jié)構(gòu),其中包含了一個全局平均池化特征層和三個不同采樣率的并行空洞卷積層,將通過并行空洞卷積層處理后的特征張量連接后通過一個1×1的卷積層壓縮通道后輸出。在解碼器模塊中,對編碼器模塊輸出的特征圖通過雙線性插值四倍上采樣至原始圖像的1/4大小,然后與來自骨干網(wǎng)絡(luò)提取的相同分辨率的淺層特征圖拼接,兼顧圖像的語義信息和細節(jié)信息,避免了從深層特征圖直接上采樣恢復(fù)至原圖尺寸時造成細節(jié)信息丟失的誤差,再次經(jīng)過3×3卷積和四倍上采樣后輸出分割結(jié)果。
圖1 DeepLabV3+模型結(jié)構(gòu)
DeepLabV3+模型因其使用了編碼器-解碼器形式以及ASPP模塊,同時利用骨干網(wǎng)絡(luò)提取的淺層特征與ASPP處理后的深層特征融合以加強細節(jié)信息,所以具有出色的分割性能。但是對于遙感圖像來說,ASPP模塊中較大的空洞卷積采樣率會丟失小尺度目標(biāo)的信息,同時四倍上采樣恢復(fù)圖像細節(jié)信息具有較大難度,因此在遙感影像語義分割領(lǐng)域,DeepLabV3+面臨諸多挑戰(zhàn)。
近年來,眾多計算機視覺研究工作者專注于注意力機制。注意力機制是聚焦于局部信息的機制,其使用一層全新的注意力權(quán)重,將特征數(shù)據(jù)中每個部分的關(guān)鍵程度表示出來并加以學(xué)習(xí)訓(xùn)練。根據(jù)作用形式的不同,可以將注意力機制分為三類,分別為:空間注意力(spatial attention)、通道注意力(channel attention)、混合注意力(mixed attention)。空間注意力[19]是將圖像中的空間信息作對應(yīng)的空間變換,從而將關(guān)鍵的信息提取出來,并對生成的掩碼進行評估。通道注意力[20]是給每個通道增加一個權(quán)重,代表通道與關(guān)鍵信息的相關(guān)度,權(quán)重越大,表示相關(guān)度越高。Woo等[21]結(jié)合了上述空間注意力和通道注意力的優(yōu)點,提出了CBAM;王中宇等[22]在DeepLabV3+模型中引入CBAM,將其應(yīng)用在自動駕駛場景的語義分割工作當(dāng)中,但是模型中的不同卷積層包含不同的語義信息,對單層特征圖利用CBAM同時進行通道信息挖掘以及空間信息挖掘往往不能發(fā)揮注意力機制的最大效果,且引入的CBAM使得模型過于關(guān)注焦點區(qū)域,忽略了部分細節(jié)信息,最終導(dǎo)致分割結(jié)果過于圓滑。之后,作者采用了條件隨機場(CRF)對分割結(jié)果進行處理才進一步改善了結(jié)果,但使模型產(chǎn)生了額外的計算。
本文提出了特征注意力融合模塊(feature attention fusion,F(xiàn)AF),將空間注意力模塊用于挖掘包含更多空間位置信息的淺層特征,將通道注意力模塊用于挖掘包含更豐富語義編碼信息的深層特征圖,將兩者挖掘到的注意力信息進行特征融合并輸出到后續(xù)的模型中。
1)通道注意力。給定H×W×C的特征圖F,分別采用全局平均池化和最大池化得到兩個1×1×C的特征,隨后將其送入一個共享的神經(jīng)模型,再將得到的兩個特征相加后經(jīng)過激活函數(shù)得到權(quán)重系數(shù),最后將權(quán)重系數(shù)與原特征相乘輸出。通道注意力模塊的公式表示參見文獻[21]。
2)空間注意力。給定H×W×C的特征F,經(jīng)過通道維度的全局最大池化和平均池化之后連接起來,組成兩個通道的特征圖,經(jīng)過一個卷積層融合,輸出一個單通道的特征圖,最后經(jīng)過sigmoid激活操作生成空間注意力特征圖Ms。將該權(quán)重矩陣和輸入特征圖進行點乘運算,得到最終需要的特征圖??臻g注意力的公式表示參見文獻[21]。
3)特征注意力融合模塊。如圖2所示,分別給定H1×W1×C1的淺層特征F1和H2×W2×C2的深層特征F2,由于淺層特征和深層特征包含不同的語義信息,為充分挖掘特征圖的信息,本文提出特征注意力融合模塊。首先,將F2上采樣后與F1進行通道連接;然后,通過1×1卷積壓縮通道,利用ReLU激活函數(shù)和批歸一化操作得到F3;其次,利用空間注意力模塊對F1進行處理,得到空間注意力加權(quán)的特征,通過1×1卷積擴張通道后與F3特征融合得到F4;最后,利用通道注意力模塊對深層特征F2進行處理得到注意力加權(quán)特征F5,將F5和F4融合輸出得到最終的特征圖。特征注意力融合模塊可以用式(1)表示。
F=Mc(F2)×[Ms(F1)×γ(F1+F2)]
(1)
式中:Mc表示通道注意力;Ms表示空間注意力;γ為ReLU激活函數(shù)。
受空間金字塔池化以及空洞卷積成功應(yīng)用的啟發(fā),原始DeepLabV3+模型在編碼器ASPP模塊利用三組采樣率分別為6、12、18的并行空洞卷積可以有效提取不同空間尺度的特征信息。研究表明[23],在ASPP模塊中6、12、18的采樣率適用于自然圖像中目標(biāo)尺寸較大的密集像素,遙感圖像的成像方式和成像特點與自然圖像存在較大差距,遙感影像中單個的地物目標(biāo)像素所占整幅圖像之比遠低于自然圖像,因此若繼續(xù)沿用原始DeepLabV3+的采樣率將導(dǎo)致影像中的像素占比較小的目標(biāo)如建筑物、道路等細節(jié)信息丟失,致使模型誤差變大。
1)多組并行空洞卷積。原始模型ASPP結(jié)構(gòu)使用采樣率分別為6、12、18的空洞卷積擴大感受野??斩淳矸e是通過卷積核補零的方式擴大感受野,最終輸出非零采樣點的卷積結(jié)果。本文在繼承原始的ASPP的優(yōu)勢上,考慮到遙感影像中既存在像素面積占比較小的建筑物,同時存在如水體、林地等集中連片的像素占比相對較大的地物目標(biāo),因此提出減小初始采樣率,并使用六組并行的兼顧小尺度和大尺度目標(biāo)的空洞卷積,采樣率分別為4、8、12、16、20、24,以此來提取更多不同尺度的地物目標(biāo)信息。
2)感受野融合。隨著采樣率增加,非零采樣點在卷積核中的占比快速降低,在同等計算量條件下空洞卷積獲取的信息量丟失嚴(yán)重,提取到的特征關(guān)聯(lián)性差,阻礙模型訓(xùn)練[24]?;谝陨蠁栴},文獻[16]提出了異感受野融合的ASPP結(jié)構(gòu),該結(jié)構(gòu)將原始特征圖與r=16卷積層處理過的特征圖拼接后傳入r=12卷積層,又將r=12處理過的特征圖傳入r=18卷積層,這樣可以在不增加并行卷積層的同時有效提升感受野。然而,該方法只是融合了上個卷積層的信息,雖然有利于提取更豐富的信息,但提取的信息有限。
本文改進了ASPP模塊的感受野融合思路,在ASPP模塊中,將當(dāng)前卷積層提取后的特征與之前每個卷積層提取到的特征以及原始特征融合并進行通道壓縮后傳入下一卷積層提取信息,該方法可以有效提升卷積層的特征利用率。
定義特征利用率θ為原始特征圖中參與有效運算的元素量與感受野內(nèi)元素總量的比值,則感受野融合前后空洞卷積在原始特征圖的特征利用率如表1所示。融合后,相較原始ASPP,采樣率為12的感受野從25擴大至49,特征利用率從1.56%增加至7.56%,由此可見該方法通過增強不同感受野特征間的相關(guān)性,從更大感受野內(nèi)判別單個像素的屬性,可以有效降低特征信息丟失。
表1 感受野融合特征利用率
感受野融合將增加大量模型運算,為兼顧模型的輕量性和精度,對ASPP的輸入特征使用1×1卷積進行通道壓縮,由原來的2 048個通道壓縮到1 024個通道,輸出通道保持不變。模塊輸入前后特征分辨率維持一致,則原始ASPP模塊的參數(shù)量如式(2)所示。
N1=2 048×32×256×3=14 155 776
(2)
改進后ASPP模塊的參數(shù)量如式(3)所示。
N2=2 048×32×256+(1 024+256)×
32×256×5=19 464 192
(3)
與原始ASPP模塊相比,改進的多組并行融合感受野ASPP模塊參數(shù)量增加了37.5%,但是感受野擴大了四倍以上,因此該方法以較小的模型參數(shù)增量有效擴大了感受野并提高了特征利用率。
損失函數(shù)是用來評估模型預(yù)測值和真值的不一致程度,損失函數(shù)的值越小,模型的性能越好。圖像分割任務(wù)中,經(jīng)常會出現(xiàn)類別不均衡的情況,DeepLabV3+模型里使用了softmax損失函數(shù)。softmax損失函數(shù)能夠有效處理多類別分割任務(wù),但處理圖像分割中常見的類別不均衡的情況性能欠佳。Berman等[25]提出了基于子模塊凸優(yōu)化的適用于多類別任務(wù)的Lovasz-softmax loss。由于本文所用數(shù)據(jù)集為高分辨率遙感數(shù)據(jù)集,其中建筑物在影像中的像素占比較低,存在類別不均衡情況,基于子模塊凸優(yōu)化的Lovasz-softmax損失函數(shù)能有效解決多類別分割任務(wù)時的類別不均衡現(xiàn)象,但該損失函數(shù)由于過分關(guān)注小尺度樣本致使較大尺度的樣本存在類內(nèi)不一致的情況,因此本文汲取Lovasz-softmax loss與softmax loss的優(yōu)勢,采用兩者加權(quán)組合的方式作為DeepLabV3+模型的loss,在保證高效處理多類別任務(wù)的同時降低由于數(shù)據(jù)集類別不均衡引起的誤差。
在DeepLabV3+模型中,由Xception骨干模型和ASPP提取的特征圖分辨率是原始圖像的1/16,在解碼器模塊需要對該特征圖進行上采樣,恢復(fù)至原始圖像的分辨率,DeepLabV3+首先采用四倍雙線性插值上采樣至原始圖像大小的1/4,然后與Xception骨干模型提取的淺層特征拼接,再次使用四倍雙線性插值上采樣至原始圖像大小。但研究表明,從較小的圖像以較高上采樣倍數(shù)重建圖像存在較大挑戰(zhàn),因此本文分別采用四次兩倍雙線性插值上采樣,在編碼器模塊結(jié)束后,分兩次進行兩倍雙線性插值上采樣將特征圖恢復(fù)至原始圖像的1/4大小,與Xception骨干模型提取的淺層特征拼接后再以同樣的方式恢復(fù)至原始圖像尺寸。
DeepLabV3+模型是目前最經(jīng)典的語義分割模型之一,其為增加對多尺度目標(biāo)的提取能力,引入由采樣率分別為1、6、12、18的3×3空洞卷積以及一個1×1全局平均池化操作共同組成的ASPP結(jié)構(gòu),并在VOC、COCO、Cityscapes等大型公開數(shù)據(jù)集上獲得優(yōu)異成績。針對原始DeepLabV3+模型小尺度目標(biāo)提取性能欠佳、類別不均衡引起的誤差等缺陷,本文融合上述改進策略,提出在原始模型的基礎(chǔ)上采用感受野融合策略和增加多組并行空洞卷積改進ASPP模塊,在解碼器模塊中添加FAF注意力機制充分挖掘不同特征的信息,改進上采樣策略,并利用基于子模塊凸優(yōu)化的Lovasz-softmax加權(quán)優(yōu)化損失函數(shù),增強小目標(biāo)的特征提取能力(圖2)。
圖2 本文方法
為驗證本文方法的有效性,對上述改進方法進行驗證。
本文實驗基于Ubuntu16.04操作系統(tǒng),CPU為Intel Xeon Gold 6148,GPU為NVIDIA Tesla V100,使用百度研發(fā)的PaddlePaddle1.8.4框架,在Ai Studio訓(xùn)練并測試本文方法。
本文使用Cityscapes預(yù)訓(xùn)練的Xception65作為改進的DeepLabV3+特征提取骨干模型,設(shè)置初始化學(xué)習(xí)率(learning rate,lr)為0.01,使用隨機梯度下降(stochastic gradient descent,SGD)法訓(xùn)練模型,使用“poly”學(xué)習(xí)策略[26],模型優(yōu)化方法使用momentum,動量為0.9。
本文使用Landcover[27]和2017年“CCF衛(wèi)星影像的AI分類與識別競賽”(以下簡稱CCF2017)數(shù)據(jù)集驗證改進的DeepLabV3+模型。Landcover數(shù)據(jù)集主要用于高分辨率可見光波段的遙感影像語義分割,總覆蓋面積為216.27 km2,采用人工標(biāo)注(其中建筑物1.85 km2,林地72.2 km2,水體13.25 km2)。CCF2017數(shù)據(jù)集為2015年中國南方某地區(qū)亞米級的高分辨率遙感影像,采用人工標(biāo)注的方式生成標(biāo)注圖,相對Landcover數(shù)據(jù)集,CCF2017數(shù)據(jù)集產(chǎn)自中國,且含有道路信息,信息詳見表2。
表2 數(shù)據(jù)集詳情
為方便模型訓(xùn)練,本文先將兩個數(shù)據(jù)集分別裁剪成2 000張512像素×512像素大小的小幅影像,其中1 600張圖片作為訓(xùn)練集,200張圖片作為驗證集,200張圖片作為測試集,然后對圖像進行隨機裁剪、翻轉(zhuǎn)、縮放、添加噪聲等預(yù)處理,利用本文改進DeepLabV3+模型、原始DeepLabV3+模型以及其他主流分割算法進行訓(xùn)練,最后進行評價分析、預(yù)測。實驗流程如圖3所示。
圖3 實驗流程
在圖像分割領(lǐng)域中,預(yù)測的結(jié)果會出現(xiàn)四種:真正(true positive,TP)、假正(false positive,F(xiàn)P)、真負(true negative,TN)、假負(false negative,F(xiàn)N),評估模型質(zhì)量主要通過兩個指標(biāo)進行判斷,即平均像素精度(mean pixel accuracy,mPA)、平均交并比(mean intersection over union,MIoU)。另外,由于本文的數(shù)據(jù)集類別不平衡,不加以調(diào)整,模型評價很容易偏向大類別而放棄小類別,因此需要一種能夠懲罰模型的“偏向性”指標(biāo)來糾正評價偏差。在傳統(tǒng)的遙感影像分類領(lǐng)域中,Kappa系數(shù)是評價影像分類效果的一個重要指標(biāo),該系數(shù)能利用混淆矩陣對模型進行評價,可以有效解決指標(biāo)“偏向性”問題。因此本文選擇mPA、MIoU、Kappa系數(shù)共同作為評價指標(biāo)。
原始DeepLabV3+為平衡精度與速度,使用骨干網(wǎng)Xception65提取到分辨率分別為64×64和32×32,即輸出步長(output stride,OS)為16和8的特征圖驗證模型性能,其中OS等于16時的特征圖尺寸相對較小,在相同配置環(huán)境下模型可以更快收斂但精度略低,OS等于8時的情況相反。本文沿用原始DeepLabV3+的思路,在Landcover數(shù)據(jù)集上,首先利用Xception65骨干網(wǎng)提取到上述兩種64像素×64像素和32像素×32像素的特征圖,然后分別對改進的ASPP模塊、添加的FAF注意力模塊以及基于子模塊凸優(yōu)化的加權(quán)Lovasz-softmax損失函數(shù)進行消融實驗,經(jīng)過50輪迭代訓(xùn)練后,模型收斂,最終的測試結(jié)果如圖4所示。
通過圖4可以發(fā)現(xiàn),本文所提的改進策略均能在一定程度上提升模型性能,且融合上述策略后,綜合改進模型性能最佳,具體評價指標(biāo)如表3所示。
圖4 DeepLabV3+消融實驗結(jié)果對比
表3 DeepLabV3+模型實驗對比
由表3可以看出,本文所提方法能有效提升DeepLabV3+的模型性能,不同的改進方法對原始模型均有一定的提升效果。
1)改進原始模型的ASPP后,由于使用了采樣率分別為4、8、12、16、20、24的六組并行空洞卷積,同時使用感受野融合策略有效提高了特征利用率,改進的ASPP模塊可以提取更多尺度的特征信息,尤其是對于像素占比較低的建筑物,同時也增強了較大尺度地物目標(biāo)的提取能力,MIoU相對原始模型在OS=16和OS=8的情況下分別提升了0.71%和0.68%。
2)在添加了FAF注意力模塊之后,由于FAF模塊對含有豐富空間信息的淺層特征使用空間注意力特征進行加權(quán),對含有豐富的語義編碼信息的深層特征進行加權(quán),能夠最大效率地挖掘不同特征的信息,實驗結(jié)果顯示,經(jīng)過FAF注意力加權(quán)的DeepLabV3+模型能夠更有效地關(guān)注焦點區(qū)域,MIoU在OS=16和OS=8的情況下相對原始DeepLabV3+模型分別提升了0.6%和0.7%。
3)在使用基于子模塊凸優(yōu)化的Lovasz-softmax loss加權(quán)優(yōu)化原始DeepLabV3+模型里的softmax loss后,顯著改善了像素占比較小的地物目標(biāo)分割效果,其中建筑物的IoU相較原始模型在OS=16和OS=8的情況下分別提升了3.27%和2.23%,模型的MIoU也分別提升了0.44%和0.38%。融合以上三種改進策略后,改進的DeepLabV3+取得了最佳分割性能,MIoU相較原始模型分別提升了1.17%和1.24%,準(zhǔn)確率分別提升了0.14%和1.48%,Kappa系數(shù)分別提升了0.003 7和0.005 8。
上述消融實驗證明了本文所提方法的科學(xué)性和有效性,為充分對比本文方法與現(xiàn)階段主流的語義分割算法如Fast-SCNN[28]、HRNet[29]、ICNet[30]、PSPNet[31]、U-Net的先進性與魯棒性,本節(jié)選取Landcover和CCF2017數(shù)據(jù)集進行對比實驗,采用與前文一致的數(shù)據(jù)預(yù)處理策略,所有模型經(jīng)過50輪迭代訓(xùn)練之后,測試結(jié)果如圖5所示。
圖5 主流分割算法對比
由圖5可以看出,本文方法在DeepLabV3+模型的ASPP模塊中減小采樣率、改用六組并行空洞卷積,可以提取包含細節(jié)信息的更多尺度的特征,同時利用了感受野融合思想,通過融合輸入與不同感受野的特征建立像素間的遠程依賴,增強了不同尺度特征之間的相關(guān)性,有效提升了模型對于小尺度目標(biāo)的特征提取能力。此外,通過優(yōu)化損失函數(shù)有效解決了類別不均衡的問題,添加FAF模塊能使模型更有效地從淺層特征和深層特征挖掘空間和通道信息。具體數(shù)據(jù)如表4所示,本文方法在Landcover和CCF2017數(shù)據(jù)集都取得了最高精度,尤其提取建筑物、道路等小尺度地物特征方面具有顯著優(yōu)勢,建筑物的IoU在兩個數(shù)據(jù)集上達到最高,為81.92%和90.31%,道路的IoU達到了83.77%,相對其他模型具有更高的道路連通性。
表4 主流分割算法精度評價
本文方法在兩個數(shù)據(jù)集上均取得最高的MIoU,進一步驗證了本文方法具有較高的魯棒性,在遙感影像語義分割領(lǐng)域中有較好的應(yīng)用前景。
本文采用多組并行空洞卷積提取多尺度特征,利用感受野融合策略改進ASPP,優(yōu)化損失函數(shù),提出利用FAF注意力充分挖掘不同特征信息,在Landcover和CCF2017數(shù)據(jù)集上進行訓(xùn)練和測試,得到以下主要結(jié)論。
1)利用多組并行空洞卷積能夠有效提取更多尺度的特征信息,在降低空洞卷積采樣率以及進行感受野融合之后,模型對于建筑物等小尺度地物提取能力在OS=16和OS=8的情況下分別提升0.71%和0.68%。
2)提出的FAF注意力模塊能夠有效挖掘淺層特征的空間位置信息和深層特征的語義信息,改進后模型預(yù)測結(jié)果的紋理信息更加精確,MIoU分別提升了0.6%和0.7%。
3)基于子模塊凸優(yōu)化的加權(quán)Lovasz-softmax loss能夠有效改善類別不均衡問題,對于建筑物的特征提取改善效果最明顯,在OS=16和OS=8兩種情況下,IoU分別提升3.27%和2.23%,但由于過分關(guān)注小尺度目標(biāo),致使部分大尺度目標(biāo)精度下降。
4)在融合以上三種改進策略后,改進的DeepLabV3+模型獲得了最佳性能,有效解決了原始模型多尺度目標(biāo)企圖能力較弱、類別不均衡、空間位置信息挖掘欠佳的問題,最終的MIoU分別提升1.17%和1.24%。
5)利用不同數(shù)據(jù)集對本文改進的DeepLabV3+模型進行驗證,測試結(jié)果表明,本文方法在不同數(shù)據(jù)集上都取得了最優(yōu)結(jié)果,進一步證明了本文方法具有較高的魯棒性和科學(xué)性。
本研究表明,基于以上策略改進的DeepLabV3+更適合遙感影像語義分割領(lǐng)域,在多尺度目標(biāo)提取以及樣本類別不均衡情況下相對其他模型均有較大優(yōu)勢。但本文未對目標(biāo)邊緣進行優(yōu)化,林地等不規(guī)則地物目標(biāo)分割紋理有待改進,后期將考慮添加邊緣約束,基于邊緣增強改進模型。此外,本研究使用的數(shù)據(jù)集類別相對有限,缺少耕地等典型地物要素,且數(shù)據(jù)類別較廣,如水體沒有進一步劃分為河流、湖泊等,后期將增加改進模型在遙感影像更多地物類別方面的研究。同時,將考慮運用模型壓縮和模型剪枝技術(shù)對改進的DeepLabV3+算法進行優(yōu)化,保證在性能基本不變的情況下輕量化模型。