王華俊, 葛小三
(河南理工大學(xué)測繪與國土信息工程學(xué)院,焦作 454003)
遙感技術(shù)的發(fā)展使遙感影像空間分辨率提高,地物細(xì)節(jié)信息更豐富、幾何結(jié)構(gòu)和紋理特征等更明顯[1],這導(dǎo)致了噪聲相應(yīng)增加。如何從高空間分辨率遙感影像上準(zhǔn)確提取建筑物成為研究的熱點(diǎn)。
隨著深度學(xué)習(xí)的發(fā)展,建筑物提取成為遙感數(shù)據(jù)智能化應(yīng)用處理的研究重點(diǎn)。眾多學(xué)者提出了各種基于深度學(xué)習(xí)的建筑物提取方法,包括基于U-Net網(wǎng)絡(luò)的方法[2]、結(jié)合模糊度和形態(tài)學(xué)指數(shù)的深度學(xué)習(xí)建筑物提取方法[3],基于特征增強(qiáng)和ELU神經(jīng)網(wǎng)絡(luò)的建筑物提取方法[4]、結(jié)合深度殘差網(wǎng)絡(luò)結(jié)構(gòu)和金字塔式層級(jí)連接的建筑物提取方法[5]、基于編解碼結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)的方法[6]、基于R-MCN模型的方法[7]等等。但這些方法普遍存在網(wǎng)絡(luò)參數(shù)量大、訓(xùn)練時(shí)間長、算法速度難以得到提升的問題。
近年來不斷涌現(xiàn)出大量深度學(xué)習(xí)模型,主要集中在以下幾方面: ①數(shù)據(jù)處理速度提升與訓(xùn)練參數(shù)量減少的模型,如LeNet[8],AlexNet[9],VGGNet[10]和ResNet[11]等; ②能減少模型訓(xùn)練參數(shù)量的輕量級(jí)網(wǎng)絡(luò)SqueezeNet[12],MnasNet[13]和MobileNet[14]等; ③能提高準(zhǔn)確率與能進(jìn)行多尺度特征提取的DeepLab系列模型等。在語義分割中,DeepLab系列是常用模型之一,主要用于逐像素分類。Chen等[15]提出DeepLabv1,結(jié)合深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolution neural network, DCNN)和概率圖模型,提出空洞卷積(atrous convolution),算法速度和準(zhǔn)確率較高; Chen等[16]提出DeepLabv2,使用空洞空間金字塔池化(atrous spatial pyramid pooling, ASPP)擴(kuò)大感受野、降低計(jì)算量; Chen等[17]提出DeepLabv3+,引入編碼-解碼(Encoder-Decoder)形式進(jìn)行多尺度信息融合,使物體邊界分割效果更好; 王俊強(qiáng)等[18]提出DeepLabv3+語義分割與全連接條件隨機(jī)場相結(jié)合的提取方法,能從高分辨率遙感影像中獲得典型要素邊界信息; 劉文祥等[19]在網(wǎng)絡(luò)中引入雙注意力機(jī)制模塊(dual attention mechanism module, DAMM),提出將DAMM結(jié)構(gòu)與ASPP層串聯(lián)和并聯(lián)2種不同連接方式的網(wǎng)絡(luò)模型,能有效改善DeepLabv3+的不足。但是利用DeepLabv3+提取遙感影像建筑物仍存在邊界信息較粗糙、擬合速度慢、小尺度目標(biāo)分割模糊和大尺度目標(biāo)分割有孔洞等問題。
本文針對(duì)DeepLabv3+提取建筑物存在邊界信息粗糙和訓(xùn)練量大等問題,提出一種輕量級(jí)DeepLabv3+模型的遙感影像建筑物提取方法,使用MobileNetv2[20]替換DeepLabv3+的主干網(wǎng)絡(luò),并將ASPP模塊中空洞卷積的空洞率組合改為4,8,12,16,以期提高DeepLabv3+的訓(xùn)練速度和目標(biāo)分割精確度,使模型能達(dá)到更好的建筑物提取效果。
本文提出一種輕量級(jí)DeepLabv3+模型的遙感建筑物提取方法: 使用輕量級(jí)網(wǎng)絡(luò)MobileNetv2替換原模型的主干網(wǎng)絡(luò)Xception; 在此基礎(chǔ)上,將ASPP中空洞卷積的空洞率進(jìn)行優(yōu)化組合,提出一種新的ASPP模塊結(jié)構(gòu),通過調(diào)整模型中的學(xué)習(xí)率和卷積核等參數(shù),使模型達(dá)到更優(yōu)的建筑物提取效果。
DeepLabv3+引入Encoder-Decoder結(jié)構(gòu),主要分為編碼(Encoder)部分和解碼(Decoder)部分。在此結(jié)構(gòu)中,引入可任意控制Encoder提取特征的分辨率,主干網(wǎng)絡(luò)將原始Xception[21]進(jìn)行改進(jìn),并將深度可分離卷積應(yīng)用到ASPP和Decoder模塊中。
1)Encoder部分。在主干DCNN里使用串行空洞卷積,在圖像經(jīng)過主干DCNN后,得到的結(jié)果分別傳入Decoder和并行的空洞卷積用不同空洞率(rate)的空洞卷積進(jìn)行特征提取,提取后合并,用1×1卷積壓縮特征,進(jìn)入Decoder部分,并使用雙線性插值方法進(jìn)行4倍上采樣。
2)Decoder部分。一部分是DCNN經(jīng)過4倍上采樣輸出的特征,另一部分是DCNN輸出以后,經(jīng)過并行空洞卷積后的結(jié)果。為防止Encoder得到的高級(jí)特征被弱化,用1×1卷積對(duì)低級(jí)特征降維,2個(gè)特征融合后,用3×3卷積進(jìn)一步融合特征,使用雙線性插值方法進(jìn)行4倍上采樣,得到與原始圖像相同大小的分割預(yù)測結(jié)果。
DeepLabv3+在語義分割任務(wù)中將Xception模型進(jìn)行改進(jìn),與改進(jìn)之前的Xception相比,DeepLabv3+的輸入流保持不變,但中間流更多; 所有的最大池化被深度可分離卷積(depthwise separable convolution)替代; 在每個(gè)3×3深度卷積之后,增加批標(biāo)準(zhǔn)化(batch norm, BN)和整流線性單元(rectified linear units, ReLU)。Xception結(jié)構(gòu)如圖1所示。
圖1 DeepLabv3+中的Xception網(wǎng)絡(luò)結(jié)構(gòu)
為有效提取遙感影像建筑物在不同尺度下的語義信息,本文使用Encoder-Decoder結(jié)構(gòu),并將深度可分離卷積應(yīng)用在ASPP和Decoder模塊中減少運(yùn)算量,提高Encoder-Decoder網(wǎng)絡(luò)對(duì)遙感影像建筑物提取的運(yùn)行速率和健壯性。為增大感受野而不損失信息,使用空洞卷積增加每個(gè)卷積的輸出信息量,并通過空洞卷積平衡精度和耗時(shí)。為減少訓(xùn)練參數(shù)量和訓(xùn)練時(shí)間,將DeepLabv3+的主干網(wǎng)絡(luò)Xception替換為輕量級(jí)網(wǎng)絡(luò)MobileNetv2; 為增強(qiáng)網(wǎng)絡(luò)對(duì)不同大小目標(biāo)的分割能力,將ASPP模塊的空洞卷積中的6,12,18組合的空洞率改為4,8,12,16的組合。經(jīng)過主干網(wǎng)絡(luò)后的處理結(jié)果傳到Decoder層,Decoder層的主要結(jié)構(gòu)不發(fā)生改變。在上述工作完成后,對(duì)整個(gè)Encoder層進(jìn)行優(yōu)化,從而使替換后的網(wǎng)絡(luò)能準(zhǔn)確從遙感影像中提取出更高精度的建筑物。改進(jìn)DeepLabv3+模型結(jié)構(gòu)如圖2所示(其中包含與原模型對(duì)比)。
圖2 本文方法網(wǎng)絡(luò)結(jié)構(gòu)
1.2.1 深度可分離卷積
本文主干網(wǎng)絡(luò)核心內(nèi)容為深度可分離卷積。在含有大量噪聲和信息的遙感影像處理中,深度可分離卷積與常規(guī)卷積操作相比,有參數(shù)量少、訓(xùn)練時(shí)間短等優(yōu)點(diǎn),在精度保持不變的情況下,能更好地在遙感影像中快速提取建筑物的特征信息。
卷積核大小代表感受野大小,卷積核越大感受野越大,若卷積核過大,會(huì)使計(jì)算量增加,對(duì)含有大量信息的遙感影像進(jìn)行處理時(shí),隨著網(wǎng)絡(luò)深度的增加,計(jì)算能力和訓(xùn)練速度會(huì)逐漸降低,所以在本文網(wǎng)絡(luò)中,使用1×1卷積和3×3卷積進(jìn)行卷積操作。標(biāo)準(zhǔn)卷積是將過濾和輸入合并為一組新的輸出,而深度可分離卷積是由深度卷積和逐點(diǎn)卷積2部分相結(jié)合,一個(gè)用于過濾,另一個(gè)用于合并,以此用來提取特征。深度卷積是一個(gè)卷積核對(duì)應(yīng)一個(gè)輸入通道,獨(dú)立對(duì)每個(gè)輸入通道做空間卷積; 逐點(diǎn)卷積用于結(jié)合深度卷積的輸出,即每個(gè)通道單獨(dú)做卷積,通道數(shù)不變,然后將第一步的卷積結(jié)果用1×1卷積跨通道進(jìn)行組合。卷積操作如圖3所示。
(a) 標(biāo)準(zhǔn)卷積b) 深度可分離卷積
在本文深度可分離卷積中,首先采用深度卷積對(duì)不同輸入通道分別進(jìn)行卷積,然后采用逐點(diǎn)卷積將上面的輸出進(jìn)行結(jié)合,整體效果和一個(gè)標(biāo)準(zhǔn)卷積相同,但是會(huì)大大減少計(jì)算量和模型參數(shù)量,更適合提取建筑物特征。
1.2.2 主干網(wǎng)絡(luò)
DeepLabv3+的主干網(wǎng)絡(luò)Xception對(duì)種類多的提取任務(wù)有較好效果,但其網(wǎng)絡(luò)復(fù)雜度高、參數(shù)量大,而遙感影像復(fù)雜、信息量大,隨著訓(xùn)練的進(jìn)行,參數(shù)量會(huì)逐漸加大,故Xception不適合提取遙感影像建筑物信息,因此使用輕量級(jí)網(wǎng)絡(luò)MobileNetv2將DeepLabv3+的主干網(wǎng)絡(luò)Xception替換,其網(wǎng)絡(luò)體積小、參數(shù)量少,可以更快速、精準(zhǔn)地從大量遙感影像信息中提取建筑物。
MobileNetv2網(wǎng)絡(luò)(圖4和表1)有更小的體積、更少的計(jì)算量、更高的準(zhǔn)確率、更快的速度和多種應(yīng)用場景等優(yōu)點(diǎn),在遙感影像建筑物提取中具有極大優(yōu)勢。MobileNetv2引入線性瓶頸結(jié)構(gòu)(linear bottlenecks)和反向殘差結(jié)構(gòu)(inverted residuals),構(gòu)成線性瓶頸倒殘差結(jié)構(gòu),使遙感影像建筑物提取的參數(shù)量和計(jì)算量減少、訓(xùn)練速度和提取精度更高。在此結(jié)構(gòu)中,反向殘差結(jié)構(gòu)將輸入的低維通過1×1卷積進(jìn)行升維,使用輕量級(jí)深度卷積進(jìn)行過濾并提取特征圖,并利用1×1卷積進(jìn)行降維。為避免降維后ReLU損失建筑物提取精度和破壞建筑物特征,在深度卷積處理后使用線性瓶頸結(jié)構(gòu)替換ReLU進(jìn)行降維,并使用限制最大輸出值為6的ReLU6替換普通ReLU。MobileNetv2中添加擴(kuò)張倍數(shù)控制網(wǎng)絡(luò)大小,雖然使網(wǎng)絡(luò)結(jié)構(gòu)更深,但計(jì)算量更少,能節(jié)省訓(xùn)練時(shí)間和資源,對(duì)遙感影像中建筑物提取有很大優(yōu)勢。
圖4 MobileNetv2網(wǎng)絡(luò)結(jié)構(gòu)
表1 MobileNetv2網(wǎng)絡(luò)結(jié)構(gòu)及參數(shù)
1.2.3 空洞空間金字塔池化
ASPP是由空洞卷積與空間金字塔池化(spatial pyramid pooling, SPP)[22]融合形成,能有效提取遙感影像中多尺度語義特征,從而在遙感影像建筑物提取中被廣泛使用。
DeepLabv3+中ASPP模塊空洞卷積的空洞率組合為6,12,18,隨著主干網(wǎng)絡(luò)對(duì)特征提取的進(jìn)行,特征圖分辨率會(huì)逐漸減小,6,12,18的組合不能更有效地提取多分辨率特征圖特征,沒有設(shè)置較小的空洞率,導(dǎo)致分割小目標(biāo)的能力欠缺,從而使網(wǎng)絡(luò)對(duì)不同大小分割目標(biāo)的分割能力較弱。為更有效地提取多分辨率特征圖特征,提高不同大小分割目標(biāo)的分割能力,本文將空洞卷積的空洞率組合改為4,8,12,16,使較大的分割目標(biāo)能被較大空洞率的卷積核分割,相反,較小的目標(biāo)可以被較小空洞率的卷積核分割,較小的空洞率可使特征提取更有效。經(jīng)過主干網(wǎng)絡(luò)MobileNetv2得到的特征圖輸入到本文ASPP模塊中,經(jīng)過1×1卷積操作、不同空洞率3×3卷積操作和最后的池化操作后,不同大小的分割目標(biāo)依次被卷積提取出特征圖,將輸出的6張?zhí)卣鲌D進(jìn)行融合,得到由本文ASPP產(chǎn)生的特征圖。本文改進(jìn)的ASPP結(jié)構(gòu)如圖5所示。
圖5 本文的ASPP結(jié)構(gòu)
實(shí)驗(yàn)所用訓(xùn)練數(shù)據(jù)集為武漢大學(xué)季順平團(tuán)隊(duì)制作的WHU建筑數(shù)據(jù)集[23]和Volodymyr制作的Massachusetts建筑數(shù)據(jù)集[24]。
WHU數(shù)據(jù)集主要包含航空?qǐng)D像、覆蓋1 000 m2衛(wèi)星圖像、柵格標(biāo)簽和矢量地圖,航空數(shù)據(jù)集由22萬多個(gè)獨(dú)立建筑物組成,這些建筑物由空間分辨率為0.075 m、覆蓋范圍為450 m2的新西蘭克賴斯特徹奇航空?qǐng)D像中提取,此地區(qū)包含多種地物種類,各種不同顏色、大小和用途的建筑類型。數(shù)據(jù)集將大部分航空?qǐng)D像(包含187 000棟建筑物)降至0.3 m空間分辨率,并將其無縫裁剪為512像素×512像素的8 188個(gè)無重疊圖塊,同時(shí)將數(shù)據(jù)集分為訓(xùn)練集、驗(yàn)證集和測試集,其中用于訓(xùn)練的圖像有4 736張、用于驗(yàn)證的圖像有1 036張、用于測試的圖像有2 416張。
Massachusetts建筑物數(shù)據(jù)集由波士頓地區(qū)的151張航拍圖像組成,每幅圖像為1 500像素×1 500像素、空間分辨率為1 m、單張覆蓋面積為2.25 km2,整個(gè)數(shù)據(jù)集覆蓋約340 km2。數(shù)據(jù)集預(yù)先劃分為含有137張圖像的訓(xùn)練集、10張圖像的驗(yàn)證集和4張圖像的測試集。為使Massachusetts數(shù)據(jù)集與WHU數(shù)據(jù)集中的圖像大小保持相同,將Massachusetts數(shù)據(jù)集的每張圖像分別裁剪為9張512像素×512像素大小的圖像,裁剪后的圖像數(shù)量為1 359張,并將其進(jìn)行旋轉(zhuǎn),旋轉(zhuǎn)后的圖像數(shù)量為2 718張。
WHU與Massachusetts數(shù)據(jù)集實(shí)例圖像如圖6所示。WHU數(shù)據(jù)集影像的空間分辨率高于Massachusetts數(shù)據(jù)集影像的空間分辨率,并且Massachusetts數(shù)據(jù)集中的建筑物密度高,建筑物大小相對(duì)更小,更能體現(xiàn)出深度學(xué)習(xí)網(wǎng)絡(luò)提取小型建筑物的能力。
(a) WHU數(shù)據(jù)集示例1(b) WHU數(shù)據(jù)集示例2(c) Massachusetts數(shù)據(jù)集示例1(d) Massachusetts數(shù)據(jù)集示例2
實(shí)驗(yàn)所用機(jī)器主要軟硬件配置見表2。
實(shí)驗(yàn)主要設(shè)置: 定義輸入圖片的高和寬及需要分割的種類數(shù)量,讀取輸入的圖像和標(biāo)簽,進(jìn)行歸一化和大小調(diào)整,使用遷移學(xué)習(xí)思想獲取主干特征提取網(wǎng)絡(luò)的權(quán)重,并將數(shù)據(jù)集圖像隨機(jī)打亂,送入網(wǎng)絡(luò)進(jìn)行訓(xùn)練。初始學(xué)習(xí)率設(shè)置為0.000 3; 每次送入網(wǎng)絡(luò)訓(xùn)練的圖像批次為4,迭代次數(shù)為100次,每迭代2次保存一次訓(xùn)練細(xì)節(jié); 使用交叉熵作為損失函數(shù); 主干網(wǎng)絡(luò)使用MobileNetv2網(wǎng)絡(luò); 優(yōu)化器選擇Adam優(yōu)化器,該優(yōu)化器能動(dòng)態(tài)調(diào)整每個(gè)參數(shù)的學(xué)習(xí)率; 激活函數(shù)使用ReLU激活函數(shù); 膨脹系數(shù)α設(shè)為1。評(píng)價(jià)指標(biāo)為交并比(intersection over union, IoU)和F1分?jǐn)?shù),交叉熵?fù)p失函數(shù)、IoU和F1分?jǐn)?shù)的公式分別為:
,
(1)
,
(2)
,
(3)
式中:yi為樣本i的標(biāo)簽,建筑物為1,背景為0;pi為樣本i預(yù)測為建筑物的概率;N為樣本數(shù)量;TP為正確提取建筑物的樣本數(shù)量;FP為把背景像素錯(cuò)誤提取為建筑物像素的樣本數(shù)量;FN為把建筑物像素錯(cuò)誤提取為背景像素的樣本數(shù)量。
DeepLabv3+中ASPP模塊空洞卷積的空洞率為6,12,18,本文ASPP模塊的空洞率組合為4,8,12,16。在本文模型基礎(chǔ)上,依次使用6,12,18和4,8,12,16的空洞率組合進(jìn)行實(shí)驗(yàn),驗(yàn)證ASPP模塊的改進(jìn)在網(wǎng)絡(luò)模型中的效果。在使用原空洞率組合的情況下,測試結(jié)果的IoU值為80.54%,使用改進(jìn)的ASPP空洞率組合的情況下,測試結(jié)果的IoU值為82.37%,比原組合提高1.83百分點(diǎn),所以使用4,8,12,16的空洞率組合對(duì)遙感影像建筑物有更優(yōu)的提取效果。
表3為不同模型分別在2個(gè)數(shù)據(jù)集中的評(píng)價(jià)指標(biāo)值,其評(píng)價(jià)指標(biāo)主要為IoU與F1分?jǐn)?shù)。較其他經(jīng)典模型相比,本文方法在2個(gè)數(shù)據(jù)集中實(shí)驗(yàn)結(jié)果的交并比均較高,遙感影像建筑物提取精度得到進(jìn)一步提高。相比于DeepLabv3+模型,本文方法在WHU數(shù)據(jù)集中的IoU提升2.71百分點(diǎn)、F1分?jǐn)?shù)提高2.14百分點(diǎn),在Massachusetts數(shù)據(jù)集中的IoU提升2.04百分點(diǎn)、F1分?jǐn)?shù)提高2.32百分點(diǎn),U-Net與SegNet的評(píng)價(jià)指標(biāo)值較低??傮w上,本文提出的方法與其他模型相比均有所提升,對(duì)建筑物提取具有較高的有效性。由于本文模型使用的是輕量級(jí)網(wǎng)絡(luò),與DeepLabv3+模型的主干網(wǎng)絡(luò)Xception相比,本文方法的主干網(wǎng)絡(luò)參數(shù)量少,所以訓(xùn)練時(shí)間更短,能有效提升模型訓(xùn)練速度。
表3 建筑物提取評(píng)價(jià)結(jié)果
建筑物提取結(jié)果如表4所示,在預(yù)測結(jié)果中隨機(jī)選取圖像作為本次實(shí)驗(yàn)結(jié)果的對(duì)比分析。在WHU數(shù)據(jù)集中U-Net和SegNet的提取結(jié)果相似,整體效果不佳,對(duì)小型建筑物的提取有時(shí)會(huì)失效或提取面積極小,在Massachusetts數(shù)據(jù)集中也可看出其對(duì)小型建筑物有提取效果不佳、提取面積極小的情況,并出現(xiàn)多處建筑漏提現(xiàn)象。較其他經(jīng)典模型相比,DeepLabv3+模型的提取效果較好,對(duì)大型建筑物邊界的提取精度更高,與本文方法相比,對(duì)小型建筑物的提取效果不佳、提取面積小、數(shù)量少。由于本文對(duì)ASPP中的空洞卷積設(shè)置較小的空洞率,因此本文方法對(duì)小型建筑物的提取面積有所增大,比DeepLabv3+模型提取的建筑物數(shù)量更多,改善了DeepLabv3+漏提和少提現(xiàn)象,邊界信息進(jìn)一步提高,優(yōu)于DeepLabv3+模型提取效果; 對(duì)建筑物錯(cuò)誤提取率較低,提取出的建筑物完整度較高,總體上提取效果較好。但是對(duì)小型建筑物的提取精度仍然有待提高,小型建筑物的邊界信息提取不夠完善,對(duì)具有復(fù)雜邊界的建筑物提取時(shí),其邊界細(xì)節(jié)信息提取不夠精細(xì),對(duì)大型建筑物提取時(shí)偶爾會(huì)出現(xiàn)一些孔洞或提取模糊現(xiàn)象。
表4 WHU和Massachusetts數(shù)據(jù)集建筑物提取結(jié)果
針對(duì)DeepLabv3+網(wǎng)絡(luò)參數(shù)量大的問題,本文對(duì)DeepLabv3+中的主干網(wǎng)絡(luò)進(jìn)行替換,利用MobileNetv2網(wǎng)絡(luò)輕便的特點(diǎn),減少網(wǎng)絡(luò)參數(shù)量、優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),實(shí)驗(yàn)結(jié)果也證明了本文方法的有效性,訓(xùn)練速度和精度得到有效提升; 對(duì)網(wǎng)絡(luò)中ASPP模塊進(jìn)行調(diào)整,將原ASPP模塊中6,12,18的空洞率調(diào)整為4,8,12,16的組合,經(jīng)過對(duì)ASPP模塊的實(shí)驗(yàn)結(jié)果可得出,本文改進(jìn)空洞率的ASPP模塊對(duì)建筑物的提取效果優(yōu)于原空洞率組合的提取效果。本文方法總體上對(duì)遙感影像建筑物的提取精度較高、參數(shù)量少、訓(xùn)練成本更低,能更有效提取遙感影像建筑物。由實(shí)驗(yàn)結(jié)果可看出,本文網(wǎng)絡(luò)對(duì)建筑物提取仍然存在不足,在后續(xù)研究中,繼續(xù)對(duì)ASPP中的空洞率組合和主干網(wǎng)絡(luò)參數(shù)進(jìn)行調(diào)整實(shí)驗(yàn),使其對(duì)小型建筑物能夠達(dá)到更好的提取效果; 根據(jù)邊界損失等思想進(jìn)一步思考,提出能夠提高邊界提取精度的新方法; 考慮在本文模型基礎(chǔ)上加入其他結(jié)構(gòu)和機(jī)制,以此加強(qiáng)網(wǎng)絡(luò)的健壯性和提取效果、能更有效地改善提取模糊和孔洞現(xiàn)象。