林娜,黃韜,孫鵬林,王玉瑩
(重慶交通大學(xué) 智慧城市學(xué)院,重慶 400074)
近年來,高空間分辨率遙感影像的獲取越來越便捷,建筑物作為最常見、最復(fù)雜的地物信息之一,基于高分遙感影像的建筑物提取對(duì)遙感影像制圖、地理信息系統(tǒng)的數(shù)據(jù)獲取和智慧城市建設(shè)具有重要的應(yīng)用價(jià)值。
傳統(tǒng)建筑物提取方法需要人工設(shè)計(jì)特征。2014年,胡榮明等[1]提出了增強(qiáng)形態(tài)學(xué)建筑物指數(shù),利用該指數(shù)和幾何形狀約束提取了高分辨率建筑物輪廓。2017年,林雨準(zhǔn)等[2]綜合利用光譜、形狀、紋理特征和多尺度分割的建筑物分級(jí)提取方法進(jìn)行建筑物提取。傳統(tǒng)建筑物提取方法難以適用于復(fù)雜場(chǎng)景且提取精度較低。
卷積神經(jīng)網(wǎng)絡(luò)擁有強(qiáng)大的特征提取能力,能夠通過訓(xùn)練大量的數(shù)據(jù)集自動(dòng)學(xué)習(xí)特征,使得建筑物自動(dòng)提取成為可能。2015年,出現(xiàn)了全卷積神經(jīng)網(wǎng)絡(luò)[3](fully convolutional networks,F(xiàn)CN),將全連接結(jié)構(gòu)改為卷積結(jié)構(gòu),可以處理任意尺寸的圖像。2018年,張歡等[4]提出一種深層密集反卷積神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)了像素級(jí)別的建筑物提取。2020年,宋廷強(qiáng)等[5]基于SegNet網(wǎng)絡(luò),增加了空間注意力融合模塊和增強(qiáng)的空間金字塔池化模塊,對(duì)建筑物進(jìn)行提取。
上述都是基于全卷積網(wǎng)絡(luò)的建筑物提取,采用語義分割提取建筑物的二值圖。2017年,Ren[6]提出Faster-RCNN網(wǎng)絡(luò),利用區(qū)域生成網(wǎng)絡(luò)(region proposal network,RPN),減少了候選框的數(shù)量,提高了檢測(cè)速度。而He等[7]提出的Mask-RCNN是在Faster-RCNN的基礎(chǔ)上,添加了掩膜分支,能夠?qū)崿F(xiàn)檢測(cè)與提取的并行處理,精度更高。2020年,何代毅等[8]在Mask-RCNN網(wǎng)絡(luò)的設(shè)計(jì)中添加了路徑聚合網(wǎng)絡(luò)和特征增強(qiáng)功能。2020年,徐勝軍等[9]提出了多尺度特征融合的空洞卷積殘差網(wǎng)絡(luò),改善了復(fù)雜場(chǎng)景下建筑物分割邊界不清晰等問題。2020年,瑚敏君等[10]在Mask-RCNN的基礎(chǔ)上,在特征金字塔后再增加一層卷積操作,以降低混疊效應(yīng),但是大小不一的建筑物仍存在輪廓不完整的情況。
綜上,基于Mask-RCNN的相關(guān)改進(jìn)能夠?qū)崿F(xiàn)檢測(cè)與提取的并行處理,提高建筑物提取精度。本文制作了高分遙感影像建筑物提取數(shù)據(jù)集,并提出基于Mask-RCNN的優(yōu)化算法,解決尺寸不一的建筑物提取輪廓不清晰、不完整的問題。
本文以重慶市渝北區(qū)為研究區(qū),WorldView-2高分辨率遙感影像為數(shù)據(jù)源,其多光譜數(shù)據(jù)空間分辨率為1 m,全色數(shù)據(jù)空間分辨率為0.5 m。影像預(yù)處理及數(shù)據(jù)集制作流程如圖1所示。
本文選擇均勻分布、類別充分、具有代表性的區(qū)域制作標(biāo)簽。圖2為代表區(qū)域的數(shù)據(jù)集可視化效果對(duì)比圖,其中,每個(gè)子圖的上圖為原圖,下圖為標(biāo)簽圖。
本文對(duì)原圖和黑白二值圖標(biāo)簽同步進(jìn)行數(shù)據(jù)增強(qiáng),圖3為數(shù)據(jù)增強(qiáng)后的原圖與標(biāo)簽對(duì)比圖。
Mask-RCNN是一種結(jié)構(gòu)清晰的分割網(wǎng)絡(luò),分為特征提取部分、RPN生成候選框、頭部預(yù)測(cè)分支3個(gè)部分,包含邊界框回歸、分類預(yù)測(cè)和二值掩膜。整體網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
特征提取部分由ResNet與特征金字塔網(wǎng)絡(luò)(feature pyramid networks,F(xiàn)PN)構(gòu)成。ResNet網(wǎng)絡(luò)通過添加批量歸一化層和恒等映射結(jié)構(gòu),良好地解決了網(wǎng)絡(luò)退化問題,即當(dāng)網(wǎng)絡(luò)只使用卷積層和池化層,網(wǎng)絡(luò)層數(shù)不斷加深時(shí),經(jīng)過梯度反向傳播,梯度消失或梯度爆炸的情況。
FPN特征金字塔網(wǎng)絡(luò)主要在特征提取的基礎(chǔ)上增加了自上而下的結(jié)構(gòu),讓不同尺度的特征圖之間進(jìn)行特征融合,來增強(qiáng)特征圖表征能力,輸入和輸出的特征圖都是多個(gè)不同尺度的特征圖。
1)優(yōu)化FPN結(jié)構(gòu)。FPN在特征融合之前,特征提取主干網(wǎng)絡(luò)的不同階段提取到的特征先經(jīng)過1×1卷積進(jìn)行降維,降到通道數(shù)相同后進(jìn)行特征融合。但是,不同階段的特征感受野大小不一樣。感受野即特征圖上的點(diǎn)對(duì)應(yīng)回原圖上的大小,包含的語義信息不同,將他們的特征直接相加,會(huì)減弱特征提取能力,特別是尺度差別較大的場(chǎng)景,提取效果下降。
因此,本文提出了一種優(yōu)化特征金字塔網(wǎng)格,添加了更多的橫向連接、恒等連接、自上而下和自下而上的路徑。圖5為優(yōu)化特征金字塔網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)圖,在每個(gè)特征圖上使用1×1卷積來與相鄰路徑中的相應(yīng)特征融合,藍(lán)色虛線部分為恒等連接,橫向的藍(lán)色實(shí)線表示經(jīng)過1×1的卷積改變通道數(shù)。豎向的藍(lán)色實(shí)線是自下而上的路徑,為了縮短從淺層路徑中的低層特征到深層路徑中的高層特征的路徑,低層特征圖通過步長(zhǎng)為2的3×3卷積降采樣為一半大小,然后與高級(jí)特征圖融合。綠色實(shí)線為跨層上采樣連接,使用最鄰近上采樣對(duì)高層特征圖進(jìn)行上采樣,然后使用3×3卷積使上采樣特征圖與低層特征圖相融合。最后和FPN類似,輸出5個(gè)特征圖送入后續(xù)RPN網(wǎng)絡(luò)和ROI Align層。比起傳統(tǒng)FPN,優(yōu)化FPN將更多的低層幾何信息與高層語義信息相融合,提高尺度較小建筑物的識(shí)別精度與尺度較大建筑物的定位精度,并且避免了直接相加造成的特征表達(dá)能力減弱。
2)優(yōu)化NMS算法。非極大值抑制(non-maximum suppression,NMS)的作用是去除預(yù)測(cè)階段產(chǎn)生的重疊檢測(cè)邊界框。NMS的不足是當(dāng)建筑物較為密集的時(shí)候,由于重疊度很高的兩個(gè)建筑物會(huì)被當(dāng)作是同一個(gè)物體,導(dǎo)致刪除掉其中得分較低的建筑物而出現(xiàn)漏檢。
本文用Soft-NMS替換原始NMS算法。Soft-NMS算法是在每輪迭代時(shí),先選擇分?jǐn)?shù)最高的預(yù)測(cè)框作為M框,并對(duì)每一個(gè)有重疊度相鄰檢測(cè)邊界框bi分?jǐn)?shù)重新計(jì)算,越是與M框重疊度高的檢測(cè)邊界框,得分減少越多,當(dāng)該框的新分?jǐn)?shù)低于某設(shè)定閾值時(shí),將該框刪除。重新計(jì)算分?jǐn)?shù)用到的高斯權(quán)重函數(shù)如式(1)所示。
(1)
式中:bi為待處理的邊界框;si為bi框更新得分;σ為設(shè)置的超參數(shù)。
Soft-NMS可以在不增加計(jì)算量的前提下改善NMS的不足。
本次實(shí)驗(yàn)的硬件環(huán)境如下:中央處理器為AMD R7 3700X @ 3.60 GHz,內(nèi)存為16 GB,顯卡為NVIDIA RTX2060。
采用遷移學(xué)習(xí)與交叉驗(yàn)證的方法,使用ImageNet數(shù)據(jù)集上的ResNet-50預(yù)訓(xùn)練模型的參數(shù),節(jié)省訓(xùn)練時(shí)間。交叉驗(yàn)證可以有效地避免因數(shù)據(jù)集劃分的隨機(jī)性而引起的模型不穩(wěn)定問題,提升模型的魯棒性。
實(shí)驗(yàn)數(shù)據(jù)采用自制的重慶市渝北區(qū)數(shù)據(jù)集,一共有大小為1 024像素×1 024像素的圖片2 900張。本次實(shí)驗(yàn)選取5折交叉驗(yàn)證,即利用固定隨機(jī)種子將原圖和標(biāo)簽圖同時(shí)化分成5等份,即每份為580張影像,每次輪流將其中4份作為訓(xùn)練集,1份作為驗(yàn)證集,一共進(jìn)行5次實(shí)驗(yàn),每次實(shí)驗(yàn)都會(huì)得出相應(yīng)的模型和精度,5次結(jié)果的平均值作為對(duì)算法精度的估計(jì)。依據(jù)經(jīng)驗(yàn)初始學(xué)習(xí)率設(shè)為0.002 5,訓(xùn)練過程使用SGD優(yōu)化方法,迭代次數(shù)設(shè)為30 000次。
選取準(zhǔn)確率ACC、平均精確率AP、損失值Loss為評(píng)價(jià)指標(biāo),Mask-RCNN的損失函數(shù)分為分類損失函數(shù)、回歸損失函數(shù)與mask損失函數(shù),表達(dá)式如式(2)至式(5)所示。
Loss=Lcls+Lbbox+Lmask
(2)
(3)
(4)
(5)
式中:TP是預(yù)測(cè)為正,實(shí)際為正的數(shù)目;TN是預(yù)測(cè)為負(fù),實(shí)際為負(fù)的數(shù)目;FP是預(yù)測(cè)為正,實(shí)際為負(fù)的數(shù)目;FN是預(yù)測(cè)為負(fù),實(shí)際為正的數(shù)目;ACC準(zhǔn)確率為所有的預(yù)測(cè)中預(yù)測(cè)正確的占比;Precision精確率是從預(yù)測(cè)角度來看,正類被預(yù)測(cè)為正類的個(gè)數(shù)占總的正類預(yù)測(cè)個(gè)數(shù)的比例,也叫查準(zhǔn)率;AP為在不同IoU下的平均精確值。
本次實(shí)驗(yàn)將原始的以ResNet-50為特征提取主干網(wǎng)絡(luò)的Mask-RCNN稱為Mask-RCNN+ResNet-50,將本文提出的優(yōu)化FPN結(jié)構(gòu)與優(yōu)化NMS算法稱為優(yōu)化Mask-RCNN,二者共同在數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。
圖6為訓(xùn)練過程損失值變化曲線圖,圖中藍(lán)色線為Mask-RCNN+ResNet-50算法,橙色線為優(yōu)化Mask-RCNN算法??梢钥闯?,優(yōu)化Mask-RCNN的曲線震蕩幅度更小,最后得到的損失值更低,說明優(yōu)化后的算法提升了穩(wěn)定性,得到了更高的提取精度。
圖7為兩種算法在同一測(cè)試集上的結(jié)果對(duì)比圖,上面為Mask-RCNN+ResNet-50算法的建筑物提取結(jié)果,下面為優(yōu)化Mask-RCNN算法的建筑物提取結(jié)果,黃色邊框?yàn)闄z測(cè)的類別與得分,內(nèi)部紫色為建筑物輪廓掩膜。圖7(a)為尺度較大的廠房區(qū),Mask-RCNN+ResNet-50算法存在漏檢且邊界超出廠房范圍,導(dǎo)致掩膜不準(zhǔn)確,優(yōu)化后的算法很好地解決了此問題。圖7(b)為高層建筑物區(qū),算法都很好地進(jìn)行了提取,優(yōu)化后的算法邊界框得分更高,表示精度更高,且沒有出現(xiàn)建筑物粘連的情況。圖7(c)為尺度較小的別墅區(qū),Mask-RCNN+ResNet-50算法存在漏檢的建筑物,優(yōu)化算法在添加更多的路徑融合后,提升了特征提取的能力,漏檢數(shù)明顯減少。圖7(d)為密集的鄉(xiāng)鎮(zhèn)區(qū),背景復(fù)雜,土地紋理特征類似,建筑物尺寸小且密集,Mask-RCNN+ResNet-50算法存在較多誤檢和漏檢,優(yōu)化算法漏檢數(shù)減少,在面對(duì)復(fù)雜背景區(qū)域的影響下,魯棒性更強(qiáng)。
表1為算法在數(shù)據(jù)集上交叉驗(yàn)證實(shí)驗(yàn)的定量結(jié)果對(duì)比。從表1可以看出,本文提出的優(yōu)化Mask-RCNN算法準(zhǔn)確率為93.01%,與Mask-RCNN+ResNet-50相比提高了4.84個(gè)百分點(diǎn),在IoU閾值為0.5時(shí),優(yōu)化Mask-RCNN算法的平均精確率為88.4%,與Mask-RCNN+ResNet-50相比提高了4.9個(gè)百分點(diǎn),IoU閾值越大,對(duì)算法定位的準(zhǔn)確性要求越高,所以平均精確率有所下降,但是依然優(yōu)于原始Mask-RCNN算法,優(yōu)化算法的整體分類、定位與掩膜精度更高。
表1 交叉驗(yàn)證測(cè)試結(jié)果對(duì)比 %
本文針對(duì)國(guó)內(nèi)高分辨率遙感影像建筑物數(shù)據(jù)集不足的情況,選取了重慶市渝北區(qū)0.5 m分辨率的遙感影像,制作了實(shí)地面積約70 km2建筑物提取數(shù)據(jù)集。本文在Mask-RCNN的特征融合階段,融合更多的橫向連接、自下而上和自上而下路徑,更有利于大建筑物和小建筑物的統(tǒng)一識(shí)別。對(duì)于在數(shù)據(jù)集上的交叉驗(yàn)證實(shí)驗(yàn)結(jié)果,本文所提出的優(yōu)化Mask-RCNN算法平均精度AP為88.4%,與Mask-RCNN+ResNet-50相比提高了4.9個(gè)百分點(diǎn),漏檢更少,邊界框更貼合,建筑物輪廓掩膜效果更好。
本文的不足之處為采用的二階段檢測(cè)計(jì)算量大,相比一階段檢測(cè)計(jì)算速度慢、顯存占用大。如何在保證精度的前提下,對(duì)高分遙感影像建筑物進(jìn)行實(shí)時(shí)檢測(cè)與分割是研究的重點(diǎn)與難點(diǎn)。