亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

優(yōu)化Mask-RCNN的高分遙感影像建筑物提取

2022-09-10 13:53:36林娜黃韜孫鵬林王玉瑩

遙感信息 2022年3期

林娜，黃韜，孫鵬林，王玉瑩

(重慶交通大學(xué) 智慧城市學(xué)院，重慶 400074)

0 引言

近年來，高空間分辨率遙感影像的獲取越來越便捷，建筑物作為最常見、最復(fù)雜的地物信息之一，基于高分遙感影像的建筑物提取對(duì)遙感影像制圖、地理信息系統(tǒng)的數(shù)據(jù)獲取和智慧城市建設(shè)具有重要的應(yīng)用價(jià)值。

傳統(tǒng)建筑物提取方法需要人工設(shè)計(jì)特征。2014年，胡榮明等[1]提出了增強(qiáng)形態(tài)學(xué)建筑物指數(shù)，利用該指數(shù)和幾何形狀約束提取了高分辨率建筑物輪廓。2017年，林雨準(zhǔn)等[2]綜合利用光譜、形狀、紋理特征和多尺度分割的建筑物分級(jí)提取方法進(jìn)行建筑物提取。傳統(tǒng)建筑物提取方法難以適用于復(fù)雜場(chǎng)景且提取精度較低。

卷積神經(jīng)網(wǎng)絡(luò)擁有強(qiáng)大的特征提取能力，能夠通過訓(xùn)練大量的數(shù)據(jù)集自動(dòng)學(xué)習(xí)特征，使得建筑物自動(dòng)提取成為可能。2015年，出現(xiàn)了全卷積神經(jīng)網(wǎng)絡(luò)[3](fully convolutional networks，F(xiàn)CN)，將全連接結(jié)構(gòu)改為卷積結(jié)構(gòu)，可以處理任意尺寸的圖像。2018年，張歡等[4]提出一種深層密集反卷積神經(jīng)網(wǎng)絡(luò)，實(shí)現(xiàn)了像素級(jí)別的建筑物提取。2020年，宋廷強(qiáng)等[5]基于SegNet網(wǎng)絡(luò)，增加了空間注意力融合模塊和增強(qiáng)的空間金字塔池化模塊，對(duì)建筑物進(jìn)行提取。

上述都是基于全卷積網(wǎng)絡(luò)的建筑物提取，采用語義分割提取建筑物的二值圖。2017年，Ren[6]提出Faster-RCNN網(wǎng)絡(luò)，利用區(qū)域生成網(wǎng)絡(luò)(region proposal network，RPN)，減少了候選框的數(shù)量，提高了檢測(cè)速度。而He等[7]提出的Mask-RCNN是在Faster-RCNN的基礎(chǔ)上，添加了掩膜分支，能夠?qū)崿F(xiàn)檢測(cè)與提取的并行處理，精度更高。2020年，何代毅等[8]在Mask-RCNN網(wǎng)絡(luò)的設(shè)計(jì)中添加了路徑聚合網(wǎng)絡(luò)和特征增強(qiáng)功能。2020年，徐勝軍等[9]提出了多尺度特征融合的空洞卷積殘差網(wǎng)絡(luò)，改善了復(fù)雜場(chǎng)景下建筑物分割邊界不清晰等問題。2020年，瑚敏君等[10]在Mask-RCNN的基礎(chǔ)上，在特征金字塔后再增加一層卷積操作，以降低混疊效應(yīng)，但是大小不一的建筑物仍存在輪廓不完整的情況。

綜上，基于Mask-RCNN的相關(guān)改進(jìn)能夠?qū)崿F(xiàn)檢測(cè)與提取的并行處理，提高建筑物提取精度。本文制作了高分遙感影像建筑物提取數(shù)據(jù)集，并提出基于Mask-RCNN的優(yōu)化算法，解決尺寸不一的建筑物提取輪廓不清晰、不完整的問題。

1 研究區(qū)數(shù)據(jù)

本文以重慶市渝北區(qū)為研究區(qū)，WorldView-2高分辨率遙感影像為數(shù)據(jù)源，其多光譜數(shù)據(jù)空間分辨率為1 m，全色數(shù)據(jù)空間分辨率為0.5 m。影像預(yù)處理及數(shù)據(jù)集制作流程如圖1所示。

1.1 數(shù)據(jù)集制作

本文選擇均勻分布、類別充分、具有代表性的區(qū)域制作標(biāo)簽。圖2為代表區(qū)域的數(shù)據(jù)集可視化效果對(duì)比圖，其中，每個(gè)子圖的上圖為原圖，下圖為標(biāo)簽圖。

1.2 數(shù)據(jù)集增強(qiáng)

本文對(duì)原圖和黑白二值圖標(biāo)簽同步進(jìn)行數(shù)據(jù)增強(qiáng)，圖3為數(shù)據(jù)增強(qiáng)后的原圖與標(biāo)簽對(duì)比圖。

2 基于優(yōu)化Mask-RCNN的建筑物提取算法

2.1 Mask-RCNN基本原理

Mask-RCNN是一種結(jié)構(gòu)清晰的分割網(wǎng)絡(luò)，分為特征提取部分、RPN生成候選框、頭部預(yù)測(cè)分支3個(gè)部分，包含邊界框回歸、分類預(yù)測(cè)和二值掩膜。整體網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。

特征提取部分由ResNet與特征金字塔網(wǎng)絡(luò)(feature pyramid networks，F(xiàn)PN)構(gòu)成。ResNet網(wǎng)絡(luò)通過添加批量歸一化層和恒等映射結(jié)構(gòu)，良好地解決了網(wǎng)絡(luò)退化問題，即當(dāng)網(wǎng)絡(luò)只使用卷積層和池化層，網(wǎng)絡(luò)層數(shù)不斷加深時(shí)，經(jīng)過梯度反向傳播，梯度消失或梯度爆炸的情況。

FPN特征金字塔網(wǎng)絡(luò)主要在特征提取的基礎(chǔ)上增加了自上而下的結(jié)構(gòu)，讓不同尺度的特征圖之間進(jìn)行特征融合，來增強(qiáng)特征圖表征能力，輸入和輸出的特征圖都是多個(gè)不同尺度的特征圖。

2.2 優(yōu)化Mask-RCNN

1)優(yōu)化FPN結(jié)構(gòu)。FPN在特征融合之前，特征提取主干網(wǎng)絡(luò)的不同階段提取到的特征先經(jīng)過1×1卷積進(jìn)行降維，降到通道數(shù)相同后進(jìn)行特征融合。但是，不同階段的特征感受野大小不一樣。感受野即特征圖上的點(diǎn)對(duì)應(yīng)回原圖上的大小，包含的語義信息不同，將他們的特征直接相加，會(huì)減弱特征提取能力，特別是尺度差別較大的場(chǎng)景，提取效果下降。

因此，本文提出了一種優(yōu)化特征金字塔網(wǎng)格，添加了更多的橫向連接、恒等連接、自上而下和自下而上的路徑。圖5為優(yōu)化特征金字塔網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)圖，在每個(gè)特征圖上使用1×1卷積來與相鄰路徑中的相應(yīng)特征融合，藍(lán)色虛線部分為恒等連接，橫向的藍(lán)色實(shí)線表示經(jīng)過1×1的卷積改變通道數(shù)。豎向的藍(lán)色實(shí)線是自下而上的路徑，為了縮短從淺層路徑中的低層特征到深層路徑中的高層特征的路徑，低層特征圖通過步長(zhǎng)為2的3×3卷積降采樣為一半大小，然后與高級(jí)特征圖融合。綠色實(shí)線為跨層上采樣連接，使用最鄰近上采樣對(duì)高層特征圖進(jìn)行上采樣，然后使用3×3卷積使上采樣特征圖與低層特征圖相融合。最后和FPN類似，輸出5個(gè)特征圖送入后續(xù)RPN網(wǎng)絡(luò)和ROI Align層。比起傳統(tǒng)FPN，優(yōu)化FPN將更多的低層幾何信息與高層語義信息相融合，提高尺度較小建筑物的識(shí)別精度與尺度較大建筑物的定位精度，并且避免了直接相加造成的特征表達(dá)能力減弱。

2)優(yōu)化NMS算法。非極大值抑制(non-maximum suppression，NMS)的作用是去除預(yù)測(cè)階段產(chǎn)生的重疊檢測(cè)邊界框。NMS的不足是當(dāng)建筑物較為密集的時(shí)候，由于重疊度很高的兩個(gè)建筑物會(huì)被當(dāng)作是同一個(gè)物體，導(dǎo)致刪除掉其中得分較低的建筑物而出現(xiàn)漏檢。

本文用Soft-NMS替換原始NMS算法。Soft-NMS算法是在每輪迭代時(shí)，先選擇分?jǐn)?shù)最高的預(yù)測(cè)框作為M框，并對(duì)每一個(gè)有重疊度相鄰檢測(cè)邊界框bi分?jǐn)?shù)重新計(jì)算，越是與M框重疊度高的檢測(cè)邊界框，得分減少越多，當(dāng)該框的新分?jǐn)?shù)低于某設(shè)定閾值時(shí)，將該框刪除。重新計(jì)算分?jǐn)?shù)用到的高斯權(quán)重函數(shù)如式(1)所示。

(1)

式中：bi為待處理的邊界框；si為bi框更新得分；σ為設(shè)置的超參數(shù)。

Soft-NMS可以在不增加計(jì)算量的前提下改善NMS的不足。

3 實(shí)驗(yàn)與分析

本次實(shí)驗(yàn)的硬件環(huán)境如下：中央處理器為AMD R7 3700X @ 3.60 GHz，內(nèi)存為16 GB，顯卡為NVIDIA RTX2060。

3.1 實(shí)驗(yàn)方法

采用遷移學(xué)習(xí)與交叉驗(yàn)證的方法，使用ImageNet數(shù)據(jù)集上的ResNet-50預(yù)訓(xùn)練模型的參數(shù)，節(jié)省訓(xùn)練時(shí)間。交叉驗(yàn)證可以有效地避免因數(shù)據(jù)集劃分的隨機(jī)性而引起的模型不穩(wěn)定問題，提升模型的魯棒性。

實(shí)驗(yàn)數(shù)據(jù)采用自制的重慶市渝北區(qū)數(shù)據(jù)集，一共有大小為1 024像素×1 024像素的圖片2 900張。本次實(shí)驗(yàn)選取5折交叉驗(yàn)證，即利用固定隨機(jī)種子將原圖和標(biāo)簽圖同時(shí)化分成5等份，即每份為580張影像，每次輪流將其中4份作為訓(xùn)練集，1份作為驗(yàn)證集，一共進(jìn)行5次實(shí)驗(yàn)，每次實(shí)驗(yàn)都會(huì)得出相應(yīng)的模型和精度，5次結(jié)果的平均值作為對(duì)算法精度的估計(jì)。依據(jù)經(jīng)驗(yàn)初始學(xué)習(xí)率設(shè)為0.002 5，訓(xùn)練過程使用SGD優(yōu)化方法，迭代次數(shù)設(shè)為30 000次。

3.2 評(píng)價(jià)指標(biāo)

選取準(zhǔn)確率ACC、平均精確率AP、損失值Loss為評(píng)價(jià)指標(biāo)，Mask-RCNN的損失函數(shù)分為分類損失函數(shù)、回歸損失函數(shù)與mask損失函數(shù)，表達(dá)式如式(2)至式(5)所示。

Loss=Lcls+Lbbox+Lmask

(2)

(3)

(4)

(5)

式中：TP是預(yù)測(cè)為正，實(shí)際為正的數(shù)目；TN是預(yù)測(cè)為負(fù)，實(shí)際為負(fù)的數(shù)目；FP是預(yù)測(cè)為正，實(shí)際為負(fù)的數(shù)目；FN是預(yù)測(cè)為負(fù)，實(shí)際為正的數(shù)目；ACC準(zhǔn)確率為所有的預(yù)測(cè)中預(yù)測(cè)正確的占比；Precision精確率是從預(yù)測(cè)角度來看，正類被預(yù)測(cè)為正類的個(gè)數(shù)占總的正類預(yù)測(cè)個(gè)數(shù)的比例，也叫查準(zhǔn)率；AP為在不同IoU下的平均精確值。

3.3 結(jié)果分析

本次實(shí)驗(yàn)將原始的以ResNet-50為特征提取主干網(wǎng)絡(luò)的Mask-RCNN稱為Mask-RCNN+ResNet-50，將本文提出的優(yōu)化FPN結(jié)構(gòu)與優(yōu)化NMS算法稱為優(yōu)化Mask-RCNN，二者共同在數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。

圖6為訓(xùn)練過程損失值變化曲線圖，圖中藍(lán)色線為Mask-RCNN+ResNet-50算法，橙色線為優(yōu)化Mask-RCNN算法?？梢钥闯?，優(yōu)化Mask-RCNN的曲線震蕩幅度更小，最后得到的損失值更低，說明優(yōu)化后的算法提升了穩(wěn)定性，得到了更高的提取精度。

圖7為兩種算法在同一測(cè)試集上的結(jié)果對(duì)比圖，上面為Mask-RCNN+ResNet-50算法的建筑物提取結(jié)果，下面為優(yōu)化Mask-RCNN算法的建筑物提取結(jié)果，黃色邊框?yàn)闄z測(cè)的類別與得分，內(nèi)部紫色為建筑物輪廓掩膜。圖7(a)為尺度較大的廠房區(qū)，Mask-RCNN+ResNet-50算法存在漏檢且邊界超出廠房范圍，導(dǎo)致掩膜不準(zhǔn)確，優(yōu)化后的算法很好地解決了此問題。圖7(b)為高層建筑物區(qū)，算法都很好地進(jìn)行了提取，優(yōu)化后的算法邊界框得分更高，表示精度更高，且沒有出現(xiàn)建筑物粘連的情況。圖7(c)為尺度較小的別墅區(qū)，Mask-RCNN+ResNet-50算法存在漏檢的建筑物，優(yōu)化算法在添加更多的路徑融合后，提升了特征提取的能力，漏檢數(shù)明顯減少。圖7(d)為密集的鄉(xiāng)鎮(zhèn)區(qū)，背景復(fù)雜，土地紋理特征類似，建筑物尺寸小且密集，Mask-RCNN+ResNet-50算法存在較多誤檢和漏檢，優(yōu)化算法漏檢數(shù)減少，在面對(duì)復(fù)雜背景區(qū)域的影響下，魯棒性更強(qiáng)。

表1為算法在數(shù)據(jù)集上交叉驗(yàn)證實(shí)驗(yàn)的定量結(jié)果對(duì)比。從表1可以看出，本文提出的優(yōu)化Mask-RCNN算法準(zhǔn)確率為93.01%，與Mask-RCNN+ResNet-50相比提高了4.84個(gè)百分點(diǎn)，在IoU閾值為0.5時(shí)，優(yōu)化Mask-RCNN算法的平均精確率為88.4%，與Mask-RCNN+ResNet-50相比提高了4.9個(gè)百分點(diǎn)，IoU閾值越大，對(duì)算法定位的準(zhǔn)確性要求越高，所以平均精確率有所下降，但是依然優(yōu)于原始Mask-RCNN算法，優(yōu)化算法的整體分類、定位與掩膜精度更高。

表1 交叉驗(yàn)證測(cè)試結(jié)果對(duì)比 %

4 結(jié)束語

本文針對(duì)國(guó)內(nèi)高分辨率遙感影像建筑物數(shù)據(jù)集不足的情況，選取了重慶市渝北區(qū)0.5 m分辨率的遙感影像，制作了實(shí)地面積約70 km2建筑物提取數(shù)據(jù)集。本文在Mask-RCNN的特征融合階段，融合更多的橫向連接、自下而上和自上而下路徑，更有利于大建筑物和小建筑物的統(tǒng)一識(shí)別。對(duì)于在數(shù)據(jù)集上的交叉驗(yàn)證實(shí)驗(yàn)結(jié)果，本文所提出的優(yōu)化Mask-RCNN算法平均精度AP為88.4%，與Mask-RCNN+ResNet-50相比提高了4.9個(gè)百分點(diǎn)，漏檢更少，邊界框更貼合，建筑物輪廓掩膜效果更好。

本文的不足之處為采用的二階段檢測(cè)計(jì)算量大，相比一階段檢測(cè)計(jì)算速度慢、顯存占用大。如何在保證精度的前提下，對(duì)高分遙感影像建筑物進(jìn)行實(shí)時(shí)檢測(cè)與分割是研究的重點(diǎn)與難點(diǎn)。