江寶得,黃 威,許少芬,巫 勇
1. 中國地質(zhì)大學(xué)(武漢)計算機學(xué)院,湖北 武漢 430074; 2. 中國地質(zhì)大學(xué)(武漢)國家地理信息系統(tǒng)工程技術(shù)研究中心,湖北 武漢 430074
建筑物數(shù)據(jù)在城市規(guī)劃、災(zāi)害評估及數(shù)字城市建設(shè)等領(lǐng)域發(fā)揮著重要的基礎(chǔ)數(shù)據(jù)作用[1]。近年來,隨著對地觀測技術(shù)的飛速發(fā)展,利用高分辨率遙感影像快速提取大范圍建筑物數(shù)據(jù)成為當(dāng)前研究的一個熱點[2]。然而,遙感影像中建筑物種類繁多、尺度大小不一、形狀各異、所處背景復(fù)雜,導(dǎo)致從遙感影像中自動提取建筑物十分具有挑戰(zhàn)性[2]。傳統(tǒng)方法大多基于遙感圖像的淺層視覺特征,如光譜、紋理、幾何及上下文信息等,通過人工設(shè)計特征等方法進行建筑物輪廓提取,其適應(yīng)性受到很大的限制[3]。
近年來,深度學(xué)習(xí)算法特別是卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)在圖像分類、目標(biāo)識別及語義分割等任務(wù)中取得了重大突破,已逐漸發(fā)展成為遙感影像建筑物自動提取的主流方法[4]。其中,文獻[5]提出的全卷積網(wǎng)絡(luò)(fully convolutional networks,FCN)及其改進算法[6]被廣泛應(yīng)用于遙感影像語義分割。然而,由于遙感影像中建筑物的紋理和尺度差異較大,FCN難以充分把握不同尺度的建筑物特征,導(dǎo)致FCN進行建筑物輪廓提取時容易出現(xiàn)漏提或提取結(jié)果不完整的情況[7]。為了充分利用多尺度特征圖蘊含的語義信息,文獻[8]提出了特征金字塔網(wǎng)絡(luò)(feature pyramid network,FPN)模型,通過將分辨率低但具有較強語義信息的全局特征與分辨率較高但語義較弱的細(xì)節(jié)特征相融合,實現(xiàn)了語義信息的增強。但由于FPN結(jié)構(gòu)所融合的兩組特征圖內(nèi)部缺乏聯(lián)系交流,且融合時忽略了淺層特征和深層特征之間的語義差距,最終導(dǎo)致分割結(jié)果中的小尺度建筑物丟失及建筑物邊界模糊等問題。注意力機制的提出能夠捕獲不同空間或不同通道的卷積特征之間的依賴性,從而實現(xiàn)特征之間的全局關(guān)系分析。引入注意力機制能夠有效地提高分割算法的性能,如文獻[9]利用多任務(wù)并行注意力網(wǎng)絡(luò)實現(xiàn)建筑物提取,有效地提高了模型的分割準(zhǔn)確率;文獻[10]將SE-attention[11]融入殘差R-CNN(region convolutional neural network)模塊中,提升了建筑物的邊界信息;文獻[12]設(shè)計了通道注意力擠壓模塊用于自適應(yīng)的衡量并行多尺度路徑中每個通道的權(quán)重,進而獲得了多層次建筑物定位的細(xì)節(jié)信息及豐富的語義信息。盡管這些方法在建筑物提取方面取得了較好的效果,但是它們大多無法區(qū)分相連的建筑物,難以實現(xiàn)建筑物實例分割提取。
為了實現(xiàn)建筑物實例提取,實例分割的方法也被應(yīng)用到建筑物的掩膜提取中。目前主流的實例分割方法可以分為兩大類。一類是基于檢測的方法,首先檢測每個實例區(qū)域,然后在檢測區(qū)域內(nèi)進行掩碼預(yù)測,最后將每個預(yù)測結(jié)果作為不同的實例輸出。如文獻[13]提出的Mask R-CNN,在Faster R-CNN[14]目標(biāo)檢測基礎(chǔ)上添加了一個分割分支來實現(xiàn)實例分割;文獻[15]提出了一種混合任務(wù)級聯(lián)框架,將檢測和分割交織在一起進行聯(lián)合多階段處理,有效提升了實例分割的效果。另一類是基于像素聚類的方法,首先預(yù)測每個像素的類別標(biāo)簽,然后使用聚類方法對它們進行分組以形成實例分割結(jié)果。如文獻[16]提出的基于像素實例分割方法(single-shot instance segmentation with affinity pyramid,SSAP),采用語義分割和親和力金字塔聯(lián)合學(xué)習(xí)來生成多尺度實例預(yù)測;文獻[17]利用像素嵌入來區(qū)別相連的實例。由于輸入數(shù)據(jù)的特征圖上往往存在大量特征平滑區(qū)域(即相鄰像素點的分類標(biāo)簽一致),如果在高分辨率的特征圖下對每一個像素點進行分類預(yù)測,會導(dǎo)致計算冗余。因此,為了平衡欠采樣和過采樣,實例分割算法通常選擇一個較低的圖像分辨率對像素點進行分類預(yù)測,如語義分割選用輸入圖像的1/8大小的特征圖進行分割[5],實例分割采用大小為28×28的特征圖[13]。而較低的分辨率會導(dǎo)致圖像分割的邊界不夠清晰,出現(xiàn)邊界模糊的問題。針對此問題,不少研究提出了一些改進方法,如文獻[18]在分割網(wǎng)絡(luò)的最后一層引入二次訓(xùn)練條件隨機場作為后處理模塊,對分割結(jié)果進行優(yōu)化;文獻[19]在分割網(wǎng)絡(luò)中引入一個專注于邊界信息處理的分支,通過訓(xùn)練聯(lián)合邊界感知損失的損失函數(shù)來獲得分割結(jié)果;文獻[20]引入了整體嵌套邊緣檢測模塊來增強邊界的提取;文獻[7]設(shè)計了一種殘差細(xì)化模塊,用于進一步細(xì)化建筑物的邊界。但是這些改進方法又大多難以同時兼顧不同尺度大小的建筑物,導(dǎo)致小尺度建筑物不同程度的漏檢。
綜上所述,雖然基于深度學(xué)習(xí)的方法在遙感影像建筑物自動提取方面已經(jīng)取得了不少成果,但是現(xiàn)有方法在不同程度上仍難以同時兼顧不同尺度大小的建筑物實例精確提取,存在小尺度建筑物漏檢、提取的建筑物輪廓邊界模糊及無法區(qū)分單個建筑物實例等問題。針對這些問題,本文提出一種融合分散自適應(yīng)注意力機制的多尺度遙感影像建筑物實例細(xì)化提取方法(multi-scale building instance refinement extraction convolutional neural network,MBRef-CNN),用于實現(xiàn)遙感影像中不同尺度大小的建筑物輪廓精確自動提取。通過MBRef-CNN在特征金字塔結(jié)構(gòu)的骨干網(wǎng)絡(luò)中引入分散自適應(yīng)注意力機制,以聚合多尺度上下文信息,來保留不同尺度建筑物的特征,從而提高對小尺度建筑物的檢測能力;并在實例分割分支中引入細(xì)化特征分支對建筑物的模糊邊界進行處理,以提高掩膜邊界的精度。
本文提出的融合分散自適應(yīng)注意力機制的多尺度遙感影像建筑物實例細(xì)化提取模型(MBRef-CNN)主要由3部分組成:分散自適應(yīng)注意力機制的多尺度特征提取網(wǎng)絡(luò)(split attention-feature pyramid network,SA-FPN)、區(qū)域候選網(wǎng)絡(luò)(region proposal network,RPN)和邊界細(xì)化網(wǎng)絡(luò)(boundary representation network,BndRN),如圖1所示。首先,將高分辨率遙感影像輸入到SA-FPN中,通過SA-FPN來提取并融合建筑物的多尺度特征;其次,使用RPN從上一步的多尺度特征圖中進行建筑物實例搜索,并采用ROI Align將特征圖處理成特定大小;然后輸入到分割分支中得到粗分割結(jié)果;最后,采用BndRN對粗分割結(jié)果的邊緣像素點進行迭代精細(xì)化處理,直至得到高精度的掩膜結(jié)果。該模型可實現(xiàn)端到端的訓(xùn)練,能自適應(yīng)遙感影像建筑物的多尺度特征,實現(xiàn)不同大小的建筑物實例提取,同時精細(xì)化建筑物實例的邊界。下面對各組成部分進行詳細(xì)介紹。
圖1 本文提出的MBRef-CNN模型總體架構(gòu)Fig.1 Overview of the proposed MBRef-CNN model
遙感影像中的建筑物尺度大小不一,普通的卷積網(wǎng)絡(luò)在下采樣過程中容易丟失小尺度的建筑物信息。為了增強卷積網(wǎng)絡(luò)對全局信息與細(xì)節(jié)信息的綜合感知,提高建筑物的檢測精度,本文采用SA-FPN來獲取建筑物的多尺度卷積特征。SA-FPN的結(jié)構(gòu)如圖2所示,該網(wǎng)絡(luò)主要由3部分組成。第一部分為自底向上的特征提取結(jié)構(gòu),這一部分使用分散注意力塊(split-attention block,SA block)[21]以重構(gòu)模型的主干網(wǎng)絡(luò),該模塊通過分組卷積來實現(xiàn)更細(xì)粒度的建筑物特征提取,并引入通道注意力機制[22]賦予特征通道以不同權(quán)重,從而增強建筑物特征的表達。此部分經(jīng)由5個階段的卷積操作逐步降低特征的分辨率,擴大卷積核的感受野,得到頂層全局特征,每個階段輸出的特征圖分別為{C1,C2,C3,C4,C5},其相對于原始輸入圖像的尺寸比例分別為{1/2,1/4,1/8,1/16,1/32}。第二部分為橫向特征連接路徑,將第一部分輸出的特征圖{C2,C3,C4,C5}分別經(jīng)過一個1×1卷積,用于將通道數(shù)量統(tǒng)一到256維,得到{M2,M3,M4,M5},這些在不同感受野層次下的特征圖分別具有建筑物的低級視覺特征和高級語義特征信息。第三部分為自頂向下的特征融合路徑,通過將高層特征與底層特征融合,實現(xiàn)圖像全局特征與細(xì)節(jié)特征的充分感知以及多尺度特征的耦合,從而提高小尺度建筑物的分割提取精度。
圖2 SA-FPN結(jié)構(gòu)細(xì)節(jié)Fig.2 Structure details of SA-FPN
另外,第一部分中的分散注意力塊的具體結(jié)構(gòu)如圖3所示。將輸入的特征圖使用分組卷積分為32個大組,并對每個大組應(yīng)用不同卷積核參數(shù)學(xué)習(xí)組別間多樣化細(xì)節(jié)特征。每個大組內(nèi)部先采用1×1卷積降低通道數(shù)減少計算量,再將其按通道數(shù)拆分為兩個小組。對每個小組進行3×3卷積升維增加特征表達的健壯性。每個小組經(jīng)過一系列映射運算后再進行通道注意力操作(如圖4所示)。其過程是:首先,將兩個拆分小組相加融合,并進行全局池化,得到1×1×C的特征圖;其次,將這個向量輸入全連接層生成1×d的向量;然后,再將此向量通過兩個r-SoftMax函數(shù)[23]計算得到兩個d維的權(quán)重向量;最后,將得到的兩個權(quán)重向量分別與兩個原始分支split 1和split 2相乘,從而實現(xiàn)對兩個分支的特征圖進行自適應(yīng)注意力機制的逐通道權(quán)重設(shè)置。由于不同通道的特征圖對建筑物的特征表達程度不同,因此,通過引入通道自適應(yīng)注意力機制能為通道賦予不同權(quán)重,增強建筑物特征的表達能力;而分組卷積策略符合人眼視覺觀察的分治機制,能夠?qū)崿F(xiàn)對特征圖進行更細(xì)粒度的信息提取,從而提高對小尺度建筑物的檢測識別能力。
圖3 分散組卷積塊 圖4 通道自適應(yīng)注意力機制 Fig.3 Split-attention block Fig.4 Channel adaptive attention mechanism
通過SA-FPN提取遙感影像不同尺度大小的建筑物特征圖之后,進一步采用RPN來定位遙感影像中的建筑物位置,其結(jié)構(gòu)如圖5所示。RPN引入了錨點框(bounding box)的概念,即對特征圖上的每個像素生成k個大小和長寬比都不相同的預(yù)測框。通常情況下,k默認(rèn)為9,分別為3種大小和3種長寬比組合而成。為了兼顧小尺度建筑物目標(biāo)對象的提取,本文將錨點框的大小設(shè)置為8、16、32,長寬比設(shè)置為1∶1、1∶2、2∶1。將每個像素上的k個錨點框分別輸入到兩個并行的卷積分支中,并對錨點框的分類進行評分和對錨點框的位置進行回歸計算。經(jīng)過卷積計算后,分類分支輸出2k個參數(shù),分別表示預(yù)測框的建筑物(positive)和背景(negative)得分;回歸分支輸出4k個參數(shù),即框的中心點坐標(biāo)(x,y)和框的寬(w)、高(h)的位移修正值。若特征圖的大小為W×H,則整個特征圖上會生成W×H×k個錨點框。最后,這些生成的候選錨點框?qū)⒂糜诤罄m(xù)的建筑物分類、檢測及分割提取。
圖5 RPN的結(jié)構(gòu)Fig.5 Architecture of RPN
通過RPN檢測得到建筑物實例位置后,本文進一步采用BndRN來獲取建筑物的精確分割掩膜。該模型結(jié)構(gòu)由一個粗預(yù)測分支網(wǎng)絡(luò)和一個特征細(xì)化分支網(wǎng)絡(luò)組成,如圖6所示。首先,將大小為C×W×H規(guī)則的特征圖輸入到粗預(yù)測分支網(wǎng)絡(luò)中,經(jīng)過全卷積層計算出每個建筑物實例的粗特征圖結(jié)果(例如28×28)。其次,為了細(xì)化邊界,將粗特征圖輸入到特征細(xì)化分支網(wǎng)絡(luò)中,從粗特征圖上對不確定的邊緣點進行隨機采樣,并將上采樣得到的邊緣點特征與SA-FPN輸出的P2特征圖對應(yīng)位置的細(xì)節(jié)特征相聯(lián)合,得到邊緣點的表征特征向量。最后,用一個conv1×1的MLP(multiLayer perceptron)網(wǎng)絡(luò)對邊緣點的表征特征向量進行判斷,更新插值后的粗預(yù)測結(jié)果。重復(fù)上述優(yōu)化過程直至輸出的預(yù)測結(jié)果圖的分辨率與輸入的遙感圖像分辨率一致。
圖6 邊界細(xì)化網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Boundary refinement network structure
其中,對不確定邊緣點進行隨機采樣方法如下:如果需要得到N個隨機點進行分類修正,則首先在特征圖上隨機采樣kN個點(k>1);然后引入超參數(shù)β(0<β<1),保留kN個點中的βN個分類最不明確的點(前后景得分值各為0.5);最后剩下的(1-β)N個點從全圖隨機選取。本文中k為3、β為0.75。通過以上隨機選點的策略,能夠保證得到的隨機點在側(cè)重于不確定的邊界區(qū)域的同時保留一定程度的全局覆蓋性,如圖7所示。
圖7 不同的點采樣方法Fig.7 Different point sampling strategies
另外,對BndRN的計算復(fù)雜度分析可知,在目標(biāo)分辨率是M×M,粗分割分辨率為M0×M0的條件下,BndRN的預(yù)測分析時間復(fù)雜度為Nlog2(M/M0),其中,N為每次隨機采樣點的個數(shù),遠(yuǎn)遠(yuǎn)小于直接在M×M的分辨率下作預(yù)測。例如,本文的目標(biāo)分辨率為256×256,起始分辨率為28×28,每次隨機采樣28×28個點做預(yù)測細(xì)化,則只需要28×28×3次預(yù)測,遠(yuǎn)小于256×256。因此,本文采用的方法能在較低計算量的條件下實現(xiàn)建筑物掩膜的精細(xì)化預(yù)測。
本文采用的損失函數(shù)為多任務(wù)損失函數(shù)[14]
Ltotal=Lcls+Lbox+Lmask
(1)
式中,Lcls是分類損失;Lbox是回歸框損失;Lmask為平均二值交叉熵?fù)p失。Lcls的計算公式為
(2)
即目標(biāo)與非目標(biāo)的對數(shù)損失,其中,pi是錨點框預(yù)測為目標(biāo)的概率。Lbox的計算公式為
(3)
Lmask為mask分支上的損失函數(shù),輸出大小為K×m×m,其編碼分辨率為m×m的K個二進制mask。對于一個屬于第k個類別的RoI,Lmask僅考慮第k個mask(其他的掩模輸入不會貢獻到損失函數(shù)中)
(1-y)×ln(1-sigmoid(x))]
(4)
式中,1k表示當(dāng)?shù)趉個通道對應(yīng)目標(biāo)的真實類別時為1,否則為0;y表示當(dāng)前位置的mask的label值,為0或1;x則是當(dāng)前位置的輸出值,sigmoid(x)表示輸出x經(jīng)過sigmoid函數(shù)[13]變換后的結(jié)果。
為了驗證本文方法的有效性及泛化性,分別在WHU aerial imagery dataset[25]數(shù)據(jù)集和Inria aerial image labeling dataset[26]數(shù)據(jù)集上進行建筑物提取試驗。其中,WHU aerial imagery dataset數(shù)據(jù)集為覆蓋新西蘭基督城450 km2范圍的航拍影像,影像的空間分辨率為0.75 m,像素大小為512×512,包含187 000棟不同用途、紋理、大小和形狀的建筑物,其中訓(xùn)練集圖片4736張,含有建筑物13萬余棟,測試集2416張,含有建筑物4萬余棟。Inria aerial image labeling dataset數(shù)據(jù)集是一個用于城市建筑物檢測的遙感圖像數(shù)據(jù)集,由360張大小為5000×5000的航拍正射圖像組成,影像的空間分辨率為0.3 m,該影像數(shù)據(jù)集占地810 km2,分布在10個不同的城市,涵蓋人口密集的地區(qū)和人口稀少的森林城鎮(zhèn),對于評估模型的泛化能力具有一定的價值。為了進行公平的比較,本文對數(shù)據(jù)集進行隨機劃分,其中,155張圖像用于訓(xùn)練,25張圖像用于驗證,其余180張圖像用于測試,并且將訓(xùn)練和驗證圖像裁剪成512×512像素大小,統(tǒng)一按照Microsoft COCO的形式進行組織和試驗。
本文試驗環(huán)境采用的操作系統(tǒng)為Ubuntu 18.04.5 LTS,GPU硬件配置為兩塊10 GB顯存的Nvidia GeForce RTX3080,同時使用CUDA11.1進行計算加速,所有模型均在PyTorch框架下進行編碼、訓(xùn)練和測試。試驗超參數(shù)設(shè)置如下:每個GPU的batch size設(shè)置為4,使用SyncBN方法[27]實現(xiàn)全局樣本歸一化;訓(xùn)練時首先采用預(yù)熱學(xué)習(xí)策略,以預(yù)熱因子為0.001的線性預(yù)熱方式進行1000次訓(xùn)練迭代并逐步上升到設(shè)置的初始學(xué)習(xí)率0.025,隨后采用按需調(diào)整學(xué)習(xí)率策略,按照1×10-4的權(quán)重衰減率和1×10-4的偏差進行學(xué)習(xí)率衰減,直至損失收斂;使用動量SGD優(yōu)化器進行梯度優(yōu)化,動量參數(shù)設(shè)置為0.9。模型在訓(xùn)練之前使用隨機裁剪與縮放、隨機仿射變換、隨機變換RGB通道值的方法進行了數(shù)據(jù)增強,以增加模型的健壯性。通過采用以上超參數(shù)和訓(xùn)練策略,本文模型約進行65個epoch訓(xùn)練即達到損失函數(shù)收斂。
在WHU aerial imagery dataset數(shù)據(jù)集上進行試驗時,本文基于每個像素的平均精度(average precision,AP)指標(biāo)來定量衡量本文所提出的模型的性能。AP值可通過積分計算精確率-召回率(precision-recall,P-R)曲線與坐標(biāo)軸所圍成的下方面積得到。精確率(Precision)和召回率(Recall)的計算公式為[28]
(5)
式中,TP指真正例(對正樣本的真實預(yù)測);FP指假正例(將負(fù)樣本預(yù)測為正);TN為假負(fù)例(將正樣本預(yù)測為負(fù));FN為正負(fù)例(對負(fù)樣本的真實預(yù)測)。這些指標(biāo)可通過計算預(yù)測值與真實標(biāo)簽之間的交并比(intersection over union,IoU)獲得,只有IoU大于某一閾值時,建筑物才被標(biāo)記為正樣例。在本文的試驗中,目標(biāo)檢測分支的IoU定義為建筑物真實標(biāo)注框和預(yù)測矩形檢測框的相交部分占相并部分的比例,分割分支的IoU則定義為真實建筑物掩膜和預(yù)測建筑物掩膜的相交部分占相并部分的比例。本文的試驗選取了4個不同交并比閾值設(shè)置下的AP值作為評價模型檢測和分割性能的指標(biāo),分別為AP50、APS、APM、APL。其中AP50為IoU閾值設(shè)置為0.5時的AP值,可用于衡量模型對建筑物的整體檢測和分割能力;APS、APM、APL分別表示小尺度建筑物(檢測框或掩膜像素面積小于32×32)、中等尺度建筑物(檢測框或掩膜像素面積位于32×32到96×96區(qū)間)、大尺度建筑物(檢測框或掩膜像素面積大于96×96)的AP0.50:0.95值,計算方式為
(6)
在Inria aerial image labeling dataset數(shù)據(jù)集上進行試驗時,選擇了兩個評價標(biāo)準(zhǔn),即總體精度(overall accuracy,OA)和交并比IoU從數(shù)值上評價模型的有效性。其中,OA為正確預(yù)測的像素數(shù)與所有測試集中像素總數(shù)的比值
(7)
式中,N(correct_pixels)是正確預(yù)測像素的數(shù)量;N(total_pixels)是測試像素總數(shù)的數(shù)量。IoU度量預(yù)測和目標(biāo)標(biāo)簽之間的相關(guān)性,廣泛應(yīng)用于二進制語義分割任務(wù)。這里,IoU定義為
(8)
式中,A是預(yù)測;B是目標(biāo)標(biāo)簽。IoU=0表示A和B不重疊,1則表示A和B相同。
本文將MBRef-CNN模型與目前表現(xiàn)較優(yōu)的主流實例分割算法進行對比試驗,如Mask R-CNN模型、VoVNetV2-99 CenterMask模型、ResNet101 FPN構(gòu)成的CenterMask模型以及Cascade Mask R-CNN模型。其中CenterMask是單階段無錨點的代表模型,其分割分支中的空間注意力模塊能將注意力集中于建筑物要素上;Cascade Mask R-CNN使用了級聯(lián)檢測器,具有更好的檢測精度。以上模型均使用相同的試驗環(huán)境在WHU aerial imagery dataset數(shù)據(jù)集上進行訓(xùn)練,并在測試數(shù)據(jù)集上分別對建筑物的目標(biāo)檢測框和分割掩膜進行了定量指標(biāo)評價。
表1給出了不同算法在建筑物目標(biāo)檢測框上的平均精度,從中可以看出,本文提出的MBRef-CNN在AP50上超過普通Mask R-CNN約3.2%,超過使用級聯(lián)檢測器的Cascade Mask R-CNN約2%,而比使用不同骨干網(wǎng)絡(luò)的CenterMask方法均高出8%左右的精確度。比較APS、APM、APL3個指標(biāo)可以看出,MBRef-CNN在APS指標(biāo)上表現(xiàn)最好,分別比CenterMask及普通Mask R-CNN的方法高8%左右,比Cascade Mask R-CNN也高出1.26%,說明MBRef-CNN在小建筑物的提取上性能良好,精度遠(yuǎn)高于其他對比方法;另外,MBRef-CNN在APM、APL上也均有不錯的表現(xiàn)。圖8給出了建筑物實例分割的部分可視化結(jié)果,圖中分別選了位于郊區(qū)、居民區(qū)、工業(yè)區(qū)等不同環(huán)境下的建筑物遙感影像,由圖8中可以看出,在這幾種不同場景下,除了本文提出的MBRef-CNN方法外,其他算法均存在錯檢或漏檢的情況(見圖8上框選部分),同時也說明本文方法對不同大小尺度的建筑物尤其是小尺度建筑物的檢測識別性能提升較高。
表1 建筑物目標(biāo)候選框平均像素精度指標(biāo)評價
為了驗證本文提出的建筑物掩膜邊界細(xì)化模型的分割效果,進一步對上述對比模型的掩膜精確度進行分析結(jié)果見表2。由表2可知,本文方法在掩膜分割的精確率上AP50值為88.477%,遠(yuǎn)高于其他方法,比第二的Cascade Mask R-CNN高約2%,比其余方法高4%~9%不等。比較APS、APM、APL3個指標(biāo),MBRef-CNN在APS指標(biāo)上仍然表現(xiàn)最好,比其他方法的平均像素精度高3%~9%不等。值得注意的是,本文方法的APM為81.854%,也取得了最好的精度表現(xiàn),考慮到在上述建筑物目標(biāo)候選框的精確度比較中,MBRef-CNN算法在中尺寸的建筑物的提取精度略低于VoVNetV2-99 CenterMask,說明本文模型中的邊界細(xì)化網(wǎng)絡(luò)(BndRN)有效地提高了建筑物掩膜的分割精度。圖9給出了建筑物實例分割的部分可視化結(jié)果,圖中分別選了位于郊區(qū)、居民區(qū)、工業(yè)區(qū)等不同環(huán)境下的建筑物遙感影像,由圖9可知,本文模型的分割結(jié)果對建筑物的幾何特征保留良好,具有更精細(xì)的邊界特征。
另外,為了驗證本文方法的泛化性,進一步在Inria aerial image labeling dataset數(shù)據(jù)集進行建筑物提取試驗,相關(guān)參數(shù)設(shè)置采用與WHU aerial imagery dataset數(shù)據(jù)集相同的配置。圖10列出了本文模型在幾個具有挑戰(zhàn)性的住宅區(qū)預(yù)測結(jié)果的部分例子,涵蓋了不同密度、規(guī)模、形狀和周圍環(huán)境的建筑物。第一行為建筑物影像原始圖片數(shù)據(jù),第二行為本文方法的提取結(jié)果。通過觀察模型預(yù)測結(jié)果以及計算模型的總體精度OA和交并比IoU可知,對于Inria aerial image labeling dataset數(shù)據(jù)集,模型的總體精度OA達到了96.51%,IoU為76.82%,表明本文方法依然取得了良好的提取效果,而且由圖10中可以看出,即使建筑物被部分障礙物(如樹木、道路等)的陰影遮擋,也能實現(xiàn)較好的分割提取。
圖10 Inria aerial image labeling dataset的建筑物提取結(jié)果實例Fig.10 Examples of building extraction results on Inria aerial image labeling dataset
最后,為了驗證本文方法中SA-FPN和BndRN兩個改進模塊對建筑物分割提取精度的貢獻程度,進一步對這兩個模塊進行消融試驗。消融試驗以ResNet101 FPN Mask R-CNN為基準(zhǔn)方法,分別在基準(zhǔn)方法上加入SA-FPN、BndRN及兩者的綜合MBRef-CNN。消融試驗的結(jié)果見表3,從試驗結(jié)果可以看出,在基準(zhǔn)方法上加入SA-FPN模塊后,其檢測框和分割掩膜的AP50指標(biāo)相比于基準(zhǔn)方法均提升了約3%,APs指標(biāo)提升了約7%,由此可以推斷出本文的SA-FPN模塊能充分把握建筑物尺度變化幅度大這一特點,能夠有效提高小尺度建筑物的提取精度。在基準(zhǔn)方法上加入BndRN模塊后,其分割掩膜的APS、APM、APL指標(biāo)比基準(zhǔn)方法均提升了約2%,由此可以推斷出BndRN模塊能在分割時納入更多細(xì)節(jié)特征以提升分割掩膜的精細(xì)度。從綜合以上兩者改進的MBRef-CNN方法提取結(jié)果來看,其AP50、APs、APm指標(biāo)值比單一的SA-FPN或BndRN指標(biāo)值都高,說明兩者綜合后的MBRef-CNN能進一步提升建筑物分割提取精確度,但在APL指標(biāo)方面,MBRef-CNN只比SA-FPN精度略高,不及BndRN的指標(biāo)值。這說明SA-FPN是上述評價指標(biāo)的主要貢獻者,在其所產(chǎn)生的耦合多尺度特征圖上,BndRN能納入更多的細(xì)節(jié)特征作為分割判別依據(jù),從而獲得更高的分割精確度。
表3 消融試驗指標(biāo)評價
圖11展示了本文提出的BRef-CNN方法在更多場景下的試驗結(jié)果。其中,第1行和第3行為帶掩膜標(biāo)簽的真實值,第2行和第4行為本文方法的預(yù)測值。由圖11中可以看出:①本文方法建筑物實例分割的綜合性能良好,對小尺度的建筑物具有良好的感知能力,有效避免了錯檢、漏檢的情況發(fā)生;②本文方法有效地保持了建筑物邊界的精細(xì)化特征,減少了其他分割算法中普遍存在的邊界模糊、平滑等問題;③從本文方法對密集居民區(qū)、復(fù)雜工業(yè)區(qū)、郊區(qū)大尺度建筑物的實例分割結(jié)果可以看出,本文方法在復(fù)雜場景下仍能取得良好的建筑物輪廓實例分割提取效果。
圖11 不同場景中建筑物實例分割試驗結(jié)果Fig.11 Experimental results of building segmentation in different scenes
遙感影像建筑物準(zhǔn)確、高效的自動提取在城市規(guī)劃、災(zāi)害評估、GIS數(shù)據(jù)更新及數(shù)字城市建設(shè)等方面有著廣泛的用途。本文針對現(xiàn)有遙感影像建筑物提取方法難以兼顧不同尺度大小的建筑物實例精確提取,存在小尺度建筑物漏檢、提取的建筑物輪廓邊界模糊及無法區(qū)分單個建筑物實例等問題,提出一種融合分散自適應(yīng)注意力機制的多尺度遙感影像建筑物實例細(xì)化提取模型(MBRef-CNN)。該模型主要由3個部分組成:融合自適應(yīng)注意力機制的遙感影像多尺度特征提取網(wǎng)絡(luò)(SA-FPN)、區(qū)域候選網(wǎng)絡(luò)(RPN)和邊界細(xì)化網(wǎng)絡(luò)(BndRN)。其中,提出的SA-FPN模塊在傳統(tǒng)的FPN骨干網(wǎng)絡(luò)中引入了分組卷積和自適應(yīng)通道注意力機制,以實現(xiàn)更細(xì)粒度的建筑物特征提取和多尺度建筑物特征的感知,減少了小尺度建筑物目標(biāo)信息在特征圖中無法有效表達的可能性。提出的BndRN模塊基于不規(guī)則多尺度迭代分割理論,能在較少的計算量情況下獲得更精確的掩膜邊界,并通過不均勻采樣策略使得細(xì)化采樣點的權(quán)重偏向于像素值有較大方差的區(qū)域,從而能更好地利用邊界信息進行邊界細(xì)化。另外,該模型可實現(xiàn)端到端的訓(xùn)練,能自適應(yīng)融合遙感影像建筑物的多尺度特征,實現(xiàn)不同尺度大小的建筑物實例提取,同時精細(xì)化建筑物實例的邊界。在WHU aerial imagery dataset數(shù)據(jù)集上,通過與現(xiàn)有主流方法進行對比試驗表明,本文方法的建筑物提取精確度高于其他表現(xiàn)優(yōu)秀的主流分割算法,在多尺度建筑物提取上表現(xiàn)出良好的綜合性能,尤其在小尺度建筑物提取上具有更明顯的精度優(yōu)勢,并且在Inria aerial image labeling dataset數(shù)據(jù)集上也表現(xiàn)出較好的泛化性能。目前,本文的多尺度遙感影像建筑物特征提取仍然依賴于特征金字塔結(jié)構(gòu),該結(jié)構(gòu)具有較大的計算復(fù)雜度,后續(xù)將考慮發(fā)展輕量級的骨干網(wǎng)絡(luò),以提高模型的實時性及可遷移性。