亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于FPN的高分辨率建筑物圖像的語(yǔ)義分割

2021-10-12 04:45:56楊建華

遙感信息 2021年4期

楊建華

(上海大學(xué) 土木工程系，上海 200444)

0 引言

建筑物作為城市中重要的地理標(biāo)識(shí)，也是人類活動(dòng)區(qū)域的重要特征，在復(fù)雜自然場(chǎng)景中實(shí)現(xiàn)對(duì)其精確的識(shí)別可為城市規(guī)劃、城市動(dòng)態(tài)監(jiān)測(cè)、地形圖更新等領(lǐng)域提供重要的支撐[1]。遙感技術(shù)是獲取特定區(qū)域圖像執(zhí)行此類任務(wù)的普遍方法。目前，隨著影像傳感器和新興平臺(tái)(例如無(wú)人機(jī))的技術(shù)發(fā)展，高分辨率建筑物圖像的可用性和普及性得到了極大的提高[2]，海量的高質(zhì)量圖像使得建筑物的高精度識(shí)別成為可能，但同時(shí)也對(duì)現(xiàn)有的處理手段提出了新的挑戰(zhàn)[3]。

高分辨率圖像雖然提供了豐富的結(jié)構(gòu)和紋理信息，有助于檢測(cè)和區(qū)分地面上的各種物體，但同時(shí)也增加了圖像元素的類內(nèi)差異，減小了類間差異[4]，使得提取圖像合理的空間特征以實(shí)現(xiàn)像素的分類變得更加困難[5]。由于建筑物具有復(fù)雜的形狀和圖案，同時(shí)受到包括形狀、材料、空間大小和建筑物陰影的干擾，因而上述問(wèn)題在高分辨率的建筑物圖像領(lǐng)域顯得格外突顯。

傳統(tǒng)的建筑物提取方法多利用圖像的中低級(jí)特征，如光譜、邊緣、陰影、幾何結(jié)構(gòu)等。Huang等[6]提出了利用一組形態(tài)學(xué)運(yùn)算來(lái)表示建筑物的固有光譜結(jié)構(gòu)特性(例如亮度、對(duì)比度和大小)，即形態(tài)建筑物指數(shù)，從高分辨率圖像中自動(dòng)檢測(cè)建筑物。Ma[7]提出了一種提取地面點(diǎn)生成數(shù)字高程模型(digital elevation model，DEM)，進(jìn)而檢測(cè)圖像中屬于建筑物點(diǎn)的方法。Zhou等[8]提出了一種僅利用數(shù)字地表模型(digital surface model，DSM)的高度信息進(jìn)行建筑物檢測(cè)的技術(shù)。Chen等[9]提出了圖像邊緣規(guī)則性指數(shù)和陰影線指數(shù)，將其作為細(xì)化特定建筑物檢測(cè)結(jié)果邊界的新特征。然而，在數(shù)據(jù)量愈發(fā)龐大以及建筑物越來(lái)越復(fù)雜的現(xiàn)實(shí)情況下，這些基于人工獲取圖像中低級(jí)特征的方法，無(wú)法實(shí)現(xiàn)建筑物的自動(dòng)化準(zhǔn)確識(shí)別。

近年來(lái)，隨著深度學(xué)習(xí)的發(fā)展，卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks，CNN)在計(jì)算機(jī)視覺(jué)任務(wù)中表現(xiàn)出優(yōu)異的性能[10]。CNN通過(guò)學(xué)習(xí)圖像數(shù)據(jù)分層的語(yǔ)義來(lái)代替人工繁瑣的經(jīng)驗(yàn)特征設(shè)計(jì)過(guò)程，進(jìn)而實(shí)現(xiàn)圖像特征提取的自動(dòng)化[11]。自2012年以來(lái)，CNN被廣泛地應(yīng)用于圖像分類，AlexNet[12]、VGGNet[13]、GoogLeNet[14]和ResNet[15]等新型CNN結(jié)構(gòu)均在各個(gè)領(lǐng)域得以普遍的運(yùn)用。然而，這些方法主要集中于圖像的標(biāo)簽分類，缺乏圖像中對(duì)象的精確定位和其邊界表征的提取[16]。因此，為了檢測(cè)物體及其空間位置，像素標(biāo)記的預(yù)測(cè)具有重要意義。

Long等[17]改善了目前通用的分類模型，通過(guò)用卷積層替換全連接層以輸出空間圖而不是分類概率，從而將CNN轉(zhuǎn)換為全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional networks，F(xiàn)CN)。然而，普通FCN無(wú)法恢復(fù)輸入圖像的分辨率，并且在分割小細(xì)節(jié)方面表現(xiàn)不佳，而諸如SegNet[18]和U-Net[19]之類的解碼器-編碼器(Encoder-Decoder)網(wǎng)絡(luò)模型可以有效地解決此問(wèn)題，通過(guò)在Encoder-Decoder之間設(shè)置多個(gè)跳躍連接結(jié)構(gòu)以融合多級(jí)語(yǔ)義，進(jìn)而更好地恢復(fù)對(duì)象的邊界信息。為了進(jìn)一步提高準(zhǔn)確性，Deeplab系列[20]通過(guò)擴(kuò)展感受域、學(xué)習(xí)多尺度上下文信息和加入后處理結(jié)構(gòu)來(lái)提高分割精度，例如條件隨機(jī)場(chǎng)(conditional random field，CRF)和空洞空間金字塔池化模塊(atrous spatial pyramid pooling，ASPP)。但是，這些基于FCN變體的Encoder-Decoder網(wǎng)絡(luò)模型，只使用了部分層來(lái)產(chǎn)生最終的輸出，使得待分割對(duì)象的邊緣精度較低。

由于建筑物的復(fù)雜性，使得目標(biāo)具有多尺度特征，包括局部的建筑邊界拐角、紋理、宏觀的線形、邊界交叉等。小的局部特征有助于細(xì)節(jié)上的分割，而大規(guī)模的全局特征則有助于分類的準(zhǔn)確性。因此，建立具備多尺度提取建筑物圖像特征能力的語(yǔ)義分割網(wǎng)絡(luò)是本研究的核心。

建筑物邊界識(shí)別的準(zhǔn)確度直接影響著建筑物提取的最終效果。但是，建筑物邊界目標(biāo)是細(xì)小的線性結(jié)構(gòu)，而像素級(jí)分類中廣泛使用的損失函數(shù)，例如交叉熵(cross entropy，CE)，往往會(huì)忽略像素之間的關(guān)系，造成分割結(jié)果包含大量不準(zhǔn)確的模糊預(yù)測(cè)。因此，本文引入了對(duì)語(yǔ)義分割指標(biāo)Jaccard指數(shù)(即IoU得分)直接進(jìn)行優(yōu)化的Lovász損失函數(shù)[21]，通過(guò)減少Lovász損失獲得更高的Jaccard指數(shù)，從而得到更高質(zhì)量的分割結(jié)果。

本文的主要貢獻(xiàn)總結(jié)如下。

1)提出了一種稱為BuildingNet的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。該模型基于特征金字塔(feature pyramid network，F(xiàn)PN)結(jié)構(gòu)進(jìn)行改進(jìn)，并引入了ASPP模塊，具有針對(duì)不同分辨率圖像的良好特征提取性能。

2)在傳統(tǒng)二元交叉熵?fù)p失函數(shù)的基礎(chǔ)上引入了Lovász損失函數(shù)，將建筑物特征表示形式補(bǔ)充到一般的交叉熵?fù)p失函數(shù)無(wú)法達(dá)到的程度，從而提高了建筑物提取結(jié)果的質(zhì)量。

3)實(shí)驗(yàn)在兩個(gè)高分辨率建筑物數(shù)據(jù)集，即遙感影像數(shù)據(jù)集(Vaihingen城市遙感圖像數(shù)據(jù)集[22])和無(wú)人機(jī)城市圖像數(shù)據(jù)集(UDD數(shù)據(jù)集[23])上均有優(yōu)異的表現(xiàn)，展示了模型良好的泛化能力。

圖1 本研究整體方案圖

1 網(wǎng)絡(luò)結(jié)構(gòu)

1.1 整體流程

語(yǔ)義分割可以看作是圖像像素級(jí)別分類問(wèn)題，其輸出圖像和輸入圖像的分辨率需要一致。本文研究的建筑物圖像的邊界分割可以看作為一個(gè)二元語(yǔ)義分割問(wèn)題，即將圖像中除建筑物以外的元素，如樹(shù)木、路面、車輛等均作背景元素處理。圖1顯示了本文對(duì)建筑物圖像進(jìn)行語(yǔ)義分割的整體方案：基于FPN特征提取結(jié)構(gòu)提出了一種用于建筑物特征增強(qiáng)的BuildingNet網(wǎng)絡(luò)，并改進(jìn)了訓(xùn)練過(guò)程中的損失函數(shù)，使其可以更好地適用于建筑物圖像的邊界分割。

1.2 FPN

FPN通過(guò)自上向下的路徑及橫向連接將分辨率低但語(yǔ)義強(qiáng)的圖像上層特征和語(yǔ)義弱但分辨率高的圖像下層特征進(jìn)行融合，進(jìn)而將建筑物圖像的語(yǔ)義信息和空間信息相結(jié)合，使得神經(jīng)網(wǎng)絡(luò)對(duì)于特征的檢測(cè)性能有了很大的提升。

1)自下而上的路徑。本研究使用ResNet-101作為骨干網(wǎng)絡(luò)，并預(yù)先在ImageNet公共數(shù)據(jù)集上進(jìn)行訓(xùn)練獲得初始權(quán)重。ResNet-101由五個(gè)卷積塊組成，當(dāng)通過(guò)骨干網(wǎng)絡(luò)提取隱藏在圖像中的特征時(shí)，圖像的空間維度每次減少一半，而連續(xù)兩個(gè)特征圖之間的通道深度相應(yīng)增加(圖2)。ResNet-101中每個(gè)卷積模塊的輸出被標(biāo)記為Ci(i=1，2，3，4，5)，隨后作用于自上而下的路徑。因此，該路徑產(chǎn)生特征圖為{C1，C2，C3，C4，C5}。

2)自上而下的路徑。通過(guò)構(gòu)建特征金字塔網(wǎng)絡(luò){O2，O3，O4，O5}創(chuàng)建自上而下的路徑。過(guò)程中首先對(duì)C5應(yīng)用1×1卷積濾波器，將其通道深度降低到256，這里創(chuàng)建的層稱為O5，成為第一個(gè)用于建筑物圖像分割的特征圖。當(dāng)沿著自上而下的路徑往下進(jìn)行時(shí)，上一層的空間維度會(huì)通過(guò)最近鄰上采樣(nearest)的方法擴(kuò)大2倍。與之相應(yīng)的是，對(duì)相應(yīng)的特征圖進(jìn)行1×1卷積，隨后，將這兩張?zhí)卣鲌D逐元素添加，進(jìn)行特征融合。所有特征金字塔輸出(O2，O3，O4，O5)都有256個(gè)輸出通道。以上過(guò)程如式(1)至式(3)所示。

TN=Conv2dm，s，d(CN)

(1)

O5=T5

(2)

(3)

式中：TN是通過(guò)將每個(gè)特征圖從自下而上的路徑用m=256個(gè)大小(d)和步長(zhǎng)(s)都為(1，1)的核進(jìn)行卷積降維。上采樣Up(Mi，CN)將Mi的大小調(diào)整為CN的大小。ON(N=2，3，4，5)為自上而下路徑的輸出特征圖。由于C1的空間維度過(guò)大，會(huì)消耗過(guò)多內(nèi)存，因此過(guò)程在O2處停止。

BuildingNet圖像分割網(wǎng)絡(luò)基于FPN特征提取結(jié)構(gòu)，其整體模型結(jié)構(gòu)如圖3所示。

圖2 FPN特征金字塔提取結(jié)構(gòu)

圖3 BuildingNet建筑物分割網(wǎng)絡(luò)整體結(jié)構(gòu)圖

本文對(duì)FPN結(jié)構(gòu)作出如下改進(jìn)。首先，對(duì)FPN輸出特征圖{O2，O3，O4，O5}采用空洞卷積(Atrous_Convolution)來(lái)降低自下而上路徑中兩個(gè)特征圖融合時(shí)產(chǎn)生的混疊效應(yīng)，并且與傳統(tǒng)卷積運(yùn)算相比，空洞卷積可以在不增加計(jì)算參數(shù)的前提下擴(kuò)大感受野。這個(gè)過(guò)程在式(1)至式(3)的基礎(chǔ)上可以總結(jié)如式(4)至式(5)所示。

P5=Atrous_Conv2dn，s，d′，r(O5)

(4)

PN=Atrous_Conv2dn，s，d′，r(Conv2dn，s，d′(ON))

(5)

式中：Atrous_Conv2d()為空洞卷積運(yùn)算，其中濾波器個(gè)數(shù)n=256，大小d′=(3，3)。通過(guò)兩次3×3卷積(一次普通卷積，一次空洞卷積)來(lái)創(chuàng)建Pi(i=2，3，4)，因此所有輸出的維度均為256-d。然后，對(duì)Pi融合后輸入ASPP結(jié)構(gòu)。

1.3 空洞空間金字塔池化模塊(ASPP)

ASPP架構(gòu)已經(jīng)被證明可以很好地在多個(gè)尺度上分割對(duì)象，并且使結(jié)果更具魯棒性。建筑物圖像中包含豐富的邊界細(xì)節(jié)信息，同時(shí)建筑物像素周圍會(huì)有大量背景像素干擾，因此本文在BuildingNet中保留了Deeplabv3+中的ASPP架構(gòu)。

圖4 ASPP網(wǎng)絡(luò)結(jié)構(gòu)圖

圖4顯示的ASPP由4個(gè)不同孔隙率的平行空洞卷積組成。具體來(lái)說(shuō)，ASPP由一個(gè)1×1卷積、三個(gè)平行的孔隙率分別為6、12和18的3×3空洞卷積以及一個(gè)生成圖像級(jí)特征的全局平均池化層組成。這些模塊生成的特征圖通過(guò)雙線性插值上采樣到輸入大小，然后連接并通過(guò)一個(gè)1×1的卷積。ASPP應(yīng)用于FPN部分產(chǎn)生的特征圖，隨后ASPP產(chǎn)生的特征圖被上采樣恢復(fù)至圖像原始尺寸，如圖3所示。

1.4 Lovász損失函數(shù)

卷積分割網(wǎng)絡(luò)可以通過(guò)正向傳播算法對(duì)輸入的預(yù)處理圖像進(jìn)行正向計(jì)算，并得到預(yù)測(cè)特征圖。圖1表明反向傳播算法(back propagation，BP)返還預(yù)測(cè)的結(jié)果和其對(duì)應(yīng)的建筑邊界真實(shí)標(biāo)簽之間的誤差(loss)，同時(shí)計(jì)算損失函數(shù)的梯度并將其反饋到參數(shù)更新算法(優(yōu)化器)更新神經(jīng)網(wǎng)絡(luò)的加權(quán)參數(shù)，其迭代訓(xùn)練過(guò)程即為權(quán)重參數(shù)不斷更新以及損失值不斷降低的過(guò)程，最終得到一個(gè)適用的權(quán)重模型。因此，損失函數(shù)用來(lái)評(píng)估預(yù)測(cè)值與真實(shí)值之間的不一致程度，損失函數(shù)越小，模型的魯棒性越好。

建筑物圖像具有高度結(jié)構(gòu)化的特征，圖像中屬于建筑物的像素表現(xiàn)出很強(qiáng)的依賴性，特別是對(duì)空間關(guān)系的依賴。然而，目前在圖像語(yǔ)義分割領(lǐng)域普遍的方法是在驗(yàn)證集上計(jì)算圖像分割的交叉熵?fù)p失，在評(píng)價(jià)兩幅圖像之間的相似度時(shí)，會(huì)給每個(gè)像素分配相等的權(quán)重，導(dǎo)致對(duì)于空間信息的忽視。二元交叉熵(binary cross entropy，BCE)損失函數(shù)如式(6)所示。

(6)

(7)

則其損失如式(8)所示。

(8)

式(8)可以改寫(xiě)為式(9)。

(9)

由于圖像由像素組成，所以對(duì)式(9)做如下改變以適應(yīng)離散對(duì)象，表達(dá)如式(10)所示。

(10)

本文將BCE損失函數(shù)與Lovász損失函數(shù)相結(jié)合來(lái)訓(xùn)練BuildingNet網(wǎng)絡(luò)，最終的損失函數(shù)表達(dá)如式(11)所示。

(11)

通過(guò)最小化這個(gè)損失函數(shù)，建筑物像素的預(yù)測(cè)正確概率得到最大化，本研究中α取0.5。

2 實(shí)驗(yàn)分析

2.1 實(shí)驗(yàn)數(shù)據(jù)集

為了驗(yàn)證本文算法的有效性，本研究在Vaihingen城市遙感圖像數(shù)據(jù)集和UDD無(wú)人機(jī)城市圖像數(shù)據(jù)集上展開(kāi)了實(shí)驗(yàn)研究。

Vaihingen數(shù)據(jù)集是由德國(guó)Vaihingen小鎮(zhèn)上空拍攝的正射影像中提取出的33個(gè)2 500像素×2 500像素的圖像組成，圖像的地面采樣距離為0.09 m。其中，16個(gè)圖塊被標(biāo)記為像素級(jí)的數(shù)據(jù)真實(shí)標(biāo)簽，每一個(gè)地面真實(shí)標(biāo)簽都由六個(gè)類別組成，分別為地表、建筑物、低矮植被、樹(shù)木、車輛和背景。本研究只識(shí)別其中屬于建筑物類別的像素，因此將其他五個(gè)類別均看作背景，其中建筑物像素占比約26.69%。

UDD數(shù)據(jù)集是由專業(yè)級(jí)無(wú)人機(jī)在中國(guó)北京大學(xué)、葫蘆島市、河南大學(xué)和滄州市等地于離地60～100 m的高度收集的無(wú)人機(jī)圖像，大小為4 096像素×2 160像素和4 000像素×3 000像素。

為了增加訓(xùn)練樣本，本研究使用了諸如隨機(jī)縮放、旋轉(zhuǎn)、垂直/水平翻轉(zhuǎn)、對(duì)比度/亮度改變和高斯模糊等的圖像數(shù)據(jù)增強(qiáng)技術(shù)。數(shù)據(jù)增強(qiáng)有助于增加訓(xùn)練數(shù)據(jù)的數(shù)量，防止模型過(guò)擬合，從而提高訓(xùn)練性能。

上述兩個(gè)數(shù)據(jù)集分別被分為三個(gè)部分：訓(xùn)練集、驗(yàn)證集和測(cè)試集，在訓(xùn)練集上訓(xùn)練本文網(wǎng)絡(luò)，每輪迭代(epoch)結(jié)束時(shí)對(duì)其進(jìn)行驗(yàn)證，最后在測(cè)試集上測(cè)試網(wǎng)絡(luò)性能。

2.2 評(píng)價(jià)指標(biāo)

為了從多個(gè)方面定量評(píng)估建筑物圖像的分割結(jié)果，本文引入召回率(recall)、精確率(precision)、F1分?jǐn)?shù)和平均交并比(mIoU)四個(gè)評(píng)價(jià)指標(biāo)。

precision表示被正確分割為建筑物的像素點(diǎn)與所有分割為建筑物的像素點(diǎn)的比率。recall表示被分割為建筑物的像素點(diǎn)與真實(shí)建筑物像素點(diǎn)的比率。F1分?jǐn)?shù)和mIoU是綜合recall和precision的評(píng)估指標(biāo)，用于反映整體的分割效果。

2.3 訓(xùn)練設(shè)置

為了提高模型的魯棒性，所有圖像都經(jīng)過(guò)裁剪和標(biāo)準(zhǔn)化處理。首先，將輸入圖像隨機(jī)裁剪為512像素×512像素，裁剪有利于卷積神經(jīng)網(wǎng)絡(luò)的下采樣操作，同時(shí)降低了計(jì)算水平；然后，通過(guò)0～1歸一化和平均值相減，將裁剪后的圖像歸一化為[-0.5，0.5]。

實(shí)驗(yàn)平臺(tái)采用Intel-i7-8700四核CPU處理器、32 GB內(nèi)存、NVIDIA-GTX-1080TI顯卡(GPU處理單元)，操作系統(tǒng)為Windows 10。本實(shí)驗(yàn)網(wǎng)絡(luò)模型基于Pytorch深度學(xué)習(xí)框架搭建，同時(shí)運(yùn)用了Nvidia公司的CUDA10.0的GPU運(yùn)算平臺(tái)。訓(xùn)練中采用Adam優(yōu)化器，batch size數(shù)量為2，epoch次數(shù)為500，初始學(xué)習(xí)率為0.000 1，每次以0.9的速率衰減，衰減系數(shù)為0.000 2。為避免過(guò)擬合，本研究在所有卷積中引入了L2正則化，權(quán)重衰減為0.000 1。

2.4 對(duì)比實(shí)驗(yàn)

本文提出的BuildingNet網(wǎng)絡(luò)基于FPN結(jié)構(gòu)進(jìn)行改進(jìn)，并引入了ASPP模塊。實(shí)驗(yàn)選取了SegNet、U-Net和Deeplabv3+共三種常用的語(yǔ)義分割模型進(jìn)行對(duì)比驗(yàn)證。除了表1所示的網(wǎng)絡(luò)結(jié)構(gòu)差異外，這四個(gè)模型的超參數(shù)(如卷積層、激活函數(shù)和優(yōu)化器)不變。

表1 四種實(shí)驗(yàn)?zāi)Ｐ途W(wǎng)絡(luò)配置

FPN和ASPP的集成旨在捕獲圖像多尺度特征、融合圖像上下層語(yǔ)義信息來(lái)提高網(wǎng)絡(luò)的檢測(cè)性能。表2和表3顯示含有ASPP結(jié)構(gòu)的Deeplabv3+和BuildingNet明顯優(yōu)于未引入ASPP結(jié)構(gòu)的U-Net和SegNet，以表1的Vaihingen數(shù)據(jù)集的表現(xiàn)為例，Deeplabv3+的F1得分比U-Net高約1.61%，而B(niǎo)uildingNet則高出約3.62%；在引入FPN特征提取結(jié)構(gòu)之后，BuildingNet網(wǎng)絡(luò)的分割效果在Deeplabv3+的基礎(chǔ)上得到進(jìn)一步提升，BuildingNet的F1分?jǐn)?shù)達(dá)到94.58%，mIoU達(dá)到87.88%，這些量化結(jié)果證明了將FPN特征金字塔網(wǎng)絡(luò)和ASPP集成到神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中的策略是有效的。為了揭示模型的性能并解釋量化指標(biāo)，本文進(jìn)一步將預(yù)測(cè)的結(jié)果可視化。

表2 BuildingNet與現(xiàn)有網(wǎng)絡(luò)結(jié)構(gòu)的性能比較(Vaihingen數(shù)據(jù)集) %

表3 BuildingNet與現(xiàn)有網(wǎng)絡(luò)結(jié)構(gòu)的性能比較(UDD數(shù)據(jù)集) %

圖5和圖6分別展示了四種網(wǎng)絡(luò)對(duì)來(lái)自Vaihingen和UDD數(shù)據(jù)集特定區(qū)域樣本的識(shí)別結(jié)果：對(duì)于特征較為簡(jiǎn)單的建筑物圖像，如圖像1顯示，四種分割網(wǎng)絡(luò)均有良好的表現(xiàn)；圖像2和圖像3為具有復(fù)雜邊界特征的建筑物圖像，SegNet和U-Net無(wú)法準(zhǔn)確或完全識(shí)別屬于建筑物的像素，而在第(e)列和第(f)列中，Deeplabv3+和BuildingNet通過(guò)ASPP結(jié)構(gòu)增加的卷積模塊數(shù)量和孔隙率，來(lái)擴(kuò)大網(wǎng)絡(luò)感受野，進(jìn)而從多尺度信息中捕捉圖像更多的特征，從而表現(xiàn)出更好的復(fù)雜邊界特征提取性能；對(duì)于具有大小不同的建筑物元素且建筑物像素占圖像比重較高的圖像，如圖像4，BuildingNet網(wǎng)絡(luò)通過(guò)FPN結(jié)構(gòu)融合分辨率低但語(yǔ)義強(qiáng)的圖像上層特征和語(yǔ)義弱但分辨率高的圖像下層特征，從而比Deeplabv3+在恢復(fù)特征和抑制誤報(bào)方面展示出更高的性能。第(g)列通過(guò)將BuildingNet的分割結(jié)果(圖中綠色部分)與原始圖像進(jìn)行疊加，進(jìn)一步直觀地觀察實(shí)驗(yàn)結(jié)果與原始圖像間的差別。圖7和圖8展示了完整的測(cè)試集預(yù)測(cè)結(jié)果。

圖5 BuildingNet與現(xiàn)有網(wǎng)絡(luò)結(jié)構(gòu)的可視化比較(Vaihingen數(shù)據(jù)集)

圖6 BuildingNet與現(xiàn)有網(wǎng)絡(luò)結(jié)構(gòu)的可視化比較(UDD數(shù)據(jù)集)

圖7 Vaihingen數(shù)據(jù)集提取實(shí)例

圖8 UDD數(shù)據(jù)集提取實(shí)例

2.5 消融實(shí)驗(yàn)

本文引入改進(jìn)的損失函數(shù)來(lái)提高建筑物邊界的分割準(zhǔn)確度和預(yù)測(cè)圖像的質(zhì)量，從而得到更精確的建筑物圖像分割效果。

為了驗(yàn)證損失函數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響，本文以Vaihingen數(shù)據(jù)集為例，設(shè)計(jì)了消融實(shí)驗(yàn)作進(jìn)一步驗(yàn)證。改進(jìn)的Lovász損失函數(shù)實(shí)驗(yàn)結(jié)果如圖9所示。圖像1展示了由于特征的提取和分類過(guò)程中的不精確導(dǎo)致錯(cuò)誤檢測(cè)的分割圖，通過(guò)改進(jìn)的Lovász損失函數(shù)消除了這些錯(cuò)誤檢測(cè)；圖像2、圖像3顯示了改進(jìn)的Lovász損失函數(shù)消除了零星噪聲點(diǎn)的結(jié)果，說(shuō)明了損失函數(shù)對(duì)改善圖像質(zhì)量的附加影響。表4展示了改進(jìn)的損失函數(shù)對(duì)分割網(wǎng)絡(luò)性能上的定量提升。

表4 消融實(shí)驗(yàn)的定量結(jié)果 %

圖9 消融實(shí)驗(yàn)的可視化結(jié)果

3 結(jié)束語(yǔ)

高分辨率的圖像為建筑物及其邊界的分割提供了更豐富的空間和結(jié)構(gòu)信息。隨著高分辨率建筑物圖像的可用性和普及性的提高，快速準(zhǔn)確地提取建筑物及其邊界信息意義重大。本文提出了一種基于特征金字塔FPN結(jié)構(gòu)的BuildingNet網(wǎng)絡(luò)，使得卷積神經(jīng)網(wǎng)絡(luò)具有針對(duì)不同分辨率圖像的良好特征提取性能。同時(shí)，本文設(shè)計(jì)了一種改進(jìn)的Lovász損失函數(shù)來(lái)訓(xùn)練所提出的網(wǎng)絡(luò)，有效地提高了提取結(jié)果的圖像質(zhì)量。通過(guò)對(duì)比實(shí)驗(yàn)和消融實(shí)驗(yàn)驗(yàn)證了本文方法在建筑物識(shí)別與提取的準(zhǔn)確性和適應(yīng)性方面具有更高的性能，且過(guò)程高度自動(dòng)化，可進(jìn)行大規(guī)模的建筑物提取。

盡管本文提出方法在建筑物圖像精確分割中取得了良好的效果，但仍然有較大的改進(jìn)空間，主要集中在兩個(gè)方面。一是數(shù)據(jù)集圖像的改進(jìn)。雖然本文選取的數(shù)據(jù)集已經(jīng)在建筑物圖像語(yǔ)義分割領(lǐng)域得到了充分的驗(yàn)證，但其在建筑物邊界方面仍然需要一定改進(jìn)。如圖10所示，由于數(shù)據(jù)集制作環(huán)節(jié)，未標(biāo)注樹(shù)木遮擋下隱藏的建筑物邊界，導(dǎo)致本來(lái)屬于建筑物邊界的像素被錯(cuò)誤地歸類為樹(shù)木，因此提高標(biāo)注方式，獲得高精度的數(shù)據(jù)集是一個(gè)值得關(guān)注的研究方向。二是識(shí)別速度的提升。高準(zhǔn)確性和高適應(yīng)性必然帶來(lái)圖像分割速度的問(wèn)題，特別是高質(zhì)量圖像的廣泛使用，但由于本文模型復(fù)雜，并且FPN特征提取結(jié)構(gòu)基于較深的ResNet-101網(wǎng)絡(luò)，因此存在大量參數(shù)使得訓(xùn)練時(shí)間較長(zhǎng)。在不降低計(jì)算精度的基礎(chǔ)上，尋找合適的方法縮短檢測(cè)時(shí)間，從而進(jìn)一步提高深度學(xué)習(xí)模型的能力是下一階段亟待解決的問(wèn)題。

圖10 樹(shù)木影響下的分割結(jié)果