楊建華
(上海大學(xué) 土木工程系,上海 200444)
建筑物作為城市中重要的地理標(biāo)識(shí),也是人類活動(dòng)區(qū)域的重要特征,在復(fù)雜自然場(chǎng)景中實(shí)現(xiàn)對(duì)其精確的識(shí)別可為城市規(guī)劃、城市動(dòng)態(tài)監(jiān)測(cè)、地形圖更新等領(lǐng)域提供重要的支撐[1]。遙感技術(shù)是獲取特定區(qū)域圖像執(zhí)行此類任務(wù)的普遍方法。目前,隨著影像傳感器和新興平臺(tái)(例如無(wú)人機(jī))的技術(shù)發(fā)展,高分辨率建筑物圖像的可用性和普及性得到了極大的提高[2],海量的高質(zhì)量圖像使得建筑物的高精度識(shí)別成為可能,但同時(shí)也對(duì)現(xiàn)有的處理手段提出了新的挑戰(zhàn)[3]。
高分辨率圖像雖然提供了豐富的結(jié)構(gòu)和紋理信息,有助于檢測(cè)和區(qū)分地面上的各種物體,但同時(shí)也增加了圖像元素的類內(nèi)差異,減小了類間差異[4],使得提取圖像合理的空間特征以實(shí)現(xiàn)像素的分類變得更加困難[5]。由于建筑物具有復(fù)雜的形狀和圖案,同時(shí)受到包括形狀、材料、空間大小和建筑物陰影的干擾,因而上述問(wèn)題在高分辨率的建筑物圖像領(lǐng)域顯得格外突顯。
傳統(tǒng)的建筑物提取方法多利用圖像的中低級(jí)特征,如光譜、邊緣、陰影、幾何結(jié)構(gòu)等。Huang等[6]提出了利用一組形態(tài)學(xué)運(yùn)算來(lái)表示建筑物的固有光譜結(jié)構(gòu)特性(例如亮度、對(duì)比度和大小),即形態(tài)建筑物指數(shù),從高分辨率圖像中自動(dòng)檢測(cè)建筑物。Ma[7]提出了一種提取地面點(diǎn)生成數(shù)字高程模型(digital elevation model,DEM),進(jìn)而檢測(cè)圖像中屬于建筑物點(diǎn)的方法。Zhou等[8]提出了一種僅利用數(shù)字地表模型(digital surface model,DSM)的高度信息進(jìn)行建筑物檢測(cè)的技術(shù)。Chen等[9]提出了圖像邊緣規(guī)則性指數(shù)和陰影線指數(shù),將其作為細(xì)化特定建筑物檢測(cè)結(jié)果邊界的新特征。然而,在數(shù)據(jù)量愈發(fā)龐大以及建筑物越來(lái)越復(fù)雜的現(xiàn)實(shí)情況下,這些基于人工獲取圖像中低級(jí)特征的方法,無(wú)法實(shí)現(xiàn)建筑物的自動(dòng)化準(zhǔn)確識(shí)別。
近年來(lái),隨著深度學(xué)習(xí)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)在計(jì)算機(jī)視覺(jué)任務(wù)中表現(xiàn)出優(yōu)異的性能[10]。CNN通過(guò)學(xué)習(xí)圖像數(shù)據(jù)分層的語(yǔ)義來(lái)代替人工繁瑣的經(jīng)驗(yàn)特征設(shè)計(jì)過(guò)程,進(jìn)而實(shí)現(xiàn)圖像特征提取的自動(dòng)化[11]。自2012年以來(lái),CNN被廣泛地應(yīng)用于圖像分類,AlexNet[12]、VGGNet[13]、GoogLeNet[14]和ResNet[15]等新型CNN結(jié)構(gòu)均在各個(gè)領(lǐng)域得以普遍的運(yùn)用。然而,這些方法主要集中于圖像的標(biāo)簽分類,缺乏圖像中對(duì)象的精確定位和其邊界表征的提取[16]。因此,為了檢測(cè)物體及其空間位置,像素標(biāo)記的預(yù)測(cè)具有重要意義。
Long等[17]改善了目前通用的分類模型,通過(guò)用卷積層替換全連接層以輸出空間圖而不是分類概率,從而將CNN轉(zhuǎn)換為全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional networks,F(xiàn)CN)。然而,普通FCN無(wú)法恢復(fù)輸入圖像的分辨率,并且在分割小細(xì)節(jié)方面表現(xiàn)不佳,而諸如SegNet[18]和U-Net[19]之類的解碼器-編碼器(Encoder-Decoder)網(wǎng)絡(luò)模型可以有效地解決此問(wèn)題,通過(guò)在Encoder-Decoder之間設(shè)置多個(gè)跳躍連接結(jié)構(gòu)以融合多級(jí)語(yǔ)義,進(jìn)而更好地恢復(fù)對(duì)象的邊界信息。為了進(jìn)一步提高準(zhǔn)確性,Deeplab系列[20]通過(guò)擴(kuò)展感受域、學(xué)習(xí)多尺度上下文信息和加入后處理結(jié)構(gòu)來(lái)提高分割精度,例如條件隨機(jī)場(chǎng)(conditional random field,CRF)和空洞空間金字塔池化模塊(atrous spatial pyramid pooling,ASPP)。但是,這些基于FCN變體的Encoder-Decoder網(wǎng)絡(luò)模型,只使用了部分層來(lái)產(chǎn)生最終的輸出,使得待分割對(duì)象的邊緣精度較低。
由于建筑物的復(fù)雜性,使得目標(biāo)具有多尺度特征,包括局部的建筑邊界拐角、紋理、宏觀的線形、邊界交叉等。小的局部特征有助于細(xì)節(jié)上的分割,而大規(guī)模的全局特征則有助于分類的準(zhǔn)確性。因此,建立具備多尺度提取建筑物圖像特征能力的語(yǔ)義分割網(wǎng)絡(luò)是本研究的核心。
建筑物邊界識(shí)別的準(zhǔn)確度直接影響著建筑物提取的最終效果。但是,建筑物邊界目標(biāo)是細(xì)小的線性結(jié)構(gòu),而像素級(jí)分類中廣泛使用的損失函數(shù),例如交叉熵(cross entropy,CE),往往會(huì)忽略像素之間的關(guān)系,造成分割結(jié)果包含大量不準(zhǔn)確的模糊預(yù)測(cè)。因此,本文引入了對(duì)語(yǔ)義分割指標(biāo)Jaccard指數(shù)(即IoU得分)直接進(jìn)行優(yōu)化的Lovász損失函數(shù)[21],通過(guò)減少Lovász損失獲得更高的Jaccard指數(shù),從而得到更高質(zhì)量的分割結(jié)果。
本文的主要貢獻(xiàn)總結(jié)如下。
1)提出了一種稱為BuildingNet的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。該模型基于特征金字塔(feature pyramid network,F(xiàn)PN)結(jié)構(gòu)進(jìn)行改進(jìn),并引入了ASPP模塊,具有針對(duì)不同分辨率圖像的良好特征提取性能。
2)在傳統(tǒng)二元交叉熵?fù)p失函數(shù)的基礎(chǔ)上引入了Lovász損失函數(shù),將建筑物特征表示形式補(bǔ)充到一般的交叉熵?fù)p失函數(shù)無(wú)法達(dá)到的程度,從而提高了建筑物提取結(jié)果的質(zhì)量。
3)實(shí)驗(yàn)在兩個(gè)高分辨率建筑物數(shù)據(jù)集,即遙感影像數(shù)據(jù)集(Vaihingen城市遙感圖像數(shù)據(jù)集[22])和無(wú)人機(jī)城市圖像數(shù)據(jù)集(UDD數(shù)據(jù)集[23])上均有優(yōu)異的表現(xiàn),展示了模型良好的泛化能力。
圖1 本研究整體方案圖
語(yǔ)義分割可以看作是圖像像素級(jí)別分類問(wèn)題,其輸出圖像和輸入圖像的分辨率需要一致。本文研究的建筑物圖像的邊界分割可以看作為一個(gè)二元語(yǔ)義分割問(wèn)題,即將圖像中除建筑物以外的元素,如樹(shù)木、路面、車輛等均作背景元素處理。圖1顯示了本文對(duì)建筑物圖像進(jìn)行語(yǔ)義分割的整體方案:基于FPN特征提取結(jié)構(gòu)提出了一種用于建筑物特征增強(qiáng)的BuildingNet網(wǎng)絡(luò),并改進(jìn)了訓(xùn)練過(guò)程中的損失函數(shù),使其可以更好地適用于建筑物圖像的邊界分割。
FPN通過(guò)自上向下的路徑及橫向連接將分辨率低但語(yǔ)義強(qiáng)的圖像上層特征和語(yǔ)義弱但分辨率高的圖像下層特征進(jìn)行融合,進(jìn)而將建筑物圖像的語(yǔ)義信息和空間信息相結(jié)合,使得神經(jīng)網(wǎng)絡(luò)對(duì)于特征的檢測(cè)性能有了很大的提升。
1)自下而上的路徑。本研究使用ResNet-101作為骨干網(wǎng)絡(luò),并預(yù)先在ImageNet公共數(shù)據(jù)集上進(jìn)行訓(xùn)練獲得初始權(quán)重。ResNet-101由五個(gè)卷積塊組成,當(dāng)通過(guò)骨干網(wǎng)絡(luò)提取隱藏在圖像中的特征時(shí),圖像的空間維度每次減少一半,而連續(xù)兩個(gè)特征圖之間的通道深度相應(yīng)增加(圖2)。ResNet-101中每個(gè)卷積模塊的輸出被標(biāo)記為Ci(i=1,2,3,4,5),隨后作用于自上而下的路徑。因此,該路徑產(chǎn)生特征圖為{C1,C2,C3,C4,C5}。
2)自上而下的路徑。通過(guò)構(gòu)建特征金字塔網(wǎng)絡(luò){O2,O3,O4,O5}創(chuàng)建自上而下的路徑。過(guò)程中首先對(duì)C5應(yīng)用1×1卷積濾波器,將其通道深度降低到256,這里創(chuàng)建的層稱為O5,成為第一個(gè)用于建筑物圖像分割的特征圖。當(dāng)沿著自上而下的路徑往下進(jìn)行時(shí),上一層的空間維度會(huì)通過(guò)最近鄰上采樣(nearest)的方法擴(kuò)大2倍。與之相應(yīng)的是,對(duì)相應(yīng)的特征圖進(jìn)行1×1卷積,隨后,將這兩張?zhí)卣鲌D逐元素添加,進(jìn)行特征融合。所有特征金字塔輸出(O2,O3,O4,O5)都有256個(gè)輸出通道。以上過(guò)程如式(1)至式(3)所示。
TN=Conv2dm,s,d(CN)
(1)
O5=T5
(2)
(3)
式中:TN是通過(guò)將每個(gè)特征圖從自下而上的路徑用m=256個(gè)大小(d)和步長(zhǎng)(s)都為(1,1)的核進(jìn)行卷積降維。上采樣Up(Mi,CN)將Mi的大小調(diào)整為CN的大小。ON(N=2,3,4,5)為自上而下路徑的輸出特征圖。由于C1的空間維度過(guò)大,會(huì)消耗過(guò)多內(nèi)存,因此過(guò)程在O2處停止。
BuildingNet圖像分割網(wǎng)絡(luò)基于FPN特征提取結(jié)構(gòu),其整體模型結(jié)構(gòu)如圖3所示。
圖2 FPN特征金字塔提取結(jié)構(gòu)
圖3 BuildingNet建筑物分割網(wǎng)絡(luò)整體結(jié)構(gòu)圖
本文對(duì)FPN結(jié)構(gòu)作出如下改進(jìn)。首先,對(duì)FPN輸出特征圖{O2,O3,O4,O5}采用空洞卷積(Atrous_Convolution)來(lái)降低自下而上路徑中兩個(gè)特征圖融合時(shí)產(chǎn)生的混疊效應(yīng),并且與傳統(tǒng)卷積運(yùn)算相比,空洞卷積可以在不增加計(jì)算參數(shù)的前提下擴(kuò)大感受野。這個(gè)過(guò)程在式(1)至式(3)的基礎(chǔ)上可以總結(jié)如式(4)至式(5)所示。
P5=Atrous_Conv2dn,s,d′,r(O5)
(4)
PN=Atrous_Conv2dn,s,d′,r(Conv2dn,s,d′(ON))
(5)
式中:Atrous_Conv2d()為空洞卷積運(yùn)算,其中濾波器個(gè)數(shù)n=256,大小d′=(3,3)。通過(guò)兩次3×3卷積(一次普通卷積,一次空洞卷積)來(lái)創(chuàng)建Pi(i=2,3,4),因此所有輸出的維度均為256-d。然后,對(duì)Pi融合后輸入ASPP結(jié)構(gòu)。
ASPP架構(gòu)已經(jīng)被證明可以很好地在多個(gè)尺度上分割對(duì)象,并且使結(jié)果更具魯棒性。建筑物圖像中包含豐富的邊界細(xì)節(jié)信息,同時(shí)建筑物像素周圍會(huì)有大量背景像素干擾,因此本文在BuildingNet中保留了Deeplabv3+中的ASPP架構(gòu)。
圖4 ASPP網(wǎng)絡(luò)結(jié)構(gòu)圖
圖4顯示的ASPP由4個(gè)不同孔隙率的平行空洞卷積組成。具體來(lái)說(shuō),ASPP由一個(gè)1×1卷積、三個(gè)平行的孔隙率分別為6、12和18的3×3空洞卷積以及一個(gè)生成圖像級(jí)特征的全局平均池化層組成。這些模塊生成的特征圖通過(guò)雙線性插值上采樣到輸入大小,然后連接并通過(guò)一個(gè)1×1的卷積。ASPP應(yīng)用于FPN部分產(chǎn)生的特征圖,隨后ASPP產(chǎn)生的特征圖被上采樣恢復(fù)至圖像原始尺寸,如圖3所示。
卷積分割網(wǎng)絡(luò)可以通過(guò)正向傳播算法對(duì)輸入的預(yù)處理圖像進(jìn)行正向計(jì)算,并得到預(yù)測(cè)特征圖。圖1表明反向傳播算法(back propagation,BP)返還預(yù)測(cè)的結(jié)果和其對(duì)應(yīng)的建筑邊界真實(shí)標(biāo)簽之間的誤差(loss),同時(shí)計(jì)算損失函數(shù)的梯度并將其反饋到參數(shù)更新算法(優(yōu)化器)更新神經(jīng)網(wǎng)絡(luò)的加權(quán)參數(shù),其迭代訓(xùn)練過(guò)程即為權(quán)重參數(shù)不斷更新以及損失值不斷降低的過(guò)程,最終得到一個(gè)適用的權(quán)重模型。因此,損失函數(shù)用來(lái)評(píng)估預(yù)測(cè)值與真實(shí)值之間的不一致程度,損失函數(shù)越小,模型的魯棒性越好。
建筑物圖像具有高度結(jié)構(gòu)化的特征,圖像中屬于建筑物的像素表現(xiàn)出很強(qiáng)的依賴性,特別是對(duì)空間關(guān)系的依賴。然而,目前在圖像語(yǔ)義分割領(lǐng)域普遍的方法是在驗(yàn)證集上計(jì)算圖像分割的交叉熵?fù)p失,在評(píng)價(jià)兩幅圖像之間的相似度時(shí),會(huì)給每個(gè)像素分配相等的權(quán)重,導(dǎo)致對(duì)于空間信息的忽視。二元交叉熵(binary cross entropy,BCE)損失函數(shù)如式(6)所示。
(6)
(7)
則其損失如式(8)所示。
(8)
式(8)可以改寫(xiě)為式(9)。
(9)
由于圖像由像素組成,所以對(duì)式(9)做如下改變以適應(yīng)離散對(duì)象,表達(dá)如式(10)所示。
(10)
本文將BCE損失函數(shù)與Lovász損失函數(shù)相結(jié)合來(lái)訓(xùn)練BuildingNet網(wǎng)絡(luò),最終的損失函數(shù)表達(dá)如式(11)所示。
(11)
通過(guò)最小化這個(gè)損失函數(shù),建筑物像素的預(yù)測(cè)正確概率得到最大化,本研究中α取0.5。
為了驗(yàn)證本文算法的有效性,本研究在Vaihingen城市遙感圖像數(shù)據(jù)集和UDD無(wú)人機(jī)城市圖像數(shù)據(jù)集上展開(kāi)了實(shí)驗(yàn)研究。
Vaihingen數(shù)據(jù)集是由德國(guó)Vaihingen小鎮(zhèn)上空拍攝的正射影像中提取出的33個(gè)2 500像素×2 500像素的圖像組成,圖像的地面采樣距離為0.09 m。其中,16個(gè)圖塊被標(biāo)記為像素級(jí)的數(shù)據(jù)真實(shí)標(biāo)簽,每一個(gè)地面真實(shí)標(biāo)簽都由六個(gè)類別組成,分別為地表、建筑物、低矮植被、樹(shù)木、車輛和背景。本研究只識(shí)別其中屬于建筑物類別的像素,因此將其他五個(gè)類別均看作背景,其中建筑物像素占比約26.69%。
UDD數(shù)據(jù)集是由專業(yè)級(jí)無(wú)人機(jī)在中國(guó)北京大學(xué)、葫蘆島市、河南大學(xué)和滄州市等地于離地60~100 m的高度收集的無(wú)人機(jī)圖像,大小為4 096像素×2 160像素和4 000像素×3 000像素。
為了增加訓(xùn)練樣本,本研究使用了諸如隨機(jī)縮放、旋轉(zhuǎn)、垂直/水平翻轉(zhuǎn)、對(duì)比度/亮度改變和高斯模糊等的圖像數(shù)據(jù)增強(qiáng)技術(shù)。數(shù)據(jù)增強(qiáng)有助于增加訓(xùn)練數(shù)據(jù)的數(shù)量,防止模型過(guò)擬合,從而提高訓(xùn)練性能。
上述兩個(gè)數(shù)據(jù)集分別被分為三個(gè)部分:訓(xùn)練集、驗(yàn)證集和測(cè)試集,在訓(xùn)練集上訓(xùn)練本文網(wǎng)絡(luò),每輪迭代(epoch)結(jié)束時(shí)對(duì)其進(jìn)行驗(yàn)證,最后在測(cè)試集上測(cè)試網(wǎng)絡(luò)性能。
為了從多個(gè)方面定量評(píng)估建筑物圖像的分割結(jié)果,本文引入召回率(recall)、精確率(precision)、F1分?jǐn)?shù)和平均交并比(mIoU)四個(gè)評(píng)價(jià)指標(biāo)。
precision表示被正確分割為建筑物的像素點(diǎn)與所有分割為建筑物的像素點(diǎn)的比率。recall表示被分割為建筑物的像素點(diǎn)與真實(shí)建筑物像素點(diǎn)的比率。F1分?jǐn)?shù)和mIoU是綜合recall和precision的評(píng)估指標(biāo),用于反映整體的分割效果。
為了提高模型的魯棒性,所有圖像都經(jīng)過(guò)裁剪和標(biāo)準(zhǔn)化處理。首先,將輸入圖像隨機(jī)裁剪為512像素×512像素,裁剪有利于卷積神經(jīng)網(wǎng)絡(luò)的下采樣操作,同時(shí)降低了計(jì)算水平;然后,通過(guò)0~1歸一化和平均值相減,將裁剪后的圖像歸一化為[-0.5,0.5]。
實(shí)驗(yàn)平臺(tái)采用Intel-i7-8700四核CPU處理器、32 GB內(nèi)存、NVIDIA-GTX-1080TI顯卡(GPU處理單元),操作系統(tǒng)為Windows 10。本實(shí)驗(yàn)網(wǎng)絡(luò)模型基于Pytorch深度學(xué)習(xí)框架搭建,同時(shí)運(yùn)用了Nvidia公司的CUDA10.0的GPU運(yùn)算平臺(tái)。訓(xùn)練中采用Adam優(yōu)化器,batch size數(shù)量為2,epoch次數(shù)為500,初始學(xué)習(xí)率為0.000 1,每次以0.9的速率衰減,衰減系數(shù)為0.000 2。為避免過(guò)擬合,本研究在所有卷積中引入了L2正則化,權(quán)重衰減為0.000 1。
本文提出的BuildingNet網(wǎng)絡(luò)基于FPN結(jié)構(gòu)進(jìn)行改進(jìn),并引入了ASPP模塊。實(shí)驗(yàn)選取了SegNet、U-Net和Deeplabv3+共三種常用的語(yǔ)義分割模型進(jìn)行對(duì)比驗(yàn)證。除了表1所示的網(wǎng)絡(luò)結(jié)構(gòu)差異外,這四個(gè)模型的超參數(shù)(如卷積層、激活函數(shù)和優(yōu)化器)不變。
表1 四種實(shí)驗(yàn)?zāi)P途W(wǎng)絡(luò)配置
FPN和ASPP的集成旨在捕獲圖像多尺度特征、融合圖像上下層語(yǔ)義信息來(lái)提高網(wǎng)絡(luò)的檢測(cè)性能。表2和表3顯示含有ASPP結(jié)構(gòu)的Deeplabv3+和BuildingNet明顯優(yōu)于未引入ASPP結(jié)構(gòu)的U-Net和SegNet,以表1的Vaihingen數(shù)據(jù)集的表現(xiàn)為例,Deeplabv3+的F1得分比U-Net高約1.61%,而B(niǎo)uildingNet則高出約3.62%;在引入FPN特征提取結(jié)構(gòu)之后,BuildingNet網(wǎng)絡(luò)的分割效果在Deeplabv3+的基礎(chǔ)上得到進(jìn)一步提升,BuildingNet的F1分?jǐn)?shù)達(dá)到94.58%,mIoU達(dá)到87.88%,這些量化結(jié)果證明了將FPN特征金字塔網(wǎng)絡(luò)和ASPP集成到神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中的策略是有效的。為了揭示模型的性能并解釋量化指標(biāo),本文進(jìn)一步將預(yù)測(cè)的結(jié)果可視化。
表2 BuildingNet與現(xiàn)有網(wǎng)絡(luò)結(jié)構(gòu)的性能比較(Vaihingen數(shù)據(jù)集) %
表3 BuildingNet與現(xiàn)有網(wǎng)絡(luò)結(jié)構(gòu)的性能比較(UDD數(shù)據(jù)集) %
圖5和圖6分別展示了四種網(wǎng)絡(luò)對(duì)來(lái)自Vaihingen和UDD數(shù)據(jù)集特定區(qū)域樣本的識(shí)別結(jié)果:對(duì)于特征較為簡(jiǎn)單的建筑物圖像,如圖像1顯示,四種分割網(wǎng)絡(luò)均有良好的表現(xiàn);圖像2和圖像3為具有復(fù)雜邊界特征的建筑物圖像,SegNet和U-Net無(wú)法準(zhǔn)確或完全識(shí)別屬于建筑物的像素,而在第(e)列和第(f)列中,Deeplabv3+和BuildingNet通過(guò)ASPP結(jié)構(gòu)增加的卷積模塊數(shù)量和孔隙率,來(lái)擴(kuò)大網(wǎng)絡(luò)感受野,進(jìn)而從多尺度信息中捕捉圖像更多的特征,從而表現(xiàn)出更好的復(fù)雜邊界特征提取性能;對(duì)于具有大小不同的建筑物元素且建筑物像素占圖像比重較高的圖像,如圖像4,BuildingNet網(wǎng)絡(luò)通過(guò)FPN結(jié)構(gòu)融合分辨率低但語(yǔ)義強(qiáng)的圖像上層特征和語(yǔ)義弱但分辨率高的圖像下層特征,從而比Deeplabv3+在恢復(fù)特征和抑制誤報(bào)方面展示出更高的性能。第(g)列通過(guò)將BuildingNet的分割結(jié)果(圖中綠色部分)與原始圖像進(jìn)行疊加,進(jìn)一步直觀地觀察實(shí)驗(yàn)結(jié)果與原始圖像間的差別。圖7和圖8展示了完整的測(cè)試集預(yù)測(cè)結(jié)果。
圖5 BuildingNet與現(xiàn)有網(wǎng)絡(luò)結(jié)構(gòu)的可視化比較(Vaihingen數(shù)據(jù)集)
圖6 BuildingNet與現(xiàn)有網(wǎng)絡(luò)結(jié)構(gòu)的可視化比較(UDD數(shù)據(jù)集)
圖7 Vaihingen數(shù)據(jù)集提取實(shí)例
圖8 UDD數(shù)據(jù)集提取實(shí)例
本文引入改進(jìn)的損失函數(shù)來(lái)提高建筑物邊界的分割準(zhǔn)確度和預(yù)測(cè)圖像的質(zhì)量,從而得到更精確的建筑物圖像分割效果。
為了驗(yàn)證損失函數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響,本文以Vaihingen數(shù)據(jù)集為例,設(shè)計(jì)了消融實(shí)驗(yàn)作進(jìn)一步驗(yàn)證。改進(jìn)的Lovász損失函數(shù)實(shí)驗(yàn)結(jié)果如圖9所示。圖像1展示了由于特征的提取和分類過(guò)程中的不精確導(dǎo)致錯(cuò)誤檢測(cè)的分割圖,通過(guò)改進(jìn)的Lovász損失函數(shù)消除了這些錯(cuò)誤檢測(cè);圖像2、圖像3顯示了改進(jìn)的Lovász損失函數(shù)消除了零星噪聲點(diǎn)的結(jié)果,說(shuō)明了損失函數(shù)對(duì)改善圖像質(zhì)量的附加影響。表4展示了改進(jìn)的損失函數(shù)對(duì)分割網(wǎng)絡(luò)性能上的定量提升。
表4 消融實(shí)驗(yàn)的定量結(jié)果 %
圖9 消融實(shí)驗(yàn)的可視化結(jié)果
高分辨率的圖像為建筑物及其邊界的分割提供了更豐富的空間和結(jié)構(gòu)信息。隨著高分辨率建筑物圖像的可用性和普及性的提高,快速準(zhǔn)確地提取建筑物及其邊界信息意義重大。本文提出了一種基于特征金字塔FPN結(jié)構(gòu)的BuildingNet網(wǎng)絡(luò),使得卷積神經(jīng)網(wǎng)絡(luò)具有針對(duì)不同分辨率圖像的良好特征提取性能。同時(shí),本文設(shè)計(jì)了一種改進(jìn)的Lovász損失函數(shù)來(lái)訓(xùn)練所提出的網(wǎng)絡(luò),有效地提高了提取結(jié)果的圖像質(zhì)量。通過(guò)對(duì)比實(shí)驗(yàn)和消融實(shí)驗(yàn)驗(yàn)證了本文方法在建筑物識(shí)別與提取的準(zhǔn)確性和適應(yīng)性方面具有更高的性能,且過(guò)程高度自動(dòng)化,可進(jìn)行大規(guī)模的建筑物提取。
盡管本文提出方法在建筑物圖像精確分割中取得了良好的效果,但仍然有較大的改進(jìn)空間,主要集中在兩個(gè)方面。一是數(shù)據(jù)集圖像的改進(jìn)。雖然本文選取的數(shù)據(jù)集已經(jīng)在建筑物圖像語(yǔ)義分割領(lǐng)域得到了充分的驗(yàn)證,但其在建筑物邊界方面仍然需要一定改進(jìn)。如圖10所示,由于數(shù)據(jù)集制作環(huán)節(jié),未標(biāo)注樹(shù)木遮擋下隱藏的建筑物邊界,導(dǎo)致本來(lái)屬于建筑物邊界的像素被錯(cuò)誤地歸類為樹(shù)木,因此提高標(biāo)注方式,獲得高精度的數(shù)據(jù)集是一個(gè)值得關(guān)注的研究方向。二是識(shí)別速度的提升。高準(zhǔn)確性和高適應(yīng)性必然帶來(lái)圖像分割速度的問(wèn)題,特別是高質(zhì)量圖像的廣泛使用,但由于本文模型復(fù)雜,并且FPN特征提取結(jié)構(gòu)基于較深的ResNet-101網(wǎng)絡(luò),因此存在大量參數(shù)使得訓(xùn)練時(shí)間較長(zhǎng)。在不降低計(jì)算精度的基礎(chǔ)上,尋找合適的方法縮短檢測(cè)時(shí)間,從而進(jìn)一步提高深度學(xué)習(xí)模型的能力是下一階段亟待解決的問(wèn)題。
圖10 樹(shù)木影響下的分割結(jié)果