伍廣明,陳 奇,2,Ryosuke SHIBASAKI,郭直靈,邵肖偉,許永偉
1. 東京大學(xué)空間信息科學(xué)研究中心,日本 東京 113-8657; 2. 中國地質(zhì)大學(xué)(武漢)信息工程學(xué)院,湖北 武漢 430074
從遙感影像中自動(dòng)識(shí)別建筑物目標(biāo)并獲取其精確邊緣輪廓信息,一直是數(shù)字測圖實(shí)現(xiàn)自動(dòng)化和智能化的重要努力方向。在深度學(xué)習(xí)技術(shù)的復(fù)興熱潮到來之前,絕大部分面向遙感影像的建筑物檢測方法可歸類為一種從人工設(shè)計(jì)特征出發(fā)的分類方法,其特征建模依賴于人類對(duì)建筑物的觀察、理解和歸納。在此基礎(chǔ)上形成的方法可區(qū)分為知識(shí)引導(dǎo)、模板匹配及監(jiān)督分類3類:知識(shí)引導(dǎo)類方法主要通過建立知識(shí)約束將對(duì)象檢測問題轉(zhuǎn)化為假設(shè)測試問題,典型的知識(shí)約束包括建筑物的幾何輻射特性、矩形約束[1]、棱形約束[2],以及建筑物與陰影的伴生關(guān)系[3-4]等;模板匹配方法基于明確的模板參數(shù)對(duì)建筑物進(jìn)行描述,再通過人工設(shè)置或樣本訓(xùn)練的方式獲取這些參數(shù),最后采用一定的搜索方法,并以相關(guān)度最大為原則來確定最佳匹配結(jié)果[5-6];監(jiān)督分類方法一般針對(duì)建筑物的特點(diǎn)設(shè)計(jì)數(shù)據(jù)特征,然后進(jìn)行特征提取并利用樣本數(shù)據(jù)進(jìn)行分類器訓(xùn)練,最后使用支持向量機(jī)[7]、Adaptive Boosting(AdaBoost)[8]、隨機(jī)森林[9]、條件隨機(jī)場[10]等分類器對(duì)測試數(shù)據(jù)中的特征進(jìn)行分類,進(jìn)而從分類結(jié)果中獲取建筑物檢測結(jié)果。然而,受制于建筑物結(jié)構(gòu)、紋理復(fù)雜多樣,以及不同數(shù)據(jù)中光照、分辨率和成像質(zhì)量的變化,依賴人工設(shè)計(jì)往往很難對(duì)各種成像條件下的建筑物特征進(jìn)行準(zhǔn)確概括,從而導(dǎo)致基于人工設(shè)計(jì)特征的傳統(tǒng)方法普遍缺乏對(duì)不同數(shù)據(jù)的泛化能力。
近年來,隨著計(jì)算機(jī)硬件水平的發(fā)展和超大規(guī)模學(xué)習(xí)樣本的出現(xiàn),以卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[11]為代表的深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺領(lǐng)域的目標(biāo)檢測和分類應(yīng)用中表現(xiàn)出強(qiáng)大性能[12],大幅提升了該領(lǐng)域的算法精度水平。由于CNN能夠自動(dòng)學(xué)習(xí)和生成復(fù)雜度極高的非線性特征,突破人工設(shè)計(jì)的局限性,因而迅速在建筑物檢測問題上得到應(yīng)用。早期的應(yīng)用思路主要基于經(jīng)典CNN模型,即在影像中取以單像素為中心的圖像塊為模型輸入,并對(duì)其進(jìn)行特征建模,進(jìn)而確定每個(gè)像素的類別[13-14],不過當(dāng)推廣至大批量處理時(shí),這種方法的內(nèi)存開銷將急劇增加,處理效率也將明顯下降。全卷積網(wǎng)絡(luò)(fully convolutional network,F(xiàn)CN)[15]的提出很大程度上改進(jìn)了這個(gè)問題,該模型通過去除經(jīng)典CNN中的全連接層,并對(duì)末層特征進(jìn)行反卷積(上采樣)操作生成與輸入圖像分辨率一致的輸出層,可以高效地實(shí)現(xiàn)圖像的像素級(jí)分類。目前FCN模型已經(jīng)在建筑物檢測方面得到較多應(yīng)用[16-18]。此外,顧及CNN的前向傳播過程中分辨率不斷下降,僅采用末層特征生成的分割結(jié)果往往邊緣精度偏低,后續(xù)許多面向圖像分割的模型進(jìn)一步對(duì)FCN這種端對(duì)端的思想進(jìn)行了擴(kuò)展,這其中有代表性的包括SegNet[19]、DeconvNet[20]以及U-Net[21]等。以本文關(guān)注的U型卷積神經(jīng)網(wǎng)絡(luò)U-Net為例,該模型不僅實(shí)現(xiàn)了輸出層的分辨率一致性,還通過對(duì)稱式的結(jié)構(gòu)設(shè)計(jì)融合了CNN網(wǎng)絡(luò)中的低維和高維特征,在醫(yī)學(xué)圖像上達(dá)到了更高精度的分割效果。
基于上述分析,本文以一個(gè)大覆蓋范圍的航空影像數(shù)據(jù)集作為研究對(duì)象,提出一種基于改進(jìn)U-Net模型的建筑物檢測方法。本文貢獻(xiàn)主要體現(xiàn)在兩點(diǎn):首先,將U型卷積網(wǎng)絡(luò)的設(shè)計(jì)思想應(yīng)用于遙感影像建筑物檢測處理中,設(shè)法融合卷積網(wǎng)絡(luò)中的高維和低維特征以恢復(fù)高保真建筑物邊界;其次,提出一種雙重約束的改進(jìn)U-Net模型,以加強(qiáng)網(wǎng)絡(luò)在抽象層面識(shí)別建筑物的能力,從而進(jìn)一步提升檢測精度。
CNN在遙感影像建筑物檢測方面的應(yīng)用目前仍處在較早的階段,本節(jié)將首先對(duì)FCN模型和U型卷積網(wǎng)絡(luò)在圖像分割中的應(yīng)用思路進(jìn)行簡要介紹,然后介紹本文提出的雙重約束的改進(jìn)U型卷積網(wǎng)絡(luò),最后對(duì)基于改進(jìn)U型卷積網(wǎng)絡(luò)的建筑物檢測流程進(jìn)行闡述。
文獻(xiàn)[17]提出了一種全卷積思想的FCN模型[17],其主要目的在于改善經(jīng)典CNN模型在圖像語義分割問題上的應(yīng)用表現(xiàn)。在此之前,CNN模型已經(jīng)在目標(biāo)分類領(lǐng)域取得了最先進(jìn)的分類精度水平,但這種經(jīng)典模型結(jié)構(gòu)一般只適用于圖像級(jí)的分類和回歸任務(wù),其網(wǎng)絡(luò)通常會(huì)在若干個(gè)卷積層和池化層之后連接多個(gè)全連接層,從而將卷積層中生成的特征映射為一個(gè)N維向量,以表征輸入圖像屬于N個(gè)類別中每一類的概率。
然而對(duì)于包括遙感影像建筑物檢測在內(nèi)的語義分割問題而言,需要獲取的是圖像中每個(gè)像素的分類結(jié)果。盡管經(jīng)典CNN模型通過以單個(gè)像素為中心取圖像塊,然后基于圖像塊進(jìn)行特征建模的方式可以實(shí)現(xiàn)像素級(jí)的圖像分類,但由于相鄰圖像塊的高度重疊將引入大量的數(shù)據(jù)冗余,這種方法往往非常耗時(shí)。此外,圖像塊大小的選取還將面臨兩難問題:窗口過大將導(dǎo)致內(nèi)存開銷劇增,增加計(jì)算負(fù)擔(dān);窗口較小則無法掌握大型目標(biāo)的上下文信息,造成識(shí)別困難。
鑒于此,F(xiàn)CN模型對(duì)經(jīng)典CNN做出了針對(duì)性改進(jìn)。如圖1所示,相比經(jīng)典模型的網(wǎng)絡(luò)結(jié)構(gòu),F(xiàn)CN的最大區(qū)別是在末端的卷積層之后不再使用全連接層生成固定長度的特征向量,而是采用反卷積層對(duì)前端卷積層生成的高維特征圖進(jìn)行上采樣,使之恢復(fù)至與輸入圖像相同的分辨率。改進(jìn)后的網(wǎng)絡(luò)模型有效保留了輸入圖像的空間信息,可以實(shí)現(xiàn)對(duì)每個(gè)像素都產(chǎn)生一個(gè)預(yù)測結(jié)果,同時(shí)因?yàn)槭∪チ私?jīng)典CNN應(yīng)用中復(fù)雜的逐窗口計(jì)算過程,圖像分割的處理效率也得到大幅提升。
圖1 FCN網(wǎng)絡(luò)結(jié)構(gòu)示意Fig.1 The architecture of fully convolutional networks
盡管在FCN的網(wǎng)絡(luò)結(jié)構(gòu)中進(jìn)行一次反卷積操作就可以生成原圖大小的輸出層,但得到的分割結(jié)果往往過于平滑,許多細(xì)節(jié)無法還原。這主要是由于在生成最后的特征圖之前輸入圖像經(jīng)歷了多次池化處理,這一方面使得末端的神經(jīng)元能夠接收更大范圍圖像的信息,即更大的感受野,另一方面卻也導(dǎo)致許多圖像細(xì)節(jié)丟失,從而無法精確地提取目標(biāo)輪廓。FCN模型就此提出的解決方案是嘗試將特征金字塔中更低層的特征與反卷積后的上采樣結(jié)果進(jìn)行融合并加以運(yùn)用,試驗(yàn)證實(shí)這種方法確實(shí)可以提高分割精度。
U-Net模型則進(jìn)一步擴(kuò)展了FCN模型中這種高維與低維特征融合的思想。如圖2所示,在U-Net的網(wǎng)絡(luò)結(jié)構(gòu)中,輸入圖像首先經(jīng)過若干個(gè)卷積層和池化層得到分辨率較低的高維特征圖(過程中形成一個(gè)從低維到高維的特征金字塔),隨后通過一系列反卷積層逆向進(jìn)行多次上采樣,生成與原有特征金字塔逐級(jí)對(duì)應(yīng)的特征圖,最終輸出與輸入圖像分辨率一致的像素級(jí)預(yù)測結(jié)果。在對(duì)高維特征圖進(jìn)行上采樣的過程中,每進(jìn)行一次反卷積操作,特征圖的維度均會(huì)減半,而在進(jìn)行下一次上采樣之前,這些被降維的特征將會(huì)通過矩陣級(jí)聯(lián)的方式與特征金字塔中對(duì)應(yīng)層級(jí)的特征圖進(jìn)行融合,融合后的特征不僅包含了金字塔頂層的抽象數(shù)據(jù),還注入了低層各級(jí)中提取的細(xì)節(jié)信息。若將金字塔倒置,這種對(duì)稱式的網(wǎng)絡(luò)結(jié)構(gòu)在形態(tài)上接近一個(gè)“U”型,U-Net因此得名。
圖2 U型卷積網(wǎng)絡(luò)結(jié)構(gòu)示意Fig.2 The architecture of U-Net
與FCN以及大部分用于圖像分割的CNN模型相同,U-Net模型的訓(xùn)練方式主要是通過卷積網(wǎng)絡(luò)中的末層特征數(shù)據(jù)輸出與原圖分辨率相同的預(yù)測結(jié)果,然后利用預(yù)測結(jié)果與真值圖構(gòu)建損失函數(shù),再通過反向傳播算法對(duì)模型參數(shù)進(jìn)行迭代更新。根據(jù)反向傳播算法的原理,卷積網(wǎng)絡(luò)中最靠近輸出結(jié)果的參數(shù)將優(yōu)先得到更新,其他參數(shù)的更新幅度隨著傳播距離拉長將會(huì)逐漸衰減。然而在U-Net模型中,其輸出結(jié)果由金字塔底層特征(包括卷積和反卷積過程中生成的兩部分特征數(shù)據(jù))直接產(chǎn)生,這就導(dǎo)致該模型在訓(xùn)練整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)時(shí)偏重于低層的參數(shù)更新,位于特征金字塔頂層的相關(guān)參數(shù)優(yōu)化程度相對(duì)較差。據(jù)此,本文通過對(duì)頂層特征引入額外的損失約束,提出一種雙重約束的改進(jìn)U-Net網(wǎng)絡(luò)結(jié)構(gòu)。如圖3所示,在雙重約束的U-Net模型中,損失函數(shù)由主要損失和次級(jí)損失兩部分構(gòu)成,前者用于約束最終輸出結(jié)果與真值圖的損失值,后者則首先利用頂層特征生成低分辨率的預(yù)測結(jié)果,再對(duì)其與相應(yīng)低分辨率的真值圖的損失值進(jìn)行約束。這種網(wǎng)絡(luò)結(jié)構(gòu)能夠在一定程度上平衡計(jì)算資源的分配,使得不同層級(jí)的模型參數(shù)均得到較好的優(yōu)化。
圖3 雙重約束的U型卷積網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 The architecture of the improved U-Net with twofold constraints
遙感影像建筑物檢測的本質(zhì)是一個(gè)二值化圖像分割任務(wù),因此相對(duì)于多類別的圖像分割應(yīng)用,本文在U-Net的末層無須建立Softmax回歸模型,只需選用Sigmoid函數(shù)作為激活函數(shù)即可
(1)
式中,x為激活函數(shù)的輸入,由U-Net網(wǎng)絡(luò)中的前向傳播計(jì)算所得;S(x)為表征當(dāng)前像素被識(shí)別為建筑物對(duì)象的概率值,其值域?yàn)?0,1)。
進(jìn)一步地,可采用對(duì)數(shù)損失函數(shù)描述訓(xùn)練樣本中預(yù)測值與真值的差異
(2)
式中,L(x)為訓(xùn)練樣本的總損失值;m為總樣本個(gè)數(shù);L(xi)為單個(gè)像素的損失值;xi和yi分別對(duì)應(yīng)各個(gè)像素的輸入特征和類別標(biāo)簽。式(2)中yi取值為0或1,當(dāng)預(yù)測值S(xi)與yi接近或相同時(shí),L(xi)趨近或等于0;反之當(dāng)S(xi)與yi差值增大時(shí),L(xi)趨近于無窮大。因此,通過最小化L(x)可以對(duì)模型參數(shù)進(jìn)行訓(xùn)練。
而對(duì)于雙重約束的U-Net模型,由于增加了一項(xiàng)次級(jí)損失,其最終損失函數(shù)可表示為
Ld(x)=αLmain(x)+(1-α)Lsub(x)
(3)
式中,Lmain(x)和Lsub(x)分別為基于金字塔底層和頂層特征的輸出結(jié)果構(gòu)建的損失函數(shù),α和1-α分別為賦予二者的權(quán)重。
圖4所示為本文基于改進(jìn)U-Net模型的遙感影像建筑物檢測處理流程。通過將試驗(yàn)數(shù)據(jù)劃分為訓(xùn)練區(qū)域和測試區(qū)域進(jìn)行分開處理,該流程可以區(qū)分為與之對(duì)應(yīng)的兩個(gè)階段。
訓(xùn)練階段:
(1) 按一定格網(wǎng)間距將訓(xùn)練區(qū)域的遙感影像劃分為大小相同的子圖像,并生成與之對(duì)應(yīng)的真值圖,同時(shí)為避免正負(fù)樣本分布過于不均,將其中建筑物像素占比過低的子圖像去除,余下數(shù)據(jù)按一定比例劃分為訓(xùn)練數(shù)據(jù)集和驗(yàn)證數(shù)據(jù)集。
(2) 對(duì)訓(xùn)練數(shù)據(jù)集中的地面真值作降采樣處理,分別用于建立主要約束和次要約束,采用反向傳播和隨機(jī)梯度下降算法對(duì)模型進(jìn)行訓(xùn)練,得到模型參數(shù)。
(3) 基于訓(xùn)練后的模型對(duì)驗(yàn)證數(shù)據(jù)集進(jìn)行測試和精度評(píng)價(jià),根據(jù)評(píng)價(jià)反饋對(duì)模型超參數(shù)進(jìn)行調(diào)試和結(jié)構(gòu)優(yōu)化,然后重復(fù)步驟(2),直至模型性能穩(wěn)定后生成最終模型參數(shù)。
測試階段:
(1) 取一定大小的窗口對(duì)測試區(qū)域的影像進(jìn)行逐窗口掃描,將每次掃描的子圖像輸入模型,輸出預(yù)測結(jié)果,得到建筑物與非建筑物的二值分割圖像;
(2) 對(duì)二值分割圖進(jìn)行形態(tài)學(xué)開運(yùn)算和閉運(yùn)算處理,以填充建筑物內(nèi)部可能形成的微小空洞,同時(shí)去除面積過小的非建筑物對(duì)象,得到最終的檢測結(jié)果,并結(jié)合真值數(shù)據(jù)進(jìn)行精度評(píng)價(jià)。
大規(guī)模的學(xué)習(xí)樣本是支撐深度學(xué)習(xí)模型發(fā)揮高性能的基礎(chǔ)。本文以新西蘭地區(qū)覆蓋面積達(dá)30 km2的大批量航空影像作為試驗(yàn)數(shù)據(jù),其中包含人工標(biāo)注的建筑物對(duì)象28 915個(gè)。在用于試驗(yàn)之前,航空影像已經(jīng)過正射糾正和無縫拼接處理,正射影像地面采樣分辨率為0.075 m。如圖5所示,試驗(yàn)區(qū)域被劃分為面積相等的訓(xùn)練區(qū)域和測試區(qū)域,分別包括14 510和14 405個(gè)建筑物對(duì)象。同時(shí)為了評(píng)估模型對(duì)不同類型區(qū)域的建筑物檢測能力,測試區(qū)域被進(jìn)一步劃分為4個(gè)子區(qū)域。其中區(qū)域1建筑物占比較低,包括大面積農(nóng)田和一個(gè)小型湖泊;區(qū)域2和區(qū)域3建筑物占比適中,混雜部分農(nóng)田;區(qū)域4包含了較多大型工廠。
圖5 建筑物檢測試驗(yàn)區(qū)域Fig.5 The study area of building detection
通過將訓(xùn)練區(qū)域的影像均等劃分為224×224像素的子圖像,并將其中建筑物占比低于10%的去除,得到包含17 996張圖片的子圖像集及其對(duì)應(yīng)地面真值圖。該子圖像集將按照7∶3的比例隨機(jī)分配到訓(xùn)練數(shù)據(jù)集和驗(yàn)證數(shù)據(jù)集中用于模型訓(xùn)練和調(diào)試。比較試驗(yàn)中,分別選用FCN、U-Net及本文提出的改進(jìn)U-Net 3種CNN模型進(jìn)行訓(xùn)練和測試,其中改進(jìn)U-Net模型中令主要損失和次級(jí)損失的權(quán)重相等,即取α=0.5,訓(xùn)練階段3種模型的迭代次數(shù)均設(shè)置為100次。此外,為了與人工設(shè)計(jì)特征驅(qū)動(dòng)的傳統(tǒng)分類方法進(jìn)行對(duì)照,同時(shí)選用圖像分類領(lǐng)域性能較強(qiáng)的HOG(histogram of oriented gradient)特征[22]和AdaBoost模型[23](簡稱HOG-Ada模型)實(shí)施對(duì)比試驗(yàn)。
圖6所示為4種模型在4個(gè)試驗(yàn)子區(qū)域中建筑物檢測的全局評(píng)價(jià)結(jié)果,其中綠色和黑色分別表示正確檢出的建筑物和背景像素,紅色和藍(lán)色分別表示誤檢和漏檢的建筑物像素。從圖中可以看出,盡管HOG-Ada模型在區(qū)域1的湖泊處達(dá)到了更好的甄別效果,但是其總體識(shí)別精度明顯低于其他方案,對(duì)于道路目標(biāo)的誤檢尤為嚴(yán)重。與之對(duì)應(yīng)的是,其他3種CNN模型則均可以正確識(shí)別出大部分建筑物對(duì)象,在建筑物密集分布的地區(qū)(區(qū)域2、3)識(shí)別效果相對(duì)更好;在有效區(qū)分建筑物和道路方面,U-Net及改進(jìn)U-Net相比FCN性能更優(yōu),區(qū)域3、4的結(jié)果反映了FCN在部分主干道附近發(fā)生了較多誤檢,而這種情況在另二者的結(jié)果中并未出現(xiàn);改進(jìn)U-Net模型與經(jīng)典U-Net整體上看檢測效果十分接近,二者區(qū)別更多在于對(duì)建筑物邊緣細(xì)節(jié)的提取精度;3種模型在區(qū)域1的大型湖泊處均出現(xiàn)了大面積誤檢,其主要原因是在目前的模型訓(xùn)練中缺乏足夠多的湖泊類型的負(fù)樣本作為輸入。
圖7所示為隨機(jī)選取的若干放大到接近原始分辨率的局部評(píng)價(jià)結(jié)果,從中可看出HOG-Ada模型基本不具備準(zhǔn)確檢出建筑物形態(tài)的能力,誤檢和漏檢現(xiàn)象均較為突出,且存在明顯的椒鹽效應(yīng)。而在其他CNN模型的檢測結(jié)果中:對(duì)于形狀較規(guī)則且無遮擋的建筑物(如(b)列和(d)列),3種模型都能實(shí)現(xiàn)高精度檢測;(a)、(f)和(h)列中,U-Net與改進(jìn)U-Net相比FCN更好地控制了建筑物邊緣處的誤檢或漏檢;(c)、(e)和(g)列中由于樹木的遮擋,3種模型的檢測精度均明顯下降,但改進(jìn)U-Net相比經(jīng)典U-Net效果更好;(a)、(c)和(g)列中,U-Net的檢測結(jié)果內(nèi)部均形成了漏檢空洞,而改進(jìn)U-Net則未出現(xiàn)這種情況,這說明次級(jí)損失函數(shù)的約束有效加強(qiáng)了網(wǎng)絡(luò)在抽象層面對(duì)建筑物的整體識(shí)別能力。
定量評(píng)價(jià)方面,交并比(intersection over union,IoU)和檢測準(zhǔn)確率(pixel accuracy)[22]是圖像分割領(lǐng)域較通用的兩項(xiàng)指標(biāo),分別表示檢測結(jié)果的整體精度水平和其中正確部分所占比例系數(shù),其計(jì)算公式如下
(4)
式中,TP表示正確檢測(true positive);FP表示錯(cuò)誤檢測(false positive);FN表示遺漏檢測(false negative)。
除了以上兩項(xiàng)指標(biāo),本文同時(shí)采用遙感分類應(yīng)用中常用的指標(biāo)Kappa[23]對(duì)4種模型的測試結(jié)果進(jìn)行了評(píng)價(jià)。從表1中可以看出,HOG-Ada模型在各項(xiàng)指標(biāo)上均全面落后于其他3種CNN模型,U-Net模型在4個(gè)測試區(qū)域和3個(gè)評(píng)價(jià)指標(biāo)上均明顯優(yōu)于FCN模型,而本文提出的改進(jìn)U-Net模型則在U-Net的基礎(chǔ)上進(jìn)一步實(shí)現(xiàn)了全面提升。從反映模型綜合性能的關(guān)鍵指標(biāo)IoU和Kappa的均值來看,U-Net模型相比FCN模型分別提升了7.3%和5.5%,而改進(jìn)U-Net則將經(jīng)典模型的水平進(jìn)一步提升了2.5%和1.8%。
表1 建筑物檢測定量評(píng)價(jià)結(jié)果比較
效率方面,以一臺(tái)裝有64位Ubuntu系統(tǒng)、配備NVIDIA GeForce GTX 1070 GPU的ASUS工作站為試驗(yàn)平臺(tái),訓(xùn)練階段的耗時(shí)與模型復(fù)雜程度成正比,F(xiàn)CN、U-Net和改進(jìn)U-Net模型分別耗費(fèi)5.75 h、10.29 h和10.65 h,測試階段3個(gè)模型在4個(gè)子區(qū)域(覆蓋面積3.75 km2,含33 000×20 000像素)的平均耗時(shí)分別為207 s、208 s和250 s??傮w而言,改進(jìn)后的U-Net模型并未明顯增加算法的時(shí)間開銷,盡管模型的訓(xùn)練與調(diào)試相對(duì)耗時(shí),但模型固化后,測試階段的效率水平表現(xiàn)出了一定的應(yīng)用潛力。
為了進(jìn)一步分析雙重約束對(duì)U型卷積網(wǎng)絡(luò)的性能影響,本文通過對(duì)主要損失和次級(jí)損失設(shè)置不同大小的權(quán)值,即分別取α為0.125、0.25、0.5、0.75和0.875進(jìn)行了多組試驗(yàn)。如圖8所示為使用不同權(quán)值的建筑物檢測結(jié)果在IoU、檢測準(zhǔn)確率和Kappa 3個(gè)指標(biāo)上的性能表現(xiàn)。從中可以看出,3項(xiàng)指標(biāo)反映出相似的變化趨勢(shì):①當(dāng)α在區(qū)間[0.25,0.75]之間變化時(shí)各指標(biāo)波動(dòng)較小,且均維持在較高的水平,這說明雙重約束的U-Net模型對(duì)權(quán)值的選取并不敏感;②當(dāng)α取值在區(qū)間[0.25,0.75]之外時(shí),3項(xiàng)指標(biāo)均顯著下降,這充分體現(xiàn)了本文提出的雙重約束對(duì)于保障模型性能的必要性;③α偏低的情況相較其偏高的情況表現(xiàn)更差,肯定了在卷積網(wǎng)絡(luò)中主要約束相對(duì)于次級(jí)約束的重要性。
本文將U型卷積神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)思想應(yīng)用于航空影像建筑物檢測,有效融合了深度卷積網(wǎng)絡(luò)中的高維和低維特征,實(shí)現(xiàn)了建筑物目標(biāo)的高精度提取。此外,顧及經(jīng)典U-Net模型對(duì)位于特征金字塔頂層的相關(guān)參數(shù)優(yōu)化程度相對(duì)不足,本文進(jìn)一步提出了一種雙重約束的改進(jìn)U-Net模型,即通過聯(lián)合主要和次級(jí)損失構(gòu)建代價(jià)函數(shù),增強(qiáng)了模型對(duì)低維抽象特征的學(xué)習(xí)能力。通過在一個(gè)覆蓋范圍達(dá)30 km2、含建筑物對(duì)象28 000余個(gè)
圖6 建筑物檢測全局評(píng)價(jià)結(jié)果比較Fig.6 The overall results of building detection using different methods
圖7 建筑物檢測局部評(píng)價(jià)結(jié)果比較Fig.7 The local results of building detection using different methods
圖8 損失函數(shù)權(quán)重變化對(duì)檢測精度的影響Fig.8 The impact of the cost function’s weights on the accuracy of building detection
的大規(guī)模航空影像數(shù)據(jù)集上進(jìn)行比較試驗(yàn),證實(shí)了本文提出的改進(jìn)U-Net模型能夠在IoU和Kappa兩項(xiàng)關(guān)鍵評(píng)價(jià)指標(biāo)的均值上分別達(dá)到83.7%和89.5%,其表現(xiàn)優(yōu)于經(jīng)典U-Net模型,顯著優(yōu)于全卷積網(wǎng)絡(luò)FCN模型和基于人工設(shè)計(jì)特征HOG的AdaBoost模型。后續(xù)研究中將進(jìn)一步擴(kuò)大試驗(yàn)區(qū)域,并在模型訓(xùn)練中針對(duì)性地增加湖泊、雪地等負(fù)樣本,以提升對(duì)此類非建筑物對(duì)象的判別能力。
參考文獻(xiàn):
[1] HUERTAS A, NEVATIA R. Detecting Buildings in Aerial Images[J]. Computer Vision, Graphics, and Image Processing, 1988, 41(2): 131-152.
[2] MCGLONE C, SHUFELT J A. Projective and Object Space Geometry for Monocular Building Extraction[C]∥IEEE Computer Society Conference Computer Vision and Pattern Recognition. Seattle, WA: IEEE, 1994.
[3] PESARESI M, GERHARDINGER A, KAYITAKIRE F. A Robust Built-up Area Presence Index by Anisotropic Rotation-invariant Textural Measure[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2008, 1(3): 180-192.
[4] 林祥國, 張繼賢. 面向?qū)ο蟮男螒B(tài)學(xué)建筑物指數(shù)及其高分辨率遙感影像建筑物提取應(yīng)用[J]. 測繪學(xué)報(bào), 2017, 46(6): 724-733. DOI: 10.11947/j.AGCS.2017.20170068.
LIN Xiangguo, ZHANG Jixian. Object-based Morphological Building Index for Building Extraction from High Resolution Remote Sensing Imagery[J]. Acta Geodaetica et Cartographica Sinica, 2017, 46(6): 724-733. DOI: 10.11947/j.AGCS.2017.20170068.
[5] PENG J, LIU Y C. Model and Context-driven Building Extraction in Dense Urban Aerial Images[J]. International Journal of Remote Sensing, 2005, 26(7): 1289-1307.
[6] LHOMME S, HE Dongchen, WEBER C, et al. A New Approach to Building Identification from Very-high-spatial-resolution Images[J]. International Journal of Remote Sensing, 2009, 30(5): 1341-1354.
[7] INGLADA J. Automatic Recognition of Man-made Objects in High Resolution Optical Remote Sensing Images by SVM Classification of Geometric Image Features[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2007, 62(3): 236-248.
[8] AYTEKIN ?, Z?NGüR U, HALICI U. Texture-based Airport Runway Detection[J]. IEEE Geoscience and Remote Sensing Letters, 2013, 10(3): 471-475.
[9] DONG Yanni, DU Bo, ZHANG Liangpei. Target Detection Based on Random Forest Metric Learning[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2015, 8(4): 1830-1838.
[10] LI Er, FEMIANI J, XU Shibiao, et al. Robust Rooftop Extraction from Visible Band Images Using Higher Order CRF[J]. IEEE Transactions on Geoscience and Remote Sensing, 2015, 53(8): 4483-4495.
[11] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-Based Learning Applied to Document Recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[12] RUSSAKOVSKY O, DENG Jia, SU Hao, et al. Imagenet Large Scale Visual Recognition Challenge[J]. International Journal of Computer Vision, 2015, 115(3): 211-252.
[13] VAKALOPOULOU M, KARANTZALOS K, KOMODAKIS N, et al. Building Detection in very High Resolution Multispectral Data with Deep Learning Features[C]∥IEEE International Geoscience and Remote Sensing Symposium. Milan, Italy: IEEE, 2015: 1873-1876.
[14] GUO Zhiling, SHAO Xiaowei, XU Yongwei, et al. Identification of Village Building via Google Earth Images and Supervised Machine Learning Methods[J]. Remote Sensing, 2016, 8(4): 271.
[15] LONG J, SHELHAMER E, DARRELL T. Fully Convolutional Networks for Semantic Segmentation[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA: IEEE, 2015: 3431-3440.
[16] PIRAMANAYAGAM S, SCHWARTZKOPF W, KOEHLER F W, et al. Classification of Remote Sensed Images Using Random Forests and Deep Learning Framework[C]∥Proceedings Volume 10004, Image and Signal Processing for Remote Sensing XXII. Edinburgh, United Kingdom: SPIE, 2016, 10004: 100040L.
[17] MARMANIS D, WEGNER J D, GALLIANI S, et al. Semantic Segmentation of Aerial Images with an Ensemble of CNNS[J]. ISPRS Annals of the Photogrammetry, Remote Sensing and Spatial Information Sciences, 2016, Ⅲ-3: 473-480.
[18] MAGGIORI E, TARABALKA Y, CHARPIAT G, et al. Convolutional Neural Networks for Large-scale Remote-Sensing Image Classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(2): 645-657.
[19] BADRINARAYANAN V, KENDALL A, CIPOLLA R. Segnet: A Deep Convolutional Encoder-decoder Architecture for Image Segmentation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(12): 2481-2495.
[20] NOH H, HONG S, HAN B. Learning Deconvolution Network for Semantic Segmentation[C]∥Proceedings of the IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 1520-1528.
[21] RONNEBERGER O, FISCHER P, BROX T. U-net: Convolutional Networks for Biomedical Image Segmentation[M]∥NAVAB N, HORNEGGER J, WELLS W, et al. Medical Image Computing and Computer-Assisted Intervention-MICCAI 2015. Cham: Springer, 2015: 234-241.
[22] DALAL N, TRIGGS B. Histograms of Oriented Gradients for Human Detection[C]∥IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego, CA: IEEE, 2005: 886-893.
[23] FREUND Y, SCHAPIRE R E. A Desicion-theoretic Generalization of On-line Learning and an Application to Boosting[C]∥VITNYI P. Computational Learning Theory. Berlin: Springer, 1995: 23-37.
[24] CARLETTA J. Assessing Agreement on Classification Tasks: The Kappa Statistic[J]. Computational Linguistics, 1996, 22(2): 249-254.