黃小賽,李 艷,馬佩坤,高 揚(yáng),吳劍亮
(1.南京大學(xué) 國(guó)際地球系統(tǒng)科學(xué)研究所,江蘇 南京 210023;2.江蘇省地理信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210023)
隨著高分辨率衛(wèi)星和航空遙感圖像的不斷涌現(xiàn),從這些數(shù)據(jù)中自動(dòng)檢測(cè)或提取人工目標(biāo)和結(jié)構(gòu)已受到廣泛關(guān)注。Kim T[1]等提出了一種基于投票策略的建筑物提取方法,首先用Canny算子等邊緣檢測(cè)算法獲取建筑物的邊緣線段,再根據(jù)它們之間的空間關(guān)系進(jìn)行分組,最終通過一些經(jīng)驗(yàn)知識(shí)和搜索方法建立建筑物的空間結(jié)構(gòu)和外形輪廓。CUI S Y[2]等先提取建筑物的幾何特征和灰度特征,再根據(jù)其空間分布特征和Hough變換特征提取建筑物輪廓。Croitoru A[3]等首先建立城市建筑物的幾何規(guī)則,然后用直角檢測(cè)進(jìn)一步提高建筑物的提取精度,在城市地區(qū)取得了不錯(cuò)的效果。Jung C R[4]等先通過窗口Hough變換提取矩形屋頂?shù)慕屈c(diǎn),再根據(jù)幾何約束確定矩形的中心點(diǎn)和方向,最終實(shí)現(xiàn)對(duì)矩形屋頂?shù)奶崛?。Kass M[5]等提出的Snake算法及其改進(jìn)算法,特別是水平集算法,由于考慮到分割結(jié)果的平滑性,且容易集成先驗(yàn)知識(shí),被廣泛應(yīng)用于圖像分割,建筑物提取也不例外[6]。
近年來(lái),深度學(xué)習(xí)發(fā)展迅速[7]。在圖像處理領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)(CNN)[8]在圖像識(shí)別中取得了以往分類算法難以實(shí)現(xiàn)的驚人效果。與人工提取圖像特征所造成的不確定性相比,該方法可從少量預(yù)處理甚至原始數(shù)據(jù)中學(xué)習(xí)到抽象、本質(zhì)和高級(jí)的特征,并對(duì)平移、旋轉(zhuǎn)、縮放或其他形式的變形具有一定的不變性,已被廣泛應(yīng)用于車牌檢測(cè)、人臉偵測(cè)、文字識(shí)別、目標(biāo)跟蹤、機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺等領(lǐng)域[9-11]。
本文將一張高分辨率航空影像和一張DSM圖像作為實(shí)驗(yàn)數(shù)據(jù)。集成方法中包含兩種網(wǎng)絡(luò)模型:用于計(jì)算對(duì)象是建筑物概率的回歸模型和用于判斷建筑物形狀的分類模型。
首先使用選擇性搜索算法[12]生成感興趣區(qū)域(ROI)及其對(duì)應(yīng)的圖像,這是一個(gè)矩形的子圖像;再使用訓(xùn)練好的回歸模型對(duì)每個(gè)ROI打分,并采用非極大值抑制算法得到建筑物對(duì)象;然后使用分類模型獲得建筑物的形狀;最后使用一種基于點(diǎn)集匹配的形狀匹配方法獲得準(zhǔn)確的建筑物輪廓。
Szegedy C[13]等闡述了深層CNN的概念。CNN的工作過程分為前向傳播和后向傳播兩個(gè)階段。前向傳播對(duì)輸入圖像數(shù)據(jù)進(jìn)行多層卷積運(yùn)算,再利用損失函數(shù)計(jì)算卷積結(jié)果得到損失值。反向傳播是基于卷積反方向上損失值的傳播,用于更新卷積核的權(quán)重。
CNN的最大特點(diǎn)是多層卷積,模擬了人類的視覺過程。CNN模型可從低到高,從邊緣、線條到矩形平面地識(shí)別對(duì)象。
本文提出了回歸網(wǎng)絡(luò)模型來(lái)評(píng)估一個(gè)ROI為建筑的概率(圖1)。樣本包括ROI的輸入圖像以及相應(yīng)的LRaB。
圖1 回歸網(wǎng)絡(luò)模型
首先需生成訓(xùn)練所需的ROI圖像,常見的方法是提供一個(gè)固定大小的矩形框,沿著像素移動(dòng),再將圖像裁剪為ROI圖像。然而,該方法有兩個(gè)問題:ROI圖像的數(shù)量太大和相鄰區(qū)域?qū)?yīng)的ROI圖像非常相似,換言之,數(shù)據(jù)非常冗余。為此,參考文獻(xiàn)[12]提出了選擇性搜索算法,用于生成ROIs。選擇性搜索利用基于圖的圖像分割算法[12]生成基本區(qū)域,該分割方法通常是過分割的,但各分割區(qū)域內(nèi)部具有非常好的同質(zhì)性,局部細(xì)節(jié)保存也很好。一般來(lái)說(shuō),這些基本區(qū)域很小,是ROI的重要組成部分,所以需按一定的標(biāo)準(zhǔn)將這些基本區(qū)域合并為目標(biāo)區(qū)域。參考文獻(xiàn)[12]提出了一種區(qū)域合并方法,首先定義了一個(gè)函數(shù)來(lái)計(jì)算兩 個(gè)區(qū)域在顏色、紋理、大小和擬合度等方面的綜合相似度,再根據(jù)綜合相似度的順序來(lái)合并基本區(qū)域。通過選擇性搜索,將較小的基本區(qū)域合并為大區(qū)域,就得到了包含不同層次的ROI集合,其中當(dāng)然也包括建筑物。根據(jù)外接矩形切割每個(gè)ROI,屬于ROI的像素保留原始灰度值,而其他像素填充為零,即可得到訓(xùn)練所需的ROI圖像。
然后需為每個(gè)ROI指定對(duì)應(yīng)的LRaB,即它們是建筑物的概率。手工分割圖像得到一個(gè)二值圖像,其中1為建筑區(qū)域,0為非建筑區(qū)域。LRaB的計(jì)算公式為:
式中,Pi為i號(hào)ROI 的LRaB;Ri為一張和原始圖像大小相同的二進(jìn)制圖像,其中位于i號(hào)ROI內(nèi)部的像素值為1,其他像素值為0;Aj為一個(gè)手工分割的建筑圖像,大小與原始圖像相同,在編號(hào)為j的建筑物內(nèi)部的像素為1,其他像素為0;S為一張二值圖像中值為1的像素總數(shù)(圖2)。通過以上步驟,創(chuàng)建了訓(xùn)練數(shù)據(jù)集,如圖3所示。
圖2 選擇性搜索結(jié)果和人工分割圖像
圖3 回歸網(wǎng)絡(luò)模型訓(xùn)練數(shù)據(jù)制作
本文需通過訓(xùn)練分類模型來(lái)判斷建筑物的形狀,因此訓(xùn)練數(shù)據(jù)是建筑物圖像以及相應(yīng)的形狀類別。LRaB>0.7的ROI圖像被認(rèn)為是建筑物圖像,它的形狀類別被手動(dòng)標(biāo)記。本文預(yù)定義了4種形狀(圖4),以這些建筑物圖像及其形狀類別作為訓(xùn)練數(shù)據(jù),對(duì)建筑物形狀分類模型進(jìn)行訓(xùn)練。
圖 4 預(yù)定義建筑物形狀類別
輸入一個(gè)圖像,通過選擇性搜索得到ROI集,再通過訓(xùn)練好的回歸模型計(jì)算各ROI是建筑物的概率。若一個(gè)ROI滿足下列條件則被認(rèn)定為建筑物:①評(píng)分大于0.5;②該ROI的評(píng)分超過所有與其有重疊區(qū)域的ROI的評(píng)分,即該ROI的評(píng)分是一個(gè)局部極大值。
圖5為實(shí)驗(yàn)數(shù)據(jù)1、2的提取結(jié)果,證明了回歸模型具有優(yōu)秀的識(shí)別和定位能力,圖中白色矩形是被認(rèn)定為建筑物的ROI的外接矩形。
圖5 回歸模型結(jié)果
每個(gè)建筑物的形狀是由訓(xùn)練完成的分類模型判斷得到的。圖6顯示了實(shí)驗(yàn)數(shù)據(jù)1和2的分類結(jié)果,其中不同的顏色對(duì)應(yīng)不同的先驗(yàn)形狀。從圖6a中可以發(fā)現(xiàn),這些建筑物的分類最接近于目視觀察的識(shí)別。
圖6 建筑物形狀判斷結(jié)果(外接矩形顏色與圖4相對(duì)應(yīng))
為了獲得建筑物的精確輪廓,必須確定從先驗(yàn)形狀到建筑物ROI的平移、縮放和旋轉(zhuǎn)參數(shù)。通過將建筑物像素設(shè)置為1,其他像素設(shè)置為0,將每個(gè)確定的建筑物ROI轉(zhuǎn)換為二進(jìn)制圖像;再通過提取其邊緣得到一個(gè)邊緣點(diǎn)集合B(圖7b中白色像素)。
給定5個(gè)參數(shù)(tx,ty,sx,sy,θ)和一個(gè)先驗(yàn)形狀S,可以得到一個(gè)變換后的形狀S*。點(diǎn)的坐標(biāo)變換方程為:
(x*, y*,1)T=rotation×scaling×translation×(x, y,1)T(2)式中,(x, y)為S中某點(diǎn)的坐標(biāo);(x*, y*)為其在S*中的坐標(biāo)。
式中,translation為平移矩陣;scaling為縮放矩陣;rotation為旋轉(zhuǎn)矩陣;(a0,b0)為先驗(yàn)形狀S的重心坐標(biāo)。
為了提取建筑物的準(zhǔn)確輪廓,本文建立了一個(gè)代價(jià)函數(shù)來(lái)衡量轉(zhuǎn)換后的形狀S*與B之間的吻合程度:
式中,?(x, y)為點(diǎn)(x, y)到變換后的形狀S*的最短距離;H(?)為一個(gè)二值函數(shù)。
式中,T為閾值。
式(7)用于計(jì)算B中到變換后形狀S*的最短距離大于閾值T的點(diǎn)的數(shù)目。這個(gè)代價(jià)函數(shù)的設(shè)計(jì)是考慮到集合B中存在一些距離真實(shí)建筑物輪廓較遠(yuǎn)的“錯(cuò)誤點(diǎn)”。為了消除這些錯(cuò)誤點(diǎn)的影響,需找到可以匹配B中大多數(shù)點(diǎn)的S*。為了最小化該代價(jià)函數(shù),采用基于確定性排擠機(jī)制的小生境遺傳算法(NGA)[14]。
完成上述計(jì)算后,得到了一組五元參數(shù)(tx1,ty1,sx1,sy1,θ1)和對(duì)應(yīng)的變換后形狀S*1。 S*
1已非常接近建筑物真實(shí)輪廓,不過為了進(jìn)一步優(yōu)化建筑輪廓,本文剔除了B中最短距離大于閾值T的點(diǎn),得到一個(gè)新的建筑邊緣點(diǎn)集合B1,并建立了一個(gè)新的代價(jià)函數(shù)為:
依然使用NGA來(lái)最小化式(9),目的是尋找最佳匹配。事實(shí)上,由于之前求得的五元參數(shù)(tx1,ty1,sx1,sy1,θ1)已非常接近最佳匹配,所以可減少搜索空間到它的一個(gè)較小鄰域,這樣可大幅提高搜索速度。簡(jiǎn)而言之,最小化式(7)消除了錯(cuò)誤輪廓點(diǎn),并得到五元參數(shù)的近似最優(yōu)值;再最小化式(9),求出最佳匹配參數(shù)。
圖8 集成方法圖像分割結(jié)果
圖8a、8b的提取精度如表1所示。兩個(gè)指標(biāo)的計(jì)算公式為:
式中,B為在真實(shí)情況和分割結(jié)果中均被分類為建筑物區(qū)域的像素總數(shù)量;G為真實(shí)情況中是建筑物區(qū)域的像素總數(shù)量;O為分割結(jié)果中被分類為建筑物區(qū)域的像素總數(shù)量。
表1 定量評(píng)價(jià)
本文提出了一個(gè)集成方法來(lái)檢測(cè)和提取圖像中的建筑物,精細(xì)化建筑物的輪廓。該方法包括建筑物定位、建筑物形狀判斷、建筑物形狀匹配等步驟;使用了選擇性搜索算法、CNN和遺傳算法。實(shí)驗(yàn)結(jié)果表明,該集成方法在DSM圖像和高分辨率遙感影像上均取得了良好的效果。在未來(lái)的研究中,將探索如何在訓(xùn)練數(shù)據(jù)較少的情況下訓(xùn)練出有效的CNN,以及如何在沒有先驗(yàn)形狀約束的情況下提取準(zhǔn)確的建筑物輪廓。
[1] Kim T, Lee T Y, Lim Y J, et al. The Use of Voting Strategy for Building Extraction from High Resolution Satellite Images[J]. IEEE International Geoscience and Remote Sensing Symposium,2005(2):1 269-1 272
[2] CUI S Y, YAN Q, Reinartz P. Complex Building Description and Extraction Based on Hough Transformation and Cycle Detection[J]. Remote Sensing Letters,2012,3(2):151-159
[3] Croitoru A, Doytsher Y. Right-angle Rooftop Polygon Extraction in Regularised Urban Areas: Cutting the Corners [J].Photogrammetric Record,2004,19(108):311-341
[4] Jung C R, Schramm R. Rectangle Detection Based on a Windowed Hough Transform[C].Computer Graphics and Image Processing, Xvii Brazilian Symposium, IEEE Computer Society,2004:113-120
[5] Kass M, Witkin A, Terzopoulos D. Snakes: Active Contour Models[J]. International Journal of Computer Vision,1988,1(4):321-331
[6] LI Y, ZHU L, Shimamura H, et al. An Integrated System on Large Scale Building Extraction from DSM[J]. Int Arch Photogramm Remote Sensing Spat Inf Sci,2010(38):35-39
[7] Salakhutdinov R, Hinton G. Using Deep Belief Nets to Learn Covariance Kernels for Gaussian Processes[C].International Conference on Neural Information Processing Systems, Curran Associates Inc.,2007:1 249-1 256
[8] Fukushima K. A Neural Network Model for Selective Attention in Visual Pattern Recognition[J]. Applied Optics,1986,9(1):5-15
[9] Lawrence S, Giles C L, Tsoi A C, et al. Face Recognition: a Convolutional Neural-network Approach[J]. IEEE Transactions on Neural Networks,1997,8(1):98-113
[10] Turaga S C, Murray J F, Jain V, et al. Convolutional Networks can Learn to Generate Affinity Graphs for Image Segmentation[J].Neural Computation,2010,22(2):511
[11] DONG C, Loy C C, He K, et al. Image Super-resolution Using Deep Convolutional Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2016,38(2):295
[12] Vand S K E A,Uijlings J R R, Gevers T,et al. Segmentation as Selective Search for Object Recognition[C].International Conference on Computer Vision, IEEE Computer Society,2011:1 879-1 886
[13] Szegedy C, LIU W, JIA Y, et al. Going Deeper with Convolutions[C].IEEE Conference on Computer Vision and Pattern Recognition, IEEE Computer Society,2015:1-9
[14] Mahfoud S W. Crowding and Preselection Revisited[C].In Parallel Problem Solving from Nature, North-Holland,1992:27-36