亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于卷積神經(jīng)網(wǎng)絡(luò)的建筑物精細(xì)化提取

2018-03-27 03:28:26黃小賽馬佩坤吳劍亮

地理空間信息 2018年3期

關(guān)鍵詞：輪廓矩形形狀

黃小賽，李艷，馬佩坤，高揚(yáng)，吳劍亮

（1.南京大學(xué) 國(guó)際地球系統(tǒng)科學(xué)研究所，江蘇南京 210023；2.江蘇省地理信息技術(shù)重點(diǎn)實(shí)驗(yàn)室，江蘇南京 210023）

1 研究背景與方法

1.1 研究背景

隨著高分辨率衛(wèi)星和航空遙感圖像的不斷涌現(xiàn)，從這些數(shù)據(jù)中自動(dòng)檢測(cè)或提取人工目標(biāo)和結(jié)構(gòu)已受到廣泛關(guān)注。Kim T[1]等提出了一種基于投票策略的建筑物提取方法，首先用Canny算子等邊緣檢測(cè)算法獲取建筑物的邊緣線段，再根據(jù)它們之間的空間關(guān)系進(jìn)行分組，最終通過一些經(jīng)驗(yàn)知識(shí)和搜索方法建立建筑物的空間結(jié)構(gòu)和外形輪廓。CUI S Y[2]等先提取建筑物的幾何特征和灰度特征，再根據(jù)其空間分布特征和Hough變換特征提取建筑物輪廓。Croitoru A[3]等首先建立城市建筑物的幾何規(guī)則，然后用直角檢測(cè)進(jìn)一步提高建筑物的提取精度，在城市地區(qū)取得了不錯(cuò)的效果。Jung C R[4]等先通過窗口Hough變換提取矩形屋頂?shù)慕屈c(diǎn)，再根據(jù)幾何約束確定矩形的中心點(diǎn)和方向，最終實(shí)現(xiàn)對(duì)矩形屋頂?shù)奶崛?。Kass M[5]等提出的Snake算法及其改進(jìn)算法，特別是水平集算法，由于考慮到分割結(jié)果的平滑性，且容易集成先驗(yàn)知識(shí)，被廣泛應(yīng)用于圖像分割，建筑物提取也不例外[6]。

近年來(lái)，深度學(xué)習(xí)發(fā)展迅速[7]。在圖像處理領(lǐng)域，卷積神經(jīng)網(wǎng)絡(luò)（CNN）[8]在圖像識(shí)別中取得了以往分類算法難以實(shí)現(xiàn)的驚人效果。與人工提取圖像特征所造成的不確定性相比，該方法可從少量預(yù)處理甚至原始數(shù)據(jù)中學(xué)習(xí)到抽象、本質(zhì)和高級(jí)的特征，并對(duì)平移、旋轉(zhuǎn)、縮放或其他形式的變形具有一定的不變性，已被廣泛應(yīng)用于車牌檢測(cè)、人臉偵測(cè)、文字識(shí)別、目標(biāo)跟蹤、機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺等領(lǐng)域[9-11]。

1.2 集成方法概述

本文將一張高分辨率航空影像和一張DSM圖像作為實(shí)驗(yàn)數(shù)據(jù)。集成方法中包含兩種網(wǎng)絡(luò)模型：用于計(jì)算對(duì)象是建筑物概率的回歸模型和用于判斷建筑物形狀的分類模型。

首先使用選擇性搜索算法[12]生成感興趣區(qū)域（ROI）及其對(duì)應(yīng)的圖像，這是一個(gè)矩形的子圖像；再使用訓(xùn)練好的回歸模型對(duì)每個(gè)ROI打分，并采用非極大值抑制算法得到建筑物對(duì)象；然后使用分類模型獲得建筑物的形狀；最后使用一種基于點(diǎn)集匹配的形狀匹配方法獲得準(zhǔn)確的建筑物輪廓。

2 網(wǎng)絡(luò)模型的訓(xùn)練

Szegedy C[13]等闡述了深層CNN的概念。CNN的工作過程分為前向傳播和后向傳播兩個(gè)階段。前向傳播對(duì)輸入圖像數(shù)據(jù)進(jìn)行多層卷積運(yùn)算，再利用損失函數(shù)計(jì)算卷積結(jié)果得到損失值。反向傳播是基于卷積反方向上損失值的傳播，用于更新卷積核的權(quán)重。

CNN的最大特點(diǎn)是多層卷積，模擬了人類的視覺過程。CNN模型可從低到高，從邊緣、線條到矩形平面地識(shí)別對(duì)象。

2.1 回歸模型

本文提出了回歸網(wǎng)絡(luò)模型來(lái)評(píng)估一個(gè)ROI為建筑的概率（圖1）。樣本包括ROI的輸入圖像以及相應(yīng)的LRaB。

圖1 回歸網(wǎng)絡(luò)模型

首先需生成訓(xùn)練所需的ROI圖像，常見的方法是提供一個(gè)固定大小的矩形框，沿著像素移動(dòng)，再將圖像裁剪為ROI圖像。然而，該方法有兩個(gè)問題：ROI圖像的數(shù)量太大和相鄰區(qū)域?qū)?yīng)的ROI圖像非常相似，換言之，數(shù)據(jù)非常冗余。為此，參考文獻(xiàn)[12]提出了選擇性搜索算法，用于生成ROIs。選擇性搜索利用基于圖的圖像分割算法[12]生成基本區(qū)域，該分割方法通常是過分割的，但各分割區(qū)域內(nèi)部具有非常好的同質(zhì)性，局部細(xì)節(jié)保存也很好。一般來(lái)說(shuō)，這些基本區(qū)域很小，是ROI的重要組成部分，所以需按一定的標(biāo)準(zhǔn)將這些基本區(qū)域合并為目標(biāo)區(qū)域。參考文獻(xiàn)[12]提出了一種區(qū)域合并方法，首先定義了一個(gè)函數(shù)來(lái)計(jì)算兩個(gè)區(qū)域在顏色、紋理、大小和擬合度等方面的綜合相似度，再根據(jù)綜合相似度的順序來(lái)合并基本區(qū)域。通過選擇性搜索，將較小的基本區(qū)域合并為大區(qū)域，就得到了包含不同層次的ROI集合，其中當(dāng)然也包括建筑物。根據(jù)外接矩形切割每個(gè)ROI，屬于ROI的像素保留原始灰度值，而其他像素填充為零，即可得到訓(xùn)練所需的ROI圖像。

然后需為每個(gè)ROI指定對(duì)應(yīng)的LRaB，即它們是建筑物的概率。手工分割圖像得到一個(gè)二值圖像，其中1為建筑區(qū)域，0為非建筑區(qū)域。LRaB的計(jì)算公式為：

式中，Pi為i號(hào)ROI 的LRaB；Ri為一張和原始圖像大小相同的二進(jìn)制圖像，其中位于i號(hào)ROI內(nèi)部的像素值為1，其他像素值為0；Aj為一個(gè)手工分割的建筑圖像，大小與原始圖像相同，在編號(hào)為j的建筑物內(nèi)部的像素為1，其他像素為0；S為一張二值圖像中值為1的像素總數(shù)（圖2）。通過以上步驟，創(chuàng)建了訓(xùn)練數(shù)據(jù)集，如圖3所示。

圖2 選擇性搜索結(jié)果和人工分割圖像

圖3 回歸網(wǎng)絡(luò)模型訓(xùn)練數(shù)據(jù)制作

2.2 分類模型

本文需通過訓(xùn)練分類模型來(lái)判斷建筑物的形狀，因此訓(xùn)練數(shù)據(jù)是建筑物圖像以及相應(yīng)的形狀類別。LRaB＞0.7的ROI圖像被認(rèn)為是建筑物圖像，它的形狀類別被手動(dòng)標(biāo)記。本文預(yù)定義了4種形狀（圖4），以這些建筑物圖像及其形狀類別作為訓(xùn)練數(shù)據(jù)，對(duì)建筑物形狀分類模型進(jìn)行訓(xùn)練。

圖 4 預(yù)定義建筑物形狀類別

3 建筑物提取集成方法

3.1 建筑物定位

輸入一個(gè)圖像，通過選擇性搜索得到ROI集，再通過訓(xùn)練好的回歸模型計(jì)算各ROI是建筑物的概率。若一個(gè)ROI滿足下列條件則被認(rèn)定為建筑物：①評(píng)分大于0.5；②該ROI的評(píng)分超過所有與其有重疊區(qū)域的ROI的評(píng)分，即該ROI的評(píng)分是一個(gè)局部極大值。

圖5為實(shí)驗(yàn)數(shù)據(jù)1、2的提取結(jié)果，證明了回歸模型具有優(yōu)秀的識(shí)別和定位能力，圖中白色矩形是被認(rèn)定為建筑物的ROI的外接矩形。

圖5 回歸模型結(jié)果

3.2 建筑物形狀判斷

每個(gè)建筑物的形狀是由訓(xùn)練完成的分類模型判斷得到的。圖6顯示了實(shí)驗(yàn)數(shù)據(jù)1和2的分類結(jié)果，其中不同的顏色對(duì)應(yīng)不同的先驗(yàn)形狀。從圖6a中可以發(fā)現(xiàn)，這些建筑物的分類最接近于目視觀察的識(shí)別。

圖6 建筑物形狀判斷結(jié)果（外接矩形顏色與圖4相對(duì)應(yīng)）

3.3 建筑物形狀匹配

為了獲得建筑物的精確輪廓，必須確定從先驗(yàn)形狀到建筑物ROI的平移、縮放和旋轉(zhuǎn)參數(shù)。通過將建筑物像素設(shè)置為1，其他像素設(shè)置為0，將每個(gè)確定的建筑物ROI轉(zhuǎn)換為二進(jìn)制圖像；再通過提取其邊緣得到一個(gè)邊緣點(diǎn)集合B（圖7b中白色像素）。

給定5個(gè)參數(shù)(tx,ty,sx,sy,θ)和一個(gè)先驗(yàn)形狀S，可以得到一個(gè)變換后的形狀S*。點(diǎn)的坐標(biāo)變換方程為：

(x*, y*,1)T=rotation×scaling×translation×(x, y,1)T(2)式中，(x, y)為S中某點(diǎn)的坐標(biāo)；(x*, y*)為其在S*中的坐標(biāo)。

式中，translation為平移矩陣；scaling為縮放矩陣；rotation為旋轉(zhuǎn)矩陣；(a0,b0)為先驗(yàn)形狀S的重心坐標(biāo)。

為了提取建筑物的準(zhǔn)確輪廓，本文建立了一個(gè)代價(jià)函數(shù)來(lái)衡量轉(zhuǎn)換后的形狀S*與B之間的吻合程度：

式中，?(x, y)為點(diǎn)(x, y)到變換后的形狀S*的最短距離；H(?)為一個(gè)二值函數(shù)。

式中，T為閾值。

式（7）用于計(jì)算B中到變換后形狀S*的最短距離大于閾值T的點(diǎn)的數(shù)目。這個(gè)代價(jià)函數(shù)的設(shè)計(jì)是考慮到集合B中存在一些距離真實(shí)建筑物輪廓較遠(yuǎn)的“錯(cuò)誤點(diǎn)”。為了消除這些錯(cuò)誤點(diǎn)的影響，需找到可以匹配B中大多數(shù)點(diǎn)的S*。為了最小化該代價(jià)函數(shù)，采用基于確定性排擠機(jī)制的小生境遺傳算法（NGA）[14]。

完成上述計(jì)算后，得到了一組五元參數(shù)(tx1,ty1,sx1,sy1,θ1)和對(duì)應(yīng)的變換后形狀S*1。 S*

1已非常接近建筑物真實(shí)輪廓，不過為了進(jìn)一步優(yōu)化建筑輪廓，本文剔除了B中最短距離大于閾值T的點(diǎn)，得到一個(gè)新的建筑邊緣點(diǎn)集合B1，并建立了一個(gè)新的代價(jià)函數(shù)為：

依然使用NGA來(lái)最小化式（9），目的是尋找最佳匹配。事實(shí)上，由于之前求得的五元參數(shù)(tx1,ty1,sx1,sy1,θ1)已非常接近最佳匹配，所以可減少搜索空間到它的一個(gè)較小鄰域，這樣可大幅提高搜索速度。簡(jiǎn)而言之，最小化式（7）消除了錯(cuò)誤輪廓點(diǎn)，并得到五元參數(shù)的近似最優(yōu)值；再最小化式（9），求出最佳匹配參數(shù)。

圖8 集成方法圖像分割結(jié)果

圖8a、8b的提取精度如表1所示。兩個(gè)指標(biāo)的計(jì)算公式為：

式中，B為在真實(shí)情況和分割結(jié)果中均被分類為建筑物區(qū)域的像素總數(shù)量；G為真實(shí)情況中是建筑物區(qū)域的像素總數(shù)量；O為分割結(jié)果中被分類為建筑物區(qū)域的像素總數(shù)量。

表1 定量評(píng)價(jià)

4 結(jié) 語(yǔ)

本文提出了一個(gè)集成方法來(lái)檢測(cè)和提取圖像中的建筑物，精細(xì)化建筑物的輪廓。該方法包括建筑物定位、建筑物形狀判斷、建筑物形狀匹配等步驟；使用了選擇性搜索算法、CNN和遺傳算法。實(shí)驗(yàn)結(jié)果表明，該集成方法在DSM圖像和高分辨率遙感影像上均取得了良好的效果。在未來(lái)的研究中，將探索如何在訓(xùn)練數(shù)據(jù)較少的情況下訓(xùn)練出有效的CNN，以及如何在沒有先驗(yàn)形狀約束的情況下提取準(zhǔn)確的建筑物輪廓。

[1] Kim T, Lee T Y, Lim Y J, et al. The Use of Voting Strategy for Building Extraction from High Resolution Satellite Images[J]. IEEE International Geoscience and Remote Sensing Symposium,2005(2):1 269-1 272

[2] CUI S Y, YAN Q, Reinartz P. Complex Building Description and Extraction Based on Hough Transformation and Cycle Detection[J]. Remote Sensing Letters,2012,3(2):151-159

[3] Croitoru A, Doytsher Y. Right-angle Rooftop Polygon Extraction in Regularised Urban Areas: Cutting the Corners [J].Photogrammetric Record,2004,19(108):311-341

[4] Jung C R, Schramm R. Rectangle Detection Based on a Windowed Hough Transform[C].Computer Graphics and Image Processing, Xvii Brazilian Symposium, IEEE Computer Society,2004:113-120

[5] Kass M, Witkin A, Terzopoulos D. Snakes: Active Contour Models[J]. International Journal of Computer Vision,1988,1(4):321-331

[6] LI Y, ZHU L, Shimamura H, et al. An Integrated System on Large Scale Building Extraction from DSM[J]. Int Arch Photogramm Remote Sensing Spat Inf Sci,2010(38):35-39

[7] Salakhutdinov R, Hinton G. Using Deep Belief Nets to Learn Covariance Kernels for Gaussian Processes[C].International Conference on Neural Information Processing Systems, Curran Associates Inc.,2007:1 249-1 256

[8] Fukushima K. A Neural Network Model for Selective Attention in Visual Pattern Recognition[J]. Applied Optics,1986,9(1):5-15

[9] Lawrence S, Giles C L, Tsoi A C, et al. Face Recognition: a Convolutional Neural-network Approach[J]. IEEE Transactions on Neural Networks,1997,8(1):98-113

[10] Turaga S C, Murray J F, Jain V, et al. Convolutional Networks can Learn to Generate Affinity Graphs for Image Segmentation[J].Neural Computation,2010,22(2):511

[11] DONG C, Loy C C, He K, et al. Image Super-resolution Using Deep Convolutional Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2016,38(2):295

[12] Vand S K E A,Uijlings J R R, Gevers T,et al. Segmentation as Selective Search for Object Recognition[C].International Conference on Computer Vision, IEEE Computer Society,2011:1 879-1 886

[13] Szegedy C, LIU W, JIA Y, et al. Going Deeper with Convolutions[C].IEEE Conference on Computer Vision and Pattern Recognition, IEEE Computer Society,2015:1-9

[14] Mahfoud S W. Crowding and Preselection Revisited[C].In Parallel Problem Solving from Nature, North-Holland,1992:27-36