呂道雙,林 娜,2*,馮麗蓉,張小青
(1.重慶交通大學 土木工程學院,重慶 400074; 2.重慶市地理信息和遙感應用中心,重慶 400020)
高分辨率遙感影像的激增使人們對地球的觀察和理解得到了很大的改善,已被廣泛應用于測繪、制圖、交通導航、城市規(guī)劃、海洋權益保護、數(shù)字化城市建設等領域。這些領域中地物的標注與提取是備受關注的內容,在城市區(qū)域的遙感影像中超過80%的是人工地物或人工地物所構成的復雜功能區(qū),建筑物就包括在其中。建筑物作為重要的人工地物目標,是地理信息的重要組成部分,在數(shù)字城市建設、智慧城市建設、數(shù)據(jù)庫更新、城市人口布局等方面具有重要意義。高分辨率遙感影像中的建筑物具有很多的紋理特征和細節(jié)信息,這些特征使人們從高分辨率遙感影像中提取建筑物成為了可能。
目前,建筑物提取的方法包括基于底層特征的建筑物提取、基于輔助信息的建筑物提取和基于深度學習的建筑物提取。其中,基于底層特征的建筑物提取主要是利用建筑物在高分辨率遙感影像中的紋理、色彩、形狀等特征或特征組合進行提取,如HUANG X[1]等將光譜、結構和語義特征進行有效集成,提高了城市建筑物等地物的分類精度;Ghanea M[2]等利用建筑物形狀、顏色、亮度、大小和高度的變化提取建筑物,獲得了較高的精度;Dikmen M[3]等首先在過分割的影像中確定其中的陰影對象,再利用建筑物的光譜特征及其與陰影的空間關系提取建筑物;WANG J[4]等通過對幾何信息的高效監(jiān)測提取建筑物的幾何邊界,再利用線段檢測器將檢測到的線段分層分組得到矩形建筑物的候選區(qū),然后通過線段連接和閉合輪廓搜索對幾何信息進行有效檢驗,獲得了良好的建筑物提取效果和整體精度?;谳o助信息的建筑物提取主要是利用陰影、DSM、SAR 等數(shù)據(jù)對建筑物進行提取,如TIAN J[5]等利用高精度的DSM 數(shù)據(jù)與IRS-P5 高分影像數(shù)據(jù)對德國巴伐利亞州的森林和土耳其伊斯坦布爾的工業(yè)區(qū)進行了變化檢測,提取的建筑物具有較高的精度;LI Y[6]等通過改進分水嶺分割的標記點控制方法從DSM 數(shù)據(jù)中提取地形,再利用高分辨率遙感影像中建筑物的形狀特征提取建筑物;Saeid P[7]等采用LiDAR 與高光譜數(shù)據(jù)相融合的方法,首先利用線性判斷分析剔除冗余的數(shù)據(jù),再利用隨機森林算法提取建筑物邊界,然后利用形態(tài)學操作移除建筑物頂上的空洞并修復邊界,最終得到較好的提取精度;HUANG X[8]等利用建筑形態(tài)和陰影指數(shù)對建筑物進行了提取,通過構建陰影指數(shù)和建筑形態(tài)因子可以很好地減少提取的遺漏,可在不收集訓練樣本的情況下獲得較滿意的建筑物提取結果?;谏疃葘W習的建筑物提取主要是利用各種網(wǎng)絡,通過自動學習影像中的特征來對目標進行提取的過程,很多學者利用深度學習的方法對建筑物、機場、港口等進行了研究,也取得了不錯的研究成果,如王港[9]等針對我國的高分一號遙感圖像提出了一種改進的殘差網(wǎng)絡,對影像中的人工地物進行了檢測,取得了較好的效果;張歡[10]等設計了一種密集反卷積的神經(jīng)網(wǎng)絡,針對卷積神經(jīng)網(wǎng)絡中網(wǎng)絡層數(shù)較少、不能充分挖掘圖像的抽象特征等問題,將網(wǎng)絡中加入了密集的反卷積層,使網(wǎng)絡的層數(shù)達到了51 層,通過實驗證明了該網(wǎng)絡對特征的學習能力較強,且網(wǎng)絡是端對端的訓練避免了訓練過程中梯度消失等問題,對復雜場景下的建筑物提取具有較好的效果;左童春[11]提出了一種端對端的多層融合的全卷積神經(jīng)網(wǎng)絡(FCN),將各層提取的特征融合起來,利用大小不同的感受野來捕獲不同的空間上下文信息,并對網(wǎng)絡結構進行了改進,將卷積核的數(shù)量減半,使網(wǎng)絡參數(shù)大大減少,節(jié)約了運算時間,在公開的數(shù)據(jù)集上進行實驗,取得了較好的建筑物提取精度。
本文利用基于深度學習的建筑物提取方法,首先對U-Net 網(wǎng)絡進行改進,將底層提取的特征與高層特征進行融合;然后在網(wǎng)絡編碼后增加尺寸不一的空洞卷積,對網(wǎng)絡編碼得到的結果進行多尺度特征提??;最后將其融合得到更豐富的特征,以得到更好的建筑物提取結果。
深度學習經(jīng)歷了從CNN 到FCN 的過程,二者最大的差別在于,CNN 的最后一層往往是全連接層,該層的主要作用是對前面各層提取的特征作加權和,并將網(wǎng)絡提取的特征綜合起來,每個神經(jīng)元與前一層的所有神經(jīng)元相連接,這就導致該層的數(shù)據(jù)維度很大、占用內存空間很大、計算效率低等問題。為了解決該問題,LONG J[12]等提出了FCN,可對任意尺寸大小的圖像進行語義分割。與CNN 相比,該網(wǎng)絡的運算效率得到了很大提高,將反卷積代替了全連接層,減少了網(wǎng)絡參數(shù),反卷積層可將圖片尺寸還原為原來的大?。坏摼W(wǎng)絡也有一定的缺點,即分割的結果粗糙不夠精細,底層特征沒有很好地與高層特征進行融合。2015 年Ronneberger O[13]等提出了一種新的網(wǎng)絡結構U-Net,如圖1 所示。該網(wǎng)絡結構是對FCN 的一種擴展,采用對稱結構,左半部編碼結構借鑒了VGG-Net的網(wǎng)絡結構,右半邊為解碼部分,通過上采樣將圖像復原到原始圖像大小。網(wǎng)絡中利用Concatenate 結構將下采樣部分得到的底層特征與上采樣得到的高層特征相結合,得到更高層次的特征組合,能對分割物體進行精確定位。
圖1 U-Net 網(wǎng)絡結構
在CNN 模型中,卷積層后面一般是池化層,卷積層提取圖像特征后通過池化層來對其進行降維,可有效降低網(wǎng)絡參數(shù)的規(guī)模以及獲得更大的感受野。在U-Net 網(wǎng)絡編碼階段,經(jīng)過多次的卷積池化操作,輸入圖像的大小將越來越小,但U-Net 網(wǎng)絡結構要求輸入圖像和輸出圖像的尺寸相同,這就需要在解碼階段使用上采樣將圖像尺寸還原。在這一系列的操作過程中,雖然輸入圖片經(jīng)過尺寸變化,網(wǎng)絡提取了圖像中的語義信息,但在池化過程中會損失很多信息??斩淳矸e的提出能很好地解決該問題。空洞卷積可在不增加網(wǎng)絡參數(shù)和不縮小圖像尺寸的前提下有效增加卷積的感受野。
圖2a 為3×3 卷積核的普通卷積;圖2b 為空洞率為2 的空洞卷積,其效果和尺寸與7×7 卷積核的感受野相同,但在圖中只有紅色點參與卷積計算,其他部分不參與計算;圖2c 為空洞率為4 的空洞卷積,感受野大小為15×15,也是只有紅色點參與卷積計算,可以發(fā)現(xiàn),空洞卷積可在不增加卷積網(wǎng)絡參數(shù)的情況下增大感受野,避免了池化帶來的信息損失。
本文提出的改進的U-Net 網(wǎng)絡結構如圖3 所示,該網(wǎng)絡共有25 層卷積層,其中卷積層為10 層,反卷積層為10 層,空洞卷積為5 層,激活函數(shù)為Relu,池化方式為最大池化。
圖2 空洞卷積和感受野
網(wǎng)絡的左半部采用類似VGG 網(wǎng)絡的結構,其中第一組卷積由32 個尺寸為3×3 的卷積核構成,第二組卷積由64 個尺寸為3×3 的卷積核構成,以此類推,直到網(wǎng)絡最深為512 個尺寸為3×3 的卷積核。每個卷積池化后都有歸一化層,使每一層中的特征分布更加均勻,以加快收斂速度,還可加快網(wǎng)絡的訓練過程。為了防止網(wǎng)絡訓練過程中出現(xiàn)的過擬合現(xiàn)象,在網(wǎng)絡的最底層加入了Dorpout 層。網(wǎng)絡的右半部分和左半部分相對稱,主要由一系列的反卷積層構成,反卷積層除了與來自上一層反卷積得到的高層特征結合外,還通過Concatenate 結構與來自編碼階段卷積得到的底層特征相結合,得到更加精確的提取結果。網(wǎng)絡的底部是一系列的不同空洞率的空洞卷積,空洞率被設置為3、5、7、9、11,對編碼階段提取的結果進行不同尺度的特征提取,并將提取的結果進行融合,得到更加豐富的特征,再將結果送入到解碼器中。
圖3 改進后的U-Net 網(wǎng)絡結構
本文采用的數(shù)據(jù)集為2013 年Hinton 教授建立的建筑物和道路的公開數(shù)據(jù)集。該數(shù)據(jù)集中的影像分辨率為0.6 m,共有151 張尺寸為1 500×1 500 的影像和對應的標簽,如圖4 所示。首先需對影像進行裁剪,在裁剪過程中對數(shù)據(jù)進行增強操作,并采用隨機旋轉、增加噪聲點、色彩震蕩等方法對數(shù)據(jù)進行擴充,防止因數(shù)據(jù)太少而引起的過擬合現(xiàn)象的發(fā)生;再將數(shù)據(jù)集中按0.25 的比例劃分為驗證集。利用U-Net、Segnet和改進的U-Net 網(wǎng)絡進行對比實驗,并分析結果。
實驗的硬件環(huán)境為:GPU NVIDIAGeForce GTX1080Ti、顯存8G、軟件Python3.6 和Tensorflow1.8.0。將數(shù)據(jù)集裁剪為一定的大小,送入網(wǎng)絡中進行訓練,訓練過程采用SGD 算法進行優(yōu)化,保存最優(yōu)模型。隨著網(wǎng)絡訓練的進行,模型的精度趨于穩(wěn)定,損失值逐漸下降并趨于穩(wěn)定,驗證集的精確度和損失率也趨于穩(wěn)定,模型收斂,網(wǎng)絡訓練結束,保存訓練得到的最優(yōu)模型。實驗的學習率設置為0.01,動量設置為0.8,權值衰減設置為1e-5,迭代次數(shù)設置為60 次,Batchsize 設置為16。
圖4 建筑物和道路的公開數(shù)據(jù)集(部分)
本文分別計算網(wǎng)絡訓練時的交并比(Iou)、像素精度(ACC)和召回率(Recall)3 個精度指標。Iou為語義分割中常用的衡量標準,表示預測值與真實值之間的交集與預測值與真實值之間的并集的比值。其計算公式為:
ACC 為預測真實值占總真實值的比例,計算公式為:
Recall 為被正確預測為建筑物的比例占總建筑物的比例,計算公式為:
式中,TP為網(wǎng)絡預測結果為正樣本,實際也是正樣本的特征數(shù);FP為網(wǎng)絡預測為正樣本,而實際是負樣本的特征數(shù);FN為預測為負樣本,而實際為正樣本的特征數(shù)。
將實驗所用數(shù)據(jù)集裁剪擴充為10 萬張尺寸為256×256 的影像,采用一張GTX1080Ti 顯卡,網(wǎng)絡訓練過程中,隨著迭代次數(shù)的增加,準確率在穩(wěn)步上升,約在第60 次迭代時網(wǎng)絡的ACC 達到了穩(wěn)定狀態(tài),維持在96.26%;網(wǎng)絡損失率(Loss)也在持續(xù)下降,并保持在0.088 左右。在驗證集中,隨著網(wǎng)絡迭代次數(shù)的增加,val_ACC 在穩(wěn)步上升,并穩(wěn)定在95.3%;val_Loss 也逐漸下降,并保持在15.19 左右。訓練過程中的ACC 和Loss 變化如圖5 所示。由圖6 可知,本文提出的網(wǎng)絡的Iou 達到78.59%,驗證集中的val_Iou 也達到了78.56%; 由圖7 可知,網(wǎng)絡訓練過程中的Recall 達到95.65%,在驗證數(shù)據(jù)集中的Recall 達到94.26%。
從實驗結果數(shù)據(jù)來看,本文提出的方法在ACC、Iou 和Recall 方面都有一定的提高,相較于經(jīng)典的U-Net 網(wǎng)絡分別提高了6.75%、5.34%和7.09%;相較于Segnet 網(wǎng)絡分別提高了8.86%、8.33%和8.44%,如表1 所示。
圖5 訓練過程中ACC 和Loss 變化
圖6 訓練過程中Iou 變化
圖7 訓練過程中Recall 變化
圖8 3 種網(wǎng)絡模型的建筑物提取結果(部分)
表1 3 種建筑物提取模型的定量評價
通過訓練得到的3 種建筑物提取模型提取的建筑物效果如圖8 所示,其中圖8a 為數(shù)據(jù)集中的真實值;圖8b 為改進的U-Net 網(wǎng)絡得到的建筑物提取結果;圖8c 為Segnet 網(wǎng)絡提取的建筑物結果;圖8d 為經(jīng)典U-Net 網(wǎng)絡提取的建筑物結果。由圖8c 可知,Segnet 網(wǎng)絡提取的建筑物形態(tài)較差,有一定的誤檢和錯檢,不能很好地提取建筑物,同時存在很多的細碎小斑點,建筑物之間有粘連,大尺寸建筑物的輪廓提取很差;由圖8d 可知,經(jīng)典U-Net 網(wǎng)絡的提取結果也存在與Segnet 網(wǎng)絡相同的問題,對建筑物輪廓的提取較差,存在部分細碎的小斑點,建筑物提取不完全,存在漏檢現(xiàn)象;由圖8b 可知,改進的U-Net 網(wǎng)絡在建筑物輪廓提取方面效果較好,可準確提取建筑物輪廓,建筑物邊緣整齊,建筑物之間不存在粘連,細碎的小斑點較少,但存在少量的誤檢。綜上所述,改進的U-Net 網(wǎng)絡可以較好地對大尺寸建筑物進行精確提取,空洞卷積增大了感受野,多尺度提取特征后對特征進行融合,提高了建筑物提取的精度,對不同尺寸的建筑物均有很好的提取效果。
本文提出的改進的U-Net 網(wǎng)絡結構能有效地對建筑物進行精確提取,將不同空洞率的空洞卷積加入到網(wǎng)絡中,多尺度地對來自編碼階段的結果進行特征提取,并融合生成更加豐富的特征。實驗結果表明,該網(wǎng)絡結構具有較好的提取效果,與經(jīng)典U-Net 網(wǎng)絡和Segnet 網(wǎng)絡相比,其在ACC、Iou 和Recall 方面均有一定的提高,提取效果較好,建筑物無粘連現(xiàn)象,輪廓較規(guī)整。通過與地面真實值比較發(fā)現(xiàn),該網(wǎng)絡結構能精確地對高分辨率遙感影像中的建筑物進行提??;但由于影像中地物復雜、建筑物自身結構差異和地物遮擋等問題,建筑物邊緣提取精度不理想,因此后續(xù)工作將對提取結果進行后處理,以及在保證精度的前提下對建筑物邊緣提取進行增強。