摘? 要:為了克服傳統(tǒng)的U-Net網(wǎng)絡高分辨率遙感影像建筑物提取可能出現(xiàn)的漏檢,以及邊緣細節(jié)損失的問題,以U-Net網(wǎng)絡作為基礎模型,提出一種多尺度采樣模塊(residuals elan block)以及多分支組合下采樣模塊結合的語義分割算法。通過重新設計網(wǎng)絡模型的編碼器,使網(wǎng)絡編碼獲取更多語義信息;通過采用卷積與池化結合的方法改善池化帶來的空間信息丟失問題。在WHU Building Dataset公開數(shù)據(jù)集上的實驗結果表明,該算法的精準度為85.01%,交并比為80.88%,比基礎模型算法分別提高了4.73%和10.6%。
關鍵詞:U-net;多尺度采樣;感受野;深度學習
中圖分類號:TP183;TP751 文獻標識碼:A 文章編號:2096-4706(2023)11-0089-05
Remote Sensing Image Building Extraction Method Based on Elan-UNet
LI Songyu
(College of Information Science and Technology, Bohai University, Jinzhou? 121013, China)
Abstract: In order to overcome the possible problems of missing detection and edge detail loss in building extraction of high-resolution remote sensing images using the traditional U-Net network, a semantic segmentation algorithm combining the multi-scale sampling module (residuals elan block) and the multi-branch sub-sampling module is proposed based on the U-Net network as the basic model. By redesigning the encoder of the network model, the network coding can obtain more semantic information. By combining convolution and pooling, the spatial information loss caused by pooling can be improved. The experimental results on the open data set of WHU Building Dataset show that the algorithm's precision is 85.01% and the IoU is 80.88%, which is 4.73% and 10.6% higher than the basic model algorithm, respectively.
Keywords: U-net; multi-scale sampling; receptive field; deep learning
0? 引? 言
城市高分辨率遙感影像的絕大多數(shù)的人工建筑為建筑物,遙感影像的建筑物自動識別對城市建設規(guī)劃、自然災害等應用具有重要的意義[1-3]。
從高分辨率光學遙感圖像中自動提取建筑物也是計算機視覺和遙感領域中熱點課題,并取得了實質性的進展。近年來,由于深度卷積神經(jīng)網(wǎng)絡(DCNN)在目標檢測[4-6]、圖像分類[7,8]和語義分割[9-12]中的成功應用,深度學習逐漸應用于入遙感領域的地物分類等問題[13-15]。例如,Saito等人[16]應用單個卷積神經(jīng)網(wǎng)絡直接從原始VHR遙感圖像中提取包括建筑物在內(nèi)的多種地物;Bittner等人提出了由三個并行FCN4s網(wǎng)絡組成的Fused-FCN4s模型,從三波段(紅、綠、藍)、全色和歸一化數(shù)字表面模型(nDSM)圖像中學習空間和光譜構建特征;劉尚旺等人[17]提出一種基于U-net網(wǎng)絡多任務學習的建筑地物語義分割方法;張春森等人[18]在SegNet網(wǎng)絡基礎上提出了基于稀疏約束SegNet的高分辨率遙感影像建筑物提取方法;于明洋等人[19]提出了一種基于DeepLab V3的高分辨率遙感影像建筑物自動提取方法;武花等人[20]提出了融合多特征的PSPNet模型實現(xiàn)復雜場景下的建筑物提取?;谏疃葘W習的建筑物提取方法,在精度和穩(wěn)健性上有了明顯的改善。但是,目前,主流的編碼解碼語義分割算法的特征提取仍然存在忽略上下文信息且空間信息損失的問題,使得一些高分辨率的小建筑物存在漏檢現(xiàn)象或者邊緣精度較差的現(xiàn)象。針對上述問題,本文改進了傳統(tǒng)的編解碼網(wǎng)絡U-net算法:1)改進U-net編碼:改進其特征提取的局部性和單一性問題,引入Elan網(wǎng)絡結構,通過控制最短和最長的梯度路徑,使網(wǎng)絡能夠學習到更多的特征,并且具有更強的魯棒性;2)改進U-net在池化過程中存在空間信息的丟失現(xiàn)象,采用卷積與池化結合的方法改善池化帶來的空間信息丟失問題。
1? 傳統(tǒng)的Elan網(wǎng)絡結構和U-Net網(wǎng)絡結構
1.1? Elan模塊
Elan模塊(多尺度采樣模塊)主要功能是特征提取,主要由兩條分支組成。Elan模塊的第1條分支做了1×1卷積處理,其主要功能是改變特征圖通道數(shù);第2條分支進行了4次不同感受野的特征提取操作,特征提取單元主要進行卷積、歸一化(Batch Normalization)、激活函數(shù)(Silu)操作,最后將分支1與分支2所有特征,通過短接操作進行特征融合,其結構如圖1所示。
1.2? U-Net網(wǎng)絡
U-Net網(wǎng)絡是經(jīng)典的語義分割網(wǎng),如圖2所示,主要分為兩個模塊。其中第一個模塊是編碼部分,該模塊通過卷積操作和最大池化操作縮小圖片的尺寸,利用編碼部分能夠生成5個有效的特征層。第二個模塊是解碼部分,利用該模塊將生成的5個特征層進行上采樣,恢復特征圖至原圖大小的尺寸。編碼器和解碼器之間通過跳躍連接(skip connection),將得到的所有有效特征層進行特征融合。最終利用最后一層的有效特征層,通過Softmax對每一個特征點進行分類。
2? Elan-UNet網(wǎng)絡語義分割網(wǎng)路
本文保留了U-Net網(wǎng)絡基本的網(wǎng)絡結構,提出了一種Elan-UNet網(wǎng)絡結構。其整體結構分為編碼、解碼兩部分。編碼部分由特征提取模塊、降采樣模塊組成;解碼部分由上采樣模塊組成,結構與編碼部分對稱。算法整體的結構圖,如圖3所示。
2.1? 編碼器
Elan-UNet基本框架如圖3所示。編碼階段通過5次Elan模塊對遙感圖像特征提取,以及5次下采樣模塊,最后將特征圖尺寸變?yōu)樵瓉淼?/2。
與目前主流編碼器使用池化操作不同,本文的降采樣模塊是多分支組合降采樣模塊,由2個分支組成,分支1采用最大池化,然后進行1×1的卷積;分支2先進行1×1的卷積改變通道數(shù),然后進行步長為2的3×3卷積來進行降采樣,最后將分支1與分支2的結果加起來,得到增強后的降采樣特征,結構圖如圖4所示。
2.2? 解碼器
解碼器的主要功能是將編碼器提取的淺層語義信息進行處理,進一步提取出更高級的語義特征,并通過反卷積操作進行上采樣,將提取的高級語義特征擴展到輸入影像的尺寸,最后利用分類器對高級語義特征逐像素分類完成分類任務。
本文解碼器是由Elan模塊和上采樣模塊組成,Elan模塊用于提取高級語義特征,上采樣用于擴展特征圖尺寸。上采樣模塊是采用反卷積操作完成的。反卷積是一種特殊的正向卷積,先按照一定的比例通過填充0來擴大輸入圖像的尺寸,接著旋轉卷積核,再進行正向卷積,具體操作如圖5所示。
3? 實驗分析
3.1? 實驗環(huán)境與數(shù)據(jù)集簡介
本文所有算法是在Win 10系統(tǒng),Python 3.8環(huán)境下進行對比實驗。本文對算法驗證是在WHU Building Dataset上進行的,WHU Building Dataset主要分為訓練集、驗證集、測試集三部分,其中訓練集有4 736張512×512尺寸的建筑影像,驗證集有1 036張512×512尺寸的影像,測試集有2 416張512×512尺寸的影像。訓練集主要用于訓練模型,驗證集用于挑選訓練性能最優(yōu)的模型,測試集用于評價訓練出來模型的性能。
3.2? 實驗過程及結果分析
為證明算法的有效性,本文將Elan-UNet、U-Net、DeepLab V3、SegNet四個算法在WHU Building Dataset進行訓練并對各項指標進行模型性能測評,例如交并比(IoU)、精確度(Precision)、召回率(Recall)、F1_Score值等。
為了驗證算法公平性,本文的對比實驗是在相同epoch次數(shù)、損失函數(shù)、優(yōu)化器進行;其中epoch都設置100次,優(yōu)化器為Adam算法,Loss為交叉熵函數(shù)。為了保證參數(shù)初始化帶來的影像,本文的所有的模型編碼器都沒有使用大型公共數(shù)據(jù)預訓練模型。
為了驗證算法在訓練時的收斂情況以及算法模型的精確度,本文記錄了各模型Loss情況以及每一輪模型在測試集上精確度,如圖6所示。
從圖6顯示的Loss/Precision折線圖可得出,Elan-UNet算法的收斂存在波動,但在整提上精確度完全優(yōu)于其他算法。
本文還對各模型的交并比(IoU)、精確度(Precision)、召回率(Recall)、F1_Score值進行了測評,各模型在測試集上所表現(xiàn)的最優(yōu)效果如表1所示,從表1測試結果中可得出Elan-UNet在IoU、Precision、F1_Score三項指標要明顯有其他算法。
為了進一步對算法模型性能驗證,本文對各算法的分割結果進行了可視化,如圖7所示。其中,圖7(a)為原圖,(b)為標簽圖,(c~f)分別為SegNet、DeepLab V3、U-Net、Elan-UNet網(wǎng)絡的測試結果。
從圖7中結果明顯可以看到,本文提出的Elan-UNet對遙感影像建筑物提取整體視覺效果明顯好于U-Net網(wǎng)絡提取結果。在小目標,誤檢,漏檢等方面要優(yōu)于其他對比算法,有效驗證Elan-UNet遙感建筑提取的優(yōu)越性。
4? 結? 論
為了使U-Net網(wǎng)絡在提取遙感影像建筑物時能夠更加精準,對細小物體輪廓提取更加清晰,本文以U-Net網(wǎng)絡作為基礎框架,通過引入Elan模塊以及多分支組合下采樣模塊,提出了Elan-UNet算法,該算法可以通過控制最短和最長的梯度路徑,使網(wǎng)絡能夠學習到更多的特征。使用WHU Building Dataset作為實驗數(shù)據(jù),經(jīng)過實驗驗證,算法改進后的性能有明顯提高,在交并比、精確度等性能上明顯優(yōu)于其他三個比較有代表性的分割算法,證明了該算法的有效性和可行性。
參考文獻:
[1] GRINIAS I,PANAGIOTAKIS C,TZIRITAS G. MRF-based segmentation and unsupervised classification for building and road detection in peri-urban areas of high-resolution satellite images [J].ISPRS journal of photogrammetry and remote sensing,2016,122:145-166.
[2] MONTOYA-ZEGARRA A J,WEGNER J D,LADICKY L,et al. Semantic segmentation of aerial images in urban areas with class-specific higher-order cliques [J].ISPRS Annals of Photogrammetry,Remote Sensing and Spatial Information Sciences,2015(1):127-133.
[3] ERENER A. Classification method,spectral diversity,band combination and accuracy assessment evaluation for urban feature detection [J].International Journal of Applied Earth Observations and Geoinformation,2013,21:397-408.
[4] GIRSHICK R. Fast R-CNN [C]//2015 IEEE International Conference on Computer Vision (ICCV). Santiago:IEEE,2015:1440-1448.
[5] SZEGEDY C,TOSHEV A,ERHAN D. Deep Neural Networks for Object Detection [C]//The 27th Annual Conference on Neural Information Processing Systems (NIPS).Montreal:[s.n.],2013:2553-2561.
[6] LIU W,ANGUELOV D,ERHAN D,et al. SSD: Single Shot MultiBox Detector [C]//The 14th European Conference on Computer Vision,Amsterdam:Springer,2016:21-37.
[7] SZEGEDY C,LIU W,JIA Y,et al. Going deeper with convolutions [C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston:IEEE,2015:1-9.
[8] KRIZHEVSKY A,SUTSKEVER I,HINTON G E. Imagenet classification with deep convolutional neural networks [J].Communications of the ACM,2017,60(6):84-90.
[9] SHELHAMER E,LONG J,DARRELL T. Fully Convolutional Networks for Semantic Segmentation [J] IEEE Transactions on Pattern Analysis and Machine Intelligence,2017:39(4):640-651.
[10] BADRINARAYANAN V,KENDALL A,CIPOLLA R. Segnet: A deep convolutional encoder-decoder architecture for image segmentation [J].IEEE transactions on pattern analysis and machine intelligence,2017,39(12):2481-2495.
[11] RONNEBERGER O,F(xiàn)ISCHER P,BROX T. U-Net: Convolutional Networks for Biomedical Image Segmentation [C]//The 18th International Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI).Munich:CoRR,2015:234-241.
[12] NOH H,HONG S,HAN B. Learning Deconvolution Network for Semantic Segmentation [C]// 2015 IEEE International Conference on Computer Vision (ICCV). Santiago:IEEE,2015:1520-1528.
[13] PAN X,YANG F,GAO L,et al. Building extraction from high-resolution aerial imagery using a generative adversarial network with spatial and channel attention mechanisms [J/OL].Remote Sensing,2019,11(8):[2023-02-03]. https://doi.org/10.3390/rs11080917.
[14] YUAN J. Learning building extraction in aerial scenes with convolutional networks [J].IEEE transactions on pattern analysis and machine intelligence,2017,40(11):2793-2798.
[15] JI S,WEI S,LU M. Fully convolutional networks for multisource building extraction from an open aerial and satellite imagery data set [J].IEEE Transactions on Geoscience and Remote Sensing,2018,57(1):574-586.
[16] SAITO S,YAMASHITA T,AOKI Y. Multiple object extraction from aerial imagery with convolutional neural networks [J].Electronic Imaging,2016,2016(10):1-9.
[17] 劉尚旺,崔智勇,李道義.基于Unet網(wǎng)絡多任務學習的遙感圖像建筑地物語義分割 [J].國土資源遙感,2020,32(4):74-83.
[18] 張春森,葛英偉,蔣蕭.基于稀疏約束SegNet的高分辨率遙感影像建筑物提取 [J].西安科技大學學報,2020,40(3):441-448.
[19] 于明洋,張文焯,陳肖嫻,等.基于DeepLabv3+的高分辨率遙感影像建筑物自動提取 [J].測繪工程,2022,31(4):1-10+17.
[20] 武花,張新長,孫穎,等.融合多特征改進型PSPNet模型應用于復雜場景下的建筑物提取 [J].測繪通報,2021(6):21-27.
作者簡介:李松宇(1998—),男,漢族,遼寧營口人,碩士研究生在讀,研究方向:深度學習計算機視覺。
收稿日期:2023-03-03