劉于昆,高郭瑞,王淑焜,戚慧,王振華,張家佑
(鄭州大學(xué)地球科學(xué)與技術(shù)學(xué)院,河南鄭州,450000)
建筑物作為城市或城郊的重要特征,精確識(shí)別建筑物在土地利用分析、交通規(guī)劃、地圖更新、城市規(guī)劃及環(huán)境保護(hù)等領(lǐng)域具有重要意義。隨著高分辨率衛(wèi)星的發(fā)射,遙感影像空間分辨率的提升,具有更加豐富的地物空間結(jié)構(gòu)和紋理特征信息,使得建筑物的精準(zhǔn)識(shí)別定位成為可能,但同譜異物和同物異譜的現(xiàn)象也更加嚴(yán)重。傳統(tǒng)目視解譯消耗大量人力物力,基于傳統(tǒng)機(jī)器學(xué)習(xí)自動(dòng)解譯也稍顯落后,而基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)算法自動(dòng)提取建筑物在計(jì)算機(jī)發(fā)展下逐漸成為熱門,對(duì)于絕大部分的計(jì)算機(jī)視覺(jué)問(wèn)題, 基于深度卷積神經(jīng)網(wǎng)絡(luò)( DCNN)方法的效果明顯優(yōu)于其他傳統(tǒng)方法。
本文基于VGG16(Visual Geometry Group Network 16)網(wǎng)絡(luò)模型,改進(jìn)構(gòu)建FCN、U-net、SegNet三種網(wǎng)絡(luò)結(jié)構(gòu),并對(duì)同一地區(qū)遙感圖像進(jìn)行實(shí)驗(yàn),對(duì)比三種網(wǎng)絡(luò)結(jié)構(gòu)對(duì)大多倫多地區(qū)(Greater Toronto Area,GTA)數(shù)據(jù)集自動(dòng)提取的效果,比較三種模型的優(yōu)劣性。
VGG網(wǎng)絡(luò)是經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò),由13個(gè)卷積層、5個(gè)池化層、3個(gè)全連接層組成。通過(guò)“卷積層+池化層”得到特征圖,然后將得到的特征圖轉(zhuǎn)換成一維向量輸入到全連接層,最后一層全連接層通常被傳到Sigmoid激活函數(shù)或Softmax激活函數(shù)中,用于二分類或多分類任務(wù)[1]。
本文以VGG16為基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu),舍棄了它的全連接層,搭建FCN、U-net、SegNet三種模型,通過(guò)對(duì)同一數(shù)據(jù)集進(jìn)行分類識(shí)別,多次試驗(yàn)得到建筑物提取結(jié)果,對(duì)比分析其分類精度,找到最佳建筑物自動(dòng)提取模型。
FCN網(wǎng)絡(luò)將傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)VGG16中的全連接層替換為卷積層,提高了分割效率、降低了計(jì)算復(fù)雜度。網(wǎng)中包括卷積層、激活函數(shù)層、池化層、反卷積層、裁剪層以及Eltwise層。其中卷積、池化、反卷積是最主要的操作[2]。
卷積層是FCN神經(jīng)網(wǎng)絡(luò)的核心層,通過(guò)對(duì)輸入圖像進(jìn)行卷積操作,類似圖像濾波的過(guò)程,得到初步的特征圖。池化層對(duì)輸入的特征進(jìn)行壓縮,減小特征圖尺寸,突出影像中的主要特征,使得網(wǎng)絡(luò)計(jì)算復(fù)雜度降低。反卷積層用于將經(jīng)過(guò)卷積及池化操作后的特征影像進(jìn)行上采樣操作,從而恢復(fù)特征影像的尺寸,反卷積層可以使得網(wǎng)絡(luò)學(xué)習(xí)到更加復(fù)雜的特征。
U-net模型是基于FCN對(duì)語(yǔ)義分割的探索,實(shí)現(xiàn)了像素級(jí)的數(shù)據(jù)提取。該模型采用VGG16網(wǎng)絡(luò)(去除全連接層)作為編碼器,并且在VGG16網(wǎng)絡(luò)的每一個(gè)卷積模塊的末尾部分增加了Dropout層,避免模型出現(xiàn)過(guò)擬合現(xiàn)象。在解碼器部分,通過(guò)步長(zhǎng)為2的轉(zhuǎn)置卷積實(shí)現(xiàn)特征圖的上采樣,并通過(guò)跳躍連接方式來(lái)融合編碼器的多層語(yǔ)義特征,從而還原圖像的分割細(xì)節(jié)[3]。U-net的網(wǎng)絡(luò)架構(gòu)類似于一個(gè)U型結(jié)構(gòu),F(xiàn)CN反卷積過(guò)程是利用了最后三層,U-net模型解碼過(guò)程將每層的輸出結(jié)果進(jìn)行小步幅上采樣,然后通過(guò)不斷拼接特征圖完善細(xì)節(jié),得到最終高精度的結(jié)果。
SegNet模型是由編碼網(wǎng)絡(luò)、解碼網(wǎng)絡(luò)和逐像素分類器組成的網(wǎng)絡(luò)模型。SegNet沿用了FCN中圖像語(yǔ)義分割的思想,在池化過(guò)程中記錄了每一個(gè)最大權(quán)重的位置優(yōu)化了反卷積過(guò)程。SegNet是基于像素的端到端的網(wǎng)絡(luò)架構(gòu),但融合了編碼-解碼結(jié)構(gòu)和跳躍網(wǎng)絡(luò)的特點(diǎn)[3]。
實(shí)驗(yàn)數(shù)據(jù)集為GTA建筑數(shù)據(jù)集。該數(shù)據(jù)集由大多倫多地區(qū)的遙感圖像組成。大多倫多地區(qū)大約600平方公里,是加拿大人口密度最高的都市區(qū),同時(shí)也是北美第五大都會(huì)區(qū)。因此,大多倫多地區(qū)有很多大型城市建筑和錯(cuò)綜復(fù)雜的交通道路,對(duì)其進(jìn)行建筑物提取有較大的難度。
2.2.1 實(shí)驗(yàn)設(shè)計(jì)
本次實(shí)驗(yàn)使用GTA數(shù)據(jù)集,在網(wǎng)絡(luò)模型VGG16基礎(chǔ)上搭建FCN、U-net、SegNet模型。通過(guò)修改輸入?yún)?shù)進(jìn)行訓(xùn)練和預(yù)測(cè),不斷調(diào)整學(xué)習(xí)率搭建好網(wǎng)絡(luò)模型,最后用于建筑分類。本文實(shí)驗(yàn)訓(xùn)練方式較為不同,將輸入圖片分為了三部分,即彩色通道、灰度通道、邊緣通道,進(jìn)行輸入,在此基礎(chǔ)上,還對(duì)效果最好的U-net網(wǎng)絡(luò)進(jìn)行了單輸入,做不同的對(duì)比試驗(yàn),比較三種網(wǎng)絡(luò)的優(yōu)劣,并對(duì)其分類結(jié)果進(jìn)行評(píng)價(jià)。
2.2.2 實(shí)驗(yàn)結(jié)果
在網(wǎng)絡(luò)方面,為對(duì)比突出,卷積層均選擇VGG16的卷積層架構(gòu),卷積層之后則采用不同網(wǎng)絡(luò)的處理方式。在分類精度方面,U-net網(wǎng)絡(luò)的精度最佳。并且實(shí)驗(yàn)發(fā)現(xiàn),通過(guò)三通道輸入會(huì)使模型精度得到一定的提升。本文三種網(wǎng)絡(luò)分類結(jié)果如圖1所示。
圖1 三種模型的建筑物提取結(jié)果
從圖1可以看出,Seg-Net在大目標(biāo)預(yù)測(cè)方面表現(xiàn)較好,但對(duì)于建筑圖象的細(xì)節(jié)部分,SegNet表現(xiàn)較差。FCN網(wǎng)絡(luò)雖然在整體上略強(qiáng)于SegNet網(wǎng)絡(luò),但針對(duì)密集建筑物地區(qū)存在較多的虛假現(xiàn)象,容易將道路錯(cuò)誤提取為建筑物,對(duì)建筑物密集區(qū)的提取結(jié)果較差。U-net網(wǎng)絡(luò)具有更精準(zhǔn)的分割細(xì)節(jié),對(duì)建筑物密集區(qū)區(qū)分能力更強(qiáng),但是由于上采樣的弊端導(dǎo)致許多細(xì)小圖案之間存在粘連。實(shí)驗(yàn)結(jié)果中還可以發(fā)現(xiàn),許多圓形建筑均被檢測(cè)到,卻表現(xiàn)為正方形的預(yù)測(cè)值,進(jìn)一步證實(shí)了上采樣的弊端,因此在該方面仍需改進(jìn)。
2.2.3 實(shí)驗(yàn)分析
為了更好地定量評(píng)價(jià)各種模型的分類效果,本文采用查準(zhǔn)率(Precision)、查全率(Recall)及綜合分?jǐn)?shù)(F1),見(jiàn)式(1)—(3)。
式中,TP為正確提取出的建筑物(單位為像素,下同),F(xiàn)P為虛警,即與參考結(jié)果無(wú)匹配的建筑物提取結(jié)果,F(xiàn)N 為漏分,即未提取出的建筑物,F(xiàn)1值越大,表明算法提取效果越好。
本次實(shí)驗(yàn)中,對(duì)輸入方式做出了改變,將輸入圖片分為三個(gè)部分輸入:彩色通道、灰度通道、邊緣通道分別利用網(wǎng)絡(luò)提取不同類型特征,最后將特征結(jié)合以語(yǔ)義分割FCN網(wǎng)絡(luò)架構(gòu),同時(shí)也在U-net和SegNet網(wǎng)絡(luò)上進(jìn)行了測(cè)試。從表1中可以看出來(lái),在U-net網(wǎng)絡(luò)上訓(xùn)練,其精確率相比在FCN有了有效的進(jìn)步,也進(jìn)一步證實(shí)了U-net網(wǎng)絡(luò)在二分類方面性能方面的強(qiáng)大。但當(dāng)將本實(shí)驗(yàn)輸入應(yīng)用于SegNet網(wǎng)絡(luò)時(shí),由于參數(shù)過(guò)多導(dǎo)致訓(xùn)練難以進(jìn)行,并且訓(xùn)練也將會(huì)受到設(shè)備的限制,因此使用原始SegNet網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn)。
表1 三種模型對(duì)建筑物的分類精度
由圖1和表1可以發(fā)現(xiàn),三類網(wǎng)絡(luò)得到的預(yù)測(cè)圖片在特征定位方面表現(xiàn)良好,但在細(xì)節(jié)方面明顯U-net網(wǎng)絡(luò)會(huì)強(qiáng)于其他兩類。但由于實(shí)驗(yàn)所利用的圖片來(lái)源為同種圖片,來(lái)自同一地區(qū),導(dǎo)致模型泛化性能較差。同時(shí),通過(guò)對(duì)U-net網(wǎng)絡(luò)進(jìn)行單輸入與多輸入進(jìn)行實(shí)驗(yàn),雖然精確度有所下降,但對(duì)比發(fā)現(xiàn)整體預(yù)測(cè)得分有略微提升。
本文以VGG16網(wǎng)絡(luò)進(jìn)行構(gòu)建,對(duì)同一數(shù)據(jù)集迭代計(jì)算,通過(guò)對(duì)比FCN、U-net、SegNet三種網(wǎng)絡(luò)結(jié)構(gòu)對(duì)高分辨率遙感影像建筑物自動(dòng)提取的結(jié)果,得出U-net網(wǎng)絡(luò)結(jié)構(gòu)特征提取結(jié)果最優(yōu)的結(jié)論。在多次實(shí)驗(yàn)中發(fā)現(xiàn)FCN模型雖然可以實(shí)現(xiàn)像素級(jí)別的特征提取,但在池化過(guò)程中往往會(huì)丟失部分細(xì)節(jié)信息,使得結(jié)果不夠完整,且計(jì)算量較為復(fù)雜。U-net模型基于VGG網(wǎng)絡(luò)搭建,將其作為編碼器,實(shí)現(xiàn)對(duì)建筑物像素級(jí)別的提取,并且增加Dropout層有效避免過(guò)擬合現(xiàn)象,還提高處理的效率和精度。所以,U-net網(wǎng)絡(luò)相比FCN和SegNet對(duì)細(xì)節(jié)的處理會(huì)更強(qiáng)。