孫尚彪,張海明,熊靈華,張雨涵,鐘林汕,王民水,王明常,2
1.吉林大學(xué) 地球探測科學(xué)與技術(shù)學(xué)院,長春 130026;2.自然資源部 城市國土資源監(jiān)測與仿真重點(diǎn)實(shí)驗(yàn)室,廣東 深圳 518000
在高分辨率遙感影像的城市區(qū)域中,超過80%的地物是建筑物和道路,使用這些信息可以進(jìn)行城市建設(shè)的變化檢測和三維城市重建等[1]。近年來,隨著遙感技術(shù)的發(fā)展,高分辨率遙感影像能夠更加清晰地呈現(xiàn)建筑物的紋理特征和形狀特征,但依舊存在“同物異譜”和“同譜異物”的現(xiàn)象[2],且現(xiàn)代建筑物的輪廓更加復(fù)雜,傳統(tǒng)遙感影像分類方法已難以滿足對復(fù)雜建筑物的提取[3]。
深度學(xué)習(xí)的飛速發(fā)展,為遙感影像的分類提供技術(shù)參考。其中,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)表現(xiàn)出強(qiáng)大的分類能力,但是傳統(tǒng)的CNN進(jìn)行像素分類時(shí)因數(shù)據(jù)冗余造成內(nèi)存開銷急劇增加,而只能判定整張遙感影像的類別,不能進(jìn)行語義分割任務(wù),因此并不適用于遙感影像的分類[4]。而全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional networks, FCN)對CNN模型進(jìn)行了改進(jìn),采用反卷積層取代了CNN中的全連接層,使得可以輸出與原始影像相同分辨率大小的分類結(jié)果,實(shí)現(xiàn)像素級別的分類[1]。
但FCN容易丟失細(xì)節(jié)信息且只能輸入固定的尺寸影像[5]。目前已有許多分割模型對FCN進(jìn)行了改進(jìn),其中代表性的模型有SegNet模型[6]、DeconvNet模型[7]、Deeplab模型[8]和U-net模型[9]。為表現(xiàn)改進(jìn)后的模型在影像分類中的優(yōu)越性,本研究采用U-net模型進(jìn)行建筑物提取,該模型采用了對稱的U型結(jié)構(gòu)設(shè)計(jì),融合了低維與高維的特征,同時(shí)考慮到影像的全局信息和細(xì)節(jié)信息,最后得到每個(gè)像元的分類結(jié)果,極大提升了建筑物的分類精度。目前,國內(nèi)外學(xué)者針對U-net模型開展了一系列研究工作,王寧等[4]基于U-net模型對遙感影像中的水體進(jìn)行提取,其結(jié)果優(yōu)于隨機(jī)森林模型;陳進(jìn)等[5]基于U-net模型對含雜水稻籽粒進(jìn)行影像分割,能夠有效識別影像中的谷物和莖稈等信息;林旭[10]等利用空洞卷積改進(jìn)U-net模型,提高了對植被的提取精度;洪漢玉等[11]基于U-net模型快速檢測出影像中的繩帶信息;蘇健民等[12]驗(yàn)證了U-net網(wǎng)絡(luò)的精度比SegNet網(wǎng)絡(luò)和DeconvNet網(wǎng)絡(luò)的精度更高。Buslaev et al.[13]將Resnet34作為U-net模型的編碼器,并選用兩種損失函數(shù)進(jìn)行加權(quán)求和,對土地覆蓋進(jìn)行分割,交并比達(dá)到64%。基于以上分析,U-net模型表現(xiàn)出強(qiáng)大的影像分割能力,因此本文使用U-net模型進(jìn)行遙感影像分類,并采用公開的Massachusetts建筑物數(shù)據(jù)集進(jìn)行模型訓(xùn)練和驗(yàn)證,再和傳統(tǒng)方法提取的建筑物結(jié)果進(jìn)行對比,比較其提取結(jié)果和分類精度,旨在選擇一種高效的建筑物提取方法,為快速獲得建筑物的分布信息以及城市建設(shè)規(guī)劃的需要提供參考。
本實(shí)驗(yàn)采用5種傳統(tǒng)遙感影像分類方法進(jìn)行建筑物提取和精度對比的分析實(shí)驗(yàn),包括最大似然法、馬氏距離法、最小距離法、神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)。以下詳細(xì)描述了傳統(tǒng)分類方法的基本原理。
最大似然法是一種典型的基于影像統(tǒng)計(jì)的監(jiān)督分類方法,又稱為貝葉斯分類[14]。該方法的思想是假設(shè)每一個(gè)波段的每一類統(tǒng)計(jì)都呈正態(tài)分布,計(jì)算給定像元屬于某一訓(xùn)練樣本的似然度,像元最終被歸并到似然度最大的一類當(dāng)中。
馬氏距離法是計(jì)算輸入影像到各訓(xùn)練樣本的協(xié)方差距離,最終計(jì)算協(xié)方差距離最小的,即為此類別,但要求輸入的波段數(shù)據(jù)是正態(tài)分布的,否則會引起分類誤差[14]。
最小距離法與馬氏距離法的原理是相似的,利用訓(xùn)練樣本數(shù)據(jù)計(jì)算出每一類的均值向量和標(biāo)準(zhǔn)差向量,然后以均值向量作為該類在特征空間中的中心位置,計(jì)算輸入影像中每個(gè)像元到各類中心的距離大小來決定其類別[15]。
神經(jīng)網(wǎng)絡(luò)指用計(jì)算機(jī)模擬人腦的結(jié)構(gòu),用許多小的處理單元模擬生物的神經(jīng)元,用算法實(shí)現(xiàn)人腦的識別、記憶和思考過程。在網(wǎng)絡(luò)學(xué)習(xí)階段,網(wǎng)絡(luò)通過調(diào)整權(quán)重來實(shí)現(xiàn)輸入樣本與其正確類型的對應(yīng),具有較好的預(yù)測分類能力。
支持向量機(jī)(support vector machine, SVM)是一種建立在統(tǒng)計(jì)學(xué)習(xí)理論(statistical learning theory, SLT)基礎(chǔ)上的機(jī)器學(xué)習(xí)方法,可以自動尋找那些對分類有較大區(qū)分能力的支持向量,由此構(gòu)造出分類器,可以將類與類之間的間隔最大化,因而有較好的推廣性和較高的分類準(zhǔn)確率,在解決小樣本、非線性和高維模式識別中具有獨(dú)特的優(yōu)勢[16]。
U-net模型是一個(gè)沒有全連接層的全卷積神經(jīng)網(wǎng)絡(luò),為U型對稱的編碼器-譯碼器結(jié)構(gòu),由卷積層、最大池化層、反卷積層以及ReLu非線性激活函數(shù)組成,其輸入和輸出均為相同分辨率的影像[17]。它沿用了FCN進(jìn)行影像語義分割的思想[18],可以利用少量的數(shù)據(jù)學(xué)習(xí)到一個(gè)對邊緣提取具有十分良好的魯棒性的模型[19],即利用卷積層、最大池化層進(jìn)行特征提取,再利用反卷積層還原影像尺寸。而且U型結(jié)構(gòu)的設(shè)計(jì),可以使裁剪和拼接過程更加直觀、合理;高層特征圖與底層特征圖的拼接以及卷積的反復(fù)、連續(xù)操作,使得模型能夠從上下文信息和細(xì)節(jié)信息的組合中得到更加精確的輸出特征圖。
該模型網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,其中,藍(lán)/白色框表示特征圖,藍(lán)色箭頭表示3×3卷積,用于特征提取,灰色箭頭表示跳躍連接,用于特征融合,紅色箭頭表示最大池化,用于降低維度,綠色箭頭表示上采樣,用于恢復(fù)維度,青色箭頭表示1×1卷積,用于輸出結(jié)果。模型由左半邊的壓縮通道和右半邊的擴(kuò)展通道組成,壓縮通道是一個(gè)解碼器,用于逐層提取影響的特征,它重復(fù)采用2個(gè)卷積層和1個(gè)最大池化層的結(jié)構(gòu),輸入的遙感影像每進(jìn)行一次池化操作后,特征圖的維數(shù)就增加1倍;擴(kuò)展通道是一個(gè)解碼器,用于還原影像的位置信息,它先進(jìn)行一次反卷積操作,使特征圖的維數(shù)減半,然后拼接對應(yīng)壓縮通道裁剪得到的特征圖,重新組成一個(gè)2倍大小的特征圖,再采用2個(gè)卷積層進(jìn)行特征提取,并重復(fù)這一結(jié)構(gòu),在最后的輸出層,用2個(gè)卷積層將64維的特征圖映射成2維的輸出圖。
圖1 U-net模型結(jié)構(gòu)Fig.1 Structure of U-net model
本實(shí)驗(yàn)以公開數(shù)據(jù)集中的標(biāo)簽數(shù)據(jù)作為模型精度評定標(biāo)準(zhǔn),采用準(zhǔn)確率、召回率和F1值進(jìn)行結(jié)果評價(jià)(表1)。
準(zhǔn)確率(accuracy)表示預(yù)測符合標(biāo)簽的樣本與總樣本的比例,準(zhǔn)確率值越大,模型預(yù)測的結(jié)果越準(zhǔn)確,其表達(dá)式如下:
(1)
表1 混淆矩陣
召回率(recall)表示正確預(yù)測正樣本占正樣本的比例,其表達(dá)式如下:
(2)
F1值是精確率和召回率的調(diào)和平均值,F(xiàn)1值越高,模型越穩(wěn)健,其表達(dá)式如下:
(3)
實(shí)驗(yàn)采用Massachusetts建筑數(shù)據(jù)集,該數(shù)據(jù)集由151組航拍影像和相應(yīng)的單通道標(biāo)簽影像組成,其中訓(xùn)練部分為137組,測試部分為10組,驗(yàn)證部分為4組。數(shù)據(jù)集中所有影像的像素大小為1 500×1 500,空間分辨率為1 m。每幅影像覆蓋了2.25 km2的區(qū)域,整個(gè)數(shù)據(jù)集大約覆蓋340 km2[20]。影像數(shù)據(jù)和標(biāo)簽數(shù)據(jù)如圖2所示。
a.原始遙感影像;b.對應(yīng)的標(biāo)簽數(shù)據(jù)。圖2 實(shí)驗(yàn)所采用的部分?jǐn)?shù)據(jù)Fig.2 Some data used in experiments
首先,實(shí)驗(yàn)使用軟件根據(jù)遙感影像建立ROI感興趣區(qū)域,分為建筑物和非建筑物兩類,然后采用監(jiān)督分類中的最大似然法、馬氏距離法、神經(jīng)網(wǎng)絡(luò)、最小距離和支持向量機(jī)分別進(jìn)行建筑物的分類(圖3)。
a.最大似然法;b.馬氏距離法;c.神經(jīng)網(wǎng)絡(luò);d.最小距離法;e.支持向量機(jī)。圖3 傳統(tǒng)分類方法提取數(shù)據(jù)集中建筑物的結(jié)果圖Fig.3 Results of extracting buildings from dataset using traditional classification methods
由圖3可見,傳統(tǒng)遙感提取的結(jié)果中建筑物的輪廓不完整,且將部分道路等與建筑物材質(zhì)相似的區(qū)域錯分為建筑物。五種分類方法的結(jié)果相差較小,整體上均呈現(xiàn)出建筑物的分布范圍,但局部區(qū)域的建筑物信息分類不準(zhǔn)確。
然后使用深度學(xué)習(xí)的方法進(jìn)行建筑物分類,首先將數(shù)據(jù)集導(dǎo)入至U-net模型中,先后對遙感影像進(jìn)行訓(xùn)練和驗(yàn)證,得到訓(xùn)練和驗(yàn)證的損失、準(zhǔn)確度曲線圖(圖4)。利用數(shù)據(jù)集對模型進(jìn)行訓(xùn)練,選擇參數(shù)最優(yōu)的模型,并進(jìn)行建筑物的提取驗(yàn)證,得到的提取結(jié)果如圖5所示。
圖4 損失和準(zhǔn)確度曲線Fig.4 Loss and accuracy curves
a.訓(xùn)練預(yù)測圖;b.對應(yīng)的標(biāo)簽數(shù)據(jù)。圖5 模型驗(yàn)證結(jié)果Fig.5 Model validation results
由圖5可見,采用深度學(xué)習(xí)的方法能夠有效避免道路和陰影造成的影響,且沒有細(xì)碎的噪聲斑塊,建筑物輪廓清晰,沒有發(fā)生斷續(xù)現(xiàn)象。
依據(jù)評定標(biāo)準(zhǔn),計(jì)算U-net方法和傳統(tǒng)遙感分類方法提取建筑物的準(zhǔn)確度、召回率和F1值(表2)。
表2 分割結(jié)果對比
由表2可見,由于建筑物和道路的材質(zhì)相似和陰影等造成的影響,傳統(tǒng)方法在進(jìn)行分類時(shí)未進(jìn)行有效分割,而將道路和建筑物分為一類,因此造成準(zhǔn)確度、召回率和F1值相比U-net較低,準(zhǔn)確度均為60%±10%,召回率為20%±6%,F(xiàn)1值為25%±6%。而U-net網(wǎng)絡(luò)模型可以有效提高建筑物分類精度,準(zhǔn)確度達(dá)到95%以上,召回率為88.109%,F(xiàn)1值為82.123%。因此,本文采用的深度學(xué)習(xí)方法對建筑物提取具有一定的可行性。
(1)傳統(tǒng)分類方法需要人工建立ROI區(qū)域,提取分類特征,人工提取分類特征的優(yōu)劣直接影響建筑物的提取精度。
(2)U-net模型能夠通過對大量樣本進(jìn)行訓(xùn)練,不斷更新權(quán)值,能夠很好地學(xué)習(xí)分類特征,提取地物的本質(zhì)特征,極大地提高了建筑物提取的精度。
(3)深度學(xué)習(xí)網(wǎng)絡(luò)需要大量的樣本數(shù)據(jù),而建筑物數(shù)據(jù)集的有限,容易出現(xiàn)過擬合的現(xiàn)象,且網(wǎng)絡(luò)參數(shù)的調(diào)整依賴于多次試驗(yàn),對深度學(xué)習(xí)在地物提取上的應(yīng)用帶來一定的挑戰(zhàn)。