龐博,黃祚繼,吳艷蘭,3,陸雨婷
(1.安徽大學 資源與環(huán)境工程學院,合肥 230601;2.安徽省(水利部淮河水利委員會)水利科學研究院,合肥 230088;3.安徽省地理信息智能技術工程研究中心,合肥 230000)
不透水面是一種地表水不能透過滲透到土壤中的人工地貌特征,在城市中的不透水面主要由建筑物、道路、停車場等人工構筑面組成[1]。它不僅代表著城鎮(zhèn)化的程度,而且對區(qū)域水循環(huán)、地表覆蓋、局部氣候和城市熱島等都有著重要的影響,在城市化的研究中起著重要的作用[2]。近年來,城市化的快速發(fā)展使得不透水面持續(xù)擴張,因而精準、高效地提取不透水面可以為城市土地的合理利用與發(fā)展規(guī)劃提供一定的理論依據與數據支持[3]。
針對遙感影像不透水面的提取,目前主要分為2類:人工方法提取和基于分類規(guī)則提取[4]。人工方法主要采用遙感目視解譯的方法對不透水面進行信息提取和監(jiān)測[5-6]。通過對不透水面的紋理、位置、圖形、陰影等特征信息進行提取,從而獲取所需要的信息,具有易于理解、可操作性強、精確的特點[7],但目視解譯方法需要解譯人員具有一定的遙感判讀經驗,主觀性強、工作效率低[8]。傳統(tǒng)遙感基于分類規(guī)則自動分類不透水面的提取方法主要分為支持向量機法[9]、決策樹分類法[10]、指數模型法[11]和線性光譜混合模型法[12]等。這些方法主要利用遙感影像不同波段所攜帶的光譜信息,沒有考慮對象的空間和紋理等信息[13],無法從整體上解譯出影像的特征,導致提取效果并不理想,會產生信息冗余和大量的“椒鹽”現象[14-15]。針對這些問題,許多研究者提出了運用面向對象的分類方法對不透水面進行提取,該方法綜合利用遙感影像的光譜和形狀特征,可以避免基于像元分類方法導致的“椒鹽”現象,從而具有更高的提取精度[16-17]。但面向對象方法需要人為確定分類規(guī)則,對于邊界模糊情況復雜的不透水面,提取結果很大程度上取決于分類規(guī)則的準確性,受人主觀因素影響較大[18]。
將人工智能深度學習應用于遙感圖像信息提取逐漸成為一種技術趨勢[19-21]。深度學習技術,作為一個新的框架,能夠將不同層次的特征抽象化并進行更加有效的特征提取與擬合,故其在多波段遙感影像信息提取問題上具有較強的適用性[22]。近年來,國內外學者進行了相關研究,如Zhang等[23]利用ResNet構建神經網絡,加入一種面向對象的導向濾波機制,實現了較好的遙感建筑物提取效果;Xu等[24]提出了一種遙感影像城市建筑物提取Res-U-Net網絡模型,其在數據預處理階段使用邊緣增強,并引進導向濾波,優(yōu)化了分類結果并去除了“椒鹽”類噪聲,獲得較高的提取精度;Ronneberger等[25]運用全卷積神經網絡,加入全局和局部注意力機制,解決了遙感圖像道路提取中復雜道路結構和同譜異物的問題;Isikdogan 等[26]通過構建了全卷積神經網絡并改良其跳躍層結構,實現了對遙感影像中陸地、水、冰雪、云、陰影的分類。
深度學習可從大量訓練數據中自動學習特征,無須人工手動操作[27],在遙感數據的自動化應用中具有一定優(yōu)勢。然而利用一般的卷積神經網絡會因無法兼顧圖像淺層特征而難以提取到細節(jié)信息[28],但高分辨率遙感影像中存在許多細小的、不規(guī)則的不透水面。為了解決上述問題,增強對細小不透水面提取能力,同時防止特征冗余,本文提出基于局部注意力機制的密集連接全卷積神經網絡模型,用以解決提取高分辨率遙感影像不透水面時遇到的難以提取細小特征、精度較差、泛化性差等問題。
文中所使用的深度學習語義分割模型整體架構如圖1所示。該網絡主要由編碼-解碼結構、局部注意力機制、密集連接全卷積神經網絡構成。其中,編碼-解碼結構廣泛應用于深度學習語義分割方面[29-33];編碼網絡主要應用于提取輸入數據的多尺度特征;解碼網絡的目的是恢復特征圖的空間分辨率并使用這些特征圖提取目標對象[28]。添加局部注意力機制的深度學習模型可以在遙感影像中進行像素級的提取[34]。由于其結構的特殊性,使得金字塔池化層可以從不同比例的特征圖中提取信息,這種設計方法有助于增加感受野[35-36]和模型特征表達[37],進而提高模型理解能力[38]。全卷積神經網絡(fully convolutional neural network,FCN)是含有多個隱藏層的深度學習模型,是在感知器、反向傳播(back propagation,BP)神經網絡基礎上發(fā)展起來的[39]。與傳統(tǒng)的卷積神經網絡相比,它用卷積層代替全連接層,首先通過反卷積對最后一個卷積層輸出的特征圖進行上采樣,恢復到與原始影像相同的大小,然后對每個像素產生概率預測,在反卷積特征圖上比較每個類別的概率,最后逐像素進行分類[40]。全卷積神經網絡有效利用圖像底層特征來加強深層特征提取,從而提高網絡效率和識別精度[41]?;谌矸e神經網絡的遙感圖像信息提取模型已經成為當前遙感圖像深度學習信息提取的主流方法[42-46]。
圖1 局部注意力密集連接的全卷積神經網絡
與常規(guī)的全卷積神經網絡相比,密集連接全卷積神經網絡結構主要是在全卷積神經網絡中加入密集連接塊(dense block)[47]。它通過密集連接的方式使每個前面層的自身特征疊加映射傳遞給所有后續(xù)層,獲取組合特征。其表達如式(1)所示。
XL=Hl([X0,X1,…,XL-1])
(1)
式中:XL是L層的輸出特征圖;[X0,X1,…,XL-1]是L層所有前面層的特征映射的拼接。對于一個L層網絡,密集連接塊共有L(L+1)/2個連接,增強了層與層特征間的關聯(lián)性。密集連接塊與密集連接塊之間加入轉換層(transition layer)使模型更加緊湊,減少過渡層的特征圖數量。密集連接全卷積神經網絡緩解了梯度消失的問題,加強了特征傳播、大大減少了參數的數量,具有強大的特征提取及復用能力[48]。
本文深度學習模型包括編碼和解碼器2部分結構,在編碼和解碼器中包括10個密集連接塊和26個卷積層。其具體步驟如下。
1)256×256×4的影像在進入第一個密集連接塊前,用一個步長為2,卷積核大小為7×7的卷積層來生成128×128×16的初始特征圖。
2)初始特征圖進入密集連接塊1中,之后進入包含一個1×1的卷積層,1個防止過擬合的drop_out層和1個2×2的均值池化層的轉換層。
3)在特征圖連續(xù)進入5個密集連接塊和4個轉換層后,從密集連接塊5中輸出,使用3×3的反卷積層(transposed_convolutions)對輸出的特征圖進行上采樣。
4)特征圖在反卷積層上采樣后,與密集連接塊4加入局部注意力機制,連接輸入密集連接塊6中。
5)在特征圖連續(xù)進入5個反卷積層和密集連接塊后,利用softmax分類器的卷積層來輸出最終預測,最終輸出256×256×2的特征圖。
國產高分二號衛(wèi)星是我國自主研發(fā)的亞米級高分辨率遙感衛(wèi)星,其全色影像分辨率達1 m,多光譜影像分辨率達4 m。首先對高分數據進行預處理,去除影像中的干擾信息;然后將多光譜影像與全色影像融合;最后再利用預處理后的高分數據進行不透水面提取。
本文模型樣本數據為天津地區(qū)2019年4月15日高分二號遙感影像,其不透水面二值圖像由目視解譯獲得并與原始影像位置嚴格配準。之后將原始影像與其對應的不透水面二值圖像按照256×256的尺寸隨機裁剪生成影像子圖(子圖間存在重疊區(qū)域)。生成子圖共計15 000幅,其中將12 000幅影像子圖作為訓練集,3 000幅影像子圖作為測試集。樣本示例如圖2所示。
圖2 深度學習遙感影像不透水面樣本示例
1)模型訓練精度。訓練精度反映了模型對訓練樣本的特征擬合程度和模型的泛化能力。本文采用的是softmax loss損失函數(損失主要評估模型的預測值與真實值的偏差程度,損失越小,表示模型的擬合效果越好)。其計算如式(2)所示。
(2)
式中:N為輸出神經元個數;l對應的目標輸出,即類別標簽pi為第i個神經元經在softmax loss層后輸出的概率。
2)提取精度。本文從像元精度(pixel accuracy,PA)、均交并比(mean intersection over union,MIoU)、綜合評價指標F1和Kappa系數4個指標對提取的不透水面進行精度評價。
像元精度是一種計算預測值與真實值匹配像元占比的評價指標,其值表示預測正確的像元數量占總像元數的比例,值越大表示預測值與真實值的像元匹配程度越高,精度越高。其計算如式(3)所示。
(3)
式中:k每行每列的最大值;i、j為行、列號;Pii是正確提取的像元數量;Pij為錯誤提取的像元數量。
均交并比為語義分割的標準度量方法,其主要描述真實值與預測值之間的交集平均值。其計算如式(4)所示。
(4)
式中:K是提取類別數目;i、j為行、列號;pii代表匹配像素的數量;pij和pji表示錯誤劃分的像元數量。
綜合評價指標是衡量二分類模型精度的一種指標,它同時兼顧了分類模型的精確度和召回率。精確度(precision)指被檢測出來的信息當中正確的或者相關的信息所占的比例;召回率(recall)指的是所有正確的信息或者相關的信息被檢測出來的比例。其計算如式(5)至式(7)所示。
(5)
(6)
(7)
式中:tp表示正確提取的像元個數;fn表示漏提的像元個數;fp表示錯誤提取的像元個數。
Kappa系數表示提取結果和真實值之間的吻合程度,是檢驗二者之間一致性的客觀評價標準。其計算如式(8)所示。
(8)
式中:p0和pe分別代表每一類正確和錯誤提取的樣本數量之和除以總樣本數量。
本研究分別利用本文方法、決策樹分類法、支持向量機法和隨機森林算法對測試影像進行不透水面的提取。
決策樹分類法提取不透水面是根據影像中透水面與不透水面的光譜值特征差異,通過選取透水面和不透水面的感興趣區(qū)域自動生成決策樹規(guī)則,從而將分類規(guī)則逐級細分實現不透水面的提取。支持向量機法是一種建立在統(tǒng)計學習理論基礎上的機器學習方法,在解決小樣本、非線性和高維識別問題中具有獨特的優(yōu)勢,且實現簡單、運算效率高。隨機森林算法是通過集成學習的思想將多棵樹集成的一種算法,其輸出類別是由個別決策樹輸出的類別的眾樹決定的。在應用方面,隨機森林具有非常簡單,易于實現,計算開銷小,在分類與回歸方面具有驚人的性能等優(yōu)點。
本文方法與決策樹、支持向量機和隨機森林算法對高分辨率遙感影像不透水面的提取結果如圖3、圖4、圖5所示。其中,圖3為測試圖像整體對比圖,圖4為圖3中A區(qū)域的細節(jié)對比圖,圖5為圖3中B區(qū)域細節(jié)對比圖。
圖3 測試數據中不同方法不透水面提取結果比較
圖4 區(qū)域A不透水面提取結果對比圖
圖5 區(qū)域B不透水面提取結果對比圖
如圖3所示,從整體上分析,與其他3種方法相比較,本文方法識別效果更好。雖然其他3種算法也可將不透水面提取出來,但它們對細小不透水面產生較多的誤分。從空間細節(jié)上分析,決策樹分類算法與隨機森林法提取體育場及其周邊廣場結果破碎化較為嚴重,噪點較多,支持向量機對于廣場區(qū)域有明顯的漏分(圖4)。本文方法提取結果與地表真值符合程度更高。以高層建筑為例(圖5),決策樹分類算法與支持向量機法受到了高層建筑陰影的影響,提取結果有不同程度的漏分或誤分,隨機森林法盡管將高層建筑陰影區(qū)分了出來,但其受到高層建筑陰影邊界影響,對邊界產生了明顯的誤分。雖然本文方法也出現了漏分情況,但是掩膜圖像識別結果完整性較高??傮w而言,相比于傳統(tǒng)方法,本文方法在不透水面提取結果上具有更好的表現性。
本文分別從像元精度PA、均交并比MIoU、綜合評價指標F1和Kappa系數4個指標對4種方法的提取結果進行精度評價。從表1可知,與3種傳統(tǒng)方法相比,本文方法精度最好,像元精度PA、均交并比MIoU、綜合評價指標F1和Kappa系數分別為0.883 2、0.736 4、0.848 2和0.753 3。支持向量機的表現最差,像元精度PA、均交并比MIoU、綜合評價指標F1和Kappa系數分別為0.763 4、0.552 1、0.711 4、0.511 6。綜上所述,雖然4種方法均可提取出不透水面區(qū)域,但本文方法在像元精度、均交并比、綜合評價指標和Kappa系數4種評價指標上精度較高,更加適用于不透水面的提取。
表1 4種方法不透水面提取結果精度表
為驗證本文方法的泛化能力,選取了分辨率為2 m未參與訓練的合肥地區(qū)GF-6影像數據進行泛化性驗證,并將本文方法提取后生成的掩膜圖與決策樹分類法、支持向量機法、隨機森林算法的提取結果進行比較(圖6),并對提取結果進行精度評價(表2)。
由圖6可以看出,雖然本文方法在GF-6影像上的不透水面提取存在漏分誤分現象,但相比其他3種方法,本文方法對于掩膜圖像識別結果完整性較高,具有更好的表現性。由表2可知,相比于其他3種方法,本文方法精度最好,其像元精度PA、均交并比MIoU、綜合評價指標F1、Kappa系數分別為0.836 4、0.692 8、0.818 6、0.670 1,表明本文方法在GF-6影像上也具備較好的泛化性。
圖6 GF-6影像不同方法不透水面提取結果
表2 GF-6不透水面提取結果精度表
針對傳統(tǒng)方法對高分辨率遙感影像提取不透水面所固有的提取精度低、泛化性差等問題,本文提出了基于改進全卷積神經網絡的高分辨率遙感影像不透水面提取方法,其主要工作如下。
1)在網絡構建方面。提出基于局部注意力機制的密集連接全卷積神經網絡模型;引入局部注意力機制及密集連接結構,加強了模型對細小不透水面的敏感程度。
2)在精度評價比較方面。本文方法的提取結果的像元精度(PA)、均交并比(MIoU)、綜合評價指標F1和Kappa系數分別為0.883 2、0.736 4、0.848 2和0.753 3,優(yōu)于其他3類方法,在不透水面提取上具有較高的精度。
3)在泛化性方面。本文方法相比其他3種方法對GF-6影像不透水面提取仍表現出較好的效果,具有較強的泛化能力。
4)本文方法易受高層建筑陰影、“同譜異質”工廠的影響而導致不透水面提取精度降低。在后續(xù)的研究中,將增加樣本的數量與多樣性,加大模型增量學習,以期進一步提高模型精度。