馬海榮,馮天晶,戢 銳
(1.湖北省農(nóng)業(yè)科學(xué)院農(nóng)業(yè)經(jīng)濟技術(shù)研究所,武漢 430064;2.中國地質(zhì)大學(xué)(武漢)地理與信息工程學(xué)院,武漢 430074;3.文華學(xué)院,武漢 430074)
深度學(xué)習(xí)方法因其不需要人工參與就可以通過對大量訓(xùn)練樣本自主學(xué)習(xí)來提取圖像中的地物特征而被廣泛應(yīng)用于圖像處理與分析領(lǐng)域。全卷積神經(jīng)網(wǎng)絡(luò)(FCN)[1]是首個可以實現(xiàn)對圖像進行逐像素分類預(yù)測的深度學(xué)習(xí)網(wǎng)絡(luò),被廣泛應(yīng)用于目標(biāo)分割[2]、目標(biāo)檢測[3-5]、目標(biāo)分類[6,7]等圖像處理領(lǐng)域。例如:Lee[8]等首次將FCN 應(yīng)用于高光譜圖像分類;Ronneberger 等[9]基于FCN 模型提出U-Net 模型,將上下文的特征進行融合,實現(xiàn)密集像素分類;邰建豪[10]提出基于深度學(xué)習(xí)框架的FCN 分類方法,并選取ZY-3、Worldview2 和Google Earth 三組高分辨率遙感影像進行分類實;Ksenia 等[11]與Schuegraf 等[12]提出多通道融合的FCN4s 模型,并將該方法應(yīng)用于基于DSM 與高分遙感影像的建筑物提取。
基于FCN 進行遙感影像語義分割的學(xué)習(xí)時首先對遙感影像進行下采樣獲取特征圖,然后基于上采樣獲取與輸入圖像同樣大小的預(yù)測結(jié)果圖。上、下采樣的圖像處理過程會造成部分信息的丟失,特別是地物邊緣細節(jié)信息的丟失,最終嚴(yán)重影響分類或分割結(jié)果。本研究提出一種將FCN 網(wǎng)絡(luò)與面向?qū)ο蠹夹g(shù)優(yōu)勢互補的高分遙感影像土地覆蓋分類方法。該方法將面向?qū)ο蠓指瞰@取的地理單元可以有效保持地物邊緣細節(jié)信息,以及FCN 深度學(xué)習(xí)模型不需要人工參與就可以通過對大量訓(xùn)練樣本自主學(xué)習(xí)完成對遙感影像語義分割的優(yōu)勢相結(jié)合,提高高分遙感影像土地覆蓋分類的精度。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是目前最成熟、應(yīng)用最廣泛的深度學(xué)習(xí)框架,但基于CNN 進行圖像分類,只能輸入固定大小的圖像,且CNN 只能實現(xiàn)對整幅圖像所屬類別的判斷,無法完成對圖像逐像素的密集預(yù)測。隨著計算機視覺領(lǐng)域的發(fā)展,這種對圖像整體一對一的預(yù)測已經(jīng)無法滿足應(yīng)用需求,更多的應(yīng)用需要對輸入圖像的每個像素都進行類別預(yù)測,即圖像密集分類?;贑NN 提出的FCN 解決了圖像密集預(yù)測的需求。FCN 利用全卷積層代替了CNN中的全連接層,可以處理任意大小的圖像,基于反卷積技術(shù)對深度訓(xùn)練獲取的特征圖進行上采樣處理,獲取和待分類圖像大小一致的分類結(jié)果圖。FCN 深度學(xué)習(xí)模型主要由輸入層、卷積層、池化層、全卷積層和輸出層組成(圖1)。
圖1 FCN 遙感影像地物提取模型
FCN 區(qū)別于CNN 的3 個優(yōu)點為:全卷積化、上采樣和跳躍連接結(jié)構(gòu)。全卷積化將CNN 模型中輸出的一維特征向量轉(zhuǎn)換為二維特征矩陣,解決CNN 中空間特征丟失問題,且將全連接層換成卷積層后,F(xiàn)CN 可以處理任意大小圖像。上采樣優(yōu)化了CNN 中池化操作造成特征分辨率降低的問題,保證最終預(yù)測結(jié)果圖像和輸入圖像的大小一致性。跳躍連接結(jié)構(gòu)將FCN 在不同層級的獲取特征圖融合,保留了更多的邊緣細節(jié)特征,進一步提高了分割結(jié)果的精度。
FCN 也存在以下缺陷:①網(wǎng)絡(luò)整體規(guī)模過大,需要將待處理圖像分割成較小的單元處理;②由于上、下采樣的機制,導(dǎo)致FCN 分割結(jié)果不夠精細,容易丟失地物的邊緣細節(jié)信息。為提高FCN 對圖像的分割精度,就需要對FCN 模型進行優(yōu)化改進或?qū)CN 獲取的初始分類結(jié)果進行優(yōu)化。
經(jīng)典FCN8s 模型是為了處理多媒體圖像而提出,多媒體圖像中目標(biāo)個體較少且容易分離。與多媒體圖像不同,遙感影像空間分辨率高,地物對象復(fù)雜并且有混合像元的存在,導(dǎo)致直接將經(jīng)典FCN 模型應(yīng)用于遙感影像分類或目標(biāo)提取效果不佳。本研究構(gòu)建了一個FCN4s模型(圖2)進行影像分類,F(xiàn)CN4s在一定程度上可以保留更詳細的地物細節(jié)。
圖2 FCN4s模型
本研究探索如何充分挖掘高分辨率遙感影像蘊含的地物特征以及構(gòu)建相對簡單有效的深度學(xué)習(xí)模型,并利用基于最優(yōu)尺度下面向?qū)ο蟮姆指罱Y(jié)果優(yōu)化FCN 的初始分類結(jié)果,提高土地覆蓋分類結(jié)果中不同地物的邊界準(zhǔn)確性和減少孔洞噪聲的影響。方法的具體技術(shù)流程如圖3 所示,基于面向?qū)ο蠓指罱Y(jié)果優(yōu)化FCN 初始分類結(jié)果的高分遙感影像土地覆蓋分類的具體研究步驟如下:
圖3 基于FCN 與面向?qū)ο蟮母叻诌b感影像土地覆蓋分類技術(shù)流程
1)收集研究區(qū)高分遙感影像數(shù)據(jù)、現(xiàn)存土地利用分類數(shù)據(jù)及其他輔助數(shù)據(jù),并對所收集的數(shù)據(jù)進行預(yù)處理;基于現(xiàn)存土地利用數(shù)據(jù)進行遙感影像人機交互目視解譯,獲取與影像獲取時間一致的土地覆蓋類型的標(biāo)簽數(shù)據(jù)。
2)基于文獻[13]的方法,對研究區(qū)的高分遙感影像進行最優(yōu)尺度的面向?qū)ο蠓指?,獲取能夠充分保存不同地物邊緣細節(jié)信息的分割對象數(shù)據(jù),作為優(yōu)化FCN 初始分類結(jié)果的輔助數(shù)據(jù)。
3)對研究區(qū)的高分遙感影像與相應(yīng)的土地覆蓋類型標(biāo)簽數(shù)據(jù)進行裁剪,分別制作用于深度學(xué)習(xí)模型訓(xùn)練和分類的訓(xùn)練樣本集和測試樣本集。
4)利用訓(xùn)練樣本數(shù)據(jù)進行FCN4s分類模型的訓(xùn)練建模,并基于訓(xùn)練好的FCN4s 模型對測試樣本數(shù)據(jù)進行分類,獲取測試區(qū)土地覆蓋類型的初始分類結(jié)果。
5)利用最優(yōu)尺度的面向?qū)ο蠓指罱Y(jié)果,對基于FCN 獲取的土地覆蓋類型初始分類結(jié)果進行優(yōu)化處理,得到最終的土地覆蓋分類結(jié)果。
研究區(qū)位于湖北省武漢市江夏區(qū)西南部,整個研究區(qū)地勢平坦,總面積105.5 km2,地形以平原為主。本研究所用的高分遙感影像為2018年6月獲取的高景1 號衛(wèi)星影像,該影像包含1 個0.5 m 分辨率的全色波段和4 個2 m 分辨率的多光譜波段。根據(jù)研究區(qū)的高分辨率遙感影像數(shù)據(jù)和現(xiàn)存的土地利用數(shù)據(jù),基于人機交互目視解譯和實地調(diào)查的結(jié)果,獲取與高分遙感影像獲取時間一致的土地覆蓋類型分布。圖4 為研究區(qū)遙感影像與土地覆蓋類型分布,研究區(qū)耕地占比最大,面積46.71 km2,其次為河流水體,面積22.81 km2。建筑多沿道路或河流聚集性分布,面積2.77 km2。道路和灌排渠道整個研究區(qū)分布均勻,面積分別為2.03 km2與1.91 km2,但由于樹陰遮蔽以及影像分辨率影響,道路和灌排渠道存在斷裂與不連續(xù)現(xiàn)象。農(nóng)業(yè)大棚在研究區(qū)廣泛分布,面積為3.78 km2,林草地和其他地類分布無一定規(guī)律,面積分別為11.09 km2和14.40 km2。
將圖4 中紅色范圍線內(nèi)區(qū)域作為試驗測試區(qū)(測試區(qū)面積11.09 km2,因深度學(xué)習(xí)網(wǎng)絡(luò)可以處理的圖像大小有限,需要對影像進行一定尺寸的裁剪,裁剪時剔除不夠設(shè)定尺寸的邊緣,裁剪后測試區(qū)面積10.58 km2),將研究區(qū)除去測試區(qū)以外區(qū)域的影像數(shù)據(jù)用來構(gòu)造訓(xùn)練樣本集。測試區(qū)耕地、河流水體、建筑、道路、灌排溝渠、大棚、林草地和其他地類的匯總面積分別為5.21、1.18、0.31、0.16、0.28、0.80、1.25 和1.39 km2。
圖4 研究區(qū)遙感影像與土地覆蓋類型分布
FCN 的預(yù)測結(jié)果是對多個下采樣后的特征圖進行上采樣直接產(chǎn)生,上、下采樣導(dǎo)致特征圖太過稀疏,造成基于FCN 的直接分割結(jié)果不夠精細,缺乏細節(jié)信息。面向?qū)ο笥跋穹治龇梢跃C合考察各像素與其鄰域像素的光譜、空間特性,以具有光譜、空間同質(zhì)性的多個像元(即對象)作為基本處理單元進行影像分析,可以較好地保持地物的邊緣特征信息。因此,基于面向?qū)ο蟮姆指罱Y(jié)果進行FCN 初始分割結(jié)果的優(yōu)化,可以有效保持地物的細節(jié)信息。
面向?qū)ο蠓指罱Y(jié)果的質(zhì)量直接影響分類結(jié)果,而分割尺度的選擇對分割結(jié)果影響最大,最優(yōu)尺度下的面向?qū)ο蠓指罱Y(jié)果應(yīng)該與目標(biāo)地物大小基本一致、輪廓相當(dāng),多邊形相對完整,地物邊界清晰,同類地物對象同質(zhì)性好,不同地物類別對象間的異質(zhì)性差異大。最優(yōu)分割尺度選擇方法也由最開始的經(jīng)驗選擇法,發(fā)展到目前基于模型計算和評判指標(biāo)選擇的理論選擇法。對測試區(qū)影像基于文獻[13]提出的基于場景復(fù)雜度的最優(yōu)尺度面向影像分割方法進行面向?qū)ο蠓指?,分割結(jié)果見圖5。從圖5 可知,獲取的對象具有較好的完整性,基本可以保持原始地物的光譜、紋理、幾何和拓撲關(guān)系等特征。4 個放大的圓分別展示對不同類型地物(林地、裸地、房屋、道路、水體、耕地等)的分割結(jié)果,分割所得對象基本可以保持原始地物良好的幾何形態(tài)和邊緣信息。
圖5 測試區(qū)遙感影像與面向?qū)ο蠓指罱Y(jié)果
基于最優(yōu)尺度面向?qū)ο蠓指罱Y(jié)果優(yōu)化FCN 初始分類結(jié)果的方法如下:將在最優(yōu)分割尺度下獲取的面向?qū)ο蠓指罱Y(jié)果與基于FCN 獲取的初始分類結(jié)果進行疊加,統(tǒng)計落在每個面向?qū)ο螳@取的分割單元內(nèi)基于FCN 獲取的分類結(jié)果中不同地物類別的面積,面積最大的那個地物類別判定為該對象單元的最終分類結(jié)果。該優(yōu)化操作可以將基于FCN獲取的基于像素的語義分割結(jié)果轉(zhuǎn)化為基于對象的分類結(jié)果。
本研究基于Caffe 深度學(xué)習(xí)框架構(gòu)建了全卷積神經(jīng)網(wǎng)絡(luò)語義分割模型。試驗環(huán)境的軟硬件設(shè)備具體配置及型號分別見表1 和表2。
表1 硬件配置及型號
表2 軟件版本及型號
為滿足基于深度學(xué)習(xí)模型對高分遙感影像土地覆蓋類型進行精細分類的需求,根據(jù)研究區(qū)土地利用狀況制作深度學(xué)習(xí)數(shù)據(jù)集。由于深度學(xué)習(xí)模型網(wǎng)絡(luò)層數(shù)比淺層機器學(xué)習(xí)模型多且復(fù)雜,對圖像樣本數(shù)據(jù)的處理能力有限,因此無法對任務(wù)區(qū)的整張影像進行完整的一次性處理。試驗數(shù)據(jù)準(zhǔn)備時基于ArcGIS 軟件標(biāo)注了與遙感影像對應(yīng)的土地覆蓋類型標(biāo)簽圖像,并對預(yù)處理后遙感影像以及標(biāo)簽圖像分別進行128 像素×128 像素的裁剪,構(gòu)建了深度學(xué)習(xí)訓(xùn)練和測試樣本數(shù)據(jù)集。分割后訓(xùn)練區(qū)包含23 013幅圖像,測試區(qū)包含2 565 幅圖像。
對于所有隨機初始化的層以學(xué)習(xí)率λ=0.01 開始網(wǎng)絡(luò)訓(xùn)練,對于使用預(yù)先訓(xùn)練的模型初始化的層采用λ=0.001,每20 000 次迭代將它們減少10 倍。總迭代次數(shù)被設(shè)置為60 000,批處理大小為5。質(zhì)量衰減η和動量因子分別設(shè)置為η=0.005 和m=0.9。所有參數(shù)都是在驗證數(shù)據(jù)集上的訓(xùn)練過程中獲得的。在訓(xùn)練過程中,在將樣本輸入網(wǎng)絡(luò)前,對樣本進行隨機變換。
本研究選擇整體分類精度(OA)、生產(chǎn)者精度(PA)、使用者精度(UA)和Kappa系數(shù)4個評價指標(biāo)定量評價深度學(xué)習(xí)模型對測試區(qū)數(shù)據(jù)的分類精度。
基于FCN 網(wǎng)絡(luò)模型對測試區(qū)影像數(shù)據(jù)進行土地覆蓋分類的初始分類結(jié)果見圖6。初始分類結(jié)果是基于像素的分割結(jié)果,其易存在椒鹽現(xiàn)象和丟失地物邊界細節(jié)信息,影響分類的效果和精度。由圖6 可知,基于FCN4s 的初始分類結(jié)果中存在較多孔洞噪聲,即不同類別的分類結(jié)果圖斑參雜被錯誤地分類成其他類別的小面積圖斑,對土地覆蓋分類制圖的目視效果一般。
圖6 基于FCN4s的土地覆蓋類型初始分類結(jié)果
初始分類結(jié)果的OA 為84.81%,Kappa 系數(shù)為0.781 7。圖7 為針對不同類型的地物基于FCN4s 網(wǎng)絡(luò)模型分類結(jié)果的PA 與UA 值。FCN4s 對不同地物的分類性能不同,分類性能較好的地物類型有耕地、水體、林草地,這3 種地類所的PA 和UA 均較高;對于道路和灌排渠道的分類性能最差,PA 僅為50%。
本研究利用面向?qū)ο蠓指罱Y(jié)果優(yōu)化FCN4s的初始分類結(jié)果,對測試區(qū)基于FCN4s 獲取的初始分類結(jié)果進行優(yōu)化,優(yōu)化后的分類結(jié)果見圖8。由圖8 可知,優(yōu)化后的分類結(jié)果在目視效果上明顯優(yōu)于基于FCN4s 的初始分類結(jié)果,少了很多孔洞噪聲,不同地類圖斑相對純凈。優(yōu)化后分類結(jié)果的OA為87.11%,Kappa 系數(shù)為0.813 4,與基于FCN4s 的初始分類結(jié)果相比OA 提高2.3 個百分點。
圖9 為優(yōu)化分類結(jié)果的PA 與UA 值,分別對比圖6 和圖8 及圖7 和圖9 可知,優(yōu)化后土地覆蓋類型的分類性能整體有所提高。大部分地物類型的PA和UA 均有所提高,例如大棚、渠道、水體和耕地;部分地物類型的PA 有所提高,UA 稍有下降,例如建筑和道路;對于林草地這一地物類型,優(yōu)化前后分類結(jié)果的精度稍有降低,但變化很??;對于其他地物類型,PA 和UA 均有所降低,是因為其他地物類別中包括多種地物類型,分類不確定性較大。
圖7 基于FCN4s的土地覆蓋類型分類精度
圖8 基于面向?qū)ο髢?yōu)化FCN4s后土地覆蓋類型的分類結(jié)果
圖9 基于面向?qū)ο髢?yōu)化FCN4s后土地覆蓋類型的最終分類精度
提出一種基于面向?qū)ο蠓指罱Y(jié)果優(yōu)化經(jīng)典FCN模型初始分類結(jié)果的高分遙感影像分類方法。其優(yōu)勢在于利用最優(yōu)尺度的面向?qū)ο蠓指罱Y(jié)果優(yōu)化基于FCN 獲取的高分遙感影像初始分類結(jié)果,可以有效彌補基于FCN模型進行高分遙感影像語義分割時上、下采樣造成的地物邊緣細節(jié)信息丟失的問題,優(yōu)化高分遙感影像分類結(jié)果的視覺效果和提高分類精度。