徐世武,張詩,曾玨,劉秀珍
(1.中國地質(zhì)大學(武漢),武漢 430078;2.中國國土勘測規(guī)劃院,北京 100035)
土地資源利用狀況直接關系到政府決策和經(jīng)濟民生[1]。為了摸清生產(chǎn)能力家底,國家組織了第三次全國國土調(diào)查[2],其原則是基層負責調(diào)查,上級負責核查,逐級匯總,核查工作量巨大。傳統(tǒng)的人工核查模式存在客觀性不足,效率較低的問題。隨著技術的全面進步,DCNN(deep convolutional neural networks)在遙感智能解譯方面取得豐碩成果,利用DCNN進行高分辨率影像土地利用/土地覆蓋類型核查是大勢所趨[3-6]。第三次全國國土調(diào)查工作分類非常細致,農(nóng)村地區(qū)使用0.8 m衛(wèi)星影像,城鎮(zhèn)地區(qū)使用0.2 m航拍影像。目前各種已有的土地利用樣本集在支持的類型和空間分辨率等方面與新一輪國土調(diào)查需求存在差距,土地利用圖斑形狀與矩形感受野不套合也是限制DCNN類型判定精度提高的因素之一。本文提出一套基于高分辨率影像的DCNN土地利用圖斑類型核查方法。一方面,使用掩膜降低感受野背景噪聲,提升DCNN的學習效率,增強語義的準確獲取能力;另一方面,通過圖斑土地利用類型與對應高分辨率影像語義的符合性檢查,實現(xiàn)圖斑的有效核查。
遙感解譯廣泛采用DCNN技術提高識別精度和效率,合適的樣本集是確保精度的關鍵。目前高分辨率影像分類廣泛使用的數(shù)據(jù)集有:UCM[7]、WHU-RS19[8]、AID[9]、RSD46-WHU[10]以及以國產(chǎn)影像為數(shù)據(jù)源的GID[11]。UCM遙感影像數(shù)據(jù)集的場景分為農(nóng)業(yè)區(qū)、森林、房屋、河流和立交橋等21種類別,每類包含100張圖片,空間分辨率為0.3 m。整體結構簡潔清晰,廣泛應用在土地利用/土地覆蓋研究領域,但很少運用于我國的相關生產(chǎn)實踐。究其原因,其數(shù)據(jù)來源于美國地理調(diào)查局(United States Geological Survey,USGS)數(shù)據(jù),與第三次國土調(diào)查廣泛使用的高分二號(GF-2)0.8 m影像特征有較大差異,分類體系不匹配。WHU-RS19數(shù)據(jù)集可用于場景分類和檢索,場景類型分為農(nóng)田、森林、草地、住宅區(qū)和工業(yè)區(qū)等19個類別,每類50張。RSD46-WHU樣本類型數(shù)量擴充到46類,每類樣本500~3 000張,空間分辨率為0.5~2 m,樣本集按照區(qū)片場景進行類型設計,農(nóng)村地區(qū)基本滿足第三次國土調(diào)查土地利用分類要求,如:農(nóng)田、森林和草地等,城鎮(zhèn)地區(qū)存在差距,新一輪國土調(diào)查要求按建筑用途細分場景。UCM與WHU系列的樣本形狀采用與神經(jīng)網(wǎng)絡矩形感受野一致的方式,便于訓練模型充分學習樣本的顏色和紋理特征,未顧及場景邊界形狀特征。GID(Gaofen image dataset)采用掩膜裁切構建樣本集,樣本具有場景類型的形狀特征,數(shù)據(jù)來自中國60多個城市的150幅高質(zhì)量GF-2影像,覆蓋的地理區(qū)域超過5×104km2,是一個用于土地利用/土地覆蓋分類的大型數(shù)據(jù)集,場景分為農(nóng)田、森林、草地、建筑、水域和其他六種類別,空間分辨率1~4 m。GID樣本采用掩膜標簽,能夠支持多種尺度的模型訓練,但是樣本類型較少,與國土調(diào)查分類需求差距較大。目前的土地利用分類數(shù)據(jù)集存在兩方面問題:一方面,樣本集類型架構過于簡單,普遍采用“類型-圖像”兩層“端到端”結構,缺乏可擴展的多層類型語義設計,導致分類體系與樣本集類型架構存在兼容性問題,不利于土地利用類型發(fā)展的調(diào)整和擴充,以及對其他資源型調(diào)查(如:林業(yè)資源、水資源、生態(tài)環(huán)境資源等)的支持;另一方面,樣本集設計未充分考慮形狀特征對土地利用場景描述的支撐作用。
高分辨率影像土地利用圖斑的特征復雜性涉及兩方面:一是圖斑土地利用場景類型結構復雜,通常包含多種簡單場景,例如科教文衛(wèi)用地(包括平整草地、人工林地和教學樓等);二是圖斑邊界復雜,隨著空間分辨率升高,土地利用場景細節(jié)豐富,邊界趨于復雜。近年來國內(nèi)外學者基于DCNN進行高分辨率土地利用類型圖斑分類研究取得顯著成就。王國志等[12]提出一種基于路徑的數(shù)學形態(tài)學去噪方法,在保留道路原有特征的同時,濾除絕大部分的干擾信息,降低高分辨率影像的噪聲,但所用的Gabor濾波在提取道路線段時,受背景噪聲影響,精度降低。Zhang等[13-14]通過均勻分解方法將大型影像均勻地分割成固定大小的處理單元來進行土地利用分類,該方法雖會生成具有塊狀特征的土地利用圖,但無法進行自適應分割。Huang等[15]提出一種半遷移深度卷積神經(jīng)網(wǎng)絡(semi-transfer deep convolutional neural network,STDCNN)方法處理多光譜數(shù)據(jù),利用DCNN支持高級語義解析的特點來提高土地利用類型圖斑的判定精度。文中采用骨架線法,將一個高分辨率影像土地利用圖斑裁切為N(N≥1)個與樣本圖片等規(guī)格的處理單元,再進行STDCNN識別,提高土地利用類型圖斑的分類精度。其碎片化的方法降低了圖斑邊界與DCNN矩形感受野不套合產(chǎn)生的背景噪聲,取得比常規(guī)土地利用分類方法更優(yōu)的結果,但沿圖斑邊界的矩形處理單元依然夾雜著相鄰圖斑的影像特征(背景噪聲),且碎片化處理后,整體圖斑邊界的形狀特征無法參與圖斑土地利用類型判定,影響分類精度。
綜上所述,針對土地利用類型結構復雜問題,本文構建一套低噪聲高分辨率影像語義樣本集(low-noise high-resolution image semantic dataset,LNSD),增強DCNN的語義獲取能力,支持土地利用類型的語義符合性檢查;針對圖斑邊界復雜問題,通過動態(tài)掩膜濾除背景噪聲,提高不規(guī)則形狀的高分辨率影像圖斑土地利用類型核查精度。
高分辨率影像土地利用圖斑通常可以解析為一組簡單場景(影像特征單元塊)構成的復雜場景,直接使用土地利用類型“端到端”模式標記復雜場景圖斑作為樣本較為困難,地物場景組合非常龐雜,類型樣本標記量巨大,且類型間影像特征差異會弱化,不利于后續(xù)DCNN訓練與識別。本文在樣本集“端到端”架構的基礎上,插入中間層-語義進行“橋接”,影像端通過所見即所得的“語義”與簡單場景一一對應,建立樣本集,具體如圖1(a)所示,類型端通過語義邏輯組合表達樣本集土地利用類型,方便拓展與符合性檢查。DCNN矩形感受野與土地利用圖斑復雜邊界形狀不套合產(chǎn)生背景噪聲,噪聲影響大小由套合程度決定,采用掩膜多級裁剪的方式得到場景影像塊,利用掩膜遮罩去除背景噪聲,然后DCNN逐個語義標記簡單場景,最后通過語義組合結合空間權重判定土地利用類型,具體如圖1(b)所示。
圖1 高分辨率影像DCNN土地利用圖斑類型核查流程圖
LNSD樣本集依據(jù)《第三次全國國土調(diào)查工作分類》和所見即所得的語義準則進行構建。首先,設計語義樣本集的架構體系;然后,掩膜細化分割土地利用圖斑樣本,逐個標記樣本語義;之后,預處理統(tǒng)一樣本尺寸和色調(diào)空間,采用多種方法豐富樣本特征;最后,形成三層架構的LNSD樣本集。
選用第三次國土調(diào)查普遍使用的GF-2影像,空間分辨率0.8 m,與土地利用圖斑調(diào)查邊界套合,形成粗選樣本集。選取湖北省具有地形特色的潛江市、武漢市江夏區(qū)、宜昌市夷陵區(qū)、麻城市四個地區(qū)的三調(diào)數(shù)據(jù),覆蓋山地、高原、丘陵、平原和盆地五種地形地貌區(qū)域,讓樣本數(shù)據(jù)集具有普適性、易于推廣。
潛江市位于湖北省腹地,全市范圍皆為平原地形,境內(nèi)無山,多湖,多平原耕地。江夏區(qū)為武漢市南部片區(qū),屬于平原向丘陵過渡地形,境內(nèi)多山、多湖,山體的海拔大部分在100 m以下,最高峰不到300 m。夷陵區(qū)位于宜昌市北部,屬于典型的山地和丘陵地形,地勢西北高,東南低,東南一面緊靠江漢平原,地面高程差超過1 000 m,主要地貌為山脈。麻城市地處江漢平原東部,兼具山地、丘陵和平原地形。
語義規(guī)劃的目的是設計一套“類型/語義/影像”土地利用類型三層判定體系,確保語義樣本集內(nèi)部具有良好的可分性。類型/語義層的邏輯組合支持土地利用類型靈活可擴展能力,語義/影像層的所見即所得特征歸集,增大語義間內(nèi)涵差異,縮小語義內(nèi)特征差異,提高語義識別精度,從而增強土地利用類型判定的魯棒性,如圖2所示。
圖2 影像語義規(guī)劃
根據(jù)有無覆蓋物的分類準則將語義規(guī)劃劃分成兩個初級語義,在Ⅰ級語義中,“無覆蓋地表”用“裸土”進行代指,“有覆蓋地表”則根據(jù)覆蓋物屬性劃分成三個語義;在Ⅱ級語義中,將Ⅰ級語義類在0.8 m分辨率影像場景的尺度下進行語義劃分;在Ⅲ級語義中,根據(jù)顏色、形狀、紋理等特征對Ⅱ級語義類的具體場景進一步劃分。經(jīng)過多次語義解析,本文構建了一個三級影像語義體系。
細化調(diào)查是指根據(jù)影像和實地調(diào)查結果,對農(nóng)村、城市、建制鎮(zhèn)和村莊內(nèi)部等進行土地利用現(xiàn)狀細化調(diào)查內(nèi)容整理,了解每塊圖斑的地類、位置、范圍、面積等利用狀況。采用人工掩膜裁切場景的方法制作樣本圖片,利用三調(diào)土地利用現(xiàn)狀數(shù)據(jù)中的調(diào)查圖斑影像邊界外接矩形范圍,對預定邊界內(nèi)部的影像進行細化調(diào)查,將復雜場景化簡為一組簡單場景,減少樣本噪聲以及場景歧義的影響,最后按照語義框架,標記篩選細化調(diào)查后的影像塊,形成一套類內(nèi)間距小,類間間距大的語義圖斑集。
規(guī)范場景影像尺寸,提高模型訓練精度和速度[16],對語義圖斑集采用各向同性縮放方法[17],并在樣本中采用取土地利用圖斑集中的像素值中位數(shù)的方法獲得尺寸的大小,將圖斑統(tǒng)一到512像素×512像素。之后,采用目前主流神經(jīng)網(wǎng)絡支持的三波段直方圖均衡化的方法[18]對遙感影像塊進行非線性拉伸,將遙感影像像素值拉伸到[0,255],最終得到能夠被高效提取特征的精細樣本集。
樣本增強處理可以增加樣本量,提高模型的準確率,減輕過擬合現(xiàn)象。遙感影像是天頂視角,為了不改變地物特征,同時保持空間結構,增加類內(nèi)豐富度[19],采用旋轉(zhuǎn)和鏡像翻轉(zhuǎn)的方式進行增強。為了獲取更加豐富的特征,采用重采樣的方法將樣本空間分辨率采樣到1.6 m。經(jīng)過樣本增強的每個影像都是一個新影像,可以給模型提供更有辨別力,更具泛化性的樣本特征。最終得到包含30個類別,每類樣本6 000張,共18萬張的LNSD樣本集。圖3展示部分語義的樣本示例。
圖3 部分語義的樣本示例圖
土地利用圖斑影像通常屬于簡單場景組合而成的復雜場景。首先,根據(jù)土地利用調(diào)查邊界對影像進行裁剪;然后,將影像圖斑動態(tài)掩膜精細分割形成特征單元塊(簡單場景),逐個語義標記形成核查影像圖斑的語義組,利用多語義聯(lián)合空間權重判定土地利用類型;最后,與人工調(diào)查類型比對給出核查結論。
使用土地利用圖斑調(diào)查邊界裁剪高分辨率影像,獲得圖斑人工調(diào)查類型對應的影像塊,濾除圖斑邊界外的背景噪聲。一方面,提高識別精度,屏蔽背景影像對圖斑判定的影響,尤其是“空洞形狀”的圖斑,內(nèi)部非圖斑影像濾除后能更加突出主體圖斑影像特征;另一方面,提高識別速度,有助于減小后續(xù)圖斑動態(tài)掩膜精細分割的總體計算量。
土地利用影像圖斑包含多種簡單場景的復雜場景。為了得到簡單場景,本文采用導向濾波結合均值漂移[20]對圖斑影像進行精細分割,得到若干特征單元塊,并進行分組歸類。導向濾波對邊緣保留和噪聲降低具有魯棒性,邊緣保留讓特征單元塊之間視覺差異明顯,且差異邊界曲線光滑,便于后續(xù)的漫水分割,降噪讓單元內(nèi)部特征更加均一,減少單元內(nèi)特征差距,使影像圖斑具有更好的可分性,特征單元塊的形成優(yōu)化了簡單場景的外廓形狀和視覺特征,與樣本產(chǎn)生的環(huán)境更加接近,提高語義識別精度。
高分辨率影像圖斑土地利用類型核查模型選用Inception-v4作為遷移學習模型,跳躍連接節(jié)點,加快訓練速度[21],采用卷積和池化并行的結構,減少參數(shù)數(shù)量和計算量,在進行數(shù)據(jù)訓練和特征提取時,內(nèi)存占用和計算資源消耗上對普通硬件設備更加友好。利用本文構建的LNSD樣本集對Inception-v4模型進行訓練,建立土地利用細化分類核查知識庫,為后續(xù)簡單場景語義標記打下堅實基礎。
首先用Inception-v4模型計算特征單元塊在多語義空間中的概率,語義概率按降序排列,取前三大語義做概率線性規(guī)劃調(diào)整,使單元塊的語義聚集。假設特征單元塊概率最大的三個語義為A、B、C,對應概率為PA、PB、PC,其語義概率調(diào)整如式(1)所示。
(1)
單元塊的標記準則是用最大概率值所對應的語義標記,且其概率值與次大語義概率之差≥閾值α(α缺省為0.2),否則語義標記為UNKNOW,且設定概率值為0,調(diào)整閾值α,得到不同精度(P)與召回率(R),繪制PR曲線圖,根據(jù)不同的應用目的取舍精度與召回率的平衡,選擇不同的α。然后,同一語義的所有特征單元塊,逐塊用本塊標記語義概率與本塊面積相乘,并累加求和得到圖斑內(nèi)該語義含量。最后,按圖斑內(nèi)語義含量降序排列語義,取含量最多的三個語義標記圖斑影像,描述圖斑影像特征。
土地利用圖斑影像依據(jù)語義標記和語義含量,按照土地利用類型語義映射表進行判定,語義映射表中“and”表示土地利用類型中必須出現(xiàn)的語義,“or”表示類型中可能出現(xiàn)的語義,“not”表示類型中禁止出現(xiàn)的語義。語義含量不同會影響類別判定,判定過程按語義含量由高至低依次進行,綜合判定土地利用類型。最后,將判定結果與人工標記的土地利用類別信息進行比較,如果類別相同,則核查判定正確,結果通過,如果不同,則進行人工檢查,合格即為通過,不合格則人工歸到應屬類別中。表1展示部分語義映射土地利用類別的邏輯關系。
表1 部分語義映射土地利用類別的邏輯關系
為了驗證LNSD樣本集的有效性,樣本隨機組合檢測三層架構對30種土地利用類型的支持能力,獲得樣本集各種低噪聲語義樣本的解析精度。為了驗證高分辨率影像圖斑土地利用類型判定方法的分類能力,在LNSD樣本集的支持下,利用高分辨率影像圖斑土地利用分類方法實驗獲取圖斑動態(tài)細化及語義空間權重組合進行土地利用類型判定效果,以及獲取一些重要運行參數(shù)。
實驗的硬件條件是在兩個Intel Xeon Scalable Silver 4210 CPU,共20個計算物理核心,40個線程,2.2 GHz,最大睿頻頻率3.2 GHz和64 GB(4×16 GB)內(nèi)存的臺式機上進行。神經(jīng)網(wǎng)絡在深度學習平臺選用Tensorflow-GPU1.15.0框架訓練,實驗分析基于Python 3.6.4完成。
在樣本隨機組合檢測實驗中,流程如圖4所示。將每類6 000張的LNSD樣本集作為實驗數(shù)據(jù)以8∶2的比例分為兩部分,每類隨機4 800張加入訓練數(shù)據(jù)集,訓練Inception-v4模型,每類余下的1 200張加入測試數(shù)據(jù)集,利用訓練后的Inception-v4模型對測試集進行語義判定,得到樣本解析精度。在測試集中隨機挑選三張不同語義的樣本,隨機賦予語義次序,最后利用多語義土地利用類型判定規(guī)則判定土地利用類型。
圖4 樣本隨機組合檢測實驗
在驗證高分辨率影像圖斑土地利用類型判定方法的實驗中,將LNSD樣本集全部用于Inception-v4模型訓練,對廣水市的核查圖斑影像進行核查,自動獲得機器判讀的土地利用類型,將機器判讀結果與標記結果比較,輸出實驗結果。在實驗中,不斷調(diào)整閾值α,改變土地利用分類核查的總體精度和召回率,繪制PR曲線,通過分析PR曲線找到精度與召回率綜合最優(yōu)的實驗數(shù)據(jù)點,獲取圖斑語義解析組合的最佳閾值α。
本文使用混淆矩陣[22]評價樣本隨機組合檢測實驗中的語義精度,用精度、召回率、方差評價樣本隨機組合檢測實驗中的土地利用分類精度,用PR曲線[23]、F1值、精度和召回率[24]評價高分辨率影像圖斑影像土地利用類型判定方法。其中F1取值范圍從0到1,數(shù)值越大表明結果越理想。
圖5是使用訓練后的Inception-v4模型判定語義得到的混淆矩陣圖。對于單個語義來說,每種語義的精度和召回率都達到90%以上,說明本文提出使用土地利用圖斑調(diào)查邊界裁剪的方法可以有效地濾除背景噪聲,使主體更加突出,低噪聲特性魯棒的支持語義樣本的高精度解析。其中具有特征單一的語義可分性較高,例如普通道路、山體、豐水坑塘等具有較高的識別精度;但還有一些語義本身會因為具有相似紋理特征引起語義的混淆,如陡坡耕地與梯狀園地、大棚與光伏用地,導致識別精度下降,可以進一步增加樣本,或者細分語義提高精度。
圖5 混淆矩陣
表2顯示在樣本隨機組合實驗中獲得的樣本解析精度分析??傮w精度和召回率為94.6%和94.68%,最大精度和召回率為97%和100%,最小精度和召回率為90%和87.04%,精度方差為0.013 3,召回率方差為0.032 1,獲得高精度、高召回率和低方差的實驗結果,表明LNSD樣本集訓練出來的Inception-v4模型有較強的穩(wěn)定性。
表2 樣本解析精度分析
圖6顯示利用多語義土地利用判定規(guī)則隨機抽取三種不同語義及隨機賦予語義次序的土地利用分類結果,總體的精度為94.27%和94.12%,略低于語義的總體精度和召回率。實驗結果表明,樣本集三層架構能夠有效判定土地利用類型,通過邏輯組合端到端結合多語義組合判定可以支持多種語義組合成的未知土地利用類型,有良好的類型擴展和遷移能力。
圖6 樣本隨機組合的土地利用分類結果
圖7顯示在廣水市的核查圖斑影像上,通過調(diào)整閾值α,繪制相同樣本條件下語義判定的PR曲線圖。通過比較PR曲線的平緩程度,在準確率和召回率93.65%和93.96%的時候,獲得精度與召回率綜合最優(yōu),此時閾值α是0.2,F(xiàn)1值為0.94。因此選擇0.2為圖斑語義解析組合的最佳閾值。
圖7 不同閾值下的PR曲線圖
圖8顯示在閾值α為0.2的情況下廣水市圖斑核查結果。為了方便數(shù)據(jù)比較,本文將這些土地利用類型歸結為耕地、園地、林地、建筑、交通、水域六大類土地利用類型。綜合來看,總體判定精確率為93.57%,召回率為93.54%,每種地類都在90%以上,語義空間權重組合能夠高精度地判定土地利用類型,證明提出語義組合判定的有效性,具有很高的泛化能力。其中園地的實驗結果出現(xiàn)異常,經(jīng)過數(shù)據(jù)比對和影像分析,發(fā)現(xiàn)原因是部分園地為耕地種植園木的情況,即該類圖斑在影像上的整體表現(xiàn)與耕地相似,但是紋理上又具有不明顯的細條紋特征,因此自動判定過程將該類圖斑較多地誤判成耕地,導致耕地精度和園地召回率下降,說明樣本集中此類別的樣本還不夠豐富。
圖8 土地利用現(xiàn)狀數(shù)據(jù)核查結果
本文提出一套基于高分辨率影像的DCNN土地利用圖斑類型核查方法,構建了一套三層架構(類型/語義/影像)的土地利用類型語義樣本集。首先,通過掩膜降低感受野背景噪聲,高精度獲取圖斑的影像語義;然后,根據(jù)類型與語義之間的邏輯一致性進行圖斑土地利用類型與圖斑影像語義的符合性檢查,克服高分辨率影像“類內(nèi)差別大,類間差別小”帶來的土地利用分類瓶頸,解決了直接依據(jù)影像的分類結果來進行核查引起誤差較大的問題;最終,實現(xiàn)更準確的土地利用類型核查。實驗表明:掩膜方法可以有效提高圖斑土地利用語義的識別精度,具有較好的魯棒性;LNSD樣本集類別語義體系設計合理有效,場景特征豐富,且具有很強的擴充能力,可支持包括土地利用類型的多種深度學習遙感解譯,并且在國土調(diào)查自動核查工作中得到成功應用。
隨著各類大型資源調(diào)查工作常態(tài)化開展,將來的研究需要進一步拓展完善語義體系,增強低噪聲樣本的多尺度特征,提高樣本集的適應能力和可推廣性。同時,高分辨率遙感影像土地利用圖斑類型的分類方法也需要從支持RGB三通道延展到支持高分辨率多光譜影像。