錢 瑞, 徐偉恒, 黃邵東, 王雷光, 3, 4, 魯 寧, 歐光龍
1. 西南林業(yè)大學林學院, 云南 昆明 650233
2. 西南林業(yè)大學大數(shù)據(jù)與智能工程學院, 云南 昆明 650233
3. 西南林業(yè)大學大數(shù)據(jù)與智能工程研究院, 云南 昆明 650233
4. 西南林業(yè)大學生態(tài)大數(shù)據(jù)國家林業(yè)與草原局重點實驗室, 云南 昆明 650233
近年來, 隨著茶園不斷擴張, 導致森林面積減少。 造成水土流失、 生物多樣性減少及森林破碎化嚴重等負面影響[1-2]。 因此, 準確掌握茶園空間分布情況極其重要。 遙感技術具有宏觀、 實時、 快速、 監(jiān)測范圍廣以及持續(xù)動態(tài)監(jiān)測等優(yōu)勢, 已經(jīng)廣泛用于茶園監(jiān)測[3]。 如李龍偉等[1]利用Sentinel-2影像的紅邊與短波紅外波段構建歸一化茶園指數(shù)(normalized difference tea index, NDTI)和決策樹(decision tree, DT)提取茶園, 其制圖精度(producer’s accuracy, PA)達到92.28%, 用戶精度(user’s accuracy, UA)為95.67%。 Xu等[4]利用支持向量機(support vector machine, SVM)結合地形、 植被指數(shù)及雷達數(shù)據(jù)提取了西雙版納勐??h的茶園, 其PA和UA分別達到了90.83%和91.67%。 黃邵東等[5]基于高分一號(GF-1)結合紋理和空間特征采用面向?qū)ο?object-oriented, OO)分類方法進行茶園提取, 基于OO的RF茶園提取的PA為70.54%、 UA為87.13%。 熊皓麗等[6]基于GEE平臺使用Sentinel-1、 Sentinel-2結合光譜特征、 地形特征、 紋理特征利用支持向量機遞歸特征消除(support vector machine-recursive feature elimination, SVM-RFE)算法篩選特征, 結果表明利用SVM-RFE可以篩選出有利于茶園提取的特征集, 其茶園提取PA為91.64%、 UA為92.91%。 綜上所述, 以往利用遙感技術對茶園提取的數(shù)據(jù)源主要基于中高空間分辨率遙感影像。 相較于Landsat-8、 Sentinel-2等光學數(shù)據(jù)以及Sentinel-1、 PALSAR等雷達數(shù)據(jù), 高光譜影像具有空間分辨率高、 譜段數(shù)目多、 光譜連續(xù)、 信息量大等特點, 極大的增強了遙感對地物的鑒別能力和觀斥能力[3, 7-8]。 因此, 以負載豐富高光譜信息的GF-5遙感影像更容易捕捉地物類別之間細微的光譜差異。
GF-5號在提取水體、 土壤、 植被方面也有較為廣泛的應用[9-11]。 Chen等[12]采用GF-5號影像結合Sentinel-1A數(shù)據(jù)基于LPPSubFus的特征級圖像融合方法, 提取光譜指數(shù)和紋理特征等因子進行茶園提取, 實驗證明LPPSubFus整合高光譜和SRA數(shù)據(jù)用于茶園制圖具有一定潛力。 GF-5影像在光譜細節(jié)的檢測能力已經(jīng)在地物類型的分類和提取中有所表現(xiàn)。 如任廣波等[10]基于GF-5影像在黃河三角洲濱海濕地開展互花米草的分類, 發(fā)現(xiàn)在不同數(shù)據(jù)中SVM均能到達較好的分類效果, 總體精度(overall accuracy, OA)達到94.23%, Kappa系數(shù)0.93。 此外, Zheng等[13]基于GF-5高光譜數(shù)據(jù)對東北地區(qū)森林分類, 利用卷積神經(jīng)網(wǎng)絡(convolutional neural network, CNN)結合SVM構建基于CNN-SVM融合的高光譜森林分類模型, 其森林分類OA為88.67%, Kappa系數(shù)0.84。 然而, 目前基于GF-5號影像利用隨機森林(random forest, RF)對茶園高精度提取研究還處于探索階段。
RF具有運算速率快、 分類精度高、 穩(wěn)定性強、 處理多維數(shù)據(jù)能力強等特點, 被廣泛用于地表覆蓋分類及植被識別等領域。 如宗影等[14]基于OO結合RF進行濱海濕地植被分類研究, 結果表明特征選擇(feature selection, FS)后結合RF算法OA達到87.07%, Kappa系數(shù)0.84。 呂杰等[15]利用RF結合紋理特征識別森林類型, 在SVM、 最小距離分類(minimum distance classification, MDC)和RF三種分類器中, RF算法具有最好分類效果(OA: 81.01%, Kappa: 0.76)。 楊迎港等[16]基于GF-2影像結合RF算法進行土地利用類型分類, 結果表明, 基于RF算法的OA達到93.44%, Kappa系數(shù)0.93。 張磊等[17]利用Sentinel-2數(shù)據(jù)及RF進行黃河三角洲的植被提取, 其OA到達90.93%, Kappa系數(shù)0.90。 可見, 相較于其他分類算法, RF在土地利用類型識別領域應用較為廣泛且精度較高。
本研究利用單景GF-5號影像進行茶園提取, 利用原始波段作為光譜特征(spectral feature, SF), 參考前人研究構建適用于GF-5號影像山區(qū)茶園提取的植被指數(shù)特征(vegetation index feature, VIF)以及結合數(shù)字高程模型(digital elevation model, DEM)的地形特征(TRF)進行特征組合形成12種分類方案, 并對比不同分類方案下茶園的提取精度, 最終確定最優(yōu)分類方案, 為基于GF-5 AHSI衛(wèi)星數(shù)據(jù)的山區(qū)茶園分布制圖和資源監(jiān)測提供技術支撐。
如圖1所示, 研究區(qū)位于云南省普洱市南部, 分布著大面積山區(qū)茶園, 面積約為36 hm2。 研究區(qū)四季差異不明顯, 氣候溫和, 屬于亞熱帶高原性季風氣候。 年平均氣溫為18 ℃, 年降水量為1 414~1 800 mm, 海拔為753~2 283 m。 該研究區(qū)日照充足, 雨量充沛, 土壤以赤紅壤為主, 土層深厚, 較適宜茶葉生長[18]。
1.2.1 GF-5數(shù)據(jù)源介紹
為了更好的區(qū)分茶園與其他地物, 本文選擇單景GF-5號影像作為數(shù)據(jù)源。 已有學者提出茶園具有人為修剪的物候期, 而本文選擇GF-5遙感數(shù)據(jù)時間正好是修剪后處于萌發(fā)階段, 這個階段茶園與其他地物存在一定的區(qū)分性, 因此選擇成像時間為2020年3月11日的GF-5遙感影像作為本研究的數(shù)據(jù)源, 數(shù)據(jù)來源于自然資源部國土衛(wèi)星遙感應用中心, 其詳細參數(shù)見表1。 影像包括可見光及近紅外波段150個, 短波紅外波段180個, 空間分辨率為30 m。 利用ENVI 5.3 SP1軟件對GF-5號影像進行輻射定標、 大氣校正及正射校正等預處理。 此外, 從GEE平臺合成并下載一景經(jīng)預處理后覆蓋研究區(qū)無云Landsat-8影像, 以Landsat-8影像為基準在ArcGIS上對GF-5影像進行絕對配準。 由于傳感器不同探元間存在響應差異, GF-5影像存在水汽吸收波段和受到噪音影響波段[19-20], 如390~398、 933~954、 1 122~1 156、 1 333~1 502、 1 797~1 965、 1 999~2 015、 2 369~2 513 nm波長范圍; 對于可見光及近紅外波段(1 006~1 028 nm)和短波紅外波段(1 004~1 029 nm)之間的光譜重疊, 為保留準確的光譜信息, 去除短波紅外波長范圍, 保留可見光波長范圍, 移除波段見表2[19]。
表1 GF-5影像信息表
表2 GF-5衛(wèi)星高光譜數(shù)據(jù)移除波段
1.2.2 DEM數(shù)據(jù)介紹
前人研究表明, DEM作為輔助數(shù)據(jù)可提高茶園提取精度。 熊皓麗等[6]研究表明地形特征對提取茶園有較好的輔助作用。 Xu等[4]利用光譜特征及海拔因子(900~2 400 m)對云南三大茶葉主產(chǎn)區(qū)的茶園分布進行提取的效果較好。 而本研究區(qū)正好位于云南三大茶葉主產(chǎn)區(qū)內(nèi), 因此基于GEE平臺調(diào)用了空間分辨率為30 m的DEM數(shù)據(jù)(SRTMGL1: Global 1 arc second Voo3)[21], 并將其海拔、 坡度、 地形等因子作為特征因子, 參與對茶園提取和分布制圖。
實地調(diào)查了研究區(qū)內(nèi)的主要地物類型并拍照、 定位, 調(diào)查路線詳見圖1。 根據(jù)實地調(diào)查的情況, 在GEE平臺上對5類地物(茶園、 森林、 農(nóng)田、 不透水層和水體)進行自視解譯, 并勾繪了茶園樣本1 130個、 森林樣本690個、 農(nóng)田樣本735個、 不透水層樣本330個以及水體樣本194個, 共3 079個樣本。 然后隨機劃分各類樣本為訓練樣本和驗證樣本, 分別用于分類器的訓練和精度驗證[22], 為保證訓練和測試樣本數(shù)量的均衡性, 隨機劃分各類地物的30%作為訓練樣本, 70%作為驗證樣本。
利用GF-5影像的SF、 VIF及TRF, 結合RF分類器進行茶園提取。 首先, 繪制茶園、 森林、 農(nóng)田在原始波段上的光譜反射率曲線圖, 基于三類地物反射率區(qū)分明顯且為反射峰和吸收谷的波段構建新的光譜指數(shù), 結合原始波段特征和地形特征構建初始分類特征空間, 應用RF對6種初始分類特征方案進行特征重要性排序, 將特征重要性按從大到小逐個依次輸入RF分類器進行茶園提取, 隨著特征的不斷輸入茶園F1-Score達到穩(wěn)定不再明顯上升時的特征維度則為最終分類特征空間, 其PA和UA即為最優(yōu)分類特征下的茶園提取精度。 然后將特征優(yōu)化前的6種初始分類方案特征輸入RF進行茶園提取, 并通過混淆矩陣對RF算法下12種分類方案進行茶園提取精度評價。
2.1.1 光譜分析
結合野外調(diào)查和基于GEE平臺勾繪的各地類樣本繪制典型地類的光譜反射率曲線, 分析各種地物的光譜差異, 為地物類型的可分性波段選擇提供依據(jù)[23-24]。 統(tǒng)計了茶園、 森林、 農(nóng)田的波段均值并繪制出三種地物類型的光譜特征曲線圖, 如圖2所示。 茶園與農(nóng)田、 森林的光譜值在400~700、 1 974~1 990、 2 024~2 361 nm波長范圍區(qū)分比較明顯; 在800~1 029、 1 038~1 325、 1 511~1 788 nm波長范圍茶園與森林、 農(nóng)田之間的光譜值可分度較明顯。 因此, 選擇上述可分波段范圍內(nèi)的反射峰及吸收谷波段結合斜率及歸一化函數(shù)構建茶園指數(shù)(tea plantation indices, TPIs)。
圖2 三種地物的光譜反射率
所選波谷波長值分別為550、 668和2 083 nm, 波峰波長值分別為1 080、 1 266、 1 249和2 327 nm, 如圖2所示。 基于峰谷之間的斜率構建的指數(shù)為TPI1—TPI3, TPI4則是根據(jù)505、 1 080和2 083 nm所對應的光譜反射率構建的三角形面積指數(shù)[12]。 TPI5—TPI9指數(shù)則是仿照NDVI指數(shù)[25]基于植被反射和植被吸收波段進行歸一化構建。 植被指數(shù)特征構建公式見表3。 除了基于峰、 谷構建的9維植被指數(shù)外, 另外參考前人研究構建了36維植被指數(shù), 詳見文獻[26], 因此, 共構建了45維VIF特征, 見表4。
表3 植被指數(shù)特征構建表
表4 特征因子表
2.1.2 特征集構建
為了比較不同特征集茶園提取精度, 本研究構建了三種特征集, SF 250維、 VIF 45維以及TRF 3維共298維初始分類特征, 如表4所示。
2.1.3 隨機森林分類
RF是Leo Breiman提出的具有迭代特性, 以決策樹為基礎分類器的一種集成學習方法[27]。 構建RF的基本過程為: ①通過boot-strap方式從訓練樣本中有放回的隨機的抽取樣本, 假定訓練樣本集中共有M個樣本, 每個樣本都具有N個特征, 每次都有放回的抽M個樣本, 那其中某個未被抽中樣本的概率則為(1-1/M)M, 當M很大時, 這個值趨近于1/e≈1/3, 即表征為抽取時大約1/3的樣本未被抽到, 這部分樣本就被稱為帶外數(shù)據(jù)(out of bag, OBB); ②然后對M個樣本進行訓練得到?jīng)Q策樹模型, 在決策樹的各個節(jié)點處隨機選擇n(n 2.1.4 特征優(yōu)選方法 針對高維特征空間, 為了評估各個特征對茶園提取的重要性, 優(yōu)化特征組合, 最終選擇RF算法進行特征重要性評價[22]。 基于GEE平臺利用RF算法結合訓練樣本計算各個特征對茶園提取的重要性。 以RF算法作為分類器, 按照特征重要性由高到低依次增加特征, 觀察茶園提取F1-Score的變化, 隨著特征維數(shù)的增加F1-Score上升不明顯甚至開始下降時所參與分類的特征維度為最佳分類特征空間, 此時的茶園提取PA和UA即為FS后各方案茶園提取最優(yōu)精度。 2.1.5 分類方案 為了分析光譜、 植被指數(shù)及地形特征在茶園識別中的效果, 按照SF、 VIF及TRF構建12種分類方案, 見表5。 方案1—6為初始方案, 方案7—12為特征優(yōu)化后方案, 其中單一特征因子分類為方案1, 2, 7, 8, 多特征組合分別為方案3, 4, 5, 6, 9, 10, 11, 12, 由于地形特征僅有三維, 因此不單獨列為分類方案。 表5 分類方案 針對方案1—6共6種方案進行FS后分別得到方案7—12(見圖3), 可見不同特征組合進行特征優(yōu)選直到F1-Score達到穩(wěn)定且不再明顯上升的特征維度存在差異其中維度最低的是方案11(SF+TRF+FS), 維度為18維; 維度最高的是方案10(SF+VIF+FS), 維度為32維。 但不論何種優(yōu)選方案, F1-Score均較高且差距不大, 在0.84~0.87之間。 圖3 分類特征優(yōu)選及特征重要性排序 12種方案茶園提取精度見表6, 可見不同方案茶園提取精度差異不明顯, PA浮動在0.87~0.91之間, UA浮動在0.79~0.84之間, 即不論是SF、 VIF以及TRF三種特征單獨分類還是組合分類, 有較少的茶園樣本錯分到其他地類中, 而其他地類樣本則會較多被誤分為茶園。 針對茶園提取精度, 不同方案在PA和UA上表現(xiàn)不一致, 故此, 引進F1-Score調(diào)和PA和UA, 以確定12種方案中針對茶園提取的最佳方案。 從F1角度看, 方案9(VIF+TRF+FS)和方案12(VIF+SF+TRF+FS)茶園提取精度最高, PA、 UA、 F1-Score分別為(90.41%, 83.43%, 0.87; 90.86%, 84.09%, 0.87), 兩種方案中TRF全部被選中, 因為茶園生長對海拔等地形因子具有一定要求, 云南省茶園分布主要為900~2 400 m之間[4]。 另外, 在SF參與的4種分類方案(方案7, 10, 11, 12)中, b150被選中3次, b4, b5, b6, b27, b133, b281均被選中2次, 上述選中波段均位于茶園明顯區(qū)別與森林與農(nóng)田的光譜范疇內(nèi); 在VIF(方案8, 9, 10, 12)參與的4種分類方案中, REP、 VOG2、 SR2、 SR3、 WBI、 TPI3、 TPI9均被選中4次, 證明紅邊相關指數(shù)在對于茶園同其他地類區(qū)分時起到重要作用。 此外, 相較于6種初始分類方案, 經(jīng)過FS之后的6種分類方案茶園提取精度, F1-Score均高于對應初始分類方案的F1-Score, 可見對高維特征進行FS, 既可避免“維數(shù)災難”, 減少計算量的同時又可提高茶園的識別精度。 表6 基于隨機森林不同方案茶園提取精度表 選取分類精度最高的分類結果進行展示。 基于RF算法結合方案12(SF+VIF+TRF+FS)的分類結果見圖4(a)。 由于不透水層及水體易于識別, 因此本文特征篩選時并未篩選不透水層和水體區(qū)別于茶園的光譜特征, 但是識別結果顯示, 茶園、 不透水層和水體都能較好的區(qū)分開。 而茶園主要集中于研究區(qū)的西南部, 主要分布于倚象鎮(zhèn)營盤山一帶, 這與實際調(diào)查情況相符。 此外, 選取三塊茶園連片分布區(qū)域放大進行識別結果展示, 圖4(a)中區(qū)域1、 2、 3的識別細節(jié)分別見圖4(b—d); 以基于91衛(wèi)圖下載谷歌影像為底圖, ArcGIS將茶園識別結果疊加在底圖之上, 并將茶園識別結果圖層以綠色表示并設置60%透明度, 可見茶園識別效果顯著。 圖4 隨機森林茶園提取分類結果(光譜特征+植被指數(shù)特征+地形特征+特征優(yōu)選) 利用GF-5影像光譜信息豐富、 數(shù)據(jù)連續(xù)性強的特征, 提出一種適合于GF-5號影像山區(qū)茶園的提取方法。 僅用單景GF-5影像, 利用茶園同其他2類地物光譜差異明顯且具有反射峰和吸收谷波段結合歸一化函數(shù)及峰谷斜率構建相關光譜指數(shù)。 聯(lián)合GF-5原始波段、 光譜指數(shù)及數(shù)字高程模型(DEM)等信息構建復雜山區(qū)地形下的茶園提取方法。 利用隨機森林(RF)進行各類特征及特征組合的重要性排序, 按照特征重要性從大到小依次將特征輸入RF分類器進行茶園提取, 隨著特征的不斷輸入茶園的F1-Score達到飽和不再明顯增加時的特征維度即為最優(yōu)分類特征。 最終確定12種分類方案, 再結合RF分類算法進行茶園提取, 12種方案茶園提取的PA和UA分別高于87%和79%。 FS后6種分類方案中, SF參與分類的4種方案中被選中2次的波段為b4、 b5、 b6、 b27、 b133、 b150和b281; 在VIF參與分類的4種方案中被選中4次的指數(shù)分別為REP、 VOG2、 SR2、 SR3、 WBI、 TIP3和TIP9; TRF參與分類的4種方案中坡度、 坡向、 高程均被選中。 證明了SF、 VIF、 TRF以及三種特征的組合結合RF能夠滿足復雜地形下山區(qū)茶園的高精度提取, 且高維特征在經(jīng)過FS后降低了運算量的同時進一步提高茶園提取的精度。 盡管本研究能夠?qū)崿F(xiàn)復雜地形下山區(qū)茶園的高精度提取, 但是仍然存在一些不足之處, 首先所使用的分類特征僅考慮光譜特征, 而忽略紋理等因素, 根據(jù)徐偉恒等研究, 茶園具有明顯的“人為修剪”物候[28], 本研究在影像選擇上尚未考慮這一點。 為提高茶園提取精度, 后期嘗試結合光譜+紋理+地形特征進行茶園提取; 此外, 結合茶園自然生長狀態(tài)的萌芽期、 茂盛期、 修剪期等物候生長差異, 選擇最佳時相的遙感影像進行茶園提取具有很大潛力。 此實驗中茶園提取僅使用單景高光譜影像, 未來將考慮使用高光譜結合高空間分辨率時間序列影像完成大范圍的茶園提取。 但是如何克服傳感器差異將異源數(shù)據(jù)進行融合, 結合多類型特征, 選擇合適的分類方法, 將其應用于大范圍山區(qū)茶園的提取有待進一步探索。3 結果與討論
3.1 特征優(yōu)選分析
3.2 不同分類方案茶園提取精度對比分析
3.3 分類結果
4 結 論