修曉敏,周淑芳,陳 黔,蒙繼華,董文全,楊廣斌,李曉松
(1. 貴州師范大學地理與環(huán)境科學學院,貴州 貴陽 550025; 2. 中國科學院遙感與數字地球研究所數字地球重點實驗室,北京 100094; 3. 二十一世紀空間技術應用股份有限公司,北京 100096)
草地是全球陸地生態(tài)系統(tǒng)的重要組成部分,2014年全球草地面積約為3.1×109hm2,覆蓋約25.49%的陸地面積[1]。草地不僅是牲畜最主要的飼料來源,也在調節(jié)全球碳循環(huán)和氣候變化中發(fā)揮著重要的作用[2-6],其質量的好壞程度直接關系到整個社會的糧食安全與生態(tài)安全[7]。開展大區(qū)域草地生物量的估算,可為區(qū)域草地資源利用管理、草地生態(tài)效益評估及碳循環(huán)研究提供重要支撐,具有非常重要的意義[8-9]。
傳統(tǒng)草地生物量估算主要以地面調查為主,由于其耗時費力、資金投入大及破壞性強等缺點[10],很難在大尺度上開展。衛(wèi)星遙感技術以其宏觀性、多時相性、多波段性和綜合性等特點[11],克服了地面調查方法的不足,為大區(qū)域的草地生物量估算提供了有效手段,并得到了廣泛應用[12-19]。當前,草地地上生物量估算的方法是使用已有的樣地數據,并以遙感數據為驅動,將遙感參數或各種植被指數和生物量數據進行回歸分析,以此建立復雜、高效、強健的估算模型,此類方法是公認的估算區(qū)域尺度植被生物量的有效方法。從生長模型角度出發(fā),其較為復雜,并且對輸入的生理化數據需求高(如葉面積指數、植物形態(tài)特征等),很難滿足精細尺度監(jiān)測的需求;而從統(tǒng)計模型角度出發(fā),其操作相對簡單,但是需要有足夠的樣本支撐。已有的草地地上生物量估算的研究集中在區(qū)域尺度上,大區(qū)域研究主要以低分辨率為主,針對南方相對破碎的草地并不適合。
Google Earth Engine(GEE)云計算引擎是一個專門處理衛(wèi)星圖像和其他地球觀測數據云端運算的平臺。目前,國內外已經有專家學者陸續(xù)借助該平臺開展土地覆蓋分類算法[20]、農作物分類[21]、產量估產[22-23]、水體及森林變化動態(tài)監(jiān)測[24-25]、城市蔓延[26]及人口制圖[27]等科學研究。然而,利用GEE平臺結合地面實測樣本進行大區(qū)域草地地上生物量遙感估算的研究尚未見公開發(fā)表。
本文以整個安徽省草地為試驗區(qū),在GEE平臺的支撐下,通過機器學習建立Landsat 8 OLI及其他輔助數據與地面實測草地地上生物量之間的聯系,開展草地零散分布地區(qū)省級尺度地上生物量高分辨率估算,并與傳統(tǒng)的回歸模型進行對比,為大尺度草地零散分布區(qū)地上生物量高分辨率遙感估算提供參考。
安徽省地處我國東部,長江、淮河中下游,114°54′E—119°37′E、29°41′N—34°38′N之間,總土地面積為1401萬hm2,草地面積為94.41萬hm2,覆蓋約6.74%的國土面積(如圖1所示)。安徽省草地資源豐富,但分布較為零散,多集中在安徽省北部及中部沿江平原一帶,中部巢湖周圍最為集中,而在海拔較高且坡度較陡的皖南和皖西丘陵山地則較少,總體上草地地上生物量主要在100~2100 g/m2之間。
野外實地調查集中在2017年8—9月間,共布設1200個樣地。由于實際情況的限制,在安徽省共采集592個有效的草地樣地(如圖1所示)。地面樣本在每塊樣地設置9個1 m×1 m的樣方,使其均勻分布在樣地中。記錄樣地所在行政區(qū)、經緯度、地表現狀、利用方式及強度等指標。樣方內的地上草地齊地面刈割,稱其鮮重,然后送至實驗室烘至恒重,冷卻后稱干重,根據覆蓋度指標換算出樣地草地地上生物量。
本文使用Google Earth Engine平臺上提供的30 m空間分辨率的Landsat 8地表反射率產品(GEE ID:LANDSAT/LC08/C01/T1_SR)。為降低南方地區(qū)云霧等影響,影像時間范圍選取為2017年6—9月,共篩選Landsat 8影像67景。利用GEE提供的QualityMosaic()函數實現最大NDVI值合成一期無云且代表植被最好生長狀態(tài)的地表反射率影像。
除了地表反射率外,本文還計算了歸一化植被指數(NDVI)、大氣阻抗植被指數(ARVI)、插值植被指數(DVI)和比值植被指數(RVI)。計算公式如下
(1)
(2)
DVI=NIR-R
(3)
(4)
另外使用SRTM 30 m分辨率的高程數據(GEE ID:USGS/SRTMGL1_003)和TRMM衛(wèi)星月平均降水數據(GEE ID:TRMM/3B43V7)。所有遙感數據的處理都在GEE平臺(https:∥earthengine.google.com/)上完成。
為提高模型模擬的精度,研究中將波段光譜參數、植被指數及地形和氣候參數分為3組待選自變量,使用SPSS 19.0軟件對3組數據和地上生物量實測數據進行相關性分析,選出每組參數中與生物量在p<0.01水平上顯著相關的因子作為預測模型的自變量,見表1。
表1 光譜參數、植被指數、地形和氣候遙感因子信息
分類和回歸是分類回歸樹(classification and regression tree,CART)算法的核心支出。其原理在于以遞歸算法將當前的樣本分為兩個子集樣本,使生成的每個非葉子節(jié)點都有兩個分支,引入Gini指數來衡量數據的不純度或不確定性,并利用交叉驗證對樹進行剪枝,最終得到二叉樹形式的決策樹。CART的回歸樹與分類樹十分相似,只是目標變量為連續(xù)性變量而非離散型變量,使用回歸樹進行預測時,最終葉子結點是某一數值而不是某一類別的特征。
本文使用選取好的模型自變量和草地地上生物量數據,在GEE平臺上基于K-fold交叉驗證思想,利用Classification and regression trees分類器以回歸模式訓練樣本數據,以此建立CART機器學習的草地地上生物量估算模型。
支持向量機(support vector machine,SVM)是一種有關學習算法的監(jiān)督學習模型,用于數據分類分析和回歸分析。SVM算法的基本思路為:通過某一非線性變換將訓練數據集x映射到一個高維特征空間,并在高維特征空間里構造回歸函數f(x),這一非線性變換是由定義適當的核函數K(xi,xj)來實現的。
fx=ω×φx+b
(5)
本文選擇RBF核函數在GEE平臺上建立SVM草地地上生物量估算模型。對于gamma參數和c(懲罰)參數,本研究借助臺灣大學林智仁教授開發(fā)的libsvm-3.22工具箱[31]和faruto[32]輔助函數通過網格搜索法來進行選擇。
在統(tǒng)計學中,普通最小二乘(ordinary least squares,OLS)或線性最小二乘法是一種估計線性回歸模型中未知參數的方法。OLS選擇一組解釋變量的線性函數的參數,將所觀察到的因變量在給定的數據集里使得線性函數所預測的變量之間差異的平方和最小化。
本研究使用NDVI和實測地上生物量數據,在GEE平臺上建立單因變量的最小二乘回歸模型。
為了對模型的估算結果進行精度驗證,本研究將預留的20%的樣本數據(119個)代入GEE平臺上草地地上生物量估算模型中,采用根誤差(MSE)、均方根誤差(RMSE)、確定系數R2和估算精度(EA)指標來評價模型估算的生物量的精度
(6)
(7)
(8)
(9)
根據草地數量遙感調查,安徽省草地圖斑面積小于5 hm2有1 232 362塊,共483 249.29 hm2,占草地圖斑總數的98.19%。地面分辨率為250 m的MODIS等中等分辨率的傳感器數據無法滿足安徽省零散草地生物量的監(jiān)測需求。
安徽省野外調查樣地的草地地上生物量在148.00~2 927.00 g/m2之間,平均值為852.27 g/m2。本次野外調查時草地地上生物量為年內最大值,可近似作為產草量,根據《天然草原等級評定技術規(guī)范》(NY/T 1579—2007)相關標準[33],安徽省絕大多數草地屬于5級以上的草地。
本文在GEE平臺上提取了樣本點的16個遙感因子(見表1),由圖2可知有12個遙感因子(B1—B7、NDVI、ARVI、RVI、DVI和slope)與生物量在p<0.01水平上顯著相關。因此,本文選擇B1—B7、所有植被指數參數和slope因子作為模型自變量。
在GEE平臺上建立CART草地地上生物量估算模型并獲得研究區(qū)的草地生物量柵格數據。圖3為CART草地生物量模型估算的安徽省草地地上生物量的空間分布,估算的草地地上生物量最大值為3 373.19 g/m2,最小值為1 g/m2,平均值為905.42 g/m2,標準差為324.24 g/m2。安徽省草地地上生物量大致呈從北到南遞增的趨勢。
根據前文中的方法,調用libsvm工具箱[31]確定最優(yōu)參數c為512,gamma為1。圖4為SVM草地地上生物量模型的估算結果,估算的安徽省草地地上生物量最大值為3 522.43 g/m2,最小值為1 g/m2,平均值為866.79 g/m2,標準差為610.97 g/m2。
為了與機器學習的方法作對比,本文在GEE平臺上使用相同的實測數據和對應的NDVI值以傳統(tǒng)的一元線性回歸方法進行建模,估算的安徽省草地地上生物量如圖5所示。草地地上生物量最大值為1 374.63 g/m2,最小值為1 g/m2,平均值為854.21 g/m2,標準差為252.15 g/m2。
一元線性回歸模型估算的草地地上生物量與CART模型和SVM型相比有較大的差異,一元線性回歸模型估算的草地地上生物量明顯偏低,CART和SVM模型估算的結果差異較小。
從圖6—圖8中可以看出,CART和SVM模型的擬合程度較為理想,兩個模型驗證點的RMSE分別為196.67 g/m2和151.96 g/m2,模型驗證精度分別為68.60%和75.74%。CART模型和SVM模型生物量預估值和實測值吻合較好,兩者之間沒有顯著的差異,模型預估能力較好。而傳統(tǒng)的一元線性回歸模型RMSE為254.00 g/m2,模型驗證精度為57.51%,生物量在300~800 g/m2范圍的預估值普遍偏高,生物量在900~1200 g/m2范圍的預估值普遍偏低,導致RMSE偏大,這一現象是傳統(tǒng)線性關系產生較大誤差的體現。由此可見,CART模型和SVM模型更適用于草地地上生物量估算。
我國南方地區(qū)自然條件良好,草地葉面積指數與地上生物量相對較高,因此NDVI的飽和效應影響較大[34-35]。為了解決這一問題,本研究綜合了光譜特征、地形和氣候參數作為輸入變量,并利用非參數化的機器學習方法進行建模,有效解決了這一問題。另外,本研究提出的方法全部基于GEE遙感云平臺實現,擺脫了數據存儲、計算能力的限制,具有極大的應用潛力。
受南方多云、多雨等不利氣象條件的影響,過去很難獲取省級尺度上時間一致的中高分辨率遙感數據[36-38]。本次草地資源清查結果顯示,安徽省草地呈零散式分布,其中98.19%的草地面積小于5 hm2,因此常規(guī)基于250 m及更低分辨率的遙感數據無法滿足要求。GEE遙感云平臺提供了具有詳盡時間序列的Landsat 8數據,并提供了基于像元尺度的有效數據的鑲嵌功能[39],保障了中高分辨率遙感數據的獲取。
機器學習算法相對于傳統(tǒng)NDVI回歸方法具有一定的優(yōu)勢,但機器學習方法的選擇、參數的確定均對預測模型的精度有一定的影響。對CART模型來說,訓練樣本的內部機構越混亂,基尼指數就越大,模型的不確定性就越大,錯誤率也會相應增加[40]。對SVM模型來說,模型最優(yōu)參數的選擇具有一定的不確定性,其搜索方法可分為網格搜索法、GA遺傳算法和PSO粒子算法等,數據對于每種搜索方法的可適性具有不確定性[41-43]。同時機器學習算法高度受限于樣本數據[44,45]。
草地地上生物量野外數據調查的不確定性對預測模型的精度也會有一定的影響。地面數據來自草地清查,草地地上生物量觀測的時間不盡一致,觀測在6—9月期間完成,草地地上生物量仍存在一定的變化,而遙感數據選用的是最大NDVI合成,因此時間上的不匹配也會對模型的預測精度有影響。
本研究充分挖掘GEE的海量中等分辨率遙感數據存儲及云計算的能力,結合地面清查數據,利用分類回歸樹和支持向量機兩種機器學習方法,開展了省級尺度中高分辨率零散分布草地地上生物量估算的探索,并與傳統(tǒng)的線性回歸方法進行了比較,形成主要結論如下:
(1) 安徽省零散化分布草地圖斑較小且量多,98.19%的草地圖斑面積低于5 hm2,因此AVHRR、MODIS等低分辨率遙感數據無法滿足監(jiān)測的需求,GEE提供的時間序列Landsat 8數據及相應預處理技術為大尺度、高質量、中高分辨率遙感數據的獲取提供了可能,從數據源的角度上保證了監(jiān)測的合理性。
(2) 機器學習方法估算零散化分布草地地上生物量的精度可以達到65%以上。其中CART模型R2=0.57,RMSE=196.67 g/m2;SVM模型R2=0.59,RMSE=151.96 g/m2;傳統(tǒng)使用NDVI的回歸分析產生的誤差較大,R2=0.37,RMSE=254.00 g/m2。因此機器學習方法更適于中高分辨率零散草地地上生物量的估算,傳統(tǒng)基于NDVI的回歸分析無法滿足精準監(jiān)測需求。
(3) 傳統(tǒng)的草地生物量遙感估測模型在遙感數據獲取、預處理時一般需要幾天或幾周的工作時間,而GEE平臺數據來源廣泛、獲取便利,可以高效地實現海量影像數據的預處理及計算分析,大大縮短了工作時間,為更大區(qū)域乃至全國尺度上的零散化草地生物量估算提供了有效參考。