郭超凡,陳澤威,張志高
(安陽師范學院資源環(huán)境與旅游學院,河南 安陽 455000)
牧草地上生物量是指單位面積牧草地上組織所積累物質的質量,是衡量牧草生長發(fā)育狀態(tài)和指導畜牧業(yè)生產管理的重要指標[1]。及時、準確的掌握生物量總量、分布及動態(tài)變化情況對于草地生態(tài)系統評估、全球碳循環(huán)研究和草地資源的可持續(xù)開發(fā)利用等都具有重要意義[2]。
牧草生物量監(jiān)測方法主要包括直接收獲法、產量模擬模型法和衛(wèi)星遙感估測法等[2],其中衛(wèi)星遙感估算方法憑借其宏觀性、動態(tài)性和時效性特點,已成為區(qū)域和大尺度牧草生物量監(jiān)測的重要技術方法[3-4]。衛(wèi)星遙感估算是指基于影像像元且以植被指數為主要輸入變量的數理統計回歸方法,通過建立不同尺度數據之間的函數關系實現由點及面的轉換。于璐等[5]將高分衛(wèi)星影像與地面數據相結合,針對不同月份分別篩選最佳反演模型,分析出草場各營養(yǎng)含量月際動態(tài)變化規(guī)律。渠翠平等[6]對比分析了多種植被指數與草地生物量之間不同形式的擬合關系(線性、乘冪、指數),并利用最優(yōu)模型完成了內蒙古科爾沁左翼后旗地上生物量與地上地下總生物量精準制圖。大量的研究結果表明,衛(wèi)星遙感估算方法可以較好實現草地生物量精確估算,但由于受遙感數據質量、植被的生長狀態(tài)、地形以及模型差異等因素的干擾,不同植被指數在不同研究區(qū)生物量估算中表現出了不同的結果[7-8]。
基于植被指數構建單變量反演模型是目前生物量估算研究中常用且有效的方法。但在高植被蓋度條件下,植被指數對于生物量變化的敏感性顯著下降,即出現“過飽和”問題[9],制約模型估算結果的準確性。一些學者嘗試通過尋求各種統計方法構建基于多植被指數特征的生物量估算模型。高明亮等[10]比較了多元線性回歸模型與單變量非線性模型在植被生物量估算中的潛力,結果表明,多變量反演模型的精度和可靠性高于單變量模型。但是由于多元線性回歸模型多存在著變量間多重共線性的問題,容易造成“過擬合”等現象,影響模型的穩(wěn)定性和普適性[11]?;跈C器學習算法構建多元非線性反演模型是近些年興起的一種新型估算模型,這種方法能夠有效地代表多變量復雜的非線性關系,充分利用傳感器獲得的光譜信息,提高估算精度[12]。其中,隨機森林模型(Random forest,RF)由于建模過程簡單且結果比較精確、對噪聲和異常值敏感度較低,不易出現過擬合、不需要對變量的正態(tài)性和獨立性等假設條件進行檢驗等優(yōu)勢被廣泛應用于農業(yè)、林業(yè)、濕地等多個領域定量監(jiān)測研究[13-14]。以上3種模型是生物量估算中最常見的模型,但3種方法的牧草生物量估算應用對比研究尚不多見。
本研究以Sentinel-2遙感影像數據衍生獲取的21種寬波段植被指數作為數據源,以青海省海晏縣金銀潭草原為研究區(qū),對比分析了單變量模型、多元線性模型和基于隨機森林算法的多元非線性模型在牧草地上生物量(濕生)估算研究中的應用價值,并從植被理化特征含義角度探討了不同植被指數對于牧草生物量估算模型的影響,探索牧草生物量遙感估算的最優(yōu)模型。研究結果以期為牧草生物量遙感監(jiān)測提供理論依據,為草地的可持續(xù)發(fā)展及利用提供數據支撐。
研究區(qū)位于青海省海北藏族自治州海晏縣境內,地理位置為36°53′30″~37°5′30″ N,100°47′30″~100°59′10″ E(圖1),海拔3 000~3 600 m,年日照時間為2 980 h,年均溫為1.7℃,年降水量為499 mm,日照時間長,晝夜溫差大,多年月均最高溫度為10.6℃,最低溫度-13.5℃,年均蒸發(fā)量為1 581.8 mm,為典型的高原內陸型氣候。全縣牧草草地面積24.2萬hm2,占縣域總面積的49.35%,牧草資源豐富,草種類型多樣,是環(huán)青海湖現代高效畜牧業(yè)重要生產基地、環(huán)湖地區(qū)重要畜產品集散地。成功列入國家現代農業(yè)示范區(qū)、國家級一二三產業(yè)融合發(fā)展試點縣、國家畜牧業(yè)綠色發(fā)展示范縣、全國草地生態(tài)畜牧業(yè)實驗區(qū)。草地類型以高寒草甸類、高寒草甸草原類和溫性草原3大類型草地為主。研究區(qū)包含冬春草場和夏秋草場,研究區(qū)內植被分布較為均勻,混雜分布著高山嵩草(Kobresiapygmaea)、草地早熟禾(PoapratensisLinn.)、矮嵩草(KobresiacuneataKukenth.)、紫花針茅(StipapurpureaGriseb.)、異針茅(StipaalienaKeng)、珠芽蓼(PolygonumviviparumLinn.)、條葉垂頭菊(CremanthodiumlineareMaxim.)等物種。
圖1 研究區(qū)位位置及樣點分布
地面生物量數據采集于2017年8月5,6日進行,根據研究區(qū)內牧草的生長狀況選擇3個采樣區(qū)進行試驗,包括1個夏秋草場(Ⅰ)和2個春冬草場(Ⅱ,Ⅲ),共97個樣方(圖1),樣方盡可能代表整個研究區(qū)域的植被生長狀況。樣方規(guī)格為0.5 m×0.5 m,齊地刈割,挑出石子和動物糞便等牲畜不可食用部分稱取鮮重并記錄。記錄內容包括樣方編號、樣方中心點GPS坐標、樣本鮮重(Biomass)、照片編號。
研究所選用的遙感數據為Sentinel-2遙感影像,包含13個波段,其中心波長為490 nm,560 nm,665 nm和842 nm的4個波段空間分辨率為10 m,705 nm,740 nm,783 nm,865 nm,1 610 nm和2 190 nm的6個波段分辨率為20 m,其余443 nm,945 nm和1 375 nm的3個波段分辨率為60 m。影像過境時間為2017年8月4日。Sentinel-2數據下載網址:https://scihub.copernicus.eu/dhus/#/home。使用SNAP對影像進行預處理,經過輻射定標,大氣校正后得到反射率數據。Sentinel-2數據各個波段的空間分辨率有所不同,本文使用最近鄰插值法,將處理后的各波段重采樣至10 m。
選取常用于牧草長勢研究的21種植被指數。不同指數的計算公式見表1。計算各植被指數的值,并利用各樣地記錄的GPS定位坐標,提取對應樣地的各類植被指數。由于Sentinel-2包含3個紅邊波段,而根據相關的研究表明705 nm和740 nm處的反射率與葉綠素含量均具有較高的相關性[16],因此本文分別選用中心波長在705 nm和740 nm的波段作為計算中的紅邊波段。同時,由于中心波長在2 190 nm處的反射率與植被水分相關性優(yōu)于1 375 nm和1 610 nm處的反射率[17],因此,本文選取中心波長在2 190 nm的波段作為計算中的短波紅外波段。
表1 植被指數公式
分別構建不同植被指數與對應生物量間的擬合模型,單變量擬合方程包含線性函數和非線性(二項式、指數、冪數和對數)函數,多元線性模型采用逐步線性回歸方法,多元非線性回歸模型采用隨機森林模型。在多元回歸模型中選擇全局擇優(yōu)法,通過決定系數(R2)及赤池信息量準則(Akaike information criterion,AIC)對所有變量組合模型進行評價,篩選具有最大R2及最小AIC的變量組合[33]。
由于牧草生物量會受到草地類型、放牧強度等多種因素的影響,不同采樣點的草地生物量差異很大。因此本文根據研究區(qū)草地的分布狀況設置了3個采樣區(qū)。其中采樣區(qū)I屬于夏季牧場,由于長時間的放牧,旅游資源的開發(fā),草地植被高度較矮,生物量最小值僅為40 g·m-2;采樣區(qū)II、采樣區(qū)III屬于冬季牧場,草地一直處于保育狀態(tài),生產力處于一年最高階段,生物量較高,平均值達763~810 g·m-2。3個采樣區(qū)共包含了100個采樣點,剔除部分異常值后剩余97個采樣點(如圖1所示)。這些樣點數據為研究植被冠層光譜特征與生物量的關系奠定了基礎(表2所示)。
表2 不同樣區(qū)及生物量統計結果
不同植被指數具有不同的生態(tài)學意義,可以從不同角度反映植被的理化特征。但由于植被生物量累計是多因素共同耦合作用的結果,因而在不同植被理化特征的影響下,植被指數的擬合效果也各不相同。本研究構建的21種植被指數模型中,反映牧草葉面/冠層水分含量的植被指數(如NDWI,GVMI,NDII,NDPI)均具有較高估算精度,與牧草葉綠素關系密切的植被指數CIgreen,CIre同樣具有較好的表現。但能夠消除影像土壤背景的植被指數OSAVI與反映牧草冠層結構的植被指數mNDVI,mSR精度相對較低,這說明影響牧草生物量估算精度的主要因素是水分和葉綠素。同時,近年來的一些研究成果表明包含紅邊波段的植被指數對于葉綠素變化十分敏感,而葉綠素是綠色植物光合作用的重要成分,因此這類指數在一些研究中能夠較好的反映植被的生物量[18]。而本研究發(fā)現引入紅邊波段的指數并未顯著提高生物量的估算精度(如NDVIre所對應的R2和RMSE與NDVI結果相當),甚至一些指數模型所對應的精度出現了明顯降低(如SRre所對應的R2和RMSE分別為0.53和274 g·m-2,精度遠低于SR對應的0.70和238 g·m-2),可能原因是植被的紅邊特征(705 nm)對于水分的變化敏感性差,而在本試驗中水分是牧草濕生物量的重要主導因素。
不同模型預測值與實測值1∶1關系如圖2所示,不同指數模型均一定程度上受到“過飽和”問題的影響,當模型達到飽和點時,預測精度大幅下降,植被指數對牧草生物量變化的敏感性減弱(如圖2所示,當NDVI模型中實測值到達700 g·m-2左右時,樣本點數據明顯偏向1∶1等值線右側),在牧草生物量累積較多時導致估算結果偏低。在單變量模型中,“過飽和”問題已成為制約植被高生物量估算準確性的一個重要因素。
圖2 單變量植被指數模型交叉驗證的預測值與實測值之間的1∶1關系圖
在多元線性回歸中,利用AIC準則對植被指數進行評估和特征波段選擇,選擇的特征波段及變量所對應的模型貢獻占比如圖3所示。其中,反映植被水分含量的NDPI占比最大,達到了32.95%,且同樣反應植被水分特征的NDII1與NDWI同樣占有較高比重(模型貢獻占比分別為12.63%和7.89%),說明多元線性回歸模型中水分對于生物量的變化起主導作用。其次反映植被綠度的指數(CIgreen,CIre,MTCI和NDVIre)在模型中貢獻占比和達到31.89%,說明了植被綠度在生物量估算模型中效果僅次于植被水分。而反映植被蓋度(MTVI2,WDRVI)和消除大氣背景影響(EVI)的植被指數在模型中貢獻占比分別為9.75%,1.79%,相對于植被水分與綠度而言效果并不明顯,在模型中起到一定輔助作用。
圖3 不同植被指數的貢獻占比
表3 不同植被指數模型的精度對比
圖4 預測值與實測值的1∶1關系圖
隨機森林回歸中,首先通過統計分析軟件R自帶的“random Forest”包進行植被指數選擇,選擇的植被指數及其所對應的模型貢獻占比如圖5所示。在該模型中共有13個植被指數入選,且各植被指數之間貢獻占比較為均衡。其中反映植被水分特征的指數NDWI占比最高,為10.4%,其他反映植被水分特征的指數均具有較高的占比(GVMI2和SR的模型貢獻率分別為7.61%和7.17%),說明植被水分在該模型中起關鍵作用。其次,反映植被葉綠素含量的指數(mNDVIre,NDVIre2,mSR,CIgreen,CIre)模型貢獻率和達到了39.24%,說明牧草綠度/葉綠素含量變化對模型具有較大影響。此外,其他反映植被蓋度(WDRVI,MTVI2)、消除大氣背景影響(EVI2)、消除土壤背景影響(OSAVI)等因素的植被指數在生物量反演中同樣具有重要意義??偟膩碚f這些選取的植被指數組合從各個方面反映了植被的理化特征,進而反映出牧草生物量狀態(tài)。這些入選指數間不僅僅是高相關性,還具有較好的互補性,能夠綜合的反映牧草的生物量狀況。
圖5 不同植被指數的貢獻占比
圖6 預測值與實測值的1∶1關系圖
綜上分析,基于隨機森林回歸構建的牧草生物量反演模型較單變量指數模型和多元線性模型具有明顯優(yōu)勢,因此將該方法應用于整個研究區(qū)生物量反演制圖。剔除城區(qū)、道路和水域等非植被區(qū)域獲取的研究區(qū)生物量反演制圖結果如圖7所示。結果反映出研究區(qū)牧草生物量分布具有明顯的空間差異性。生物量最高的區(qū)域是優(yōu)質牧草種植基地,同時遠離城區(qū)的牧草生物量較高,而城區(qū)周邊的牧草生物量明顯較低,可能是由于城區(qū)周圍多為夏季牧場,牛羊放牧制約了牧草生物量的累積,此外旅游開發(fā)以及人為活動也會在一定程度影響牧草的生長。
圖7 研究區(qū)牧草生物量估算結果圖
通過模型對比發(fā)現:隨機森林模型和多元線性回歸模型精度明顯高于單變量指數模型,其中隨機森林模型精度最高。由于單變量指數模型只運用單個表示某一特征的植被指數進行建模,未充分利用Sentinel-2數據豐富的光譜信息,容易造成重要信息的丟失。同時單變量模型容易受到“過飽和”問題影響,對于高蓋度區(qū)域牧草生物量的估算結果較差[15];多元線性回歸模型集合了多個指數特征,在一定程度上提高了模型精度,但其由于受到共線性問題的影響,制約了模型普適性和穩(wěn)定性[34];隨機森林模型可以綜合不同含義的變量特征,且有效緩解“過飽和”與共線性問題[35],因此在所有模型中表現出了最優(yōu)的精度和穩(wěn)定性。很多研究利用該方法進行水質元素含量以及農作物、牧草理化參量的估算并取得了較好的效果[36-37]。
通過入選波段對比發(fā)現:單變量模型中CIgreen和NDWI指數與牧草生物量具有最優(yōu)的擬合關系。同樣,多元線性模型和隨機森林模型的入選變量中也包含CIgreen和NDWI指數。另外,多元回歸模型中相同的入選波段還包括CIre,MTVI2,GVMI2,WDRVI,NDVIre(NDVIre2)和EVI(EVI2)。說明一些關鍵的指數在牧草生物量估算研究中具有普適性,這些具有普適性的指數從葉綠素含量、水分含量、植被蓋度和消除影像背景噪聲等方面反映了牧草的理化特征,進而反映出牧草生物量狀態(tài)。而其他入選波段的差異性則說明不同模型對于特征變量的綜合能力存在差異。此外,本文的研究結果表明,無論是單變量模型還是多變量模型,植被指數和生物量非線性擬合模型精度高于線性擬合,這可能是由于受到“過飽和”問題的影響,隨著生物量的增加,植被指數的敏感性逐漸下降。