張愛武,張 帥,郭超凡*,劉路路,胡少興,柴沙駝
1. 首都師范大學(xué)三維信息獲取與應(yīng)用教育部重點(diǎn)實(shí)驗(yàn)室,北京 100048 2. 首都師范大學(xué)空間信息技術(shù)教育部工程研究中心,北京 100048 3. 北京航空航天大學(xué)機(jī)械工程及自動化學(xué)院,北京 100191 4. 青海大學(xué)畜牧獸醫(yī)科學(xué)院(青海省畜牧獸醫(yī)科學(xué)院),青海 西寧 810016
生物量作為草地生態(tài)系統(tǒng)的物質(zhì)基礎(chǔ),是衡量草地生長狀況的主要指標(biāo),代表草地初級生產(chǎn)力的基本水平,決定了草地的載畜能力[1]。及時、精確的掌握草地地上生物量的含量、分布及變化情況對于評估草地生態(tài)系統(tǒng)、計(jì)算草地載畜能力、確保草地生態(tài)安全具有重要意義[2]。
與傳統(tǒng)實(shí)地測量方法不同,利用遙感技術(shù)可以快速、準(zhǔn)確、無破壞的實(shí)現(xiàn)對草地生物量估算。Landsat系列衛(wèi)星數(shù)據(jù)被稱為是最有用的遙感數(shù)據(jù)之一,已被廣泛應(yīng)用于區(qū)域尺度牧草生物量估產(chǎn)。研究發(fā)現(xiàn)通過對Landsat系列數(shù)據(jù)進(jìn)行波段計(jì)算獲取的光譜衍生數(shù)據(jù)比原始波段在探測生物量方面具有更好的靈敏性。例如紅光譜波段對植被葉綠素敏感,近紅外光譜波段對葉片組織敏感,由紅光譜波段和近紅外光譜波段構(gòu)建的歸一化植被指數(shù)(NDVI)可以反映植被的綠度特征[3]; 短波紅外光譜波段對植被含水量非常敏感,由短波紅外構(gòu)建的歸一化紅外指數(shù)(NDⅡ)可以反映植被水分含量[4]。這些指數(shù)能夠直觀的反映植被某些方面的理化特征(定義為直接因子),因此在植被生物量反演中得到了廣泛的應(yīng)用。但地面植被信息的遙感獲取是一個復(fù)雜的過程,還會受到大氣、其他地物背景的干擾。因此相關(guān)學(xué)者推出了一些突顯地面植被信息、消除背景干擾的植被指數(shù)。例如土壤調(diào)節(jié)植被指數(shù)(SAVI)能夠較好的去除土壤背景對于目標(biāo)信息的影響[5]。此外纓帽變換的第三分量通過影像增強(qiáng)的方法反映地面的土壤水份含量,(這些指數(shù)定義為間接因子)。以及紋理特征(定義為空間因子)可以從圖像反映植被冠層的空間變化規(guī)律和空間相關(guān)性。這些間接因子和空間因子從不同的角度反映了地面植被的信息,但由于與直接因子具有較強(qiáng)的共線性,很少被應(yīng)用于植被生物量反演研究。
基于植被指數(shù)的單變量反演模型是目前進(jìn)行大面積生物量估算的主要方法,常用模型包括線性和非線性模型[6]。當(dāng)生物量較低時,建立的估算模型是一元線性的,隨著生物量的增加,指數(shù)模型體現(xiàn)出更好的擬合效果[7]。一些學(xué)者嘗試通過尋求各種統(tǒng)計(jì)方法構(gòu)建基于多變量植被指數(shù)特征的植物生物量估算模型,如高明亮[8]等基于環(huán)境衛(wèi)星遙感數(shù)據(jù)和同步野外實(shí)地采樣數(shù)據(jù),進(jìn)行了黃河濕地植被生物量反演研究,結(jié)果表明MLRM(多元線性回歸模型) 比 SCRM(一元曲線回歸模型) 具有更好的反演精度和預(yù)測能力。
隨機(jī)梯度Boosting算法(stochastic gradient boosting, SGB)是一種集成學(xué)習(xí)方法,在生態(tài)建模中有廣泛的應(yīng)用,但是在遙感中應(yīng)用尚不多見。該算法的優(yōu)勢在于不需要預(yù)先篩選特征變量,同時可以適應(yīng)復(fù)雜的非線性關(guān)系,且模型具有高度穩(wěn)健型和可解釋性,不容易陷入過擬合[9]。因此,提出基于隨機(jī)梯度Boosting算法(SGB)來構(gòu)建牧草生物量反演模型。以青海省海晏縣為研究區(qū),以Landsat 8遙感影像數(shù)據(jù)為數(shù)據(jù)源,進(jìn)行方案的可行性探討。研究的內(nèi)容主要包括: (1)歸納總結(jié)植被生物量反演相關(guān)的Landsat-光譜衍生數(shù)據(jù),并基于它們所反映的植被理化特征及它們間的關(guān)聯(lián)方式構(gòu)建分類體系; (2)基于隨機(jī)梯度Boosting算法構(gòu)建多變量非線性牧草生物量反演模型,探討不同Landsat-光譜衍生數(shù)據(jù)類型組合對于模型的影響。以期為牧草生物量遙感監(jiān)測提供理論依據(jù),為提高牧草生物量的定量反演精度提供參考。
研究區(qū)(圖1)位于青海省海北藏族自治州海晏縣境內(nèi),地處36°53′30″—37°5′30″N,100°47′30″—100°59′10″E; 年日照時數(shù)2 980 h,年平均溫度1.7°,年降水量499 mm,夏秋降水多,春冬降水少,全縣牧草草地面積占總面積49.35%,草種類型多樣,是全國草地生態(tài)畜牧業(yè)試驗(yàn)區(qū)。
圖1 研究區(qū)位置和Landsat 8真彩色合成圖
地面鮮重?cái)?shù)據(jù)采集于2017年8月11日—13日進(jìn)行,根據(jù)草地類型和生物量等級高、中、低梯度選擇了三個采樣區(qū)(采樣區(qū)Ⅰ,Ⅱ,Ⅲ),包括兩個春冬草場(Ⅰ,Ⅱ)和一個夏秋草場(Ⅲ),三個區(qū)域分層隨機(jī)采集100個混合樣方(圖1),剔除部分異常值后剩余97個采樣點(diǎn),樣方盡可能代表整個研究區(qū)域的植被生長狀況,同時用GPS儀測量每個樣方中心點(diǎn)經(jīng)緯度。樣方規(guī)格為0.5 m×0.5 m,齊地刈割,挑出石子和動物糞便等不可食部分稱取鮮重并記錄。
實(shí)驗(yàn)所用的遙感數(shù)據(jù)為美國陸地衛(wèi)星Landsat 8 OLI遙感影像,時間分辨率為16 d,空間分辨率為30 m,影像過境時間2017年8月10日,使用波段包括深藍(lán)波段(0.43~0.45 μm)在內(nèi)的前7個波段,使用ENVI5.1對影像進(jìn)行預(yù)處理,經(jīng)過輻射定標(biāo),大氣校正后得到反射率數(shù)據(jù)。
Landsat 8OLI數(shù)據(jù)在研究農(nóng)作物信息提取、葉面積指數(shù)反演、生物量估算等方面均取得較好的效果。但植被生長是一種復(fù)雜的過程,伴隨著多種植被特征狀態(tài)的變化,如植株高度、冠層葉面積指數(shù)、植被顏色、植被水分等,不同的特征可能產(chǎn)生不同的遙感信號,需要將其區(qū)別對待。根據(jù)不同衍生變量在植被生物量反演過程中所反映植被的理化特征,將常用的Landsat-衍生變量分為7類(表1): 一是反映植被綠度的綠度指數(shù)(NDVI,GNDVI,RVI,II,TCG),由于紅光譜波段對植被葉綠素敏感,近紅外光譜波段對植被葉片組織敏感,兩者有效結(jié)合可精確的刻畫植被的綠度特征。二是反映植被衰敗程度的黃度指數(shù)(NDTI,NDSVI),該類指數(shù)常用于提取植物枯枝落葉層及農(nóng)作物殘余物信息,主要反映植被整體的凋萎程度及作物成熟狀況。三是反映植被水分含量的衍生變量,包括水分指數(shù)(NDMI,NDII)和纓帽變化中的濕度分量(TCW),可用于反映植株冠層水分含量和土壤濕度; 四是用于反映植被覆蓋度的衍生變量,包括TCA和TCD,它們是經(jīng)過纓帽變化中亮度分量(TCB)和綠度分量(TCG)變換到極坐標(biāo)系統(tǒng)而獲得的指數(shù),TCA隨著植被覆蓋度的增大而增大; TCD隨著陰影面積在像元中比例增加而減少,這兩個變量可用于反映植被生長密集時的情況。五是用于消除大氣影響因子的植被指數(shù)(ARVI,EVI,VARI),通過增加大氣修正因子,能夠有效減少大氣對植被的影響。六是用于消除土壤背景影響的植被指數(shù)(SAVI,PVI,MSAVI,OSVAI) ,通過增加土壤調(diào)節(jié)系數(shù),能夠有效減少土壤對植被的影響[10]。七是反映植被空間特性的紋理指數(shù),應(yīng)用最廣泛的是由Haralick等提出的灰度共生矩陣(GLCM),主要包括均值、方差、均勻性、對比度、相異性、熵、二階矩、相關(guān)性等8個指標(biāo)(窗口大小為5×5像素)。其中類一、類二、類三和類四直接反映了植物的理化特征,定義為直接因子。類五和類六通過消除背景干擾間接的反映植被理化特性,定義為間接因子。而紋理特征則是從空間的角度反映植被的特征,定義為空間因子。
表1 Landsat-衍生變量分類體系
注: Ⅰ表示屬于直接因子,Ⅱ表示間接因子,Ⅲ表示空間因子
Note: Ⅰ represents direct fector; Ⅱ represents indirect factor and Ⅲ represents spector
隨機(jī)梯度Boosting(SGB)是一種可用于分類和回歸模型的集成學(xué)習(xí)器,具有高度穩(wěn)健性和可解釋性。SGB方法對于異常值、缺失值、非平衡數(shù)據(jù)集有較好的魯棒性,參與計(jì)算的變量不需要假設(shè)先驗(yàn)概率分布,并且在處理非線性關(guān)系及變量之間的存在較強(qiáng)自相關(guān)模型時有較大的優(yōu)勢。
2001年,F(xiàn)riedman[18]提出Gradient Boosting算法,該算法將每次迭代的組合分類器在x上的值作為損失函數(shù)空間在x上的負(fù)梯度,將組合分類器的系數(shù)作為步長,來近似逼近組合分類器的損失函數(shù)的最小值。令X=[x1,x2, …,xn]T,經(jīng)M次迭代后,得到最終的回歸樹模型
F(x)=F0(x)+vβ1h1(X)+vβ2h2(X)+…+vβMhM(X)
(1)
其中,F(xiàn)0(x)是用于估計(jì)損失函數(shù)最小化的常數(shù)值; 收縮性參數(shù)v稱為“學(xué)習(xí)率”,決定了每棵樹對最終模型的貢獻(xiàn)率;β是模型權(quán)重。
2002年,F(xiàn)riedman[19]結(jié)合Breiman的bagging思想,在Gradient boosting算法基礎(chǔ)上引入隨機(jī)化參數(shù),提出了SGB算法,即在每一次迭代過程中,隨機(jī)抽取訓(xùn)練樣本的一部分來擬合分類器。
(2)
該方法實(shí)施后項(xiàng)特征消除來確定生物量預(yù)測所需要的Landsat-光譜衍生數(shù)據(jù)從而實(shí)現(xiàn)變量選擇。更準(zhǔn)確的說,根據(jù)式(2)可以計(jì)算各個變量的誤差平方和減少量,誤差平方和減少量越小,特征變量對模型的貢獻(xiàn)越大,逐步消除變量貢獻(xiàn)率小的變量實(shí)現(xiàn)變量選擇[20]。
基于統(tǒng)計(jì)分析軟件R的”gbm”包,通過隨機(jī)梯度Boosting變量選擇,選擇直接因子、直接因子-間接因子、直接因子-空間因子和直接因子-間接因子-空間因子組合中最優(yōu)特征組合,探討不同數(shù)據(jù)類型組合對于估算結(jié)果的影響。
為了驗(yàn)證該模型的有效性,設(shè)計(jì)了5種常用模型進(jìn)行對比分析,包括1種一元線性回歸模型、2種非線性回歸模型(指數(shù)模型和對數(shù)模型),1種多元線性回歸模型(逐步線性回歸)和1種多元非線性模型(隨機(jī)森林模型)。采用均方根誤差(RMSE)和決定系數(shù)(R2)對模型精度進(jìn)行評價; 并使用十折交叉[21]驗(yàn)證方法對最優(yōu)模型進(jìn)行精度驗(yàn)證。十折交叉驗(yàn)證將數(shù)據(jù)集劃分為10個子數(shù)據(jù)集,將每個子集數(shù)據(jù)分別做一次驗(yàn)證集,其余9組子集數(shù)據(jù)作為訓(xùn)練集,從而避免模型過擬合。
隨機(jī)梯度Boosting方法進(jìn)行特征選擇與其他特征選擇方法的不同之處在于該方法的特征選擇是嵌入在訓(xùn)練過程中的,是面向于最終模型性能的。也就是說SGB算法各個特征對模型的影響是通過每個變量對模型的誤差平方和減少量來計(jì)算得到的,減少量越大,變量對模型的貢獻(xiàn)越大。采用SGB算法對由12個直接因子、7個間接因子和56個空間因子(7個波段,每個波段8個特征紋理,共56個)共構(gòu)建的4個數(shù)據(jù)集(直接因子、直接因子-間接因子、直接因子-空間因子、直接因子-間接因子-空間因子)進(jìn)行模型構(gòu)建。
圖2 不同模型的入選波段及變量對模型的貢獻(xiàn)占比
基于SGB對四個數(shù)據(jù)集進(jìn)行特征波段選擇,選擇的特征波段及變量所對應(yīng)的模型貢獻(xiàn)占比如圖2所示。直接因子模型中,共有7個特征變量入選,其中GNDVI占比最大,達(dá)到33.5%。說明植被綠度在該模型中起關(guān)鍵作用。同時研究表明與其他綠度指數(shù)相比,GNDVI對于植被葉綠素含量的變化更加敏感。葉綠素反映植被的生長狀況,進(jìn)而反映在生物量方面。其次植被水分(TCW,NDII)和植被蓋度(TCD)、植被黃度(NDSVI,NDTI)等因素也對生物量反演具有重要的意義。直接因子-間接因子模型中,共有8個特征變量入選。其中GNDVI同樣占比最大,達(dá)到30.7%。說明植被綠度和葉綠素在該模型中起關(guān)鍵作用。除了反映水分植被蓋度和黃度的指數(shù),還新增加了大氣消除指數(shù)和土壤消除指數(shù),且均在模型中占有重要的比重。說明在牧草生物量反演中會受到這兩個因素的影響。直接因子-空間因子模型中,共有11個特征變量入選,有5個是紋理特征,且平均值Mean_B3(第三波段的均值特征)成為占比最大的特征,占到了22.0%。說明紋理特征在生物量反演模型中具有非常重要的作用。GNDVI同樣占比較高,說明植被綠度在生物量反演中的重要性。直接因子-間接因子-空間因子模型中共有11個特征變量入選。其中紋理因子5個,占比41.9%。且Mean_B3在所有特征中占比最大21.7%。直接因子5個,占比43.9%。間接因子2個,占比14.2%??偟膩碚f這些常用數(shù)據(jù)類型組合從各個方面反映了植被的理化特征,進(jìn)而反映出生物量。它們之間不僅僅是高相關(guān)性,還具有較好的互補(bǔ)性,隨機(jī)梯度Boosting模型可以較好的克服其共線性問題。
表2為各個模型選擇后的變量與樣地生物量的建模結(jié)果。如表所示,僅采用直接因子與生物量擬合時精度最低,R2為0.80,RMSE為185.85 g·m-2。通過增加間接因子和空間因子均可增加模型的擬合精度。直接因子和空間因子模型的擬合結(jié)果表現(xiàn)為R2為0.83,RMSE為158.15 g·m-2; 直接因子和間接因子模型的擬合結(jié)果為R2為0.84,RMSE為157.63 g·m-2; 相較于直接因子模型R2均有所增加,RMSE均更低。而直接因子、間接因子和空間因子所組合的特征集進(jìn)行回歸建模R2最高,達(dá)到了0.88; RMSE最低,為141.00 g·m-2,是擬合生物量的最優(yōu)模型??偟膩碚f四個模型都能夠較好的擬合草原的生物量。擬合模型的各個因子之間是具有兼容性的,通過因子組合可以更好的刻畫生物量與這些特征之間的關(guān)系。
表2 模型及精度
我們提出了一種多變量、非線性生物量模型,相比于傳統(tǒng)的方法,一個比較明顯的區(qū)別在于該模型更加的復(fù)雜化。為了探索本模型與其他模型在普及方面的區(qū)別,我們設(shè)計(jì)了5個對比模型,1個單變量線性模型,2個單變量非線性模型,1個多元線性模型(逐步線性回歸)和一組多元非線性回歸模型(隨機(jī)森林)進(jìn)行模型的對比分析。分別采用模型精度和交叉驗(yàn)證精度作為評價指標(biāo)對不同模型與生物量的估算效果進(jìn)行評價。此外,由于大量的文獻(xiàn)提出過飽和問題是遙感反演中的一個制約因素,我們繪制了6種不同模型的殘差結(jié)果與NDVI的關(guān)系圖,以便能夠直觀的觀察不同模型對于過飽和問題的效果。
表3 不同模型精度對比
殘差反映了模型觀測值與估算值之間的偏差。NDVI是一種使用最為廣泛的植被指數(shù),但是研究表明,在生物量較高時會出現(xiàn)過飽和問題。因此采用殘差-NDVI關(guān)系圖直觀的展示不同模型對于過飽和問題的響應(yīng)。6組不同模型的殘差-NDVI結(jié)果如圖3所示??傮w上講,6種模型的殘差趨勢是一致的,當(dāng)NDVI值小于0.7的時候殘差較小,當(dāng)NDVI值大于0.7時殘差突然增大。說明這些模型均受到了過飽和問題的干擾。但圖3(e)和(f), 尤其是本模型無論是總體殘差還是當(dāng)NDVI大于0.7后的殘差均較小,說明本方法是可行的,能夠在一定程度上消除過飽和的影響。
圖3 殘差結(jié)果與NDVI的關(guān)系圖
基于上述分析,構(gòu)建的牧草生物量反演模型較傳統(tǒng)的方法具有明顯優(yōu)勢,因此將該方法應(yīng)用于整個研究區(qū)生物量反演制圖。通過K-Means方法將研究區(qū)分為非植被(城區(qū)、道路和水域)和植被兩類,非植被在制圖中予以剔除。結(jié)果如圖4所示,可以看出研究區(qū)牧草生物量分布具有明顯的空間差異性。遠(yuǎn)離城區(qū)的牧草生物量較高,而城區(qū)周邊的牧草生物量明顯較低,可能是由于城區(qū)周圍多為夏季牧場,牛羊放牧制約了牧草生物量的累積,此外旅游開發(fā)以及人為活動也會在一定程度影響牧草的生長。
圖4 研究區(qū)牧草生物量估算結(jié)果圖
采用Landsat8遙感影像結(jié)合地面實(shí)測數(shù)據(jù)進(jìn)行牧草生物量反演研究。首先通過Landsat8光譜衍生數(shù)據(jù)所反映的植被理化特征及它們間的關(guān)聯(lián)方式,構(gòu)建了不同光譜衍生數(shù)據(jù)的分類體系; 并在此基礎(chǔ)上提出了一種基于隨機(jī)梯度Boosting算法的多變量非線性生物量估算模型,探討不同光譜衍生數(shù)據(jù)分類組合對于估算結(jié)果的影響。以青海省海晏縣為研究區(qū)進(jìn)行方案可行性研究。結(jié)論如下:
(1)共收集了27個與生物量相關(guān)的Landsat8光譜衍生數(shù)據(jù),根據(jù)它們所反映的植被理化特征,可以劃分為7個小類,它們分別反映了植被的綠度、黃度、水分、植被蓋度、紋理特征、消除大氣干擾和消除土壤背景干擾。根據(jù)它們與植被理化特征的關(guān)聯(lián)方式,7個小類可以合并為3個大類: 直接因子(綠度指數(shù)、黃度指數(shù)、水分指數(shù)、植被蓋度)、間接因子(消除大氣干擾指數(shù)和消除土壤背景干擾指數(shù))和空間因子(紋理特征)。
(2)基于隨機(jī)梯度Boosting算法探討了不同光譜衍生數(shù)據(jù)類型組合對于估算結(jié)果的影響,結(jié)果表明在生物量估算模型中直接因子、間接因子和空間因子具有互補(bǔ)性?;谥苯右蜃?間接因子-空間因子構(gòu)建的估算模型優(yōu)于其他組合模型,R2達(dá)到了0.88; RMSE為141.00 g·m-2。
綜上,提出了一種利用Landsat數(shù)據(jù)進(jìn)行牧草生物量估算的有效方法,一定程度上滿足了畜牧業(yè)可持續(xù)發(fā)展的需求,并且該方法可以擴(kuò)展到其他植被類型和更多生物參量的估算研究。為今后進(jìn)行大面積區(qū)域草地動態(tài)監(jiān)測以及其他農(nóng)業(yè)領(lǐng)域的研究提供了參考和借鑒。