沐釗穎 張茲鵬 張浩 姜立春
(東北林業(yè)大學,哈爾濱,150040)
森林生物量是森林生態(tài)系統(tǒng)生產(chǎn)與代謝過程中長期積累的結(jié)果,也是森林生態(tài)系統(tǒng)運作的能量基礎(chǔ)和物質(zhì)來源[1-3]。森林地上生物量作為森林生態(tài)系統(tǒng)碳循環(huán)的載體,不僅能夠反映區(qū)域群落利用自然資源的潛在能力,也是衡量群落生產(chǎn)力的重要指標[4-6]。
目前,對于生物量測定的方法主要有直接法和間接法。直接法主要為實測法,該方法費時、費力,對生態(tài)環(huán)境破壞性較大;間接法主要為模型估測法,該方法省時省力,效率高[7-9]。模型法分為傳統(tǒng)參數(shù)模型和非參數(shù)模型,傳統(tǒng)參數(shù)模型主要為線性和非線性回歸模型,非參數(shù)模型主要為機器學習算法模型。目前已經(jīng)建立近2 000多個生物量模型,其中大部分為參數(shù)模型,非參數(shù)模型較少[10-11]。傳統(tǒng)參數(shù)模型有一定的局限性,在應(yīng)用時通常要滿足模型的基本假設(shè)(獨立性、等方差、正態(tài)分布等),而生物量數(shù)據(jù)通常難以滿足這些假設(shè),尤其是方差異質(zhì)性,雖然在生物量模型構(gòu)建過程中,通過異方差校正使模型滿足假設(shè)前提,但模型在應(yīng)用時通常還需要采用方差校正因子降低預(yù)測誤差,使生物量模型的應(yīng)用受到限制。
隨著人工智能技術(shù)的不斷發(fā)展,機器學習算法為森林生物量預(yù)測提供了新的手段。機器學習算法對輸入數(shù)據(jù)的分布形式?jīng)]有假設(shè)前提,適用性廣泛,在生物量預(yù)測領(lǐng)域受到越來越廣泛的關(guān)注[12-17]。王軼夫等[18]基于BP神經(jīng)網(wǎng)絡(luò)構(gòu)建了馬尾松生物量模型,發(fā)現(xiàn)其在精度上優(yōu)于傳統(tǒng)生物量模型;林卓等[19]基于BP神經(jīng)網(wǎng)絡(luò)和支持向量機構(gòu)建了杉木人工林生物量模型,支持向量機的預(yù)測精度優(yōu)于BP神經(jīng)網(wǎng)絡(luò);?z?elik et al.[20]利用非線性回歸模型和人工神經(jīng)網(wǎng)絡(luò)分別構(gòu)建模型預(yù)測松樹生物量,人工神經(jīng)網(wǎng)絡(luò)具有更高的預(yù)測精度;Wongchai et al.[21]采用多種機器學習算法與傳統(tǒng)異速方程對泰國3種喬木生物量進行預(yù)測,預(yù)測結(jié)果顯示,隨機森林模型的預(yù)測精度最高。
興安落葉松(Larixgmelinii)為東北林區(qū)主要三大針葉用材林樹種之一[22],是該地區(qū)荒山造林和森林更新的主要樹種,該樹種對抵抗西伯利亞寒流和荒漠風沙的侵襲起到了重要作用。本文以小興安嶺地區(qū)的興安落葉松為例,采用人工神經(jīng)網(wǎng)絡(luò)(ANN)、支持向量機(SVR)、梯度提升回歸樹(GBRT)和隨機森林(RF),分別對興安落葉松地上生物量進行預(yù)測,并對生物量模型的預(yù)測精度進行對比分析,為提高興安落葉松地上生物量的預(yù)測精度提供技術(shù)支持。
本文的興安落葉松數(shù)據(jù)采集地點位于小興安嶺(127°42′~130°14′E,46°28′~50°21′N)的翠蘭、烏馬河、帶嶺、鐵力和五營林業(yè)局施業(yè)區(qū)共收集了201株樣木。在林地伐倒樣木,按1 m區(qū)分段進行樹干解析,分段取樣,分別測定各區(qū)分段的樹干鮮質(zhì)量;將樹冠分為3層,每個冠層選取3~5個標準枝,并分層稱取活枝鮮質(zhì)量和葉鮮質(zhì)量,每株樣木各區(qū)分層的枝葉都分別取樣,將采集的所有樣品帶回實驗室在105 ℃恒溫干燥后,稱量樣品的干質(zhì)量。根據(jù)樣品干質(zhì)量和鮮質(zhì)量分別計算樣木各部分的干質(zhì)量,最終匯總單木地上生物量。將取得樣木數(shù)據(jù),按照75%和25%的比例分成訓練樣本和測試樣本(見表1)。
表1 興安落葉松樣本統(tǒng)計量
在機器學習算法建模時,為消除不同量級變量對于建模的影響,需要對數(shù)據(jù)進行歸一化處理,使各變量的值均統(tǒng)一介于[0,1]。經(jīng)過模型預(yù)測得到泛化結(jié)果,通過數(shù)據(jù)反歸一化處理,還原為原始數(shù)據(jù)級與真實值對比和評價。歸一化公式如下:
式中:Xi為歸一化后的值,X為樣本真實值,Xmax為樣本最大值,Xmin為樣本最小值。
1.3.1 傳統(tǒng)生物量模型
林木胸徑和樹高與地上生物量有顯著的相關(guān)性,生物量一般會隨著林木胸徑和樹高的增大而增加[23-25]。本文引入了胸徑和樹高兩個自變量,并采用了生物量建模中常用的二元生物量模型進行模型構(gòu)建,模型形式如下:W=aDbHC。式中:W為地上生物量;D為胸徑;H為樹高;a、b、c為參數(shù)。
1.3.2 人工神經(jīng)網(wǎng)絡(luò)模型
人工神經(jīng)網(wǎng)絡(luò)是由大量具有自適應(yīng)的神經(jīng)元互相連接形成的神經(jīng)結(jié)構(gòu),主要由輸入層、隱藏層和輸出層組成[12]。人工神經(jīng)網(wǎng)絡(luò)的主要工作原理為輸入信號先向前傳遞到隱藏節(jié)點,由總誤差引起的權(quán)值修正向第一隱含層(即最接近輸入層的隱含層)進行反向傳播。前向傳遞時,如果輸出層得不到期望輸出,則轉(zhuǎn)入反向傳播,根據(jù)預(yù)測誤差調(diào)整網(wǎng)絡(luò)權(quán)值系數(shù)和閾值,從而使預(yù)測輸出值不斷逼近期望輸出值。
1.3.3 支持向量機回歸模型
支持向量機的本質(zhì)是以最優(yōu)方式劃分數(shù)據(jù)超平面。以決策超平面將數(shù)據(jù)分成兩類,屬于線性分類器。支持向量回歸對于線性不可分的數(shù)據(jù)引入核函數(shù),將原樣本從原始空間映射到一個更加高維的特征空間,使得樣本在這個空間實現(xiàn)線性可分。使用R軟件中的e1071包進行支持向量回歸模型的擬合和預(yù)測。在模型擬合過程中,通過核函數(shù)的選擇和懲罰系數(shù)(C)的調(diào)節(jié),不斷提高模型的擬合效果。核函數(shù)所需搜尋調(diào)優(yōu)的參數(shù)有懲罰參數(shù)(C)和核參數(shù)(g),采用網(wǎng)格搜尋法搜尋最優(yōu)參數(shù)。本文擬合模型使用的核函數(shù)有:徑向核、線性核、多項式核、S形核。
1.3.4 隨機森林模型
隨機森林是通過集成學習的裝袋思想將多棵決策樹集成的一種算法。隨機森林通過多次自主采樣法抽取多個隨機樣本,通過這些樣本分別建立相對應(yīng)的決策樹,從而構(gòu)成隨機森林模型。本文使用R軟件中的隨機森林(RF)包進行隨機森林模型的擬合與預(yù)測。模型擬合過程中影響的3個重要參數(shù)為:決策樹的數(shù)目(n)即使用自主采樣法重抽樣的次數(shù)、樹節(jié)點隨機抽取的變量個數(shù)(m)即使用到輸入變量的個數(shù)、決策樹節(jié)點最大個數(shù)。本研究中主要對決策樹的數(shù)目(n)、樹節(jié)點隨機抽取的變量個數(shù)(m)和決策樹節(jié)點最大個數(shù)進行尋優(yōu),其他參數(shù)均使用默認值。
1.3.5 梯度提升回歸樹模型
梯度提升回歸樹的本質(zhì)是由許多決策樹組成的集成模型。梯度提升回歸樹通過構(gòu)建M個弱分類器,經(jīng)過多次迭代運算最終組合而成一個強分類器進行預(yù)測。它在原有的模型基礎(chǔ)上進行迭代改進,使得下一次擬合構(gòu)建的模型比上一次的模型擁有更小的誤差,以在殘差減小的梯度方向上建立新的組合模型。采用R語言中的gbm包進行模型的擬合與預(yù)測。其中需要調(diào)整的參數(shù)有學習率(η)、交互深度(d)、終節(jié)點最小規(guī)模和子抽樣比例,對模型最優(yōu)參數(shù)組合采用網(wǎng)格搜索的方式進行搜尋。
傳統(tǒng)生物量模型易產(chǎn)生異方差現(xiàn)象,即輸出結(jié)果誤差會隨著預(yù)測值的增大而增大。本文采用冪函數(shù)、指數(shù)函數(shù)和常數(shù)加冪函數(shù)等3種加權(quán)回歸法,消除異方差對于傳統(tǒng)生物量模型參數(shù)估計的影響。通過比較赤池信息準則(AIC)和貝葉斯信息準則(BIC)數(shù)值選擇最優(yōu)方差函數(shù)。
指數(shù)函數(shù)——g(ui,θ)=exp(θui);
冪函數(shù)——g(ui,θ)=|ui|θ;
常數(shù)加冪函數(shù)——g(ui,θ)=θ1+|ui|θ2。
式中:ui為方差函數(shù)變量;θ、θ1和θ2為參數(shù)。
模型評價指標采用確定系數(shù)(R2),均方根誤差(RMSE),平均絕對誤差(MAE),相對誤差絕對值(MPB)和赤池信息準則(AIC),使用這幾個指標來綜合評價模型的擬合和預(yù)測效果。本文也選用Z檢驗來評價模型的無偏估計能力,以判斷模型泛化結(jié)果與真實值是否存在顯著差異。上述指標的計算公式如下:
由表2可知,采用指數(shù)函數(shù)、冪函數(shù)、常數(shù)加冪函數(shù)進行異方差校正。選取生物量實際值(W)、胸徑(D)和樹高(H)作為方差函數(shù)的變量對傳統(tǒng)生物量模型校正。當冪函數(shù)變量為生物量實際值時,赤池信息準則(AIC)和貝葉斯信息準則(BIC)的值最小,因而選用冪函數(shù)進行生物量模型校正。
由圖1可知,殘差隨著預(yù)測值的增大而呈現(xiàn)喇叭狀分布,說明傳統(tǒng)生物量模型產(chǎn)生了異方差現(xiàn)象;校正后模型殘差不再呈喇叭狀擴散分布,而是均勻的隨機分布,說明該方差函數(shù)有效的消除了模型的異方差現(xiàn)象。
最終可得模型參數(shù)為a=0.035 59,b=1.853 59,c=0.954 47,傳統(tǒng)生物量模型表達式如下:W=0.035 59×D1.853 59×H0.954 47。
圖1 傳統(tǒng)生物量模型殘差圖
表2 傳統(tǒng)生物量模型誤差方差函數(shù)結(jié)果
核函數(shù)的選擇是支持向量機回歸模型構(gòu)建的核心。擬合支持向量機回歸模型主要為兩個步驟:搜索核函數(shù)的最優(yōu)參數(shù);使用最優(yōu)參數(shù)擬合模型。通過網(wǎng)格搜索法搜索徑向核的最優(yōu)參數(shù),懲罰系數(shù)(C)值的取值范圍設(shè)置為(0,1 000),核函數(shù)(g)值的取值范圍設(shè)置為(0,1)。由表3可知,當核函數(shù)為徑向核時模型的擬合精度最高。經(jīng)搜索確定核函數(shù)的最優(yōu)參數(shù)C值為101、g值為0.03時,模型的擬合精度最高,徑向核的確定系數(shù)(R2)達到0.960 1。因而支持向量機模型的核函數(shù)選擇徑向核,C值設(shè)置為101、g值設(shè)置為0.03進行模型構(gòu)建。
圖2 不同神經(jīng)元的人工神經(jīng)網(wǎng)絡(luò)模型精度對比
由圖3可知,均方誤差隨著決策樹數(shù)量的增加而變化,當決策樹的數(shù)量達到1 500時,其均方誤差已經(jīng)基本趨于穩(wěn)定,即使繼續(xù)增大決策樹的數(shù)量,誤差也不會有太大變化,故設(shè)置隨機森林的決策樹數(shù)量為1 500。樹節(jié)點隨機抽取的變量個數(shù)的數(shù)量與模型輸入變量的數(shù)量有關(guān),由于該模型的輸入變量為2個,所以樹節(jié)點隨機抽取的變量個數(shù)(m)的取值為[1,2],由試錯法可知當m=1時,模型擬合精度最高且誤差達到最小。隨機森林是以決策樹為基礎(chǔ)的模型,決策樹的最大節(jié)點數(shù)對其擬合精度影響較大。隨機森林不同節(jié)點數(shù)的決策樹數(shù)量不同,隨機森林節(jié)點數(shù)范圍為(39,56),將決策樹節(jié)點最大個數(shù)采用依次試錯法,當決策樹節(jié)點最大個數(shù)為50時模型擬合精度最高。故將模型的決策樹的數(shù)量設(shè)置為1 500,變量個數(shù)(m)設(shè)置為1,決策樹節(jié)點最大個數(shù)設(shè)置為50時,進行模型的構(gòu)建。
表3 核函數(shù)擬合結(jié)果
圖3 不同決策樹數(shù)量時隨機森林的均方誤差曲線
梯度提升回歸樹是通過多個弱訓練器進行多次迭代訓練最后組成一個強訓練器。迭代次數(shù)即是決策樹數(shù)量(M),因而決策樹的數(shù)量對于模型擬合結(jié)果影響較大。對于梯度提升回歸決策樹的初始數(shù)量默認設(shè)置為600棵來進行搜尋。
由圖4可知,均方誤差隨著決策樹數(shù)量的增加而不斷下降,當決策樹數(shù)量為471時,其均方誤差達到最小。可得模型最優(yōu)迭代次數(shù)為471,與最初所設(shè)的數(shù)量600棵十分接近。模型利用網(wǎng)格搜索法尋優(yōu),將學習率的搜索范圍設(shè)置為[0.01,1.00],交互深度范圍設(shè)置為[2,6],終節(jié)點最小規(guī)模范圍設(shè)置為[5,10],子抽樣比例范圍設(shè)置為[0.5,1.0]。最終搜索最優(yōu)參數(shù)組合為學習率為0.01,交互深度為2,終節(jié)點最小規(guī)模為5,子抽樣比例為0.5時,模型的擬合效果最好。
圖4 不同決策樹數(shù)量時的GBRT模型的誤差曲線
由表4可知,基于訓練數(shù)據(jù),機器學習算法的擬合效果均優(yōu)于傳統(tǒng)生物量模型。根據(jù)各模型的擬合精度由高到低順序為:隨機森林、梯度提升回歸樹、人工神經(jīng)網(wǎng)絡(luò)、支持向量回歸、傳統(tǒng)生物量模型。相對于傳統(tǒng)生物量模型,隨機森林的均方根誤差、平均絕對誤差、相對誤差絕對值、赤池信息準則(AIC)分別降低了44.47%、42.81%、42.80%和18.17%。根據(jù)測試數(shù)據(jù),得出了與訓練數(shù)據(jù)基本一致的結(jié)果,即機器學習算法的預(yù)測精度均高于傳統(tǒng)生物量模型,其中隨機森林的預(yù)測精度最高。
表4 生物量的模型擬合與預(yù)測結(jié)果評價
由圖5可知,隨機森林的預(yù)測效果最好,基本與45度線重合。
由表5可知,評價模型的無偏估計能力,使用置信度為95%的Z檢驗,驗證訓練和測試數(shù)據(jù)的泛化結(jié)果與真實值的分布,各模型的P值均大于0.05,故接受零假設(shè)(H0),即各模型預(yù)測值與真實值之間無顯著差異。
圖5 5種模型預(yù)測和實際生物量的散點圖
表5 生物量模型的Z檢驗結(jié)果
以興安落葉松為例,構(gòu)建了傳統(tǒng)的地上生物量模型,并進行了異方差校正?;谙嗤淖兞繕?gòu)建了4種機器學習模型,結(jié)果表明,4種機器學習算法可以更好的預(yù)測興安落葉松的地上生物量。各模型根據(jù)測試數(shù)據(jù)的預(yù)測精度由高到低的排序為:隨機森林、人工神經(jīng)網(wǎng)絡(luò)、梯度提升回歸樹、支持向量回歸、傳統(tǒng)生物量模型。其中,隨機森林模型的預(yù)測精度最高,相比于傳統(tǒng)生物量模型,隨機森林模型的均方根誤差降低了10.95%,平均絕對誤差降低了10.34%,相對誤差絕對值降低了10.34%。
傳統(tǒng)生物量模型的結(jié)構(gòu)簡單,但通常要滿足假設(shè)前提,如獨立、正態(tài)和方差異質(zhì)性等。隨著計算機技術(shù)的發(fā)展,尤其是機器學習算法的出現(xiàn)解決了傳統(tǒng)模型不能解決的問題。Ye et al.[26]使用SVR、ANN、RF 3種機器學習算法對刺槐人工林的地上生物量進行估算,表明RF模型為估算刺槐人工林地上生物量的最佳模型;Wongchai et al.[21]對三種速生喬木進行建模,發(fā)現(xiàn)隨機森林相對于其他機器學習算法擁有更高的預(yù)測精度。
本研究采用的機器學習模型與傳統(tǒng)參數(shù)模型都是采用相同變量構(gòu)建。Li et al.[27]認為變量選擇是機器學習算法非常重要的部分,變量的選擇顯著影響模型的預(yù)測精度。一些算法的精度雖然高于傳統(tǒng)生物量模型但并沒有大幅度提高,導致這些結(jié)果的原因是模型擬合過程中只輸入了基本的單木測樹因子,落葉松的地上生物量與林分因子、立地條件、氣候條件等也有著緊密的相關(guān)性。隨著數(shù)據(jù)的積累,未來可以將林分和環(huán)境變量因子引入模型,選擇有效且相關(guān)的變量作為機器學習模型的輸入變量可以被認為是進一步提高機器學習算法模型預(yù)測能力的手段。