高若楠,謝陽生,雷相東,陸元昌,蘇喜友
(1.北京林業(yè)大學(xué) 信息學(xué)院,北京 100083;2.中國林業(yè)科學(xué)研究院 資源信息研究所,北京 100091)
立地質(zhì)量評價是指對立地的宜林性或潛在生產(chǎn)力進(jìn)行判斷和預(yù)測[1],是實現(xiàn)科學(xué)造林、經(jīng)營森林以及森林收獲預(yù)估的關(guān)鍵。立地質(zhì)量評價可為適地適樹、育林措施等提供依據(jù)。立地質(zhì)量評價分為有林地立地質(zhì)量評價和無林地立地質(zhì)量評價,無林地的生產(chǎn)潛力可通過有林地的環(huán)境因子及林木生長狀況預(yù)估[2]。傳統(tǒng)的立地質(zhì)量評價方法有多元線性回歸方法[3-5]、數(shù)量化方法[6]等。但是林木生長與環(huán)境因子間通常是復(fù)雜的非線性關(guān)系,傳統(tǒng)的線性建模方法一般都簡化假設(shè)條件,難以達(dá)到理想的效果。朱光玉等[7]通過對年齡、優(yōu)勢高進(jìn)行分級,針對杉木純林構(gòu)建了多形立地指數(shù)曲線模型預(yù)估立地生產(chǎn)力。黃家榮等[8]以馬尾松為例,應(yīng)用BP神經(jīng)網(wǎng)絡(luò)建立了立地因子與立地指數(shù)之間的關(guān)系,取得了比多元回歸模型更好的預(yù)測精度,但是BP神經(jīng)網(wǎng)絡(luò)存在訓(xùn)練時間長,預(yù)測能力與泛化能力矛盾,易出現(xiàn)過擬合等弊端[9]。目前的研究主要針對純林,對于混交林的立地生產(chǎn)力研究并不多見。
隨機森林模型能夠有效地處理非線性、交互作用等問題,同時能夠有效地避免過擬合,而且擁有變量重要性評估功能,被成功應(yīng)用于地質(zhì)、生態(tài)等領(lǐng)域[10-15]。但目前國內(nèi)外將隨機森林模型用于立地生產(chǎn)力評價預(yù)測的研究不多,蔣育昊[16]采用隨機森林模型模擬了紅松在全國的潛在分布結(jié)果,但并沒有考慮紅松在各區(qū)域的生產(chǎn)力狀況。本研究采用隨機森林模型,考慮立地因子、氣候因子對立地生產(chǎn)力的影響,以汪清林業(yè)局大荒溝林場、大柞樹林場等11個林場的蒙古櫟Quercus mongolica、闊葉混交林及針闊混交林為研究對象,選取19個氣候因子及6個立地因子作為自變量,應(yīng)用隨機森林回歸算法,分別建立蒙古櫟、闊葉混交林及針闊混交林的立地質(zhì)量評價模型,對不同環(huán)境條件下的造林地進(jìn)行生產(chǎn)潛力預(yù)測,從而實現(xiàn)無林地與有林地立地質(zhì)量評價的有機統(tǒng)一。
汪清林業(yè)局位于吉林省延邊朝鮮族自治州東部,地 理 坐 標(biāo)為 129°56′~ 131°04′E,43°05′~43°40′N。全局下設(shè)塔子溝、大柞樹、沙金溝、金溝嶺、地陰溝、荒溝、浪溪、金蒼、六道、蘭家、西南岔、杜荒子、大荒溝13個林場。該區(qū)域?qū)俸疁貛Т箨懶约撅L(fēng)氣候,四季分明。年平均氣溫3.9 ℃,極端最高氣溫37.5 ℃,極端最低氣溫-37.5℃,年≥10 ℃的活動積溫為2 300 ℃,年均日照時數(shù)約為2 351 h,年均降水量為550 mm。初霜期在9月中旬,終霜期在5月下旬,全年無霜期137 d,全年冰凍期約4個半月。汪清林業(yè)局地形地貌屬長白山系的中低山丘陵區(qū)。境內(nèi)土壤類型有針葉林灰化土、暗棕壤、白漿土、草甸土、沖積土、沼澤土等8個土類、14個亞類。典型暗棕壤占89.6%,暗色暗棕壤占4.9%,泥炭沼澤土占0.9%,草甸土占0.8%,草甸暗棕壤占0.4%,其它土壤占0.4%。 山地土壤以暗棕壤為主,川地、谷地以泥炭沼澤土、草甸土為主,土壤垂直變化明顯。植被屬長白山植物區(qū)系深山區(qū)以針闊混交林為主,近山區(qū)以次生蒙古櫟林和楊樺林為主。主要喬木樹種有紅松Pinus koraiensis、云杉Picea asperata、長白落葉松Larix olgensis、紫椴Tilia amurensis、水曲柳Fraxinus mandschurica、胡桃楸Juglans mandshurica、黃菠蘿Phellodendron amurense、蒙古櫟、白樺Betula platyphylla、大 青 楊Populus ussuriensis、白 楊Populus tomentosa、色木槭Acer mono等;主要灌木樹種有稠李Prunus padus、暴馬丁香Syringa reticulata、鼠李Rhamnus davurica、花楸Sorbus pohuashanensis、青楷槭Acer tegmentosum、花楷槭Acer ukurunduense、忍 冬Lonicera japonica、胡枝子Lespedeza bicolor、刺五加Acanthopanax senticosus、榛 子Corylus heterophylla等; 主 要草本植物有蕨類Pteridophyta、羊胡子草Carex rigescens、山茄子Lonicera caerules等。
本研究數(shù)據(jù)來源有兩類:1)汪清林業(yè)局二類調(diào)查數(shù)據(jù),來源于大荒溝林場、大柞樹林場、地印溝林場、杜荒子林場、荒溝林場、金蒼林場、浪溪林場、六道林場、砂金溝林場、塔子溝林場、西南岔林場等11個林場2007年森林資源二類調(diào)查數(shù)據(jù),包括海拔、土層厚度、坡位、坡向、腐殖質(zhì)層厚度、坡度等立地因子以及每公頃蓄積量、生長年齡、優(yōu)勢樹種等測樹因子;2)生物氣候數(shù)據(jù),來源于世界氣候數(shù)據(jù)庫(http://www.worldclim.org)[17],研究選取對林木生長具有重要影響的包含溫度、降水量等指標(biāo)的19個氣候因子(表1)。
表1 參與模型構(gòu)建的環(huán)境因子Table1 Environmental factors involved in model building
1.3.1 隨機森林原理
隨機森林是由Breiman于1995年提出的一種基于決策樹的機器學(xué)習(xí)算法[18]。它是利用Bootstrap重抽樣的方法從原始數(shù)據(jù)中抽取多個樣本,對每個Bootstrap樣本進(jìn)行決策樹建模,然后對多顆決策樹的預(yù)測進(jìn)行組合。當(dāng)預(yù)測變量為數(shù)值型變量時,生成的隨機森林模型為多元非線性回歸模型,模型預(yù)測結(jié)果為多顆決策樹預(yù)測結(jié)果的平均值。
假設(shè)原始數(shù)據(jù)樣本含量為n,變量個數(shù)為m。應(yīng)用Bootstap從原始數(shù)據(jù)集中有放回地隨機抽取ntree個自助樣本集,并構(gòu)建ntree棵決策樹。在每次抽樣中未被抽中的樣本組成ntree個袋外數(shù)據(jù)(Out-Of-Bag,OOB),作為隨機森林模型的測試樣本。在每棵決策樹的每個節(jié)點處隨機抽取mtry個變量作為備選分支變量,然后根據(jù)最優(yōu)分割準(zhǔn)則選取最優(yōu)分枝。一般地,隨機森林回歸模型中,mtry的推薦值為m/3[19],ntree的取值只需滿足隨機森林的整體誤差趨于穩(wěn)定即可[20]。
1.3.2 模型評價方法
隨機森林回歸模型采用袋外數(shù)據(jù)OOB為測試樣本,無需預(yù)留數(shù)據(jù)做交叉驗證,模型回歸效果評價采用OOB預(yù)測的殘差均方[21-22],見公式(1)、(2)和(3)。
式(1)至(3),yi為OOB中預(yù)測變量的實際觀測值,為隨機森林回歸模型的預(yù)測值,σ?2y為模型預(yù)測值方差。
1.3.3 變量重要性評價
本研究中,隨機森林回歸模型中的變量重要性評分采用隨機置換的殘差均方減小量來衡量。其基本思想是:首先,對于構(gòu)建的ntree 棵決策樹模型,計算每棵決策樹對應(yīng)的OOB殘差均方,記為MSE1,MSE2,…,MSEntree。其次,對于變量Xj,在ntree 個OOB樣本中隨機置換,形成新的測試樣本。利用已建立的模型對新測試樣本進(jìn)行預(yù)測,得到隨機置換后的OOB殘差均方,見矩陣(4)。最后,將MSE1,MSE2,…,MSEntree分別與矩陣(4)中的每一行相減,求其平均值,并與標(biāo)準(zhǔn)誤作商得到變量Xj的重要性評分,見公式(5)。
1.3.4 模型實現(xiàn)
從汪清林業(yè)局2007年森林資源二類調(diào)查數(shù)據(jù)中,分別選取優(yōu)勢樹種為蒙古櫟、針闊混交林、闊葉混交林的小班,數(shù)量為3 313個、3 660個、10 713個。選擇海拔、土層厚度、坡位、坡向、腐殖質(zhì)層厚度、坡度6個立地因子以及林分每公頃蓄積、生長年齡2個測樹因子。本研究采用林木年平均蓄積生長量作為預(yù)測立地生產(chǎn)力的依據(jù),其計算方法見公式(6)。其中V′為年平均蓄積生長量,V為林分每公頃蓄積,a為林分生長年齡。
將19個氣候因子導(dǎo)入ArcGIS10.2軟件中,通過數(shù)據(jù)轉(zhuǎn)換功能,將氣候數(shù)據(jù)轉(zhuǎn)換成ASCII格式文件。柵格數(shù)據(jù)處理地圖采用中國行政區(qū)劃圖(1∶400)。應(yīng)用ArcGIS軟件將柵格數(shù)據(jù)與基礎(chǔ)數(shù)據(jù)配準(zhǔn)、裁剪得到研究區(qū)19個氣候因子圖層。為了便于直觀地了解蒙古櫟、針闊混交林、闊葉混交林的有林地生產(chǎn)力情況,表2統(tǒng)計分析了3種天然林海拔、坡度、年平均蓄積生長量及19個氣候因子的最大值、最小值、平均值、標(biāo)準(zhǔn)差。
表2 3種天然林定性因子統(tǒng)計量分析Table2 Statistical analysis on qualitative factors for three natural forests
將年平均蓄積量作為隨機森林回歸模型的輸出變量,模型的輸入變量選擇海拔、土層厚度、坡位、坡向、腐殖質(zhì)層厚度、坡度6個立地因子以及包含溫度、降水量等的19個氣候因子,分別構(gòu)建蒙古櫟林、針闊混交林、闊葉混交林3個隨機森林回歸模型,建模時參數(shù)mtry取值為8,ntree取值為1 000。
表3顯示了所建立的3個隨機森林回歸模型的MSE、RMSE及R2的值,其中MSE值分別為:0.05、0.29、0.27;RMSE的 值 分 別 為:0.22、0.54、0.52;R2值分別為:0.79、0.79、0.72。從數(shù)值來看,模型擬合效果較為理想。
表3 隨機森林模型效果評價Table3 Evaluation of the effects of random forest models
將1 488組無林地的環(huán)境因子分別輸入所建立的3種隨機森林回歸模型,預(yù)測3種立地類型林木年平均蓄積生長量。表4展示了3種無林地的生產(chǎn)力對比情況。就年平均蓄積生長量的平均值而言,針闊混交林、闊葉混交林分別為2.173 m3·hm-2和2.125 m3·hm-2,均高于蒙古櫟純林 1.912 m3·hm-2。其中,闊葉混交林的年平均蓄積生長量最大值達(dá)到7.611 m3·hm-2。而從年平均蓄積生長量最大值和年平均蓄積生長量的最小值對比來看,混交林最大值和最小值之間的差異明顯大于純林,這也間接說明混交林的水平結(jié)構(gòu)更加穩(wěn)定。因此,在無林地進(jìn)行造林時,可考慮盡量不要選擇造純林,而以造物種更加豐富、生態(tài)系統(tǒng)更加穩(wěn)定的混交林為主。
表4 3種無林地生產(chǎn)力對比Table4 Comparison of three kinds of non-forest land productivity (m3·hm-2)
關(guān)于以上特征變量對林木生長的影響權(quán)重,本研究采用變量相對重要性來描述,圖1、圖2、圖3分別表示影響蒙古櫟、針闊混交林、闊葉混交林的變量相對重要性排序??梢缘贸?,對蒙古櫟生長影響較大的因子依次為月平均氣溫差、溫度季節(jié)性變化、坡度、年降水量、年平均氣溫差,對其生長影響較小的因子依次為等溫性、最暖季平均氣溫、最干月平均氣溫;對針闊混交林生長影響較大的因子依次為:坡度、腐殖質(zhì)層厚度、月平均氣溫差、最濕季度降水量、最暖季度降水量,對其生長影響較小的因子依次為最干月降水量、最濕月降水量、年平均氣溫差;對闊葉混交林生長影響較大的因子依次為:坡度、坡位、坡向、溫度季節(jié)性變化、最干旱季平均氣溫,對其生長影響較小的因子依次為最干月降水量、海拔、最冷季度降水量。以上結(jié)論看出,在立地因子中,坡度、坡向、坡位對天然林的生產(chǎn)力有較大的影響,與曾斌、單長卷[23-24]的研究結(jié)論一致。另外氣候因子對林木的生長量和樹種的分布也有重要影響,這與劉丹、賈翔、張雷等[25-27]的結(jié)論基本吻合。
圖1 影響蒙古櫟生長的變量相對重要性Fig.1 Relative importance of variables affecting growth of Q.mongolica
圖2 影響針闊混交林生長的變量相對重要性Fig.2 Relative importance of variables affecting growth of conifer-broadleaf forest
圖3 影響闊葉混交林生長的變量相對重要性Fig.3 Relative importance of variables affecting growth of broadleaf mixed forest
隨機森林回歸模型能夠有效地處理非線性、交互作用等問題,在沒有顯著增加運算量的前提下,可提高模型的預(yù)測準(zhǔn)確率。本研究以汪清林業(yè)局大荒溝林場、大柞樹林場等11個林場的蒙古櫟、闊葉混交林及針闊混交林為研究對象,從森林資源二類調(diào)查數(shù)據(jù)中選取優(yōu)勢樹種為蒙古櫟、闊葉混交林及針闊混交林的小班,選擇海拔、土層厚度、坡位、坡向、腐殖質(zhì)層厚度、坡度6個立地因子以及年平均氣溫、月平均氣溫差、等溫條件、溫度季節(jié)性、最熱月最高氣溫、最冷月最低氣溫、年平均氣溫差、最濕季平均氣溫、最干旱季節(jié)平均氣溫、最熱季平均氣溫、最冷季平均氣溫、年降水量、最濕月降水量、最干月降水量、降水量季節(jié)性、最濕季降水量、最干季降水量、最熱季降水量、最冷季降水量19個氣候因子,采用隨機森林回歸算法,分別建立了針對蒙古櫟、闊葉混交林及針闊混交林的年平均蓄積生長量預(yù)估模型。
本研究所建立的3個隨機森林回歸模型,總體來看決定系數(shù)R2的值分別為0.79、0.79、0.72,均方根誤差RMSE的值分別為0.22、0.54、0.52,模型的擬合效果較好。模型可以對研究區(qū)域內(nèi)的蒙古櫟林、闊葉混交林及針闊混交林的年平均蓄積生長量進(jìn)行非參數(shù)模型估測,對不同立地條件下的造林地進(jìn)行生產(chǎn)潛力預(yù)測,從而實現(xiàn)無林地與有地立地質(zhì)量評價的有機統(tǒng)一。通過對比同一立地3種類型的生產(chǎn)力可知,就平均值而言,針闊混交林、闊葉混交林的年平均蓄積生長量均高于蒙古櫟純林,針闊混交林略高于闊葉混交林。
同時,利用隨機森林模型的變量重要性評估功能,分析了立地因子及氣候因子對于樹種生長的影響程度。對于蒙古櫟純林,由于其為相對喜濕的闊葉樹種[23],氣溫變化及年降水量是影響其生長的主要因素,與賈翔等[24]研究結(jié)論較為一致。對針闊混交林,對其生長影響較大的因子依次為:坡度、腐殖質(zhì)層厚度、月平均氣溫差、最濕季度降水量、最暖季度降水量;對于闊葉混交林,坡度、坡位、坡向、溫度季節(jié)性變化及最干旱季平均氣溫是影響其生長的主要因素,最干月降水量對于3種林木生長影響均較小,地形因子對林木生長的影響與曾斌、單長卷[23-24]的研究結(jié)論一致。不同的環(huán)境因子組合對于樹種的生長,表現(xiàn)出不同的作用程度。因此,應(yīng)客觀考慮各環(huán)境因子的影響程度,使林木的生長環(huán)境條件盡可能地處于最佳組合狀態(tài)。
盡管隨機森林回歸模型具有較好的擬合效果及預(yù)測準(zhǔn)確率,但是所構(gòu)建模型為非參數(shù)模型,在應(yīng)用方面存在局限性。此外,本研究在建模時,mtry的取值選用系統(tǒng)默認(rèn)的輸入變量個數(shù)的1/3,如何更加合理的選取mtry和ntree的值,使得模型在保證準(zhǔn)確率的同時提高運算速度,還有待進(jìn)一步地研討。