摘 要:【目的】構建地理加權隨機森林(Geographically weighted random forest, GWRF)模型估算森林碳儲量以解決區(qū)域尺度范圍內(nèi)森林碳儲量估算精度不高的問題,對科學經(jīng)營管理森林、推動碳循環(huán)和碳匯相關研究、實現(xiàn)我國“雙碳”目標有重要指導意義。【方法】以黑龍江省小興安嶺、長白山地區(qū)森林植被碳儲量為研究對象,基于2015年森林資源連續(xù)清查數(shù)據(jù)和Landsat8-OLI影像,采用普通最小二乘(Ordinary least squares, OLS)、隨機森林(Random forest, RF)模型、地理加權回歸(Geographically weighted regression, GWR)模型以及地理加權隨機森林模型分別構建不同林型及總體(不分林型)的森林碳儲量估測模型,比較是否區(qū)分林分類型時,不同模型預測精度之間的差異,實現(xiàn)對研究區(qū)森林碳儲量的精準反演。【結果】1)各個模型在區(qū)分林型時的預測精度均高于總體(不分林型)情況,以GWRF模型精度最優(yōu),其中針葉林精度最高(R2=0.58, RMSE=15.97 t/hm2);闊葉林次之(R2=0.46, RMSE=17.66 t/hm2);針闊混交林隨后(R2=0.45, RMSE=19.51 t/hm2);總體(不分林型)最低(R2=0.40, RMSE=20.22 t/hm2)。2)4種模型的檢驗精度GWRF>RF>GWR>OLS。與OLS相比,GWRF在針葉林、闊葉林、針闊混交林和總體(不分林型)中提升的ΔR2分別為0.15、0.09、0.16和0.04;降低的ΔRMSE分別為2.09、1.35、3.47和0.89 t/hm2;與RF相比,GWRF提升的ΔR2分別為針葉林0.14、闊葉林0.06、針闊混交林0.04、總體(不分林型)0.02;降低的ΔRMSE分別為針葉林1.95 t/hm2、闊葉林0.86 t/hm2、針闊混交林0.67 t/hm2、總體(不分林型)0.29 t/hm2。3)研究區(qū)森林碳儲量密度最高預測值為77.08 t/hm2,最低值為5.24 t/hm2,平均值為41.07 t/hm2,總量為552.04 Tg;從空間上看,森林碳儲量高值分布在小興安嶺東南部、張廣財嶺等地區(qū),呈現(xiàn)斑狀不均勻性分布。【結論】相比于其他3種模型,GWRF作為局部模型,考慮到空間異質(zhì)性,在區(qū)域尺度范圍內(nèi)估測森林碳儲量有較好的應用前景。區(qū)分林分類型能提高預測精度,在今后對森林生物量或碳儲量的研究中,應考慮區(qū)分林分類型建模。本研究的模型和方法有一定適應性,可為森林資源的快速和精準監(jiān)測提供方法借鑒。
關鍵詞:森林碳儲量;地理加權隨機森林;地理加權回歸;隨機森林;遙感估測
中圖分類號:S757.3 文獻標志碼:A 文章編號:1673-923X(2024)07-0064-13
基金項目:國家重點研發(fā)計劃項目(2020YFC1511603-1);中央高?;究蒲袠I(yè)務費專項資金資助項目(2572022DT03);中國龍江森林工業(yè)集團有限公司科技項目(HFW230100074);東北林業(yè)大學碳中和專項科學基金項目(HFW220100054)。
Geographically weighted random forest approach to predict forest carbon storage by remote sensing in Heilongjiang
WEI Gerana, LI Mingzea, QUAN Yinga, WANG Bina,b, LIU Jianyanga, MING Langa
(a. Key Laboratory of Sustainable Forest Ecosystem Management-Ministry of Education; b. Engineering Consulting and Design Institute Co. Ltd., Northeast Forestry University, Harbin 150040, Heilongjiang, China)
Abstract:【Objective】To construct a geographically weighted random forest (GWRF) model for characterizing forest carbon storage in order to address the problem of low accuracy in estimating forest carbon stocks at the regional scale. This has significant implications for the scientific management of forests, the advancement of research on the carbon cycle and carbon sequestration, and the achievement of our country’s “double carbon” goal. 【Method】 Focusing on the carbon storage of forest vegetation in the Xiaoxing’an mountains and Changbai mountains of Heilongjiang province, this paper was based on the 2015 continuous forest resource inventory data and Landsat 8-OLI imagery. Different forest carbon storage estimation models were constructed for various forest types and the total (no forest type), using ordinary least squares (OLS), random forest (RF), geographically weighted regression (GWR), and geographically weighted random forest (GWRF). Additionally, this paper also compared the differences in prediction accuracy among different models whether distinguishing forest stand types and achieved accurate inversion of forest carbon storage in the study area.【Result】1) Each model exhibited higher predictive accuracy when distinguishing between forest types compared to the total (no forest type) situation. The GWRF model achieved the highest accuracy, with the highest precision for coniferous forest (R2=0.58, RMSE=15.97 t/hm2); followed by broadleaf forest (R2=0.46, RMSE=17.66 t/hm2); mixed forest (R2=0.45, RMSE=19.51 t/hm2); and the lowest accuracy for the total (no forest type) (R2=0.40, RMSE=20.22 t/hm2). 2) The test accuracy of the four models was GWRF>RF>GWR>OLS. Compared with OLS, GWRF increased ΔR2 by 0.15, 0.09, 0.16, and 0.04 in coniferous forest, broadleaf forest, mixed forest, and total(no forest type); and decreased ΔRMSE by 2.09, 1.35, 3.47 and 0.89 t/hm2, respectively. Compared with RF, the ΔR2 increased by GWRF is 0.14 for coniferous forest, 0.06 for broadleaf forest, 0.04 for mixed forest, and 0.02 for total (no forest type); the reduced ΔRMSE is 1.95 t/hm2 in coniferous forest, 0.86 t/hm2 in broadleaf forest, 0.67 t/hm2 in mixed forest, and 0.29 t/hm2 in total (no forest type). 3) The highest predicted forest carbon storage density in the study area was 77.08 t/hm2, the lowest is 5.24 t/hm2, the average was 41.07 t/hm2, and the total was 552.04 Tg. From a spatial perspective, high values were concentrated in the southeastern regions of the Xiaoxing’an mountains and Zhangguangcai mountains, displaying a patchy and uneven distribution.【Conclusion】Comparing to the other three models, GWRF, as a local model that accounts for spatial heterogeneity, has promising applications for estimating forest carbon storage on a large scale. Differentiating forest stand types can improve the accuracy of prediction, we should take into account distinguishing stand type modeling in future research on forest biomass or carbon stocks. The models and methods studied in this paper have a certain level of adaptability and can provide methodological references for the rapid and precise monitoring of forest resources.
Keywords: forest carbon storage; geographically weighted random forest; geographically weighted regression; random forest; remote sensing estimation
森林生態(tài)系統(tǒng)作為陸地生態(tài)系統(tǒng)中最大的碳庫,在涵養(yǎng)水源、固碳釋氧、維持全球碳平衡等方面發(fā)揮著不可替代的作用,研究森林生態(tài)系統(tǒng)的碳儲量,一直以來都是國內(nèi)外學者關注的熱點問題[1]。隨著國家戰(zhàn)略層面提出在2030年完成碳達峰、2060年實現(xiàn)碳中和的目標,越來越多的研究者開始將目光投向關于林業(yè)碳匯的研究,而如何合理發(fā)揮森林植被的巨大碳匯能力、提升森林的固碳能力、早日科學實現(xiàn)“雙碳”目標是當前研究問題的重中之重[2]。
森林碳儲量作為反映森林生態(tài)系統(tǒng)基本特征的重要指標和評價森林結構功能和生產(chǎn)潛力的理論基礎,對維持全球碳平衡有重要意義[3],準確估算森林碳儲量并分析其空間格局關系到如何降低大氣中二氧化碳濃度、減緩全球氣候變暖、實現(xiàn)我國“雙碳”目標等重大議題[4];能推動碳循環(huán)和碳匯相關研究的進展并為實現(xiàn)可持續(xù)發(fā)展、經(jīng)營管理森林和生態(tài)環(huán)境建設提供決策服務[5]。森林碳儲量的估算方法包括傳統(tǒng)的樣地清查法,微氣象學方法和遙感估測法等[6],傳統(tǒng)的樣地清查法雖然能獲得較為準確的數(shù)據(jù),但其存在耗費巨大人力物力財力、更新速度慢,難以適時動態(tài)監(jiān)測的問題;而遙感技術憑借其監(jiān)測范圍廣、信息獲取周期短、實時和經(jīng)濟便捷等優(yōu)勢,成為近年來估算森林碳儲量的重要手段[7]。使用遙感變量與地面實測數(shù)據(jù)建立不同的模型,能夠提高森林碳儲量的反演精度,是解決當前區(qū)域尺度內(nèi)關于森林碳儲量的研究中存在的對演變規(guī)律認識不清、空間格局不明確、定量精度不夠等問題的重要途徑,這使得大區(qū)域尺度內(nèi)估算森林碳儲量成為可能[8]。
隨著遙感技術和機器學習的快速發(fā)展,高分辨率遙感數(shù)據(jù)結合以BP神經(jīng)網(wǎng)絡、K-最近鄰法、隨機森林、支持向量機等為代表的非參數(shù)模型[9-10],和以地理加權回歸模型、克里金插值等為代表的地統(tǒng)計方法是大區(qū)域尺度內(nèi)森林碳儲量估測的兩種最主要的途徑。然而,非參數(shù)模型不能很好考慮變量間的空間位置關系,地統(tǒng)計學模型難以克服因變量與自變量之間的非線性關系、自變量間的多重共線性以及變量間的交互作用等問題[11]。如何將兩種途徑進行科學整合,使其發(fā)揮各自優(yōu)勢是解決上述問題的有效途徑,地理加權隨機森林(Geographically weighted random forest, GWRF)模型便應運而生。該模型將空間位置信息考慮進隨機森林(Random forest, RF)模型中,最早于2019年由Santos等[12]提出。Khan等[13]使用GWRF模型,基于從遙感數(shù)據(jù)中提取的植被指數(shù)、初級生產(chǎn)總值(GPP)、氣候資料等,改進了對美國玉米帶玉米產(chǎn)量的預測方法。通過將GWRF模型與其他流行的機器學習算法的預測結果進行比較,發(fā)現(xiàn)GWRF模型有更優(yōu)的預測結果、能更好地解決空間非平穩(wěn)性問題。然而,該模型目前并未用于對森林生態(tài)系統(tǒng)碳儲量的估測研究中,如何利用該模型提高森林碳儲量的估測精度是本研究需要明確的問題,這對進一步改善大尺度范圍內(nèi)的森林碳儲量估測有參考意義。
綜上所述,估算森林碳儲量作為實現(xiàn)我國“雙碳”目標的重要基礎,目前已取得一定進展,但構建新算法在大尺度范圍內(nèi)更精準地測算森林碳儲量仍是研究的重難點。因此,本研究擬利用Landsat8-OLI影像和2015年森林資源連續(xù)清查數(shù)據(jù),使用普通最小二乘、隨機森林模型、地理加權回歸模型、地理加權隨機森林模型對黑龍江省小興安嶺、長白山地區(qū)森林碳儲量進行估測,對比各類模型的優(yōu)劣,選出最優(yōu)模型,為大尺度森林碳儲量的遙感估測提供方法借鑒。
1 材料與方法
1.1 研究區(qū)概況
研究區(qū)位于黑龍江省小興安嶺、長白山地區(qū)(122°40′~135°05′E,43°26′~50°07′N)。該地幅員遼闊,橫跨黑龍江、烏蘇里江、松花江、綏芬河四大水系,地勢西北高、東南低,屬寒溫帶與溫帶大陸性季風氣候,冬季寒冷漫長,夏季溫暖短暫,年平均氣溫為-5~-2 ℃,年降水量為350~600 mm。水文復雜,河流眾多。主要樹種有落葉松Larix gmelinii、樟子松Pinus sylvestris var. mongolica、紅皮云杉Picea koraiensis、蒙古櫟Quercus mongolica、山楊Populus davidiana、白樺Betula platyphylla等[14]。研究區(qū)位置如圖1所示。
1.2 數(shù)據(jù)來源與處理
1.2.1 樣地調(diào)查數(shù)據(jù)收集與處理
本研究的實測數(shù)據(jù)來源于黑龍江省2015年森林資源連續(xù)清查數(shù)據(jù),共計1 915塊喬木林地。使用每木檢尺數(shù)據(jù)基于黑龍江省各樹種相容性生物量模型[15]和已建立的灌木草本生物量模型[16]計算各樣地森林植被生物量,乘以含碳率轉換系數(shù)得到各樣地森林植被碳儲量總量,除以樣地面積得到各樣地森林植被碳儲量密度(t/hm2)。
為了獲得更為準確的預測結果,同時探討區(qū)分林分類型能否提高模型的預測精度,本研究將林分類型分為針葉林(coniferous forest,CFF)、闊葉林(broadleaf forest,BLF)和針闊混交林(mixed forest,MXF)3種[17],剔除超過±2倍標準差以外的數(shù)據(jù)以減少異常數(shù)據(jù)對模型擬合精度的影響[18],采用隨機抽樣的方法從剔除后的數(shù)據(jù)中挑選出80%作為訓練樣本,其余20%作為測試樣本,具體分布見下表。
1.2.2 遙感影像預處理及變量提取
Google earth engine(GEE)作為一種基于云計算技術分析和處理遙感圖像的平臺,給用戶快速處理大量遙感數(shù)據(jù)提供了可能[19]。為了獲取與地面調(diào)查時間相匹配的遙感影像,本研究從GEE平臺獲取2015年生長季(5—10月)的LANDSAT/LT08/ C02/T1_L2數(shù)據(jù)集,該數(shù)據(jù)集已經(jīng)過幾何精校正、輻射定標和大氣校正,經(jīng)過比例縮放得到地表反射率,通過去云、融合得到分辨率為30 m的較為清晰研究區(qū)地表反射率圖像[20]。利用該圖像計算構建森林碳儲量模型所需的自變量即原始波段、植被指數(shù)及原始波段對應的紋理特征,基于數(shù)字高程模型(digital elevation model,DEM)數(shù)據(jù)提取坡度、坡向、海拔等信息,共計143個變量。
1.3 變量篩選及重要性評價
變量篩選作為回歸算法中重要的一步,對模型擬合精度有重要影響。過多變量可能會導致信息冗余,降低模型精度;而變量過少則會使得模型丟失關鍵解釋信息,亦會對模型精度造成影響,因此選擇合適的變量是保證模型擬合精度的有效途徑[21]。本研究使用R語言中“caret”和“Random forest”包實現(xiàn)隨機森林遞歸特征消除(recursive feature elimination with random forest,RFE-RF),將皮爾遜相關系數(shù)設為0.9以刪除高度相關的自變量[22],使用RFE-RF方法,以RMSE為標準,采用五折交叉驗證法重復10次,篩選出使得RMSE最低的最重要變量,實現(xiàn)對針葉林、闊葉林、針闊混交林及總體(不分林型)特征變量的降維,得到與響應變量有顯著影響的特征因子。
“IncNodePurity”(Increase in node purity),作為評價變量重要性的無單位量綱指標,通過殘差平方和來度量,表示隨機森林樹上每個節(jié)點純度的增加?!癐ncNodePurity”的大小取決于變量對節(jié)點純度增加的貢獻程度,分裂后節(jié)點純度越高,該值越大,則變量越重要[23-24]。采用該指標評價構建針葉林、闊葉林、針闊混交林及總體(不分林型)森林碳儲量估測模型的變量重要性。
1.4 建模方法
1.4.1 普通最小二乘
OLS是一種線性模型,用來描述響應變量Y與解釋變量X1,X2,…,Xp之間的回歸關系。該模型通過使P個解釋變量與響應變量之間殘差平方和最小的方式來擬合模型,具體形式見參考文獻[25],本研究在R語言中實現(xiàn)該模型。
1.4.2 地理加權回歸
GWR作為一種考慮空間對象的局部效應模型,以距離權重的形式將樣點數(shù)據(jù)的地理位置嵌入到回歸系數(shù)中,使得在每一個觀測點都有一套獨立的回歸系數(shù),能夠克服數(shù)據(jù)的空間非平穩(wěn)性,具體形式見參考文獻[26]??臻g核函數(shù)和帶寬作為GWR模型的兩個重要參數(shù),對模型的擬合精度有重要影響,選取最優(yōu)空間核函數(shù)和帶寬能夠提高模型的預測精度。本研究使用R語言中“GWmodel”包實現(xiàn)GWR,選取最佳組合預測森林碳儲量。
1.4.3 隨機森林
RF作為機器學習中一種重要的非參數(shù)模型算法,是利用多個弱分類器進行分類和預測的方法。該方法能夠克服使用單個決策樹帶來的過擬合問題,能夠自動進行特征選擇和特征縮放,對高維度,復雜的數(shù)據(jù)有較好的適應性同時對噪聲和異常數(shù)據(jù)有較強的容錯能力[27]。RF通過自助法(Bootstrap)隨機抽取訓練樣本生成隨機樹進而組成隨機森林,在訓練階段,它從給定的訓練集中隨機抽取大約三分之二的訓練樣本以盡可能地增長指定數(shù)量的樹;在每個節(jié)點上隨機選擇多個變量進行分割,重復n次。使用這些樣本生長樹木,給出回歸樹的集合,經(jīng)過訓練后,對所有單個回歸樹的預測進行平均,實現(xiàn)預測。本研究在Python中實現(xiàn)RF,通過格網(wǎng)搜索法尋找最優(yōu)參數(shù)以提高模型性能。
1.4.4 地理加權隨機森林
RF作為一個非空間的全局模型,無法解決空間異質(zhì)性的問題,GWRF基于RF,將RF擴展為由多個子模型組成的分解,作為一種局部模型,充分考慮到變量間的非線性影響、變量間的交互作用以及空間異質(zhì)性和空間自相關性等問題。該模型允許分析多變量矢量信息以訓練RF,對每個位置i,計算局部RF,引入基于距離的權重來定義RF袋中的不同概率,并對附近物體之間的空間關系進行建模,考慮到不同特征變量的空間位置信息,最終綜合所有決策樹的預測經(jīng)投票得出結果,具體形式見參考文獻[30]。GWRF模型每個局部RF運行的區(qū)域稱為鄰域(或內(nèi)核),數(shù)據(jù)點與其內(nèi)核之間的最大距離稱為帶寬(Bandwidth),常見的兩種核函數(shù)為“自適應”和“固定”,自適應核函數(shù)能夠根據(jù)點的密度分布來確定每個點的權重,鄰域由n個最鄰近點確定,能更好地適應不同密度分布的數(shù)據(jù);而固定核函數(shù)的帶寬則指局部模型運行區(qū)域圓的半徑。不同帶寬對模型精度和預測時間有很大影響,選取合適帶寬是一個基于試錯法的繁瑣過程,無論是“自適應”還是“固定”核函數(shù),均需在各種帶寬上提取帶外數(shù)據(jù)(out-of-bag,OOB)的精度,從而選取具有最佳性能的帶寬,帶寬測試范圍應依照實際樣本分布情況設定[28]。此外,為了更好實現(xiàn)預測,可將從局部子模型(GWRF)中提取的局部異質(zhì)信號,合并到使用更多數(shù)據(jù)的全局模型(RF)中[29],通過融合預測,能夠提升預測精度,權重系數(shù)A對預測精度有很大影響,權重系數(shù)A越大,則GWRF所占的權重越大。使用R語言中的“SpatialIML”包實現(xiàn)GWRF[30]。
1.5 模型評價與檢驗
為了評估模型反演的準確性,檢驗模型的泛化能力,本研究使用決定系數(shù)(Coefficient of determination,R2)、均方根誤差(Root mean squared error,RMSE)、相對均方根誤差(Relative root mean square error,rRMSE%)和平均絕對誤差(Mean absolute error,MAE)檢驗預測精度,計算方法見參考文獻[24]。
2 結果與分析
2.1 特征變量篩選及重要性分析
經(jīng)過篩選,最終得到用于建模的特征變量數(shù)分別為針葉林34、闊葉林10、針闊混交林11、總體(不分林型)9。以“IncNodePurity”為標準,評價不同林型下建模變量的重要性,結果如圖2所示。從結果可知,不同類型的遙感指數(shù)在不同林型下的重要程度不同,但B6波段的重要性最高,表現(xiàn)在對針葉林、總體(不分林型)來說,B6波段的反射率最為重要;而對闊葉林和針闊混交林而言,B6的波段的總平均值(SAVG)紋理最重要。
2.2 地理加權隨機森林模型參數(shù)敏感性分析
GWRF作為局部模型,確定其局部模型運行的區(qū)域對擬合的精度有很大影響。本研究選取“自適應”核函數(shù),針對針葉林、闊葉林、針闊混交林及總體(不分林型),依據(jù)各自的樣本數(shù)量分別定義不同的帶寬測試范圍。基于帶外數(shù)據(jù)的交叉驗證結果,測試以局部模型GWRF(Local R2)、0.5為權重融合GWRF和RF(Mixed R2)(局部模型和全局模型權重相等)和0.25為權重融合GWRF和RF(Low. Local R2)(局部模型權重更小,有利于全局模型)的預測精度[30],最終,以GWRF模型的R2(Local R2)為標準[28],確定最佳帶寬。經(jīng)多次測試,最終選取的帶寬為針葉林150、闊葉林240、針闊混交林55、總體(不分林型)490。結果如圖3所示:
為了實現(xiàn)預測,使用不同權重系數(shù)A:0.1,0.2,0.25,0.3,0.4,0.5,0.6,0.7,0.75,0.8,0.9,1融合GWRF與RF,驗證不同權重系數(shù)在獨立檢驗樣本上的精度差異進一步探明GWRF所占的不同比重對預測精度的影響,尋找最佳權重系數(shù)及最優(yōu)模型。以R2和RMSE為標準,分別測試針葉林、闊葉林、針闊混交林和總體(不分林型)的最佳預測權重,得到最佳權重系數(shù)為:針葉林0.9、闊葉林0.6、針闊混交林0.6,總體(不分林型)0.5。結果如圖4所示:
2.3 模型精度評價
建立了針葉林、闊葉林、針闊混交林及總體(不分林型)的GWRF模型,在獨立驗證樣本上將其與OLS、GWR、RF模型分別進行對比,結果如表5、圖5所示:
OLS作為傳統(tǒng)的線性回歸模型,精度最低;GWR模型在OLS基礎上考慮到位置因素,進一步提高了模型精度;而RF模型作為一種非參數(shù)模型,更加靈活,因此有著更高的預測精度;GWRF模型考慮到兩種模型的優(yōu)勢,且以不同權重融合局部模型(GWRF)和全局模型(RF)能實現(xiàn)更好的預測,精度最高。4種模型的檢驗精度GWRF>RF>GWR>OLS。
區(qū)分林分類型能提高預測精度且GWRF模型的提升效果分林分類型表現(xiàn)更明顯。無論是否分林型建模,GWRF均能取得最優(yōu)的預測結果,有最高的R2和最低的RMSE、rRMSE%、MAE。GWRF模型的R2在針葉林、闊葉林、針闊混交林和總體(不分林型)上分別為0.58、0.46、0.45和0.40;RMSE分別為15.97、17.66、19.51和20.22 t/hm2。與OLS模型相比,GWRF的R2在針葉林、闊葉林、針闊混交林和總體(不分林型)中分別提升了0.15、0.09、0.16和0.04;RMSE分別降低了2.09、1.35、3.47和0.89 t/hm2。與RF模型相比,GWRF提升的ΔR2分別為針葉林0.14、闊葉林0.06、針闊混交林0.04、總體(不分林型)0.02;降低的ΔRMSE分別為針葉林1.95 t/hm2、闊葉林0.86 t/hm2、針闊混交林0.67 t/hm2、總體(不分林型)0.29 t/hm2。在各種林分類型檢驗的過程中,針葉林精度最高,闊葉林次之,針闊混交林隨后,總體(不分林型)最低。
2.4 研究區(qū)森林碳儲量反演制圖
由2.3可知,按林分類型所構建的GWRF模型對森林碳儲量的預測精度要明顯高于其他模型和總體(不分林型)情況。因此,本研究利用該模型,依照MODIS的國際地球生物圈計劃(IGBP)土地覆蓋分類方案產(chǎn)品,分針葉林、闊葉林和針闊混交林對研究區(qū)的森林碳儲量進行反演制圖,結果如圖6所示。由結果可知,研究區(qū)森林碳儲量密度最低預測值為5.24 t/hm2,最高預測值為77.08 t/hm2,平均值為41.07 t/hm2;該地區(qū)森林碳儲量總量為552.04 Tg。從空間分布來看,森林碳儲量高值分布在小興安嶺東南部、張廣財嶺等地區(qū),呈現(xiàn)斑狀不均勻性分布特征。
3 結論與討論
3.1 討 論
準確估算森林碳儲量作為我國碳匯項目中重要的一項,是實現(xiàn)可持續(xù)發(fā)展、保護生物多樣性、弄清碳核算、制定碳減排政策的有效途徑。對比了OLS、GWR、RF和GWRF四種模型間的精度差異,明確GWRF模型充分考慮變量之間的交互作用和空間位置關系,能在大范圍內(nèi)更精準地測算森林碳儲量,可為之后對森林生物量或碳儲量的遙感估測提供方法借鑒。本研究結果與Quinones等[31]的預測結果一致,表明GWRF模型作為一種基于樹的非參數(shù)機器學習模型,在每個位置上建立了不同的回歸樹模型,考慮到自變量與因變量之間的非線性關系,克服了變量間的多重共線性,能夠實現(xiàn)更靈活的預測。但GWRF作為局部模型,目前沒有考慮局部模型之間的差異,即GWRF建立的每個局部RF均使用同樣的參數(shù)和特征,無法根據(jù)局部特點選取最優(yōu)參數(shù)及最重要變量,在今后的研究中,可考慮使用RF的變量選擇[32]、格網(wǎng)搜索[33]和遞歸特征消除[34]等方法實現(xiàn)局部參數(shù)的微調(diào)和局部特征選擇。
在估算森林碳儲量的發(fā)展歷程中,使用傳統(tǒng)光學遙感影像的劣勢日益突出,由于光學遙感飽和性的存在,會使估測結果出現(xiàn)低值高估和高值低估的現(xiàn)象,這會對反演精度造成影響。邱彩新等[35]使用Landsat8結合地統(tǒng)計學方法估算浙江省喬木林碳儲量,構建協(xié)同克里金插值法模型R2達到0.45,與本研究精度類似,但也表明使用單一遙感數(shù)據(jù)源估算森林碳儲量的精度有待提高,使用更高分辨率的光學影像或加入激光雷達等數(shù)據(jù)是提升預測精度的可行方法[36]。穆喜云等[37]以機載LiDAR遙感數(shù)據(jù)為數(shù)據(jù)源,采用隨機森林和多元線性回歸方法,對內(nèi)蒙古大興安嶺生態(tài)站的森林碳儲量進行估測,獲得了比較理想的結果,表明使用機器學習算法融合多源遙感數(shù)據(jù)將成為大尺度范圍內(nèi)估算森林碳儲量的必然要求。
由本研究結果可知,研究區(qū)2015年森林碳儲量密度平均值為41.07 t/hm2,這與Chang等[38]在隨機森林框架下,使用協(xié)同光學植被指數(shù)和微波植被光學厚度產(chǎn)品對我國森林地上碳儲量的估測結果類似,證實了本研究方法的可行性和結果的可靠性。遙感技術憑借其大尺度、全方位覆蓋的優(yōu)勢,能夠較為準確地刻畫研究區(qū)森林碳儲量的空間分布格局。但由于缺少大興安嶺地區(qū)的樣地數(shù)據(jù),考慮到該地區(qū)的空間異質(zhì)性,本研究無法實現(xiàn)對整個黑龍江省的森林碳儲量反演,考慮收集該地區(qū)數(shù)據(jù)可解決上述問題。從反演圖可知,碳儲量最大值分布在小興安嶺、張廣財嶺的部分地區(qū),這與該地區(qū)森林密集,結構完整,立地指數(shù)、林地質(zhì)量較高且較少受人為破壞有關,與劉暢[39]對黑龍江省森林碳儲量空間分布格局的研究結果類似。盡管如此,大尺度范圍內(nèi)估算森林碳儲量仍舊會存在很大的不確定性,全面量化預測森林植被碳儲量的不確定性仍是未來研究的重點。模型參數(shù)、自變量、樣本的不確定性都會對結果造成影響,模型是否穩(wěn)健,參數(shù)設置是否合理,樣本是否具有代表性等問題均是需要考慮的問題。由于定位偏差和測量誤差等的影響,樣地可能無法與遙感影像完全吻合,從遙感影像獲取的信息會受到地形等因素的影響,這都是估算森林碳儲量不確定性的來源[40],合理規(guī)避不確定性,用穩(wěn)健的方法量化森林碳匯仍是亟待解決的問題。本研究中闊葉林和針闊混交林R2接近,但RMSE差異較大且針闊混交林的rRMSE%低于闊葉林,這表明模型能較好地解釋數(shù)據(jù)間變異性,但模型的預測精度在兩種林型之間存在差異。RMSE作為絕對指標,與相對指標R2的量級不同;而rRMSE%與樣本平均值有關。本研究中針闊混交林在研究區(qū)域中占比相對較少且平均值偏大,這會對結果造成影響,考慮加入混交林樣本或使用其他的分類方法可進一步改善模型的驗證精度。
3.2 結 論
綜上,本研究建立了2015年小興安嶺、長白山地區(qū)針葉林、闊葉林、針闊混交林和總體(不分林型)的森林碳儲量估測模型。通過對比OLS、GWR、RF和GWRF模型之間的精度差異,發(fā)現(xiàn)GWRF模型在區(qū)分林分類型后進行建模效果更佳。GWRF模型的R2、RMSE、rRMSE%和MAE均優(yōu)于上述3種模型,在4種林分類型下,針葉林精度最高,闊葉林次之,針闊混交林隨后,總體(不分林型)最低。研究區(qū)2015年森林碳儲量密度平均值為41.07 t/hm2,總量為552.04 Tg。森林碳儲量高值集中在張廣財嶺、小興安嶺等部分地區(qū),空間上呈現(xiàn)斑狀不均勻性分布,這與該地林地質(zhì)量較高且受人為影響較小有關。本研究結果證明了加入空間因素的機器學習模型考慮到空間異質(zhì)性,能提高預測精度,未來應對其他機器學習模型如支持向量機等的地理實現(xiàn)加以研究。
參考文獻:
[1] 宋潔.祁連山森林碳儲量與森林景觀格局時空變化研究[D].蘭州:甘肅農(nóng)業(yè)大學,2021. SONG J. Research on temporal and spatialchanges of forest carbon storage and forest landscape pattern in Qilian mountains[D]. Lanzhou: Gansu Agricultural University,2021.
[2] 張穎,李曉格,溫亞利.碳達峰碳中和背景下中國森林碳匯潛力分析研究[J].北京林業(yè)大學學報,2022,44(1):38-47. ZHANG Y, LI X G, WEN Y L. Forest carbon sequestration potential in China under the background of carbon emission peak and carbon neutralization[J]. Journal of Beijing Forestry University,2022,44(1):38-47.
[3] 劉騰艷,毛方杰,李雪建,等.浙江省竹林地上碳儲量的時空動態(tài)模擬及影響因素[J].應用生態(tài)學報,2019,30(5):1743-1753. LIU T Y, MAO F J, LI X J, et al. Spatiotemporal dynamic simulation on aboveground carbon storage of bamboo forest and its influence factors in Zhejiang province, China[J]. Chinese Journal of Applied Ecology,2019,30(5):1743-1753.
[4] 王成武,羅俊杰,唐鴻湖.基于InVEST模型的太行山沿線地區(qū)生態(tài)系統(tǒng)碳儲量時空分異驅動力分析[J].生態(tài)環(huán)境學報, 2023,32(2):215-225. WANG C W, LUO J J, TANG H H. Analysis on the driving force of spatial and temporal differentiation of carbon storage in the Taihang mountains based on InVEST model[J]. Ecology and Environmental Sciences,2023,32(2):215-225.
[5] 戚玉嬌,李鳳日.基于KNN方法的大興安嶺地區(qū)森林地上碳儲量遙感估算[J].林業(yè)科學,2015,51(5):46-55. QI Y J, LI F R. Remote sensing estimation of aboveground forest carbon storage in Daxing’an mountains based on KNN method[J]. Scientia Silvae Sinicae,2015,51(5):46-55.
[6] 程鵬飛,王金亮,王雪梅,等.森林生態(tài)系統(tǒng)碳儲量估算方法研究進展[J].林業(yè)調(diào)查規(guī)劃,2009,34(6):39-45. CHENG P F, WANG J L, WANG X M, et al. Research progress in estimating carbon storage of forest ecosystem[J]. Forest Inventory and Planning,2009,34(6):39-45.
[7] 張桂蓮.基于遙感估算的上海城市森林碳儲量空間分布特征[J].生態(tài)環(huán)境學報,2021,30(9):1777-1786. ZHANG G L. Spatial distribution characteristics of carbon storage of urban forests in Shanghai based on remote sensing estimation[J]. Ecology and Environmental Sciences,2021,30(9): 1777-1786.
[8] PULITI S, BREIDENBACH J, SCHUMACHER J, et al. Above-ground biomass change estimation using national forest inventory data with Sentinel-2 and Landsat[J]. Remote Sensing of Environment,2021,265:112644.
[9] 李康杰,胡中岳,劉萍,等.基于Landsat-8 Oli影像的珠三角森林生物量估測[J].中南林業(yè)科技大學學報,2023,43(3):73-81. LI K J, HU Z Y, LIU P, et al. Estimation of forest aboveground biomass in the Pearl River Delta based on Landsat-8 Oli remote sensing image data[J]. Journal of Central South University of Forestry Technology,2023,43(3):73-81.
[10] 鄭偉楠,吳勇,歐光龍.基于Landsat 8 OLI的昆明市主要森林類型生物量遙感估測與反演[J].西南林業(yè)大學學報(自然科學),2023,43(6):107-116. ZHENG W N, WU Y, OU G L. Remote sensing estimation and inversion of biomass for major forest types in Kunming based on Landsat 8 OLI[J]. Journal of Southwest Forestry University(Natural Sciences),2023,43(6):107-116.
[11] 李蘭暉,黃聰聰,張鐿鋰,等.基于地理加權隨機森林的青藏地區(qū)放牧強度時空格局模擬[J].地理科學,2023,43(3): 398-410. LI L H, HUANG C C, ZHANG Y L, et al. Mapping the multitemporal grazing intensity on the Qinghai-Tibet Plateau using geographically weighted random forest[J]. Scientia Geographica Sinica,2023,43(3):398-410.
[12] SANTOS F, GRAW V, BONILLA S. A geographically weighted random forest approach for evaluate forest change drivers in the Northern Ecuadorian Amazon[J]. PLoS ONE, 2019,14(12):e0226224.
[13] KHAN S N, LI D P, MAIMAITIJIANG M. A geographically weighted random forest approach to predict corn yield in the US corn belt[J]. Remote Sensing,2022,14(12):2843.
[14] 劉暢,李鳳日,甄貞.空間誤差模型在黑龍江省森林碳儲量空間分布的應用[J].應用生態(tài)學報,2014,25(10):2779-2786. LIU C, LI F R, ZHEN Z. Prediction of spatial distribution of forest carbon storage in Heilongjiang province using spatial error model[J]. Chinese Journal of Applied Ecology,2014,25(10): 2779-2786.
[15] 賈煒瑋.東北林區(qū)各林分類型森林生物量和碳儲量[M].哈爾濱:黑龍江科學技術出版社,2014. JIA W W. Forest biomass and carbon storage of each forest stand type in the northeast forest region[M]. Harbin: Heilongjiang Science and Technology Press,2014.
[16] 范文義,張海玉,于穎,等.三種森林生物量估測模型的比較分析[J].植物生態(tài)學報,2011,35(4):402-410. FAN W Y, ZHANG H Y, YU Y, et al. Comparison of three models of forest biomass estimation[J]. Chinese Journal of Plant Ecology,2011,35(4):402-410.
[17] 錢春花.喀斯特地區(qū)森林生物量遙感反演與時空動態(tài)分析—以貴州省為例[D].南京:南京林業(yè)大學,2022.QIAN C H. Study on remote sensing inversion and spatiotemporal dynamic analysis of forest biomass in Karst area: a case study of Guizhou province[D]. Nanjing: Nanjing Forestry University,2022.
[18] LI H M, ZHANG G L, ZHONG Q C, et al. Prediction of urban forest aboveground carbon using machine learning based on Landsat 8 and Sentinel-2: a case study of Shanghai, China[J]. Remote Sensing,2023,15(1):284.
[19] 趙安周,田新樂.基于GEE平臺的1986—2021年黃土高原植被覆蓋度時空演變及影響因素[J].生態(tài)環(huán)境學報,2022,31(11): 2124-2133. ZHAO A Z, TIAN X L. Spatiotemporal evolution and influencing factors of vegetation coverage in the Loess Plateau from 1986 to 2021 based on GEE platform[J]. Ecology and Environmental Sciences,2022,31(11):2124-2133.
[20] 李春強,高永剛,徐涵秋.Landsat新型熱紅外地表溫度產(chǎn)品與MODIS地表溫度產(chǎn)品的交互對比[J].光譜學與光譜分析, 2023,43(3): 940-948. LI C Q, GAO Y G, XU H Q. Cross comparison between Landsat new land surface temperature product and the corresponding MODIS product[J]. Spectroscopy and Spectral Analysis, 2023,43(3):940-948.
[21] HU T, SUN Y M, JIA W W, et al. Study on the estimation of forest volume based on multi-source data[J]. Sensors,2021,21(23):7796.
[22] AI H X, WU X W, ZHANG L, et al. QSAR modelling study of the bioconcentration factor and toxicity of organic compounds to aquatic organisms using machine learning and ensemble methods[J]. Ecotoxicology and Environmental Safety,2019,179: 71-78.
[23] 李會朋,胥輝,張超,等.基于隨機森林模型的云南松天然林生物量遙感估測[J].西部林業(yè)科學,2022,51(3):60-66,80. LI H P, XU H, ZHANG C, et al. Remote sensing stimation of Pinus yunnanensis natural forest biomass based on random forest model[J]. Journal of West China Forestry Science, 2022,51(3):60-66,80.
[24] 孫忠秋,高金萍,吳發(fā)云,等.基于機載激光雷達點云和隨機森林算法的森林蓄積量估測[J].林業(yè)科學,2021,57(8):68-81. SUN Z Q, GAO J P, WU F Y, et al. Estimating forest stock volume via small-footprint LiDAR point cloud data and random forest algorithm[J]. Scientia Silvae Sinicae,2021,57(8):68-81.
[25] 戚玉嬌.大興安嶺森林地上碳儲量遙感估算與分析[D].哈爾濱:東北林業(yè)大學,2014. QI Y J. Estimates of forest above ground carbon storage using remote sensing in Daxing’an mountions[D]. Harbin: Northeast Forestry University,2014.
[26] 劉勝剛,余哲修,歐光龍,等.基于GWR思茅松單木含碳量模型的構建及空間分布研究[J].西南林業(yè)大學學報(自然科學),2022,42(6):105-113. LIU S G, YU Z X, OU G L, et al. The study on spatial distribution and spatial model establishing based on GWR of carbon content of individual tree for Pinus kesiya var. langbianensis in natural forest[J]. Journal of Southwest Forestry University (Natural Sciences),2022,42(6):105-113.
[27] 孫雪蓮,舒清態(tài),歐光龍,等.基于隨機森林回歸模型的思茅松人工林生物量遙感估測[J].林業(yè)資源管理,2015(1):71-76. SUN X L, SHU Q T, OU G L, et al. Remote sensing estimation of the biomass of artificial Simao pine forest based on random forest regression[J]. Forest Resources Management,2015(1):71-76.
[28] GEORGANOS S, KALOGIROU S. A forest of forests: a spatially weighted and computationally efficient formulation of geographical random forests[J]. ISPRS International Journal of Geo-Information,2022,11(9):471.
[29] AGUIRRE-GUTIéRREZ J, RIFAI S, SHENKIN A, et al. Pantropical modelling of canopy functional traits using Sentinel-2 remote sensing data[J]. Remote Sensing of Environment, 2021,252:112122.
[30] GEORGANOS S, GRIPPA T, GADIAGA A N, et al. Geographical random forests: a spatial extension of the random forest algorithm to address spatial heterogeneity in remote sensing and population modelling[J]. Geocarto International,2021,36(2): 121-136.
[31] QUINONES S, GOYAL A, AHMED Z U. Geographically weighted machine learning model for untangling spatial heterogeneity of type 2 diabetes mellitus (T2D) prevalence in the USA[J]. Scientific Reports, 2021,11(1):6955.
[32] GENUER R, POGGI J M, TULEAU-MALOT C. Variable selection using random forests[J]. Pattern Recognition Letters, 2010,31(14):2225-2236.
[33] PROBST P, WRIGHT M N, BOULESTEIX A L. Hyperparameters and tuning strategies for random forest[J]. Wires Data Mining and Knowledge Discovery, 2019,9(3):e1301.
[34] DARST B F, MALECKI K C, ENGELMAN C D. Using recursive feature elimination in random forest to account for correlated variables in high dimensional data[J]. BMC Genetics, 2018,19(1):65.
[35] 邱新彩,鄭冬梅,王海賓,等.結合地統(tǒng)計學與Landsat 8影像的喬木林地上碳儲量估算[J].中南林業(yè)科技大學學報,2020, 40(11):138-146. QIU X C, ZHENG D M, WANG H B, et al. Estimation of aboveground carbon storage of arbor forest based on the combination of geo-statistical method and Landsat 8 images[J]. Journal of Central South University of Forestry Technology, 2020,40(11):138-146.
[36] LI Y G, HAN N, LI X J, et al. Spatiotemporal estimation of bamboo forest aboveground carbon storage based on landsat data in Zhejiang, China[J]. Remote Sensing, 2018,10(6):898.
[37] 穆喜云,劉清旺,龐勇,等.基于機載激光雷達的森林地上碳儲量估測[J].東北林業(yè)大學學報,2016,44(11):52-56. MU X Y, LIU Q W, PANG Y, et al. Forest aboveground carbon storage using RF algorithmic model and airborne LiDAR data[J]. Journal of Northeast Forestry University, 2016,44(11):52-56.
[38] CHANG Z B, FAN L, WIGNERON J P, et al. Estimating aboveground carbon dynamic of China using optical and microwave remote-sensing datasets from 2013 to 2019[J]. Journal of Remote Sensing, 2023,3:5.
[39] 劉暢.黑龍江省森林碳儲量空間分布研究[D].哈爾濱:東北林業(yè)大學,2014. LIU C. Spatial distribution of forest carbon storage in Heilongjiang province[D]. Harbin: Northeast Forestry University, 2014.
[40] 譚雨欣,田義超,黃卓梅,等.基于XGBoost機器學習算法的北部灣茅尾海無瓣海桑紅樹林地上生物量反演[J].生態(tài)學報,2023,43(11):4674-4688. TAN Y X, TIAN Y C, HUANG Z M, et al. Aboveground biomass of Sonneratia apetala mangroves in Mawei Sea of Beibu Gulf based on XGBoost machine learning algorithm[J]. Acta Ecologica Sinica, 2023,43(11):4674-4688.
[本文編校:吳 毅]