肖云丹 侯瑞霞 紀平
?
基于林分平均直徑的二類小班調查和系統(tǒng)抽樣數(shù)據(jù)的融合
肖云丹 侯瑞霞 紀平*
(中國林業(yè)科學研究院資源信息所 北京 100091)
林分平均直徑是評價立地生產力的一個重要指標。通過系統(tǒng)樣地調查和二類調查數(shù)據(jù)均可得到林分平均直徑。那么該如何做到二類調查數(shù)據(jù)到系統(tǒng)樣地的融合?利用貝葉斯法構建了基于2004年和2009的二類調查數(shù)據(jù)的林分平均直徑模型,然后通過該模型預測2011、2013年的林分平均直徑,并與這兩年的系統(tǒng)樣地數(shù)據(jù)建立融合模型,研究得到融合模型效果較好(R2=0.5861)。
林分平均直徑;二類調查;系統(tǒng)樣地;融合
融合,顧名思義就是將不同來源的數(shù)據(jù)進行聯(lián)合,達到互通互推的目的。隨著森林資源調查數(shù)據(jù)的多元化,監(jiān)測到的數(shù)據(jù)不斷增多,數(shù)據(jù)之間不可避免的存在冗余、互補。數(shù)據(jù)融 合將林業(yè)遙感和地面監(jiān)測數(shù)據(jù)綜合互補,消除冗余,從而降低不確定性,使得森林資源監(jiān)測更準確可信。王臣立[1]以雷州林業(yè)局2002年一類清查數(shù)據(jù)以及地面調查數(shù)據(jù)作為地面數(shù)據(jù)源,融合LANDSAT-TM和RADARSAT-SAR估算了研究區(qū)熱帶人工林的凈初級生產力,為熱帶森林NPP的研究提供了一個好思路。李旺等[2]利用機載激光雷達點云數(shù)據(jù),融合大量實測單木結構信息估計了森林地上生物量。劉峰等[3]以雪峰山武岡林場為研究對象,融合遙感數(shù)據(jù)和地面實測樣地數(shù)據(jù),研究機載激光雷達估測中亞熱帶森林喬木層單木地上生物量的能力,并得到了較好的結果。
眾所周知,我國森林資源調查主要分為三類:森林資源清查(簡稱一類清查)、森林資源規(guī)劃設計調查(簡稱二類調查)和作業(yè)調查。對于前兩類森林資源調查,我們討論得比較多。一類清查的目的是及時、準確地查清全國森林資源的數(shù)量、質量及其消長動態(tài),并進行評價。二類調查是以國有林場、自然保護區(qū)、森林公園等森林經營單位或縣級行政區(qū)域為調查單位,以滿足森林經營方案、總體設計、林業(yè)區(qū)劃與規(guī)劃設計需要而進行的森林資源調查,主要是查清森林資源的種類、數(shù)量和質量,以及相關的狀況[4]。相對于一類清查工作而言,二類調查的展開過程要詳細得多。這是一種對當?shù)厣仲Y源進行逐一排查,并進行累加統(tǒng)計的調查方法。然而這兩類調查各有利弊[5]。二類調查由于多控制在地方上,因而常因為資金等問題難以得到開展。因此,在實際工作過程中,應當與一類清查所獲得的數(shù)據(jù)進行融合,有的放矢,做到一類和二類數(shù)據(jù)的信息互補,減少調查成本。一類清查典型的特征就是系統(tǒng)固定樣地調查。本研究將以中國林業(yè)科學研究院熱帶林業(yè)實驗中心為研究地點,以林分平均直徑為研究對象,做到二類小班調查和系統(tǒng)固定樣地數(shù)據(jù)的融合。
2.1 二類調查數(shù)據(jù)
搜集到實驗地2004年二類調查矢量數(shù)據(jù)和2009年二類調查矢量數(shù)據(jù)。
2.2 系統(tǒng)樣地數(shù)據(jù)
該數(shù)據(jù)是試驗地管理部門在生產中自己設計調查的,共設計了238個樣地,每兩年調查一次。本研究搜集到實驗地2011年系統(tǒng)樣地數(shù)據(jù)、2013年系統(tǒng)樣地數(shù)據(jù)。
其中調查內容主要是:對樣地概況、樣地數(shù)據(jù)加工、每木調查、幼樹數(shù)據(jù)、幼苗數(shù)據(jù)、草木數(shù)據(jù)、灌木數(shù)據(jù)、枯落物和土壤結構、進界木、林下特征注記、圓形樣地結構、樣地林分影像調查記錄等內容進行詳細的調查。
3.1林分平均直徑模型的建立
利用中國林科院熱帶林業(yè)實驗中心二類調查數(shù)據(jù)或系統(tǒng)抽樣數(shù)據(jù)為研究對象,以林分胸高斷面積、林齡等為自變量構建林分平均直徑模型,為預測林分平均直徑生長動態(tài)變化服務,模型如下:
式中:1、2分別為第1、2期林分平均直徑(cm);
1、2分別為第1、2期林分平均年齡;
1、2分別為第1、2期林分胸高斷面積(m2/ha);
1…5為待估參數(shù)。
3.2 貝葉斯理論
令y= (y1, y2, y3, …)為數(shù)據(jù)向量,=(1,2,3, …)為參數(shù)向量,則根據(jù)貝葉斯理論,其基本公式為:
式中,p為概率分布函數(shù)或者密度函數(shù)。由這公式可以看出,不管是模型參數(shù)還是樣本都看作是隨機變量。根據(jù)貝葉斯條件概率,則對方程(2)變式為:
(3)
其中對于連續(xù)型,
3.3 貝葉斯法與傳統(tǒng)方法的區(qū)別
貝葉斯方法是基于貝葉斯定理而發(fā)展起來用于系統(tǒng)地闡述和解決統(tǒng)計問題的方法。一個完全的貝葉斯分析(full Bayesian analysis)包括數(shù)據(jù)分析、概率模型的構造、先驗信息和效應函數(shù)的假設以及最后的決策[6]。近些年,根據(jù)文獻報道,貝葉斯法(Bayesian method)是估計模型參數(shù)和評價其不確定性的一個不同方法,已經在環(huán)境、生態(tài)、醫(yī)療、水文、林業(yè)等研究領域得到了廣泛應用[7-12]。貝葉斯推斷的基本方法是將關于未知參數(shù)的先驗信息與樣本信息綜合,再根據(jù)貝葉斯定理,得出后驗信息,然后根據(jù)后驗信息去推斷未知參數(shù)[13]。貝葉斯推斷在統(tǒng)計推斷的研究比起傳統(tǒng)推斷法有以下三點優(yōu)勢:貝葉斯推斷法綜合利用了先驗信息和樣本信息,先驗信息(分布)可以來自歷史資料(文獻)或者主觀信念,它是在進行統(tǒng)計推斷時的一個必要因素,而傳統(tǒng)法僅僅利用了樣本信息,缺乏先驗信息的設定;貝葉斯法把樣本和參數(shù)看作是隨機變量,并且一般假設服從正態(tài)分布;而傳統(tǒng)法把未知參數(shù)估計值看作固定值,并沒有對參數(shù)或模型的構造加以限制[14,15]。
3.4 貝葉斯模型的估計方法
在貝葉斯統(tǒng)計中,通過對高維概率分布函數(shù)進行積分,推斷或預測總體參數(shù)。但在許多情況下,因為它并沒有或很難寫出明確的解析表達式,致使這種積分很難進行。所以解決這一難題用數(shù)值積分比較困難而且不夠準確,尤其當維數(shù)較大時更是如此。這種情況下,我們會選擇一種簡單且行之有效的貝葉斯計算方法即馬爾科夫鏈蒙特卡洛(MCMC)方法,而吉布斯抽樣算法(Gibbs sampling)是一種特殊的MCMC算法,其中最重要的軟件包是WinBUGS,它是基于吉布斯抽樣估計的貝葉斯模型。
3.5 先驗分布
先驗分布的選擇在貝葉斯方法中是非常重要的[16]。在上述的林分平均直徑模型中,我們需要為參數(shù)p1…p4選擇合適的先驗分布。許多學者選擇利用無信息先驗分布(non- informative prior),該信息可以忽略不計,而且對參數(shù)估計的影響不大。對于無信息先驗分布,我們一般選擇均值為0,方差足夠大的能夠覆蓋整個數(shù)據(jù)范圍的正態(tài)分布[17]。當然也可以選擇有信息先驗分布(informative prior)作為貝葉斯方法中的先驗分布,這些信息可以來自主觀信念或者歷史文獻資料。本研究首先通過傳統(tǒng)估計方法估計林分平均直徑模型的參數(shù),然后以這些參數(shù)估計值為貝葉斯估計方法的先驗信息分布重新估計林分平均直徑模型,以期得到更精確的估計值。在進行貝葉斯估計時,為了保證迭代收斂和得到穩(wěn)定的參數(shù)后驗概率值,迭代次數(shù)設為30萬次,并去掉前面的5萬次退火(burn-in)迭代。
對于模型模擬效果的評價,本研究采用決定系數(shù)(R2)、均方根誤差(RMSE)2個擬合統(tǒng)計量指標評價。對于數(shù)據(jù)的融合,首先通過2004年、2009年2期二類小班調查數(shù)據(jù)建立林分平均直徑模型,并通過該模型預測2011年、2013年各小班的林分平均直徑;接著利用系統(tǒng)樣地2011年、2013年調查的實際值與通過二類調查數(shù)據(jù)預測所得值進行驗證,并建立線性回歸模型,實現(xiàn)二類小班調查數(shù)據(jù)到系統(tǒng)樣地數(shù)據(jù)的融合。
4.1 模型估計
首先利用非線性最小二乘法估計(proc nlin模塊,SAS)林分平均直徑模型,得到參數(shù)估計值,見表1。由表1發(fā)現(xiàn),模型的各參數(shù)均在0.05水平上表現(xiàn)出顯著性。其次,根據(jù)表1中林分平均直徑模型的估計值和標準誤,作為林分平均直徑模型參數(shù)的先驗信息分布,利用貝葉斯法估計林分平均直徑模型參數(shù)的后驗分布。
表1 基于二類調查數(shù)據(jù)建立的林分平均直徑模型參數(shù)估計值(傳統(tǒng)估計法)
圖1是貝葉斯方法估計林分平均直徑模型參數(shù)的迭代過程圖。由圖2可發(fā)現(xiàn),林分平均直徑模型參數(shù)估計比較平穩(wěn)。
圖1貝葉斯方法估計林分平均直徑模型參數(shù)的迭代過程圖
圖2是林分平均直徑模型通過貝葉斯估計法計算所得的參數(shù)估計值的后驗概率圖。根據(jù)圖2可以發(fā)現(xiàn),是林分平均直徑模型通過貝葉斯估計法計算所得的參數(shù)估計值的后驗概率圖。根據(jù)圖1可以發(fā)現(xiàn),林分平均直徑模型的參數(shù)估計出現(xiàn)一定的不確定性,參數(shù)估計值不是一個固定值,而是服從一定的分布。圖3是通過貝葉斯估計方法估計林分平均直徑模型,所得的決定系數(shù)R2平均值為0.6136,均方根誤差RMSE平均值為3.0325,而且經過F檢驗,差異顯著(P值<0.01)。因此,建立的林分平均直徑模型表現(xiàn)較好,可以很好地預測下期的林分平均直徑生長量。
圖3林分平均直徑模型2和的后驗概率圖
4.2 二類數(shù)據(jù)到系統(tǒng)樣地的融合
基于2004年和2009年二類調查數(shù)據(jù),構建林分平均直徑模型,并通過貝葉斯法估計模型參數(shù)。之后,利用建立好的模型預測2011年和2013年各小班的動態(tài)變化情況。模型中,下標s表示的是二類數(shù)據(jù),下標p表示的是系統(tǒng)樣地數(shù)據(jù)。
林分平均直徑融合模型:
由圖4發(fā)現(xiàn),基于二類數(shù)據(jù)建立的林分平均直徑模型預測所得的2011年和2013年小班林分平均直徑和實際調查的林分平均直徑線性相關性比較高,建立的線性回歸模型擬合精度相對較好。因此,這兩種來源的數(shù)據(jù)從二類調查到系統(tǒng)樣地融合效果較好。
圖4林分平均直徑融合模型相關圖
隨著森林資源監(jiān)測調查數(shù)據(jù)的多元化,所獲得的數(shù)據(jù)不斷增多,數(shù)據(jù)之間不可避免的存在冗余、互補。數(shù)據(jù)融合將多種來源數(shù)據(jù)綜合互補,消除冗余,從而降低不確定性,使得森林資源監(jiān)測更準確可信。本研究對中國林科院熱林中心二類調查數(shù)據(jù)和系統(tǒng)樣地數(shù)據(jù)兩種來源的數(shù)據(jù)進行融合,實現(xiàn)不同來源數(shù)據(jù)的互推轉化,建立融合模型,節(jié)省調查成本。本研究所建立林分平均直徑模型模擬精度較高,而且經過F檢驗,差異顯著。此外,在本研究中引進了貝葉斯理論,利用貝葉斯法估計林分平均直徑模型參數(shù),給出了林分平均直徑模型參數(shù)的后驗概率分布,能夠很好地描述出模型的不確定性,更能符合實際的林木生長狀況。
基于林分平均直徑從二類調查數(shù)據(jù)到系統(tǒng)樣地數(shù)據(jù)的融合,得到以下融合模型:
林分平均直徑融合模型:
通過以上融合模型可發(fā)現(xiàn),林分平均直徑融合模型R2超過了0.58,精度較高。因此,我們可以通過系統(tǒng)樣地調查數(shù)據(jù)推斷得到二類調查小班的林分平均直徑,大大節(jié)省了調查成本,這未嘗不是個好的方法。
[1] 王臣立.雷達與光學遙感結合在森林凈初級生產力研究中應用[J].中國科學院研究生院,2006.
[2] 李旺,牛錚,高帥,等.機載激光雷達數(shù)據(jù)分析與反演青海云杉林結構信息[J]. 遙感學報,2013,17(6):1612-1626.
[3] 劉峰,譚暢,雷丕峰.中亞熱帶森林單木地上生物量的機載激光雷達估測[J].應用生態(tài)學報,2014,25(11):3229-3236.
[4] 孟憲宇.測樹學[M].北京:中國林業(yè)出版社,1996.
[5] 范佐齊.森林資源一類清查和二類調查的對比討論[J].科技與生活,2012,(21):212-212.
[6] Lindley DV. Bayesian thoughts [J]. Significance, 2004, 1(2): 73-75.
[7] Lamon E C, Clyde M. Accounting for model uncertainty in prediction of chlorophylla in Lake Okeechobee. ISDS Discussion Paper 1998, 98-42.
[8] Clyde M. Model uncertainty and health effect studies for particulate matter. Technical Report Series, NRCSE-TRS No. 1999,027.
[9] Ellison A M. Bayesian inference in ecology. Ecology letters, 2004, 7(6): 509-520.
[10] 李向陽. 水文模型參數(shù)優(yōu)選及不確定性分析方法研究[D]. 大連:大連理工大學博士學位論文,2005.
[11]Bullock B P, Boone E L. Deriving tree diameter distributions using Bayesian model averaging. Forest Ecology and Management, 2007, 242 (2-3): 127-132.
[12]Zhang X, Duan A, Zhang J. Tree biomass estimation of Chinese fir (Cunninghamia lanceolata) based on Bayesian method. PLOS ONE, 2013, 8(11): 1-7.
[13]茹詩松等.高等數(shù)理統(tǒng)計[M].北京:高等教育出版社,1998.
[14]張雄清,張建國,段愛國.基于貝葉斯法估計杉木人工林樹高生長模型[J].林業(yè)科學,2014,50(3):69-75.
[15]張雄清,張建國,段愛國.杉木人工林林分斷面積生長模型的貝葉斯估計[J].林業(yè)科學研究,2015,28(4):538-542.
[16]Gelman A, Carlin JB, Stern HS, Rubin DBBayesian Data Analysis, 2nd edn [M]. Boca Raton, FL, USA: Chapman and Hall/CRC.,2004.
[17]Ellison AM. Bayesian inference in ecology [J]. Ecology letters, 2004, 7(6): 509-520.
Data fusion of stand mean diameter based on forest resource inventory data for management and systematic plots
Xiao Yundan, Hou Ruixia, Ji Ping
Stand mean diameter is an important index for evaluating site productivity, which could be obtained from forest resource inventory data for management (FIDM) and systematic plots. How to make the data fusion of these two data sources? In this study, we developed Stand mean diameter model based on the FIDM data using Bayesian method, and predict the stand volume in 2011, and 2013. Then we make the data fusion with systematic plots in 2011, 2013. Results showed that the data fusion model performed well (2=0.5861)
stand mean diameter, forest resource inventory data for management, systematic plots, data fusion
TP392
A
1004-7743(2017)02-0071-06
2017-03-23
中國林科院基本科研業(yè)務費專項經費項目(CAFYBB2017QA010)
肖云丹,女,1982年10月生,中國林科院資源信息所,助理研究員,E-mail: xiaoyd@ifrit.ac.cn
紀平,研究員