劉 海,蘇本躍
(1.安慶師范大學 計算機與信息學院,安徽 安慶 246133;2.國家林業(yè)和草原局華東調查規(guī)劃設計院,浙江 杭州 340019)
森林是陸地生態(tài)系統(tǒng)中的重要組成部分,具有巨大的固碳功能,并且在維護生態(tài)安全、應對氣候變化中發(fā)揮著特殊作用。蓄積量是林業(yè)調查中的一項重要指標,它能夠衡量森林資源的豐富程度以及健康程度,也直接反映了森林的經營成效。遙感技術已被廣泛應用于各個領域,而林業(yè)遙感技術作為其中一個不可或缺的組成部分,不僅可以獲取林業(yè)資源管理的數據,更能進一步揭示林業(yè)經營管理的生態(tài)影響。定量遙感是指在基于模型知識的基礎上,依據可測參數值去反推目標值,這一過程也被稱作為模型反演。激光雷達等遙感數據應用于森林測樹因子的定量估測反演一直是林業(yè)科研的主要方向。雙重抽樣是以一個大樣本估測權重,用一個較小的樣本估測蓄積量,采用誤差估計方法來計算兩重樣本估測精度的算法。研究主要是利用激光雷達點云數據進行森林蓄積量反演,構建反演模型,并通過優(yōu)化兩重抽樣算法,形成基于兩步回歸估計的森林蓄積量反演結果與人工驗證結果的精度估算。
在森林蓄積量反演的遙感估測方法中有兩個重要的中間環(huán)節(jié)。一是特征提取。被動光學圖像(可見光、多光譜、高光譜)主要是提取光譜特征,與冠幅有關的冠幅大小、形狀、閉合度等,以及紋理特征,而LiDAR主要提取單木的三維冠層結構特征、點云強度特征,組成特征向量集;二是反演模型的選擇。多元逐步回歸和隨機森林是近些年來頻繁使用的分類器,森林蓄積量的遙感估測基本流程如圖1所示。研究主要側重于遙感估測的模型反演與反演結果的精度計算,因此,具體激光雷達數據的獲取及處理暫不在研究研討的范圍之內。
圖1 森林蓄積量的遙感估測基本流程
z
表示,實地調查的用y
表示,回歸方程為y
=α
+βz
+ε
,(1)
小班平均蓄積估計為
(2)
(3)
總體蓄積總量估計為
(4)
(5)
(6)
估計值的誤差限為
(7)
大樣本時u
005可取1.
96。估計精度為(8)
系統(tǒng)整理分析現(xiàn)有森林參數反演方法,目前基于LiDAR信息反演森林生物量或蓄積量的各類建模方法,較為適合廣域范圍尺度,估測精度較高的主要有隨機森林和多元線性回歸等反演模型。
(1)隨機森林模型。隨機森林模型可以看作是決策樹模型的一個升級,而決策樹模型是一種基于有監(jiān)督的機器學習算法的數學模型。其基本思想首先是從根節(jié)點開始,對實例的某一特征值進行測試,然后根據測試結果將實例分配到其子節(jié)點,此時每個子節(jié)點都對應著該特征的一個取值,如此遞歸地對實例進行測試并分配,直到到達葉節(jié)點,最后實例就被完全分到葉節(jié)點的類中。隨機森林模型對樣本進行了重采樣,并且對特征也進行了隨機選取,形成多棵樹,再通過投票的方式決定數據分類。
(2)多元線性回歸模型。多元線性回歸是森林蓄積量遙感估測的常用算法,其主要思想是利用線性回歸方程的最小平方函數對多個自變量和因變量之間關系進行建模的一種回歸分析。這種函數為帶有多個回歸系數的模型參數的線性組合,其模型公式為
y
=β
+β
x
+β
x
+…+β
x
+ε
,(9)
式中,y
為因變量;β
、β
、…、β
為參數;x
、x
、…、x
為自變量;ε
為誤差。運用在估計中,公式就變成
(10)
采用最小二乘法估計,即求
(11)
SSE
)顯著減少。如果增加一個自變量使殘差平方和(SSE
)顯著減少,則說明有必要將這個變量引入回歸模型中,否則,沒有必要將這個變量引入回歸模型中。確定在模型中引入自變量x
是否使殘差平方和(SSE
)顯著減少的方法,就是使用F
統(tǒng)計量的值作為一個標準,以此來確定在模型中增加一個自變量,還是從模型中剔除一個自變量。變量選擇方式分為三種:①向前選擇。第一步:對k
個自變量分別與因變量y
的一元線性回歸模型,共有k
個,然后找到F
統(tǒng)計量的值最大的模型及其自變量x
并將其首先引入模型。第二步:在已經引入模型的x
的基礎上,再分別擬合x
與模型外的k
-1個自變量的線性回歸模型,挑選出F
值最大的含有兩個自變量的模型,依次循環(huán)、直到增加自變量不能導致SSE
顯著增加為止。②向后剔除。第一步:先對所有的自變量進行線性回歸模型。然后考察小于k
個去掉一個自變量的模型,使模型的SSE
值減小最少的自變量被挑選出來從模型中剔除。第二步:考察p
-1個再去掉一個自變量的模型,使模型的SSE
值減小最少的自變量被挑選出來從模型中剔除,直到剔除一個自變量不會使SSE
值顯著減小為止,這時,模型中所剩自變量自然都是顯著的。③逐步回歸。在向前選擇的基礎上,當引入一個變量后,首先查看這個變量是否使得模型發(fā)生顯著性變化(F
檢驗),若發(fā)生顯著性變化,再對所有變量進行t
檢驗。當原來引入的變量由于后面加入的變量的引入而不再顯著變化時,則剔除此變量,確保每次引入新的變量之前回歸方程中只包含顯著性變量,直到既沒有顯著的解釋變量選入回歸方程,也沒有不顯著的解釋變量從回歸方程中剔除為止,最終得到一個最優(yōu)的變量集合。研究采用安徽省2019年金寨等9縣(市)LiDAR反演森林蓄積量試點項目的激光點云數據及785個樣地數據進行建模。從LiDAR數據中計算提取46個與高度相關的、10個點云密度相關的及42個與強度相關的,共計98個統(tǒng)計變量,參與建模。
模型的評價和檢驗是評價模型好壞的關鍵工作,研究在評價LiDAR森林蓄積量模型時,將調整確定系數(adjR
)、估計值的標準差(SEE
)、均方根誤差(RMSE
)、相對均方根誤差(rRMSE
)4項指標作為基本評價指標,計算公式如下:(12)
(13)
(14)
(15)
(16)
adjR
表示根據自變量的變異來解釋因變量的變異部分,adjR
值越接近于1,估測值與真實值的擬合情況越好。RMSE
是均方誤差的平方根,用來衡量預測值與真實值之間的誤差情況;rRMSE
是無量綱統(tǒng)計指標,反映模型精度情況,通常rRMSE
<10%表示模型精度非常好,10%<rRMSE
<20%表示模型精度較好,20%<rRMSE
<30%表示模型精度一般,rRMSE
>30%表示模型精度較差。考慮到模型反演的結果(由于不同模型得到的評價指標并不完全相同,所以比較各算法模型的指標不是上文中的全部指標)、運行速度以及可解釋性的強弱,研究最后采用多元逐步回歸的方法,兩者的比較如表1所示。
表1 兩種算法的adjR2及運行時間比較
根據安徽省森林資源狀況及地形地貌,分地形分樹種建立13個蓄積量估測模型:柏木、平原闊葉純、平原闊葉混、丘陵闊葉混、丘陵杉類、丘陵松類、丘陵針闊混、山區(qū)闊葉純、山區(qū)闊葉混、山區(qū)杉類、山區(qū)松類、山區(qū)針闊混、楊。研究中建模過程都在Spss Modeler上進行,硬件環(huán)境為Intel?Core(TM)i9-9900K 3.6 GHz CPU,64 G內存;操作系統(tǒng)是Windows 10。建模過程中采用隨機分組10次10折交叉驗證方法確定最優(yōu)模型參數。各模型通過0.
05置信水平的顯著性檢驗,變量無自相關性,VIF
均小于10,不存在多重共線性。具體模型結構及評價指標如表2所示。從表2中可以看出,LiDAR反演蓄積結果擬合度相對較好,調整決定系數在0.
53~0.
93之間,平均決定系數約0.
74,均方根誤差RMSE
在(0.
58~2.
77)立方米/
畝,均值1.
6 立方米/
畝;相對均方根誤差rRMSE
在(0.
15~0.
48)范圍內,均值0.
32,達到當前公認研究水平(0.
2~0.
4)。表2 安徽省十區(qū)縣點云密度不足1個每平米的模型結構及評價指標
在遙感反演森林蓄積量的過程中都會涉及到反演精度的估算,而在廣域范圍的實際生產應用過程中,為了獲得更為良好的成果,往往除了使用遙感反演以外,都會匹配相應的人工驗證,因此,結合人工驗證結果計算精度也是值得探討的問題。
為了驗證安徽省2019年金寨等9縣(市)LiDAR反演森林蓄積量的精度,采集了兩重驗證樣本:第一重樣本為利用高清遙感影像、2014年森林資源規(guī)劃設計調查成果、2016年LiDAR反演得到的森林蓄積及2019年LiDAR反演得到的森林蓄積等數據源,進行人工修正,獲得修正后喬木林小班蓄積;第二重樣本分山區(qū)、丘陵和平原三種類型,依據《安徽省森林資源規(guī)劃設計調查實施細則》,實地調查采集喬木林小班的林分相關因子,再由每公頃蓄積計算出小班蓄積。兩重樣本采用兩步回歸估計方法,計算金寨等9縣(市)LiDAR反演喬木林蓄積的精度和估測區(qū)間。
(1)人工基于多源數據的修正樣本。修正樣本利用高清遙感影像、2014年森林資源規(guī)劃設計調查成果、2016年LiDAR反演蓄積及2019年LiDAR反演蓄積等數據源,進行人工修正后獲得。人工修正喬木林小班總數31 659個,占喬木林小班總數254 086的12.46%,其中,平原修正10 791個,丘陵修正3 439個,山區(qū)修正17 429個。經過修正,在喬木林小班中有1 610個小班實際為非林地或無林地,占驗證小班數的5.09%。
表3 人工修正喬木林小班數統(tǒng)計表
(2)人工基于現(xiàn)地驗證的修正樣本。為驗證2019年金寨等9縣(市)LiDAR反演喬木林蓄積的估測精度,按照平原、丘陵、山區(qū)三種類型,在人工修正小班中抽取部分喬木林小班開展現(xiàn)地驗證?,F(xiàn)地驗證喬木林小班總數5 560個,其中,平原驗證1 876個,丘陵驗證1 655個,山區(qū)驗證2 029個?,F(xiàn)地驗證小班總數占喬木林小班總數的2.09%,占人工修正喬木林小班數的17.56%。
表4 現(xiàn)地驗證喬木林小班數統(tǒng)計表
因為雙重回歸抽樣估計法不能利用全覆蓋的激光雷達數據信息,為了充分利用人工修正和現(xiàn)地驗證兩重樣本,對LiDAR反演蓄積估測區(qū)間和精度進行估測,所以采用改進的兩重回歸估計——兩步回歸估計方法:①通過在人工修正數據與LiDAR反演蓄積數據之間建立第一重樣本的回歸模型,計算人工修正數據估計值;②通過建立現(xiàn)地讀數據與第一重樣本之間的回歸模型,計算總體LiDAR反演喬木林小班的蓄積估計值;③兩重樣本之間采用雙重回歸估計公式,獲得LiDAR反演蓄積總體的估測區(qū)間和精度。
(1)人工修正數據與LiDAR反演蓄積數據之間的回歸。利用具有人工修正喬木林小班數據為因變量z
,對應的LiDAR反演蓄積數據為自變量x
,建立回歸方程z
=a
+bx
+ε
,(17)
其估計形式為
(18)
(19)
其估計形式為
(20)
(21)
式中,n
為現(xiàn)地驗證小班數,即參與建立回歸模型(3)的小班數量,計算參數的方差矩陣。(22)
式中,D
(α
)、D
(β
)分別為參數α
、β
的方差;cov
(α
,β
)為參數之間的協(xié)方差。根據式(12)計算出總體LiDAR反演喬木林小班的蓄積估計值。這里的cov
(α
,β
)均為用式(10)計算得到的估計值。(3)LiDAR反演喬木林總體蓄積及精度估算??傮w蓄積量估計值為
(23)
(24)
估計值的誤差限和估計精度與兩重回歸相同。
依據前面的估測方法,以人工修正喬木林蓄積為第一重樣本、現(xiàn)地驗證喬木林蓄積為第二重樣本,采用雙重回歸估計方法對金寨等9縣(市)LiDAR反演喬木林蓄積進行估測,獲得總體及平原、丘陵、山區(qū)三個地貌類型的蓄積樣本檢驗精度如表5所示(蓄積量估測值及估測區(qū)間因為數據成果的保密性,因此不便展示)。樣本檢驗結果表明,LiDAR反演喬木林蓄積總體精度在90%以上,符合蓄積量產出精度要求。
表5 現(xiàn)地驗證喬木林小班數統(tǒng)計表
研究主要對森林蓄積量進行了基于激光雷達遙感數據的模型反演,依照評價體系選取了多元線性回歸數學模型作為反演模型,采用隨機分組10次10折交叉驗證方法確定最優(yōu)模型參數,反演模型的擬合能力較強,模型精度也較好。針對實際生產應用中,常運用人工驗證結果來反映反演精度,研究采用了兩步回歸估計方法,既兼顧了激光雷達數據信息反演的結果,又結合了人工修正和現(xiàn)地驗證數據的結果,得到了整個反演方法的精度估算,結果也十分良好。