李子朝,畢守東,崔玉環(huán),郝 瀧
安徽農(nóng)業(yè)大學(xué)理學(xué)院,安徽 合肥 230036
森林是地球之肺,也是地球的基因庫和能源庫。在當(dāng)今工業(yè)化時代,大量二氧化碳和有害氣體排放到空氣中,森林植被通過光合作用吸收二氧化碳并制造氧氣的作用變得尤為重要,凈化空氣的同時,也起到了保護(hù)人類及其他動物生命健康的重要作用。隨著交通運輸業(yè)和工業(yè)的發(fā)展,噪聲污染對環(huán)境的影響越來越嚴(yán)重,森林可以有效降低噪聲的分貝,改善人們的生活環(huán)境。森林還可以調(diào)節(jié)氣候,增加濕度的同時降低溫度,提高降水量。森林蓄積量是指一定區(qū)域里,各種樹木的木材總量,是判斷該區(qū)域森林茂盛程度的重要指標(biāo)之一。
傳統(tǒng)的森林資源的數(shù)據(jù)獲取方法是實地勘察測量,需要花費大量的人力、物力,且調(diào)查結(jié)果誤差較大。計算機、衛(wèi)星和各種科學(xué)技術(shù)的發(fā)展,使得遙感技術(shù)對森林蓄積量的反演研究成為國內(nèi)外研究人員越來越熟悉的話題。例如郝瀧等[1]利用Landsat OLI影像估算了西藏林芝市的森林蓄積量,菅永峰等[2]以GF-2和SPOT-6數(shù)據(jù)為基礎(chǔ)對湖北省太子山林場的森林蓄積量進(jìn)行了研究,曾偉生等[3]利用機載激光雷達(dá)數(shù)據(jù)建立了東北林場的森林蓄積量估算模型,朱思名等[4]利用無人機影像對天山云杉林蓄積量進(jìn)行了研究。遙感技術(shù)可以快速且準(zhǔn)確地獲取研究區(qū)域的森林光譜信息,在大面積和人力難以到達(dá)區(qū)域的森林蓄積量的方向上有著明顯的優(yōu)勢。例如郝瀧等[1]研究了地形因子和紋理特征對蓄積量反演的影響,楊柳等[5]估算了不同樹種的蓄積量,該方法的綜合精度高于傳統(tǒng)的實地測量,且更適合于廣泛應(yīng)用。
常見的利用遙感技術(shù)對森林蓄積量進(jìn)行反演的方法有很多。多元線性回歸作為最經(jīng)典的回歸模型之一,有著簡單實用的優(yōu)點,但當(dāng)自變量存在明顯的線性相關(guān)時,模型的精度可能不盡人意,因此可以使用多元逐步回歸分析,按照自變量對因變量影響從大到小引入回歸方程,并剔除影響不顯著的自變量,從而建立最優(yōu)回歸方程。BP神經(jīng)網(wǎng)絡(luò)有非線性映射能力和一定的自學(xué)習(xí)能力,適用于內(nèi)部機制復(fù)雜的問題。隨機森林模型有著抗過擬合和擅長處理高維度數(shù)據(jù)的優(yōu)點,但運行速度較其他方法慢,且需要根據(jù)不同的數(shù)據(jù)設(shè)置不同的參數(shù)[6]。例如Ernest William Mauya等[7]用多元線性回歸估測了坦桑尼亞小規(guī)模人工林的蓄積量,周俊宏等[8]利用神經(jīng)網(wǎng)絡(luò)算法對普達(dá)措國家公園進(jìn)行了遙感估算,菅永峰等[2]使用隨機森林回歸模型估測了湖北省太子山林場的森林蓄積量,蔣馥根等[9]利用KNN方法估測了旺業(yè)甸林場的森林蓄積量,張超等利用偏最小二乘回歸法估測了三峽水庫區(qū)域的蓄積量。
本研究以西藏林芝市米林縣為研究區(qū)域,以Landsat OLI的多光譜數(shù)據(jù)、DEM數(shù)據(jù)和森林資源二類調(diào)查數(shù)據(jù)為基礎(chǔ)[10],采用多元線性逐步回歸法、BP神經(jīng)網(wǎng)絡(luò)和隨機森林回歸三種方法分別建立模型,根據(jù)實際數(shù)據(jù)來設(shè)置相應(yīng)的模型參數(shù),以達(dá)到每個模型的最優(yōu)精度。將數(shù)據(jù)集分為訓(xùn)練集和測試集,在模型建立后對其進(jìn)行精度驗證,再將三種模型的精度進(jìn)行比較,分析并選擇精度最高的模型。目的是通過不同模型對同一區(qū)域森林蓄積量的反演精度的比較,為我國森林蓄積量反演研究模型選擇提供參考。
研究區(qū)域為西藏自治區(qū)林芝市米林縣,米林縣位于西藏自治區(qū)的東南部,地理坐標(biāo)為:北緯28°39′—29°50′,東經(jīng)93°07′—95°12′。我國最長的高原河流雅魯藏布江橫穿全縣,米林縣西高東低,為山河谷地形。地球上最大、最深的峽谷——雅魯藏布大峽谷坐落在米林縣,大峽谷景色壯闊,地勢險要,堪稱“人間秘境”。米林縣總面積為9 471 km2,平均海拔達(dá)到3 700 m,森林覆蓋率達(dá)48.11%,年降水量600 mm以上,擁有以雅魯藏布江為主的天然水資源優(yōu)勢,孕育了沿江兩岸繁榮的森林生態(tài)系統(tǒng),物種多樣性之豐富堪稱生物基因庫。
選取Landsat OLI多光譜影像數(shù)據(jù),空間分辨率為30 m,遙感影像的獲取時間為2015年11月,選取積雪覆蓋面積較少的遙感影像,可以更準(zhǔn)確地獲取地面植被的光譜信息,有效減少模型預(yù)測結(jié)果的誤差。對遙感影像進(jìn)行預(yù)處理,主要包括輻射定標(biāo)、大氣校正、正射校正等。
研究區(qū)共設(shè)樣地35個,地面實測數(shù)據(jù)采樣完成時間為2015年9月—11月,樣地調(diào)查的主要內(nèi)容包括:林種、優(yōu)勢樹種、齡組、郁閉度、樹高、胸徑等林分信息,及樣地中心坐標(biāo)、海拔、坡度、坡位等地形因子。研究區(qū)主要由針葉林、闊葉林、針闊混交林組成,利用二元材積表[11]對樣地的蓄積量進(jìn)行計算。由于研究區(qū)范圍較大,地形較復(fù)雜,樣地數(shù)據(jù)無法滿足全區(qū)域的森林蓄積量估算,因此在通過樣地調(diào)查數(shù)據(jù)與森林二類資源調(diào)查數(shù)據(jù)準(zhǔn)確性的驗證后,依據(jù)米林縣的森林二類資源調(diào)查數(shù)據(jù)構(gòu)建基于多特征的森林蓄積量反演模型。經(jīng)過預(yù)處理后的研究區(qū)Landsat OLI假彩色影像和樣地分布情況如圖1所示。
圖1 研究區(qū)范圍及樣地分布圖
異常值的存在會對分析結(jié)果平均值與標(biāo)準(zhǔn)差產(chǎn)生重要影響,異常值的檢驗與正確處理是保證原始數(shù)據(jù)可靠性、平均值與標(biāo)準(zhǔn)差計算準(zhǔn)確的前提。本研究使用Excel軟件將樣本點的數(shù)據(jù)全部導(dǎo)入,首先將數(shù)據(jù)標(biāo)準(zhǔn)化,再將極端離群值剔除(比如蓄積量為0的林地矢量點等),再根據(jù)拉依達(dá)準(zhǔn)則法(3δ)將小于μ-3σ或者大于μ+3σ的異常值按行刪除,保證樣本數(shù)據(jù)總體接近正態(tài)分布。
單波段的信息比較單一,為了能夠提高模型的精度,備選參數(shù)主要包括Landsat OLI遙感影像的7個單波段光譜數(shù)據(jù)、5個植被指數(shù)、11個波段比值、DEM數(shù)據(jù)、森林資源二類調(diào)查數(shù)據(jù)和基于灰度共生矩陣(GLCM)的8種紋理特征。使用ArcGIS將以上數(shù)據(jù)提取至對應(yīng)的樣本點。將全部自變量引入構(gòu)建的模型中不僅會使模型過于復(fù)雜,而且也無法保證模型的精度,通過皮爾森(Pearson)相關(guān)性分析,篩選出與因變量蓄積量之間存在顯著相關(guān)性的自變量因子,利用這些變量因子構(gòu)建模型可以有效提升模型構(gòu)建的效率與精度。最終篩選出的變量包括郁閉度、RVI、海拔、坡度、Band5/Band4、Band7/Band4、HomogeneityB1、EntropyB1、SecondMomentB1、CorrelationB1。
多元線性回歸是最常見的分析多個自變量與一個因變量之間線性關(guān)系的回歸方法。其優(yōu)點是簡單、實用。
假設(shè)樣本數(shù)據(jù)中因變量為Y,自變量為X1,X2,X3,…,Xn,并且兩者之間存在線性關(guān)系,則多元線性回歸模型的公式為
Y=a0+a1X1+a2X2+a3X3+…+anXn+ε
(1)
式(1)中,a0為常數(shù)項,a1,a2,a3,…,an為每個自變量對應(yīng)的系數(shù),ε為回歸方程的隨機誤差。
實際應(yīng)用發(fā)現(xiàn),并不是自變量個數(shù)越多,回歸模型的精度越高,在將一些與因變量相關(guān)性較低的自變量引入后,回歸模型的精度反而會降低。同時當(dāng)自變量之間存在自相關(guān)的情況時,簡單的多元線性回歸模型會出現(xiàn)多重共線性問題,影響構(gòu)建模型的準(zhǔn)確性。
為了解決以上問題,采用逐步回歸的方法。多元逐步回歸方法的因子挑選是逐個進(jìn)行的,首先通過相關(guān)性分析找出與因變量相關(guān)性最大的自變量因子,建立最簡單的線性回歸方程,并在每一步引入一個自變量進(jìn)行F檢驗,若通過檢驗則引入該自變量,否則剔除。重復(fù)以上步驟,直到變量子集中沒有可進(jìn)入或剔除的變量時,回歸過程停止。
使用Python軟件進(jìn)行多元逐步回歸分析,建立因變量與自變量的多元線性回歸模型。按照分析結(jié)果最終保留了郁閉度、海拔、坡度、Band5/Band4、Band7/Band4、HomogeneityB1、EntropyB1、SecondMomentB1、CorrelationB1。綜合特征的回歸模型方程為
Y=-835.523+751.527X1+0.368X2+1.904X3-1.928X4+8.829X5-2 326.276X6+382.012X7+1 566.208X8-58.810X9
(2)
式(2)中,Y為蓄積量,X1,X2,…,X9依次為郁閉度、海拔、坡度、Band5/Band4、Band7/Band4、HomogeneityB1、EntropyB1、SecondMomentB1、CorrelationB1。
人工神經(jīng)網(wǎng)絡(luò)是以生物神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)來進(jìn)行發(fā)展的,其中最成熟和受到廣泛應(yīng)用的是采用誤差反向傳播算法(error back-propagation algorithm)的多層感知器,也就是BP神經(jīng)網(wǎng)絡(luò)。其特點有:分布式信息管理;大規(guī)模并行處理;自學(xué)習(xí)能力;魯棒性和容錯性。
BP算法獲得梯度的核心概念為局部梯度
(3)
式(3)中,L(x)為損失函數(shù),u(i)為第i層的輸入。
計算損失函數(shù)的梯度
(4)
式(4)中,y為空間中的向量,v(m)為第m層的輸出,v(m)=φm(u(m))。
局部梯度的反向傳播過程
(5)
式(5)中,W(i)為第i層到下一層的權(quán)值矩陣[12]。
使用Python軟件對篩選出的10個自變量和1個因變量建立BP神經(jīng)網(wǎng)絡(luò)模型。
隨機森林(random forests)是基于決策樹的機器學(xué)習(xí)方法,其特點是利用有放回的抽樣方法(Bootstrap)從樣本數(shù)據(jù)中抽取n個數(shù)據(jù)作為訓(xùn)練集,并基于這些數(shù)據(jù)構(gòu)建CRAT分類樹。由于在數(shù)據(jù)的選取上具有隨機性和決策樹數(shù)量參數(shù)的可調(diào)節(jié)性,隨機森林回歸模型有明顯的抗過擬合的特點,因此在處理分類和回歸的任務(wù)上,該模型有良好的表現(xiàn)。隨機森林(random forests)作為目前預(yù)測效果最好的非參數(shù)回歸模型之一,與參數(shù)回歸方法相比,該算法無需對變量的正態(tài)性和獨立性等假設(shè)條件進(jìn)行檢驗,同時也不需要考慮多變量的共線問題。
基尼指數(shù)在隨機森林回歸中可以用來計算各特征在模型中的重要性,其計算公式為
(6)
式(6)中,K為類別數(shù),Pmk表示第m個節(jié)點中k所占比例。
特征xj在第m個節(jié)點的Gini變化量計算公式為
(7)
式(7)中,GiniL和GiniR分別為第m個節(jié)點前后的Gini指數(shù),將所有特征的基尼指數(shù)做歸一化處理即可得到各特征的重要性。
使用Python軟件對上述篩選出的10個自變量和1個因變量建立隨機森林回歸模型(random forest regression model)。
以森林蓄積量作為因變量,多源特征為自變量,根據(jù)各自變量與森林蓄積量之間的相關(guān)關(guān)系,選擇最優(yōu)因子構(gòu)建基于多源特征的森林蓄積量反演模型。為驗證不同模型對森林蓄積量反演的精度高低,采用多元線性逐步回歸法、BP神經(jīng)網(wǎng)絡(luò)和隨機森林回歸三種方法分別建立模型,根據(jù)實際數(shù)據(jù)來設(shè)置相應(yīng)的模型參數(shù),以達(dá)到每個模型的最優(yōu)精度。
決定系數(shù)R2能夠反映因變量y的總變異中可由回歸模型中自變量解釋的部分所占的比例,用來衡量所建立模型效果的好壞。其取值范圍為0≤R2≤1,決定系數(shù)越接近1,表示樣本數(shù)據(jù)對所選用的線性回歸模型擬合越好[13]。平均絕對誤差MAE表示實際值與預(yù)測值之間絕對誤差的平均值,可以避免誤差正負(fù)相抵的問題。均方根誤差RMSE是實際值與觀測值偏差的平方和與樣本數(shù)比值的平方根,常用作對模型精度進(jìn)行評價的指標(biāo)。選取可決系數(shù)(R2)、平均絕對誤差(MAE)和均方根誤差、(RMSE)作為比較三種模型精度的指標(biāo)。R2,MAE和RMSE的計算公式分別為
(8)
(9)
(10)
為了驗證不同特征對模型精度的貢獻(xiàn),本研究以單波段信息和樣地數(shù)據(jù)為基礎(chǔ),設(shè)置了3種不同的特征組合。通過上述步驟建立模型,得到的R2,MAE和RMSE如表1。
表1 建模結(jié)果
結(jié)果顯示地形、波段和紋理特征的組合精度最高,其中隨機森林回歸模型(R2=0.739, MAE=55.352 m3·ha-1, RMSE=63.195 m3·ha-1)的精度優(yōu)于多元逐步回歸模型(R2=0.541,MAE=58.317 m3·ha-1,RMSE=71.562 m3·ha-1)和BP神經(jīng)網(wǎng)絡(luò)模型(R2=0.477,MAE=67.503 m3·ha-1,RMSE=73.226 m3·ha-1)。表明在多特征的森林蓄積量反演研究中,隨機森林回歸模型的估測效果最好,這是由隨機森林回歸擅長處理高維度數(shù)據(jù)和抗過擬合等特點決定的。
在加入波段比值后,多元逐步回歸的R2提升了0.039,MAE和RMSE分別下降了3.68和3.386 m3·ha-1。BP神經(jīng)網(wǎng)絡(luò)的R2提升了0.034,MAE和RMSE分別下降了0.755和4.638 m3·ha-1。隨機森林回歸的R2提升了0.035,MAE和RMSE分別下降了3.511和4.517 m3·ha-1。加入紋理特征后,多元逐步回歸的R2提升了0.105,MAE和RMSE分別下降了10.408和6.45 m3·ha-1。BP神經(jīng)網(wǎng)絡(luò)的R2提升了0.08,MAE和RMSE分別下降了2.666和6.777 m3·ha-1。隨機森林回歸的R2提升了0.122,MAE和RMSE分別下降了8.523和9.262 m3·ha-1。這說明波段比值和紋理特征的參與可以有效提升預(yù)測模型的精度。
實驗發(fā)現(xiàn)隨機森林回歸模型的決策樹數(shù)量設(shè)置為70時,模型的平均絕對誤差MAE和均方根誤差RMSE逐漸趨于平穩(wěn),且運算速度較更多決策樹時更快。運算過程如圖2。
圖2 決策樹數(shù)量與RMSE,MAE的關(guān)系
根據(jù)測試結(jié)果可知,海拔在BP神經(jīng)網(wǎng)絡(luò)和隨機森林回歸中的貢獻(xiàn)率均為最高,分別是25%和41%。各特征重要性如圖3。
圖3 各特征的重要性
3種模型對森林蓄積量都有一定的預(yù)測能力,其中隨機森林模型的散點分布更集中,R2為0.739,說明隨機森林模型在本研究中預(yù)測能力更強。本次蓄積量反演預(yù)測值的范圍為121.3~372.8 m3·ha-1,森林資源二類調(diào)查數(shù)據(jù)的實測值為50.7~482.9 m3·ha-1,結(jié)果顯示在蓄積量較小時預(yù)測值偏大,蓄積量較大時預(yù)測值偏小,該現(xiàn)象表明在蓄積量的預(yù)測中波段值的飽和現(xiàn)象不能完全消除。3種模型的預(yù)測散點圖如圖4。
圖4 不同反演模型的散點圖
由表1可知,三種模型中擬合效果最好的是隨機森林模型,R2為0.739;隨機森林模型的MAE和RMSE均為最低,分別是55.352和63.195 m3·ha-1。三種模型的R2,MAE和RMSE的比較如圖5。
圖5 精度比較
以Landsat OLI遙感衛(wèi)星的影像數(shù)據(jù)、DEM數(shù)據(jù)和森林資源二類調(diào)查數(shù)據(jù)為基礎(chǔ),選擇西藏自治區(qū)林抓市米林縣全縣的林地區(qū)域為研究區(qū)進(jìn)行蓄積量的反演研究。
(1)基于多特征的蓄積量反演中,隨機森林模型的預(yù)測精度最高。
(2)合理選擇建模變量的個數(shù)可以有效提升模型的精度與構(gòu)建效率。
(3)紋理特征和波段比值參與建??梢杂行嵘>取?/p>
本研究結(jié)果表明:
(1)高分辨率的影像數(shù)據(jù)具有更豐富的紋理信息,可以有效提升模型的精度。本研究采用空間分辨率為30 m的Landsat OLI遙感影像數(shù)據(jù),模型精度R2達(dá)到了0.739。郝瀧等[1]利用Landsat OLI對西藏林芝市進(jìn)行森林蓄積量的反演,精度為0.708。菅永峰等[2]利用更高分辨率的GF-2和SPOT-6數(shù)據(jù)對太子山林場的森林蓄積量估測,精度R2達(dá)到了0.88。蒙詩櫟等[14]利用WorldView-2對涼水自然保護(hù)區(qū)進(jìn)行了蓄積量的反演,精度R2為0.85。在此基礎(chǔ)上,曾偉生等[3]和朱思名等[4]利用機載雷達(dá)和無人機影像對蓄積量進(jìn)行研究并取得了成功。因此選用先進(jìn)的設(shè)備獲取更高分辨率的影像建模在今后的研究中還可進(jìn)一步探索。
(2)研究區(qū)是位于西藏自治區(qū)東南部的米林縣,其氣候為高原溫帶半濕潤性季風(fēng)氣候,海拔較高且降水較多,該地區(qū)的氣候?qū)傩院偷乩硖卣骶哂忻黠@的特點。竹萬寬等[15]認(rèn)為海拔影響植被的生長環(huán)境,在蓄積量的反演中具有重要作用,與本工作的建模變量重要性結(jié)果一致。氣溫、光照、降水等對植物的地上部分生長具有顯著影響,因此對氣候條件和地理特征區(qū)別較大地區(qū)的蓄積量反演需要根據(jù)實際情況,對變量因子和模型參數(shù)進(jìn)行合理的選取與設(shè)置。
(3)研究結(jié)果顯示,波段比值和紋理特征參與建模后,隨機森林模型精度R2分別提升了0.035和 0.122。蓄積量反演預(yù)測值的范圍為121.3~372.8 m3·ha-1,森林資源二類調(diào)查數(shù)據(jù)的實測值為50.7~482.9 m3·ha-1,在蓄積量較小時預(yù)測值偏大,蓄積量較大時預(yù)測值偏小,表明在蓄積量的預(yù)測中波段值的飽和現(xiàn)象不能完全消除,與菅永峰等[2]對波段飽和現(xiàn)象的研究結(jié)論一致。為了降低飽和現(xiàn)象對蓄積量預(yù)測的影響,可加入具有更豐富信息的紋理特征和貢獻(xiàn)率更高的波段比值來提升模型的精度,以期在實際預(yù)測中效果更佳。