關(guān)鍵詞:長時序特征; 多源遙感數(shù)據(jù); 隨機(jī)森林; 卷積神經(jīng)網(wǎng)絡(luò); 森林冠層高度反演
中圖分類號:S718. 5 文獻(xiàn)標(biāo)識碼:A DOI:10. 7525/j. issn. 1006-8023. 2024. 06. 001
0引言
森林冠層高度指樹冠高度最高處即冠層頂端到地面之間的距離,可用來評估植被生長狀況[1]。森林冠層高度不僅是估測整個森林生態(tài)系統(tǒng)碳匯能力的基礎(chǔ),也是研究森林生物生產(chǎn)力、碳循環(huán)以及全球變化的基礎(chǔ)[2]。然而,由于估測方法和技術(shù)手段存在一定問題,使得多時空、大尺度森林冠層高度的估測存在巨大挑戰(zhàn)。因此,為更準(zhǔn)確、有效地估測森林的碳匯能力,采用先進(jìn)的技術(shù)方法精確反演森林冠層高度,對分析森林植被碳匯、陸地生態(tài)系統(tǒng)碳循環(huán)和全球碳循環(huán)等具有重大意義[3]。傳統(tǒng)森林冠層高度測量以野外實地調(diào)查為主,精度雖然高,但消耗較大人力及財力,且數(shù)據(jù)獲取范圍有限。隨著主被動遙感對地觀測技術(shù)的發(fā)展,能獲取代表性極強(qiáng)的相關(guān)數(shù)據(jù),實現(xiàn)大范圍重復(fù)觀測,使得區(qū)域和全球尺度的森林冠層高度診斷成為可能[4]。
光學(xué)遙感數(shù)據(jù)可以提供森林范圍的水平方向分布信息,常用于估算大范圍森林冠層高度研究。如Mao等[5]利用光學(xué)遙感數(shù)據(jù)與機(jī)載雷達(dá)數(shù)據(jù)結(jié)合探究了不同驅(qū)動因子對森林冠層高度反演的影響。目前常結(jié)合光學(xué)遙感數(shù)據(jù)與機(jī)器學(xué)習(xí)方法(Machine Learning,ML)建立區(qū)域森林冠層高度與各特征因子之間的多維模型,實現(xiàn)森林冠層高度的大范圍制圖[6]。如Zhao等[7]基于ML探究了機(jī)載雷達(dá)數(shù)據(jù)與光學(xué)遙感數(shù)據(jù)所建立特征因子之間的關(guān)系,并研究了兩者對森林冠層高度的進(jìn)一步影響。謝開翼等[8]基于哨兵1號、Landsat8探索了雷達(dá)及光學(xué)數(shù)據(jù)對森林冠層高度反演的影響。此類研究大都以光學(xué)與雷達(dá)數(shù)據(jù)作為出發(fā)點探索兩者所構(gòu)建的特征因子對森林冠層高度反演的影響。然而由于機(jī)載雷達(dá)數(shù)據(jù)獲取困難,難以適用于市級范圍以上地區(qū),目前的反演研究很少考慮地形因素(高程、坡度、坡向)與多源光學(xué)遙感數(shù)據(jù)結(jié)合對森林冠層高度的影響。此外,目前基于森林冠層高度反演的研究往往采用單一年份的影像構(gòu)建初始數(shù)據(jù)集,忽視了長時間序列下特征因子之間的變化對森林冠層高度反演的影響。
針對上述問題,以浙江省麗水市1994、2004、2014、2022年的森林清查數(shù)據(jù)作為實測數(shù)據(jù),并基于Landsat4、Landsat5、Landsat7、Landsat8、Landsat9數(shù)據(jù),融合地形因子構(gòu)建了長時間序列的30個特征變量,結(jié)合ML中的隨機(jī)森林(random forest,RF)、支持向量機(jī)(support vector machine,SVM)、極致梯度上升法(XGBoost)及卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneural network,CNN)探究了ML方法、地形因素與長時間序列數(shù)據(jù)對森林冠層高度反演的影響。
1研究區(qū)及數(shù)據(jù)獲取
1. 1研究區(qū)概況
麗水市(27°25′~28°57′N,118°41′~120°26′E)位于浙江省西南部,是浙江省面積最大、人口最少的地級市,也是我國南方重要的林區(qū),如圖1(a)所示。圖1(a)影像來自于91谷歌衛(wèi)星圖下載的高分辨率影像,等級為13級,分辨率為16 m×16 m。麗水市境內(nèi)山地丘陵占地面積的95%,森林覆蓋率達(dá)80. 4%,是全國重要的生態(tài)屏障和水源涵養(yǎng)地。麗水市的森林資源十分豐富,被譽(yù)為“浙江綠谷”,有國家級自然保護(hù)區(qū)5個,省級自然保護(hù)區(qū)11個,國家級森林公園6個,省級森林公園10個。除此之外,麗水生態(tài)環(huán)境狀況指數(shù)連續(xù)18 a位居浙江省首位。麗水市氣候為中亞熱帶季風(fēng)氣候,四季分明,溫暖濕潤,雨量充沛,無霜期長,年平均氣溫為18. 3~11. 5 ℃,平均年日照1712~1825h。麗水市位于浙閩隆起區(qū)組成部分,山脈屬武夷山系,主要有仙霞嶺、洞宮山、括蒼山,呈西南方向往東北方的走向,分別延伸西北部、西南部和東北部。
1. 2長時序數(shù)據(jù)
1. 2. 1森林清查數(shù)據(jù)
本研究的地面實測數(shù)據(jù)均來自浙江省森林資源野外清查,浙江省森林資源連續(xù)清查始于1979年,采用系統(tǒng)抽樣方法布設(shè)地面樣地,如圖1(b)所示。在南北間隔4 km、東西間隔6 km的公里網(wǎng)格交叉處機(jī)械布設(shè)固定樣地,樣地面積為0. 08 hm2(28. 28 m×28. 28 m)。主要樣地調(diào)查因子包括樣木的樹種、胸徑、樹高、年齡和土壤類型等。以浙江省麗水市1994、2004、2014、2022年森林資源連續(xù)清查數(shù)據(jù)作為實測樹高樣本,去除無效樣本后,總計1 496個樣本,在這些樣本中,樹高均值為4. 89 m,標(biāo)準(zhǔn)差為4. 33 m,樹高最大值18. 6 m,最小值為1. 2 m。
1. 2. 2Landsat系列數(shù)據(jù)
所有數(shù)據(jù)來源見表1。Landsat影像數(shù)據(jù)均來自于USGS(https://earthexplorer. usgs. gov/)遙感數(shù)據(jù)庫,基于此數(shù)據(jù)庫的Landsat Collection 2 Level-2數(shù)據(jù)集獲取麗水市1994、2004、2014、2022 年遙感影像,其中,1994、2004年使用的是USGS Landsat 4-5 TM C2 L2數(shù)據(jù)集,2014年使用的是USGS Landsat 7 ETM+C2 L2數(shù)據(jù)集,2022年使用的是USGS Landsat 8-9 OLI/TIRSC2 L2數(shù)據(jù)集,空間分辨率均為30 m,并在Python語言下進(jìn)行裁剪、拼接及植被因子的計算。通過地理空間數(shù)據(jù)云(www. gscloud. cn)獲取麗水市數(shù)字高程模型(digital elevation model,DEM)30 m分辨率的ASTER數(shù)據(jù)。通過中國科學(xué)院環(huán)境科學(xué)與數(shù)據(jù)中心(https://www. resdc. cn/)獲取麗水市矢量(Shapefile)數(shù)據(jù)。通過Python構(gòu)建的RF分類模型對麗水市遙感圖像進(jìn)行二分類操作得到麗水市森林類型數(shù)據(jù)。
2研究方法
基于長時序多源遙感數(shù)據(jù)的森林冠層高度反演研究方法,如圖2所示,總共分為3步。首先利用Landsat系列遙感影像、DEM及其他輔助數(shù)據(jù)分別構(gòu)建1994、2004、2014、2022年對應(yīng)的歸一化植被指數(shù)(normalized difference vegetation index,NDVI)、溫度植被干旱指數(shù)(Temperature" vegetation dryness index,TVDI)、短波紅外1( BandS1)及短波紅外2(BandS2)等30個遙感特征因子;結(jié)合野外實測森林冠層高度數(shù)據(jù)(1994、2004、2014年)構(gòu)建RF模型進(jìn)行特征優(yōu)選,選定前15個重要特征;隨即利用重要特征構(gòu)建回歸模型評定ML模型精度;最后利用精度最高的模型預(yù)測2022年的堆疊而來的特征圖生成麗水市的森林冠層高度分布圖。
2. 1特征因子建立
Landsat系列數(shù)據(jù)的原始波段是地物識別的基礎(chǔ),而植被指數(shù)、水體指數(shù)、干旱指數(shù)及地形因素[9-12]能夠反映森林組成及其冠層高度在空間分布上的變化。本研究選取表2中的30個特征因子并利用Python語言編寫波段組合程序,基于相應(yīng)的遙感影像分別計算了1994、2004、2014、2022年與野外實測數(shù)據(jù)相對應(yīng)的特征。表2中,NIR、RED、BLUE分別表示近紅外、藍(lán)與紅波段本身;ρNIR表示NIR的反射反射率;ρGREEN表示GREEN的反射率;ρ800表示800 nm波長下的反射率,ρ500、ρ670、ρ550同理;BAND1—BAND9分別對應(yīng)Landsat 8與Sentinel-2數(shù)據(jù)下的波段1—9;GREEN(ave)表示在綠波段下的平均反射率,RED(ave)同理。
2. 2森林冠層高度反演模型
為探討不同ML回歸算法在森林冠層高度反演下的精度表現(xiàn),選取更適用于森林冠層高度反演研究的ML 算法。本研究基于Python,將上述的70%的樣本作為訓(xùn)練集,30%的樣本作為測試集,分別構(gòu)建了RF、SVM、XGBoost及CNN,并用測試集上的所產(chǎn)生的精度指標(biāo)對模型精度進(jìn)行驗證,實現(xiàn)對不同ML回歸算法在森林冠層高度反演研究中的測試。
2. 2. 1 RFRF
通過構(gòu)建多個決策樹組成的森林來進(jìn)行回歸預(yù)測,每個決策樹都是在隨機(jī)選擇的數(shù)據(jù)子集和特征子集上訓(xùn)練得到的,這種隨機(jī)性有助于減少過擬合并提高模型的泛化能力[13]。其最終的預(yù)測結(jié)果是所有決策樹的預(yù)測值的平均或加權(quán)平均。RF能夠有效處理高維數(shù)據(jù)和大量特征,同時具有良好的魯棒性和靈活性,在實踐中被廣泛應(yīng)用于回歸問題的解決。
決策樹的數(shù)量(ntree)、隨機(jī)特征的數(shù)量(mtry)和隨機(jī)種子數(shù)值(mseed)是隨機(jī)森林算法涉及到的3個關(guān)鍵參數(shù)。本研究中,ntree、mtry和mseed是通過反復(fù)優(yōu)化確定的。定義最大迭代隨機(jī)種子數(shù)值,默認(rèn)為3,等于分別設(shè)置mseed為1、2、3,運(yùn)行3次,并保留模型精度最高的種子作為最終結(jié)果。
2. 2. 2支持向量機(jī)(support vector machine,SVM)
SVM的核心思想是找到一個超平面,使得數(shù)據(jù)點與該超平面的距離盡可能小,并且滿足一定的間隔要求[14]。SVM回歸通過最小化訓(xùn)練數(shù)據(jù)點與超平面之間的誤差來學(xué)習(xí)模型參數(shù),同時也考慮到間隔的大小以及正則化項。與傳統(tǒng)線性回歸相比,SVM回歸對異常值更加魯棒,能夠處理非線性關(guān)系并且不容易過擬合。通過選擇合適的核函數(shù),SVM還可以處理高維數(shù)據(jù)和復(fù)雜的特征空間,使其在實踐中得到廣泛應(yīng)用。
核函數(shù)、違約成本是SVM涉及到的2個關(guān)鍵參數(shù)。核函數(shù)用于訓(xùn)練和預(yù)測,該函數(shù)計算2個向量參數(shù)之間的特征空間中的內(nèi)積。違約成本是拉格朗日公式中正則項的常數(shù)。本研究中,核函數(shù)選擇為rbfdot。違約成本值設(shè)定為10。
2. 2. 3極端梯度增強(qiáng)(extreme gradient boosting,XGBoost)
XGBoost通過在每一輪迭代中訓(xùn)練新的決策樹來逐步改善模型的預(yù)測性能。在每一輪中,XGBoost根據(jù)之前樹的預(yù)測誤差來調(diào)整目標(biāo)函數(shù),使得新的樹能夠更好地擬合殘差[15]。通過引入正則化項和剪枝等技術(shù),XGBoost能夠有效地控制模型的復(fù)雜度,防止過擬合。此外,XGBoost還支持并行計算和特征重要性評估。
學(xué)習(xí)率控制每個基礎(chǔ)學(xué)習(xí)器的權(quán)重,通常設(shè)置為一個較小的值,本研究設(shè)置為0. 1以避免模型在訓(xùn)練過程中的過擬合。損失函數(shù)下降閾值(gamma)則用于控制模型復(fù)雜度,較大的gamma值會使模型更加保守,不易進(jìn)行過多的分裂,本研究gamma=100。
2. 2. 4 卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)
CNN是一種用于回歸問題的深度學(xué)習(xí)模型。通過一系列卷積層、池化層和全連接層來學(xué)習(xí)輸入數(shù)據(jù)中的特征并進(jìn)行回歸預(yù)測[16]。CNN模型利用卷積操作來提取輸入數(shù)據(jù)的空間特征,并通過池化操作減少特征維度,從而有效地處理圖像、時間序列等高維數(shù)據(jù)[17]。在訓(xùn)練過程中,CNN通過反向傳播算法來調(diào)整網(wǎng)絡(luò)參數(shù),使得模型能夠準(zhǔn)確地學(xué)習(xí)輸入數(shù)據(jù)的特征與目標(biāo)值之間的關(guān)系[18]。由于CNN 能夠自動學(xué)習(xí)特征,無須手工設(shè)計特征提取器,因此在各種回歸任務(wù)中表現(xiàn)出色,但目前應(yīng)用于回歸任務(wù)的研究較少。本研究基于殘差結(jié)構(gòu)構(gòu)建了ResNet18回歸模型,如圖3所示。圖中Conv代表卷積操作,后接的數(shù)字是卷積核的大小。
3結(jié)果及其分析
3. 1特征優(yōu)選
森林冠層高度的建模會受冗余特征變量的影響而降低精度,故本研究根據(jù)均方差百分比增量(PercentIncMSE)和節(jié)點純度增量(IncNodePurity)2個測度對30個特征進(jìn)行重要性排序以剔除不重要變量,如圖4所示。PercentIncMSE定義為當(dāng)從決策樹中排除給定變量后準(zhǔn)確性的降低的幅度。Inc‐NodePurity則衡量了參考變量的裂解而導(dǎo)致的節(jié)點無效量的減少。PercentIncMSE 和IncNodePurity 值與對應(yīng)變量成正比關(guān)系,值越高,變量就越重要[20]。基于這2個指標(biāo)的排名,本研究最終選定了15個變量,分別是BandGreen、BandS2、BandRed、NIR、GDVI、MSR、DVI、GARI、GNVDI、GCI、TVDI、NDVI、RGRI、BandS1及IPVI作為后續(xù)建模的特征因子。
3. 2模型回歸
基于不同數(shù)據(jù)源組成,本研究測試所用模型在回歸下的精度指標(biāo)見表3。表3中單一年份下的R2與RMSE 是由所有模型單獨在1994、2004、2014年數(shù)據(jù)下驗證的均值。表3表明在單一年份數(shù)據(jù)源組成下,RF(R2=0. 72,RMSE=1. 73)和XGBoost模型(R2=0. 71,RMSE=1. 95)在森林冠層高度反演上表現(xiàn)較好,而SVM(R2=0. 64,RMSE=2. 03)和ResNet18(R2=0. 32,RMSE=5. 98)的性能稍遜。在2a和3a的數(shù)據(jù)源組成下,4個模型的性能普遍有所提升,其中RF(R2=0. 75,RMSE=1. 65)和XGBoost(R2=0. 74,RMSE=1. 89)模型仍然表現(xiàn)較好。RF和XGBoost在大多數(shù)情況下表現(xiàn)較好,尤其是在較長的時間跨度下。SVM的性能略遜于RF和XGBoost。CNN在單一年份數(shù)據(jù)源組成下表現(xiàn)最差,但在2 a和3 a的數(shù)據(jù)源組成下有所提升,盡管仍然低于其他模型。
此外,表3表明隨著數(shù)據(jù)源組成的增加,模型性能普遍有所提升,這顯示使用長時序的歷史數(shù)據(jù)可以改善模型回歸預(yù)測性能。表3還顯示CNN的回歸性能受到數(shù)據(jù)源組成的影響較大,在3 a數(shù)據(jù)組成下,R2與RMSE上升及下降達(dá)到了最高,經(jīng)計算,分別是0. 39與4. 15,這表明可能需要更多的數(shù)據(jù)來發(fā)揮CNN在森林冠層高度反演下的潛力。
總的來說,綜合考慮RF和XGBoost模型在不同數(shù)據(jù)源組成下的性能表現(xiàn),可以得出他們是較為可靠的選擇,而在長時序數(shù)據(jù)下,CNN則是一個具有潛力的方法。
3. 3麗水市森林冠層高度制圖
利用4個模型中精度最高的RF預(yù)測2022年堆疊而來的特征圖生成麗水市的初始森林冠層高度分布圖,再疊加森林類型,將非林地的值去除得到最終的麗水市森林冠層高度分布,如圖5所示。
結(jié)合2022年野外實測的樹高并與RF 預(yù)測的30m的森林冠層高度圖評定了RF制圖精度,如圖6所示。圖6顯示RF的制圖精度R2達(dá)到了0. 76,大多數(shù)預(yù)測點在實測值附近,表明RF的預(yù)測性能與實際具有良好的一致性。但RF也存在高估冠層高度與低估冠層高度現(xiàn)象,這在冠層高度的低谷與高峰尤為顯著,而越靠近于數(shù)據(jù)中部的冠層高度預(yù)測值越接近實測值。
4討論與結(jié)論
4. 1討論
Zhu等[21]利用機(jī)載激光雷達(dá)、SRTM地形數(shù)據(jù)及Landsat9系列衛(wèi)星聯(lián)合RF建立森林冠層高度的反演研究,揭示地形因素在基于多源遙感數(shù)據(jù)的冠層高度反演中呈“重要性”,在所建立的特征排序中為第9,然而這只聯(lián)合星載的光學(xué)遙感與地形數(shù)據(jù),所構(gòu)建的遙感特征因子較少,未考慮到星載雷達(dá)對森林冠層高度反演的影響。本研究聯(lián)合星載雷達(dá)、光學(xué)遙感及地形特征的冠層高度反演結(jié)果表明所有關(guān)于地形因素的特征排序在所構(gòu)建的30個特征因子中均在15之后,在森林冠層高度的反演中呈“不重要性”,而在前15的特征因子中大都是與紅波段與綠波段相關(guān),這大概是因為綠波段與紅波段通常對葉綠素含量和植物健康狀況敏感,因為葉綠素主要吸收藍(lán)光和紅光[22-24]。因此,紅綠波段的反射率可以提供關(guān)于植被生長狀態(tài)和結(jié)構(gòu)的信息,這強(qiáng)烈與森林冠層高度相關(guān)。地形雖會在一定程度上影響遙感影像的獲取和解讀,例如在山區(qū),坡度和坡向可能導(dǎo)致影像的幾何畸變和輻射畸變,但在進(jìn)行冠層高度反演時,可以通過一系列預(yù)處理步驟(如正射校正、地形校正等)來減小或消除這些影響[25]。此外,與光譜信息相比,地形因素對冠層高度的直接影響相對較小,因此在反演過程中呈“ 不重要性”。
此外,表3表明,CNN方法在回歸算法中雖低于傳統(tǒng)ML方法,然而仍然具有潛力。隨著長時間序列的數(shù)據(jù)加入,CNN的預(yù)測精度呈大幅上升,這揭示了CNN方法的精度可能與數(shù)據(jù)集數(shù)量高度相關(guān),原因大概是與CNN模型的復(fù)雜性相關(guān),在數(shù)據(jù)量較少的情況下,CNN能會過度擬合訓(xùn)練數(shù)據(jù),導(dǎo)致在測試數(shù)據(jù)上表現(xiàn)不佳[26]。隨著數(shù)據(jù)量的增加,因為模型有更多的樣本來學(xué)習(xí)數(shù)據(jù)的真實分布。模型可以有更多的數(shù)據(jù)來訓(xùn)練和調(diào)整其參數(shù),從而更好地適應(yīng)數(shù)據(jù)的復(fù)雜性,有助于模型在處理新數(shù)據(jù)時做出更準(zhǔn)確的預(yù)測,過擬合的風(fēng)險大大降低。
4. 2結(jié)論
本研究通過多源遙感數(shù)據(jù)構(gòu)建了30個長時序的特征因子,探索了地形因素、植被指數(shù)及長時序特征對森林冠層高度反演的影響,另外還研究了不同ML 回歸算法在森林冠層高度反演中的性能表現(xiàn)。結(jié)果表明地形因素在森林冠層高度反演中呈“不重要性”,而與紅綠波段相關(guān)的植被指數(shù)則強(qiáng)相關(guān)于森林冠層高度。加入長時序的特征因子能有效提升最終的森林冠層反演精度,相較于單一年份,在3a數(shù)據(jù)組成下,CNN實現(xiàn)最佳0. 39的R2提升與4. 15的RMSE下降。在所用ML算法中,預(yù)測精度從大到小分別為RF、XGBoost、SVM、CNN。值得注意的是,所用ML算法的預(yù)測性能隨長時序特征的加入而增加,這一現(xiàn)象在CNN上尤為顯著。