黃冰倩,岳彩榮,朱泊東
(1.西南林業(yè)大學(xué),昆明 650224;2.貴州省林業(yè)調(diào)查規(guī)劃院,貴陽(yáng) 550003)
隨著遙感(RS)、地理信息系統(tǒng)(GIS)、全球?qū)Ш叫l(wèi)星系統(tǒng)(GNSS)等信息技術(shù)在林業(yè)資源監(jiān)測(cè)應(yīng)用日趨成熟,國(guó)內(nèi)外已有一些學(xué)者利用“3S”技術(shù)結(jié)合數(shù)學(xué)模型對(duì)蓄積量進(jìn)行遙感估測(cè),并嘗試了一些新的方法[1-2]。遙感影像早期較多利用Landsat TM/ETM,SPOT5,IKONOS提取遙感特征因子,建立森林蓄積估測(cè)模型。遙感特征因子也從波段光譜特征、植被指數(shù)特征逐漸增加了地形特征、紋理特征因子[1-2]。Shamsoddini[3]應(yīng)用WorldView-2影像,對(duì)澳大利亞新南威爾士州的松樹(shù)林分蓄積進(jìn)行了估測(cè)。近年來(lái),我國(guó)自主研制的衛(wèi)星遙感數(shù)據(jù)(如高分1號(hào),高分2號(hào),資源3號(hào)等)逐漸推廣應(yīng)用,且影像時(shí)間分辨率、空間分辨率、覆蓋區(qū)域都能較好地滿(mǎn)足研究要求。結(jié)果顯示,波段的紋理特征比光譜值和衍生光譜值具有更好的反演效果[4-6]。通過(guò)隨機(jī)森林方法對(duì)不同的特征變量重要性進(jìn)行研究,發(fā)現(xiàn)紋理特征比光譜特征因子對(duì)森林蓄積建模影響大[4-6]。隨著引入特征變量的增加,一方面提高了建模精度,另一方面也會(huì)引起共線性問(wèn)題。通過(guò)多元逐步回歸、隨機(jī)森林建模的方法,篩選關(guān)鍵變量,提高建模精度,減少數(shù)據(jù)冗余。
遙感森林蓄積估測(cè)模型研究逐漸由參數(shù)化方法向非參數(shù)方法模型過(guò)渡,參數(shù)化方法通用性、可解釋性較好,但是建模精度比非參數(shù)方法低,且建模因子較多時(shí)會(huì)存在數(shù)據(jù)冗余等問(wèn)題[7-11]。與參數(shù)化方法相比,非線性森林蓄積估測(cè)模型擬合精度較高,無(wú)需先驗(yàn)假設(shè),模型構(gòu)建更便捷。機(jī)器學(xué)習(xí)算法是典型的非參數(shù)化模型構(gòu)建方法,雖然此類(lèi)算法不能輸出具體模型,但也可以進(jìn)行回歸預(yù)測(cè)[7-11]。目前,通過(guò)不同因子組合、對(duì)比不同建模方法來(lái)研究模型擬合精度較多,從特征提取單元與地面監(jiān)測(cè)尺度匹配性考慮較少。本文基于貴州省觀山湖區(qū)GF-1遙感數(shù)據(jù)提取的光譜信息、植被指數(shù)及紋理特征,結(jié)合研究區(qū)實(shí)測(cè)馬尾松樣地?cái)?shù)據(jù),通過(guò)多元逐步回歸、隨機(jī)森林算法構(gòu)建不同窗口遙感特征的森林蓄積量估測(cè)模型,尋求最優(yōu)擬合效果對(duì)應(yīng)的適宜窗口,進(jìn)一步深化提高森林蓄積估測(cè)的建模精度方法,旨在為高分辨率光學(xué)遙感影像數(shù)據(jù)估測(cè)森林蓄積探索一些方法和思路。
研究區(qū)位于貴州省貴陽(yáng)市中心城區(qū)西北部的觀山湖區(qū),地處苗嶺山系西部中段,東鄰云巖區(qū)黔靈鎮(zhèn)、南接花溪區(qū)久安鄉(xiāng)、西靠清鎮(zhèn)市麥格苗族布依族鄉(xiāng)、北接觀山湖區(qū)艷山紅鎮(zhèn)。地理位置 26°33′~26°40′N(xiāo),106°33′~106°41′E,國(guó)土總面積306.95km2。地貌以中山丘陵為主,平均海拔1 280m左右,地勢(shì)相對(duì)平緩。地帶性植被屬于亞熱帶常綠闊葉林,植被大多是次生植被和人工植被,主要樹(shù)種有馬尾松、杉木、柳杉、泡桐、青岡、麻櫟等。
影像數(shù)據(jù)來(lái)源于2015年10月觀山湖區(qū)高分1號(hào)(GF-1)遙感影像(圖1),全色波段分辨率為2m,多光譜波段分辨率為8m,投影為2000國(guó)家大地坐標(biāo)系(CGCS2000)。該影像為開(kāi)展二類(lèi)調(diào)查統(tǒng)一采購(gòu),已經(jīng)過(guò)輻射定標(biāo)、大氣校正、幾何校正、影像拼接、勻光勻色等處理,并通過(guò)假彩色合成得到觀山湖區(qū)范圍內(nèi)高分遙感影像。GF-1光譜對(duì)應(yīng)情況如表1所示。研究區(qū)影像完成幾何配準(zhǔn)后,對(duì)全色和多光譜影像進(jìn)行融合和裁切,輸出2m分辨率的GF-1融合影像。在融合影像基礎(chǔ)上,生成分辨率為2m的各波段影像(藍(lán)、綠、紅、近紅外),并以此為基礎(chǔ)數(shù)據(jù)進(jìn)行后續(xù)的光譜特征、植被指數(shù)計(jì)算、紋理特征提取。
圖1 研究區(qū)高分1號(hào)遙感影像圖
表1 高分1號(hào)衛(wèi)星波段光譜信息
外業(yè)數(shù)據(jù)主要采用2016年觀山湖區(qū)二類(lèi)調(diào)查中馬尾松樣地實(shí)測(cè)數(shù)據(jù),樣地布設(shè)在GIS平臺(tái)上,以1∶10 000遙感影像圖為基礎(chǔ),在調(diào)查區(qū)域內(nèi)隨機(jī)確定起點(diǎn)后,以計(jì)算出的樣地間距(L)為參照,從上至下、從左至右按公里網(wǎng)布設(shè)樣地,樣地規(guī)格為半徑14.57m的圓形樣地,面積667m2。對(duì)樣地內(nèi)胸徑大于等于5.0cm的樣木進(jìn)行每木檢尺,采集其胸徑、樹(shù)高、郁閉度、優(yōu)勢(shì)樹(shù)種等數(shù)據(jù),對(duì)各樹(shù)種(組)檢尺樣木按徑級(jí)組歸類(lèi),用各徑級(jí)組平均樹(shù)高、各徑級(jí)組檢尺木胸徑通過(guò)二元立木材積式計(jì)算各株樣木材積,匯總得到樣地蓄積,記載到0.1m3。研究區(qū)選取馬尾松樣地點(diǎn)總樣本共180個(gè)(其中訓(xùn)練樣本120個(gè),驗(yàn)證樣本60個(gè))各樣本最大值、最小值、平均值情況及樣地空間分布情況如表2所示。
表2 研究區(qū)樣地蓄積量分布統(tǒng)計(jì)表
2.3.1光譜特征
1)光譜信息。以高分1號(hào)影像的band4(近紅外)、band3(紅光)、band2(綠光)、band1(藍(lán)光)波段作為單波段遙感因子。在ArcGIS中使用“區(qū)域分析”中以“以表格顯示分區(qū)統(tǒng)計(jì)”工具提取特征單元對(duì)應(yīng)遙感數(shù)據(jù)的反射率。
2)植被指數(shù)。在ArcGIS中利用字段計(jì)算器,進(jìn)行植被指數(shù)計(jì)算。
歸一化植被指數(shù):NDVI=(B4-B3)/(B4+B3)
比值植被指數(shù):RVI=B4/B3
差值植被指數(shù):DVI=B4-B3
式中:B4為高分1號(hào)影像的第4波段;B3為高分1號(hào)影像的第3波段。
2.3.2紋理特征
紋理特征主要體現(xiàn)遙感影像的紋理信息,主要包括均值(ME)、協(xié)同性(HO)、方差(VVA)、相關(guān)性(CO)、二階矩(SM)、相異性(DI)、熵(EN)、對(duì)比度(CT)。本文基于ENVI軟件選用二階概率統(tǒng)計(jì)的濾波方法,在3×3,5×5,7×7,9×9,11×11,13×13,15×15,17×17,19×19,21×21等9種窗口下分別提取GF-1各波段數(shù)據(jù)的紋理特征。
選用多元逐步回歸方法、隨機(jī)森林算法構(gòu)建森林蓄積量估測(cè)模型。
2.4.1特征變量分析
在多元逐步回歸建模過(guò)程中,參與擬合的自變量越多,建模精度將會(huì)提高,同時(shí)對(duì)建模無(wú)顯著影響的因子可能會(huì)引起共線性和數(shù)據(jù)冗余問(wèn)題,從而影響估測(cè)結(jié)果。因此,對(duì)森林蓄積量和遙感因子進(jìn)行相關(guān)性分析,根據(jù)決定系數(shù)R2、調(diào)整R2、精度檢驗(yàn)指標(biāo)等選取主要變量是線性回歸建模的關(guān)鍵。隨機(jī)森林的特征選擇方法屬于包裹法,可在訓(xùn)練過(guò)程中輸出變量的重要性,并對(duì)特征變量重要性進(jìn)行排序,即哪個(gè)特征變量對(duì)預(yù)測(cè)類(lèi)更有用。經(jīng)多次試驗(yàn)確定決策樹(shù)數(shù)目和節(jié)點(diǎn)分裂時(shí)變量個(gè)數(shù),代入隨機(jī)森林回歸模型,并利用回歸模型對(duì)驗(yàn)證樣本進(jìn)行預(yù)估[12-17]。
2.4.2窗口與樣地的匹配
濾波方法提取影像的紋理特征主要受窗口大小、X和Y變換值、選擇灰度量化級(jí)別等參數(shù)的影響。在提取影像紋理特征的過(guò)程中,設(shè)置X和Y變換值默認(rèn)值為1和1,灰度量化級(jí)別默認(rèn)值為64,對(duì)比設(shè)置3×3,5×5,7×7,9×9,11×11,13×13,15×15,17×17,21×21不同窗口。本研究樣地規(guī)格半徑為14.57m,面積667m2的圓形樣地,使用GF-1單波段遙感影像單個(gè)像元面積為2m×2m,以13×13的移動(dòng)窗口取平均值,代表676 m2遙感特征值,與實(shí)測(cè)的圓形樣地面積尺度上可較好匹配。
2.4.3模型的構(gòu)建與擬合效果
通過(guò)特征變量篩選、最佳窗口確定后,引入?yún)⑴c建模的遙感特征變量作為自變量,實(shí)測(cè)森林蓄積作為因變量,引入多元逐步回歸分析模型、隨機(jī)森林模型進(jìn)行建模,并根據(jù)輸出的回歸分析中決定系數(shù)(R2)、均方根誤差(RMSE)、相對(duì)均方根誤差(rRMSE)、容差等參數(shù)對(duì)模型擬合效果進(jìn)行評(píng)價(jià)。
通過(guò)分析候選的光譜特征、紋理特征和蓄積量的相關(guān)性,從中挑選出相關(guān)性顯著的特征變量進(jìn)行組合,采用多元線性回歸方法,建立森林蓄積量與各個(gè)光譜因子、紋理特征因子之間的多元回歸模型。隨著引入特征變量的增加,一方面提高了建模精度,另一方面也會(huì)引起共線性問(wèn)題。當(dāng)設(shè)置13×13的窗口,篩選引入特征變量為B3(紅光波段),DI2(第二波段相異性),EN2(第二波段熵),SM2(第二波段二階矩陣),CO3(第三波段相關(guān)性)時(shí),擬合效果較好,R2增加到0.722,RMSE減少至36.305,容差為0.226,擬合效果如表3所示。
表3 不同因子多元逐步回歸模型擬合效果
本文基于3×3,5×5,7×7,9×9,11×11,13×13,15×15,17×17,21×21等9種不同窗口提取的遙感特征變量與森林蓄積量進(jìn)行多元逐步回歸分析。實(shí)驗(yàn)表明:篩選引入特征變量為B3,DI2,EN2,SM2,CO3,在3×3至13×13窗口區(qū)間,容差均大于0.1,R2呈遞增趨勢(shì),RMSE隨之遞減;在13×13至21×21窗口區(qū)間,容差均大于0.1,R2呈遞減趨勢(shì),RMSE隨著遞增。因此,在13×13窗口下,擬合精度最優(yōu),R2(0.722) 最高,RMSE(36.305m3/hm2)最小,擬合效果如表4所示。
表4 不同窗口多元逐步回歸擬合效果
遙感影像因分辨率不同對(duì)應(yīng)像元面積也存在差異,GF-1單波段遙感影像單個(gè)像元面積為2m×2m,在遙感特征變量提取過(guò)程中,以13×13的移動(dòng)窗口取平均值,代表676 m2遙感特征值,與樣地規(guī)格半徑為14.57m,面積667m2實(shí)測(cè)的圓形樣地面積尺度上可較好匹配,經(jīng)過(guò)上述特征因子、窗口比選,多元逐步回歸森林蓄積量最優(yōu)估測(cè)模型為:
y=-570.884+0.131x1-0.054x2+3.274x3+8.814x4-0.002x5
式中:x1為DI2;x2為B3;x3為EN2;x4為SM2;x5為CO3;y為樣地森林蓄積量。
本文提取的24個(gè)特征變量(表5),分別為光譜特征、紋理特征、歸一化植被指數(shù)、比值植被指數(shù)、差值植被指數(shù),由特征變量的重要性大小排序(圖2)可知,光譜特征中B3(紅光波段)、紋理特征中SM3(第三波段二階矩陣)、DI2(第二波段相異性)、HO2(第二波段協(xié)同性)、ME3(第三波段均值) SM2(第二波段二階矩陣)、DI3(第三波段相異性)、EN2(第二波段熵)對(duì)蓄積估測(cè)影像較大。mtry和ntree為影響隨機(jī)森林建模效果2個(gè)較為重要的參數(shù)。mtry表示平均樹(shù)深,一般情況,默認(rèn)設(shè)置為全部自變量數(shù)量的1/3;ntree表示模型默認(rèn)會(huì)生成多少株樹(shù),ArcGIS pro的默認(rèn)值為100,本研究選擇100。
表5 遙感特征變量相關(guān)系數(shù)分析表
圖2 特征變量重要性排序
隨機(jī)森林模型精度也受窗口大小的影響,對(duì)比3×3,5×5,7×7,9×9,11×11,13×13,15×15,17×17,21×21等9種不同窗口提取的遙感特征變量與森林蓄積量進(jìn)行隨機(jī)森林建模分析。實(shí)驗(yàn)表明:當(dāng)窗口設(shè)置為13×13時(shí),模型的擬合效果最優(yōu),具有最大值R2(0.955),最小值RMSE(16.305 m3/hm2)。相同尺度窗口下,對(duì)比多元逐步回歸模型,隨機(jī)森林算法蓄積量估測(cè)模型擬合效果更好(表6)。
表6 不同隨機(jī)森林蓄積估測(cè)建模擬合效果
實(shí)際調(diào)查馬尾松樣地點(diǎn)共180個(gè)(其中訓(xùn)練樣本120個(gè),驗(yàn)證樣本60個(gè)),其中訓(xùn)練樣本與驗(yàn)證樣本相互獨(dú)立,對(duì)比多元逐步回歸、隨機(jī)森林模型驗(yàn)證樣本中實(shí)測(cè)值與預(yù)測(cè)值的散點(diǎn)圖擬合效果,2個(gè)模型的決定系數(shù)R2分別為0.722和0.955,隨機(jī)森林模型散點(diǎn)分布更靠近預(yù)測(cè)趨勢(shì)線,分布規(guī)則性更強(qiáng),因此隨機(jī)森林模型擬合效果更優(yōu)(圖3)。
圖3 不同預(yù)測(cè)模型散點(diǎn)分布圖
由上述模型中精度檢驗(yàn)指標(biāo)得出:隨機(jī)森林模型精度優(yōu)于多元逐步回歸模型,多元逐步回歸模型參數(shù)(R2=0.722,RMSE=38.77,rRMSE=35.33%);隨機(jī)森林模型參數(shù)(R2=0.955,RMSE=17.31,rRMSE=14.15%),檢驗(yàn)結(jié)果如表7所示。
表7 不同模型精度檢驗(yàn)結(jié)果
1)優(yōu)化了特征變量篩選組合方法。本文將提取的遙感特征因子作為特征變量,根據(jù)隨機(jī)森林建模中輸出變量的重要性進(jìn)行排列,選取對(duì)建模貢獻(xiàn)較大的因子組合,采用多元逐步回歸方法,篩選擬合精度較優(yōu)、共線性和數(shù)據(jù)冗余問(wèn)題較小的因子作為特征變量。該方法減少了多元逐步回歸中因子組合迭代次數(shù),也在一定程度上解決了因子間共線性和數(shù)據(jù)冗余問(wèn)題,在因子篩選過(guò)程中發(fā)現(xiàn)紋理特征對(duì)森林蓄積建模精度更為敏感,最終選取DI2,B3,EN2,SM2,CO3作為建模特征變量。
2)有效解決了遙感特征提取單元與地面監(jiān)測(cè)尺度匹配性問(wèn)題。對(duì)比多元逐步回歸方法和隨機(jī)森林算法,構(gòu)建3×3,5×5,7×7,9×9,11×11,13×13,15×15,17×17,21×21等9種窗口下蓄積估測(cè)模型,分析各窗口建模擬合精度指標(biāo),發(fā)現(xiàn)13×13窗口下擬合精度指標(biāo)最優(yōu),且13×13的移動(dòng)窗代表676 m2遙感特征值,與實(shí)測(cè)的圓形樣地面積667m2尺度上匹配性高。因此,尋求特征變量提取單元與地面監(jiān)測(cè)單位對(duì)應(yīng)最優(yōu)尺度是本研究的創(chuàng)新點(diǎn)。
3)隨機(jī)森林模型擬合效果優(yōu)于多元逐步回歸模型。基于不同遙感特征變量、不同窗口構(gòu)建蓄積量估測(cè)模型,相比于多元逐步回歸模型,隨機(jī)森林建模的擬合效果、精度檢驗(yàn)更優(yōu),適應(yīng)性更強(qiáng)。選取DI2,B3,EN2,SM2,CO3作為建模特征變量,以13×13窗口建立蓄積估測(cè)模型,擬合效果和檢驗(yàn)精度分別為多元逐步回歸模型(R2=0.722,RMSE=38.77,rRMSE=35.33%)、隨機(jī)森林模型(R2=0.955,RMSE=17.31,rRMSE=14.15%)。因此,選取適宜窗口、較為敏感的特征變量,隨機(jī)森林模型可提高建模精度。
4)本文主要考慮了光譜、紋理特征因子進(jìn)行組合,而地形、環(huán)境因子等未參與建模分析。研究主要以GF-1遙感影像作為數(shù)據(jù)源,其它不同分辨率遙感影像對(duì)應(yīng)的最佳建模窗口尺度需繼續(xù)深入分析研究。