王潔 李恒凱 龍北平 張建瑩
(江西理工大學(xué),贛州,341000) (江西省煤田地質(zhì)局測繪大隊(duì)) (江西理工大學(xué))
森林生態(tài)系統(tǒng)變化的長期調(diào)查監(jiān)測與評(píng)價(jià)是實(shí)現(xiàn)經(jīng)濟(jì)、社會(huì)與環(huán)境和諧快速發(fā)展的保障[1]。中國南方丘陵地區(qū)位于秦嶺-淮河以南、青藏高原以東的山地和丘陵分布區(qū),區(qū)域內(nèi)森林資源豐富,植被覆蓋面積廣、林分結(jié)構(gòu)復(fù)雜、地形破碎,傳統(tǒng)的森林資源調(diào)查方法成本高、周期長。通過遙感影像能快速、準(zhǔn)確地進(jìn)行樹種識(shí)別和分類,已有多種類型遙感影像應(yīng)用于樹種識(shí)別和監(jiān)測[2-5]。利用時(shí)序遙感影像提取和分析植被物候信息,能夠準(zhǔn)確的反映植被生長過程中明顯的季節(jié)周期性變化,進(jìn)而提升樹種分類的效果[6-7]。近年來,歐洲空間局(ESA)哥白尼計(jì)劃發(fā)布的哨兵-2(Sentinel-2)時(shí)間序列影像數(shù)據(jù),為樹種分類提供了具有高空間分辨率的數(shù)據(jù)源。其紅邊、近紅外和短波紅外等波段提供了多種光譜信息,在樹種識(shí)別研究中具有巨大潛力[8]。然而,在大尺度多云雨的南方丘陵地區(qū),光學(xué)影像數(shù)據(jù)的獲取極易受到限制。
合成孔徑雷達(dá)(SAR)具有全天時(shí)、全天候等特點(diǎn),雷達(dá)后向散射系數(shù)能夠提供不同于光學(xué)影像的信息,包括植被的含水量、土壤含水量以及地表的幾何特征等,廣泛用于植被監(jiān)測及分類。楊丹等[9]利用時(shí)序哨兵-1(Sentinel-1)數(shù)據(jù)和深度循環(huán)網(wǎng)絡(luò)方法對(duì)植被進(jìn)行分類制圖,總體精度為82%。
為了提高樹種分類精度,將光譜數(shù)據(jù)和其它數(shù)據(jù)相結(jié)合,發(fā)現(xiàn)對(duì)樹冠形狀不同的樹種,紋理特征具有重要作用[10]。不同空間分布的樹種的地形特征也有所不同,地形特征對(duì)地形復(fù)雜區(qū)域樹種的提取也具有重要作用[11]。黃翀等[12]利用Sentinel-2和Sentinel-1對(duì)人工林進(jìn)行分類,總體精度為85%,驗(yàn)證了紋理特征、后向散射特征在樹種精細(xì)分類上的能力。Ma et al.[13]通過實(shí)驗(yàn)證明地形特征能提高樹種提取精度。因此,利用雷達(dá)、光學(xué)影像數(shù)據(jù)和地形數(shù)據(jù)提取不同樹種特征,可實(shí)現(xiàn)多源遙感互補(bǔ)[14]。
除影像數(shù)據(jù)外,算法也是影響樹種分類精度的重要因素,遙感數(shù)據(jù)和機(jī)器學(xué)習(xí)的結(jié)合已成為樹種分類的主要方法。Wang et al.[15]使用隨機(jī)森林(RF)算法結(jié)合多時(shí)相、多特征Sentinel-2數(shù)據(jù)對(duì)長白山樹種進(jìn)行分類,總體精度為99.79%;Hu et al.[16]采用支持向量比(SVM)算法應(yīng)用多源遙感數(shù)據(jù)對(duì)樹種進(jìn)行分類,總體精度為89%;Chen et al.[17]采用決策樹算法(CART)和QuickBird圖像進(jìn)行樹種分類,總體精度為80.50%。表明隨機(jī)森林算法(RF)、支持向量機(jī)算法(SVM)、決策樹算法(CART)等機(jī)器學(xué)習(xí)算法均可以用于樹種分類。
本研究以江西省宜春市袁州區(qū)為例,結(jié)合研究區(qū)林地實(shí)地調(diào)查數(shù)據(jù),將時(shí)序Sentinel-1、Sentinel-2和數(shù)字高程模型(DEM)數(shù)據(jù)相結(jié)合,提取不同樹種特征,利用分離閾值法(SEaTH)和特征權(quán)重算法(ReliefF)進(jìn)行特征優(yōu)選,通過RF、SVM和CART分類算法進(jìn)行對(duì)比分析,構(gòu)建適用于南方丘陵山地的最佳樹種分類算法模型,并驗(yàn)證多源數(shù)據(jù)相結(jié)合對(duì)大范圍樹種分類提取的可行性。分析適合南方丘陵地區(qū)樹種分類的最佳特征因子組合,提取不同樹種的空間分布信息,提高森林資源調(diào)查和監(jiān)測的時(shí)效性。
袁州區(qū)位于中國江西省宜春市西南部,地理坐標(biāo)位于113°54′~114°37′E、27°33′~28°5′N,土地總面積2 532 km2。區(qū)域內(nèi)地貌以山地、丘陵為主,地勢西高東低,是典型的南方丘陵區(qū)。氣候?qū)賮啛釒Ъ撅L(fēng)濕潤性氣候,森林資源豐富,植被物種多種多樣,森林覆蓋率達(dá)60.15%。袁州區(qū)主要樹種為杉木(Cunninghamialanceolata)、油茶(Camelliaoleifera)、松樹(Pinus)等。其中,杉木、松樹和桉樹(Eucalyptus)并稱為中國南方三大用材樹種,具有較高的經(jīng)濟(jì)價(jià)值。油茶產(chǎn)業(yè)是袁州區(qū)的特色優(yōu)勢產(chǎn)業(yè),其產(chǎn)量和面積均位于中國前列。根據(jù)袁州區(qū)林地實(shí)地調(diào)查數(shù)據(jù)提取邊界,劃分區(qū)域總面積為2 221.5 km2(見圖1)。本研究采用的行政區(qū)劃數(shù)據(jù)來源于全國地理信息資源目錄服務(wù)系統(tǒng)(https://www.webmap.cn)。
本研究所使用的Sentinel系列數(shù)據(jù)來源哥白尼開放存取中心(https://scihub.copernicus.eu/),Sentinel-1為干涉寬幅模式(IW)的地距多視產(chǎn)品(GRD),分辨率為10 m,極化方式為VV+VH。Sentinel-2擁有13個(gè)不同空間分辨率的光譜波段,試驗(yàn)選取10 m和20 m空間分辨率波段共10個(gè)。數(shù)字高程模型(DEM)數(shù)據(jù)下載于地理空間數(shù)據(jù)云平臺(tái)(http://www.gscloud.cn)。影像數(shù)據(jù)采集時(shí)間見表1,研究所使用的Sentinel-2影像波段信息見表2。
圖1 研究區(qū)地理位置
表1 影像數(shù)據(jù)采集時(shí)間表
表2 本研究使用的哨兵-2波段信息
Sentinel-1數(shù)據(jù)通過軌道校正、熱噪聲去除、輻射定標(biāo)、濾波、地形校正和分貝化處理將其轉(zhuǎn)化為后向散射系數(shù)圖,最后進(jìn)行裁剪得到研究區(qū)雷達(dá)影像。Sentinel-2數(shù)據(jù)通過大氣校正,將其從L1C級(jí)數(shù)據(jù)轉(zhuǎn)化為L2A級(jí)別數(shù)據(jù),剔除60 m分辨率波段后,將20 m分辨率波段重采樣至10 m分辨率,最后進(jìn)行裁剪拼接。DEM數(shù)據(jù)經(jīng)過拼接裁剪后重采樣至10 m分辨率,并生成地形因子。
樣本點(diǎn)數(shù)據(jù)來源于2019年袁州區(qū)林地實(shí)地調(diào)查數(shù)據(jù)。根據(jù)研究區(qū)植被覆蓋情況,確定分類類別為油茶、杉木、松樹、其它樹種、耕地、裸地、水體和建設(shè)用地等8類。根據(jù)林地調(diào)查圖生成油茶、杉木、松樹和其它樹種等4類樣本隨機(jī)點(diǎn),然后通過谷歌地圖(Google Earth)高分辨率影像和實(shí)地調(diào)查數(shù)據(jù)剔除異常點(diǎn)。通過目視解譯得到耕地、裸地、水體和建設(shè)用地等4類樣本。最后得到油茶樣本2 710個(gè)、杉木樣本3 184個(gè)、松樹樣本810個(gè)、其它樹種樣本2 873個(gè)、耕地樣本658個(gè)、裸地樣本177個(gè)、水體樣本128個(gè)、建設(shè)用地樣本321個(gè),按照7∶3的比例隨機(jī)分為訓(xùn)練樣本和驗(yàn)證樣本。
利用預(yù)處理后的Sentinel-1、Sentinel-2和DEM數(shù)據(jù)提取不同特征。在光譜特征、水體指數(shù)和植被指數(shù)的基礎(chǔ)上,通過不同的特征組合,構(gòu)建多特征隨機(jī)森林樹種分類模型,然后分別利用分離閾值法和特征權(quán)重算法(ReliefF)進(jìn)行特征優(yōu)選,篩選出最佳分類特征組合,然后與SVM和CART分類算法進(jìn)行對(duì)比分析。利用混淆矩陣評(píng)估3種算法分類結(jié)果,選擇最優(yōu)樹種分類模型(見圖2)。
圖2 技術(shù)路線與特征變量組合方案信息
選取Sentinel-2影像的B2(藍(lán)光)、B3(綠光)、B4(紅光)、B5(紅邊1)、B6(紅邊2)、B7(紅邊3)、B8(近紅外)、B8a(狹窄近紅外)、B11(短波紅外1)、B12(短波紅外2)波段作為研究波段,并提取水體指數(shù)、植被指數(shù)和紅邊指數(shù)(見表3)。采用灰度共生矩陣(GLCM)提取紋理特征(均值、方差、同質(zhì)性、對(duì)比度、差異性、熵、二階矩和相關(guān)性),為了避免數(shù)據(jù)冗余,首先對(duì)Sentinel-2數(shù)據(jù)進(jìn)行主成分分析,提取第一主成分?jǐn)?shù)據(jù),根據(jù)第一主成分進(jìn)行紋理特征提取。利用DEM數(shù)據(jù)提取高程、坡度、坡向作為地形特征。根據(jù)Sentinel-1雷達(dá)數(shù)據(jù)提取后采用VV和VH雙極化方式的后向散射系數(shù)(后向散射系數(shù)VV、后向散射系數(shù)VH)作為雷達(dá)特征。共獲取適應(yīng)南方丘陵山區(qū)的35類特征變量[18]。
綜合利用多種特征分類,能夠充分利用遙感數(shù)據(jù)信息,提高樹種提取精度。但相關(guān)性較弱的特征在分類時(shí)會(huì)造成特征冗余,導(dǎo)致分類精度的降低。特征優(yōu)選的原則是在確保分類精度的前提下使用較少的特征子集,對(duì)特征集進(jìn)行特征優(yōu)選能夠有效提升分類效率。
2.3.1 分離閾值法的特征優(yōu)選
分離閾值法(SEaTH)采用賈弗里斯松下距離(JM)[19]對(duì)類間可分性進(jìn)行分析,并確定最佳特征組合。JM距離的計(jì)算公式如下:
J=2(1-e-B)。
式中:m1和m2分別為兩個(gè)類別的特征均值;σ1和σ2分別為兩類別特征值的標(biāo)準(zhǔn)差;B為巴氏距離;J為樣本間的分離度,J值范圍為[0,2],數(shù)值越大,代表類間可分性越好。
2.3.2 ReliefF算法的特征優(yōu)選
式中:A為某個(gè)分類特征;C為樣本類別;class()為與R不同的樣本類別;dA()為2個(gè)樣本在特征上A的距離;Hj(C)為樣本R最鄰近的同類樣本;Mj(C)為樣本R最鄰近的不同類樣本;p()為某類樣本在訓(xùn)練集D中所占比例;m為迭代次數(shù);i為權(quán)重更新時(shí)當(dāng)前迭代次數(shù)(i=1、2、…、m);k為最鄰近樣本個(gè)數(shù)。
隨機(jī)森林算法(RF)是以決策樹為基本分類器的集成學(xué)習(xí)算法,適用于高維遙感數(shù)據(jù)集,比其它機(jī)器學(xué)習(xí)算法更加高效和低成本[22-23]。RF還可以解決過擬合的問題,適用于時(shí)間序列遙感林地植被分類[24];
支持向量機(jī)算法(SVM)是將非線性分類問題轉(zhuǎn)化為高維線性問題,并在高維特征空間中構(gòu)造線性判別函數(shù),同時(shí)引入核函數(shù)減少運(yùn)算量;
分類回歸樹算法(CART)是通過對(duì)由測試變量和目標(biāo)變量構(gòu)成的訓(xùn)練數(shù)據(jù)集的循環(huán)分析形成二叉樹形式的決策樹,CART算法生成的決策樹沒有人工干預(yù),減少了主觀誤差。
為評(píng)估樹種分類的準(zhǔn)確性,本研究利用混淆矩陣和驗(yàn)證樣本對(duì)樹種分類結(jié)果進(jìn)行精度驗(yàn)證,精度評(píng)價(jià)指標(biāo)為用戶精度(UA)、生產(chǎn)者精度(PA)、總體精度(OA)和Kappa系數(shù)(KPa)。計(jì)算公式如下:
式中:N為總樣本數(shù),k為總類別數(shù),Nii為被分到正確類別的樣本數(shù),N+i為第i類的真實(shí)值,Ni+為第i類的預(yù)測值。
由表4可知,各樹種9—12月歸一化植被指數(shù)(NDVI)均值,整個(gè)時(shí)間段內(nèi)變化趨勢基本相同,均呈下降趨勢,歸一化植被指數(shù)值為0.4~0.6,樹種分離程度不明顯,原因是油茶、杉木、松樹都屬于常綠樹種。表5展示了不同樹種在各光譜特征下的像元均值,樹種在光譜特征上沒有明顯差異,僅松樹和油茶在比值植被指數(shù)和紅邊葉綠素指數(shù)上與其它植被有所區(qū)分。
表4 不同時(shí)間各樹種歸一化植被指數(shù)
表5 不同樹種光譜特征
由圖3可知,根據(jù)Sentinel-1雷達(dá)數(shù)據(jù)統(tǒng)計(jì)不同樹種在對(duì)應(yīng)日期VV和VH極化下的樹種時(shí)序后向散射系數(shù)曲線。不同植被全年時(shí)序后向散射特征與植被的生長物候和形態(tài)相關(guān),所有樹種在兩種極化下的后向散射系數(shù)變化趨勢基本相同。VV極化下,其它樹種在6月中旬左右后向散射強(qiáng)度明顯升高,其后向散射強(qiáng)度全年高于其它植被;1—9月松樹后向散射強(qiáng)度持續(xù)低于其它植被,杉木后向散射強(qiáng)度在12月呈現(xiàn)同其它植被不同的下降趨勢。VH極化下,油茶VH極化后向散射強(qiáng)度全年低于其它植被,2月左右出現(xiàn)明顯增幅和減幅,9月末到12月初出現(xiàn)明顯減幅,12月松樹和杉木呈現(xiàn)同其它植被不同的下降趨勢。
圖3 樹種VV/VH極化時(shí)序特征曲線
通過對(duì)不同特征變量的疊加分析,可以近似分離出不同樹種,雷達(dá)數(shù)據(jù)彌補(bǔ)了光學(xué)影像的不足,結(jié)合光學(xué)和雷達(dá)數(shù)據(jù)可以增強(qiáng)對(duì)樹種的識(shí)別能力和提高分類精度。
本研究分別利用分離閾值法和特征權(quán)重算法(ReliefF)對(duì)所構(gòu)建的樹種分類特征集進(jìn)行特征優(yōu)選。樹種分類特征集共171個(gè)特征變量,通過試驗(yàn)獲取樣本的特征均值和標(biāo)準(zhǔn)差,根據(jù)公式計(jì)算樹種之間的分離度,計(jì)算單個(gè)特征的巴氏距離以及同類特征巴氏距離的均值。同類特征中選取高于均值的特征,完成同類特征優(yōu)選。
由表6可知,利用特征權(quán)重算法(ReliefF)進(jìn)行特征優(yōu)選及排序,排名前15和后15的特征,根據(jù)重要性對(duì)特征進(jìn)行排序分組,并利用隨機(jī)森林算法進(jìn)行分類,共分為7組。
由表7可知,分類精度隨著分類特征的增加呈先上升后下降的趨勢,第5組分類精度最高,因此選取第5組作為特征權(quán)重算法(ReliefF)最優(yōu)特征集。
由表8可知,方案1僅使用光譜特征、植被指數(shù)和水體指數(shù),分類結(jié)果總體精度為80.97%。在方案1的基礎(chǔ)上分別加入紅邊特征、雷達(dá)特征、地形特征、紋理特征,總體精度分別提高了2.75%、2.26%、3.93%、2.81%。方案6融合所有特征后,總體精度提高了2.35%。方案7在方案6的基礎(chǔ)上分別利用分離閾值法與特征權(quán)重算法(ReliefF)對(duì)所有特征進(jìn)行優(yōu)選,不僅取得了更高的精度,而且有效降低了數(shù)據(jù)量,減少了運(yùn)算時(shí)間。特征優(yōu)選后的總體精度比方案6分別提高了1.89%和2.01%,其中ReliefF算法優(yōu)選的結(jié)果精度最高,總體精度為85.33%,Kappa系數(shù)為0.81。
表6 特征重要性排名
表7 分組情況及分類精度
由圖4可知,水體在所有方案中都具有較高的分類精度。方案2在加入紅邊特征后,不同樹種分類精度均有所提高,證明紅邊特征的加入有助樹種提取;方案3加入雷達(dá)特征后樹種精度提高,因?yàn)槔走_(dá)波段能夠穿透冠層獲取樹種信息,提高光譜特征相似的樹種的類間差異;方案4在加入地形特征后,與其它方案相比杉木和油茶的生產(chǎn)者精度提升最大,南方丘陵山地山體陰影嚴(yán)重,不同樹種混合分布、相互滲透,很難進(jìn)行區(qū)分,地形特征變量能夠有效減少錯(cuò)分概率;方案5加入紋理特征后,樹種的分類精度提升沒有地形特征高,主要是因?yàn)榍鹆晟絽^(qū)地形破碎、植被樹冠茂盛,影像上紋理特征不明顯,同時(shí)油茶在種植初期會(huì)和耕地存在誤分。
表8 各方案分類精度
由表9可知,隨機(jī)森林算法比支持向量機(jī)算法和分類回歸樹算法總體分類精度分別提高了3.99%和4.55%,Kappa系數(shù)分別提高了0.05和0.06。結(jié)合各地物生產(chǎn)者精度,隨機(jī)森林算法分類的松樹生產(chǎn)者精度比分類回歸樹算法高了13.75%,油茶生產(chǎn)者精度比支持向量機(jī)算法提高了10.34%。
表9 不同分類方法的分類精度
由圖5可知,杉木和油茶作為袁州區(qū)主要樹種,大面積混合分布,3種算法結(jié)果的樹種分布區(qū)域大致一樣,但某些區(qū)域的油茶和松樹的提取結(jié)果存在明顯差異;但對(duì)比不同分類方法的局部分類結(jié)果(見圖6),隨機(jī)森林算法與支持向量機(jī)算法和分類回歸樹算法相比,隨機(jī)森林算法降低了分類結(jié)果的破碎度。
準(zhǔn)確高效地獲取樹種的數(shù)量和分布信息對(duì)于林業(yè)的管理和監(jiān)測至關(guān)重要。遙感影像為樹種調(diào)查提供了有力的工具,Sentinel數(shù)據(jù)在樹種分類上具有廣泛的實(shí)用性[12,25],Sentinel-2影像的紅邊、近紅外(NIR)和短波紅外(SWIR)波段對(duì)于植被分類制圖具有重要的作用[6,8,26]。本研究結(jié)合Sentinel影像和數(shù)字高程模型(DEM)數(shù)據(jù),對(duì)南方丘陵山區(qū)的樹種識(shí)別,結(jié)果發(fā)現(xiàn)重要性排名前15個(gè)特征中,紅邊特征所占比例最大,紅邊葉綠素指數(shù)在樹種分類中重要性最高。
由于光譜特征相似,不同樹種間存在不同程度的混淆,僅利用Sentinel-2光譜特征、植被指數(shù)、水體指數(shù),樹種的識(shí)別精度相對(duì)較低,將光譜特征與灰度共生矩陣(GLCM)紋理特征結(jié)合有效提高了樹種分類精度[27]。本研究中紋理特征沒有包含在最優(yōu)特征集中,特征重要性排名中紋理特征處于靠后位置,由于研究區(qū)域過大導(dǎo)致細(xì)節(jié)紋理缺失,同時(shí),樹種紋理特征也受研究區(qū)地理位置和樹種類別影響。不同樹種受地形因子影響呈現(xiàn)不同的光譜特征,地形特征可有效降低山體效應(yīng)帶來的光譜差異,減少錯(cuò)分概率,地形特征比物候特征和紋理特征對(duì)樹種分類更準(zhǔn)確有效[15],地形特征在不同特征融合的南方丘陵山區(qū)樹種分類中起著重要作用。
圖4 各地物生產(chǎn)者精度和用戶精度
加入雷達(dá)特征后,樹種分類精度同樣有所提升,證實(shí)Sentinel-1雷達(dá)特征能提高樹種間的區(qū)分度。本研究只利用了Sentinel-1的雷達(dá)后向散射系數(shù),杉木、松樹、油茶都屬于常綠樹種,物候變化不顯著,難以利用遙感提取植被物候[28]。由于雷達(dá)數(shù)據(jù)的特性,Sentinel-1數(shù)據(jù)同樣含有豐富的紋理信息,可進(jìn)一步提高紋理特征對(duì)南方丘陵山區(qū)樹種的分類制圖的精度。本研究最高準(zhǔn)確率為85.33%,Kappa系數(shù)為0.81,仍有提升空間,可利用更有效的輔助數(shù)據(jù)或先進(jìn)的深度學(xué)習(xí)技術(shù),對(duì)大面積樹種識(shí)別監(jiān)測進(jìn)行深入研究。
以袁州區(qū)為研究區(qū),結(jié)合Sentinel和數(shù)字高程模型(DEM)數(shù)據(jù)提取樹種光譜特征、植被指數(shù)、水體指數(shù)、紅邊特征、雷達(dá)特征、地形特征和紋理特征,分別采用特征權(quán)重算法(Relief)和分離閾值法進(jìn)行特征優(yōu)選,通過不同特征組合對(duì)比,分析各特征對(duì)樹種分類精度的影響,利用3種常用樹種分類機(jī)器學(xué)習(xí)算法對(duì)最優(yōu)特征集進(jìn)行樹種分類。樹種在不同特征上具有一定差異性,可通過特征優(yōu)選選取樹種分類的有效特征,通過特征優(yōu)選,能夠在保證分類精度的同時(shí)減少數(shù)據(jù)冗余,提高運(yùn)算效率和精度。根據(jù)最優(yōu)特征集分別使用3種機(jī)器學(xué)習(xí)算法(隨機(jī)森林、支持向量機(jī)和回歸決策樹)對(duì)樹種進(jìn)行分類,隨機(jī)森林算法分類精度最高,總體精度為85.33%。Sentinel影像和DEM數(shù)據(jù)的結(jié)合應(yīng)用可提高樹種分類的準(zhǔn)確性,可為南方丘陵山區(qū)大范圍樹種調(diào)查監(jiān)測提供技術(shù)方法。
圖5 不同分類方法樹種分類結(jié)果
圖6 不同分類方法的局部分類結(jié)果