袁 勝
(廣西壯族自治區(qū)森林資源與生態(tài)環(huán)境監(jiān)測中心, 廣西 南寧 530028)
紅樹林是指生長于陸地與海洋交界帶的灘涂淺灘,以紅樹植物為主體的濕地木本植物群落[1]。紅樹林具有防風消浪、促淤保灘、固岸護堤、涵養(yǎng)凈化水域、保持生物多樣性的重要生態(tài)功能,是沿岸防護林體系的第一道海岸防線[2]。由于紅樹林生長環(huán)境的特殊性,常規(guī)的森林野外實地調(diào)查方法難以大規(guī)模監(jiān)測和準確提取紅樹林群落信息分布[3-4]。遙感技術(shù)觀測范圍廣、數(shù)據(jù)更新周期短、信息獲取方便快捷,成為紅樹林提取與動態(tài)監(jiān)測的重要手段[5-6]。
紅樹林遙感識別提取方法主要有目視解譯、非監(jiān)督分類、面向?qū)ο?、監(jiān)督分類等[7-9]。目視解譯主要是結(jié)合研究者的專業(yè)知識及經(jīng)驗,根據(jù)遙感影像對紅樹林進行識別。該法精度一般且費時費力。非監(jiān)督分類是指人們事先對分類過程不施加任何的先驗知識,僅憑遙感影像地物的光譜特征的分布規(guī)律進行自然聚類。非監(jiān)督分類只能把樣本區(qū)分為若干類別,而不能給出樣本的描述。面向?qū)ο蠓ㄔ谛畔⑻崛r綜合考慮了光譜特征、形狀、紋理及結(jié)構(gòu)等信息,成為紅樹林遙感自動分類的常用方法之一[9]。監(jiān)督分類依據(jù)已知訓練樣本,建立統(tǒng)計識別函數(shù),從而對各待分類影像進行分類。機器學習方法能顯著減少分類時間,并且算法的準確率也得到了顯著的提高。其中,隨機森林分類能直接處理高維數(shù)據(jù),對噪音和異常值有一定的容忍度,且預測誤差小、不易產(chǎn)生過擬合問題,在已有紅樹林遙感分類研究中具有較好效果[10-12]。在分類特征上,常利用歸一化植被指數(shù)(NDVI)、歸一化水體指數(shù)(NDWI)、歸一化差值濕度指數(shù)(NDMI)等光譜特征變量及紋理參數(shù)來區(qū)分紅樹林與非紅樹林[7]。此外,還有部分研究結(jié)合海岸線、潮位高度、高程等輔助數(shù)據(jù),以提高紅樹林識別精度[13-14]。在影像數(shù)據(jù)方面,隨著遙感技術(shù)的發(fā)展,運用到紅樹林研究中的遙感平臺及傳感器越來越多。其中,Google Earth Engine(GEE)[15]等遙感云計算平臺的發(fā)展,改變了傳統(tǒng)遙感數(shù)據(jù)處理和分析的模式,為遙感大數(shù)據(jù)挖掘提供了機遇。Sentinel-2作為分辨率較高的多光譜影像,光譜信息豐富,是紅樹林提取的重要數(shù)據(jù)源之一[14]。利用GEE處理、獲取Sentinel-2將極大地提高影像的利用效率。
本研究以廣西壯族自治區(qū)沿海紅樹林分布區(qū)為研究區(qū),基于GEE云平臺提取Sentinel-2遙感影像,結(jié)合紅樹林實地調(diào)查數(shù)據(jù),分別采用面向?qū)ο蠓椒ê突谙裨碾S機森林方法識別提取紅樹林空間分布信息,并構(gòu)建混淆矩陣進行精度驗證及對比分析,旨在為大范圍紅樹林遙感監(jiān)測提供參考。
研究區(qū)位于廣西壯族自治區(qū)南部沿海地區(qū),包括北海市、欽州市、防城港市等分布紅樹林的部分縣市(見圖1)。研究區(qū)地處低緯度,屬亞熱帶季風氣候區(qū)和熱帶季風氣候區(qū),年平均氣溫17.5~23.5 ℃,年平均降水量841.2~3 387.5 mm,年日照時數(shù)1 213.0~2 135.2 h。研究區(qū)南臨北部灣,海岸線曲折,溺谷多且面積廣闊,灘涂面積約10萬hm2,其中紅樹林總面積達9 330 hm2。紅樹林樹種主要有桐花樹(Aegicerascorniculatum)、白骨壤(Avicenniamarina)、秋茄(Kandeliacandel)、無瓣海桑(Sonneratiaapetala)、木欖(Bruguieragymnorhiza)、老鼠簕(Acanthusilicifolius)、海漆(Excoecariaagallocha)。
圖1 研究區(qū)域概況Fig.1 The overview of the study area
根據(jù)廣西林地變更及森林資源調(diào)查成果,提取紅樹林現(xiàn)有林和宜林地圖斑;結(jié)合遙感影像,補充修正現(xiàn)有紅樹林資源圖斑,并通過2019年外業(yè)補充調(diào)查核實,得到研究區(qū)紅樹林實際空間分布數(shù)據(jù)。基于紅樹林實地調(diào)查數(shù)據(jù),將研究區(qū)主要地物劃分為紅樹林和非紅樹林。在ArcGIS軟件中利用漁網(wǎng)工具進行樣本布點,最終共布設樣點4 709個,其中地類為紅樹林的樣點218個,非紅樹林樣點4 491個。所布設樣點數(shù)據(jù)用于面向?qū)ο蠓椒半S機森林方法分類及精度驗證。
遙感云計算平臺Google Earth Engine(GEE)依托其遍布全球數(shù)以百萬計的服務器,可以方便地訪問高性能計算資源、計算龐大的地理空間數(shù)據(jù)集、并行處理和分析數(shù)以萬億計的圖像[16]。采用的多光譜Sentinel-2影像數(shù)據(jù)通過GEE進行最小云合成并下載。影像時間為2019年7-9月。
植被指數(shù)由不同遙感光譜波段經(jīng)線性或非線性組合構(gòu)成,對植被具有一定指示意義[17]。在紅樹林提取研究中,常用歸一化差值水體指數(shù)(NDWI)、歸一化差值濕度指數(shù)(NDMI)等植被指數(shù)進行空間分布信息的提取[7]。因此,利用遙感影像計算分類所需的光譜特征變量,包括單波段反射率[18]、紅邊葉綠素指數(shù)(RECI)[18]、紅邊歸一化植被指數(shù)(RENDVI)[18]、歸一化差值池塘指數(shù)(NDPI)[19]、歸一化差值濕度指數(shù)(NDMI)[13]、歸一化差值水體指數(shù)(NDWI)[13]、改進歸一化差值水體指數(shù)(MNDWI)[12]、歸一化差值植被指數(shù)(NDVI)[18]及潮間紅樹林指數(shù)(NIMI)[14]。
面向?qū)ο蟮募t樹林提取采用eCognition Developer 9.0軟件對影像進行多尺度分割后,結(jié)合對象的光譜特征,通過確定閾值并創(chuàng)建相應規(guī)則對紅樹林進行分類提取,并將最終分類結(jié)果以矢量數(shù)據(jù)形式輸出。隨機森林分類算法在R語言中實現(xiàn),它通過隨機建立多棵決策樹,分類時使用多棵決策樹對樣本進行判斷和投票,將投票次數(shù)最多的類別指定為最終輸出[12]。研究選取70%的樣本數(shù)據(jù)作為訓練樣本,剩余30%的樣本數(shù)據(jù)作為驗證樣本。在分類精度評價中,常采用分類總體精度與Kappa系數(shù)來評價圖像整體分類質(zhì)量[3]。為避免非感興趣區(qū)的分類精度影響最終的評價,最終基于混淆矩陣選取用戶精度[20](User Accuracy, UA)、生產(chǎn)者精度[20](Producer Accuracy, PA)、F度量[3]作為紅樹林分類提取的精度評價指標。
(1)
(2)
(3)
式(1)(2)(3)中:pii為混淆矩陣第i行i列的樣本總數(shù);pi+為混淆矩陣第i行的總和;p+i為混淆矩陣第i列的總和。
采用面向?qū)ο蠓椒ㄟM行紅樹林提取時,影像分割過程所需考慮的參數(shù)包括尺度、色調(diào)、形狀、緊密度及平滑度。結(jié)合目視分析評價分割效果,確定采用的分割參數(shù)如下:影像各層占比均為1;分割尺度為2;形狀0.6;色調(diào)0.4;緊密度 0.5;平滑度0.5。在影像分割的基礎上,結(jié)合對象的光譜特征進行閾值分類。最終選取的光譜特征變量包括NDPI、NDWI、NDMI、NDVI以及NIR。首先利用NDMI、NDPI及NDVI識別建設用地、水體及陸地植被等非紅樹林區(qū),再利用NIR及NDWI將紅樹林與農(nóng)田灘涂等進行區(qū)分,最終得到紅樹林空間分布。特征變量閾值確定需結(jié)合影像目視判斷,具有主觀性,可能對紅樹林提取造成影響。
基于隨機森林方法進行紅樹林提取時,主要利用地物光譜波段特征及植被指數(shù)進行分類,將所有特征變量進行重要性排序(見圖2)。重要性越高代表對隨機森林建模的貢獻越大。選擇重要性較高的變量形成變量組合建立隨機森林模型對紅樹林進行分類提取。最終選用的特征變量包括NDMI、NDPI、MNDWI、RENDVI、RECI及GREEN。從隨機森林方法各特征變量重要性來看,紅邊、綠、近紅外及短波紅外波段組合而成的植被指數(shù)對于紅樹林的特征識別更為有效。
圖2 隨機森林特征變量重要性排序Fig.2 Importance sorting of feature variables based on random forest
分別采用面向?qū)ο蠓椒ê碗S機森林方法對紅樹林進行識別提取,提取結(jié)果如圖3所示。從圖3來看,隨機森林方法提取結(jié)果噪點較多,這可能是由于隨機森林方法是在像元尺度進行的分類提取;而面向?qū)ο蠓椒ㄊ窃诜指钏脤ο蟮幕A上進行的提取,所得紅樹林空間分布相比于隨機森林方法噪點更少。但面向?qū)ο蠓椒ㄔ谔崛〖t樹林時存在較大程度的誤判,將部分非紅樹林區(qū)域識別為紅樹林。相比之下,隨機森林方法所得紅樹林空間分布相對更為合理。
圖3 面向?qū)ο蠹半S機森林法的紅樹林提取結(jié)果
采用混淆矩陣進行分類精度驗證,最終結(jié)果如表1所示。兩種方法紅樹林的生產(chǎn)者精度均低于用戶精度。面向?qū)ο蠓诸惙椒▽⒓t樹林漏判為非紅樹林的數(shù)量約占據(jù)紅樹林總樣本的1/3,其紅樹林用戶精度為82.5%。隨機森林分類紅樹林的用戶精度為91.8%,相比于面向?qū)ο蠓ㄌ岣吡?1.3%。此外,面向?qū)ο蠓诸惣t樹林生產(chǎn)者精度為65.1%,F(xiàn)度量為0.727;隨機森林分類方法對應的評價指標值分別為81.2%、0.862。隨機森林方法的各項評價指標均高于面向?qū)ο蠓椒?,說明隨機森林分類方法有較高的分類精度,采用隨機森林方法進行紅樹林提取的效果優(yōu)于面向?qū)ο蠓椒ā?/p>
表1 分類結(jié)果混淆矩陣及精度驗證Tab.1 Confusion matrix and precision verification of the classification results分類方法分類類別實際類別紅樹林非紅樹林用戶精度/%生產(chǎn)者精度/%F面向?qū)ο蠹t樹林1423082.565.10.727非紅樹林764 461隨機森林紅樹林56591.881.20.862非紅樹林131 339
以廣西壯族自治區(qū)內(nèi)紅樹林分布區(qū)為研究區(qū),基于GEE云平臺提取Sentinel-2遙感影像,結(jié)合紅樹林實地調(diào)查數(shù)據(jù),提取波段反射率及植被指數(shù),分別采用面向?qū)ο?、隨機森林方法進行紅樹林信息識別提取,并構(gòu)建混淆矩陣進行精度驗證及對比。研究結(jié)果表明:
(1) 綠、近紅外、短波紅外及紅邊波段組合而成的植被指數(shù),其重要性相對較高,能有效識別紅樹林的特征。利用這些波段信息進行紅樹林識別能顯著提高分類精度。
(2) 采用面向?qū)ο蠓椒ê碗S機森林方法進行紅樹林提取時,兩種方法的生產(chǎn)者精度均低于用戶精度。面向?qū)ο蠓椒ê碗S機森林方法生產(chǎn)者精度分別為65.1%和81.2%,用戶精度分別為82.5%和91.8%。
(3) 基于Sentinel-2影像數(shù)據(jù),結(jié)合NDMI、MNDWI、NDPI等分類特征,構(gòu)建隨機森林模型,可以有效地提取紅樹林空間分布信息。采用面向?qū)ο蠓椒ê碗S機森林方法進行紅樹林分類提取時,隨機森林方法的各項精度檢驗指標均高于面向?qū)ο蠓椒āF渲杏脩艟葹?1.8%,相比面向?qū)ο蠓椒ㄌ岣吡?1.3%。
隨機森林分類在紅樹林提取上表現(xiàn)較好,這與其他學者研究所得結(jié)果相符[11,14],但本研究所得的生產(chǎn)者精度相較而言較低,這可能是研究區(qū)范圍較大、地物復雜程度高所致。面向?qū)ο蠓椒ㄅc隨機森林方法在紅樹林提取中均存在較多漏判現(xiàn)象,這可能是因為所使用Sentinel-2影像中部分紅樹林因潮位變化被水體淹沒,導致其光譜特征更接近于水體,從而產(chǎn)生漏判。結(jié)合光譜特征及植被指數(shù)構(gòu)建隨機森林模型能有效提取紅樹林的空間分布信息,但紅樹林的分布和生長受到潮汐、洋流等多種因素的影響,而遙感又存在 “同物異譜”、“異物同譜”及混合像元等多種現(xiàn)象,這使提升紅樹林分類精度的難度增加。研究表明,結(jié)合紋理特征、高程數(shù)據(jù)或使用更高分辨率影像能有效識別紅樹林[21-22]。因此,結(jié)合更多有效的輔助數(shù)據(jù)進而提高紅樹林提取精度值得進一步研究。