張 穎 ,肖 越,魯宏旺,龍江平,林 輝
(1.中南林業(yè)科技大學(xué)林業(yè)遙感信息工程研究中心,湖南 長沙 410004; 2.林業(yè)遙感大數(shù)據(jù)與生態(tài)安全湖南省重點實驗室,湖南 長沙 410004; 3.南方森林資源經(jīng)營與監(jiān)測國家林業(yè)與草原局重點實驗室,湖南 長沙 410004;4.長沙市長長林業(yè)技術(shù)咨詢有限責(zé)任公司,湖南 長沙 410004)
天然林是我國森林資源的重要組成部分,約占我國森林總面積的三分之二,在水源涵養(yǎng)和水土保持等方面具有不可替代的作用。準(zhǔn)確地獲取天然林林分類型能夠因地制宜、適地適樹地保護天然林資源,為形成穩(wěn)定的森林生態(tài)系統(tǒng)和實現(xiàn)林業(yè)可持續(xù)發(fā)展提供依據(jù)。我國1998年特大水災(zāi)發(fā)生后國家正式啟動了“全國重點地區(qū)天然林資源保護工程”,以徹底扭轉(zhuǎn)生態(tài)環(huán)境不斷惡化的局面,實現(xiàn)國家中長遠(yuǎn)計劃的核心目標(biāo)之一 ——促進社會與經(jīng)濟的可持續(xù)發(fā)展[1]。傳統(tǒng)的天然林調(diào)查主要靠實地調(diào)查,然而這種實地調(diào)查的方法費時費力,效率也較低[2]。近年來,遙感技術(shù)的飛速發(fā)展大大提高了森林資源調(diào)查的效率及精確度[3-6]。
目前,森林分類主要集中在針葉林、闊葉林和混交林等林地信息提取方面,并逐步開始嘗試主要人工林樹種的精細(xì)分類[7]。然而,面對南方復(fù)雜環(huán)境下的天然林,基于遙感技術(shù)的天然林分類具有較大的挑戰(zhàn)。為了更好地評價天然林的生長過程和生態(tài)價值,基于遙感技術(shù)建立天然林的分類模型與算法具有重要意義。近幾年來,隨著遙感技術(shù)的迅速發(fā)展,遙感衛(wèi)星層出不窮,各學(xué)者進行了大量的研究與分析。Sentinel-2相較于其他遙感衛(wèi)星影像而言具有重訪周期短、空間分辨率高以及波段信息豐富等優(yōu)勢,尤其是它擁有較多的紅邊波段,對于植被的區(qū)分具有較大的作用。
隨著國內(nèi)外學(xué)者對于分類精度的要求不斷提高,傳統(tǒng)的單一機器學(xué)習(xí)分類算法已經(jīng)不能滿足要求,因此,通過對多分類器進行組合的集成學(xué)習(xí)算法應(yīng)運而生,其能更好地將各分類器的優(yōu)缺點進行互補,從而避免某一分類器所具有的偶然性與不確定性,提高整體的分類精度。Wang等[8]對祁連山的森林分布進行了制圖研究,對比了自動集成學(xué)習(xí)方法、LightGBM、隨機森林、CatBoost、XGBoost和神經(jīng)網(wǎng)絡(luò)等多種基分類器,發(fā)現(xiàn)集成學(xué)習(xí)方法區(qū)分森林覆蓋和制圖的結(jié)果最優(yōu),更能夠充分地展示高質(zhì)量和豐富的空間細(xì)節(jié)。
本研究以懷化市沅陵縣的天然林為研究對象,以Sentinel-2影像為數(shù)據(jù)源進行天然林分類實驗。首先,基于Sentinel-2數(shù)據(jù)提取光譜特征、植被指數(shù)以及紋理特征等31個分類特征。然后,采用先分層后分類的方法,遵循“從上到下、從簡單到復(fù)雜”的原則,使用最大似然算法(Maximum Likelihood,ML)、神經(jīng)網(wǎng)絡(luò)算法(Artificial Neural Net,ANN)、支持向量機算法(Support Vector Machine,SVM)、隨機森林算法(Random Forests,RF)以及集成學(xué)習(xí)算法(Ensemble Learning,EL)對研究區(qū)進行分類,建立符合天然林的遙感特征篩選的準(zhǔn)則,實現(xiàn)天然林分類。
研究區(qū)位于湖南省懷化市沅陵縣,地理位置為110°05′31″—111°06′27″E,28°04′48″—29°02′26″N,總面積5852km2。全縣有林地面積3848.8km2,占沅陵縣國土面積的66.07%,森林覆蓋率達(dá)76.19%。本研究選取沅陵縣東北部火場鄉(xiāng)、大合坪鄉(xiāng)、七甲坪鎮(zhèn)、清浪鄉(xiāng)、五強溪鎮(zhèn)、陳家灘鄉(xiāng)、官莊鎮(zhèn)共7個鄉(xiāng)鎮(zhèn)的天然林為研究對象,研究區(qū)的總面積為1959.64km2,其中天然林面積為1141.21km2,占研究區(qū)國土總面積的58.24%。根據(jù)地面調(diào)查數(shù)據(jù)可知,研究區(qū)的天然林主要樹種為馬尾松(Pinusmassoniana)、杉木(Cunninghamialanceolata)、樟樹(Cinnamomumcamphora)、楓香(Liquidambarformosana)等。
2.1.1 Sentinel-2數(shù)據(jù)下載與預(yù)處理
本研究使用的Sentinel-2數(shù)據(jù)來自歐洲航天局(https://scihub.copernicus.eu)。本研究選取了2019年9月28日的Level 1C的研究區(qū)Sentinel-2影像作為本次分類實驗的遙感數(shù)據(jù)源。由于研究區(qū)覆蓋范圍較大,因此需要下載2景影像進行鑲嵌,以獲取覆蓋整個研究區(qū)范圍的影像。歐洲航天局發(fā)布的Sentinel-2數(shù)據(jù)為已經(jīng)過輻射定標(biāo)與幾何校正操作處理后的Level 1C級多光譜數(shù)據(jù)。本研究只需進行大氣校正、重采樣(空間分辨率10 m)以及圖像鑲嵌和裁剪的預(yù)處理。
2.1.2 樣本數(shù)據(jù)選取
本研究根據(jù)地面采集輔助數(shù)據(jù)建立了沅陵縣天然林分類體系,通過地面調(diào)查數(shù)據(jù)計算出各類別所占比例,結(jié)合目視解譯判讀選取了3000個分類樣本,并將訓(xùn)練樣本和驗證樣本數(shù)量的比例設(shè)置為7∶3(見表1)。為保證實驗的客觀性,保證樣本點分布均勻,剔除了部分質(zhì)量較差的樣本,最終選擇2163個樣本,其分布如圖1所示。從影像上來看,闊葉林的紋理最為粗糙,地類內(nèi)部呈塊狀差異分布,表觀不均勻;針葉林分布較均勻,呈顆粒狀;竹林呈點狀,分布最為均勻。
圖1 研究區(qū)樣本點分布Fig.1 Distribution of samples in the study area
表1 研究區(qū)樣本點數(shù)Tab.1 The number of samples in study area類別訓(xùn)練樣本點數(shù)驗證樣本點數(shù)樣本總數(shù)非林地339146485闊葉林447224671針葉林531190721竹林19195286合計1 5086552 163
本研究以Sentinel-2為主要數(shù)據(jù)源,分別提取光譜特征、植被特征以及紋理特征,并結(jié)合地面樣本數(shù)據(jù),將研究區(qū)人工林部分進行掩膜,對剩余的非林地及天然林的部分以分層分類的思想采用ML、ANN、SVM、RF以及EL共5種分類算法提取天然林類型信息,構(gòu)建基于集成學(xué)習(xí)模型的沅陵縣天然林分類的模型。本實驗總體的技術(shù)路線如圖2所示。
圖2 技術(shù)路線圖Fig.2 Technical route
分別提取Sentinel-2影像的光譜特征、植被指數(shù)和紋理特征作為分類特征進行后續(xù)的實驗。由于Sentinel-2影像具有12個波段,若對每個波段都進行紋理特征的提取,將會造成巨大的數(shù)據(jù)冗余,從而增大計算難度。因此,需要先對Sentinel-2影像波段數(shù)據(jù)進行主成分分析,并提取包含了最多信息數(shù)據(jù)的第一主成分波段,再對其進行紋理特征的提取和后續(xù)的分類研究。本實驗提取的31個特征詳見表2。
表2 分類特征Tab.2 Classification feature類別特征變量光譜特征各波段值植被指數(shù)歸一化植被指數(shù)(NDVI)、陰影植被指數(shù)(SVI)、比值植被指數(shù)(RVI)、差值環(huán)境植被指數(shù)(DVI)、增強型植被指數(shù)(EVI)、大氣阻抗植被指數(shù)(ARVI)、歸一化差異紅色邊緣指數(shù)(NDREI)、簡單比值指數(shù)(SRre)、土壤亮度指數(shù)(SBI)、植被綠度指數(shù)(GVI)、濕度指數(shù)(WET)紋理特征均值、相關(guān)性、方差、對比度、熵、角二階矩、協(xié)同性、相異性
在以往使用多光譜數(shù)據(jù)進行分類的遙感研究中,常會出現(xiàn)休斯現(xiàn)象,即對于同一分類數(shù)據(jù)集,在最初逐步添加特征參數(shù)時,分類精度成正比趨勢逐漸提高,但到達(dá)某一臨界值時,隨著特征參數(shù)的繼續(xù)添加,分類結(jié)果的精度會開始下降[9]。而隨機森林算法可以通過篩選并剔除無關(guān)或者重要性較低的特征,降低信息冗余而保留對實驗各分類數(shù)據(jù)貢獻(xiàn)度較大的特征,以避免休斯現(xiàn)象的發(fā)生,從而提高分類精度。因此,本研究采用隨機森林算法,利用基尼指數(shù)(Gini index)對特征的重要性進行評估[10],其公式如下:
(1)
式中:n為隨機森林中決策樹的數(shù)目,Ginii(M)為第i棵決策樹劃分前集合M的基尼指數(shù),Ginii(M,A)為第i棵決策樹通過特征A劃分后集合M的基尼指數(shù)。
本實驗采用ML、ANN、SVM、RF與EL共5種分類算法,基于分層分類的思路實現(xiàn)天然林的分類(見圖3)。第一層分類分別使用各分類算法將研究區(qū)識別為林地和非林地,并用于后續(xù)實驗;第二層分類將林地區(qū)分為竹林和其他林地兩部分;第三層將闊葉林與針葉林進行區(qū)分;最后將非林地、闊葉林、針葉林、竹林以及人工林合并為研究區(qū)整體分類結(jié)果圖。
圖3 分類體系Fig.3 The hierarchical classification system
2.6.1 單分類算法
機器學(xué)習(xí)是進行遙感影像分類最常見的方法。ML具有分類速度快、操作簡單、結(jié)果準(zhǔn)確直觀等特點,因此得到了廣泛使用[11]。ANN使用的是反向傳播學(xué)習(xí)算法,是研究最為廣泛的神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法之一[12]。SVM能夠在決策過程中對樣本進行篩選優(yōu)化,剔除具有冗余信息的樣本,保留具有關(guān)鍵作用信息的樣本,降低了分類模型的求解難度,從而提高分類的準(zhǔn)確性,具有較高的實用價值[13]。RF能夠處理更多高維海量的數(shù)據(jù),并且由于其隨機輸入的方式和隨機特征不同,所以在分類中展現(xiàn)出了良好的效果,且近年來被廣泛應(yīng)用于遙感影像分類領(lǐng)域[14]。
2.6.2 集成學(xué)習(xí)算法
EL本身并不是一種單獨的機器學(xué)習(xí)算法,而是將多個機器學(xué)習(xí)分類器按照一定的規(guī)則與策略組合起來而得到的算法。多分類器組合的方式包括串聯(lián)式、并聯(lián)式以及嵌入式三種。并聯(lián)式是將多個分類器以并聯(lián)的方式組合起來,各分類器單獨運行,相互獨立,互不影響[15]。本實驗利用并聯(lián)式結(jié)構(gòu)對四種基分類器進行集成。最常見的集成學(xué)習(xí)的組合策略為投票法。投票法的使用原則是少數(shù)服從多數(shù),從而降低分類誤差,提高精度。投票法包括硬投票和軟投票兩種,硬投票是直接通過少數(shù)服從多數(shù)的方式輸出結(jié)果,即多數(shù)投票法。而軟投票則是考慮了概率,分析各分類器結(jié)果的權(quán)重,將概率最大的類別輸出為結(jié)果。本實驗投票集成流程圖如圖4所示。加權(quán)投票法相較于多數(shù)投票法而言能夠更好地降低弱分類器對投票結(jié)果帶來的影響,從而更準(zhǔn)確地預(yù)測分類結(jié)果[16],其公式如下:
圖4 實驗投票集成流程圖Fig.4 Experimental voting integration flow chart
(2)
本研究為每個分類結(jié)果創(chuàng)建混淆矩陣,并分別計算用戶精度(User’s Accuracy,UA)、生產(chǎn)精度(Producer’s Accuracy,PA)、總體精度(Overall Accuracy,OA)和Kappa系數(shù)對分類結(jié)果進行精度驗證與評價,公式如表3所示。
表3 精度評價指標(biāo)計算公式Tab.3 Calculation formula accuracy evaluation index指標(biāo)名稱計算公式注解 序號生產(chǎn)精度PA=NiiN+i用戶精度UA=NiiNi+總體精度OA=∑ni=1NiiNKappa系數(shù)Kappa=N ∑ni=1Nii -∑ni=1 Ni+ N+i N2-∑ni=1 Ni+ N+i N為總樣本數(shù);Nii為矩陣中第i行、第i列上像元的數(shù)量一類所在行總數(shù);Ni+為某一類所在第i行像元總數(shù);N+i為某一類所在第i列像元總數(shù)(3)(4)(5)(6)
利用隨機森林算法對12個波段光譜特征、11個植被指數(shù)特征、8個紋理特征共31個特征波段進行排序。由圖5可知,對于不同地類,各個特征的重要性是不同的,在林地與非林地的提取中,最佳分類特征為B2;在竹林與其他林地的提取中,最佳分類特征為B12;在闊葉林與針葉林的提取中,最佳分類特征則為B1。由于各層次所需要區(qū)分的類別不同,因此,分類特征的重要性也不相同。我們通過遍歷的方式篩選出各層次最優(yōu)的分類特征進行后續(xù)的分類實驗。
圖5 各層次特征重要性排序 Fig.5 The characteristics of each level ranked in importance
3.2.1 非林地與林地
第一層次為非林地與林地的區(qū)分,其分類精度如表4所示。結(jié)果表明:集成學(xué)習(xí)算法(EL)的結(jié)果最佳,總體精度達(dá)到了98.63%,Kappa系數(shù)達(dá)到了0.96,均優(yōu)于其他4種分類算法。集成學(xué)習(xí)算法在非林地的提取上展現(xiàn)出了極強的優(yōu)勢。
表4 使用5種分類算法的林地與非林地分類精度表Tab.4 Table of classification accuracy for forested and non-forested land using 5 classification algorithms類別分類算法MLANNSVMRFELPA/%UA/%PA/%UA/%PA/%UA/%PA/%UA/%PA/%UA/%非林地94.5295.8393.8497.1693.8497.8695.2196.5394.5299.28林地98.8298.4399.2198.2599.4198.2599.0298.6399.8098.45OA/%97.8698.0298.1798.1798.63Kappa系數(shù)0.940.940.950.950.96
3.2.2 竹林與其他林地
第二層次為竹林與其他林地的區(qū)分,其中其他林地包括闊葉林與針葉林兩大類,其分類精度如表5所示。結(jié)果表明:集成學(xué)習(xí)算法(EL)依然為最優(yōu)算法,其總體精度和Kappa系數(shù)分別為96.70%和0.86,均高于其他4種算法。
表5 使用5種分類算法的竹林與其他林地分類精度表Tab.5 Table of classification accuracy for bamboo forests and other woodlands using 5 classification類別分類算法MLANNSVMRFELPA/%UA/%PA/%UA/%PA/%UA/%PA/%UA/%PA/%UA/%竹林76.8494.8188.4258.3388.4280.7773.6893.3380.0098.70其他林地99.0394.9185.5196.9995.1797.8298.7994.2499.7695.60OA/%94.8986.0593.9194.1196.70Kappa系數(shù)0.820.620.810.790.86
3.2.3 闊葉林與針葉林
第三層次為闊葉林與針葉林的提取,其分類精度如表6所示。結(jié)果表明:集成學(xué)習(xí)算法(EL)為最佳的分類器,其總體系數(shù)和Kappa系數(shù)分別為86.71%和0.74;其次為支持向量機算法(SVM)與神經(jīng)網(wǎng)絡(luò)算法(ANN)。
表6 使用5種分類算法的闊葉林與針葉林分類精度表Tab.6 Table of classification accuracy for broadleaf and coniferous forests using 5 classification 類別分類算法MLANNSVMRFELPA/%UA/%PA/%UA/%PA/%UA/%PA/%UA/%PA/%UA/%闊葉林65.1877.2572.7796.4580.8093.3066.5282.7879.0295.68針葉林77.3765.3396.8475.1093.1680.4583.6867.9595.7979.48OA/%70.7783.8286.4774.4086.71Kappa系數(shù)0.420.680.730.490.74
在分類實驗前對人工林進行了掩膜,最后將其與實驗分類結(jié)果進行合并,形成研究區(qū)整體地類分布圖。整體的分類精度如表7所示。結(jié)果表明:最優(yōu)分類算法為集成學(xué)習(xí)算法(EL),其次分別為隨機森林算法(RF)、支持向量機算法(SVM)、神經(jīng)網(wǎng)絡(luò)算法(ANN)、最大似然算法(ML)。EL的總體分類精度達(dá)到了87.18%,分別比其他4種算法提高了4.13、7.94、8.86、9.01個百分點,Kappa系數(shù)達(dá)到了0.82,展現(xiàn)出了極佳的分類性能。圖6為分別使用ML、ANN、SVM、RF及EL的研究區(qū)整體分類結(jié)果圖。
圖6 研究區(qū)整體分類結(jié)果圖Fig.6 Plot of overall classification results for the study area
續(xù)圖6 研究區(qū)整體分類結(jié)果圖Continued Fig.6 Plot of overall classification results for the study area
表7 使用5種分類算法的研究區(qū)整體分類精度表Tab.7 Table of overall classification accuracy for the study area using the five classification algorithms類別分類算法MLANNSVMRFELPA/%UA/%PA/%UA/%PA/%UA/%PA/%UA/%PA/%UA/%非林地93.8493.8493.8499.2890.4197.0693.1599.2794.5299.28闊葉林79.4671.7765.1878.9277.6875.9870.5489.2778.5793.62針葉林61.0571.1777.3765.9273.6868.6395.7968.1695.7973.09竹林85.2683.6587.3776.1576.8484.8871.5891.8978.9594.94OA/%78.1778.3279.2483.0587.18Kappa系數(shù)0.700.700.710.770.82
本研究基于Sentinel-2影像,提取光譜特征、植被指數(shù)以及紋理特征共31個分類特征參與實驗,并通過隨機森林算法對特征進行篩選,以求快速且高效地進行分類實驗。以分層分類的思想分別使用ML、ANN、SVM、RF以及EL共5種機器學(xué)習(xí)分類算法進行分類并比較各分類結(jié)果和精度,從而獲取研究區(qū)天然林最優(yōu)的分類結(jié)果,主要結(jié)論如下:
(1)在對南方復(fù)雜環(huán)境下的天然林進行信息提取時,采用分層分類法逐級進行特征篩選,可以有效減少光譜等特征相似而導(dǎo)致的錯分現(xiàn)象,從而提高各類別的分類精度。
(2)本研究分別使用ML、ANN、SVM、RF以及EL共 5種機器學(xué)習(xí)分類算法對三個層次下的分類結(jié)果進行比較可知,EL均為最佳算法。研究區(qū)整體的分類結(jié)果顯示,EL的總體精度達(dá)到了87.18%,比RF、SVM、ANN以及ML的精度分別提高了4.13、7.94、8.86、9.01個百分點,Kappa系數(shù)達(dá)到了0.82,展現(xiàn)出了極佳的分類性能,表明EL能夠有效提高天然林分類的精度。
本研究的出發(fā)點是為了使用遙感技術(shù)有效地提取復(fù)雜地形中的天然林信息。經(jīng)過大量的實驗與驗證,總體達(dá)到了研究目的,但在實驗過程中還有一些問題和方法需要進一步的完善與實驗。
在選擇影像時,需要考慮不同年份和不同時期的天氣對影像質(zhì)量的影響,因此每年可獲得的達(dá)到標(biāo)準(zhǔn)要求的影像數(shù)量不同。而本實驗需要對多時相的影像數(shù)據(jù)進行篩選,所以存在遙感影像的獲取時間與地面數(shù)據(jù)采集的時間不完全一致的問題,實驗的結(jié)果也可能會因此存在一定的局限性[17]。在樣本的選擇過程中,使用了隨機抽樣的方式進行樣本點的選取,然而在確定樣本數(shù)量和剔除質(zhì)量較差樣本等方面,仍存在一定程度的主觀性。因此,實驗結(jié)果可能存在一定的不確定性和偏差。