馬 婷 李崇貴 湯伏全 呂 杰
(西安科技大學測繪科學與技術(shù)學院 西安 710054)
森林是陸地生態(tài)系統(tǒng)的主體,是人類社會發(fā)展不可或缺的重要資源。豐富的森林資源,是生態(tài)良好的重要標志,是經(jīng)濟社會發(fā)展的重要基礎(chǔ),是美麗中國建設(shè)的重要內(nèi)容。為了及時掌握森林資源現(xiàn)狀及其消漲動態(tài),科學管理森林,定期開展森林資源清查已成為林業(yè)重要的基礎(chǔ)性工作和公益性事業(yè)。落葉松(Larixspp.)是我國北方地區(qū)造林和森林更新的主要樹種之一,具有速生、材質(zhì)好、抗性強、適應性廣等特點,及時準確掌握落葉松人工林資源信息,有效獲取落葉松人工林空間位置分布,對促進落葉松人工林合理種植、提升其資源培育和管理水平并實現(xiàn)可持續(xù)經(jīng)營具有重要的理論價值和現(xiàn)實意義(劉林,2013;張茂震等,2009;郭瑞霞等,2020)。
遙感技術(shù)是20世紀60年代興起的一種探測技術(shù),具有覆蓋面積廣、重訪周期短、獲取成本低等優(yōu)點,是森林樹種識別和森林資源調(diào)查的重要手段(Zhuetal.,2021;Liuetal.,2020)。近年來,國內(nèi)外學者應用遙感技術(shù)在森林樹種識別和森林類型分類方面開展了大量研究,從傳統(tǒng)的參數(shù)模型算法,如李小梅等(2010)基于CHRIS高光譜數(shù)據(jù),采用最近鄰法和最大似然法對長白山自然保護區(qū)進行了森林類型精細分類;到非參數(shù)模型算法,如劉怡君等(2016)基于機載AISA EagleⅡ數(shù)據(jù)并結(jié)合LiDAR,采用支持向量機識別了普洱山主要樹種;Yu等(2017)對多空間變量特征進行優(yōu)選,基于隨機森林提取并繪制了刺槐(Robiniapseudoacacia)林的健康水平;再到深度學習算法,如郭穎等(2020)利用GF-2影像,采用雙支FCN-8S深度學習算法有效提取了油松(Pinustabulaeformis)、紅松(Pinuskoraiensis)和白樺(Betulaplatyphylla)等樹種。傳統(tǒng)的參數(shù)模型算法發(fā)展較成熟,但由于其自身原理、影像質(zhì)量和分類系統(tǒng)等因素影響,難以完整有效地對目標進行特征化表達,分類結(jié)果存在不確定性;非參數(shù)模型算法過分依賴訓練樣本,會導致數(shù)據(jù)過擬合;深度學習算法能夠根據(jù)大量特征集進行自學習,但其對樣本集、運算能力和計算機性能要求較高,目前工程化應用還存在一定難度。多分類器集成策略以傳統(tǒng)分類算法為基本單元,通過投票或自適應等方式給每個分類器分配合適的權(quán)重和參數(shù)確定集成規(guī)則(周星等,2015;李敏等,2019;Oualietal.,2010),其集成了各分類器的優(yōu)點,降低了單一分類器的不確定性,可獲得比單一分類器更高的精度。王懷警等(2019)利用高光譜數(shù)據(jù)設(shè)計一種基于支持向量機和隨機森林的多分類器組合算法,有效提高了森林類型識別精度。栗旭升等(2020)基于最近鄰、支持向量機、貝葉斯、CART決策樹和隨機森林算法構(gòu)建一種多分類器自適應樹種識別方法,該方法優(yōu)于任一單分類器的分類結(jié)果。陳春秀等(2021)聯(lián)合GF-6與ZY-3影像設(shè)計一種基于支持向量機和隨機森林的多分類器投票組合算法,有效識別了準格爾山楂(Crataegussongarica)。
然而,在森林類型分類識別時,最大的難點是森林復雜群落結(jié)構(gòu)中樹種間存在“同物異譜”和“同譜異物”現(xiàn)象,當前研究除了利用多源數(shù)據(jù)融合以及優(yōu)化不同分類算法外,根據(jù)不同樹種間存在的光譜差異進行特征化表達也是提高識別精度的有效方法(梁守真等,2015;馬婷等,2020)。Immitzer等(2019)利用多時相Sentinel-2影像對中歐森林的針葉林和闊葉林進行精細分類,分類精度比單時相影像提高12.8%。Nelson(2017)在對瑞典6種樹種進行光譜分析的基礎(chǔ)上,選擇5、7和8月影像進行多時相組合分類,總精度達86%。Bolyn等(2018)利用5和10月的Sentinel-2影像對比利時11種樹種進行分類,總精度達92%。多時相特征分類的關(guān)鍵在于找到目標植被與其他植被具有時空差異的特征變量,落葉松是一種落葉針葉喬木,春季葉子生長初期、秋季落葉期和冬季休眠期與其他針葉林的光譜信息不同,在樹冠結(jié)構(gòu)和葉子形態(tài)等方面與闊葉樹存在空間紋理差異,這些顯著的時空特征差異為落葉松識別提供了可靠的理論基礎(chǔ)。目前,國內(nèi)外對落葉松提取方面的研究較少(Busettoetal.,2010;郭振華等,2019)。
鑒于此,本研究以黑龍江省孟家崗林場為研究區(qū),基于Landsat8 OLI影像分析不同物候期樹種間的光譜差異,確定落葉松人工林識別的關(guān)鍵波譜和物候期,在此基礎(chǔ)上,結(jié)合GF-1 PMS1影像提取落葉松的紋理、形狀等特征信息,同時輔以地形信息,建立不同物候相的多特征數(shù)據(jù)集,通過多種特征組合方案,探索多時相、多特征數(shù)據(jù)集下一種基于多分類器集成的落葉松人工林快速識別方法,以期為落葉松人工林后續(xù)監(jiān)測與管理提供參考。
研究區(qū)位于黑龍江省佳木斯市樺南縣東北部孟家崗林場,130°32′—130°52′E,46°20′N—46°30′N。屬東亞大陸性季風氣候(王磊等,2008),年均氣溫2.7 ℃。林場有林地面積13 079 hm2,森林覆蓋率80.4%,人工林以針葉林為主,其中落葉松林、樟子松(Pinussylvestrisvar.mongolica)林、紅松林和云杉(Piceaasperata)林約占人工林面積的80%;天然林以闊葉林為主,包括白樺林、椴樹(Tiliatuan)林、蒙古櫟(Quercusmongolica)林和山楊(Populusdavidiana)林等(王霓虹等,2014)。
1.2.1 遙感數(shù)據(jù) 以GF-1 PMS1和Landsat 8 OLI無云或少云影像(云量<10%)為主要數(shù)據(jù)源。GF-1影像具有高空間分辨率,全色波段空間分辨率2 m,多光譜波段空間分辨率8 m,可提取豐富的紋理信息用于識別針葉林和闊葉林;因單景幅寬60 km,無法實現(xiàn)研究區(qū)全覆蓋,故選擇同日成像2景影像進行拼接。Landsat 8 OLI影像具有豐富光譜分辨率,譜段范圍0.43~1.38 μm,包含1個全色波段和8個多光譜波段,豐富的光譜信息有利于不同植被間的識別提取。為了研究落葉松人工林季相規(guī)律,獲取不同時相的Landsat 8 OLI影像16景,以2017和2018年為主,2015和2016年影像補充缺少月份(Lietal.,2017;Royetal.,2014)。影像基本信息見表1。
表1 影像基本信息Tab.1 Image basic information
1.2.2 輔助數(shù)據(jù) 選擇森林資源二類調(diào)查數(shù)據(jù)和CCD(charge coupled device)航片數(shù)據(jù)作為輔助數(shù)據(jù)。森林資源二類調(diào)查數(shù)據(jù)為2014年全國森林資源二類調(diào)查孟家崗地區(qū)數(shù)據(jù),數(shù)據(jù)詳細記錄了調(diào)查時間、調(diào)查地面、地物類型、優(yōu)勢樹種、小班面積、樹種組成、土壤類型和環(huán)境狀況等60多種屬性信息;CCD航片數(shù)據(jù)由中國林業(yè)科學研究院機載觀測系統(tǒng)LiCHy(LiDAR,CCD and hyperspectral)獲取,傳感器為中型機載相機DigiCAM-60,機載平臺為國產(chǎn)運-5(Y-5)小型飛機,飛行高度為1 000 m,時間為2017-05-31—2017-06-16,空間分辨率為0.5 m。森林資源二類調(diào)查數(shù)據(jù)和高分辨率CCD航片數(shù)據(jù)(圖1a)均由中國林業(yè)科學研究院資源信息研究所提供。
1.2.3 分類系統(tǒng) 根據(jù)林場內(nèi)植被分布情況和影像識別能力,將研究區(qū)劃分為有林地和非林地,有林地按森林外貌劃分為闊葉林和針葉林。考慮到落葉松人工林提取難點為針葉林間的混淆問題,結(jié)合林場樹種撫育信息和種植面積,將針葉林精細劃分為落葉松林、紅松林、樟子松林和云杉林,闊葉林不進一步劃分。非林地為非森林區(qū)域,如農(nóng)田、居民地等,并非研究重點,也不再進一步劃分。研究區(qū)天然林主要為闊葉林,不將其單獨劃分。
1.2.4 樣本數(shù)據(jù) 訓練樣本通過森林資源二類調(diào)查小班數(shù)據(jù)獲取(圖1a)。利用森林資源二類調(diào)查小班數(shù)據(jù)獲取樹種分布信息,并計算不同樹種分布面積占林場面積比例,根據(jù)面積所占權(quán)重確定每種類別的樣本數(shù)量。利用CCD航片數(shù)據(jù)通過目視解譯構(gòu)建420個樣方,大小為28.28 m×28.28 m,其中落葉松林91塊、紅松林60塊、云杉林63 塊、樟子松林73 塊、闊葉林77 塊、無林地56塊。
驗證樣本通過野外調(diào)查獲取。2017年6月,利用手持GPS在研究區(qū)內(nèi)采集395個樣點,以樣點為中心調(diào)查記錄30 m×30 m范圍內(nèi)樹種的詳細信息,包括樹種類型、齡組和郁閉度等(圖1b)。共獲取133 塊落葉松林樣地、33 塊紅松林樣地、98 塊云杉林樣地、80 塊樟子松林樣地、32 塊闊葉林樣地、19 塊無林地。
圖1 研究數(shù)據(jù)Fig.1 Study data
研究使用的遙感影像為預處理產(chǎn)品,GF-1 PMS1為2A級產(chǎn)品,Landsat8 OLI為L1T級產(chǎn)品,均已經(jīng)過系統(tǒng)性的輻射校正和幾何校正,Landsat 8 還經(jīng)過幾何精校正和地形校正。故首先對GF-1和Landsat 8 數(shù)據(jù)進行輻射定標和FLAASH大氣校正,將DN值轉(zhuǎn)換為地物真實反射率。然后利用DEM對GF-1進行正射校正,并采用Gram-Schmidt圖像融合方法獲得2 m分辨率的多光譜數(shù)據(jù)。接著應用雙線性內(nèi)插法將Landsat 8重采樣至2 m分辨率,與GF-1影像分辨率保持一致。最后利用孟家崗林場矢量邊界對預處理后的GF-1和Landsat 8進行拼接裁剪(Kongetal.,2016)。
利用預處理后的16景Landsat8 OLI影像,結(jié)合訓練樣本,獲取林場內(nèi)5種樹種的歸一化植被指數(shù)(normalized difference vegetation index,NDVI)時間序列曲線。對該曲線進行分析,確定識別落葉松人工林的最佳物候期為生長期和落葉期。本研究選擇4月Landsat8 OLI(生長期)、6月landsat8 OLI(生長旺盛期)、10月Landsat8 OLI(落葉期)和多時相(4月Landsat8 OLI和10月Landsat8 OLI)影像作為基礎(chǔ)數(shù)據(jù)。
首先對基礎(chǔ)數(shù)據(jù)進行主成分分析,采用灰度共生矩陣法提取GF-1影像8個紋理特征,即相關(guān)性(correlation)、協(xié)同性(homogeneity)、二階矩(second moment)、相異性(dissimilarity)、對比度(constrast)、信息熵(entropy)、方差(variance)和均值(mean)(Mengetal.,2016);其次提取地形特征,采用地形模型提取研究區(qū)數(shù)字高程模型(digital elevation model,DEM)的坡度(slope)和坡向(aspect)信息。
隨機森林(random forest,RF)是一種CART決策樹集成算法(Breiman,2001;Cutleretal.,2004)。該算法首先從初始樣本中隨機選擇M個樣本,然后采用bootstrap方法對原始數(shù)據(jù)進行有放回抽取,構(gòu)建多個子數(shù)據(jù)集生成數(shù)株決策樹,每株決策樹都對新數(shù)據(jù)進行一次決策分類,最后通過投票法對待分類樣本進行預測或歸類,由于抽取樣本的隨機性,存在部分樣本未參與訓練,即袋外樣本(out-of-bag,OOB),以其作為分類后誤差統(tǒng)計檢測RF預測性能的好壞(Statnikovetal.,2008)。
變量重要性(variable importance measures,VIM)是利用RF算法置換變量時,獲取2次OOB偏差率再計算其誤差均值(Strobletal.,2008)。具體算法如下:
(1)
(2)
VIM以各特征參與分類時的貢獻量為標準,減少了特征間相關(guān)性對排序的影響,保證了多特征變量排序的準確性(Belgiuetal.,2016)。本研究首先基于RF算法對提取的特征變量進行VIM測定,根據(jù)測定結(jié)果對特征因子進行排序,采用序列后向搜索法篩選特征因子。序列后向搜索法是從特征數(shù)據(jù)集中依次除去末端特征(重要性最低),計算分類正確率,逐次迭代選取分類正確率最高的特征集作為最優(yōu)特征集,是目前常用的RF特征選擇方法之一(王全才,2011)。然后采用ENVI-FX面向?qū)ο蠓指钏惴ㄌ崛F-1影像中落葉松人工林的形狀和面積因子。最后將提取的特征分別與基礎(chǔ)數(shù)據(jù)的近紅外波段(NIR)和短波紅外波段(SWIR1、SWIR2)構(gòu)建NIR-SWIR多特征數(shù)據(jù)集。特征提取在ENVI5.3和IDL8.5(64-bit)平臺中完成,具體分類數(shù)據(jù)集見表2。
表2 分類數(shù)據(jù)集Tab.2 Classification data set
2.5.1 單分類器分類 1)MLC 最大似然分類(maximum likelihood classification,MLC)是利用統(tǒng)計法以最大似然比貝葉斯判決準則為基礎(chǔ),假設(shè)待分類地物呈正態(tài)分布,統(tǒng)計影像上各地物類型的歸屬概率,構(gòu)建各地物相應的判別函數(shù)集進行分類識別(Baird,2001)。
2)RF RF特征數(shù)量由數(shù)據(jù)集維數(shù)決定。
3)SVM 支持向量機(support vector machine,SVM)是常用的非參數(shù)機器學習算法,其核心思想是利用核函數(shù)設(shè)置約束條件,通過樣本間最遠距離構(gòu)建不同樹種的最優(yōu)超平面,從而精確識別樹種(劉向東等,2005;王健峰等,2012)。本研究核函數(shù)采用線性函數(shù)和高斯徑向基函數(shù)(Gaussian radial basis function,GRBF),目標函數(shù)為C-支持向量機(C-SVM),采用網(wǎng)格搜索法進行參數(shù)尋優(yōu),利用十折交叉法驗證。
4)BP BP神經(jīng)網(wǎng)絡(back-propagation neuron network,BP)是一種按照誤差逆向傳播算法訓練的多層前饋神經(jīng)網(wǎng)絡,包含輸入層、隱藏層和輸出層(戚王月等,2019),其核心思想是當輸入層不滿足期望輸出時,會沿誤差負梯度方向逐次對各神經(jīng)元的權(quán)值和閾值進行反復調(diào)節(jié),直至誤差達到要求。本研究選擇對數(shù)函數(shù)(Logistic)作為活化函數(shù),訓練貢獻閾值為0.9,訓練率為0.2。
2.5.2 分類器組合 以MLC、RF、SVM和BP作為基分類器,通過級聯(lián)結(jié)構(gòu)與并聯(lián)結(jié)構(gòu)相結(jié)合的方式進行分類器組合。
假設(shè)研究區(qū)影像地物類型分為M個類別:
Ci∩Cj=?(i≠j;i∈M;j∈M);
(3)
P=C1∪C2∪C3…∪CM。
(4)
式中:P為給定的模式空間,即待分類影像;Ci和Cj為分類的類別。
1)以MLC、RF、SVM和BP為子分類器,對4個物候期的特征數(shù)據(jù)集進行初步分類(主要土地覆蓋類型分類),包括落葉松林、紅松林、樟子松林、云杉林、闊葉林和無林地,根據(jù)分類結(jié)果構(gòu)建混淆矩陣Mk:
(5)
根據(jù)式(6),計算出落葉松人工林的生產(chǎn)者精度pk(X∈Ci)和用戶精度pk(X∈Cj),并求出用戶精度和生產(chǎn)者精度的均值:
(6)
(7)
然后將各級聯(lián)分類器的置信度tk作為判定條件,并取95%作為置信區(qū)間。利用子分類器對待分類數(shù)據(jù)集依次進行分類,若結(jié)果在該置信區(qū)間內(nèi),終止分類,否則利用下一分類器對該數(shù)據(jù)集繼續(xù)分類,直至滿足上述條件。若子分類器結(jié)果均無法滿足上述條件,則采用并聯(lián)結(jié)構(gòu)進行分類,即各子分類器并行分類,結(jié)果將統(tǒng)一傳遞到組合決策器中共同決策。
3)采用投票法確定子分類器的組合策略。根據(jù)式(8)計算子分類器的權(quán)重系數(shù)(表3),得到多分類器組合分類結(jié)果。將非落葉松人工林類別合并、去除細碎小斑塊以減少其他因素對落葉松人工林分類精度的影響,得到落葉松人工林提取結(jié)果并進行總體精度評價。
投票組合策略為:
Tk(X)=
式中:X代表地物類型,本研究為落葉松人工林;Tk(X)為子分類器k獲得的投票分數(shù)。
落葉松人工林識別的關(guān)鍵是找到其與其他地物的特征差異。落葉松屬于落葉針葉喬木,根據(jù)其物候特征并結(jié)合NDVI時間序列曲線(圖2)發(fā)現(xiàn),3月末—5月為落葉松人工林生長季,NDVI曲線呈顯著上升趨勢,其值最高達0.79;6—8月為落葉松葉子生長茂盛期,NDVI達全年頂峰,其曲線在0.8~0.9處小幅波動;10—11月為落葉松葉子脫落期,NDVI曲線呈顯著下降趨勢,其值最低至0.19。從曲線中可看出,落葉松人工林生物量隨季節(jié)變化呈周期性波動,反映了其顯著的季相特征。紅松、樟子松和云杉屬于常綠針葉喬木,葉片發(fā)育和葉綠素含量受季節(jié)影響較小,全年均保持較高生物量,因此在生長期和落葉期,落葉松人工林與常綠喬木植被特征差異最為顯著。圖3a-c分別展示了4月、6月和10月不同地物的波譜曲線,可以看到,在落葉松人工林生長期(4月),落葉松與常綠針葉喬木在紅光波段(Red)、近紅外波段(NIR)、短波紅外1(SWIR1)和短波紅外2(SWIR2)波譜差異較大,該階段常綠針葉喬木波譜曲線與典型綠色植被光譜曲線一致,在紅光和短波紅外波段波譜較低,在綠光和近紅外波段形成2個明顯的反射峰;而該階段落葉松和闊葉樹葉子剛發(fā)芽,葉內(nèi)細胞和葉冠結(jié)構(gòu)未成熟,葉綠素含量較少,葉片對光源不敏感,因此二者波譜曲線相似,在紅光波段和短波紅外反射率均較高,但受植被本身生化性質(zhì)和冠層結(jié)構(gòu)影響,二者在近紅外波段差異較大。在落葉松葉子生長旺盛期(6月),葉片大部分已發(fā)育成熟,葉綠素含量豐富,葉片對光源反應強烈,其波譜曲線與典型綠色植被光譜曲線表現(xiàn)一致,該階段落葉松人工林與其他植被波譜差異較小。在落葉松人工林落葉期(10月),樹種間波譜差異性與生長期相似,此時落葉松葉內(nèi)細胞衰老死亡,葉片逐漸脫落,表現(xiàn)為對紅外光譜反射不強烈,而對紅光和短波紅外1光譜較為敏感,反射強烈,與常綠喬木差異明顯。該階段由于落葉松人工林和闊葉樹葉內(nèi)物質(zhì)積累和葉片脫落時間存在差異,二者波譜曲線雖然相似,但在近紅外和短波紅外1波譜值相差較多。非林地在任何物候期反射率均偏高,與落葉松人工林光譜差異較大,對落葉松人工林識別干擾較小。因此,生長期和落葉期近紅外、短波紅外1和短波紅外2波段的光譜信息對識別落葉松人工林有很大幫助。
圖2 NDVI時間序列曲線Fig.2 NDVI time series curve
圖3 不同時期不同地物波譜曲線Fig.3 Spectral curves of different objects in different periods
本研究共提取14個特征變量,利用VIM對除形狀和面積因子外的12個特征變量進行測定,結(jié)果見圖4。圖4a為特征變量重要性排序,變量重要性分值越高,表明變量重要性越大,即對分類結(jié)果影響越大,可以看出,歸一化植被指數(shù)分值最高,其次為相異性,說明歸一化植被指數(shù)和紋理的相異性對植被分類較為重要,而坡度和坡向分值較低,對分類結(jié)果影響較小。根據(jù)特征篩選方法,基于變量重要性分值對特征變量排序,其結(jié)果為歸一化植被指數(shù)、相異性、相關(guān)性、對比度、方差、信息熵、均值、協(xié)同性、二階矩、數(shù)字高程模型、坡度、坡向。圖4b為采用序列后向搜索法的分類精度與特征數(shù)量的關(guān)系,可以看出,分類精度隨特征數(shù)量減少呈先上升后降低趨勢,在特征數(shù)量為7個時,分類精度達到最高值78.9%。前期曲線呈上升趨勢說明無關(guān)和冗余的特征變量存在增加了分類的復雜度,對分類結(jié)果起負向作用,剔除這些“多余”特征,可有效提高落葉松人工林分類精度;后期曲線呈下降趨勢說明前7個特征變量對落葉松人工林分類貢獻較大,將這7個特征變量進行組合可以提高落葉松人工林識別精度。因此,本研究選擇前7個特征變量作為VIM篩選的特征集,即變量重要性分值大于5的特征,分別為歸一化植被指數(shù)、相異性、相關(guān)性、對比度、方差、信息熵和均值。
圖4 變量重要性測定Fig.4 Importance of characteristic variables
利用子分類器對8種分類方案進行分類。RF參數(shù)設(shè)置為:單一特征影像生長期、生長旺盛期、落葉期和多時相特征數(shù)量分別為3、3、3、4,決策樹數(shù)目分別為100、110、100、150;基于NIR-SWIR多特征數(shù)據(jù)集的生長期、生長旺盛期、落葉期和多時相特征數(shù)量均為4,決策樹數(shù)目分別為150、130、200、200。SVM參數(shù)設(shè)置為:除基于NIR-SWIR多特征數(shù)據(jù)集中多時相影像參數(shù)設(shè)置為高斯RBF核函數(shù)、懲罰因子C為10.0、Gamma參數(shù)為0.01外,其余參數(shù)均設(shè)置為線性核函數(shù)、懲罰因子C均為0.01。BP參數(shù)均設(shè)置為:活化函數(shù)為對數(shù)函數(shù)(Logistic),最大允許誤差RMS為0.1,訓練迭代次數(shù)為1 000。
子分類器分類精度與權(quán)重系數(shù)見表3、4??梢钥闯?,基于單一特征影像分類,在生長期,MLC識別落葉松人工林效果最好,賦予的權(quán)重最大(26.5%);在生長旺盛期、落葉期和多時相影像中,BP識別落葉松人工林效果較好,賦予的權(quán)值也是最大的?;贜IR-SWIR多特征數(shù)據(jù)集分類,在生長期和落葉期,MLC識別落葉松人工林效果最好,賦予的權(quán)重分別為27.3%和28.5%;在生長旺盛期,BP賦予的權(quán)重最大;在多時相影像中,由于SVM參數(shù)優(yōu)化,SVM落葉松人工林分類精度最高,賦予的權(quán)重最大。這說明多分類器組合策略綜合了各分類器優(yōu)點,落葉松人工林生產(chǎn)者精度和用戶精度的均值越高,即落葉松人工林分類精度越高,在該組合策略中,賦予的權(quán)值越大。
表3 單一特征子分類器分類精度與權(quán)重系數(shù)①Tab.3 Single feature sub-classifier overall accuracy and weight coefficient
表5所示為多分類器組合分類結(jié)果??梢钥闯?,多分類器集成的分類精度均高于80%,在同一時相下均高于其任一分類器精度,分類效果最好,說明多分類器集成的分類策略可以提升分類性能,有效提高落葉松人工林分類精度。對比不同時相影像的分類精度可知,在絕大多數(shù)分類器中,多時相影像的分類精度較好,其次是生長期和落葉期影像,生長旺盛期影像分類精度最差。生長期和落葉期落葉松人工林的NIR-SWIR波譜與其他植被差異較大,該階段是提取落葉松人工林的關(guān)鍵物候期,而包含落葉松人工林關(guān)鍵物候期的多時相數(shù)據(jù)具有更豐富的物候信息,可以反映落葉松人工林的季相特征,更有利于落葉松人工林提取。相比單一特征影像分類,NIR-SWIR多特征數(shù)據(jù)集的分類精度顯著提高,分類效果較好,分類精度均高于80%,其中包含多時相的NIR-SWIR特征數(shù)據(jù)集提取效果最好,分類精度達93.7%,Kappa系數(shù)為0.89,落葉松人工林生產(chǎn)者精度達95.4%,用戶精度達99.2%;其次是落葉期和生長期的特征數(shù)據(jù)集,分類效果也較理想,分類精度分別為90.6%和88.3%。表6所示為落葉松人工林提取精度,多時相NIR-SWIR特征數(shù)據(jù)集提取精度達96.3%,提取效果最佳。這說明通過多分類器集成策略可有效提取落葉松人工林,實現(xiàn)落葉松人工林高精度提取。
表4 基于NIR-SWIR多特征數(shù)據(jù)集的子分類器分類精度與權(quán)重系數(shù)Tab.4 Overall accuracy and weight coefficient of sub-classifier based on NIR-SWIR multi-feature data set
表5 多分類器組合分類結(jié)果Tab.5 Classification results of multiple classifier combinations
表6 落葉松人工林面積提取情況Tab.6 Area statistics and comparative analysis of larch plantations
圖5所示為采用多分類器集成算法對多時相NIR-SWIR特征數(shù)據(jù)集進行分類的結(jié)果。圖5b為去除細碎斑塊合并后的落葉松人工林分類圖;圖5c為落葉松人工林提取圖。圖6所示為采用多分類器集成算法對不同物候期特征數(shù)據(jù)集進行落葉松人工林提取的局部比較圖,基于多時相NIR-SWIR特征數(shù)據(jù)集提取的落葉松人工林,圖斑較為整齊,碎小斑塊較少,局部細節(jié)清晰,斑塊完整,與CCD航片數(shù)據(jù)呈現(xiàn)出較好的一致性,提取效果最佳。生長期和落葉期影像提取的落葉松人工林整體效果較好,基本與CCD航片數(shù)據(jù)一致,但局部細節(jié)有不足。而生長旺盛期影像提取的落葉松人工林效果較差,錯分現(xiàn)象嚴重,部分斑塊缺失。總體來看,多時相NIR-SWIR特征數(shù)據(jù)集的落葉松人工林提取效果最佳,生長期和落葉期提取的落葉松人工林效果較好。
圖5 多時相特征數(shù)據(jù)集分類圖Fig.5 Classification diagram of multi-temporal characteristic data set
圖6 不同時期落葉松人工林提取詳細比較Fig.6 Detailed comparison of larch plantation extraction from different periods
不同地物自身的光譜特征不同,基于遙感影像進行地物識別的潛在理論是地物之間存在差異性。本研究的落葉松人工林,與研究區(qū)內(nèi)其他針葉喬木相比具有獨特的物候特征,與其他落葉闊葉喬木相比具有不同的紋理特征,這使得多時相數(shù)據(jù)與多特征因子組合在落葉松人工林提取方面具有顯著優(yōu)勢。無論是單一特征影像還是NIR-SWIR多特征數(shù)據(jù)集分類,在任一分類器下,多時相影像的分類精度均高于生長期和落葉期影像,而生長旺盛期影像分類效果最差。其原因是單一時相影像包含的信息量有限,用于反映地物間的特征差異較少,而多時相影像包含落葉松人工林更多的物候信息,可反映出落葉松人工林獨特的季相特征,增加了落葉松人工林與其他植被的差異性(項銘濤等,2018;梁守真等,2015)。落葉松人工林不同物候期的光譜特征分析發(fā)現(xiàn),生長期和落葉期是與其他植被差異性最大的時期,故生長期和落葉期提取落葉松人工林效果較好,采用VIM特征篩選時,NDVI作為反映植被生物量差異的指數(shù),VIM評分最高;而地形特征評分最低,對總體貢獻度較小。其主要原因在于研究區(qū)地勢相對平坦,不同植被垂直地帶性規(guī)律無法較好體現(xiàn),該結(jié)論與栗旭升等(2020)和劉魯霞等(2019)結(jié)論一致,在地形起伏較小的區(qū)域,地形因子對植被分類具有一定局限性。
多分類器組合分類中,無論是單一特征影像還是NIR-SWIR多特征數(shù)據(jù)集,其分類結(jié)果均優(yōu)于任一單分類器的分類結(jié)果。其原因是多分類器組合策略綜合了子分類器的優(yōu)勢,使其優(yōu)勢互補,提高了分類器對地物的識別能力(王懷警等,2019)。李春干等(2010)利用多分類器組合策略進行森林分類時發(fā)現(xiàn),子分類器自身的分類性能也是影響組合分類器精度的關(guān)鍵因素,而置信度tk決定哪個分類器以何種形式參與結(jié)合的過程,tk對于組合分類器的組合策略影響較大。本研究將置信度tk按照各級聯(lián)分類器中落葉松人工林正確分類的樣本對應函數(shù)確定,使得對落葉松人工林識別能力強的分類器更能發(fā)揮其分類效果。當將森林類型特征代入分類器進行訓練,對落葉松人工林正確識別率高的分類器又會賦予更高的權(quán)重,這進一步保證了對落葉松人工林識別能力強的子分類器在組合中發(fā)揮的能力。對子分類器來說,參數(shù)設(shè)置是影響其分類性能的關(guān)鍵。張曉羽等(2016)對RF參數(shù)進行試驗時發(fā)現(xiàn),特征變量數(shù)量對分類精度影響在1%以內(nèi),特征變量數(shù)量大于3時分類精度變化穩(wěn)定在0.1%以內(nèi),決策樹數(shù)目對分類精度影響在2%以內(nèi),當其大于100時其精度變化穩(wěn)定0.3%以內(nèi)?;谇叭私?jīng)驗(Evansetal.,2009)及時間復雜度,本研究將RF特征變量數(shù)量設(shè)置為3或4,特征變量數(shù)量設(shè)置在100~200之間,通過多次試驗確定RF參數(shù),圖7為特征變量為3時隨決策樹數(shù)目變化分類精度的變化,可以看到,決策樹數(shù)目在100~200之間時,決策樹數(shù)目變化對分類精度影響較小,與張曉羽等(2016)結(jié)論一致。SVM和BP參數(shù)設(shè)置對分類精度影響較大(王宏濤等,2015),但關(guān)于SVM參數(shù)尋優(yōu),目前并沒有統(tǒng)一方法,常用方法為網(wǎng)絡搜索法、遺傳算法和粒子群算法等(王健峰等,2012;王建國等,2016)。徐曉明(2014)在SVM分類中對這3種尋優(yōu)方法進行比較發(fā)現(xiàn),網(wǎng)絡參數(shù)尋優(yōu)結(jié)果最為理想,但耗時長不適合數(shù)據(jù)量過大的分類,遺傳算法和粒子群算法對樣本數(shù)量要求較高且易陷于局部最優(yōu)??紤]到本研究數(shù)據(jù)量不大,因此選擇網(wǎng)絡參數(shù)尋優(yōu)法確定SVM參數(shù)。SVM對NIR-SWIR多特征數(shù)據(jù)集分類效果較好,在4個物候期落葉松人工林生產(chǎn)者精度均高于80%,用戶精度均高于90%;但對單一特征數(shù)據(jù)集的分類效果較差,落葉松人工林生產(chǎn)者精度均低于80%,其可能原因是單一特征影像維數(shù)較少,在像元難以區(qū)分的地方,SVM構(gòu)造的最優(yōu)決策面過于復雜影響了其分類性能(周寬久等,2009)。BP的關(guān)鍵在于構(gòu)建合適的神經(jīng)網(wǎng)絡模型,本研究通過多次對樣本進行反復訓練從而確定其參數(shù)。BP對單一特征影像和NIR-SWIR多特征數(shù)據(jù)集的分類效果均較好,對單一特征數(shù)據(jù)集其分類精度均在79%以上,對NIR-SWIR多特征數(shù)據(jù)集均高于89%,尤其是生長旺盛期影像,NIR-SWIR多特征數(shù)據(jù)集分類精度較單一特征影像精度提高10%,主要原因在于加入更多特征信息,使得BP發(fā)揮其更強的自學習能力,分類精度更好(郝睿等,2016)。
圖7 決策樹數(shù)目與分類精度Fig.7 Number of decision trees and overall accuracy
本研究從多時相、多特征和多分類器角度,探討適合落葉松人工林提取的最佳物候期和光譜波段,利用不同物候相的多特征數(shù)據(jù)集,結(jié)合最大似然、隨機森林、支持向量機和BP神經(jīng)網(wǎng)絡構(gòu)建的多分類器集成算法,有效提取了落葉松人工林。在落葉松人工林生長期和落葉期,葉內(nèi)細胞處于發(fā)育和衰老狀態(tài),冠層綠度較差,與常綠針葉林在紅光-短波紅外波段波譜差異較大,與闊葉林在紅光和短波紅外 1 波段波譜差異較大。該時期落葉松人工林與其他植被特征差異顯著,在多次分類下,分類效果均較好,因此生長期和落葉期是提取落葉松人工林的關(guān)鍵時期。不同時相影像相比,單一時相數(shù)據(jù)包含的信息量有限,而多時相數(shù)據(jù)包含落葉松人工林更多的物候信息,增強了與其他植被的差異性,有利于落葉松人工林提取。不同多特征數(shù)據(jù)集相比,NIR-SWIR特征數(shù)據(jù)集包含落葉松人工林更豐富的關(guān)鍵信息,采用該數(shù)據(jù)集可顯著提高落葉松人工林的識別能力。在多分類器組合策略下,落葉松人工林總精度可達93.8%,面積提取精度達96.3%,該算法充分發(fā)揮各子分類器分類優(yōu)勢,實現(xiàn)了落葉松人工林的高精度提取。