王瑞瑞 李文靜 石 偉 蘇婷婷
(1.北京林業(yè)大學林學院,北京 100083; 2.中國航天系統(tǒng)科學與工程研究院, 北京 100083)
輸電線走廊的樹木生長會對電力線構成威脅,自動高效地獲取輸電線走廊的樹種信息對樹障隱患智能預警具有重要作用[1]。
隨著遙感技術的不斷發(fā)展,高分辨率衛(wèi)星和航空遙感影像上更加豐富的影像紋理細節(jié)信息和地物光譜空間結構優(yōu)勢,使獲得單株立木尺度參數和樹種類別成為可能[2],但遙感影像只能根據不同樹種的水平信息進行識別分類[3-4]。林業(yè)遙感的重點與難點在于如何利用遙感技術自動獲取精確的樹種信息。近年來,機載激光雷達(Light detection and ranging,LiDAR)因具有受天氣影響小、生產周期短、精度高等優(yōu)勢而被廣泛應用,在獲取單木高程信息方面具有很大潛力[5],為樹種分類提供了新的數據源。就樹種分類而言,高分辨率航空遙感影像和機載LiDAR點云均有各自獨特的數據優(yōu)勢[6],可以通過兩者結合實現兩種數據的優(yōu)勢互補,得到更豐富的特征信息,從而提高樹種分類的精度[7]。YANG等[8]通過對光學影像和LiDAR數據的協(xié)同使用研究了樹木分割和分類的準確性,結果表明,兩個數據集協(xié)同使用比單獨使用的準確度高;LINDBERG等[9]以LiDAR和多光譜影像為數據源提取多光譜圖像的光譜信息和LiDAR數據的樹木特征,對瑞典南部地區(qū)進行了樹種分類,總體精度達96%。
目前,相關的樹種分類研究大多針對林分結構單一的樹種進行識別,對復雜森林類型進行精細樹種識別的能力尚不明確,尤其是對輸電線走廊樹種分類的相關研究較少,而且特征表達與分類也沒有形成較為通用可靠的方法。因此,在以上研究基礎上,本文以機載LiDAR點云數據和同步獲取的高分辨率多光譜航空影像為數據源,協(xié)同兩種數據優(yōu)勢,從中提取多維特征,并進行特征篩選,以非參數的機器學習算法為核心,基于面向對象方法框架進行輸電線走廊的樹種分類。
研究區(qū)位于安徽省池州市東北部,海拔1.8~112.2 m,地理位置為117°46′~117°56′E,30°39′~30°41′N,屬于暖濕性亞熱帶季風氣候,四季分明,雨量充足,年平均氣溫16.5℃,年均降水量1 400~2 200 mm,日照時間長,無霜期短,梅雨期40 d左右。研究區(qū)內植被種類豐富,優(yōu)勢樹種包括杉木、毛竹、楓楊和櫟樹等闊葉樹種,以中齡林和成熟林為主。研究區(qū)具體位置如圖1所示,選擇其中一個桿塔的輸電線下行通道作為試驗區(qū)。
本研究所用數據包括機載LiDAR點云數據及同步獲取的高分辨率航空數碼影像數據。飛行時間為2016年6月,在晴朗、能見度較好的天氣條件下獲得。機載LiDAR點云數據使用Optech ALTM Galaxy 系統(tǒng)收集,激光掃描儀的波長為1 064 nm,激光發(fā)散角為0.25 mrad,最大點云密度為93點/m2,最小為0.6點/m2。LiDAR點云數據的投影坐標為UTM(帶號為50),以m為單位。圖2為研究區(qū)內一塊激光點云數據高程信息的3D模型圖,高程由藍色至紅色逐漸遞增。
航空影像數據由同一平臺搭載的CCD相機傳感器獲取,空間分辨率為0.1 m,區(qū)域內 0.1 m分辨率的航空正射影像如圖3所示。
本文研究方法主要分為:①研究使用可見光波段差異植被指數VDVI和雙邊濾波進行樹冠分割前預處理的可行性,并探討如何優(yōu)化最優(yōu)分割尺度參數的選擇。②使用XGBoost選擇最佳特征組合用于單木樹種分類,分析比較特征選擇對樹種分類的影響。③設計12種分類方案,研究多源遙感數據在單木樹種分類中的效果,并評估不同非參數學習算法在單木級別進行樹種分類的能力。技術路線如圖4所示。
冠層高度模型(Canopy height model,CHM)的獲取是以數字高程模型(Digital elevation model,DEM)和數字表面模型(Digital surface model,DSM)作為數據基礎。為獲取DEM和DOM,需要先進行點云濾波和分類。一般來講,濾波就是剔除非地面點數據,僅將地面點數據保留下來,以便快速地構建數字高程模型;分類主要是根據研究需要將不同類型的地物點數據進一步劃分,比如將建筑物、植被、電力線等目標數據點提取出來[10]。
通過對DSM 與 DEM 進行柵格差值運算并歸一化處理生成正規(guī)化數字地表高程模型(Normalized digital surface model,nDSM),可以表示去除背景后地物的絕對高度[11],在林區(qū),nDSM可以被看作冠層高度模型,用來獲取林區(qū)樹冠高度信息。但生成的原始CHM上會出現局部凹坑,這些凹坑的像元與臨近像元相差較大,被稱為無效值[12]。因此,在使用CHM之前,需要先對CHM的局部無效值進行填充[13],使用平滑濾波進行處理是目前最常用也是最便捷的方法,平滑運算方法主要包括中值濾波、低通濾波和高斯濾波等。本研究通過選用不同模板進行平滑濾波處理發(fā)現,使用低通濾波后的圖像較平滑,圖像中的無效值也可以很好地被去除,因此最終選擇低通濾波去除無效值。
單木樹冠提取是樹種分類的基礎和關鍵[14],樹冠分割結果的準確度會直接影響樹種分類效果[15],因此自動提取林區(qū)內高精度的單木樹冠信息非常重要。針對目前樹冠提取中背景的影響和易出現的過度分割問題,先對獲取的航空正射影像提取樹冠區(qū)域并優(yōu)化,然后結合優(yōu)化后的DOM與CHM,利用多尺度分割方法進行單木樹冠的提取。
2.2.1單木樹冠提取方法
根據植被指數可以在遙感影像上將植被與其他地物區(qū)別開[16]。常見的植被指數大都是利用影像的可見光和近紅外波段進行計算。但本研究獲取的影像僅含可見光波段,需要選擇一種可以綜合紅、綠、藍3個可見光波段的植被指數用于樹冠區(qū)域提取。汪小欽等[17]基于僅含可見光波段的無人機遙感影像,利用可見光波段差異植被指數(Visible-band difference vegetation index,VDVI)提取植被信息效果較好,提取精度達90%以上,驗證了VDVI提取植被的適用性和可靠性。本文借鑒NDVI的構造原理與形式,構造可見光波段差異植被指數VDVI,VDVI的數值范圍為[-1,1]。利用直方圖熵閾值法確定閾值,對VDVI進行二值化處理,設置閾值為0.25,VDVI值小于0.25的像元歸為非植被,用0表示;VDVI值大于等于0.25的像元歸為植被,用1表示,生成掩膜圖像后,對原始影像掩膜處理,可將樹冠區(qū)域提取出來。
雙邊濾波是一種具有邊緣保持功能的非線性濾波方法,和其他濾波一樣,也是采用加權平均的方式,不同的是其將位置對中心像素的影響和輻射差異加入到權重中[18]。該方法可以有效解決傳統(tǒng)濾波方法中濾除噪聲和保留邊緣信息的矛盾。
多尺度分割算法是一個從下到上、逐級合并的過程,其能夠在最大化每個對象同質性的同時,最小化對象的平均異質性,并且分割速度快,參數可靈活調節(jié)設置[19]。該算法的核心參數主要包括波段權重、同質性準則組合參數和分割尺度參數3部分[20]。本文保留eCognition軟件中各波段權重為1的默認設置,采用固定單一因子法依次確定最優(yōu)形狀因子和緊致度,規(guī)則是其中一個參數固定不變,不斷調整另一個參數目視對比分割效果,最后進行最優(yōu)尺度參數的判斷。分割尺度是直接決定生成分割對象尺寸的參數,它可以控制影像對象的異質性[21]。本研究結合目視判別法對尺度評價工具(Estimation of scale parameter 2,ESP2)得到的多個尺度值分析比較,最終確定最優(yōu)分割尺度數值,最大限度降低了人為主觀因素的影響,且提高了效率。ESP2通過不同分割尺度下影像對象層的平均標準差確定最優(yōu)分割效果,平均標準差由計算分割對象同質性的局部變化(Local variance,LV)得到,同時最優(yōu)分割尺度是當LV的變化率(Rate of change-Local variance, ROC-LV)出現峰值時對應的分割尺度,得到的ROC-LV折線圖如圖5所示。
由圖5可以看出,ROC-LV出現峰值時對應的分割尺度分別是62、78、93和131,通過對比分析尺度為62時,分割效果最好,因此確定62為最優(yōu)分割尺度。綜上,最終確定最優(yōu)參數組合為:各波段(DOM+CHM)權重為1、1、1、1;尺度為62,形狀因子為0.2,緊致度為0.7。
2.2.2樹冠提取精度評價
為了分析本研究提取單木樹冠的效果,通過實地調查與目視判讀結合的方式得到參考圖,將2個區(qū)域提取的樹冠分別與參考樹冠進行對比分析,評價分割精度。根據參考圖中樹冠與分割圖中樹冠的空間關系,將其分為匹配、丟失、過分割和欠分割4種類型[22],如圖6所示,其中黃色為參考圖的樹冠,紅色為分割的樹冠。
利用分割準確率(Ad)、分割召回率(Ar)和F測度(F)3個指標進行精度評價,其計算式為
(1)
(2)
(3)
式中Nc——匹配的樹冠總數
Nd——本研究分割得到的樹冠總數
Nr——參考圖中分割的樹冠總數
特征提取是在單木樹冠分割的基礎上進行的,主要基于LiDAR點云提取高度特征,基于航空影像提取光譜、形狀和紋理特征。具體如表1所示。
表1 對象特征信息Tab.1 Object feature information
當特征數量超過一定界限后,分類器的性能會隨著特征數量的增加而下降,主要是因特征維度太高導致冗余,特征選擇可以通過去除無關和冗余特征,選出最優(yōu)特征集,解決此問題[23]。本文使用XGBoost算法進行特征選擇,得到特征重要性排序,再選出最優(yōu)特征組合。XGBoost屬于Wrapper方法,它是基于梯度提升樹(Gradient boosting decision tree,GBDT)算法進行提升,包含一個迭代殘差樹的集合,每棵樹都在學習前N-1棵樹的殘差,然后將每棵樹預測的新樣本輸出值相加就是樣本最終的預測值[24]。相較于傳統(tǒng)的GBDT算法,XGBoost對代價函數進行了二階泰勒展開,同時用到了一階和二階函數;定義樹的復雜度,為了簡單化學習出的模型,避免過擬合問題,通過在代價函數里加入正則項來控制模型的復雜度;該算法可以處理稀疏、缺失數據,對于特征值缺失樣本的分裂方向可以自動學習出來;XGBoost算法還提出了一種可并行的近似直方圖算法,可以高效地生成候選分割點,并且可以并行處理,提高運算效率。得到特征重要性后,再對各特征變量間進行相關性分析,若某2個特征之間相關性大于0.8,則剔除重要性排序比較低的特征變量,最終確定用于后續(xù)分類的特征組合。
2.4.1分類方案
為了研究多源數據和使用XGBoost算法進行特征選擇在樹種分類中的作用,并評估隨機森林(Random forest,RF)、支持向量機(Support vector machine,SVM)和人工神經網絡(Artificial neural network,ANN)3種非參數分類器進行單木樹種分類的能力,共確定了12種分類方案。不同組合的具體方案如表2所示。
表2 不同組合的分類方案Tab.2 Classification schemes of different combinations
RF、SVM和ANN都屬于非參數分類算法,無需對數據的概率模型做出假設,比參數分類器有更好的優(yōu)越性。RF是以決策樹為基礎,各個決策樹輸出類別的眾數決定了隨機森林最終的輸出類別[25]。SVM的基本思想是基于結構風險最小化原則,旨在找到n維分類空間中具有類之間最高邊界的最優(yōu)超平面[26],可以將原來樣本的非線性問題轉換為線性問題,具有較好的泛化能力[27],對小樣本數據具有較好的學習能力。本文選擇高斯徑向基核函數作為模型的核函數,核參數(γ)和懲罰因子(C)2個變量參數通過單一參數固定法逐步調節(jié)確定。ANN可以描述為一個并行計算系統(tǒng),由大量具有互連功能的簡單處理器組成[26]。ANN可以進行并行處理,具有非線性映射、自適應學習和容錯能力等特性,且能很好地適應含有噪聲的數據[28]。ANN的主要參數包括激活函數和訓練迭代次數,激活函數選擇效果較好的邏輯函數;迭代次數如果過小會導致訓練結果不理想,如果過大會增加訓練時間,需經過試驗設置合適值。
2.4.2分類精度評價指標
得到不同方案的樹種分類結果后,驗證正確性以評價各方案單木樹種分類的效果。采用分層抽樣方法,通過實地調查和目視判讀結合選取驗證樣本,每類樹種最少30個樣本,構建混淆矩陣是一種量化分類精度的常用方法,用來衡量的指標有用戶精度(User accuracy,UA)、生產者精度(Producer accuracy,PA)、總體精度(Overall accuracy,OA)和Kappa系數。
植被高度可以直接通過 CHM 中的像元值來反映,像元值隨植被高度的增加而增大,研究區(qū)域的 CHM 如圖7所示,隨著植被高度增大,影像呈現由黑到白的亮度變化。
基于可見光差異植被指數VDVI的樹冠區(qū)域提取,需要經過VDVI計算、冠層掩膜得到樹冠區(qū)域。各過程結果如圖8所示,圖8a、8b為計算得到的VDVI影像數據和冠層掩膜結果,提取出的冠層區(qū)域如圖8c所示,可以看出桿塔、輸電線和樹隙等非樹冠區(qū)域都被有效去除;雙邊濾波結果如圖8d所示,可以看出樹冠內部的紋理細節(jié)被有效平滑,同時樹冠邊緣輪廓得到了保護。
將優(yōu)化后的樹冠區(qū)域影像和CHM結合,利用多尺度分割算法,確定最優(yōu)分割參數組合后,進行單木樹冠分割,結果如圖9所示。
經過統(tǒng)計分析,參考樹冠共1 327個,本研究改進方法分割樹冠數量為1 261個,直接對原始影像進行多尺度分割得到的樹冠共1 522個。精度評價結果如表3所示,對比發(fā)現,改進后的單木樹冠分割準確率得到有效提高,準確率為84.21%,分割召回率為80%,F測度為82.07%,均高于直接采用多尺度分割的傳統(tǒng)方法,且過分割現象明顯減少,說明了本研究改進方法的可行性。
表3 單木樹冠分割精度Tab.3 Single tree crown segmentation accuracy
經特征選擇后,保留的特征重要性排序如圖10所示。
根據單木樹冠分割及特征提取的結果,分別基于設計好的12種方案進行單木樹種分類,通過實地調查和目視判讀結合選取樣本,選擇70%做訓練集用于訓練模型,30%做驗證數據用于測試模型的可靠性。得到樹種分類結果后,對結果進行精度評價,分析比較后確定最佳分類方案,表4為分類精度評價結果。
根據表4中數據分析各方案的精度可知:僅使用航空正射影像數據時,方案A3(經XGBoost算法特征選擇后使用ANN分類器)分類精度最高,總體精度為70.59%,Kappa系數為0.530 2。經特征選擇后,與未經特征選擇的方案相比,利用RF、SVM和ANN分類的精度分別提高了4.83、5.98、4.59個百分點。
表4 分類精度Tab.4 Evaluation of classification accuracy
使用航空影像與LiDAR數據結合分類時,方案B3(經XGBoost算法特征選擇后使用)分類效果最好,總體精度為86.19%,Kappa系數為0.826 6,經特征選擇相較于未經特征選擇的方案中,利用RF、SVM和ANN分類的精度分別提高了5.03、10.75、10.19個百分點。方案B3樹種分類結果如圖11所示。
綜合分析不同方案的結果可以得出,將LiDAR數據與航空影像結合能夠提高樹種分類精度;無論使用哪種數據源,經特征選擇后的方案(A1~A3和B1~B3)分類效果都優(yōu)于未經特征選擇的方案(A4~A6和B4~B6),說明使用XGBoost進行特征選擇結果可靠,可以減少或避免特征冗余和休斯效應產生,適用于不同的數據源和分類器;且在3種非參數分類器中,ANN分類器有很強的非線性擬合能力,在訓練樣本有限的情況下,能表現出更好的性能,能更好地利用光譜、紋理和高度等多維特征,比RF和SVM分類器對現有類型的樹種分類效果最好,其中RF分類器的分類精度最低,因其容易出現過擬合現象,而SVM分類器的核函數選擇存在主觀因素,會影響最后的分類精度,對于SVM分類器核函數及參數的設置仍需進一步改進。
本研究綜合利用機載LiDAR點云和航空影像數據,基本實現了輸電線走廊內單木樹種的分類,但在研究過程中仍存在一些不足,所用點云數據密度較低,無法有效直接根據點云劃分單木樹冠,后續(xù)研究可以嘗試利用LiDAR點云數據直接提取單木樹冠,與使用影像的結果對比選出提取單木的最佳方法,再進行單木樹種分類;由于缺乏大范圍的實地數據,本次研究所選試驗區(qū)尺度較小,且區(qū)域內樹齡、郁閉度相似,后續(xù)還需要對本文研究方法推廣至大范圍地區(qū)的樹種識別做進一步驗證。在單木尺度上進行樹種識別,雖已經被證實可以有效避免混合像元問題,抑制分類結果的斑塊化,但對分割對象的特征提取仍需進一步改進,需要選擇更多數據源,挖掘更為有效的能夠區(qū)分樹種的有力信息,比如結合高光譜影像以提取多種植被指數參與分類或使用合成孔徑雷達數據。
利用機載LiDAR點云數據和同步獲取的高分辨率航空影像的優(yōu)勢,提取多類特征,以非參數的機器學習算法為核心,基于面向對象的原理,對輸電線走廊的樹木進行了單木樹種分類。利用VDVI和雙邊濾波盡可能減小了背景地物的影響、減少了過度分割現象,采用ESP2工具選取最優(yōu)尺度參數,最大限度降低了主觀因素的影響。改進的單木分割方法可以有效提高樹冠提取精度,得到的樹冠分割精度在80%以上;將LiDAR數據和航空正射影像相結合,采用XGBoost算法進行特征選擇后,使用ANN分類器的分類方案精度最高,總體精度為86.19%,說明多源數據協(xié)同作用和特征選擇可以提高樹種分類精度,在單木尺度上ANN分類器對現有樹種類型的分類能力最強。