楊紅艷 杜健民 阮培英 朱相兵 劉 浩 王 圓
(1.內蒙古工業(yè)大學機械工程學院, 呼和浩特 010051; 2.內蒙古農業(yè)大學機電工程學院, 呼和浩特 010018;3.山東理工大學農業(yè)工程與食品科學學院, 淄博 255000)
作為草原與荒漠之間的過渡,荒漠草原構成了生態(tài)環(huán)境的脆弱地帶[1-2]。在內蒙古自治區(qū),荒漠草原主要分布在中西部,是內蒙古草原的重要組成部分[2-3]。由于氣候變化、放牧超載及礦床開采等原因,近30年來草原面積逐漸減小,其生產力逐漸下降,其中荒漠草原減產最為突出,荒漠化加劇顯著[4]。因此,亟需采用先進、快速的技術和方法對荒漠草原進行持續(xù)有效的監(jiān)測,從而為荒漠草原的保護和管理提供科學依據(jù)。
遙感技術適用于大面積的環(huán)境生態(tài)監(jiān)測,利用衛(wèi)星多光譜遙感圖像可實現(xiàn)土地覆蓋的分類[5-6],但由于圖像空間分辨率和光譜分辨率的限制,衛(wèi)星多光譜遙感技術難以區(qū)分不同的草地植被。高光譜圖像的光譜分辨率達到納米級,幾乎連續(xù)的窄帶光譜提供了區(qū)分同類物質的光譜細節(jié),可顯著提高植被物種的分類效果[7-9]?;诘孛嫫脚_的高光譜遙感監(jiān)測能精確識別草地物種,但監(jiān)測范圍小,難以揭示草原區(qū)域的植被分布狀況[10]。無人機(Unmanned aerial vehicle, UAV)搭載高光譜成像儀的遙感監(jiān)測技術兼具較大監(jiān)測范圍和高空間、高光譜分辨率的優(yōu)點,在區(qū)域性草地植被分類應用中具有優(yōu)勢[11-13]。
大體上基于高光譜遙感的草原信息提取和分類可以分為無監(jiān)督分類和有監(jiān)督分類,如K-means均值算法、最大似然分類(Maximum likelihood classification, MLC)法、支持向量機(Support vector machine, SVM)、K-最近鄰(K-nearest neighbor, KNN)算法、人工神經網絡(Artificial neural network, ANN)等方法,這些方法各有優(yōu)勢。研究發(fā)現(xiàn),僅利用光譜信息或圖像空間信息的分類效果噪聲大、魯棒性差、分類精度較低。無論是無監(jiān)督還是有監(jiān)督分類,提高分類性能的關鍵是提取高光譜圖像的分類特征[5]。
隨機森林(Random forest,RF)是一種新興的、高度靈活的機器學習算法,具有運行速度快、需要的參數(shù)數(shù)量少、可處理大量輸入數(shù)據(jù)、可評估分類特征的重要性、分類精度高等優(yōu)點,近幾年在遙感圖像分類和定量遙感反演中取得了較好的應用效果[14-15],一些學者對此進行了相關研究[5,16-17]。近幾年RF算法在農作物、山區(qū)和城市等類型的分類中已獲得較廣泛的應用,但是在結合高光譜圖像對草原植被分類研究中尚不多見,尤其是在荒漠草原生態(tài)系統(tǒng)中的應用鮮見報道。
本文以無人機為平臺,搭載高光譜成像系統(tǒng),低空飛行采集內蒙古荒漠草原遙感圖像,通過波段選擇獲得代表荒漠草原植被光譜特性的特征波段;將傳統(tǒng)光譜指數(shù)經光譜變換、增強特征點差異后,建立植被指數(shù);利用特征波段、植被指數(shù)、研究區(qū)坡度、坡向和圖像灰度共生矩陣等構建內蒙古荒漠草原的光譜、植被、地形和紋理4種分類特征,建立RF分類模型,并與MLC、KNN、SVM等分類方法進行比較。本文旨在探索RF方法和無人機高光譜遙感數(shù)據(jù)在荒漠草原草地植被分類中應用的可行性,尋求最佳分類方案,以期為荒漠草原生態(tài)系統(tǒng)的動態(tài)監(jiān)測提供有效的監(jiān)測手段。
本研究區(qū)位于內蒙古高原中部,隸屬于內蒙古自治區(qū)烏蘭察布市四子王旗,地理坐標為(41°47′15″N,111°53′12″E),海拔1 450 m。研究區(qū)屬于中溫帶大陸性氣候,冬季較長且寒冷干燥;夏季短促而炎熱,日照充足,多年平均氣溫為3.4℃,年降水量約為200 mm[18]。研究區(qū)草地類型為短花針茅荒漠草原,草層植被具有低矮、稀疏的特征,平均高度僅為8 cm,覆蓋度僅為12%~25%。草地植物種類較貧乏,主要由20多種植物物種組成,建群種為短花針茅,優(yōu)勢種為冷蒿、無芒隱子草,主要伴生種包括豬毛菜、櫛葉蒿、刺藜、阿爾泰狗娃花、華北駝絨藜、小葉錦雞兒和羊草等[18-20]。研究區(qū)位置及其無人機航拍RGB鑲嵌圖像如圖1所示。
本研究使用濟南賽爾無人機科技有限公司的HEX-6型八旋翼無人機。該機的最大起飛重量為392 N,載重147 N的飛行續(xù)航時間為25 min。配有北斗和GPS雙定位系統(tǒng),采用工業(yè)級三余度飛行控制系統(tǒng),用于精確定位和高可靠性安全飛行。
使用美國Resonon公司的Pika XC2型高光譜成像儀,其光譜波長范圍為400~1 000 nm,有894個光譜通道,光譜分辨率達到1.3 nm,空間通道數(shù)為1 600。配有施耐德17 mm焦距鏡頭,橫向視場角為30.8°,瞬時視場角為0.71 mrad。光譜儀質量為2.2 kg,用于控制圖像采集和存儲的微型計算機質量為0.5 kg,GPS及慣性測量單元系統(tǒng)質量為0.08 kg。
為了補償無人機飛行中傾斜、震動等對成像的影響,確保在圖像采集過程中光譜儀鏡頭始終垂直向下,采用大疆如影Ronin-MX型三軸增穩(wěn)云臺(深圳大疆科技有限公司)將Pika XC2型高光譜成像儀安裝到HEX-6型無人機上,云臺質量為2.3 kg。
根據(jù)研究區(qū)的氣候特點和植被的生長周期,試驗在2018年6月22—27日進行。無人機圖像采集選擇在晴朗無云、風速小于3級的條件下進行,時間在10:00—14:00之間,以保證采集的圖像在近似統(tǒng)一的光照條件下獲得。每個飛行架次前后通過標準參考白板測取正確的曝光值。圖像采集過程中,無人機按預先規(guī)劃好的航線飛行,旁向重疊率設為55%。Pika XC2型高光譜儀以線性推掃方式獲取圖像,其原始光譜通道數(shù)為894,因波段過多形成龐大的數(shù)據(jù)量,綜合考慮圖像采集效率和光譜分辨率,將光譜通道合并為231個,保證地物特征識別的光譜分辨率仍為納米級,采樣間隔為2.6 nm,單幅圖像為2 017像素×1 600像素。無人機飛行高度距地面30 m,獲取的遙感圖像空間分辨率為2.1 cm。
為了獲得研究區(qū)草原植被分布的真實情況數(shù)據(jù),在無人機飛行數(shù)據(jù)采集的同時進行野外實測。在飛行區(qū)內設置1 m×1 m的樣方,樣方內保留單一草地植物物種,人工去除其它類型植物物種。野外實測的物種為荒漠草原建群種短花針茅,優(yōu)勢種冷蒿和伴生種刺藜、小葉錦雞兒、華北駝絨藜(其它物種較為稀少或過于低矮,沒有列入調查范圍)。每個物種各設置8個樣方,記錄樣方內物種名稱、平均高度和覆蓋度,用相機拍攝植被冠層圖像。另外,在樣方旁標記并利用GPS測量樣方的地理坐標,以便于在圖像上定位。
數(shù)據(jù)預處理包括去除扭曲變形圖像、輻射校正、濾波降噪、幾何校正。通過人工目視檢查去除因陣風引起的扭曲變形圖像。使用Spectronon Pro軟件中的輻射轉換工具及地面鋪設的灰階靶標的DN值(遙感影像像元亮度值)、定標文件進行圖像輻射校正,消除數(shù)據(jù)獲取過程產生的輻射失真或畸變,得到地物真實的反射率數(shù)據(jù)。在ENVI 5.5中采用Savitzky Golay濾波法進行圖像降噪。在Spectronon Pro軟件中輸入地面高程、高光譜儀鏡頭橫向視場角以及俯仰、橫滾和偏航偏移指標和圖像空間分辨率等,利用GPS和IMU(慣性測量單元)等信息對高光譜圖像進行粗幾何校正。在高光譜數(shù)據(jù)采集的同期使用大疆精靈3專業(yè)版無人機在同一地區(qū)按航線飛行拍攝,得到空間分辨率約為1.4 cm的RGB圖像,利用Agisoft PhotoScan Professional軟件通過添加圖像、對齊圖像、生成密集點云、生成網格、生成紋理、構建數(shù)字高程模型 (Digital elevation model,DEM)、構建數(shù)字正射影像(Digital orthophoto map,DOM)等步驟,生成DEM和DOM文件。在ArcGIS 10.2中,利用DOM文件將粗幾何校正的數(shù)據(jù)文件進行精幾何校正。在Spectronon Pro軟件中進行圖像鑲嵌,在ArcGIS 10.2中使用掩膜函數(shù)和鄰域統(tǒng)計函數(shù)處理飛行條帶噪聲,再經裁剪等處理,最終得到待分類圖像,其幅寬為83.5 m,面積為14 345.3 m2。
在大量地面調查的基礎上,利用ArcGIS 10.2在無人機高光譜圖像上樣方內選擇和生成樣本。考慮到樣本均衡性,樣本數(shù)量按照各草地物種的面積占比所設置,共選擇了36 740個像元作為樣本數(shù)據(jù)(短花針茅13 580個、冷蒿8 540個、刺藜5 420個、小葉錦雞兒2 410個、華北駝絨藜2 150個、裸土4 640個)。
圖像完成各項預處理后,首先利用樣方內數(shù)據(jù)建立分類特征,包括光譜特征、植被特征、紋理特征和地形特征等;其次利用分類特征構建隨機森林算法并對樣方內數(shù)據(jù)進行分類和精度評價;然后比較不同方法對樣方數(shù)據(jù)的分類效果;最后將隨機森林算法應用至整個圖像中進行分類。圖2為研究思路的具體技術流程。
2.2.1光譜特征
若把231個波段的高光譜數(shù)據(jù)全部輸入分類器,將形成海量數(shù)據(jù),再加上訓練樣本有限,易產生計算量劇增、維數(shù)災難等問題。波段選擇可去除相關性強的冗余波段、挖掘光譜特征并保留波段的原始物理信息,是解決數(shù)據(jù)維度高、數(shù)據(jù)量大的有效方法[8,21]。最優(yōu)索引因子(Optimal index factor, OIF)和自適應波段選擇(Adaptive band selection, ABS)等傳統(tǒng)波段選擇法采用單一評價準則,難以同時滿足信息量大、相關性小、對不同類地物的光譜反射差異大的要求[22]。本文采用分步波段選擇法(Step by step band selection, SBS)進行數(shù)據(jù)降維和特征提取,具體步驟如下:
(1)以草地植被反射率光譜曲線的波峰、波谷為基準,將原始波段粗分為7個子集。
(2)在子集內,按照光譜反射率曲線的變化程度初選波段個數(shù),曲線斜率較小處相鄰波段間相關性較大,應設置較少波段;反之,在曲線斜率較大處相鄰波段間相關性小,則需設置較多波段,如圖3所示。
(3)按照信息量確定子集內的波段,信息量大的波段其標準差更大,因此按波段反射率的標準差遞減排序,選擇前16個波段作為代表波段。計算代表波段的相關系數(shù),去掉相關性大的波段,保留波段間相關系數(shù)小于等于0.3的10個代表波段。
(5)選擇OIF值最大且JM距離大于等于1.8的波段組合作為特征波段。
分步波段選擇在確保波段相關性小、信息量大的基礎上兼顧了地物可分性,所選擇波段能夠代表荒漠草原草地植被的光譜特征,技術流程如圖4所示。
2.2.2植被特征
植被指數(shù)常用于土地覆蓋類型的分類中,當直接用于植被間分類時區(qū)分度較小[23]。連續(xù)統(tǒng)去除變換可有效增強地物光譜的吸收和反射特征,極大地增加植被之間的光譜差異[24-28]。以短花針茅、冷蒿和刺藜為例,經連續(xù)統(tǒng)去除變換后,3種植物的反射率曲線在可見光范圍的微弱差異得到放大,如在501.2、556.9、682.1 nm波長處。以波長681.9 nm為例,短花針茅和冷蒿的反射率差值從0.05增大到0.16,刺藜和冷蒿的反射率差值從0.12增大到0.30,刺藜和短花針茅的反射率差值從0.17增大到0.46,三者的反射率光譜差值平均增加了0.19,如圖5所示。本文將反射率光譜經連續(xù)統(tǒng)去除變換后再進行波段運算建立植被指數(shù),通過對比20種常用光譜指數(shù),選擇對研究區(qū)植被分類特征貢獻大的8種指數(shù)作為植被特征,如表1所示[29-36]。
表1 分類特征
2.2.3紋理特征
圖像的紋理信息能夠反映圖像中同質現(xiàn)象的視覺特征,通過像素及其周圍空間鄰域的灰度分布來表現(xiàn)。本文采用統(tǒng)計型紋理特征灰度共生矩陣(Gray level co-occurrence matrix, GLCM)和灰度差向量(Gray level difference vector, GLDV)來提高圖像分類精度,通過計算GLCM的同質性、相關性、二階矩、均值和GLDV的均值和熵,共計6種特征作為隨機森林算法的紋理分類特征。
青辰并不是一個沒有主見的人。自幼的天葬院生活,讓他看淡了生死,也看透了許多其他的事情,讓他對人世間的誘惑有著更好的自制力。然而,這種單調枯燥的童年生活,令他一旦開始喜歡上一件事,便會比常人更深地陷入執(zhí)迷。
2.2.4地形特征
地形對草原植被物種分布有一定的影響。本文使用DEM數(shù)據(jù)與高光譜圖像數(shù)據(jù)進行匹配,在ArcGIS 10.2中進行地形分析,得到飛行區(qū)域的坡度和坡向數(shù)據(jù)。
綜合光譜特征、植被特征、紋理特征和地形特征,本文構建的荒漠草原草地植物的分類特征如表1所示。
隨機森林是通過集成學習的思想將多棵決策樹集成的一種機器學習算法。森林由很多相互不關聯(lián)的決策樹組成,決策樹各自生成分類器模型,獨立地學習和作出預測,按決策樹分類器的投票決定最終隨機森林的分類結果。隨機森林中每棵樹樣本的選擇是從原始數(shù)據(jù)集中隨機有放回地采樣,進行N次采樣,共生成N棵不同的、未修剪的決策樹。決策樹中的每個節(jié)點從所有特征中隨機選擇K個特征,每次分裂時根據(jù)基尼指數(shù)進行測試以選擇最優(yōu)特征,最終得到基尼指數(shù)降低速度最快的決策樹。隨機森林算法在樣本和特征選取上具有隨機性,這兩個隨機性的引入使得隨機森林不容易陷入過擬合,具有很好的抗噪能力。本文N設置為1 000,其中約36.8%的袋外數(shù)據(jù)用于進行分類結果的精度評價,特征數(shù)K設為輸入特征變量總數(shù)的平方根。
對研究區(qū)整體進行RF分類制圖的結果如圖6所示,將本文提出的基于分步波段選擇的隨機森林算法記為SBS_RF。由人工目視解譯對比地面記錄可知,SBS_RF法分類效果較好,各草地植被物種在研究區(qū)的分布符合實際;研究區(qū)人為踩出的小路斑塊邊界分明;地面鋪設白布輪廓清晰,形狀規(guī)則;圍欄分布連續(xù)、完整。
將地面調查樣方的實測類別作為分類真實值,對SBS_RF方法的分類結果進行精度評價,分類結果混淆矩陣如表2所示,OA(總體分類精度)和Kappa系數(shù)分別為91.06%和0.90。從混淆矩陣可看出,SBS_RF法對短花針茅、冷蒿和裸土的識別精度較高,刺藜、小葉錦雞兒和華北駝絨藜有部分錯分樣本。分析其原因,刺藜、小葉錦雞兒和華北駝絨藜在研究區(qū)分布位置相同,大多分布在研究區(qū)西側圍欄;小葉錦雞兒和華北駝絨藜是半灌木植物,在整株形態(tài)上較為接近,且大多成片生長;刺藜是一年生草本植物,在形態(tài)上較二者小,但其顏色與小葉錦雞兒非常相近,這可能是3者部分錯分的原因。短花針茅顏色、形態(tài)與其它幾種草區(qū)別較大,但短花針茅的枯葉與裸土顏色相近,部分枯葉被誤分為裸土。冷蒿在形態(tài)上與刺藜相近,在顏色上與華北駝絨藜相近,有部分混分現(xiàn)象。
表2 基于SBS_RF方法的荒漠草原植被分類混淆矩陣
為了評估本文提出的波段選擇法對隨機森林分類結果的影響和作用,基于相同的樣本數(shù)據(jù),采用主成分分析(Principal component analysis, PCA)去除波段之間的相關性、降低原始數(shù)據(jù)維數(shù)(231個波段)并隔離噪聲。通過PCA分析發(fā)現(xiàn),前11個主成分所包含的數(shù)據(jù)方差已達95.38%。因此,將前11個主成分作為特征波段輸入隨機森林算法,其它分類特征不變,對研究區(qū)進行分類,記為PCA_RF。另外采用OIF法選擇含7個波段的組合作為特征波段,輸入隨機森林算法,其它分類特征不變,對研究區(qū)進行分類,記為OIF_RF。
表3為基于不同波段選擇的隨機森林分類法精度對比,在特征波段不同,其它分類特征相同的3種分類方法中,SBS_RF分類結果精度最高,OA和Kappa系數(shù)分別為91.06%和0.90,比PCA_RF和OIF_RF方法分別高出3.74、6.09個百分點和0.07、0.10。這說明SBS比PCA和OIF更能有效地提取荒漠草原植被的特征信息,與隨機森林算法結合具有很好的適用性。
表3 基于不同波段選擇法的RF分類精度比較
用3種不同波段選擇隨機森林分類算法對研究區(qū)分類制圖,局部放大結果如圖7所示。3種分類法整體分類結果相差不大,部分華北駝絨藜、小葉錦雞兒和刺藜有混分現(xiàn)象,混分情況在OIF_RF分類法中相對較多,在SBS_RF分類法中相對較少;在OIF_RF法中部分冷蒿被誤分為裸土。
為進一步評估SBS_RF法的分類效果和性能,將SBS_RF法與SVM、MLC、KNN法進行比較,仍舊使用相同的樣本數(shù)據(jù)和分類特征對研究區(qū)草原植被物種進行分類。在SVM中,以徑向基函數(shù)作為核函數(shù),采用網格搜索在正則化參數(shù)C為1×103、5×103、1×104、5×104、1×105和核函數(shù)參數(shù)γ為0.000 1、0.000 5、0.001、0.005、0.01、0.1的范圍內進行參數(shù)優(yōu)選。對于KNN算法的關鍵參數(shù)k,在1~20范圍內采用10折交叉驗證的結果來確定最佳k值。4種方法的分類精度比較結果如圖8所示。
由圖8可知:4種分類方法中,SBS_RF法分類精度最高,OA和Kappa系數(shù)比SVM、KNN和MLC法分別高7.9、15.61、18.33個百分點和0.13、0.23、0.26。這說明SBS_RF法比SVM、KNN、MLC法更能有效地提取荒漠草原植被信息,具有很好的適用性。
(1)利用無人機高光譜低空遙感獲得了納米級光譜分辨率、厘米級空間分辨率的遙感圖像,建立了一種基于分步波段選擇的光譜特征、基于連續(xù)統(tǒng)去除的植被特征、紋理特征和地形特征的隨機森林分類模型,利用該模型對內蒙古荒漠草原草地植被覆蓋信息進行分類,其分類效果OA達到91.06%,Kappa系數(shù)達0.90,高于MLC、SVM、KNN這3種分類法。無人機高光譜遙感與隨機森林的結合,能夠更加快速、準確提取荒漠草原的草地植被類型,在荒漠草原植被分類領域具有較好的適用性和推廣性。
(2)采用分步波段選擇法從231個波段中選擇出7個波段,這7個波段包含了研究區(qū)5種主要荒漠草原物種和裸土的主要光譜信息,且7個波段之間的相關系數(shù)小于0.3,由這7個波段合成的多光譜圖像中,6種分類地物的JM距離均大于等于1.8。分步波段選擇與隨機森林結合的分類法,不但減小了數(shù)據(jù)量、提高了工作效率,還保證了較高的分類精度。
(3)隨機森林中的植被指數(shù)是先將光譜進行連續(xù)統(tǒng)去除變換、而后經波段運算建立的。連續(xù)統(tǒng)去除變換運算使研究區(qū)荒漠草原草地植被的光譜差異顯著增大,以短花針茅、冷蒿和刺藜為例,在波段681.9 nm處三者的反射率光譜差值平均增加了0.19。
(4)充分利用植被的紋理信息、生長區(qū)域的地形信息,有助于提高草地植被的分類精度。