李世波,林 輝,葛 淼
(1.中南林業(yè)科技大學(xué) 林業(yè)遙感大數(shù)據(jù)與生態(tài)安全湖南省重點(diǎn)實(shí)驗(yàn)室,湖南 長(zhǎng)沙 410004;2.貴州林業(yè)勘察設(shè)計(jì)有限公司,貴州 貴陽(yáng) 550001;3.潤(rùn)雅信息技術(shù)(上海)有限公司,上海 215008)
濕地植被的識(shí)別與分類(lèi)是林業(yè)遙感研究中的難點(diǎn)。常見(jiàn)多光譜遙感存在波段少、光譜范圍較寬和波段不連續(xù),無(wú)法滿(mǎn)足濕地植被間的精細(xì)識(shí)別[1-3]。而高光譜遙感具有光譜分辨率高、波段連續(xù)、多波段數(shù)的特點(diǎn),另外高光譜數(shù)據(jù)信息豐富和圖譜合一等特點(diǎn),為濕地植被的精細(xì)識(shí)別與分類(lèi)提供了數(shù)據(jù)源支持[4-7]。但高光譜數(shù)據(jù)量大,維數(shù)太多容易導(dǎo)致維數(shù)災(zāi)難[8-9]。所以在利用高光譜數(shù)據(jù)進(jìn)行植被分析必須先對(duì)數(shù)據(jù)進(jìn)行降維處理。
高光譜數(shù)據(jù)降維常用的算法有主成分分析(Principal component analysis,PCA)[10-11]、非線(xiàn)性降 維(Linear Discriminant Analysis,LDA)[12-13]、獨(dú)立分量分析(Independent component analysis,ICA)[14-15]等,因PCA 應(yīng)用領(lǐng)域較廣,且取得較好的降維效果,故本文采用PCA 算法對(duì)高光譜數(shù)據(jù)進(jìn)行降維。不同的濕地植被在采用PCA 降維后是否能顯示各濕地植被的特征,在這方面的研究還比較少。本研究主要從以下幾個(gè)問(wèn)題著手,分析PCA 算法在濕地植被反射率數(shù)據(jù)降維后的效果:1)PCA 算法是否對(duì)變換后的高光譜反射率數(shù)據(jù)特征都有效,變換后的高光譜反射率數(shù)據(jù)經(jīng)過(guò)PCA降維后是否有差異;2)PCA 算法如果對(duì)各個(gè)濕地植被可以提取差異,那么他們?cè)诶塾?jì)方差貢獻(xiàn)率達(dá)到一定時(shí),保留的主成分個(gè)數(shù)是否相同,且對(duì)應(yīng)在相同主成分時(shí),累計(jì)方差貢獻(xiàn)差別有多大;3)利用PCA 算法所提取的特征,是否對(duì)所有分類(lèi)方法都有效,即多種變換后的高光譜數(shù)據(jù)經(jīng)過(guò)PCA降維后,所對(duì)應(yīng)的分類(lèi)算法是否一致,如果不一致,則哪種組合方式最優(yōu)。
本研究對(duì)濾波后的濕地植被高光譜反射率數(shù)據(jù)及3 種預(yù)處理數(shù)據(jù)采用PCA 算法進(jìn)行降維處理,采用馬氏距離(Mahalanobis distance,Md)、樸素貝葉斯(Na?ve Bayes,NB)、K鄰近分類(lèi)器(Knn)、隨機(jī)森林(Random forest,RF)、徑向基內(nèi)核支持向量機(jī)(SVM-RBF)等[16-20]5 種分類(lèi)算法對(duì)降維后的數(shù)據(jù)進(jìn)行分類(lèi)和精度檢驗(yàn),并對(duì)分類(lèi)精度進(jìn)行比較分析,討論P(yáng)CA 算法在濕地植被變換后再降維的分類(lèi)效果,以及對(duì)分類(lèi)精度的影響,最后獲得最優(yōu)的濕地植被識(shí)別組合方法。
研究區(qū)位于湖南省東洞庭湖自然保護(hù)區(qū),總面積190 000 hm2。坐標(biāo)28°59″~29°38″N,112°43″~113°15″E。保護(hù)區(qū)內(nèi)有多種濕地類(lèi)型,其中,永久性淡水湖面積21 710 hm2,占濕地面積的81%。土壤為湖沼土和河沼土。平均氣溫16.7 ℃,降水量1 200~1 350 mm,無(wú)霜期274 d。常見(jiàn)濕地植被為苔草Carex tristachya、辣蓼Polygomum flɑccidum、蘆葦Phragmites australis、蘆蒿Artemisia selengensisi。
圖1 研究區(qū)位置Fig.1 Location of study area
高光譜數(shù)據(jù)外業(yè)采集時(shí)間為2014年11月 2—4日,采集地點(diǎn)位于湖南省東洞庭湖自然保護(hù)區(qū)。儀器采用美國(guó)ASD(Analytical spectral device)公司生產(chǎn)的FieldSpecPro FRTM 光譜儀。光譜測(cè)定均在晴天、無(wú)風(fēng)時(shí)進(jìn)行,觀測(cè)時(shí)間為10:00—14:00,太陽(yáng)高度角大于45°,陽(yáng)光幾乎直射。采集濕地植被高光譜數(shù)據(jù)時(shí),確保探頭保持垂直向下。為使數(shù)據(jù)不受地理位置的影響,濕地植被高光譜數(shù)據(jù)均勻分布于東洞庭湖。觀測(cè)濕地植被分別為苔草、辣蓼、蘆蒿、蘆葦和楊柳等5 種(表1)。
表1 東洞庭湖濕地植被名錄Table 1 Five kinds of wetland vegetation in east Dongting lake
剔除異常數(shù)據(jù),共觀測(cè)有效數(shù)據(jù)480 條。因儀器自身原因,不可避免產(chǎn)生低頻噪聲,因此,在分類(lèi)前先采用S.Golay 對(duì)濕地植被高光譜數(shù)據(jù)進(jìn)行平滑處理。經(jīng)過(guò)平滑后的高光譜數(shù)據(jù),舍棄了400 nm 之前和1 300 nm 之后噪聲較大的光譜數(shù)據(jù),保留了400~1 300 nm 之間的光譜數(shù)據(jù)。因光譜儀儀器在350~1 000 nm、1 000~2 500 nm 范圍光譜分辨率不一致,為降低維數(shù)和隨機(jī)噪聲,將平滑后的光譜數(shù)據(jù)重采樣成3 nm,重采樣后的數(shù)據(jù)仍然保持其原有的高光譜特征(圖2)。
圖2 平滑后的濕地植被高光譜曲線(xiàn)Fig.2 Hyperspectral curves of wetland vegetation after smoothing
由于光照條件及觀測(cè)背景因素對(duì)觀測(cè)結(jié)果有影響,為了消除這些噪聲,對(duì)重采樣后的濕地植被高光譜數(shù)據(jù)分別進(jìn)行導(dǎo)數(shù)變換(d(R))、對(duì)數(shù)變換(log(R))和歸一化變換Nr(R)。
本文將重采樣后的數(shù)據(jù)分別進(jìn)行導(dǎo)數(shù)變換、對(duì)數(shù)變換和歸一化變換,然后進(jìn)行PCA 降維,得到4 組濕地植被降維數(shù)據(jù),再將每組中每一類(lèi)別的濕地植被數(shù)據(jù)按照1、2、3 編號(hào),當(dāng)遇到另外一類(lèi)別的植被數(shù)據(jù)時(shí),重新按照1、2、3 的順序編號(hào),至所有的數(shù)據(jù)編完號(hào)為止。選擇編號(hào)為1、2 的作為訓(xùn)練數(shù)據(jù),編號(hào)為3 的作為測(cè)試數(shù)據(jù)。訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)分配方式如表1所示。
分別采用馬氏距離(Md)、樸素貝葉斯(NB)、K 鄰近分類(lèi)器(Knn)、隨機(jī)森林(RF)、徑向基內(nèi)核支持向量機(jī)(SVM-RBF)對(duì)4 種類(lèi)型(重采樣后的光譜數(shù)據(jù),導(dǎo)數(shù)變換、對(duì)數(shù)變換、歸一化變換的光譜數(shù)據(jù))的濕地植被高光譜數(shù)據(jù)分別進(jìn)行分類(lèi),通過(guò)降維與分類(lèi)精度,探討不同預(yù)處理方法和不同主成分個(gè)數(shù)對(duì)分類(lèi)精度的影響,分析預(yù)處理方式與分類(lèi)算法的組合形式,篩選適用于濕地植被精細(xì)識(shí)別的最優(yōu)組合。
4 種類(lèi)型數(shù)據(jù)經(jīng)過(guò)PCA 降維后,選取前30 個(gè)主成分(第30 個(gè)主成分的累計(jì)方差貢獻(xiàn)率已達(dá)到100%),各種類(lèi)型的累計(jì)方差貢獻(xiàn)率如圖3所示。
從圖3可以得出,R(重采樣后的光譜反射率數(shù)據(jù))、dr(R)、log(R)、Nr(R)經(jīng)過(guò)PCA 降維后的第一主成分的累計(jì)方差貢獻(xiàn)率差異明顯,分別為:94.30%、92.47%、78.78%、76.77%。從數(shù)據(jù)變換后的累計(jì)方差貢獻(xiàn)率可以發(fā)現(xiàn),變換后的數(shù)據(jù)在第一主成分中所占有植被特征相對(duì)少,植被特征被逐步分散到剩下的主成分中。一階微分變換在去除低頻背景光譜時(shí),引入了高頻噪聲,而對(duì)數(shù)變換和歸一化變化可以消除光照條件引起的乘性因素影響,故兩者的累計(jì)方差貢獻(xiàn)率在對(duì)應(yīng)主成分上差異不大。
4 種類(lèi)型的數(shù)據(jù)經(jīng)過(guò)PCA 降維后累計(jì)方差貢獻(xiàn)率達(dá)到98%時(shí),包含的主成分個(gè)數(shù)差異也比較明顯,R、dr(R)、log(R)、Nr(R)的主成分個(gè)數(shù)分別為4 個(gè)、8 個(gè)、5 個(gè)、6 個(gè),變換后的數(shù)據(jù)在累計(jì)方差貢獻(xiàn)率達(dá)到一定值時(shí),包含主成分個(gè)數(shù)較變換前多,說(shuō)明植被特征分散的主成分個(gè)數(shù)越多。根據(jù)累計(jì)方差貢獻(xiàn)率的數(shù)字柱狀圖顯示,R、dr(R)累計(jì)方差貢獻(xiàn)率變化梯度均勻,而log(R)、Nr(R)變化梯度差異較大。
圖3 PCA 降維后的累計(jì)方差貢獻(xiàn)率Fig.3 Contribution of cumulative variance of wetland vegetation after dimensionality reduction by PCA
采用5 種分類(lèi)方法對(duì)4 種經(jīng)過(guò)PCA 降維后的濕地植被數(shù)據(jù)進(jìn)行分類(lèi),分類(lèi)精度見(jiàn)圖4。
圖4 主成分?jǐn)?shù)與分類(lèi)精度關(guān)系Fig.4 The relationship between the number of main components and classification accuracy
由圖4可知,主成分?jǐn)?shù)量增加,分類(lèi)精度也隨著提高,波動(dòng)幅度也隨之變化。但數(shù)據(jù)預(yù)處理方式不同,經(jīng)過(guò)PCA 降維后,其分類(lèi)精度也有所差異。
1)第一主成分植被信息含量最豐富,但分類(lèi)精度不一定最高,累計(jì)貢獻(xiàn)率達(dá)到98%以后,分類(lèi)精度有明顯的提高。經(jīng)過(guò)不同的數(shù)據(jù)預(yù)處理方式,當(dāng)分類(lèi)算法處于第一主成分時(shí),分類(lèi)精度為15%~45%,說(shuō)明第一主成分雖然含濕地植被的大量信息,但不能代表分類(lèi)精度就越高;當(dāng)累計(jì)方差貢獻(xiàn)率達(dá)到98%時(shí),其所含的主成分包含了光譜數(shù)據(jù)絕大部分信息,全部分類(lèi)算法的分類(lèi)精度為20%~90%,說(shuō)明累積方差貢獻(xiàn)率與分類(lèi)精度之間并不存在必然的聯(lián)系。
2)在4 種預(yù)處理中dr(R)經(jīng)PCA 降維后分類(lèi)效果最理想,從圖3(b)中可以明顯觀察到當(dāng)主成分個(gè)數(shù)從1 個(gè)增加到11 個(gè)的過(guò)程中,分類(lèi)精度基本上與累計(jì)的主成分的個(gè)數(shù)呈直線(xiàn)上升,分類(lèi)精度逐漸提高,當(dāng)主成分個(gè)數(shù)超過(guò)12 個(gè)時(shí),各種分類(lèi)方法的分類(lèi)精度保持在較高水平不再大幅度波動(dòng)。說(shuō)明前11 個(gè)主成分可以描述5 種濕地植被的主要特征,剩下的分量中所包含的濕地植被特征基本可以忽略。
3)針對(duì)不同變換方式,用不同的分類(lèi)方法進(jìn)行濕地植被的精細(xì)識(shí)別時(shí),隨著主成分個(gè)數(shù)的不斷增多,分類(lèi)精度變化曲線(xiàn)并不一致。數(shù)據(jù)經(jīng)過(guò)平滑處理、導(dǎo)數(shù)變換、對(duì)數(shù)變換后,在主成分個(gè)數(shù)累計(jì)達(dá)到5 個(gè)時(shí),隨機(jī)森林和徑向基內(nèi)核支持向量機(jī)分類(lèi)精度趨于基本平穩(wěn),精度波動(dòng)范圍差值在5%以?xún)?nèi),隨機(jī)森林波動(dòng)幅度較小,而徑向基內(nèi)核支持向量機(jī)上下波段較明顯。Knn 分類(lèi)算分針對(duì)數(shù)據(jù)變換擁有相似的分類(lèi)精度曲線(xiàn),當(dāng)主成分個(gè)數(shù)累計(jì)達(dá)到8 個(gè)后,分類(lèi)精度保持不變。在導(dǎo)數(shù)變換時(shí),馬氏距離與徑向基內(nèi)核支持向量機(jī)、Knn、隨機(jī)森林分類(lèi)精度曲線(xiàn)走向相似,但其在數(shù)據(jù)平滑、歸一化變化、對(duì)數(shù)變化中,分類(lèi)精度極其不穩(wěn)定,波動(dòng)幅度大,隨著主成分個(gè)數(shù)的增加分類(lèi)精度無(wú)明顯規(guī)律。樸素貝葉斯針對(duì)導(dǎo)數(shù)變換和對(duì)數(shù)變換呈現(xiàn)的分類(lèi)精度曲線(xiàn)極其相似。
4)同一分類(lèi)算法運(yùn)用在不同的預(yù)處理方式中,穩(wěn)定性不一定相同。針對(duì)4 種預(yù)處理方式,徑向基內(nèi)核支持向量機(jī)、隨機(jī)森林穩(wěn)定性極強(qiáng),分類(lèi)精度曲線(xiàn)呈線(xiàn)性上升,當(dāng)主成分個(gè)數(shù)達(dá)到一定個(gè)數(shù)時(shí),精度曲線(xiàn)始終保持平穩(wěn)。Knn 的穩(wěn)定性次于徑向基內(nèi)核支持向量機(jī)和隨機(jī)森林,分類(lèi)精度曲線(xiàn)與徑向基內(nèi)核支持向量機(jī)和隨機(jī)森林相似。而馬氏距離、樸素貝葉斯穩(wěn)定性最差,分類(lèi)精度不高,分類(lèi)精度曲線(xiàn)波動(dòng)幅度較大,在同種預(yù)處理方式中,馬氏距離、樸素貝葉斯測(cè)試的分類(lèi)精度總是低于徑向基內(nèi)核支持向量機(jī)和隨機(jī)森林測(cè)試的分類(lèi)精度。說(shuō)明高光譜數(shù)據(jù)不同的預(yù)處理方式影響分類(lèi)方法的穩(wěn)定性。由圖3中可以看出,log(R)-PCA 降維-RF、dr(R)-PCA 降維-徑向基內(nèi)核支持向量機(jī)為濕地植被的組合方式最優(yōu),其最高分類(lèi)精度可達(dá)98.5%。
通過(guò)對(duì)東洞庭湖濕地植被高光譜數(shù)據(jù)降維和分類(lèi)研究,主要得到以下結(jié)論:
1)運(yùn)用PCA降維后的濕地植被數(shù)據(jù)用于分類(lèi),累計(jì)方差貢獻(xiàn)率與濕地植被分類(lèi)精度不存在必然聯(lián)系,即累計(jì)方差貢獻(xiàn)率達(dá)到98%時(shí),分類(lèi)精度不一定達(dá)到最高。對(duì)分類(lèi)精度造成影響的是PCA降維后的主成分個(gè)數(shù),對(duì)濕地植被進(jìn)行主成分降維后,最適宜的主成分?jǐn)?shù)量為前8~11 個(gè)主成分。
2)將PCA 算法應(yīng)用于濕地植被高光譜數(shù)據(jù)分類(lèi)中,數(shù)據(jù)平滑和數(shù)據(jù)變換方法對(duì)PCA 降維有顯著的影響,導(dǎo)數(shù)變換和對(duì)數(shù)變換的數(shù)據(jù)最適合PCA 降維。
3)徑向基內(nèi)核支持向量機(jī)、隨機(jī)森林針對(duì)4種預(yù)處理方式都表現(xiàn)出極強(qiáng)的穩(wěn)定性,馬氏距離、樸素貝葉斯穩(wěn)定性最差,分類(lèi)精度不高、且波動(dòng)幅度較大,Knn 分類(lèi)算法不適用于數(shù)據(jù)平滑,對(duì)去除噪聲后的數(shù)據(jù)變換較適應(yīng)。根據(jù)分類(lèi)方法對(duì)數(shù)據(jù)預(yù)處理和數(shù)據(jù)降維后的靈敏度,log(R)-PCARF、dr(R)-PCA-SVM-RBF 為濕地植被精細(xì)識(shí)別的最佳組合方式。
主要證據(jù)如下:①與藏卓[10]在喬木樹(shù)種的識(shí)別上得出相似的結(jié)論。以往的分類(lèi)研究在主成分分析應(yīng)用較多,但對(duì)與主成分個(gè)數(shù)的討論較少,如宋仁飛[2]研究濕地植被高光譜數(shù)據(jù)變換及識(shí)別。②藏卓[10]在應(yīng)用主成分變換對(duì)喬木樹(shù)種的高光譜數(shù)據(jù)進(jìn)行分析,得出前15~20 個(gè)主成分較為合適的結(jié)論,說(shuō)明濕地植被在識(shí)別方面保留的主成分個(gè)數(shù)小于喬木樹(shù)種,原因可能與地形、樹(shù)種立地背景、植被蓋度、葉綠素等因素有關(guān)。③主要原因是一階微分在消除背景因素的影響上較為有利,但引入了更多的噪聲;對(duì)數(shù)變換和導(dǎo)數(shù)變換不但可以增強(qiáng)可見(jiàn)光波段范圍的光譜差異,而且還有助于降低因光照變化引起的乘性因素的影響,引入的噪聲較少。④主成分分析和隨機(jī)森林在多光譜影像的識(shí)別與分類(lèi)上取得較好的效果[21-22],但該組合應(yīng)用于多光譜影像是否取得相同的效果,有待進(jìn)一步研究。⑤本文在利用數(shù)據(jù)變換、主成分分析、分類(lèi)方法組合研究上對(duì)濕地植被分類(lèi)雖然取得較好的效果,但不能識(shí)別具體濕地植被較敏感的波段窗口。下一步將從高光譜濕地植被的波段窗口并結(jié)合多光譜遙感進(jìn)行濕地植被分類(lèi)研究,形成高光譜數(shù)據(jù)與多光譜數(shù)據(jù)對(duì)濕地植被分類(lèi)相結(jié)合的紐帶。