袁軍民 王良民 馮艷順
(河南省地質(zhì)礦產(chǎn)勘查開發(fā)局測繪地理信息院,河南 鄭州 450006)
高光譜特征提取方法根據(jù)分類特性,可劃分為無監(jiān)督、監(jiān)督和半監(jiān)督等三種。一般而言,常用的高光譜遙感圖像樣本提取特征提取方法包括主成分分析(PCA)法[1]、線性判別分析(LDA)[2]、核判別分析(KDA)法[1]、最大邊緣投影(MMP)法[3]、非參數(shù)加權(quán)特征提?。∟WFE)[4]、有理函數(shù)曲線擬合(RFCF)[5]法等。
由于高光譜遙感圖像的分辨率較高,具有的空間維度也較高,使得傳統(tǒng)的特征提取方法不得不面臨以下幾個問題:(1)較大的數(shù)據(jù)量,對計算要求較高;(2)很強的波段相關(guān)性,需要處理大量的冗余數(shù)據(jù);(3)數(shù)據(jù)的維數(shù)災(zāi)難,維度增加到一定程度后,分類提取精度會逐漸降低;(4)相對高昂的分類代價,由于需要處理大量的高維度數(shù)據(jù),增加了分類提取時間,大大降低了處理的效率;(5)線性不可分問題,不同時段、不同環(huán)境下的高光譜影像的光譜曲線不同,使得特征空間中的圖像數(shù)據(jù)難以區(qū)分。基于上述問題,傳統(tǒng)的特征提取方法往往難以滿足多波段、高維度、高空間分辨率圖像特征提取的分類精度要求,同時在小樣本數(shù)據(jù)中計算分類效率也有待提升[6-11]。
本文在特征空間判別分析方法(FSDA)基礎(chǔ)上,提出一種基于幾何均值特征空間判斷的高光譜特征提取方法,以便能為高光譜遙感圖像特征提取精度提供借鑒。
當(dāng)高光譜遙感圖像數(shù)據(jù)中存在較多的噪聲污染或者奇異值時,就會導(dǎo)致特征提取方法不能進行很好的曲線擬合,從而無法完成對圖像固有幾何特征結(jié)構(gòu)的有效提取。因此,Imani 等提出了一種特征空間判別分析方法(FSDA),該方法主要通過樣本均值向量將高光譜遙感影像數(shù)據(jù)的冗余信息進行剔除,但是這種方法也存在一個弊端,即在原始樣本較少或者原始樣本數(shù)據(jù)非理想時,很難通過樣本均值來表示物體的幾何特征,相比傳統(tǒng)特征提取法,在后續(xù)分類中也表現(xiàn)不出絕對的優(yōu)勢,因此,本文提出一種基于幾何均值特征空間判斷的高光譜特征提取方法(文中簡稱Gm-FSDA 法)。
式中,xG表示幾何均值。
假設(shè)該樣本數(shù)據(jù)一共包含c 種類別,而每一類中又包含ni 個數(shù)據(jù),且這些數(shù)據(jù)對應(yīng)的幾何均值為mi,原始特征向量為d×1 維,如果要從原始向量中提取得到p 個特征,那么就需要通過一個變換矩陣來實現(xiàn),定義這個變化矩陣為p×d 維的投影矩陣,那么可以得到公式(2):
在Gm-FSDA 特征提取法中,需要首先計算光譜間的幾何散步矩陣如公式(3)所示:
一般而言,類內(nèi)幾何散步矩陣在高維小樣本數(shù)據(jù)集上表現(xiàn)為奇異,因此,得不到該矩陣的正常解,那么就需要采取正則化技巧來對其進行處理,如公式(6)所示:
對公式(7)進行極大化處理,可以得到投影矩陣A,從而提取多于r 個特征。
選擇某高分辨率遙感圖像數(shù)據(jù)集為例,該數(shù)據(jù)集共包含220 個光譜反射波段、波長范圍為400mm~2500mm,像素大小為145×145,光譜分辨率大小為10nm,空間分辨率大小為20m,由于噪聲和水域吸收現(xiàn)象的影響,在后續(xù)處理過程中剔除20 個波段,僅保留2000 個光譜波段。該數(shù)據(jù)集共包含苜蓿、玉米免耕、玉米收割機、玉米、干草堆、草/樹、割草/牧場、草地/牧場、燕麥、大豆免耕、黃豆、大豆清篩機、小麥、木材、建造草坪樹車道、石質(zhì)鋼塔等16 類地物。其中,苜蓿為46 像素數(shù)目、玉米免耕為1428 像素數(shù)目、玉米收割機為830像素數(shù)目、玉米為237 像素數(shù)目、干草堆為483 像素數(shù)目、草/樹為730 像素數(shù)目、割草/牧場為28 像素數(shù)目、草地/牧場為478 像素數(shù)目、燕麥為20 像素數(shù)目、大豆免耕為972 像素數(shù)目、黃豆為2455 像素數(shù)目、大豆清篩機為593 像素數(shù)目、小麥為205 像素數(shù)目、木材為1265 像素數(shù)目、建造草坪樹車道為386 像素數(shù)目、石質(zhì)鋼塔為93 像素數(shù)目。該數(shù)據(jù)集地物覆蓋分布示意圖(如圖1 所示):
圖1 地物覆蓋分布示意
為了驗證Gm-FSDA 方法的有效性,從每一類樣本中隨機選取19 個樣本作為訓(xùn)練樣本,分別采用PCA、LDA、KDA、MMP、NWFE、RFCF 以及FSDA 等七種方法與其進行特征提取效果的對比分析。
試驗得到的不同提取方法下平均分類精度、平均分類效力、總體分類精度以及Kappa 指標(biāo)隨特征數(shù)目的變化特征(如圖2 所示)。從圖2 中可以看到:隨著特征數(shù)目的增加,不同提取方法的平均分類精度、平均分類效力、總體分類精度以及Kappa 指標(biāo)均隨特征數(shù)目的增大而呈現(xiàn)“增大后減小”的變化特征;其中,PCA、LDA、KDA、MMP、NWFE、RFCF、FSDA 以及Gm-FSDA 法的最大平均分類精度分別為68%、69%、72.5%、63.5%、59.2%、65.5%、68.7%以及72%,對應(yīng)的特征數(shù)目分別為6、6、6、6、8、10、6 和8,KDA 提取方法的平均分類精度最高,之后為Gm-FSDA 法,最小的為NWFE 法。PCA、LDA、KDA、MMP、NWFE、RFCF、FSDA 以 及Gm-FSDA法的最大平均分類效力分別為55.5%、57.2%、60.2%、52.5%、53.5%、52%、57%以及61.5%,對應(yīng)的特征數(shù)目分別為6、10、10、6、10、10、6 和8,Gm-FSDA 提取法的平均分類效率最大,其次為KDA 法,最小的為RFCF 法。PCA、LDA、KDA、MMP、NWFE、RFCF、FSDA 以及Gm-FSDA 法的總體分類精度分別為54.7%、54.5%、58.6%、51.5%、50.5%、52.5%、57%以 及62%,對應(yīng)的特征數(shù)目分別為8、10、8、8、6、10、6 和8,Gm-FSDA 提取法的總體分類精度最大,其次為FSDA 法,最小的為RFCF 法。PCA、LDA、KDA、MMP、NWFE、RFCF、FSDA 以及Gm-FSDA 法的總體分類精度分別為50.4%、47%、54%、45.1%、44.4%、46.5%、50%以及56.2%,對應(yīng)的特征數(shù)目分別為6、6、8、8、6、10、6 和8,Gm-FSDA 提取法的Kappa 統(tǒng)計指標(biāo)最大,其次為KDA 法,最小的為NWFE 法。
綜上分析可知:在訓(xùn)練樣本較小時,由于光譜響應(yīng)數(shù)據(jù)的相似性并不是十分顯著,因此造成不同提取方法之間的提取效果相差較大;在小訓(xùn)練樣本下,KDA 提取法的平均分類精度表現(xiàn)最佳,Gm-FSDA 提取法的平均分類效力、總體分類精度以及Kappa 指標(biāo)表現(xiàn)最佳,從不同參數(shù)的綜合表現(xiàn)效果來講,本文提出的Gm-FSDA 提取法具有一定的優(yōu)勢,且從分析中可以看到:當(dāng)特征數(shù)目為6-10 個時,所有特征提取法均能達到較好的分類效果。
圖2 提取參數(shù)隨特征數(shù)目變化特征
從上文分析可知,當(dāng)特征數(shù)目為6-10 個時,不同提取方法可得到較好的分類提取效果,本文取平均值8 作為分析,對訓(xùn)練樣本為19 個,特征數(shù)目為8 個下的不同提取方法的生產(chǎn)和使用者平均精度進行了對比分析(如圖3 所示)。從圖3 中可以看到:PCA、LDA、KDA、MMP、NWFE、RFCF、FSDA 以及Gm-FSDA 提取法的平均生產(chǎn)者精度為56.02%、54.56%、53.49%、49.95%、52.16%、57.96%、56.95%和61.73%,Gm-FSDA 提取法的平均生產(chǎn)者精度最大,其次為RFCF 法,最小的 為NWFE 法;PCA、LDA、KDA、MMP、NWFE、RFCF、FSDA以及Gm-FSDA 提取法的平均使用者精度為68.48%、64.49%、66.91%、63.23%、67.63%、73.35%、68.06%和74.93%,Gm-FSDA 提取法的平均使用者精度最大,其次為KDA 法,最小的為NWFE 法。因此,在小訓(xùn)練樣本和8 特征數(shù)目下,本文提出的Gm-FSDA 提取法的提取分類效果最好,能夠提取到的有效信息更多,相比其他方法具有一定的優(yōu)勢。
圖3 生產(chǎn)及使用者平均精度對比
試驗得到的不同特征提取法得到的分類映射視覺效果(如圖4 所示)。在19 個訓(xùn)練樣本以及8 個特征數(shù)目下,Gm-FSDA 方法的整體提取效果要優(yōu)于其他提取方法。所有方法中,對割草/牧場和黃豆兩類的提取效果最好,對燕麥、大豆免耕等的提取效果最差,但是這兩類又是16 類地物中面積占比較大的種類,因此導(dǎo)致整體的視覺分類效果不是很好;從不同提取方法對這兩類地物的提取效果來講,Gm-FSDA法放入提取效果最佳,其視覺效果最接近于真實地貌,其次為RFCF 提取法,但是Gm-FSDA 法對小麥的提取效果不如其他方法,這可能與訓(xùn)練樣本數(shù)據(jù)所具有的曲線擬合性有關(guān),造成Gm-FSDA 法在提取小麥時的魯棒性較差。
圖4 不同提取方法下的分類映射視覺效果
基于特征空間判別分析方法,提出基于幾何均值特征空間判斷的高光譜特征提取方法,并將其應(yīng)用于小訓(xùn)練樣本高光譜圖像數(shù)據(jù)的提取分析當(dāng)中,結(jié)果表明:
(1)在平均分類精度、平均分類效力、總體分類精度以及Kappa 指標(biāo)四個分類參數(shù)當(dāng)中,Gm-FSDA 提取法在平均分類效力、總體分類精度以及Kappa 指標(biāo)中的表現(xiàn)最佳,在平均分配精度中也僅略次于KDA 法,相比其他方法,Gm-FSDA 提取法綜合分類效果最佳。
(2)從生產(chǎn)者精度和使用者精度對不同提取方法進行了對比,結(jié)果表明Gm-FSDA 提取法表現(xiàn)最好,生產(chǎn)者精度和使用者精度分別可達61.73%和74.93%。
(3)Gm-FSDA 提取法得到的分類映射視覺效果最接近于真實地貌,表明其在小訓(xùn)練樣本高光譜遙感圖像特征提取分類中效果較好。