陳 慶,黃 蕾,李雪梅
(1.湖北省測(cè)繪工程院,湖北 武漢 430074;2.湖北省基礎(chǔ)地理信息中心,湖北 武漢 430074;3.湖北省航測(cè)遙感院,湖北 武漢 430074)
基于主成分判別分析的高光譜遙感影像分類(lèi)方法
陳 慶1,黃 蕾2,李雪梅3
(1.湖北省測(cè)繪工程院,湖北 武漢 430074;2.湖北省基礎(chǔ)地理信息中心,湖北 武漢 430074;3.湖北省航測(cè)遙感院,湖北 武漢 430074)
提出了一種基于主成分判別分析的高光譜遙感影像分類(lèi)方法。針對(duì)高光譜遙感影像數(shù)據(jù)量大、冗余信息多的特點(diǎn),使用改進(jìn)的線性判別分析方法對(duì)高光譜遙感數(shù)據(jù)進(jìn)行線性維數(shù)減少。該方法將主成分分析加入到線性判別分析的算法框架中,能夠克服常規(guī)的線性判別分析方法在訓(xùn)練樣本數(shù)量較少時(shí)遭遇到的小樣本問(wèn)題。通過(guò)實(shí)驗(yàn),證明基于主成分判別分析的遙感影像分類(lèi)方法能夠利用少量的訓(xùn)練樣本實(shí)現(xiàn)更優(yōu)的分類(lèi)精度。
主成分分析;線性判別分析;高光譜;分類(lèi)
現(xiàn)代化觀測(cè)技術(shù)的快速發(fā)展,對(duì)遙感信息處理速度和質(zhì)量提出了更高要求[1]。高光譜遙感能夠在紫外到紅外波長(zhǎng)區(qū)的范圍內(nèi)提供細(xì)致豐富的地物光譜特征描述,提高了遙感影像對(duì)地物的分類(lèi)識(shí)別能力[2,3]。然而,隨著實(shí)際應(yīng)用中對(duì)遙感影像自動(dòng)化處理程度要求的提高,高光譜遙感影像在提供多波段、高量化級(jí)數(shù)的遙感影像同時(shí),也給計(jì)算機(jī)自動(dòng)數(shù)據(jù)處理帶來(lái)了新的挑戰(zhàn)[4,5]。為了充分利用高光譜的信息同時(shí)減少因數(shù)據(jù)冗余帶來(lái)的復(fù)雜計(jì)算,必須首先對(duì)高光譜數(shù)據(jù)進(jìn)行維數(shù)減少,以更加有效的低維空間來(lái)表達(dá)原始高維特征空間中的樣本分布,降低數(shù)據(jù)量的同時(shí)提高分類(lèi)的精度[6]。
國(guó)際上針對(duì)減少高光譜遙感影像的數(shù)據(jù)維數(shù)已經(jīng)進(jìn)行了一系列的研究。例如以主成分分析(PCA)[7]為代表的非監(jiān)督特征提取方法采用線性變換的方法,將原始高維特征空間中的主成分信息組合到新的特征空間中,該類(lèi)方法計(jì)算簡(jiǎn)單,不需要先驗(yàn)知識(shí),因此被廣泛應(yīng)用于高光譜遙感影像降維[8]。此外,線性判別分析(LDA)[9]作為一種監(jiān)督的判別分析方法,能夠充分考慮訓(xùn)練樣本的判別信息以提高樣本在輸出低維特征空間中的可分性,已經(jīng)被證明是一種更有效的特征提取方法。然而,該方法在訓(xùn)練樣本數(shù)量較少時(shí)會(huì)遭遇小樣本問(wèn)題[10,11],無(wú)法找到最優(yōu)的低維特征子空間,在大多數(shù)遙感影像分類(lèi)問(wèn)題中不能保證足夠的分類(lèi)精度,限制了線性判別分析方法在遙感影像智能化處理中的應(yīng)用。本文致力于解決上述問(wèn)題,引入改進(jìn)的線性判別分析方法對(duì)高光譜遙感數(shù)據(jù)進(jìn)行線性維數(shù)減少。
本文提出的基于主成分判別分析的高光譜遙感影像分類(lèi)方法主要步驟如下:為解決小樣本問(wèn)題,主成分判別分析對(duì)原始輸入的數(shù)據(jù)進(jìn)行兩次線性投影變換。首先采用主成分分析降低輸入特征的維數(shù),將原始光譜特征空間轉(zhuǎn)化為最佳的特征描述空間,然后采用線性判別分析方法進(jìn)一步降低特征維數(shù),將特征從前一步最佳的特征描述空間轉(zhuǎn)化為最佳的特征判別空間。然后在特征判別空間中,采用最簡(jiǎn)單的最小距離分類(lèi)器對(duì)遙感影像中的每個(gè)像素類(lèi)別進(jìn)行分類(lèi)。
i是原始光譜特征維數(shù);N為訓(xùn)練樣本數(shù)目。訓(xùn)練樣本的協(xié)方差矩陣Φ表示為:
求解特征方程:
最大的M個(gè)非零特征值λ1≥λ2≥…≥λM所對(duì)應(yīng)的特征向量集組成了原始訓(xùn)練樣本集的最佳的特征描述空間,即
最佳的特征描述空間的維數(shù)M的選取原則除了與特征方程的特征值數(shù)量有關(guān),還與線性判別分析中的訓(xùn)練樣本的類(lèi)別數(shù)及其類(lèi)間散布矩陣的秩有關(guān)。
其中,μ'i和μ'分別是第i類(lèi)的訓(xùn)練樣本和全部訓(xùn)練樣本在最佳特征描述空間中的均值向量。為了使樣本在最終的特征判別空間中同類(lèi)的樣本盡可能集中分布,不同類(lèi)的樣本盡可能分散分布,最佳的特征判別空ULDA應(yīng)該滿足如下準(zhǔn)則:
式(6)是矩陣分析中著名的Rayleigh商[12,13],使得式(6)達(dá)到最大值的ULDA是廣義特征值問(wèn)題式(7)中對(duì)應(yīng)D個(gè)最大特征值的特征向量集:
對(duì)于式(7),如果Sw非奇異,則可以轉(zhuǎn)化為一般特征值問(wèn)題:
在常規(guī)的線性判別分析算法中,根據(jù)類(lèi)內(nèi)散布矩陣的定義有Rank(Sw)≤N-C,而類(lèi)內(nèi)散布矩陣的維數(shù)Dim(Sw)=L。當(dāng)Rank(Sw)<Dim(Sw)時(shí),矩陣Sw是奇異矩陣,廣義特征值問(wèn)題不可解,這就是機(jī)器學(xué)習(xí)方法中常見(jiàn)的小樣本問(wèn)題。在高光譜遙感影像分類(lèi)問(wèn)題中,由于訓(xùn)練樣本數(shù)量常常遠(yuǎn)小于光譜特征維數(shù),因此,直接使用常規(guī)的線性判別分析算法必然會(huì)遭遇到上述小樣本問(wèn)題。采用本文提出的主成分判別分析算法后,通過(guò)在主成分分析中對(duì)特征描述空間的維數(shù)M的設(shè)置,約束該特征空間的維數(shù)使其不大于Rank(Sw),可以滿足在該特征空間中的矩陣Sw是滿秩矩陣,即可克服常規(guī)的線性判別分析方法在訓(xùn)練樣本數(shù)量較少時(shí)遭遇到的小樣本問(wèn)題。此外,還需保證該子空間的維數(shù)不小于類(lèi)別數(shù)C。主成分分析中對(duì)特征描述空間的維數(shù)M的設(shè)置條件如下:
分別得到主成分判別分析的兩次線性投影變換矩陣UPCA和ULDA以后,原始光譜特征空間轉(zhuǎn)化為最佳的特征判別空間的線性投影矩陣為:
為了驗(yàn)證本文提出的方法的有效性,采用華盛頓DC地區(qū)的HYDICE高光譜影像數(shù)據(jù)子集進(jìn)行分類(lèi)實(shí)驗(yàn)[14,15]。該影像由普度大學(xué)提供,影像大小為307×1 280像素,本文實(shí)驗(yàn)中選取其中307×250大小的子區(qū)域。該影像數(shù)據(jù)在光譜范圍0.4~2.4 μm的可見(jiàn)光和近紅外區(qū)域內(nèi)收集了210個(gè)波段的高光譜數(shù)據(jù),去除了吸水性的波段后,剩余的191個(gè)波段的影像數(shù)據(jù)用于實(shí)驗(yàn)。實(shí)驗(yàn)影像如圖1a所示,影像中包含的主要地物類(lèi)型是水體、房屋、道路、小路、草地、樹(shù)木和陰影。該高光譜影像數(shù)據(jù)分類(lèi)的主要難點(diǎn)在于其地物類(lèi)別的復(fù)雜性和主要地物類(lèi)型光譜的相似性[16]。
圖1 HYDICE高光譜影像數(shù)據(jù)及其參考數(shù)據(jù)
實(shí)驗(yàn)分別選用原始光譜特征、主成分分析的特征、線性判別分析的特征和本文提出的主成分判別分析的特征作為輸入特征,采用最簡(jiǎn)單的最小距離分類(lèi)器對(duì)遙感影像中的每個(gè)像素類(lèi)別進(jìn)行分類(lèi)。其中參考數(shù)據(jù)如圖1b所示,實(shí)驗(yàn)中訓(xùn)練樣本從參考數(shù)據(jù)中隨機(jī)產(chǎn)生,數(shù)量為每類(lèi)地物20像素,用于統(tǒng)計(jì)分類(lèi)精度的測(cè)試樣本即為全部參考數(shù)據(jù)。對(duì)于3種特征維數(shù)減少方法,首先將輸出的特征維數(shù)固定為10。
分類(lèi)結(jié)果如圖2所示,從分類(lèi)結(jié)果可知,主成分判別分析方法效果最優(yōu)。原始光譜特征分類(lèi)和主成分分析的分類(lèi)結(jié)果非常接近,這是由于主成分分析的特征提取方法將原始特征投影到方差最大的低維子空間,因此使用最小距離分類(lèi)器會(huì)得到與原始特征相近的分類(lèi)結(jié)果。通過(guò)這兩種特征的分類(lèi)結(jié)果圖可以看出,影像左上方的屋頂被大量錯(cuò)分為小路,此外,在分類(lèi)結(jié)果圖的道路中出現(xiàn)了錯(cuò)分的水體,本文提出的主成分判別分析方法完全避免了這些誤分類(lèi)的情況。進(jìn)一步比較圖2c和d可知,雖然在維數(shù)減少的過(guò)程中,常規(guī)的線性判別分析方法同樣使用了訓(xùn)練樣本的判別信息,但是該方法效果并不理想,原因是在線性判別分析中輸入的訓(xùn)練樣本數(shù)量(20×7=140)小于原始光譜特征維數(shù)(191),線性判別分析方法出現(xiàn)了小樣本問(wèn)題,特征提取過(guò)程中出現(xiàn)了較大的誤差,導(dǎo)致分類(lèi)過(guò)程出現(xiàn)錯(cuò)誤。
圖2 HYDICE高光譜影像數(shù)據(jù)分類(lèi)結(jié)果圖
圖3為3種方法的提取特征維數(shù)與分類(lèi)精度的關(guān)系圖,分別表示分類(lèi)總體精度和分類(lèi)Kappa系數(shù)隨著特征維數(shù)的增加而變化的情況。從圖3可以看出,當(dāng)特征維數(shù)小于5時(shí),3種維數(shù)減少方法的分類(lèi)精度隨特征維數(shù)的增加呈明顯上升趨勢(shì);當(dāng)特征維數(shù)接近7時(shí),3種方法的分類(lèi)精度都達(dá)到頂點(diǎn);當(dāng)特征維數(shù)進(jìn)一步增大時(shí),分類(lèi)精度變化十分緩慢,略微下降后基本接近平緩,保持不變。最優(yōu)的特征維數(shù)是接近影像中的地物類(lèi)別數(shù)C,在本實(shí)驗(yàn)中,C=7。本文提出的方法在分類(lèi)精度曲線上始終明顯地處于最優(yōu)的位置,此外,分類(lèi)總體精度和分類(lèi)Kappa系數(shù)隨數(shù)據(jù)特征維數(shù)增加的變化趨勢(shì)基本一致。
圖3 HYDICE高光譜影像數(shù)據(jù)特征維數(shù)與分類(lèi)精度的關(guān)系
本文提出的方法與3種對(duì)比方法對(duì)HYDICE高光譜影像數(shù)據(jù)分類(lèi)精度定量統(tǒng)計(jì)結(jié)果如表1所示。從表1可以看出,本文提出的方法在各種地物的單類(lèi)分類(lèi)精度和分類(lèi)總體精度都取得了最優(yōu)效果,其中對(duì)于該影像中的難點(diǎn),房屋、道路和小路的分類(lèi)均取得了非常好的效果,而對(duì)比方法在道路的分類(lèi)結(jié)果上均出現(xiàn)了較大的誤分類(lèi),使得道路的分類(lèi)精度較低。由于訓(xùn)練樣本數(shù)量不足,常規(guī)的線性判別分析方法的分類(lèi)精度低于直接使用原始光譜特征的分類(lèi)精度,而本文提出的方法能夠在少量訓(xùn)練樣本的情況下將高光譜遙感影像的分類(lèi)精度從80.26%提高到95.92%。
表1 HYDICE高光譜影像數(shù)據(jù)分類(lèi)精度定量統(tǒng)計(jì)/%
本文提出了一種基于主成分判別分析的高光譜遙感影像分類(lèi)方法。針對(duì)常規(guī)的線性判別分析方法直接用于對(duì)高光譜遙感數(shù)據(jù)進(jìn)行線性維數(shù)減少時(shí)出現(xiàn)的小樣本問(wèn)題,將主成分分析加入到線性判別分析的算法框架中,通過(guò)兩次線性投影變換的策略,在主成分分析得到的最佳特征描述空間進(jìn)行線性判別分析進(jìn)一步降低特征維數(shù),將特征從最佳特征描述空間轉(zhuǎn)化為最佳特征判別空間。由于對(duì)最佳特征描述空間的維數(shù)進(jìn)行了約束,該特征空間的維數(shù)不大于類(lèi)內(nèi)散布矩陣的秩,可以滿足在該特征空間中進(jìn)行線性判別分析的類(lèi)內(nèi)散布矩陣是滿秩矩陣,克服了常規(guī)的線性判別分析方法在訓(xùn)練樣本數(shù)量較少時(shí)遭遇到的小樣本問(wèn)題。通過(guò)與原始光譜特征、主成分分析的特征、線性判別分析的特征對(duì)比,基于主成分判別分析的遙感影像分類(lèi)方法能夠利用少量訓(xùn)練樣本實(shí)現(xiàn)更優(yōu)的分類(lèi)精度。
[1] Plaza A,Plaza J,Paz A,et al.Parallel Hyperspectral Image and Signal Processing[J].IEEE Signal Processing Magazine,2011(28)∶119-126
[2] 張樂(lè)飛.遙感影像的張量表達(dá)與流形學(xué)習(xí)方法研究[J].測(cè)繪學(xué)報(bào),2013(5)∶790
[3] Landgrebe D.Signal Theory Methods in Multispectral Remote Sensing[M].New Jersey∶Wiley,2003
[4] 陶超,鄒崢嶸,丁曉利,等.利用角點(diǎn)進(jìn)行高分辨率遙感影像居民地檢測(cè)方法[J].測(cè)繪學(xué)報(bào),2014(2)∶164-169
[5] Kwon H,Nasrabadi N M.Kernel Matched Subspace Detectors for Hyperspectral Target Detection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006(28)∶178-194
[6] Jimenez L O,Landgrebe D A.Hyperspectral Data Analysis and Supervised Feature Reduction Via Projection Pursuit[J].IEEE Transactions on Geoscience and Remote Sensing,1999(37)∶2 653-2 667
[7] Jolliffe I T. Principal Component Analysis[M].New York∶Springer,2002
[8] Michael J, Farrell D,Mersereau R M.On the Impact of PCA Dimension Reduction for Hyperspectral Detection of Difficult Targets[J].IEEE Geoscience and Remote Sensing Letters,2005(2)∶192-195
[9] 徐盡.基于線性判別分析的數(shù)據(jù)集可分性判定算法[J].科技通報(bào),2013,29(4)∶31-32
[10] Neumaier A.Solving Ill-conditioned and Singular Linear Systems∶a Tutorial on Regularization[J].SIAM Review,1998(40)∶636-666
[11] 趙越,徐鑫,喬利強(qiáng),等.張量線性判別分析算法研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2014(1)∶73-76
[12] Bhatia R. Matrix Analysis[M].New York∶ Springer-Verlag,1997
[13] Boyd S, Vandenberghe L. Convex Optimization∶ Cambridge Univ[M].Cambridge∶Cambridge Univ.Press,2004
[14] Landgrebe D.Hyperspectral Image Data Analysis[J]. IEEE Signal Processing Magazine,2002(19)∶17-28
[15] Benediktsson J A,Palmason J A,Sveinsson J R.Classification of Hyperspectral Data from Urban Areas Based on Extended Morphological Profiles[J]. IEEE Transactions on Geoscience and Remote Sensing,2005(43)∶480-491
[16] Huang X,Zhang L.An Adaptive Mean-Shift Analysis Approach for Object Extraction and Classification from Urban Hyperspectra l Imagery[J].IEEE Transactions on Geoscience and Remote Sensing, 2008(46)∶4 173-4 185
P237
B
1672-4623(2016)01-0076-03
10.3969/j.issn.1672-4623.2016.01.022
陳慶,碩士,工程師,主要研究方向?yàn)?S技術(shù)應(yīng)用。
2014-11-04。
項(xiàng)目來(lái)源:國(guó)家自然科學(xué)基金資助項(xiàng)目(91338202)。