葛山運
(重慶工程職業(yè)技術(shù)學(xué)院地質(zhì)與測繪工程學(xué)院,重慶 400037)
基于MNF、PCA與ICA結(jié)合的高光譜數(shù)據(jù)特征提取方法
葛山運?
(重慶工程職業(yè)技術(shù)學(xué)院地質(zhì)與測繪工程學(xué)院,重慶 400037)
特征提取一直是高光譜遙感數(shù)據(jù)處理與實際應(yīng)用的難題之一,目前高光譜數(shù)據(jù)特征提取方法主要有主成分分析(PCA)、最小噪聲分離(MNF)和獨立成分分析(ICA)等。然而,這些特征提取方法很難較好地適應(yīng)光譜響應(yīng)特性變化和高度混合的地類,會導(dǎo)致重要的信息損失。為解決此問題,本文在分析各種特征提取方法的優(yōu)點的基礎(chǔ)上,提出了一種基于MNF、PCA與ICA相結(jié)合的高光譜數(shù)據(jù)特征提取方法。實驗表明,本文提出的特征提取方法正確可行,與其他特征提取方法相比效果較好,它充分利用了ICA的分解類別高度混合的數(shù)據(jù)、PCA的壓縮數(shù)據(jù)和MNF的高度降噪的優(yōu)點,能較好地適用于小樣本和類別高度混合的數(shù)據(jù)。
高光譜;MNF;PCA;ICA;特征向量
高光譜影像數(shù)據(jù)一般有幾十甚至上百個波段,具有信息量大、相關(guān)性強、冗余多、信噪比低等特點。高光譜遙感的發(fā)展,滿足了人們對高光譜數(shù)據(jù)的需求,客觀上需要有相應(yīng)的數(shù)據(jù)處理算法。然而,現(xiàn)有的許多遙感數(shù)據(jù)處理算法都是針對低維數(shù)據(jù)的。特征提取一直是高光譜遙感數(shù)據(jù)處理與實際應(yīng)用的難題之一[1],目前高光譜數(shù)據(jù)特征提取方法主要有主成分分析(PCA)、最小噪聲分離(MNF)和獨立成分分析(ICA)等[2]。如主成分分析法是依據(jù)方差對高維數(shù)據(jù)進行變換處理,最小噪聲分離法是依據(jù)方差比對高維數(shù)據(jù)進行變換處理,獨立成分分析法以統(tǒng)計獨立為目標(biāo)分離出與高維數(shù)據(jù)中存在的特征有聯(lián)系的獨立成分。
然而,這些特征提取方法很難較好地適應(yīng)光譜響應(yīng)特性變化和高度混合的地類,會導(dǎo)致重要的信息損失。因此,如何選擇合適的特征提取方法來提取特定的情景下的高光譜數(shù)據(jù)特征是很困難的。為解決此問題,本文在分析綜合各種特征提取方法的優(yōu)點的基礎(chǔ)上,提出了一種基于MNF、PCA與ICA相結(jié)合的高光譜數(shù)據(jù)特征提取方法。所提出的方法分為兩個階段:第一階段,利用MNF從訓(xùn)練數(shù)據(jù)集中提取出高質(zhì)量的一些分量;第二階段,先分別利用PCA和ICA對經(jīng)第一階段處理得到的分量數(shù)據(jù)進行處理,把訓(xùn)練集中的每個像素分配到特定的類,然后利用提取的PCA分量和ICA分量組成特征向量,利用支持向量機(SVM)法進行分類處理。實驗結(jié)果表明,本文提出的高光譜遙感數(shù)據(jù)特征提取方法是正確可行的,在一定程度上提高了高光譜圖像的分類精度。
2.1 PCA變換
主成分分析(PCA)[3]的基本思想是:對某一P個波段的高光譜遙感數(shù)據(jù)進行一個線性變換,即對該高光譜數(shù)據(jù)組成的光譜空間X乘以一個線性變換矩陣A,產(chǎn)生一個新的光譜空間Y,即產(chǎn)生一個新的n個波段的高光譜影像。表達式如下:
Y=A×X
其中:X為變換前高光譜空間的像元向量;Y為變換后高光譜空間的像元向量;A為一個P×P的線性變換矩陣。
設(shè)X=(x1,x2,...,xN)=(X1,X2,…,XP)T是一個P維隨機變量,用它代表高光譜圖像,其中N是高光譜影像的像元個數(shù),P是波段數(shù)量,因此xi(i=1,2,…,N)表示圖像的第i像元,Xk(k=1,2,…,P)表示圖像的第k波段。PCA變換的具體算法如下:
(1)先計算圖像的各個波段的均值m和協(xié)方差陣Q,公式如下:
(2)計算Q的特征值λ1≥λ2≥…≥λp≥0,特征值對應(yīng)的特征向量T=t1,t2,…,tp。
(3)以A=TT為變換矩陣對原圖像進行變換,變換后的結(jié)果Y=AX。
(4)選擇前J個主成分代替原圖像X。
因變換前各波段之間有很強的相關(guān)性,經(jīng)過PCA變換后,輸出影像Y的各分量之間的相關(guān)性將降到最小。變換后的第一分量包含了最大的信息量,往往占80%以上,第二分量次之,以后的分量信息量依次很快遞減,到了第n分量,信息幾乎為零,用幾個主成分就可以代表原始數(shù)據(jù)中的大多數(shù)信息。
2.2 MNF變換
根據(jù)PCA的原理,主成分是按照方差從大到小的順序排列的,因此保留特征值比較大的幾個主成分,舍棄其余成分,可以去除噪聲的影響。但是Green等人已經(jīng)證明只有當(dāng)噪聲與信號是獨立的并且所有波段的噪聲方差相等時,按照方差排列的主成分與按照信噪比排列的主成分才一致,因此,PCA事實上只能在近似的情況下起到降噪的作用。最小噪聲分離變換(MNF)是在PCA的基礎(chǔ)上使變換后的各成分按照信噪比而不是方差從大到小排列,比PCA更易分離數(shù)據(jù)中的噪聲,將數(shù)據(jù)分解為一系列彼此不相關(guān)的成分,減少隨后處理的計算量[4]。MNF本質(zhì)上是兩個層次的主成分變換:第一次變換(基于估計的噪聲協(xié)方差矩陣)用于分離和重新調(diào)節(jié)數(shù)據(jù)中的噪聲,使變換后的噪聲數(shù)據(jù)只有最小的方差且沒有波段間的相關(guān);第二次變換是對噪聲白化數(shù)據(jù)的標(biāo)準(zhǔn)主成分變換。變換后的數(shù)據(jù)空間可分為兩部分:一部分與較大特征值和相對應(yīng)的特征圖像相關(guān),其余部分與近似相同的特征值以及噪聲占主導(dǎo)地位的圖像相關(guān)。MNF分離開各個信噪比不同的成分后,能夠有效選取信息量大的波段(MNF成分),以便用于進行其他處理。MNF的具體算法如下:
設(shè)高光譜圖像中第i個波段圖像構(gòu)成的向量zi由理想狀況下的無噪聲信號向量si和噪聲向量ni組成,si與ni不相關(guān),zi可以表示為:zi=si+ni,其中i=1,2,…,L,L為波段數(shù)。
首先用低通濾波從原始圖像z中分離出噪聲圖像n,然后分別求出z和n的協(xié)方差矩陣QZ和QN,其中Z=(z1,z2,…,zL),N=(n1,n2,…,nL)。
2.3 ICA變換
獨立成分分析方法(ICA)是用于數(shù)據(jù)特征提取的線性變換技術(shù)[5],它不僅能夠消除多變量數(shù)據(jù)間的二階相關(guān)信息,而且能夠消除數(shù)據(jù)間的高階相關(guān)[6]。其基本思想是用一組獨立的基函數(shù)來表示一系列隨機變量,算法如下:
設(shè)N個波段的高光譜數(shù)據(jù)的觀測信號為X=(x1,x2,…,xN)T,每個觀測信號是M個獨立的、非高斯分布的源信號S=(s1,s2,…,sM)T的線性組合,即X=AS,其中A=(aij)N×M為未知的混合矩陣。ICA變換就是在混合矩陣A和獨立成分S未知的情況下,根據(jù)觀測數(shù)據(jù)X確定分離矩陣W=(w1,w2,…,wM)T,使得變換后的輸出S?=A+X=WX是對S的最優(yōu)估計?;诨バ畔⒆钚』畔⒗碚?,采用負熵度量準(zhǔn)則作為判斷向量相互獨立的標(biāo)準(zhǔn),其表達式為:
式(3)中v是標(biāo)準(zhǔn)高斯隨機變量,函數(shù)G可以取
1采用牛頓法極大化式(3)即可得到ICA的遞推公式為:
式(4)中g(shù)和g′,分別是函數(shù)G的一階導(dǎo)數(shù)和二階導(dǎo)數(shù)。
2.4 PCA、MNF、ICA的比較
PCA有對高光譜圖像所含噪聲考慮不足的缺陷;MNF在變換的同時考慮到遙感數(shù)據(jù)質(zhì)量評估參數(shù)—信噪比,從而比PCA具有更好的降維去噪能力;ICA不僅能夠消除多變量數(shù)據(jù)間的二階相關(guān)信息,而且能夠消除數(shù)據(jù)間的高階相關(guān),比PCA更能消除數(shù)據(jù)之間的關(guān)聯(lián)性。
在分析研究PCA變換、MNF變換和ICA變換各自的優(yōu)缺點的基礎(chǔ)上,本文提出了一種MNF、PCA、ICA相結(jié)合的特征提取算法,該法充分利用了MNF、PCA與ICA三者的優(yōu)點,一定程度上抵消了三者的缺點。本文提出的算法包括兩個相互級聯(lián)的階段:第一階段,利用MNF變換對高光譜遙感數(shù)據(jù)進行處理,得到一系列按信噪比從大到小排列的彼此不相關(guān)的MNF成分,選擇前10個MNF分量作為下一階段處理的輸入數(shù)據(jù);第二階段,分別利用PCA變換和ICA變換對從第一階段得到前10個MNF分量進行處理,得到20個分量,其中包括10個PCA分量和10個ICA分量。最后給由20個分量組成的結(jié)果向量附上類標(biāo)簽,以便采用支持向量機(SVM)法進行分類處理。具體的算法流程如圖1所示。
圖1 基于MNF、PCA與ICA的高光譜遙感數(shù)據(jù)特征提取算法
實驗數(shù)據(jù)為145×145像素的包含農(nóng)田和林地的高光譜遙感圖像,是由機載可見紅外成像光譜儀從美國印第安納州西北部地區(qū)獲取的,此類數(shù)據(jù)在高光譜遙感數(shù)據(jù)分類領(lǐng)域里已得到了廣泛應(yīng)用[7]。該數(shù)據(jù)原有220個帶有水分吸收峰的波段,因為104-108和150-162波段被刪除了,所以實驗中僅用了剩下的202個波段(部分波段如圖2所示)。據(jù)了解該地區(qū)實地有17種地類(如圖3所示),因為同一地類的像素和可能被認為屬于其他地類的像素具有高度混合的光譜相似性度量,容易被認為屬于同一地類,所以許多傳統(tǒng)經(jīng)典的圖像分類方法不適用于該類圖像[8]。
圖2 實驗高光譜數(shù)據(jù)的部分波段
圖3 實驗區(qū)地面地類的分布情況
圖4 各種算法進行特征提取的結(jié)果
利用ENVI 4.8軟件進行MNF、PCA、ICA處理。首先對高光譜數(shù)據(jù)進行MNF變換,變換后保留按照信噪比從大到小排列的前10個MNF分量;然后在前10個MNF分量的基礎(chǔ)上分別進行PCA變換和ICA變換,PCA變換后保留按照方差從大到小排列的前10個PCA分量,ICA變換后保留按照相關(guān)性從小到大排列的前10個ICA分量。最后由獲得的10個PCA分量和10個ICA分量組成特征向量,運用支持向量機(SVM)法進行分類。本文算法特征提取結(jié)果如圖4 (d)所示。由于本文提出的算法綜合了MNF、PCA與ICA的優(yōu)點,在一定程度上克服了三者各自的不足,從SVM分類精度的統(tǒng)計情況分析(見表1),本文算法比單獨的PCA、MNF和ICA方法提取的特征更有利于SVM分類,分類精度也較高。
利用PCA變換、MNF變換、ICA變換與本文算法的SVM分類統(tǒng)計表1
由于不同的特征提取方法提取的特征通常是不同的,因此,單獨利用一種特征提取方法很可能導(dǎo)致重要的信息損失。本文提出的特征提取方法綜合了各種特征提取方法所產(chǎn)生的特征,組成新的特征向量。這樣構(gòu)建的特征向量有助于SVM分類器更好地進行分類。實驗結(jié)果表明,本文提出的方法正確可行,與其他特征提取方法相比效果較好,它充分利用了ICA的分解類別高度混合的數(shù)據(jù)、PCA的壓縮數(shù)據(jù)和MNF的高度降噪的優(yōu)點,能較好地適用于小樣本和類別高度混合的數(shù)據(jù)。
[1] 蘇紅軍,杜培軍.高光譜數(shù)據(jù)特征選擇與特征提取研究[J].遙感技術(shù)與應(yīng)用,2006,21(4):288~293.
[2] 杜鵬,趙慧潔.基于抗噪聲ICA的高光譜數(shù)據(jù)特征提取方法[J].北京航空航天大學(xué)學(xué)報,2005,31(5):1101~1105.
[3] 田野,趙春暉,季亞新.主成分分析在高光譜遙感圖像降維中的應(yīng)用[J].哈爾濱師范大學(xué)自然科學(xué)學(xué)報,2007,23 (5):58~60.
[4] 紀(jì)娜.基于最小噪聲變換和支持向量機的遙感影像分類方法研究——黃土高原丘陵溝壑區(qū)為例[D].楊凌:西北農(nóng)林科技大學(xué),2009.
[5] 楊竹青,李勇,胡德文.獨立成分分析方法綜述[J].自動化學(xué)報,2002,28(5):762~772.
[6] 范群貞,劉金清.基于PCA/ICA的人臉特征提取新方法[J].電子測量技術(shù),2010,33(8):31~34.
[7] 高恒振.高光譜遙感圖像分類技術(shù)研究[D].長沙:國防科技大學(xué),2011.
[8] Chao-Cheng Wu,Chein-IChang.Soft Decision-Made Hyperspectral Measures for Target Discrimination and Classification.
Feature Extraction M ethod Based on the Combination of MNF,PCA and ICA for Hyperspectral Data
Ge Shanyun
(Faculty of Geology and Mapping Engineering;Chongqing Vocational Insitute of Engineering,Chongqin 400037,China)
Feature extraction has been one of the problems of hyperspectral remote sensing data processing and the practical feature extraction methods of hyperspectral data are principal component analysis(PCA),the minimum noise fraction(MNF)and independent component analysis(ICA).However,these feature extraction methods is difficult to adapt to the spectral response characteristics change and highly mixed class,will lead to an important loss of information. To solve this problem,the analysis on the basis of themerits of the various feature extractionmethods,this paper presents a feature extractionmethod of hyperspectral data based on the MNF,PCA and ICA combining.Experiments show that the proposed feature extractionmethod is correctand feasible,compared with other feature extractionmethod is better,it takes full advantage of the ICA decomposition highly mixed category data,the PCA compressed data and the advantages of a high degree of noise reduction of the MNF,Well apply to the small sample size and types of highlymixed data.
hyperspectral;minimum noise fraction;principal component analysis;independent component analysis;feature vector
1672-8262(2013)02-103-04
P237
B
2012—08—09
葛山運(1983—),男,助教,研究方向:測量數(shù)據(jù)處理、3S技術(shù)及其應(yīng)用。