陳昀琳
(浙江同濟(jì)科技職業(yè)學(xué)院,浙江 杭州 311231)
高光譜遙感技術(shù)是集高光譜數(shù)據(jù)獲取、處理、分析與應(yīng)用為一體的遙感科學(xué),擁有豐富信息量的高光譜數(shù)據(jù)為遙感圖像分類和地物識別提供了更精確的處理依據(jù),憑借窄波段成像技術(shù)反映地物的生物物理屬性,在資源勘探[1]、農(nóng)業(yè)監(jiān)測[2]、海洋開發(fā)[3]、空天認(rèn)識[4]等領(lǐng)域都有較明顯的優(yōu)勢。
高光譜圖像巨大的數(shù)據(jù)量給數(shù)據(jù)分析處理帶來了較大的問題。如何有效地在保證不損失高光譜信息的情況下,盡可能保留數(shù)據(jù)的特征信息和去除數(shù)據(jù)冗余與相關(guān)性成為高光譜遙感圖像領(lǐng)域中一個(gè)非常重要的研究方向。
高光譜遙感圖像降維的主要目的是實(shí)現(xiàn)對高光譜圖像特征的提取?,F(xiàn)有的高光譜降維方法主要包括基于特征提取和基于非變換的波段選擇。常見的基于特征提取的光譜遙感圖像降維算法包括:主成分分析(Principal Component Analysis,PCA)[5]、獨(dú)立分量分析(Independent Component Analysis,ICA)[6]、小波變換(Wavelet Transform,WT)[7]、最小噪聲分離(Minimum Noise Fraction,MNF)[8]等方法。ICA算法是一種盲源信號分離技術(shù)[5],在使用ICA算法降維時(shí),首先需要確定降維后的特征數(shù)目,由于高光譜相鄰波段具有較強(qiáng)的相關(guān)性,因此特征數(shù)需要遠(yuǎn)遠(yuǎn)小于原始波段。
針對ICA不能學(xué)習(xí)過完備基,正交基對優(yōu)化問題增加了硬約束,需要增加訓(xùn)練樣本,從而增加了訓(xùn)練難度。本文在ICA算法的基礎(chǔ)上特點(diǎn),通過重建懲罰(Soft Reconstruction Penalty,SRP)替換ICA的正交性約束來克服ICA的缺點(diǎn),即基于重建ICA(RICA)算法完成對高光譜影像的降維。
ICA基于統(tǒng)計(jì)獨(dú)立的原則,將多通道觀測到的信號借助于優(yōu)化算法分解為獨(dú)立的若干獨(dú)立分量。不同于PCA基于數(shù)據(jù)的二階統(tǒng)計(jì)量的協(xié)方差矩陣,ICA是基于數(shù)據(jù)間的高階統(tǒng)計(jì)信息。因采用了更高階的統(tǒng)計(jì)特性,能夠有效消除信號之間的相關(guān)聯(lián)性,同時(shí)確保在取得高壓縮率時(shí)保證數(shù)據(jù)的光譜特性[6]。ICA利用高階累計(jì)量提取各個(gè)分量不僅去除了分量間的相關(guān)性,且保持分量間統(tǒng)計(jì)獨(dú)立,使得譜間維數(shù)得到有效壓縮。
ICA算法原理如下:假設(shè)X為一組觀測值,X∈R^(n×1),其中包含n個(gè)成員,每個(gè)成員為一個(gè)隨機(jī)變量,如式(1)所示:
X=(x1x2…xi…xn)T
(1)
式中xi為隨機(jī)變量,X中的n個(gè)隨機(jī)變量之間非獨(dú)立,在一定的條件下可用n個(gè)相互獨(dú)立的隨機(jī)變量線性組合重新表達(dá)X為:
(x1x2…xi…xn)T=A(s1s2…si…sn)T
(2)
式中A為滿秩矩陣且A∈Rn×n,si為一個(gè)隨機(jī)變量且兩兩相互獨(dú)立,利用矩陣S替換si
S=(s1s2…si…sn)T
(3)
由公式(1)(2)(3)可得:
S=A-1X
(4)
令W=A-1可得:
S=WX
(5)
其中W∈Rn×n。假設(shè)對信號X采集m次,則可得到數(shù)據(jù)集D∈Rm×n為:
(6)
設(shè)隨機(jī)變量si概率密度函數(shù)是psi(si),其中p的右下角si為隨機(jī)變量標(biāo)示,括號中的si表示自變量。因?yàn)镾的n個(gè)成員si是相互獨(dú)立的,因此S的概率密度函數(shù)為:
(7)
則X的概率密度函數(shù)是pX(X):
(8)
根據(jù)數(shù)據(jù)集計(jì)算W的值,從概率的角度來說,如果該數(shù)據(jù)集已經(jīng)記錄,則讓該數(shù)據(jù)集出現(xiàn)概率最大的W就是最優(yōu)值。根據(jù)最大似然估計(jì)法則可知,前述數(shù)據(jù)集出現(xiàn)的概率L為:
(9)
其中,∏表示連乘,di為數(shù)據(jù)集D的第i列,即:
di=(di,1di,2…di,n)T
(10)
當(dāng)L具有最大值時(shí),W取得最優(yōu)解,對L偏導(dǎo)數(shù)得:
(11)
(12)
對公式(11)進(jìn)行矩陣化,令:
K=WD
(13)
則K∈Rn×m,W∈Rn×n,K∈Dn×m,而gx為:
(14)
則:
(15)
因此對于W而言:
(16)
根據(jù)伴隨矩陣相關(guān)性質(zhì)可得W的更新方程為:
W=W+α(ZTD+m(W-1)T)
(17)
其中α為學(xué)習(xí)速率,需人為設(shè)定。
因此聯(lián)合公式(5)(6)(9)(15)(17)可求得W的最優(yōu)解,進(jìn)而計(jì)算X的最優(yōu)解,實(shí)現(xiàn)對信息的盲源分離。
但是在實(shí)際使用ICA方法對高光譜數(shù)據(jù)進(jìn)行降維時(shí)會發(fā)現(xiàn),因n維空間的正交基數(shù)為n,而特征矩陣W的特征數(shù)量(即基向量數(shù)量)大于原始數(shù)據(jù)維度時(shí),會產(chǎn)生優(yōu)化方面的困難,且樣本訓(xùn)練時(shí)需要做ZCA白化預(yù)處理。
RICA是在ICA基礎(chǔ)上的擴(kuò)展,通過將正交性約束改為一個(gè)Soft Reconstruction Penalty,克服了ICA模型的缺陷。RICA旨在通過用軟重建懲罰替換ICA的正交性約束來克服ICA的缺點(diǎn),在使用梯度下降法對W進(jìn)行訓(xùn)練時(shí),模型的損失函數(shù)為:
(18)
根據(jù)RICA的損失函數(shù),能夠計(jì)算J(W)關(guān)于W的梯度為:
(19)
其中,N為樣本的數(shù)量,./表示元素除,ε是一個(gè)極小的常量,防止分母出現(xiàn)0值。通過梯度下降的方法逐步最小化損失函數(shù)的值,能夠得到最優(yōu)的W矩陣。
本文采用一景經(jīng)輻射定標(biāo)、噪聲波段刪除、大氣校正后大小為138×289像素的高分5號高光譜影像作為實(shí)驗(yàn)數(shù)據(jù),空間分辨率為30 m。分別對PCA,ICA和RICA 3種降維方法進(jìn)行對比實(shí)驗(yàn),降維前高光譜影像真彩色合成的效果如圖1所示,降維后前三單波段與RGB合成比較以RICA為例如圖2所示。
圖1 降維前高光譜影像真彩色合成效果
圖2 RICA降維后影像
從降維后影像中可以定性看出,影像在經(jīng)過不同的降維方法計(jì)算后,各個(gè)波段的信息量依次呈現(xiàn)遞減趨勢,即噪聲逐漸增多,同時(shí)經(jīng)過降維后的影像地物特征更加鮮明,同種地物在原始真彩色影像中出現(xiàn)的不同色調(diào)也在降維后呈現(xiàn)統(tǒng)一顏色,有利于分類前不同地物類型的確認(rèn)。
遙感影像得知信息熵是描述各像元灰度值的總體分布特征的指標(biāo),所計(jì)算的值可以反映圖像信息的分散程度,即影像的信息量。信息熵與影像所包含的信息量相關(guān)且呈正比。經(jīng)過降維后的影像第一波段的信息量最大,所以對PCA、ICA和RICA降維后數(shù)據(jù)進(jìn)行信息熵計(jì)算,結(jié)果如表1所示。
表1 降維后影像信息熵
從計(jì)算的信息熵中可以看出雖然三者信息熵?cái)?shù)據(jù)差別較小,但是對實(shí)驗(yàn)數(shù)據(jù)而言,RICA的信息量相較其他兩種降維方法保留的信息量更多。
支持向量機(jī)(Support Vector Machine,SVM)是遙感影像監(jiān)督分類中的一種分類算法,是建立在統(tǒng)計(jì)學(xué)理論基礎(chǔ)熵的機(jī)器學(xué)習(xí)方法。本文選擇RBF核函數(shù)作為SVM分類核函數(shù),同時(shí)核函數(shù)中的Gamma參數(shù)設(shè)置為輸入影像波段數(shù)的倒數(shù)。
SVM分類樣本最終確定包括林地、水體、建筑物、耕地和其他在內(nèi)的5種地物類型,選擇具有代表性和完備性的樣本點(diǎn)共1 232個(gè)。確定樣本后,需要計(jì)算樣本分離度,樣本的分離性可以定量確定兩類不同地物之間的差異性。本文通過Jeffries-Matusita距離進(jìn)行樣本分離度計(jì)算,保證所有樣本的可分離度均大于1.8。
同一分類樣本對不同降維后的數(shù)據(jù)進(jìn)行SVM分類的結(jié)果如圖3所示。
圖3 不同降維方法SVM分類結(jié)果
通過對以上分類結(jié)果目視分析,SVM分類算法對實(shí)驗(yàn)數(shù)據(jù)的分類效果較好。使用總分類精度和Kappa系數(shù)對分類結(jié)果進(jìn)行定量分析,Kappa系數(shù)是檢驗(yàn)數(shù)據(jù)一致性的指標(biāo),代表數(shù)據(jù)的平均分類結(jié)果,能間接反應(yīng)分類精度。計(jì)算結(jié)果如表2所示。
表2 SVM總分類精度和Kappa系數(shù)
與PCA和ICA算法相比,重建的ICA分類精度有所提高,較PCA和ICA算法分別提高了2.80%和3.38%。降維降低了數(shù)據(jù)的復(fù)雜性,減少了空間損耗,提高了運(yùn)行速率。在ICA的損失函數(shù)中加入重構(gòu)懲罰項(xiàng)的RICA解決了ICA無法學(xué)習(xí)完備基的問題,在利用梯度下降算法后進(jìn)行迭代求解,利用SVM分類得到較PCA和ICA更好的結(jié)果。
本文通過分析ICA不能學(xué)習(xí)過完備基,要求數(shù)據(jù)必須白化這一特點(diǎn),對未白化的數(shù)據(jù)效果不好,且運(yùn)用梯度下降的同時(shí)還需要額外的基正交化操作,增加了訓(xùn)練難度。對此,本文通過在損失函數(shù)中增加一個(gè)重建懲罰項(xiàng)代替強(qiáng)制的基正交化操作,即RICA算法,使模型的訓(xùn)練更簡潔,并克服ICA無法學(xué)習(xí)過完備基的特點(diǎn)。通過SVM分類結(jié)果驗(yàn)證了RICA降維后的分類效果和精度都高于PCA和ICA算法,實(shí)驗(yàn)證明RICA是一種有效的高光譜數(shù)據(jù)降維方法。