【摘 要】 利用流形學習,可以找出高維空間的低維結構。本文把流形學習方法應用到地物光譜數(shù)據(jù)庫中,并進行地物光譜的相關性分析,同時與主成分分析、核主成分分析方法進行對比。試驗結果表明,用流形學習的方法進行地物光譜數(shù)據(jù)庫的降維,發(fā)現(xiàn)隱藏在高維空間下的低維結構,用于進行相似性度量,為地物進一步的本質(zhì)特征光譜提取與分析提供有利的支持,并間接證明了利用流形學習的方法進行降維后,并未降低地物的識別能力。
【關鍵詞】 流形學習;光譜數(shù)據(jù)庫;Isomap;降維
【中圖分類號】 P23;TP751 【文獻標識碼】 A
【文章編號】 2096-4102(2020)05-0100-03
流形學習作為一種新的非監(jiān)督學習方法,近幾年在模式識別、機器學習領域得到了廣泛的應用。
本文把流形學習方法應用到地物光譜數(shù)據(jù)庫中,首先把流形學習方法應用到光譜數(shù)據(jù)庫中的礦物類樣本,進行降維,并與PCA和KPCA進行比較。然后為進一步驗證對不同礦物和同類礦物之間降維后的可分性,選取了兩類典型礦物進行相似性度量。這為地物進一步的特征光譜提取與分析提供有利的支持。
1數(shù)據(jù)介紹
本文中應用的是美國地質(zhì)調(diào)查局的USGS光譜數(shù)據(jù)庫,可以在USGS的網(wǎng)站上獲取。USGS光譜數(shù)據(jù)庫是美國地質(zhì)調(diào)查局為研究礦產(chǎn)資源遙感勘探,在1993年USGS光譜實驗室建立了波長在0.2~3.0μm之間的光譜庫,包含218種礦物,444個樣本的498個波譜,光譜分辨率為4nm(波長0.2~0.8μm)和10nm(波長0.8~2.35μm),所有光譜反射率都校正到絕對反射率。光譜數(shù)據(jù)庫中地物的詳細信息可以通過USGS光譜數(shù)據(jù)庫網(wǎng)站得到。隨著對地探測技術的發(fā)展及地物精細的識別需求,USGS光譜數(shù)據(jù)庫也在不斷地更新,目前更新到了第7版。光譜覆蓋范圍從可見光到紅外0.2μm~150μm,光譜數(shù)量達到了2000余條。本論文中用到的是USGS光譜數(shù)據(jù)庫中的礦物類樣本進行試驗。
2基于流形學習的光譜數(shù)據(jù)庫降維
2.1基于流形學習的光譜數(shù)據(jù)相關性分析
特征提取的方法主要分為線性的和非線性的,主成分分析(PCA)是常用的線性特征提取的方法,核主成分分析(KPCA)是對主成分分析的推廣。主成分分析是線性變換方法,處理的是線性關系,核主成分分析是非線性變換,可以處理非線性的變量關系。本文選擇PCA和KPCA作為傳統(tǒng)線性變換和非線性變換方法的代表,進行光譜數(shù)據(jù)降維試驗,并與流形學習方法Isomap進行比較。這里的Isomap用到的光譜維度為歐氏距離。圖1(a)、(b)和(c)分別為USGS數(shù)據(jù)庫進行Isomap、PCA和KPCA降維后前兩維的散點圖。
需要注意的是:圖中所有坐標均表示光譜的距離,其值的大小取決于所用的相異性度量函數(shù),因此,不同圖之間不具有可比性,但它們之間的可分性是可以比較的,即分開的程度。
從圖1中可以看出用Isomap降維后的散點分布呈圓形均勻分布,而利用PCA降維后的散點圖分布趨向于橢圓,利用KPCA降維后散點圖分布雖然趨向于圓,但是分布不均勻,有一個角的密度過大。這些分布情況說明Isomap降維后的數(shù)據(jù)波段之間的相關性減弱,PCA目的是把多波段的信息集中到前幾個分量上,因此它對于波段之間相關性的減弱不具備優(yōu)勢,KPCA雖然可以處理非線性的情況,但它在高維空間仍是應用PCA進行降維,所以也不具有降低波段相關性的優(yōu)勢。所以利用Isomap方法進行降維后的數(shù)據(jù)極大地降低了波段間的相關性,得到的結果比較可靠。
2.2基于流形學習礦物類別間和類別內(nèi)相關性分析
由于USGS中礦物的種類豐富,同一種類的不同情況也多,而且礦物之間有一定關系,所以關于不同類別和相同類別之間降維后關系,本文用USGS中的礦物數(shù)據(jù)來說明,具體的用硅酸鹽與氧化物之間的分布情況說明。圖2為硅酸鹽與氧化物共7類,每一類取代表樣本的原始光譜曲線圖。圖3為硅酸鹽與氧化物各種方法降維后前兩個成分的散點分布圖:圖(a)為PCA降維結果,圖(b)為KPCA降維結果,圖(c)為Isomap方法降維結果。每個圖中三角形圖標代表的是氧化物,圓形圖標代表硅酸鹽。
從圖3中可以得到Isomap方法的降維結果都明顯好于PCA和KPCA的降維結果。在PCA的前兩維的散點分布中,硅酸鹽和氧化物分布混亂,兩者之間不易區(qū)分,KPCA中雖然點與點之間分散度較好,但是硅酸鹽與氧化物之間界線不明顯,兩者分布混雜。而用Isomap降維后,硅酸鹽和氧化物分布呈分開狀態(tài),氧化物分布在硅酸鹽的外圍。硅酸鹽有三個相對集中的分布,這樣可以判斷大致有三類地物,而且實際上本實驗也是選用了三種硅酸鹽。氧化物的總數(shù)比較少,分布在大概四個集中區(qū)域,類內(nèi)和類別間分布重疊度少,較易區(qū)分。緊靠氧化物的硅酸鹽是橄欖石,其次是白云母,較遠的是黃玉。橄欖石為島硅酸鹽,白云母為頁硅酸鹽,黃玉為島硅酸鹽,這三種硅酸鹽也可以在Isomap降維后的圖中明顯區(qū)分開來。
3結論
本文將流形學習應用于地物光譜數(shù)據(jù)庫,進行光譜曲線中本質(zhì)光譜特征提取。以美國地質(zhì)調(diào)查局(USGS)光譜數(shù)據(jù)庫為操作對象,首先對整體數(shù)據(jù)進行了分析,發(fā)現(xiàn)經(jīng)過流形學習方法Isomap特征提取后,樣本點之間的可分性比用PCA和KPCA特征提取結果樣本間的可分性強;取其中的氧化物與硅酸鹽特征提取結果作比較,發(fā)現(xiàn)Isomap可以把氧化物與硅酸鹽很好地分開來,且兩類礦物內(nèi)的不同種類的樣本之間也具有可分性與聚類性。因此通過試驗可以得出,可以把流形學習方法應用到光譜相似性分析中,為高光譜數(shù)據(jù)的特征光譜提取與分析提供有利的支持,并間接證明了利用流形學習的方法進行特征提取后,并未降低地物的識別能力。
【參考文獻】
[1]徐蓉,姜峰,姚鴻勛. 流形學習概述[J].智能系統(tǒng)學報,2006,1(1):44-51.
[2]Zhang,J.P.,Li,S.Z.,Wang,J. Manifold learning and applications in recognition[C]. Intelligent Multimedia Processing with Soft Computing,2004.
[3]趙連偉,羅四維,趙艷敞,等. 高維數(shù)據(jù)流形的低維嵌入及嵌入維數(shù)研究[J].軟件學報,2005,16(8):1423-1430.
[4]翁時鋒,張長水,張學工. 非線性降維在高維醫(yī)學數(shù)據(jù)處理中的應用[J].清華大學學報(自然科學版),2004,44(4):485-488.
[5]黃啟宏.流形學習方法理論研究及圖像中應用[D].成都:電子科技大學,2007.
[6]馬瑞,王家廞,宋亦旭. 基于局部線性嵌入(LLE)非線性降維的多流形學習[J].清華大學學報(自然科學版),2008,48(4):582-585.
[7]劉小明.數(shù)據(jù)降維及分類中的流形學習研究[D].杭州:浙江大學,2007.
[8]徐志節(jié),楊杰,王猛.一種新的彩色圖像降維方法[J].上海交通大學學報,2004,38(12):2063-2067.
[9]Bachmann C.M.,Ainsworth T.L.,F(xiàn)usina R.A. Exploiting Manifold Geometry in Hyperspectral Imagery[J]. IEEE Trans Geosci and Remote Sensing,2005,43(3): 441-454.
[10]Bachmann C.M.,Ainsworth T.L.,F(xiàn)usina R.A. Improved Manifold Coordinate Representations of Hyperspectral Imagery [C]. International Geoscience and Remote Sensing Symposium, 2005(6):4307-4310.
[11]Bachmann C.M.,Ainsworth T.L.,F(xiàn)usina R.A. Improved Manifold Coordinate Representations of Large-Scale Hyperspectral Scenes[J]. IEEE Trans Geosci and Remote Sensing,2006,44(10):2786-2803.
[12]Bachmann C.M.,Ainsworth T.L.,F(xiàn)usina R.A. Automated Estimation of Spectral Neighborhood Size in Manifold Coordinate Representations of Hyperspectral Imagery: Implications for Anomaly Finding,Bathymetry Retrieval,and Land Applications [C]. International Geoscience and Remote Sensing Symposium,2008(1):I-56-I57.
[13] Chen Y.C.,Crawford M.M.,Ghosh J. Applying Nonlinear Manifold Learning to Hyperspectral Data for Land Cover Classification [C]. International Geoscience and Remote Sensing Symposium,2005: 4311-4314.
[14]杜培軍,王小美,譚琨,等.利用流形學習進行高光譜遙感影像的降維與特征提取[J].武漢大學學報(信息科學版),2011(2):148-152.