顧章源,劉 翔,蘇 楓,鄭翰清,劉 達,李建勛
(1.上海交通大學 電子信息與電氣工程學院,上海 200240; 2.上海航天控制技術研究所,上海 201109; 3.中國航天科技集團公司 紅外探測技術研發(fā)中心,上海,201109)
?
基于流形學習的多光譜優(yōu)化波段選擇算法研究
顧章源1,劉 翔2,3,蘇 楓2,鄭翰清2,劉 達1,李建勛1
(1.上海交通大學 電子信息與電氣工程學院,上海 200240; 2.上海航天控制技術研究所,上海 201109; 3.中國航天科技集團公司 紅外探測技術研發(fā)中心,上海,201109)
為從多光譜圖像特征提取的角度進行優(yōu)化波段選擇,在充分描述數(shù)據(jù)結構特征的同時使提取選擇的特征有明確的物理意義,對基于流形學習算法的優(yōu)化波段選擇算法進行了研究。用判別局部排列(DLA)算法對多光譜數(shù)據(jù)進行預處理,選取正負樣本,利用樣本信息,以目標分類為目的進行特征提取。利用特征提取的結果,從特征提取的角度分析當前各譜段對所提取的主特征貢獻的總信息量和貢獻率,給出了基于權值和基于貢獻率的兩種優(yōu)化波段選擇算法,分別基于權值和貢獻率進行特征選擇。用正負樣本的可分性可快速高效降維,同時又能保留多光譜圖像原物理特性。實測數(shù)據(jù)驗證了優(yōu)化降維后的5個譜段能保留原數(shù)據(jù)的物理特性,目標識別概率提高約2%,計算復雜度降低約50%。優(yōu)化選擇的譜段有助于新一代多光譜探測器的研制和應用。
多光譜; 波段選擇; 降維; 流形學習; DLA算法; 特征; 權值; 貢獻率
多光譜成像技術不同于傳統(tǒng)的單一寬波段成像技術,它將成像技術與光譜測量技術結合,獲取的信息不僅包括二維空間信息,而且包含隨波長分布的光譜輻射信息,形成所謂的“數(shù)據(jù)立方”。豐富的目標光譜信息結合目標空間影響極大提高了目標探測的準確性,擴展了傳統(tǒng)探測技術的功能。但波段數(shù)量較多、波段間相關性較大同時也帶來信息冗余,數(shù)據(jù)存儲、處理難度增大,算法設計復雜,實時性變差等問題,因此對多光譜數(shù)據(jù)進行優(yōu)化波段選擇顯得尤為重要[1]。優(yōu)化波段選擇實質是一個降維過程,目的是在最大程度保留重要信息的前提下剔除冗余信息及噪聲信息。文獻[2]利用數(shù)個波段協(xié)方差矩陣的特征值選取信息量豐富的任意波段組合;文獻[3]提出最佳指數(shù)準則(OIF),綜合了波段組合的信息量及其相互間的相關系數(shù),可同時選取信息量大且彼此關系性弱的波段組合;文獻[4]提出了一種漸進的基于波段優(yōu)先級排序的波段維數(shù)處理方法。
現(xiàn)有的降維算法主要分為基于變換的特征提取和基于非變換的特征選擇兩類[5]。特征提取利用原始數(shù)據(jù)的全部波段信息,通過若干變換以產(chǎn)生較少的新特征,原始數(shù)據(jù)可被新空間的低維數(shù)據(jù)代替,從而實現(xiàn)降維。常見的特征提取算法有主成分分析法(PCA)、離散小波變換法、正交子空間投影法等[6]。特征提取的優(yōu)點是快速高效,且效果一般好于特征選擇,缺點是改變了多光譜圖像原有的物理特性。特征選擇主要從全部波段中選出有代表性的波段子集組成最優(yōu)波段,在保留重要信息情況下最優(yōu)波段的信息能代表其他波段的信息,從而實現(xiàn)降維。常見的特征選擇算法有熵與聯(lián)合熵法、最佳指數(shù)法、波段指數(shù)法等[7]。特征選擇可保留多光譜圖像原有的物理特性。
特征提取和特征選擇算法同樣作為降維算法用于模式識別和數(shù)據(jù)處理等領域,從高維數(shù)據(jù)中提取或選擇特征對數(shù)據(jù)進行描述分析。但就兩類算法的流程而言,特征選擇算法應用于從當前數(shù)據(jù)中,選擇有限個有明確物理意義的數(shù)據(jù)作為當前數(shù)據(jù)的有效描述,保持了數(shù)據(jù)的明確物理意義;特征提取算法應用的相對特征選擇更廣泛,可從最優(yōu)描述,最優(yōu)分類的角度,在高維數(shù)據(jù)中提取新特征,新特征是原特征的一個映射,其在對數(shù)據(jù)描述和識別等方面較特征選擇更具優(yōu)勢,但往往失去了明確的物理意義。為此,提出了其他的波段選擇算法?;跈嘀岛突谪暙I率兩種優(yōu)化波段選擇算法分別依據(jù)權值和貢獻率的概念,對當前各譜段所提取特征的重要程度進行分析。顯然,譜段在提取的特征中所占比重越大,說明其包含對當前圖像分類識別有效的信息更多。因此,基于權值的優(yōu)化波段選擇算法期望從特征貢獻權值的角度進行波段選擇。
流形學習是近來較熱門的一個研究領域,流形是線性子空間的一種非線性推廣,所謂流形(manifold)就是一般的幾何對象的總稱。流形學習的目的是尋找嵌入在高維觀測空間的低維流形,即通常意義下的特征[8]。本文基于流形學習DLA算法,利用其對多光譜數(shù)據(jù)進行預處理,提出了基于權值和基于貢獻率的兩種優(yōu)化波段選擇算法,根據(jù)正負樣本快速高效選取優(yōu)化波段,并保留原數(shù)據(jù)的物理特性。優(yōu)化選擇的譜段有助于新一代多光譜探測器的研制和應用。
1.1 多光譜
由于任何具有一定溫度的物體內部帶電粒子都在不停運動,因此它們都會向外界不斷地進行電磁輻射。電磁輻射波譜如圖1所示,它涵蓋了紅外、可見光和紫外波段。紅外輻射又被稱為紅外線,常用的探測波段是3~5 μm的中紅外波段和8~14 μm的中遠紅外波段。
圖1 電磁光譜及紅外輻射Fig.1 Infrared radiation and electromagnetic spectrum
光譜圖像中同時包含二維空間信息和光譜信息,構成“數(shù)據(jù)立方”(如圖2所示)。目標光譜信息與空間信息的結合能提供新的特征信息,與傳統(tǒng)探測技術相比,探測性能明顯增強。目前,多光譜成像技術被廣泛用于遙感和探測等領域。
圖2 數(shù)據(jù)立方Fig.2 Data cube
1.2 DLA算法
文獻[9-10]提出了一種判別局部排列的降維算法(DLA),這是一種基于目標驅動的流形學習算法。與PCA算法不同,目標驅動的流形學習算法利用正負樣本信息,PCA算法保持采樣數(shù)據(jù)方差的最佳投影子空間,而基于目標驅動的流形學習算法以目標分類為目的提取特征。DLA算法形成的框架可統(tǒng)一現(xiàn)有的基于譜分析的各種經(jīng)典降維算法,其中包括PCA算法。
對給定的樣本點xi,可根據(jù)類別信息將其他的點分成兩種:xi的同類點和xi的異類點。在xi的同類點中選擇最近鄰的k1個點,稱之為同類近鄰點,記為xi1,…,xik1;在xi的異類點中選擇最近鄰的k2個點,稱之為異類近鄰點,記為xi1,…,xik2。將xi1,…,xik1與xi1,…,xik2組合,可得一個對應xi的局部排列
令相應的低維輸出為
判別局部排列的方法是:在低維空間中,期望給定點與其同類近鄰點間的距離盡可能小,與其異類近鄰點間的距離盡可能大,如圖3所示。圖3中:左半部分為原始數(shù)據(jù)空間中第i個局部排列,由xi、同類近鄰點(xi1,xi2,xi3)、異類近鄰點(xi1,xi2)組成;右半部分為在低維空間中在局部排列上期望得到的結果:低維坐標yi1,yi2,yi3與yi盡可能靠近,而yi1,yi2盡可能遠離yi。
圖3 判別局部排列Fig.3 Determining local alignment
對低維空間的局部排列,期望給定的點與其同類近鄰點間的距離盡可能小,與其異類近鄰點間的距離盡可能大,則有
(1)
(2)
用一個線性操作表示該局部排列上的判別,有
(3)
式中:β為在[0,1]范圍內縮放因子,用于對不同的類內聚類和類間距離進行統(tǒng)一。
定義系數(shù)向量
將ωi代入式(3),可簡化為
(4)
式中:Yi為局部排列Xi相應的低維輸出;Fi為局部排列上樣本點的索引集合;Ik1+k2為(k1+k2)×(k1+k2)維單位陣;ek1+k2=[1 … 1]T∈Rk1+k2。此處:
定義
(5)
根據(jù)所得的部分優(yōu)化Li,將其全部疊加,得整體排列上的判別
(6)
(7)
判別局部排列降維屬于特征提取范疇,能快速高效地降維,但它改變了多光譜圖像原有的物理特性,導致對降維后圖像的解釋變得困難。判別局部排列降維主要包括兩個步驟:首先計算XLXT的特征值與特征向量,由特征向量可得U;然后用U對多光譜圖像每個像元進行操作。當多光譜圖像原始波段間的相關性較弱時,判別局部排列降維的第二步計算非常費時。
因此,本文在判別局部排列降維的基礎上,提出新的優(yōu)化波段選擇方法,根據(jù)一定的準則,利用判別局部排列降維的結果,從原始波段中選擇一組波段子集,既可保留多光譜圖像原有的物理特性,又能顯著縮短計算時間。如上所述,特征提取和特征選擇算法同樣作為降維算法用于模式識別和數(shù)據(jù)處理等領域,從高維數(shù)據(jù)中提取或選擇特征對數(shù)據(jù)進行描述分析。特征提取算法在數(shù)據(jù)特征提取及描述方面有更優(yōu)異的性能,而特征選擇算法的特征結果有明確的物理意義,但常存在所選擇特征無法對數(shù)據(jù)進行有效描述的缺點。本文提出選擇基于權值和基于貢獻率兩種優(yōu)化波段選擇算法,從特征提取的角度對數(shù)據(jù)進行分析統(tǒng)計,并用光譜數(shù)據(jù)從提取特征的貢獻量和貢獻率的角度,分別對兩種優(yōu)化波段選擇算法進行分析。
2.1 基于權值的優(yōu)化波段選擇算法
由特征提取U可知:特征提取的特征量本質是原波段加權和,因此權重信息的大小直接反映了當前各譜段對所提取特征的重要程度或貢獻。顯然,權重越大的譜段在所提取的特征中所占比重越大,說明其所包含更多對當前圖像分類識別有效的信息,因此基于權值的優(yōu)化波段選擇算法期望從特征貢獻權值的角度進行波段選擇。設G=XLXT∈Rm×n,將G的特征值按從大到小的順序排列λ1≥λ2≥…≥λm,分別對應特征向量Φ1,Φ2,…,Φm,則有
(8)
(9)
式中:φij為加權系數(shù)。
由式(9)可知:變換后原波段中X1,X2,…,Xm共m個波段的加權和即是第i個主特征的值,φij即是第j個波段Xj對第i個主特征的貢獻的信息量,權值越大,說明信息量越大。則可定義Xj對前d個主特征貢獻的總信息量為
(10)
可用權值絕對和的大小表示原始圖像各波段所含重要信息量的大小,因此它能作為優(yōu)化波段選擇的判斷標準。
2.2 基于貢獻率的優(yōu)化波段選擇算法
上述基于權值的優(yōu)化波段選擇算法相對簡單且計算量小,但它是通過直觀的判斷得出的結論,缺乏理論的支持。對此,本文基于文獻[11]的貢獻率概念,提出了另一種波段選擇算法:依據(jù)貢獻率的概念,分別分析當前各譜段有多少信息被映射到了特征提取算法提取的前d個主特征中,進而從貢獻率的概念對各譜段包含的有效圖像分類識別信息進行分析,并選取最優(yōu)波段組合。
同樣,由G的特征值按從大到小的順序排列λ1≥λ2≥…≥λm,定義主特征Yk對原始數(shù)據(jù)的貢獻率為
(11)
貢獻率都為正值,則前d個主特征Y1,Y2,…,Yd對原始數(shù)據(jù)的累積貢獻率為
(12)
定義主特征Yk與原來第i個波段Xi間的相關系數(shù)為
(13)
(14)
式中:k,i=1,2,…,N。易證明
(15)
則,前d個主特征Y1,Y2,…,Yd對原始數(shù)據(jù)第i個波段的貢獻率vi是其與Xi的相關系數(shù)的平方和,即
(16)
同樣,vi也能作為優(yōu)化波段選擇的判斷標準。vi的大小反映了原始數(shù)據(jù)第i個波段被映射到了前d個主特征中的信息。
3.1 實驗說明及算法流程
本文試驗采用采集到的酒精燈和煤油燈火焰的光譜數(shù)據(jù),共有譜段126個,數(shù)據(jù)立方體(x,y,λ)如圖4所示,酒精燈和煤油燈火焰焰心區(qū)域的平均光譜如圖5所示。實驗目的是利用本文算法從光譜數(shù)據(jù)中提取能區(qū)分酒精燈跟煤油燈的波段。實驗中采取交叉驗證算法,利用圖像中1%數(shù)據(jù)作為標簽訓練樣本,其余99%數(shù)據(jù)作為測試樣本,對本文提出的波段選擇算法進行測試。選擇支持向量機(SVM)分類器,交叉驗證測試10次,取其平均輸出結果作為測試結果。
圖4 酒精燈與煤油燈的火焰光譜數(shù)據(jù)立方Fig.4 Spectral cuba of alcohol and kerosene lamp flame
圖5 光譜曲線 Fig.5 Spectral curve
先設定目標區(qū)域,以區(qū)域內光譜點構成訓練集合,分別用基于權值與基于貢獻率的DLA優(yōu)化波段選擇算法對原光譜數(shù)據(jù)進行降維,選擇特征光譜5個,同時兼顧能量損失,對選取的波段進行能量補償以保證實際工程應用中的探測距離要求。算法流程如圖6所示。
圖6 算法流程Fig.6 Algorithm flowchart
3.2 實驗結果
實驗1:用本文的基于權值的優(yōu)化波段選擇算法對實驗數(shù)據(jù)進行仿真。 選取部分酒精燈火焰上的點(25 580個)作為正樣本,選取部分煤油燈火焰上的點(161 66個)作為負樣本,取d=5,得到優(yōu)化波段組合,組合波段號為[74,75,93,106,76],相應的紅外圖像(圖片大小為234×1 004)分別如圖7(a)~(d)所示,圖7(f)、(g)分別為用基于權值的優(yōu)化波段選擇算法提取的波段組合由SVM分類器對酒精燈和煤油燈火焰的識別結果。
圖7 實驗1結果Fig.7 Results of experiment 1
實驗2:用本文的基于貢獻率的優(yōu)化波段選擇算法進行仿真。用相同的訓練樣本,取d=5,得到優(yōu)化波段組合[87,91,84,89,74],各譜段紅外圖像如圖8(a)~(e) 所示,用基于貢獻率的優(yōu)化波段選擇算法所提取的波段組合,由SVM分類器對酒精燈和煤油燈火焰的識別結果分別如圖8(f)、(g) 所示。
圖8 實驗2結果Fig.8 Results of experiment 2
實驗3:用傳統(tǒng)PCA算法降維進行仿真,選取相同的降維維度d=5,仿真結果如圖9所示。
圖9 實驗3結果Fig.9 Results of experiment 3
(17)
表1 算法評價指標
由表1可知:與PCA算法相比,本文提出的兩種算法同時根據(jù)正負樣本進行降維,利用降維后的主特征區(qū)分酒精燈和煤油燈的準確率較高,計算時間顯著縮短,且能保留原數(shù)據(jù)的物理特性,理解直觀。
鑒于PCA算法只能從正樣本自身統(tǒng)計特性分析,而不能根據(jù)正負樣本的可分性降維,且特征提取破環(huán)了原數(shù)據(jù)的物理特性,本文基于流形學習DLA算法,利用其對多光譜數(shù)據(jù)進行預處理,提出了基于權值和基于貢獻率的兩種優(yōu)化波段選擇算法,根據(jù)正負樣本快速高效地選取優(yōu)化波段,又保留原數(shù)據(jù)的物理特性。選擇的優(yōu)化譜段有助于對多光譜探測器的改進。本文利用特征提取的方法,提出了基于信息貢獻權值和信息貢獻率的兩種波段優(yōu)化選擇算法。結合特征提取和特征選擇算法,本文的波段優(yōu)化選擇算法可從波段對特征提取貢獻的角度,快速選擇對圖像識別分類最有效的若干波段進行圖像處理和識別。但目前本文算法僅從貢獻率和權重信息的角度對信息進行描述和分析,后續(xù)研究將進一步對用信息熵等方法對信息進行更完善的描述和分析。
[1] 劉翔, 張曉杰, 鄭翰清, 等. 復雜背景中紅外多光譜目標檢測算法研究[J]. 上海航天, 2016, 33(4): 56-62.
[2] SERPICO S B, BRUZZONE L. A new search algorithm for feature selection in hyperspectral remote sensing images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2001, 39(7): 1360-1367.
[3] MELGANI F, BRUZZONE L. Classification of hyperspectral remote sensing images with support vector machines[J]. IEEE Transactions on Geoscience and Remote Sensing, 2004, 42(8): 1778-1790.
[4] YANG H, DU Q. Fast Band selection for hyperspectral imagery[C]// Parallel and Distributed Systems (ICPADS), 2011 IEEE 17th International Conference on. Tainan: IEEE, 2011: 1048-1051.
[5] 周楊. 高光譜遙感圖像波段選擇算法研究[D]. 杭州: 浙江大學, 2014.
[6] 徐蓉, 姜峰, 姚鴻勛. 流形學習概述[J]. 智能系統(tǒng)學報, 2006, 1(1): 44-51.
[7] 夏威. 高光譜遙感圖像的解混和波段選擇方法研究[D]. 上海: 復旦大學, 2013.
[8] 楊金紅. 高光譜遙感數(shù)據(jù)最佳波段選擇方法研究[D]. 南京: 南京信息工程大學, 2005.
[9] ZHANG T, TAO D, LI X, et al. Patch alignment for dimensionality reduction[J]. IEEE Transactions on Knowledge and Data Engineering, 2009, 21(9): 1299-1313.
[10] 張?zhí)镪? 數(shù)據(jù)降維算法研究及其應用[D]. 上海: 上海交通大學, 2008.
[11] 趙選民, 徐偉, 師義民, 等. 數(shù)理統(tǒng)計[M]. 北京: 科學出版社, 2003: 308-314.
Algorithms Study for Selecting Few Characteristic Spectral Bands Based on Manifold Learning
GU Zhang-yuan1, LIU Xiang2, 3, SU Feng2, ZHENG Han-qing2, LIU Da1, LI Jian-xun1
(1. School of Electronic, Information and Electrical Engineering, Shanghai Jiao Tong University,Shanghai 200240, China; 2. Shanghai Institute of Spaceflight Control Technology, Shanghai 201109, China; 3. Infrared Detection Technology Research & Development Center,China Aerospace Science and Technology Cooperation, Shanghai 201109, China)
To implement the band selection algorithm from the feature extraction of multi-spectral image, and not only describe the data features but also remain the physical meanings of the selected bands, the optimization algorithm was studied based on manifold learning in this paper. Positive and negative samples were selected after a pretreatment on multispectral data by using discriminative locality alignment (DLA) algorithm. On the basis of the sample information, features were extracted to classify the targets. Using the feature extraction transformation matrix, the gross information content and contribution rate by the bands to the most discriminative and significant extracted features were analyzed and evaluated. Then the two algorithms based on weight and contribution rate, in which the features were selected based on weight as well as contribution rate respectively. The divisibility of the positive and negative samples can rapidly reduce dimension and retain the original physical features of multispectral image. The measured data proved that 5 spectrums could reserve the physical features of the original data after dimension reduction optimization. Meanwhile the target recognition rate increased by 2% and the calculation complex rate decreased by 50%. The optimization of band selection contributes to the development and application of the new generation multispectral detector.
multi-spectral; band selection; dimension reduction process; manifold learning; discriminative locality alignment (DLA) algorithm; characteristic; weight; contribution rate
1006-1630(2017)03-0040-07
2016-09-14;
2017-03-28
國家自然科學基金資助(61175008);上海航天科技創(chuàng)新基金資助(SAST201448)
顧章源(1991—),男,碩士生,主要研究方向為紅外圖像處理。
李建勛(1969-),男,博士,教授,主要研究方向為多源信息融合與控制、智能信號與(紅外)圖像處理、穩(wěn)健參數(shù)估計及在航空航天應用等。
TN216
A
10.19328/j.cnki.1006-1630.2017.03.005