摘 要:為解決高空間分辨率影像目標(biāo)的識(shí)別問(wèn)題,一種好的方式是將充分考慮高階累積量的獨(dú)立分量分析方法引入高空間分辨率影像進(jìn)行特征提取,但由于基于傳統(tǒng)獨(dú)立成分分析方法提取的特征空間不能最優(yōu)區(qū)分不同類別的樣本。為此,提出一種改進(jìn)的基于獨(dú)立成分分析的目標(biāo)識(shí)別方法(Multi-ICA)。該方法為每個(gè)類別的樣本構(gòu)造單獨(dú)的特征空間,通過(guò)投影到特征空間,得到表征該類別樣本特征的特征向量集合。Multi-ICA方法提取的特征空間是基于某類樣本圖像的共性特征建立的,同一類別樣本間的歐式距離要小于不同類別樣本之間的歐式距離。因此,可以將待識(shí)別樣本分類到具有最小歐式距離的特征空間所對(duì)應(yīng)的類別上。現(xiàn)以北京地區(qū)的高分辨率衛(wèi)星Quickbird影像為例,進(jìn)行了Multi-ICA、傳統(tǒng)ICA方法、主成分分析(PCA)方法,以及Multi-PCA方法的目標(biāo)識(shí)別對(duì)比實(shí)驗(yàn)。結(jié)果表明,提出Multi-ICA算法的識(shí)別率有明顯的提高,并且在一定程度上緩解了由于樣本數(shù)量增加導(dǎo)致樣本特征向量維數(shù)增加的問(wèn)題。關(guān)鍵詞:Quickbird; 遙感影像;獨(dú)立成分分析; 特征提取; 空間數(shù)據(jù)挖掘
中圖分類號(hào):TN911-34文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1004-373X(2010)22-0100-04
Improved Recognition of High Spatial Resolution Images Based on ICA Feature Space
PENG Di1, WANG Yi2
(1. College of Information Science and Technology, Beijing Normal University, Beijing 100875, China;
2. Ocean University of China, Qingdao 266003, China)
Abstract: To solve the problems of high spatial resolution images′ recognition, independent component analysis which takes full account of higher-order cumulants is introduced to extract the feature of high spatial resolution image. However, the feature space, extracted by traditional method based on independent component analysis, cannot optimally distinguish between different types of samples. Therefore, an improved algorithm based on independent component analysis (namely Multi-ICA) is proposed. In this algorithm, its own feature space for each type of sample is constructed, and then by projecting to the feature spaces, the set of characteristic vectors representing the features of the given sample are obtained. The feature spaces extracted by the Multi-ICA algorithm are constructed according to commonness between the sample images of the certain type. The Euclidean distance between the same type of samples is smaller than that of the different type of samples. Taking the high-resolution Quickbird satellite image of Beijing district as a example, the contrast experiment of target identification shows that the recognition rate of the proposed Multi-ICA algorithm in comparison with those of traditional ICA, PCA and Multi-PCA is more obviously improved. The recognition rate keeps stable when recognition types increases. It alleviates the problem that the dimension of sample feature vector increases with the increase of samples.Keywords: Quickbird; remote sensing image; independent component analysis; feature extraction; spatial data mining
0 引 言
雖然獨(dú)立成分分析[1]在圖像處理和圖像識(shí)別中取得了不錯(cuò)的效果[2-10],但是現(xiàn)有的獨(dú)立成分分析多把所有不同類別的圖像樣本放在一起進(jìn)行特征提取,以得到能夠表征所有樣本特征的特征空間為目的。因此,對(duì)于描述不同類別的圖像樣本之間的差異而言,該特征空間不一定是最優(yōu)的描述。也就是說(shuō),通過(guò)向該特征空間投影得到的特征是不充分的,從而限制了識(shí)別率的進(jìn)一步提高。
為此,提出了一種改進(jìn)的基于獨(dú)立成分分析的目標(biāo)識(shí)別方法(Multi-ICA)。該算法為每個(gè)類別的樣本構(gòu)造單獨(dú)的特征空間,并引入Fisher分類器來(lái)優(yōu)化特征空間,使得用于識(shí)別的特征在分類空間上具有良好的類內(nèi)凝聚性和類間差異性。用Multi-ICA方法提取的特征空間是基于某類樣本圖像的共性特征建立的,同一類別樣本間的歐式距離要小于不同類別樣本之間的歐式距離。因此,可以將待識(shí)別樣本分類到具有最小歐式距離的特征空間所對(duì)應(yīng)的類別上。
1 ICA基本原理
1.1 ICA問(wèn)題描述
ICA技術(shù)的實(shí)質(zhì)是在假設(shè)源信號(hào)是相互統(tǒng)計(jì)獨(dú)立的基礎(chǔ)上,不知道源信號(hào)及混合矩陣任何信息的情況下,試圖將一組隨機(jī)變量表示成統(tǒng)計(jì)上獨(dú)立變量的線性組合?;贗CA方法使被分析信號(hào)各成分之間的統(tǒng)計(jì)依賴性得到最小化,突出了源信號(hào)的本質(zhì)結(jié)構(gòu)。
1.2 標(biāo)準(zhǔn)ICA模型
給定m個(gè)觀測(cè)信號(hào)x1,x2,…,xm,假設(shè)這m個(gè)觀測(cè)信號(hào)由n個(gè)相互獨(dú)立的未知源信號(hào)s1,s2,…,sn線性混合而成,則ICA的基本目標(biāo)就是要找到一個(gè)線性變換,使變換后的各信號(hào)之間盡可能獨(dú)立統(tǒng)計(jì)。令x=(x1,x2,…,xm)T,S=(s1,s2,…,sn)T,則ICA的基本模型可以表示為:
x=AS(1)
式中:A∈Rn×m為線性混合矩陣。ICA的任務(wù)就是估計(jì)出分離矩陣W,即混合矩陣A的逆,使得輸出Y=Wx的各分量yi盡可能保持統(tǒng)計(jì)獨(dú)立,則yi為si的估計(jì),其中,Y=(y1,y2,…,yn)T。由此可知,對(duì)源信號(hào)S的估計(jì)轉(zhuǎn)換為對(duì)分離矩陣W的估計(jì)。
在ICA模型中,一般假定:
(1)觀測(cè)信號(hào)矢量的維數(shù)不小于未知源信號(hào)矢量的維數(shù)m≥n;
(2)源信號(hào)各分量s1,s2,…,sn 至多有一個(gè)服從高斯分布;
(3)源信號(hào)各分量s1,s2,…,sn 是均值為零且相互統(tǒng)計(jì)獨(dú)立的;
(4)線性混合矩陣A是列滿秩的。
2 ICA特征空間以及特征空間優(yōu)化
2.1 ICA特征空間
由ICA原理可知,任意一幅圖像Xi都可表示成一組統(tǒng)計(jì)獨(dú)立的基圖像的線性疊加。設(shè)m幅目標(biāo)圖像對(duì)應(yīng)觀測(cè)矩陣X=(X1,X2,…,Xm)T,則有:
Xi=∑nj=1aijSj(2)
式中:aij為目標(biāo)圖像Xi 在特征維Sj 方向上的投影系數(shù);混合矩陣A的每行Ai稱為目標(biāo)圖像Xi的特征矢量,表征了圖像在邊緣和細(xì)節(jié)上的特征。其中:
Ai=(ai1,ai2,…,ain)T(3)
觀測(cè)矩陣X經(jīng)過(guò)ICA分解可得到一組統(tǒng)計(jì)獨(dú)立的基圖像矢量,以這組基圖像矢量構(gòu)造特征空間,各目標(biāo)圖像Xi的特征矢量可由該特征空間里的一個(gè)點(diǎn)來(lái)表示。
2.2 特征空間優(yōu)化
隨著訓(xùn)練影像的尺寸增大或者訓(xùn)練影像的個(gè)數(shù)增多,提取的特征空間分量隨之增加,進(jìn)而導(dǎo)致相應(yīng)的影像特征向量維數(shù)也增加。在這些增加的特征中,一些特征是由于影像的個(gè)數(shù)增多而帶來(lái)的無(wú)效特征,例如,在影像個(gè)數(shù)增多時(shí),引入的噪聲也隨之增多。一些特征是由于影像的尺寸增大而帶來(lái)的冗余特征,例如,在對(duì)影像進(jìn)行分割時(shí),由于分割算法造成的過(guò)分割現(xiàn)象會(huì)給影像樣本帶入其他類影像樣本的信息。這些增加的特征不能反映影像樣本的全局特征、局部特征和邊緣特征,不僅增加了計(jì)算時(shí)間還會(huì)降低識(shí)別率。所以,通常在得到原始特征空間之后,需要對(duì)特征空間進(jìn)行優(yōu)化,優(yōu)化的目的是保證識(shí)別的正確率和提高效率,使得通過(guò)優(yōu)化后的特征空間能夠得到對(duì)識(shí)別最有利和數(shù)目最少的特征向量。在此,引入Fisher分類方法中類內(nèi)、類間距離的比值作為特征提取優(yōu)化和特征選擇準(zhǔn)則。
設(shè)觀測(cè)圖像矩陣X由l類目標(biāo)、混合矩陣A的列Aj與獨(dú)立分量sj 相對(duì)應(yīng),aij為第i個(gè)觀測(cè)圖像的第j個(gè)特征,計(jì)算出每個(gè)特征的類內(nèi)距離和類間距離。
第i類樣本的第j個(gè)特征均值mj為:
mj=1Ni∑x∈iaij(4)
第i類樣本的第j個(gè)特征類內(nèi)距離Sj為:
Sj=∑x∈i(aij-mj)2(5)
樣本的第j個(gè)特征類間距離Wj為:
Wj=∑li≠j(mi-mj)2(6)
定義樣本的第j個(gè)特征類內(nèi)類間距離比值λj 為:
λj=∑x∈i(aij-mj)2∑li≠j(mi-mj)2=SjWj(7)
由式(7)可知,λj值越小,則第j個(gè)特征使得同類目標(biāo)的特征矢量在特征空間中對(duì)應(yīng)的特征點(diǎn)分布越密集,不同類目標(biāo)的特征點(diǎn)相距越遠(yuǎn),對(duì)于分類識(shí)別越有效。選取與λj對(duì)應(yīng)的獨(dú)立基矢量集合構(gòu)造最優(yōu)特征空間,并在此特征空間上進(jìn)行目標(biāo)識(shí)別。
3 基于Multi-ICA的識(shí)別算法
假設(shè)現(xiàn)有一個(gè)具有m個(gè)類別的圖像訓(xùn)練集,則每個(gè)類別有ti(i=1,2,…,m)個(gè)樣本。
3.1 建立特征空間以及特征向量
首先將訓(xùn)練樣本集中的每一幅圖像按行掃描成行向量。基于Multi-ICA建立特征空間的步驟為:
(1) 對(duì)第i(i=1,2,…,m)類的圖像樣本進(jìn)行預(yù)處理。首先是進(jìn)行零均值處理,然后進(jìn)行白化處理。
(2) 采用FastICA算法估計(jì)分離矩陣W,進(jìn)而估計(jì)出混合矩陣A和到得第i類圖像樣本的基圖像矢量Si。
(3) 對(duì)基圖像矢量Si求偽逆,即得到第i類圖像樣本的特征空間S+i。
(4) 對(duì)各類的特征空間S+i進(jìn)行優(yōu)化。
(5) 將第i類圖像樣本xi向其特征空間S+i投影,有:
yi=xi×S+i(8)
由式(8)可得表征第i類圖像樣本xi的特征向量yi。
3.2 識(shí)別
對(duì)于一個(gè)待識(shí)別的圖像樣本f,其識(shí)別步驟為:
(1) 向第i類圖像樣本的特征空間投影,得到其特征向量。
(2) 計(jì)算它與第i類圖像樣本的平均特征向量y-i的歐式距離di。
(3) 取距離向量d(d=(d1,d2,…,dm))中的最小分量。
建立的特征空間是以提取某類圖像樣本的共性為目的,因此在計(jì)算與同類別樣本的平均特征向量的歐式距離時(shí),將獲得較小的值,而計(jì)算與不同類別樣本的平均特征向量的歐式距離時(shí),將獲得較大的值。比較待識(shí)別樣本的m個(gè)歐式距離值di(i=1,2,…,m),以取得最小值時(shí)所對(duì)應(yīng)的類別為其所屬類別。
4 實(shí)驗(yàn)與分析
選用北京地區(qū)的Quickbird高分辨率衛(wèi)星影像進(jìn)行識(shí)別實(shí)驗(yàn),該影像(全色+4波段多光譜)拍攝于2005年4月26號(hào)3點(diǎn)36分41秒,該影像的部分截圖如圖1所示。
圖1 北京地區(qū)的Quickbird高分辨率衛(wèi)星部分影像
在該圖像上分別隨機(jī)截取道路、植被和房屋三類目標(biāo)圖像大小為30×30像素的樣本120個(gè)作為實(shí)驗(yàn)數(shù)據(jù),并對(duì)所有的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行灰度化處理。圖2為部分訓(xùn)練集圖像示例。
圖2 部分訓(xùn)練集
4.1 實(shí)驗(yàn)
4.1.1 實(shí)驗(yàn)1
在每類目標(biāo)圖像的實(shí)驗(yàn)數(shù)據(jù)中選取30幅圖像作為訓(xùn)練樣本,另選取60幅圖像作為測(cè)試樣本,分別測(cè)試Multi-ICA識(shí)別算法、傳統(tǒng)ICA識(shí)別算法、Multi-PCA識(shí)別算法[11]和PCA識(shí)別算法的效果。傳統(tǒng)ICA算法和PCA算法采用歐式距離分類器進(jìn)行識(shí)別。實(shí)驗(yàn)結(jié)果見(jiàn)表1。
表1 在小樣本情況下,各種算法的識(shí)別率比較%
類別數(shù)Multi-ICAMulti-PCA傳統(tǒng)ICAPCA
道路85807872
植被84797773
房屋85817972
4.1.2 實(shí)驗(yàn)2
在每類目標(biāo)圖像的實(shí)驗(yàn)數(shù)據(jù)中選取60幅圖像作為訓(xùn)練樣本,剩余60幅圖像作為測(cè)試樣本,分別測(cè)試Multi-ICA識(shí)別算法、傳統(tǒng)ICA識(shí)別算法、Multi-PCA識(shí)別算法和PCA識(shí)別算法的效果,實(shí)驗(yàn)結(jié)果見(jiàn)表2。
表2 在大樣本情況下,各種算法的識(shí)別率比較%
類別數(shù)Multi-ICAMulti-PCA傳統(tǒng)ICA PCA
道路81787365
植被80767163
房屋79757062
4.1.3 實(shí)驗(yàn)3
在實(shí)驗(yàn)2的基礎(chǔ)上引入Fisher分類器,對(duì)特征空間進(jìn)行優(yōu)化,分別測(cè)試Multi-ICA識(shí)別算法、傳統(tǒng)ICA識(shí)別算法并進(jìn)行比較,實(shí)驗(yàn)結(jié)果見(jiàn)表3。
表3 實(shí)驗(yàn)結(jié)果%
類別數(shù)Multi-ICA傳統(tǒng)ICA
道路8885
植被8784
房屋8883
4.2 分析
從實(shí)驗(yàn)1的結(jié)果(表1)可以看出,Multi-ICA算法的識(shí)別率要高于傳統(tǒng)ICA算法和PCA算法,這是因?yàn)閭鹘y(tǒng)ICA算法和PCA算法得到的特征空間是建立在所有類別樣本圖像的共性之上的,對(duì)于類別之間的差異描述得不夠充分,而Multi-ICA算法的特征空間則是建立在某類樣本圖像的共性之上,不同類別的樣本對(duì)應(yīng)著不同的特征空間,因而,類別之間的差異得到描述,所以,Multi-ICA算法的識(shí)別率效果更好。
從實(shí)驗(yàn)2的結(jié)果(表2)可以看出,隨著訓(xùn)練樣本數(shù)的增加,傳統(tǒng)ICA算法的識(shí)別率、PCA算法和Multi-ICA算法的識(shí)別率都有所降低,但是傳統(tǒng)ICA算法和PCA算法的識(shí)別率下降得更快。這是因?yàn)橛?xùn)練樣本數(shù)的增多,提取的特征空間分量增加,進(jìn)而導(dǎo)致相應(yīng)的圖像樣本的特征數(shù)目也增加。在這些增加的特征中,一些特征由于與已有特征重復(fù),而對(duì)目標(biāo)識(shí)別的貢獻(xiàn)很小,一些特征由于圖像畸變的產(chǎn)生,反而會(huì)降低識(shí)別率。由于傳統(tǒng)ICA算法和PCA算法是在整個(gè)訓(xùn)練集上提取特征空間的,因而受到的影響大于Multi-ICA算法,所以其識(shí)別率下降得更快。
Multi-ICA算法和Multi-PCA算法建立的特征空間都是建立在某類樣本圖像的共性之上,不同類別的樣本對(duì)應(yīng)著不同的特征空間,因而類別之間的差異得到描述,所以它們的識(shí)別率要高于傳統(tǒng)ICA算法和PCA算法。因?yàn)镻CA 方法是一種基于二階統(tǒng)計(jì)量的特征提取技術(shù),提取的特征基矢量只能去除圖像間的二階冗余信息,反映了圖像的全局特征,但是不能去除圖像間的高階冗余信息。然而用ICA 方法提取的特征基矢量不僅互不相關(guān),而且還盡可能的統(tǒng)計(jì)獨(dú)立,既反映圖像的全局特征,又反映圖像的局部特征和邊緣特征,所以由ICA算法提取的特征空間比PCA算法提取的特征空間更能描述樣本數(shù)據(jù)的本質(zhì)結(jié)構(gòu),因而其識(shí)別率也就更高。
從實(shí)驗(yàn)3的結(jié)果(表3)可以看出,引入Fisher分類器對(duì)特征空間進(jìn)行優(yōu)化后,Multi-ICA算法和傳統(tǒng)ICA算法的識(shí)別率都有所提高。這是因?yàn)镕isher分類器過(guò)濾掉了特征空間中那些不利于分類的分量,使得用于識(shí)別的特征在分類空間上具有良好的類內(nèi)凝聚性和類間差異性,從而提高了算法的識(shí)別率。因?yàn)镸ulti-ICA算法提取得到的特征空間比傳統(tǒng)ICA算法提取得到的特征空間更充分地描述不同類別樣本之間的差別,所以,其識(shí)別率比傳統(tǒng)ICA算法更高。
5 結(jié) 語(yǔ)
本文提出一種基于ICA的改進(jìn)識(shí)別算法Multi-ICA。以北京地區(qū)的Quickbird高分辨率衛(wèi)星圖像為例進(jìn)行多類目標(biāo)識(shí)別實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)ICA方法、PCA方法和Multi-PCA方法相比,Multi-ICA方法提取的特征空間不僅考慮到同類別樣本之間的共性,還考慮到不同類別樣本之間的差異。Multi-ICA方法能夠明顯提高識(shí)別的準(zhǔn)確率和效率,并且在一定程度上緩解了由于樣本數(shù)量增加導(dǎo)致樣本特征向量維數(shù)增加的問(wèn)題。
參考文獻(xiàn)
[1]COMON P. Independent component analysis: a new concept[J]. Signal Processing, 1994, 36(3): 287-314.
[2]BARTLETT M S, MOVELLAN J R, SEJNOWSKI T J. Face recognition by independent component analysis[J]. IEEE Trans. on Neural Networks, 2002, 13(6): 1450-1464.
[3]丁佩律,梅劍鋒,張立明,等.基于獨(dú)立分量分析的人臉自動(dòng)識(shí)別方法研究[J].紅外與毫米學(xué)報(bào),2001,20(5):361-364.
[4] 甘俊英,李春芝.2DPCA-ICA 算法在人臉識(shí)別中的應(yīng)用[J].電路與系統(tǒng)學(xué)報(bào),2008,13(4):24-28.
[5]宦若虹,楊汝良.基于KFD + ICA 特征提取的SAR圖像目標(biāo)識(shí)別[J].系統(tǒng)工程與電子技術(shù),2008,30(7):1237-1240.
[6]KWAK K C, Pedrycz W. Face recognition using an enhanced independent component analysis approach[J]. IEEE Trans. on Nerual Networks, 2007, 18(2): 530-541.
[7]WANGZN, YUX C, ZHANG Li-bo.A novel remote sensing image fusion algorithm based on IWT-ICA[C]//Proceedings of Seventh International Conference on Advanced Language Processing and Web Information Techno-logy. Dalian, China: EI, 2008:187-192.
[8]張波,張桂林,王新余.一種改進(jìn)的基于ICA 特征子空間的目標(biāo)識(shí)別方法[J].計(jì)算機(jī)與數(shù)字工程,2005,33(12):63-67.
[9]SHIYQ, YU XC, CHENG XC, et al.A new BSS algorithm based on the data fusion and ICA [C]//Proceedings of the 2008 7th IEEE International Conference on Cybernetic Intelligent Systems. England: IEEE, 2008:335-340.
[10]WANGZhong-ni, YUXian-chuan, ZHANG Li-bao.A remote sensing image fusion algorithm based on ordinal fast independent component analysis[C]//Proceedings of First International Workshop on Knowledge Discovery and Data Mining. Australia: EI,2007:142-145.
[11]路玉峰,王增才,劉學(xué)忠.提高PCA識(shí)別率的新算法[J].光學(xué)技術(shù),2008,34(1):10-16.