黃淼,張國平
一種基于Grassmann流形的圖像集分類算法研究
黃淼,張國平
當(dāng)前基于多模型的圖像集分類方法通過對(duì)每個(gè)圖像集進(jìn)行單次聚類來提取局部模型,與其他圖像集進(jìn)行匹配時(shí)使用固定的聚類。然而,如果環(huán)境條件不佳,則可能導(dǎo)致兩個(gè)最近鄰聚類表示同一對(duì)象的不同特征。針對(duì)這一問題,首先,根據(jù)重建誤差,在Grassmann流形上定義兩個(gè)子空間間的Frobenius范數(shù)距離。然后,通過稀疏表示從畫廊圖像集中提取局部線性子空間。對(duì)每個(gè)局部線性子空間,通過聯(lián)合稀疏表示,利用探測(cè)圖像集的樣本來自適應(yīng)構(gòu)建相應(yīng)的最近鄰子空間?;贖onda、ETH-80和Cambridge-Gesture數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,與基于仿射包的圖像集距離(AHISD)、稀疏近似最近鄰點(diǎn)(SANP)和流形判別分析(MDA)等其他算法相比,算法的性能更優(yōu)。
圖像集分類;聚類;Grassmann流形;稀疏表示;最近鄰子空間
目前流行的圖像分類方法[1]大多是從局部特征中提取信息的。它們通常是采用聚類或者編碼的方式先得到碼本,例如k均值聚類、稀疏編碼等;然后,采用基于最近鄰指派或者稀疏編碼的方式對(duì)每一個(gè)局部特征進(jìn)行編碼;最后,采用各種訓(xùn)練分類器(如SVM,Adaboost等)進(jìn)行最終的圖像類別預(yù)測(cè)。
圖像分類方法總體來說可以分為兩類:參數(shù)方法和非參數(shù)方法。前一種方法基于參數(shù)分布[2,3]。對(duì)參數(shù)分布,參數(shù)估計(jì)值間的相似性可用于衡量?jī)蓚€(gè)集合間的距離。然而,如果同一對(duì)象的訓(xùn)練和測(cè)試數(shù)據(jù)集的統(tǒng)計(jì)相關(guān)性較弱,則參數(shù)估計(jì)值可能不夠相似。非參數(shù)方法[4,5]可生成多個(gè)局部線性模型,通過聚類來提升識(shí)別精度。文獻(xiàn)[4]通過局部線性嵌入和K均值聚類來提取多個(gè)代表性樣本。文獻(xiàn)[5]使用最大線性補(bǔ)丁方法來提取局部線性模型。對(duì)于具有m個(gè)和n個(gè)局部模型的兩個(gè)集合,它們局部模型間的最小距離決定了集合與集合間的距離,通過m×n次局部模型比較即可獲得該距離。然而非參數(shù)方法的缺點(diǎn)在于,每個(gè)集合單獨(dú)聚類一次,導(dǎo)致每個(gè)集合在分類時(shí)使用固定的聚類。因?yàn)?,環(huán)境條件(比如光照和姿態(tài)變化)不夠理想可能會(huì)導(dǎo)致兩個(gè)最近鄰聚類表示同一對(duì)象的不同特征,所以,這些聚類可能不是最優(yōu)判別聚類。
假設(shè)每個(gè)聚類可用于表示對(duì)象的某一具體物理屬性。例如,假設(shè)我們有同一名人員的兩個(gè)臉部圖像集合,且這兩個(gè)集合可表示不同的狀態(tài)。第一個(gè)集合中的聚類表示不同姿態(tài),而第二個(gè)集合中的聚類表示不同的光照(此時(shí)的光照與上一集合的光照不同)。這兩個(gè)聚類集合描述了不同的狀態(tài)變化,因此,在基于聚類匹配來匹配兩個(gè)圖像集時(shí),可能出現(xiàn)非正面臉部(比如旋轉(zhuǎn)或傾斜)與正面臉部進(jìn)行比較的情況。
針對(duì)這一問題,本文首先使用稀疏近似來從首個(gè)集合中提取局部線性子空間。然后,每個(gè)局部線性子空間表示為Grassmann流形[6]上的一個(gè)參考點(diǎn)。對(duì)每個(gè)參考點(diǎn),我們利用第2個(gè)集合中的一組點(diǎn)來近似其在流形上的最近鄰點(diǎn)。我們不是搜索所有點(diǎn),而是利用聯(lián)合稀疏近似來解決搜索問題。我們證明,通過使聯(lián)合稀疏表示誤差最小,我們可以逼近與Grassmann流形上的參考點(diǎn)距離最近的點(diǎn)。利用第2個(gè)集合中的最近鄰點(diǎn)與第1個(gè)集合中的相應(yīng)參考點(diǎn)間的平均距離
Research on Image Set Classification Algorithm Based on Grassmann Manifolds
Huang Miao, Zhang Guoping
(School of Software, Pingdingshan University, Pingdingshan 467002, China)
Existing multi-model approaches for image set classification extract local models by clustering each image set individually only once, with fixed clusters used for matching with other image sets. However, this may result in the two closest clusters to represent different characteristics of an object, due to different undesirable environmental conditions. In response to this problem, this paper first defines a Frobenius norm distance between subspaces over Grassmann manifolds based on reconstruction error. It then extracts local linear subspaces from a gallery image set via sparse representation. For each local linear subspace, the paper adaptively constructs the corresponding closest subspace from the samples of a probe image set by joint sparse representation. Experiments on Honda, ETH-80 and Cambridge-Gesture datasets show that the proposed method consistently outperforms several other recent techniques, such as Affine Hull based Image Set Distance (AHISD), Sparse Approximated Nearest Points (SANP) and Manifold Discriminant Analysis (MDA).
Image Set Classification; Clusters; Grassmann Manifolds; Sparse Representation; Closest Subspace
TP393
A
1007-757X(2015)01-0008-06
國家自然科學(xué)基金(NU1204611)
黃 淼(1982-),女,漢族,河南社旗人,平頂山學(xué)院,軟件學(xué)院,講師,碩士,研究方向:圖形圖像處理,平頂山,467002
張國平(1980-),男,漢族,江西南昌人,平頂山學(xué)院,軟件學(xué)院,講師,碩士,研究方向:軟件工程,嵌入式技術(shù),平頂山,467002