潘 泓,朱亞平,夏思宇,金立左
(1.東南大學(xué)自動(dòng)化學(xué)院,江蘇南京 210096; 2.東南大學(xué)復(fù)雜工程系統(tǒng)測(cè)量與控制教育部重點(diǎn)實(shí)驗(yàn)室,江蘇南京 210096;
3.中國(guó)傳媒大學(xué)信息工程學(xué)院,北京 100024)
?
基于上下文信息和核熵成分分析的目標(biāo)分類(lèi)算法
潘泓1,2,朱亞平3,夏思宇1,2,金立左1,2
(1.東南大學(xué)自動(dòng)化學(xué)院,江蘇南京 210096; 2.東南大學(xué)復(fù)雜工程系統(tǒng)測(cè)量與控制教育部重點(diǎn)實(shí)驗(yàn)室,江蘇南京 210096;
3.中國(guó)傳媒大學(xué)信息工程學(xué)院,北京 100024)
摘要:結(jié)合圖像屬性上下文信息和核熵成分分析,構(gòu)造了一種新穎的基于下上文信息的局部特征描述子——上下文核描述子(Context Kernel Descriptors,CKD).上下文信息的引入提高了CKD特征的魯棒性,減少了特征誤匹配.核熵成分分析從全維CKD特征分量中選出最能代表目標(biāo)幾何結(jié)構(gòu)信息的特征分量,將其投影到這些特征分量張成的子空間上可得到降維CKD特征.在Caltech-101和CIFAR-10的測(cè)試結(jié)果表明,CKD的分類(lèi)性能不僅明顯優(yōu)于其它局部特征描述子,還優(yōu)于多數(shù)基于稀疏表示和深度學(xué)習(xí)等復(fù)雜模型的目標(biāo)分類(lèi)算法.
關(guān)鍵詞:上下文核描述子;核熵成分分析;特征降維;目標(biāo)分類(lèi)
1引言
復(fù)雜環(huán)境中目標(biāo)分類(lèi)是模式識(shí)別和機(jī)器學(xué)習(xí)領(lǐng)域核心和極具挑戰(zhàn)性的研究課題之一.實(shí)際應(yīng)用中,目標(biāo)在形狀、尺寸、外觀(guān)、顏色和姿態(tài)等方面的多樣性,以及光照變化、復(fù)雜場(chǎng)景和局部遮擋的影響給目標(biāo)分類(lèi)帶來(lái)了極大挑戰(zhàn).目前多數(shù)目標(biāo)分類(lèi)系統(tǒng)采用局部特征描述子結(jié)合部件模型表示目標(biāo)物體,常用特征包括SIFT[1]、HOG[2]、KAZE[3]等方向直方圖,LBP[4]、BSIF[5]、Shape Index Descriptor[6]等紋理直方圖和Shape Context[7]、Binary Coherent Edge descriptors[8]等形狀特征.
近年來(lái),以核主成分分析(Kernel Principal Component Analysis,KPCA)[9]和支持向量機(jī)(Support Vector Machine,SVM)為代表的核空間特征分析和分類(lèi)算法取得了極大成功.為此,人們將局部特征描述子和SVM技術(shù)結(jié)合起來(lái),提出了多種局部匹配核函數(shù)[10~12],將局部特征轉(zhuǎn)換到高維核特征空間,并在核特征空間中匹配局部特征的相似性進(jìn)行目標(biāo)分類(lèi).此外,上下文信息的應(yīng)用[13,14]有助于增強(qiáng)局部特征鑒別能力,提高目標(biāo)分類(lèi)算法性能.但目前提出的局部匹配核函數(shù)均未考慮上下文信息.如何將圖像屬性上下文信息與局部匹配核函數(shù)相結(jié)合,構(gòu)造核空間上下文特征描述子;如何在保持核空間特征鑒別力的同時(shí),盡可能降低特征維數(shù)是值得研究深入的問(wèn)題.
結(jié)合上下文信息和核子空間分析技術(shù),本文提出了一套基于核特征空間的目標(biāo)分類(lèi)框架.在特征提取階段,將圖像屬性上下文信息融入核描述子(Kernel DEScriptors,KDES)[15]構(gòu)造中,提出了一種新的基于上下文信息的局部特征描述子—上下文核描述子(CKD).上下文信息約束條件保持了特征描述子數(shù)值的空間連續(xù)性,提高了特征穩(wěn)定性.在特征降維階段,KDES采用KPCA進(jìn)行特征降維.與KDES不同,我們采用基于核熵成分分析(Kernel Entropy Component Analysis,KECA)的特征降維方法,從所有特征分量中選出最能代表目標(biāo)幾何結(jié)構(gòu)信息的特征分量,并將高維CKD投影到這些特征分量張成的子空間中得到低維鑒別力強(qiáng)的CKD,利用低維CKD特征訓(xùn)練SVM分類(lèi)器進(jìn)行目標(biāo)分類(lèi).圖1顯示了本文提出的目標(biāo)分類(lèi)算法框架.本文方法特點(diǎn)在于該框架內(nèi)所有模塊(從特征提取、特征降維到分類(lèi))都在核特征空間內(nèi)進(jìn)行,克服了同一物體由于仿射變換、光照視角變化和局部被遮擋時(shí)導(dǎo)致局部特征長(zhǎng)度不一,無(wú)法直接送入SVM進(jìn)行分類(lèi)的缺點(diǎn).在Caltech-101和CIFAR-10數(shù)據(jù)集上測(cè)試結(jié)果表明,本文算法分類(lèi)性能明顯優(yōu)于基于KDES、基于帶監(jiān)督KDES(Supervised Kernel DEScriptors,SKDES)[16]、基于稠密SIFT描述子[11]以及多數(shù)基于稀疏表示和深度學(xué)習(xí)的復(fù)雜目標(biāo)分類(lèi)模型.
2基于CKD的特征提取
Bo等人研究[15]表明基于HOG和SIFT等方向直方圖特征的圖像塊匹配過(guò)程等價(jià)于在相應(yīng)圖像塊上定義某些特定的匹配核函數(shù),并用匹配核函數(shù)比較圖像塊的相似性.基于此,他們提出了一種基于圖像低層屬性的廣義局部特征描述子—核描述子(KDES).KDES在很多主流數(shù)據(jù)集上取得了良好的目標(biāo)識(shí)別性能.KDES中,匹配核函數(shù)只考慮了像素點(diǎn)本身的屬性,對(duì)不同上下文環(huán)境中具有相同屬性的像素點(diǎn)進(jìn)行子塊特征匹配時(shí)易出現(xiàn)誤匹配.為提高KDES特征匹配的魯棒性,我們將像素點(diǎn)的鄰域?qū)傩宰鳛樯舷挛男畔⑷谌肫ヅ浜撕瘮?shù)構(gòu)造過(guò)程中,提出上下文匹配核函數(shù)(Context Match Kernel,CMK)并構(gòu)造上下文核描述子.我們認(rèn)為如果兩個(gè)圖像塊足夠相似,那么其內(nèi)部具有相似屬性的像素點(diǎn)往往也應(yīng)該具有相似屬性的鄰域元素.因此,將上述圖像屬性上下文約束條件引入匹配核函數(shù)中,能極大提高特征匹配的準(zhǔn)確性.
2.1上下文匹配核函數(shù)(CMK)
(1)
Kgck(P,Q)=∑p∈P∑q∈Qm'pm'qκo(θ'p,θ'q)κs(xp,xq)
(2)
對(duì)圖像顏色屬性,我們可定義顏色上下文匹配核函數(shù)Kcck來(lái)比較P和Q子塊的顏色相似性
Kcck(P,Q)=∑p∈P∑q∈Qκc(cp,cq)κs(xp,xq)
·κcon[(xp,cp),(xq,cq)]
(3)
紋理屬性也可用來(lái)比較不同圖像子塊間的相似性.我們采用局部二值模式(Local Binary Patterns,LBP)[4]作為紋理特征定義紋理上下文匹配核函數(shù)Klbpck
Klbpck(P,Q)=∑p∈P∑q∈Qσ'pσ'qκlbp(lbpp,lbpq)
·κs(xp,xq)κcon[(xp,lbpp),(xq,lbpq)]
(4)
Ka(P,Q)=∑p∈P∑q∈Qwpwqκa(ap,aq)κs(xp,xq)
·κcon[(xp,ap),(xq,aq)]
(5)
式中,p和q分別表示圖像子塊P和Q中的像素點(diǎn),wpwq和κa(·,·)分別對(duì)應(yīng)線(xiàn)性歸一化核函數(shù)和屬性核函數(shù).
2.2CKD的近似
(6)
3基于KECA的特征降維
與KPCA不同的是,KECA[17]以信息論測(cè)度(Rényi熵)為標(biāo)準(zhǔn),對(duì)核相似矩陣的特征向量進(jìn)行排序,依次選出最大Rényi熵對(duì)應(yīng)的特征向量作為主分量,這些主分量對(duì)應(yīng)樣本數(shù)據(jù)的高階統(tǒng)計(jì)特性,反映了樣本核特征空間角度分布特性[18].因此,KECA不僅最大程度保持了圖像Rényi熵,而且很好地保持了圖像幾何拓?fù)浣Y(jié)構(gòu).
3.1Rényi熵和KECA變換
若隨機(jī)變量S的概率密度函數(shù)為p(s),其二階Rényi熵[19]H2(S)可定義為
H2(S)=-log2∫p2(s)ds
(7)
二階Rényi熵具有很好的特性,是應(yīng)用最多的Rényi熵.本文也用二階Rényi熵作為特征選擇和降維準(zhǔn)則.為計(jì)算H2(S),可用Parzen窗估計(jì)法[20]估計(jì)概率密度函數(shù)p(s).將式(7)表示為H2(S)=-log2[V(p)],由于對(duì)數(shù)函數(shù)的單調(diào)性,只需考慮V(p).采用Parzen窗估計(jì)法,V(p)可以被估計(jì)為
(8)
k(s,st|σ)表示中心在st,窗寬為σ的Parzen窗核函數(shù),K是Parzen窗對(duì)應(yīng)的N×N核函數(shù)矩陣,1=[1,…,1]T是元素為1的N維列向量.
(9)
3.2分層聯(lián)合CKD描述
對(duì)式(2)~(4)定義的梯度、顏色和紋理CMK,分別對(duì)歸一化相角、顏色、LBP算子和空間向量量化后生成有限個(gè)基函數(shù),再利用KECA從基函數(shù)中選出最能描述樣本類(lèi)別幾何結(jié)構(gòu)的主分量張成子空間.將圖像梯度、顏色、LBP算子、空間位置和上下文信息分別投影到KECA生成的子空間上,可得到降維后的梯度CKD(G-CKD)、顏色CKD(C-CKD)和紋理CKD(LBP-CKD).這些不同屬性的CKD從不同角度描述圖像子塊,具有很好地互補(bǔ)性.為得到整個(gè)圖像的CKD特征,對(duì)每種CKD采用圖2所示的分層級(jí)聯(lián)結(jié)構(gòu),逐層將相鄰子塊CKD拼接成區(qū)域CKD,再將相鄰區(qū)域CKD拼接成圖像層CKD.最后,將不同屬性的圖像層CKD組合在一起可以得到聯(lián)合上下文核描述子(COM-CKD),COM-CKD提供了對(duì)整個(gè)圖像豐富的、分層互補(bǔ)特征描述.
4實(shí)驗(yàn)結(jié)果
為保證比較的公平性,所有實(shí)驗(yàn)中除了特征維數(shù)以外,對(duì)CKD和KDES中的相同參數(shù),都采用文獻(xiàn)[15]的設(shè)置.所有核函數(shù)的窗寬γs,γo,γc和γlbp通過(guò)交叉驗(yàn)證方式確定.我們采用三層金字塔結(jié)構(gòu)得到子塊層(16×16 cell)、區(qū)域?qū)?4×4 cell)和圖像層(1×1 cell)特征描述.上下文核函數(shù)κcon中最優(yōu)鄰域參數(shù)k通過(guò)窮舉搜索在k=1,…,8中確定.所有實(shí)驗(yàn)中用的分類(lèi)器均為線(xiàn)性SVM分類(lèi)器.
4.1Caltech-101數(shù)據(jù)集[21]的測(cè)試結(jié)果
對(duì)每類(lèi)目標(biāo),選取30張圖像作為訓(xùn)練樣本,其余圖像作為測(cè)試樣本.對(duì)KDES和CKD描述子,訓(xùn)練一對(duì)多線(xiàn)性SVM分類(lèi)器進(jìn)行分類(lèi),整個(gè)分類(lèi)過(guò)程一共進(jìn)行5次,取5次分類(lèi)平均值作為最后測(cè)試結(jié)果.SKDES的測(cè)試結(jié)果來(lái)自文獻(xiàn)[16].表1比較了基于不同圖像屬性的KDES、SKDES和CKD描述子和一些近期算法對(duì)應(yīng)的識(shí)別率均值和標(biāo)準(zhǔn)差.由表1可見(jiàn),不論基于單個(gè)圖像屬性還是聯(lián)合屬性,CKD的識(shí)別率始終高于對(duì)應(yīng)的KDES和SKDES.與KDES相比,除了G-CKD外,C-CKD和LBP-CKD識(shí)別率都顯著高于對(duì)應(yīng)的KDES.與SKDES相比,CKD識(shí)別率方差更小,這表明CKD比SKDES具有更穩(wěn)定的識(shí)別性能.我們認(rèn)為CKD構(gòu)造時(shí)不僅考慮像素點(diǎn)本身的屬性,還考慮其周?chē)徲蛳袼氐膶傩?上下文屬性),因而大大減少了不同目標(biāo)圖像子塊中由于相似圖像屬性而引起的特征誤匹配.其次,不論何種描述子,其聯(lián)合屬性識(shí)別率均高于單一屬性識(shí)別率.這表明聯(lián)合多種圖像屬性有助于提高特征鑒別能力和識(shí)別率.
為比較特征維數(shù)對(duì)分類(lèi)性能的影響,我們以聯(lián)合CKD(COM-CKD)和聯(lián)合KDES(COM-KDES)描述子為例,分別測(cè)試其在不同特征維數(shù)下的分類(lèi)結(jié)果.圖3(a)給出了兩種描述子平均識(shí)別率和標(biāo)準(zhǔn)差隨特征維數(shù)變化的情況.在所有特征維數(shù)下,不僅COM-CKD的識(shí)別率始終高于COM-KDES,而且隨著特征維數(shù)下降,COM-CKD識(shí)別率的波動(dòng)遠(yuǎn)小于COM-KDES.這表明COM-CKD描述子更能有效區(qū)分不同模式,即使在特征維數(shù)較低時(shí)依然有較穩(wěn)定的鑒別能力.對(duì)COM-CKD描述子,我們將特征維數(shù)固定為200維,進(jìn)一步研究鄰域參數(shù)k對(duì)分類(lèi)性能的影響.圖3(b)比較了不同鄰域大小時(shí),COM-CKD分類(lèi)性能的變化情況.由圖3(b)可見(jiàn),中等大小鄰域(k=3,4,5)時(shí),COM-CKD識(shí)別率最高,鄰域過(guò)小(k=1,2)或太大(k=6,7,8)都會(huì)使COM-CKD分類(lèi)性能下降.
表1 KDES、SKDES、CKD和其它主流方法在Caltech-101數(shù)據(jù)集上
4.2CIFAR-10數(shù)據(jù)集的測(cè)試結(jié)果
CIFAR-10[31]是一個(gè)包含10類(lèi)目標(biāo)共60000張圖像的大規(guī)模低分辨率圖像數(shù)據(jù)集.每類(lèi)目標(biāo)含5000張訓(xùn)練圖像和1000張測(cè)試圖像,每張圖像分辨率為32×32像素.由于圖像分辨率較低,我們用間隔為2的網(wǎng)格對(duì)圖像進(jìn)行密集采樣,對(duì)每個(gè)采樣節(jié)點(diǎn),以節(jié)點(diǎn)為中心選取周?chē)?×8子塊計(jì)算CKD.實(shí)驗(yàn)發(fā)現(xiàn),CKD描述子鄰域參數(shù)k=3時(shí),對(duì)該數(shù)據(jù)集分類(lèi)性能最佳.對(duì)每類(lèi)目標(biāo),隨機(jī)從5000張訓(xùn)練圖像中取出1000張組成訓(xùn)練集,另外4000張組成驗(yàn)證集,通過(guò)交叉驗(yàn)證確定CKD中核函數(shù)參數(shù)γs,γo,γc和γlbp.
表2 各種算法在CIFAR-10上識(shí)別率的比較
我們將本文算法與目前主流的稀疏表示和深度學(xué)習(xí)方法進(jìn)行比較.對(duì)比算法中,文獻(xiàn)[32,33]屬于稀疏表示方法;文獻(xiàn)[34~37]為基于深度學(xué)習(xí)模型的方法.其他比較算法還包括SPM-SIFT(Spatial PyraMid dense SIFT)[11]和HKDES(Hierarchical Kernel DeScriptor)[38].表2列出了所有算法的分類(lèi)準(zhǔn)確率.由結(jié)果可見(jiàn),COM-CKD和MDNN[34]的識(shí)別率高于其它算法.MDNN識(shí)別率比COM-CKD描述子高0.37%,但其復(fù)雜度遠(yuǎn)遠(yuǎn)高于本文算法.CKD描述子將圖像屬性映射到高維核特征空間,通過(guò)分層模型和特征組合得到具有較強(qiáng)鑒別力的特征描述子,即使配合簡(jiǎn)單線(xiàn)性SVM分類(lèi)器,其分類(lèi)性能也遠(yuǎn)好于spDCNN[35]、tCNN[36]等基于深度學(xué)習(xí)的復(fù)雜模型.從算法時(shí)間開(kāi)銷(xiāo)上看,在Intel Core i7 2.7GHz CPU和16GB RAM計(jì)算平臺(tái)上,對(duì)一幅32×32像素的圖像,本文算法計(jì)算200維COM-CKD(k=3)描述子共耗時(shí)244.84ms,其中圖像屬性量化和CKD描述子逼近用時(shí)224.63ms,KECA特征降維用時(shí)20.21ms.計(jì)算相同維數(shù)的COM-KDES描述子共耗時(shí)104.33ms,其中圖像屬性量化和KDES描述子逼近用時(shí)85.45ms,KPCA特征降維用時(shí)18.88ms.從算法復(fù)雜度上看,與KDES相比,本文算法的時(shí)間增加主要來(lái)源于在特征提取階段,需要額外計(jì)算每個(gè)像素點(diǎn)的上下文核函數(shù)κcon.但上述計(jì)算量的增加均為線(xiàn)性.
5結(jié)論
本文提出了一種新穎的基于上下文信息的局部特征描述子——上下文核描述子.CKD的優(yōu)點(diǎn)在于:(1)構(gòu)造方便、計(jì)算簡(jiǎn)單,圖像梯度、顏色、形狀、紋理、邊緣等屬性均可用來(lái)構(gòu)造CKD,采用分層級(jí)聯(lián)結(jié)構(gòu)可將子塊特征轉(zhuǎn)化為整個(gè)圖像特征描述;(2)CKD定義中的上下文約束條件有效提高了描述子的穩(wěn)定性,減少了特征誤匹配;(3)KECA特征降維能有效提取反映樣本類(lèi)別幾何結(jié)構(gòu)信息的特征,使CKD更具特征鑒別力.實(shí)驗(yàn)結(jié)果表明,CKD描述子在主流數(shù)據(jù)集上的分類(lèi)結(jié)果不僅明顯優(yōu)于KDES、SKDES和SIFT等局部特征描述子,還優(yōu)于大多數(shù)基于稀疏表示和深度學(xué)習(xí)的復(fù)雜目標(biāo)分類(lèi)模型.
參考文獻(xiàn)
[1]Lowe D.Distinctive image features from scale-invariant keypoints[J].International Journal of Computer Vision,2004,60(2):91-110.
[2]Dalal N,Triggs B.Histograms of oriented gradients for human detection[A].Schmid C.Proceedings of CVPR[C].San Diego,CA,USA:IEEE,2005.886-893.
[3]Alcantarilla P,Bartoli A,Davison A.KAZE features[A].Fitzgibbon A.Proceedings of ECCV[C].Florence,Italy:Springer,2012.214-227.
[4]Ojala T,Pietik?inen M,M?enp?? T.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J].IEEE Trans,2002,PAMI-24(7):971-987.
[5]Kannala J,Rahtu E.BSIF:Binarized statistical image features[A].Proceedings of ICPR[C].Tsukuba,Japan:IEEE,2012.1363-1366.
[6]Pedersen K,Smidt K,Ziem A,et al.Shape index descriptors applied to texture-based galaxy analysis[A].Proceedings of ICCV[C],Sydney,NSW,Australia:IEEE,2013.2240-2447.
[7]Belongie S,Malik J,Puzicha J.Shape matching and object recognition using shape contexts[J].IEEE Trans,2002,PAMI-24(4):509-522.
[8]Zitnick C.Binary coherent edge descriptors[A].Daniilidis K.Proceedings of ECCV[C].Heraklion,Crete,Greece:Springer,2010.170-182.
[9]Scholkopf B,Smola A,Mulle K.Kernel principal component analysis[A].Gerstner W.Proceedings of ICANN[C].Lausanne,Switzerland:Springer,1997.583-588.
[10]Bo L,Sminchisescu C.Efficient match kernel between sets of features for visual recognition[A].Bengio Y.Proceedings of NIPS[C].Vancouver,Canada:NIPS,2009.135-143.
[11]Lazebnik S,Schmid C,Ponce J.Beyond bags of features:spatial pyramid matching for recognizing natural scene categories[A].Fitzgibbon A.Proceedings of CVPR[C].New York,NY,USA:IEEE,2006.2169-2178.
[12]Grauman K,Darrell T.The pyramid match kernel:Efficient learning with sets of features[J].JMLR,2007,8(4):725-760.
[13]Galleguillos C,Belongie S.Context based object categorization:A critical survey[J].Computer Vision and Image Understanding,2010,114(6):712-722.
[14]Myung J,Torralba A,Willsky A.Context models and out-of-context objects[J].Pattern Recognition Letters,2012,33(7):853-862.
[15]Bo L,Ren X,Fox D.Kernel descriptors for visual recognition[A].Lafferty J.Proceedings of NIPS[C].Vancouver,Canada:NIPS,2010.244-252.
[16]Wang P,Wang J,Zeng G,et al.Supervised kernel descriptors for visual recognition[A].Proceedings of CVPR[C].Portland,Oregon,USA:IEEE,2013.2858-2865.
[17]Jenssen R.Kernel entropy component analysis[J].IEEE Trans,2010,PAMI-32(5):847-860.
[18]Principe J.Information Theoretic Learning:Renyi’s Entropy and Kernel Perspectives[M].New York:Springer,2010.
[19]Rényi A.On measures of entropy and information[A].Neyman J.Fourth Berkeley Symposium on Mathematical Statistics and Probability[C].Berkeley,CA,USA:University of California Press,1961.547-561.
[20]Parzen E.On the estimation of a probability density function and the mode[J].The Annals of Mathematical Statistics,1962,33(3):1065-1076.
[21]Li F,Fergus R,Perona P.One-shot learning of object categories[J].IEEE Trans,2006,PAMI-28(4):594-611.
[22]Jia Y,Huang C,Darrell T.Beyond spatial pyramids:Receptive field learning for pooled image features[A].Proceedings of CVPR[C].Providence,Rhode Island,USA:IEEE,2012.3370-3377.
[23]McCann S Lowe D.Spatially local coding for object recognition[A].Lee M K.Proceedings of ACCV[C].Daejeon,Korea:Springer,2012.204-217.
[24]Zeiler M,Taylor W,Fergus R.Adaptive deconvolutional networks for mid and high level feature learning[A].Schiele B.Proceedings of ICCV[C].Barcelona,Spain:IEEE,2011.2018-2025.
[25]Boureau L,Roux L,Bach F,et al.Ask the locals:Multi-way local pooling for image recognition[A].Schiele B.Proceedings of ICCV[C].Barcelona,Spain:IEEE,2011.2651-2658.
[26]Liu L,Wang L,Liu X.In defense of soft-assignment coding[A].Schiele B.Proceedings of ICCV[C].Barcelona,Spain:IEEE,2011.2486-2493.
[27]Feng J,Ni B,Tian Q,et al.Geometriclp-norm feature pooling for image classification[A].Proceedings of CVPR[C].Colorado Springs,USA:IEEE,2011.2697-2704.
[28]Jiang Z,Zhang G,Davis S.Submodular dictionary learning for sparse coding[A].Proceedings of CVPR[C].Providence,Rhode Island,USA:IEEE,2012.3418-3425.
[29]Oliveira G,Nascimento E,Vieira A.Sparse spatial coding:a novel approach for efficient and accurate object recognition[A]. Proceedings of ICRA[C].St Paul,MN,USA:IEEE,2012.2592-2598.
[30]Bo L,Ren X,Fox D.Multipath sparse coding using hierarchical matching pursuit[A].Proceedings of CVPR[C].Portland,Oregon,USA:IEEE,2013.660-667.
[31]Torralba A,Fergus R,Freeman W.80 million tiny images:A large data set for nonparametric object and scene recognition[J].IEEE Trans,2008,PAMI-30(11):1958-1970.
[32]Yu K,Zhang T.Improved local coordinate coding using local tangents[A].Proceedings of ICML[C].Haifa,Israel:Omnipress,2010.1215-1222.
[33]Goodfellow I,Courville A,Bengio Y.Spike-and-Slab sparse coding for unsupervised feature discovery[A].NIPS Workshop on Challenges in Learning Hierarchical Models[C].Granada,Spain:NIPS,2011.
[34]Ciresan D,Meier U Schmidhuber J.Multi-columndeep neural networks for image classification[A].Proceedings of CVPR[C].Providence,Rhode Island,USA:IEEE,2012.3642-3649.
[35]Zeiler M,Fergus R.Stochastic pooling for regularization of deep convolutional neural networks[A].Goodfellow I.Proceedings of ICLR[C].Scottsdale,Arizona,USA:IEEE,2013.
[36]Le Q,Ngiam J,Chia C,et al.Tiled convolutional neural networks[A].Lafferty J.Proceedings of NIPS[C].Vancouver,Canada:NIPS,2010.1279-1287.
[37]Gens R,Domingos P.Discriminative learning of sum-product networks[A].Pereira F.Proceedings of NIPS[C].Lake Tahoe,Nevada,USA:NIPS,2012.1-9.
[38]Bo L,Lai K,Ren X,et al.Object recognition with hierarchical kernel descriptors[A].Proceedings of CVPR[C].Colorado Springs,USA:IEEE,2011.1729-1736.
潘泓(通信作者)男,1974年生于江蘇.現(xiàn)為東南大學(xué)自動(dòng)化學(xué)院副教授.主要研究方向?yàn)闄C(jī)器學(xué)習(xí),模式識(shí)別,特征提取與選擇,目標(biāo)分類(lèi)與檢測(cè),計(jì)算機(jī)視覺(jué).
E-mail:enhpan@seu.edu.cn
朱亞平女,1977年生于河南.現(xiàn)為中國(guó)傳媒大學(xué)信息工程學(xué)院教授.主要研究方向?yàn)閳D像處理和機(jī)器學(xué)習(xí).
E-mail:zhuyaping@cuc.edu.cn
夏思宇男,1978年生于湖北.現(xiàn)為東南大學(xué)自動(dòng)化學(xué)院副教授.主要研究方向?yàn)闄C(jī)器學(xué)習(xí),模式識(shí)別,社交媒體分析等.
E-mail:xsy@seu.edu.cn
金立左男,1972年生于江蘇.現(xiàn)為東南大學(xué)自動(dòng)化學(xué)院副教授.主要研究方向機(jī)器視覺(jué)、模式識(shí)別、機(jī)器學(xué)習(xí)、信息融合與嵌入式系統(tǒng).
E-mail:jinlizuo@gmail.com
Object Classification Using Context Cue and Kernel Entropy Component Analysis
PAN Hong1,2,ZHU Ya-ping3,XIA Si-yu1,2,JIN Li-zuo1,2
(1.SchoolofAutomation,SoutheastUniversity,Nanjing,Jiangsu210096,China;2.KeyLaboratoryofMeasurementandControlofCSE,MinistryofEducation,SoutheastUniversity,Nanjing,Jiangsu210096,China;3.SchoolofInformationEngineering,CommunicationUniversityofChina,Beijing100024,China)
Abstract:Combining the context cue of image attributes and kernel entropy component analysis (KECA),we proposed a context-based local feature descriptor called context kernel descriptors (CKD).Context cue implied in the CKD improves its robustness,thus reducing false matches during feature correspondence.KECA applied in the feature dimensionality reduction step selects the principal eigenvectors that contribute most to the geometrical structure of input images.Projecting the full-dimensional CKD onto the subspaces spanned by these principal eigenvectors,we derive the final low-dimensional CKD.Evaluation results on Caltech-101 and CIFAR-10 show that the classification performance of the proposed CKD significantly outperforms other local descriptors,and even surpasses most sparse representation-based and deep learning-based sophisticated object classification methods.
Key words:context kernel descriptors;kernel entropy component analysis;feature reduction;object classification
作者簡(jiǎn)介
DOI:電子學(xué)報(bào)URL:http://www.ejournal.org.cn10.3969/j.issn.0372-2112.2016.03.013
中圖分類(lèi)號(hào):TP391
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):0372-2112 (2016)03-0580-07
基金項(xiàng)目:國(guó)家自然科學(xué)基金(No.61101165);江蘇省自然科學(xué)基金(No.BK20131296,No.BK20130639);航空科學(xué)基金(No.20115169016);國(guó)家科技支撐計(jì)劃課題(No.2012BAH02B03)
收稿日期:2014-07-18;修回日期:2014-11-21;責(zé)任編輯:覃懷銀