肖文華包衛(wèi)東 陳立棟 王 煒 張茂軍
(國防科技大學(xué)信息系統(tǒng)與管理學(xué)院 長沙 410073)
一種用于圖像分類的語義增強(qiáng)線性編碼方法
肖文華*包衛(wèi)東 陳立棟 王 煒 張茂軍
(國防科技大學(xué)信息系統(tǒng)與管理學(xué)院 長沙 410073)
針對傳統(tǒng)編碼模型中存在的編碼歧義性問題,該文提出一種考慮特征上下文的語義增強(qiáng)線性編碼方法。首先,通過學(xué)習(xí)局部鄰域中特征共生關(guān)系矩陣來表示上下文信息。然后,在編碼過程中同時引入學(xué)習(xí)而得的上下文信息與特征上下文匹配權(quán)重得到語義增強(qiáng)編碼模型。由于上下文信息與上下文匹配權(quán)重的功能,使得此編碼方法不僅豐富了編碼的語義信息,還能夠有效避免噪聲帶來的影響。在3個基準(zhǔn)數(shù)據(jù)集(Scene15, Caltech101以及 Caltech256)上充分的實(shí)驗(yàn)驗(yàn)證了該方法的有效性。
圖像分類;特征編碼;上下文約束;歧義性
由于在機(jī)器人[1],衛(wèi)星與遙感[2,3],醫(yī)學(xué)[4]等領(lǐng)域應(yīng)用前景廣泛,自動圖像分類技術(shù)已受到全世界學(xué)者們持續(xù)增長的關(guān)注。在最近的圖像分類研究工作中,特征袋[5](Bag of Featue,BoF)是最流行也是最有效的模型。BoF主要包含以下通用步驟:特征提取,字典學(xué)習(xí),特征編碼,池處理以及分類。在以上步驟中,特征編碼聯(lián)系了特征提取與池處理,是方法的核心部分,對圖像分類的精度以及速度都有很大影響[6]。由于特征編碼的關(guān)鍵作用,近年來對其編碼策略的研究已受到越來越廣泛的關(guān)注。
特征編碼可以被認(rèn)為是選擇少量字典基并賦予相應(yīng)的權(quán)重來表示特征的過程, 已有不少文章提出了不同的編碼方法。文獻(xiàn)[5,7]采用向量量化(Vector Quantization, VQ)方法,僅將特征編碼到離其最近的基上,簡單有效但是會產(chǎn)生較大的量化誤差。為了克服此缺點(diǎn),文獻(xiàn)[8]提出一種更魯棒的軟向量量化 (Soft Vector Quantization, SVQ)方法,將特征編碼到所有字典基上,并以距離的高斯核函數(shù)作為分配權(quán)重,以減小量化誤差。其更進(jìn)一步的改進(jìn)是局部軟向量量化[9](Localized Soft Vector Quantization, LSVQ),不同于SVQ將權(quán)重分布在所有基上,此方法將權(quán)重的分布限定在局部臨域。為了減小VQ方法存在的量化誤差, 文獻(xiàn)[10]提出了稀疏編碼(Sparse Coding, SC) 方法, 即通過稀疏約束將少量的字典基分配給特征,但其缺點(diǎn)是計算復(fù)雜度高并且對相似特征編碼時容易產(chǎn)生編碼不一致問題。此后,對SC的改進(jìn)不斷涌現(xiàn)。文獻(xiàn)[11] 提出了一種局部約束線性編碼(Locality-constrained Linear Coding, LLC)方法,在保證稀疏性的同時克服SC方法復(fù)雜度高的問題。文獻(xiàn)[12] 提出了一種拉普拉斯稀疏編碼(Laplacian Sparse Coding, LSC)方法,解決了相似特征編碼的結(jié)果不一致問題。 然而,由于其中特征關(guān)系矩陣維數(shù)非常高,導(dǎo)致計算復(fù)雜度非常高。文獻(xiàn)[13]提出了空間金字塔魯棒稀疏編碼(Spatial Pyramid Robust Sparse Coding, SP-RSC)方法,克服了編碼時空間關(guān)系丟失問題, 而且還提出了拉普拉斯仿射稀疏編碼(Laplacian Affine Sparse Coding, LASC)方法[14],將傾斜度與方向因子引入目標(biāo)函數(shù)中,解決了成像時造成的特征判別性不強(qiáng)問題。
雖然,學(xué)者們對編碼模型提出了諸多改進(jìn),但編碼中存在的歧義性問題仍未得到解決。針對此問題,本文對LLC編碼方法進(jìn)行改進(jìn),通過將上下文約束引入編碼過程中,提出一種語義增強(qiáng)線性編碼(Semantic enhanced Linear Coding, SLC)方法。本文的主要貢獻(xiàn)在于:(1)與傳統(tǒng)方法通過上下文思想學(xué)習(xí)高層特征不同,本文將上下文思想引入特征編碼中,并以共生矩陣對其進(jìn)行描述,旨在解決編碼歧義問題。(2)通過在LLC模型上引入上下文約束和權(quán)重匹配,提出了語義增強(qiáng)的線性編碼模型。
編碼歧義問題是由相似特征表示不同圖像而產(chǎn)生的。如圖1所示,A1與B1分別代表兩幅圖像中的正方形角點(diǎn),具有相似特征F,但代表不同語義(表示不同圖像)。顯然,A1與B1應(yīng)該采用不同的基進(jìn)行編碼以更好地區(qū)分這兩幅圖像。而當(dāng)利用前述方法(如VQ, SVQ, SC以及LLC)編碼時會得到相似編碼結(jié)果,達(dá)不到區(qū)分A1與B1的目的, 本文稱此問題為編碼歧義問題。
圖1 編碼歧義示例
上下文思想是一種通過考慮特征鄰域增強(qiáng)判別性的思想,本文亦采用此思想解決以上問題。如圖1,當(dāng)對A1與B1進(jìn)行編碼時考慮其鄰近特征A2與 B2,判別性顯然增強(qiáng)了, 從而有利于區(qū)分A1與B1。上下文思想已在機(jī)器視覺領(lǐng)域(如圖像分類[15]和動作識別[16])廣泛應(yīng)用,本文與其不同之處在于:傳統(tǒng)上下文思想主要利用上下文思想提取高層語義特征,而本文則將其引入特征編碼過程中。另外,鑒于LLC編碼的高效性以及其二范式約束項與上下文約束有著良好的契合性,本文選擇在此模型基礎(chǔ)上進(jìn)行改進(jìn)。基于以上思想,本文所提方法主要由兩個部分組成:描述上下文信息的共生矩陣構(gòu)建以及語義增強(qiáng)線性編碼模型的建立,下面對這兩個方面作詳細(xì)介紹。
3.1 共生矩陣的構(gòu)建
本文通過構(gòu)建特征間共生關(guān)系矩陣描述上下文信息。方法基于如此觀測現(xiàn)象:對于一類特定場景或圖像來說,在其局部臨域,各圖像常常表現(xiàn)出相似的共生模式。例如,在臥室場景中,床、衣柜和枕頭往往呈現(xiàn)出共生關(guān)系。就特征層來講,作者認(rèn)為這種模式能由圖像中局部臨域中特征之間的共生關(guān)系反映。本節(jié),提出一種新穎而簡單的方法來描述這種關(guān)系,對于單副圖像共生關(guān)系矩陣的構(gòu)建流程如圖2所示, 其詳細(xì)步驟所述為:
給定一訓(xùn)練集,首先利用K均值算法[17](K-Means)構(gòu)建大小為D的字典。對于一特定圖像類,記X ={xi∈RM, i∈1,2,…,Nt}為從此類選取的訓(xùn)練特征集,其中xi為特征描述子,M為特征維數(shù),Nt為特征個數(shù)。然后,基于字典D,通過K近鄰(KNearest Neighbor, K-NN)算法對這些特征進(jìn)行標(biāo)簽。記fi={xi,li,pi}為第i個特征,其中,li(1≤li≤D)對應(yīng)于字典中基的索引號,pi={xi,yi}記錄了此特征中心所處的像素位置。因此,所有的特征可以被分成D個集合,記此集合為S={S1,S2,…,SD},其中包含了所有標(biāo)簽為i的特征,Ni為Si中特征個數(shù)。為了獲取局部特征間關(guān)系,定義特征fi的上下文域?yàn)?/p>
其中,?(pi)表示特征fi的局部臨域,本文以中心為pi,半徑為r的圓表示(如圖2中的圓)。顯然,fi的上下文域Ci包含了其局部臨域?(pi)中的所有特征。因而,對于集合Si中的第j個特征Sij,在其上下文域中,可以統(tǒng)計得到一D維的向量,其中(l=1,2,…,D)為Sij上下文中標(biāo)簽為l的特征個數(shù)。對Si中所有特征得到的向量進(jìn)行累加后,即可獲得第i個字典基的臨域分布直方圖hi
圖2 共生矩陣構(gòu)造流程
不同關(guān)系矩陣,其灰度分布的顯著區(qū)別說明了
“Background_google”與 “accordion”局部上下文的差異性。作者認(rèn)為這就是上下文信息能解決編碼歧義問題的原因所在。對所有類重復(fù)以上步驟后,就可以構(gòu)建所有類的關(guān)系矩陣,記之為{H1,H2,…,Hnc}, nc為圖像類別數(shù)。
3.2 語義增強(qiáng)線性編碼
通過共生矩陣獲得上下文信息之后,將其集成到LLC[11]編碼模型中并對其進(jìn)行改進(jìn)。記=[x1, X x2,…,xN]∈RM×N為一從圖像中提取的M維特征集合。給定一維度為D的字典B=[b1,b2,…,bD]∈RM×D, (其中bi(i=1,2,…,D)為第i個字典基)以及所有類的關(guān)系矩陣[H1,H2,…,Hnc],則可根據(jù)模板矩陣Hp,(p=1,2,…,nc)通過建立如式(3)所示的目標(biāo)函數(shù)從而將上下文信息引入到編碼過程中
圖3 以深度圖表示的關(guān)系矩陣
其中,ci∈RD為xi的編碼結(jié)果,dfi表示xi與B在特征空間的距離,這與LLC[11]表示相同。不同之處在于dci和w的引入。dci表示xi與B的連接權(quán)重。詳細(xì)地,
其中,conn(xi,B)=[conn(xi,b1),conn(xi,b2),…, conn(xi,bD)]T,且conn(xi,bj)表示xi與bj之間的連接權(quán)重。σ為調(diào)整上下文空間局部權(quán)重因子下降速度的參數(shù)。λ為控制特征空間與上下文空間約束程度的參數(shù)。α代表了特征空間的局部約束權(quán)重而β代表了上下文空間的局部約束權(quán)重。實(shí)際上,α與β可以通過參數(shù)λ進(jìn)行調(diào)節(jié)。本文引入這兩個參數(shù)的原因主要是為了在實(shí)驗(yàn)階段研究dfi與dci對模型的性能的影響。假若xi的標(biāo)簽為l,則conn(xi,bj)可以近似地計算如下:
為降低噪聲對模型性能的影響,式(3)中引入因子w,其測量了被編碼特征xi的上下文共生模式與模板矩陣pH中相應(yīng)共生模式的匹配程度。其詳細(xì)計算過程如表1所示。即首先獲得xi上下文域Ci,然后對Ci所有特征從模板矩陣pH獲得與xi的共生強(qiáng)度值,并將獲得的共生強(qiáng)度平均值作為當(dāng)前特征xi的上下文與第p個圖像類的上下文擬合程度,記為。對每一Hp(p=1,2,…,nc),則可獲得,,…,。最后,為將歸一化至[0 1],設(shè)=exp(2(?max_w )),其中max_w代表(p=1,2,…,nc)的最大值,n為xi上下文域特征個數(shù)。 顯然,若xi是從第p類的圖像中提取的特征,由于其局部上下文與第p類的上下文相似,因而的值會較大。否則,由于其上下文差距較大,的值就會較小。另外,從式(3)的解析解(見式(6)),可以得出如下結(jié)論:的值越大,編碼系數(shù)的值也越大,反之亦然。由于噪聲特征常常不與任何模板的上下文匹配,導(dǎo)致噪聲特征編碼系數(shù)會非常小。因而,當(dāng)利用Max Pooling[10]來獲取最終圖像表示時,噪聲則可被剔除。
對每一個Hp,p=1,2,…,nc,通過以上方法對特征xi進(jìn)行編碼,得到編碼系數(shù)[,,…,]。其中代表對應(yīng)于第p類的關(guān)系矩陣Hp的編碼系數(shù)。給定一個擁有N個描述子X={xi∈RM,i ∈1,2,…,N}的圖像,對應(yīng)于關(guān)系矩陣{H1,H2,…,Hnc}的編碼系數(shù)為由于Max Pooling被廣泛應(yīng)用于模式識別任務(wù)[10?13]中,并且被證明與大腦視覺皮層的特性一致,本文在系數(shù)矩陣c上進(jìn)行Max Pooling操作,得到圖像的最終表示。
表1 因子w計算過程
此節(jié)對模型性能進(jìn)行了分析并闡述了其優(yōu)點(diǎn)。
4.1 模型進(jìn)化
當(dāng)控制參數(shù)w, α 以及 β時,本文編碼模式會退化成兩種特殊的情況。(1)當(dāng)w=1 以及α=1, β=0時,模型只考慮了在特征空間的局部約束性,因而SLC退化成LLC模型。(2)當(dāng)w=1 以及 α=0, β=1時,SLC退化為只考慮上下文空間局部約束的編碼模型。
4.2 模型優(yōu)點(diǎn)
與傳統(tǒng)的VQ, SVQ, SC, LSC以及 LLC等編碼方式相比,SLC編碼模式有以下優(yōu)點(diǎn)。
(1)避免了編碼的歧義性。SLC同時在特征空間和上下文空間進(jìn)行局部約束編碼。在特征空間的局部性保證了重構(gòu)誤差的精度,而在上下文空間的局部性確保了編碼的語義性。因此,通過將上下文信息引入到編碼模型中,本文在解決編碼的歧義性問題同時又保證了重構(gòu)精度。
(2)有去噪能力。對此,分別從Caltech101選取了類別Wild_cat, Panda, pagoda以及從Caltech256選取了類別American-flag, Sunflower-101進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)時每隔8個像素進(jìn)行稠密采樣提取局部特征,并通過表1中算法1計算每個特征對應(yīng)w值。結(jié)果如圖4所示,圓圈代表在條件w>0.4下保存的特征。通常,每幅圖片中都有許多特征(比如從圖4(a)美國國旗復(fù)雜背景中提取的特征)不僅對描述圖像無用而且還影響了圖像描述的準(zhǔn)確性,本文稱這些特征為噪聲。由于這些噪聲的上下文不與任何模板上下文匹配(w值很小),當(dāng)利用SLC編碼時,會導(dǎo)致其編碼系數(shù)非常小。進(jìn)一步,當(dāng)采用Max Pooling策略獲取最終圖像表示時,將導(dǎo)致這些噪聲不會對最終的圖像表示有任何影響。如圖4所示,大部分描述背景的特征去除了而每類描述目標(biāo)本身的特征保留了。
圖4 w的去噪功能實(shí)驗(yàn)結(jié)果
(3) 快速系數(shù)求解。由于其目標(biāo)函數(shù)的凸性,SLC繼承了LLC的獨(dú)特優(yōu)點(diǎn):目標(biāo)函數(shù)具有解析解。通過推導(dǎo)可得其解析解為
其中
Ψ=2(Q+λdiag(di)2),Q=(xi1T?B)T(xi1T?B)其他變量意義與上文相同,且
此外,與LSC對所有特征同時進(jìn)行編碼不同,SLC對特征獨(dú)立地進(jìn)行編碼且能保持他們的相互關(guān)系。這使得在分布式計算模型Mapreduce[19]下,即使處理海量數(shù)據(jù),都能達(dá)到實(shí)時的速度。因而,對實(shí)際應(yīng)用有非常重要的意義。
本節(jié)在3個廣泛采用的圖像數(shù)據(jù)庫Scene15[7], Catech101[19]and Caltech256[20]上進(jìn)行實(shí)驗(yàn)以驗(yàn)證所提方法的有效性。首先,通過比較LLC與SLC來驗(yàn)證考慮上下文信息的有效性。然后,將SLC在3個數(shù)據(jù)庫上的測試結(jié)果與當(dāng)前最好結(jié)果進(jìn)行了對比。
5.1 實(shí)驗(yàn)設(shè)置
為實(shí)驗(yàn)對比時公平起見,在所有進(jìn)行的實(shí)驗(yàn)中,均采用以下相同的實(shí)驗(yàn)設(shè)置。對于所有數(shù)據(jù)集,首先縮放圖像使其寬與高不超過300像素。在所有數(shù)據(jù)集上采用單層的16×16塊,間隔為8像素方式提取稠密尺度不變特征轉(zhuǎn)換(Scale-Invariant Feature Transform, SIFT)特征[21]。通過隨機(jī)選擇約510特征并利用K-Means[17]訓(xùn)練得到字典。在數(shù)據(jù)集Caltech101, Caltech256, Scene15上分別在每類中隨機(jī)選擇30, 30, 100幅圖像作為訓(xùn)練數(shù)據(jù),其他剩余的作為測試數(shù)據(jù)。為了獲得最終的圖像表示,采用3層的空間金字塔[7]以及Max Pooling方法[10]。在分類階段采用Linear SVM package[22],所有的實(shí)驗(yàn)都進(jìn)行了10次,并以平均值作為最終的實(shí)驗(yàn)結(jié)果。
5.2 上下文信息的有效性
為了驗(yàn)證本文考慮上下文因子的有效性,本文基于LLC[11]作者提供的代碼對其重新實(shí)現(xiàn)并與原有算法進(jìn)行對比。此對比實(shí)驗(yàn)在Caltech101上進(jìn)行,實(shí)驗(yàn)中,通過多次試驗(yàn)分析選擇最佳參數(shù)組合(α=0.6, β=0.4, r=17)。實(shí)驗(yàn)將LLC方法誤分率最大的10類與本文SLC算法進(jìn)行了詳細(xì)對比。如圖5, SLC相比LLC在大多數(shù)圖像類上都顯著(在“鴨嘴獸”上最大改進(jìn)了12%)提高了分類準(zhǔn)確率,甚至在易混淆的類如“龍蝦”,“蟹” 以及 “小龍蝦”亦是如此。作者認(rèn)為此改進(jìn)主要是由于上下文信息的考慮。因?yàn)?,易混淆的類在?xì)節(jié)上可能很相似,對于LLC編碼來說,編碼歧義性問題未能解決,因而會產(chǎn)生較大的誤分率;然而,對SLC編碼方法來說,由于其考慮上下文解決了編碼歧義性問題,使易混淆的類更易區(qū)分。
5.3 與其他算法對比
圖5 在最易錯分10類的詳細(xì)對比
表2 與已發(fā)布的編碼方法對比(%)
本節(jié),將本文方法與一些已發(fā)布的方法在3個數(shù)據(jù)集上進(jìn)行對比。比較主要聚焦于以下兩種編碼策略:LSVQ與LLC,因?yàn)檫@兩種編碼方法是當(dāng)前綜合性能最好方法的代表。需要提及的是文獻(xiàn)[9,11]所獲得的結(jié)果是在與本文不同設(shè)置下產(chǎn)生的。比如,LLC[11]方法中每個8像素提取多尺度特征,LSVQ方法[9]中采用mix-order Max-Pooling,并且字典大小也不盡相同。為公平比較,作者重寫了這兩種方法并按照本文的設(shè)置進(jìn)行實(shí)驗(yàn)。同時,也與這些方法的其他實(shí)現(xiàn)方式進(jìn)行了對比以更充分地評估本文方法。在此試驗(yàn)中,在所有數(shù)據(jù)集上采用相同的參數(shù)設(shè)置α=0.6,β=0.4,r=17。根據(jù)LLC的設(shè)置方法,實(shí)驗(yàn)利用K-Means方法分別在Scene15, Caltech101 和 Caltech256訓(xùn)練大小為1024, 2048和4096的字典。如表2所示,本文SLC算法在3種不同數(shù)據(jù)庫不同設(shè)置下都優(yōu)于大部分已發(fā)布的方法,部分設(shè)置只比文獻(xiàn)[14]稍差。但是,由于文獻(xiàn)[14]包含復(fù)雜的拉普拉斯矩陣運(yùn)算,本文方法相比文獻(xiàn)[14]在計算速度上有較大優(yōu)勢。同時,注意到本文的LLC版本結(jié)果比文獻(xiàn)[11]中的LLC結(jié)果稍差。這可能是由于本文采用單尺度的特征而文獻(xiàn)[11]中采用多尺度特征的原故。同樣值得注意的是本文實(shí)現(xiàn)的LSVQ在Sence15上獲得了比原始LSVQ[9]更好的效果,這可能歸功于本文所采用字典大于原始文獻(xiàn)[9]所采用的字典。另外,本文方法在數(shù)據(jù)集Caltech101與Caltech256上優(yōu)于所有列出的大部分方法,而在數(shù)據(jù)集Scene15并不是表現(xiàn)最好的。就此方面而言,本文方法更適合于目標(biāo)識別而非場景圖像分類。作者認(rèn)為可能是由于這樣一個事實(shí):在局部區(qū)域中對象圖像通常比場景圖像具有更相似的上下文,因而在對象圖像中考慮上下文信息比場景圖像中考慮上下文更有效。盡管如此,在數(shù)據(jù)集Scene15上,本文SLC方法計算更快,并比LLC方法有所提高而且達(dá)到了與大部分列出的方法相近的結(jié)果。
為緩解編碼的歧義性問題,本文通過考慮上下文信息提出了一種新穎的改進(jìn)LLC的SLC方法。由于考慮了上下文信息以及特征匹配權(quán)重w,該方法不僅能幫助解決編碼歧義性問題,而且能夠克服噪聲特征所產(chǎn)生的數(shù)據(jù)變形問題,從而能提高分類準(zhǔn)確率。在Caltech101與Caltech256數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明了本文方法的有效性。同時,在Scene15數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果表明,相比場景圖像分類來說,此方法更適用于目標(biāo)圖像分類。
[1] Espinace P, Kollar T, Roy N, et al.. Indoor scene recognition by a mobile robot through adaptive object detection[J]. Robotics and Autonomous Systems, 2013, 61(9): 932-947.
[2] 蔣飛云, 孫銳, 張旭東, 等. 基于二次表示的空間目標(biāo)圖像分類[J]. 電子與信息學(xué)報, 2013, 35(5): 1247-1251. Jiang Fei-yun, Sun Rui, Zhang Xu-dong, et al.. Space target image categorization based on the second representation[J]. Journal of Electronics & Information Technology, 2013, 35(5): 1247-1251.
[3] Zhang Y, Zheng X W, Liu G, et al.. Semi-supervised manifold learning based multigraph fusion for high-resolution remote sensing image classiffication[J]. IEEE Geoscience and Remote Sensing Letters, 2014, 11(2): 464-468.
[4] Zhang Y, Zhang B, Coenen F, et al.. One-class kernel subspace ensemble for medical image classification[J]. EURASIP Journal on Advances in Signal Processing, 2014, (17): 1-13.
[5] Csurka G, Dance C, Fan L, et al.. Visual categorization with bags of keypoints[C]. Proceedings of the European Conference on Computer Vision on Statistical Learning in Computer Vision, Prague, Czech Republic, 2004: 59-74.
[6] Huang Y, Wu Z, Wang L, et al.. Feature coding in image classiffication: a comprehensive study[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(3): 493-506.
[7] Lazebnik S, Schmid C, and Ponce J. Beyond bags of features: spatial pyramid matching for recognizing natural scenecategories[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, New York, USA, 2006: 2169-2178.
[8] Gemert J C, Geusebroek J, Veenman C J, et al.. Kernel codebooks for scene categorization[C]. Proceedings of the European Conference on Computer Vision, Marseille, France, 2008(5304): 696-709.
[9] Liu L, Wang L, and Liu X. In defense of soft-assignment coding[C]. Proceedings of the International Conference on Computer Vision, Barcelona, Spain, 2011: 2486-2493
[10] Yang J, Yu K, Gong Y, et al.. Linear spatial pyramid matching using sparse coding for image classification[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Miami, Florida, USA, 2009: 1794-1801.
[11] Wang J Yang J, Yu K, et al.. Locality-constrained linear coding for image classification[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, San Francisco, USA, 2010: 3360-3367.
[12] Gao S, Tsang I W, Chia L, et al.. Laplacian sparse coding, hypergraph Laplacian sparse coding, and applications[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(1): 92-104.
[13] Zhang C, Wang S, Huang Q, et al.. Image classification using spatial pyramid robust sparse coding[J]. Pattern Recognition Letters, 2013, 34(9): 1046-1052.
[14] Zhang C, Wang S, Huang Q, et al.. Laplacian affine sparse coding with tilt and orientation consistency for image classification[J]. Journal of Visual Communication and Image Representation, 2013, 24(7): 786-793.
[15] Qi G J, Hua X S, Rui Y, et al.. Image classification with Kernelized spatial-context[J]. IEEE Transactions on Multimedia, 2010, 12(4): 278-287.
[16] Wu X, Xu D, and Duan L. Action recognition using context and appearance distribution features[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Providence, RI, 2011: 489-496.
[17] Sivic J and Zisserman A. Video google: a text retrieval approach to object matching in videos[C]. Proceedings of the International Conference on Computer Vision, Nice, France, 2003: 1470-1477.
[18] Li F, Fergus R, and Perona P. Learning generative visual models from few training examples: an incremental Bayesian approach tested on 101 object categories[J]. Computer Vision and Image Understanding, 2007, 10(1): 59-70.
[19] Dean J and Ghemawat S. MapReduce: simplified data processing on large clusters[J]. Communications of the ACM, 2008, 51(1): 107-113.
[20] Griffin G, Holub A, and Perona P. Caltech-256 Object Category Dataset[R]. Technical Report, California Institute of Technology, 2007.
[21] Lowe D G. Distinctive image features from scale invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110.
[22] Fan R E, Chang K W, Hsieh C J, et al.. LIBLINEAR-a library for large linear classification[OL]. http://www.csie. ntu.edu.tw/~cjlin/liblinear/. 2014.7.
肖文華: 男,1988年生,博士生,研究方向?yàn)槎嗝襟w技術(shù)、指揮信息系統(tǒng).
包衛(wèi)東: 男,1971年生,教授,博士生導(dǎo)師,研究方向?yàn)槎嗝襟w技術(shù)、指揮信息系統(tǒng).
陳立棟: 男,1985年生,講師,研究方向?yàn)槎嗝襟w技術(shù).
A Semantic Enhanced Linear Coding for Image Classification
Xiao Wen-hua Bao Wei-dong Chen Li-dong Wang Wei Zhang Mao-jun
(Information System and Management College, National University of Defense Technology, Changsha 410073, China)
Considering the ambiguity problem in the traditional feature coding model, a feature context-aware semantic enhanced linear coding method is proposed. At first, the context information is represented by the concurrence matrix learnt from local area of the features. Then, the context information and a context matching weight are introduced into the coding model to form a new semantic enhanced coding model. Owning to the functions of context information and the context matching weight, this model not only enriches the semantic meaning of coding, but also efficiently avoids the affects of noise. Experiments on the baselines (Scene15, Caltech101, and Caltech256) demonstrate the effectiveness of the proposed method.
Image classification; Feature coding; Context constraint; Ambiguity
TP391
: A
:1009-5896(2015)04-0791-07
10.11999/JEIT140743
2014-06-05收到,2014-08-29改回
國家自然科學(xué)基金(61175006)和博士學(xué)科點(diǎn)專項科研基金(20134307110029)資助課題
*通信作者:肖文華 wenhuaxiao@nudt.edu.cn