朱 杰,吳樹芳,謝博鋆,馬麗艷
(1.中央司法警官學(xué)院 信息管理系, 河北 保定 071000; 2.天津大學(xué) 管理與經(jīng)濟學(xué)部,天津 300072;3.河北大學(xué) 管理學(xué)院,河北 保定 071000; 4.河北大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院,河北 保定 071000;5.中國科學(xué)院 微電子研究所,北京 100029)
基于顏色的壓縮層次圖像表示方法
朱 杰1,吳樹芳2,3*,謝博鋆4,馬麗艷5
(1.中央司法警官學(xué)院 信息管理系, 河北 保定 071000; 2.天津大學(xué) 管理與經(jīng)濟學(xué)部,天津 300072;3.河北大學(xué) 管理學(xué)院,河北 保定 071000; 4.河北大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院,河北 保定 071000;5.中國科學(xué)院 微電子研究所,北京 100029)
空間金字塔模型在每層中把圖像劃分成細(xì)胞單元用于給圖像表示提供空間信息,但是這種方式不能很好地匹配對象上的不同部分,為此提出一種基于顏色的層次(CL)劃分算法。CL算法從多特征融合的角度出發(fā),通過優(yōu)化的方式在不同層次中得到每個類別中有判別力的顏色,然后根據(jù)每層中有判別力的顏色對圖像進行迭代的層次劃分;最后連接不同層次直方圖用于圖像表示。為了解決圖像表示維度過高的問題,采用分化信息理論的特征聚類(DITC)方法對字典進行聚類用于字典降維,并用壓縮生成的字典進行最終的圖像表示。實驗結(jié)果表明,所提方法能夠在Soccer,F(xiàn)lower 17 和Flower 102上取得良好的識別效果。
有判別力的顏色;層次;維度約減;分化信息理論的特征聚類;對象識別
詞袋模型(Bag-Of-Words, BOW)[1]是對象識別和場景分類領(lǐng)域最成功的方法之一[2-3]。這種方法把圖像表示為局部特征的直方圖形式。BOW利用局部特征構(gòu)造字典,然后通過統(tǒng)計圖像中出現(xiàn)的視覺詞的數(shù)量來表示圖像,最終用于圖像分類。
但是,BOW模型忽略了不同特征之間的空間和位置關(guān)系。為了給模型提供空間信息,Berg等[4]通過對于幾何對應(yīng)位置的搜索來給特征表示提供空間信息; 文獻[5-6]的方法中用特征向量之間的上下文關(guān)系給BOW增加空間位置關(guān)系; Li等[7]通過局部圖像塊之間的關(guān)系構(gòu)造了上下文詞袋模型(Contextual BOW, CBOW)方法,用于給圖像表示提供空間信息;Feng等[8]用局部出現(xiàn)的相關(guān)特征來產(chǎn)生有判別力的直方圖表示;Tang等[9]通過發(fā)現(xiàn)不同特征之間的模式來進行圖像表示。有判別力的模式更能夠體現(xiàn)出圖像內(nèi)容的本質(zhì)特征,Tang等[10]通過多示例學(xué)習(xí)的方法發(fā)現(xiàn)有判別力的模式用于圖像分類。
在眾多的研究當(dāng)中,空間金字塔匹配(Spatial Pyramid Matching, SPM)[11]是最經(jīng)典的方法之一,并且得到了普遍的認(rèn)可。空間金字塔在場景識別和對象識別領(lǐng)域都取得了良好的效果,空間金字塔將圖像劃分成不同的層次,并且在不同的層次下把圖像劃分成不同的細(xì)胞單元(cell);然后,分別對每個細(xì)胞單元的圖像區(qū)域進行直方圖表示;最后,把不同層次的區(qū)域直方圖串接起來作為最終的圖像表示??臻g金字塔存在的一個主要問題是圖像的硬劃分方式不合理,它在不同層次中把圖像不斷地細(xì)分為大小相等的細(xì)胞單元,這種方式的確能夠提供一種由粗到細(xì)的劃分方式,并且能夠為相鄰的圖像塊提供空間信息,但是不能保證每個細(xì)胞單元有唯一的語義表示。圖1為圖像的空間金字塔劃分方法,圖像被劃分成了3個不同的層次,在每個層次中,圖像被劃分成了大小相同的細(xì)胞單元。從圖1中不難發(fā)現(xiàn),每個細(xì)胞單元并不能表示成一個有確定語義信息的內(nèi)容。在第1層當(dāng)中,每個細(xì)胞單元包含了花朵的一部分和背景,在第2層當(dāng)中,有的細(xì)胞單元包含花朵的一部分,有的只包含背景。并且在最終圖像表示的時候沒有考慮到不同細(xì)胞單元間特征的關(guān)系即沒有考慮到應(yīng)該把細(xì)胞單元表示為對象的某個特定區(qū)域。此外,隨著層次的深入,圖像的向量表示長度會不斷增大,例如,一個2層空間金字塔,需要連接1+4+16=21個局部直方圖表示,如何控制字典的維度也是一個需要解決的問題。
本文主要著手解決了兩個問題:首先,為了克服空間金字塔硬劃分的缺點,從多特征融合的角度出發(fā)對圖像進行分層。把顏色作為誘導(dǎo)劃分的依據(jù);其次,為了縮短字典維度進而提高分類精度,本文采用了分化信息理論的特征聚類(Divisive Information-Theoretic feature Clustering, DITC)[12]聚類方法對字典的維度進行約減。
圖1 空間金字塔劃分Fig. 1 SPM partition
算法流程如下所示:首先,計算出不同顏色的判別性,并利用不同類別顏色的優(yōu)化選擇對圖像進行分層;然后,把不同層次圖像劃分的表示連接起來作為整幅圖像的表示,為了解決圖像表示維度過高的問題,算法對特征字典進行了壓縮,并利用壓縮后的字典進行最終的圖像表示。
發(fā)現(xiàn)對象區(qū)域是對象識別的一個重要環(huán)節(jié),顏色是一種有效判斷對象區(qū)域的手段。圖像中存在不同的顏色,本文認(rèn)為每類中有判別力的顏色的區(qū)域代表對象或?qū)ο笊夏硞€部分的某個區(qū)域。準(zhǔn)確找到有判別力的顏色能夠幫助更有針對性地對圖像進行表示。
圖2 Frangipani的顏色直方圖和有判別力的顏色直方圖Fig. 2 Differences between color histogram and discriminative color histogram of Frangipani
定義C={c1,cc,…,ck}為圖像類別的集合,k代表類別的數(shù)量。為了找到每類中有判別力的顏色集合,本文提出了有判別力的顏色直方圖的概念。有判別力的顏色直方圖是在顏色直方圖的基礎(chǔ)上構(gòu)造的,兩者都是基于顏色字典所構(gòu)造的,但是在有判別力的顏色直方圖中只保留了有判別力顏色的出現(xiàn)頻率,如圖3所示,F(xiàn)rangipani中有判別力的顏色是黃色和白色,所以在Frangipani的有判別力的顏色直方圖中,只保留了這兩種顏色。
文中用類與顏色的互信息(Mutual Information, MI)(式(1))來衡量顏色的判別力強弱:
(1)
為了選擇出對于任一類ci最重要的mi種顏色,構(gòu)造了如下目標(biāo)函數(shù)
(2)
s.t. 1≤mi≤Vc
圖像的層次劃分能夠把圖像分成不同的區(qū)域,通過分別對這些區(qū)域進行表示可以生成更加有判別力的圖像表示[15]。本文嘗試把顏色作為層次劃分的依據(jù)。與空間金字塔相似,本算法認(rèn)為原圖像屬于圖像的第0層。在第1層根據(jù)優(yōu)化得到的有判別力顏色,把原圖像中采樣得到的圖像塊分為兩部分,即有判別力的圖像塊集合和無判別力的圖像塊集合。在第2層中,把有判別力的圖像塊集合認(rèn)為是一幅子圖像,然后,根據(jù)式(2)中的優(yōu)化方法,得到不同類別在第2層的子圖像的有判別力的顏色,并用這些顏色把第2層的圖像劃分為有判別力的圖像塊集合和無判別力的圖像塊集合,把這層中有判別力的圖像塊作為第3層的圖像塊。最后用這種方法把圖像進行進一步劃分層次,這種方法叫作顏色層次(Color Level,CL)圖像劃分方法。
如圖3所示,圖像在0層被表示為圖像塊的集合,通過優(yōu)化得到圖像的有判別力顏色,這些顏色把圖像分為第1層的兩部分,可以發(fā)現(xiàn)有判別力顏色對應(yīng)的區(qū)域是花朵的或者葉片的某個部分,而無判別力顏色的部分主要對應(yīng)著背景部分。在第2層中,從第1層的有判別力顏色中優(yōu)化選取一部分作為此層的有判別力的顏色,把圖像塊又分為了兩部分。
圖3 顏色層次圖像劃分方法Fig. 3 Color level image partition method
在每一層(層數(shù)大于1)分別對有判別力的部分和無判別力的部分進行直方圖表示,并把兩部分的直方圖連接起來作為本層的圖像表示。然后把所有層的圖像表示連接起來作為最終的圖像的表示。
對于任意一幅圖像,如果劃分為L層,那么圖像總共被劃分為2L+1個部分。圖像表示與文獻[13]相似,本文假設(shè)圖像屬于所有k個類別,然后在不同類別下進行圖像劃分,總共得到k(2L+1)部分。圖像劃分的每一部分對應(yīng)著一系列的圖像塊,假設(shè)用于表示這些圖像塊的特征的維度是h,則最終的圖像表示的字典維度為kh(2L+1)。以Flower 102為例,如果字典維度為1 000,層次數(shù)L為5,則最后生成的圖像維度為102×1 000×(10+1)=1 122 000。
從圖像維度的計算方法中可以發(fā)現(xiàn),CL在處理大規(guī)模數(shù)據(jù)集的圖像表示的時候,數(shù)據(jù)維度過高。如何在不影響分類準(zhǔn)確率的情況下對數(shù)據(jù)維度進行約減是這部分的研究重點,DITC聚類方法是一種重要的用于字典聚類[16-17]的方法,在這部分內(nèi)容中本文把DITC聚類方法用于壓縮CL的圖像表示。
(3)
對字典進行聚類能夠降低圖像表示維度,同時也有可能降低類別與字典的互信息。為了降低互信息損失,需要使式(4)盡可能小。
I(C,Wsc)-I(C,Wcom)
(4)
其中,Wcom為字典聚類之后的壓縮字典, 字典壓縮之后的維度用Vcom代表。式(4)展開后可以寫成如下形式:
(5)
最終互信息的損失表示為如下形式:
I(C,Wsc)-I(C,Wcom)=
(6)
其中KL(,)代表KL距離。
實驗通過每隔8個像素進行采樣,每個圖像塊的大小是16×16。CN(Color Name)[18]和HUE[19]是兩種非常出色的顏色描述子,本算法把這兩種描述子連接起來形成一個新的描述子來描述圖像塊顏色,然后通過K-means聚類算法生成顏色字典用于圖像的層次劃分。算法連接SIFT、CN和HUE三種描述子來描述圖像塊的顏色形狀特征,通過K-means聚類生成顏色形狀字典。為了對圖像進行基于顏色的層次劃分,同時又考慮到圖像集規(guī)模的不同,顏色字典的維度也不同,在Soccer圖像集中,顏色字典的維度是300而在Flower 17圖像集和Flower 102圖像集中,顏色字典的維度是500。在所有圖像集中劃分的層次數(shù)目均為3,3種描述子連接形成的特征聚類生成的特征字典,維度均為1 000,Soccer、Flower 17 和Flower 102最終的圖像表示的維度為49 000,119 000和714 000。DITC聚類用于給字典降維,最終這三個圖像集的圖像表示維度為1 000,2 000和800。實驗中,本文用標(biāo)準(zhǔn)的非線性支持向量機(Support Vector Machine, SVM)來進行分類,核函數(shù)采用交核(Intersection Kernel)。
Soccer圖像集[14]中包括了7個球隊的280幅圖像,每個類別中25幅用于訓(xùn)練,15幅用于測試。在這個圖像集中顏色是最主要的特征,可以有效地判斷出球員所在的區(qū)域。從圖4中可以發(fā)現(xiàn),每一幅圖像中可能同時包含屬于該類別和不屬于該類別的圖像。例如:Liverpool球隊的隊服主要顏色是紅色,但是在圖像中也存在著穿藍(lán)色球衣的隊員。Chelsea隊服的顏色為藍(lán)色,但是穿紅黑隊服的球員和黃色衣服的裁判同樣出現(xiàn)在了圖像中。利用顏色找到本類別的球員特征進行針對性的表示能夠提高對象識別率。
圖4 Soccer圖像集示例Fig. 4 Images from Soccer
表1中為本文算法與一些優(yōu)秀算法的識別準(zhǔn)確率的比較。早融合[13]和晚融合[13]是兩種最常見的特征融合方式,其中并沒有涉及到圖像的層次劃分以及字典維度的約減。實驗結(jié)果中可以發(fā)現(xiàn)這兩種圖像表示方式的準(zhǔn)確率在89%左右??臻g金字塔的方法對圖像進行劃分,提供了空間信息,但是細(xì)胞單元的內(nèi)容不能表示一個具體內(nèi)容。主成分分析(Principal Component Analysis,PCA)可以用于特征降維,CL+PCA能夠取得不錯的效果,但是識別率仍然比顏色注意力(Color Attention, CA)[13]低?;谶壿嫽貧w的特征融合 (Logistic Regression-based Feature Fusion, LRFF)[21]對字典進行了合理的加權(quán),但是并沒有嘗試去發(fā)現(xiàn)對象的位置。CL方法分類準(zhǔn)確率為95%左右,而CL+DITC的方法能夠得到96%的準(zhǔn)確率,因為DITC在對特征進行維度約減的同時合并了相似特征,使得圖像的表示有更強的魯棒性。
表1 在Soccer圖像集上的分類結(jié)果Tab. 1 Classification results on the Soccer dataset
Flower 17圖像集[22]中包含了17種花的1 360幅圖像,其中1 020幅圖像用于訓(xùn)練,340幅圖像用于測試。圖5為Flower 17圖像集中的一些圖像。在這個圖像集中,形狀和顏色對于提高識別準(zhǔn)確率都有著重要的作用。
表2顯示了本文算法與一些優(yōu)秀算法的識別準(zhǔn)確率的比較。在這些方法中空間金字塔的識別率仍然不高,這是因為空間金字塔的方法既沒有識別出對象區(qū)域也沒有應(yīng)用一些其他的方法如注意力圖或者特征加權(quán)的方法等對圖像進行針對性的表示,只是給圖像提供了不夠準(zhǔn)確的空間信息,所以識別率比較低。多核學(xué)習(xí)(Multiple Kernel Learning, MKL)[23]的方法通過多核學(xué)習(xí)得到不同特征之間的合理權(quán)重,CA[13]用顏色給圖像塊上的形狀特征加權(quán),在圖像表示的時候仍然是把采樣中得到的所有圖像塊在同一個直方圖中進行表示,即在全局對圖像進行表示并沒有分層,沒有考慮空間關(guān)系。通過比對可以發(fā)現(xiàn),CL+DITC比CA算法的分類精度提高了5%左右。全局標(biāo)識一致性分類器(Global Label Consistent Classifier,GLCC)[32]通過構(gòu)造不同特征的分類器進行集成學(xué)習(xí),但是并沒有考慮到不同特征之間的關(guān)系,仍然是一種全局圖像表示方法。
表2 在Flower 17圖像集上的分類結(jié)果Tab. 2 Classification results on the Flower 17 dataset
圖5 Flower 17圖像集示例Fig. 5 Images from Flower 17
需要說明的是,基于中間層挖掘的方法在Flower 17圖像集中取得了不錯的效果,在HoPS方法[24]采用了隨機映射和數(shù)據(jù)挖掘的方法進行圖像表示,利用頻繁項集挖掘的方法可以發(fā)現(xiàn)不同特征之間的關(guān)系。本文采用了文獻[24]中的挖掘(mining)方法對壓縮后的字典進行特征挖掘,這種方法利用挖掘到的有效模式代替碼字構(gòu)成字典,從而進行圖像表示,能夠有效地發(fā)現(xiàn)碼字之間的內(nèi)在聯(lián)系。CL+DITC+mining的方法取得了令人滿意的結(jié)果。從實驗對比中可以發(fā)現(xiàn),CL+DITC的方法在挖掘前后的分類結(jié)果產(chǎn)生了明顯的變化,利用挖掘到的模式進行圖像表示更能夠體現(xiàn)出壓縮字典內(nèi)部特征之間的關(guān)聯(lián)關(guān)系。此外文獻[34]中在采用了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)提取特征之后取得了94.8%的分類準(zhǔn)確率,而本文利用中間層特征與此方法獲得了相似的結(jié)果。
Flower102圖像集[28]中包含了102種花的8 189幅圖像,每類中給定了10幅圖像用于訓(xùn)練和10幅圖用于驗證,剩下的用于測試。圖6為Flower 102圖像集中的一些圖像。在這個圖像集中形狀是最主要的特征,顏色是輔助特征。
從表3中可以發(fā)現(xiàn),本文算法識別率仍然高于空間金字塔、CA和MKL。CLC[29]通過發(fā)現(xiàn)局部特征之間的關(guān)系和減少噪聲特征來提高分類準(zhǔn)確率,本文的方法與CLC相比能夠把圖像不斷細(xì)分,使得特征之間的關(guān)系更加緊密。Flower 102圖像庫被認(rèn)為是一個用于細(xì)粒度分類的庫,找到花朵的區(qū)域非常重要,在文獻[30]算法中,首先對圖像進行分割,通過優(yōu)化發(fā)現(xiàn)分割塊中的花朵。這與首先通過顏色來劃分對象區(qū)域的算法類似,但是,與本文算法相比,這種方法并沒有考慮到特征之間的空間關(guān)系。Xie等[34]把不同種類有描述性的信息集合起來用于圖像分類,本文的算法不但提取出了不同種類最有判別力的特征,還考慮到了空間特征,所以本文算法性能更優(yōu)。當(dāng)只采用CL和CL+DITC兩種情況時,分類精度分別為73.0%和75.2%,通過挖掘圖像塊之間的關(guān)聯(lián)關(guān)系,可以發(fā)現(xiàn)圖像塊的關(guān)聯(lián)關(guān)系,需要注意的是,挖掘出的關(guān)聯(lián)性強的圖像塊并不一定具有類似的顏色,這在很大程度上彌補了顏色劃分的局限性,所以CL+DITC+mining能夠取得77.3%的分類準(zhǔn)確率。
圖6 Flower 102圖像集示例Fig. 6 Images from Flower 102表3 在Flower 102圖像集上的分類結(jié)果Tab. 3 Experimental results on the Flower 102 dataset
算法精度/%算法精度/%空間金字塔70.5fine-grained[30]76.7CA[13]70.8文獻[31]方法71.5CLC[29]71.0CL+DITC+mining77.3MKL[23]72.8
CL+DITC的方法可以有效地提高分類準(zhǔn)確率,同時字典的維度對于分類準(zhǔn)確率有著重要的影響:如果字典的維度過大,有相似特征的局部特征不能很好的合并;如果字典維度過小,不同特征的圖像塊會被認(rèn)為相同。圖7為CL+DITC方法在不同字典維度下的分類準(zhǔn)確率,可以發(fā)現(xiàn)字典維度過大或者過小都會降低分類準(zhǔn)確率。另外,由于DITC在不影響互信息的情況下進行字典聚類,雖然字典維度發(fā)生了變化,但是在一定范圍內(nèi)的分類精度變化比較平穩(wěn)。
本文提出了一種基于顏色的壓縮層次圖像表示方法,這種方法首先通過有判別力的顏色對圖像進行分層,用以為圖像表示提供空間信息,但是這種顏色層次圖像表示方法的表示維度會隨著層次和類別的數(shù)量增加而增加。文章中采用DITC聚類的方法,利用類別和視覺詞之間的互信息關(guān)系,在不降低分類準(zhǔn)確率的情況下對數(shù)據(jù)維度進行約減,提高了字典的判別性,增強了圖像的表示能力。通過算法實驗比對,基于顏色的層次壓縮表示方法在三個圖像集上都能取得比較好的分類效果。此外,顏色特征的提取速度快,在未來的工作中,可以把顏色特征作為發(fā)現(xiàn)對象的手段并將其應(yīng)用于視頻監(jiān)控中。
圖7 字典維度對于分類精度的影響Fig. 7 Influence of dictionary dimension on classification accuracy
References)
[1] CSURKA G, DANCE C R, FAN L X, et al. Visual categorization with bags of keypoints[C]// Proceedings of the 8th European Conference on Computer Vision. Piscataway, NJ: IEEE, 2004:1-22.
[2] OKAWA M. Offline signature verification based on bag-of-visual words model using KAZE features and weighting schemes[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Piscataway, NJ: IEEE, 2016: 184-190.
[3] 楊浩,張永.基于優(yōu)化視覺詞袋模型的圖像分類方法[J].計算機應(yīng)用, 2017, 37(8):2244-2247.(YANG H, ZHANG Y. A image classification method by optimizing bag-of-visual words model[J]. Journal of Computer Applications, 2017, 37(8):2244-2247.)
[4] BERG A C, BERG T L, MALIK J. Shape matching and object recognition using low distortion correspondences[C]// Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2005: 26-33.
[5] 生海迪,段會川,孔超.基于語義短語的空間金字塔詞袋模型圖像分類方法[J].小型微型計算機系統(tǒng),2015,36(4):877-881.(SHENG H D, DUAN H C, KONG C. Spatial pyramid bag-of-words model for image classification based on semantic phrases[J]. Journal of Chinese Computer Systems, 2015, 36(4): 877-881.)
[6] 陳瑩,高含.采用空間詞袋模型的圖像分類方法[J].小型微型計算機系統(tǒng),2016,37(9): 2099-2103.(CHEN Y, GAO H. Image classification method based on spatial bag of words model[J].Journal of Chinese Computer Systems, 2016, 37(9): 2099-2103.)
[7] LI T, MEI T, KWEON I S, et al. Contextual bag-of-words for visual categorization[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2011, 21(4): 381-392.
[8] FENG J, NI B, XU D, et al. Histogram contextualization[J]. IEEE Transactions on Image Processing, 2012, 21(2):778-788.
[9] TANG P, ZHANG J, WANG X, et al. Learning extremely shared middle-level image representation for scene classification[J]. Knowledge and Information Systems, 2017, 52(2):509-530.
[10] TANG P, WANG X, FENG B, et al. Learning multi-instance deep discriminative patterns for image classification[J]. IEEE Transactions on Image Processing, 2016, 26(7):3385-3396.
[11] LAZEBNIK S, SCHMID C, PONCE J. Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories[C]// Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2006: 2169-2178.
[12] DHILLON I S, MALLELA S, KUMAR R, et al. A divisive information-theoretic feature clustering algorithm for text classification[J]. Journal of Machine Learning Research, 2003, 3(3): 1265-1287.
[13] KHAN F S, RAO M A, WEIJER J V D, et al. Coloring action recognition in still images[J]. International Journal of Computer Vision, 2013, 105(3):205-221.
[14] GAVVES E, FERNANDO B, SNOEK C G M, et al. Fine-grained categorization by alignments[C]// Proceedings of the 2013 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2013:1713-1720.
[15] ZHOU Y, WEI Y. Learning hierarchical spectral-spatial features for hyperspectral image classification[J]. IEEE Transactions on Cybernetics, 2016, 46(7):1667.
[16] ELFIKY N M, KHAN F S, VAN DE WEIJER J, et al. Discriminative compact pyramids for object and scene recognition[J]. Pattern Recognition, 2012, 45(4): 1627-1636.
[17] VAN DE WEIJER J, SCHMID C, VERBEEK J, et al. Learning color names for real-world applications[J]. IEEE Transactions on Image Processing, 2009, 18(7):1512-1523.
[18] VAN DE WEIJER J, SCHMID C. Coloring local feature extraction[C]// Proceedings of Computer Vision — ECCV 2006. Berlin: Springer, 2006: 334-348.
[19] LOWE D G. Distinctive image features from scale-invariant points[J]. International Journal of Computer Vision, 2004, 60(2): 91-110.
[20] FERNANDO B, FROMONT E, MUSELET D, et al. Discriminative feature fusion for image classification[C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2012: 3434-3441.
[21] NILSBACK M E, ZISSERMAN A. A visual vocabulary for flower classification[C]// Proceedings of the 19th IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2006: 1447-1454.
[22] GEHLER P, NOWOZIN S. On feature combination for multiclass object classification[C]// Proceedings of the 2009 IEEE 12th International Conference on Computer Vision. Piscataway, NJ: IEEE, 2009: 221-228.
[23] VORAVUTHIKUNCHAI W, CRéMILLEUX B, JURIE F. Histograms of pattern sets for image classification and object recognition[C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2014: 224-231.
[24] FERNANDO B, FROMONT E, TUYTELAARS T. Mining mid-level features for image classification[J]. International Journal of Computer Vision, 2014, 108(3): 186-203.
[25] YUAN X T, LIU X, YAN S. Visual classification with multitask joint sparse representation[J]. IEEE Transactions on Image Processing, 2012, 21(10):4349-4360.
[26] YE G, LIU D, JHUO I H, et al. Robust late fusion with rank minimization[C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2012:3021-3028.
[27] NILSBACK M E, ZISSERMAN A. Automated flower classification over a large number of classes[C]// Proceedings of the 6th Indian Conference on Computer Vision, Graphics & Image Processing. Piscataway, NJ: IEEE, 2008: 722-729.
[28] WANG Z, FENG J, YAN S. Collaborative linear coding for robust image classification[J]. International Journal of Computer Vision, 2015, 114(2/3): 322-333.
[29] ANGELOVA A, ZHU S. Efficient object detection and segmentation for fine-grained recognition[C]// Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2013: 811-818.
[30] FU Z, ROBLES-KELLY A, ZHOU J. MILIS: multiple instance learning with instance selection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(5): 958-977.
[31] ZHANG L, ZHANG D. Visual understanding via multi-feature shared learning with global consistency[J]. IEEE Transactions on Multimedia, 2016, 18(2): 247-259.
[32] MINH H Q, BAZZANI L, MURINO V. A unifying framework in vector-valued reproducing kernel Hilbert spaces for manifold regularization and co-regularized multi-view learning[J]. Journal of Machine Learning Research, 2016, 17(1): 769-840.
[33] XIE G S, ZHANG X Y, SHU X, et al. Task-driven feature pooling for image classification[C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2015: 1179-1187.
[34] XIE L, WANG J, ZHANG B, et al. Incorporating visual adjectives for image classification[J]. Neurocomputing, 2016, 182(C): 48-55.
This work is partially supported by the National Natural Science Foundation of China (61402462), the National Social Science Foundation of China (17BTQ068), the Youth Foundation of Education Bureau of Hebei Province (QN2015099), the Research Program of the National Police University for Criminal Justice (XYZ201602), the Touth Foundation Project of Humanities and Social Sciences Research of Ministry of Education (15YJC630021), the Youth Foundation Project of Hebei Natural Science Foundation of China(F2018511002), the Special Funds to Enhance Central and Western Strength of Hebei University.
ZHUJie, born in 1982, Ph. D., associate professor. His research interests include machine learning, computer vision.
WUShufang, born in 1980, Ph. D., associate professor. Her research interests include information retreival, machine learning.
XIEBojun, born in 1981, Ph. D., lecturer. His research interests include machine learning, computer vision.
MALiyan, born in 1983, Ph. D., research assistant. Her research interests include computer vision.
Colorbasedcompacthierarchicalimagerepresentation
ZHU Jie1, WU Shufang2,3*, XIE Bojun4, MA Liyan5
(1.DepartmentofInformationManagement,theNationalPoliceUniversityforCriminalJustice,BaodingHebei071000,China;2.CollegeofManagementandEconomics,TianjinUniversity,Tianjin300072,China;3.CollegeofManagement,HebeiUniversity,BaodingHebei071000,China;4.CollegeofMathematicsandInformationScience,HebeiUniversity,BaodingHebei071000,China;5.InstituteofMicroelectronics,ChineseAcademyofSciences,Beijing100029,China)
The spatial pyramid matching method provides the spatial information by splitting an image into different cells. However, spatial pyramid matching can not match different parts of the objects well. A hierarchical image representation method based on Color Level (CL) was proposed. The class-specific discriminative colors of different levels were obtained from the viewpoint of feature fusion in CL algorithm, and then an image was iteratively split into different levels based on these discriminative colors. Finally, image representation was constructed by concatenating the histograms of different levels. To reduce the dimensionality of image representation, the Divisive Information-Theoretic feature Clustering (DITC) method was used to cluster the dictionary, and the generated compact dictionary was used for final image representation. Classification results on Soccer, Flower 17 and Flower 102 datasets, demonstrate that the proposed method can obtain satisfactory results in these datasets.
discriminative color; hierarchy; dimensional reduction; Divisive Information-Theoretic feature Clustering (DITC); object recognition
2017- 05- 11;
2017- 06- 05。
國家自然科學(xué)基金資助項目(61402462);國家社會科學(xué)基金資助項目(17BTQ068);河北省教育廳青年基金資助項目(QN2015099);中央司法警官學(xué)院校級科研項目(XYZ201602);教育部人文社會科學(xué)研究青年基金資助項目(15YJC630021);河北省自然科學(xué)基金青年科學(xué)基金資助項目(F2018511002);河北大學(xué)中西部提升綜合實力專項資金資助項目。
朱杰(1982—),男,河北保定人,副教授,博士,主要研究方向:機器學(xué)習(xí)、計算機視覺; 吳樹芳(1980—),女,河北邯鄲人,副教授,博士,主要研究方向:信息檢索、機器學(xué)習(xí); 謝博鋆(1981—),男,河北保定人,講師,博士,主要研究方向:機器學(xué)習(xí)、計算機視覺; 馬麗艷(1983—),女,北京人,助理研究員,博士,主要研究方向:計算機視覺。
1001- 9081(2017)11- 3238- 06
10.11772/j.issn.1001- 9081.2017.11.3238
(*通信作者電子郵箱shufang_44@126.com)
TP391.41
A