王博
摘 要: 為了在計(jì)算機(jī)視覺(jué)任務(wù)中構(gòu)造有意義的圖像表示,提出一種基于概率密度函數(shù)(p.d.f)梯度方向直方圖特征的分層稀疏表示方法用于圖像分類。傳統(tǒng)分層稀疏表示方法利用SIFT描述子或者直接從圖像塊學(xué)習(xí)圖像表示,通常不具有較強(qiáng)判別性。該文利用具有通用性的p.d.f特征進(jìn)行分層學(xué)習(xí)并使用空間金字塔最大池化方式構(gòu)造圖像級(jí)稀疏表示。實(shí)驗(yàn)結(jié)果證明了所提算法的魯棒性和有效性,在UIUC?Sports,Oxford Flowers,Scene15三類數(shù)據(jù)集上分別達(dá)到87.3%,86.6%,84.1%的分類準(zhǔn)確率。
關(guān)鍵詞: 圖像分類; 分層稀疏表示; 空間金字塔最大池化; 圖像表示
中圖分類號(hào): TN911.73?34; TP391.4 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)10?0095?04
Abstract: In order to construct the meaningful image representation in computer vision task, a novel hierarchical sparse representation method based on oriented histogram feature of probability density function (p.d.f) gradients is proposed for image classification. The traditional hierarchical sparse representation method which learns the image representation with SIFT descriptor or learn it directly from image block has poor discrimination. A universal p.d.f feature is employed for hierarchical learning, and the spatial pyramid max pooling method is used to construct the image?level sparse representation. The experimental results show that the algorithm has robustness and availability, and the classification accuracy for classifying the datasets of UIUC?Sports, Oxford Flowers and Scene 15 can reach up to 87.3%, 86.6% and 84.1% respectively.
Keywords: image classification; hierarchical sparse representation; spatial pyramid max pooling; image representation
0 引 言
圖像分類作為計(jì)算機(jī)視覺(jué)中的基本任務(wù)被廣泛應(yīng)用于圖像檢索、網(wǎng)絡(luò)圖像搜索、智能交通系統(tǒng)和生物工程系統(tǒng)等領(lǐng)域中。其中,獲取有效的圖像表示則是影響分類性能的關(guān)鍵因素[1]。而分層模型已經(jīng)逐漸成為可靠的方法用于提取具有判別力的圖像表示[2?4]。在分層模型中,圖像表示是逐層進(jìn)行構(gòu)造的。傳統(tǒng)的算法中采用局部圖像塊或者SIFT描述子進(jìn)行分層稀疏編碼[5?6],然而所獲得的圖像表示并不具有較強(qiáng)的判別力,這種局限性直接影響了該模型在多類測(cè)試數(shù)據(jù)集上的性能。
文獻(xiàn)[7]提出了一種全新的方式提取用于分類的圖像特征。該方法源于特征袋(Bag of Features,BOF)模型,即首先需要從圖像中提取大量的局部描述子;然后將核密度估計(jì)用于這些已經(jīng)獲取的局部描述子,從而獲得相應(yīng)的概率密度函數(shù);最后,概率密度函數(shù)的梯度方向被編碼并同時(shí)整合為直方圖。從幾何觀點(diǎn)角度出發(fā),這可以對(duì)概率密度函數(shù)的形狀分布進(jìn)行有效的表征。值得注意的是利用這種方法獲得的圖像特征具有通用性,可以廣泛應(yīng)用到眾多目標(biāo)和場(chǎng)景類測(cè)試數(shù)據(jù)集中。
另一方面,分層學(xué)習(xí)(Hierarchical Learning)可以讓一個(gè)由多處理層組成的計(jì)算模型通過(guò)多個(gè)抽象層的學(xué)習(xí)而獲得有意義的數(shù)據(jù)表示。這個(gè)模型通常是由多層非線性的信息處理過(guò)程構(gòu)成的,圖像表示的學(xué)習(xí)過(guò)程逐漸地向更抽象的階段發(fā)展[8]。這種更為高效且直接的分層構(gòu)造方法,能夠使得所有來(lái)自輸入圖像的p.d.f特征可以進(jìn)行獨(dú)立的稀疏編碼。在獲得最終的圖像表示前,模型中總是需要加入一個(gè)十分重要的特征池化步驟。這一關(guān)鍵步驟令特征的編碼階段和分類器緊密聯(lián)系在一起,且已經(jīng)變成了圖像分類任務(wù)中不可或缺的部分[9]。依照文獻(xiàn)[10]對(duì)特征池化在視覺(jué)識(shí)別中的理論分析,池化階段主要具備以下三種作用:首先,對(duì)于圖像的形變可以保持一定的不變性;其次,可以獲取更為緊密的圖像表示;另外,對(duì)于干擾和噪聲還具有更優(yōu)的魯棒性。其中,空間金字塔最大池化操作被應(yīng)用于許多計(jì)算機(jī)視覺(jué)任務(wù)中。
本文提出一種基于p.d.f特征的分層稀疏表示方法。在每一訓(xùn)練層中均利用K?SVD進(jìn)行字典學(xué)習(xí),而在稀疏編碼階段使用高效的正交匹配追蹤(OMP)方案。每層稀疏編碼階段后分別利用最大池化和空間金字塔最大池化算法進(jìn)行生成更緊密的圖像表示。同時(shí),引入局部對(duì)比度歸一化作為下一層輸入數(shù)據(jù)的預(yù)處理方案,這一步驟可以使得圖像的不同區(qū)域?qū)τ诠庹兆兓哂胁蛔冃浴W詈?,利用非線性的支持向量機(jī)(Non?linear SVM)完成分類任務(wù)并獲取各測(cè)試數(shù)據(jù)集的分類準(zhǔn)確率。該圖像分類模型如圖1所示。
1 分層稀疏表示模型
1.1 分層稀疏編碼流程
在計(jì)算機(jī)視覺(jué)與機(jī)器學(xué)習(xí)任務(wù)中,利用具有更強(qiáng)判別力的圖像特征取代傳統(tǒng)SIFT描述子的方案受到了越來(lái)越多的關(guān)注。在分層學(xué)習(xí)結(jié)構(gòu)里,考慮到需要使用極為高效的編碼器,因此通常借助以O(shè)MP為代表的貪婪訓(xùn)練方式以生成圖像的稀疏表示。分層稀疏編碼主要包含以下四個(gè)步驟。假定在提取p.d.f圖像特征時(shí)統(tǒng)一采取256個(gè)視覺(jué)單詞中心的方案,那么分層稀疏編碼流程圖如圖2所示。
(1) 第一層稀疏編碼時(shí),通過(guò)K?SVD方法可以獲得含有[D1]個(gè)原子的字典。然后利用OMP算法得到了形如[32×64×D1]的稀疏表示。
(2) 在鄰近的[s×s]稀疏表示中,利用最大池化策略,然后生成了形如[(32s)×(64s)×D1]的池化表示。
(3) 在所有[D1]個(gè)特征圖上,利用[j×j]尺寸的感受野,其間隔設(shè)定為1。通過(guò)OMP算法得到了形如[[(32s)-j+1]×[(64s)-j+1]×D2]的圖像表示。
(4) 最后利用空間金字塔最大池化方法得到最終的稀疏圖像表示。
1.2 K?SVD字典學(xué)習(xí)與BOMP編碼器
2 實(shí)驗(yàn)結(jié)果與分析
本文將使用全尺寸自然圖像分類數(shù)據(jù)集作為標(biāo)準(zhǔn),驗(yàn)證以上所提算法的性能。其中包括目標(biāo)數(shù)據(jù)集Oxford Flowers,事件數(shù)據(jù)集UIUC?sports和場(chǎng)景數(shù)據(jù)集Scene 15。在實(shí)驗(yàn)中發(fā)現(xiàn),如果僅針對(duì)單層網(wǎng)絡(luò)進(jìn)行學(xué)習(xí),圖像分類性能沒(méi)有顯著提升。但進(jìn)行三層訓(xùn)練,計(jì)算開(kāi)銷十分龐大,同時(shí)分類性能無(wú)明顯提高。所以,本文最終利用訓(xùn)練雙層網(wǎng)絡(luò)的學(xué)習(xí)方案獲取有意義的圖像表示。其中的空間金字塔池化子區(qū)域分別設(shè)置為[1×1,2×2,4×4。]實(shí)驗(yàn)平臺(tái)配置包括:Intel i5 CPU 3.1 GHz,Windows 7,64位操作系統(tǒng)及Matlab 2010b進(jìn)行仿真實(shí)驗(yàn)。
2.1 測(cè)試數(shù)據(jù)集
UIUC?Sports被視為一類典型的事件數(shù)據(jù)集。該測(cè)試集由8類不同運(yùn)動(dòng)項(xiàng)目組成。例如:馬球、室外地滾球、單板滑雪、攀巖等項(xiàng)目。每個(gè)類別中包含137~250幅圖像,所有圖像數(shù)目總計(jì)為1 579幅。由于該數(shù)據(jù)集圖像帶有相對(duì)復(fù)雜的背景,且每類圖像所包含內(nèi)容變化較大,所以利用該數(shù)據(jù)集進(jìn)行測(cè)試具有一定的挑戰(zhàn)性。為了確保公正的測(cè)試條件,按照常規(guī)實(shí)驗(yàn)設(shè)定,本文將隨機(jī)從每個(gè)類中抽取70幅用于訓(xùn)練,而60幅用作測(cè)試圖像。
Oxford Flowers數(shù)據(jù)集包括1 360幅花卉圖像,共計(jì)17個(gè)不同花卉種類,每個(gè)類別中均有80幅圖像。由于類內(nèi)差異比較明顯,且同時(shí)存在類間相似度極高的情況,所以該測(cè)試數(shù)據(jù)集具有較大的挑戰(zhàn)性。為了進(jìn)行公正的評(píng)價(jià),本文將與此前的實(shí)驗(yàn)保持一致,即隨機(jī)抽取60幅訓(xùn)練圖像,剩下的圖像將用于測(cè)試。
Scene 15是一類常見(jiàn)的場(chǎng)景圖像數(shù)據(jù)集。Oliva等人早期建立該數(shù)據(jù)集時(shí),僅包含8個(gè)不同類別。Li和Lazebnik等人后期分別添加了5個(gè)和2個(gè)類別,因此現(xiàn)在的Scene 15總共含有15類,共計(jì)4 485幅場(chǎng)景圖像。其中包含室外和室內(nèi)場(chǎng)景,且每個(gè)類別都含有200~400幅
圖像,平均尺寸約為[250×300]像素。例如:用于室外場(chǎng)景識(shí)別的海岸和森林類,用于室內(nèi)場(chǎng)景識(shí)別的臥室與廚房類。
2.2 實(shí)驗(yàn)結(jié)果分析
首先,針對(duì)三類不同測(cè)試數(shù)據(jù)集,實(shí)驗(yàn)將固定第二訓(xùn)練層中的字典原子數(shù)目為1 600,并逐步增加第一訓(xùn)練層中的字典原子數(shù),同時(shí)將編碼稀疏度設(shè)定為4。然后,通過(guò)選擇第一階段中的最優(yōu)原子數(shù),并將其固定為512,按照固定間隔增加第二層字典的原子數(shù),同時(shí)將編碼稀疏度設(shè)定為10。兩層訓(xùn)練中的K?SVD迭代次數(shù)分別設(shè)置為50和20。實(shí)驗(yàn)結(jié)果表明,在第一組測(cè)試中,當(dāng)字典原子數(shù)目大于特征維度時(shí),分類準(zhǔn)確率呈逐漸增加的趨勢(shì)且在設(shè)置為512時(shí)達(dá)到最大值,即相應(yīng)的字典原子數(shù)兩倍于特征維度;第二組測(cè)試中,在固定第一層字典大小的基礎(chǔ)上,逐步增大第二層字典的大小并觀察分類準(zhǔn)確率呈增加的趨勢(shì)。當(dāng)原子數(shù)目設(shè)定為1 600時(shí),在三類數(shù)據(jù)集上均達(dá)到了最佳分類性能。兩部分實(shí)驗(yàn)的變化曲線分別如圖4和圖5所示。
為了證明本文算法的有效性,將針對(duì)同一測(cè)試數(shù)據(jù)集,采用與其他先進(jìn)算法的性能進(jìn)行對(duì)比的方案,其對(duì)比結(jié)果分別如表1~表3所示。
其中,Visual Concepts是基于視覺(jué)概念學(xué)習(xí)的中層特征表示方法,LSCSPM是一種拉普拉斯稀疏編碼,HMP是一種典型的分層稀疏編碼方式,DPD則將判別式部件檢測(cè)的方法用于圖像分類。所提算法在分類性能上分別超越以上算法,達(dá)到2.5%,2%,1.6%和0.9%。
HSSL是一種基于稀疏性、局部性和顯著性學(xué)習(xí)的分層圖像表示算法。WSCSPM是基于區(qū)域顯著性檢測(cè)的目標(biāo)分類算法。基于本文算法的分類性能大幅領(lǐng)先這兩類先進(jìn)算法分別達(dá)到10.4%和9.8%。
HSPMP與本文算法相似,但是圖像表示是基于SIFT描述子獲得的,因而在判別力方面會(huì)受到一定程度的影響。SV也是一種分層特征學(xué)習(xí)方法,基于軟投票的方式進(jìn)行編碼。WCS?LTP基于加權(quán)中心對(duì)稱局部三元模式,是一種十分有效的局部描述子。本文算法在分類準(zhǔn)確率上均超越先進(jìn)的對(duì)比方法。
3 結(jié) 語(yǔ)
本文提出一種基于p.d.f特征的分層稀疏表示算法,并將其應(yīng)用于三類不同的圖像分類測(cè)試數(shù)據(jù)集中。由于p.d.f特征具有較強(qiáng)的通用性和判別力,而分層學(xué)習(xí)模型可以獲取更為高級(jí)的抽象特征,實(shí)驗(yàn)結(jié)果證明了所提算法性能在事件、目標(biāo)及場(chǎng)景類數(shù)據(jù)集上均超越了先進(jìn)的對(duì)比算法。同時(shí),針對(duì)分層稀疏表示中的K?SVD字典學(xué)習(xí)過(guò)程,實(shí)驗(yàn)部分證明了當(dāng)字典原子數(shù)目增加時(shí),分類性能將得到顯著提高。而第一層字典原子數(shù)目?jī)杀队谔卣骶S度時(shí),將獲得最優(yōu)的分類準(zhǔn)確率。下一步的研究工作將聚焦于大規(guī)模測(cè)試數(shù)據(jù)集上,利用分層學(xué)習(xí)模型高效地獲取具有判別力的圖像表示。
參考文獻(xiàn)
[1] BENGIO Y, COURVILLE A, VINCENT P. Representation learning: a review and new perspectives [J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(8): 1798?1828.
[2] YU K, LIN Y, LAFFERTY J. Learning image representations from the pixel level via hierarchical sparse coding [C]// Proceedings of 2011 IEEE Conference on Computer Vision and Pattern Recognition. Providence, USA: IEEE, 2011: 1713?1720.
[3] BO L, REN X, FOX D. Hierarchical matching pursuit for image classification: architecture and fast algorithms [C]// Proceedings of 2012 IEEE Conference on Advances in Neural Information Processing Systems. Granada, Spain: NIPS Foundation, 2012: 2115?2123.
[4] TEDMORI S, AI?NAJDAWI N. Hierarchical stochastic fast search motion estimation algorithm [J]. IET computer vision, 2012, 6(1): 21?28.
[5] HAN H, HAN Q, LI X, et al. Hierarchical spatial pyramid max pooling based on SIFT features and sparse coding for image classification [J]. IET computer vision, 2013, 7(2): 144?150.
[6] LIU B Y, LIU J, BAI X, et al. Regularized hierarchical feature learning with non?negative sparsity and selectivity for image classification [C]// Proceedings of 2014 IEEE International Conference on Pattern Recognition. Stockholm, Sweden: IEEE, 2014: 4293?4298.
[7] KOBAYASHI T. BFO meets HOG: feature extraction based on histograms of oriented p.d.f. gradients for image classification [C]// Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA: IEEE, 2013: 947?954.
[8] DENG L, YU D. Deep learning: methods and applications [M]. Hanover, MA: Now Publishers, 2014.
[9] XIE L, TIAN Q, ZHANG B. Simple techniques make sense: feature pooling and normalization for image classification [J]. IEEE transactions on circuits & systems for video technology, 2015, 26(7): 1251?1264.
[10] BOUREAU Y, PONCE J, LECUN Y. A theoretical analysis of feature pooling in visual recognition [C]// Proceedings of 2010 the 27th International Conference on Machine Learning. Haifa, Israel: IMLS, 2010: 111?118.
(上接第98頁(yè))
[11] LI Q, WU J, TU Z. Harvesting mid?level visual concepts from large?scale internet images [C]// Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA: IEEE, 2013: 851?858.
[12] GAO S H, TSANG I W H, CHIA L T. Laplacian sparse coding, hypergraph Laplacian sparse coding, and applications [J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(1): 92?104.
[13] SUN J, PONCE J. Learning discriminative part detectors for image classification and cosegmentation [C]// Proceedings of 2013 IEEE International Conference on Computer Vision. Sydney, Australia: IEEE, 2013: 3400?3407.
[14] YANG J M, YANG M H. Learning hierarchical image representation with sparsity, saliency and locality [C]// Proceedings of 2011 British Machine Vision Conference. Dundee, UK: BMVA, 2011: 1901?1911.
[15] REN Z X, GAO S H, CHIA L T, et al. Region?based saliency detection and its application in object recognition [J]. IEEE transactions on circuits & systems for video technology, 2014, 24(5): 769?779.
[16] LIU J Y, HUANG Y Z, WANG L, et al. Hierarchical feature coding for image classification [J]. Neurocomputing, 2014, 144(1): 509?515.
[17] HUANG M, MU Z, ZENG H. Efficient image classification via sparse coding spatial pyramid matching representation of SIFT?WCS?LTP feature [J]. IET computer vision, 2016, 10(1): 64?67.