孫 山,梁 棟,鮑文霞,張 成
(安徽大學(xué) 計算智能與信號處理教育部重點實驗室,安徽 合肥230039)
視覺信息以數(shù)字圖像的形式大量出現(xiàn)在人們的生活中,如何快速準確地進行圖像分類與處理,以獲取用戶所需的信息成為近年來的研究熱點之一.詞袋(bag of words,簡稱BoW)模型最早出現(xiàn)在自然語言處理(natural language processing,簡稱NLP)和信息檢索(information retrieval,簡稱IR)領(lǐng)域中,被用于處理文檔的識別與分類[1].受BoW模型應(yīng)用在文檔分類與信息檢索等方面的啟發(fā),視覺詞袋(bagof-visual-words)模型將圖像類比為文檔,將圖像特征類比為文檔中的單詞[2],計算一個語義圖像的緊湊直方圖向量,再結(jié)合分類器進行圖像分類,即能取得較好的效果.
但是,BoW模型在計算機視覺領(lǐng)域的應(yīng)用中仍有可優(yōu)化的問題,如特征描述子計算復(fù)雜、詞典完備性對圖像分類的影響以及圖像空間結(jié)構(gòu)信息的缺失等.文獻[2]首次將BoW模型引入到計算機視覺領(lǐng)域中并結(jié)合尺度不變特征變換[3](scale invariant feature transform,簡稱SIFT)描述子對圖像進行分類.文獻[4]針對SIFT描述子計算復(fù)雜度較高的問題提出了一種新的快速稠密局部特征描述子(DAISY)來對圖像進行特征提取,并利用BoW模型進行建模.文獻[5]提出空間金字塔匹配(spatial pyramid matching,簡稱SPM)模型以改善圖像全局直方圖表示時空間結(jié)構(gòu)信息丟失問題,并應(yīng)用到BoW模型中進行圖像分類.文獻[6]研究了圖像底層特征與高層特征之間的“語義鴻溝”問題,并基于BoW模型構(gòu)建了一個有效的圖像檢索系統(tǒng).
鑒于傳統(tǒng)BoW模型僅依賴單一圖像局部特征構(gòu)建視覺詞典,其對圖像信息描述欠完備,且應(yīng)用于圖像分類時精度不高的問題,作者在文獻[5]的基礎(chǔ)上,提出一種基于Laplace譜結(jié)構(gòu)特征與圖像局部特征相結(jié)合的圖像分類方法.
BoW模型最早出現(xiàn)在NLP和IR領(lǐng)域中,被用于處理文本的識別與分類[1].該模型忽略文檔的語序及語法部分,用一個關(guān)鍵詞的無序組合來表示文檔,通過統(tǒng)計每個關(guān)鍵詞在文檔中出現(xiàn)的頻率來得到不同文檔的有差異的向量表示,從而進行分類.
近年來,BoW模型因其簡易且行之有效的優(yōu)點而得到了更廣泛的應(yīng)用,結(jié)合其特點,Li等[2]提出了用詞袋模型表達圖像的方法,并將圖像類比為文檔,而將圖像中的局部特征類比為文檔中的單詞,從而可以將該模型應(yīng)用于圖像分類中.在BoW模型的圖像表達技術(shù)中,通常包含如下3個部分:特征提取、特征表示以及視覺詞典構(gòu)造,再結(jié)合分類器的訓(xùn)練即可進行圖像的分類與識別.圖1給出了BoW模型應(yīng)用于圖像分類的基本流程.
鑒于直接抽取整幅圖像的譜結(jié)構(gòu)特征會丟失圖像細節(jié)結(jié)構(gòu)信息,作者借鑒文獻[5]中采用空間金字塔匹配模型來獲取更豐富的空間結(jié)構(gòu)信息的思想,對圖像進行均勻劃分(見圖2),然后抽取均勻劃分后的圖像細節(jié)結(jié)構(gòu)特征.
給定序列圖像集I1,I2,…,In,…,IN,設(shè)圖像In被均勻劃分為λ×λ=k個部分,分別記為對提取m個特征點得到特征點集,則點集就表征了圖像的結(jié)構(gòu)特征信息.特征點集的基于遞增權(quán)函數(shù)的鄰接矩陣可表示為
其中:S為權(quán)值系數(shù),為點集中特征點和之間的歐氏距離.鄰接矩陣的度矩陣可定義為
基于所有訓(xùn)練圖像的Laplace譜細節(jié)結(jié)構(gòu)特征構(gòu)建視覺詞典,其中K1為視覺詞典的大小.依據(jù)對每幅圖像的Laplace譜結(jié)構(gòu)特征進行向量量化(vector quantization,簡稱VQ),并歸一化得到圖像的全局直方圖向量表示VL.通過圖像細節(jié)結(jié)構(gòu)譜特征的匯聚,該圖像向量表示可更好地表達圖像的細節(jié)以及整體空間結(jié)構(gòu)信息.
尺度不變特征變換描述子(SIFT)是文獻[3]中提出的一種基于尺度空間且對圖像旋轉(zhuǎn)、縮放等變換保持較好不變性的圖像局部特征描述子.SIFT算法的步驟為:
(1)尺度空間構(gòu)造;
(2)空間局部極值點檢測與篩選;
(3)特征點主方向的確定;
(4)關(guān)鍵點描述子的生成.
SIFT描述子鑒別力強且信息量豐富,優(yōu)化后的SIFT算法計算速度較快且易于進行特征聯(lián)合.文
一個簡單有效的視覺詞典的構(gòu)造方法就是執(zhí)行K-means聚類算法.聚類算法一般要滿足同一聚類中的對象相似度較高,而不同聚類中的對象相似度較小,具體到K-means聚類算法中即要將Q個點分到K個簇中,且保證K個簇內(nèi)平方和最小化[9],其數(shù)學(xué)表達式如下
其中:K為聚類中心數(shù);Ci為聚類中心;xj為聚類對象表示第i個簇內(nèi)點到聚類中心的平方,j=1,…,Q.
設(shè)圖像集中有N=N1+N2幅圖像,其中N1為訓(xùn)練集圖像數(shù)目,N2為測試集圖像數(shù)目.對訓(xùn)練集的N1幅圖像分別抽取圖像劃分后的Laplace譜結(jié)構(gòu)特征和SIFT局部特征,并進行K-means聚類,獲得圖像信息描述更完備的視覺詞典和.在實際視覺詞典構(gòu)造過程中采取有權(quán)值的分層K-means聚類策略,先對每類訓(xùn)練圖像分別進行聚類得到子視覺詞典和為第y類圖像的Laplace譜結(jié)構(gòu)特征聚類中心,為第y類圖像的SIFT局部特征聚類中心,其中ky為第y類訓(xùn)練圖像聚類中心數(shù),y=1,2,…,M,M為圖像類別數(shù).再對所有類別的圖像子視覺詞典進行二次聚類,即
其中:K1和K2分別為訓(xùn)練圖像的Laplace譜特征聚類中心數(shù)目和SIFT局部特征聚類中心數(shù)目,K為訓(xùn)練圖像總的聚類中心數(shù)目,α為聚類的權(quán)值系數(shù),經(jīng)實驗得出K=250,α=0.2時分類效果最好.
支持向量機(support vector machine,簡稱SVM)是基于類間最大間距概念的分類器[10],也是較常用且較易實現(xiàn)的分類器之一.其核心思想是通過尋求最優(yōu)分界超平面,來對輸入空間中的多個特征集進行劃分.SVM分類器最初只適用于二分類問題,現(xiàn)在在解決多類別高維度分類問題中也逐漸引入該分類器并取得了很好的效果[11-12].其可以描述為下式所示的優(yōu)化問題
約束條件為:yl(w·xl-b)≥1-ξl,ξl≥0,l=1,…,n.其中:ξl為稀疏變量,R為懲罰因子,w為與超平面垂直的向量,yl的值為1或-1,表示數(shù)據(jù)點所屬的類別.文中采用一對多的LIBSVM[13]分類器進行分類實驗.
將最終圖像全局特征表示V=(VL,VS)歸一化后,送入分類器進行訓(xùn)練與分類,分類過程中采取網(wǎng)格化尋優(yōu)策略,訓(xùn)練分類器的最佳參數(shù).圖3為文中進行圖像分類的方法流程框圖.
輸入圖4所示3類房子的模擬圖像,每幅圖像均由32個特征點構(gòu)成,將3類圖像進行仿射變換后各自得到100幅圖像.
根據(jù)分類方法流程框圖,對3類模擬圖像抽取基于圖像均勻劃分后的Laplace譜結(jié)構(gòu)特征和SIFT特征,結(jié)合BoW模型得到圖像最終表示,將其輸入LIBSVM分類器中進行圖像分類(BoW+SIFT+Laplace譜),重復(fù)實驗10次后取平均值(每類圖像隨機取5幅用于訓(xùn)練,95幅用于測試),并與文獻[2]方法(BoW+SIFT)以及鄰接譜結(jié)合SVD分解的方法(鄰接譜+SVD)進行對比試驗,實驗結(jié)果如表1所示.
表1 3類房子的模擬圖像分類結(jié)果Tab.1 Image classification results of simulation images of three types of houses
為了驗證Laplace譜結(jié)構(gòu)特征結(jié)合SIFT局部特征在BoW模型下進行圖像分類的可行性與準確性,從圖像庫ALOI(http://aloi.science.uva.nl/)中選取5類真實序列圖像進行試驗,它們分別為cmu、hotel、movi、inn和frame,如圖5所示.
在試驗過程中,每類真實序列圖像均選取60幅,每類圖像隨機取10幅用于訓(xùn)練,50幅用于測試.根據(jù)分類方法流程框圖,對每幅圖像提取基于圖像劃分的Laplace譜結(jié)構(gòu)特征和SIFT局部特征,結(jié)合BoW模型得到最終的圖像向量表示,將其輸入LIBSVM分類器中進行圖像分類(BoW+SIFT+Laplace譜),重復(fù)實驗10次后取平均值,并與文獻[2]方法(BoW+SIFT)及文獻[14]方法(鄰接譜+NMF)進行對比試驗,實驗結(jié)果如表2所示.
表2 5類真實序列圖像的分類結(jié)果Tab.2 Image classification results of five types of real sequence images
由表1、2的結(jié)果可以看出,在BoW模型下,結(jié)合Laplace譜結(jié)構(gòu)特征與SIFT局部特征圖像分類的準確率有較高的提升.僅依賴于圖像局部特征或結(jié)構(gòu)特征的圖像分類方法,因不能同時更好地描述圖像局部特征和細節(jié)結(jié)構(gòu)特征,故分類準確率不夠理想.實驗結(jié)果表明,該文所述的分類方法應(yīng)用于圖像分類具有較高的分類準確率.
在BoW模型下,作者抽取圖像均勻劃分的Laplace譜結(jié)構(gòu)特征和SIFT局部特征,構(gòu)造圖像信息描述完備的視覺詞典,并結(jié)合簡單的SVM分類器進行圖像分類.實驗結(jié)果表明基于圖像均勻劃分的Laplace譜結(jié)構(gòu)特征可以對圖像的細節(jié)結(jié)構(gòu)有很好的描述,提升了在BoW模型下進行圖像分類的有效性和可行性.同時,實驗結(jié)果還表明,與使用單一圖像特征進行圖像分類相比,將兩種合適的圖像特征結(jié)合在一起進行分類的準確率更高.
[1]Lewis D D,Jones K S.Natural language processing and information retrieval[J].Communications of the ACM,1996,39(1):92-101.
[2]Li F F,Perona P.A Bayesian hierarchical model for learning natural scene categories[J].Computer Vision and Pattern Recognition,2005,2:524-531.
[3]Lowe D G.Distinctive image features from scale-invariant key points[J].International Journal of Computer Vision,2004,60(2):91-110.
[4]Zhu C,Bichot C E,Chen L.Visual object recognition using DAISY descriptor[C]//IEEE International Conference on Multimedia and Expo,Barcelona,Spain,2011:1-6.
[5]Lazebnik S,Schmid C,Ponce J.Beyond bags of features:spatial pyramid matching for recognizing natural scene categories[J].Computer Vision and Pattern Recognition,2006,2:2169-2178.
[6]Jing Y,Zeng C Q,Tao W,et al.Feature integration analysis of bag-of-features model for image retrieval[J].Neurocomputing,2013,120:355-364.
[7]潘鴻飛.形狀特征描述及聚類算法研究[D].合肥:安徽大學(xué)電子信息工程學(xué)院,2011.
[8]Wang N,Zhang J,Tang J.A spectrum based algorithm for image classification[J].Chinese Journal of Electronic,2009,24(12):427-430.
[9]Hartigan J A,Wong M A.Algorithm AS 136:Ak-means clustering algorithm[J].Journal of the Royal Statistical Society,1979,28(1):100-108.
[10]William S N.What is a support vector machine?[J].Nature Biotechnology,2006,24:1565-1567.
[11]Mathur A,F(xiàn)oody G M.Multiclass and binary SVM classification:implications for training and classification users[J].IEEE Geoscience and Remote Sensing Letters,2008,5(2):241-245.
[12]Kalya ni S,Swarup K S.Classification and assessment of power system security using multiclass SVM[J].IEEE Transactions on Systems,Man,and Cybermetics,2011,41(5):753-758.
[13]Chang C C,Lin C J.LIBSVM:A library for support vector machines[EB/OL].[2012-12-21].http://www.csie.ntu.edu.tw/~cjlin/libsvm/.
[14]蔣云志,王年.基于遞增權(quán)函數(shù)的鄰接矩陣與非負矩陣分解的圖像分類方法[J].安徽大學(xué)學(xué)報:自然科學(xué)版,2011,35(5):63-67.