摘要:當面對大量圖像時,人眼會結(jié)合自底向上和自頂向下的兩部分信息,快速對圖像進行識別。在眾多模擬人眼視覺的算法模型中,Itti提出的基于顯著性的視覺注意力模型[1]得到了廣泛的應用。SalBayes模型就是在此算法基礎(chǔ)之上,結(jié)合Bayesian分類模型,通過建立學習對象的視覺特性的概率模型,從而實現(xiàn)快速地進行大批圖像的分類和搜索。本文對SalBayes算法中的概率分布函數(shù)(PDF)進行了改進,通過用混合高斯模型(GMM)代替單一高斯模型來提高算法的分類效率。理論分析和實驗結(jié)果表明,對于同一個圖像庫ALOI[8](Amsterdam Library of Object Images),本文算法相對于SalBayes算法而言,在圖像識別的準確率有較大提高。
關(guān)鍵詞:SalBayes算法;混合高斯模型;貝葉斯分類模型;視覺顯著性;圖像識別
中圖分類號:TP391.41 文獻標識碼:A 文章編號:1007-9599(2012)24-0025-03
1 引言
人類的視覺系統(tǒng)具有實時高效地注意周圍事物的能力,當大量信息進入眼簾時,我們選擇了視覺場景中的特定部分進行進一步的分析,而忽略其他不相關(guān)的部分,這種認知能力,我們稱為視覺注意力。
在視覺注意力模型的研究中,其最具影響力的是美國南加州大學iLab實驗室的研究成果,尤其是以Itti及其學生為代表的工作。他于1998年,提出的基于Treisma[7]的特征融合理論(Treisman et al. 1980)和Koch神經(jīng)生物學框架(Koch el al. 1985)是首個較為完整的自底向上視覺注意計算模型。Elazary[3]和Itti與2010年共同發(fā)表一篇論文,提出了SalBayes算法,此算法就是在顯著性模型的基礎(chǔ)之上,加入貝葉斯分類模型,預先將待搜索和分類的對象信息作為先驗知識,從而對搜索任務的效率有了較大提高。
SalBayes模型雖然提高了大量圖片的分類效率,但由于該算法只采用了單一高斯模型作為概率分布模型,在某些特殊情況下難以對目標物體的特征變量進行完整表述,從而造成了在分類及識別過程中較大誤差。針對這一問題,本文在SalBayes模型的基礎(chǔ)上,提出了一個新的方法,即利用自適應混合高斯模型代替單一高斯模型,以達到改善模型的分類效率,提高算法準確性的目的。通過反復的訓練和測試,證明此算法確實提高了SalBayes模型的識別效率。
2 SalBayes模型
人眼在進行搜索和識別的時候,既結(jié)合了圖像本身的顯著信息,又結(jié)合了任務驅(qū)動的信息,SalBayes算法就是一個將自底向上和自頂向下相結(jié)合的模型。
首先,為了提取對象的顯著性特征,采用Itti提出的顯著性模型。具體的步驟歸納如下:
(1)分別提取顏色、亮度、方向信息:分別提取r,g,b三個顏色通道,用紅\綠,藍\黃反映雙競爭關(guān)系;亮度取r,g,b的均值;方位用Gabor濾波器對亮度值進行濾波,獲取四個角度(0°、45°、90°、135°)的信息。
(2)采用中心環(huán)繞算子計算細尺度和粗尺度之差,量化了中心區(qū)域相對于四周的差異。
(3)利用歸一化方法,將圖中的顯著度值歸一到固定區(qū)間[0,M],計算圖中的全局最大值M和其他所有局部極值的平均值m, 最后整幅圖像乘以(M-m)2。
通過計算,分別得到紅\綠、藍\黃、亮度、0°、45°、90°以及135°這7個部分的6副顯著圖,合計42副特征圖。在給定像素值為N的區(qū)域q,可以計算出新的集合q’。特征向量F也就是區(qū)域q’中具有最大響應點的位置,在原區(qū)域q中相應的值。如果有j副特征圖,那么特征向量Fj即由第j副特征圖求出。
(1)
對于訓練數(shù)據(jù),同一對象會有不同的訓練圖集,從圖集出采集出來的一組特征向量即表示了這類對象中的顯著信息。
為了對特定類別的圖像進行分類,SalBayes算法采用了樸素貝葉斯網(wǎng)絡,一旦從待分類對象的特征圖中,采集了一組特征向量F,就可以應用Bayes公式進行分類:
(2)
其中,先驗概率取為1/C,C表示已訓練類別的總數(shù)。i表示遍歷經(jīng)過學習的所有對象,計算出后驗概率為最大值的對象就是此特征值集合的最佳匹配,那么待測試的圖像就被分類到此對象。SalBayes算法的輸出將是一個概率經(jīng)過排序的列表。按概率值,由大到小進行排序。此外,假設(shè)各個特征圖之間是統(tǒng)計獨立的,那么可以用以下公式求聯(lián)合分布:
(3)
計算的時候,由于計算所有概率值的乘積,會使結(jié)果偏小,而增加數(shù)值的不穩(wěn)定性,因此用log轉(zhuǎn)換概率值,
(4)
3 實驗與分析
3.1 SalBayes算法缺陷與改進
SalBayes采用單高斯模型作為概率分布模型。高斯分布(又稱正態(tài)分布) 主要由兩個參數(shù)——平均值μ和方差σ決定。μ通常由樣本均值代替,σ由樣本方差代替。如下式:
(5)
由此可見,此模型為對象的分類提供了一個粗略的估計值 。以圖像數(shù)據(jù)庫ALOI中某一類對象特征值為例,采用核平滑密度估計來描述特征值的分布情況,如圖1,可以觀察到對于每一類特征值,其分布近似于高斯分布。
然而某些類別的特征值分布會有多個波峰,對于這類特殊情況,用單高斯模型無法對其作出正確描述。因此,用單高斯模型作為概率分布,將會在分類過程中引起誤差。如果可以對各種變化情況進行單獨建模,用單高斯模型分別描述這些變化,那么所有單高斯模型的混合就能夠完整地描述對象。
由前文分析,為了改進SalBayes算法,本文采用了混合高斯模型。文本將特征值Fj分為兩類,采用k-means方法進行聚類,分別求出每一個類別中的均值μij和方差σij。并根據(jù)分類后每類中樣本點的個數(shù)比作為權(quán)值。這里需要注意的是,經(jīng)過測試,當模型數(shù)的權(quán)值之和在某一閾值(文本設(shè)為0.80)之內(nèi)時,效果更好。所以我們將前面的模型權(quán)值相加,當超過這一閾值時就舍去另外一個模型。假設(shè)兩類中的樣本點占所有樣本數(shù)的比例分別為a和b,權(quán)值為Q,可以用下式表示:
(6)
于是,對于某一類由n(42)個θj組成的對象模型,每個θj包含n(n=2)組均值和方差,由聚類的方法得到每個高斯模型的權(quán)值,用jn表示。那么,對于每一個聚類,都能估算出概率密度 ,表示如下:
(7)
圖 1 ALOI中某一類對象的特征值分布
計算至此,我們可以獲得能表征某一類別的參數(shù) ,即對于每一副特征圖,都由一到兩組均值和方差以不同比例混合表示。最后由一個混合高斯模型,求出概率密度。如公式
(8)
3.2 實驗結(jié)果分析與討論
本文以ALOI數(shù)據(jù)庫作為測試對象,其包含1000類不同的對象,其中每一類別的圖像集合中,包含同一個對象的12個不同顏色、24副不同光照方向和72副不同視角的圖片,共計108副。在計算顯著圖的過程中,由于數(shù)據(jù)量大,為了減少運算時間,將所有圖像的尺寸縮小到256*256像素,高斯金字塔的尺度選為8,中心環(huán)繞系數(shù)c=2、3、4,d=3、4,求跨尺度差時,取第4層(32*32像素)為中心,粗尺度進行插值、細尺度進行采樣。
我們以SalBayes模型的結(jié)果和文本改進的SalBayes模型進行比較,訓練樣本和測試樣本的比例為1:3,結(jié)果見表1。如表1所示,對于SalBayes算法,其在不同角度下的識別率是最高的,然而在光照顏色方面不盡人意。當我們加入混合高斯模型后,在亮度圖集中,識別效率提高了11%。對于光照方位和旋轉(zhuǎn)角度這兩個部分沒有明顯改進。
表1
識別率 (%)
SalBayes
模型改進的 SalBayes 模型
A. 光照顏色測試集64.7975.62
B. 光照角度測試集75.575.53
C. 旋轉(zhuǎn)角度89.7189.87
所有圖片76.6777.79
此外,本文還分別采用50%的訓練數(shù)據(jù)和50%的測試數(shù)據(jù),以及25%的訓練數(shù)據(jù)和75%的測試數(shù)據(jù)進行分析,最后的識別率取自10次測試的平均值。識別率如下表2,
表2
識別率 (%)
訓練/測試 樣本比(%)A.光照顏色測試集B.光照角度測試集C.旋轉(zhuǎn)角度所有圖片
25 / 7575.0376.9588.0577.79
50 / 5089.6480.4389.1185.40
本文用混合高斯模型替代了單一高斯模型,改進了SalBayes算法的分類效率,也證明了改變概率模型是一個正確的研究方向。本文主要實現(xiàn)了對大量圖片分類的功能,提供了一個更加具體的能表征某一類別的概率分布曲線。然而從表中結(jié)果可看出,對于改進的SalBayes算法,識別率還有更大的上升空間,所以之后的工作主要分為兩個方面。
一方面,可以將自適應算法加入概率模型中,使概率模型的擬合具有選擇性。另一方面,ALOI數(shù)據(jù)庫中的對象圖片,背景為全黑,對于背景復雜的對象,此算法的準確度不高。所以也可以通過圖像分割算法,在背景復雜的場景里,提取出主要的部分,從而提高分類的效率。
參考文獻:
[1] Itti, L., Koch, C., Niebur, E. (1998). A model of saliency-based visual attention for rapid scene analysis. IEEE Transactions on Pattern Analysis and Machine Intelligence,20(11),1254-1259.
[2] Daniel Kersten Pascal Mamassian.(2003). Object Perception as Bayesian Inference. Annual Review of Psychology,Vol. 55: 271-304 (Volume publication date February 2004).
[3] Elazary, L., Itti, L.(2010). A Bayesian Model for Efficient Visual Search and Recognition. Vision Research 50(14),1338-1352.
[4] Hairu Guo, Xiaojie Wang, Yixin Zhong, Song Bi. (2011). An Improved SalBayes Model with GMM. Lecture Notes in Computer Science, 2011, Volume 6855/2011,356-363.
[5] D. Walther, L. Itti, M. Riesenhuber, T. Poggio, and C. Koch. Attentional selection for object recognition - a gentle way. In Proc. Biol. Motivated Comp. Vision, pages 472-479,2002.
[6] D. Lowe. Object recognition from local scale-invariant features.In Proc. ICCV, pages 1150-1157,1999.
[7] Treisman, A.M., Gelade, G.: A Feature-Integration Theory of Attention. Cognitive Psychology 12(1),97-136 (1980).