韓抒真,郭建民,郭迎春,柳 青
(1.天津工業(yè)大學(xué) 信息化中心,天津 300387;2.河北工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與軟件學(xué)院,天津 300401;3.天津工業(yè)大學(xué) 圖書館,天津 300387)
基于視覺(jué)注意機(jī)制的圖像分類方法
韓抒真1,郭建民1,郭迎春2,柳 青3
(1.天津工業(yè)大學(xué) 信息化中心,天津 300387;2.河北工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與軟件學(xué)院,天津 300401;3.天津工業(yè)大學(xué) 圖書館,天津 300387)
針對(duì)Itti視覺(jué)模型在模擬人類視覺(jué)的過(guò)程中沒(méi)有考慮到人眼視覺(jué)系統(tǒng)對(duì)外界事物邊緣和輪廓的注意敏感性的問(wèn)題,提出一種改進(jìn)的基于視覺(jué)注意機(jī)制的圖像分類方法,即基于Itti模型,同時(shí)引入圖像的邊緣特征對(duì)圖像進(jìn)行分類.經(jīng)實(shí)驗(yàn)驗(yàn)證,與傳統(tǒng)的Itti模型相比,該方法具有更高的分類準(zhǔn)確率,分類準(zhǔn)確率達(dá)到97%以上.
視覺(jué)注意;圖像分類;Itti視覺(jué)模型;邊緣特征
由于人類視覺(jué)注意機(jī)制的作用,在觀察事物時(shí),人們總能夠在復(fù)雜的視覺(jué)環(huán)境中迅速地把目光集中到自己感興趣的區(qū)域[1-4].相對(duì)于普通的特征提取,基于視覺(jué)注意機(jī)制的圖像特征提取帶有更多的人類評(píng)判圖像內(nèi)容的主觀性.因此,將人類視覺(jué)注意機(jī)制應(yīng)用到圖像分類中,會(huì)使分類結(jié)果更符合人類的主觀感受.其中經(jīng)典的視覺(jué)注意模型是Itti模型[5].該模型提取原始圖像中的亮度、顏色和方向3類特征,通過(guò)提取出的特征來(lái)綜合判斷圖像中每個(gè)像素點(diǎn)的特征信息,然后把各個(gè)像素與周邊區(qū)域相鄰像素的差異作為該像素的顯著性特征,形成顯著圖.注意區(qū)域是在表征圖像各區(qū)域顯著特征的顯著圖基礎(chǔ)之上構(gòu)建的,Itti模型主要根據(jù)圖像各區(qū)域不同的顯著度利用勝者取全(winner-take-all,WTA)[6]神經(jīng)網(wǎng)絡(luò)模擬人眼對(duì)多個(gè)焦點(diǎn)的注意,得到圖像中的多個(gè)被注意區(qū)域.但是,在視覺(jué)上,人類對(duì)物體的邊緣和輪廓是十分敏感的[7-9]. Itti模型在模擬人類視覺(jué)的過(guò)程中并沒(méi)考慮到邊緣信息.為了彌補(bǔ)該模型的不足,本文以Itti模型為基礎(chǔ),引入圖像的邊緣特征,并利用尺度變換形成邊緣顯著圖.同時(shí)采用分塊平均值法對(duì)4類顯著圖提取特征向量,最后使用SVM分類器進(jìn)行圖像分類的仿真實(shí)驗(yàn).
視覺(jué)注意機(jī)制最重要的特性是具有選擇性,由于視覺(jué)刺激作用,人們?cè)谟^察事物時(shí),首先注意的往往是一些顯著特征即與周圍目標(biāo)存在顯著差異的目標(biāo).如圖1所示,在圖1(a)中,當(dāng)多個(gè)綠球中只有一個(gè)紅球時(shí),觀察者會(huì)第一時(shí)間覺(jué)察到紅球,該示例表示顏色特征占顯著地位的情況;圖1(b)中,多個(gè)深色圓球中出現(xiàn)了一個(gè)淺色圓球,則淺色的圓球會(huì)首先引起人們的注意,此示例則表現(xiàn)了亮度特征占據(jù)顯著地位的情況;圖1(c)中左下方條形的方向與其他條形方向不一致,則該條形更能吸引人們的注意,此例表現(xiàn)的是方向特征更為顯著.經(jīng)典的Itti模型,根據(jù)視覺(jué)注意機(jī)制的特性,對(duì)圖像的亮度、顏色和方向特征進(jìn)行提取.
圖1 視覺(jué)選擇性示意圖Fig.1 Schematic diagram of visual attention
除了上述特征之外,人類在觀察圖像尤其是遠(yuǎn)觀圖像時(shí)往往對(duì)圖像的整體邊緣輪廓更為敏感.因此,本文主要以Itti模型的顯著圖生成算法(如圖2)為基礎(chǔ),并引入圖像的邊緣特征對(duì)圖像進(jìn)行特征提取.特征提取的流程如圖3所示.
圖2 Itti模型的顯著圖生成流程Fig.2 Saliency map generation process of Itti model
1.1 初級(jí)視覺(jué)特征提取
由圖像特征提取的流程圖可知,本文所需要提取的初級(jí)圖像特征有:亮度、顏色、方向以及邊緣特征.
(1)亮度特征的提取采取比較通用的計(jì)算方法.設(shè)r、g、b分別表示圖像的紅色、綠色和藍(lán)色通道,則亮度特征的計(jì)算公式為:
亮度圖像的信息量降為原始輸入圖像的1/3.當(dāng)提取圖像的邊緣、紋理及方向等底層特征時(shí),并不需要考慮顏色信息,以亮度圖為基礎(chǔ)進(jìn)行計(jì)算可以有效地提高計(jì)算速度及效率.隨機(jī)選取Caltech圖像庫(kù)中的一副圖像對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行說(shuō)明,圖4為原始圖像經(jīng)計(jì)算得到的亮度圖像.
圖3 圖像特征提取流程圖Fig.3 Flow diagram of image feature extraction
圖4 亮度圖像Fig.4 Intensity image
(2)顏色特征提取時(shí),為了排除亮度對(duì)RG通道和BY通道的影響,在計(jì)算RG顏色對(duì)和BY顏色對(duì)前,使用了亮度分量對(duì)三元色分量進(jìn)行修正.由于在亮度很低的區(qū)域即小于最大亮度10%的區(qū)域,人眼很難分辨到色度信息,因此先將三元色分量進(jìn)行以下處理:將圖像中亮度值小于最大亮度值10%位置的三元色分量置為0,即r′=0,g′=0,b′=0;剩余位置的三元色分量為r′=r/I,g′=g/I,b′=b/I.然后將三元色分量依據(jù)公式(2)轉(zhuǎn)化為四元色分量,其中R、G、B、Y分別代表紅色、綠色、藍(lán)色、黃色分量.最后得到兩個(gè)顏色對(duì)特征:RG=R-G,BY=B-Y.
(3)對(duì)于方向特征,本文采用Gabor濾波的方法提取.計(jì)算公式以及θk的取值范圍如公式(3)所示:
式中:T為濾波器的周期,θk代表濾波器的方向,兩者共同決定了濾波器的頻域位置;σx和σy分別表示高斯函數(shù)在x方向和y方向上的標(biāo)準(zhǔn)差,控制其在方向上的伸縮性,一般取相等的值以保證各方向同性.
(4)邊緣特征的提取采用Canny算子.Canny算子不僅能夠很好地提取出圖像的邊緣信息,而且能夠在很大程度上抑制噪聲影響.由此可見(jiàn),Canny算子是一種效果優(yōu)秀的邊緣提取方法.Canny算子的計(jì)算流程主要包括濾波、增強(qiáng)和檢測(cè).
1.2 顯著特征圖的生成
1.2.1 亮度、顏色及方向特征的多尺度提取
眾所周知,人們?cè)谟^察事物時(shí)會(huì)有“遠(yuǎn)大近小”的感覺(jué).例如,遠(yuǎn)觀樓宇時(shí),引起人們注意的是大樓的整體;而近觀樓宇時(shí),并非能看清樓的全貌,引起關(guān)注的可能只是樓宇的局部.這種由于觀察者和目標(biāo)之間的距離不同而產(chǎn)生的視覺(jué)差異就是人類視覺(jué)的多尺度特性.在數(shù)字圖像處理的過(guò)程中,通常采用尺度空間方法[10]來(lái)模擬這種視覺(jué)多尺度性.金字塔模型是最常用的尺度空間方法.
Itti模型通過(guò)使用多尺度、多通道的非均勻高斯金字塔進(jìn)行濾波處理,提取出亮度、顏色和方向3類初級(jí)視覺(jué)特征的多尺度圖像,對(duì)每一類特征圖進(jìn)行高斯金字塔G(x,y,σ)濾波,R(x,y,σ)用來(lái)表示對(duì)原始圖像做高斯金字塔運(yùn)算后的圖像,計(jì)算公式如下:
式中:σ表示高斯金字塔G(x,y,σ)的帶寬,即尺度因子;σ的值越小則圖像被平滑的越少,所表征的圖像細(xì)節(jié)信息越多,對(duì)應(yīng)的尺度也就越??;反之,較大尺度的圖像則反映全局特征.
1.2.2 亮度、顏色及方向顯著圖的生成
中心-周邊差的主要原理是將圖像特征對(duì)比度的運(yùn)算進(jìn)行轉(zhuǎn)化,轉(zhuǎn)為多尺度下計(jì)算特征圖的差值.視覺(jué)注意機(jī)制中引入中心-周邊差的思想,更有利于圖像顯著區(qū)域的提取.實(shí)驗(yàn)使用高斯金字塔的各層圖像進(jìn)行運(yùn)算,采用中心周邊差與跨尺度融合得到各個(gè)特征的顯著圖.
本文采用八級(jí)金字塔,這里選擇中心尺度c∈{1,2,3},尺度差δ∈{3,4},分別將3類圖像金字塔進(jìn)行中心-周邊差計(jì)算[11],亮度、顏色和方向的計(jì)算分別如式(6)—(8)所示:
對(duì)得到的不同尺度的中心-周邊特征通過(guò)跨尺度“⊕”運(yùn)算進(jìn)行融合,最終得到所有特征的顯著圖.式(9)-(11)分別為亮度、顏色和方向的計(jì)算公式.
1.2.3 邊緣顯著圖的生成
由上述3類視覺(jué)顯著圖的生成過(guò)程可以了解到圖像尺度在視覺(jué)注意機(jī)制中具有非常重要的作用,因此在生成邊緣顯著圖的過(guò)程中也引入了多尺度原理.主要流程如下:
Step1:對(duì)亮度圖像(圖4)進(jìn)行適當(dāng)?shù)燃?jí)下的采樣,得到高層亮度圖像.高層亮度圖像能有效忽略邊緣細(xì)節(jié)特征,保留主體輪廓,更能凸顯顯著區(qū)域的邊緣特征.
Step2:提取高層亮度圖像的邊緣特征,這里采用Canny算子進(jìn)行邊緣提取,得到邊緣圖像.
Step3:將Step2中生成的邊緣圖像調(diào)整到與其他3類顯著圖相同的尺度,生成邊緣顯著圖,如圖5所示.
圖5 經(jīng)過(guò)尺度變換提取的邊緣顯著圖Fig.5 Edge saliency map extracted by scaling
圖6所示為對(duì)同尺度的亮度圖直接進(jìn)行邊緣提取得到的結(jié)果.通過(guò)兩幅圖像的比較可以看出,經(jīng)過(guò)尺度變換得到的圖像邊緣更為顯著,并有效地去除了一些細(xì)節(jié)邊緣.
圖6 直接提取的邊緣圖像Fig.6 Edge image extracted directly
1.3 特征向量提取
經(jīng)過(guò)上述流程的處理,得到4個(gè)類別共8幅基于視覺(jué)注意機(jī)制的顯著特征圖像,分別是亮度顯著圖1幅,RG和BY顏色顯著圖共2幅,0°、45°、90°和135°方向顯著圖共4幅以及邊緣顯著圖1幅.本文采用分塊平均法對(duì)每幅顯著特征圖進(jìn)行特征向量提取[12].每一幅特征圖像都劃分為固定的4×4共16個(gè)子塊,即每幅顯著圖經(jīng)分塊均值處理得到1個(gè)16維的特征向量.因此,每幅輸入圖像得到基于亮度、顏色、方向及邊緣的共8×16=128維特征向量作為支持向量機(jī)的輸入向量,用于圖像分類.
本文實(shí)驗(yàn)采用Caltech圖像庫(kù),包括摩托車、樹葉、人臉和飛機(jī)4類圖像,樣本數(shù)分別為816、186、450和986,共計(jì)2 438幅圖像.每一類圖像都有較大的類內(nèi)差異性且背景復(fù)雜[13],示例圖如圖7所示.
圖7 Caltech 4類圖像庫(kù)示例圖Fig.7 Categories exam ples of Caltech database
為了驗(yàn)證本文提出方法的有效性,采用SVM分類器[14-15]進(jìn)行分類實(shí)驗(yàn).實(shí)驗(yàn)分為2組進(jìn)行:第1組,隨機(jī)選取各類圖像的1/2當(dāng)作訓(xùn)練樣本,剩余的1/2進(jìn)行預(yù)測(cè)實(shí)驗(yàn),分類正確率如表1所示;第2組,在第1組的基礎(chǔ)上降低訓(xùn)練比例,隨機(jī)選取各類圖像的1/4作為訓(xùn)練樣本,剩余的3/4進(jìn)行預(yù)測(cè)實(shí)驗(yàn),分類正確率如表2所示.
表1 第1組分類正確率統(tǒng)計(jì)表Tab.1 The first set of classification accuracy statistics
表2 第2組分類正確率統(tǒng)計(jì)表Tab.2 The second set of classification accuracy statistics
表1和表2的統(tǒng)計(jì)結(jié)果表明,各類圖像的分類正確率均達(dá)到90%以上,總分類正確率高于97%.
在其他條件均相同的情況下,特征提取分別采用傳統(tǒng)Itti模型和本文方法,用于圖像分類.準(zhǔn)確率對(duì)比結(jié)果如圖8所示.
圖8 2種方法的分類結(jié)果對(duì)比Fig.8 Comparison of classification results of two methods
由圖8的分類結(jié)果對(duì)比可知,利用本文方法提取特征進(jìn)行圖像分類,兩組實(shí)驗(yàn)的分類正確率分別為98.851 8%和97.049 2%,比傳統(tǒng)的Itti特征提取方法均有顯著提高,尤其是訓(xùn)練樣本較少的情況下更能突顯本文方法的優(yōu)勢(shì).4類圖像中各類圖像的分類正確率也均有提高,其中最為明顯的是樹葉類,正確率分別由 76.344 1%和 54.285 7%提高到 96.774 2%和90%.通過(guò)實(shí)驗(yàn)分析,原因在于樹葉有特定的輪廓,邊緣特征非常顯著.因此,在引入邊緣特征后分類結(jié)果有了明顯的改善.
本文結(jié)合人眼視覺(jué)注意的敏感性,提出了基于視覺(jué)注意機(jī)制和邊緣特征相結(jié)合的特征提取方法,并對(duì)該方法提取的特征向量進(jìn)行了多類圖像分類的仿真實(shí)驗(yàn).分類結(jié)果表明,該方法比傳統(tǒng)的Itti模型更加有效,能更加精確地分出各類圖像,在分類準(zhǔn)確率上表現(xiàn)出了一定的優(yōu)越性.由于測(cè)試圖像庫(kù)的圖像大部分具有比較突出的顯著目標(biāo),且圖像類別較少,因此在后續(xù)研究中需要對(duì)現(xiàn)有算法的適用范圍及達(dá)到的效果進(jìn)行更為廣泛的研究和實(shí)驗(yàn).
[1]MAZhong,ZHAOXinbo,ZOUXiao-chun,etal.Markov chain based computational visual attention model that learns from eye tracking data[J].Pattern Recognition Letters,2014,49:1-10.
[2]SHI Hang,YANG Yu.A computational model of visual attention based on saliency maps[J].Applied Mathematics and Computation,2008,188:1671-1677.
[3]馬奇,張立明.快速注意力選擇計(jì)算及其在圖像質(zhì)量評(píng)價(jià)中的應(yīng)用[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2009,21(7): 973-983.
[4]田媚,羅四維,齊英劍,等.基于視覺(jué)系統(tǒng)“What”和“Where”通路的圖像顯著區(qū)域檢測(cè)[J].模式識(shí)別與人工智能,2006,19(2):155-160.
[5]ITTI L,KOCH C. Computational modelling of visual attention[J].Nature Reviews Neuroscience,2001,2(3):194-230.
[6]KOCH C,ULLMAN S.Shifts in selective visual attention:Towards the underlying neural circuitry[J].Human Neurobiology,1985,4(4):219-227.
[7]郭迎春,袁浩杰,吳鵬.基于Local特征和Regional特征的圖像顯著性檢測(cè)[J].自動(dòng)化學(xué)報(bào),2013,39(8):1214-1224.
[8]夏召?gòu)?qiáng),馮曉毅,彭進(jìn)業(yè).基于邊緣與深度特征的感興趣區(qū)域檢測(cè)技術(shù)[J].計(jì)算機(jī)仿真,2009,26(7):248-251.
[9]于明,邳艷芹.一種改進(jìn)的顯著性區(qū)域提取模型[J].電視技術(shù),2012,36(19):167-169.
[10]張巧榮,顧國(guó)昌,劉海波,等.利用多尺度頻域分析的圖像顯著區(qū)域檢測(cè)[J].哈爾濱工程大學(xué)學(xué)報(bào),2010,31(3):361-365.
[11]FRIN Trop S.VOCUS:A visual attention system for object detection and goal directed search[D].Bown:University of Bonn,2005.
[12]邢慧強(qiáng),王國(guó)宇.SVM用于基于塊劃分特征提取的圖像分類[J].微計(jì)算機(jī)信息,2006,22(51):210-212.
[13]宋雁斕,張瑞,支琤,等.一種基于視覺(jué)注意模型的圖像分類方法[J].中國(guó)圖形圖象學(xué)報(bào),2008,13(10):1886-1889.
[14]謝菲,陳雷霆,邱航.基于紋理特征提取的圖像分類方法研究及系統(tǒng)實(shí)現(xiàn) [J].計(jì)算機(jī)應(yīng)用研究,2009,26(7):2667-2770.
[15]張淑雅,趙一鳴,李均利.基于SVM的圖像分類算法與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(25):40-42.
Image classification based on human visual attention mechanism
HAN Shu-zhen1,GUO Jian-min1,GUO Ying-chun2,LIU Qing3
(1.Informatization Center,Tianjin Polytechnic University,Tianjin 300387,China;2.School of Computer Science and Engineering,Hebei University of Technology,Tianjin 300401,China;3.Library,Tianjin Polytechnic University,Tianjin 300387,China)
To solve the problem that Itti visual model does not considering the sensitivity of the human visual system on the edge and contour of the external things when simulating human vision,an improved image classification method based on human visual attention system is put forward.On the basis of Itti visual model,edge features are introduced into image classification.Experimental results show that compared with the tradition model,this novel algorithm has a higher classification accuracy over 97%.
visual attention;image classification;Itti visual model;edge feature
TP391.4
A
1671-024X(2015)04-0047-05
10.3969/j.issn.1671-024x.2015.04.010
2015-04-29
河北省自然科學(xué)基金面上項(xiàng)目(F2015202239)
韓抒真(1987—),女,碩士,助理實(shí)驗(yàn)師,研究方向?yàn)閳D像處理與模式識(shí)別.Email:hanshuzhen@tjpu.edu.cn