莊斐弘,于威威
(上海海事大學(xué)信息工程學(xué)院,上海 201306)
視覺顯著性檢測的研究
莊斐弘,于威威
(上海海事大學(xué)信息工程學(xué)院,上海 201306)
計(jì)算機(jī)模擬人類視覺系統(tǒng)的生理機(jī)理對圖像進(jìn)行識別是視覺顯著性檢測研究的主要目的之一。在對圖像的預(yù)處理過程中,快速準(zhǔn)確的顯著性檢測能夠?yàn)閳D像檢索、圖像識別、圖像分割等后期圖像處理過程提供有價(jià)值的參考。然而目前視覺顯著性檢測的算法還存在檢測結(jié)果質(zhì)量不高的問題。通過研究圖像傅里葉頻譜與顯著性的關(guān)系,提出一種基于相位譜和調(diào)諧幅度譜結(jié)合分水嶺算法的顯著性檢測方法,以提高目前視覺顯著性檢測的效果。
視覺顯著性;分水嶺;傅里葉頻譜;相位譜;調(diào)諧譜
隨著計(jì)算機(jī)性能和數(shù)字存儲(chǔ)技術(shù)的快速發(fā)展,人們獲取的數(shù)字圖像數(shù)據(jù)容量不斷增加,面對這些海量的數(shù)據(jù),人們越來越希望計(jì)算機(jī)可以更加自主更加智能地進(jìn)行處理。受到人類視覺系統(tǒng)能快速高效地分析周圍環(huán)境,定位感興趣的物體,并做出相應(yīng)的反應(yīng)的啟發(fā),如果計(jì)算機(jī)能夠模擬人類視覺系統(tǒng)的這種機(jī)能來處理視覺內(nèi)容,那么將對視覺計(jì)算研究的各個(gè)領(lǐng)域產(chǎn)生極大的促進(jìn)作用,而計(jì)算機(jī)理解圖像數(shù)據(jù)的關(guān)鍵是顯著性區(qū)域的視覺感知處理能力。
目前已有的一些模型和算法在一定程度上實(shí)現(xiàn)了上述功能,但在某些方面還存在不足。針對現(xiàn)有顯著性區(qū)域檢測方法存在的問題,本文提出了一種基于相位譜和調(diào)諧幅度譜結(jié)合分水嶺算法的顯著性檢測方法。該方法首先對要檢測的圖像進(jìn)行傅里葉變化,提取相位譜和幅度譜。而圖像的相位譜反映的是圖像的紋理信息,因此保留圖像的相位譜,對圖像的幅度譜進(jìn)行處理。對幅度調(diào)諧,得到一個(gè)合適的閾值,使顯著性區(qū)域幅值加強(qiáng),非顯著性區(qū)域削弱,從而得到初步顯著性圖。然后再對得到的圖像用分水嶺算法進(jìn)行分割,通過確定算法中的閾值來得到最終的顯著性圖,實(shí)驗(yàn)結(jié)果表明了該算法的可行性和有效性。
1.1 人類視覺系統(tǒng)(Human Visual System,HVS)
人類的視覺系統(tǒng)能快速準(zhǔn)確地處理人眼所看到視覺場景:識別場景中物體、將不同的物體進(jìn)行組合、理解和分析整個(gè)場景,如果是帶有目的性的,還能夠在對場景搜索之后很快達(dá)成目的。這個(gè)過程即使對目前最先進(jìn)的計(jì)算機(jī)和最有效算法來說都是一個(gè)非常困難的,而人類視覺系統(tǒng)處理這么復(fù)雜的過程只需要在極短的時(shí)間內(nèi)就能完成。目前,Neisser[1-2]提出的描述人類視覺系統(tǒng)作用過程的機(jī)制最被認(rèn)可,他將早期視覺(Early Vision)處理過程分為預(yù)注意處理階段(Pre-attentive Stage)和注意處理階段(Attentive Stages)。視覺系統(tǒng)的前意識階段在第一階段中是最主要的,這個(gè)階段只處理和檢測場景中顯著的特征,場景中不同于大多數(shù)的背景的區(qū)域部分能夠引起視覺細(xì)胞更大的刺激。而到了第二階段,神經(jīng)系統(tǒng)會(huì)將這些顯著的特征通過某種關(guān)系進(jìn)行融合和聚類,然后形成注意力分配圖來指導(dǎo)眼球的運(yùn)動(dòng),視覺信息在HVS中的傳遞過程如圖1所示。在這基礎(chǔ)之上,MIT大學(xué)的David C.Marr[3-4]提出視覺處理的預(yù)注意階段會(huì)將進(jìn)入視覺系統(tǒng)內(nèi)的光線轉(zhuǎn)化為顏色、邊緣、線條和傾角等征,并將這些特征進(jìn)行特定的編碼來形成對視覺場景的初步表示,最終讓視覺系統(tǒng)能夠進(jìn)行識別和分析。
圖1 視覺信息在HVS中的傳遞過程
1.2 視覺顯著計(jì)算模型
視覺顯著計(jì)算模型主要是利用數(shù)字圖像處理方法,模擬人類視覺注意系統(tǒng),對視場中不同的信息構(gòu)建的視覺認(rèn)知、目標(biāo)獲取的數(shù)學(xué)計(jì)算模型。在構(gòu)建視覺顯著計(jì)算模型時(shí)重點(diǎn)需解決三個(gè)問題:(1)顯著特征的提??;(2)顯著圖生成策略;(3)顯著圖融合。不同模型的主要區(qū)別在于模型構(gòu)建過程中采用不同策略處理這三個(gè)階段。模型性能好壞的評價(jià)指標(biāo)主要是看計(jì)算結(jié)果與人觀察視場的顯著性圖的一致程度。
近年來,國內(nèi)外研究人員提出了多種視覺顯著計(jì)算模型,正如前文指出,視覺注意過程中包含自底向上(Bottom-up)和自上而下(Top-down)兩種機(jī)制。視覺顯著模型的建立也分為兩種不同的研究框架。但自上而下的視覺顯著計(jì)算模型是根據(jù)特定的任務(wù)建立,理論和應(yīng)用均具有局限性。因此,目前絕大數(shù)的研究成果均是研究自底向上的由底層特征驅(qū)動(dòng)的計(jì)算模型。自底向上視覺顯著性計(jì)算建模是從底層特征開始,生成不同表達(dá)方法的特征顯著圖,以形成對人眼視覺的表達(dá)。這種方式重點(diǎn)是強(qiáng)調(diào)場景目標(biāo)自身與所處區(qū)域,或者場景全局的差別,差別越明顯,顯著性越強(qiáng)。從特征描述的策略和建模的思想上區(qū)分,該類模型大致有三類:
(1)基于視覺認(rèn)知的計(jì)算模型。該類方法利用多種圖像底層全局顯著特征進(jìn)行融合,建立視覺顯著模型,如Itti[9]視覺顯著模型。Itti模型對圖像進(jìn)行線性濾波后,利用圖像的顏色特征、強(qiáng)度特征和方向特征,進(jìn)行9層高斯金字塔濾波,獲得各自的顯著圖,再利用“中央-邊緣”(center-srundder)機(jī)制,采取“贏者通吃”的策略,進(jìn)行線性融合,獲得最終圖像顯著圖。
(2)基于單一數(shù)學(xué)計(jì)算的顯著性分析方法。不利用任何視覺認(rèn)知機(jī)制,用數(shù)學(xué)方式表達(dá)圖像,并利用數(shù)學(xué)方式對圖像進(jìn)行顯著性計(jì)算,其典型代表有Achanta[15]等人提出的全分辨率算法,即AC算法和Hou[5]等人提出的頻域譜殘余(Spectral residual,SR)算法,這兩個(gè)算法是在對大量自然圖像進(jìn)行頻率內(nèi)對數(shù)譜分析后發(fā)現(xiàn),冗余背景信息大致相同,顯著目標(biāo)具有較強(qiáng)的“尖銳”特性,因而進(jìn)行的頻域內(nèi)運(yùn)算和變換。
(3)結(jié)合視覺認(rèn)知與數(shù)學(xué)計(jì)算的顯著性提取方法。其典型代表有Harel[10]等人提出的基于圖像的視覺顯著性(Graph-Based Visual Saliency,GBVS)算法。這種方法考慮到單一視覺認(rèn)知模型和數(shù)學(xué)計(jì)算的不足,提出利用人類視覺認(rèn)知理論建立整體算法框架,再引入數(shù)學(xué)計(jì)算方法,基于馬爾科夫鏈進(jìn)行隨機(jī)游走,建立視覺顯著模型。
就近年來具有代表性的視覺顯著計(jì)算模型的作者信息、提出時(shí)間和采用的基本策略信息梳理如表1所示。
表1 具有代表性的視覺顯著計(jì)算模型
2.1 頻域譜殘余方法
由Hou和Zhang[5]提出的SR方法首次從頻率域的角度分析圖像的視覺顯著性。通過抽取圖像在頻域上的殘余頻譜,SR方法能夠快速地計(jì)算出空間域的顯著圖。根據(jù)高頻抑制原理,人的視覺系統(tǒng)在抑制經(jīng)常發(fā)生的特征的同時(shí)保持對偏離正常狀態(tài)的特征敏感[6]。因此只有非常規(guī)的信號才能被傳遞到處理的下個(gè)階段。SR方法分成三個(gè)步驟:
(1)對圖像進(jìn)行傅里葉變換,將其變換到頻率域并得到振幅譜和相位譜。
(2)變振幅譜為對數(shù)譜,再計(jì)算殘余譜。
(3)通過反向傅里葉變換,利用殘余譜和相位譜得到顯著圖。
SR方法通過對圖像的幅度譜進(jìn)行局部均值濾波以達(dá)到壓制冗余信息的目的,而傅里葉變換和反變換也是圖像處理中最基礎(chǔ)的計(jì)算之一,并且SR方法的計(jì)算速度比較快。雖然該方法壓制了非顯著性信息,但與此同時(shí)也壓制了圖像的顯著性信息和顯著細(xì)節(jié),導(dǎo)致了顯著圖的對比度較差,且效果一般。只能在一定程度上表示出顯著性目標(biāo)所在的區(qū)域,不能完全表明顯著性目標(biāo)的準(zhǔn)確位置和輪廓,如圖2所示。
2.2 分水嶺算法
分水嶺算法[7]是基于模擬浸水過程實(shí)現(xiàn)的。該方法的基本思想是把圖像看成是地質(zhì)學(xué)上的3D地貌拓?fù)洌瑘D像中每一點(diǎn)像素的灰度值看作是海拔高度,每一個(gè)局部極小值及其影響區(qū)域被稱為集水盆。假設(shè)在每個(gè)極小點(diǎn)處打一個(gè)小孔,把這個(gè)地質(zhì)學(xué)模型慢慢浸入水中,水將從這些小孔中慢慢浸入模型表面,從最低的極小值點(diǎn)開始,水會(huì)逐漸淹沒集水盆。當(dāng)來自兩個(gè)不同極小值點(diǎn)區(qū)域的水面不斷升高并即將匯聚到一起時(shí),在此處筑起一道堤壩。在整個(gè)過程結(jié)束之后,每個(gè)極小值點(diǎn)都會(huì)被相應(yīng)集水盆的堤壩所包圍,整個(gè)堤壩集合構(gòu)成分水嶺。不同的集水盆代表圖像的不同分區(qū),最終實(shí)現(xiàn)圖像分割。
要實(shí)現(xiàn)分水嶺分割算法需要標(biāo)定一些種子點(diǎn):分別為前景種子點(diǎn)和背景種子點(diǎn)。這兩種種子點(diǎn)的選取可以基于顯著圖來確定。設(shè)定一個(gè)較低的閾值Tlow,顯著性低于Tlow的點(diǎn)將其認(rèn)為是背景區(qū)域的點(diǎn);同理,設(shè)定一個(gè)較高閾值Thigh,顯著性高于Thigh的點(diǎn)將其認(rèn)為是前景區(qū)域的點(diǎn)。然后把標(biāo)記出的這些點(diǎn)作為輸入,就能實(shí)現(xiàn)圖像的分水嶺分割。Tlow和Thigh這兩個(gè)的閾值的設(shè)定基于均值最大值加權(quán)平均法動(dòng)態(tài)閾值:
圖3對比了幾個(gè)采用分水嶺分割算法的視覺顯著性檢測圖,其中第二行的顯著圖是通過本文提出的方法所得到的。從實(shí)驗(yàn)結(jié)果可以看出,本文所提出的結(jié)合分水嶺算法的視覺顯著性檢測方法的效果是比較好的。
圖2 SR算法實(shí)驗(yàn)結(jié)果
為了檢驗(yàn)本文方法的效果,在MATLAB平臺(tái)上實(shí)現(xiàn)了本文提出的算法。通過在Achanta[8]提供的1000幅圖像的數(shù)據(jù)集上進(jìn)行測試,將本文方法與七種目前比較經(jīng)典的方法進(jìn)行了對比。這七種方法分別是最為經(jīng)典的IT[9]方法,輸出為全分辨率顯著性圖的FT[8]方法,基于區(qū)域的經(jīng)典的RC[11]方法,基于頻域的SR[5]方法和HFT[12]方法以及結(jié)合高層信息的CA[13]方法和LR[14]方法。為了盡可能排除影響實(shí)驗(yàn)結(jié)果的因素,本文的實(shí)驗(yàn)都在同一硬件設(shè)備環(huán)境下實(shí)現(xiàn),且所有方法都在Achanta1000數(shù)據(jù)集上測試。所有對比方法都使用了原作者的提供的算法和程序,F(xiàn)T、RC、SR這三種方法使用文獻(xiàn)[8]中提供的C++代碼實(shí)現(xiàn),IT、HFT、CA、LR這四種方法使用其文獻(xiàn)作者提供的MATLAB程序來實(shí)現(xiàn)。原圖像及上述提到的七種方法的實(shí)驗(yàn)結(jié)果如圖4所示。
圖3 幾種分水嶺算法的實(shí)驗(yàn)對比結(jié)果
對圖4中的這幾種方法的實(shí)驗(yàn)結(jié)果進(jìn)行比較可以看出,圖4(b)所示的IT方法只能檢測出圖像顯著性區(qū)域中的個(gè)別幾個(gè)小區(qū)域。雖然FT方法能夠突出圖像中具有特殊像素的區(qū)域,但準(zhǔn)確性欠佳,某些具有特殊像素的區(qū)域并不是顯著性區(qū)域。而且從圖4(c)第2和第4行中花朵的中間區(qū)域可以看出FT方法存在突出了非顯著性區(qū)域和顯著性區(qū)域?yàn)橥怀龅膯栴}。再看圖4(d)第1、2行中花朵周圍的區(qū)域,由于RC方法是基于區(qū)域?qū)Ρ榷鹊?,在突出圖像中顏色對比度較高區(qū)域的同時(shí)也突出了部分顏色對比度較高的背景區(qū)域。圖4(e)和4(f)中,基于頻域的SR和HFT方法因更注重于突出顯著性目標(biāo)的輪廓而使顯著性目標(biāo)的邊緣比較模糊。而圖4(g)所示的CA方法卻恰恰相反,所得顯著圖中顯著性區(qū)域并沒有被完整的突出但邊緣比較突出。最后圖4(h)所示的LR方法雖然能夠完整地突出圖像的顯著性區(qū)域,但該方法對圖像背景區(qū)域的抑制效果不佳。本文提出的方法解決了上述方法顯著性檢測效果較為單一的問題,不僅克服了上述某些方法不能完全突出圖像中整個(gè)顯著性區(qū)域的缺點(diǎn),還比其中的幾個(gè)方法更有效地抑制了圖像中的非顯著性區(qū)域,較為完整地突出了圖像中的顯著性區(qū)域。
本文通過研究傅里葉頻譜與顯著性的關(guān)系提出了一種基于相位譜和調(diào)諧幅度譜結(jié)合分水嶺算法的顯著性檢測方法。該方法先通過傅里葉變換提取圖像的相位譜和幅度譜,并對幅度譜進(jìn)幅度調(diào)諧處理,再對得到的圖像用分水嶺算法進(jìn)行分割最終得到顯著性圖。實(shí)驗(yàn)結(jié)果表明,相較于以前的方法本文的算法能更有效地檢測出圖像的顯著性區(qū)域,同時(shí)抑制圖像中的非顯著性區(qū)域。
圖4 七種算法與本文算法實(shí)驗(yàn)結(jié)果的對比
參考文獻(xiàn):
[1]U.Neisser.Visual Search[J].Scientific American,210(6):94-102,1964.
[2]U.Neisser.Cognitive Psychology[M].Appleton-Century-Crofts,New York,1967
[3]D.Mary,A.Vision.A computational Investigation Into the Human Representation and Processing of Visual Information[J].WFi San Francisco:Freeman and Company,1982.
[4]D.Mary,L.Vaina.Representation and Recognition of the Movements of Shapes[J].Proceedings of the Royal Society of London.Series B.Biological Sciences,1982,214(1197):501-524.
[5]Hou X,ZHANG L.Saliency Detection:A Spectral Residual Approach[C].IEEE Conference on Computer Vision and Pattern Recognition.USA:CVPR,2007:1-8.
[6]C Koch,T Poggio.Predicting the VisualWorld:Silence is Golden[J].Nature Neuroscience,1999,2:9-10.
[7]WANG Xiao-peng.Morphological Image Analysis Principles and Applications[M].2nd ed.Beijing:Tsinghua University Press,2008:58.
[8]Achanta R,Hemami S,Estrada F,etal.Frequency-Tuned Salient Region Detection[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2009:1597-1604.
[9]Itti L,Koch C,Niebur E.Model of Saliency-Based Visual Attention for Rapid Scene Analysis[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(11):1254-1259.
[10]HAREL J,KOCH C,PERONA P.Graph-Based Visual Saliency[C].Proceedings of Advances in Neural Information Processing Systems,2007:545-552.
[11]Cheng M M,Zhang G X,Mitra N J,etal.Global Contrast Based Salient Region Detection[C].Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2011:409-416.
[12]Li J,Levine M D,An X,et al.Visual Saliency Based on Scale-Space Analysis in the Frequency Domain[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(4):996-1010.
[13]Goferman S,Zelnik-Manor L,Tal A.Context-Aware Saliency Detection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(10):1915-1926.
[14]Shen X,Wu Y.A Unified Approach to Salient Object Detection Via Low Rank Matrix Recovery[C].Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2012:853-860.
[15]ACHANTA R,ESFRADA F,WILSP,et al.Salient Region Dection and Segmentaion[C].Proceeding of the International Conference on Computer Vision Systems.Springer,2008.
Research on Visual Saliency Detection
ZHUANG Fei-hong,YUWei-wei
(Departmentof Information Engineering,ShanghaiMaritime University,Shanghai 201306)
It is one of the main purposes of visual saliency detection to simulate the physiological mechanism of human visual system.As the preprocessing of image,reliable and rapid saliency detection can provide valuable reference information for image retrieval,image segmentation,image retrieval and so on.However,at present,there are some problems in the algorithm of visual saliency detection. Through the study of the relationship between Fourier spectrum and the significance of the image spectrum,proposes a phase spectrum and amplitude spectrum tuning saliency detectionmethod based on watershed algorithm,to improve the visual saliency detection effect.
莊斐弘(1991-),男,碩士研究生,研究方向?yàn)橛?jì)算機(jī)圖像處理
201703-06
2017-05-10
1007-1423(2017)14-0077-05
10.3969/j.issn.1007-1423.2017.14.016
于威威(1978-),女,副教授,碩士生導(dǎo)師,研究方向?yàn)槟J阶R別、計(jì)算機(jī)圖像處理、數(shù)據(jù)挖掘等
Visual Saliency;Watershed;Fourier Spectrum;Phase Spectrum;Tuning Spectrum