陳文兵,鞠 虎,陳允杰
(南京信息工程大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,南京 210044) (*通信作者電子郵箱chenwb@nuist.edu.cn)
基于倒數(shù)函數(shù)-譜殘差的顯著對(duì)象探測(cè)和提取方法
陳文兵,鞠 虎*,陳允杰
(南京信息工程大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,南京 210044) (*通信作者電子郵箱chenwb@nuist.edu.cn)
針對(duì)“中心-周圍”的顯著對(duì)象探測(cè)方法頻繁出現(xiàn)探測(cè)或提取對(duì)象不完整、邊界不平滑以及其9級(jí)金字塔下采樣的冗余問題,提出一種基于倒數(shù)函數(shù)-譜殘差(RFSR)的顯著對(duì)象探測(cè)方法。首先,利用灰度圖像與其對(duì)應(yīng)的高斯低通濾波的差代替“中心-周圍”方法中灰度圖像標(biāo)準(zhǔn)化,并減少高斯金字塔至6級(jí)以降低冗余;其次,利用倒數(shù)函數(shù)濾波器代替Gabor濾波器提取局部方向信息;接著,利用譜殘差方法提取圖像的譜特征;最后,將這三個(gè)特征經(jīng)過適當(dāng)融合生成最終顯著圖。在兩個(gè)常用基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,所提方法在準(zhǔn)確率(precision)、召回率(recall)及F-measure等指標(biāo)上均比“中心-周圍”及譜殘差模型有明顯提高,其為進(jìn)一步圖像分析、對(duì)象識(shí)別及基于顯著視覺關(guān)注的圖像檢索等理論及應(yīng)用研究奠定了基礎(chǔ)。
顯著對(duì)象;顯著性區(qū)域;特征提??;倒數(shù)函數(shù);顯著圖
人類能夠較容易地在復(fù)雜的視覺場(chǎng)景中判斷感興趣目標(biāo)或者區(qū)域。視覺選擇性注意力機(jī)制在信息處理過程中扮演著重要的角色,能夠突破信息的處理瓶頸,使有價(jià)值的信息作為短期記憶和視覺意識(shí)的信息來源,因此,優(yōu)先考慮顯著性目標(biāo)來分配圖像分析和合成所需的計(jì)算方法在計(jì)算機(jī)視覺與圖像處理領(lǐng)域有重大意義。
視覺顯著性區(qū)域提取即尋找圖像中可能引起人眼視覺關(guān)注的區(qū)域。根據(jù)人類視覺系統(tǒng)的特點(diǎn),利用人類認(rèn)知過程的一般規(guī)律,通過圖像的某些底層特征近似地探測(cè)和提取圖像中的顯著性區(qū)域是當(dāng)前計(jì)算機(jī)視覺領(lǐng)域研究熱點(diǎn)之一。
在Koch等[1]提出的生物啟發(fā)模型的基礎(chǔ)上,Itti等[2]提出基于“中心-周圍”環(huán)繞算子的顯著對(duì)象探測(cè)模型(以下簡(jiǎn)稱Itti模型),是近期最具代表性探測(cè)和提取顯著圖的方法之一。Itti模型框架主要包括特征提取、顯著圖融合及顯著對(duì)象提取等三個(gè)關(guān)鍵步驟,其中在顯著圖融合這一步通過綜合考慮顏色、亮度及方向等多特征顯著值并融合得到全局顯著圖。在顯著對(duì)象提取這一步,通過設(shè)定(或自適應(yīng))閾值從原始圖像中提取顯著對(duì)象(或顯著性區(qū)域)。
在計(jì)算機(jī)視覺領(lǐng)域,從頻域的角度來分析視覺顯著性也是常見方法之一。Hou等[3]提出一種模擬預(yù)注意視覺搜索行為的前端方法,不同于傳統(tǒng)的統(tǒng)計(jì)學(xué)模型,該方法分析每幅圖像的對(duì)數(shù)譜并提取譜殘差,然后將譜殘差變換到空間域以提取顯著圖。實(shí)驗(yàn)結(jié)果顯示,盡管該方法計(jì)算速度快,但僅構(gòu)成早期視覺處理階段,其主要缺點(diǎn)是由于沒有保留足夠的高頻信息導(dǎo)致顯著對(duì)象(或顯著性區(qū)域)邊界不夠清晰,所提取的顯著對(duì)象顯著圖呈現(xiàn)出稀疏、灰度不均勻等現(xiàn)象。
盡管顯著對(duì)象探測(cè)已經(jīng)經(jīng)歷近二十年的發(fā)展,然而,它仍然是一個(gè)有待解決的難題,迄今仍然是一個(gè)十分活躍的研究領(lǐng)域。一些新的方法和思想被不斷地提出,一些早期的方法被不斷得以改進(jìn)。Fu等[4]提出了一種基于顏色對(duì)比度及顏色分布驅(qū)動(dòng)的顯著對(duì)象探測(cè)模型,他們認(rèn)為:從人類感知角度來看,一個(gè)顯著對(duì)象的視覺生成基于三個(gè)基本原則,即中心分布優(yōu)先、與周圍環(huán)境相比較的高顏色對(duì)比以及緊的顏色分布。Jiang等[5]通過在圖像圖模型上的吸收馬爾可夫鏈建立顯著性探測(cè)模型,模型聯(lián)合地考慮顯著對(duì)象及背景外觀的多樣性及空間分布, 在馬爾可夫鏈中虛擬邊界節(jié)點(diǎn)被選作吸收節(jié)點(diǎn)并計(jì)算由每個(gè)臨時(shí)節(jié)點(diǎn)到邊界吸收節(jié)點(diǎn)的被吸收時(shí)間。臨時(shí)節(jié)點(diǎn)的被吸收時(shí)間度量其與所有吸收節(jié)點(diǎn)的全局相似性并由此從背景中提取顯著對(duì)象。Yan等[6]針對(duì)復(fù)雜結(jié)構(gòu)的顯著對(duì)象,即圖像中顯著的前景或背景含有小尺度高對(duì)比度模式時(shí)可能反向地影響探測(cè)精度的問題,基于尺度觀點(diǎn)提出了一種多層分析顯著性線索方法,最終的顯著圖通過一個(gè)分層模型生成。Liang等[7]提出了一種基于區(qū)域表示的模型,在模型中,他們對(duì)輸入圖像進(jìn)行分割、聚類、計(jì)算基于區(qū)域的中心周圍特征及顏色分布特征,最后融合兩個(gè)特征生成顯著圖。Zhu等[8]建立了一種邊界優(yōu)先的顯著對(duì)象提取模型,在模型中,他們首先提出一種稱之為邊界連通性的魯棒的背景度量機(jī)制,由此刻畫圖像區(qū)域?qū)D像邊界的空間布局;接著,提出一種基于規(guī)則的優(yōu)化框架來集成多個(gè)低級(jí)線索以獲得一致的顯著圖。Kim等[9]將圖像的顯著圖表示做高維顏色空間的一個(gè)線性組合,由此顯著性區(qū)域及背景區(qū)域能夠被區(qū)別開來。Borji等[10-11]從數(shù)量及質(zhì)量?jī)蓚€(gè)方面廣泛地比較了40個(gè)最新模型,其中28個(gè)最新顯著對(duì)象探測(cè)模型及10個(gè)注視預(yù)估模型等,超過6個(gè)用于顯著對(duì)象探測(cè)及分割方法的基準(zhǔn)評(píng)測(cè)數(shù)據(jù)集,特別是在評(píng)測(cè)指標(biāo)及基準(zhǔn)評(píng)測(cè)數(shù)據(jù)集等方面進(jìn)行了規(guī)范和統(tǒng)一。雖然顯著性探測(cè)方面的研究持續(xù)不斷,新的方法和思想持續(xù)不斷地被提出,然而,由于圖像本身的多樣性和復(fù)雜性,加之方法研究本身的針對(duì)性,在具體應(yīng)用時(shí)沒有一種普遍通行的方法存在,因此,在顯著性探測(cè)及顯著對(duì)象提取領(lǐng)域,迄今的研究目標(biāo)仍然聚焦在模型提取精度、完整度以及算法時(shí)間復(fù)雜性等方面。
本文在廣泛研究顯著對(duì)象探測(cè)方法的基礎(chǔ)上,受到Itti模型及Hou模型的啟發(fā),在仔細(xì)研究與分析倒數(shù)函數(shù)濾波的性能之后,結(jié)合這兩個(gè)模型在探測(cè)顯著對(duì)象過程中存在的問題:如利用前者提取的顯著對(duì)象通常表現(xiàn)不完整及邊界不光滑;而利用后者提出的顯著對(duì)象區(qū)域雖然對(duì)象輪廓被粗略地提取,但對(duì)象區(qū)域表現(xiàn)出稀疏、不均勻的分布。尋求針對(duì)上述問題的解決方案:盡可能地利用圖像自身的自然特征,即顏色、形狀(方向)及空間頻域譜,歸一化后通過適當(dāng)優(yōu)化組合構(gòu)成一種新的基于倒數(shù)函數(shù)-譜殘差特征(Reciprocal Function and Spectral Residual, RFSR)的顯著對(duì)象探測(cè)方法,以彌補(bǔ)單一顯著特征探測(cè)模型的不足。實(shí)驗(yàn)結(jié)果表明,RFSR方法有效地改進(jìn)了上述兩個(gè)模型存在的缺點(diǎn),顯著地提高了顯著性對(duì)象探測(cè)效果和性能。
在視覺上,人類很容易能夠找到自己感興趣的區(qū)域,然而,利用計(jì)算機(jī)視覺處理系統(tǒng)尋找和提取感興趣區(qū)域則是一件不容易的事。近年來,研究人員已在計(jì)算機(jī)視覺及圖像分析與處理領(lǐng)域做了大量的研究工作并取得了許多進(jìn)展,他們通過模擬人的視覺注意過程,發(fā)現(xiàn)并總結(jié)出基于視覺注意的三個(gè)基本原則,即顏色對(duì)比度、亮度對(duì)比度和邊緣方向?qū)Ρ榷鹊?。Itti等[2]顯著圖模型和Hou等[3]譜殘差方法是具有代表性的視覺注意模型。
1.1 Itti模型及性能分析
在Koch等[1]提出的生物啟發(fā)模型的基礎(chǔ)上,Itti等[2]提出基于“中心-周圍”環(huán)繞算子的顯著性對(duì)象探測(cè)模型。模型中“中心-周圍”被實(shí)現(xiàn)作細(xì)和粗尺度的差:這里的中心是在尺度c∈{2,3,4}處的像素,周圍是在尺度s=c+α、α∈{3,4}處對(duì)應(yīng)的像素。交叉尺度的兩個(gè)映射之間的差,通過對(duì)較細(xì)尺度的插值并逐點(diǎn)相減獲得。對(duì)c和α利用這幾個(gè)尺度通過包含不同的中心和周圍區(qū)域大小比率獲得真正的多特征提取。
設(shè)r,g,b是輸入圖像的紅、綠和藍(lán)通道,灰度圖像I通過計(jì)算I=(r+g+b)/3獲得。I被用來創(chuàng)建高斯金字塔分層[12]得到I(σ),這里σ∈{0,1,…,8}是尺度。r,g,b通道通過I進(jìn)行標(biāo)準(zhǔn)化,注意僅在I大于整幅圖像1/10最大值處進(jìn)行,而其他位置r,g,b值置為0。建立四個(gè)被完全調(diào)制的顏色通道:
R=r-(g+b)/2
(1)
G=g-(r+b)/2
(2)
B=b-(r+g)/2
(3)
(4)
其中:R,G,B及Y分別表示原始圖像標(biāo)準(zhǔn)化后的顏色分量矩陣(負(fù)值時(shí)置為0)。創(chuàng)建自這些顏色通道的四種高斯金字塔被記作R(σ)、G(σ)、B(σ)、Y(σ)。
灰度的“中心”細(xì)尺度c和“周圍”粗尺度α之間的“中心-周圍”差生成特征映射,共計(jì)6個(gè)映射M(c,s),c∈{2,3,4},s=c+α,α∈{3,4}計(jì)算如下:
(5)
對(duì)顏色通道的特征映射類似地按如式(6)、(7)計(jì)算:
(6)
(7)
其中s=c+α,c∈{2,3,4},α∈{3,4}。
利用Gabor金字塔o(σ,θ),σ∈{0,1,…,8},θ∈{0,π/4,π/2,3π/4}獲得局部方向信息,方向特征映射o(c,s,θ)被定義為中心與周圍尺度之間的一組局部方向?qū)Ρ榷龋?/p>
(8)
以上總計(jì)計(jì)算42個(gè)特征映射圖,其中:6個(gè)灰度特征,12個(gè)顏色特征,24個(gè)方向特征。
對(duì)以上42個(gè)特征進(jìn)行適當(dāng)融合以計(jì)算顯著性映射?;谝陨?類特征融合如下:
(9)
(10)
(11)
其中:⊕表示多個(gè)尺度下相應(yīng)特征顯著圖經(jīng)線性插值調(diào)整到同一大小后相加;N為分別將各個(gè)顯著圖的顯著值標(biāo)準(zhǔn)歸一化到[0,1]區(qū)間。
對(duì)式(9)~(11)的3類特征進(jìn)行算術(shù)平均,即:
(12)
其中s即為輸入圖像的最終顯著圖。
通過分析基于金字塔的Itti模型,可以看出該模型簡(jiǎn)單易行,然而該模型存在缺陷:1)在建立9層金字塔時(shí)由于對(duì)灰度值進(jìn)行了截?cái)嗵幚韺?dǎo)致部分高頻信息的丟失,故提取的顯著圖邊界不清晰;2)模型計(jì)算復(fù)雜度高;3)基于6個(gè)基準(zhǔn)數(shù)據(jù)集,在3個(gè)評(píng)價(jià)指標(biāo)準(zhǔn)確率(precision)、召回率(recall)及F-measure評(píng)測(cè)下該模型性能表現(xiàn)較差。
1.2 譜殘差方法性能分析
在基于頻域分析的顯著模型中,Hou等[3]借助頻域分析來探測(cè)和提取顯著性區(qū)域,該算法的優(yōu)點(diǎn)在于計(jì)算速度快,提取的顯著圖與人類的感知高度一致。
基于有效編碼理論,Hou等[3]認(rèn)為圖像信息可分為冗余部分和變化部分,人類的視覺對(duì)變化部分更敏感。視覺系統(tǒng)的一個(gè)基本原則就是抑制對(duì)頻繁出現(xiàn)的特征的響應(yīng),同時(shí)對(duì)非常規(guī)的特征保持敏感,由此可將圖像表示為如下兩部分:
H(Image)=H(Innovation)+H(Prior)
(13)
其中:H(Innovation)表示突出的部分;H(Prior)則表示冗余的信息。
通過去除圖像冗余信息,就可以獲得圖像突出的部分,即顯著目標(biāo)。因?yàn)樽匀粓D像特性的1/f幅度譜曲線而引起自然圖像的頻域統(tǒng)計(jì)特性具有尺度不變性(scale invariance),其特性就是冗余的信息部分。
設(shè)I(x)為輸入圖像,將傅里葉變換后的頻譜F[I(x)]分為幅度譜A(f)和相位譜P(f)。剩余譜認(rèn)為自然圖像的log譜線形狀是相似的,如圖1所示。
圖1 輸入圖像及其log譜線圖
假設(shè)圖像的log譜線為L(zhǎng)(f),而A(f)是log譜線統(tǒng)計(jì)得到的通用形狀曲線,即冗余的信息部分,可以構(gòu)建一個(gè)平滑濾波器hn(f)來得到A(f):
A(f)=hn(f)*L(f)
(14)
(15)
其中n=3(n的大小對(duì)結(jié)果影響很小)。
譜殘差算法認(rèn)為在譜線中的奇異點(diǎn)為圖像的顯著區(qū)域,R(f)表示譜線中的奇異點(diǎn),是輸入圖像的譜殘差:
R(f)=L(f)-A(f)
(16)
通過對(duì)譜殘差和輸入圖像的相位譜作傅里葉逆變換得到顯著圖:
(17)
其中G(x)為高斯平滑濾波器,F(xiàn)-1()為傅里葉逆變換。
雖然基于頻域分析的顯著性模型簡(jiǎn)單、高效,但是由于其忽略了輸入圖像區(qū)域間的空間關(guān)系,對(duì)輸入圖像顏色特征表達(dá)不足,基于6個(gè)基準(zhǔn)數(shù)據(jù)集在3個(gè)評(píng)價(jià)指標(biāo)上對(duì)該方法進(jìn)行評(píng)測(cè)實(shí)驗(yàn)效果也不夠理性。
為了解決Itti及Hou模型存在的問題,提出一種基于倒數(shù)函數(shù)-譜殘差方法,其總體思路是綜合利用圖像的三個(gè)特征,即顏色、方向及譜殘差,探測(cè)并融合生成圖像顯著圖,所提出的方法由3個(gè)主要步驟構(gòu)成,相應(yīng)描述如下。
2.1 顏色特征提取
顏色特征是顯著性對(duì)象提取的重要線索之一,Kim等[9]提出的通過高維顏色變換的顯著性探測(cè)方法和Zhu等[8]提出的魯棒背景探測(cè)的顯著性優(yōu)化方法均是近期提出的以顏色特征為線索的顯著性探測(cè)和提取模型。
在頻域空間:圖像顯著性區(qū)域表現(xiàn)變化強(qiáng)烈,其對(duì)應(yīng)于頻譜中相對(duì)高頻成分;而背景區(qū)域保持相對(duì)平滑,其對(duì)應(yīng)于頻譜中相對(duì)低頻成分。所以,在頻域空間通過過濾圖像低頻成分、突出高頻成分理論上能夠提取顏色顯著性區(qū)域。
Itti模型中顏色特征提取對(duì)輸入圖像進(jìn)行金字塔分層再利用“中心-周圍”層之差提取顏色特征映射不僅計(jì)算量大,而且對(duì)灰度圖像I標(biāo)準(zhǔn)化時(shí)進(jìn)行了截?cái)?,濾波器不夠光滑導(dǎo)致高頻丟失嚴(yán)重。而利用高斯低通濾波器代替Itti模型中的直接截?cái)?,理論上能夠有效地減少高頻信息的丟失,實(shí)驗(yàn)結(jié)果也證明所提取的顏色特征顯著性對(duì)象邊界的平滑性明顯得到改善,如圖2所示,圖2(b)是Itti模型在顏色分量上進(jìn)行顯著性提取的結(jié)果,圖2(c)是利用高斯低通濾波器代替Itti模型中直接截?cái)嗪笤陬伾至康玫降慕Y(jié)果。
圖2 在顏色分量上改進(jìn)的Itti模型
對(duì)顏色特征提取的改進(jìn)具體計(jì)算步驟如下:
1)將輸入圖像I0通過變換(r+g+b)/3轉(zhuǎn)化成灰度圖像I;
2)對(duì)灰度圖像I進(jìn)行高斯低通濾波Ig:
(18)
2.2 方向特征提取
方向顯著圖的顯著區(qū)域是圖像中對(duì)比度強(qiáng)烈的區(qū)域的邊緣信息。Itti模型中利用Gabor濾波提取顯著對(duì)象的方向特征,方向特征刻畫了顯著對(duì)象的邊界特征,但不是顯著對(duì)象整體的表達(dá)。
李志強(qiáng)[13]構(gòu)造了倒數(shù)余弦函數(shù)、指數(shù)函數(shù)及倒數(shù)函數(shù)等3種新的方向特征濾波函數(shù),并在理論上對(duì)濾波函數(shù)滿足的條件進(jìn)行了分析和論證。這里,從實(shí)踐上將倒數(shù)函數(shù)代替Itti模型中的方向?yàn)V波器——Gabor濾波器,從而得到一種新的局部方向特征提取方法——基于倒數(shù)函數(shù)的方向顯著性提取方法。
為了構(gòu)造基于倒數(shù)函數(shù)的方向顯著性提取方法,首先定義該函數(shù)如下:
Gθ,σ,γ(x,y)=1/[σ×((xcosθ+ysinθ)2+γ2(ycosθ-xsinθ)2)+1]
(19)
其中:σ是控制參數(shù);θ是方向角;γ是方向曲率。根據(jù)文獻(xiàn)[9]的建議及實(shí)驗(yàn)結(jié)果對(duì)比,在實(shí)際應(yīng)用中方向取四個(gè)方向,即θ∈{0,π/4,π/2,3π/4},控制參數(shù)σ取2.33,方向曲率γ取0.5,在窗寬取34×34時(shí)提取的對(duì)象方向顯著性效果達(dá)到最佳。
每個(gè)方向可以生成6個(gè)倒數(shù)函數(shù)金字塔,O′(σ,θ),σ∈{1,2,…,6}改進(jìn)的金字塔圖像方向特征映射為:
(20)
其中:s=c+σ,c∈{1,2,3},σ∈{2,3},共計(jì)24個(gè)方向特征。將這24特征映射求和得到改進(jìn)的整體顯著對(duì)象方向特征映射:
(21)
為了驗(yàn)證新的方向特征算法的效果,實(shí)驗(yàn)結(jié)果如圖3所示,圖3(b)是Itti模型在方向特征上的顯著圖,圖3(c)是新的方向特征算法提取的方向顯著圖。對(duì)比圖3(b)及(c)中的方向顯著圖可以看出,圖3(b)中的顯著圖雖然能夠大致地反映顯著對(duì)象的輪廓,但相關(guān)對(duì)象的輪廓主要由一些紋理組成,對(duì)象區(qū)域顯得相對(duì)粗糙,對(duì)象邊界也不夠光滑。而與之形成對(duì)比的是,圖3(c)中相關(guān)顯著對(duì)象區(qū)域均勻一致,顯著對(duì)象在整體上得到了一致的提升,且對(duì)象邊界保持光滑、完整。由此可見,新改進(jìn)的基于倒數(shù)函數(shù)的方向特征顯著性提取方法明顯地優(yōu)于Itti模型中的方向特征提取方法,為構(gòu)建RFSR方法奠定了堅(jiān)實(shí)的基礎(chǔ)。
2.3 譜殘差方法提取圖像特征
從信息論的角度來看,可以將圖像的信息分為有用信息和冗余信息兩部分。去除圖像冗余信息可以突出圖像顯著部分。圖1顯示了兩幅圖像的對(duì)數(shù)幅度譜,比較它們的對(duì)數(shù)幅度譜曲線,整體上具有相似性。研究表明,任何一幅圖像其對(duì)數(shù)頻譜與頻率曲線形狀大致呈一條直線,當(dāng)多幅圖像疊加之后其曲線與這條直線會(huì)更加平滑,這表明平均對(duì)數(shù)幅度譜具有局部線性的特征,因此,將輸入圖像對(duì)數(shù)幅度譜減去平均對(duì)數(shù)幅度譜,其差表達(dá)了圖像中的顯著區(qū)域。平均對(duì)數(shù)幅度譜可通過對(duì)原始圖像對(duì)數(shù)幅度譜應(yīng)用一個(gè)n*n的均值濾波獲得,n通常取3。譜殘差特征映射計(jì)算如下:
R=L-A
(22)
其中:L原始圖像對(duì)數(shù)幅度譜;A原始圖經(jīng)過均值濾波后得到平均對(duì)數(shù)幅度譜;R為譜殘差特征映射。
圖3 在方向分量上用倒數(shù)函數(shù)代替Gabor濾波器改進(jìn)的Itti模型
譜殘差特征映射算法提取過程如下:
1)讀取圖像,調(diào)整圖像大小并轉(zhuǎn)換為灰度圖;
2)進(jìn)行傅里葉變換,并按1.2節(jié)中的方法求得譜殘差;
3)進(jìn)行傅里葉反變換,高斯濾波,再轉(zhuǎn)換為灰度圖,即得到譜殘差特征映射圖,如圖4(b)所示,可以看出,單一的譜殘差方法提取的顯著圖是稀疏的,但它粗略地描述了對(duì)象的輪廓,可以作為后續(xù)被提出的顯著性對(duì)象提取方法的一個(gè)補(bǔ)充部分。
圖4 譜殘差方法
2.4 顯著圖融合
對(duì)顏色、局部方向及譜殘差等三種單一特征的顯著提取方法進(jìn)行了實(shí)驗(yàn)分析與比較,得到的一個(gè)結(jié)論是單一顯著特征方法不足以表示顯著對(duì)象的完整信息,如圖2(b)和(c)中的基于顏色成分的顯著圖,這些顯著圖有的僅突出了部分對(duì)象,有的突出顯著對(duì)象的同時(shí)也突出了背景信息;對(duì)方向顯著特征,由圖3(b)與(c)可以看出,不僅顯著對(duì)象方向顯著性被提升同時(shí)與背景對(duì)比較明顯的區(qū)域顯著性也被突出;對(duì)譜殘差方法而言,如圖4(b)所示,所提取顯著對(duì)象具有粗略的輪廓,但顯著性區(qū)域是很稀疏的。雖然每個(gè)基于單一特征提取顯著性的方法均存在自身的一些缺陷,然而從整體上來看它們卻具有互補(bǔ)性,因此對(duì)以上的顏色特征、方向特征及譜殘差特征方法進(jìn)行算術(shù)平均,理論上是可行的。由此,RFSR方法被簡(jiǎn)單地定義為:
(23)
這里,S為改進(jìn)后的顯著性映射圖,N為分別將各個(gè)顯著圖的顯著值在計(jì)算中均應(yīng)進(jìn)行歸一化處理,運(yùn)算符“+”為逐像素求和運(yùn)算。
利用自適應(yīng)的閾值方法[14]對(duì)顯著性映射圖進(jìn)行二值化:
(24)
其中:w,h分別是顯著性映射圖水平方向及垂直方向的像素個(gè)數(shù);T為自適應(yīng)的閾值,將S>T的像素置為1,其他置為0,即生成顯著性映射圖的二值圖。圖5顯示了利用本文的RFSR方法在亞洲微軟研究院基準(zhǔn)數(shù)據(jù)集(Microsoft Research Asia,MSRA, http://mmcheng.net/gsal/)和擴(kuò)展的復(fù)雜場(chǎng)景顯著數(shù)據(jù)集[15](Extended Complex Scene Saliency Dataset, ECSSD)探測(cè)和提取顯著對(duì)象的部分結(jié)果。
圖5 3種模型顯著圖對(duì)比
如圖5所示,圖5(b)是譜殘差方法提取的顯著圖,圖5(c)是Itti等方法[2]提取的顯著圖,圖5(d)是RFSR方法提取的顯著圖,圖5(e)是人工標(biāo)注的Ground Truth二值圖。對(duì)比圖5前三行中(b)中的顯著圖可以看出,提取的顯著圖是稀疏的,且它只粗略地描述了對(duì)象的輪廓。圖5(c)中的顯著圖雖然能夠大致地反映顯著對(duì)象的輪廓和相對(duì)粗糙的顯著對(duì)象對(duì)象區(qū)域,但顯著對(duì)象的對(duì)象邊界不夠光滑,且有多個(gè)顯著對(duì)象時(shí),只提取了最突出的顯著對(duì)象如圖5中第二行。而與之形成對(duì)比的是,圖5(d)中所提取的相關(guān)顯著對(duì)象區(qū)域均勻一致,顯著對(duì)象在整體上得到了一致的提升,且對(duì)象邊界保持光滑、完整。對(duì)比圖5后兩行中,當(dāng)圖像背景變復(fù)雜時(shí),圖5(b)中譜殘差方法很難提取圖像的顯著圖。圖5(c)中Itti等方法[2]雖然能夠大致地反映顯著對(duì)象的輪廓和區(qū)域,但提取的顯著對(duì)象包含了背景信息,整體區(qū)域變大。圖5(d)中所提取的顯著對(duì)象在整體上較為完整,且邊界保持光滑,且圖5(d)中所提取的顯著對(duì)象與圖5(e)中人工標(biāo)注的二值圖大體一致。由此可見,綜合倒數(shù)函數(shù)及剩余譜的對(duì)象探測(cè)和提取方法明顯地優(yōu)于譜殘差方法與Itti等方法[2]。
3.1 對(duì)比模型
由于Itti模型及Hou模型(譜殘差方法)是顯著對(duì)象探測(cè)及提取領(lǐng)域最具原創(chuàng)性的兩個(gè)模型,自模型被提出以來一直得到研究人員的廣泛關(guān)注,通常作為參考、改進(jìn)與比較的對(duì)象,更詳細(xì)的顯著性探測(cè)領(lǐng)域的綜述參見文獻(xiàn)[10-11]。此外,由于所提出的RFSR模型基于Itti模型及Hou模型構(gòu)建,為了更好地分析改進(jìn)前后的效果,實(shí)驗(yàn)將所提出模型與這兩個(gè)模型進(jìn)行分析、對(duì)比。
3.2 實(shí)驗(yàn)數(shù)據(jù)集
實(shí)驗(yàn)數(shù)據(jù)集選擇常用的基準(zhǔn)圖像數(shù)據(jù)集MSRA10和ECSSD。其中每個(gè)數(shù)據(jù)集均由兩組圖像構(gòu)成,一組為原始圖像,另一組是對(duì)應(yīng)的被稱之為Ground Truth的人工標(biāo)注二值圖,如圖5(e)所示,白色(二值圖中值為1的像素)區(qū)域?yàn)槿斯?biāo)注的顯著對(duì)象。這兩個(gè)數(shù)據(jù)集被常用作顯著對(duì)象探測(cè)及提取方法的基準(zhǔn)評(píng)測(cè)數(shù)據(jù)集。MSRA10數(shù)據(jù)集包含10 000幅原圖及對(duì)應(yīng)的Ground Truth二值圖,ECSSD數(shù)據(jù)集包含約1 000幅原圖及對(duì)應(yīng)的Ground Truth二值圖,后者圖像場(chǎng)景及結(jié)構(gòu)更復(fù)雜。
3.3 評(píng)價(jià)標(biāo)準(zhǔn)
評(píng)價(jià)采用常用的三個(gè)評(píng)價(jià)指標(biāo):準(zhǔn)確率(Precision)、召回率(Recall)及F-measure。準(zhǔn)確率和召回率是度量顯著性圖與Ground Truth二值圖符合度的量化指標(biāo),F(xiàn)-measure是對(duì)準(zhǔn)確率(Precision)和召回率(Recall)的綜合量化指標(biāo),更具可靠性。
設(shè)Ground Truth二值圖為Gn,Sn為二值化的顯著圖,其中Gn取0或1,表示G的第n個(gè)像素。當(dāng)Gn=1時(shí),表示屬于顯著區(qū)域;相反地,Gn=0表示屬于背景;Sn為顯著圖二值化的像素,其定義與Gn類似。于是,準(zhǔn)確率、召回率計(jì)算如下:
(25)
(26)
綜合評(píng)價(jià)指標(biāo)(F-measure)是準(zhǔn)確率和召回率的加權(quán)調(diào)和平均,其按式(27)計(jì)算:
(27)
式(27)中,實(shí)際計(jì)算中α取值0.3[10-11],以下實(shí)驗(yàn)分析α均置該值。
式(25)定義的準(zhǔn)確率反映了探測(cè)出的并含在Ground Truth中的顯著像素與探測(cè)出的顯著像素之比,體現(xiàn)了探測(cè)的有效像素在整個(gè)顯著像素中的百分比,準(zhǔn)確率越高則算法探測(cè)的正確性越高。而式(26)定義的召回率則反映的是探測(cè)出的包含在Ground Truth中的顯著像素與總的Ground Truth像素比,體現(xiàn)了被探測(cè)出的有效顯著像素與實(shí)際有效像素之比,召回率越高則探測(cè)出的顯著性目標(biāo)越完整。一般來說,三個(gè)評(píng)價(jià)指標(biāo)的值越大,表明模型探測(cè)和提取的顯著區(qū)域越理想。
圖6是三個(gè)模型在MSRA10和ECSSD數(shù)據(jù)集上利用區(qū)間[0,1]上以0.05為步長(zhǎng)的每個(gè)閾值二值分割提取顯著性圖,并在每個(gè)閾值點(diǎn)上計(jì)算準(zhǔn)確率(Precision)和召回率(Recall)畫出的P-R曲線??傮w來看,圖6中的帶有正方形曲線(RFSR)始終處在菱形(Itti)及三角(Hou)曲線之上,當(dāng)準(zhǔn)確率一定時(shí),RFSR的召回率比其他兩種召回率要高,RFSR檢測(cè)出的顯著性目標(biāo)越完整。當(dāng)召回率一定時(shí),RFSR的準(zhǔn)確率比其他兩種準(zhǔn)確率要高,RFSR檢測(cè)的正確性越高。由此可見,RFSR方法優(yōu)于譜殘差方法和Itti等方法[2]。
圖6 三種方法的P-R曲線對(duì)比
圖7是三個(gè)模型在MSRA10和ECSSD數(shù)據(jù)集上的平均準(zhǔn)確率、平均召回率及平均F-measure,其中帶斜紋的矩形區(qū)域表示平均準(zhǔn)確率,帶點(diǎn)狀的矩形區(qū)域表示平均召回率,帶點(diǎn)交叉狀的矩形區(qū)域表示平均F-measure。沿水平坐標(biāo)自左向右,分別是RFSR、Itti及Hou模型的點(diǎn)繪結(jié)果,RFSR模型在三個(gè)指標(biāo)上均明顯地優(yōu)于其他兩個(gè)模型的相應(yīng)指標(biāo)。
圖7 不同方法的Precision、Recall及F-measure對(duì)比
除了上述量化評(píng)價(jià)之外,如圖5所示,將(b)、(c)、(d)列與(e)列的Ground Truth進(jìn)行對(duì)比,顯然本文提出的RFSR算法提取的顯著圖(d)列明顯優(yōu)于(b)和(c)。
總之,通過實(shí)驗(yàn)結(jié)果分析及量化指標(biāo)評(píng)價(jià),本文被提出的RFSR方法相對(duì)Itti及Hou模型在顯著對(duì)象探測(cè)效果及性能方面均有明顯提高。
本文提出了一種新的綜合倒數(shù)函數(shù)及剩余譜的對(duì)象探測(cè)和提取方法,通過在MSRA10及ECSSD兩個(gè)常用基準(zhǔn)數(shù)據(jù)集基于3個(gè)常用評(píng)價(jià)指標(biāo)進(jìn)行評(píng)測(cè),與Itti模型和Hou模型進(jìn)行性能對(duì)比,結(jié)果表明,本文方法取得的顯著圖效果在準(zhǔn)確率、召回率及F-measure 3個(gè)指標(biāo)上均明顯地優(yōu)于Itti模型和Hou模型。本文提出的RFSR算法對(duì)包含單顯著對(duì)象圖像探測(cè)及提取效果較好,對(duì)包含多顯著對(duì)象圖像的探測(cè)和提取改進(jìn)效果不明顯,這將是接下來顯著對(duì)象探測(cè)與提取研究的方向。
References)
[1] KOCH C, ULLMAN S. Shifts in selective visual attention: towards the underlying neural circuitry [J]. Human Neurobiology, 1985, 4(4): 219-227.
[2] ITTI L, KOCH C, NIEBUR E. A model of saliency-based visual attention for rapid scene analysis [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20(11): 1254-1259.
[3] HOU X, ZHANG L. Saliency detection: a spectral residual ap-proach [C]// CVPR’ 07: Proceedings of the 2007 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Washington, DC: IEEE Computer Society, 2007: 1-8.
[4] FU K, GONG C, YANG J, et al. Superpixel based color contrast and color distribution driven salient object detection [J]. Signal Processing Image Communication, 2013, 28(10): 1448-1463.
[5] JIANG B, ZHANG L, LU H, et al. Saliency detection via absorbing Markov chain [C]// Proceedings of the 2013 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2013: 1665-1672.
[6] YAN Q, XU L, SHI J, et al. Hierarchical saliency detection [C]// Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Washington, DC: IEEE Computer Society, 2013: 1155-1162.
[7] LIANG Z, WANG M, ZHOU X, et al. Salient object detection based on regions [J]. Multimedia Tools & Applications, 2014, 68(3): 517-544.
[8] ZHU W, LIANG S, WEI Y, et al. Saliency optimization from robust background detection [C]// Proceedings of the 2014 IEEE Confer-ence on Computer Vision and Pattern Recognition Workshops. Washington, DC: IEEE Computer Society, 2014: 2814-2821.
[9] KIM J, HAN D, TAI Y W, et al. Salient region detection via high-dimensional color transform and local spatial support [J]. IEEE Transactions on Image Processing, 2014, 25(1): 9-23.
[10] BORJI A, CHENG M M, JIANG H, et al. Salient object detection: a survey [J]. Eprint Arxiv, 2014, 16(7): 3118.
[11] BORJI A, CHENG M M, JIANG H, et al. Salient object detection: a benchmark.[J]. IEEE Transactions on Image Processing, 2015, 24(12): 5706-5722.
[12] 玉振明,高飛.基于金字塔方法的圖像融合原理及性能評(píng)價(jià)[J].計(jì)算機(jī)應(yīng)用研究,2004,21(10):128-130.(YU Z M, GAO F. Laplacian pyramid and contrast pyramid based image fusion and their performance comparison [J]. Application Research of Computers, 2004, 21(10): 128-130.)
[13] 李志強(qiáng).視覺顯著性模型研究及其在影像處理中的應(yīng)用[D].上海:上海交通大學(xué),2009:37-89.(LI Z Q. Research on visual attention models and application on imagery processing [D]. Shanghai: Shanghai Jiao Tong University, 2009: 37-89.)
[14] CHAN F, LAM H Y, ZHU F K. Adaptive thresholding by vibrational method [J]. IEEE Transactions on Image Processing, 1998, 7(3): 468-473.
[15] YANG C, ZHANG L, LU H, et al. Saliency detection via graph-based manifold ranking [C]// Proceedings of the 2013 IEEE International Conference on Computer Vision and Pattern Recognition Workshops. Washington, DC: IEEE Computer Society, 2013: 3166-3173.
This work is partially supported by the National Natural Science Foundation of China (61672291), the Beijige Foundation (BJG201504).
CHENWenbing, born in 1964, M. S., associate professor. His research interests include computational mathematics, pattern recognition, image processing.
JUHu, born in 1992, M. S. candidate. His research interests include image processing.
CHENYunjie, born in 1980, Ph. D., associate professor. His research interests include computational mathematics, pattern recognition, image processing.
Salientobjectdetectionandextractionmethodbasedonreciprocalfunctionandspectralresidual
CHEN Wenbing, JU Hu*, CHEN Yunjie
(SchoolofMathematicsandStatistics,NanjingUniversityofInformationScience&Technology,NanjingJiangsu210044,China)
To solve the problems of "center-surround" salient object detection and extraction method, such as incomplete object detected or extracted, not smooth boundary and redundancy caused by down-sampling 9-level pyramid, a salient object detection method based on Reciprocal Function and Spectral Residual (RFSR) was proposed. Firstly, the difference between the intensity image and its corresponding Gaussian low-pass one was used to substitute the normalization of the intensity image under "center-surround" model, meanwhile the level of Gaussian pyramid was further reduced to 6 to avoid redundancy. Secondly, a reciprocal function filter was used to extract local orientation information instead of Gabor filter. Thirdly, spectral residual algorithm was used to extract spectral feature. Finally, three extracted features were properly combined to generate the final saliency map. The experimental results on two mostly common benchmark datasets show that compared with "center-surround" and spectral residual models, the proposed method significantly improves the precision, recall and F-measure, furthermore lays a foundation for subsequent image analysis, object recognition, visual-attention-based image retrieval and so on.
salient object; saliency region; feature extraction; reciprocal function; saliency map
TP391.413
:A
2016- 12- 16;
:2017- 03- 02。
國(guó)家自然科學(xué)基金資助項(xiàng)目(61672291);北極閣基金資助項(xiàng)目(BJG201504)。
陳文兵(1964—),男,安徽東至人,副教授,碩士,主要研究方向:計(jì)算數(shù)學(xué)、模式識(shí)別、圖像處理; 鞠虎(1992—),男,江蘇泰興人,碩士研究生,主要研究方向:圖像處理; 陳允杰(1980—),男,江蘇南京人,副教授,博士,主要研究方向:計(jì)算數(shù)學(xué)、模式識(shí)別、圖像處理。
1001- 9081(2017)07- 2071- 07
10.11772/j.issn.1001- 9081.2017.07.2071