趙 迪 王曉鵬 陳丹淇
1. 上海衛(wèi)星工程研究所,上海201109 2. 上海航天技術(shù)研究院,上海201109 3. 上海機(jī)電工程研究所,上海201109
?
基于Boolean編碼的自下而上視覺顯著性檢測方法研究
趙 迪1王曉鵬2陳丹淇3
1. 上海衛(wèi)星工程研究所,上海201109 2. 上海航天技術(shù)研究院,上海201109 3. 上海機(jī)電工程研究所,上海201109
提出了一種利用Boolean編碼的二值特征自下而上視覺顯著性檢測方法。該方法是基于視覺注意的Boolean分布圖理論而提出的,同時結(jié)合多特征通道(如CIELab顏色空間),利用二進(jìn)制值(即 0/1)編碼每個像素,以表征場景視覺認(rèn)知的位置分布信息。根據(jù)顯著區(qū)域和背景區(qū)域間各維度的 Boolean編碼的不同分布,通過低秩分解實現(xiàn)顯著性檢測。該模型不僅很容易實現(xiàn),而且通過在2個公開的基準(zhǔn)數(shù)據(jù)庫中進(jìn)行的實驗結(jié)果表明該方法有效。 關(guān)鍵詞 自下而上;視覺顯著性;Boolean編碼;低秩分解
視覺顯著性在為生物和機(jī)器視覺系統(tǒng)實時提取場景有效信息的過程中扮演著重要角色。在現(xiàn)實世界中,注意力表現(xiàn)為2種方式的組合:自下而上和自上而下[1]。自下而上的方式是基于視覺場景特征的,是快速、被動和刺激驅(qū)動的。但是,自上而下的方式源于認(rèn)知現(xiàn)象,包括知識、期望、獎勵和當(dāng)前目標(biāo),是緩慢、主動和任務(wù)驅(qū)動的[2]。本文主要研究自下而上視覺顯著性檢測方法。
自從Treisman等人[3]提出特征合成理論(FIT)后,很多研究方向都傾向于基于特征合成理論的自下而上顯著性檢測。作為一個里程碑模型,Itti等人[4]結(jié)合灰度、顏色和方向特征,提出了一種基于中心-周邊對比差異的仿生結(jié)構(gòu)。隨后,Bruce等人[5]提出利用自信息的稀疏特征來度量顯著性。Harel等人[6]提出了一種基于隨機(jī)圖平穩(wěn)分布搜索方法。Hou等人[7]采用圖像稀疏特征來突出顯著區(qū)域。Murray等人[8]提出低維度空間彩色模型來估計顯著性。
與不同特征整合(如強(qiáng)度、顏色和方向)的傳統(tǒng)方法不同,本文提出一種新的基于Boolean編碼二值特征的自下而上視覺顯著性檢測方法,不再需要進(jìn)行眾多復(fù)雜特征融合過程。在顯著性檢測過程中,Boolean編碼能簡單有效表達(dá)圖像像素或區(qū)域特征。該方法是基于視覺注意的Boolean分布圖理論而提出的,該理論表明在任何給定時刻觀察者的視覺認(rèn)知只對應(yīng)一張Boolean分布圖。基于這一機(jī)制,結(jié)合多特征通道(如CIELab顏色空間),利用二進(jìn)制值(即 0/1)來編碼每個像素,以表征視覺認(rèn)知的位置分布信息。這些二進(jìn)制的Boolean編碼對顯著區(qū)域和背景區(qū)域各維度有明顯不同的分布。最后,利用低秩分解方法進(jìn)一步檢測顯著性。本文模型框架如圖1所示。
圖1 本文提出的視覺顯著性特征檢測方法框架圖
1.1 視覺注意的Boolean分布圖理論
Boolean分布圖(A Boolean map)[9]在這里指一種空間表征,它將人類的視野分成2個清晰而又相互補(bǔ)充的區(qū)域:1)被選擇的區(qū)域;2)沒有被選擇的區(qū)域。在Boolean分布圖中,一旦選擇其中的一個區(qū)域,另一個區(qū)域就很難被同時選取。也就是說,Boolean圖將視野按特征進(jìn)行二值化。同時,Boolean圖也可以與特征標(biāo)簽相聯(lián)系,它僅僅包含了單維度上的單個特征標(biāo)簽,而且這個特征標(biāo)簽必須描述整個區(qū)域的所有特征屬性。
視覺注意的Boolean分布圖理論[9]表明一個觀察者掃視一個場景時,他能夠有意識地獲取什么樣的視覺內(nèi)容,是通過在一個維度中選擇一個特征信息,或者將前者的輸出與預(yù)先存儲的Boolean圖相結(jié)合。與此同時,任一瞬間觀察者只能固定每個維度的一個特征值。相應(yīng)的,與其對應(yīng)的被標(biāo)注的二進(jìn)制Boolean圖信息被同時捕捉到。換言之,在任何一個給定的瞬間,一個觀察者的視覺注意只對應(yīng)一張Boolean圖。這個短暫且有意識的捕捉能夠有效訪問到Boolean分布圖的形狀信息和關(guān)聯(lián)特征標(biāo)簽。簡單而言,Boolean分布圖理論為視覺注意提供了2個顯著的特征:功能特征(當(dāng)前Boolean圖的維度)和位置特征(不同特征值的二進(jìn)制編碼)。事實上,視覺注意的Boolean分布圖理論揭示了人類視覺的一個真實的基本原理,同時它也為利用Boolean分布圖進(jìn)行視覺顯著性檢測提供了方法和途徑。
1.2 Boolean編碼
在構(gòu)建Boolean編碼之前,通過一個簡單的途徑來介紹Boolean分布圖的生成方法。該計算方法與Zhang等人[10]的方式類似,通過為每個特性通道構(gòu)建一組分層閾值二值圖來提取圖像特征。它最初來源于Boolean圖理論,也就是根據(jù)特征通道和閾值的先驗分布得到隨機(jī)閾值圖像特征圖譜。由于Boolean圖的分布僅由特征空間的選擇和特征選擇的先驗分布決定,因此不失一般性特征選擇和閾值都可以看作是服從均勻分布。因此,本文為每個特征圖選取均勻間隔閾值。詳細(xì)的操作說明如下。
圖2 固定點和背景點之間的統(tǒng)計頻率
第1步:輸入圖像被分為不同的特征通道,然后被線性縮放到[0,255]的整數(shù)區(qū)間。本文選擇CIE Lab 彩色空間,因為它的感知均勻性較好;第2步:通過一組均勻間隔的閾值{θi} (i=1,2,…,n)以及固定步長的δ,將每個特征圖轉(zhuǎn)化為二進(jìn)制圖,其中,θi+1=θi+δ,且n是閾值的數(shù)目。通過這種方式,區(qū)域的值高于當(dāng)前閾值為1,否則為0;第3步:提取二進(jìn)制圖的反向色差,以免背景區(qū)域在局部特征通道上可能比顯著區(qū)域更亮;第4步:依據(jù)中心偏差(表明大多數(shù)物體定位靠近圖像中心[11])和格式塔規(guī)則[12](表明邊界區(qū)域更可能是背景),將相鄰圖像邊界的連通區(qū)域設(shè)置為0,這個區(qū)域在上一步已被設(shè)置為1。
給定Boolean圖譜集合后,利用從所有Boolean編碼的二進(jìn)制圖中得到的相應(yīng)位置標(biāo)簽(即1 / 0)編碼每個像素。Boolean編碼中的特征順序被分成L-map,a-map和b-map。對于每個特征通道,Boolean編碼的數(shù)值被從小到大分成θ1~θn。對于每個固定閾值,以下一個相鄰數(shù)值取反的方式編碼。Boolean編碼過程是利用二值特征向量代表每個像素,即Boolean編碼。Boolean編碼過程實例見圖1。
1.3Boolean編碼的意義及特征
Boolean碼是一種簡單而有效的特征,不僅表達(dá)簡短而且內(nèi)涵豐富。以像素為例,Boolean碼的每一位標(biāo)簽都包含了位置信息,以及相關(guān)的特征值和通道(對應(yīng)于當(dāng)前維度(位))被選擇時視覺場景的訪問區(qū)域。因此,Boolean碼包含各種特征值和通道下的視覺注意位置的分布信息。
為了說明Boolean編碼顯著性檢測的效率,對顯著點和背景點的Boolean編碼頻率進(jìn)行統(tǒng)計。在這項工作中,本文選擇了Bruce數(shù)據(jù)集[5],它是預(yù)測視覺顯著性最常用的基準(zhǔn)數(shù)據(jù)集之一。為了減少運行時間,設(shè)置閾值為7~247,固定步長為8。圖2顯示了固定點和背景點之間標(biāo)號1的統(tǒng)計頻率。其中,圖2(a)代表每個維度,圖2(b)代表Boolean碼之和。很顯然,一方面,圖2(a)表明在大多數(shù)Boolean編碼分布中,顯著點的分布與背景點的分布是能被區(qū)分的;另一方面,圖2(b)清楚的表明顯著點標(biāo)號1的數(shù)目通常大于背景點,符合視覺認(rèn)知。除此之外,圖2(a)中顯著點頻譜包絡(luò)的3個峰值分別與L-map,a-map和b-map相對應(yīng)。這進(jìn)一步說明顯著點和背景點之間的區(qū)別普遍存在于每個特征圖中,與特征通道無關(guān)。這里,統(tǒng)計結(jié)論無論對任何一個可用的數(shù)據(jù)集[13]還是不同的閾值間隔都是不變的。因此,Boolean編碼確實是一個強(qiáng)大而有效的,被用來進(jìn)行特征顯著性檢測的特征。
2.1 低秩分解
在本文模型中,利用顯著點和背景點之間的Boolean碼分布差異,通過低秩矩陣分解[14-15]預(yù)測視覺顯著性。首先將所有像素的Boolean編碼數(shù)組轉(zhuǎn)換為Boolean編碼矩陣D=[d1,d2,…,dN],其中,N是圖像中的像素數(shù),dj(j=1,2,…,N)是第j個像素的Boolean碼矢量。低秩分解方程式如下:
(1)
其中,A是低秩矩陣,E是服從于D=A+E的稀疏誤差矩陣,λ是平衡秩和稀疏性的參數(shù)。顯然,優(yōu)化式(1),將矩陣D分成2個部分:矩陣A的低秩部分和矩陣E的稀疏誤差部分。根據(jù)上述可知背景點都有一個共同的特征:他們的Boolean碼標(biāo)簽一般為0,而顯著點為1,所以他們的Boolean編碼矢量差異可以通過矩陣D顯示。此外,觀察區(qū)和背景區(qū)之間的面積存在巨大差異,畢竟眼睛能夠觀察到的信息與背景[5,13]相比是非常小的。根據(jù)這些因素,低秩分解法的應(yīng)用是合理可行的,其中顯著性和背景信息分別隱含在矩陣E和矩陣A中。事實上,式(1)是非凸的,且是一個NP難問題,幸運的是,在一定條件下[14]可以通過如下優(yōu)化解決。
(2)
2.2 顯著性計算
由于背景被認(rèn)為是矩陣A中Boolean編碼主要特征,本文利用稀疏誤差矩陣E計算視覺顯著性,其中矩陣E包含了剩余非規(guī)律信息。具體而言,對于每一個像素,通過下式進(jìn)行顯著性計算。
(3)
其中,ej是矩陣E的第j列,對應(yīng)第j個像素的異常剩余碼。最后,顯著圖可通過高斯平滑,是因為顯著區(qū)通常是稀疏且連續(xù)的[7]。
2.3 實驗結(jié)果
為了評估本文模型,利用2個公開可供選擇的數(shù)據(jù)庫:Bruce數(shù)據(jù)集[5]和Kootstra數(shù)據(jù)集[13],進(jìn)行人眼注視數(shù)據(jù)預(yù)測實驗。2個數(shù)據(jù)集分別包含20名和31名受試者視點的120和100個自然彩色圖像,前者分辨率為681×511像素,后者分辨率為1024×768像素。為減少運行時間,在整個數(shù)據(jù)集中,對于每個輸入圖像,保持其原始縱橫比例,調(diào)整它的寬度為64。閾值設(shè)置從7~247,固定步長為8,因為其在寬范圍內(nèi)對結(jié)果的影響不大。同時,按照經(jīng)驗設(shè)置高斯核的標(biāo)準(zhǔn)偏差為圖像寬度的4%。除此之外,采用ROC特性曲線原理,并按照Murray等人[8]提出的方法來定量分析性能,按照Zhang等人[16]提出的方法克服中心偏差和邊界效應(yīng)。
圖3 本文提出模型不同λ的AROC評分
λ決定了低秩分解的平衡性,它可能影響檢測的性能。式(2)中,從0.02~0.2改變參數(shù)值,來評估受λ影響的預(yù)測結(jié)果。2個數(shù)據(jù)集的AROC評分在圖3中。很顯然,當(dāng)λ取值在0.1左右時性能最佳;當(dāng)λ更小或變大時,AROC評分將變低,2個基準(zhǔn)數(shù)據(jù)集得到的結(jié)果基本一致。當(dāng)λ在一個較大的范圍內(nèi)變化時,比如[0.04, 0.16]區(qū)間內(nèi),評分結(jié)果是可接受的且令人滿意的,說明了這個參數(shù)對于本文模型來說影響有限。
表1 本文模型和當(dāng)前先進(jìn)性模型試驗結(jié)果比較
隨后,根據(jù)圖3獲取的優(yōu)化原則,將模型的λ值設(shè)為0.1,并且將本文提出的方法與當(dāng)前比較先進(jìn)的方法進(jìn)行比較:Itti[4],AIM[5],GBVS[6],SUN[16],DVA[17],Seo[18],SIGS[7]。2個基準(zhǔn)數(shù)據(jù)庫的試驗結(jié)果在表1中。因為Kootstra數(shù)據(jù)集[13]包含動物、街道、建筑、花卉和自然這5種不同種類,其圖像包含了從語義對象到混亂場面等多種不同內(nèi)容,所以,它的AROC評分要低于Bruce集[5]。盡管如此,依然可以看出本文提出方法與BMS[10]相當(dāng),且優(yōu)于其他方法。此外,即使λ數(shù)值在一定范圍內(nèi)變化,本文提出的方法依然比其他方法效果更好,不僅易于實現(xiàn)而且具有良好的性能。視覺顯著圖的比較分析在圖4中。
Boolean編碼在描述顯著點和背景點間維度時有著明顯不同的分布,因此,可以被用來進(jìn)行顯著性檢測。實驗證明,本文提出的方法易于實現(xiàn)而且性能優(yōu)良。今后,將對Boolean編碼進(jìn)行擴(kuò)展使用,可以結(jié)合時間信息進(jìn)行實時顯著性檢測,也可以通過訓(xùn)練進(jìn)行有目的的顯著性檢測。
圖4 視覺顯著圖比較分析
參 考 文 獻(xiàn)
[1]BorjiA,SihiteDN,IttiL.QuantitativeAnalysisofHuman-ModelAgreementinVisualSaliencyModeling:AComparativeStudy[J].IEEETransactionsonImageProcessingaPublicationoftheIEEESignalProcessingSociety, 2013, 22(1):55.
[2]BorjiA,IttiL.State-of-the-artinVisualAttentionModeling[J].IEEETransactionsonPatternAnalysis&MachineIntelligence, 2013, 35(1):185-207.
[3]TreismanAM,GeladeG.AFeature-integrationTheoryofAttention[J].CognitivePsychology, 1980, 12(1):97.
[4]IttiL,KochC,NieburE.AModelofSaliency-basedVisualAttentionforRapidSceneAnalysis[J].IEEETransactionsonPatternAnalysis&MachineIntelligence, 1998, 20(11):1254-1259.
[5]BruceNDB,TsotsosJK.SaliencyBasedonInformationMaximization[C]//InternationalConferenceonNeuralInformationProcessingSystems.MITPress, 2005:155-162.
[6]HarelJ,KochC,PeronaP.Graph-basedVisualSaliency[J].Proc.AdvancesinNeuralInformationProcessingSystems, 2007.
[7]HouX,HarelJ,KochC.ImageSignature:HighlightingSparseSalientRegions[J].PatternAnalysis&MachineIntelligenceIEEETransactionson, 2012, 34(1):194-201.
[8]MurrayN,VanrellM,OtazuX,etal.Low-LevelSpatiochromaticGroupingforSaliencyEstimation[J].IEEETransactionsonPatternAnalysis&MachineIntelligence, 2013, 35(11):2810.
[9]HuangL,PashlerH.ABooleanMapTheoryofVisualAttention[J].PsychologicalReview, 2007, 114(3):599-631.
[10]ZhangJ,SclaroffS.SaliencyDetection:ABooleanMapApproach[J]. 2013:153-160.
[11]TatlerBW.TheCentralFixationBiasinSceneViewing:SelectinganOptimalViewingPositionIndependentlyofMotorBiasesandImageFeatureDistributions.[J].JournalofVision, 2007, 7(14):4.1-17.
[12]PalmerSE.VisionScience:PhotonstoPhenomenology[J].TheQuarterlyReviewofBiology, 2001, 77(Volume76,Number4):233-234.
[13]KootstraG,NederveenA,BoerBD.PayingAttentiontoSymmetry[C]//BritishMachineVisionConference2008,Leeds,September.DBLP, 2008:1279-1285.
[14]CandesEJ,LiX,MaY,etal.RobustPrincipalComponentAnalysis?[J].JournaloftheACM,Vol.58.No.3,Article11.
[15]LinZ,ChenM,MaY.TheAugmentedLagrangeMultiplierMethodforExactRecoveryofCorruptedLow-RankMatrices[J].EprintArxiv, 2010, 9.
[16]ZhangL,TongMH,MarksTK,etal.SUN:ABayesianFrameworkforSaliencyusingNaturalStatistics.[J].JournalofVision, 2008, 8(7):32.1-20.
[17]HouX,ZhangL.DynamicVisualAttention:SearchingforCodingLengthIncrements[C]//ConferenceonNeuralInformationProcessingSystems,Vancouver,BritishColumbia,Canada,December.DBLP, 2008:681-688.
[18]SeoHJ,MilanfarP.StaticandSpace-timeVisualSaliencyDetectionbySelf-resemblance.[J].JournalofVision, 2009, 9(12):15.1-27.
Bottom-Up Visual Saliency Detection by Boolean Coding
Zhao Di1, Wang Xiaopeng2, Chen Danqi3
1. Shanghai Institute of Satellite Engineering, Shanghai 201109, China 2. Shanghai Academy of Spaceflight Technology, Shanghai 201109, China 3. Shanghai Institute of Mechanical and Electrical Engineering, Shanghai 201109, China
AnovelbinaryfeaturebasedonBooleancodingispresentedtodetectvisualsaliencyinabottom-upmanner.TheschemeisinspiredbytheBooleanmaptheoryofvisualattention,andeachpixelwithbinaryvalues(i.e. 0/1)isencodedtocharacterizethedistributiveinformationoflocationsforvisualattentionundervariousfeaturevaluesandchannels(e.g. CIE Labspace).BytakingadvantageofthedifferentdistributionofBooleancodesontheirdimensions(bits)betweensalientpointsandbackgroundpoints,low-rankdecompositionisthenleveragedforfurthersaliencydetection.Notonlytheproposedmodeliseasytobeimplemented,butalsotheexperimentalresultsoftwopubliclyavailablebenchmarksdemonstratethatitiseffectiveagainstthestate-of-the-artmethods.
Bottom-up;Visualsaliency; Booleancoding;Low-rankdecomposition
2016-08-04
趙 迪(1984-),男,黑龍江人,碩士研究生,工程師,主要研究方向為衛(wèi)星總體設(shè)計;王曉鵬 (1979-),男,山東人,碩士研究生,高級工程師,主要研究方向為航天器總體技術(shù)和控制技術(shù)研究;陳丹淇 (1986-),女,內(nèi)蒙古人,碩士研究生,工程師,主要研究方向為圖像及語音處理。
TP37
A
1006-3242(2017)02-0066-06