,,,
(1.中國科學(xué)院 上海微系統(tǒng)與信息技術(shù)研究所,上海 200050; 2.中國科學(xué)院大學(xué),北京 100049)
視覺顯著性可以引導(dǎo)人類視覺系統(tǒng)在解析場景時,只將視覺注意力集中在場景中顯著的視覺刺激區(qū)域,這樣可以大大降低人腦需要進一步處理的信息量,提高對場景進行感知和理解的效率。這一重要機制在認(rèn)知心理學(xué)、神經(jīng)學(xué)、計算機視覺等領(lǐng)域中都是重要的研究問題。在計算機視覺領(lǐng)域中,視覺顯著性可以應(yīng)用于圖像分割[1]、視頻壓縮[2]、目標(biāo)的檢測與識別[3-5]、圖像質(zhì)量評價[6-7]等領(lǐng)域,出現(xiàn)了眾多的計算模型來模擬人類視覺系統(tǒng)的這種機制,力求準(zhǔn)確快速地提取出圖像和視頻中的顯著性目標(biāo)或區(qū)域。
視覺顯著性的模型主要分為2種:一種是自底向上的計算模型,這種模型從圖像底層的視覺刺激如顏色、紋理等圖像特征出發(fā),提取顯著性的區(qū)域;另外一種模型是自上而下的計算模型,這種模型與觀察者觀測場景的目的性和場景的上下文語義有關(guān),比如駕駛場景下道路上的車輛行人等更加吸引人的視覺注意力。
本文從底層的場景信息出發(fā),同時考慮深度信息、運動信息,融合進傳統(tǒng)的二維視覺顯著性框架,提出適用于動態(tài)場景的三維視覺顯著性模型。并針對三維動態(tài)場景下顯著性數(shù)據(jù)集的稀缺問題,通過實驗收集人眼在這些場景下的視覺注意力分布,構(gòu)建一個用于評價算法性能的三維顯著性數(shù)據(jù)集。
傳統(tǒng)的自底向上的視覺顯著性模型都受到人類視覺系統(tǒng)的center-surround機制[8]、特征集成理論[9]以及早期注意力模型[10]的啟發(fā),從二維圖像特征的局部對比度出發(fā)進行顯著性的決策。但是人眼的顯著性決策是在真實的三維世界中進行的,人眼獲取的信息不僅僅局限于圖像平面上的顏色、亮度等二維信息,還包含了人眼到物體的距離、物體的運動狀態(tài)等更加復(fù)雜的場景信息,而這些模型都忽略了這一因素,因此可以說這些模型的研究并不符合人眼的視覺注意力機制,并且應(yīng)用的場景也很有限。另外的一些研究考慮了場景的運動信息,如文獻[11]將運動顯著性與顏色顯著性融合在一起,考慮視頻中動態(tài)場景的顯著性;一些研究考慮了場景的深度信息,如文獻[12]通過比較人眼在觀看2D和3D場景時的視線分布發(fā)現(xiàn)深度對顯著性的重要影響;文獻[13]直接將深度信息作為額外的特征通道融入到Itti[8]模型中去計算深度顯著圖;文獻[14]則研究了將2D顯著圖與深度信息融合獲取3D顯著圖的方法。這些方法的研究場景更接近真實的三維世界,但是只單獨考慮了深度因素或者運動因素。
本文提出一個融合運動、深度、顏色信息的顯著性算法框架,如圖1所示。算法首先根據(jù)所求場景的左圖獲取到場景的顏色信息,根據(jù)左右和前后幀圖像通過OSF[15]算法獲取場景的光流信息和視差信息。利用雙目立體視覺中視差與深度的關(guān)系,進一步提取出場景的深度信息。光流信息只代表真實三維世界中的點在圖像平面上的運動,并不能真實地反映目標(biāo)的三維運動信息,本文利用光流信息、深度信息和相機的投影矩陣獲取場景中各點在相機坐標(biāo)系下的三維運動軌跡,用它來表征場景的運動特征。在獲取到當(dāng)前場景的顏色、運動和深度信息后,先通過一個改進的超像素分割算法將場景分割為一系列的區(qū)域,采用RANSC算法(隨機抽樣一致性算法)計算出每個區(qū)域的主要顏色、運動和深度信息,然后根據(jù)每種特征分別計算出顏色顯著圖、運動顯著圖和深度顯著圖,最后使用動態(tài)融合的方法將三者融合,得到最終的顯著性結(jié)果。
圖1 算法框架
首先根據(jù)視差信息可以推算出場景的深度信息,然后利用深度信息和光流信息進一步獲取到各點在相機坐標(biāo)系下的三維運動矢量。
2.1.1 深度信息的獲取
在左右兩個相機光軸平行時,視差與深度存在如圖2所示的關(guān)系。
圖2 視差與深度的轉(zhuǎn)換關(guān)系
P點在左右像平面上的投影為P1、P2,兩點的x坐標(biāo)分別為XL、XR,f為相機的焦距,B為兩相機的基線長,Z為P點的深度信息,通過推算可以得到深度與視差的關(guān)系:
(1)
其中,d為視差信息(d=XL-XR),這樣結(jié)合兩相機之間的基線長度與相機的焦距可以得到場景的深度信息。
2.1.2 相機坐標(biāo)系下三維運動矢量的獲取
光流信息表征的是三維場景中點的運動在圖像平面上的投影。在相機運動的情形下,背景的運動都是由于相機的運動所造成的,這些運動是一致的。但是由于光流只是實際運動在圖像平面上的投影,背景各個區(qū)域的光流矢量的方向和大小其實是不同的,這就導(dǎo)致了在相機運動時,利用光流難以有效地區(qū)分因相機運動導(dǎo)致的背景區(qū)域的運動和場景中物體自身發(fā)起的運動,因此難以從場景中提取出運動顯著的目標(biāo)。針對這個問題,本文結(jié)合光流信息和深度信息推算出場景中的點在相機坐標(biāo)系下的三維運動矢量來表征場景的運動特征,推算的方法如圖3所示。
圖3 真實三維空間中點在前后像平面上的投影示意圖
三維場景中的點P在前后幀像平面上的投影分別為P1(u1,v1)、P2(u2,v2)。前一幀圖像的相機坐標(biāo)系光心為O1,點P在此相機坐標(biāo)系下的三維坐標(biāo)為(x1,y1,z1);后一幀相機的光心運動到O2,新的相機坐標(biāo)系以O(shè)2為原點,P在當(dāng)前坐標(biāo)系下的坐標(biāo)變?yōu)?x2,y2,z2)。Pprojection是相機的內(nèi)參投影矩陣(式(2)),表示相機坐標(biāo)系下的坐標(biāo)到圖像坐標(biāo)的變換關(guān)系,兩個坐標(biāo)之間的轉(zhuǎn)換關(guān)系如式(3)、式(4)所示。
(2)
(3)
(4)
像平面上點P1、P2的坐標(biāo)可以由光流信息得到,結(jié)合前后幀的深度信息z1、z2,即可推算出式(3)、式(4)中的兩個尺度因子s1、s2,兩式相減即可得到點P在前后兩個相機坐標(biāo)系下的三維運動矢量:
(5)
使用三維運動矢量的優(yōu)勢在于:背景中的點在相機坐標(biāo)系下的運動都是由于相機坐標(biāo)系的旋轉(zhuǎn)或者平移產(chǎn)生的,這些點的三維運動矢量都是相同的,而場景中真正發(fā)生運動的點的三維運動矢量不僅與相機坐標(biāo)系的幾何變換有關(guān),還與自身的運動方向和大小有關(guān),因此與背景中的點的三維運動矢量存在明顯差異,利用兩者之間的差異可以有效地將背景區(qū)域和前景目標(biāo)區(qū)分開來。
SLIC超像素分割算法能夠較好地分割不同物體,生成的超像素緊湊整齊,并且算法時間效率高。但是該算法只從LAB顏色空間去考慮像素點之間的相似度量,在室外復(fù)雜場景下,如果目標(biāo)物體與背景的顏色區(qū)分度很低,再加上光照陰影等因素的影響,分割算法的性能易受到較大的影響,難以很好地分割出不同物體的邊界。自然場景下同一個剛體運動目標(biāo)的運動方向和速度都是一致的,因此運動特征也可以作為像素間相似程度的衡量準(zhǔn)則之一,基于這一點本文將2.1節(jié)得到的運動信息融入分割算法,以提高復(fù)雜場景下的算法分割效果。
算法步驟和SLIC分割算法類似:先以網(wǎng)格化的形式初始化聚類種子點;然后在種子點的鄰域內(nèi)進行迭代的聚類,直至算法收斂或者達到迭代次數(shù)上限,在這一步中對聚類的準(zhǔn)則進行調(diào)整,把運動信息融合進去。SLIC算法的聚類準(zhǔn)則如式(6)所示,distc(i)是像素點i與種子點之間在LAB顏色空間的歐幾里得距離,dists(i)是像素點i與種子點之間在空間位置上的歐幾里得距離,Nc和Ns是相應(yīng)的距離歸一化因子,I是圖像上所有像素點的集合;調(diào)整后的聚類準(zhǔn)則如式(7)所示,加入了像素點i與種子點之間的三維運動矢量距離distm(i),Nm是對應(yīng)的距離歸一化因子。
(6)
(7)
迭代聚類過程完成之后,將不連續(xù)的超像素和尺寸過小的超像素分配給鄰近的超像素,最終生成一系列緊湊、近似均勻的超像素,將場景分割為不同的區(qū)域。
SLIC算法與融入運動信息的SLIC算法的分割結(jié)果如圖4所示,通過圖4(b)和圖4(c)的對比可以看到改進后的算法在前景和背景顏色相近時能夠更好地分割物體的邊界。為了便于可視化的對比,觀察框線區(qū)域,原來的算法會將車輛和背景分割到同一個超像素中,而改進后的算法能將兩者有效地分割開。
圖4 分割算法改進前后的分割結(jié)果
運動顯著性算法的目的是檢測場景中因為運動而對視覺注意力產(chǎn)生影響的區(qū)域。在諸如機器人自主導(dǎo)航、自動駕駛等領(lǐng)域,圖像的采集都是在攝像機高速運動場景下進行的,如何在這種場景下進行運動顯著性目標(biāo)的準(zhǔn)確檢測仍然是一個難題。主流的運動檢測方法主要分為3種:幀間差分法[16],背景抽取法[17]和基于光流的方法。幀間差分法只適用于攝像機靜止場景下的運動目標(biāo)檢測,背景抽取法需要首先對特定場景下的背景進行數(shù)學(xué)建模,從而在接下來的圖像幀中去除背景區(qū)域,該方法要求初始場景中不存在目標(biāo)物體,否則需要較長的背景更新過程才能完成對背景的正確建模。在2.1節(jié)中已經(jīng)闡述了光流表征運動信息的局限性,在運動相機場景下難以將相機運動導(dǎo)致的背景運動和目標(biāo)自身發(fā)起的運動區(qū)分開,如圖5 (b)所示。場景中某些小塊區(qū)域的顯著性較高是因為光照條件惡劣或者區(qū)域深度較大時深度計算不準(zhǔn)確導(dǎo)致的。本文基于2.1節(jié)中獲得的場景中點在相機坐標(biāo)系下的三維運動矢量,提出一種基于區(qū)域局部和全局對比度融合的運動顯著性算法。
圖5 運動顯著性結(jié)果
算法分為3步:1)根據(jù)2.2節(jié)中改進的超像素分割算法將場景分割為一系列的區(qū)域,R表示這些區(qū)域的集合(R={Ri|i=1,2,…,n}),利用RANSC算法(隨機抽樣一致性算法)計算出每個超像素的三維運動矢量,代表這塊區(qū)域的運動方向與速度;2)按照式(8)、式(9)計算每個超像素塊運動矢量的局部對比度與全局對比度;3)按照式(10)融合局部對比度和全局對比度,得到每個區(qū)域的運動顯著性結(jié)果。
(8)
(9)
m_sal(i)=wl×m_contrastl(i)+wg×
m_contrastg(i)
(10)
其中,m_contrastl(i)和m_contrastg(i)分別表示區(qū)域Ri的局部運動對比度和全局運動對比度,Ni是區(qū)域Ri鄰域內(nèi)的區(qū)域,distm(i,j)和dists(i,j)分別是區(qū)域Ri與Rj之間的顏色距離和空間距離,wl和wg是兩者融合的權(quán)重,σ因子本文中取0.4。
采用局部對比度和全局對比度進行融合的優(yōu)勢在于可以在兩個尺度上提取對比度明顯的區(qū)域。局部對比度可以有效地提取出局部鄰域內(nèi)運動信息與周圍區(qū)域存在明顯對比的區(qū)域。但是局部對比度存在一個問題:由于超像素分割會將同一目標(biāo)分割為多個區(qū)域,因此只計算局部對比度會導(dǎo)致目標(biāo)中間區(qū)域的對比度較低,產(chǎn)生“空洞”的現(xiàn)象;而加入全局對比度可以填補目標(biāo)中心區(qū)域的空洞,同時衡量出在全局尺度上對比度明顯的區(qū)域。運動顯著性檢測的結(jié)果如圖5(c)所示。
在真實三維場景下,深度信息是決定人類視覺注意力的重要影響因素之一。文獻[12]中的研究發(fā)現(xiàn)人眼在觀察同樣內(nèi)容的2D圖像和3D圖像時注視點存在明顯的差異,另外一個直觀的事實就是人眼會更多地把視覺注意力集中到距離自己較近的目標(biāo)上,這些都說明深度信息對于顯著性的判斷是至關(guān)重要的。
將深度信息融入到視覺注意力模型中有2點優(yōu)勢:1)根據(jù)前景與背景區(qū)域所處深度平面的差別,可以解決前景與背景區(qū)域由于二維特征相似產(chǎn)生的混淆問題;2)能夠幫助提取場景中的多個顯著性目標(biāo)。
將深度信息融合到視覺注意力模型中去,主要分為2種方法:1)利用深度信息直接對二維特征得到的顯著性結(jié)果進行加權(quán)處理;2)單獨利用深度信息生成深度顯著性結(jié)果,再和二維特征的顯著性結(jié)果融合,這種方法更接近人類視覺系統(tǒng)的處理機制。
另外一個研究的問題是如何考慮深度信息,一些研究中[18]直接利用深度信息,認(rèn)為距離人眼越近的區(qū)域(深度越小)越能吸引人的視覺注意力,越遠(yuǎn)的區(qū)域則越不顯著;另外一些方法[19-20]考慮區(qū)域與鄰域內(nèi)其他區(qū)域的深度對比度信息,認(rèn)為深度對比度大的區(qū)域更為顯著。還有一些實驗[21]表明當(dāng)目標(biāo)距離人眼過近時,人眼會產(chǎn)生不適的現(xiàn)象,由于這種不適感人的視覺注意力都會集中到這些區(qū)域,此時深度信息對顯著性起到?jīng)Q定性的作用。本文綜合考慮以上的研究發(fā)現(xiàn),提出一種基于深度信息和深度對比度的深度顯著性算法,綜合考慮上面提到的3個因素。
首先同樣利用RANSC算法得到每個區(qū)域的深度信息;借鑒傳統(tǒng)視覺顯著性模型中的center-bias機制[19],利用高斯模型建立深度大小對顯著性的影響模型,具體關(guān)系如式(11)所示。
(11)
其中,d_coff(i)表示區(qū)域Ri的深度顯著性系數(shù),di表示區(qū)域Ri的深度,dmin是場景的最小深度,參數(shù)dr由場景的景深范圍和實驗得到。
同時考慮深度對比度對視覺注意力的影響。以往的研究[14]在考慮深度對比度對顯著性的影響時,效仿傳統(tǒng)的center-surround機制[8],計算每個區(qū)域相對于周圍鄰域內(nèi)所有區(qū)域的深度對比度,比如利用一個DOG算子計算每個區(qū)域的局部對比度,這些算法都是應(yīng)用在一些較為簡單的靜態(tài)場景下,背景區(qū)域基本都處在同一個深度平面上,而目標(biāo)物體處在另外一個深度平面上。設(shè)想在諸如街道、高速公路等室外復(fù)雜場景下,背景區(qū)域并不是都位于相同的深度平面上,往往深度從近及遠(yuǎn)變化范圍很大,尤其是在遠(yuǎn)處相鄰的背景區(qū)域間的深度差會很大,因此用這些傳統(tǒng)的方法會將背景區(qū)域誤檢為深度對比度很高的區(qū)域。為了在復(fù)雜的室外場景下有效地檢測出深度對比明顯的區(qū)域,本文提出一種基于水平區(qū)域內(nèi)深度相對對比度的計算方法。
通過對典型場景下(如圖4(a)左圖中的場景)不同區(qū)域所處深度平面的分析,有如下兩點發(fā)現(xiàn):
1)同一水平線上的背景區(qū)域基本都位于同一深度平面上,在這條水平線上如果出現(xiàn)了凸出的目標(biāo)物體,則深度會與背景區(qū)域存在明顯的對比。
2)考慮到如圖4(a)左圖所示的這些復(fù)雜場景中,場景兩側(cè)會出現(xiàn)如房屋、樹木等從近處向遠(yuǎn)處延伸的背景區(qū)域,導(dǎo)致在遠(yuǎn)處的背景區(qū)域深度與同一水平線上的鄰域也會存在較大的深度差。為了抑制這些遠(yuǎn)處的背景區(qū)域,在計算出每個區(qū)域相對于同一水平線上其他區(qū)域的深度對比度之后,用當(dāng)前區(qū)域的深度信息進行歸一化處理,不僅可以達到抑制遠(yuǎn)處背景的效果,同時可以更好地突出水平線上深度凸出的區(qū)域。
綜合以上2點發(fā)現(xiàn),本文通過下面的方法計算每個區(qū)域的深度對比度:首先對場景的區(qū)域集合R進行劃分,根據(jù)每個區(qū)域的水平位置(即區(qū)域中心的垂直坐標(biāo))將其劃分到不同的區(qū)域集合中去:R={Ni|i=1,2,…,m},Ni表示第i個橫向區(qū)域集合,總共劃分為m個橫向區(qū)域集合。劃分的準(zhǔn)則如式(12)所示。如果區(qū)域Ri中心的垂直坐標(biāo)pos_y[i]處于橫向區(qū)域集合Ni的垂直坐標(biāo)上界upper[i]和垂直坐標(biāo)下界lower[i]之間,就將其劃分到Ni中。
Ni={Ri|upper[i] (12) 劃分結(jié)束后分別計算各個橫向區(qū)域集合中每個區(qū)域相對于該集合內(nèi)其他區(qū)域的深度相對對比度,計算方法如式(13)所示,Nh是區(qū)域Ri所處橫向區(qū)域的集合,d_contrast[i]即表示區(qū)域i的深度對比度。 (13) 最后考慮目標(biāo)太近時對人眼易產(chǎn)生不適這一因素,當(dāng)目標(biāo)的深度小于人眼觀測的舒適距離時,該區(qū)域的顯著性是最高的。 綜合深度信息和深度對比度,按照式(14)得到最終的深度顯著性結(jié)果,式中τ是人眼觀測的舒適距離閾值。 (14) 心理學(xué)的研究[11]發(fā)現(xiàn),人類視覺系統(tǒng)對于運動信息的感知相比于其他的視覺刺激信號更為敏感。因此在動態(tài)的場景下,運動顯著性在顯著性的決策中占據(jù)主導(dǎo)的地位;而在靜態(tài)的場景下人眼則會更多地關(guān)注顏色和深度凸顯的區(qū)域?;谶@兩點本文根據(jù)場景的運動、顏色和深度顯著圖對比度來動態(tài)調(diào)整3個顯著性結(jié)果的融合權(quán)重。 以運動顯著圖舉例,需要使用一個定量的參數(shù)去衡量這個場景下是否有運動顯著的目標(biāo)存在。根據(jù)2.3節(jié)得到的運動顯著圖,若該圖中各個區(qū)域的顯著值接近,意味著各個區(qū)域的運動對比度接近,場景中不存在明顯的運動目標(biāo),如果存在部分區(qū)域的顯著值明顯高于其他區(qū)域,則說明場景中存在運動對比度很高的目標(biāo),此時通過一個運動對比度因子k_motion來表征運動顯著圖中是否存在顯著的運動目標(biāo),按照式(15)可以得到k_motion因子。 (15) 其中,salmax、salavg、salmin分別是運動顯著圖中的最大值、均值和最小值,k_motion因子越大,表示該場景中存在運動顯著目標(biāo)的可能性越大。 同樣的方法可以得到顏色顯著圖和深度顯著圖中的對比度因子k_color和k_depth,利用這3個對比度因子根據(jù)式(16)~式(18)動態(tài)調(diào)整3個顯著圖的融合權(quán)重,sigma為實驗確定的參數(shù),本文中取0.3。 (16) (17) (18) 最后根據(jù)式(19)將3個顯著圖融合得到最終的顯著性結(jié)果,m_sal、d_sal、c_sal分別是運動顯著圖、深度顯著圖和顏色顯著圖。 sal=wm×m_sal+wd×d_sal+wc×c_sal (19) 因為運動信息相比于其他視覺刺激的重要性更高,所以當(dāng)k_motion較大時,運動顯著圖的權(quán)重wm較大,顏色顯著圖和深度顯著圖兩者之間再根據(jù)k_color和k_depth動態(tài)地調(diào)整。各特征下的顯著圖及融合結(jié)果如圖6所示。本文中顏色顯著性的計算使用文獻[22]中的方法,從圖6(a)可以看到復(fù)雜的場景下顏色顯著性結(jié)果非常雜亂,因此在融合時的權(quán)重wc很低,這種情況下顏色顯著性的結(jié)果是不可信的,融合的權(quán)重置為0,場景的顯著性結(jié)果由運動和深度信息所決定。由圖6(e)可以看到融合后的結(jié)果可以同時突出運動顯著和深度顯著的區(qū)域。 圖6 各特征下的顯著圖及融合結(jié)果 傳統(tǒng)的顯著性評價數(shù)據(jù)集諸如MSRA10K、ECSSD[23]、JuddDB[24]等都是針對二維并且靜態(tài)場景下的顯著性數(shù)據(jù)集,另外一些數(shù)據(jù)集如NUS-3DSaliency[12]是針對三維場景下的顯著性數(shù)據(jù)集,但是局限于靜態(tài)場景下的研究?,F(xiàn)有的數(shù)據(jù)集都無法評價本文研究的三維動態(tài)場景下的顯著性算法。 針對數(shù)據(jù)集的稀缺問題,本文依據(jù)KITTI數(shù)據(jù)集收集到的雙目圖像數(shù)據(jù),對經(jīng)過校正后的左右相機圖片進行處理,將其水平方向的圖像分辨率壓縮至原來的一半,并左右對齊拼接在一起,形成左右并排的立體圖像。從數(shù)據(jù)集中選取出64個不同的動態(tài)場,包含了KITTI數(shù)據(jù)集中城市、住宅區(qū)、道路等多個種類場景下的不同圖像數(shù)據(jù)。選取每個場景下的前后6幀圖像,采用3.0 frame/s的幀率獲取這個場景下的視頻數(shù)據(jù)。實驗過程中邀請5位同事對這64個場景下的視頻數(shù)據(jù)進行場景的顯著性標(biāo)注。首先在SONY 3D電視上播放3D視頻,讓實驗的參與者站在距離電視1 m的位置上,頭部對準(zhǔn)電視的中心,利用被動式3D眼鏡觀看每個場景,然后標(biāo)注出他們認(rèn)為的場景中的顯著性區(qū)域(也就是選出視頻播放過程中視線的落點區(qū)域)。在采集數(shù)據(jù)時力求觀察者不要對場景進行內(nèi)容上的理解,簡單地從視覺刺激層次上選取顯著的目標(biāo)區(qū)域,因此每一個場景在觀察者實驗時只播放一遍(2 s左右),同時觀察者在標(biāo)注顯著性區(qū)域時可以選取任意多個顯著區(qū)域,也可以選擇在某些場景下不標(biāo)注任何的顯著性區(qū)域;可以標(biāo)注出完整的顯著性目標(biāo),也可以只標(biāo)注某個物體的一部分作為顯著的區(qū)域。 根據(jù)相機運動情況和場景中是否存在運動目標(biāo)可以將這些場景分為4類:1)相機運動并且場景中至少存在一個運動目標(biāo)的場景;2)相機運動但是場景中不存在運動目標(biāo)的場景;3)相機靜止并且場景中至少存在一個運動目標(biāo)的場景;4)相機靜止并且場景中無運動目標(biāo)的場景。 在實驗過程中,通過對實驗參與者標(biāo)注的顯著性區(qū)域的分析,有如下發(fā)現(xiàn):1)在包含運動目標(biāo)的場景下,參與者標(biāo)注的顯著性區(qū)域基本都集中在運動區(qū)域上,說明在動態(tài)的場景下,運動確實是顯著性的決定性因素;2)在不存在運動目標(biāo)的場景下,觀察者標(biāo)注的顯著性區(qū)域更多集中在顏色或者亮度對比度強的地方;3)距離觀察者很近的目標(biāo),即使處于靜止的狀態(tài)也會被標(biāo)注為顯著性區(qū)域;4)當(dāng)?shù)缆愤吘壔蛘咭曇拜^中間的位置出現(xiàn)行人時,這些區(qū)域往往是顯著的。第2)點的發(fā)現(xiàn)驗證了在靜態(tài)的場景下,顏色等特征確實是決定顯著性的因素之一,第1)點和第3)點發(fā)現(xiàn)則驗證了深度和運動信息在三維動態(tài)場景下很大程度上決定著顯著性,而第4)點的發(fā)現(xiàn)與場景的高層特征有關(guān),這一點不在本文的討論范疇之內(nèi)。 根據(jù)實驗參與者標(biāo)注的顯著性數(shù)據(jù),選擇顯著性區(qū)域標(biāo)注較為一致的場景,利用圖像處理軟件NI Visual Assistant獲取得到各個場景下的顯著性Ground Truth數(shù)據(jù)。 利用上文得到的數(shù)據(jù)集對本文算法(下面用MDC表示)進行驗證,同時與HC[22]、RC[22]、GMR[25]這3種算法進行對比,這3個算法對于靜態(tài)單目場景下的顯著性檢測均可以取得較好的效果。各個算法的顯著性結(jié)果如圖7所示。 圖7 各算法的顯著性結(jié)果 為了對不同算法的性能進行定量評價,本文對不同場景下的準(zhǔn)確率、召回率、真正率、假正率進行計算并獲取平均值,繪制出不同算法的準(zhǔn)確率-召回率曲線與ROC曲線,同時計算出不同算法的F-measure值與AUC值來對算法的整體性能進行直觀的對比。各項性能指標(biāo)的結(jié)果如圖8所示。 圖8 不同算法的定量評價 準(zhǔn)確率-召回率曲線越接近右上角(1,1)點,表示算法的性能越好;ROC曲線越接近左上角(0,1)點,表示算法的性能越好;F-measure值按式(20)計算,本文β2=0.3,F-measure值越高表示算法表現(xiàn)越好,MeanF-measure是所有閾值下F-measure的平均值,MaxF-measure是所有F-measure的最大值,AUC值是ROC曲線下方與水平坐標(biāo)軸之間的面積,AUC值越大表示算法性能越好。 (20) 從圖7的可視化結(jié)果以及圖8的各項評價指標(biāo)均可以發(fā)現(xiàn),圖7(b)~圖7(d)這3種基于二維圖像特征的顯著性算法的結(jié)果都存在明顯的問題。本實驗進行對比的目的僅在于說明傳統(tǒng)的顯著性算法不適用于較為復(fù)雜的真實三維場景下的顯著性決策。這些算法在靜態(tài)單目的簡單場景下可以達到很好的顯著性檢測效果,但是它們只考慮了場景中靜態(tài)圖像的顏色、紋理等二維信息,因此應(yīng)用場景十分有限。人類視覺系統(tǒng)的顯著性決策是在真實三維場景下進行的,所以只考慮二維圖像平面上的顯著性顯然不符合人眼的視覺注意力機制。從圖7的可視化結(jié)果中可以看到,本文提出的融合深度和運動信息的顯著性算法更接近數(shù)據(jù)集的ground truth信息,而圖8中的各評價指標(biāo)也驗證了本文算法相對于其他3種算法具有明顯的優(yōu)勢。 在真實三維場景下,運動、深度、顏色等信息都是決定視覺顯著性的重要因素。本文針對傳統(tǒng)視覺顯著性領(lǐng)域研究的局限性,提出了一個融合場景運動、深度信息的三維視覺顯著性算法,適用于三維動態(tài)場景下的顯著性目標(biāo)檢測,更貼合人眼的視覺注意力機制。同時針對該領(lǐng)域的數(shù)據(jù)集稀缺問題,提出一個三維動態(tài)場景下的顯著性評價數(shù)據(jù)集,并通過本文算法與傳統(tǒng)算法在此數(shù)據(jù)集上的結(jié)果對比,驗證了本文算法的優(yōu)越性。 本文從場景的底層特征信息出發(fā),考慮在視覺刺激層次上的顯著性區(qū)域,然而人類視覺系統(tǒng)的注意力機制同時受到高層特征[26]的影響,比如場景的上下文語義、觀察者觀察場景時的目的性等。下一步的研究方向就是研究高層特征與視覺顯著性之間的關(guān)聯(lián),并將其與本文給出的底層特征模型融合,得到一個更加貼近于人眼視覺注意力機制的計算模型。 [1] DONOSER M,URSCHLER M,HIRZER M,et al.Saliency Driven Total Variation Segmentation[C]//Proceedings of the 12th IEEE International Conference on Computer Vision.Washington D.C.,USA:IEEE Press,2009:817-824. [2] GUO Chenlei,ZHANG Liming.A Novel Multiresolution Spatiotemporal Saliency Detection Model and Its Applications in Image and Video Compression[J].IEEE Transactions on Image Processing,2010,19(1):185-198. [3] SHEN Hao,LI Shuxiao,ZHU Chengfei,et al.Moving Object Detection in Aerial Video Based on Spatiotemporal Saliency[J].Chinese Journal of Aeronautics(English Edition),2013,26(5):1211-1217. [4] REN Zhixiang,GAO Shenghua,CHIA L T,et al.Region-based Saliency Detection and Its Application in Object Recognition[J].IEEE Transactions on Circuits & Systems for Video Technology,2014,24(5):769-779. [5] 李正周,李文艷,譚 菊,等.基于空時顯著性感知的運動目標(biāo)檢測方法[J].計算機應(yīng)用研究,2010,27(6):2391-2393. [6] LIU H,HEYNDERICKX I.Studying the Added Value of Visual Attention in Objective Image Quality Metrics Based on Eye Movement Data[C]//Proceedings of IEEE International Conference on Image Processing.Washington D.C.,USA:IEEE Press,2009:3097-3100. [7] 馮 欣.基于視覺顯著性的網(wǎng)絡(luò)丟包圖像和視頻的客觀質(zhì)量評估方法研究[D].重慶:重慶大學(xué),2011. [8] ITTI L,KOCH C,NIEBUR E.A Model of Saliency-based Visual Attention for Rapid Scene Analysis[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,1998,20(11):1254-1259. [9] TREISMAN A M,GELADE G.A Feature-integration Theory of Attention[J].Cognitive Psychology,1980,12(1):97-136. [10] KOCH C,ULLMAN S.Shifts in Selective Visual Attention:Towards the Underlying Neural Circuitry[J].Human Neurobiology,1985,4(4):219-227. [11] ZHAI Yun,SHAH M.Visual Attention Detection in Video Sequences Using Spatiotemporal Cues[C]//Proceedings of ACM International Conference on Multimedia.New York,USA:ACM Press,2006:478-482. [12] LANG Congyan,NGUYEN T V,KATTI H,et al.Depth Matters:Influence of Depth Cues on Visual Saliency[C]//Proceedings of the 12th European Conference on Computer Vision.Berlin,Germany:Springer,2012:101-115. [13] 曾志宏,李建洋,鄭漢垣.融合深度信息的視覺注意計算模型[J].計算機工程,2010,36(20):200-202. [14] WANG Junle,DASILVA M P,LECALLET P,et al.Computational Model of Stereoscopic 3D Visual Saliency[J].IEEE Transactions on Image Processing,2013,22(6):2151-2165. [15] MENZE M,GEIGER A.Object Scene Flow for Autonomous Vehicles[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C.,USA:IEEE Press,2015:3061-3070. [16] WANG Zhihu,XIONG Jiulong,ZHANG Qi.Motion Saliency Detection Based on Temporal Difference[J].Journal of Electronic Imaging,2015,24(3). [17] 萬盼盼,張 軼.一種改進的基于背景差分的運動目標(biāo)檢測方法[J].計算機技術(shù)與發(fā)展,2015,25(2):38-41. [18] GAO Shanshan,CHI Jing,LI Li,et al.Saliency Detection Based on Superpixels Clustering and Stereo Disparity[J].Applied Mathematics Journal of Chinese Universities,2016,31(1):68-80. [19] WANG Junle,FANG Yuming,NARWARIA M,et al.Stereoscopic Image Retargeting Based on 3D Saliency Detection[C]//Proceedings of IEEE International Conference on Acoustics,Speech and Signal Processing.Washington D.C.,USA:IEEE Press,2014:669-673. [20] JIANG Lixing,KOCH A,ZELL A.Salient Regions Detection for Indoor Robots Using RGB-D Data[C]// Proceedings of IEEE International Conference on Robotics and Automation.Washington D.C.,USA:IEEE Press,2015:1323-1328. [21] JIANG Qiuping,SHAO Feng,JIANG Gangyi,et al.A Depth Perception and Visual Comfort Guided Computational Model for Stereoscopic 3D Visual Saliency[J].Signal Processing Image Communication,2015,38(3):57-69. [22] CHENG Mingming,MITRA N J,HUANG Xiaolei,et al.Global Contrast Based Salient Region Detection[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2011,37(3):409-416. [23] YAN Qiong,XU Li,SHI Jianping,et al.Hierarchical Saliency Detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C.,USA:IEEE Press,2013:1155-1162. [24] BORJI A.What Is a Salient Object? A Dataset and a Baseline Model for Salient Object Detection[J].IEEE Transactions on Image Processing,2014,24(2):742-756. [25] YANG Chuan,ZHANG Lihe,LU Huchuan,et al.Saliency Detection via Graph-based Manifold Ranking[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C.,USA:IEEE Press,2013:3166-3173. [26] HUANG Xun,SHEN Chengyao,BOIX X,et al.SALICON:Reducing the Semantic Gap in Saliency Prediction by Adapting Deep Neural Networks[C]//Proceedings of IEEE International Conference on Computer Vision and Pattern Recognition.Washington D.C.,USA:IEEE Press,2015:262-270.2.5 多個顯著圖的動態(tài)融合
3 三維動態(tài)場景下的顯著性數(shù)據(jù)集
4 實驗結(jié)果與算法評價
5 結(jié)束語