融合運(yùn)動(dòng)信息的三維視覺(jué)顯著性算法研究

2018-01-18 09:19:52,,,

計(jì)算機(jī)工程 2018年1期

,,,

(1.中國(guó)科學(xué)院上海微系統(tǒng)與信息技術(shù)研究所,上海 200050; 2.中國(guó)科學(xué)院大學(xué),北京 100049)

0 概述

視覺(jué)顯著性可以引導(dǎo)人類(lèi)視覺(jué)系統(tǒng)在解析場(chǎng)景時(shí),只將視覺(jué)注意力集中在場(chǎng)景中顯著的視覺(jué)刺激區(qū)域,這樣可以大大降低人腦需要進(jìn)一步處理的信息量,提高對(duì)場(chǎng)景進(jìn)行感知和理解的效率。這一重要機(jī)制在認(rèn)知心理學(xué)、神經(jīng)學(xué)、計(jì)算機(jī)視覺(jué)等領(lǐng)域中都是重要的研究問(wèn)題。在計(jì)算機(jī)視覺(jué)領(lǐng)域中,視覺(jué)顯著性可以應(yīng)用于圖像分割[1]、視頻壓縮[2]、目標(biāo)的檢測(cè)與識(shí)別[3-5]、圖像質(zhì)量評(píng)價(jià)[6-7]等領(lǐng)域,出現(xiàn)了眾多的計(jì)算模型來(lái)模擬人類(lèi)視覺(jué)系統(tǒng)的這種機(jī)制,力求準(zhǔn)確快速地提取出圖像和視頻中的顯著性目標(biāo)或區(qū)域。

視覺(jué)顯著性的模型主要分為2種:一種是自底向上的計(jì)算模型,這種模型從圖像底層的視覺(jué)刺激如顏色、紋理等圖像特征出發(fā),提取顯著性的區(qū)域;另外一種模型是自上而下的計(jì)算模型,這種模型與觀察者觀測(cè)場(chǎng)景的目的性和場(chǎng)景的上下文語(yǔ)義有關(guān),比如駕駛場(chǎng)景下道路上的車(chē)輛行人等更加吸引人的視覺(jué)注意力。

本文從底層的場(chǎng)景信息出發(fā),同時(shí)考慮深度信息、運(yùn)動(dòng)信息,融合進(jìn)傳統(tǒng)的二維視覺(jué)顯著性框架,提出適用于動(dòng)態(tài)場(chǎng)景的三維視覺(jué)顯著性模型。并針對(duì)三維動(dòng)態(tài)場(chǎng)景下顯著性數(shù)據(jù)集的稀缺問(wèn)題,通過(guò)實(shí)驗(yàn)收集人眼在這些場(chǎng)景下的視覺(jué)注意力分布,構(gòu)建一個(gè)用于評(píng)價(jià)算法性能的三維顯著性數(shù)據(jù)集。

1 研究背景

傳統(tǒng)的自底向上的視覺(jué)顯著性模型都受到人類(lèi)視覺(jué)系統(tǒng)的center-surround機(jī)制[8]、特征集成理論[9]以及早期注意力模型[10]的啟發(fā),從二維圖像特征的局部對(duì)比度出發(fā)進(jìn)行顯著性的決策。但是人眼的顯著性決策是在真實(shí)的三維世界中進(jìn)行的,人眼獲取的信息不僅僅局限于圖像平面上的顏色、亮度等二維信息,還包含了人眼到物體的距離、物體的運(yùn)動(dòng)狀態(tài)等更加復(fù)雜的場(chǎng)景信息,而這些模型都忽略了這一因素,因此可以說(shuō)這些模型的研究并不符合人眼的視覺(jué)注意力機(jī)制,并且應(yīng)用的場(chǎng)景也很有限。另外的一些研究考慮了場(chǎng)景的運(yùn)動(dòng)信息,如文獻(xiàn)[11]將運(yùn)動(dòng)顯著性與顏色顯著性融合在一起,考慮視頻中動(dòng)態(tài)場(chǎng)景的顯著性;一些研究考慮了場(chǎng)景的深度信息,如文獻(xiàn)[12]通過(guò)比較人眼在觀看2D和3D場(chǎng)景時(shí)的視線分布發(fā)現(xiàn)深度對(duì)顯著性的重要影響;文獻(xiàn)[13]直接將深度信息作為額外的特征通道融入到Itti[8]模型中去計(jì)算深度顯著圖;文獻(xiàn)[14]則研究了將2D顯著圖與深度信息融合獲取3D顯著圖的方法。這些方法的研究場(chǎng)景更接近真實(shí)的三維世界,但是只單獨(dú)考慮了深度因素或者運(yùn)動(dòng)因素。

2 融合運(yùn)動(dòng)信息的三維視覺(jué)顯著性算法

本文提出一個(gè)融合運(yùn)動(dòng)、深度、顏色信息的顯著性算法框架,如圖1所示。算法首先根據(jù)所求場(chǎng)景的左圖獲取到場(chǎng)景的顏色信息,根據(jù)左右和前后幀圖像通過(guò)OSF[15]算法獲取場(chǎng)景的光流信息和視差信息。利用雙目立體視覺(jué)中視差與深度的關(guān)系,進(jìn)一步提取出場(chǎng)景的深度信息。光流信息只代表真實(shí)三維世界中的點(diǎn)在圖像平面上的運(yùn)動(dòng),并不能真實(shí)地反映目標(biāo)的三維運(yùn)動(dòng)信息,本文利用光流信息、深度信息和相機(jī)的投影矩陣獲取場(chǎng)景中各點(diǎn)在相機(jī)坐標(biāo)系下的三維運(yùn)動(dòng)軌跡,用它來(lái)表征場(chǎng)景的運(yùn)動(dòng)特征。在獲取到當(dāng)前場(chǎng)景的顏色、運(yùn)動(dòng)和深度信息后,先通過(guò)一個(gè)改進(jìn)的超像素分割算法將場(chǎng)景分割為一系列的區(qū)域,采用RANSC算法(隨機(jī)抽樣一致性算法)計(jì)算出每個(gè)區(qū)域的主要顏色、運(yùn)動(dòng)和深度信息,然后根據(jù)每種特征分別計(jì)算出顏色顯著圖、運(yùn)動(dòng)顯著圖和深度顯著圖,最后使用動(dòng)態(tài)融合的方法將三者融合,得到最終的顯著性結(jié)果。

圖1 算法框架

2.1 深度信息和運(yùn)動(dòng)信息的獲取

首先根據(jù)視差信息可以推算出場(chǎng)景的深度信息,然后利用深度信息和光流信息進(jìn)一步獲取到各點(diǎn)在相機(jī)坐標(biāo)系下的三維運(yùn)動(dòng)矢量。

2.1.1 深度信息的獲取

在左右兩個(gè)相機(jī)光軸平行時(shí),視差與深度存在如圖2所示的關(guān)系。

圖2 視差與深度的轉(zhuǎn)換關(guān)系

P點(diǎn)在左右像平面上的投影為P1、P2,兩點(diǎn)的x坐標(biāo)分別為XL、XR,f為相機(jī)的焦距,B為兩相機(jī)的基線長(zhǎng),Z為P點(diǎn)的深度信息,通過(guò)推算可以得到深度與視差的關(guān)系:

(1)

其中,d為視差信息(d=XL-XR),這樣結(jié)合兩相機(jī)之間的基線長(zhǎng)度與相機(jī)的焦距可以得到場(chǎng)景的深度信息。

2.1.2 相機(jī)坐標(biāo)系下三維運(yùn)動(dòng)矢量的獲取

光流信息表征的是三維場(chǎng)景中點(diǎn)的運(yùn)動(dòng)在圖像平面上的投影。在相機(jī)運(yùn)動(dòng)的情形下,背景的運(yùn)動(dòng)都是由于相機(jī)的運(yùn)動(dòng)所造成的,這些運(yùn)動(dòng)是一致的。但是由于光流只是實(shí)際運(yùn)動(dòng)在圖像平面上的投影,背景各個(gè)區(qū)域的光流矢量的方向和大小其實(shí)是不同的,這就導(dǎo)致了在相機(jī)運(yùn)動(dòng)時(shí),利用光流難以有效地區(qū)分因相機(jī)運(yùn)動(dòng)導(dǎo)致的背景區(qū)域的運(yùn)動(dòng)和場(chǎng)景中物體自身發(fā)起的運(yùn)動(dòng),因此難以從場(chǎng)景中提取出運(yùn)動(dòng)顯著的目標(biāo)。針對(duì)這個(gè)問(wèn)題,本文結(jié)合光流信息和深度信息推算出場(chǎng)景中的點(diǎn)在相機(jī)坐標(biāo)系下的三維運(yùn)動(dòng)矢量來(lái)表征場(chǎng)景的運(yùn)動(dòng)特征,推算的方法如圖3所示。

圖3 真實(shí)三維空間中點(diǎn)在前后像平面上的投影示意圖

三維場(chǎng)景中的點(diǎn)P在前后幀像平面上的投影分別為P1(u1,v1)、P2(u2,v2)。前一幀圖像的相機(jī)坐標(biāo)系光心為O1,點(diǎn)P在此相機(jī)坐標(biāo)系下的三維坐標(biāo)為(x1,y1,z1);后一幀相機(jī)的光心運(yùn)動(dòng)到O2,新的相機(jī)坐標(biāo)系以O(shè)2為原點(diǎn),P在當(dāng)前坐標(biāo)系下的坐標(biāo)變?yōu)?x2,y2,z2)。Pprojection是相機(jī)的內(nèi)參投影矩陣(式(2)),表示相機(jī)坐標(biāo)系下的坐標(biāo)到圖像坐標(biāo)的變換關(guān)系,兩個(gè)坐標(biāo)之間的轉(zhuǎn)換關(guān)系如式(3)、式(4)所示。

(2)

(3)

(4)

像平面上點(diǎn)P1、P2的坐標(biāo)可以由光流信息得到,結(jié)合前后幀的深度信息z1、z2,即可推算出式(3)、式(4)中的兩個(gè)尺度因子s1、s2,兩式相減即可得到點(diǎn)P在前后兩個(gè)相機(jī)坐標(biāo)系下的三維運(yùn)動(dòng)矢量:

(5)

使用三維運(yùn)動(dòng)矢量的優(yōu)勢(shì)在于:背景中的點(diǎn)在相機(jī)坐標(biāo)系下的運(yùn)動(dòng)都是由于相機(jī)坐標(biāo)系的旋轉(zhuǎn)或者平移產(chǎn)生的,這些點(diǎn)的三維運(yùn)動(dòng)矢量都是相同的,而場(chǎng)景中真正發(fā)生運(yùn)動(dòng)的點(diǎn)的三維運(yùn)動(dòng)矢量不僅與相機(jī)坐標(biāo)系的幾何變換有關(guān),還與自身的運(yùn)動(dòng)方向和大小有關(guān),因此與背景中的點(diǎn)的三維運(yùn)動(dòng)矢量存在明顯差異,利用兩者之間的差異可以有效地將背景區(qū)域和前景目標(biāo)區(qū)分開(kāi)來(lái)。

2.2 融合運(yùn)動(dòng)信息的超像素分割算法

SLIC超像素分割算法能夠較好地分割不同物體,生成的超像素緊湊整齊,并且算法時(shí)間效率高。但是該算法只從LAB顏色空間去考慮像素點(diǎn)之間的相似度量,在室外復(fù)雜場(chǎng)景下,如果目標(biāo)物體與背景的顏色區(qū)分度很低,再加上光照陰影等因素的影響,分割算法的性能易受到較大的影響,難以很好地分割出不同物體的邊界。自然場(chǎng)景下同一個(gè)剛體運(yùn)動(dòng)目標(biāo)的運(yùn)動(dòng)方向和速度都是一致的,因此運(yùn)動(dòng)特征也可以作為像素間相似程度的衡量準(zhǔn)則之一,基于這一點(diǎn)本文將2.1節(jié)得到的運(yùn)動(dòng)信息融入分割算法,以提高復(fù)雜場(chǎng)景下的算法分割效果。

算法步驟和SLIC分割算法類(lèi)似:先以網(wǎng)格化的形式初始化聚類(lèi)種子點(diǎn);然后在種子點(diǎn)的鄰域內(nèi)進(jìn)行迭代的聚類(lèi),直至算法收斂或者達(dá)到迭代次數(shù)上限,在這一步中對(duì)聚類(lèi)的準(zhǔn)則進(jìn)行調(diào)整,把運(yùn)動(dòng)信息融合進(jìn)去。SLIC算法的聚類(lèi)準(zhǔn)則如式(6)所示,distc(i)是像素點(diǎn)i與種子點(diǎn)之間在LAB顏色空間的歐幾里得距離,dists(i)是像素點(diǎn)i與種子點(diǎn)之間在空間位置上的歐幾里得距離,Nc和Ns是相應(yīng)的距離歸一化因子,I是圖像上所有像素點(diǎn)的集合;調(diào)整后的聚類(lèi)準(zhǔn)則如式(7)所示,加入了像素點(diǎn)i與種子點(diǎn)之間的三維運(yùn)動(dòng)矢量距離distm(i),Nm是對(duì)應(yīng)的距離歸一化因子。

(6)

(7)

迭代聚類(lèi)過(guò)程完成之后,將不連續(xù)的超像素和尺寸過(guò)小的超像素分配給鄰近的超像素,最終生成一系列緊湊、近似均勻的超像素,將場(chǎng)景分割為不同的區(qū)域。

SLIC算法與融入運(yùn)動(dòng)信息的SLIC算法的分割結(jié)果如圖4所示,通過(guò)圖4(b)和圖4(c)的對(duì)比可以看到改進(jìn)后的算法在前景和背景顏色相近時(shí)能夠更好地分割物體的邊界。為了便于可視化的對(duì)比,觀察框線區(qū)域,原來(lái)的算法會(huì)將車(chē)輛和背景分割到同一個(gè)超像素中,而改進(jìn)后的算法能將兩者有效地分割開(kāi)。

圖4 分割算法改進(jìn)前后的分割結(jié)果

2.3 局部與全局對(duì)比度融合的運(yùn)動(dòng)顯著性算法

運(yùn)動(dòng)顯著性算法的目的是檢測(cè)場(chǎng)景中因?yàn)檫\(yùn)動(dòng)而對(duì)視覺(jué)注意力產(chǎn)生影響的區(qū)域。在諸如機(jī)器人自主導(dǎo)航、自動(dòng)駕駛等領(lǐng)域,圖像的采集都是在攝像機(jī)高速運(yùn)動(dòng)場(chǎng)景下進(jìn)行的,如何在這種場(chǎng)景下進(jìn)行運(yùn)動(dòng)顯著性目標(biāo)的準(zhǔn)確檢測(cè)仍然是一個(gè)難題。主流的運(yùn)動(dòng)檢測(cè)方法主要分為3種:幀間差分法[16],背景抽取法[17]和基于光流的方法。幀間差分法只適用于攝像機(jī)靜止場(chǎng)景下的運(yùn)動(dòng)目標(biāo)檢測(cè),背景抽取法需要首先對(duì)特定場(chǎng)景下的背景進(jìn)行數(shù)學(xué)建模,從而在接下來(lái)的圖像幀中去除背景區(qū)域,該方法要求初始場(chǎng)景中不存在目標(biāo)物體,否則需要較長(zhǎng)的背景更新過(guò)程才能完成對(duì)背景的正確建模。在2.1節(jié)中已經(jīng)闡述了光流表征運(yùn)動(dòng)信息的局限性,在運(yùn)動(dòng)相機(jī)場(chǎng)景下難以將相機(jī)運(yùn)動(dòng)導(dǎo)致的背景運(yùn)動(dòng)和目標(biāo)自身發(fā)起的運(yùn)動(dòng)區(qū)分開(kāi),如圖5 (b)所示。場(chǎng)景中某些小塊區(qū)域的顯著性較高是因?yàn)楣庹諚l件惡劣或者區(qū)域深度較大時(shí)深度計(jì)算不準(zhǔn)確導(dǎo)致的。本文基于2.1節(jié)中獲得的場(chǎng)景中點(diǎn)在相機(jī)坐標(biāo)系下的三維運(yùn)動(dòng)矢量,提出一種基于區(qū)域局部和全局對(duì)比度融合的運(yùn)動(dòng)顯著性算法。

圖5 運(yùn)動(dòng)顯著性結(jié)果

算法分為3步:1)根據(jù)2.2節(jié)中改進(jìn)的超像素分割算法將場(chǎng)景分割為一系列的區(qū)域,R表示這些區(qū)域的集合(R={Ri|i=1,2,…,n}),利用RANSC算法(隨機(jī)抽樣一致性算法)計(jì)算出每個(gè)超像素的三維運(yùn)動(dòng)矢量,代表這塊區(qū)域的運(yùn)動(dòng)方向與速度;2)按照式(8)、式(9)計(jì)算每個(gè)超像素塊運(yùn)動(dòng)矢量的局部對(duì)比度與全局對(duì)比度;3)按照式(10)融合局部對(duì)比度和全局對(duì)比度,得到每個(gè)區(qū)域的運(yùn)動(dòng)顯著性結(jié)果。

(8)

(9)

m_sal(i)=wl×m_contrastl(i)+wg×

m_contrastg(i)

(10)

其中,m_contrastl(i)和m_contrastg(i)分別表示區(qū)域Ri的局部運(yùn)動(dòng)對(duì)比度和全局運(yùn)動(dòng)對(duì)比度,Ni是區(qū)域Ri鄰域內(nèi)的區(qū)域,distm(i,j)和dists(i,j)分別是區(qū)域Ri與Rj之間的顏色距離和空間距離,wl和wg是兩者融合的權(quán)重,σ因子本文中取0.4。

采用局部對(duì)比度和全局對(duì)比度進(jìn)行融合的優(yōu)勢(shì)在于可以在兩個(gè)尺度上提取對(duì)比度明顯的區(qū)域。局部對(duì)比度可以有效地提取出局部鄰域內(nèi)運(yùn)動(dòng)信息與周?chē)鷧^(qū)域存在明顯對(duì)比的區(qū)域。但是局部對(duì)比度存在一個(gè)問(wèn)題:由于超像素分割會(huì)將同一目標(biāo)分割為多個(gè)區(qū)域,因此只計(jì)算局部對(duì)比度會(huì)導(dǎo)致目標(biāo)中間區(qū)域的對(duì)比度較低,產(chǎn)生“空洞”的現(xiàn)象;而加入全局對(duì)比度可以填補(bǔ)目標(biāo)中心區(qū)域的空洞,同時(shí)衡量出在全局尺度上對(duì)比度明顯的區(qū)域。運(yùn)動(dòng)顯著性檢測(cè)的結(jié)果如圖5(c)所示。

2.4 基于水平區(qū)域?qū)Ρ榷鹊纳疃蕊@著性算法

在真實(shí)三維場(chǎng)景下,深度信息是決定人類(lèi)視覺(jué)注意力的重要影響因素之一。文獻(xiàn)[12]中的研究發(fā)現(xiàn)人眼在觀察同樣內(nèi)容的2D圖像和3D圖像時(shí)注視點(diǎn)存在明顯的差異,另外一個(gè)直觀的事實(shí)就是人眼會(huì)更多地把視覺(jué)注意力集中到距離自己較近的目標(biāo)上,這些都說(shuō)明深度信息對(duì)于顯著性的判斷是至關(guān)重要的。

將深度信息融入到視覺(jué)注意力模型中有2點(diǎn)優(yōu)勢(shì):1)根據(jù)前景與背景區(qū)域所處深度平面的差別,可以解決前景與背景區(qū)域由于二維特征相似產(chǎn)生的混淆問(wèn)題;2)能夠幫助提取場(chǎng)景中的多個(gè)顯著性目標(biāo)。

將深度信息融合到視覺(jué)注意力模型中去,主要分為2種方法:1)利用深度信息直接對(duì)二維特征得到的顯著性結(jié)果進(jìn)行加權(quán)處理;2)單獨(dú)利用深度信息生成深度顯著性結(jié)果,再和二維特征的顯著性結(jié)果融合,這種方法更接近人類(lèi)視覺(jué)系統(tǒng)的處理機(jī)制。

另外一個(gè)研究的問(wèn)題是如何考慮深度信息,一些研究中[18]直接利用深度信息,認(rèn)為距離人眼越近的區(qū)域(深度越小)越能吸引人的視覺(jué)注意力,越遠(yuǎn)的區(qū)域則越不顯著;另外一些方法[19-20]考慮區(qū)域與鄰域內(nèi)其他區(qū)域的深度對(duì)比度信息,認(rèn)為深度對(duì)比度大的區(qū)域更為顯著。還有一些實(shí)驗(yàn)[21]表明當(dāng)目標(biāo)距離人眼過(guò)近時(shí),人眼會(huì)產(chǎn)生不適的現(xiàn)象,由于這種不適感人的視覺(jué)注意力都會(huì)集中到這些區(qū)域,此時(shí)深度信息對(duì)顯著性起到?jīng)Q定性的作用。本文綜合考慮以上的研究發(fā)現(xiàn),提出一種基于深度信息和深度對(duì)比度的深度顯著性算法,綜合考慮上面提到的3個(gè)因素。

首先同樣利用RANSC算法得到每個(gè)區(qū)域的深度信息;借鑒傳統(tǒng)視覺(jué)顯著性模型中的center-bias機(jī)制[19],利用高斯模型建立深度大小對(duì)顯著性的影響模型,具體關(guān)系如式(11)所示。

(11)

其中,d_coff(i)表示區(qū)域Ri的深度顯著性系數(shù),di表示區(qū)域Ri的深度,dmin是場(chǎng)景的最小深度,參數(shù)dr由場(chǎng)景的景深范圍和實(shí)驗(yàn)得到。

同時(shí)考慮深度對(duì)比度對(duì)視覺(jué)注意力的影響。以往的研究[14]在考慮深度對(duì)比度對(duì)顯著性的影響時(shí),效仿傳統(tǒng)的center-surround機(jī)制[8],計(jì)算每個(gè)區(qū)域相對(duì)于周?chē)徲騼?nèi)所有區(qū)域的深度對(duì)比度,比如利用一個(gè)DOG算子計(jì)算每個(gè)區(qū)域的局部對(duì)比度,這些算法都是應(yīng)用在一些較為簡(jiǎn)單的靜態(tài)場(chǎng)景下,背景區(qū)域基本都處在同一個(gè)深度平面上,而目標(biāo)物體處在另外一個(gè)深度平面上。設(shè)想在諸如街道、高速公路等室外復(fù)雜場(chǎng)景下,背景區(qū)域并不是都位于相同的深度平面上,往往深度從近及遠(yuǎn)變化范圍很大,尤其是在遠(yuǎn)處相鄰的背景區(qū)域間的深度差會(huì)很大,因此用這些傳統(tǒng)的方法會(huì)將背景區(qū)域誤檢為深度對(duì)比度很高的區(qū)域。為了在復(fù)雜的室外場(chǎng)景下有效地檢測(cè)出深度對(duì)比明顯的區(qū)域,本文提出一種基于水平區(qū)域內(nèi)深度相對(duì)對(duì)比度的計(jì)算方法。

通過(guò)對(duì)典型場(chǎng)景下(如圖4(a)左圖中的場(chǎng)景)不同區(qū)域所處深度平面的分析,有如下兩點(diǎn)發(fā)現(xiàn):

1)同一水平線上的背景區(qū)域基本都位于同一深度平面上,在這條水平線上如果出現(xiàn)了凸出的目標(biāo)物體,則深度會(huì)與背景區(qū)域存在明顯的對(duì)比。

2)考慮到如圖4(a)左圖所示的這些復(fù)雜場(chǎng)景中,場(chǎng)景兩側(cè)會(huì)出現(xiàn)如房屋、樹(shù)木等從近處向遠(yuǎn)處延伸的背景區(qū)域,導(dǎo)致在遠(yuǎn)處的背景區(qū)域深度與同一水平線上的鄰域也會(huì)存在較大的深度差。為了抑制這些遠(yuǎn)處的背景區(qū)域,在計(jì)算出每個(gè)區(qū)域相對(duì)于同一水平線上其他區(qū)域的深度對(duì)比度之后,用當(dāng)前區(qū)域的深度信息進(jìn)行歸一化處理,不僅可以達(dá)到抑制遠(yuǎn)處背景的效果,同時(shí)可以更好地突出水平線上深度凸出的區(qū)域。

綜合以上2點(diǎn)發(fā)現(xiàn),本文通過(guò)下面的方法計(jì)算每個(gè)區(qū)域的深度對(duì)比度:首先對(duì)場(chǎng)景的區(qū)域集合R進(jìn)行劃分,根據(jù)每個(gè)區(qū)域的水平位置(即區(qū)域中心的垂直坐標(biāo))將其劃分到不同的區(qū)域集合中去:R={Ni|i=1,2,…,m},Ni表示第i個(gè)橫向區(qū)域集合,總共劃分為m個(gè)橫向區(qū)域集合。劃分的準(zhǔn)則如式(12)所示。如果區(qū)域Ri中心的垂直坐標(biāo)pos_y[i]處于橫向區(qū)域集合Ni的垂直坐標(biāo)上界upper[i]和垂直坐標(biāo)下界lower[i]之間,就將其劃分到Ni中。

Ni={Ri|upper[i]

(12)

劃分結(jié)束后分別計(jì)算各個(gè)橫向區(qū)域集合中每個(gè)區(qū)域相對(duì)于該集合內(nèi)其他區(qū)域的深度相對(duì)對(duì)比度,計(jì)算方法如式(13)所示,Nh是區(qū)域Ri所處橫向區(qū)域的集合,d_contrast[i]即表示區(qū)域i的深度對(duì)比度。

(13)

最后考慮目標(biāo)太近時(shí)對(duì)人眼易產(chǎn)生不適這一因素,當(dāng)目標(biāo)的深度小于人眼觀測(cè)的舒適距離時(shí),該區(qū)域的顯著性是最高的。

綜合深度信息和深度對(duì)比度,按照式(14)得到最終的深度顯著性結(jié)果,式中τ是人眼觀測(cè)的舒適距離閾值。

(14)

2.5 多個(gè)顯著圖的動(dòng)態(tài)融合

心理學(xué)的研究[11]發(fā)現(xiàn),人類(lèi)視覺(jué)系統(tǒng)對(duì)于運(yùn)動(dòng)信息的感知相比于其他的視覺(jué)刺激信號(hào)更為敏感。因此在動(dòng)態(tài)的場(chǎng)景下,運(yùn)動(dòng)顯著性在顯著性的決策中占據(jù)主導(dǎo)的地位;而在靜態(tài)的場(chǎng)景下人眼則會(huì)更多地關(guān)注顏色和深度凸顯的區(qū)域?；谶@兩點(diǎn)本文根據(jù)場(chǎng)景的運(yùn)動(dòng)、顏色和深度顯著圖對(duì)比度來(lái)動(dòng)態(tài)調(diào)整3個(gè)顯著性結(jié)果的融合權(quán)重。

以運(yùn)動(dòng)顯著圖舉例,需要使用一個(gè)定量的參數(shù)去衡量這個(gè)場(chǎng)景下是否有運(yùn)動(dòng)顯著的目標(biāo)存在。根據(jù)2.3節(jié)得到的運(yùn)動(dòng)顯著圖,若該圖中各個(gè)區(qū)域的顯著值接近,意味著各個(gè)區(qū)域的運(yùn)動(dòng)對(duì)比度接近,場(chǎng)景中不存在明顯的運(yùn)動(dòng)目標(biāo),如果存在部分區(qū)域的顯著值明顯高于其他區(qū)域,則說(shuō)明場(chǎng)景中存在運(yùn)動(dòng)對(duì)比度很高的目標(biāo),此時(shí)通過(guò)一個(gè)運(yùn)動(dòng)對(duì)比度因子k_motion來(lái)表征運(yùn)動(dòng)顯著圖中是否存在顯著的運(yùn)動(dòng)目標(biāo),按照式(15)可以得到k_motion因子。

(15)

其中,salmax、salavg、salmin分別是運(yùn)動(dòng)顯著圖中的最大值、均值和最小值,k_motion因子越大,表示該場(chǎng)景中存在運(yùn)動(dòng)顯著目標(biāo)的可能性越大。

同樣的方法可以得到顏色顯著圖和深度顯著圖中的對(duì)比度因子k_color和k_depth,利用這3個(gè)對(duì)比度因子根據(jù)式(16)～式(18)動(dòng)態(tài)調(diào)整3個(gè)顯著圖的融合權(quán)重,sigma為實(shí)驗(yàn)確定的參數(shù),本文中取0.3。

(16)

(17)

(18)

最后根據(jù)式(19)將3個(gè)顯著圖融合得到最終的顯著性結(jié)果,m_sal、d_sal、c_sal分別是運(yùn)動(dòng)顯著圖、深度顯著圖和顏色顯著圖。

sal=wm×m_sal+wd×d_sal+wc×c_sal

(19)

因?yàn)檫\(yùn)動(dòng)信息相比于其他視覺(jué)刺激的重要性更高,所以當(dāng)k_motion較大時(shí),運(yùn)動(dòng)顯著圖的權(quán)重wm較大,顏色顯著圖和深度顯著圖兩者之間再根據(jù)k_color和k_depth動(dòng)態(tài)地調(diào)整。各特征下的顯著圖及融合結(jié)果如圖6所示。本文中顏色顯著性的計(jì)算使用文獻(xiàn)[22]中的方法,從圖6(a)可以看到復(fù)雜的場(chǎng)景下顏色顯著性結(jié)果非常雜亂,因此在融合時(shí)的權(quán)重wc很低,這種情況下顏色顯著性的結(jié)果是不可信的,融合的權(quán)重置為0,場(chǎng)景的顯著性結(jié)果由運(yùn)動(dòng)和深度信息所決定。由圖6(e)可以看到融合后的結(jié)果可以同時(shí)突出運(yùn)動(dòng)顯著和深度顯著的區(qū)域。

圖6 各特征下的顯著圖及融合結(jié)果

3 三維動(dòng)態(tài)場(chǎng)景下的顯著性數(shù)據(jù)集

傳統(tǒng)的顯著性評(píng)價(jià)數(shù)據(jù)集諸如MSRA10K、ECSSD[23]、JuddDB[24]等都是針對(duì)二維并且靜態(tài)場(chǎng)景下的顯著性數(shù)據(jù)集,另外一些數(shù)據(jù)集如NUS-3DSaliency[12]是針對(duì)三維場(chǎng)景下的顯著性數(shù)據(jù)集,但是局限于靜態(tài)場(chǎng)景下的研究。現(xiàn)有的數(shù)據(jù)集都無(wú)法評(píng)價(jià)本文研究的三維動(dòng)態(tài)場(chǎng)景下的顯著性算法。

針對(duì)數(shù)據(jù)集的稀缺問(wèn)題,本文依據(jù)KITTI數(shù)據(jù)集收集到的雙目圖像數(shù)據(jù),對(duì)經(jīng)過(guò)校正后的左右相機(jī)圖片進(jìn)行處理,將其水平方向的圖像分辨率壓縮至原來(lái)的一半,并左右對(duì)齊拼接在一起,形成左右并排的立體圖像。從數(shù)據(jù)集中選取出64個(gè)不同的動(dòng)態(tài)場(chǎng),包含了KITTI數(shù)據(jù)集中城市、住宅區(qū)、道路等多個(gè)種類(lèi)場(chǎng)景下的不同圖像數(shù)據(jù)。選取每個(gè)場(chǎng)景下的前后6幀圖像,采用3.0 frame/s的幀率獲取這個(gè)場(chǎng)景下的視頻數(shù)據(jù)。實(shí)驗(yàn)過(guò)程中邀請(qǐng)5位同事對(duì)這64個(gè)場(chǎng)景下的視頻數(shù)據(jù)進(jìn)行場(chǎng)景的顯著性標(biāo)注。首先在SONY 3D電視上播放3D視頻,讓實(shí)驗(yàn)的參與者站在距離電視1 m的位置上,頭部對(duì)準(zhǔn)電視的中心,利用被動(dòng)式3D眼鏡觀看每個(gè)場(chǎng)景,然后標(biāo)注出他們認(rèn)為的場(chǎng)景中的顯著性區(qū)域(也就是選出視頻播放過(guò)程中視線的落點(diǎn)區(qū)域)。在采集數(shù)據(jù)時(shí)力求觀察者不要對(duì)場(chǎng)景進(jìn)行內(nèi)容上的理解,簡(jiǎn)單地從視覺(jué)刺激層次上選取顯著的目標(biāo)區(qū)域,因此每一個(gè)場(chǎng)景在觀察者實(shí)驗(yàn)時(shí)只播放一遍(2 s左右),同時(shí)觀察者在標(biāo)注顯著性區(qū)域時(shí)可以選取任意多個(gè)顯著區(qū)域,也可以選擇在某些場(chǎng)景下不標(biāo)注任何的顯著性區(qū)域;可以標(biāo)注出完整的顯著性目標(biāo),也可以只標(biāo)注某個(gè)物體的一部分作為顯著的區(qū)域。

根據(jù)相機(jī)運(yùn)動(dòng)情況和場(chǎng)景中是否存在運(yùn)動(dòng)目標(biāo)可以將這些場(chǎng)景分為4類(lèi):1)相機(jī)運(yùn)動(dòng)并且場(chǎng)景中至少存在一個(gè)運(yùn)動(dòng)目標(biāo)的場(chǎng)景;2)相機(jī)運(yùn)動(dòng)但是場(chǎng)景中不存在運(yùn)動(dòng)目標(biāo)的場(chǎng)景;3)相機(jī)靜止并且場(chǎng)景中至少存在一個(gè)運(yùn)動(dòng)目標(biāo)的場(chǎng)景;4)相機(jī)靜止并且場(chǎng)景中無(wú)運(yùn)動(dòng)目標(biāo)的場(chǎng)景。

在實(shí)驗(yàn)過(guò)程中,通過(guò)對(duì)實(shí)驗(yàn)參與者標(biāo)注的顯著性區(qū)域的分析,有如下發(fā)現(xiàn):1)在包含運(yùn)動(dòng)目標(biāo)的場(chǎng)景下,參與者標(biāo)注的顯著性區(qū)域基本都集中在運(yùn)動(dòng)區(qū)域上,說(shuō)明在動(dòng)態(tài)的場(chǎng)景下,運(yùn)動(dòng)確實(shí)是顯著性的決定性因素;2)在不存在運(yùn)動(dòng)目標(biāo)的場(chǎng)景下,觀察者標(biāo)注的顯著性區(qū)域更多集中在顏色或者亮度對(duì)比度強(qiáng)的地方;3)距離觀察者很近的目標(biāo),即使處于靜止的狀態(tài)也會(huì)被標(biāo)注為顯著性區(qū)域;4)當(dāng)?shù)缆愤吘壔蛘咭曇拜^中間的位置出現(xiàn)行人時(shí),這些區(qū)域往往是顯著的。第2)點(diǎn)的發(fā)現(xiàn)驗(yàn)證了在靜態(tài)的場(chǎng)景下,顏色等特征確實(shí)是決定顯著性的因素之一,第1)點(diǎn)和第3)點(diǎn)發(fā)現(xiàn)則驗(yàn)證了深度和運(yùn)動(dòng)信息在三維動(dòng)態(tài)場(chǎng)景下很大程度上決定著顯著性,而第4)點(diǎn)的發(fā)現(xiàn)與場(chǎng)景的高層特征有關(guān),這一點(diǎn)不在本文的討論范疇之內(nèi)。

根據(jù)實(shí)驗(yàn)參與者標(biāo)注的顯著性數(shù)據(jù),選擇顯著性區(qū)域標(biāo)注較為一致的場(chǎng)景,利用圖像處理軟件NI Visual Assistant獲取得到各個(gè)場(chǎng)景下的顯著性Ground Truth數(shù)據(jù)。

4 實(shí)驗(yàn)結(jié)果與算法評(píng)價(jià)

利用上文得到的數(shù)據(jù)集對(duì)本文算法(下面用MDC表示)進(jìn)行驗(yàn)證,同時(shí)與HC[22]、RC[22]、GMR[25]這3種算法進(jìn)行對(duì)比,這3個(gè)算法對(duì)于靜態(tài)單目場(chǎng)景下的顯著性檢測(cè)均可以取得較好的效果。各個(gè)算法的顯著性結(jié)果如圖7所示。

圖7 各算法的顯著性結(jié)果

為了對(duì)不同算法的性能進(jìn)行定量評(píng)價(jià),本文對(duì)不同場(chǎng)景下的準(zhǔn)確率、召回率、真正率、假正率進(jìn)行計(jì)算并獲取平均值,繪制出不同算法的準(zhǔn)確率-召回率曲線與ROC曲線,同時(shí)計(jì)算出不同算法的F-measure值與AUC值來(lái)對(duì)算法的整體性能進(jìn)行直觀的對(duì)比。各項(xiàng)性能指標(biāo)的結(jié)果如圖8所示。

圖8 不同算法的定量評(píng)價(jià)

準(zhǔn)確率-召回率曲線越接近右上角(1,1)點(diǎn),表示算法的性能越好;ROC曲線越接近左上角(0,1)點(diǎn),表示算法的性能越好;F-measure值按式(20)計(jì)算,本文β2=0.3,F-measure值越高表示算法表現(xiàn)越好,MeanF-measure是所有閾值下F-measure的平均值,MaxF-measure是所有F-measure的最大值,AUC值是ROC曲線下方與水平坐標(biāo)軸之間的面積,AUC值越大表示算法性能越好。

(20)

從圖7的可視化結(jié)果以及圖8的各項(xiàng)評(píng)價(jià)指標(biāo)均可以發(fā)現(xiàn),圖7(b)～圖7(d)這3種基于二維圖像特征的顯著性算法的結(jié)果都存在明顯的問(wèn)題。本實(shí)驗(yàn)進(jìn)行對(duì)比的目的僅在于說(shuō)明傳統(tǒng)的顯著性算法不適用于較為復(fù)雜的真實(shí)三維場(chǎng)景下的顯著性決策。這些算法在靜態(tài)單目的簡(jiǎn)單場(chǎng)景下可以達(dá)到很好的顯著性檢測(cè)效果,但是它們只考慮了場(chǎng)景中靜態(tài)圖像的顏色、紋理等二維信息,因此應(yīng)用場(chǎng)景十分有限。人類(lèi)視覺(jué)系統(tǒng)的顯著性決策是在真實(shí)三維場(chǎng)景下進(jìn)行的,所以只考慮二維圖像平面上的顯著性顯然不符合人眼的視覺(jué)注意力機(jī)制。從圖7的可視化結(jié)果中可以看到,本文提出的融合深度和運(yùn)動(dòng)信息的顯著性算法更接近數(shù)據(jù)集的ground truth信息,而圖8中的各評(píng)價(jià)指標(biāo)也驗(yàn)證了本文算法相對(duì)于其他3種算法具有明顯的優(yōu)勢(shì)。

5 結(jié)束語(yǔ)

在真實(shí)三維場(chǎng)景下,運(yùn)動(dòng)、深度、顏色等信息都是決定視覺(jué)顯著性的重要因素。本文針對(duì)傳統(tǒng)視覺(jué)顯著性領(lǐng)域研究的局限性,提出了一個(gè)融合場(chǎng)景運(yùn)動(dòng)、深度信息的三維視覺(jué)顯著性算法,適用于三維動(dòng)態(tài)場(chǎng)景下的顯著性目標(biāo)檢測(cè),更貼合人眼的視覺(jué)注意力機(jī)制。同時(shí)針對(duì)該領(lǐng)域的數(shù)據(jù)集稀缺問(wèn)題,提出一個(gè)三維動(dòng)態(tài)場(chǎng)景下的顯著性評(píng)價(jià)數(shù)據(jù)集,并通過(guò)本文算法與傳統(tǒng)算法在此數(shù)據(jù)集上的結(jié)果對(duì)比,驗(yàn)證了本文算法的優(yōu)越性。

本文從場(chǎng)景的底層特征信息出發(fā),考慮在視覺(jué)刺激層次上的顯著性區(qū)域,然而人類(lèi)視覺(jué)系統(tǒng)的注意力機(jī)制同時(shí)受到高層特征[26]的影響,比如場(chǎng)景的上下文語(yǔ)義、觀察者觀察場(chǎng)景時(shí)的目的性等。下一步的研究方向就是研究高層特征與視覺(jué)顯著性之間的關(guān)聯(lián),并將其與本文給出的底層特征模型融合,得到一個(gè)更加貼近于人眼視覺(jué)注意力機(jī)制的計(jì)算模型。

[1] DONOSER M,URSCHLER M,HIRZER M,et al.Saliency Driven Total Variation Segmentation[C]//Proceedings of the 12th IEEE International Conference on Computer Vision.Washington D.C.,USA:IEEE Press,2009:817-824.

[2] GUO Chenlei,ZHANG Liming.A Novel Multiresolution Spatiotemporal Saliency Detection Model and Its Applications in Image and Video Compression[J].IEEE Transactions on Image Processing,2010,19(1):185-198.

[3] SHEN Hao,LI Shuxiao,ZHU Chengfei,et al.Moving Object Detection in Aerial Video Based on Spatiotemporal Saliency[J].Chinese Journal of Aeronautics(English Edition),2013,26(5):1211-1217.

[4] REN Zhixiang,GAO Shenghua,CHIA L T,et al.Region-based Saliency Detection and Its Application in Object Recognition[J].IEEE Transactions on Circuits & Systems for Video Technology,2014,24(5):769-779.

[5] 李正周,李文艷,譚菊,等.基于空時(shí)顯著性感知的運(yùn)動(dòng)目標(biāo)檢測(cè)方法[J].計(jì)算機(jī)應(yīng)用研究,2010,27(6):2391-2393.

[6] LIU H,HEYNDERICKX I.Studying the Added Value of Visual Attention in Objective Image Quality Metrics Based on Eye Movement Data[C]//Proceedings of IEEE International Conference on Image Processing.Washington D.C.,USA:IEEE Press,2009:3097-3100.

[7] 馮欣.基于視覺(jué)顯著性的網(wǎng)絡(luò)丟包圖像和視頻的客觀質(zhì)量評(píng)估方法研究[D].重慶:重慶大學(xué),2011.

[8] ITTI L,KOCH C,NIEBUR E.A Model of Saliency-based Visual Attention for Rapid Scene Analysis[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,1998,20(11):1254-1259.

[9] TREISMAN A M,GELADE G.A Feature-integration Theory of Attention[J].Cognitive Psychology,1980,12(1):97-136.

[10] KOCH C,ULLMAN S.Shifts in Selective Visual Attention:Towards the Underlying Neural Circuitry[J].Human Neurobiology,1985,4(4):219-227.

[11] ZHAI Yun,SHAH M.Visual Attention Detection in Video Sequences Using Spatiotemporal Cues[C]//Proceedings of ACM International Conference on Multimedia.New York,USA:ACM Press,2006:478-482.

[12] LANG Congyan,NGUYEN T V,KATTI H,et al.Depth Matters:Influence of Depth Cues on Visual Saliency[C]//Proceedings of the 12th European Conference on Computer Vision.Berlin,Germany:Springer,2012:101-115.

[13] 曾志宏,李建洋,鄭漢垣.融合深度信息的視覺(jué)注意計(jì)算模型[J].計(jì)算機(jī)工程,2010,36(20):200-202.

[14] WANG Junle,DASILVA M P,LECALLET P,et al.Computational Model of Stereoscopic 3D Visual Saliency[J].IEEE Transactions on Image Processing,2013,22(6):2151-2165.

[15] MENZE M,GEIGER A.Object Scene Flow for Autonomous Vehicles[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C.,USA:IEEE Press,2015:3061-3070.

[16] WANG Zhihu,XIONG Jiulong,ZHANG Qi.Motion Saliency Detection Based on Temporal Difference[J].Journal of Electronic Imaging,2015,24(3).

[17] 萬(wàn)盼盼,張軼.一種改進(jìn)的基于背景差分的運(yùn)動(dòng)目標(biāo)檢測(cè)方法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2015,25(2):38-41.

[18] GAO Shanshan,CHI Jing,LI Li,et al.Saliency Detection Based on Superpixels Clustering and Stereo Disparity[J].Applied Mathematics Journal of Chinese Universities,2016,31(1):68-80.

[19] WANG Junle,FANG Yuming,NARWARIA M,et al.Stereoscopic Image Retargeting Based on 3D Saliency Detection[C]//Proceedings of IEEE International Conference on Acoustics,Speech and Signal Processing.Washington D.C.,USA:IEEE Press,2014:669-673.

[20] JIANG Lixing,KOCH A,ZELL A.Salient Regions Detection for Indoor Robots Using RGB-D Data[C]// Proceedings of IEEE International Conference on Robotics and Automation.Washington D.C.,USA:IEEE Press,2015:1323-1328.

[21] JIANG Qiuping,SHAO Feng,JIANG Gangyi,et al.A Depth Perception and Visual Comfort Guided Computational Model for Stereoscopic 3D Visual Saliency[J].Signal Processing Image Communication,2015,38(3):57-69.

[22] CHENG Mingming,MITRA N J,HUANG Xiaolei,et al.Global Contrast Based Salient Region Detection[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2011,37(3):409-416.

[23] YAN Qiong,XU Li,SHI Jianping,et al.Hierarchical Saliency Detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C.,USA:IEEE Press,2013:1155-1162.

[24] BORJI A.What Is a Salient Object? A Dataset and a Baseline Model for Salient Object Detection[J].IEEE Transactions on Image Processing,2014,24(2):742-756.

[25] YANG Chuan,ZHANG Lihe,LU Huchuan,et al.Saliency Detection via Graph-based Manifold Ranking[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C.,USA:IEEE Press,2013:3166-3173.

[26] HUANG Xun,SHEN Chengyao,BOIX X,et al.SALICON:Reducing the Semantic Gap in Saliency Prediction by Adapting Deep Neural Networks[C]//Proceedings of IEEE International Conference on Computer Vision and Pattern Recognition.Washington D.C.,USA:IEEE Press,2015:262-270.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放