柳 林,張兆豐,吳澤民,張 磊
(1. 中國(guó)船舶重工集團(tuán)公司第七二二研究所,湖北 武漢 430205;2.中國(guó)人民解放軍理工大學(xué) 通信工程學(xué)院,江蘇 南京 210007)
?
空時(shí)一致的視頻顯著性檢測(cè)
柳 林1,張兆豐2,吳澤民2,張 磊2
(1. 中國(guó)船舶重工集團(tuán)公司第七二二研究所,湖北 武漢 430205;2.中國(guó)人民解放軍理工大學(xué) 通信工程學(xué)院,江蘇 南京 210007)
針對(duì)現(xiàn)有視頻檢測(cè)算法在空間和時(shí)間顯著度上一致性不足,提出了空時(shí)一致性模型。首先構(gòu)造梯度流場(chǎng),整合空間上的顏色對(duì)比度與時(shí)間上的目標(biāo)運(yùn)動(dòng)信息。而后基于空時(shí)梯度流場(chǎng)構(gòu)造全局對(duì)比度,綜合局部對(duì)比度和全局對(duì)比度,得到初始檢測(cè)結(jié)果。最后通過(guò)馬爾可夫隨機(jī)場(chǎng),對(duì)其進(jìn)行空時(shí)一致性優(yōu)化,得到最終顯著圖。在3個(gè)公開(kāi)數(shù)據(jù)集上的大量實(shí)驗(yàn)表明,所提算法檢測(cè)性能較好,并且具有較強(qiáng)的魯棒性。
視頻顯著性;空時(shí)梯度流場(chǎng);馬爾可夫隨機(jī)場(chǎng);空時(shí)一致性
近年來(lái),越來(lái)越多的學(xué)者對(duì)人類視覺(jué)注意機(jī)制進(jìn)行了深入研究,在生物學(xué)、心理學(xué)和計(jì)算機(jī)視覺(jué)等眾多領(lǐng)域取得了突破性進(jìn)展。
目前針對(duì)圖像顯著性檢測(cè)研究已經(jīng)比較深入,相對(duì)于圖像,視頻的顯著性檢測(cè)難度大,性能上還有很大提高空間。造成這一現(xiàn)象的主要原因是視頻顯著性檢測(cè)不僅包含空間顯著性,還要對(duì)復(fù)雜的運(yùn)動(dòng)特征,也就是時(shí)間顯著性進(jìn)行處理?,F(xiàn)有的視頻顯著性檢測(cè)算法缺乏對(duì)視頻顯著目標(biāo)空時(shí)一致性的估計(jì)。
針對(duì)這一問(wèn)題,本文首先參考文獻(xiàn)[1]對(duì)不同的視覺(jué)特征進(jìn)行預(yù)處理,并利用梯度流場(chǎng)整合目標(biāo)空間信息和目標(biāo)運(yùn)動(dòng)構(gòu)造全局對(duì)比度,綜合局部對(duì)比度和全局對(duì)比度,得到初始顯著檢測(cè)結(jié)果。而后為了更好地解決視頻顯著性空時(shí)一致性的問(wèn)題,本文利用馬爾可夫隨機(jī)場(chǎng)(Markov Random Field,MRF)[2],將時(shí)間一致性、觀測(cè)一致性以及空間緊致性結(jié)合在一起,得到最后的優(yōu)化視頻顯著性檢測(cè)結(jié)果。最后在3個(gè)公開(kāi)測(cè)試數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文提出的空時(shí)一致的視頻顯著性檢測(cè)模型具有較好的性能,優(yōu)于目前主流算法。
1.1 空時(shí)梯度
在圖像顯著性檢測(cè)中[3],通常采用顏色對(duì)比度衡量局部區(qū)域性差異。類似的,對(duì)于一段給定的視頻序列I={I1,I2,…},首先對(duì)每一幀進(jìn)行超像素分割預(yù)處理。這里選取簡(jiǎn)單線性迭代聚類進(jìn)行超像素分割,分割后的視頻幀保留明顯的目標(biāo)邊緣、輪廓等原有的結(jié)構(gòu)化信息。本文將空間上的結(jié)構(gòu)信息和時(shí)間上的運(yùn)動(dòng)信息整合到顯著性檢測(cè)框架中,利用顏色梯度和光流梯度進(jìn)行視頻顯著區(qū)域檢測(cè)。
(1)
(2)
為了突出運(yùn)動(dòng)信息對(duì)視頻顯著性的作用,構(gòu)造負(fù)指數(shù)函數(shù)表示光流梯度對(duì)空時(shí)梯度場(chǎng)Gk的影響:
(3)
(4)
因此坐標(biāo)位于(x,y)的超像素p的梯度流Ff(x,y)可以表示為:
(5)
至此,可以通過(guò)超像素p的梯度與鄰接梯度流構(gòu)造其梯度流場(chǎng):
A(p)=G(p)+min(Ff(x,y))
(6)
1.2 局部顯著性與全局顯著性
對(duì)比度在顯著性檢測(cè)中是一種常用的要素,很多現(xiàn)有的模型都利用局部區(qū)域與周圍的對(duì)比度進(jìn)行顯著性檢測(cè)。
(7)
其中,pi和pj代表劃分后的超像素;R為對(duì)pi產(chǎn)生影響的局部超像素集合;dc(pi,pj)代表超像素pi和pj在顏色空間上的距離;ω(pi,pj)=exp{-dc(pi,pj)/σ2},表示超像素pi和pj的距離權(quán)重,其中σ為權(quán)重控制參數(shù)。
局部對(duì)比度通過(guò)計(jì)算某一區(qū)域與周圍背景區(qū)域的平均距離來(lái)衡量局部顯著性。為了更加全面、準(zhǔn)確地計(jì)算顯著性,本文綜合考慮顏色空間距離與梯度距離,提出了全局對(duì)比度來(lái)衡量全局顯著性。超像素p的全局顯著性表示為:
s.t.p′∈B
(8)
其中,ri和ri+1為相鄰超像素,A(ri)和A(ri+1)分別是ri和ri+1的梯度流場(chǎng)。顯然,如果超像素p位于顯著目標(biāo)以外,很可能存在于背景相對(duì)更短的路徑中,而在這條路徑上的超像素在顏色空間和梯度上與背景對(duì)比度相差很小。反之,如果超像素p在顯著目標(biāo)內(nèi)部,與背景有較大差別,Cg(p)也會(huì)隨之增大。
為了綜合局部顯著性和全局顯著性,把Cl和Cg歸一化到[0,1]內(nèi),則超像素p的顯著性可以表示為:
S(p)=min{Cl(p),Cg(p)}
(9)
(10)
(11)
其中,Ωk代表第k個(gè)視頻幀所有可能的標(biāo)簽集合;E(ψ;L1…k-1,O1…k)、E(ψ;O1…k)以及E(ψ)均為能量函數(shù),分別代表同一位置的超像素在相鄰幀之間標(biāo)簽的時(shí)間一致性、標(biāo)簽與觀測(cè)特征之間的一致性和空間緊致性;Tt、To以及Tc都是常數(shù)。
2.1 時(shí)間一致性
對(duì)于相鄰的視頻幀,同一區(qū)域的顯著性應(yīng)該相對(duì)一致。對(duì)于第k個(gè)視頻幀的超像素p,Np表示其臨近幀的所有相鄰超像素q的集合。時(shí)間一致性可以進(jìn)一步表示為:
(12)
其中,Ek(p)表示在Np范圍內(nèi),對(duì)時(shí)間不一致標(biāo)簽(例如,Lk(p)≠Lk-1(q))的懲罰函數(shù)。
超像素q的顯著標(biāo)簽L(q)觀測(cè)特征服從伯努利分布P(L(q))=O(q)L(q)(1-O(q))1-L(q),因此超像素q受到超像素p約束的概率為:
b(p,q)=O(q)ψ(q)(1-O(q))1-ψ(q)
(13)
因此超像素p與q之間的一致性可以表示為:
(14)
其中,A(·)表示利用式(6)得到的超像素的梯度流場(chǎng)。至此,參照文獻(xiàn)[2],給出時(shí)間一致性能量函數(shù):
(15)
2.2 觀測(cè)一致性
與時(shí)間一致性類似,本文用能量函數(shù)E(ψ;O1…k)衡量標(biāo)簽與觀測(cè)特征之間的一致性:
(16)
2.3 緊致性
一般來(lái)說(shuō),如果某一超像素的臨近超像素都是顯著的,那么該超像素的顯著性應(yīng)該增加。這種與空間緊致性的能量函數(shù)定義為:
(17)
(18)
其中,Φ(p)表示與超像素p臨近的超像素的顯著性,p+和p×分別表示p的一階相鄰和二階相鄰。
3.1 實(shí)驗(yàn)設(shè)置
測(cè)試數(shù)據(jù)集:本文在NTT 、SegTrack 和VideoSal 3個(gè)公開(kāi)數(shù)據(jù)集對(duì)所提出的算法進(jìn)行測(cè)試。
對(duì)比算法:本文選用近年來(lái)主流的視頻顯著性檢測(cè)算法,包括:GD[5]、GF[1]、SP[6]以及RW[7],與本文所提算法進(jìn)行橫向比較。
評(píng)價(jià)指標(biāo):為了更加全面地衡量本文提出算法的檢測(cè)性能,通過(guò)P-R(Precision-Recall,準(zhǔn)確度-召回率)曲線、F-measure、ROC(Receiver Operating Characteristics,接收者操作特性)曲線、AUC(Area Under ROC Curve,ROC曲線下面積)和MAE(Mean Absolute Error,平均絕對(duì)誤差)對(duì)所有算法進(jìn)行評(píng)價(jià)。
本文所有試驗(yàn)都是在MATLAB平臺(tái)上實(shí)現(xiàn)的,所應(yīng)用的計(jì)算機(jī)配置為Intel E5-2620,CPU 2 GHz,96 GB RAM。
3.2 與其他經(jīng)典算法的比較
圖2 不同算法的P-R曲線
圖3 不同算法的F-measure值
如圖1所示,本文在NTT、SegTrack以及VideoSal 3個(gè)公開(kāi)數(shù)據(jù)集上,對(duì)包括本文所提算法在內(nèi)的5種視頻顯著性檢測(cè)算法進(jìn)行對(duì)比,每個(gè)測(cè)試視頻選取兩個(gè)視頻幀,給出了部分示例圖。
圖1 3個(gè)數(shù)據(jù)集上不同算法顯著性檢測(cè)示例圖
對(duì)比之下,本文所提算法魯棒性較強(qiáng),綜合考慮空時(shí)梯度流場(chǎng)與空時(shí)一致性優(yōu)化,增強(qiáng)了檢測(cè)結(jié)果的空時(shí)一致性,對(duì)于復(fù)雜環(huán)境、目標(biāo)與背景對(duì)比度較小、攝像頭運(yùn)動(dòng)等多種場(chǎng)景,都有較為理想的檢測(cè)結(jié)果。
為了更加客觀地展現(xiàn)算法的性能,本文首先利用P-R曲線對(duì)所有算法進(jìn)行評(píng)價(jià)。如圖2所示,在3個(gè)數(shù)據(jù)集上測(cè)試的結(jié)果顯示,本文所提算法與其他算法相比,檢測(cè)結(jié)果表現(xiàn)較好。
通常準(zhǔn)確度和召回率難以同時(shí)保證,為了綜合評(píng)價(jià)顯著圖的質(zhì)量,采用F-measure曲線進(jìn)一步對(duì)所有算法進(jìn)行評(píng)價(jià)。其實(shí)質(zhì)是準(zhǔn)確度和召回率的調(diào)和平均。如圖3所示。
由圖3給出的本文算法與其他算法的F-measure值比較,可以看出本文算法整體上優(yōu)于其他算法。
為了進(jìn)一步對(duì)所有算法進(jìn)行比較,本文還分別計(jì)算了不同算法的ROC曲線。如圖4所示,ROC曲線可以很好地反映不同算法的正確率和誤警率。
為了更加直觀地反映不同算法的性能,本文利用AUC在一維空間上量化ROC曲線,其值在[0,1]范圍以內(nèi),越大代表性能越好。如圖5所示,本文所提算法在3個(gè)數(shù)據(jù)集上檢測(cè)性能較好。
最后,用MAE來(lái)衡量顯著圖與真值之間的相似程度,其值在[0,1]區(qū)間內(nèi),越小代表性能越好。如圖6所示給出了所有算法的MAE值。反映出本文所提算法在不同數(shù)據(jù)集上都與真值更加接近。
圖4 不同算法的ROC曲線
圖5 不同算法的AUC值
圖6 不同算法的MAE值
從上述評(píng)價(jià)指標(biāo)的結(jié)果來(lái)看,本文所提算法與近年來(lái)主流算法相比,性能有所提升,而且在不同數(shù)據(jù)集上均有相對(duì)較好的表現(xiàn)。
本文綜合考慮視頻空間上的結(jié)構(gòu)信息與時(shí)間上的目標(biāo)運(yùn)動(dòng)信息,構(gòu)造空時(shí)梯度流場(chǎng),并利用馬爾可夫隨機(jī)場(chǎng)進(jìn)行空時(shí)一致性優(yōu)化,有效地解決了目前算法對(duì)于視頻顯著度的空時(shí)一致性估計(jì)不足的問(wèn)題。大量實(shí)驗(yàn)說(shuō)明本文模型能夠取得更好的檢測(cè)結(jié)果,有較強(qiáng)的魯棒性。
[1] WANG W, SHEN J, SHAO L. Consistent video saliency using local gradient flow optimization and global refinement[J]. IEEE Transactions on Image Processing, 2015, 24(10): 1-12.
[2] KHATOONABADI S H, VASCONCELOS N, BAJIC I V, et al. How many bits does it take for a stimulus to be salient[C]. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Boston, USA, 2015: 5501-5510.
[3] 劉杰, 王生進(jìn). 融合聚類與排序的圖像顯著區(qū)域檢測(cè)[J]. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版), 2016,56(9):913-919.
[4] BESAG J. Spatial interaction and the spatial analysis of lattice systems[J]. Journal of the Royal Statistical Society, 1974, 36:192-236.
[5] WANG W, SHEN J, PORIKLI F. Saliency-aware geodesic video object segmentation[C]. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Boston, USA, 2015: 3395-3402.
[6] LIU Z, ZHANG X, LUO S, et al. Superpixel-based spatiotemporal saliency detection[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2014, 24(9): 1522-1540.
[7] KIM H, KIM Y, SIM J, et al. Spatiotemporal saliency detection for video sequences based on random walk with restart[J]. IEEE Transactions on Image Processing, 2015, 24(8): 2552-2564.
Video saliency detection by spatiotemporal consistency
Liu Lin1, Zhang Zhaofeng2, Wu Zemin2, Zhang Lei2
(1. No.722 Research Institute, China Shipbuilding Industry Corporation, Wuhan 430205, China;2.College of Communications Engineering, PLA University of Science and Technology, Nanjing 210007, China)
To cope with the lack of consistency between spatial and temporal saliency in existing video saliency detection algorithms, we propose the spatiotemporal consistency method. First the gradient flow field is structured to integrate color contrast and motion information. Then we construct global contrast with spatiotemporal gradient flow field. Taking local and global contrast into account, we can get the initial detection results. The final saliency maps are obtained by the spatiotemporal consistency optimization based on Markov random field. Extensive experiments on three datasets show that the proposed model has better detection performance and has strong robustness.
video saliency; spatiotemporal gradient flow field; Markov random field; spatiotemporal consistency
TN919.85
A
10.19358/j.issn.1674- 7720.2017.13.013
柳林,張兆豐,吳澤民,等.空時(shí)一致的視頻顯著性檢測(cè)[J].微型機(jī)與應(yīng)用,2017,36(13):42-45.
2017-01-12)
柳林(1970-),男,學(xué)士,高級(jí)工程師,主要研究方向:軍事通信、數(shù)據(jù)分析處理。
張兆豐(1991-),通信作者,男,碩士,主要研究方向:顯著性檢測(cè)。E-mail:zhangzhaofeng5@163.com。
吳澤民(1973-),男,博士,副教授,主要研究方向:信息融合。