譚晶晶,殷海兵
(中國(guó)計(jì)量學(xué)院 信息工程學(xué)院,浙江 杭州 310018)
隨著視頻的廣泛應(yīng)用,人們對(duì)視頻質(zhì)量的要求越來(lái)越高.原始視頻經(jīng)過(guò)壓縮,傳輸,解碼以后會(huì)受到各種噪聲的影響,產(chǎn)生一定的失真.視頻的感知質(zhì)量與這些失真密切相關(guān).基于人眼視覺(jué)系統(tǒng)(HVS)的視頻感知質(zhì)量的評(píng)價(jià)是目前研究的重點(diǎn).在對(duì)人眼視覺(jué)系統(tǒng)的研究中,中心凹特性的應(yīng)用是視覺(jué)感知質(zhì)量研究的一部分.我們知道對(duì)圖片中心凹的研究中,在圖片的不同位置,人眼對(duì)其敏感性不同.在明亮條件下,中央2°的敏感性最高,而在中心5°的時(shí)候,敏感性相當(dāng)于2°下降了50%;超過(guò)中心5°,敏感性急劇下降[1].基于此,我們需要知道在視頻播放過(guò)程中,人眼的關(guān)注點(diǎn),確定了視頻幀中的關(guān)注點(diǎn),才能進(jìn)一步優(yōu)化最終的視覺(jué)感知質(zhì)量.
視頻中運(yùn)動(dòng)物體的軌跡一直是人們研究的興趣點(diǎn).在評(píng)價(jià)視頻序列時(shí),一般把每幀圖像分為感興趣區(qū)域和非感興趣區(qū)域.視頻中,運(yùn)動(dòng)物體區(qū)域更容易被人眼跟蹤.目前算法中存在很多基于物體運(yùn)動(dòng)特性的區(qū)域搜索[2-5].為了提取視頻中物體的運(yùn)動(dòng)區(qū)域,一般會(huì)從空域特征和運(yùn)動(dòng)物體的時(shí)域特性兩個(gè)方面進(jìn)行探索.
空域方面,人們會(huì)區(qū)分圖像的前景與背景,而運(yùn)動(dòng)的物體一般會(huì)作為視覺(jué)觀察的前景,它更能引起人們的興趣.
時(shí)域方面,通過(guò)建模得到視頻序列的時(shí)域?yàn)V波器處理空域信息,最終得到感興趣區(qū)域.視覺(jué)興趣性不僅與運(yùn)動(dòng)有關(guān),還與對(duì)比度、目標(biāo)物大小、顏色等有關(guān).在視頻質(zhì)量評(píng)價(jià)過(guò)程中,考慮到人眼的非對(duì)稱行為特性(也就是說(shuō)人眼更能記住不好的瞬間)[6],對(duì)于失真序列,播放時(shí)出現(xiàn)的失真大的區(qū)域同樣會(huì)受到人眼的關(guān)注.因此,本文將基于時(shí)域的感知失真查找感興趣區(qū)域.
考慮到人眼對(duì)運(yùn)動(dòng)和失真的興趣性,同時(shí)有效的評(píng)價(jià)視頻序列,需要對(duì)視頻的特性和視覺(jué)的興趣性進(jìn)行分析.
基于此,本文將從視覺(jué)特性和時(shí)域感知失真出發(fā),搜索人眼可能的感興趣區(qū)域.
視頻播放過(guò)程中,人眼總是追逐運(yùn)動(dòng)的物體,并關(guān)注突然出現(xiàn)的人眼無(wú)法忍受的失真.人眼關(guān)注視頻中某一點(diǎn)的持續(xù)時(shí)間大約為200~600ms[7],平均每秒鐘有2~4個(gè)興趣點(diǎn)[8].視覺(jué)興趣點(diǎn)的選擇一般是由人們經(jīng)驗(yàn)獲得,用于模擬人眼在觀測(cè)視頻時(shí)的眼球運(yùn)動(dòng)狀態(tài).
我們?cè)谖墨I(xiàn)[9]中采用全參考的視頻質(zhì)量評(píng)價(jià)方法,根據(jù)HVS特性分析LIVE數(shù)據(jù)庫(kù)中[10]的sf1_25fps.yuv序列,計(jì)算測(cè)試序列的時(shí)域感知失真.文獻(xiàn)[9]中,通過(guò)研究時(shí)域失真波動(dòng)對(duì)視頻質(zhì)量評(píng)價(jià)的影響,發(fā)現(xiàn)時(shí)域失真波動(dòng)比較大的地方同時(shí)也是運(yùn)動(dòng)存在的區(qū)域,如圖1.因此時(shí)域失真波動(dòng)程度在一定程度上可以反映出運(yùn)動(dòng)物體的區(qū)域.圖2中分析了bs2_25fps.yuv測(cè)試序列的失真圖像和其計(jì)算的時(shí)域失真圖,可以看出,在失真比較大的區(qū)域,其時(shí)域失真波動(dòng)也更明顯.基于此,本文的主要內(nèi)容是根據(jù)時(shí)域失真波動(dòng)值fltt和時(shí)域感知失真值θt搜索失真明顯或者存在容易引起人眼關(guān)注的運(yùn)動(dòng)物體.
考慮到紋理掩蔽效應(yīng)的影響,我們將紋理掩蔽效應(yīng)并入到時(shí)域感知失真中.因此,本文將分兩部分介紹感興趣區(qū)域搜索的主要內(nèi)容.
1)紋理掩蔽效應(yīng)
根據(jù)以往的研究發(fā)現(xiàn),人們對(duì)圖像中的邊緣信息比較敏感.因此在對(duì)圖像質(zhì)量和視頻的空域質(zhì)量研究時(shí),人們往往會(huì)把圖片內(nèi)容分為三個(gè)部分,即是邊緣、紋理、平坦區(qū)域.考慮到視覺(jué)感知的影響,紋理信息對(duì)圖片內(nèi)容的掩蔽效應(yīng)最好.
為了探索紋理掩蔽的影響,通過(guò)分析邊緣強(qiáng)度的分布,提取出每一像素點(diǎn)在視覺(jué)感知計(jì)算時(shí)的重要程度.
常見(jiàn)的邊緣檢測(cè)算子有Roberts,Prewitt,Log等,考慮到邊緣檢測(cè)的準(zhǔn)確度和算法的復(fù)雜度,本文計(jì)算邊緣強(qiáng)度信息時(shí)采用Sobel算子計(jì)算原始圖像的梯度場(chǎng),并計(jì)算每一像素點(diǎn)的幅度場(chǎng).Sobel算子的兩個(gè)卷積模板顯示如下:
計(jì)算時(shí),分別從水平方向和垂直方向?qū)υ紙D像進(jìn)行卷積得到每幀圖像的邊緣強(qiáng)度值:
At為原始幀數(shù)據(jù).邊緣強(qiáng)度值可以體現(xiàn)出每幀圖像每一像素點(diǎn)的邊緣信息強(qiáng)度值.由于紋理具有很強(qiáng)的掩蔽效應(yīng),因此通過(guò)判斷局部區(qū)域的邊緣變化強(qiáng)度值來(lái)判斷該區(qū)域的紋理變化強(qiáng)度.
本文考慮到局部區(qū)域的掩蔽作用,通過(guò)把每一幀圖像劃分為8×8塊大小的區(qū)域,計(jì)算每一區(qū)域的強(qiáng)度值的分布情況.通過(guò)計(jì)算每一8×8區(qū)域數(shù)據(jù)的標(biāo)準(zhǔn)差值表示紋理強(qiáng)度local_tt(m,n).圖3表示sf1_25fps.yuv序列第62幀的紋理強(qiáng)度值.原始圖為圖1中左圖.
圖3 sf2_25fps.yuv局部紋理強(qiáng)度圖Figure 3 Texture strength map of sf2_25fps.yuv
從圖3可以看出,蜜蜂右側(cè)是圖像中邊緣紋理比較復(fù)雜的區(qū)域,同時(shí)其左側(cè)的圖像區(qū)域紋理相對(duì)簡(jiǎn)單.由于紋理區(qū)域的掩蔽效應(yīng)相對(duì)于平坦區(qū)域的掩蔽效應(yīng)較強(qiáng),因此,考慮每一區(qū)域的數(shù)據(jù)特征根據(jù)公式(3)對(duì)局部紋理強(qiáng)度調(diào)整并歸一化到[0,1],表示每一像素點(diǎn)的掩蔽效應(yīng)的強(qiáng)弱.使其權(quán)值的分布更符合人眼的感知分布.
weight_texture表示掩蔽效應(yīng)權(quán)值,local_tt表示局部紋理強(qiáng)度值.圖4表示了計(jì)算得到的weight_texture值.
圖4 weight_texture顯示圖Figure 4 Map of weight_texture
根據(jù)文獻(xiàn)[7]得到的時(shí)域感知失真θt,調(diào)整后的時(shí)域感知失真值為:
t為幀序號(hào).
2)感興趣區(qū)域搜索
本文對(duì)感興趣區(qū)域搜索主要是基于紋理掩蔽調(diào)整后的時(shí)域感知失真θ′t和時(shí)域失真波動(dòng)fltt.
在計(jì)算時(shí)域失真波動(dòng)時(shí),我們考慮到當(dāng)前計(jì)算幀和其前后各10幀的關(guān)系.通過(guò)基于預(yù)測(cè)運(yùn)動(dòng)矢量的全搜索運(yùn)動(dòng)估計(jì)的算法得到前后各10幀的運(yùn)動(dòng)矢量.根據(jù)每一幀的運(yùn)動(dòng)矢量得到每一幀對(duì)應(yīng)的運(yùn)動(dòng)補(bǔ)償圖像.在20幀范圍內(nèi),變化比較大的區(qū)域,我們認(rèn)為是運(yùn)動(dòng)物體區(qū)域和失真較大的區(qū)域.時(shí)域感知失真的計(jì)算考慮到時(shí)域失真波動(dòng)和視覺(jué)暫留等效應(yīng)對(duì)感知失真的影響,也可以從一定程度上反映出時(shí)域分布上的失真較大的區(qū)域.因此在搜索感興趣區(qū)域時(shí),本文將這兩個(gè)因素作為搜索的主要因子.
本次算法將對(duì)每幀圖像進(jìn)行自適應(yīng)搜索.搜索結(jié)構(gòu)描述如圖5.
從圖1和圖2中可以看出,運(yùn)動(dòng)部分和失真大的部分,其時(shí)域失真的波動(dòng)值都是比較強(qiáng).但是失真波動(dòng)較大區(qū)域不僅局限于運(yùn)動(dòng)區(qū)域或者人眼不能忍受的較大失真的區(qū)域.本算法初步設(shè)定閾值,提取出圖片幀中fltt(x,y)>ε1的像素點(diǎn),將其標(biāo)定為1,得到標(biāo)定區(qū)域Ω1.同時(shí)考慮到圖片幀每一像素點(diǎn)的時(shí)域感知失真值,同樣找出θ′t(x,y)>ε2的像素點(diǎn),標(biāo)定為1,得到標(biāo)定區(qū)域Ω2.確定初始標(biāo)定圖Ω=Ω1∪Ω2如圖6(b).圖6(b)中顯示出當(dāng)前圖片幀中存在很多失真波動(dòng)或者感知失真值比較大的區(qū)域,人眼視覺(jué)系統(tǒng)對(duì)面積小的區(qū)域不如面積大的區(qū)域敏感.我們根據(jù)8連通區(qū)域的特征,根據(jù)某一像素點(diǎn)8連通區(qū)域內(nèi)標(biāo)定為1的像素點(diǎn)所占的比例大小,對(duì)初始標(biāo)簽圖進(jìn)行重新確認(rèn),得到初始連通區(qū)域,如圖6(c)所示.根據(jù)人類知覺(jué)的選擇性,刪除小面積區(qū)域后,如圖6(d).此時(shí)已經(jīng)得到初步的連通區(qū)域,即人眼可能的感興趣點(diǎn).根據(jù)人眼視覺(jué)的整體性,需要對(duì)圖6(d)進(jìn)行聚類分析.即將選定的區(qū)域和θ′t關(guān)系重新搜索,確定新的搜索區(qū)域,得到圖6(e).再次根據(jù)圖6(e)得到的標(biāo)簽圖,判斷每一點(diǎn)8連通區(qū)域內(nèi)顯示為1的點(diǎn)所占的比例情況,再一次確定感興趣區(qū)域的范圍如圖6(f).
圖5 感興趣區(qū)域搜索結(jié)構(gòu)圖Figure 5 Structure map of searching of interesting regions
圖6 感興趣區(qū)域搜索圖Figure 6 Process map of searching of interesting regions
圖7 結(jié)果圖Figure 7 Text map of bs,mc,sf,tr
從圖6可以看出該算法可以提取出可能的人眼感興趣區(qū)域.
在這一部分,主要介紹感興趣區(qū)域搜索的在不同類型測(cè)試序列上的測(cè)試結(jié)果.本次算法在LIVE數(shù)據(jù)庫(kù)[8]中 bs,mc,sf,tr等四種測(cè)試序列進(jìn)行測(cè)試,bs序列的主要內(nèi)容是藍(lán)色天空和一些樹(shù),鏡頭是移動(dòng)的,在這個(gè)失真序列中會(huì)在紋理區(qū)域和平坦區(qū)域突然出現(xiàn)比較大的、人眼不能忍受的失真.考慮到人眼的非對(duì)稱行為特性,這一部分的失真會(huì)嚴(yán)重影響到人眼對(duì)整體序列的評(píng)分.因此,測(cè)試結(jié)果如圖7(a),左側(cè)圖為原始失真序列,右側(cè)圖為選定的感興趣區(qū)域.mc序列是一個(gè)玩具火車水平移動(dòng),同時(shí)作為背景的掛歷垂直移動(dòng),本次測(cè)試隨機(jī)選取了其中一幀,通過(guò)測(cè)試結(jié)果顯示如圖7(b),可以看出選出的區(qū)域同樣是時(shí)域上變化比較大的區(qū)域.在圖7(c)sf序列中,蜜蜂的移動(dòng)是人眼關(guān)注的重點(diǎn),因此,結(jié)果圖很好地顯示了搜索的準(zhǔn)確性.在tr序列中存在比較大的移動(dòng)物體,人眼會(huì)比較關(guān)注拖拉機(jī)的區(qū)域,但是在測(cè)試序列中,拖拉機(jī)的移動(dòng)會(huì)伴隨著比較大的失真,因此搜索到拖拉機(jī)區(qū)域失真大的位置能表示人眼的感興趣區(qū)域.圖7(d)的結(jié)果圖很好的表示了感興趣區(qū)域的位置信息.
通過(guò)4個(gè)序列的測(cè)試結(jié)果顯示,該算法能很好地確定時(shí)域序列每幀的感興趣區(qū)域部分,而不僅限于傳統(tǒng)的運(yùn)動(dòng)區(qū)域的搜索.本文算法與傳統(tǒng)的運(yùn)動(dòng)區(qū)域搜索算法不同的是,本算法的設(shè)計(jì)是服務(wù)于基于人眼視覺(jué)特性的視頻質(zhì)量評(píng)價(jià)模型的構(gòu)建.從人眼的非對(duì)稱行為、眼球的追蹤,和觀察的興趣性等特性分析,搜索視頻序列中可能的感興趣區(qū)域,從而應(yīng)用于視頻質(zhì)量評(píng)價(jià)算法,使客觀的視頻質(zhì)量算法達(dá)到與主觀評(píng)價(jià)算法較高的一致性.
本文主要是從視頻序列失真角度出發(fā),分析可能存在的感興趣區(qū)域.通過(guò)分析測(cè)試序列幀的時(shí)域失真波動(dòng)和時(shí)域感知失真搜索視覺(jué)感興趣區(qū)域.從搜索區(qū)域結(jié)果圖中可以看出該算法的可行性.該算法的提出是為了應(yīng)用于視頻質(zhì)量評(píng)價(jià).
[1]Duchowski A T.Eye tracking methodology:theory and practice[M].2nd ed.London Springer:2007:15-40.
[2]Huang S C.An advanced motion detection algorithm with video quality analysis for video surveillance system [J].IEEE Transactions on Circuits and System for Video Technology,2011,21(1):1-14.
[3]Kim T K,Im J H,Paik J K.Video object segmentation and its salient motion detection using adaptive background generation[J].Electronics Letters,2009,45(11):542-543.
[4]C'ulibek D,Mirkovic'M,Zlokolica V.Salient motion features for video quality assessment[J].IEEE Transactions on Image Processing,2011,20(4):948-958.
[5]Tian Y L,Hampapur A.Robust salient motion detection with complex background for real-time video surveillance[J].Application of Computer Vision,2005,2:30-35.
[6]Tan K T,Ghanbari M,Pearson D.An objective measurement tool for mpeg video quality[J].Signal Process,1998,70(3):279-294.
[7]Ware C.Information visualization:perception for design[M].2nd ed.CA:Morgan Kaufmann,2004:1-11.
[8]Meur O L,Callet P L,Barba D.Predicting visual fixations on video based on low-level visual features[J].Vision Research,2007,47(19):2483-2498.
[9]Tan Jingjing,Yin Haibing.Temporal distortion measure for visual quality assessment[J].Video Engineering(unpublished).
[10]Seshadrinathan K.,Soundararajan R.Study of subjective and objective quality assessment of video[J].IEEE Trans Image Processing,2010,19(6):1427-1441.