黃雙華 郭 凱 劉 峰
(海軍工程大學(xué)電子工程學(xué)院 武漢 430033)
計算機(jī)和網(wǎng)絡(luò)基礎(chǔ)建設(shè)的快速發(fā)展以及數(shù)字視頻技術(shù)的廣泛應(yīng)用,促進(jìn)了不同多媒體應(yīng)用需求的急速增長。這些應(yīng)用成功與否的一個關(guān)鍵因素是如何有效和有效率地管理和存儲大量的音頻、視頻信息,同時提供用戶友好的方式來獲得存儲的數(shù)據(jù)。這促使生成了一個迅速發(fā)展的研究領(lǐng)域——視頻摘要[1]。視頻摘要是一個生成短視頻總結(jié)的機(jī)制,這可以是一系列靜態(tài)圖像(幀)或者運(yùn)動圖像(視頻)總結(jié)。就瀏覽和導(dǎo)航而言,一個好視頻摘要允許用戶在一個規(guī)定的時間內(nèi)獲得關(guān)于源視頻[2]序列的最大信息,或者在最少的時間內(nèi)獲得足夠的信息。視頻摘要技術(shù)主要被用來瀏覽視頻數(shù)據(jù)庫,尤其是在基于內(nèi)容的視頻檢索方法效果有限的條件下,可以實現(xiàn)視頻的自動提取。另一方面,視頻摘要技術(shù)不僅可以完成大量視頻集合的瀏覽,也可以幫助用戶以一種與視頻編輯故事板相似的非線性方式進(jìn)行視頻導(dǎo)航,或者與單個視頻序列進(jìn)行交互式操作,這允許用戶快速獲得視頻序列中的語義相關(guān)位置,這在視頻編輯和創(chuàng)作應(yīng)用中非常有用,僅僅保留視頻序列的必要信息,改善了存儲、帶寬,增加了信噪比。
在視頻情形下,2D圖像縮圖從時間域擴(kuò)展到3D下的空間—時間縮圖,視頻縮圖用于估計建模輸入數(shù)據(jù)的大多數(shù)細(xì)小空間—時間立方體(spacetime cubes),進(jìn)一步完成不同的建模和重建任務(wù),最后縮圖碎片成功實現(xiàn)合成圖像和視頻,從圖像一個部分得到的碎片被連接起來,用于合成具有相似結(jié)構(gòu)的新圖像,或者將內(nèi)覆蓋的結(jié)構(gòu)轉(zhuǎn)成內(nèi)部區(qū)域[3~4],這個方法也被用來填充視頻數(shù)據(jù)的丟失或者閉塞區(qū)域[5],為了聯(lián)合分析和綜合數(shù)據(jù),基于碎片的概率模型在文獻(xiàn)[6]中被引入,這些模型被稱作“縮圖”,編制取自輸入圖像的碎片為一個壓縮的模型。圖1為生成一個視頻縮圖的步驟。
圖1 視頻縮圖生成示意圖
本文把視頻序列看作一個像素度量的3D數(shù)組Vx,y,t(每幀是R、G、B 顏色通道),其中x∈:{1,…,Xv},y∈:{1,…,Yv},t∈:{1,…,Tv},縮圖E 使用一系列排列在尺寸為Xe×Ye×Te網(wǎng)格上的概率分布來建模視頻,因此縮圖Ex,y,t可以假設(shè)為一個概率分布的3D數(shù)組,特定的像素值V能在E中任意的概率分布下計算。由于本質(zhì)上像素度量是連續(xù)的,因此有必要參數(shù)化每個縮圖分布。本文使用如下參數(shù)形式,即三維的高斯分布在每個通道上被一個不同均值和對角協(xié)方差矩陣參數(shù)化:
其中μx,y,t是均值,φx,y,t是協(xié)方差矩陣(如對于 RGB值),對角協(xié)方差矩陣通過去除顏色通道來計算。
縮圖通過建模取樣自視頻的3D碎片來建模視頻。碎片可以有任何形狀,但為了記錄方便,假設(shè)每個碎片擁有線性、軸對齊的邊界,并把每個碎片視作“立方體”。在碎片S中,每個碎片可以看作有序集的像素坐標(biāo),例如,一個起點(diǎn)坐標(biāo)是(8,9),起始自第7幀的10*10*5的視頻碎片被描述成集合S={8,…,17}×{9,…,18}×{7,…,11},假設(shè)S中的坐標(biāo)是有序的,因此S(k)代表S中的第k坐標(biāo),如在上面的例子中S(1)=(8,9,7)。
V表示視頻中所有坐標(biāo)的觀測像素值,VS表示坐標(biāo)S中小視頻立方塊的觀測像素值,CS表示在相同立方塊的像素值。為了使預(yù)測的視頻立方塊與觀測的視頻立方塊相似,則立方塊Cs≈VS(即假設(shè)與T對應(yīng)的立方塊在尺寸上和與S對應(yīng)的立方塊一樣,視線一對一的坐標(biāo)對應(yīng)關(guān)系),那么使用坐標(biāo)T和預(yù)測值CS下的分布計算出的概率密度Et(CS)為
圖2為視頻像素生成示意圖。
圖2 視頻像素的生成過程
定義視頻序列的生成模型,此模型適用于實驗部分描述的所有應(yīng)用,生成過程的第一步包括為輸入視頻中每個可能的坐標(biāo)集S生成一個估計立方塊CS。服從統(tǒng)一分布條件下隨機(jī)選擇縮圖碎片Ts,然后使用分布 ETs(cs)來生成CS。然后,對于視頻中的每個像素坐標(biāo)(x,y,t),在自由能最小化的過程中,使估值一致。則視頻像素Vx,y,t,所有重疊的立方塊{S:(x,y,t)∈S}以及方差為δ2x,y,t的高斯噪聲被加進(jìn)三個通道后的表達(dá)式為
其中[]是艾佛森的指示器函數(shù),即[true]=1,[false]=0。為了強(qiáng)調(diào)視頻立方塊cs是被視為獨(dú)立的,使用記錄Cs,k來表示CS的第k個像素,因此視頻立方塊CS中的一個像素不是由全局坐標(biāo)S(k)唯一定義的。為了使輸入視頻的每個像素至少出現(xiàn)在一個視頻方塊里,所有變量的聯(lián)合分布可以表示為
為了簡化,通常假設(shè)p(Ts)是不變的。
視頻縮圖可以在空間和時間上壓縮視頻,縮圖的尺寸可以作為調(diào)節(jié)器用來調(diào)整空間和時間的壓縮量,空間和時間的平衡在生成視頻縮圖和建模視頻上有很大的影響。
圖3的圖像處理結(jié)果顯示了時間空間的平衡對于視頻成像的影響。
其中,圖3(a)為樣本視頻,即玩具車?yán)@墊子行駛的幀;圖3(b)為視頻在極大空間壓縮條件下的縮圖成像,此種極端條情形下,個體的運(yùn)動模式是分離的,為了最大化利用所有可用的像素,縮圖取自環(huán)形曲面,即縮圖在邊緣是環(huán)形彎曲的;相反地,圖3(c)顯示了一段極大壓縮視頻時間維度的視頻縮圖,由于只有幾幀產(chǎn)生作用,視頻縮圖使用幀自動建模多重運(yùn)動模式;圖3(d)利用獨(dú)立取向每個像素點(diǎn)達(dá)到與原始視頻序列具有相同均值和方差的高斯分布,完成其結(jié)構(gòu)化的初始化過程,因此在時間維度一致情況下,空間結(jié)構(gòu)與原始視頻序列對齊,加上少量噪聲,可以得到精確度較高的視頻縮圖。
圖3 視頻縮圖時間空間的權(quán)衡
值得注意的是,上圖中的每個縮圖中的像素數(shù)量近似相等,原始視頻中的像素數(shù)量遠(yuǎn)遠(yuǎn)大于縮圖像素數(shù)量(超過20倍),時間維度上自2~4,空間上自10*20到15*25,15*10到20*12。
文獻(xiàn)[7]的范例僅僅定義了圖像處理的一種應(yīng)用,為了實現(xiàn)多方面的圖像信息處理,例如邊緣圖、曲面圖等信息處理,本文利用上述視頻縮圖模型完成圖像信息的識別、運(yùn)動檢測和跟蹤以及獲得高分辨率圖像的功能。
給定采集數(shù)據(jù)情況下,視頻圖像處理的實驗效果如圖4所示。
圖4 縮圖模型的圖像處理效果
圖4(a)是原始圖像,對應(yīng)的大小是600*600像素(縮小到原始圖像1/4大小顯示);圖4(b)是對應(yīng)原始圖像的縮圖,其尺寸是50*50像素;圖4(c)是用對應(yīng)縮圖恢復(fù)出來的圖像,其尺寸是600*600像素,也縮小到1/4大小顯示。其中,迭代次數(shù)為3。
從上面實驗可以看出,縮圖在空間尺度上比原始圖像小得多,而根據(jù)縮圖恢復(fù)出來的圖像質(zhì)量可以滿足視覺上的要求,這可以應(yīng)用在圖像、視頻存儲和傳輸上。
圖5~圖6為在原始圖像中加入高斯噪聲后,利用縮圖理論模擬真實圖片場景的實驗效果。
圖5 原始圖像和加入相同強(qiáng)度隨機(jī)噪聲的噪聲圖像
圖6 原始圖像對應(yīng)的縮圖和運(yùn)用縮圖算法恢復(fù)出的圖像
實驗中的原始圖像大小是320*240像素,加入到原始圖像中的隨機(jī)噪聲強(qiáng)度與原始圖像的強(qiáng)度相同,實驗中使用的碎片的大小為8*8像素,得到的縮圖大小為50*50像素,迭代次數(shù)為4,處理時間大約為4min。
從上面的實驗效果可以看出,恢復(fù)出來的圖像中包含了原始圖像中的外觀和形狀信息,這在縮圖圖像可以體現(xiàn)出來(如圖6中的左圖),說明此方法可以應(yīng)用在形狀和外觀特征比較重要的去噪任務(wù)中。
本文視頻樣本為平行移動攝像機(jī)拍攝的一段瀑布,視頻的尺度是480*360*735,運(yùn)用4層次的金字塔模型,得到mosaic[4]圖像如圖7~圖10所示。
圖7 最終得到的mosaic圖像
圖8 原始視頻對應(yīng)的X-T流形切片
圖9 對應(yīng)于上圖圓圈的原始視頻幀
圖10 原始視頻中截取的5幀圖像
根據(jù)上面的實驗效果,我們又挑選了一段餐桌上的視頻進(jìn)行了實驗,將攝像機(jī)放在圓桌的中央,然后平行移動攝像機(jī),得到桌子周圍每個人的圖像,然后通過空間—時間流形方法得到最后的圖像。
原始視頻的大小為320*144*547,得到的摘要圖像如圖11~圖14所示。
圖11 餐桌視頻生成的mosaic視頻摘要
圖12 對應(yīng)于餐桌視頻的X-T切片頂視圖
圖13 對應(yīng)于X-T切片時刻的原始圖像(對應(yīng)于上圖的圓圈)
圖14 原始視頻中抽取出的5幀圖像
本文分析了縮圖理論以及結(jié)構(gòu)化縮圖理論,利用縮圖理論在2D圖像處理的應(yīng)用,將其應(yīng)用到3D視頻圖像信息領(lǐng)域的處理,根據(jù)采集的實驗數(shù)據(jù)和理論算法,得到了良好的實驗效果。結(jié)果表明,利用此算法處理后的圖像可視化效果較好,保真度較高,并且抗干擾噪聲的能力較強(qiáng),在視頻圖像處理中可以找到長時間段內(nèi)的相似圖像,達(dá)到較高的時間壓縮率,在圖像信息的高分辨率提取、圖像存儲、目標(biāo)運(yùn)動檢測以及完成圖像去噪等領(lǐng)域有較好的應(yīng)用前景。
[1]劉桂清.視頻摘要技術(shù)的研究與實現(xiàn)[D].長沙:國防科技大學(xué)博士論文,2004.
[2]Truong B.T.,Venkatesh S.Video abstraction:A systematic review and classification[J].ACM Trans.Multimedia Comput.Commun.,2007,3(1):1-37.
[3]Andreas Girgensohn,John Boreczky,Lynn Wilcox.Keyframe-based user interfaces for digital video[C]//IEEE Computer,2001,34:61-67.
[4]LEE.S,HAYE,M.An application for interactive video abstraction[C]//Proceedings of the ICASSP Conference,2004.
[5]WU,J.K.,KANKANHALLI,M.S.,LIM,J.-H.,et al.Perspective on Content-Based Multimedia Systems[C]//Kluwer Academic,Hingham,MA,2000.
[6]N Jojic,B.J.Frey,A Kannan.Epitomic analysis of appearance and shape[C]//Proc.IEEE Intern.Conf.on Computer Vision,2003:34-41.
[7]K.Toyama,A Blake.Probabilistic tracking in a metric space[C]//Proc.International Conference on Computer Vision,2001.
[8]陳劍贅,吳玲達(dá).視頻摘要[J].中國圖象圖形學(xué)報,2003,8(7).