馮自星,覃團(tuán)發(fā),岳曉峰,陳躍波
(廣西大學(xué) 計(jì)算機(jī)與電子信息學(xué)院,廣西 南寧530004)
隨著視頻處理技術(shù)的日益成熟,越來越多的視頻匹配技術(shù),充分應(yīng)用于在醫(yī)學(xué)、電視廣播系統(tǒng)等領(lǐng)域,極大改善了數(shù)據(jù)庫中多媒體視頻的大量重復(fù)現(xiàn)象,為網(wǎng)絡(luò)數(shù)據(jù)庫的綠色化提供了技術(shù)支持[1]。由于視頻數(shù)據(jù)量相當(dāng)大,因此對(duì)匹配過程中的具體指標(biāo)有相當(dāng)嚴(yán)格的要求。
近年來,針對(duì)視頻識(shí)別的算法層出不窮,但大致都是單純基于運(yùn)動(dòng)特征或是單純基于內(nèi)容的識(shí)別方法。對(duì)于視頻中存在的若干部分的非紋理幀的現(xiàn)象,參考文獻(xiàn)[2]提出一個(gè)有效的視頻幀登記策略,并設(shè)計(jì)修改了兩幀強(qiáng)度的匹配算法。該算法具有良好的性能,可處理包含若干部分非紋理幀的視頻。但是使用估計(jì)值造成運(yùn)算結(jié)果中存在大量誤差。對(duì)于視頻處理的實(shí)時(shí)性,參考文獻(xiàn)[3]提出一種方法,能快速匹配長視頻流,或者在長視頻流中快速找到一個(gè)相對(duì)較短的視頻序列。該方法解決了視頻匹配的實(shí)時(shí)性問題,但對(duì)于視頻的配準(zhǔn)率仍有所欠缺。參考文獻(xiàn)[4]則把每幅圖像預(yù)先劃分成紋理和非紋理區(qū)域,這種方法針對(duì)不同紋理區(qū)域采取相應(yīng)的措施,增加了整個(gè)過程的效率,提高整體性能,不足之處在于只能匹配內(nèi)容相近的視頻,無法確定是否為同一視頻。
本文提出一種基于主顏色和紋理特征的TS(Telescopic Shot)模型匹配方法,該方法忠實(shí)于視頻的內(nèi)容,利用視頻關(guān)鍵幀的主顏色和紋理特征來進(jìn)行部分視頻幀的圖像匹配。采用TS改進(jìn)模型描述各個(gè)鏡頭與視頻處理算法的對(duì)應(yīng)關(guān)系,提高了視頻圖像匹配的效率,同時(shí)也對(duì)相近視頻和同一視頻進(jìn)行了分類處理。
顏色特征是圖像匹配的基本依據(jù),提取顏色特征的方法主要有主顏色的直方圖、顏色矩、顏色集等。比較常用的是顏色的直方圖方法,該方法主要針對(duì)全局顏色的數(shù)量特征進(jìn)行統(tǒng)計(jì),得到顏色的直方圖,并反映出顏色的統(tǒng)計(jì)分布和基本色調(diào)。顏色直方圖包含某種顏色的頻率,拋棄了該色素所在的空間位置,因此計(jì)算量更少。
紋理特征是一個(gè)圖像匹配很好的方法,它不依賴于圖像的顏色和亮度。常見的紋理特征提取方法是灰度共生矩陣紋理特征提取以及基于小波變換的特征提取,灰度共生矩陣主要是把圖像的灰度值通過計(jì)算轉(zhuǎn)化成紋理特征。小波變化則是對(duì)時(shí)間以及頻率進(jìn)行局域性的變換,具有分析多分辨率的特點(diǎn)。
TS模型適合鏡頭切換速度比較快、數(shù)量比較多的視頻。算法采用依次的鏡頭匹配實(shí)現(xiàn)其可伸縮性的特點(diǎn)。對(duì)于已經(jīng)完成的N個(gè)鏡頭匹配,判定是否有決定性匹配,若沒有則對(duì)下一鏡頭進(jìn)行匹配,直至完全匹配為止。其算法的計(jì)算量很小,目的就是判定目標(biāo)視頻與源視頻是否為同一視頻。
對(duì)于網(wǎng)絡(luò)數(shù)據(jù)庫中的海量視頻,算法復(fù)雜度是算法處理的難點(diǎn)。對(duì)于一些毫不相關(guān)的視頻內(nèi)容,可以采用一個(gè)簡(jiǎn)單的算法進(jìn)行識(shí)別和過濾,避免浪費(fèi)數(shù)據(jù)處理的時(shí)間。為此,針對(duì)TS模型算法,本文提出了改進(jìn)算法,圖1所示為對(duì)視頻的關(guān)鍵幀進(jìn)行粗、細(xì)匹配相結(jié)合的比對(duì)。
對(duì)視頻所作的第一步處理是進(jìn)行視頻鏡頭分割,每一個(gè)鏡頭提取關(guān)鍵幀,對(duì)該關(guān)鍵幀和目標(biāo)視頻的首鏡頭關(guān)鍵幀進(jìn)行圖像匹配,然后依次對(duì)后繼鏡頭進(jìn)行關(guān)鍵幀匹配,如圖2所示。
鏡頭檢測(cè)算法在鏡頭分割技術(shù)中的地位很重要,對(duì)于傳統(tǒng)的鏡頭算法,最難以描述的就是視頻鏡頭切換較快而且無規(guī)律,如NBA中的比賽錄像,前后鏡頭內(nèi)容變化量很大。對(duì)于這種視頻,采用參考文獻(xiàn)[5]提出的鏡頭邊界檢測(cè)算法進(jìn)行分割。
通過對(duì)視頻中各幀圖像的灰度強(qiáng)度的熵信息進(jìn)行運(yùn)算分析,找到信息變化量巨大的幀,選取為鏡頭的邊界幀。設(shè)X是一個(gè)離散的隨機(jī)變量,Ax表示一系列事件{y1,y2,…,yn},Px表示相關(guān)概率。
圖3所示為通過鏡頭檢測(cè)處理得到的各幀的熵變化。實(shí)驗(yàn)證明,采用此方法得到切割鏡頭的查準(zhǔn)率達(dá)到97.8%,查全率達(dá)到99.3%。
關(guān)鍵幀的選取有多種算法,通常將鏡頭首幀作為關(guān)鍵幀及將變化量大的幀作為鏡頭的關(guān)鍵幀等。本實(shí)驗(yàn)采用二者相結(jié)合的方法來確定關(guān)鍵幀,既在處理過程中減少了視頻內(nèi)容的冗余量,也為后面的粗匹配做良好的準(zhǔn)備。
提取顏色特征首先將RGB空間轉(zhuǎn)化為HIS空間(Hue、Saturation、Intensity),其中 H 代表色調(diào),S 代表色飽和度,I代表亮度。將3個(gè)顏色分量表示成一維矢量,再計(jì)算其直方圖作為顏色特征,然后返回顏色直方圖特征向量。
紋理特征提取方法是基于灰度共生矩陣紋理特征提取,所用圖像灰度級(jí)均為256。將各顏色分量轉(zhuǎn)化為灰度,為了減少計(jì)算量,對(duì)原始圖像灰度級(jí)壓縮,將Gray量化成16級(jí),計(jì)算4個(gè)共生矩陣 P,取距離為1,角度分別為 0°、45°、90°、135°。對(duì)于每個(gè)固定的值,Markov 隨機(jī)場(chǎng)都可以簡(jiǎn)化為一階的馬爾可夫過程,即馬爾可夫鏈。
如果{Xt|t=1,2,…}是馬爾可夫鏈,則隨機(jī)變量Xt滿足馬爾可夫性質(zhì):
最后對(duì)共生矩陣歸一化,對(duì)共生矩陣計(jì)算能量、熵、慣性矩及相關(guān)4個(gè)紋理參數(shù),求出能量、熵、慣性矩及相關(guān)的均值和標(biāo)準(zhǔn)差作為最終的八維紋理特征[6]。
(1)提取壓縮視頻的關(guān)鍵幀(此時(shí)關(guān)鍵幀選取為鏡頭第一幀),對(duì)數(shù)據(jù)源目標(biāo)視頻首幀進(jìn)行圖像匹配,對(duì)關(guān)鍵幀的相似度進(jìn)行比對(duì)。
(2)若相似度>80%,則認(rèn)為該視頻和源視頻處于同一視頻情景內(nèi),繼續(xù)進(jìn)行操作,轉(zhuǎn)接到細(xì)匹配。
(3)若相似度<80%,則繼續(xù)對(duì)后繼鏡頭頭幀進(jìn)行匹配,轉(zhuǎn)到步驟(2)。
(4)匹配結(jié)束,返回失敗提示。
運(yùn)用TS模型進(jìn)行視頻的細(xì)匹配。將首鏡頭的關(guān)鍵幀所提取的內(nèi)容信息(即主顏色以及紋理特征)進(jìn)行匹配,若相似度>80%,則認(rèn)為該鏡頭匹配,繼續(xù)將第二個(gè)鏡頭所得到的關(guān)鍵幀進(jìn)行圖像匹配,以此類推,直至達(dá)到鏡頭數(shù)量的閾值為止,此閾值為自適應(yīng)閾值。根據(jù)經(jīng)驗(yàn)值,在鏡頭總數(shù)>200時(shí),一般在總鏡頭數(shù)量的二分之一為宜,然后通過比對(duì)剩余鏡頭數(shù)量即可得到細(xì)匹配的效果。若鏡頭數(shù)很小,則自動(dòng)執(zhí)行至終鏡頭。在得到源視頻和目標(biāo)視頻匹配的同時(shí),可以將匹配的幀數(shù)放寬到源視頻幀數(shù)的90%,最后得到的視頻即為源視頻的相近視頻,并對(duì)匹配視頻和相近視頻做統(tǒng)一分類。通過這樣的順序匹配,配合TS模型的自動(dòng)伸縮性閾值,既可以減少視頻的運(yùn)算量,又可以保證基于內(nèi)容匹配的精確度。
本實(shí)驗(yàn)選用360個(gè)完全不同類型的長短視頻進(jìn)行多次匹配,包括大量的、變化巨大的廣告視頻以及NBA比賽視頻等,鏡頭數(shù)量在160~2 500不等。
通過實(shí)驗(yàn)證明,基于主顏色和紋理特征的圖像匹配應(yīng)用到視頻匹配中,提高了視頻匹配的查準(zhǔn)率和查全率。相對(duì)于基于運(yùn)動(dòng)特征的視頻匹配,提高了約20%,如圖4所示。其中曲線y1表示結(jié)合主顏色和紋理特征的TS模型匹配算法,曲線y2表示單純主顏色的視頻匹配,曲線y3表示單純紋理特征的算法,曲線y4表示傳統(tǒng)的基于運(yùn)動(dòng)特征的視頻匹配。從實(shí)驗(yàn)結(jié)果可以看出,本文算法得到的查全率明顯優(yōu)于傳統(tǒng)的基于運(yùn)動(dòng)特征的算法,比基于單一特征的算法更為精確。另外,由于應(yīng)用TS模型算法大大降低了計(jì)算量,從計(jì)算復(fù)雜度方面衡量,本文算法比其他三種算法降低約45%。
本文提出一種基于主顏色和紋理特征的視頻匹配方法,不但將基于內(nèi)容的圖像匹配應(yīng)用到視頻中來,提高了視頻內(nèi)容的查全率和查準(zhǔn)率,而且應(yīng)用TS模型改進(jìn)算法,更有效地降低了視頻處理的計(jì)算量。本文算法較傳統(tǒng)的基于運(yùn)動(dòng)特征的視頻匹配算法精確率明顯提高;較基于內(nèi)容的視頻匹配算法,精確度更高,計(jì)算量也降低高達(dá)45%,通過大量的實(shí)驗(yàn)驗(yàn)證,具有一定的通用性。
[1]陳秀新,賈克斌,鄧智玭.融合時(shí)序特征和關(guān)鍵幀的視頻檢索方法[J].電視技術(shù),2011, 35(03):21-24.
[2]JIANCHAO Y.Alignment of non-texture video frames using kalman filter[C].IET Computer Vision,Jan,2011:77-85.
[3]PRIBULA O,POHANKA J,et al.Real-time video sequences matching using the spatiotemporal fingerprint[C].IEEE Mediter-ranean Electrotechnical Conference,2010.
[4]ABDOLLAHIAN G,BIRINCI M,et al.A region-dependent image matching method for image and video annotation[C].IEEE International Workshop on Content-Based Multimedia Indexing,2011.
[5]BABER J,AFZULPURKAR N,et al.Shot boundary detection from videos using entropy and local descriptor[C].IEEE International Conference on Digital Signal Processing,2011.
[6]薄華,馬縛龍.圖像紋理的灰度共生矩陣計(jì)算問題的分析[J].電子學(xué)報(bào), 2006,34(1):155-158.