王 宇, 汪榮貴, 楊 娟
(合肥工業(yè)大學(xué) 計(jì)算機(jī)與信息學(xué)院,安徽 合肥 230009)
?
一種新的自適應(yīng)的視頻關(guān)鍵幀提取方法
王 宇, 汪榮貴, 楊 娟
(合肥工業(yè)大學(xué) 計(jì)算機(jī)與信息學(xué)院,安徽 合肥 230009)
針對(duì)目前關(guān)鍵幀提取存在的關(guān)鍵幀數(shù)目難以確定、對(duì)內(nèi)容漸變的視頻的處理效果欠佳和算法復(fù)雜等問題,文章提出一種自適應(yīng)的視頻關(guān)鍵幀提取方法,利用梯度方向直方圖(histogram of oriented gradients,HOG)特征計(jì)算當(dāng)前幀的代表性指標(biāo),初步選出候選關(guān)鍵幀,使用結(jié)合目標(biāo)分割和顏色直方圖的高級(jí)特征進(jìn)行冗余度檢查,最終確定關(guān)鍵幀集合。通過對(duì)大量包含各種場(chǎng)景的視頻進(jìn)行實(shí)驗(yàn),結(jié)果表明使用該文算法提取的關(guān)鍵幀能更全面地表達(dá)視頻的主要內(nèi)容,尤其是處理內(nèi)容漸變的視頻時(shí),效果更佳,并且能夠根據(jù)視頻的內(nèi)容自適應(yīng)地確定關(guān)鍵幀數(shù)目。
關(guān)鍵幀;顏色直方圖;梯度方向直方圖;目標(biāo)分割;自適應(yīng)
由于多媒體技術(shù)的進(jìn)步,所生成的視頻數(shù)據(jù)的量正在迅速增加,并且面向消費(fèi)者的多媒體存儲(chǔ)設(shè)備變得日趨普及。大量的視頻數(shù)據(jù)需要高效的視頻內(nèi)容管理方案來賦予消費(fèi)者一個(gè)更好的多媒體體驗(yàn),一個(gè)可能的視頻數(shù)據(jù)管理方案是生成視頻摘要,以提供給用戶瀏覽。除了瀏覽,視頻摘要還可以幫助用戶快速定位到一個(gè)視頻語義相關(guān)的位置。
視頻濃縮和關(guān)鍵幀提取是視頻摘要的2個(gè)基本方法。視頻濃縮是產(chǎn)生一個(gè)持續(xù)時(shí)間比實(shí)際視頻短得多的短視頻,關(guān)鍵幀提取技術(shù)是通過提取最具代表性的幀生成視頻摘要。一般地,視頻濃縮比關(guān)鍵幀更具表現(xiàn)力,然而,關(guān)鍵幀可以不受時(shí)間和同步等問題的困擾并能以各種方式進(jìn)行瀏覽和導(dǎo)航使用。此外,對(duì)于小型設(shè)備,關(guān)鍵幀比視頻濃縮可以提供更好的瀏覽功能,這是因?yàn)樗鼈兪褂脩裟軌蚩焖贋g覽視頻中的突出內(nèi)容。
視頻使人們的生活更加豐富多彩,同時(shí)視頻本身卻充斥著大量的冗余信息,只有一小部分的關(guān)鍵幀承載著有用的信息。然而,在所有的多媒體流中,視頻是最復(fù)雜的一種數(shù)據(jù)。視頻是無結(jié)構(gòu)化的,并且內(nèi)容復(fù)雜多樣(通常伴隨著相機(jī)運(yùn)動(dòng)、光照變化、場(chǎng)景混亂),質(zhì)量參差不齊,時(shí)長(zhǎng)從數(shù)秒到數(shù)小時(shí)不等,而少數(shù)的關(guān)鍵幀就可以幫助用戶了解視頻的內(nèi)容,所以關(guān)鍵幀提取算法被廣泛研究。近些年,學(xué)者們提出了很多巧妙的關(guān)鍵幀提取方法。
(1) 基于鏡頭分割的方法。這是一種最快速直觀的提取方法,利用鏡頭邊界檢測(cè)方法,將一個(gè)視頻流分割成很多鏡頭,文獻(xiàn)[1]提取一個(gè)鏡頭中的首幀、中間幀和尾幀作為視頻的關(guān)鍵幀。雖然方法簡(jiǎn)單,但是該方法并沒有充分考慮到視頻的內(nèi)容,因此當(dāng)視頻內(nèi)容比較復(fù)雜的情況下往往不能真實(shí)地反映視頻的內(nèi)容。
(2) 基于運(yùn)動(dòng)分析的方法。文獻(xiàn)[2]通過分析光流來計(jì)算鏡頭的運(yùn)動(dòng),并選擇運(yùn)動(dòng)中擁有局部最小值的幀作為關(guān)鍵幀。這種方法可以選擇出適當(dāng)數(shù)量的關(guān)鍵幀,但算法計(jì)算量太大,并且它取決于局部信息,因此沒有較強(qiáng)的魯棒性。
(3) 基于核聚類[3-4]的方法。算法思想是首先初始化聚類中心,通過計(jì)算當(dāng)前幀和聚類中心的距離,判斷當(dāng)前幀被加入這種類別或者作為一個(gè)新類別,所有幀處理結(jié)束后,距離聚類中心最近的幀被選為關(guān)鍵幀。文獻(xiàn)[3]提出了一種層次聚類算法,先把每幀都看做是一個(gè)類別,并且類別間的距離等于幀間距,然后距離最近的2個(gè)類別聚合成一個(gè)新的類別,并計(jì)算新的類別和其他聚類的距離,如此反復(fù)直到所有的幀都屬于一個(gè)類別或者達(dá)到一定的閾值時(shí)結(jié)束。這種方法計(jì)算量大,并且結(jié)束閾值難以確定。
(4) 基于內(nèi)容分析的方法。主要思想是通過幀間顏色、紋理或其他視覺信息的突變來提取關(guān)鍵幀,首先鏡頭的第1幀作為關(guān)鍵幀,文獻(xiàn)[5]計(jì)算當(dāng)前幀和上一個(gè)關(guān)鍵幀的顏色直方圖的差值。文獻(xiàn)[6]通過計(jì)算當(dāng)前幀和前N幀的顏色直方圖的平均值的差值,如果差值比初始設(shè)定的閾值大,就把當(dāng)前幀選為關(guān)鍵幀。這些方法都是計(jì)算幀間差值,并和一個(gè)閾值作比較,提取在視覺內(nèi)容上突變的幀作為關(guān)鍵幀,這種方法的缺點(diǎn)是僅依賴于像素間的灰度差值并且閾值難以確定,從而會(huì)導(dǎo)致提取的關(guān)鍵幀不太可靠。
上述方法中,提取關(guān)鍵幀時(shí)主要是利用視頻的低級(jí)別特征,而未利用視頻的語義信息和人類感知視頻的特點(diǎn)。文獻(xiàn)[7]將關(guān)鍵幀選取轉(zhuǎn)化為一個(gè)最優(yōu)化問題,并給出一個(gè)關(guān)于幀的代表性和冗余性的計(jì)算公式,選取使公式獲得最大值的幀集合作為關(guān)鍵幀。文獻(xiàn)[8]研究了基于目標(biāo)分割的方法,以提取包含能夠引起人眼注意的目標(biāo)或事件的幀作為關(guān)鍵幀,但是該研究忽略了如下情況:不是所有視頻內(nèi)容的前景和背景都是可以分得很清楚;前景和背景都是相對(duì)而言的,尤其是對(duì)于內(nèi)容漸變的視頻。因此,本文提出將最優(yōu)化方法和高級(jí)特征互補(bǔ)融合的關(guān)鍵幀提取方法。首先,利用最優(yōu)化方法對(duì)幀內(nèi)容變化的敏感性選擇出候選關(guān)鍵幀;其次,候選關(guān)鍵幀可能與已有的關(guān)鍵幀集合存在冗余;最后,結(jié)合高級(jí)特征與已存在的關(guān)鍵幀進(jìn)行比較來解決冗余關(guān)鍵幀的問題。
1.1 梯度方向直方圖
梯度方向直方圖(histogram of oriented gradients,HOG)是2005年CVPR會(huì)議上,法國(guó)國(guó)家計(jì)算機(jī)科學(xué)及自動(dòng)控制研究所的Dalal等人提出的一種解決人體目標(biāo)檢測(cè)的圖像描述子,該方法使用HOG特征來表達(dá)人體,提取人體的外形信息和運(yùn)動(dòng)信息,形成豐富的特征集。HOG主要用于目標(biāo)檢測(cè)領(lǐng)域,特別是行人檢測(cè)和智能交通系統(tǒng),也可用于手勢(shì)識(shí)別、人臉識(shí)別等方面。
HOG描述子最重要的思想是:在一副圖像中,局部目標(biāo)的表象和形狀(appearance and shape)能夠被梯度或邊緣的方向密度分布很好地描述。具體的實(shí)現(xiàn)方法是:首先將圖像分成小的連通區(qū)域,叫做細(xì)胞單元,然后采集細(xì)胞單元中各像素點(diǎn)的梯度的或邊緣的方向直方圖,最后把這些直方圖組合起來就可以構(gòu)成特征描述子。為了提高性能,還可以把這些局部直方圖在圖像的更大的范圍內(nèi)(叫做區(qū)間或block)進(jìn)行對(duì)比度歸一化(contrast-normalized),所采用的方法是先計(jì)算各直方圖在這個(gè)區(qū)間(block)中的密度,然后根據(jù)這個(gè)密度對(duì)區(qū)間中的各個(gè)細(xì)胞單元做歸一化,通過這個(gè)歸一化后,能對(duì)光照變化和陰影獲得更好的效果。
HOG的優(yōu)勢(shì)在于其表示的是邊緣(梯度)的結(jié)構(gòu)特征,因此可以描述局部的形狀信息,并且位置和方向空間的量化一定程度上可以抑制平移和旋轉(zhuǎn)帶來的影響;另外,采取在局部區(qū)域歸一化直方圖,可以部分抵消光照變化帶來的影響。由于一定程度忽略了光照顏色對(duì)圖像造成的影響,使得圖像所需要的表征數(shù)據(jù)的維度降低了;而且由于這種分塊分單元的處理方法,也使得圖像局部像素點(diǎn)之間的關(guān)系可以很好地得到表征。
1.2 模糊粗糙區(qū)域分割
模糊粗糙區(qū)域分割技術(shù)的思想首先應(yīng)用分水嶺算法,其次是一個(gè)區(qū)域增長(zhǎng)的過程,主要是根據(jù)直方圖的相似性去合并子分水嶺區(qū)域,目的是為了克服分水嶺算法中的過度分割現(xiàn)象。
分水嶺分割方法是一種基于拓?fù)淅碚摰臄?shù)學(xué)形態(tài)學(xué)的分割方法,其基本思想是把圖像看作是測(cè)地學(xué)上的拓?fù)涞孛?圖像中每一點(diǎn)像素的灰度值表示該點(diǎn)的海拔高度,每一個(gè)局部極小值及其影響區(qū)域稱為集水盆,而集水盆的邊界則形成分水嶺。分水嶺的概念和形成可以通過模擬浸入過程來說明,在每一個(gè)局部極小值表面,刺穿一個(gè)小孔,然后把整個(gè)模型慢慢浸入水中,隨著浸入的加深,每一個(gè)局部極小值的影響域慢慢向外擴(kuò)展,在2個(gè)集水盆匯合處構(gòu)筑大壩,即形成分水嶺。
直接應(yīng)用分水嶺分割算法的效果往往并不好,如果在圖像中對(duì)前景對(duì)象和背景對(duì)象進(jìn)行標(biāo)注區(qū)別,再應(yīng)用分水嶺算法會(huì)取得較好的分割效果。分水嶺算法對(duì)微弱邊緣具有良好的響應(yīng),圖像中的噪聲、物體表面細(xì)微的灰度變化,都會(huì)產(chǎn)生過度分割的現(xiàn)象。分水嶺算法所得到的封閉的集水盆,為分析圖像的區(qū)域特征提供了可能。另外為消除分水嶺算法產(chǎn)生的過度分割,可以采用根據(jù)直方圖的相似性合并相鄰的子分水嶺區(qū)域。
關(guān)鍵幀提取通常面臨以下幾個(gè)主要問題:① 傳統(tǒng)的關(guān)鍵幀提取方法堅(jiān)持寧多勿缺的原則,為了不遺漏關(guān)鍵幀,卻引入了大量冗余幀;② 一些算法計(jì)算量巨大,如基于核聚類的算法和Wolf的光流分析方法等無法滿足實(shí)時(shí)性的要求;③ 面對(duì)視頻中復(fù)雜的場(chǎng)景,很難找到合適的閾值,從而限定了方法的適用范圍;④ 一些算法在計(jì)算幀間差時(shí)忽略了像素的空間位置關(guān)系,比如攝像師經(jīng)常把重要目標(biāo)聚焦在畫面中央。
因此,在經(jīng)典算法的基礎(chǔ)上,本文提出一種新的關(guān)鍵幀提取方法,并能夠自適應(yīng)地確定關(guān)鍵幀的數(shù)目。首先,利用HOG特征計(jì)算當(dāng)前幀的代表性指標(biāo),若其代表性越過障礙項(xiàng),說明當(dāng)前幀可能非常具有代表性,但也有可能已經(jīng)存在于關(guān)鍵幀集合,因此將其初步選為候選關(guān)鍵幀;其次,使用結(jié)合目標(biāo)分割和顏色直方圖的高級(jí)特征進(jìn)行冗余度檢查,最終確定當(dāng)前幀是否加入關(guān)鍵幀集合。使用本文算法所提取的關(guān)鍵幀能更全面地表達(dá)視頻的主要內(nèi)容,尤其是處理內(nèi)容漸變的視頻時(shí),效果更佳,并且能夠根據(jù)視頻的內(nèi)容自適應(yīng)地確定關(guān)鍵幀數(shù)目。本文算法流程如圖1所示。
圖1 本文算法流程
2.1 候選關(guān)鍵幀
衡量關(guān)鍵幀提取方法好壞的一個(gè)指標(biāo)是所選擇的關(guān)鍵幀集合能否最大程度地反映出原始視頻的主要內(nèi)容,即關(guān)鍵幀集合最大程度地包含了視頻中的主要事件。
鑒于HOG[9]表示的是邊緣特征,并且能夠抑制平移和旋轉(zhuǎn)帶來的影響,另外可以部分抵消光照變化帶來的影響,這些優(yōu)點(diǎn)使得圖像像素點(diǎn)之間的關(guān)系可以很好地得到表征。因此本文首先基于HOG特征量化關(guān)鍵幀集合對(duì)原始視頻的代表性,初步篩選出具有代表性的候選關(guān)鍵幀。假設(shè)V={v1, v2,…,vn}代表著一個(gè)視頻中所有幀的集合,S表示關(guān)鍵幀集合,為了計(jì)算幀的代表性,通過計(jì)算2幀特征向量的夾角余弦值來評(píng)估其相似度,余弦值越接近于1,它們的方向更加吻合,則越相似。設(shè)向量A=(A1,A2,…,An),B=(B1,B2,…,Bn),則有:
(1)
計(jì)算S對(duì)V的代表性R(S):
(2)
其中,θij為幀vi和幀vj的余弦相似度;R(S)為S中每一幀和V中每幀相似度的最大值的和。
用vt表示當(dāng)前幀,首先假設(shè)vt是關(guān)鍵幀,則加入vt的關(guān)鍵幀集合S*(S*=S∪vt)對(duì)V的代表性一定會(huì)顯著提高。即(3)式大于0,說明當(dāng)前幀的加入提高了關(guān)鍵幀集合的代表性,可以作為候選關(guān)鍵幀。
(3)
因?yàn)闆]有明確需要提取的關(guān)鍵幀的個(gè)數(shù),而且(2)式是遞增的,會(huì)引起(3)式恒大于0,所以將導(dǎo)致所有的幀都被選為關(guān)鍵幀,很明顯不滿足對(duì)冗余度的要求。為了解決這個(gè)問題,本文給(2)式加上一個(gè)障礙項(xiàng),即要想證明自己具有代表性(代表新的事件或目標(biāo)),必須越過障礙,即
(4)
(5)
其中,|V|為視頻幀總數(shù);|S|為已選關(guān)鍵幀個(gè)數(shù)。
因?yàn)檎系K項(xiàng)恒大于0,所以不會(huì)改變(2)式的單調(diào)性,但是只有代表性增加到一定的程度,(3)式才能大于0,即越過障礙項(xiàng)才能證明當(dāng)前幀與眾不同(具有代表性)。這避免了所有幀都會(huì)被選為關(guān)鍵幀的情況,保證了只有幀的內(nèi)容囊括了視頻中某些重要事件或目標(biāo)時(shí)才有資格被選為關(guān)鍵幀。參數(shù)ρ對(duì)最終選取關(guān)鍵幀的數(shù)目影響重大,如果值偏小,則計(jì)算結(jié)果很容易跨過障礙項(xiàng),會(huì)選出很多的冗余幀;反之,如果值偏大,則會(huì)出現(xiàn)對(duì)重要場(chǎng)景遺漏的情況;根據(jù)視頻內(nèi)容的不同,不可能為關(guān)鍵幀數(shù)目設(shè)置一個(gè)統(tǒng)一的閾值,本文中ρ動(dòng)態(tài)取決于已選取的關(guān)鍵幀的代表性,這為自適應(yīng)確定關(guān)鍵幀數(shù)目奠定了基礎(chǔ);并且ρ的動(dòng)態(tài)取值也決定了障礙項(xiàng)的大小是根據(jù)具體場(chǎng)景自適應(yīng)調(diào)整的,面對(duì)內(nèi)容漸變的視頻時(shí),視頻內(nèi)容波動(dòng)得不那么劇烈,障礙項(xiàng)也相對(duì)較小,更不容易遺漏關(guān)鍵幀;最后φ=2是在對(duì)大量包含不同場(chǎng)景、光照等場(chǎng)景的視頻實(shí)驗(yàn)得出的經(jīng)驗(yàn)值。
2.2 冗余度檢查
關(guān)鍵幀提取技術(shù)的另一指標(biāo)是關(guān)鍵幀的冗余度,冗余幀的出現(xiàn)不僅沒有增加關(guān)鍵幀集合的代表性,反而會(huì)浪費(fèi)大量存儲(chǔ)空間,在遵循“寧多勿缺”的原則時(shí),再加上傳統(tǒng)方法對(duì)冗余幀檢查時(shí)使用的都是low-level特征,很容易造成誤檢,必然會(huì)出現(xiàn)很多冗余幀,因此單獨(dú)使用low-level特征非常不可靠。本文使用聯(lián)合目標(biāo)分割和顏色直方圖特征的high-level特征檢測(cè)幀的冗余,為圖像提供一個(gè)高層次級(jí)別的特征描述。首先,使用模糊區(qū)域分割技術(shù)將圖片中重要目標(biāo)分割出來;其次,針對(duì)目標(biāo)提取其顏色直方圖特征,并和關(guān)鍵幀集合作比較來檢測(cè)當(dāng)前目標(biāo)是否存在。
目標(biāo)分割使用一種叫做模糊粗糙區(qū)域分割的技術(shù)[10]。首先應(yīng)用分水嶺算法,初步提取場(chǎng)景中的目標(biāo);其次是一個(gè)根據(jù)直方圖相似性合并子分水嶺區(qū)域的區(qū)域增長(zhǎng)過程。在很多領(lǐng)域,這種分割技術(shù)都得到了廣泛的應(yīng)用,但分水嶺分割卻有一個(gè)致命的弱點(diǎn),那就是容易產(chǎn)生過分割,對(duì)于噪聲和細(xì)密紋理非常敏感,使其常常產(chǎn)生嚴(yán)重的過分割結(jié)果,另外針對(duì)分水嶺算法運(yùn)算量大,速度慢的問題,本文采取降分辨率的方法降低計(jì)算量。
針對(duì)過度分割的問題,直接應(yīng)用分水嶺分割算法的效果往往并不好,如果在圖像中對(duì)前景對(duì)象和背景對(duì)象進(jìn)行標(biāo)注區(qū)別,再應(yīng)用分水嶺算法會(huì)取得較好的分割效果。有多種方法可以用來獲得前景標(biāo)記,如形態(tài)學(xué)技術(shù)“基于開的重建”和“基于閉的重建”,這些標(biāo)記必須是前景對(duì)象內(nèi)部的連接斑點(diǎn)像素,這樣做的目的是減少小的積水盆,從而減少過分分割區(qū)域的數(shù)量。分割后處理即在應(yīng)用分水嶺分割之后對(duì)結(jié)果圖像進(jìn)行合并處理。初始分割會(huì)產(chǎn)生過多小區(qū)域,不同的合并準(zhǔn)則會(huì)得到不同的分割結(jié)果,本文基于相鄰區(qū)域的顏色直方圖匹配的合并準(zhǔn)則,得到的是目標(biāo)邊界,且是連續(xù)、閉合、等像素寬的邊界,如圖2所示。
在得到目標(biāo)后,提取所有目標(biāo)區(qū)域的顏色直方圖特征。傳統(tǒng)的RGB顏色模型的可分辨色差是非線性的,且不直觀,所以不是一個(gè)好的顏色描述系統(tǒng)。HSV顏色模型與人的視覺特征比較接近,它由色度H、飽和度S和亮度V 3個(gè)分量組成。因?yàn)檫@種模型具有線性伸縮性,而且可感知的色差與顏色分量相對(duì)應(yīng)樣值上的歐幾里德距離成正比,所以HSV顏色模型比RGB顏色模型更直觀、更容易被接受。用Dist(vi,vj)表示2幀重要目標(biāo)的HS直方圖的匹配程度(卡方距離[11]),若當(dāng)前幀和任一已經(jīng)選取的關(guān)鍵幀的前景直方圖匹配程度滿足一定閾值,則應(yīng)該將候選關(guān)鍵幀拋棄;反之,則說明包含重要目標(biāo),將候選關(guān)鍵幀加入關(guān)鍵幀集合。
圖2 模糊粗糙區(qū)域分割技術(shù)提取目標(biāo)
本文實(shí)驗(yàn)在Windows7系統(tǒng)環(huán)境下使用VS2010和OpenCV2.4.9實(shí)現(xiàn),機(jī)器內(nèi)存為2 G。為證明算法的有效性,測(cè)試大量的視頻(來自標(biāo)準(zhǔn)視頻庫(kù)OpenVideo),結(jié)果表明本文方法提取的關(guān)鍵幀能夠有效地突出視頻的內(nèi)容,關(guān)鍵幀的冗余度低,而且能夠自適應(yīng)確定關(guān)鍵幀數(shù)目。本文選擇了3個(gè)視頻來展示本文算法和核聚類算法[4]、自適應(yīng)的幀差法和直方圖平均法等經(jīng)典算法的效果對(duì)比,結(jié)果見表1所列。
表1 測(cè)試視頻結(jié)果
視頻關(guān)鍵幀提取算法的評(píng)估可以使用查全率和冗余度來衡量。查全率就是正確檢出的關(guān)鍵幀數(shù)占實(shí)際關(guān)鍵幀數(shù)的比例,冗余度就是冗余幀占所有檢出的關(guān)鍵幀數(shù)的比例。
第1個(gè)視頻描述了有關(guān)航天領(lǐng)域的一些畫面,共9個(gè)主要場(chǎng)景,這個(gè)視頻最大的特點(diǎn)就是場(chǎng)景切換時(shí)過渡非常平緩。4種方法的提取效果如圖3所示,結(jié)果表明本文提出的算法對(duì)內(nèi)容漸變視頻的提取結(jié)果比其他方法更優(yōu)。
第2、第3個(gè)視頻分別包含22、34個(gè)場(chǎng)景,場(chǎng)景變化復(fù)雜多樣,視頻2展現(xiàn)的是一系列的自然風(fēng)景,大海、火山爆發(fā)、峽谷等,視頻3描述地震前后城市的廢墟、市民活動(dòng)及重建后面貌的場(chǎng)景。本文提出的算法和3種經(jīng)典算法的效果對(duì)比見表2、表3所列。
圖3 第1個(gè)視頻提取的關(guān)鍵幀
方法目測(cè)場(chǎng)景個(gè)數(shù)查全率/%冗余度/%核聚類算法228230.7自適應(yīng)幀差法229120.0直方圖平均法227722.7本文算法229516.0
表3 4種算法對(duì)第3個(gè)視頻提取結(jié)果比較
通過對(duì)實(shí)驗(yàn)數(shù)據(jù)的對(duì)比分析表明,本文提出的算法相比于其他幾種方法擁有更高的查全率和更低的冗余度。體現(xiàn)出使用本文算法所提取的關(guān)鍵幀具有代表性,能夠更加全面地突出視頻的主要內(nèi)容,并且能夠更有效地控制冗余幀。
本文使用基于HOG的幀代表性計(jì)算指標(biāo)量化了幀的重要程度,自適應(yīng)變化的障礙項(xiàng)使本文算法對(duì)內(nèi)容漸變的視頻的處理結(jié)果比其他方法效果更好,提取的關(guān)鍵幀較全面地突出了視頻的主要內(nèi)容;然后利用高級(jí)特征進(jìn)行冗余幀檢查,節(jié)約了存儲(chǔ)空間。
實(shí)驗(yàn)結(jié)果表明該算法具有以下特點(diǎn):① 能夠根據(jù)視頻內(nèi)容自適應(yīng)確定關(guān)鍵幀數(shù)目;② 更加細(xì)致、全面地突出視頻的主要內(nèi)容;③ 更好地控制冗余幀。本文算法對(duì)背景很復(fù)雜的視頻處理效果有待提高,今后的研究工作將進(jìn)一步提高算法對(duì)場(chǎng)景更加復(fù)雜的視頻的魯棒性。
[1] NAGASAKA A,TANAKA Y.Automatic video indexing and full-video search for object appearance[J].Information Processing Society of Japan,1992,33(4):543-550.
[2] WOLF W.Key frame selection by motion analysis[C]//IEEE Int Conf On Acoustics,Speech,and Signal Processing Atlanta:[s.n.],1996:1228-1231.
[3] HANJALIC A,ZHANG H J.An integrated scheme for automated video abstraction based on unsupervised cluster-validity analysis[J].IEEE Transaction on Circuits and Systems for Video Technology,1999,9(8):1280-1289.
[4] ZHUANG Y T,RUI Y,HUANG T S,et al.Adaptive key frame extraction using unsupervised clustering[C]//International Conference on Image Processing[S.l.]:IEEE,1998:866-870.
[5] ZHANG H J,WU J H,ZHONG D.An integrated system for content-based video retrieval and browsing[J].Pattern Recognition,1997,30(4): 643-658.
[7] CHAKRABORTY S,TICKOO O,IYER R.Adaptive keyframe selection for video summarization[C]//IEEE Winter Conference,2015:702-709.
[8] BARHOUM W,ZHGROUBA E.On-the-fly extraction of key frames for efficient video summarization[J].AASRI Procedia,2013,4:78-84.
[9] DALAL N,TRIGGS B.Histograms of oriented gradients for human detection[C]//IEEE Conference on Computer Vision & Pattern Recognition.Washington,D.C.:IEEE Computer Society,2005:886-893.
[10] BARHOUMI W,GALLAS A,ZAGROUBA E.Effective region-based relevance feedback for interactive content based image retrieval[J].Studies in Computational Intelligence,2009,226:177-187.
[11] IEE Y J,GHOSH J,GRAUMAN K.Discovering important people and objects for egocentric video summarization[C]//IEEE Conference on Washington,D.C.:IEEE Computer Society,2012:1346-1353.
(責(zé)任編輯 張 镅)
A novel adaptive video key frame extraction method
WANG Yu, WANG Ronggui, YANG Juan
(School of Computer and Information, Hefei University of Technology, Hefei 230009, China)
In view of the problems in the existing methods of key frame extraction including the difficulty in determining the critical number of key frames, the unsatisfied treatment effect of the gradient of the content of video and the complex algorithm, an adaptive video key frame extraction method is proposed. Firstly, the value of representativeness of current frame is calculated by using histogram of oriented gradients(HOG) and the candidate key frame is selected. Then the redundancy check is made by using the target partition and color histogram features to determine the set of key frames. The experiments are carried out by means of a large number of videos containing various scenes, and the results show that the key frames extracted by the proposed algorithm can describe the main content of the video more comprehensively, the effect is better especially when dealing with a gradient of video content, and the key frame number can be determined adaptively according to the content of the video.
key frame; color histogram; histogram of oriented gradients(HOG); target partition; adaptive
2015-08-07;
2016-01-07
國(guó)家自然科學(xué)基金資助項(xiàng)目(61075032); 安徽省自然科學(xué)基金資助項(xiàng)目(J2014AKZR0055)
王 宇(1992-),男,安徽靈璧人,合肥工業(yè)大學(xué)碩士生; 汪榮貴(1966-),男,安徽池州人,博士,合肥工業(yè)大學(xué)教授,博士生導(dǎo)師.
10.3969/j.issn.1003-5060.2016.11.009
TP391
A
1003-5060(2016)11-1483-06