周柏清,黃 淼,任勇軍
(1.湖州職業(yè)技術(shù)學(xué)院 信息工程分院,浙江 湖州 313000;2.平頂山學(xué)院 軟件學(xué)院,河南 平頂山 467000;3.南京信息工程大學(xué) 計(jì)算機(jī)與軟件學(xué)院,江蘇 南京 210044)
?
基于視覺(jué)特征提取的壓縮域在線視頻摘要快速提取
周柏清1,黃淼2,任勇軍3
(1.湖州職業(yè)技術(shù)學(xué)院 信息工程分院,浙江 湖州 313000;2.平頂山學(xué)院 軟件學(xué)院,河南 平頂山 467000;3.南京信息工程大學(xué) 計(jì)算機(jī)與軟件學(xué)院,江蘇 南京 210044)
摘要:為了在有限的時(shí)間內(nèi)產(chǎn)生質(zhì)量可接受的視頻摘要以達(dá)到在線使用的要求,提出一種基于視覺(jué)特征提取(visual features extraction ,VFE)的壓縮域視頻摘要快速提取方法。從每幀輸入視頻中提取視覺(jué)特征,采用零均值歸一化交叉相關(guān)(zero mean normalized cross correlation,ZNCC)指標(biāo)檢測(cè)有相似內(nèi)容的視頻幀組,為每組選擇代表性幀,運(yùn)用2個(gè)量化直方圖過(guò)濾所選擇的幀,從而避免視頻摘要中可能的冗余或無(wú)意義幀。在視頻檢索國(guó)際權(quán)威評(píng)測(cè)(TREC video retrieval evaluation,TRECVID)2007數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,與基于聚類(lèi)的高斯混合模型、基于熵的模糊C均值聚類(lèi)和關(guān)鍵幀提取方法相比,該方法提取的視頻摘要質(zhì)量更高,且在時(shí)間和空間復(fù)雜度上具有明顯優(yōu)勢(shì),適合在線實(shí)時(shí)處理。
關(guān)鍵詞:視頻摘要;壓縮域;視覺(jué)特征提取(VFE);量化直方圖;TRECVID 2007
0引言
隨著大數(shù)據(jù)時(shí)代的到來(lái),視頻數(shù)據(jù)充斥著工作和生活,如何從冗余數(shù)據(jù)中獲取需要的視頻數(shù)據(jù)是一個(gè)亟待解決的問(wèn)題[1]。所需要的視頻即視頻摘要是一個(gè)精簡(jiǎn)版的視頻序列,近些年隨著高清視頻的普及和網(wǎng)絡(luò)帶寬過(guò)剩, 獲取高質(zhì)量視頻摘要的呼聲越來(lái)越高,為了在線產(chǎn)生高質(zhì)量視頻摘要,解決方案必須高效且漸進(jìn)執(zhí)行,用戶大多需要在下載視頻數(shù)據(jù)過(guò)程中能產(chǎn)生高質(zhì)量的視頻摘要。
一般視頻摘要提取有2種不同類(lèi)型:靜態(tài)視頻情節(jié)提取,是從原始視頻中提取視頻幀的集合,如文獻(xiàn)[1-3]就是靜態(tài)視頻摘要;另一種是動(dòng)態(tài)視頻剪輯,它是一組視頻短片,加入序列,并作為視頻播放,如文獻(xiàn)[4-5]。動(dòng)態(tài)視頻剪輯算法框架可以按照非壓縮域[5-7]和壓縮域[8-9]分組。
文獻(xiàn)[5]提出了一種通過(guò)采用一個(gè)高層次特征融合的方法來(lái)提取視頻摘要。首先,預(yù)采樣步驟是為了丟棄大量的冗余信息,接著,在剩余的幀中提取5個(gè)高層次的特征;之后,通過(guò)梯度下降方法組合這些功能的最優(yōu)權(quán)重;最后,用加權(quán)k均值算法識(shí)別構(gòu)成最終摘要中最重要的段。這種利用高層次的特征提取視頻摘要可以產(chǎn)生不錯(cuò)的效果,但是需要離線操作,時(shí)間和存儲(chǔ)開(kāi)銷(xiāo)都非常大,無(wú)法適應(yīng)在線提取視頻摘要。
文獻(xiàn)[6]提出了一種聚類(lèi)算法,以同類(lèi)色配合視頻幀組。首先,視頻序列分解成片段,基于顏色矩相似幀分組;接著,采用基于粗糙集理論的譜聚類(lèi)(rough-set based spectral clustering, RSC)方法聚類(lèi)這些片段,屬于同一個(gè)集群的連續(xù)片段結(jié)合;然后,相鄰的段被合并,以便減少冗余;最后,從最長(zhǎng)段幀的子集選擇得到視頻摘要。與文獻(xiàn)[6]類(lèi)似,文獻(xiàn)[7]將輸入視頻轉(zhuǎn)換成基于顏色直方圖的鏡頭。此后,將它們應(yīng)用貪婪RSC方法進(jìn)行相鄰鏡頭的合并,進(jìn)而減少了冗余。在結(jié)束時(shí),具有最高運(yùn)動(dòng)部分的視頻幀才能包括在摘要中。文獻(xiàn)[6-7]雖然一定程度上減少了冗余信息,但只適合離線提取視頻摘要。
文獻(xiàn)[8]提出了一種技術(shù)以解決視頻摘要問(wèn)題,通過(guò)故事結(jié)構(gòu)與視頻拍攝的動(dòng)力學(xué)表征信息來(lái)組合,通過(guò)對(duì)視頻流的部分譯碼,計(jì)算估計(jì)每個(gè)鏡頭的視頻摘要貢獻(xiàn)的運(yùn)動(dòng)描述符。接著,利用隱馬爾可夫模型(hidden markov model, HMM)模擬拍攝順序,最后,視頻摘要作為觀測(cè)序列生成,其中較高概率分配給動(dòng)態(tài)拍攝。文獻(xiàn)[8]利用HMM,是個(gè)不錯(cuò)的策略,在壓縮域取得一些效果,不過(guò)內(nèi)容的分析必須在完整可用的數(shù)據(jù)上執(zhí)行,而網(wǎng)絡(luò)數(shù)據(jù)總是滿足這一條件。
文獻(xiàn)[9]提出了一個(gè)基于熵的模糊C均值聚類(lèi)的摘要算法。最初,從每個(gè)圖片組序列(groups of pictures, GOP)的I-幀的數(shù)碼相機(jī)(digital camera,DC)圖像提取顏色布局描述符;接著,通過(guò)比較連續(xù)GOP特征向量之間的相異度,輸入序列分割為視頻鏡頭;之后,聚類(lèi)方法用于鏡頭分組;最后,使用交互式定級(jí)過(guò)程獲得視頻摘要。文獻(xiàn)[9]聚類(lèi)算法的應(yīng)用提高了壓縮域上的操作,其局限和文獻(xiàn)[8]一樣,必須在完整可用數(shù)據(jù)上執(zhí)行。
在眾多解決方案中,很多研究側(cè)重非壓縮域[5-7],盡管它們有些能產(chǎn)生不錯(cuò)的質(zhì)量,但非常耗時(shí),而且存儲(chǔ)空間也巨大,即它們只適用于離線使用,很難達(dá)到在線操作的要求。而壓縮域可作為加速計(jì)算性能的替代者[8-9],盡管那些策略有效,但內(nèi)容分析必須在所有完整可用的數(shù)據(jù)上執(zhí)行,限制了在線操作模式。因此,本文提出一種基于視覺(jué)特征提取(visual features extraction, VFE)的視頻摘要快速提取方法,直接在壓縮域運(yùn)行,它依賴(lài)于視頻的視覺(jué)特征和簡(jiǎn)單快速的視頻相似內(nèi)容檢測(cè),本文框架以遞進(jìn)方式產(chǎn)生輸出摘要。計(jì)算上的改進(jìn)使該技術(shù)框架適用于在線操作。
1MPEG-1/2/3/4
MPGE視頻主要由三類(lèi)圖片組成:幀內(nèi)編碼(I-幀)、幀間預(yù)測(cè)(P-幀)和雙向預(yù)測(cè)(B-幀),這些圖片組織成MPEG視頻流中的GOP。
GOP必須以I-幀開(kāi)始,然后是任意數(shù)目的I和P幀,它們?yōu)殄^幀。每對(duì)連續(xù)錨幀之間可出現(xiàn)多個(gè)B-幀。圖1給出了一種典型的GOP結(jié)構(gòu)。
I-幀不參考任意其他視頻幀,因此,可獨(dú)立編碼,為快速訪問(wèn)壓縮視頻提供一個(gè)入口點(diǎn)。另一方面,P-幀編碼基于2個(gè)錨幀,前1個(gè)以及后1個(gè)錨幀。
每個(gè)I-幀劃分為一個(gè)無(wú)重疊宏序列,對(duì)于以4∶2∶0格式編碼的視頻,每個(gè)宏包括6個(gè)8×8像素塊,4個(gè)亮度(Y)塊和2個(gè)色度(CbCr)塊,每個(gè)宏完全內(nèi)編碼,因此,使用離散余弦變換(discrete cosine transform, DCT)轉(zhuǎn)換每個(gè)8×8像素塊到頻域,然后量化(有損)和熵(運(yùn)行長(zhǎng)度和霍夫曼,無(wú)損)編碼64個(gè)DCT系數(shù),實(shí)現(xiàn)壓縮。
圖1 MPEG視頻中的GOPFig.1 GOP of MPEG video
2壓縮域視頻摘要快速提取方法
本文方法包括3個(gè)主要步驟:①特征提取;②內(nèi)容選擇;③噪聲過(guò)濾。流程圖如圖2所示,從每幀輸入視頻流中提取視覺(jué)特征,接著使用一種簡(jiǎn)單快速算法檢測(cè)相似內(nèi)容的視頻幀組,并為每個(gè)組選擇代表性視頻幀,最后,過(guò)濾選擇的幀,以避免視頻摘要中可能的冗余或無(wú)意義幀。下面詳細(xì)介紹每個(gè)步驟。
圖2 本文方法流程圖Fig.2 Flow chart of proposed method
2.1特征提取
將視頻流劃分為一組有意義可管理的單元,大部分視頻編碼基于GOP,作為基本單元。I-幀包括表征整個(gè)GOP內(nèi)容足夠多的信息。
原始圖像劃分為8×8像素塊,每個(gè)塊轉(zhuǎn)換為64個(gè)DCT系數(shù)來(lái)執(zhí)行MPEG視頻的I-幀壓縮,DC項(xiàng)c(0,0)通過(guò)(1)式[10]與像素值f(i,j)相關(guān)
(1)
即DC項(xiàng)的值是像素塊平均強(qiáng)度的8倍,若提取所有塊的DC項(xiàng),可使用這些值形成原始圖像的縮減版本,這個(gè)相似圖像便是DC圖像[10]。盡管DC圖像的大小僅為原始圖像的1/64,但它仍然保留了重要信息量,因此,在原始圖像上執(zhí)行全局特征提取可應(yīng)用于DC圖像。圖3給出了大小為352×288的圖像,其對(duì)應(yīng)的DC圖像大小為44×36。雖然DC圖像縮減了尺寸,但它們未壓縮,需要大量存儲(chǔ)空間。為了保存待存儲(chǔ)的數(shù)據(jù),可通過(guò)計(jì)算彩色直方圖[11]將每個(gè)DC圖像變換為一個(gè)256維特征向量。該技術(shù)計(jì)算量小,且對(duì)攝像機(jī)位置的微小變化具有魯棒性。本文從色度,飽和度,純度(hue,saturation,value,HSV)顏色空間獲得了彩色直方圖,更能抵御噪聲,HSV空間的彩色直方圖提取如下:HSV顏色空間劃分為256個(gè)子空間,使用H的32個(gè)范圍、S的4個(gè)范圍和V 的2個(gè)范圍,特征向量的每個(gè)維度值是整個(gè)DC圖像中每個(gè)顏色的空間密度。
圖3 原始圖像352×288和其DC圖像44×36Fig.3 Original image 352 x 288 and its DC images 44×36
2.2內(nèi)容選擇
利用從壓縮視頻中提取的彩色直方圖來(lái)檢測(cè)具有相似內(nèi)容的視頻幀組,并選擇每組中具有代表性的視頻幀,以產(chǎn)生視頻摘要。分組相似幀的有效性依賴(lài)于2個(gè)幀所用的相似度指標(biāo)。本文采用零均值歸一化交叉相關(guān)(zero-meannormalizedcrosscorrelation,ZNCC)指標(biāo)[12]作為2個(gè)幀之間的距離函數(shù),該函數(shù)對(duì)光照仿射變換具有不變性,因此,這類(lèi)度量廣泛用于模板匹配、運(yùn)動(dòng)分析等。
(2)
(2)式中,Ht1和Ht2分別是在t1和t2時(shí)刻從視頻幀提取的彩色直方圖。該函數(shù)返回一個(gè)從-1(-1表示直方圖完全不相似)到+1(+1表示相等)的實(shí)數(shù)。
為了檢測(cè)視頻幀組,本文計(jì)算了連續(xù)幀的成對(duì)不相似度。圖4給出了這些值按時(shí)間分布的例子,從圖4中可以觀察到有一些瞬時(shí)時(shí)刻視頻幀之間的不相似度差別很大(對(duì)應(yīng)峰值),而更長(zhǎng)周期內(nèi)則變化較小(對(duì)應(yīng)非常密集的區(qū)域)。通常,峰值對(duì)應(yīng)于視頻中突然的動(dòng)作或場(chǎng)景變換,而視頻幀在密集區(qū)域更相似。因此,2個(gè)峰值之間的幀可視作具有相似內(nèi)容的幀組。本文僅考慮特定時(shí)刻的峰值。
圖4 TRECVID2007數(shù)據(jù)集的視頻MRS150072幀之間的兩兩相異性Fig.4 Diversity between MRS150072 frame in TRECVID2007 data set
(3)
(3)式中,ε是相似幀之間不相似度的閾值。通過(guò)實(shí)驗(yàn)測(cè)試,發(fā)現(xiàn)該值取0.05—0.15是不錯(cuò)的選擇[13]。
若相似幀序列的持續(xù)時(shí)間小于最小值,則丟棄所有這些幀,否則,選擇這個(gè)序列中一段代表一個(gè)幀組。即當(dāng)且僅當(dāng)幀組大于閾值λ時(shí),幀組可用作摘要。根據(jù)經(jīng)驗(yàn),相似幀視頻持續(xù)時(shí)間占總的視頻序列0.5%—2%是一個(gè)良好的選擇。
最后,通過(guò)以用戶定義的速率提取視頻幀段,本文僅選擇I-幀(情節(jié)摘要)或整個(gè)GOP(視頻剪輯)。本文僅15%的幀組包括在視頻摘要中,通過(guò)本方法選擇的視頻幀如圖5所示,對(duì)TRECVID 2007數(shù)據(jù)集的視頻MRS150072取每段中間的I-幀。
2.3噪聲過(guò)濾
噪聲過(guò)濾是避免視頻摘要中可能的冗余或無(wú)意義幀,因?yàn)槔鴰腿哂喽慰赡軙?huì)影響視頻摘要的質(zhì)量。垃圾幀通常出現(xiàn)在每個(gè)鏡頭的開(kāi)始或末尾,例如測(cè)試圖案、拍手板、單色幀等。冗余幀源自重復(fù)序列。
圖5 對(duì)TRECVID2007數(shù)據(jù)集的視頻MRS150072選定幀F(xiàn)ig.5 Selected frame for MRS150072 video in TRECVID2007 data sets
當(dāng)選擇一個(gè)新的視頻幀組成視頻摘要時(shí),若它不是必須幀,則丟棄它。接著檢查分析該幀是否有用,為此,從其量化的圖像計(jì)算2個(gè)直方圖:一個(gè)用于顏色分布,另一個(gè)用于梯度方向,原始直方圖有36個(gè)bins,覆蓋360°方向。圖6解釋了各類(lèi)視頻幀的直方圖的行為,值得一提的是,垃圾幀的分布是均勻分布,這使得bins之間差異較大,因此,若直方圖的歸一化差異大于預(yù)定義閾值,本文將丟棄這個(gè)輸入幀,否則,比較它與視頻摘要的所有幀。比較視頻幀的算法依賴(lài)于量化圖像之間的像素對(duì)匹配,如果2個(gè)對(duì)應(yīng)像素的強(qiáng)度值不同或它們對(duì)應(yīng)4鄰域之一擁有不同的量化顏色,則它們不相似,否則認(rèn)為它們相似。因此,這些幀之間的相似度通過(guò)相似像素?cái)?shù)與總像素?cái)?shù)的比率測(cè)量,如果它們之間的相似度大于0.05,則2個(gè)視頻幀匹配。如果匹配幀與從幀組選擇的總幀數(shù)的比率低于最小值,則這個(gè)段中所有幀都包括在視頻摘要中。否則,假設(shè)它們都屬于冗余段,丟棄它們。按照經(jīng)驗(yàn),比率小于50%是個(gè)不錯(cuò)的選擇[13]。圖7為利用本文方法經(jīng)過(guò)噪聲過(guò)濾后的TRECVID 2007數(shù)據(jù)集的視頻MRS150072。
3實(shí)驗(yàn)與分析
3.1實(shí)驗(yàn)數(shù)據(jù)集
本文所用數(shù)據(jù)集為T(mén)RECVID2007數(shù)據(jù)集[14],大約5小時(shí)的視頻(409 630幀),所有視頻是MPEG-1格式(352×288分辨率、幀率為25 fame/s),顏色和聲音等均未剪輯,鏡頭主要為英國(guó)廣播公司戲劇節(jié)目的5大系列。這些視頻取自制作電影或紀(jì)錄片的拍攝過(guò)程中,是來(lái)自攝像機(jī)的原始記錄,一般在6—34 min變化,由于拍攝現(xiàn)場(chǎng)動(dòng)作表現(xiàn)或意外失誤的變化,會(huì)有一些同樣的場(chǎng)景記錄在視頻序列。此外,它們還含有輔助數(shù)據(jù),如測(cè)試圖案,以校準(zhǔn)攝像機(jī)的顏色,或拍板序列。
圖6顏色直方圖(第2列)、方向直方圖(第3列)和正常行為(第1行),單色幀(第2行)和彩條幀(第3行)
Fig.6Color histograms (second column), orientation histograms (third column), normal behavior (first row), monochrome (second row) and color-bar (third row) frames
圖7 經(jīng)過(guò)噪聲過(guò)濾后的TRECVID 2007數(shù)據(jù)集
3.2實(shí)驗(yàn)評(píng)估框架與參數(shù)設(shè)置
與其他的研究領(lǐng)域不同,評(píng)價(jià)一個(gè)視頻摘要并非簡(jiǎn)單,常常需要一致的評(píng)估框架。文獻(xiàn)[1,15]都有自己的評(píng)估方法,但沒(méi)有任何性能分析。本文的評(píng)價(jià)方法與文獻(xiàn)[14]一樣,在這種方法中,地面實(shí)況是發(fā)生在原始視頻中重要的視頻段,每個(gè)視頻段確定了鮮明的物體或事件,使用拍攝角度、距離或者其他信息決定是否合格。每一個(gè)視頻摘要由多少地面實(shí)況(inclusions, IN)和多少重復(fù)材料(eedundancy, RE)來(lái)判斷,另外本文還采用2個(gè)額外評(píng)估項(xiàng):相對(duì)于原始視頻的持續(xù)時(shí)間(duration, DU)和垃圾幀(junk, JU)所占份額。
本文方法制作視頻摘要的參數(shù):ε設(shè)定為0.075,λ為給定視頻長(zhǎng)度的0.5%,κ為所選擇幀的25%。手動(dòng)注釋TRECVID 2007數(shù)據(jù)集視頻的所有幀為正常、單色或彩條,接著計(jì)算每個(gè)幀的顏色和方向直方圖的歸一化差異,選擇用于選擇濾出垃圾幀的閾值。
3.3視頻摘要質(zhì)量與運(yùn)行成本比較
所有實(shí)驗(yàn)均在英特爾酷睿2四核Q6600處理器上執(zhí)行(四核運(yùn)行頻率為2.4 GHz),2 GByte的DDR3內(nèi)存。將本文方法生成的視頻摘要質(zhì)量與文獻(xiàn)[6]提出的基于聚類(lèi)的高斯混合模型、文獻(xiàn)[9]提出的基于熵的模糊C均值聚類(lèi)和關(guān)鍵幀提取方法進(jìn)行比較,比較結(jié)果如圖8所示。整體結(jié)果表示為杜克式盒狀圖,如圖9所示。
圖8 各個(gè)方法產(chǎn)生視頻摘要質(zhì)量Fig.8 Video summarization quality of each method
圖9 杜克式盒形圖示例Fig.9 Sample of Duke box figure
實(shí)驗(yàn)結(jié)果表明,在視頻摘要中的IN以及原始視頻的DU方面,本文方法與其他方法質(zhì)量差不多,但在RE和JU所占份額方面優(yōu)于其他算法。為了驗(yàn)證這些結(jié)果的統(tǒng)計(jì)顯著性,需要計(jì)算它們之間差異的置信區(qū)間,進(jìn)而比較每對(duì)方法。若置信區(qū)間包括零,則差異在該置信水平上不顯著,否則差異顯著。
表1是95%置信度下不同方法的差異對(duì)比,實(shí)驗(yàn)分析表明,這些方法產(chǎn)生的視頻摘要的IN和持續(xù)時(shí)間DU相似。因此,其他度量的置信區(qū)間不包括零,結(jié)果證實(shí),本方法相對(duì)于其他方法能產(chǎn)生更優(yōu)質(zhì)量的摘要(擁有最高RE和JU)。
表1 95%置信度下不同方法的差異
由于產(chǎn)生視頻摘要所需的時(shí)間依賴(lài)于硬件,且所有待比較方法的源代碼不可用,這里只能做相對(duì)性能差異。表2為所有比較方法的計(jì)算成本和空間需求(相對(duì)于幀數(shù)n和特征向量的維度d)。
表2 各種方法的計(jì)算成本和空間需求
從表2可以看出,本文方法的計(jì)算成本和空間需求低于其他2種比較方法,本文方法采用ZNCC指標(biāo)作為2個(gè)幀之間的距離函數(shù),該函數(shù)對(duì)光照仿射變換具有不變性,可實(shí)現(xiàn)快速的相似度檢測(cè),通過(guò)噪聲過(guò)濾避免視頻摘要中可能的冗余或無(wú)意義幀,進(jìn)一步降低了計(jì)算開(kāi)銷(xiāo)。
4結(jié)束語(yǔ)
本文提出了一種基于視覺(jué)特征的視頻摘要提取方法,采用零均值歸一化交叉相關(guān)指標(biāo)檢測(cè)有相似內(nèi)容的視頻幀組,為每組選擇代表性幀,運(yùn)用2個(gè)量化直方圖過(guò)濾所選擇的幀,避免了視頻摘要中可能的冗余或無(wú)意義幀。本文方法可直接在壓縮域運(yùn)行,實(shí)現(xiàn)視頻摘要的遞進(jìn)生成,適用于視頻摘要的在線生成。在TRECVID2007數(shù)據(jù)集(BBC未剪輯摘要任務(wù))的實(shí)驗(yàn)表明,本文方法能產(chǎn)生高質(zhì)量視頻摘要,且計(jì)算開(kāi)銷(xiāo)低于目前幾種較為先進(jìn)的方法。
本文方法也可采用其他視覺(jué)特征和相似度指標(biāo)的評(píng)估,另外用于局部特征和運(yùn)動(dòng)分析將是不錯(cuò)的選擇,這將是未來(lái)工作的重點(diǎn)。
參考文獻(xiàn):
[1]WANG L, WANG W, JIAN M A, et al. Perceptual video encryption scheme for mobile application based on H. 264[J]. The Journal of China Universities of Posts and Telecommunications, 2008, 15(4): 73-78.
[2]陳佳, 滕東興, 楊海燕,等. 一種草圖形式的視頻摘要生成方法[J]. 中國(guó)圖象圖形學(xué)報(bào), 2010, 43(8): 1139-1144.
CHEN Jia, TENG Dongxin, YANG Haiyan, et al. A generating method for video abstraction of the form of sketches [J]. Journal of Image and Graphics, 2010, 43(8): 1139-1144.
[3]羅斌, 戴玉名, 翟素蘭. 自適應(yīng)CCV及等價(jià)關(guān)系聚類(lèi)的視頻摘要的生成[J]. 重慶大學(xué)學(xué)報(bào):自然科學(xué)版, 2010, 18 (2) : 69-72.
LUO Bin, DAI Yuming, ZHAI Sulan. Video summarization generation based on adaptive CCV and equivalent relation clustering [J]. Journal of chongqing university: Natural Science Edition, 2010, 18 (2) : 69-72.
[4]吳華, 馮達(dá), 柳長(zhǎng)安,等. 基于導(dǎo)航信息的架空電力線巡檢視頻摘要[J]. 華中科技大學(xué)學(xué)報(bào):自然科學(xué)版,2013, 41(1): 1120-1126.
WU Hua, FENG Da, LIU Changan, et al. Overhead power line inspection video abstract based on the navigation information [J]. Journal of Huazhong University of Science and Technology:Natural Science Edition, 2013, 41 (1): 1120-1126.
[5]KLEBAN J, SARKAR A, MOXLEY E, et al. Feature fusion and redundancy pruning for rush video summarization [C]//Proceedings of the international workshop on TRECVID video summarization (TVS).Augsburg, Bavaria, Germany:ACM, 2007: 84-88.
[6]OU S H, LEE C H, SOMAYAZULU V S, et al. Low complexity on-line video summarization with Gaussian mixture model based clustering[C]// IEEE.Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on.Dresden, Germany:IEEE Press, 2014, 1260-1264.
[7]CHASANIS V, LIKAS A, GALATSANOS N. Video Rushes Summarization Using Spectral Clustering and Sequence Alignment[C]//Proc.Workshop on TRECVID Video Summarization,Vancouver. Ljubljana, Slovenia:IEEE Press,2008: 75-79.
[8]PIACENZA A, GUERRINI F, ADAMI N, et al. Markov chains fusion for video scenes generation[C]//IEEE.Signal Processing Conference (EUSIPCO), 2012 Proceedings of the 20th European.Ljubljana,Slovenia:IEEE Press, 2012: 405-409.
[9]ANGADI S, NAIK V. Entropy Based Fuzzy C Means Clustering and Key Frame Extraction for Sports Video Summarization[C]//IEEE.Signal and Image Processing (ICSIP), 2014 Fifth International Conference on, Piscataway, NJ:IEEE Press, 2014: 271-279.
[10] 劉哲. 基于視頻壓縮感知的編碼端速率控制研究[D].西安:西安電子科技大學(xué), 2013.
LIU Zhe. The research of coding rate control based on video compression perception [D].Xi 'an:Xi 'an university of electronic science and technology, 2013.
[11] 李延龍, 李太君, 羅其朝. 基于顏色空間特性的圖像檢索[J]. 海南大學(xué)學(xué)報(bào): 自然科學(xué)版, 2013, 31(4): 344-348.
LI Yanglong, LI Taijun, LUO Qizhao. Image retrieval based on color space characteristics [J].Journal of Hainan University: Natural Science Edition, 2013, 31 (4) : 344-348.
[12] LU J, ZHAO D, JI W. Research on matching recognition method of oscillating fruit for apple harvesting robot[J]. Transactions of the Chinese Society of Agricultural Engineering, 2013, 29(20): 32-39.
[13] ALMEIDA J, LEITE N J, TORRES R Da S.VISON: VIdeo summarization for Online applications[J].Pattern Recognition Letters,2012, 33(4): 397-409.
[14] METZE F, DING D, YOUNESSIAN E, et al. Beyond audio and video retrieval: topic-oriented multimedia summarization[J].International Journal of Multimedia Information Retrieval, 2013, 2(2): 131-144.
[15] 宋杰, 徐丹, 時(shí)永杰. 視覺(jué)感知的圖像和視頻抽象[J]. 中國(guó)圖象圖形學(xué)報(bào), 2013, 18(4): 450-908.
SONG Jie, XU Dan, SHI Yongjie. The image and video abstract of visual perception [J]. Chinese journal of image and graphics, 2013, 18(4): 450-908.
Online video abstract extraction based on visual features in compressed domain
ZHOU Baiqing1, HUANG Miao2, REN Yongjun3
(1.Faculty of Information Technology, Huzhou Vocational & Technical College, Huzhou 313000, P.R.China;2.School of Software, Pingdingshan University, Pingdingshan 467000, P.R.China;3.School of Computer & Software, Nanjing University of Information Science & Technology, Nanjing 210044, P.R.China)
Abstract:In order to produce acceptable quality of video abstract in a limited period of time, and achieve the online requirement, a fast video summarization method in compressed domain based on visual features extraction (VFE) is proposed. Firstly, visual features from each frame of the input video are extracted. Then, the zero mean normalized cross correlation (ZNCC) is used to detect similar content video frames, and the representative frames for each group are selected. Finally, two quantized-histogram filters are used to select frames to avoid possible video redundant or meaningless frames. The experimental results on the TREC video retrieval evaluation(TRECVID) 2007 data show that proposed method has higher video summary quality than the Gaussian mixture model based on clustering, entropy based fuzzy C means clustering and key frame extraction method, it has obvious dominance in the time and space complexity, and it is suitable for online real-time processing.
Keywords:video summary; compressed domain; visual features extraction (VFE); quantized-histogram; TREC video retrieval evaluation(TRECVID) 2007
DOI:10.3979/j.issn.1673-825X.2016.02.021
收稿日期:2014-12-19
修訂日期:2015-10-09通訊作者:周柏清zhoubqzjhz@163.com
基金項(xiàng)目:國(guó)家自然科學(xué)基金(61304205,61300236)
Foundation Items:The Natural Science Foundation of China (61304205, 61300236)
中圖分類(lèi)號(hào):TP391
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1673-825X(2016)02-0273-070
作者簡(jiǎn)介:
周柏清(1974-),女,浙江金華人,講師,碩士,研究領(lǐng)域?yàn)橐曨l處理、圖像處理等。E-mail:zhoubqzjhz@163.com。
黃淼(1982-),女,河南社旗人,講師,碩士,研究領(lǐng)域?yàn)閳D形圖像處理、視頻處理等。
任勇軍(1974-),男,江蘇南京人,副教授,博士后,研究領(lǐng)域?yàn)橐曨l處理、信息安全等。
(編輯:王敏琦)