亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于時序上下文的視頻場景分類

2014-04-03 01:44:52彭太樂張文俊丁友東郭桂芳

計算機工程與應(yīng)用 2014年9期

關(guān)鍵詞：關(guān)鍵幀時序分類

彭太樂，張文俊，丁友東，郭桂芳

PENG Taile1，2,ZHANG Wenjun3,DING Youdong3,GUO Guifang2

1.上海大學(xué) 通信與信息工程學(xué)院，上海 200072

2.淮北師范大學(xué) 計算機科學(xué)與技術(shù)學(xué)院，安徽淮北 235000

3.上海大學(xué) 影視藝術(shù)技術(shù)學(xué)院，上海 200072

1.School of Communication&Information Engineering,Shanghai University,Shanghai 200072,China

2.School of Computer Science and Technology,Huaibei Normal University,Huaibei,Anhui 235000,China

3.School of Film and TV Arts&Technology,Shanghai University,Shanghai 200072,China

1 引言

隨著YouTube、YouKu、Baidu視頻這樣的視頻網(wǎng)站的不斷涌現(xiàn)，視頻的數(shù)量以前所未有的速度增長，視頻分類也受到越來越多研究者的關(guān)注。傳統(tǒng)的視頻分類方法通常是在提取視頻的底層特征或音頻特征[1-2]的基礎(chǔ)上進行的。視頻的底層物理特征主要指幀圖像的物理特征，如顏色、形狀、紋理、空間位置等，通過比較這些視覺特征間的相似性實現(xiàn)分類。也有一些文獻，諸如文獻[3]，依據(jù)文本實現(xiàn)視頻分類，目前一些研究工作是針對一些特定的視頻片段進行的，比如文獻[4-5]中的體育視頻、醫(yī)學(xué)視頻等。

一個視頻片段通常由若干個鏡頭組成，一個鏡頭則由若干幀圖像組成。對于一幀圖像來說，圖像場景通常包含多個對象，其蘊涵著豐富的視覺信息和語義信息。從語義角度來看，這些對象是相關(guān)聯(lián)的。在基于語義的分類方面，Bag of words（詞袋）模型[6]是較成功的模型，LI Feifei[7]、Bosch[8]、朱旭鋒[9]等人分別利用Latent Dirichlet Allocation（LDA）模型、概率潛在語義分析（pLSA）模型、以FCM聚類代替K均值聚類等來改進Bag of words模型，得到較好的場景分類效果。

從人類視覺感知原理可知，人們總是可以從一段視頻中掌握一個特定的主題。同一主題的視頻片段之間總有相似的空間關(guān)系和語義關(guān)系。比如在一段足球比賽視頻的幀圖像中，盡管觀眾不同，比賽場館不同，運動員的比賽服裝不同；但都由統(tǒng)一規(guī)格的比賽場地，顏色鮮明的草地，比賽雙方球員都在同一運動場上競技。對于同一類型的視頻場景，從制作者的情感角度來看，視頻中各鏡頭的HSV顏色特征總體上是一致的。

時序特性是視頻固有的屬性，是視頻場景理解不可缺少的要素，相鄰鏡頭（尤其是漸變鏡頭）的關(guān)鍵幀具有較高的相關(guān)度，這包括空間相關(guān)度和語義相關(guān)度。經(jīng)典的詞袋分類模型，本質(zhì)上是通過計算場景視覺詞匯直方圖，來達到分類的目的。一般情況下，經(jīng)典詞袋模型中的視覺詞匯由圖像的子區(qū)域特征（SIFT特征）產(chǎn)生，沒有考慮圖像子空間的上下文聯(lián)系。

本文提出的視頻場景分類算法結(jié)合關(guān)鍵幀圖像的SIFT特征、由關(guān)鍵幀合成圖像的HSV顏色空間特征，充分考慮相鄰關(guān)鍵幀的時序上下文關(guān)系。文中選取的特征組合能更充分合理地體現(xiàn)視頻信息，進一步指導(dǎo)視覺詞匯的生成，使生成的視覺詞匯更能代表圖像對象。

2 結(jié)合上下文特征的視頻場景分類

2.1 算法流程

在詞袋（Bag of words）圖像分類模型中，圖像場景是依據(jù)視詞的出現(xiàn)頻率來進行分類的，視覺詞匯是由圖像的局部區(qū)域特征來形成，丟失了其周圍patch塊上下文子區(qū)域的圖像信息。為此本文提出一種結(jié)合圖像patch特征及幀間圖像時序上下文關(guān)系的方法，使得所提取的局部特征能夠更加充分合理地表示圖像語義信息，并結(jié)合具體類別視覺詞匯生成辦法，使得所生成的視覺詞匯表具有更好的區(qū)分能力。

圖1給出基于時序上下文特征視頻場景分類的系統(tǒng)框圖。首先對視頻片段進行關(guān)鍵幀提取，產(chǎn)生Frame={f1，f2，…，fn}，將關(guān)鍵幀按時序歸一化為 16×16的圖像塊，并分別提取其SIFT特征，按時序連接歸一化的關(guān)鍵幀生成圖像I，對于每個圖像塊分別結(jié)合其水平方向的空間相鄰區(qū)域，形成水平方向的上下文特征；依據(jù)上下文特征形成特征集合并聚類形成視覺詞匯，進一步形成上下文視覺詞匯表，進而形成圖像的視覺詞匯描述；訓(xùn)練多核SVM分類器來完成場景分類。

圖1 場景分類的系統(tǒng)框圖

2.2 關(guān)鍵幀提取

文中采用瞿中等[10]提出的算法實現(xiàn)視頻鏡頭檢測、分割及關(guān)鍵幀提取。

首先，設(shè)定一段給定的視頻片段Videoi，從第1幀開始，計算 fj、fj+1相鄰幀直方圖的交集，根據(jù)閾值δ1(δ1=0.9)判斷鏡頭邊緣變化情況。利用幀間灰度顏色差值進行鏡頭邊界的二次檢測。進行非均勻分塊加權(quán)，分別計算每個圖像塊像素差值并與分塊幀差閾值(δ2=20)作比較，并加以標注。然后對每個圖像塊的標注變量進行加權(quán)求和，接著與分塊加權(quán)閾值(δ3=0.2)進行比較，進一步檢測鏡頭邊緣變化情況。光線變化是影響鏡頭檢測結(jié)果的重要因素，考慮到光線變化因素，文中將幀數(shù)小于20的鏡頭劃歸到相鄰的上一個鏡頭。文中根據(jù)鏡頭中幀圖像的最大熵值選擇關(guān)鍵幀。如圖2所示。

圖2 提取關(guān)鍵幀并合成圖像

2.3 幀圖像SIFT特征提取及特征表達

為了提取視頻幀圖像的關(guān)鍵視覺特征，首先通過對關(guān)鍵幀歸一化。從攝影的角度來看，一張圖像的主題主要集中在圖像的中間區(qū)域，圖像邊緣多為冗余信息。首先對幀圖像進行縮放，以圖像中心為軸進行剪切，形成16×16的子區(qū)域，對每一子區(qū)域提取其稠密SIFT特征。SIFT特征是圖像的局部特征描述子，其對旋轉(zhuǎn)、尺度縮放、仿射變換、亮度變化保持不變性。提取圖像局部特征（SIFT特征）時，首先將子區(qū)域劃分為4×4個更小的子區(qū)域（圖像塊），并統(tǒng)計每個子區(qū)域上8個方向的梯度直方圖，將該16個小子區(qū)域連接構(gòu)成128維SIFT特征向量。

對于給定的歸一化后的關(guān)鍵幀圖像集合，根據(jù)時序關(guān)系合成圖像I，相鄰圖像塊（子區(qū)域）之間存在著較強的上下文信息相關(guān)性，為了得到較精確的視覺詞匯，必須考慮到空間相鄰圖像塊之間語義聯(lián)系[11]。對于圖像I的一個局部圖像塊（子區(qū)域）Ix，x為圖像塊標記，其水平方向的相鄰圖像塊表示為Ix+1。如圖3所示，將圖像塊Ix與其時序相鄰的圖像塊形成上下文關(guān)系。結(jié)合后的上下文視覺特征為：

式中，fx為圖像塊Ix的SIFT特征，fx+1為按時序相鄰的圖像塊Ix+1的SIFT特征。

圖3 時序上下文特征結(jié)合方式圖

在形成局部上下文特征后，直接將SIFT特征向量連接，形成一個特征集C={C1，C2，…，Cn}，隨后進行K-means聚類形成視覺詞匯，W={w1，w2，…，wn}。在基于靜態(tài)的圖像分類中，由于每幅圖像分割后的子區(qū)域數(shù)是比較大的，在訓(xùn)練數(shù)據(jù)庫的圖像時，產(chǎn)生的特征數(shù)是巨大的，造成訓(xùn)練的速度緩慢。本文方法雖然也會造成信息冗余，由于關(guān)鍵幀圖像的個數(shù)相對較少，歸一化后的圖像尺寸為16×16，使得SIFT特征的維數(shù)不會過高，對SVM多核聚類不會造成太大的困難。

2.4 HSV顏色特征

在常見的RGB、HSV、HIS等顏色空間當中，HSV顏色特征具有最好的分辨特性[12]。HSV是與人的視覺感官最接近顏色模型，能較好地描述圖像的各種顏色分布。對于彩色圖像在HSV空間的顏色直方圖，本文采用四維向量表示，前三維分別為H、S、V三個通道，第四維表示顏色在圖像中所占的比率。HSV有助于描述幀圖像的全局特征，對于圖像場景分類是非常重要的，它可以使產(chǎn)生的詞匯更加精確，顏色特征定義了圖像的基調(diào)。比如，在黃色基調(diào)的沙漠中行走的是駱駝而不是綿羊，在綠色基調(diào)的草原上行走的通常是綿羊而不是駱駝，雖然駱駝和綿羊在圖像上的表現(xiàn)比較相似。

3 多核學(xué)習

多核學(xué)習是一種特征融合方式，從理論上分析一個好的基于核函數(shù)的分類方法能有效實現(xiàn)高維向量的分類，對于圖像的一組不同特征選擇不同的核函數(shù)參數(shù)，其分類準確率波動較大。本文通過對不同的特征采取不同的核函數(shù)，使得多核學(xué)習可以通過核函數(shù)組合達到最佳分類效果。

對于基于單特征的多核學(xué)習來說，通過公式（2）加權(quán)求核函數(shù)[13]：

若以Sigmoid核為核函數(shù)，則多核學(xué)習的判別函數(shù)為：

γ∈Rr，b∈R為SVM參數(shù)，Kj(x)為第 j個核函數(shù)對于輸入樣本x的輸出結(jié)果。

由于文中引入圖像的SIFT特征及HSV顏色特征進行分類，定義新的多核方法。對于不同特征選取不同的核函數(shù)，然后將不同特征的核函數(shù)進一步組合，加權(quán)求核函數(shù)：

式中KMKL(x)為多特征核函數(shù)，N為使用的特征數(shù)，本文N為2，αl為核函數(shù)組合系數(shù)，Kl(x)為特征l的核函數(shù)組合。

考慮到不同特征對分類的貢獻不同，為了得到最佳分類效果，賦予不同特征不同的核權(quán)重。多特征多核學(xué)習判別函數(shù)為：

4 實驗結(jié)果與分析

目前，多數(shù)視頻分類算法沒采用標準視頻數(shù)據(jù)庫，客觀上為算法性能比較造成了困難。為了相對客觀地評估本文算法的性能，文中實驗所用視頻數(shù)據(jù)均來自互聯(lián)網(wǎng)。文中選取了6類常見的視頻片段，分別是演奏視頻、舞蹈視頻、MV視頻、電影片段、足球比賽視頻及演講視頻。每一類視頻有100個片段左右。所有程序均在相同的硬件環(huán)境下進行。在實驗時，從每一類視頻中隨機選取訓(xùn)練視頻片段數(shù)分別為10段、20段、30段、40段、50段、60段，測試視頻片段數(shù)分別為60段、50段、40段、30段、20段、10段。從多核學(xué)習的原理可知，不同的核函數(shù)組合進行分類，效果是不同的，為了選擇合適的核函數(shù)組合，本文首先通過小樣本實驗確定核函數(shù)組合。選擇在多特征分類中多個常用的多項式核和高斯核進行組合，測試在各種組合下的平均分類準確率，選擇平均分類準確率較高的核函數(shù)組合。

進一步考察不同的訓(xùn)練樣本對各種視頻分類的影響，本文選取的視頻如圖4所示。

圖4 實驗結(jié)果比較

表1 平均分類準確度表

從圖4中可看出，本文算法采用混合核函數(shù)進行訓(xùn)練，能取得較好的分類結(jié)果。另外，對由漸變式鏡頭組成的視頻片段分類效果較佳，主要原因是漸變式鏡頭相鄰關(guān)鍵幀的空間相關(guān)性及語義相關(guān)性比切變鏡頭要高，漸變式鏡頭相鄰關(guān)鍵幀的圖像色彩背景大體是一致的。在實驗中給出了60個訓(xùn)練樣本，40個測試樣本情況下，運用SIFT特征的方法進行分類、運用SIFT特征及HSV顏色特征（采用多項式核進行訓(xùn)練）的方法進行分類、運用SIFT特征及HSV顏色特征（采用高斯核進行訓(xùn)練）的方法進行分類、運用SIFT特征及HSV顏色特征（采用高斯核+多項式核進行訓(xùn)練）的方法進行分類，在程序運行20次的情況下得到了平均分類準確度。如表1所示。

5 結(jié)束語

本文提出一種結(jié)合時序上下文信息的視頻場景分類方法，該方法將視頻的分類問題轉(zhuǎn)化為圖像場景的分類。將歸一化后的相鄰關(guān)鍵幀拼接，形成相鄰圖像塊，是關(guān)鍵幀之間形成空間上和語義上的鄰接關(guān)系，根據(jù)SIFT特征，形成視覺詞匯，進一步形成了考慮圖像間類別差異的上下文視覺詞匯表，并結(jié)合多核學(xué)習解決了視頻場景的分類問題。通過多個實驗結(jié)果表明，本文方法具有較好的視頻場景分類效果，能較好地實現(xiàn)漸變式鏡頭組成的視頻片段的分類。本文僅提取了稠密SIFT特征及HSV顏色特征并進行了分類，今后可對局部特征的提取并進行拓展，比如提取稀疏并結(jié)合全局特征、上下文特征進行稀疏編碼結(jié)合多核學(xué)習進行進一步研究視頻場景分類問題。

[1]Rouvier M，Linares G，Matrouf D.On-the-fly video genre classification by combination of audio features[C]//IEEE International Conference on Acoustics Speech and Signal Processing（ICASSP），2010：45-48.

[2]李榮杰，蔣興浩，孫鐵鋒.一種基于音頻詞袋的暴力視頻分類方法[J].上海交通大學(xué)學(xué)報，2011，45（2）：214-218.

[3]王鵬，蔡銳，楊士強.“文本為主”的多模態(tài)特征融合的新聞視頻分類算法[J].清華大學(xué)學(xué)報：自然科學(xué)版，2005，45（4）：475-478.

[4]宋剛，肖國強，代毅，等.基于視頻區(qū)域特征及HMM的體育視頻分類研究[J].西南師范大學(xué)學(xué)報：自然科學(xué)版，2010，35（2）：180-184.

[5]馮文剛，高雋，Buckles B P，等.無監(jiān)督學(xué)習的無線膠囊內(nèi)診鏡視頻分類方法[J].中國圖象圖形學(xué)報，2011，16（11）：2041-2046.

[6]Yang Jun，Jiang Yugang，Alexander H，et al.Evaluating bagof-visual-words representations in scene classification[C]//Proceedings of the International Workshop on Multimedia Information Retrieval，2007：197-206.

[7]Li Feifei，Perona P.A Bayesian hierarchical model for learning natural scene categories[C]//Proc of IEEE Int Conf on Computer Vision and Pattern Recognition（CVPR’05）.USA：IEEE Computer Society，2005：524-531.

[8]Bosch A，Zisserman A.Scene classification using a hybrid generative/discriminative approach[J].IEEE Trans on Pattern Analysis and Machine Intelligence，2008，30（4）：712-727.

[9]朱旭鋒，馬彩文，劉波.采用改進詞袋模型的空中目標自動分類[J].紅外與激光工程，2012，41（5）：1384-1388.

[10]瞿中，高騰飛，張慶慶.一種改進的視頻關(guān)鍵幀提取算法研究[J].計算機科學(xué)，2012，39（8）：300-303.

[11]胡正平，涂瀟蕾.多方向上下文特征結(jié)合空間金字塔模型的場景分類[J].信號處理，2011，27（10）：1536-1542.

[12]Berens J.Image indexing using compressed color histograms[M].Norwich：Spinger，2002.

[13]汪洪橋，孫富春，蔡艷寧，等.多核學(xué)習方法[J].自動化學(xué)報，2010，36（8）：1037-1050.