彭太樂 ,張文俊 ,丁友東 ,郭桂芳
PENG Taile1,2,ZHANG Wenjun3,DING Youdong3,GUO Guifang2
1.上海大學(xué) 通信與信息工程學(xué)院,上海 200072
2.淮北師范大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,安徽 淮北 235000
3.上海大學(xué) 影視藝術(shù)技術(shù)學(xué)院,上海 200072
1.School of Communication&Information Engineering,Shanghai University,Shanghai 200072,China
2.School of Computer Science and Technology,Huaibei Normal University,Huaibei,Anhui 235000,China
3.School of Film and TV Arts&Technology,Shanghai University,Shanghai 200072,China
隨著YouTube、YouKu、Baidu視頻這樣的視頻網(wǎng)站的不斷涌現(xiàn),視頻的數(shù)量以前所未有的速度增長,視頻分類也受到越來越多研究者的關(guān)注。傳統(tǒng)的視頻分類方法通常是在提取視頻的底層特征或音頻特征[1-2]的基礎(chǔ)上進行的。視頻的底層物理特征主要指幀圖像的物理特征,如顏色、形狀、紋理、空間位置等,通過比較這些視覺特征間的相似性實現(xiàn)分類。也有一些文獻,諸如文獻[3],依據(jù)文本實現(xiàn)視頻分類,目前一些研究工作是針對一些特定的視頻片段進行的,比如文獻[4-5]中的體育視頻、醫(yī)學(xué)視頻等。
一個視頻片段通常由若干個鏡頭組成,一個鏡頭則由若干幀圖像組成。對于一幀圖像來說,圖像場景通常包含多個對象,其蘊涵著豐富的視覺信息和語義信息。從語義角度來看,這些對象是相關(guān)聯(lián)的。在基于語義的分類方面,Bag of words(詞袋)模型[6]是較成功的模型,LI Feifei[7]、Bosch[8]、朱旭鋒[9]等人分別利用Latent Dirichlet Allocation(LDA)模型、概率潛在語義分析(pLSA)模型、以FCM聚類代替K均值聚類等來改進Bag of words模型,得到較好的場景分類效果。
從人類視覺感知原理可知,人們總是可以從一段視頻中掌握一個特定的主題。同一主題的視頻片段之間總有相似的空間關(guān)系和語義關(guān)系。比如在一段足球比賽視頻的幀圖像中,盡管觀眾不同,比賽場館不同,運動員的比賽服裝不同;但都由統(tǒng)一規(guī)格的比賽場地,顏色鮮明的草地,比賽雙方球員都在同一運動場上競技。對于同一類型的視頻場景,從制作者的情感角度來看,視頻中各鏡頭的HSV顏色特征總體上是一致的。
時序特性是視頻固有的屬性,是視頻場景理解不可缺少的要素,相鄰鏡頭(尤其是漸變鏡頭)的關(guān)鍵幀具有較高的相關(guān)度,這包括空間相關(guān)度和語義相關(guān)度。經(jīng)典的詞袋分類模型,本質(zhì)上是通過計算場景視覺詞匯直方圖,來達到分類的目的。一般情況下,經(jīng)典詞袋模型中的視覺詞匯由圖像的子區(qū)域特征(SIFT特征)產(chǎn)生,沒有考慮圖像子空間的上下文聯(lián)系。
本文提出的視頻場景分類算法結(jié)合關(guān)鍵幀圖像的SIFT特征、由關(guān)鍵幀合成圖像的HSV顏色空間特征,充分考慮相鄰關(guān)鍵幀的時序上下文關(guān)系。文中選取的特征組合能更充分合理地體現(xiàn)視頻信息,進一步指導(dǎo)視覺詞匯的生成,使生成的視覺詞匯更能代表圖像對象。
在詞袋(Bag of words)圖像分類模型中,圖像場景是依據(jù)視詞的出現(xiàn)頻率來進行分類的,視覺詞匯是由圖像的局部區(qū)域特征來形成,丟失了其周圍patch塊上下文子區(qū)域的圖像信息。為此本文提出一種結(jié)合圖像patch特征及幀間圖像時序上下文關(guān)系的方法,使得所提取的局部特征能夠更加充分合理地表示圖像語義信息,并結(jié)合具體類別視覺詞匯生成辦法,使得所生成的視覺詞匯表具有更好的區(qū)分能力。
圖1給出基于時序上下文特征視頻場景分類的系統(tǒng)框圖。首先對視頻片段進行關(guān)鍵幀提取,產(chǎn)生Frame={f1,f2,…,fn},將關(guān)鍵幀按時序歸一化為 16×16的圖像塊,并分別提取其SIFT特征,按時序連接歸一化的關(guān)鍵幀生成圖像I,對于每個圖像塊分別結(jié)合其水平方向的空間相鄰區(qū)域,形成水平方向的上下文特征;依據(jù)上下文特征形成特征集合并聚類形成視覺詞匯,進一步形成上下文視覺詞匯表,進而形成圖像的視覺詞匯描述;訓(xùn)練多核SVM分類器來完成場景分類。
圖1 場景分類的系統(tǒng)框圖
文中采用瞿中等[10]提出的算法實現(xiàn)視頻鏡頭檢測、分割及關(guān)鍵幀提取。
首先,設(shè)定一段給定的視頻片段Videoi,從第1幀開始,計算 fj、fj+1相鄰幀直方圖的交集,根據(jù)閾值δ1(δ1=0.9)判斷鏡頭邊緣變化情況。利用幀間灰度顏色差值進行鏡頭邊界的二次檢測。進行非均勻分塊加權(quán),分別計算每個圖像塊像素差值并與分塊幀差閾值(δ2=20)作比較,并加以標注。然后對每個圖像塊的標注變量進行加權(quán)求和,接著與分塊加權(quán)閾值(δ3=0.2)進行比較,進一步檢測鏡頭邊緣變化情況。光線變化是影響鏡頭檢測結(jié)果的重要因素,考慮到光線變化因素,文中將幀數(shù)小于20的鏡頭劃歸到相鄰的上一個鏡頭。文中根據(jù)鏡頭中幀圖像的最大熵值選擇關(guān)鍵幀。如圖2所示。
圖2 提取關(guān)鍵幀并合成圖像
為了提取視頻幀圖像的關(guān)鍵視覺特征,首先通過對關(guān)鍵幀歸一化。從攝影的角度來看,一張圖像的主題主要集中在圖像的中間區(qū)域,圖像邊緣多為冗余信息。首先對幀圖像進行縮放,以圖像中心為軸進行剪切,形成16×16的子區(qū)域,對每一子區(qū)域提取其稠密SIFT特征。SIFT特征是圖像的局部特征描述子,其對旋轉(zhuǎn)、尺度縮放、仿射變換、亮度變化保持不變性。提取圖像局部特征(SIFT特征)時,首先將子區(qū)域劃分為4×4個更小的子區(qū)域(圖像塊),并統(tǒng)計每個子區(qū)域上8個方向的梯度直方圖,將該16個小子區(qū)域連接構(gòu)成128維SIFT特征向量。
對于給定的歸一化后的關(guān)鍵幀圖像集合,根據(jù)時序關(guān)系合成圖像I,相鄰圖像塊(子區(qū)域)之間存在著較強的上下文信息相關(guān)性,為了得到較精確的視覺詞匯,必須考慮到空間相鄰圖像塊之間語義聯(lián)系[11]。對于圖像I的一個局部圖像塊(子區(qū)域)Ix,x為圖像塊標記,其水平方向的相鄰圖像塊表示為Ix+1。如圖3所示,將圖像塊Ix與其時序相鄰的圖像塊形成上下文關(guān)系。結(jié)合后的上下文視覺特征為:
式中,fx為圖像塊Ix的SIFT特征,fx+1為按時序相鄰的圖像塊Ix+1的SIFT特征。
圖3 時序上下文特征結(jié)合方式圖
在形成局部上下文特征后,直接將SIFT特征向量連接,形成一個特征集C={C1,C2,…,Cn},隨后進行K-means聚類形成視覺詞匯,W={w1,w2,…,wn}。在基于靜態(tài)的圖像分類中,由于每幅圖像分割后的子區(qū)域數(shù)是比較大的,在訓(xùn)練數(shù)據(jù)庫的圖像時,產(chǎn)生的特征數(shù)是巨大的,造成訓(xùn)練的速度緩慢。本文方法雖然也會造成信息冗余,由于關(guān)鍵幀圖像的個數(shù)相對較少,歸一化后的圖像尺寸為16×16,使得SIFT特征的維數(shù)不會過高,對SVM多核聚類不會造成太大的困難。
在常見的RGB、HSV、HIS等顏色空間當中,HSV顏色特征具有最好的分辨特性[12]。HSV是與人的視覺感官最接近顏色模型,能較好地描述圖像的各種顏色分布。對于彩色圖像在HSV空間的顏色直方圖,本文采用四維向量表示,前三維分別為H、S、V三個通道,第四維表示顏色在圖像中所占的比率。HSV有助于描述幀圖像的全局特征,對于圖像場景分類是非常重要的,它可以使產(chǎn)生的詞匯更加精確,顏色特征定義了圖像的基調(diào)。比如,在黃色基調(diào)的沙漠中行走的是駱駝而不是綿羊,在綠色基調(diào)的草原上行走的通常是綿羊而不是駱駝,雖然駱駝和綿羊在圖像上的表現(xiàn)比較相似。
多核學(xué)習是一種特征融合方式,從理論上分析一個好的基于核函數(shù)的分類方法能有效實現(xiàn)高維向量的分類,對于圖像的一組不同特征選擇不同的核函數(shù)參數(shù),其分類準確率波動較大。本文通過對不同的特征采取不同的核函數(shù),使得多核學(xué)習可以通過核函數(shù)組合達到最佳分類效果。
對于基于單特征的多核學(xué)習來說,通過公式(2)加權(quán)求核函數(shù)[13]:
若以Sigmoid核為核函數(shù),則多核學(xué)習的判別函數(shù)為:
γ∈Rr,b∈R為SVM參數(shù),Kj(x)為第 j個核函數(shù)對于輸入樣本x的輸出結(jié)果。
由于文中引入圖像的SIFT特征及HSV顏色特征進行分類,定義新的多核方法。對于不同特征選取不同的核函數(shù),然后將不同特征的核函數(shù)進一步組合,加權(quán)求核函數(shù):
式中KMKL(x)為多特征核函數(shù),N為使用的特征數(shù),本文N為2,αl為核函數(shù)組合系數(shù),Kl(x)為特征l的核函數(shù)組合。
考慮到不同特征對分類的貢獻不同,為了得到最佳分類效果,賦予不同特征不同的核權(quán)重。多特征多核學(xué)習判別函數(shù)為:
目前,多數(shù)視頻分類算法沒采用標準視頻數(shù)據(jù)庫,客觀上為算法性能比較造成了困難。為了相對客觀地評估本文算法的性能,文中實驗所用視頻數(shù)據(jù)均來自互聯(lián)網(wǎng)。文中選取了6類常見的視頻片段,分別是演奏視頻、舞蹈視頻、MV視頻、電影片段、足球比賽視頻及演講視頻。每一類視頻有100個片段左右。所有程序均在相同的硬件環(huán)境下進行。在實驗時,從每一類視頻中隨機選取訓(xùn)練視頻片段數(shù)分別為10段、20段、30段、40段、50段、60段,測試視頻片段數(shù)分別為60段、50段、40段、30段、20段、10段。從多核學(xué)習的原理可知,不同的核函數(shù)組合進行分類,效果是不同的,為了選擇合適的核函數(shù)組合,本文首先通過小樣本實驗確定核函數(shù)組合。選擇在多特征分類中多個常用的多項式核和高斯核進行組合,測試在各種組合下的平均分類準確率,選擇平均分類準確率較高的核函數(shù)組合。
進一步考察不同的訓(xùn)練樣本對各種視頻分類的影響,本文選取的視頻如圖4所示。
圖4 實驗結(jié)果比較
表1 平均分類準確度表
從圖4中可看出,本文算法采用混合核函數(shù)進行訓(xùn)練,能取得較好的分類結(jié)果。另外,對由漸變式鏡頭組成的視頻片段分類效果較佳,主要原因是漸變式鏡頭相鄰關(guān)鍵幀的空間相關(guān)性及語義相關(guān)性比切變鏡頭要高,漸變式鏡頭相鄰關(guān)鍵幀的圖像色彩背景大體是一致的。在實驗中給出了60個訓(xùn)練樣本,40個測試樣本情況下,運用SIFT特征的方法進行分類、運用SIFT特征及HSV顏色特征(采用多項式核進行訓(xùn)練)的方法進行分類、運用SIFT特征及HSV顏色特征(采用高斯核進行訓(xùn)練)的方法進行分類、運用SIFT特征及HSV顏色特征(采用高斯核+多項式核進行訓(xùn)練)的方法進行分類,在程序運行20次的情況下得到了平均分類準確度。如表1所示。
本文提出一種結(jié)合時序上下文信息的視頻場景分類方法,該方法將視頻的分類問題轉(zhuǎn)化為圖像場景的分類。將歸一化后的相鄰關(guān)鍵幀拼接,形成相鄰圖像塊,是關(guān)鍵幀之間形成空間上和語義上的鄰接關(guān)系,根據(jù)SIFT特征,形成視覺詞匯,進一步形成了考慮圖像間類別差異的上下文視覺詞匯表,并結(jié)合多核學(xué)習解決了視頻場景的分類問題。通過多個實驗結(jié)果表明,本文方法具有較好的視頻場景分類效果,能較好地實現(xiàn)漸變式鏡頭組成的視頻片段的分類。本文僅提取了稠密SIFT特征及HSV顏色特征并進行了分類,今后可對局部特征的提取并進行拓展,比如提取稀疏并結(jié)合全局特征、上下文特征進行稀疏編碼結(jié)合多核學(xué)習進行進一步研究視頻場景分類問題。
[1]Rouvier M,Linares G,Matrouf D.On-the-fly video genre classification by combination of audio features[C]//IEEE International Conference on Acoustics Speech and Signal Processing(ICASSP),2010:45-48.
[2]李榮杰,蔣興浩,孫鐵鋒.一種基于音頻詞袋的暴力視頻分類方法[J].上海交通大學(xué)學(xué)報,2011,45(2):214-218.
[3]王鵬,蔡銳,楊士強.“文本為主”的多模態(tài)特征融合的新聞視頻分類算法[J].清華大學(xué)學(xué)報:自然科學(xué)版,2005,45(4):475-478.
[4]宋剛,肖國強,代毅,等.基于視頻區(qū)域特征及HMM的體育視頻分類研究[J].西南師范大學(xué)學(xué)報:自然科學(xué)版,2010,35(2):180-184.
[5]馮文剛,高雋,Buckles B P,等.無監(jiān)督學(xué)習的無線膠囊內(nèi)診鏡視頻分類方法[J].中國圖象圖形學(xué)報,2011,16(11):2041-2046.
[6]Yang Jun,Jiang Yugang,Alexander H,et al.Evaluating bagof-visual-words representations in scene classification[C]//Proceedings of the International Workshop on Multimedia Information Retrieval,2007:197-206.
[7]Li Feifei,Perona P.A Bayesian hierarchical model for learning natural scene categories[C]//Proc of IEEE Int Conf on Computer Vision and Pattern Recognition(CVPR’05).USA:IEEE Computer Society,2005:524-531.
[8]Bosch A,Zisserman A.Scene classification using a hybrid generative/discriminative approach[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2008,30(4):712-727.
[9]朱旭鋒,馬彩文,劉波.采用改進詞袋模型的空中目標自動分類[J].紅外與激光工程,2012,41(5):1384-1388.
[10]瞿中,高騰飛,張慶慶.一種改進的視頻關(guān)鍵幀提取算法研究[J].計算機科學(xué),2012,39(8):300-303.
[11]胡正平,涂瀟蕾.多方向上下文特征結(jié)合空間金字塔模型的場景分類[J].信號處理,2011,27(10):1536-1542.
[12]Berens J.Image indexing using compressed color histograms[M].Norwich:Spinger,2002.
[13]汪洪橋,孫富春,蔡艷寧,等.多核學(xué)習方法[J].自動化學(xué)報,2010,36(8):1037-1050.