亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于時序上下文的視頻場景分類

        2014-04-03 01:44:52彭太樂張文俊丁友東郭桂芳
        計算機工程與應(yīng)用 2014年9期
        關(guān)鍵詞:關(guān)鍵幀時序分類

        彭太樂 ,張文俊 ,丁友東 ,郭桂芳

        PENG Taile1,2,ZHANG Wenjun3,DING Youdong3,GUO Guifang2

        1.上海大學(xué) 通信與信息工程學(xué)院,上海 200072

        2.淮北師范大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,安徽 淮北 235000

        3.上海大學(xué) 影視藝術(shù)技術(shù)學(xué)院,上海 200072

        1.School of Communication&Information Engineering,Shanghai University,Shanghai 200072,China

        2.School of Computer Science and Technology,Huaibei Normal University,Huaibei,Anhui 235000,China

        3.School of Film and TV Arts&Technology,Shanghai University,Shanghai 200072,China

        1 引言

        隨著YouTube、YouKu、Baidu視頻這樣的視頻網(wǎng)站的不斷涌現(xiàn),視頻的數(shù)量以前所未有的速度增長,視頻分類也受到越來越多研究者的關(guān)注。傳統(tǒng)的視頻分類方法通常是在提取視頻的底層特征或音頻特征[1-2]的基礎(chǔ)上進行的。視頻的底層物理特征主要指幀圖像的物理特征,如顏色、形狀、紋理、空間位置等,通過比較這些視覺特征間的相似性實現(xiàn)分類。也有一些文獻,諸如文獻[3],依據(jù)文本實現(xiàn)視頻分類,目前一些研究工作是針對一些特定的視頻片段進行的,比如文獻[4-5]中的體育視頻、醫(yī)學(xué)視頻等。

        一個視頻片段通常由若干個鏡頭組成,一個鏡頭則由若干幀圖像組成。對于一幀圖像來說,圖像場景通常包含多個對象,其蘊涵著豐富的視覺信息和語義信息。從語義角度來看,這些對象是相關(guān)聯(lián)的。在基于語義的分類方面,Bag of words(詞袋)模型[6]是較成功的模型,LI Feifei[7]、Bosch[8]、朱旭鋒[9]等人分別利用Latent Dirichlet Allocation(LDA)模型、概率潛在語義分析(pLSA)模型、以FCM聚類代替K均值聚類等來改進Bag of words模型,得到較好的場景分類效果。

        從人類視覺感知原理可知,人們總是可以從一段視頻中掌握一個特定的主題。同一主題的視頻片段之間總有相似的空間關(guān)系和語義關(guān)系。比如在一段足球比賽視頻的幀圖像中,盡管觀眾不同,比賽場館不同,運動員的比賽服裝不同;但都由統(tǒng)一規(guī)格的比賽場地,顏色鮮明的草地,比賽雙方球員都在同一運動場上競技。對于同一類型的視頻場景,從制作者的情感角度來看,視頻中各鏡頭的HSV顏色特征總體上是一致的。

        時序特性是視頻固有的屬性,是視頻場景理解不可缺少的要素,相鄰鏡頭(尤其是漸變鏡頭)的關(guān)鍵幀具有較高的相關(guān)度,這包括空間相關(guān)度和語義相關(guān)度。經(jīng)典的詞袋分類模型,本質(zhì)上是通過計算場景視覺詞匯直方圖,來達到分類的目的。一般情況下,經(jīng)典詞袋模型中的視覺詞匯由圖像的子區(qū)域特征(SIFT特征)產(chǎn)生,沒有考慮圖像子空間的上下文聯(lián)系。

        本文提出的視頻場景分類算法結(jié)合關(guān)鍵幀圖像的SIFT特征、由關(guān)鍵幀合成圖像的HSV顏色空間特征,充分考慮相鄰關(guān)鍵幀的時序上下文關(guān)系。文中選取的特征組合能更充分合理地體現(xiàn)視頻信息,進一步指導(dǎo)視覺詞匯的生成,使生成的視覺詞匯更能代表圖像對象。

        2 結(jié)合上下文特征的視頻場景分類

        2.1 算法流程

        在詞袋(Bag of words)圖像分類模型中,圖像場景是依據(jù)視詞的出現(xiàn)頻率來進行分類的,視覺詞匯是由圖像的局部區(qū)域特征來形成,丟失了其周圍patch塊上下文子區(qū)域的圖像信息。為此本文提出一種結(jié)合圖像patch特征及幀間圖像時序上下文關(guān)系的方法,使得所提取的局部特征能夠更加充分合理地表示圖像語義信息,并結(jié)合具體類別視覺詞匯生成辦法,使得所生成的視覺詞匯表具有更好的區(qū)分能力。

        圖1給出基于時序上下文特征視頻場景分類的系統(tǒng)框圖。首先對視頻片段進行關(guān)鍵幀提取,產(chǎn)生Frame={f1,f2,…,fn},將關(guān)鍵幀按時序歸一化為 16×16的圖像塊,并分別提取其SIFT特征,按時序連接歸一化的關(guān)鍵幀生成圖像I,對于每個圖像塊分別結(jié)合其水平方向的空間相鄰區(qū)域,形成水平方向的上下文特征;依據(jù)上下文特征形成特征集合并聚類形成視覺詞匯,進一步形成上下文視覺詞匯表,進而形成圖像的視覺詞匯描述;訓(xùn)練多核SVM分類器來完成場景分類。

        圖1 場景分類的系統(tǒng)框圖

        2.2 關(guān)鍵幀提取

        文中采用瞿中等[10]提出的算法實現(xiàn)視頻鏡頭檢測、分割及關(guān)鍵幀提取。

        首先,設(shè)定一段給定的視頻片段Videoi,從第1幀開始,計算 fj、fj+1相鄰幀直方圖的交集,根據(jù)閾值δ1(δ1=0.9)判斷鏡頭邊緣變化情況。利用幀間灰度顏色差值進行鏡頭邊界的二次檢測。進行非均勻分塊加權(quán),分別計算每個圖像塊像素差值并與分塊幀差閾值(δ2=20)作比較,并加以標注。然后對每個圖像塊的標注變量進行加權(quán)求和,接著與分塊加權(quán)閾值(δ3=0.2)進行比較,進一步檢測鏡頭邊緣變化情況。光線變化是影響鏡頭檢測結(jié)果的重要因素,考慮到光線變化因素,文中將幀數(shù)小于20的鏡頭劃歸到相鄰的上一個鏡頭。文中根據(jù)鏡頭中幀圖像的最大熵值選擇關(guān)鍵幀。如圖2所示。

        圖2 提取關(guān)鍵幀并合成圖像

        2.3 幀圖像SIFT特征提取及特征表達

        為了提取視頻幀圖像的關(guān)鍵視覺特征,首先通過對關(guān)鍵幀歸一化。從攝影的角度來看,一張圖像的主題主要集中在圖像的中間區(qū)域,圖像邊緣多為冗余信息。首先對幀圖像進行縮放,以圖像中心為軸進行剪切,形成16×16的子區(qū)域,對每一子區(qū)域提取其稠密SIFT特征。SIFT特征是圖像的局部特征描述子,其對旋轉(zhuǎn)、尺度縮放、仿射變換、亮度變化保持不變性。提取圖像局部特征(SIFT特征)時,首先將子區(qū)域劃分為4×4個更小的子區(qū)域(圖像塊),并統(tǒng)計每個子區(qū)域上8個方向的梯度直方圖,將該16個小子區(qū)域連接構(gòu)成128維SIFT特征向量。

        對于給定的歸一化后的關(guān)鍵幀圖像集合,根據(jù)時序關(guān)系合成圖像I,相鄰圖像塊(子區(qū)域)之間存在著較強的上下文信息相關(guān)性,為了得到較精確的視覺詞匯,必須考慮到空間相鄰圖像塊之間語義聯(lián)系[11]。對于圖像I的一個局部圖像塊(子區(qū)域)Ix,x為圖像塊標記,其水平方向的相鄰圖像塊表示為Ix+1。如圖3所示,將圖像塊Ix與其時序相鄰的圖像塊形成上下文關(guān)系。結(jié)合后的上下文視覺特征為:

        式中,fx為圖像塊Ix的SIFT特征,fx+1為按時序相鄰的圖像塊Ix+1的SIFT特征。

        圖3 時序上下文特征結(jié)合方式圖

        在形成局部上下文特征后,直接將SIFT特征向量連接,形成一個特征集C={C1,C2,…,Cn},隨后進行K-means聚類形成視覺詞匯,W={w1,w2,…,wn}。在基于靜態(tài)的圖像分類中,由于每幅圖像分割后的子區(qū)域數(shù)是比較大的,在訓(xùn)練數(shù)據(jù)庫的圖像時,產(chǎn)生的特征數(shù)是巨大的,造成訓(xùn)練的速度緩慢。本文方法雖然也會造成信息冗余,由于關(guān)鍵幀圖像的個數(shù)相對較少,歸一化后的圖像尺寸為16×16,使得SIFT特征的維數(shù)不會過高,對SVM多核聚類不會造成太大的困難。

        2.4 HSV顏色特征

        在常見的RGB、HSV、HIS等顏色空間當中,HSV顏色特征具有最好的分辨特性[12]。HSV是與人的視覺感官最接近顏色模型,能較好地描述圖像的各種顏色分布。對于彩色圖像在HSV空間的顏色直方圖,本文采用四維向量表示,前三維分別為H、S、V三個通道,第四維表示顏色在圖像中所占的比率。HSV有助于描述幀圖像的全局特征,對于圖像場景分類是非常重要的,它可以使產(chǎn)生的詞匯更加精確,顏色特征定義了圖像的基調(diào)。比如,在黃色基調(diào)的沙漠中行走的是駱駝而不是綿羊,在綠色基調(diào)的草原上行走的通常是綿羊而不是駱駝,雖然駱駝和綿羊在圖像上的表現(xiàn)比較相似。

        3 多核學(xué)習

        多核學(xué)習是一種特征融合方式,從理論上分析一個好的基于核函數(shù)的分類方法能有效實現(xiàn)高維向量的分類,對于圖像的一組不同特征選擇不同的核函數(shù)參數(shù),其分類準確率波動較大。本文通過對不同的特征采取不同的核函數(shù),使得多核學(xué)習可以通過核函數(shù)組合達到最佳分類效果。

        對于基于單特征的多核學(xué)習來說,通過公式(2)加權(quán)求核函數(shù)[13]:

        若以Sigmoid核為核函數(shù),則多核學(xué)習的判別函數(shù)為:

        γ∈Rr,b∈R為SVM參數(shù),Kj(x)為第 j個核函數(shù)對于輸入樣本x的輸出結(jié)果。

        由于文中引入圖像的SIFT特征及HSV顏色特征進行分類,定義新的多核方法。對于不同特征選取不同的核函數(shù),然后將不同特征的核函數(shù)進一步組合,加權(quán)求核函數(shù):

        式中KMKL(x)為多特征核函數(shù),N為使用的特征數(shù),本文N為2,αl為核函數(shù)組合系數(shù),Kl(x)為特征l的核函數(shù)組合。

        考慮到不同特征對分類的貢獻不同,為了得到最佳分類效果,賦予不同特征不同的核權(quán)重。多特征多核學(xué)習判別函數(shù)為:

        4 實驗結(jié)果與分析

        目前,多數(shù)視頻分類算法沒采用標準視頻數(shù)據(jù)庫,客觀上為算法性能比較造成了困難。為了相對客觀地評估本文算法的性能,文中實驗所用視頻數(shù)據(jù)均來自互聯(lián)網(wǎng)。文中選取了6類常見的視頻片段,分別是演奏視頻、舞蹈視頻、MV視頻、電影片段、足球比賽視頻及演講視頻。每一類視頻有100個片段左右。所有程序均在相同的硬件環(huán)境下進行。在實驗時,從每一類視頻中隨機選取訓(xùn)練視頻片段數(shù)分別為10段、20段、30段、40段、50段、60段,測試視頻片段數(shù)分別為60段、50段、40段、30段、20段、10段。從多核學(xué)習的原理可知,不同的核函數(shù)組合進行分類,效果是不同的,為了選擇合適的核函數(shù)組合,本文首先通過小樣本實驗確定核函數(shù)組合。選擇在多特征分類中多個常用的多項式核和高斯核進行組合,測試在各種組合下的平均分類準確率,選擇平均分類準確率較高的核函數(shù)組合。

        進一步考察不同的訓(xùn)練樣本對各種視頻分類的影響,本文選取的視頻如圖4所示。

        圖4 實驗結(jié)果比較

        表1 平均分類準確度表

        從圖4中可看出,本文算法采用混合核函數(shù)進行訓(xùn)練,能取得較好的分類結(jié)果。另外,對由漸變式鏡頭組成的視頻片段分類效果較佳,主要原因是漸變式鏡頭相鄰關(guān)鍵幀的空間相關(guān)性及語義相關(guān)性比切變鏡頭要高,漸變式鏡頭相鄰關(guān)鍵幀的圖像色彩背景大體是一致的。在實驗中給出了60個訓(xùn)練樣本,40個測試樣本情況下,運用SIFT特征的方法進行分類、運用SIFT特征及HSV顏色特征(采用多項式核進行訓(xùn)練)的方法進行分類、運用SIFT特征及HSV顏色特征(采用高斯核進行訓(xùn)練)的方法進行分類、運用SIFT特征及HSV顏色特征(采用高斯核+多項式核進行訓(xùn)練)的方法進行分類,在程序運行20次的情況下得到了平均分類準確度。如表1所示。

        5 結(jié)束語

        本文提出一種結(jié)合時序上下文信息的視頻場景分類方法,該方法將視頻的分類問題轉(zhuǎn)化為圖像場景的分類。將歸一化后的相鄰關(guān)鍵幀拼接,形成相鄰圖像塊,是關(guān)鍵幀之間形成空間上和語義上的鄰接關(guān)系,根據(jù)SIFT特征,形成視覺詞匯,進一步形成了考慮圖像間類別差異的上下文視覺詞匯表,并結(jié)合多核學(xué)習解決了視頻場景的分類問題。通過多個實驗結(jié)果表明,本文方法具有較好的視頻場景分類效果,能較好地實現(xiàn)漸變式鏡頭組成的視頻片段的分類。本文僅提取了稠密SIFT特征及HSV顏色特征并進行了分類,今后可對局部特征的提取并進行拓展,比如提取稀疏并結(jié)合全局特征、上下文特征進行稀疏編碼結(jié)合多核學(xué)習進行進一步研究視頻場景分類問題。

        [1]Rouvier M,Linares G,Matrouf D.On-the-fly video genre classification by combination of audio features[C]//IEEE International Conference on Acoustics Speech and Signal Processing(ICASSP),2010:45-48.

        [2]李榮杰,蔣興浩,孫鐵鋒.一種基于音頻詞袋的暴力視頻分類方法[J].上海交通大學(xué)學(xué)報,2011,45(2):214-218.

        [3]王鵬,蔡銳,楊士強.“文本為主”的多模態(tài)特征融合的新聞視頻分類算法[J].清華大學(xué)學(xué)報:自然科學(xué)版,2005,45(4):475-478.

        [4]宋剛,肖國強,代毅,等.基于視頻區(qū)域特征及HMM的體育視頻分類研究[J].西南師范大學(xué)學(xué)報:自然科學(xué)版,2010,35(2):180-184.

        [5]馮文剛,高雋,Buckles B P,等.無監(jiān)督學(xué)習的無線膠囊內(nèi)診鏡視頻分類方法[J].中國圖象圖形學(xué)報,2011,16(11):2041-2046.

        [6]Yang Jun,Jiang Yugang,Alexander H,et al.Evaluating bagof-visual-words representations in scene classification[C]//Proceedings of the International Workshop on Multimedia Information Retrieval,2007:197-206.

        [7]Li Feifei,Perona P.A Bayesian hierarchical model for learning natural scene categories[C]//Proc of IEEE Int Conf on Computer Vision and Pattern Recognition(CVPR’05).USA:IEEE Computer Society,2005:524-531.

        [8]Bosch A,Zisserman A.Scene classification using a hybrid generative/discriminative approach[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2008,30(4):712-727.

        [9]朱旭鋒,馬彩文,劉波.采用改進詞袋模型的空中目標自動分類[J].紅外與激光工程,2012,41(5):1384-1388.

        [10]瞿中,高騰飛,張慶慶.一種改進的視頻關(guān)鍵幀提取算法研究[J].計算機科學(xué),2012,39(8):300-303.

        [11]胡正平,涂瀟蕾.多方向上下文特征結(jié)合空間金字塔模型的場景分類[J].信號處理,2011,27(10):1536-1542.

        [12]Berens J.Image indexing using compressed color histograms[M].Norwich:Spinger,2002.

        [13]汪洪橋,孫富春,蔡艷寧,等.多核學(xué)習方法[J].自動化學(xué)報,2010,36(8):1037-1050.

        猜你喜歡
        關(guān)鍵幀時序分類
        時序坐標
        基于Sentinel-2時序NDVI的麥冬識別研究
        分類算一算
        分類討論求坐標
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        基于改進關(guān)鍵幀選擇的RGB-D SLAM算法
        一種毫米波放大器時序直流電源的設(shè)計
        電子制作(2016年15期)2017-01-15 13:39:08
        基于相關(guān)系數(shù)的道路監(jiān)控視頻關(guān)鍵幀提取算法
        基于聚散熵及運動目標檢測的監(jiān)控視頻關(guān)鍵幀提取
        国产专区亚洲专区久久| 国产精品原创巨作AV女教师 | 超薄肉色丝袜一区二区| 午夜福利影院不卡影院| 夜色视频在线观看麻豆| 精品国产一区二区三区色搞| 中文字幕久久精品一二三区| 草莓视频一区二区精品| 国产亚洲一区二区三区三州 | 欧美孕妇xxxx做受欧美88| 久久久久久久一线毛片| 香蕉蜜桃av一区二区三区| 内射白浆一区二区在线观看| 亚洲国产美女精品久久久 | 日本av一区二区播放| 国产女主播一区二区久久| 色天使综合婷婷国产日韩av| 在线免费黄网| av永远在线免费观看| 亚洲视频免费一区二区 | 欧美日本视频一区| 亚洲av乱码国产精品观| 国内精品久久久久影院薰衣草| 正在播放国产对白孕妇作爱| 亚洲大尺度动作在线观看一区| 在线观看在线观看一区二区三区| 99久久99久久精品免费看蜜桃| 日韩av无码成人无码免费| 97人妻无码免费专区| 中文字幕亚洲综合久久综合| 忘忧草社区www日本高清| 在线观看视频一区| 91桃色在线播放国产| 国产成人无码专区| 久久精品中文字幕一区| 亚洲精品美女久久久久99| 中文字幕第一页人妻丝袜| 欧美俄罗斯40老熟妇| 亚洲一区sm无码| 午夜视频一区二区在线观看| 精品国偷自产在线视频九色|