查日盼 彭太樂
摘要:針對視頻分類準確率低的難題,文中提出一種改進的K-Means算法,并以此算法為分類器來實現(xiàn)視頻分類。首先提取視頻的顏色特征、SIFT特征及紋理特征;改進傳統(tǒng)的K-Means聚類算法,以標簽視頻樣本形成初始聚類值,進一步優(yōu)化距離函數(shù),實現(xiàn)視頻分類。通過實驗表明:該文提出的分類算法具有較高的分類準確率。
關鍵詞:鏡頭;K-Means聚類;視頻分類
視頻是重要的多媒體數(shù)據(jù)表達形式之一,也是移動通信平臺、互聯(lián)網(wǎng)絡中主要的數(shù)據(jù)存在形式之一。隨著網(wǎng)絡技術的高速發(fā)展,網(wǎng)絡視頻的數(shù)量呈爆炸式急劇增長,同時產(chǎn)生了大量的視頻應用,如視頻分類、視頻索引、視頻搜索等應用。視頻是一類結構復雜、數(shù)據(jù)量龐大的多模態(tài)數(shù)據(jù)。從語義角度出發(fā),同一領域的視頻之間總有一定的關聯(lián)。領域專家利用視頻的多種屬性來建立視頻之間的關聯(lián),這對于視頻分類、索引是非常重要的,對視頻數(shù)據(jù)過濾和視頻檢索等應用也具有重要意義。
視頻是具有多種視覺特征的多媒體數(shù)據(jù),許多視頻還具有音頻特征、文本特征等。利用視頻的視覺特征來實現(xiàn)視頻分類是常見的視頻分類方法。很多文獻利用視頻的一種或多種視覺特征來實現(xiàn)視頻分類。比如文獻中,孟麗等人基于直方圖差分法實現(xiàn)了視頻分類方法。文獻中,Huang等人提出一種以文本特征實現(xiàn)視頻分類的算法。由于視頻視覺特征的多樣性,利用一種視覺特征進行分類往往得不到較好的分類效果。很多文獻利用多種視覺特征及音頻特征實現(xiàn)視頻分類,收到了較好的分類效果。Yang等人從視頻的視覺特征、語義特征、音頻特征及附加文本等進行分類,提出利用多模態(tài)分類效果優(yōu)于單模態(tài)分類效果。也有很多文獻從改進分類器出發(fā),也提高了分類效果。比如YUAN等人利用決策樹實現(xiàn)了視頻分類,朱映映等人提出以詞袋模型實現(xiàn)體育視頻分類。
綜合利用視頻的多種物理特征,可以有效地提高視頻分類準確度。本文在提取視頻的顏色特征,SIFT特征、紋理特征的基礎上,以改進的K-Means聚類算法為分類器對視頻進行分類。算法過程:對于給定的視頻Video,首先提取其顏色特征及SIFT特征;改進分類器,最后實現(xiàn)視頻分類。