程海鷹, 王鳳隨, 朱樹明
(安徽工程大學電氣工程學院, 安徽蕪湖241000)
隨著互聯(lián)網(wǎng)和多媒體技術(shù)日新月異的進步,數(shù)字視頻廣泛應用在生活的各個方面,人們很難從海量視頻中獲取到有用信息,而視頻摘要技術(shù)就可以幫助用戶解決這個問題。視頻摘要是一項緩解視頻存儲瀏覽等方面的關(guān)鍵技術(shù),它是對完整視頻的提煉和概括總結(jié),將原始視頻的主要信息簡明扼要地呈現(xiàn)給目標用戶。視頻摘要一般包括靜態(tài)視頻摘要和動態(tài)視頻摘要,靜態(tài)視頻摘要主要通過提取具有代表性的關(guān)鍵幀組合形成視頻摘要,以標題、海報和故事板等形式展示;動態(tài)視頻主要通過視頻段的分割,選取和整合形成視頻摘要,多數(shù)以精彩集錦和全局縮略的形式展現(xiàn)[1-3]。視頻從本質(zhì)上來說是由一幀幀連續(xù)的圖像序列按照時間發(fā)生的先后順序拼接而成,而提取關(guān)鍵幀就是在連續(xù)時間點上的采樣且去除冗余信息的過程。當前在安防監(jiān)控視頻中,受用戶關(guān)注度較高的是人和車輛,而在制作視頻摘要的過程中,重點都是在于關(guān)鍵幀的提取。Zhao等[4]利用平均灰度累積直方圖和邊緣直方圖的方法來提取關(guān)鍵幀,該方法雖然能較準確地提取關(guān)鍵幀,但內(nèi)容覆蓋率不高。Guan等[5]提出通過計算SIFT特征點來建立表示全局信息的特征點池,從而選取可以覆蓋特征點池的視頻幀作為關(guān)鍵幀,該方法雖然能真實全面地反映原始視頻信息,但所提取關(guān)鍵幀的冗余度高。司若妍等[6]提出基于HSV-LBP和K-means聚類的方法提取關(guān)鍵幀,該方法能自適應得到視頻的閾值,但準確率不高且實時性不強。劉長征等[7]提出利用改進向量機和滑動窗口的方法提取關(guān)鍵幀,該方法提高了關(guān)鍵幀提取速度,但所提取的關(guān)鍵幀冗余度高,影響視頻摘要的真實性,效果不佳。
本文提出的基于HOG-LBP特征和SVM分類器的視頻摘要方法。首先,從分解到的視頻序列中提取形狀特征和紋理特征。其次,利用訓練好的支持向量機(Support Vector Machines,SVM)對用戶感興趣的圖像進行分類,將分類正確且不冗余的序列定位為關(guān)鍵幀。最后將保留下的關(guān)鍵幀按照原始視頻中出現(xiàn)的時間順序依次組合起來,形成視頻摘要。
方向梯度直方圖(Histograms of Oriented Gradients,HOG)可以表示圖像的形狀特征,不同的物體形狀不一樣,這樣可以作為區(qū)分目標物體的重要參考。HOG特征是模式識別和計算機視覺領(lǐng)域很常用的一種特征描述子[8],能將局部區(qū)域內(nèi)目標的梯度結(jié)構(gòu)和邊緣信息很好地表示出來。HOG特征最開始是由Navneet Dalal和Bill Triggs等人于2005年提出來的[9-11],他們的方法是將一幅圖像分割成很多個細胞單元(cell),再從cell中提取特征,而不是直接從圖像整體中提取,以此反映圖像中不同像素之間的梯度。
SVM是一個有監(jiān)督的學習模型,它的特點是在分類模型和模型參數(shù)的選擇上始終優(yōu)先結(jié)構(gòu)最小化,一般用于二類別分類問題。在視頻檢測特征分類中,針對低維空間的線性不可分問題,通過核函數(shù)映射到高維空間達到線性可分,再進行線性分割實現(xiàn)特征分類[13-14],而核函數(shù)是一個對稱函數(shù)K:Rn×Rn→R,它是將兩個Rn空間中的n維向量映射成一個實數(shù)。本文選取徑向基核函數(shù)(RBF)作為核函數(shù),通過SVM分類器對待提取的圖像特征進行分類。核參數(shù)的選擇受訓練數(shù)據(jù)大小的影響,需要進行相應的優(yōu)化。往往一個理想的SVM分類器需要大量的具有代表性的訓練樣本,比如在視頻監(jiān)控當中就要選取大量的車輛和行人樣本,而選取的樣本要確保有大小、光照、遮擋等情況不一的圖片若干,以此保證樣本的多樣性,使得算法更具有魯棒性。
為了能有效地進行分類,選取合適的分類特征參數(shù)也是極其重要的。由于HOG特征是在圖像的局部單元上進行提取,它對圖像幾何和光學的形變都能保持很好的不變性,LBP算子具有灰度不變性,光照對其基本沒有影響,改進后的圓形LBP算子對圖像旋轉(zhuǎn)具有不變性。本文算法兼顧了兩者在特征提取上的優(yōu)勢,將HOG形狀特征向量和LBP紋理特征因子融合在一起,可有效地減小形變和光照對實驗結(jié)果產(chǎn)生的誤差。
由于圖像特征分明,比視頻更容易操作,從圖像中能捕獲到更多的細節(jié)信息。故從分解到的視頻序列中提取HOG-LBP特征。對于HOG特征提取,本文灰度化處理后得到歸一化圖像的大小為128×128,細胞單元大小設(shè)置為8×8,一個細胞單元的寬度為8個像素,塊(block)大小設(shè)置為16×16,參數(shù)設(shè)置完畢后進行HOG特征計算。
首先采用Gamma校正法對圖像顏色空間進行歸一化:
I(x,y)=I(x,y)gamma
(1)
再計算每個像素的梯度:
Mx(x,y)=N(x+1,y)-N(x-1,y)
(2)
My(x,y)=N(x,y+1)-N(x,y-1)
(3)
其中:Mx(x,y)表示水平方向梯度,My(x,y)表示垂直方向梯度,N(x,y)表示像素值。
由式(2)和式(3)計算出像素點(x,y)處的幅值和方向值為:
(4)
(5)
然后將圖像劃分為若干細胞單元,計算細胞單元的梯度直方圖。將每4個細胞單元構(gòu)成一個block,將4個9維的特征向量組合成一塊,那么每個block的特征向量為36維,最后把所有的block特征組合在一塊形成整幅圖像的HOG特征。HOG特征提取的流程圖如圖1所示。綜上所述,得到整幅圖像的HOG特征向量的總維數(shù)大小為(16-1)×(16-1)×9×2×2=8100維。
圖1HOG特征提取流程圖
由于HOG特征只能表征形狀信息,為了更好地表征圖像信息,本文在原本的HOG特征基礎(chǔ)上,增加了LBP紋理算子。
首先選取所要計算區(qū)域的中心像素,如圖2所示,設(shè)定這個中心像素的灰度值為閾值,然后將周圍圓形鄰域的像素灰度值與該閾值進行一一對比,如果大于閾值,該像素點位置標記為1,如果小于閾值則標記為0。這樣便可以得到一串二進制序列,再對不同位置的像素值進行加權(quán)求和,就可以得到該區(qū)域的LBP值。
圖2基本LBP算子計算示意圖
圖3SVM分類器訓練模型
在通過SVM分類器正確分類后的圖片中,發(fā)現(xiàn)有不少車輛和人物相似或重復,比如有的車輛一直處于靜止狀態(tài)中,這會導致不少冗余幀的存在。為了精確得到關(guān)鍵幀,將執(zhí)行剔除冗余幀的步驟,利用余弦相似度方法將所有待定的關(guān)鍵幀之間進行對比,篩查過濾冗余幀。
在余弦相似度方法中,將圖像的灰度直方圖劃分成64個區(qū),連續(xù)4個灰度等級劃分為一個區(qū),對每個區(qū)的4個灰度等級進行求和運算,這樣得到的64個數(shù)據(jù)表征一幅圖像的一個向量。通過對比兩幅圖像向量的余弦值和余弦夾角的大小來判斷兩幅圖像的相似度。在分解的視頻幀中,余弦值越接近1,表明夾角越小,相似度越高。在本文中,若余弦值接近1,則這兩幀會被看作冗余,第二幀會被剔除。
綜上所述,提出算法提取關(guān)鍵幀的步驟如下:
Step1:從分解到的視頻序列中分別提取HOG和LBP特征,訓練SVM分類器。
Step2:利用訓練后的SVM分類器對待檢測圖片進行分類,將分類正確圖片暫定為關(guān)鍵幀。
Step3:利用圖像的余弦相似度方法對暫定的關(guān)鍵幀再進行過濾篩選步驟,剔除其中的冗余幀。
本文算法實驗硬件環(huán)境是普通臺式電腦,主要配置是Inter Core i3-7100(3.90 GHz)的四核處理器和4 GB內(nèi)存,軟件環(huán)境是Windows10 64位,仿真運行工具為Matlab2017a。其中SVM訓練庫采用的是VOC2007圖片數(shù)據(jù)集,從4952張圖庫中篩選出適合的訓練樣本集,在篩選的過程保證同一樣本的多樣性,從不同的方向視角狀態(tài)出發(fā),建立了一個簡易的人物庫和車輛庫。如圖4與圖5所示。
圖4車輛庫的部分內(nèi)容
圖5人物庫的部分內(nèi)容
基于SVM分類器對視頻幀分別進行單一特征提取和HOG-LBP特征提取,實驗結(jié)果見表1。從表1中可以對比分類的正確率、錯誤率以及所耗費的時間。
表1單一特征提取與HOG-LBP特征提取實驗結(jié)果對比
由表1數(shù)據(jù)可知,在SVM分類器、訓練和測試樣本完全相同的情況下,三種特征提取方式所耗費的時間相當,但HOG-LBP特征提取方式比HOG、LBP單一特征提取正確率分別提高了3.08%、12.31%,而錯誤率分別降低了3.08%、10.78%。故HOG-LBP特征提取效果更好,表明HOG-LBP結(jié)合的特征提取優(yōu)于單一特征提取。
本文基于HOG-LBP特征,利用SVM分類器將分類正確且不冗余的幀作為視頻的關(guān)鍵幀。采用準確率(Accuracy Rate,AR),錯誤率(Error Rate,ER)這兩個指標作為算法生成的視頻摘要的評價標準,計算公式為:
(6)
(7)
為了驗證本文算法的有效性,另外選擇了街道、路口、校園三個不同場景的視頻作為測試數(shù)據(jù)。測試視頻屬性見表2。同時為了使實驗結(jié)果更加具有說服力,在同一場景下還將本文算法與文獻[7]算法作了對比,并采取了人為主觀的評價模式,實驗結(jié)果見表3。
表2測試視頻屬性
表3兩種算法在不同場景時對應的準確率和錯誤率
從表3可知,對于三個不同場景的視頻,10個用戶選擇的關(guān)鍵幀作為真實值,在真實值相同的情況下,本文所使用的算法提取的關(guān)鍵幀數(shù)目比文獻[7]要少,但是與真實值重合的數(shù)目卻要多,反映了本文算法更具有針對性,更貼近真實值。本文算法與文獻[7]算法相比,三個場景關(guān)鍵幀提取的準確率平均提高了2.08%,錯誤率下降了21.31%,從而提高了關(guān)鍵幀的質(zhì)量。由于監(jiān)控視頻的所有視頻幀的背景都是靜止不變的,本文算法比文獻[7]算法增加了剔除冗余幀的步驟,減少了冗余幀的干擾,使提取到的關(guān)鍵幀更具有代表性,將關(guān)鍵幀按照原始視頻出現(xiàn)的時間順序依次組合起來,更能反映原始視頻的真實內(nèi)容,視頻摘要效果更佳。
本文提出了一種基于HOG-LBP特征和SVM分類器的視頻摘要方法,該算法結(jié)合HOG和LBP特征提取的優(yōu)勢,利用SVM分類器對監(jiān)控視頻圖像進行分類,將分類準確且不冗余的視頻幀作為關(guān)鍵幀,最后,將提取到的所有關(guān)鍵幀按照原始視頻中出現(xiàn)的時間順序依次組合起來,形成視頻摘要。實驗結(jié)果表明,本文算法與文獻[7]算法相比,三個場景的準確率平均提高了2.08%,錯誤率平均下降了21.31%,提高了關(guān)鍵幀質(zhì)量,為用戶提取監(jiān)控視頻摘要提供了有效依據(jù)。