王垚,葉光明
(1.武漢郵電科學(xué)研究院湖北武漢430074;2.武漢烽火眾智數(shù)字技術(shù)責任有限公司湖北武漢430074)
視頻摘要系統(tǒng)的研究與實現(xiàn)
王垚1,葉光明2
(1.武漢郵電科學(xué)研究院湖北武漢430074;2.武漢烽火眾智數(shù)字技術(shù)責任有限公司湖北武漢430074)
基于安防領(lǐng)域需要快速檢索監(jiān)控視頻中嫌疑人信息需求。本文設(shè)計了一種視頻摘要系統(tǒng),深入分析了該系統(tǒng)的設(shè)計目標和組成模型。在具體實現(xiàn)方面,該系統(tǒng)通過結(jié)合目標形狀特征和運動特性來對目標進行分類,并依據(jù)目標的運動軌跡提取視頻關(guān)鍵幀的方法合成視頻摘要。系統(tǒng)完成后通過導(dǎo)入監(jiān)控視頻文件生成摘要驗證測試,該視頻摘要系統(tǒng)能在69.44%壓縮比的前提下達到零誤報率。實驗結(jié)果,該視頻摘要系統(tǒng)壓縮比高,識別誤差小,能極大提高檢索視頻中信息的效率。
視頻檢索;視頻摘要;視頻內(nèi)容分析;摘要生成
視頻監(jiān)控已經(jīng)成為現(xiàn)代安防、公共安全不可缺少的技術(shù)手段。但是,通常一個案件涉及的視頻錄像長達幾十甚至上百小時數(shù),需要十幾人甚至是幾十人花費大量的時間進行人工檢索,導(dǎo)致案件的偵辦錯過偵破的黃金時間。此外,很多重要的線索或活動對象,在監(jiān)控畫面中僅僅出現(xiàn)十幾秒甚至數(shù)秒,而這樣的信息,散落在數(shù)十小時的視頻中,人工查看視頻時,極易遺漏這些轉(zhuǎn)瞬即逝的重要信息。據(jù)IMF研究實驗表明,在連續(xù)觀察12分鐘的視頻圖像時,觀察者會錯過45%的場景,而在連續(xù)觀察22分鐘后會錯過95%的場景,從而忽略了許多重要細節(jié)。這使得視頻錄像和視頻監(jiān)控系統(tǒng)的真正有效使用率大為降低。即使有足夠的人力和時間,通過人工查看原始視頻的方式來捕捉轉(zhuǎn)瞬即逝的線索,也存在遺漏重要線索的可能[1]。
傳統(tǒng)視頻線索的查找,猶如大海撈針,面臨巨大的挑戰(zhàn)。針對海量視頻錄像調(diào)閱慢、分析難等問題,急需采用智能化的手段,快速處理和檢索海量視頻,提高視頻監(jiān)控錄像分析水平和工作效率,使人能在注意力最集中的數(shù)分鐘內(nèi),高效的瀏覽視頻所攜帶的主要信息,有效的捕捉線索和對象。
視頻快速摘要檢索算法是通過對原始視頻中的運動目標進行分析,提取運動目標和背景圖片,然后對各個目標的運動軌跡及特征進行分析,并將它們按照時間軸最優(yōu)化分布的原則,重新排列目標在時間軸的位置,根據(jù)新生成的視頻軸位置和各場景挑選出來的背景圖像,重新合成新的視頻圖像即摘要視頻,生成的摘要視頻中的目標與原視頻中的幀數(shù)據(jù)對應(yīng),同時可以根據(jù)目標相關(guān)特征(如人、車、物,大小,速度,顏色)等進行快速檢索,實現(xiàn)目標的快速檢索和定位[2]。
本文通過設(shè)計一種基于視頻檢索技術(shù)的視頻摘要系統(tǒng),能夠解決在傳統(tǒng)視頻監(jiān)控里的海量查詢慢、相關(guān)搜索困難等問題。實現(xiàn)快速定位特定時間段的相關(guān)可疑目標,重現(xiàn)錄像的時間段場景,降低辦案人員后期錄像取證的工作量。
基于視頻檢索的視頻摘要系統(tǒng)采用C/S架構(gòu),具有如下特點:
1)視頻摘要分析支持平臺視頻數(shù)據(jù)及主流的視頻格式(AVX、AVI等格式)的錄像文件,分析過程中顯示進度等功能。
2)在瀏覽視頻片段過程中,用戶可快進、快退,統(tǒng)一設(shè)定所有移動物體的速度,以便方便快捷的找到感興趣目標。視頻剪輯也可作為一個原始視頻流的索引。在任意時間,雙擊摘要視頻中的對象便可回溯原始錄像。
3)可以將摘要視頻中所有時間全部標識出來,更加直觀的查看事件。
4)把每個事件都加上時間標記,使用戶可以直觀的看到每個事件首次出現(xiàn)在視頻的時間。
5)能夠?qū)崿F(xiàn)快放、慢放播放摘要視頻的進度并調(diào)節(jié)播放顯示的事件密度,可以調(diào)大和調(diào)小,便于更加有效的提取有效的事件。
6)能夠?qū)崿F(xiàn)對單個摘要處理后的文件,進行單獨或者統(tǒng)一的事件的特征搜索,輸入事件的顏色、尺寸、運動方向等信息,返回搜索結(jié)果。
該系統(tǒng)結(jié)構(gòu)圖如圖1所示,用戶將指定的摘要分析任務(wù),通過中心管理單元下發(fā)給摘要分析單元,摘要分析單元進行視頻摘要分析,分析完畢后,調(diào)用存儲單元進行存儲。視頻摘要分析完畢后,用戶可以通過中心管理單元向媒體單元請求摘要視頻,媒體單元通過摘要合成單元獲取摘要視頻數(shù)據(jù)。用戶可以根據(jù)特征來檢索運動目標,并定位到運動目標出現(xiàn)的原始視頻。用戶可以根據(jù)快照來檢索感興趣的目標,并定位到運動目標出現(xiàn)的原始視頻。
圖1 系統(tǒng)總體結(jié)構(gòu)圖
智能視頻分析技術(shù)源自計算機視覺與人工智能的研究,它是智能視頻應(yīng)用系統(tǒng)的核心功能。智能視頻分析算法涉及到圖像處理的多個技術(shù)領(lǐng)域,而其中最核心的是目標檢測分類和目標跟蹤兩個模塊。算法實施流程圖及設(shè)計方案如圖2所示。
1)目標分類算法
在視頻摘要系統(tǒng)中,目標分類用來對視頻場景中的運動目標進行分類標記,將目標分為人、車、物等3類。目標分類技術(shù)是視頻摘要系統(tǒng)中的重要組成步驟,是行為理解與分析得重要依據(jù)。對視頻摘要中檢測到的運動目標進行分類,能夠為工作人員進行可疑行為搜索查看減少工作量,同時大大提高了工作效率。目標分類工作是建立在目標檢測和跟蹤的基礎(chǔ)之上的。目標提取的效果直接影響到目標分類的好壞。常用的分類方法包括:通過目標的形狀來對目標進行分類的方法和通過目標的運動信息來對目標進行分類的方法[3]。
基于形狀信息的分類指場景中的運動目標經(jīng)過目標檢測后,將運動目標從背景中分離出來,對獨立的運動目標的形狀特征進行分類。而基于運動特性的分類,簡單來說,就是利用運動目標的速度、光流、周期性等運動信息進行分類。但基于運動特性的分類方法首先要很好地實現(xiàn)對運動目標的跟蹤。其次在某些運動信息的使用上具有局限性,比如使用光流特征來進行分類的方法的計算量大,難以實現(xiàn)實時性的要求。
綜合兩種方法的優(yōu)缺點以及視頻摘要系統(tǒng)對于目標分類的實時性、準確性的要求,本文系統(tǒng)使用基于目標形狀特征和運動特性相結(jié)合的方法來進行目標分類。采用運動目標的長寬比、離散度、梯度方向直方圖等特征作為目標的描述子來進行分類,并實時更新每一個目標的特征以及分類結(jié)果來將目標的形狀特征和運動特征結(jié)合起來對目標進行分類。
2)視頻摘要系統(tǒng)中,目標跟蹤技術(shù)就是確定在視頻摘要系統(tǒng)中提取出的同一目標在不同視頻幀序列時所處的位置。目標跟蹤技術(shù)是視頻摘要系統(tǒng)中的不可或缺的技術(shù)之一。要實現(xiàn)對摘要視頻中的運動目標可以溯源到原始視頻中其出現(xiàn)直至消失的位置就必須在進行視頻摘要時對提取到的運動目標進行跟蹤。常用的視頻跟蹤的方法包括:基于模型的跟蹤、基于目標特征的跟蹤[4]。
基于模型的跟蹤是通過匹配目標模型來跟蹤目標,該模型不僅能夠表示出目標的區(qū)域信息,而且還能表達目標的立體構(gòu)造、運動特性等。而在實際應(yīng)用中,目標的精確模型的獲得確實非常困難的,并且跟蹤過程及其復(fù)雜,耗時無法滿足實時性要求[5]?;谀繕颂卣鞯母櫍和ㄟ^特征提取和特征匹配兩個步驟,匹配目標的全局特征(如面積、周長)也有局部特征(如點、線)來對目標軌跡進行持續(xù)跟進。由于視頻摘要系統(tǒng)中對于實時性、目標跟蹤連續(xù)性、正確性有較高的要求,本文系統(tǒng)采取基于目標特征的跟蹤方法。在提取到每一幀圖像中的運動目標以后,再提取運動目標的特征,對幀間提取到的目標采用特征匹配的方法進行匹配,從而達到跟蹤的目的。
圖2 系統(tǒng)算法流程圖
系統(tǒng)界面如圖3、4所示分為5個部分。
圖3 系統(tǒng)界面圖
圖4 系統(tǒng)界面圖
1)摘要列表窗口
主要功能包括添加需要分析的摘要視頻、刪除添加的記錄以及摘要的信息;開始分析摘要、停止分析摘要;開始播放摘要視頻、停止播放摘要視頻、設(shè)置播放基準時間等功能[6]。
2)摘要視頻播放窗口
主要功能包括:顯示摘要視頻、顯示摘要目標的運動框、出現(xiàn)時間;慢放、快放、暫停播放摘要視頻;選擇是否顯示目標出現(xiàn)時間,以及目標框。
3)原始視頻播放窗口
顯示原始視頻;快放、慢放、暫停播放原始視頻;抓拍、下載錄像到本地。
4)特征檢索窗口
根據(jù)特征進行檢索原始視頻。
5)摘要快照窗口
顯示摘要視頻中的快照。并可以根據(jù)特征進行檢索。
在網(wǎng)絡(luò)視頻監(jiān)控平臺建設(shè)深入開展的背景下,現(xiàn)有視頻監(jiān)控網(wǎng)絡(luò)存在著缺乏深度應(yīng)用的模式、監(jiān)控網(wǎng)的智慧化程度不高、系統(tǒng)建設(shè)的投入產(chǎn)出比低等突出問題。如何用新技術(shù)改造現(xiàn)有的視頻監(jiān)控網(wǎng)絡(luò),使之能更好地適應(yīng)物聯(lián)網(wǎng)時代視頻監(jiān)控智慧化、情報化的應(yīng)用需求已迫在眉睫。視頻監(jiān)控的應(yīng)用瓶頸是視頻信息如何高效提取,如何同其他信息系統(tǒng)進行標準數(shù)據(jù)交換、互聯(lián)互通及語義互操作。解決這一問題的核心技術(shù)即是通過視頻摘要檢索技術(shù)來解決此問題。通過視頻快速檢索系統(tǒng)形成對海量數(shù)據(jù)深度挖掘,形成新一代的視頻監(jiān)控系統(tǒng)智慧化、語義化、情報化的語義視頻監(jiān)控系統(tǒng)。
視頻快速摘要檢索系統(tǒng)采用先進的圖像處理技術(shù),以視頻摘要檢索為解決方案,實現(xiàn)以機器自動處理為主的視頻信息處理和分析視頻快速摘要檢索系統(tǒng),快速提取監(jiān)控錄像中視頻信息,并存儲于中心數(shù)據(jù)庫中。存儲于數(shù)據(jù)庫中的視頻信息可以通過技術(shù)手段轉(zhuǎn)化為安防、公檢法工作可用的情報;實現(xiàn)監(jiān)控網(wǎng)絡(luò)之間、終端之間、職位之間的信息共享和主動互操作,實現(xiàn)主動監(jiān)控、自動聯(lián)網(wǎng)分析等網(wǎng)絡(luò)功能;全方位拓展視頻在安全工作中的應(yīng)用模式,大幅度提高技術(shù)的易用性,實現(xiàn)以業(yè)務(wù)為中心的隨時隨地的靈活、簡單、多樣的視頻按需服務(wù)應(yīng)用。
[1]張銘銘.視頻監(jiān)控系統(tǒng)中圖像增強技術(shù)的研究[D].濟南大學(xué),2009.
[2]王娟,蔣興浩,孫錟鋒.視頻摘要技術(shù)綜述[J].中國圖像圖形學(xué)報,2008,29(2):457_459.
[3]劉桂清.視頻摘要技術(shù)的研究與實現(xiàn)[D].長沙:國防科技大學(xué),2004.
[4]Wo1f W.Key Frame Se1ection by Motion Ana1ysis[C]//IEEE IntConf Acoust,Speech,and Signa1 Proc,1996.
[5]吳凌琳,楊磊,吳曉雨,等.視頻摘要系統(tǒng)的技術(shù)研究與實現(xiàn)[J].中國傳媒大學(xué)學(xué)報:自然科學(xué)版,2013,1(9):44_52.
[6]Gray Bradski,Adrian Kaeb1er.Learning OpenCV:Computer Vision with the OpenCV Library[M].O'Rei11y Media,2008.
Research and lmPlementatlon of Vldeo summarlzatlon technology
WANG Yao1,YE Guang_ming2
(1.Wuhan Research Institute of Posts and Telecommunications,Wuhan 430074,China;2.Wuhan FiberHome Digital Technology Co.,Ltd,Wuhan 430074,China)
Based on the demand of rapid retrieva1 of the suspect's information in survei11ance Video.A video abstracting system is designed in this paper.The system design goa1s and component mode1 are a1so deep1y ana1yzed.In terms of concrete imp1ementation,the system c1assify the targets by the shape and movement characteristic,and the video abstract is synthesized through the method of extracting video key frames based on the trajectory of the target.The abstract verification test is generated by importing survei11ance video fi1es after the system competed.This video abstracting system can achieve zero fa1se positive rate in the context of a compression ratio of 69.44%.The experiment resu1ts show that the video abstracting system has high
video retrieva1j video summarizationj video content ana1ysis;abstraction generation
TN919.8
A
1674_6236(2016)10_0184_03
2015_06_08稿件編號:201506078
王垚(1992—),女,湖北武漢人,碩士研究生。研究方向:通信與信息系統(tǒng)、圖像模式識別。
compression ratio and 1itt1e identification error,can great1y improve the efficiency of retrieving video information.