宋 戈,胡 偉,肖碧波
(北京化工大學 北京 100029)
在社會公共安全領域,視頻監(jiān)控系統(tǒng)已經成為維護社會治安,加強社會管理的一個重要組成部分。然而視頻錄像存在存儲數(shù)據(jù)量大,存儲時間長的特點,通過錄像尋找線索,獲取信息的傳統(tǒng)做法需要耗費大量的人力、物力以及時間,效率極低。因此,如果在視頻監(jiān)控系統(tǒng)中,對原始視頻進行濃縮即視頻摘要,就可以快速瀏覽,鎖定檢索對象,提高工作效率,滿足各種監(jiān)控方面的需求及應用。但是由于單個攝像機所能獲取到的場景信息有限,而高清廣角攝像機因其價格較高在一般的場合無法廣泛使用,因而,在對將要進行視頻摘要的視頻流進行獲取時,運用技術對多攝像頭進行拼接具有重要的實用價值?;诙鄶z像頭拼接的視頻摘要就是利用圖像拼接技術將多個有公共視野的攝像頭拼接為視野范圍更廣的攝像頭,并對此拼接而成的攝像頭所捕獲的視頻流進行視頻摘要處理。
攝像頭拼接的基礎是圖像拼接,國內外對圖像拼接方面的研究,早從上世紀七八十年代就已經開始,并且在多年的研究中取得了較多的成果,產生了多種不同的圖像拼接算法和溶合方法。
在當前已經出現(xiàn)的多種圖像拼接方法中,David Lowe于1999年提出并于2004年進行更深入發(fā)展和完善的以局部特征描述子SIFT為核心的算法因其對平移、旋轉、光照、尺度等具有較好的魯棒性而得到廣泛應用[1-2],該算法能實現(xiàn)較好的拼接效果,但是也存在算法復雜、計算量龐大的缺點,計算的復雜度過高就難以滿足實時性需求,而攝像頭的拼接恰恰需要的就是一定的實時性,因此,如何在取得較好拼接效果的前提下實現(xiàn)多攝像頭拼接的實時性,是本文第一部分的研究重點。多攝像頭拼接的流程圖如圖1所示。
攝像頭的基本組成是幀圖像。所以多攝像頭拼接的本質是攝像頭捕獲的幀圖像的拼接。幀圖像的拼接則主要有匹配和融合這兩步組成。
圖1 多攝像頭拼接流程圖Fig.1 The flowchart of multi-camera stitching
幀圖像拼接的質量主要依賴于圖像匹配的精確度,因此幀圖像匹配算法是本實驗的核心和關鍵。選擇的匹配算法要同時兼顧匹配精度和計算復雜度。特征匹配的重點是特征點檢測,常用的特征點檢測算法有Canny算法[3]、Harris算法[4]等。本文采用比較經典的基于sift變換的幀圖像拼接技術[1-2]。 SIFT特征匹配算法包括兩個階段,第一階段是SIFT特征的生成;第二階段是SIFT特征向量的匹配。當兩幅幀圖像的SIFT特征向量生成完成后,我們用關鍵點特征向量的歐式距離(如公式(1)所示)來作為兩幅幀圖像中關鍵點的相似性的判定度量。
由于自動提取和匹配得到的偽匹配特征點集合中難免存在誤配點使幀圖像拼接不準確,因此,通過一種糾錯能力很強的算法即RANSAC算法[5]來提純匹配點集合。
幀圖像融合算法有很多種,本實驗參考Szeliski提出的一種圖像平滑過渡算法[6]:設融合區(qū)域的漸變因子為d,imagel和image2分別代表前后兩幅圖像在重疊區(qū)域的對應像素值,image3代表融合區(qū)域的對應像素值,則image3的值如公式(2)所示,d與幀圖像之間水平方向重疊距離有關(0 通過這樣的幀圖像融合,幀圖像之間就能慢慢過渡平滑拼接。 由于曝光程度等原因,在幀圖像融合的過程中極容易產生拼接縫,拼接縫對于整幅圖像來說可以理解為幀圖像的噪聲,因此消除拼接縫可以采用圖像去噪的方法。傳統(tǒng)去噪的方法有很多[7],中值濾波法速度快,但質量一般。小波變換法算法比較復雜[8-9],實用性低。因此,我們最終采用對重疊區(qū)域進行加權平滑的方法。這種方法的思路是:圖像重疊區(qū)域中像素點的灰度值由兩幅圖像中對應點的灰度值加權平均得到。當一組幀圖像匹配完成后,它們匹配過程中產生的變換矩陣及剪切模板也隨之被記錄下來。 攝像頭一組幀圖像拼接過程中,幀圖像匹配,幀圖像融合這兩個是最主要且耗時最多的步驟,如果能在后續(xù)的幀圖像拼接中把這兩步簡化,對于實現(xiàn)多攝像頭拼接的實時性將起到至關重要的作用。 由于攝像頭位置相對固定,當再次從多個攝像頭提取幀圖像時,我們將每組對應幀按照首幀圖像匹配時產生的變換矩陣進行變形;將變形后的幀圖像用之前首幀圖像配準后產生的剪切模板進行裁剪及融合;將每幀融合好的新鏡頭循環(huán)顯示,如此,便使之達到多攝像頭融合成一個攝像頭的效果。使用公用變換和剪切模板加速前后攝像頭單幀拼接時間的對比如圖2所示。 圖2 攝像頭單幀拼接時間對比圖Fig.2 Time comparison chart of camera single-frame splicing 我們知道,攝像頭被普遍用于監(jiān)控領域,多個攝像頭拼接成一個攝像頭之后,監(jiān)控方的捕捉視野在變寬的同時,也存在著單個攝像頭錄制視頻后同樣的問題,即視頻信息量巨大,其中無用的信息占大多數(shù)[10],為了更高效的獲得所需的信息,我們需要運用近年來被廣泛使用于刑偵監(jiān)控領域的視頻摘要[11]。視頻摘要是對視頻內容的一個簡單概括,它先通過運動目標分析與檢測,提取運動目標及背景,然后對各個目標的運動軌跡進行分析,將不同的目標放到一個共同的背景場景中,并將它們以某種方式進行組合。我們要做的,就是將拼接而成的攝像頭所捕獲的視頻進行視頻摘要處理,實現(xiàn)攝像頭拼接更高效的實際應用。 視頻摘要的形式多種多樣[11],兩種最基本的摘要形式為關鍵幀序列和縮略視頻。 對于多攝像頭拼接而成的新攝像頭,本文采用的視頻摘要方法參考來自于Yael Pritch提出的亂序視頻摘要法[12],基本步驟如下:首先產生背景視頻;一旦背景視頻提取確定,在可能的時間內每個對象的一致性損耗將被計算;上一步即能量最小化步驟確定哪些時空對象出現(xiàn)在摘要中以及出現(xiàn)的時間點;最后將所選擇的時空對象與時間推移后的背景相結合。 摘要視頻的背景是一個延時的背景視頻,用于延時的背景視頻的背景幀是按照內插的時間直方圖選擇的,這個選擇的完成,使得每兩個被選擇為背景的幀之間的直方圖面積是相等的。雖然我們不能實現(xiàn)運動物體的精確分割,但我們可以將運動對象縫合于具有相似外觀的背景圖像上。這種運動對象與背景的一致性由此能量函數(shù)(如公式(3)確定[12]。 2.2.1 運動目標的檢測與分割 為了產生有用的摘要,動態(tài)對象需要被識別。我們使用一種簡化方法即計算時空管來代表動態(tài)對象[12],同時將背景減法與最小化切割結合在一起,用以得到光滑的前景對象的分割,在此過程中,與背景梯度相吻合的圖像梯度需進行衰減。動態(tài)對象集的生成依賴于標記函數(shù),通過標記函數(shù)f可以標記作為前景或背景圖像的每個像素r。一個理想的標記函數(shù)f通常能夠最小化吉布斯自由能(如公式(4)所示)[13]。 標記完成后,我們在時空體中構建一個包含所有的前景像素的掩模,并在此掩模上應用一個三維形態(tài)的擴張。其結果是,每一個對象被來自背景幾個像素包圍。最后,三維掩膜被分組為連接部件,表示為活動對象時空管。每個活動對象時空管b用特征函數(shù)(如公式(5)所示)表示[14]。 摘要視頻是基于時間映射M而生成,M將輸入視頻的原始時間在時間上移動對象b映射到摘要視頻的時間片段中。這個映射過程中需滿足能量最小化,能量約束如公式(6)所示: 2.2.2 運動對象序列 所有檢測到的運動對象,必須表示為時空場中的運動對象活動集[15]并在隊列中等待用戶排列。當一個對象時空管被插入到隊列中時,其活動損耗將被計算用以加速摘要視頻的生成。由于空間有限,在分配的空間將被耗盡的時候,部分對象時空管必須從隊列中刪除。刪除與否是通過3個條件判定:“時長”,“重要性”,“潛在的碰撞”[12]。 其中,判定物體重要性是通過計算它的特征函數(shù)和。 把所有對象時空管縫合在一起可能導致來自不同對象的顏色混和,因此,在消除了對象和背景之間唯一的接縫的同時需要在不同對象之間保持尖銳躍遷。對所有對象使用相似的背景并且獨立的拼接每一個運動對象到延時背景中。在融合階段,使用修改版本的泊松校對法(如公式(7)所示)[11]。 在將各活動對象集縫合到背景上之后,通過計算每一個象素相應的像素的加權平均值,得到每一個像素的值,與此同時,重疊的對象被融合在一起。 如圖3~圖5所示,在幾個不同的地點,將多攝像頭拼接成一個攝像頭使觀察者視野拓寬。 圖3 帶綠地的校園一角Fig.3 Corner of the campus with green 圖4 教學樓大門口Fig.4 At the gate of the building 圖5 一條小路的入口Fig.5 Entrance to an alley 在常用于監(jiān)控的教學樓大門口處,進行了攝像頭拼接后新攝像頭所捕獲的視頻進行視頻摘要處理,結果如下。 圖6(a)中畫面里的4個人分別來自于3個時間段,左邊的對象A和B第一個時段,中間的對象C第二個時段,右邊的對象D第三個時段(如圖6(b)、圖6(c)及圖6(d)所示),這些運動物體通過視頻摘要組合在一起,使攝像頭視頻中的有用信息能最快的被獲得。 圖6 原視頻及摘要視頻中的4個對象A,B,C,DFig.6 The four object A,B,C and D in source video and abstract video 通過視頻摘要處理后,拼接的新攝像頭拍攝的幾十分鐘視頻,在不失去重要信息的情況下就可以通過這種方式濃縮成幾分鐘,給工作效率帶來了極大的提高。 由于價格優(yōu)勢和便攜程度,攝像頭在諸如一般小型監(jiān)控等方面具有極大的應用前景,而提取有用信息和拓寬捕獲區(qū)域又是這類應用所追求的重點,文中把多攝像頭拼接與視頻摘要相結合,實現(xiàn)了基于多攝像頭拼接的視頻摘要,使得這兩方面的優(yōu)勢得到充分發(fā)揮并具有更高的實用價值。但是由于視頻摘要在處理時所需工作量較大,雖然最終效果很好,但是處理的時長卻有時遠大于視頻本身的時長,精確性和速度很難兩全,因此,如何在保證精確性的同時提高速度,是今后繼續(xù)研究的重點。 [1]David G.L.Distinctive Image Features from Scale-Invariant Keypoints.[J].international journal of computer vision 2004,39-46. [2]Lowe,D.G.Object recognition from local scale-invariant features [J].The Proceedings ofthe Seventh IEEE International Conference on 1999,1150-1157. [3]Canny.J.A Computational Approach to Edge Detection[J].IEEE Trans Pattern Analysis and Machine Intelligence,1 986(8):679?698. [4]Harris.C.and Stephens.M.A Combined Comerand Edge Detector [C]//In:Proceedings ofthe 4th Alvey Vision Conference,1988:147—151. [5]David A.Forsyth,等.計算機視覺——一種現(xiàn)代方法[M].林學閣,譯.北京:電子工業(yè)出版社,2004. [6]Szeliski.R.Video mosaics for virtual environments[J].IEEE Computer Graphics and Applications,1996,16(2):22—30. [7]丁迎,洪繼光.圖像拼接中偽匹配的判別和消解[J].中國圖象圖形學報,1999,4(10):886-890.DING ying,HONG Ji-guang.Thediscriminationand digestion of pseudo-match in image stitching [J].Journal of Image and Graphics,1999,4(10):886-890. [8]Jane.Y,Parbir Bhattacharya.A Wavelet—Based Coarse-to-Fine Image Matching Scheme in A Parallel Virtual Machine Enviroment[J].IEEE Transactions on Image Processing.2000,9(9):1547-1559. [9]晃銳,張科,李言?。环N基于小波變換的圖像融合算法[J].電子學報,2004,32(5):750-753.HUANG Rui,ZHANG Ke,LI Yan-jun.An image fusion algorithm based on wavelet transform [J].chinese journal of electronics,2004,32(5):750-753. [10]LI Ying.An OverView of Video Abstraction Technique[R].Image Systems Laboralory,HP Laboralory Palo Alto,HPL-2001-191,2001. [11]歐陽健全,李錦濤,張勇東.視頻摘要技術綜述[J].計算機工程,2005,30(10):7-9.OUYANG Jian-quan,LI Jin-tao,ZHANG Yong-dong.The summary ofvideo abstract [J].Computerengineering,2005,30(10):7-9. [12]Yael P,Alex R,Shmuel P.Nonchronological video synopsis and indexing[J].IEEE Transactions on Pattern Analysis And Machine Intelligence.2008(11):1971-1984. [13]Boykov Y,Kolmogorov V.An experimental comparison of Min-Cut/Max-flow algorithms for energy minimization in vision [J].IEEE Trans on Pattern Analysis and Machine Intelligence 2004(9),1124-1137. [14]Irani M,Anandan P,Bergen J,et al.Efficient representations of video sequences and their applications[J].Signal Processing on Image Comm,1996(4):327-351. [15]王成,劉桂清,老松場,等.面向事件影片摘要生成辦法[J].中國圖象圖形學報,2005,10(5):642-649.WANG Chen,LIU Gui-qing,LAO Song-yang,et al.The generation approach of event-oriented movie summary[J].Journal of Image and Graphics,2005,10(5):642-649.1.4 消除接縫并產生公用模板
1.5 多攝像頭實時拼接成一個攝像頭
2 新攝像頭的視頻摘要
2.1 創(chuàng)建背景視頻
2.2 基于對象的摘要
2.3 縫合成摘要視頻
3 實驗結果
3.1 多攝像頭拼接成果
3.2 多攝像頭拼接后視頻摘要處理
4 結束語