李龍,尹輝,2,許宏麗,歐偉奇
(1.北京交通大學 計算機與信息技術學院,北京 100044; 2. 北京交通大學 交通數(shù)據(jù)分析與挖掘北京市重點實驗室,北京 100044)
?
一種魯棒的Multi-Egocentric視頻中的多目標檢測及匹配算法
李龍1,尹輝1,2,許宏麗1,歐偉奇1
(1.北京交通大學 計算機與信息技術學院,北京 100044; 2. 北京交通大學 交通數(shù)據(jù)分析與挖掘北京市重點實驗室,北京 100044)
針對視頻中的背景變化劇烈、目標尺度差異明顯和視角時變性強的特點,提出一種魯棒的針對multi-egocentric視頻的多目標檢測及匹配算法。首先,構建基于boosting方法的多目標檢測模型對各視頻序列中的顯著目標進行粗檢測,并提出一種基于局部相似度的區(qū)域優(yōu)化算法對粗檢測顯著目標的輪廓進行優(yōu)化,提高Egocentric視頻中顯著目標輪廓檢測和定位的準確性。在顯著目標檢測基礎上,對不同視角中的顯著目標構建基于HOG特征的SVM分類器,實現(xiàn)多視角的多目標匹配。在Party Scene數(shù)據(jù)集上的實驗驗證了本文算法的有效性。
Multi-Egocentric視頻;多目標檢測;多目標匹配
Egocentric視頻是通過固定在拍攝者頭、肩、手等部位或由拍攝者手持的穿戴式攝像機,在拍攝者自由運動過程中所拍攝的。Egocentric視頻具有背景變化劇烈、目標尺度差異明顯和視角時變性強的特點,同時存在拍攝視頻不平順、運動模糊、噪聲大等問題,為基于此的計算機視覺任務帶來極大的挑戰(zhàn)。Multi-Egocentric視頻是由處于同一場景中的多個個體所拍攝的不同視角、不同運動軌跡的視頻,研究基于multi-egocentric視頻的目標檢測和匹配對于后續(xù)的場景理解等高級視覺任務具有重要的意義。
由于場景的復雜性和運動的多樣性,基于視頻的顯著目標檢測一直都是計算機視覺研究領域的難點問題之一?;趩我暯且曨l的目標檢測主要有基于單幀圖像通過特征提取訓練目標檢測器的方法,如Pedro Felzenszwalb等[1]提出的可變性組件模型(deformable part model,DPM),基于目標成員的可變形部位,結合邊界敏感的方法挖掘負樣本,訓練隱性支持向量機(latent,SVM)分類器檢測目標,但對于視頻中距離鏡頭較遠的目標有漏檢的情況;Lubomir Bourdev等[2]提出Poselet模型用帶標注的三維人體動作關節(jié)點數(shù)據(jù)集訓練SVM分類器,以檢測人的頭、軀干、背部等部位,該算法在清晰圖像上取得較好的效果,但對于低質圖像漏檢率較高;利用時空特征和表面特征相結合的訓練方法,如Philippe Weinzaepfel[3]提出運動邊模型(motion boundary,MB)將圖像局部區(qū)域的顏色、光流以包的形式訓練隨機森林模型,得到的支持向量機(SVM)分類器可檢測精確的目標邊緣,但當目標無明顯運動時,邊緣檢測結果不佳;基于多視角視頻的目標檢測利用多個不同視角的監(jiān)控視頻跟蹤目標,檢測目標行為,如KSusheel Kumar等[4]提出的實時多視角視頻跟蹤算法,應用在安全系統(tǒng)中。
Egocentric視頻的分析和處理是近年來的研究熱點之一,目前的研究主要集中于估計拍攝者所關注的顯著區(qū)域,例如Hyun Soo Park[5]提出利用群體模式的幾何關系得到成員交互關系,經(jīng)訓練后得到分類器預測顯著區(qū)域,但此類方法無法獲得顯著區(qū)域中成員的精確位置;Lin等[6]在多個視頻中利用不同運動模式對成員做匹配,然后利用條件隨機場尋找時空一致性最高的成員,即為當前最顯著成員,但此類方法需要每個成員同一時刻的動作具有差異性;通過多個視頻尋找匹配點利用透視圖原理計算出多個成員的位置和姿態(tài),如Hyun Soo Park等[5]通過SfM[7]方法,恢復三維場景及成員位置和姿態(tài),實現(xiàn)場景理解;利用多個視頻間的相互運動關系進行成員檢測,如Ryo Yonetani等[8]利用一對成員互相拍攝的視頻,根據(jù)超像素分割單位區(qū)域的局部相對運動和全局運動信息搜索其中一個成員,但此方法一次只能檢測一個拍攝視頻的成員面部。上述傳統(tǒng)的基于視頻的顯著目標檢測方法大多基于固定視角或視角微變的視頻,而multi-egocentric視頻中場景變化劇烈,目標運動穩(wěn)定性低,如DPM[1]在視角變換劇烈時的檢測效果下降;Poselets[2]算法在圖像有輕微運動模糊時的性能受到較大影響;Motion Boundaries[3]算法在目標尺寸較小時出現(xiàn)漏檢。基于此,本文提出了一種兩步層進目標檢測算法,將目標檢測分為粗檢測階段和細檢測兩階段,從而提高了基于Egocentric視頻的目標檢測的魯棒性,并提出了multi-egocentric視頻中的目標匹配算法,實現(xiàn)了多視角多目標的匹配。算法流程圖如圖1。
圖1 本文算法流程(n為相機個數(shù),即視角數(shù),βi,i=1,2,…,11為目標編號)
兩步層進目標檢測算法的主要思想是首先粗略定位目標位置,其次優(yōu)化目標區(qū)域。算法分為兩步:第1步是基于Boosting[9]模型的目標粗定位方法,融合多個檢測器結果,最大限度覆蓋目標區(qū)域,此種方法在一定程度上克服了Egocentric視頻背景變化劇烈、目標尺度差異明顯和視角時變性強等特點導致的檢測結果不完整、漏檢、錯檢等問題,提高了算法的魯棒性;第2步采用基于局部相似度的區(qū)域優(yōu)化方法對目標輪廓進行優(yōu)化,得到更精確的目標區(qū)域。
1.1 基于Boosting模型的目標粗檢測算法
圖2 基于boosting模型的目標粗檢測算法流程
在以上的檢測算法中設置較低的檢測閾值,可獲得較多的目標候選區(qū)域,當然其中包含大量的冗余結果。根據(jù)目標候選區(qū)的空間位置關系進行區(qū)域融合得到目標粗檢測結果。具體算法如下:
算法1基于空間位置關系的區(qū)域融合算法
4)重復執(zhí)行3),直至無重疊的顯著目標候選區(qū)域,算法結束。
1.2 基于局部相似度的目標區(qū)域優(yōu)化算法
對任意超像素pi,計算其屬于顯著目標可能性為
式中:ψa(pi,pj)表示超像素pi和pj的顏色相似度,由顏色直方圖特征向量的κ2距離確定,ψo(pi,pj)表示超像素pi和pj之間的運動相似度,由光流模直方圖特征向量的κ2距離確定,ωa和ωo為權值。
計算所有超像素的顯著目標可能性后,保留超像素集合P中D(pi)≥θ3(θ3為閾值)的超像素pi,從而得到優(yōu)化后的顯著目標區(qū)域,基于局部相似度的D計算式(3)的區(qū)域優(yōu)化算法示意如圖3。
由于,經(jīng)過兩步層進目標檢測后,得到了各個視角的Egocentric視頻每幀中的顯著目標檢測結果,下面將對各個視角中的顯著目標進行匹配。
圖3 基于局部相似度的區(qū)域優(yōu)化算法
算法2基于HOG特征的目標匹配算法
2)初始化SVM分類器參數(shù),bins以及l(fā)evel;
3)將hη按不同level劃分為固定大小的矩形塊;在每一個矩形塊上統(tǒng)計梯度向量直方圖(HOG),并將不同level的直方圖特征連接起來組成特征向量vη;
4)最后將vη和βη輸入SVM分類器中進行訓練;
5)重復執(zhí)行3)、4)直到所有顯著目標區(qū)域訓練完畢,輸出SVM目標匹配模型。
基于HOG特征的目標匹配分類器訓練流程如圖4所示。
由兩步層進法檢測得到多視角的顯著目標后,基于HOG特征的目標匹配分類器實現(xiàn)多視角中多目標的匹配流程如圖5所示。
為了驗證本文算法的有效性,采用Hyun Soo Park[3]的Party Scene 數(shù)據(jù)集進行目標檢測和目標匹配實驗。該multi-egocentric數(shù)據(jù)集進行目標檢測和目標匹配實驗。該數(shù)據(jù)集包括來自11個相機的第一視角視頻數(shù)據(jù),并且是同時拍攝同一場景得到的。每個視頻共8 640幀,經(jīng)同步后每個視頻共8 566幀,本文取前914幀中的目標樣本做手工標注,作為訓練集;另選取50幀作為測試集,其包含沒有任何目標個體的幀。本文的目標檢測算法與MB、DPM、SPP Net、Poselets算法結果對比如圖6所示。SPP Net、DPM算法在隨機窗口中搜索窗口包含目標概率最高的框,因此搜索結果可能不會完全覆蓋目標區(qū)域,但相對準確,這也使得檢測的顯著目標輪廓不完整,如圖6中第1行、第2行所示;MB算法主要通過目標的運動信息檢測目標邊緣,但Egocentric 視頻中的運動相對復雜,尤其是當目標運動不顯著或目標只有局部運動時,MB算法無法檢測到或只能部分檢測到目標,如圖6中第1行、第3列,檢測結果中漏檢了目標的手部;而Poselets算法首先檢測目標部位,再根據(jù)目標種類的不同合并符合模式的部位檢測結果,因此檢測結果中會產(chǎn)生一些孤立的部位檢測結果,降低了檢測結果的精度,如圖6中Poselets列所示;由Egocentric視頻視角時變性導致的像第3行這樣的拍攝角度不正的圖像非常常見,而SPPNet、DPM算法對此種圖像會有顯著目標漏檢的情況。本文算法在粗檢測過程中綜合了以上算法優(yōu)勢,并基于空間位置進行了區(qū)域融合,從而有效地避免了egocentric視頻中目標尺度、運動差異較大而引起的漏檢問題,而基于局部相似度的區(qū)域優(yōu)化能很好地排除復雜背景的影響,因而具有較強的魯棒性。本文算法的顯著目標檢測結果如圖6中第1列所示。
圖4 基于HOG特征的目標匹配分類器訓練流程(βi,i=1,2,…,η表示目標編號)
圖5 多視角多目標匹配算法流程(βi,i=1,2,…,η 表示顯著目標區(qū)域匹配編號)
圖6 本文方法與DPM、SPP Net、Poselets算法結果對比圖(Ours列為本文方法的檢測結果,圖中橢圓框中為算法漏檢或錯檢的區(qū)域)
本文提出的基于HOG特征的多目標匹配算法實驗結果如圖7所示,可以看出,在大多數(shù)情況下,本文提出的算法能夠有效地匹配多視角中的多個目標。但是當視頻視角變化較大時,目標姿態(tài)不正,從而導致目標匹配失敗,究其原因,因為訓練是通過人工標注的包含目標的矩形框來完成的,從而導致訓練樣例包含更多的非目標區(qū)域給匹配結果的正確性帶來影響,造成匹配結果不準確,如圖7中第3列的目標1和第4列的目標7;另外,由于提取特征時是通過將顯著目標區(qū)域分成固定尺寸的bins(子塊),因此當顯著目標區(qū)域較小時,所劃分的bins(子塊)也就很少,提取的特征也就不顯著,因此會出現(xiàn)結果錯誤,如圖7中第1列的目標2、5、3。
最后,本文采用F-measure方法評價目標檢測算法。查準率和查全率的計算為
式中:Si為目標檢測算法檢測的目標區(qū)域像素數(shù),Gi為人工標注的目標區(qū)域像素數(shù),n為目標數(shù)。
則F-measure為
目標匹配正確率的計算為
本文提出的魯棒的multi-egocentric視頻中的目標檢測和目標匹配算法在整個數(shù)據(jù)集上的檢測結果如表1所示。
圖7 本文基于HOG特征的顯著目標匹配算法結果和Ground-Truth對比圖
表1 在Party Scene數(shù)據(jù)集上的實驗結果對比
本文對multi-egocentric視頻中的多目標檢測和匹配進行了研究,提出了基于boosting和局部相似度的兩步層進目標檢測算法,綜合多種檢測模型的優(yōu)勢以克服Egocentric視頻中目標尺度差異明顯和視角時變性強給檢測帶來的干擾。在顯著目標檢測基礎上,對不同視角中的顯著目標構建基于HOG特征的SVM分類器,實現(xiàn)多視角的多目標匹配,為后期的群體分析、場景理解等高級視覺任務提供了前期基礎。multi-egocentric視頻的處理和分析是一個極具挑戰(zhàn)的研究課題,在后續(xù)的研究工作中,將進一步考慮融合局部相似度和全局相似度的顯著目標區(qū)域檢測方法,同時多視角之間的運動關聯(lián)和目標自運動軌跡也是多視角視頻分析中的重要線索。
[1]FELZENSZWALB P, MCALLESTER D, RAMANAN D. A discriminatively trained, multiscale, deformable part model[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, AK: IEEE, 2008: 1-8.
[2]BOURDEV L, MALIK J. Poselets: body part detectors trained using 3d human pose annotations[C]//Proceedings of the 2009 IEEE 12th International Conference on Computer Vision. Kyoto: IEEE, 2009: 1365-1372.
[3]WEINZAEPFEL P, REVAUD J, HARCHAOUI Z, et al. Learning to detect motion boundaries[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA: IEEE, 2015: 2578-2586.
[4]KUMAR K S, PRASAD S, SAROJ P K, et al. Multiple cameras using real time object tracking for surveillance and security system[C]//Proceedings of the 2010 3rd International Conference on Emerging Trends in Engineering and Technology. Goa: IEEE, 2010: 213-218.
[5]SOO PARK H, SHI Jianbo. Social saliency prediction[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA: IEEE, 2015: 4777-4785.
[6]LIN Yuewei, ABDELFATAH K, ZHOU Youjie, et al. Co-interest person detection from multiple wearable camera videos[C]//Proceedings of the IEEE International Conference on Computer Vision. Santiago: IEEE, 2015: 4426-4434.
[7]SNAVELY N, SEITZ S M, SZELISKI R. Photo tourism: exploring photo collections in 3D[J]. ACM transactions on graphics (TOG), 2006, 25(3): 835-846.
[8]YONETANI R, KITANI K M, SATO Y. Ego-surfing first person videos[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA: IEEE, 2015: 5445-5454.
[9]FREUND Y, SCHAPIRE R. A short introduction to boosting[J]. Journal of Japanese society for artificial intelligence, 1999, 14(5): 771-780.
[10]HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[M]//FLEET D, PAJDLA T, SCHIELE B, et al. Computer Vision-ECCV 2014. Switzerland: Springer International Publishing, 2014: 346-361.
[11]LAZEBNIK S, SCHMID C, PONCE J. Beyond bags of features: spatial pyramid matching for recognizing natural scene categories[C]//Proceedings of 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York, NY, USA: IEEE, 2006, 2: 2169-2178.
[12]BURGES C J C. A tutorial on support vector machines for pattern recognition[J]. Data mining and knowledge discovery, 1998, 2(2): 121-167.
[13]DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]//Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego, CA, USA: IEEE, 2005, 1: 886-893.
[14]ZHU Wangjiang, LIANG Shuang, WEI Yichen, et al. Saliency optimization from robust background detection[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH: IEEE, 2014: 2814-2821.
李龍,男,1982年生,碩士研究生,主要研究方向為圖像處理與計算機視覺。
尹輝,女,1972年生,副教授,博士生導師,主要研究方向為計算機視覺、模式識別以及神經(jīng)計算。
許宏麗,女,1963年生, 教授,主要研究方向為計算機技術、機器學習以及認知計算。
A robust multi-object detection and matching algorithm for multi-egocentric videos
LI Long1, Yin Hui1,2, XU Hongli1, OU Weiqi1
(1. Department of Computer Science and Technology, Beijing Jiaotong University, Beijing 100044, China; 2. Beijing Key Lab of Transportation Data Analysis and Mining, Beijing Jiaotong University, Beijing 100044, China)
In this paper, a robust multi-object detection and matching algorithm for a multi-egocentric video is proposed by considering the characteristics of multi-egocentric videos, for example, sudden changes in background, and variable target scales and viewpoints. First, a multi-target detection model based on a boosting method is constructed, to roughly detect any salient objects in the video frames. Then an optimization algorithm based on local similarity is proposed for optimizing the salient-object area and improving the accuracy of salient-object detection and localization. Finally, a SVM classifier based on HOG features is trained to realize multi-target matching in multi-egocentric videos. Experiments using Scene Party datasets show the effectiveness of the proposed method.
multi-egocentric video; multi-object detection; multi-object matching
2016-03-20.
日期:2016-08-24.
國家自然科學基金項目(61472029,61473031).
李龍. E-mail:hyin@djpu.edu.cn.
TP391.4
A
1673-4785(2016)05-0619-08
10.11992/tis.201603050
http://www.cnki.net/kcms/detail/23.1538.TP.20160824.0929.016.html
李龍,尹輝,許宏麗,等.一種魯棒的Multi-Egocentric視頻中的多目標檢測及匹配算法[J]. 智能系統(tǒng)學報, 2016, 11(5):619-626.
英文引用格式:LI Long, YIN Hui, XU Hongli,et al. A robust multi-object detection and matching algorithm for multi-egocentric videos[J]. CAAI transactions on intelligent systems, 2016,11(5):619-626.