常發(fā)亮,李江寶
(山東大學控制科學與工程學院,濟南250061)
在由多個攝像機構(gòu)成的視頻監(jiān)控網(wǎng)絡系統(tǒng)中,當目標從一個攝像機的視野進入另一個攝像機的視野時,如何正確地調(diào)度多個攝像機以實現(xiàn)目標的準確跟蹤與交接,是當前目標跟蹤領域研究的熱點和難點,許多學者進行了這方面的研究。Bellotto等[1]實現(xiàn)了一個基于靜態(tài)和PTZ攝像機相結(jié)合的智能監(jiān)控系統(tǒng),從其實驗結(jié)果看,該系統(tǒng)很好的利用了靜態(tài)攝像機和PTZ攝像機的組合性能。Chen等[2]提出一種在沒有公共視野區(qū)域的多攝像機網(wǎng)絡中進行目標連續(xù)跟蹤的自適應學習方法,該方法利用目標的時空信息和表觀信息進行目標特征的學習,相比于傳統(tǒng)的基于目標特征塊的學習方法只能實現(xiàn)短時跟蹤而言,該方法可達到對目標的長時間跟蹤,并且考慮到了目標交接時的光照變化帶來的影響等,該方法是基于靜態(tài)攝像機的。Kettnaker等[3]則針對多攝像機監(jiān)控中目標交接路徑的確定問題,提出了一種貝葉斯模型,采用最優(yōu)化的方法獲得目標路徑的最大后驗概率解作為進行目標交接時的依據(jù)。Ser-Nam等[4]提出一種基于圖像的云臺攝像機轉(zhuǎn)動位置定位方法,首先為每個攝像機確定一個基點,然后在跟蹤目標的過程中根據(jù)多個攝像機之間相對于基點的幾何變換來計算云臺的轉(zhuǎn)動位置。Slawomir等[5]采用一種基于目標空間分布相關性的方法實現(xiàn)跟蹤目標的重定位,目標的分塊特征采用HOG算法獲得?;趲缀瓮負潢P系的方法,因為其模型簡單并且可采用離線統(tǒng)計學習或者人工方式建立拓撲模型,所以吸引了不少研究者的注意[6-8]。文獻[9]從有無公共視野區(qū)的角度對近年來拓撲關系估計方法進行了總結(jié)比較,對多個攝像機視頻中同一目標的運動路徑進行統(tǒng)計,在建立攝像機拓撲模型的同時也建立了目標的運動路徑概率圖模型。
這些方法大多是基于靜態(tài)攝像機建立的拓撲模型,所以只需要判斷目標是否到達攝像機視野中的固定的交接位置即可判斷是否需要進行交接。在多PTZ攝像機主動目標跟蹤時,云臺、鏡頭方向等隨跟蹤目標發(fā)生變化,這給交接判斷帶來了困難。筆者對多攝像機下的接力攝像機調(diào)度策略和在線特征學習進行了研究,提出了一種復雜大場景下基于拓撲模型和特征學習的多攝像機調(diào)度和目標接力跟蹤策略[10]。
要采用目標背景估計的方法確定交接時刻和位置需要首先建立每個攝像機視野的空間場景地圖,在地圖中標記出感興趣區(qū)域(Rmap),感興趣區(qū)域可以是多個攝像機之間的公共交接區(qū),也可是攝像機的視野極限區(qū)域。
設PTZ攝像機有3個自由度:云臺水平轉(zhuǎn)動角α,β豎直俯仰角,鏡頭伸縮倍數(shù)k,某一時刻該攝像機的鏡頭位置可以表示為p(α,β,k)。
假設在位置p(α,β,k)處攝像機成像畫面中提取的場景特征為fp,這樣就可用畫面中的場景特征來表示該位置,即:
對PTZ攝像機在活動范圍內(nèi)的所有畫面都進行場景特征提取就可以建立該攝像機的活動視野空間場景地圖
其中αm和αM表示給定絕對0位置時α的最小和最大活動角,對β和k類似。
基于式(2)可通過大量的場景特征建立該攝像機的視野空間場景地圖。
如果將攝像機之間的公共視野區(qū)以及視野極限區(qū)域標記為感興趣位置proi(x,y,z),則可將這些位置用在該位置的畫面場景特征表示:
其中n為感興趣位置的個數(shù)。
在跟蹤過程中,實時采集目標背景的特征fcur到場景地圖中去匹配,從而估計目標當前所處的位置。如果當前背景特征fcur與某個感興趣位置的特征匹配(fcur≈),則可判斷目標當前位于第k個感興趣位置處,可根據(jù)該位置的相關標記信息執(zhí)行相應的動作,如果將該位置設置為目標交接的觸發(fā)位置,就開始目標交接的接力攝像機的調(diào)度。
圖1為標記出ROI的監(jiān)控場景圖。圖2為跟蹤目標過程中的匹配實驗結(jié)果,圖2右下角的數(shù)字給出了匹配良好的特征個數(shù)Nmatch與ROI中的總的特征個數(shù) Nroi的比率 Pmatch=Nmatch/Nroi。圖2(a)119幀時開始進行場景的估計,從Pmatch的數(shù)值看出,此時匹配特征的個數(shù)很少,說明目標所處的場景不是在ROI中;162幀(圖2(b))時從圖中標出的方框可見已經(jīng)有部分Rcur進入ROI中,此時Pmatch=0.203;201幀(圖2(c))時可見大部分的 Rcur已經(jīng)進入 ROI,此時有 Pmatch=0.448; 228幀(圖2(d))時,匹配率達到最大Pmatch= 0.621,此時Rcur已經(jīng)完全進入ROI中。
當匹配率超過40%,進入ROI的目標背景已經(jīng)有大約82%。如果對匹配率設置一個閾值Tmatch就可判斷目標是否進入ROI,當Pmatch>Tmatch時認為目標需要執(zhí)行交接。
圖1 標記出ROI的監(jiān)控場景圖Fig.1 Mark ROImonitoring scene graph
圖2 跟蹤過程中目標背景估計的圖像序列Fig.2 The target background estimation image sequence in the tracking process
對于固定在建筑物上的PTZ攝像機,雖然其鏡頭可上下左右運動以及變倍伸縮,但是其云臺是固定的,也就是空間幾何位置是不變的,將攝像機和場景中目標可能運動路徑的極遠點(即攝像機視野外的點)抽象為拓撲圖節(jié)點,則對整個監(jiān)控場景進行拓撲抽象建模后可獲得其拓撲圖連接,如圖3所示。
圖3 監(jiān)控場景的拓撲圖Fig.3 M onitoring topology m ap of the scene
模型中有公共視野區(qū)的兩個攝像機節(jié)點是鄰接的,沒有公共視野區(qū)的攝像機之間通過極遠點節(jié)點連接,超出監(jiān)控網(wǎng)絡的極遠點只與其對應的攝像機節(jié)點連接。
為利用跟蹤目標的空間位置、運動特征等,將每個節(jié)點的鄰接節(jié)點相對于本節(jié)點的空間方向作為連接線方向,則拓撲模型變?yōu)橐粋€有向拓撲連接圖。圖4所示為實驗環(huán)境的拓撲模型。圖4中N0~N3為攝像機節(jié)點,N4~N13為視野極遠節(jié)點,圖4中同時標出了鄰接節(jié)點相對于每個節(jié)點的方向。
圖4 實驗環(huán)境的拓撲模型Fig.4 Topology model of the experimental environment
利用PTZ攝像機的預置位功能,將攝像機對應鄰接節(jié)點的位置設置為預置位。假設在攝像機節(jié)點Ninit跟蹤目標的過程中通過背景估計判斷目標在其Dinit方向的感興趣位置,需要進行接力攝像機調(diào)度判斷。多攝像機調(diào)度算法描述如下:
1)初始化,Ni=Ninit,Da=Dinit調(diào)度攝像機計數(shù)c=0,調(diào)度攝像機節(jié)點數(shù)組為Sc,對應的預置位數(shù)組為Pc;
2)獲取Ni節(jié)點在Da方向的鄰接節(jié)點:
3)判斷Ns:
如果Ns≤m-1,則跳到4);
如果m-1<Ns<n-1,則跳到5);
如果Ns=n,則c=0,Sc=Nn,跳到6);
4)c=1,調(diào)度攝像機Sc=Ns,預置位數(shù)組Pc=Ds=CD(Ns,Ni),跳到6);
5)令,Ni=Ns,
循環(huán)a=1:8
如果a<m:
循環(huán)結(jié)束;
如果c=0,Sc=Nn;
6)輸出調(diào)度攝像機節(jié)點數(shù)組Sc和對應的預置位數(shù)組Pc,算法結(jié)束。
調(diào)度算法結(jié)束后,判斷計數(shù)c:如果為0,說明目標超出監(jiān)控場景范圍,跟蹤結(jié)束;如果不為0,則將調(diào)度攝像機數(shù)組Sc中的每臺攝像機移動到對應的預置位Pc,完成接力攝像機的調(diào)度,然后在接力攝像機中進行目標的搜索定位以及跟蹤。其中Ni為拓撲節(jié)點(i=0,1,…,m-1,…,n),n為點個數(shù),m為攝像機個數(shù)而且,1<m<n,N0~Nm-1為攝像機節(jié)點,Nm~Nn-1為非攝像機節(jié)點,Nn為無窮遠點,表示超出監(jiān)控范圍時算法給出的節(jié)點。
Da為鄰接方向(a=1,2,…,8,對應8個方向)。
Pk為預置位(k=1,2,…,8,對應攝像機節(jié)點的8個鄰接方向)。
Ns=CN(Ni,Da)為尋找節(jié)點在Da方向的鄰接節(jié)點的算子,返回其Da方向的鄰接節(jié)點Ns。
Ds=CD(Ni,Nt)為確定Nt節(jié)點在Ni的那個方向上的算子,返回Nt相對于Ni的鄰接方向Ds。
由于多個攝像機之間的成像差異,即使采用SURF算法提取了目標的局部不變特征,目標在不同攝像機之間的SURF特征仍然可能是會變化的,為增加SURF特征的穩(wěn)定性,在跟蹤目標的過程中,對每一幀提取的SURF特征進行匹配篩選學習,保留穩(wěn)定性好的特征,刪除不穩(wěn)定的特征。目標跟蹤過程中的特征學習更新算法如下:
4)增加特征集Ssurf中的每個特征的處理計數(shù)++;
5)特征集更新:對Ssurf中的每個surf特征,如果>Tp(TP為處理計數(shù)閾值),并且匹配穩(wěn)定性sk=/<T,則說明該特征不夠穩(wěn)定,從Ssurf刪除該特征;
6)完成特征學習和更新。
為驗證算法的有效性,該系統(tǒng)采用了較簡單的結(jié)構(gòu),實驗所用的場景以及生成的拓撲結(jié)構(gòu)如圖5所示。
圖5 兩臺平行攝像機的實驗場景示意圖Fig.5 The experimental scene schematic diagram of two parallel cameras
實驗所用的兩臺攝像機為不同型號,所處位置的光照條件差異也比較大,其中C1是在樹蔭下,可看出光線要比較暗,C2是在比較開闊處,光照比較亮,這樣就導致了兩臺攝像機采集的圖像有明顯的差異。兩臺攝像機之間有一定的公共視野區(qū)域,根據(jù)先驗的視覺估計給出一塊感興趣區(qū)域ROI作為交接區(qū)域,并建立該區(qū)域的特征模型,然后在跟蹤目標的過程中不斷對目標背景的進行估計,即與交接ROI區(qū)域模型進行匹配比較直至匹配率超過閾值,從而判斷出目標處于交接區(qū)域,需要進行交接。
圖6是交接過程中的幾幀SURF特征匹配實驗結(jié)果圖像。圖6中左側(cè)是C1攝像機圖像,右側(cè)是C2攝像機圖像,綠線標記出了目標同一時刻在兩個攝像機中的SURF匹配對。216幀(圖6(a))時,由目標背景估計模塊確定目標進入了交接區(qū)域,開始執(zhí)行目標交接,因為光照、尺度等原因,檢測到的該幀圖像中的SURF特征點比較少,而且從圖中特征匹配對來看,有一些匹配是錯誤的,這從237幀(圖6(b))中也可以看出來,到245幀(圖6(c))時在C2攝像機中鎖定跟蹤目標,交接完成。從圖中可見雖然目標在兩個攝像機圖像中的尺度、光照條件發(fā)生了變化,但是仍然還有一些良好的匹配點,也有一些是誤匹配的,誤匹配的是一些不穩(wěn)定的特征。
圖6 單人兩臺平行攝像機下的交接Fig.6 Single two parallel cameras handover
筆者針對多攝像機目標主動跟蹤的交接調(diào)度問題進行了研究,提出一種采用背景估計確定目標的交接時刻和位置的方法,同時采用基于多攝像機拓撲模型和特征學習的接力攝像機調(diào)度算法快速準確的判斷接力攝像機用于目標交接。實驗結(jié)果表明這兩種方法的結(jié)合可快速確定交接時刻以及準確判斷調(diào)度接力攝像機,完成多攝像機跟蹤時的目標交接。
[1]Bellotto N,sommerlade E,Benfold B.A distributed camera system formulti-resolution surveillance[C]//Third ACM/IEEE International Conference on Distributed Smart Cameras.2009:1-8.
[2]Chen Kuan-wen,Lai Chi-chuan,Hung Yi-Ping,at el.An adaptive learningmethod for target tracking across Multiple Cameras[J].IEEE Conference on Computer Vision and Pattern Recognition,2008,41(3):1-8.
[3]Kettnaker V,Zabih R.Bayesian multi-camera surveillance[C]//Proceedings 1999 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.1999:253-259.
[4]Ser-Nam lim,Ahmed Elgammal,Larry SDavis.Imagebased pan-tilt camera control in a multi-camera surveillance environment[J].International Conference on Multimedia and Expo,2003,1(3):1-8.
[5]Slawomir Bak,Etienne Corveem,F(xiàn)rancois Bremond. Monique Thonnat.Person re-identification using spatial covariance regions of human body parts[J].Seventh IEEE International Conference on Advanced Video and Signal Based Surveillance,2010,2010(11):435-440.
[6]Wang X,Ma K T,Ng G,et al.Trajectory Analysis and semantic region modeling using a nonparametric bayesianmodel[C]//IEEE Conference on Computer Vision and Pattern Recognition,2008:1-8.
[7]Makris D,Ellis T,Black J.Bridging the gaps between cameras[J].IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2004,2(3): 205-210.
[8]翁菲,劉允才.多場景視頻監(jiān)控中的人物連續(xù)跟蹤[J].微型電腦應用,2010,26(6):33-35.
Weng Fei,Liu Yun-cai.Human tracking in multi-scene video surveillance[J].Microcomputer Applications,2010,26(6):33-35.
[9]Richard J Radke.A survey of distributed computer vision algorithms[J].Computer and Information Science,2010(9):1-21.
[10]Rublee Ethan,Rabaud Vincent,Konolige Kurt,et al. ORB-an efficient alternative to SIFT or SURF[J].International Conference on Computer Vision,2011,95 (1):2564-2571.