季 莎,段宏博
(1.西安明德理工學院 通識教育學院,西安 710124;2.哈爾濱石油學院 數(shù)理部,哈爾濱 150028)
在監(jiān)控應用中,通常會有多個攝像機觀察地面上的運動目標,利用多個攝像機獲取的觀測數(shù)據(jù)對目標進行跟蹤是人們廣泛關(guān)注的問題[1-2];地面上目標的位置估計和跟蹤是一個重要的推理問題。在許多監(jiān)控中,目標移動限制在一個平面(即地平面)上。地平面的存在提出了一個強約束條件,使得許多諸如跟蹤、登記、測量和結(jié)構(gòu)估計等實際問題需要條件良好的解決方案。
已有不少采用單個或多個攝像機來跟蹤地面上目標的算法。為了對人體目標進行準確可靠的持續(xù)跟蹤,文獻[3]提出了一種融合主顏色特征、紋理特征和時空拓撲特征的目標跟蹤算法。該算法將人體區(qū)域分割成上、中、下3個目標子塊,分別利用最近鄰聚類算法提取每個目標子塊的主顏色信息,并計算主顏色匹配率。同時根據(jù)目標關(guān)聯(lián)信息的累計統(tǒng)計信息,采用增量學習建立和更新攝像機網(wǎng)絡的時空拓撲關(guān)系。實驗表明,該算法能有效地對非重疊視野多攝像機網(wǎng)絡中出現(xiàn)的人體目標進行連續(xù)跟蹤;文獻[4]提出的算法利用圖像和地平面之間的單應性線性化得到的觀測噪聲模型,采用卡爾曼濾波跟蹤地面上的位置和速度;文獻[5-6]提出的多攝像機跟蹤算法采用將來自背景減法的輸入投影到地面上的單應變換,數(shù)據(jù)關(guān)聯(lián)和目標定位是通過每個攝像機的投影之間的一致性(共識)來實現(xiàn)的。這些算法的不同之處在于它們處理來自背景減法的輸入以及隨后跟蹤目標的方式。例如,文獻[5]提出,在每個視圖中提取每個被分割的人的垂直軸,并采用他們在地面上投影的交點來定位這個人,然后采用粒子濾波器對交點進行濾波;而文獻[6]提出的算法通過將每個視圖的前景似然圖像投影到一個參考視圖來獲得一致性,聯(lián)合似然圖像中的峰值則采用圖形切割算法進行閾值化和分割;文獻[7]提出了一種基于SIFT (scale invariant feature transform)特征匹配的運動目標檢測和跟蹤算法。在目標檢測階段,首先提取兩幀帶檢測圖像的SIFT特征點并進行特征匹配,然后計算兩幀圖像之間的幾何變換矩陣,從而實現(xiàn)圖像的幾何對齊。再將幾何對齊后的兩幅圖像進行差分,并在差分圖像中尋找SAD最大值區(qū)域作為運動目標區(qū)域。在目標跟蹤階段,將已檢測到的目標作為跟蹤樣本,與后檢測到的目標區(qū)域進行SIFT特征匹配,結(jié)合論文提出的跟蹤樣本集更新機制實現(xiàn)目標跟蹤;盡管文獻[8-9]研究了如何確定單應變換空間上的測度和密度,但并沒有研究如何將隨機變量考慮進一個單應變換中,特別是在視覺應用的背景下;文獻[10]提出了一種基于Grassmann流形和投影變換群的雙模視頻目標跟蹤算法。算法運用Grassmann流形狀態(tài)空間的內(nèi)蘊幾何特性,建立目標表觀模型,采用投影變換群建立目標的幾何形變模型,將目標的狀態(tài)變化看作是流形上的點沿著測地線移動,并設(shè)計了雙模粒子濾波算法完成目標跟蹤。實驗結(jié)果表明,該算法對目標在經(jīng)歷大幅度非平面的幾何形變、光照變化及部分遮擋情況下,都能夠?qū)崿F(xiàn)穩(wěn)定的跟蹤;文獻[11]探討了多攝像機視頻監(jiān)控系統(tǒng)中的多目標跟蹤問題。將目標跟蹤問題分為兩部分:一是單攝像機下多目標跟蹤的數(shù)據(jù)關(guān)聯(lián)問題,二是多攝像機之間的航跡關(guān)聯(lián)問題。針對傳統(tǒng)多目標數(shù)據(jù)關(guān)聯(lián)算法關(guān)聯(lián)錯誤率高、實時性低的情況,將圖像中目標的全局運動特征、HSV顏色特征、LBP特征和光流特征用于多假設(shè)數(shù)據(jù)關(guān)聯(lián)算法(MHT)的關(guān)聯(lián)矩陣的計算,提出了基于多特征融合的數(shù)據(jù)關(guān)聯(lián)算法(MC-MHT),實驗證明該算法在關(guān)聯(lián)性能和實時性上都有所提高;文獻[12]提出了一種復雜環(huán)境下的多目標實時跟蹤方法,包括第一視頻采集模塊、第二視頻采集模塊、信息傳輸模塊、數(shù)據(jù)庫、背景剪出模塊、視頻處理模塊、顯示模塊和控制器與報警模塊。在進行靜態(tài)背景剪出的過程中,通過采集大量監(jiān)控區(qū)域的視頻幀圖像,通過對大量視頻幀圖像進行整合處理,減少人物活動以及偶然事件對背景剪取的影響,同時對監(jiān)控區(qū)中出現(xiàn)的有一定活動范圍的物體進行分析,降低在追蹤過程中該活動物體產(chǎn)生的噪聲,從而降低分析難度,提高分析跟蹤的準確度;還通過對全局監(jiān)控區(qū)域建立坐標系,對目標對應的坐標點進行讀取,根據(jù)目標所處坐標對目標進行接力跟蹤,防止在對目標的追蹤過程中丟失目標,以及無法及時完成接力;文獻[13]提出了一種基于核相關(guān)濾波(KCF)的分步關(guān)聯(lián)框架。算法首先采用基于卷積神經(jīng)網(wǎng)絡的目標檢測器檢測目標,獲得準確的檢測結(jié)果。然后,為了更好地預測目標的運動狀態(tài),通過加權(quán)融合三種特征的跟蹤結(jié)果,為每個目標建立一個基于KCF算法的快速跟蹤器。為了有效地降低碎片化軌跡的數(shù)量,算法通過跟蹤片的置信度分步關(guān)聯(lián)軌跡,并在遮擋的情況下,利用在線隨機蕨重新檢測目標。最后利用關(guān)聯(lián)成功的檢測信息自適應更新KCF算法中的尺度,實驗結(jié)果表明,,與現(xiàn)有算法相比,提出的算法能夠在各種復雜的條件下,表現(xiàn)出強大和高效的跟蹤性能。
上述這些算法主要側(cè)重于跨視圖的數(shù)據(jù)關(guān)聯(lián)和跨遮擋的魯棒跟蹤,以及當背景較差時。而且全部算法都是同等處理來自不同視圖的輸入。
圖1所示為某大學校園里某建筑物周圍地面上的4個視圖,地面上的同一目標以不同分辨率成像到不同的攝影機上,即攝像機放置以獲得地面上不同的視圖。顯然,不同的視圖以不同的分辨率解析目標,而相應地對目標在地面的位置估計就存在差異。
圖1 4個攝像機觀察一個以平面運動為主的場景
給定一個在全部4個攝相機上同時觀察到的目標,如何估計它在地面上的位置并實現(xiàn)對目標的跟蹤就是本文要研究的問題。對此,本文提出了攝像機平面視圖與地面位置估計方差之間關(guān)系的建模理論。首先分析了隨機變量(攝像機圖像平面上的位置估計和地面上的位置估計)在投影變換下的變換方式,表明了當某些幾何性質(zhì)滿足時,投影變換會將正態(tài)分布映射為正態(tài)分布;其次采用無跡變換(unscented transformation,也稱UT變換)[14]來計算得到變換后的隨機變量的矩;最后采用得到的建模相關(guān)性設(shè)計了一種用于多個攝像機位置估計的最小方差估計器,并應用于跟蹤地面上動態(tài)系統(tǒng)環(huán)境中的多個目標;實驗結(jié)果表明,本文提出的模型不僅具有較好的組合位置估計能力,而且還能夠利用這種模型得到的最小方差估計器有效地呈現(xiàn)和跟蹤地面目標。
圖2所示為3個攝像機A、B和C觀察一個平面P的示例,其中攝像機B的圖像平面平行于平面P,而攝像機A和C的圖像平面是垂直于平面P的,還在每個攝像機的圖像平面上顯示了表示該攝像機的圖像平面上分布的等誤差輪廓。攝像機與平面P之間的單應變換分別為HAP、HBP和HCP。在這種情況下,HBP不是完全投射的,它只是一個仿射變換,相比之下,而HAP和HCP引起了強烈的視角扭曲(視圖失真)。當將B投影到平面上時,期望B上的密度保持其原始形式(相同的等誤差輪廓)。
圖2 攝像機圖像面上的密度及其向平面的變換示意圖
假設(shè)一個場景安裝有M個攝像機,標記為1,2,…,M,令ui(i=1,2,…,M)為每個攝像機的圖像平面上的位置估計。通過應用第i個攝像機與地面的對應單應變換,就得到地面上的位置估計xi=HiPui。假設(shè)xi(i=1,2,…,M)為M個攝像機同時觀察地面上的目標的估計值,則希望將它們進行融合。
用下劃線表示齊次坐標中的向量,用大寫字母表示矩陣和隨機變量。令H=[h1,h2,h3]T為矩陣,它定義從圖像平面坐標到地面坐標的單應變換(在兩個平面上的某種坐標系選定下)。給定圖像平面上一點u=(u,v)T(R2,就可以得到地面上相應的點x=(x,y)T為:
x=Hu
(1)
u和x之間的關(guān)系是齊次形式的線性關(guān)系。當u和x為有限點時,式(1)可以改寫為一個非線性方程:
(2)
令ZU=(Zu,Zv)T為隨機變量,它是對一個攝相機的圖像平面上的位置的不確定性的建模,ZX=(Zx,Zy)T為采用式(2)通過變換ZU得到的隨機變量,即:
(3)
式中,hi=(hi1,hi2,hi3)T,i=1,2,3。
為了更進一步處理,需要知道ZU的分布。在沒有噪聲的情況下,圖像平面上的位置為u=(u,v)T,然而,來自于以下兩個源的噪聲破壞了u的觀測:
1)成像:在圖像平面上采樣以生成幀,會在每個像素的單一像素區(qū)域引入一個均勻噪聲,這個誤差對于成像模式是主要的;
2)建模誤差:一個更重要的誤差來源是假設(shè)平面運動。通常我們研究的是平面上忽略尺寸大小的點(理想質(zhì)點)的位置,但在實際中,目標是有形狀大小的,且研究的點與目標上的某個參考點是相關(guān)聯(lián)的。此外,這樣的點還受到自遮擋和建模誤差導致的視差的影響,與成像傳感器引入的噪聲不同,建模誤差的統(tǒng)計特征對于本文研究的問題是特定的。
在實際中,圖像平面上的密度可能是多模態(tài)的,通常采用非參數(shù)方法(如核和粒子濾波等)進行建模。然而,由于單應變換式(3)的非線性,對于復雜的圖像平面密度來說,解析處理和推理就變得十分困難。因此,假設(shè)圖像平面上的狀態(tài)空間就是位置(因此是二維的),且ZU是雙變量正態(tài)分布的:
ZU~N(m0,S0)
(4)
(5)
還假設(shè)協(xié)方差矩陣S0是一個常數(shù),獨立于均值m0。
(6)
(7)
(8)
由式(3)和(7)可見,Zx和Zy均由正態(tài)密度比[15]得到。
Zx~cx+dxWax,b
(9)
式中,cx和dx為標量,Wax,b為獨立標準正態(tài)比,其形式為:
(10)
式中,Z1和Z2為獨立的標準正態(tài)隨機變量。
cx,dx,ax和b的表達式如下:
(11)
(12)
(13)
(14)
Zx的分布嚴重依賴于Wax,b的分布,因為其分布可以從Wax,b的縮放(dx)和平移(cx)得到。Wax,b的分布可以表示為兩個密度的加權(quán)和,其中一個密度f1為Cauchy,另一個密度f2有一個解析表達式。Wax,b的分布如下:
fWax,b(t)=pxf1(t)+(1-px)f2(t)
(15)
f1為柯西密度:
(16)
式中,0 (17) 分量f2的形式為: (18) Cauchy分量的存在意味著Zx和Zy的均值、方差和一般的高階矩都沒有定義,這導致了弱/強的大數(shù)定律不適用的情況。然而,當Cauchy分量很弱(即px和py很小)時,就可以忽略Cauchy分布的存在而對密度進行近似。首先研究當Cauchy分量的概率可以忽略不計時的幾何設(shè)置。 證明:單應變換H可以分解成下列變換: (19) 推論:當成像點離無窮遠直線足夠遠時,Zx和Zy分布中的Cauchy分量強度就可以忽略不計,或 (20) 強度px和py分別依賴于ax和ay。式(13)表明,ax與成像均值m0離直線h1/σ1-ρ13h3/σ3的距離成比例。 可見,當柯西分量的強度可以忽略不計時,總的分布可以用正態(tài)密度以極高的精度來近似,其參數(shù)可以通過數(shù)值方法得到。 在投影變換下,正態(tài)密度映射到正態(tài)密度(假設(shè)式(20)的要求滿足)意味著在投影變換下隨機變量的變換可以以逐點方式建模為仿射變換,其參數(shù)依賴于均值m0。由于參數(shù)對均值m0的依賴性,故仿射不會延伸到區(qū)域上的變換。然而,考慮到這種映射的平滑性,一般而言,局部仿射近似在小鄰域上仍然有效,只要成像的區(qū)域離無限遠直線的投影足夠遠。文獻[16]中就采用了這種局部仿射模型用于幾何分組。 上述理論的主要結(jié)果是在式(20)的條件滿足下,建立起了變換隨機變量的矩的存在性。然而,這些矩的解析計算并不容易,本文采用近似方法來計算ZX的矩。 計算ZX的均值和協(xié)方差的一個有效近似方法是采用無跡變換。采用無跡變換,通過稱為sigma點的點和相關(guān)的權(quán)重的確定性選擇來計算均值和協(xié)方差。 變換后的隨機變量的矩計算如下。首先,生成sigma點υi(i= 0,…,2nu)和相關(guān)權(quán)重wi,其中nu是ZU的維數(shù),在本文設(shè)置中nu=2。sigma點的生成采用以下選擇方案: (21) (22) 每個sigma點都采用單應性傳播: (23) (24) κ的值選擇很重要??紤]到隨機變量ZU是二元的,我們選取κ=3-nu=1,均值矩陣和變量協(xié)方差矩陣的估計精度可以達到二階,比簡單的一階線性更精確。 下一節(jié)將通過應用每個攝像機上的無跡變換學習得到的變量協(xié)方差模型,來得到一個用于融合多個攝像機的位置估計值的最小方差估計器。 (25) (26) 在線性類估計器中,式(25)定義的是最小方差意義上的最優(yōu)估計值。最后,最小方差估計器的方差就可由式(25)計算得到。 現(xiàn)在,給定觀察地面的一組攝像機的單應變換矩陣,就可以計算并繪制出最小方差估計器的方差作為地面上實際均值(的函數(shù)。 (27) 式中,ωt為噪聲過程。觀測模型采用第2節(jié)得到的均值和協(xié)方差模型。觀測向量yt∈R2M正好是采用無跡變換從每個攝像機估計出的位置均值,觀測模型為: (28) 式中,Ωt是一個具有單位變量協(xié)方差矩陣的零均值噪聲過程,Λ(xt)建立整個噪聲的變量協(xié)方差矩陣,定義為: (29) 式(28)的觀測模型是一個完整的觀測器模型的多視圖擴展,它包含2個重要的特性。 1)不同視圖的觀測值的噪聲特性是不同的,變量協(xié)方差不僅依賴于視圖,還依賴于目標的真實位置xt,這種依賴關(guān)系被編碼在Λ中; 2)xt的最大似然估計就是最小方差估計器。 現(xiàn)在,采用依賴于數(shù)據(jù)集性質(zhì)的Kalman濾波或粒子濾波,就可以實現(xiàn)跟蹤目標。實驗中將給出這兩種方法的實例。 利用從攝像機網(wǎng)絡中每個視圖計算得到的單應變換矩陣,并對每個攝像機采用無跡變換,就能計算出地面上感興趣區(qū)域的變量協(xié)方差矩陣。圖3所示為圖1的4個攝像機網(wǎng)絡的結(jié)果,這些方差被繪制成地面上的函數(shù)??梢钥闯?,對于相應的視圖,當一個目標接近無窮遠處的直線時,方差隨之增大。最小方差估計器(式(25))的方差也可以計算為目標在地面上的真實位置的函數(shù)。這種情形在攝像機放置問題中可能很有用,在這種情形下,給定一組攝像機和地面上感興趣的區(qū)域,目的是放置更多的攝像機,以提高跟蹤目標的性能。 圖3 圖1所示攝相機設(shè)置的方差估計 圖4所示為采用高度不對稱攝相機設(shè)置的3個攝像機成像一個棋盤得到的類似結(jié)果,其中兩個攝相機放置在離地面非常近的地方,且沿棋盤的兩個正交軸,每個攝相機只能準確地估計一個方向的位置。與最右邊列相對應的攝像機僅用于為4.2節(jié)的跟蹤實驗提供地面的真實情形。通過結(jié)合同時來自兩個攝像機的估計值,利用變量協(xié)方差映射,就可以得到在兩個方向上具有低方差的估計值(圖4(e))。 圖4 3個攝像機成像一個棋盤得到的類似結(jié)果 4.2.1 圖4所示3個攝像機設(shè)置下的跟蹤 下面給出一個實驗來說明本文模型在多攝像機跟蹤中的重要性,特別是當攝像機的視圖高度不對稱時(見圖4)。研究的區(qū)域還是棋盤,采用激光指針來創(chuàng)建目標,采用基于顏色的分割方法來檢測激光指針創(chuàng)建的目標,與右列對應的攝像機僅用于提供地面真實情形。 比較2種系統(tǒng)的跟蹤:一種系統(tǒng)的觀測模型采用3.1節(jié)的觀測模型,另一種系統(tǒng)對全部攝相機同等處理,在攝相機上采用各向同性模型。2種系統(tǒng)都采用卡爾曼濾波跟蹤器。從數(shù)據(jù)中得到的狀態(tài)方差用作地面真實情形(即由第3臺攝像機完成)。為了定量評價,計算2種系統(tǒng)的輸出(均值和變量協(xié)方差)與地面真實情形之間的對稱KL-散度(KLD,kullback leibler divergence)[19]。得到的跟蹤結(jié)果如圖5所示。從圖5(a)可以看到,采用本文模型得到的跟蹤結(jié)果與地面真實情形非常接近,而且非常平滑,而采用各向同性模型的跟蹤結(jié)果明顯偏離真實情形,且存在較大的不規(guī)則輪廓;從圖5(b)可以看到,采用對稱KL-散度的地面真實情形輸出時,本文模型的KL-散度明顯小于采用各向同性模型的KL-散度,這說明本文模型能更好地呈現(xiàn)地面的真實情形,這說明本文模型對各個攝像機獲取得到的數(shù)據(jù)有較好的融合能力。 圖5 2種系統(tǒng)的跟蹤比較 4.2.2 圖3所示4個攝像機設(shè)置下的跟蹤 本節(jié)的多目標跟蹤是用來測試本文所提出模型對于圖3所示的真實攝相機放置的有效性。提取每個攝影機上每個背景減去的一小片的最底層點,并投影到世界平面上,該數(shù)據(jù)與跟蹤器的關(guān)聯(lián)采用傳統(tǒng)的聯(lián)合概率數(shù)據(jù)關(guān)聯(lián)濾波(joint probabilistic data association filtering,JPDAF)[20],并與來自每個攝像機的數(shù)據(jù)分別進行關(guān)聯(lián),使用標記獲取地面真實情形。仍然對上節(jié)的兩個觀測模型進行比較,即一個采用本文提出的模型,另一個采用跨視圖的各向同性建模。最后,采用粒子濾波進行跟蹤,并對由于遮擋而丟失的數(shù)據(jù)點進行跟蹤。圖6所示為實驗得到的跟蹤結(jié)果。實驗中對800幀視頻進行了跟蹤測試,在100、430和720幀處依次引入3個目標,如圖6(b)所示,每個圖形分別對應3個不同的目標。從圖6(b)可見,采用跨視圖的各向同性建模相應的KL-散度值要高于采用本文模型相應的KL-散度值,即本文提出的模型一致地得到了較低的對地面真實情形的KL-散度,說明本文模型能更好地呈現(xiàn)地面的真實情形。 圖6 4個攝像機數(shù)據(jù)集上3個目標的跟蹤比較 本文提出了一種攝像機對地面目標的位置估計和跟蹤的建模,推導了正態(tài)隨機變量在投影下的變換。具體而言,將變換后的隨機變量中的Cauchy分量的強度與圖像平面上目標的真實位置到地面無窮遠處的直線投影之間的距離聯(lián)系起來,闡明了該結(jié)果對于位置估計和跟蹤的相關(guān)性;一個可能的擴展是采用核方法來對密度進行建模,但分析推理變得更具挑戰(zhàn)性,未來打算研究這種模型在攝相機放置和評價中的應用。2.2 采用無跡變換計算矩
3 采用多個攝像機的位置估計
3.1 動態(tài)系統(tǒng)
4 實驗結(jié)果
4.1 靜態(tài)估計的方差映射
4.2 多攝像機跟蹤
5 結(jié)束語