王曉麗,陸小鋒,陸亨立
(上海大學通信與信息工程學院,上海200444)
多攝像機在無重疊區(qū)域的目標匹配算法
王曉麗,陸小鋒,陸亨立
(上海大學通信與信息工程學院,上海200444)
基于顏色特征的目標匹配方法具有很好的區(qū)分性和直觀性,但是特征本身受光線變化、背景復雜度等影響而對于目標識別準確率存在差異。針對這一現(xiàn)狀,提出了一種新的基于時空局部特征和顏色特征的目標匹配方法。利用時空局部特征3-D LSK對待測視頻中的運動目標進行行為識別,識別出具有相同行為目標。再結合目標的顏色特征,通過基于區(qū)域權重(Weighted Region Matching)的顏色匹配方法來識別出具有相同顏色的目標。對無重疊區(qū)域的多個測試視頻進行的相關實驗表明,該算法能夠有效識別出普通場景下的不同目標,對于衣著顏色相近的不同目標也有很高的識別率。
顏色特征;時空局部特征;無重疊區(qū)域
【本文獻信息】王曉麗,陸小鋒,陸亨立.多攝像機在無重疊區(qū)域的目標匹配算法[J].電視技術,2015,39(10).
智能視覺監(jiān)控是當今計算機領域的一個研究熱點,其中的一個關鍵問題是實現(xiàn)多攝像機場景下的運動目標識別,而特征匹配是比較典型的目標識別算法[1-11]。
外部世界對物體提供了豐富的顏色信息,顏色作為物體表面的基本特征,是進行物體識別和認知必不可少的信息。常用的顏色特征匹配方法中,經典的算法是基于顏色直方圖(Color-histogram)的目標匹配方法,該方法的基本思想是將目標之間的匹配轉換為對應的直方圖之間的距離相似度衡量。D.Comaniciu在文獻[1]中采用將Color-histogram與巴氏距離相結合的方法來尋找最佳匹配目標的位置。在此基礎上Omar Oreifej在文獻[3]中提出了基于區(qū)域權重的顏色特征匹配方法(Weighted Region Matching,WRM),按照顏色特征的不同把目標分成若干個權重不同的小區(qū)域,通過判斷區(qū)域間的相似性來進行目標匹配。該方法在保證了很好的魯棒性的同時又提高了目標的識別性能。但是由于顏色特征本身受光線變化、背景復雜度等因素影響而對于不同場景中目標的識別準確率存在差異,為了提高該算法的魯棒性,引入時空局部特征3-D LSK,改善WRM算法對光照變化敏感的缺陷。
近年來,基于時空局部特征的運動表征方法越來越多的用于視頻中的動作識別問題,相關人員已經提出多種特征檢測和描述方法。相關的文獻結果表明,基于時空特征的運動表示能夠更好地適應光照變化、運動者的穿著、運動差異等環(huán)境因素的影響,取得更好的識別效果。因此,本文引入時空局部特征來改善顏色特征對光照敏感的缺陷,提高算法魯棒性。首先對未經預處理的檢索視頻(Query)和目標視頻(Target)提取時空局部轉向核(Space-time Local Steering Kernel,3-D LSK)作為人體行為的描述子,基于矩陣余弦相似性的非參數(shù)檢驗,利用特征匹配方法實現(xiàn)簡單行為識別,然后再利用目標的顏色特征,通過基于區(qū)域權重(Weighted Region Matching)的顏色匹配方法來識別出具有相同顏色的目標。對無重疊區(qū)域的多個測試視頻進行的相關實驗表明,本文提供的算法能夠有效識別出普通場景下的不同目標,對于衣著顏色相近的不同目標有很高的識別率。
現(xiàn)在想要解決的問題是:在無重疊區(qū)域拍攝的多個測試視頻中,算法能夠準確地識別出目標人物(target)。
在簡單場景下拍攝了多個測試視頻(query),在視頻中目標的衣著、基本輪廓和運動行為是清晰可見的。通過這些信息,要求算法能在這一系列query中尋找出target。這就是一個投票者(voter)和候選人(candidate)的問題。如圖1所示,把target圖像定義為voters,把query圖像定義為candidates。因此問題就轉換成了從candidates中尋找出voters最為匹配的結果。
圖1 投票者-候選人示意圖
問題的難點在于candidates中可能有多個和voters衣著顏色相近的對象,那么僅僅用基于區(qū)域權重(Weighted Region Matching,WRM)的顏色匹配方法就不能很好地識別出voters。所以在此基礎上,對算法進行改進。由于人的運動行為具有好的魯棒性和特殊性,引入時空局部特征3-D LSK的人體行為識別方法,通過時空局部特征和顏色特征相結合的方法,來有效地識別出voters。
Weighted Region Matching[3]算法是一種基于區(qū)域權重的顏色特征匹配算法,對輸入的query圖像要進行一系列處理,具體過程如圖2所示,分別為:目標檢測;目標分割;特征匹配。
圖2 WRM算法框圖
對圖像進行目標檢測和分割后,得到voters和candidates的兩組圖像數(shù)據(jù)。定義voters的圖像組為V={vi;i=1,2,…,n},定義candidates的圖像組為C={cj;j=1,2,…,m},其中vi和cj為每組圖像的某個具體對象。那么cj成為target的概率為
式中:P()vi,i=1,2,3,…,n為先驗概率。假設wi是vj的權重是cj和vi間的歸一化距離,則式(1)可改寫為
式中:τ為常量。式(2)類似于混合高斯模型,由此公式可知,WRM的重點在于對D()cj,vi和wi的計算。
2.1目標檢檢測和分割
本文采用混合高斯背景建模來提取運動目標,使用M個高斯模型來描述圖像中各個像素點的特征,在獲得新一幀圖像后更新混合高斯模型,用當前圖像中的每一個像素點與混合高斯模型匹配,如果成功則判定該點為背景點,否則為前景點。Zivkovic在文獻[7]中提出了一種自適應的M維混合高斯模型算法,假設圖像中的像素在RGB空間中t時刻的取值為x那么采樣點x符合的混合高斯分布概率密度函數(shù)為
2.2計算EMD距離
從顏色特征提取的角度來說,Mean-Shift[8]平滑和分割算法是一款非常優(yōu)秀的算法,在分割過程中,它能夠突出圖像中的各個區(qū)域并且使各個區(qū)域內平坦。因此本文選用Mean-Shift算法對candidate和voter進行平滑和分割,把目標根據(jù)顏色特征的不同分割為不同的幾個區(qū)域。如圖3所示,用EMD[9-10]算法(Earth Mover Distance)計算candidate和voter間的距離,就轉化為計算對應區(qū)域顏色直方圖間的距離。
圖3 計算EMD距離
計算EMD的方法來最初是用于解決運輸問題,其實質是雙向網(wǎng)絡最優(yōu)路徑的選擇問題。運輸問題的描述如下:
假設有幾個供應商,每個供應商都有一定數(shù)量的貨物,需要供應給幾個零售商。每個零售商都有一個購買能力的上限,在任何供應商與零售商之間運輸一個單位貨物的成本是給定的。傳輸問題就是尋找最小代價貨物流,貨物從供應商流向零售商,這些貨物能滿足零售商的要求。
運輸問題的目的就是找到一組路徑F=[fij]也就是供應商與零售商之間的對應關系,當使用這種雙向對應關系時,能夠最小化運輸貨物所要付出的代價,即
它有如下約束條件:fij≥0,它規(guī)定了貨物的運輸只是從供應商到零售商的方向,并不返回。是供應商pi的總供貨量,它說明運輸貨物的總量要小于所有供應商貨物的總和是零售商qj的總需求量,它規(guī)定了所有零售商的需求都要被滿足顯然總的需求量應該小于總的供貨量。
將該線性流程移植到特征分布的比較中,定義candidate在HSV空間的顏色直方圖分布P={p1,…,pm}為供應商,voter在HSV空間的顏色直方圖分布Q={q1,…,qn}為零售商,其中P、Q均為HSV彩色空間的色調。定義地面距離矩陣D=[dij,其中dij是pi和qj]之間的地面距離,它是任何距離的度量,可根據(jù)具體處理問題的不同靈活選擇。本文選擇JD[9]距離(Jeffrey-Divergence)作為地面距離,相對于傳統(tǒng)相似性度量方法,JD在顏色直方圖的計算中具有數(shù)值穩(wěn)定性和對稱性,對噪聲魯棒性好等良好特性。由此在式(2)中candidate與voter特征分布間的距離為
2.3計算voter的權重
用Mean-Shift圖像分割算法把voter分割為幾個區(qū)域,每個區(qū)域都包含了target的信息,但是有些區(qū)域可能本身含有噪聲或是在目標提取時引入了噪聲。因此,需要對每個區(qū)域的權重進行計算,使得包含target信息最多的區(qū)域權重最大。定義voter中的區(qū)域為R={rk},則區(qū)域rk的權重wk為
式中:wkpr是歸一化的PageRank權重,wks是根據(jù)區(qū)域大小進kk行歸一化的權重。因此在式(2)中voter的權重wi就是區(qū)域權重的的總和,對其進行歸一化得
雖然顏色特征有具有很好的區(qū)分性和直觀性,且對目標的形狀和姿態(tài)的依賴小,但是由于特征本身受光線變化、背景復雜度等因素影響而對于不同場景中目標的識別準確率存在差異。在此基礎上,引入時空局部特征3-D LSK的人體行為識別方法來改善顏色特征匹配的不足,算法系統(tǒng)框圖如圖4所示。
首先利用MACH Filter對Target視頻進行學習訓練,得到魯棒性強的時空匹配模板;然后分別提取Query和時空模板的3-D Lsk,即WQ、WT,并進行PCA[11]降維,得到對應的時空局部特征FQ、FT;計算FQ與FT的矩陣余弦相似性RV,將RV與對應的閾值τ進行比較,從而實現(xiàn)簡單行為的識別。對于相同行為的幀再進行WRM算法來判斷query中的目標是否為voter,其算法框架如圖4所示。
MACH Filter是由綜合鑒別函數(shù)(Synthetic Discriminant Function,SDF)演變而來的。針對一組同類的人體行為實例,SDF濾波器通過對4個性能指標的優(yōu)化,將訓練視頻圖像結合成一個復合模板。這4個性能指標分別是:平均相關高度(Average Correlation Height,ACH)、平均相關能量(Average Correlation Energy,ACE)、平均相似性度量(Average Similarity Measure,ASM)、輸出噪聲方差(Output Noise Variance,ONV)。MACH Filter是SDF的最佳折衷結果,它具有3個優(yōu)點:容易探測到相關峰、畸變容差較大、有效抑制復雜背景噪聲的能力。本文利用MACH Filter對Target視頻進行訓練,得到Target視頻中目標行為的時空模板,如圖5所示。
圖4 結合3-DLSK和WRM的目標匹配算法
圖5 構造時空模板
首先用Sobel算子得到視頻圖像的邊緣信息,將時空信息轉換為頻域信息,即對視頻庫中不同對象的同一行為作三維快速傅里葉變換
式中:f(x,y,t)表示每一幀視頻圖像的像素值;M、N分別表示圖像的行數(shù)和列數(shù);L表示視頻的幀數(shù);F()u,v,w表示經過3-D FFT后的頻域結果。通過式(9)合成MACH Filter對視頻圖像進行頻域濾波,再作三維快速傅里葉反變換構造時空模板
式中:mx表示視頻圖像的向量xi的平均值;α,β,γ是用來權衡濾波器性能的參數(shù);C表示對角線噪聲協(xié)方差矩陣;Dx表示訓練視頻中象征平均功率譜密度的對角矩陣,其定義如式(10)所示;Sx表示對角線平均相似度矩陣,其定義如式(11)所示。
式中:Ne=L×M×N為訓練視頻中像素點的總數(shù);Xi表示關于xi的對角矩陣;Mx表示關于mx的對角矩陣。通過MACH Filter最大限度地增強ACH,并降低ACE、ASM和ONV,得到的時空模板具有很強的魯棒性。
3.23-D LSK特征提取
3-D LSK最初應用于圖像降噪、插值、銳化和目標檢測,其核心思想是通過梯度估計分析空域和時域上的像素差異,獲取圖像的局部結構信息,以此來確定一個經典核函數(shù)的形狀和大小。根據(jù)3-D LSK的定義,其計算以及歸一化處理如下
利用式(12)、(13)分別計算Query和Target的3-D LSK,即WQ、WT;然后對WQ和WT采用PCA降維,僅保留貢獻率為80%信息量的d個特征值;以此構造矩陣AQ、AT并投影到WQ、WT,得到降維后的特征矩陣FQ、FT即為本算法提取的時空局部特征
3.3度量矩陣余弦相似性算法設計
為了分析FQ與FT之間的“距離”,提出一種基于離散余弦相似度的非參數(shù)檢驗方法,其原理類似于計算夾角余弦距離。特征矩陣FQ與FT的余弦相似度定義如式(16)所示。
最后,利用式(17)計算矩陣FQ與FT的矩陣余弦相似性(Resemblance Volume,RV),RV即表示測試視頻與目標視頻在時空坐標上每一個像素的匹配程度。顯然,由于ρi表示特征矩陣FQ與FT的余弦相似性,RV取值隨著ρi的增大而增大。
3.4非參數(shù)檢驗
通過控制置信水平來自適應生成閾值τ,將RV(i)與閾值進行比較,從而檢測Query中和Target行為相匹配的幀,實現(xiàn)行為識別。其基本運算流程如下:
1)選擇一個合適的置信水平值α,即最大容許的誤檢率。
2)按照從小到大排列的p(i)值,f(p(i))即為關于p(i)的函數(shù)。
4)由p(γ)確定閾值τ,并判定RV(i)值大于τ的像素包含與Target相似的行為信息。
在用3-D LSK時空局部特征對Query進行處理后,得到了和Target中具有相似行為的幀,再對這些幀提取顏色特征,用第3節(jié)所述的WRM算法進行特征匹配,最終在query中找到和Target行為相同、顏色特征相同的目標。
本文選用的測試視頻主要來源于實驗錄制視頻集。根據(jù)實驗所需,根據(jù)目標顏色和運動行為的不同選取了簡單場景下的6個視頻集。分別為2個Target視頻,4個Query視頻,具體信息如表1所示。
表1 實驗所選用的6個視頻數(shù)據(jù)集的相關信息
圖6為6個視頻的實際場景圖,每個視頻各為40幀,其中圖6a、圖6b作為Target視頻,圖6c~f作為Query視頻。分別用WRM匹配算法、結合WRM和3-D LSK匹配算法進行兩組對比實驗。
圖66 個視頻的實際場景圖
實驗一是以T1為Target,在Q1、Q2、Q4中尋找與T1中匹配的目標,實驗結果如表2所示。對比T1、Q1的實驗結果,可以知道T1和Q1中的目標顏色相近,行為相同。WRM算法檢測出Q1中有21幀的目標和T1匹配,結合3-D LSK和WRM的算法檢測出Q1中有12幀和目標T1匹配。但顯而易見Q1中的目標并非T1中的目標,所以這兩種算法得出的結果都是錯判的。但改進后算法的錯檢率為30%,優(yōu)于原來的WRM算法。
表2 在Q1、Q2、Q4的視頻集中檢測T1中的目標
對比T1、Q2的實驗結果,可以知道T1和Q2中的目標顏色相近,行為相同。WRM算法檢測出Q2中有20幀的目標和T1匹配,結合3-D LSK和WRM的算法檢測出Q2中有15幀和目標T1匹配。知道Q2中的目標就是T1中的目標,所以這兩種算法得出的結果都正確的,因此錯檢率都為0%。
對比T1、Q3的實驗結果,可以知道T1和Q3中的目標顏色相近,行為不同。WRM算法檢測出Q3中有40幀的目標和T1匹配,結合3-D LSK和WRM的算法檢測出Q3中的目標和T1完全不匹配。但顯而易見Q3中的目標并非T1中的目標,所以WRM的算法的錯檢率是100%,它完全錯判了目標。而結合3-D LSK和WRM的算法就能完全區(qū)分出目標的不同,效果十分優(yōu)于WRM算法。
實驗二是以T2為Target,在Q1、Q3、Q4中尋找與T2中匹配的目標,實驗結果如表3所示。對比T2、Q1的實驗結果,可以知道T2和Q1中的目標顏色不同,行為相同。WRM算法檢測出Q1中有8幀的目標和T2匹配,結合3-D LSK和WRM的算法檢測出Q1中有6幀和目標T2匹配。但顯而易見Q1中的目標并非T2中的目標,所以這兩種算法得出的結果都是錯判的。但改進后算法的錯檢率為15%,優(yōu)于原來的WRM算法。
表3 在Q1、Q3、Q4的視頻集中檢測T2中的目標
對比T2、Q3的實驗結果,可以知道T2和Q3中的目標顏色相近,行為相同。WRM算法檢測出Q3中有40幀的目標和T2匹配,結合3-D LSK和WRM的算法檢測出Q3中有31幀和目標T2匹配。知道Q3中的目標就是T2中的目標,所以這兩種算法得出的結果都正確的,因此錯檢率都為0%。
對比T2、Q4的實驗結果,可以知道T2和Q4中的目標顏色不同,行為不同。兩種算法都檢測出Q4中的目標和T2完全不匹配。因此對于顏色不同,行為不同的情況,兩種算法效果相同。
綜合表1和表2的實驗數(shù)據(jù)可以發(fā)現(xiàn),對于顏色不同,行為不同的目標間匹配,兩種算法檢測效果完全相同。對于顏色不同,行為相同和衣著顏色相同,行為相同的目標間匹配,兩種算法檢測效果基本相近。對于顏色相同,但行為不同的目標匹配,結合3-D LSK和WRM算法的效果要優(yōu)于WRM的效果。
本文針對視頻監(jiān)控中目標匹配的難點問題,在基于WRM顏色特征匹配的基礎上,提出一種新的結合3-D LSK和WRM的目標匹配算法。該方法先對待測視頻中的運動目標進行行為識別,識別出具有相同行為目標。然后在利用目標的顏色特征,通過基于區(qū)域權重的顏色匹配方法來識別出具有相同顏色的目標。與近期文獻的結果相比,本方法對于顏色相近、行為不同的目標間的匹配有顯著的識別效果。
[1]COMANICIU D,RAMESH V,MEER P.Real-time tracking of non-rigid objects using mean shift[C]//Proc.IEEE Conference on Computer Vision and Pattern Recognition.[S.l.]:IEEE Press,2000:142-149.
[2]LOWE D G.Distinctive image features from scale-invariant keypoints[J].International Journal of Computer Vision,2004,60(2):91-110.
[3]OREIFEJ O,MEHRAN R,SHAH M.Human identity recognition in aerial images[C]//Proc.IEEE Conference on Computer Vision and Pattern Recognition(CVPR 2010).[S.l.]:IEEE Press,2010:709-716.
[4]NIEBLES J C,WANG H,F(xiàn)EI F L.Unsupervised learning of human action categories using spatial-temporal words[J].International Journal of Computer Vision,2008,79(3):299-318.
[5]RYOO M S,AGGARWAL J K.Spatio-temporal relationship match:video structure comparison for recognition of complex human activities[C]//Proc.IEEE 12th International Conference on Computer Vision.[S.l.]:IEEE Press,2009:1593-1600.
[6]SEO H J,MILANFAR P.Action recognition from one example[J]. IEEE Trans.Pattern Analysis and Machine Intelligence,2011,33(5):867-882.
[7]ZIVKOVIC Z.Improved adaptive Gaussian mixture model for background subtraction[C]//Proc.17th IEEE International Conference on Pattern Recognition(ICPR 2004).[S.l.]:IEEE Press,2004:28-31.
[8]CUI J,MA D L,YU M Y,et al.Research of remote sensing image segmentation based on mean shift and region merging[J].Applied Mechanics and Materials,2011(90):2836-2839.
[9]PUZICHA J,BUHMANN J M,RUBNER Y,et al.Empirical evaluation of dissimilarity measures for color and texture[C]// Proc.7th IEEE International Conference on Computer Vision,1999.[S.l.]:IEEE Press,1999:1165-1172.
[10]RUBNER Y,TOMASI C,GUIBAS L J.The earth mover's distance as a metric for image retrieval[J].International Journal of Computer Vision,2000,40(2):99-121.
[11]王鶴,謝剛.基于PCA-SIFT特征的目標識別算法[J].電視技術,2013,37(15):30-32.
Target Matching Algorithm in Multiple Non-overlapping Cameras
WANG Xiaoli,LU Xiaofeng,LU Hengli
(School of Communication and Information Engineering,Shanghai University,Shanghai 200444,China)
The target matching method of color features has good distinction and intuition,but small dependence on the shape and attitude of the target.Due to factors such as illumination change and background complexity,the performance of the object matching method varies in different scenarios.With respect to the current situation,this paper proposes a new target matching algorithm,combining with space-time local features and color features.Firstly,3-D LSK(space-time local steering kernel)features are used to identify the behavior of moving targets in video. ThencolorfeaturesandWeightedRegionMatchingmethodareusedtoidentifytargetswiththesamecolor. Experimental results on several test videos in non-overlapping areas show that the new algorithm can effectively identify the different targets in common scenarios,especially for different targets dressed similar color.
color features;space-time local features;non-overlapping area
TP391
A
10.16280/j.videoe.2015.10.003
時雯
2014-07-23
王曉麗,女,研究生,主研圖像處理。