王 宇
(中國民航飛行學院 航空工程學院,四川 廣漢 618307)
手勢生動、形象、直觀,而且蘊涵著豐富的信息,是人與人溝通的重要媒介。手勢跟蹤則是在圖像序列中確定出各幀中手勢的位置、大小和方向等信息,是目前基于手勢交互的重要內容。
目前,目標跟蹤的算法[1-4]有很多,大體上可以分為基于匹配的跟蹤和基于運動特性的跟蹤。根據(jù)提取目標的特征不同,基于匹配的跟蹤可分為區(qū)域匹配跟蹤、輪廓匹配跟蹤和特征匹配跟蹤?;谶\動特性的跟蹤又分為基于光流的跟蹤算法和運動預測跟蹤算法。其中,Mean Shift算法因其計算簡單、實時性好而得到了廣泛應用。筆者將Mean Shift算法應用于序列圖像中的手勢跟蹤,取得了較好的效果。
Mean Shift[5-6]是一種基于核函數(shù)密度估計的圖像特征分析方法。在手勢跟蹤中,Mean Shift算法利用圖像的顏色統(tǒng)計直方圖作為整個搜索匹配的特征,并且采用梯度優(yōu)化方法來減少特征搜索匹配的時間,實現(xiàn)快速的目標定位,同時利用Bhattacharyya距離作為對目標模板和候選目標的相似性函數(shù),完成特征的匹配。
1)目標模板的表示
假設{xi}i=1,2,…,N表示目標模板區(qū)域中的像素位置,且目標區(qū)域的中心為x0,特征值bin的個數(shù)為m,則目標模板的特征值 u=1,2,…,m 的概率密度為
式中:k(x)為核函數(shù),是一個各向同性的、凸的且單調遞減的函數(shù),它的作用是給目標模板區(qū)域的像素設置權值,即給遠離目標模板中心的像素設置較小的權值,而給靠近目標模板中心的像素設置較大的權值。因為遠離目標模板中心的像素容易受到其他目標或背景像素的影響,所以加權后的目標模板像素在進行密度估計時增加了穩(wěn)健性,提高了搜索跟蹤能力。函數(shù)k(x)中的的作用是為消除不同大小目標計算時的影響,將目標區(qū)域歸一化。 δ(x)是 Delta 函數(shù),δ[b(xi-u)]總的作用是判斷目標區(qū)域中像素xi的顏色值是否屬于第u個bin,屬于則值為1,否則為0。C是一個標準化的常量系數(shù),使得因此
2)候選模板的描述
設運動目標在第2幀及以后每幀中可能包含的目標區(qū)域為候選區(qū)域,設{xi}i=1,2,…,nh是候選區(qū)域的像素位置,當前幀中心坐標為y,候選模板的特征值u=1,2,…,m的概率密度為
3)基于Bhattacharyya系數(shù)的相似性函數(shù)
引入Bhattacharyya系數(shù)[7]來度量候選目標和目標模板之間的相似性,其定義為
4)目標定位
其中
式(5)中第1項是與y無關的,只有第2項隨y變化,所以只需要對第2項進行分析。令
要使式(5)最大就是求式(7)最大,計算式(7)的 Mean Shift向量,從候選區(qū)域中心y0遞歸地計算出新目標位置,即
式中:g(x)=-k′(x),Mean Shift算法是從起,向兩個模型相比顏色最大的方向移動。
為了實現(xiàn)手勢的跟蹤,選取手勢的顏色來作為跟蹤特征,然后通過顏色概率模型把每幀圖像轉化為顏色概率分布圖。常用的RGB色彩空間[8-9]并不能很好地反映視覺上的顏色感知性。由于筆者研究的是序列圖像中的手勢跟蹤,因此這里的顏色就是膚色。由于膚色對HSV(色調、色飽和度和亮度)色彩空間的H分量很敏感,所以采用H分量的直方圖建立膚色概率模型,即
式中:R,G,B分別代表RGB色彩空間中的顏色分量,這里將它們轉化到HSV空間,獲得H分量,并計算它的直方圖。這里把H分量的數(shù)值量化到[0,255]。
Mean Shift算法將顏色直方圖作為跟蹤特征,具有計算簡單、速度快的特點。 給定目標模板并給出t-1幀中目標的位置y0,對第t幀圖像進行目標搜索的過程如下:
1)初始化第 t幀中目標位置 y0,并計算以及
為了測試本文算法在動態(tài)場景下對目標手勢跟蹤的性能,選擇對實際視頻序列進行手勢跟蹤測試。實驗中對各幀圖像未做任何預處理。計算機配置為P3 CPU 1.8 GHz,內存512 Gbyte,開發(fā)環(huán)境為Visual C++。圖1為實驗室實時拍攝的手勢跟蹤結果。可以看出該算法在手勢大小變化、手勢發(fā)生旋轉情況下均有較好的跟蹤結果。
筆者將Mean Shift方法應用到序列圖像的手勢跟蹤中。實驗結果表明,針對不同的動態(tài)場景,Mean Shift計算簡單,實時性好,并且當目標姿態(tài)和光照發(fā)生變化時可獲得較好的跟蹤效果,能適應目標在圖像中的復雜運動,具有廣闊的應用前景。
[1]WU Y,HUANG T S.Robust visual tracking by integrating multiple cues based on co-inference learning[J].International Journal of Computer Vision,2004,58(1):55-71.
[2]TRIESCH J,MALSBURG C V D.Self-organized integrationof adaptive visual cues for face tracking[C]//Proc. the Fourth International Conference on Automatic Face and Gesture Recognition.Grenoble,F(xiàn)rance:[s.n.],2000:102-107.
[3]COMANICIU D,RAMESH V,MEER P.Kernel-based object tracking[J].Pattern Analysis and Machine Intelligence,2003,25(5):564-577.
[4]COMANICIU D,RAMESH V,MEER P.Real-time tracking of nonrigid objects using mean shift[J].IEEE Computer Vision and Pattern Recognition,2000(2):142-149.
[5]CHENG Y.Mean-shift,mode seeking,and clustering[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1995,17(8):790-799.
[6]梁靜,支琤,周軍.基于Mean Shift的抗遮擋運動目標跟蹤算法[J].電視技術,2008,32(12):82-85.
[7]KAILATH T.The divergence and Bhattacharyya distance measures in signal selection[J].IEEE Trans.Comm.Tichnology,1967(15):52-60.
[8]RICHARD O D,PETER E H,DAVID G S.Pattern Classification[M].2nd Ed.李宏東,姚天翔,譯.北京:機械工業(yè)出版社,2003.
[9]SONKA M,HLAVAC V,BOYLE R.圖像處理、分析與機器視覺[M].2版.艾海舟,武勃,譯.北京:人民郵電出版社,2003.