史久根,陳志輝
合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院,合肥 230009
基于運(yùn)動(dòng)歷史圖像和橢圓擬合的手勢(shì)分割
史久根,陳志輝
合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院,合肥 230009
在手勢(shì)識(shí)別[1]系統(tǒng)中,手勢(shì)分割是后續(xù)識(shí)別的重要基礎(chǔ)。當(dāng)前常用的分割方法一般基于特定的膚色模型[2],很難適應(yīng)復(fù)雜的光照環(huán)境??紤]到手勢(shì)識(shí)別系統(tǒng)中,手勢(shì)是一個(gè)動(dòng)態(tài)過程,對(duì)應(yīng)著視頻序列中的運(yùn)動(dòng)區(qū)域之一,于是可采用運(yùn)動(dòng)分割方法確定手勢(shì)區(qū)域。運(yùn)動(dòng)分割的常用方法有背景減除法[3],幀間差分法[4],光流法[5]。背景剪除法需建立背景模型,由于背景和前景的不確定性,很難建立完善的模型;光流法由于噪聲、多光源等因素,會(huì)使光流場(chǎng)分布不可靠,而且光流的計(jì)算復(fù)雜且耗時(shí),不太適合實(shí)時(shí)應(yīng)用;幀間差分法計(jì)算量小且對(duì)光照的適應(yīng)性較強(qiáng),但在物體慢速運(yùn)動(dòng)的情況下容易產(chǎn)生分割不足、目標(biāo)提取不完整的現(xiàn)象。
基于運(yùn)動(dòng)歷史圖像(MHI)[6-7]的運(yùn)動(dòng)分割能夠有效克服上述問題,文獻(xiàn)[6]利用了MHI實(shí)現(xiàn)了運(yùn)動(dòng)分割和姿態(tài)識(shí)別。但該方法易產(chǎn)生分割過度現(xiàn)象,影響分割精度。為解決該問題,本文在基于MHI分割的基礎(chǔ)上,結(jié)合橢圓擬合[8]算法,提高了手勢(shì)分割的精度。
MHI將多幀運(yùn)動(dòng)輪廓進(jìn)行疊加形成運(yùn)動(dòng)歷史圖像,充分利用了輪廓間的空間相關(guān)性,從而更有效地分割運(yùn)動(dòng)目標(biāo)。此處,每幀運(yùn)動(dòng)輪廓即為二值化的相鄰幀差。記連續(xù)兩幀分別為Fk-1和Fk,W為抑制噪聲的窗口函數(shù),則幀差Dk表示為:
為了區(qū)別不同時(shí)間段的輪廓,采用了基于時(shí)間戳的運(yùn)動(dòng)歷史圖像(Timed Motion History Image,tMHI),tMHI[6]記錄了一段時(shí)間內(nèi)的運(yùn)動(dòng)輪廓信息,利用當(dāng)前時(shí)間戳標(biāo)記當(dāng)前運(yùn)動(dòng)輪廓,可表示為:
式(3)中的τ表示當(dāng)前時(shí)間戳,在一般系統(tǒng)中用浮點(diǎn)數(shù)表示,δ表示tMHI記錄的時(shí)間長度。隨著時(shí)間的推進(jìn),tMHI不斷被更新。圖1(b)是將tMHI映射到0~255的圖像,該圖反映一段時(shí)間內(nèi)手部運(yùn)動(dòng)的歷史,越暗的區(qū)域表示發(fā)生的時(shí)間越早。
圖1 運(yùn)動(dòng)分割對(duì)比
對(duì)tMHI進(jìn)行分割可采用如下步驟:
(1)逐行掃描tMHI,直到找到當(dāng)前輪廓。
(2)沿當(dāng)前輪廓向外搜索沒有標(biāo)記的區(qū)域,當(dāng)輪廓找到后,用downFill[6](向下填充)標(biāo)記之,如果填充區(qū)域不夠大,則置0。
(3)存儲(chǔ)找到的分割掩碼。
(4)循環(huán)此過程直到所有輪廓都被標(biāo)記。
在上述步驟中,每個(gè)填充區(qū)域被不同的正整數(shù)予以標(biāo)記,即表示了不同的運(yùn)動(dòng)區(qū)域。downFill填充的準(zhǔn)則是時(shí)間戳的值與當(dāng)前值相同或小于當(dāng)前值與填充下降距離之差。分割中需注意兩個(gè)參數(shù),即最小的可接受的填充面積和允許的填充下降距離。當(dāng)填充面積過小時(shí),可認(rèn)為是噪聲,需要置0;填充下降距離一般大于或等于相鄰輪廓的時(shí)間戳之差。
圖1(b)顯示了分割的效果,運(yùn)動(dòng)的手部被完整地分割了出來。圖1(a)基于幀差法,采用floodFill[9]算法分割,出現(xiàn)了目標(biāo)提取不完整的情況,手部被分割成了兩個(gè)區(qū)域。
當(dāng)目標(biāo)運(yùn)動(dòng)速度較慢時(shí),幀差法由于相鄰幀重疊部分較多,容易出現(xiàn)輪廓不足、輪廓斷裂現(xiàn)象,導(dǎo)致很難分割出完整目標(biāo),而基于MHI的分割,由于利用了多幀輪廓,克服了以上缺陷。但由于MHI是基于一段時(shí)間的運(yùn)動(dòng)輪廓,產(chǎn)生的“拖影”會(huì)使得運(yùn)動(dòng)目標(biāo)分割偏大。
對(duì)于一目標(biāo)物,其像素簇的空間分布可用一橢圓表示。直觀上講,橢圓擬合即尋找該像素簇的最小外包矩形的最大內(nèi)切橢圓。對(duì)于一橢圓,可表示為e(x0,y0,a,b,θ),其中(x0,y0)為橢圓中心坐標(biāo),a、b分別為長、短半軸,θ為偏轉(zhuǎn)角度。確定一個(gè)擬合橢圓即求解這5個(gè)參數(shù)。通過二階中心矩可求解這些參數(shù)。對(duì)于數(shù)字圖像,區(qū)域?yàn)镽的二維p+q階中心矩[9]為:
對(duì)于目標(biāo)的擬合橢圓,其中心坐標(biāo)即為(xˉ,yˉ),a、b、θ可以利用像素簇二元分布的協(xié)方差矩陣[8]解得,其協(xié)方差矩陣為:
圖2顯示了對(duì)手部的擬合效果,此處先對(duì)原圖進(jìn)行了膚色分割[2,8],然后二值化后進(jìn)行橢圓擬合,如右圖顯示的橢圓部分。
圖2 橢圓擬合
本文算法主要涉及到運(yùn)動(dòng)區(qū)域分割、手勢(shì)篩選、橢圓擬合三個(gè)步驟,具體算法步驟如下:
(1)對(duì)于視頻序列,對(duì)每一幀進(jìn)行高斯去噪[8],然后獲取MHI并進(jìn)行運(yùn)動(dòng)分割,分割的結(jié)果保存在一個(gè)與圖像大小相同的矩陣MASK中,不同的運(yùn)動(dòng)區(qū)域用不同的正整數(shù)標(biāo)記,非運(yùn)動(dòng)區(qū)域全部標(biāo)記為0。
(2)在獲取的MASK中,針對(duì)每個(gè)非0標(biāo)記區(qū)域求解外接矩形[7],然后對(duì)求得的矩形按一定規(guī)則進(jìn)行篩選,篩選的結(jié)果保存在矩形集合RectSet中,規(guī)則可用如下偽代碼表示:
N、area、ratio分別表示矩形的個(gè)數(shù)、面積、寬高比,sum()函數(shù)用于求解矩形區(qū)域內(nèi)非零點(diǎn)個(gè)數(shù),即實(shí)際運(yùn)動(dòng)區(qū)域面積,percent表示運(yùn)動(dòng)區(qū)域面積和外接矩形面積之比。三個(gè)if語句對(duì)應(yīng)三條規(guī)則,第一條限定矩形面積范圍為[MINAREA,MAXAREA],可以濾除一些面積過大、過小區(qū)域,第二條限定矩形寬高比范圍為[MINRATIO,MAXRATIO],可以濾除一些形狀過于狹長的區(qū)域,第三條限定percent大于MINPERCENT,可以濾除一些輪廓不足的區(qū)域。最后對(duì)RectSet中的矩形按面積由大到小進(jìn)行排列。一般由于手部距離攝像頭最近,可認(rèn)為RectSet中最大的矩形區(qū)域即為手勢(shì)運(yùn)動(dòng)區(qū)域。
(3)對(duì)于步驟(2)獲得的手勢(shì)運(yùn)動(dòng)區(qū)域,會(huì)產(chǎn)生圖1(b)所示的分割偏大問題,為解決該問題,利用該區(qū)域內(nèi)的當(dāng)前運(yùn)動(dòng)輪廓(即當(dāng)前幀差)做橢圓擬合,進(jìn)而提高了分割精度。圖3顯示了擬合的結(jié)果,矩形區(qū)域?yàn)槭謩?shì)運(yùn)動(dòng)區(qū)域,橢圓區(qū)域即為最終分割結(jié)果。
圖3 對(duì)手勢(shì)當(dāng)前運(yùn)動(dòng)輪廓橢圓擬合
由于橢圓擬合操作只在手勢(shì)區(qū)域進(jìn)行,不會(huì)受到其他運(yùn)動(dòng)區(qū)域的干擾,保證了擬合的正確性。
本文利用了OpenCV開源庫和Python腳本進(jìn)行了實(shí)驗(yàn)環(huán)境的的搭建。圖4為實(shí)驗(yàn)中從視頻中截取的連續(xù)4幀圖像。
圖4 手勢(shì)分割結(jié)果
圖中矩形區(qū)域?yàn)镸HI分割結(jié)果,橢圓區(qū)域?yàn)楸疚姆椒ǚ指罱Y(jié)果。表1是對(duì)一段視頻的連續(xù)2 000幀所做出的統(tǒng)計(jì)結(jié)果。
表1 MHI分割和本文方法對(duì)照
AM、AE分別表示基于MHI分割和本文方法分割所得區(qū)域面積。當(dāng)分割區(qū)域能夠完整包含手勢(shì)部分時(shí),可認(rèn)為是正確分割,其余情況為錯(cuò)誤分割。在正確分割的視頻幀中,分別求解平均分割面積-AM、-AE,則-AM/-AE可以反映這兩種方法的分割精度之比。從表中可以看出,本文方法的分割正確率略低于MHI分割,差別很小,但是分割精度提高到MHI分割的1.89倍左右。從實(shí)驗(yàn)數(shù)據(jù)可以看出,本文方法在基本不降低分割正確率的情況下,明顯提高了MHI分割的精度。
在不同光照條件下實(shí)驗(yàn),可以測(cè)試分割對(duì)光照的適應(yīng)能力。實(shí)驗(yàn)將本文方法和膚色分割法做了對(duì)比。為了便于對(duì)實(shí)驗(yàn)結(jié)果分析,在不同光照條件下分別保存一段手勢(shì)運(yùn)動(dòng)的視頻,進(jìn)行處理和分析。
對(duì)于膚色分割的實(shí)驗(yàn),本文采用膚色聚集程度較高的YCgCr顏色空間[10],具體步驟如下:
(1)利用Gray World色彩均衡法[11]進(jìn)行色彩校正。
(2)色彩空間轉(zhuǎn)換[10],將RGB空間轉(zhuǎn)換到Y(jié)CgCr空間。
(3)利用高斯混合模型[12-13]進(jìn)行膚色建模,得到膚色概率似然圖像。
(4)采用otsu算法[14]對(duì)膚色概率似然圖像進(jìn)行閾值分割,得到膚色區(qū)域。
(5)利用floodFill算法對(duì)膚色區(qū)域進(jìn)行分割,求解最小外包矩形[7],得到手勢(shì)區(qū)域,記為AS。
對(duì)三段不同光照條件下的視頻統(tǒng)計(jì)了連續(xù)2 000幀,得到如表2所示數(shù)據(jù)。
表2 不同光照下的實(shí)驗(yàn)結(jié)果
表2中由上到下,表示光照強(qiáng)度遞減。實(shí)驗(yàn)在室內(nèi)進(jìn)行,利用強(qiáng)度可控的白色光源模擬自然光,設(shè)置了三種不同的光照強(qiáng)度。在正確分割的視頻幀中,分別求解這兩種方法的平均分割面積-AE、-AS,利用-AE/-AS衡量兩種方法的分割精度之比。
從實(shí)驗(yàn)結(jié)果可以看出,在三種光照條件下,-AE/-AS均大于1,說明膚色分割法在分割正確的前提下,分割精度高于本文方法,但比值接近于1,說明兩種方法的分割精度差別較??;同時(shí)可以看出,在光照正常情況下,兩種方法的分割正確率差別不大,但在光照降低的情況下,本文方法的分割正確率明顯高于膚色分割法,即使在較低光照條件下,也有較高的分割正確率。從該組實(shí)驗(yàn)數(shù)據(jù)可以看出,本文方法不僅保證了分割精度,能夠有效分割出手勢(shì),而且對(duì)于光照的適應(yīng)性較強(qiáng)。
本文提出的方法在基于MHI分割的基礎(chǔ)上結(jié)合了橢圓擬合算法,提高了MHI分割的精度,能夠有效地分割出手勢(shì),并且對(duì)光照適應(yīng)能力較強(qiáng)。該方法未建立復(fù)雜的數(shù)學(xué)模型,計(jì)算量小,非常適合于實(shí)時(shí)環(huán)境或者移植到嵌入式平臺(tái)。
由于MHI和橢圓擬合都利用到了幀差信息,當(dāng)手部處于靜止?fàn)顟B(tài)時(shí)會(huì)導(dǎo)致分割失敗,此時(shí)可以結(jié)合視頻跟蹤算法予以解決,例如文獻(xiàn)[15]利用了PGH和Kalman濾波器實(shí)現(xiàn)了對(duì)手勢(shì)的跟蹤。該問題有待后續(xù)進(jìn)一步研究。
[1]任海兵,祝遠(yuǎn)新,徐光佑.基于視覺手勢(shì)識(shí)別的研究——綜述[J].電子學(xué)報(bào),2000,28(2):118-122.
[2]Habili N,Cheng Chew Lim,Moini A.Segmentation of the face and hands in sign language video sequences using color and motion cues[J].IEEE Transactions on Circuits and Systems for Video Technology,2004,14(8):1086-1097.
[3]Arseneau S,Cooperstock J.Real-time image segmentation for action recognition[C]//Proc IEEE Pacific Rim Conference on Communications Computers and Signal Processing. Canada:Victoria,1999:86-89.
[4]Lipton A,F(xiàn)ujiyoshi H,Patil R.Moving target classification and tracking from real-time video[C]//IEEE Workshop on Applications of Computer Vision.Princeton:IEEE Press,1998:8-14.
[5]Barron J,F(xiàn)leet D,Beauchemin S.Performance of optica flow techniques[J].International Computer Vision,1994,12(1):42-77.
[6]Bradski G R,Davis J W.Motion segmentation and pose recognition with motion history gradients[J].Machine Vision and Applications,2002,13(5):174-184.
[7]Bradski G,Kaehler A.Learning openCV[M].[S.l.]:O’Reilly Media,Inc,2008.
[8]Argyros A A,Lourakis MIA.Real time tracking of multiple skin colored bjects with a possibly moving camera[C]//Proc ECCV,2004,3:368-379.
[9]Gonzalez R C,Woods R E.Digital image processing[M].北京:電子工業(yè)出版社,2002.
[10]王建國,林宇生,楊靜宇.基于顏色空間YCgCr的人臉區(qū)域初定位[J].計(jì)算機(jī)科學(xué),2007,34(5):228-233.
[11]雷明,張軍英,董濟(jì)揚(yáng).一種可變光照條件下的膚色檢測(cè)算法[J].計(jì)算機(jī)工程與應(yīng)用,2002,38(24):124-125.
[12]McKenna S K,Gong S,Raja Y.Modeling facial Colour and Identity With Gaussian Mixtures[J].Pattern Reeognition,1998,31(12):1883-1892.
[13]Yang M H,Ahuja N.Gaussian mixture model for human skin color and its application in image and video databases[J].Proceedings of the SPIE,1999,3656:458-466.
[14]王祥科,鄭志強(qiáng).Otsu多閾值快速分割算法及其在彩色圖像中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用,2006,26(6):14-15.
[15]劉玉進(jìn),蔡勇,武匯岳,等.一種膚色干擾下的變形手勢(shì)跟蹤方法[J].計(jì)算機(jī)工程與應(yīng)用,2009,45(35):164-168.
SHI Jiugen,CHEN Zhihui
School of Computer and Information,Hefei University of Technology,Hefei 230009,China
For general gesture segmentation method is more difficult to adapt to the complex light environment,this paper proposes a new method.Firstly,the method obtains Motion History Images(MHI)from a video sequence and segment motion regions from MHIs.Then it chooses the hand gesture region from these regions.In order to overcome the problem of excessive segmentation,it uses the outline of the current movement of the region to do ellipse fitting,so that it can obtain a more accurate hand gesture segmentation result.Experimental results show that the proposed method can segment hand gesture effectively and have a greater ability to adapt to different light environment compared with general method.
hand gesture segmentation;inter frame difference;motion segmentation;motion history image;ellipse fitting
針對(duì)當(dāng)前常用的手勢(shì)分割方法較難適應(yīng)復(fù)雜的光照環(huán)境,提出了一種新的方法。該方法先從視頻序列獲取運(yùn)動(dòng)歷史圖像(Motion History Image,MHI),對(duì)MHI進(jìn)行運(yùn)動(dòng)區(qū)域分割,然后在這些運(yùn)動(dòng)區(qū)域篩選出手勢(shì)區(qū)域。為了克服手勢(shì)區(qū)域分割偏大的問題,提出了利用該區(qū)域內(nèi)的當(dāng)前運(yùn)動(dòng)輪廓做橢圓擬合,進(jìn)而得到精度更高的手勢(shì)分割結(jié)果。實(shí)驗(yàn)結(jié)果表明,提出的方法能夠有效地分割出手勢(shì),并且和傳統(tǒng)方法相比較更能適應(yīng)不同的光照環(huán)境。
手勢(shì)分割;幀間差分;運(yùn)動(dòng)分割;運(yùn)動(dòng)歷史圖像;橢圓擬合
A
TP391
10.3778/j.issn.1002-8331.1212-0313
SHI Jiugen,CHEN Zhihui.Hand gesture segmentation based on MHI and ellipse fitting.Computer Engineering and Applications,2014,50(22):199-202.
國家自然科學(xué)基金(No.60873003)。
史久根(1963—),男,博士,副教授,研究方向?yàn)榍度胧较到y(tǒng)、計(jì)算機(jī)視覺;陳志輝(1987—),男,碩士研究生,研究方向?yàn)橛?jì)算機(jī)視覺。E-mail:e-zhihui@163.com
2012-12-26
2013-02-01
1002-8331(2014)22-0199-04
CNKI網(wǎng)絡(luò)優(yōu)先出版:2013-03-13,http://www.cnki.net/kcms/detail/11.2127.TP.20130313.0955.025.html
◎信號(hào)處理◎