袁 敏,姚 恒,劉 牮
?
結(jié)合三幀差分和膚色橢圓模型的動態(tài)手勢分割
袁 敏,姚 恒,劉 牮
( 上海理工大學(xué) 光電信息與計算機(jī)工程學(xué)院,上海 200093 )
針對手勢識別系統(tǒng)中的手勢分割部分提出了一種改進(jìn)的結(jié)合三幀差分法和膚色橢圓邊界模型的動態(tài)手勢分割方法。運(yùn)用三幀差分法提取動態(tài)手勢的運(yùn)動特征,初步確定手勢所在區(qū)域,然后運(yùn)用膚色橢圓邊界模型對該區(qū)域進(jìn)行膚色判別從而確定目標(biāo)。通過提取雙特征,可有效解決復(fù)雜背景下大面積膚色背景被誤檢的問題。通過合理設(shè)置運(yùn)動檢測過程中的閾值,可有效去除運(yùn)動幅度較小的人臉和裸露手臂部分。同時針對三幀差分法不能檢測靜態(tài)手勢進(jìn)行了改進(jìn),使提出算法對視頻流中手勢的短暫停留具有極強(qiáng)的魯棒性。實驗結(jié)果表明,提出算法能準(zhǔn)確高效的檢測出動態(tài)手勢,適用于動態(tài)手勢識別等實時系統(tǒng)中。
動態(tài)手勢分割;三幀差分法;膚色橢圓邊界模型;手勢識別系統(tǒng)
0 引 言
隨著計算機(jī)的普及,人與計算機(jī)之間的信息交互技術(shù)備受關(guān)注。手勢識別是人機(jī)交互技術(shù)中占據(jù)重要地位的研究課題。手勢識別可簡單概括為三個部分:分割、跟蹤、識別[1]。手勢分割作為第一步工作,為后續(xù)兩個部分提供操作對象,分割的效果直接決定著整個工程的成敗,是手勢識別的關(guān)鍵所在。手勢分割即提取手勢特征從而將其與周圍環(huán)境區(qū)分出來。手勢特征包括膚色、輪廓、指尖、運(yùn)動和紋理等。由于光照、形變和復(fù)雜背景環(huán)境等因素的影響,手勢分割方法的精確度和穩(wěn)定性受到極大挑戰(zhàn)。圍繞這一問題,研究人員展開了大量的研究工作,提出了多類手勢分割方法。閾值模型[2]給定各參數(shù)一個閾值,在范圍內(nèi)判定為膚色目標(biāo)。邊界模型對膚色分布進(jìn)行建模從而檢測膚色,如橢圓邊界模型[3]和高斯模型[4]等。此兩種方法分割時間復(fù)雜度最優(yōu),但分割準(zhǔn)確度非常低,對背景要求較高?;贛eanshift算法的分割方法[5],需預(yù)先獲得分割目標(biāo)顏色直方圖,且隨搜索迭代次數(shù)增加而分割時間大大增加?;谟?xùn)練分類器的方法[6-7],需要大量的正、負(fù)樣本,同時訓(xùn)練分類器耗時長。采用Kinect深度攝像頭獲得RGB-D圖像,利用深度信息分割的方法[8],該方法對攝像頭要求較高。
本文提出一種改進(jìn)的結(jié)合三幀差分法和膚色橢圓邊界模型的動態(tài)手勢分割方法,用三幀差分法提取手勢運(yùn)動特征,初步確定目標(biāo)區(qū)域,再利用膚色橢圓邊界模型對目標(biāo)區(qū)域進(jìn)行膚色檢測,最終確定目標(biāo)手勢。實驗證明,該方法具有極高的準(zhǔn)確率和接近實時的分割效率。
1 算法思路
動態(tài)手勢最明顯的兩個特征分別是運(yùn)動和膚色。分別提取運(yùn)動和膚色特征,層次遞進(jìn)確定目標(biāo)是本文的基本思想。在文中,對特征提取算法的選擇、算法時間復(fù)雜度、視頻流中手勢短暫停留問題,人臉和手臂等干擾膚色塊的去除問題進(jìn)行了重點研究并提出相應(yīng)改進(jìn)算法。
1.1 提取運(yùn)動特征
幀間差分法以其計算復(fù)雜度低、時間利用率高等優(yōu)點成為運(yùn)動特征提取常用算法之一。三幀差分法[9]是在常規(guī)的兩幀差分法的基礎(chǔ)上提出的一種改進(jìn)算法,該算法在相鄰三幀之間進(jìn)行差分,再將差分結(jié)果進(jìn)行按位邏輯與操作,克服了兩幀差分的“雙影”現(xiàn)象,對差分后出現(xiàn)的“空洞”現(xiàn)象有一定程度的改善,同時比兩幀差分法對慢速運(yùn)動的檢測具有更強(qiáng)的魯棒性。三幀差分法流程圖如圖1所示。
圖1 三幀差分法流程圖
首先從視頻流中取第-1、和1連續(xù)三幀圖像,分別記作I-1、I和I+1。將彩色圖像轉(zhuǎn)為灰度圖像后,對相鄰兩幀分別做逐像素減法,結(jié)果取絕對值后與設(shè)定閾值比較,大于閾值置為1,小于置為0。依此方法,分別得到I-1與I的差分圖像D,和I與I+1的差分圖像D+1。對D和D+1做形態(tài)學(xué)處理后進(jìn)行按位與運(yùn)算得到目標(biāo)輪廓。算法示意簡圖如圖2所示。
圖2 三幀差分法示意簡圖
1.2 提取膚色特征
膚色橢圓邊界模型是基于YCrCb色彩空間的膚色分割模型。基于此色彩空間的膚色模型包括:閾值邊界模型、高斯模型和膚色橢圓邊界模型等。閾值邊界模型中,滿足133<<173且77<<127的待判像素即被認(rèn)為是膚色,漏檢和誤檢的可能性較大。高斯模型和膚色橢圓邊界模型具有相對精確的膚色判斷依據(jù),然而后者比前者具有更高的分割精度和更低的時間復(fù)雜度[10]。因此本文選擇膚色橢圓邊界模型進(jìn)行膚色檢測。經(jīng)大量的統(tǒng)計數(shù)據(jù)發(fā)現(xiàn),膚色在CbCr子空間上的投影近似一個橢圓[11],只需計算出橢圓相關(guān)參數(shù),擬合該橢圓,就可以成為膚色分割的重要依據(jù)。本文選取Hsu等人提出的經(jīng)典橢圓膚色模型[12],如式(1):
其中:
Hsu等人經(jīng)過大量統(tǒng)計實驗,根據(jù)膚色點在CbCr子空間的聚類特性計算得出:C=109.38,C=152.02,=2.53 rad,eC=1.60,eC=2.41,=25.39,=14.03。當(dāng)待判定膚色點的顏色分量、值符合該模型時,則判定該點為膚色點。
1.3 視頻流中手勢短暫停留丟失問題
在視頻流中,手勢可能在某一位置作短暫停留,此時三幀差分法由于檢測不到運(yùn)動而不能準(zhǔn)確的對該手勢進(jìn)行分割,從而在手勢跟蹤時丟失目標(biāo)。
為了解決這一問題,本文對算法進(jìn)行以下改進(jìn)。經(jīng)過分析,造成目標(biāo)色塊減少的原因有以下三種可能,手位移出攝像頭視野范圍、手短暫停留和手被遮擋。記上一次算法分割得目標(biāo)色塊數(shù)為N-1,初始值置為0,記當(dāng)前幀檢測到目標(biāo)色塊數(shù)為N。當(dāng)N小于N-1時,即至少有一個目標(biāo)色塊丟失,此時對當(dāng)前幀膚色檢測后結(jié)果與上一幀分割結(jié)果做按位或操作,最大可能保存膚色塊可能存在的區(qū)域,再對或運(yùn)算后的區(qū)域做二次膚色檢測,所得結(jié)果作為當(dāng)前幀的最終結(jié)果。
1.4 人臉及手臂等干擾色塊的去除問題
當(dāng)人體處于攝像頭視野中時,手臂、人臉等由于微小的運(yùn)動被誤檢為目標(biāo)色塊而被分割出來,對后續(xù)的跟蹤和識別造成干擾。三幀差分法公式表示為
閾值表征為運(yùn)動檢測的靈敏度,通過設(shè)置合理的,允許人體微小的運(yùn)動而不被誤檢。越小,算法對運(yùn)動越敏感,背景中的物體會因為微小的震動而被誤檢,這不符合本文目的。反之越大,手勢運(yùn)動幅度較小時又會被漏檢,因此,選定一個合理的閾值是本算法的關(guān)鍵。本文通過選取不同的閾值進(jìn)行大量對比試驗,從中選取最優(yōu)閾值取值,具體討論見2.3。
1.5 算法流程
三幀差分法可高效準(zhǔn)確的分割運(yùn)動目標(biāo),從而縮小分割范圍到運(yùn)動目標(biāo)區(qū)域,膚色橢圓邊界模型對運(yùn)動區(qū)域進(jìn)行膚色檢測,最終確定具有運(yùn)動和膚色雙重特征的動態(tài)手勢。圖3為算法運(yùn)行拆分圖。
圖3 算法運(yùn)行拆分圖
以圖3(a)運(yùn)動圖像為例,首先采用三幀差分法對連續(xù)三幀圖片進(jìn)行處理,得到運(yùn)動目標(biāo)的輪廓,具體計算步驟如1.1節(jié)所述。此時輪廓不連續(xù)且內(nèi)部出現(xiàn)空洞,如圖3(b)所示。對輪廓采用多次膨脹操作填充輪廓,填充區(qū)域即為運(yùn)動區(qū)域,運(yùn)動區(qū)域如圖3(c)所示。然后,運(yùn)用膚色橢圓邊界模型對運(yùn)動區(qū)域所確定的原圖像對應(yīng)區(qū)域做逐像素膚色判別從而得到目標(biāo)色塊,膚色塊如圖3(d)所示。采用1.3所述方法判斷是否存在目標(biāo)色塊丟失問題,如果不存在,則直接輸出結(jié)果。否則,對當(dāng)前幀膚色檢測后結(jié)果與上一幀分割結(jié)果做按位或操作,最大可能保存膚色塊可能存在的區(qū)域,再對或運(yùn)算后的區(qū)域做二次膚色檢測,所得結(jié)果作為當(dāng)前幀分割的最終結(jié)果,圖3(e)所示。手勢分割算法流程如圖4所示。
圖4 手勢分割算法流程圖
2 實驗結(jié)果及數(shù)據(jù)分析
2.1 分割準(zhǔn)確度
為了驗證本文提出的改進(jìn)的動態(tài)手勢分割方法,分別對閾值模型[2],橢圓邊界模型[3],基于Meanshift算法的分割方法[5],訓(xùn)練類Haar分類器的方法[6]和提出方法進(jìn)行對比實驗,圖5(a)為閾值模型分割效果圖,圖5(b)為橢圓邊界模型分割效果圖,此兩種方法簡單提取膚色特征,要求背景單一無大面積類膚色塊,本實驗背景中門、窗等復(fù)雜背景,均被錯誤分割為目標(biāo)。圖5(c)為基于Meanshift算法的分割效果圖,圖5(d)為訓(xùn)練類Haar分類器分割效果圖,圖5(e)為本文提出方法分割效果圖,此三種方法均能準(zhǔn)確的對動態(tài)手勢進(jìn)行分割。
2.2 分割時間
算法程序在VS2010和OpenCV2.3下開發(fā),性能測試在Intel Core(TM)2 Duo CPU T6570@2.10 GHz,64位windows8.1系統(tǒng),4G內(nèi)存的計算機(jī)上運(yùn)行。實驗2.1中各種方法分割時間如表1,每種方法分別取7次完整分割,最后求取平均值作柱狀圖如圖6。其中閾值模型和橢圓邊界模型分割時間最優(yōu)?;贛eanshift算法的分割方法由于分割時間隨搜索迭代次數(shù)的增加而增加,分割時間最長,為52 ms。訓(xùn)練Haar-like分類器分割時間為32 ms,但其離線訓(xùn)練時間較長,本文利用3 000個正樣本,5 000個負(fù)樣本訓(xùn)練Haar-like分類器,離線訓(xùn)練時長約為6 h。提出方法分割時間為27 ms,在保證準(zhǔn)確度的情況下,分割時間最優(yōu)。
表1 五種分割算法的分割時間對比
圖6 五種分割算法分割平均時間對比
2.3 閾值選取實驗
實驗分別選取為1,2,3,..,19,20進(jìn)行實驗,視頻幀率為30 f/s。其中設(shè)為1和7之間分割效果相差不大,均分割出人臉;設(shè)置為14和20之間分割手勢失敗或部分分割;設(shè)置約為10,效果最佳。圖7為不同閾值下人體處于攝像頭視野分割效果對比,其中7(a)為取5時分割效果,7(b)為取10時分割結(jié)果。通過對比發(fā)現(xiàn),取5時出現(xiàn)大面積人臉誤檢,取10時可以較精確進(jìn)行手勢分割。
圖7 人體處于攝像頭視野分割效果圖
3 結(jié) 論
本文在傳統(tǒng)膚色分割方法的基礎(chǔ)上,提出的改進(jìn)三幀差分法結(jié)合膚色橢圓邊界模型的動態(tài)手勢分割方法能有效的在視頻流中進(jìn)行動態(tài)手勢分割。算法對復(fù)雜背景下分割動態(tài)手勢具有較強(qiáng)的魯棒性,因為選擇的特征提取算法均為同類算法中時間復(fù)雜度最低的,所以文中提出方法分割耗時少,實時性高。實驗結(jié)果表明,本文提出的方法能準(zhǔn)確高效的檢測出動態(tài)手勢,適用于動態(tài)手勢識別等實時系統(tǒng)中。
[1] Rautaray S S,Agrawal A. Vision based hand gesture recognition for human computer interaction:a survey [J]. Artificial Intelligence Review(S0269-2821),2015,43(1):1-54.
[2] Priyal S P,Bora P K. A robust static hand gesture recognition system using geometry based normalizations and Krawtchouk moments [J]. Pattern Recognition(S0031-3203),2013,46(8):2202–2219.
[3] GAO Jianpo. An Elliptical Model Based on KL Transform for Skin Color Detection [J]. Journal of Electronics & Information Technology(S1009-5896),2007,29(7):1739-1743.
[4] Greggio N,Bernardino A,Laschi C,. Fast estimation of Gaussian mixture models for image segmentation [J]. Machine Vision & Applications(S0932-8092),2012,23(4):773-789.
[5] Suba?i? M,Lon?ari? S,He?i A. Segmentation and labeling of face images for electronic documents [J]. Expert Systems with Applications(S0957-4174),2012,39(5):5134–5143.
[6] Viola P,Jones M J. Robust Real-Time Face Detection [J]. International Journal of Computer Vision(S0920-5691),2004,57(2):137-154.
[7] 文學(xué)志,方巍,鄭鈺輝. 一種基于類Haar特征和改進(jìn)AdaBoost分類器的車輛識別算法 [J]. 電子學(xué)報,2011,39(5):1121-1126.
WEN Xuezhi,F(xiàn)ANG Wei,ZHENG Yuhui. An Algorithm Based on Haar-Like Features and Improved AdaBoost Classifier for Vehicle Recognition [J]. Acta Electronica Sinica(S0372-2112),2011,39(5):1121-1126.
[8] REN Zhou,YUAN Junsong,MENG Jingjing,. Robust Part-Based Hand Gesture Recognition Using Kinect Sensor [J]. IEEE Transactions on Multimedia(S1520-9210),2013,15(5):1110-1120.
[9] YIN Hongpeng,CHAI Yi,YANG Xiaoyan,. Fast-moving target tracking based on mean shift and frame-difference methods [J]. Journal of Systems Engineering and Electronics(S1004-4132),2011,22(4):587-592.
[10] Elgammal A,Muang C,Hu D. Skin Detection - a Short Tutorial [C]// Encyclopedia of Biometrics,New York,America,July 20,2009:1218-1224.
[11] Hsu R L,Abdel-Mottaleb M,Jain A K. Face Detection in Color Images [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence(S0162-8828),2002,24(5):696-706.
[12] YUAN Yao,YUN Fu. Contour Model-Based Hand-Gesture Recognition Using the Kinect Sensor [J]. IEEE Transactions on Circuits & Systems for Video Technology(S1051-8215),2014,24(11):1935-1944.
Dynamic Gesture Segmentation Combining Three-frame Difference Method and Skin-color Elliptic Boundary Model
YUAN Min,YAO Heng,LIU Jian
( School of Optical-Electrical and Computer Engineering, University of Shanghai for Science and Technology, Shanghai 200093, China )
A novel dynamic gesture segmentation method is proposed by combining three-frame difference method and skin-color elliptic boundary model. Firstly, the possible dynamic gesture region is determined by extracting the target property of movement via three-frame difference method, and then the target area is gotten by skin-color detection in the possible region using skin-color elliptic boundary model. By extracting double features of dynamic hand gestures, the proposed method can effectively solve the problem that the large area of skin-color background was mistakenly identified as hands. The area of face and bare arms are removed by setting a reasonable threshold. Furthermore, for overcoming the shortcoming of traditional three-frame difference method that cannot detect static gestures, the proposed method has been improved and shown robustness on relative static gestures. The experimental results demonstrate the efficiency for dynamic hand gestures segmentation and the proposed method is suitable for real-time systems such as dynamic gesture recognition.
dynamic gesture segmentation; three-frame difference; skin-color elliptic boundary model; gesture recognition systems
1003-501X(2016)06-0051-06
TP274.2
A
10.3969/j.issn.1003-501X.2016.06.009
2015-06-29;
2015-11-14
國家自然科學(xué)基金(61303203);滬江基金(B14002/D14002);上海高校青年教師培養(yǎng)計劃資助
袁敏(1992-),男(漢族),安徽安慶人。碩士研究生,主要研究圖像處理與計算機(jī)視覺。E-mail: yuanmin_2013@126.com。