沈先耿+譚志國+周歌+朱海剛
摘 要: 針對(duì)復(fù)雜環(huán)境下多目標(biāo)手勢區(qū)域分割難度較大、識(shí)別率較低的問題,提出一種基于深度圖像和稀疏表示的多手勢識(shí)別算法。該算法采用膚色和深度圖像分割相結(jié)合的方式對(duì)圖像中出現(xiàn)的多手勢進(jìn)行精確分割,再對(duì)分割后的手勢圖像進(jìn)行歸一化處理,最后通過稀疏表示的方法實(shí)現(xiàn)手勢識(shí)別。實(shí)驗(yàn)結(jié)果表明,該算法識(shí)別率較高、魯棒性較好,具有良好的識(shí)別性能。
關(guān)鍵詞: 深度圖像; 稀疏表示; 多目標(biāo)手勢; 手勢分割; 手勢識(shí)別
中圖分類號(hào): TN911.73?34; TP391.4 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)13?0044?04
Abstract: Since it is difficult to segment the multi?target gesture region in complex environment, and its recognition rate is low, a multi?gesture recognition algorithm based on depth image and sparse representation is proposed. The method combining skin color with depth image segmentation is adopted in the algorithm to segment the multi?objective gesture appeared in the image accurately. The normalization processing was performed for the segmented gesture image. The sparse representation method is used to recognize the gesture. The experimental results show that the algorithm has high recognition rate, strong robustness and superior recognition performance.
Keywords: depth image; sparse representation; multi?objective gesture; gesture segmentation; gesture recognition
0 引 言
目前,基于視覺的手勢識(shí)別[1]成為新一代人機(jī)交互的關(guān)鍵技術(shù),其中復(fù)雜背景下的手勢識(shí)別是目前研究的熱點(diǎn)和難點(diǎn)。復(fù)雜背景下的手勢識(shí)別一般采用膚色模型進(jìn)行手勢區(qū)域的分割,通過這種方法可以有效地區(qū)分出膚色和非膚色區(qū)域。但是該方法采集到的圖像一般都含有臉部和肢體的膚色區(qū)域,部分圖像還含有與膚色相近的背景顏色區(qū)域,這些都對(duì)手勢區(qū)域的提取與識(shí)別產(chǎn)生了較大影響。為了解決這個(gè)問題,文獻(xiàn)[2]提出一種基于深度圖像的手勢識(shí)別算法,但該算法只研究了單個(gè)手勢的識(shí)別問題,并且只識(shí)別了9種基本手勢。為此,本文提出一種基于深度圖像和稀疏表示的手勢識(shí)別算法,該算法利用膚色模型和深度圖像信息提取手勢特征區(qū)域的表現(xiàn)特征,而后利用稀疏表示的方法對(duì)多種手勢進(jìn)行分類識(shí)別。
1 多目標(biāo)手勢區(qū)域的檢測與分割
首先利用Kinect采集目標(biāo)手勢的RGB圖像和深度圖像,而后利用YCbCr色彩空間對(duì)采集的圖像進(jìn)行膚色檢測。本文采用YCbCr色彩空間中的藍(lán)色分量(Cb)和紅色分量(Cr),舍棄亮度分量(Y),從而減少光照對(duì)膚色分割的影響。文獻(xiàn)[3]指出膚色分割時(shí)在Cb?Cr空間應(yīng)采用固定閾值進(jìn)行膚色檢測,其取值范圍在像素區(qū)間內(nèi)滿足:。
通過閾值分割,可以得到多目標(biāo)手勢的膚色分割圖像,如圖1~圖3所示。
由于在人機(jī)交互過程中,人體的手勢動(dòng)作往往都置于身體之前,通過檢測手勢區(qū)域與背景區(qū)域的不同深度值可以分割出手勢。一般人體采用單手做手勢,另一只手自然下垂或者離身體較近。通過深度圖像分割,能夠忽略貼近身體的手部區(qū)域,并將身體前側(cè)手勢區(qū)域分割出來。由文獻(xiàn)[4]可知,正常人體的手掌面積大小約為100 cm2,因此在深度圖像中,手勢區(qū)域的像素較少。
本文采用深度直方圖來尋找手勢區(qū)域與復(fù)雜背景的分割閾值。原圖的深度圖像與深度直方圖如圖4和圖5所示。
由文獻(xiàn)[5]可知,手勢區(qū)域部位往往離攝像頭的距離較近,且手勢面積相對(duì)于背景區(qū)域面積較小,因此從深度值由小到大尋找像素點(diǎn)變化,將極小深度值和其旁邊的次小深度值作為分割閾值。由圖5可知,兩手勢區(qū)域大約在深度值1 000~1 300和1 800~2 000的范圍內(nèi)。對(duì)圖4的深度圖像分別進(jìn)行分割,分割后的手勢圖像如圖6和圖7所示。
由于深度圖像中存在噪點(diǎn)和部分未分割區(qū)域灰度值為0的黑色,根據(jù)經(jīng)驗(yàn),通過分割灰度值在5~250范圍內(nèi)的圖像并進(jìn)行二值化處理,得到的手勢圖像如圖8所示。
將兩手勢的分割圖像與膚色分割圖像進(jìn)行運(yùn)算,圖像中均為白點(diǎn)的區(qū)域判定為白點(diǎn),其余區(qū)域判定為黑點(diǎn),對(duì)得到的手勢圖像進(jìn)行腐蝕,去掉圖像中的噪點(diǎn),得到手勢圖像如圖9所示。
2 手勢歸一化
由于多目標(biāo)手勢距離攝像頭的距離不同,采集到的樣本圖像與手勢庫中的手勢圖像大小不一致,因此需要對(duì)圖9得到的手勢分割圖像進(jìn)行歸一化處理。
(1) 首先通過形態(tài)學(xué)中的腐蝕操作來獲取手勢區(qū)域的中心點(diǎn)。手勢區(qū)域中面積最大的部分為手掌區(qū)域,并且像素點(diǎn)最為集中,因此可以通過進(jìn)行連續(xù)性的腐蝕操作[6]來消除手勢區(qū)域的邊界點(diǎn),使得手勢區(qū)域逐漸縮小,最終得到兩手勢區(qū)域的中心點(diǎn)和如圖10所示。
(2) 計(jì)算兩手勢區(qū)域中心點(diǎn)到手勢邊緣區(qū)域的最大值和對(duì)手勢區(qū)域進(jìn)行正方形分割,分割的正方形區(qū)域中心為兩手勢區(qū)域的中心點(diǎn),正方形的邊長分別為和。假設(shè)手勢數(shù)據(jù)庫中已歸一化的手勢樣本圖像邊長為計(jì)算兩手勢樣本的縮放系數(shù)和對(duì)兩手勢圖像進(jìn)行縮放,得到的歸一化手勢圖像如圖11所示。
3 稀疏表示分類
本文采用稀疏表示進(jìn)行手勢的分類識(shí)別,該方法具有良好的魯棒性[7]。該方法的基本思想是將所有的手勢樣本圖像構(gòu)建成一個(gè)冗余字典,通過尋找待識(shí)別的手勢圖像樣本在冗余字典中的稀疏表示,將手勢識(shí)別問題轉(zhuǎn)換為稀疏表示問題,并運(yùn)用壓縮感知理論的方法進(jìn)行求解,得到手勢樣本的所屬類別。
假設(shè)是一個(gè)由手勢圖像得到的維向量,字典是一個(gè)由類訓(xùn)練樣本,每類訓(xùn)練樣本中含有個(gè)維手勢向量構(gòu)成的手勢字典,表示為:
式中:表示第類手勢圖像中的第個(gè)訓(xùn)練樣本,因此向量就可以用字典中的元素進(jìn)行線性表示,可得:
式中:為的表示系數(shù)。
若字典中的原子能夠張成維歐式距離空間那么字典就是完備的。當(dāng)時(shí),如果中的原子是線性相關(guān)的,那么就是冗余的。假如集合同時(shí)滿足完備和冗余的條件,那么集合就是超完備的。
一般采用范數(shù)表示這種稀疏性,滿足以下表達(dá)式:
式中:是由組成的向量,表示中非零系數(shù)的個(gè)數(shù)。
由于公式是一個(gè)NP難問題,無法直接進(jìn)行求解,文獻(xiàn)[8]證明該公式的范數(shù)與范數(shù)是等價(jià)的,因此可以將范數(shù)轉(zhuǎn)變成最小化范數(shù)問題,即:
通過基追蹤算法求解公式的范數(shù)解,得到待測手勢樣本的稀疏表示系數(shù)再計(jì)算每類訓(xùn)練樣本的重構(gòu)圖像與待測樣本的殘差:
通常情況下,在待測樣本的稀疏表示系數(shù)中,除了其所屬類別的系數(shù)為非零外,其余系數(shù)均為零。因此,通過尋找待測樣本與每類訓(xùn)練樣本重構(gòu)圖像間殘差的最小值就可以判定待測手勢樣本的所屬類別為殘差最小值對(duì)應(yīng)的所屬類別。
4 算法仿真及結(jié)果分析
由于目前還沒有深度手勢圖像數(shù)據(jù)庫,因此本文采用Thomas Moeslund手勢數(shù)據(jù)庫作為本文的實(shí)驗(yàn)數(shù)據(jù)庫。該手勢數(shù)據(jù)庫中含有25個(gè)基本手勢,其中19種手勢含有100張樣本圖像,5種手勢含有40張樣本圖像,1種手勢含有60張樣本圖像,圖像大小為。通過對(duì)Thomas Moeslund手勢數(shù)據(jù)庫中的樣本圖像進(jìn)行灰度閾值分割和手勢歸一化,得到二值化的手勢樣本數(shù)據(jù)庫,圖像大小為,如圖12所示。
本次實(shí)驗(yàn)選取手勢樣本數(shù)據(jù)庫中的19種手勢,每種手勢選取100張圖像作為訓(xùn)練樣本。通過Kinect獲取19種手勢待測樣本的深度圖像及其對(duì)應(yīng)的RGB圖像,每種手勢各采集50張深度圖像及其對(duì)應(yīng)的RGB圖像。而后隨機(jī)選取10種手勢進(jìn)行實(shí)驗(yàn),每種手勢分別進(jìn)行50次,共計(jì)500次測試。為了增加實(shí)驗(yàn)對(duì)比性,本次實(shí)驗(yàn)加入支持向量機(jī)的方法(SVM)進(jìn)行了相同的測試,實(shí)驗(yàn)結(jié)果如表1所示。
從兩種算法的識(shí)別率中可以看出,4種手勢的識(shí)別率為100%,4種手勢的識(shí)別率為98%,2種手勢的識(shí)別率在98%以下。由于非特定人物對(duì)手勢的表達(dá)有所差異,因此會(huì)造成手勢識(shí)別過程中產(chǎn)生錯(cuò)誤。但從整體上看,手勢的平均識(shí)別率為98.2%,而支持向量機(jī)的平均識(shí)別率為88.8%,證明了本文算法的有效性。
從兩種算法的運(yùn)行時(shí)間中可以看出,本文算法的平均運(yùn)行時(shí)間為0.032 4 s,由于前期需要對(duì)待測樣本的深度圖像和RGB圖像進(jìn)行手勢分割和歸一化,因而延長了算法的運(yùn)行時(shí)間。但后期采用稀疏表示進(jìn)行分類識(shí)別時(shí),采用的是手勢分割圖像,圖像大小為148×148。與原圖相比,較大幅度地減小了需要處理的樣本數(shù)據(jù)量,在一定程度上減少了算法的運(yùn)行時(shí)間和對(duì)系統(tǒng)硬件的需求。經(jīng)典的SVM算法的平均運(yùn)行時(shí)間為0.053 2 s,本文算法的運(yùn)行時(shí)間為SVM算法的60.9%,證明了本文算法的實(shí)時(shí)性。
5 結(jié) 語
本文根據(jù)復(fù)雜背景下的多目標(biāo)手勢識(shí)別存在的難點(diǎn),綜合利用人的膚色信息和深度圖像信息進(jìn)行手勢分割,解決了多目標(biāo)手勢在復(fù)雜背景下的手勢分割難度較大的問題,而后利用歸一化后的訓(xùn)練樣本圖像構(gòu)造冗余字典,采用稀疏表示的方法進(jìn)行分類識(shí)別,提升了本文算法的運(yùn)行效率。通過仿真實(shí)驗(yàn)可以看出,本文算法的識(shí)別率較高,實(shí)時(shí)性較好,對(duì)系統(tǒng)的硬件需求較低,具有良好的識(shí)別性能。
參考文獻(xiàn)
[1] 陳皓,路海明.基于深度圖像的手勢識(shí)別綜述[J].內(nèi)蒙古大學(xué)學(xué)報(bào),2014,45(1):105?111.
[2] 曹雛清,李瑞峰,趙立軍.基于深度圖像技術(shù)的手勢識(shí)別方法[J].計(jì)算機(jī)工程,2012,38(8):16?21.
[3] 張勤.基于稀疏表示的手勢識(shí)別研究[D].西安:西北大學(xué),2013.
[4] 皮志明.結(jié)合深度信息的圖像分割算法研究[D].合肥:中國科學(xué)技術(shù)大學(xué),2013.
[5] 王松林.基于Kinect的手勢識(shí)別與機(jī)器人控制技術(shù)研究[D].北京:北京交通大學(xué),2014.
[6] 藍(lán)章禮,李益才.數(shù)字圖像處理與圖像通信[M].北京:清華大學(xué)出版社,2009.
[7] WRIGHT J, GANESH A, YANG A, et al. Robust face recognition via sparse representation [J]. IEEE transactions on pattern analysis and machine intelligence, 2009, 31(2): 210?227.
[8] 謝志鵬.迭代式正交匹配追蹤及稀疏解[J].微電子學(xué)與計(jì)算機(jī),2009,26(10):53?56.