石曼銀
(寧德師范學(xué)院計(jì)算機(jī)系,福建寧德352100)
基于Kinect深度圖像信息的手勢(shì)軌跡識(shí)別及應(yīng)用
石曼銀
(寧德師范學(xué)院計(jì)算機(jī)系,福建寧德352100)
本文提出了一種新型的利用Kinect獲取深度圖像并進(jìn)行手勢(shì)軌跡識(shí)別的應(yīng)用方法,該方法稱為HMM(隱馬爾可夫)手勢(shì)軌跡識(shí)別方法,具體操作步驟為:首先利用Kinect傳感器獲取深度圖像,然后通過OpenN I的手勢(shì)生成器的手勢(shì)分析模塊獲取完整的手勢(shì)信息,對(duì)手部進(jìn)行形態(tài)學(xué)處理,識(shí)別并跟蹤手勢(shì),提取手勢(shì)軌跡,最后運(yùn)用HMM手勢(shì)軌跡識(shí)別方法進(jìn)行識(shí)別.實(shí)踐證明,該方法可快速有效地實(shí)現(xiàn)手勢(shì)軌跡的識(shí)別.
Kinect;手勢(shì)軌跡識(shí)別;OpenN I;HMM;應(yīng)用
手勢(shì)不失為直觀而自然的人機(jī)交互模式,近年來,手勢(shì)識(shí)別在智能手機(jī)、虛擬鍵盤、智能互聯(lián)網(wǎng)電視、體感游戲、機(jī)器人控制系統(tǒng)等領(lǐng)域得到了廣泛地運(yùn)用,這也是人機(jī)交互中面向社會(huì)大眾面最廣的一種識(shí)別方法.例如三星UA55F8000AJXXZ智能電視采用智能互動(dòng)技術(shù),讓消費(fèi)者的操作方式變得更加直觀和簡便.該智能電視可以識(shí)別更自然的手勢(shì)動(dòng)作,用戶還可以用兩手操作來實(shí)現(xiàn)圖片的放大和縮小,以及旋轉(zhuǎn)圖片,也可以輕松揮手在不同的智能應(yīng)用中心界面之間隨意切換[1];再如業(yè)界近年來研究出的膚色信息手勢(shì)識(shí)別法,也就是該技術(shù)可利用人體的膚色信息進(jìn)行手部圖像的獲取,并對(duì)采集的手勢(shì)信息進(jìn)行識(shí)別處理,但該方法由于易受與膚色較近的其他顏色信號(hào)的干擾;再如HOG(梯度直方圖手勢(shì)識(shí)別法)解決了手勢(shì)旋轉(zhuǎn)與光照條件對(duì)于手勢(shì)信息提取時(shí)的影響,但由于該方法計(jì)算量繁復(fù),而且只能對(duì)數(shù)據(jù)庫中事先存有的手勢(shì)進(jìn)行識(shí)別[2].
本文作者結(jié)合自身工作經(jīng)驗(yàn)并查閱相關(guān)資料的基礎(chǔ)上,采用微軟公司的Kinect感應(yīng)處理器采集深度圖像數(shù)據(jù),并對(duì)圖像進(jìn)行識(shí)別與分割處理,規(guī)避了背景、光照等外界環(huán)境對(duì)圖像采集的影響,大大提高了手勢(shì)識(shí)別軌跡的穩(wěn)定性與系統(tǒng)的健壯性.作者基于Kinect獲取了深度圖像信息后,再使用OpenNI的手部分析系統(tǒng)獲取手心部位,對(duì)手心點(diǎn)進(jìn)行去抖動(dòng)處理以獲得開始點(diǎn)及結(jié)束點(diǎn),追蹤手勢(shì)軌跡,并采用HMM系統(tǒng)對(duì)所追蹤到的手勢(shì)軌跡進(jìn)行訓(xùn)練與識(shí)別,本文通過五個(gè)不同的手勢(shì)的旋轉(zhuǎn)檢驗(yàn)了人機(jī)交互的運(yùn)用效果.
該方式的作用機(jī)制是將手部圖像與背景圖像進(jìn)行分離,而OpenNI為其提供的API接口可連接硬件,可與此連接的硬件包括Audio Device、3D Sensor、IR Camera、RGB Camera四種,另外,OpenNI的中間層空間主要用于追蹤和識(shí)別手勢(shì),其中間層對(duì)于以下幾種中間件進(jìn)行了定義:(1)手部分析:只要為追蹤手部位置;(2)全身分析:Kinect獲取到深度圖像信息后,會(huì)對(duì)周身部位的信息做出顯示,如位置、角度等細(xì)節(jié)問題;(3)背景分析:對(duì)場(chǎng)景內(nèi)的信息進(jìn)行分析,包括前景分離、圖像背景、坐標(biāo)軸、場(chǎng)景內(nèi)的所有物體等[3],手心位置的檢測(cè)主要是通過Open CV與Open NI相結(jié)合的方法,手勢(shì)的檢測(cè)為事先議定好的手勢(shì),如擺手,實(shí)驗(yàn)時(shí)讓手部位于身體的前方,五指打開,指尖朝上并正對(duì)Kinect感應(yīng)器,距離維持于25-100cm之間,手部擺動(dòng)的速度與幅度要維持于勻速適中的狀態(tài),直至檢測(cè)到手部清晰的圖像,程序接收到布爾訊號(hào)并追蹤手部的位置,對(duì)手心點(diǎn)進(jìn)行去抖動(dòng)處理,對(duì)前幀檢測(cè)的手心圓圈的數(shù)據(jù)進(jìn)行保存,再將當(dāng)前幀的數(shù)據(jù)與前幀進(jìn)行對(duì)比,本次測(cè)驗(yàn)的閾值設(shè)定為2.4mm,若兩組間數(shù)據(jù)的差異在此范圍內(nèi)則可繼續(xù)顯示前幀的手心圓圈,反之,若差異超過閾值范圍以外則需重新繪制手心圓圈的位置,這樣可避免手心的細(xì)微抖動(dòng)[4].在對(duì)圖像繪制軌跡時(shí)可能會(huì)出現(xiàn)無效幀或無實(shí)際意義的幀序列,這中情況多發(fā)生于手勢(shì)輸入時(shí)或手勢(shì)輸入結(jié)束時(shí),中間幀基本有效,無效幀對(duì)于手勢(shì)特征的采集而言無實(shí)際意義,且會(huì)增加運(yùn)算量,降低系統(tǒng)的分辨力,本文對(duì)手勢(shì)的開始點(diǎn)與結(jié)束點(diǎn)提出了新的判斷,通過實(shí)驗(yàn)證明,當(dāng)對(duì)手勢(shì)進(jìn)行輸入時(shí),系統(tǒng)檢測(cè)到手心后即開始追蹤手心點(diǎn),當(dāng)檢測(cè)時(shí)檢測(cè)到連續(xù)波動(dòng)5幀的情況且范圍較小時(shí),則提示我們當(dāng)前手心點(diǎn)處于靜止點(diǎn),可作為有效的手勢(shì)軌跡輸入的起始點(diǎn),第二次則為輸入結(jié)束.
2.1 HMM隱馬爾可夫模型的概述
隱馬爾可夫模型(HMM)是一種用于統(tǒng)計(jì)分析的模型,對(duì)于信號(hào)的處理具有重要的意義.
現(xiàn)已成功地用于語音辨識(shí),行為識(shí)別,文字辨識(shí)以及故障排查等領(lǐng)域.HMM模型包括3個(gè)概率矩陣以及2個(gè)狀態(tài)集合,HMM模型的表達(dá)方法為:
2.1.1 隱含狀態(tài)S:例如S1、S2、S3等等,這些狀態(tài)符合隱馬爾可夫的性質(zhì),是隱馬爾可夫模型中實(shí)際中所隱含的狀態(tài),一般情況下,這些狀態(tài)無法通過直接觀測(cè)而得到.
2.1.2. 可觀測(cè)狀態(tài)O:例如O1、O2、O3,在HMM模型中與上述的隱含狀態(tài)有關(guān)聯(lián),不同的是其可通過直接觀測(cè)而得到,其可觀測(cè)狀態(tài)的數(shù)目不一定和隱含狀態(tài)的數(shù)目一致.
2.1.3 初始狀態(tài)概率矩陣π:例如t=1時(shí),P(S1)=p1、P(S2) =P2、P(S3)=p3,則初始狀態(tài)概率矩陣π=[p1,p2,p3],表示隱含狀態(tài)在初始時(shí)刻t=1的概率矩陣.
2.1.4 隱含狀態(tài)轉(zhuǎn)移概率矩陣A:描述了HMM模型中各個(gè)狀態(tài)之間的轉(zhuǎn)移概率,其中Aij=P(Sj|Si),1≤i,j≤N.表示在t時(shí)刻、狀態(tài)為Si的條件下,在t+1時(shí)刻狀態(tài)是Sj的概率.
2.1.5 觀測(cè)狀態(tài)轉(zhuǎn)移概率矩陣B:也叫Confusion Matrix,令N代表隱含狀態(tài)數(shù)目,M代表可觀測(cè)狀態(tài)數(shù)目,則Bij=P (Oi|Sj),1≤i≤M,1≤j≤N,表示在t時(shí)刻、隱含狀態(tài)是Sj條件下,觀察狀態(tài)為Oi的概率.
一般情況下用λ=(A,B,π)三元組來表示隱馬爾可夫模型,隱馬爾可夫模型實(shí)際上是標(biāo)準(zhǔn)馬爾可夫的拓展[5],其較標(biāo)準(zhǔn)馬爾可夫增加了可觀測(cè)狀態(tài)集合及可觀測(cè)狀態(tài)集合與隱含狀態(tài)間的概率關(guān)系.
動(dòng)態(tài)手勢(shì)不同于靜態(tài)手勢(shì)僅僅是在空間形態(tài)及位置上的變化,動(dòng)態(tài)手勢(shì)涉及到空間與時(shí)間上的變化,手勢(shì)軌跡采集的基本特征是速度、角度與位置,即使是同一個(gè)手勢(shì),若速度不同也會(huì)造成極大的差異[6],手勢(shì)識(shí)別的顯著特點(diǎn)為手勢(shì)軌跡曲線上的坐標(biāo)位置的變化,考慮到即使是相同的手勢(shì),其坐標(biāo)點(diǎn)也會(huì)有變化,在實(shí)際運(yùn)用中建議采用手勢(shì)軌跡的不同時(shí)刻的切線角度的變化為手勢(shì)軌跡的特征[7].
4.1 前文提及過本文通過五個(gè)不同的手勢(shì)的旋轉(zhuǎn)檢驗(yàn)了人機(jī)交互的運(yùn)用效果,分別為手部向左旋轉(zhuǎn)、向右旋轉(zhuǎn)、向上運(yùn)動(dòng)、向下運(yùn)動(dòng)及畫圈五個(gè)手勢(shì).HMM手勢(shì)識(shí)別實(shí)驗(yàn)采用由左至右的有序序列,連續(xù)多幀停留在一起,如下圖所示,在建模初期每條軌跡應(yīng)對(duì)應(yīng)一個(gè)HMM,模型狀態(tài)數(shù)的選擇應(yīng)盡量增加,因?yàn)闋顟B(tài)數(shù)越多,HMM模型越能真實(shí)地反應(yīng)手勢(shì)軌跡,但是這也在一定程度上加大了計(jì)算量[8].
如圖,由左至右無跳轉(zhuǎn)HMM模型
4.2 本文分別采集了10個(gè)手勢(shì)軌跡,每人將每種手勢(shì)重復(fù)兩次,選取其中50個(gè)手勢(shì)軌跡作為檢測(cè)樣本,下表是5種手勢(shì)的識(shí)別率,可以看出HMM具有較高的識(shí)別率.
手勢(shì)軌跡向左向右向上向下畫圈準(zhǔn)確次數(shù)48 49 49 50 49識(shí)別率96%98%98%100%98%
4.3 系統(tǒng)健壯性檢測(cè)
未檢驗(yàn)本系統(tǒng)在不同光照下的系統(tǒng)健壯性,實(shí)驗(yàn)分別于不同光照環(huán)境下的指令分別做了50次試驗(yàn),下表為在光照環(huán)境下及黑暗條件下各做50次的試驗(yàn)后的各自被正確識(shí)別的次數(shù)及準(zhǔn)確率,實(shí)驗(yàn)結(jié)果表明,本文研究的HMM手勢(shì)軌跡識(shí)別系統(tǒng)在應(yīng)對(duì)光照變化及外界環(huán)境復(fù)雜,干擾較強(qiáng)的條件下的系統(tǒng)健壯性較高.
指令光照環(huán)境黑暗環(huán)境正確次數(shù)準(zhǔn)確率%正確次數(shù)準(zhǔn)確率%前進(jìn)48 96%47 94%后退48 96%47 94%左轉(zhuǎn)49 98%47 94%右轉(zhuǎn)48 96%47 94%停止49 98%48 96%
本文通過深度圖像信息通過視頻流分割手勢(shì)并檢測(cè)到手心點(diǎn),有效地避開了光照及復(fù)雜外界條件的干擾,準(zhǔn)確地提取到了手勢(shì)軌跡的特征[9],適時(shí)引入HMM系統(tǒng)對(duì)手勢(shì)軌跡進(jìn)行識(shí)辨與判斷,實(shí)驗(yàn)結(jié)果表明,利用Kinect獲取深度圖像的并進(jìn)行手勢(shì)軌跡識(shí)別的應(yīng)用方法,即HMM(隱馬爾可夫)手勢(shì)軌跡識(shí)別方法具有較高的識(shí)別率,系統(tǒng)較為完善,但是仍存有許多有待改進(jìn)的地方,如今后的實(shí)驗(yàn)可繼續(xù)添加新的手勢(shì)的變化,完善手勢(shì)輸入起始點(diǎn)的確定法,旨在進(jìn)一步提高系統(tǒng)的健壯性,提高該系統(tǒng)的使用與推廣價(jià)值.
〔1〕曹雛清,李瑞峰,趙立軍.基于深度圖像技術(shù)的手勢(shì)識(shí)別方法[J].計(jì)算機(jī)工程,2012(08).
〔2〕SILANON K,SUVONVORN N.Hand motion analysis for Thai alphabet recognition using HMM[J].International Journal of Information and Electronics Engineering,2011,1(1):65-71.
〔3〕張青苗,李鵬,趙勇,何寶富,孫彧.一種基于OpenCV實(shí)現(xiàn)的運(yùn)動(dòng)目標(biāo)檢測(cè)算法的研究[J].艦船電子工程,2010 (07).
〔4〕孔曉明,陳一民,陳養(yǎng)彬,殷燁.基于視覺的動(dòng)態(tài)手勢(shì)識(shí)別[J].計(jì)算機(jī)工程與設(shè)計(jì),2005(11).
〔5〕張毅,張爍,羅元,徐曉東.基于Kinect深度圖像信息的手勢(shì)軌跡識(shí)別及應(yīng)用[J].計(jì)算機(jī)應(yīng)用研究,2012(09).
〔6〕王萬良,馬慶,王鑫,汪曉妍.基于Kinect的高維人體動(dòng)畫實(shí)時(shí)合成研究[J].計(jì)算機(jī)應(yīng)用與軟件,2011(11).
〔7〕KAO M C,LITHS.Design and implementation of interaction system between humanoid robot and human hand gesture[C]//Proc of SICE Annual Conference.[S. l]:IEEE Press,2010:1616-1621.
〔8〕楊誠.基于視覺的動(dòng)態(tài)手勢(shì)識(shí)別研究[D].西北大學(xué),2012.
〔9〕IKEMURA S,F(xiàn)UJIYOSHI H.Real-time human detection using relational depth sim ilarity features[C]// Proc of the 10th Asian Conference on Computer Vision,2011:25-38.
TP311.52
A
1673-260X(2013)09-0027-02