耿海霄(四川大學視覺合成圖形圖像技術(shù)國防重點學科實驗室,成都 610065)
基于條件隨機場的連續(xù)手勢識別算法
耿海霄
(四川大學視覺合成圖形圖像技術(shù)國防重點學科實驗室,成都610065)
傳統(tǒng)的人機交互方式,主要通過鍵盤、鼠標、觸摸屏等設備來進行,這與人在日常生活中自然的交流方式仍有很大不同。為實現(xiàn)更加自然的人機交互,隨著計算機科學的飛速發(fā)展,學者們對人體動作捕獲和識別做了大量研究,手勢識別技術(shù)也成為其研究核心之一。特別近年來,手勢控制被越來越多地運用到各種產(chǎn)品中,這種更加直觀的人機交互方式讓手勢識別技術(shù)擁有了更廣闊的應用前景,如虛擬現(xiàn)實、娛樂游戲、工業(yè)控制和航空航天等領(lǐng)域。
手勢識別的目標是將人手作為直接輸入設備,不再需要中間的媒介,直接通過已定義的手勢來控制機器。在現(xiàn)實生活中,人們的手勢往往是動態(tài)的、連續(xù)的,靜態(tài)手勢能夠表達的信息量難以滿足人們的需求。而動態(tài)手勢包含了連續(xù)的動作序列,不同的手勢動作常具有相似或重復的運動軌跡,且相同的手勢也會因為不同人而具有不同的運動速度。因此,提高手勢分割的的準確性和高效性,提升手勢識別的精度成為其主要的難點和突破點。
如今,國內(nèi)外在手勢識別方面均取得了頗多研究成果,張良國等人采用基于Hausdorff距離的模板匹配方法,建立了一個靜態(tài)手勢識別系統(tǒng)。Santemiz P等人利用動態(tài)時間規(guī)整法(DTW)進行多序?qū)Ρ?,采用計算兩個序列之間的歐氏距離,區(qū)分出了不同手勢序列的起點和終點,解決了手勢分割中的分了和識別問題。W. J.Tan等人將DTW和神經(jīng)網(wǎng)絡結(jié)合起來,實現(xiàn)了一種手形和運動軌跡同時變化的識別方法。Hyeon-Kyu Lee等人提出了一種基于自適應閾值的隱馬爾可夫模型(HMM)手勢識別算法,大大降低了手勢訓練和識別的難度。Elmezain M等人將CRF運用到連續(xù)手勢的分割和識別中,建立自適應閾值模型將手勢的起點和終點清晰的定位出來,提高了識別的精確度。
其中,HMM的時間尺度不變性以及訓練時較強的擴充性,使其在動態(tài)手勢識別中取得很好的效果。然而手勢動作序列之間具有長距離依賴性,但HMM需假設手勢動作序列相互獨立,采用CRF可以避免條件無關(guān)性假設,既降低了對訓練成本的要求,又更容易提高識別的精確性。
本文主要工作是采用CRF算法實現(xiàn)連續(xù)手勢識別,并將實驗結(jié)果與HMM算法進行比較,證明CRF算法在連續(xù)手勢識別上有一定的優(yōu)勢。
2.1條件隨機場理論基礎(chǔ)
條件隨機場(Conditional Random Fileds,CRF)是一種用于標注和切分有序數(shù)據(jù) 的條件概率模型,由Lafferty等人在2001年提出。該模型最早被用于有序數(shù)據(jù)的標注和分析,現(xiàn)在已經(jīng)被廣泛應用到手勢識別領(lǐng)域中。
CRF本質(zhì)上是給定了觀察值集合的馬爾科夫隨機場,可看作一種基于最大熵和隱馬爾可夫模型的無向圖模型。假設G=(V,E)是一個無向圖,Y={Yν|ν∈V}是以G中節(jié)點為索引的隨機變量Yν構(gòu)成的集合。在給定的X條件下,如果每個隨機變量Yb服從馬爾可夫?qū)傩?,則(X,Y)就構(gòu)成一個條件隨機場。即:
其中,u~v表示u和v是相鄰的邊。
假設有觀察序列X={x1,x2,…,xn}和有限狀態(tài)集合Y={y1,y2,…,yn},則根據(jù)隨機場的基本理論,可得:
其中,tj(yi-1,yi,x,i)是觀察序列的標記位置i-1與i之間的轉(zhuǎn)移特征函數(shù),sk(yi,x,i)是觀察序列的i位置的狀態(tài)特征函數(shù)。
將兩個特征函數(shù)統(tǒng)一為fj(y(i-1),yi,x,i),則:
2.2條件隨機場的三個關(guān)鍵問題
(1)特征函數(shù)的選取
狀態(tài)特征函數(shù)有過渡的性質(zhì),表示觀察序列一個特征值是否在兩個狀態(tài)之間,即若該特征值在前一狀態(tài)和當前狀態(tài)之間,則所有特征函數(shù)都是實數(shù)值:
其中,Ya和Yb表示CRF模型中的兩個特征值。
(2)參數(shù)估計
為了從訓練數(shù)據(jù)中估計特征函數(shù)的權(quán)重λ,CRF參數(shù)估計基于最大熵原則,采用極大似然估計來最大化對數(shù)似然函數(shù)。假定對于訓練數(shù)據(jù)有一組樣本集合D={x(j),y(j)},?j=1,…,n,且樣本相互獨立的,CRF的似然函數(shù)為:
上式中,p~(x,y)為訓練樣本(x,y)的經(jīng)驗概率。再對λj求偏導,得出:
令公式(6)等于0,便可求出λj。然而,極大似然估計有時并不能得到一個近似解,所以Lafferty提出了兩種迭代縮放算法——GIS(Generalised Iterative Scaling)算法和IIS(Improved Iterative Scaling)算法來選擇參數(shù),使對數(shù)似然函數(shù)最大化。本文采用的GIS算法來訓練模型參數(shù),使之得到最高的對數(shù)似然值。
(3)模型推斷
CRF模型見公式(2),其中,在模型訓練過程中通常會碰到一些問題,如需要求邊際分布p(yi-1,yi│x,λ),需要標記為標記的序列等。前者可以用forwardbackward算法來計算,后者則可以用Viterbi算法來找到全局最優(yōu)解。
任何一種手勢識別算法在進行手勢識別時,都需要提取手勢特征,為后續(xù)手勢建模和分類做準備。這些特征主要包括:形狀、方向角、運動速率、輪廓等。本文方法采用以方向角為主要特征,對手勢運動軌跡進行區(qū)分和分類。其中,訓練和識別的過程如圖1所示。
本文用Microsoft Studio 2010實現(xiàn)了基于CRF手勢識別算法。先利用OptiTrack硬件設備來捕獲目標三維空間坐標,并通過Motive軟件與NatNet SDK協(xié)同工作收集目標運動軌跡的坐標,最后采用已實現(xiàn)的CRF算法完成手勢的訓練和識別,從而完成連續(xù)手勢運動軌跡的識別工作。
圖1 CRF訓練和識別流程圖
本文手勢數(shù)據(jù)庫由10位用戶共同錄制,其中包括圖2中的4種連續(xù)手勢序列(pug Tail,Number4,Check Mark,Delete),每種手勢收集20組樣本數(shù)據(jù)進行訓練。在手勢識別時,用戶在三維空間揮動裝置,系統(tǒng)對實時手勢軌跡進行識別。
圖2 手勢模板集
針對同樣的手勢庫,還采用了HMM方法進行手勢識別實驗,并與本文的CRF算法識別結(jié)果作對比,效果的對比指標是召回率(Recall)、精確率(Precision)和兩者相結(jié)合的函數(shù)F,分別表示為:
召回率 (Recall)=正確識別的手勢個數(shù)/標準結(jié)果中的手勢個數(shù)(7)
精確率 (Precision)=正確識別的手勢個數(shù)/識別出的所有手勢個數(shù)(8)
F值測試精度的描述,同時考慮了Recall表和Precision的值,表示為:
表1為使用CRF和HMM算法進行手勢識別時,根據(jù)上述指標收集手勢識別情況,計算均值后得到的統(tǒng)計結(jié)果。
表1
本文主要介紹了CRF算法和其在手勢識別中的應用。由實驗結(jié)果可知,CRF算法可以更好地描述手勢動作序列之間的相關(guān)性,使得在手勢識別過程中有更理想的識別效果。
[1]張良國,吳江琴,高文,等.基于Hausdorff距離的手勢識別[J].中國圖象圖形學報,2002(11):1144-1150.
[2]Santemiz P,Aran O,Saraclar M,et al.Automatic Sign Segmentation from Continuous Signing Via Multiple Sequence Alignment[A]. 12th International Conference on Computer Vision Workshops(ICCV Workshops)[C].USA:IEEE,2009:2001-2008
[3]Probabilistic Models for Segmenting and Labeling Sequence Data[A].Proc of International Conference on Machine Learning[C].San Francisco:Morgan Kaufman,2001.
[4]C.Sminchisescu,A.Kanaujia,D.Metaxas.Conditional Models for Contextual Human Motion Recognition.Computer Vision and Image Understanding,2006,104(2):210-220.
Continuous Gesture Recognition;Condition Random Fields;Likelihood Maximization;Human-Computer Interaction
Condition Random Fields for Continuous Gesture Recognition
GENG Hai-xiao
(National Key Laboratory of Fundamental Science on Synthetic Vision,Sichuan University,Chengdu 610065)
1007-1423(2016)05-0049-04
10.3969/j.issn.1007-1423.2016.05.011
耿海霄(1990-),女,四川武定人,碩士研究生,研究方向為圖形圖像技術(shù)
2016-01-08
2016-02-08
近年來,隨著計算機技術(shù)的飛速發(fā)展,基于非接觸手勢控制的人機交互方式在不同領(lǐng)域都得以廣泛應用。由于連續(xù)手勢之間的相互依賴性,而傳統(tǒng)的HMM手勢識別方法必須先假設動作序列相互獨立,對手勢識別效果會造成一定的影響。為了有更精確的識別率,在連續(xù)手勢識別過程中采用CRF算法。實驗證明,該方法提高連續(xù)手勢運動軌跡的識別率,優(yōu)于傳統(tǒng)的HMM算法。
連續(xù)手勢識別;條件隨機場;極大似然;人機交互
Recently,with the rapid development of computer science,the human-computer interaction technology based on untouched gesture control has been widely used in different fileds.The traditional Hidden Markov Model(HMM)has the assumption that the sequence of observations is mutually independent in temporal domain.However,continuous gesture is interdependent,and HMM method has some negative impact on the result.To improve the accuracy of recognition rate,in the process of continuous gesture recognition the Condition Random Fields(CRF)method are used.The experimental results show that the method effectively improve the accuracy of recognition rate and have some advantages compared with HMM method.