嚴(yán) 焰,劉 蓉(.湖北師范學(xué)院 教育信息與技術(shù)學(xué)院,湖北 黃石 43500 .華中師范大學(xué) 物理科學(xué)與技術(shù)學(xué)院,湖北 武漢 430079)
基于條件迭代算法的手語(yǔ)識(shí)別技術(shù)
嚴(yán)焰1,劉蓉2
(1.湖北師范學(xué)院 教育信息與技術(shù)學(xué)院,湖北 黃石 435002 2.華中師范大學(xué)物理科學(xué)與技術(shù)學(xué)院,湖北武漢430079)
針對(duì)多組手語(yǔ)語(yǔ)句中重復(fù)出現(xiàn)的手語(yǔ)單詞識(shí)別問(wèn)題,提出了一種識(shí)別方法。該方法利用時(shí)間規(guī)整算法構(gòu)建手語(yǔ)識(shí)別模型,并通過(guò)條件迭代算法快速計(jì)算最大后驗(yàn)概率。在南佛羅里達(dá)大學(xué)公共手語(yǔ)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),證明了該方法具有一定的實(shí)用性。
手語(yǔ)識(shí)別;動(dòng)態(tài)時(shí)間規(guī)整算法;條件迭代算法
在人機(jī)交互應(yīng)用方面,無(wú)論是基于文本方式的鍵盤(pán)設(shè)備,還是基于圖形方式的鼠標(biāo)設(shè)備,都無(wú)法滿足人們對(duì)計(jì)算機(jī)應(yīng)用的需求。符合人們?nèi)粘=涣髁?xí)慣的人機(jī)交互技術(shù)是最近幾年熱門(mén)的研究領(lǐng)域。人類(lèi)日常交流過(guò)程中,采用的方式可以分為自然語(yǔ)言和肢體語(yǔ)言兩大類(lèi)。自然語(yǔ)言包括口語(yǔ)、書(shū)面語(yǔ)言;肢體語(yǔ)言包括面部表情、身體姿態(tài)、手勢(shì)手語(yǔ)等。其中手語(yǔ)是由一系列規(guī)范的手勢(shì)標(biāo)準(zhǔn)組成的獨(dú)立語(yǔ)言門(mén)類(lèi)。手語(yǔ)識(shí)別技術(shù)對(duì)于提高計(jì)算機(jī)的智能化,完善人機(jī)交互應(yīng)用具有很強(qiáng)的現(xiàn)實(shí)意義。
按照所研究的手勢(shì)種類(lèi)的不同,可以將手勢(shì)識(shí)別分為靜態(tài)手勢(shì)識(shí)別和動(dòng)態(tài)手勢(shì)識(shí)別兩類(lèi)。
(1)靜態(tài)手勢(shì)是指在整個(gè)手勢(shì)運(yùn)動(dòng)時(shí)間段中,只需考慮在手形變化過(guò)程中各個(gè)指尖的位置變化,而手掌沒(méi)有發(fā)生整體性位移。例如 STREN H I等人[1]設(shè)計(jì)了一種利用靜態(tài)手勢(shì)集作為汽車(chē)導(dǎo)航設(shè)備指令集的汽車(chē)平臺(tái)人機(jī)交互系統(tǒng)。MAUNG T H H[2]利用手勢(shì)圖像的直方圖特征通過(guò)神經(jīng)網(wǎng)絡(luò)進(jìn)行手勢(shì)識(shí)別,其手勢(shì)平均識(shí)別率為90%。楊波等人[3]利用手勢(shì)圖像的區(qū)域形狀特征提出一種基于手勢(shì)空間分布特征的手勢(shì)識(shí)別算法,在環(huán)境光照相對(duì)穩(wěn)定的條件下,對(duì)于差異較大的手勢(shì)識(shí)別率高達(dá)98%。Yao Minghai等人[4]利用在線PCA改進(jìn)算法進(jìn)行靜態(tài)手勢(shì)識(shí)別,其識(shí)別率為90.48%。
(2)動(dòng)態(tài)手勢(shì)是指在整個(gè)手勢(shì)運(yùn)動(dòng)時(shí)間段中,不但手掌發(fā)生整體性位移,并且整個(gè)手形也在發(fā)生變化。動(dòng)態(tài)手勢(shì)與靜態(tài)手勢(shì)相比更為復(fù)雜,也更加符合實(shí)際應(yīng)用需求,成為最近幾年手勢(shì)識(shí)別的一個(gè)熱點(diǎn)。例如Yang Ruiduo等人[5]利用一種嵌套式動(dòng)態(tài)編程方法,從視頻序列中識(shí)別手語(yǔ)信息,其實(shí)驗(yàn)結(jié)果比傳統(tǒng)的條件隨機(jī)域模型提高40%。Yin Ying等人[6]開(kāi)發(fā)了一種新的三維手勢(shì)人機(jī)交互系統(tǒng),其中包括3種用戶類(lèi)型和12種手勢(shì)指令集,孤立手勢(shì)詞識(shí)別率為 95.6%,連續(xù)手勢(shì)詞識(shí)別率為73%。ELMEZAIN M[7]利用HMM算法識(shí)別“0~9”手勢(shì)運(yùn)動(dòng)軌跡,其孤立手勢(shì)詞識(shí)別率為 98.6%,連續(xù)手勢(shì)詞識(shí)別率為94.29%。THEODORAKIS S等人[8]提出一種改進(jìn)的多數(shù)據(jù)流HMM算法,這種算法在進(jìn)行動(dòng)態(tài)手勢(shì)識(shí)別時(shí)允許部分手語(yǔ)之間的數(shù)據(jù)流異步,其識(shí)別效果比使用傳統(tǒng)的HMM算法提高8.3%。
本文在視頻圖像處理技術(shù)的基礎(chǔ)上,針對(duì)常用手語(yǔ)視頻中目標(biāo)手勢(shì)特征進(jìn)行研究和提取,提出了一種基于條件迭代算法的手語(yǔ)識(shí)別方法。該方法通過(guò)對(duì)用戶提供的每條手語(yǔ)視頻中各個(gè)手勢(shì)動(dòng)作進(jìn)行分析,識(shí)別反復(fù)出現(xiàn)的目標(biāo)手勢(shì)。
1.1手語(yǔ)識(shí)別中BTW模型
在實(shí)際中,同一種手勢(shì)所用的時(shí)間會(huì)因?yàn)楸磉_(dá)習(xí)慣和表述場(chǎng)景不同而有所差異,這就導(dǎo)致同一種手勢(shì)動(dòng)作對(duì)應(yīng)的采樣數(shù)據(jù)幀數(shù)是變化的。因此,可以用動(dòng)態(tài)時(shí)間規(guī)整算法(Dynamic Time Warping,BTW)來(lái)計(jì)算不同手勢(shì)序列之間的距離,最終實(shí)現(xiàn)手勢(shì)的識(shí)別。
手語(yǔ)由具有獨(dú)立含義的手勢(shì)按一定順序排列組成。本文使用目標(biāo)手勢(shì)一詞描述在一組手語(yǔ)數(shù)據(jù)集中都出現(xiàn)過(guò)一次的手勢(shì)單詞。表示一條手語(yǔ)中的目標(biāo)手勢(shì),其中ai表示目標(biāo)手勢(shì)起始幀編號(hào),bi表示目標(biāo)手勢(shì)結(jié)束幀編號(hào),即表示兩子句之間動(dòng)態(tài)時(shí)間規(guī)整距離。本文所解決的問(wèn)題就是在一組手語(yǔ)中,自動(dòng)識(shí)別出所有可能的動(dòng)作序列組合之間最相似的手勢(shì)集表示手勢(shì)參數(shù)集,θm表示在N組手語(yǔ)中的目標(biāo)手勢(shì)參數(shù)集。則:
p(θ)表示手語(yǔ)組中一種動(dòng)作序列組合的概率。
其中
β是一個(gè)規(guī)模參數(shù),它控制概率空間中的峰值,影響條件迭代算法(ICM)的收斂速度。g(θ)表示參數(shù)集 θ的子序列之間相似性。由于式(2)中分母涉及了所有可能的組合相似性的總和,計(jì)算量非常大,因此p(θ)難以計(jì)算。
為了方便目標(biāo)手勢(shì)識(shí)別的實(shí)現(xiàn),本文進(jìn)行以下處理。θi表示一組手語(yǔ)中第i條手語(yǔ)的動(dòng)作序列參數(shù)集合{ai,bi},并且 θ(i)表示同組手語(yǔ)中其余手語(yǔ)的動(dòng)作序列參數(shù)集合{a1,b1…ai-1,bi-1,ai+1,bi+1…an,bn}。由式(2)可以推導(dǎo)出θi在整個(gè)動(dòng)作序列參數(shù)集合中的條件概率為:
將式(3)代入式(4)中,整理得到:
目標(biāo)手勢(shì)參數(shù)集為:
在實(shí)際手語(yǔ)識(shí)別問(wèn)題中,手語(yǔ)視頻的幀數(shù)很多,如何快速求解BTW模型的后驗(yàn)概率最大化是個(gè)關(guān)鍵問(wèn)題。條件迭代算法計(jì)算量較小沒(méi)有較復(fù)雜的操作,適合通過(guò)計(jì)算機(jī)來(lái)實(shí)現(xiàn),因而具有實(shí)用價(jià)值。
1.2手語(yǔ)識(shí)別中條件迭代算法
條件迭代算法(Iterated Conditional Modes,ICM)[9]是一種收斂速度快的最大后驗(yàn)概率估算方法。采用ICM算法自動(dòng)識(shí)別目標(biāo)手勢(shì)的核心思想是:在一組手語(yǔ)中,采用DTW算法計(jì)算兩幀之間的相似性;定義手勢(shì)序列組合結(jié)果與其余組合結(jié)果的比值作為該種序列組合的后驗(yàn)概率;通過(guò)迭代計(jì)算所有手勢(shì)序列組合的后驗(yàn)概率,選擇最大后驗(yàn)概率的序列組合作為目標(biāo)手勢(shì)識(shí)別結(jié)果。該方法具體步驟如下:
(1)在起始幀識(shí)別過(guò)程中,計(jì)算每一幀作為目標(biāo)手勢(shì)起始幀的后驗(yàn)概率,根據(jù)后驗(yàn)概率分布,構(gòu)建起始幀備選集。
(2)在結(jié)束幀識(shí)別過(guò)程中,首先由起始幀備選集確定結(jié)束幀識(shí)別起點(diǎn)和搜索范圍。然后計(jì)算搜索范圍內(nèi)每一幀作為目標(biāo)手勢(shì)結(jié)束幀的后驗(yàn)概率,對(duì)應(yīng)每一個(gè)備選起始幀,選擇后驗(yàn)概率最大的結(jié)束幀,構(gòu)建目標(biāo)手勢(shì)結(jié)束幀備選集。
(3)比較備選集中起始幀與結(jié)束幀后驗(yàn)概率的乘積,標(biāo)注后驗(yàn)概率乘積最大的起始幀與結(jié)束幀。
(4)考慮人們的視覺(jué)認(rèn)知習(xí)慣,將視頻幀重新組合,還原完整目標(biāo)手勢(shì)序列。
隨著手勢(shì)識(shí)別的深入研究,相關(guān)學(xué)者給出多種定義手勢(shì)的方法。王西穎等人[10]按照手勢(shì)運(yùn)動(dòng)特點(diǎn)將手勢(shì)分為非運(yùn)動(dòng)手勢(shì)和運(yùn)動(dòng)手勢(shì)。其中非運(yùn)動(dòng)手勢(shì)包括需要考慮手形變化過(guò)程中各個(gè)手指之間關(guān)系的跟蹤類(lèi)手勢(shì)和只需考慮手形變化結(jié)果的非跟蹤類(lèi)手勢(shì)。而在運(yùn)動(dòng)手勢(shì)中,又可分為運(yùn)動(dòng)過(guò)程中沒(méi)有手形變化的非變形類(lèi)手勢(shì)和運(yùn)動(dòng)過(guò)程中存在手形、手指變化的變形類(lèi)手勢(shì)。
本文使用具有完整含義的手語(yǔ)視頻作為手勢(shì)識(shí)別數(shù)據(jù)輸入,通過(guò)比較不同圖像差分法的分割效果,采用二幀差距離的差分圖像與YCgCr顏色特征相結(jié)合的方法進(jìn)行目標(biāo)區(qū)域分割。在實(shí)際的手語(yǔ)中,每一個(gè)手勢(shì)詞內(nèi)部都變化平緩,而手勢(shì)詞之間存在明顯變化的起始幀、結(jié)束幀。依據(jù)相鄰幀之間歐式距離,采用滑動(dòng)窗口提取手語(yǔ)視頻中的關(guān)鍵幀,可以將動(dòng)態(tài)視頻的研究問(wèn)題簡(jiǎn)化成對(duì)靜態(tài)圖像的研究問(wèn)題。同時(shí)在關(guān)鍵幀中提取目標(biāo)區(qū)域重心和目標(biāo)區(qū)域外部輪廓鏈碼兩種特征,盡可能地減小手勢(shì)識(shí)別的計(jì)算量,提高識(shí)別性能。如圖1所示,本文設(shè)計(jì)的手勢(shì)識(shí)別系統(tǒng)包括數(shù)據(jù)輸入、目標(biāo)區(qū)域分割、關(guān)鍵幀提取、特征提取、手勢(shì)識(shí)別五大部分。
圖1 手勢(shì)識(shí)別系統(tǒng)
本文利用MATLAB平臺(tái)進(jìn)行實(shí)驗(yàn),選擇南佛羅里達(dá)大學(xué)計(jì)算機(jī)視覺(jué)實(shí)驗(yàn)室提供的公共手語(yǔ)數(shù)據(jù)集。該視頻數(shù)據(jù)集包括 136個(gè)美國(guó)手語(yǔ)短句(ASL)的視頻序列,按照待識(shí)別的目標(biāo)手勢(shì)不同,共分成10組。實(shí)驗(yàn)結(jié)果按照公共數(shù)據(jù)集所提供的參考標(biāo)準(zhǔn)進(jìn)行分析。實(shí)驗(yàn)結(jié)果為:136條手語(yǔ)中,完全識(shí)別正確有 119條,部分識(shí)別正確有0條,識(shí)別錯(cuò)誤有 17條,識(shí)別率為 87.5%。對(duì)比國(guó)外相關(guān)研究成果,參考文獻(xiàn)[11]與本文采用相同手語(yǔ)公共數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),其識(shí)別結(jié)果為:136條手語(yǔ)中,完全識(shí)別正確有98條,部分識(shí)別正確有20條,識(shí)別錯(cuò)誤有18條。因此本文提出的手語(yǔ)識(shí)別方法具有一定的優(yōu)勢(shì)。
手勢(shì)是手語(yǔ)中最小的、有意義的單位,具有使用靈活、信息量豐富的特點(diǎn)。本文提出一種能夠從一組日常手語(yǔ)短句中識(shí)別出目標(biāo)手勢(shì)的方法,實(shí)驗(yàn)驗(yàn)證了該方法的有效性。
[1]STERN H I,WACHS J P,EDAN Y.Optimal consensus intuitive hand gesture vocabulary design[C].2008 IEEE International Conference on Semantic Computing,2008:96-103.
[2]MAUNG T H H.Real-time hand tracking and gesture recognition system using neural networks[C].World Academy of Science,Engineering and Technology,2009:466-477.
[3]楊波,宋曉娜,馮志全,等.復(fù)雜背景下基于空間分布特征的手勢(shì)識(shí)別算法[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2010,22(10):1841-1848.
[4]Qu Xinyu,Yao Minghai,Gu Qinlong,et al.Adaptive subspacebasedonlinePCAalgorithmformobilerobot scene learning and recognition[C].2011 International Conference on Intelligent Human-Machine Systems and Cybernetics(IHMSC),IEEE,2011(1):205-209.
[5]Yang Ruiduo,SARKAR S,LOEDING B.Handling movement epenthesis and hand segmentation ambiguities in continuous sign language recognition using nested dynamic programming[J].Pattern Analysis and Machine Intelligence,2010,32(3):462-477.
[6]Yin Ying,DAVIS R.Toward natural interaction in the real world:real-time gesture recognition[C].International Conference on Multimodal Interfaces and the Workshop on Machine Learning for Multimodal Interaction,ICMI-MLMI′10,2010:1-8.
[7]ELMEZAIN M,AL-HAMADI A,APPENRODT J,et al. A hidden markov model-based continuous gesture recognition system for hand motion trajectory[C].19th International Conference on Pattern Recognition,ICPR 2008,2008:1-4. [8]THEODORAKISS,KATSAMANISA,MARAGOSP.
Product-HMMs for automatic sign language recognition[C]. IEEE International Conference on Acoustics,Speech and Signal Processing,ICASSP 2009,2009:1601-1604.
[9]BESAG J.Statistical analysis of dirty pictures[J].Journal of the Royal Statistical Society,1986(48):259-302.
[10]王西穎,戴國(guó)忠.面向虛擬現(xiàn)實(shí)的層次化交互手勢(shì)建模與理解方法[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2007,19(10):1334-1341.
[11]NAYAK S,SARKAR S,LOEDING B.Automated extraction of signs from continuous sign language sentences using iterated conditional modes.Computer vision and pattern recognition[C].IEEE Conference on Computer Vision and Pattern Recognition,CVRP 2009,2009:2583-2590.
Sign language recognition based on iterated conditional modes
Yan Yan1,Liu Rong2
(1.College of Educational Information and Technology,Hubei Normal University,Huangshi 435002,China;2.College of Physical Science and Technology,Central China Normal University,Wuhan 430079,China)
For the problem of sign language recognition in continuous sentences,a method was proposed.The sign language recognition model was established with Dynamic Time Warping(DTW),and through the Iterated Conditional Modes(ICM)computed the maximum a posteriori probability.The performance of this method was assessed by computer simulations.
sign language recognition;dynamic time warping;iterated conditional modes
P391
A
1674-7720(2015)02-0049-03
(2014-09-19)
嚴(yán)焰(1986-),通信作者,男,碩士研究生,助教,主要研究方向:人機(jī)交互、圖像處理,E-mail:yanyanedu@foxmail. com。
劉蓉(1969-),女,博士,副教授,主要研究方向:智能信息處理、模式識(shí)別。
網(wǎng)絡(luò)安全與數(shù)據(jù)管理2015年2期