黃國(guó)范,李英
(南陽(yáng)師范學(xué)院軟件學(xué)院,河南南陽(yáng)473061)
基于改進(jìn)Hu矩的字母手勢(shì)識(shí)別
黃國(guó)范,李英
(南陽(yáng)師范學(xué)院軟件學(xué)院,河南南陽(yáng)473061)
本文提出了一種字母手勢(shì)識(shí)別方法,首先對(duì)字母手勢(shì)圖像進(jìn)行預(yù)處理,然后用模板匹配的方法進(jìn)行識(shí)別,并用改進(jìn)的Hu矩作為特征向量進(jìn)行測(cè)試樣本與模板之間的相似性度量,以降低噪聲的干擾.實(shí)驗(yàn)結(jié)果表明,我們的方法顯著地提高了識(shí)別準(zhǔn)確率.
字母手勢(shì);模板匹配;Hu矩;特征提取
隨著人機(jī)交互技術(shù)的發(fā)展,手語(yǔ)識(shí)別逐漸成為人們研究的熱點(diǎn).手語(yǔ)識(shí)別可以分為基于視覺(jué)的識(shí)別系統(tǒng)和基于數(shù)據(jù)手套的識(shí)別系統(tǒng)[1],基于視覺(jué)的手語(yǔ)識(shí)別方法交互方便自然,更能反映機(jī)器模擬人類視覺(jué)的功能,是目前手語(yǔ)識(shí)別的研究重點(diǎn).
目前手語(yǔ)識(shí)別的方法主要有模板匹配法、隱馬爾可夫模型法以及神經(jīng)網(wǎng)絡(luò)法等[2],其中模板匹配的方法多用于靜態(tài)手語(yǔ)的識(shí)別中.模板匹配的方法是首先進(jìn)行手勢(shì)訓(xùn)練建立模板庫(kù),然后提取出特征向量與模板之間進(jìn)行相似度計(jì)算來(lái)進(jìn)行匹配[3].模板匹配方法的優(yōu)點(diǎn)是實(shí)現(xiàn)起來(lái)比較簡(jiǎn)單,計(jì)算復(fù)雜度較低,但對(duì)噪聲非常敏感.
本文提出了一種改進(jìn)H u矩的方法對(duì)字母手勢(shì)識(shí)別進(jìn)行研究,采用模板匹配的方法進(jìn)行識(shí)別,選取經(jīng)典H u矩作為特征向量,并對(duì)其進(jìn)行改進(jìn),通過(guò)增加一個(gè)位置加權(quán)函數(shù)來(lái)提高質(zhì)心附近區(qū)域所占比重,以降低噪聲的干擾.實(shí)驗(yàn)結(jié)果表明,我們的方法可顯著地提高識(shí)別準(zhǔn)確率.
在字母手勢(shì)圖像的預(yù)處理中,主要是進(jìn)行灰度變換、平滑、二值化等處理,為下一步的識(shí)別作好準(zhǔn)備工作.
2.1 圖像的灰度化
我們通過(guò)數(shù)碼相機(jī)采集到的圖像,是24位真彩色的J P E G圖像.該格式的圖像數(shù)據(jù)量很大,直接進(jìn)行識(shí)別會(huì)大大影響識(shí)別的速度.為此,必須首先進(jìn)行處理,將其轉(zhuǎn)換為灰度圖像.我們的做法是將彩色圖像的R G B三個(gè)顏色分量分別提取出來(lái),然后再根據(jù)下式進(jìn)行灰度轉(zhuǎn)換:
將圖像中的每一像素點(diǎn)都用上式進(jìn)行計(jì)算,然后再寫(xiě)回圖像就可以完成圖像的灰度化.
2.2 圖像的平滑
圖像的平滑主要是減少圖像的噪聲.圖像平滑的方法主要有兩類:一種是全局處理,另一種是局部處理.全局處理是對(duì)噪聲圖像的整體或大的塊進(jìn)行校正平滑處理,計(jì)算量相當(dāng)大.而局部處理是使用局部算子,對(duì)某一像素的局部小鄰域的像素加以運(yùn)算,其優(yōu)點(diǎn)是計(jì)算效率比較高,可以多個(gè)像素并行處理[4].我們所采用的圖像平滑方法是局部平均法.局部平均法的算法思想是將圖像中某個(gè)像素的灰度值和它周?chē)噜彽陌藗€(gè)像素的灰度值相加,然后再求取平均值,以此來(lái)作為新圖中該像素的灰度值.
2.3 圖像的二值化
圖像的二值化是將灰度圖像轉(zhuǎn)換為只有兩個(gè)灰度值即黑白圖像的過(guò)程.最簡(jiǎn)單的圖像二值化方法可以通過(guò)設(shè)定閾值來(lái)完成,即當(dāng)該點(diǎn)的像素值大于設(shè)定的閾值時(shí),以“0”標(biāo)志;否則以“1”標(biāo)志.這樣二值化后,圖像變換為:
由此可見(jiàn),二值化的關(guān)鍵取決于設(shè)定的閾值T.
在我們的字母手勢(shì)圖像識(shí)別系統(tǒng)中,采用的圖像背景為黑色,比較單一,與手的灰度相差較大.因此,我們所采用的閾值的設(shè)定方法是:先拍攝一張背景圖片,然后取背景圖像的平均灰度值,再乘以一個(gè)系數(shù),便可得到二值化的閾值T:T=B*2.5
其中,B為背景圖像的平均灰度值.
3.1 模板匹配
模板匹配的常用方法有兩種:全局匹配和特征匹配.全局匹配是把待測(cè)圖像中的每一像素點(diǎn)和模板圖像中的每一像素點(diǎn)都進(jìn)行匹配,以對(duì)待測(cè)圖像進(jìn)行分類識(shí)別.而特征匹配則是提取出圖像的某些特征,如直方圖、點(diǎn)、線等幾何特征進(jìn)行匹配[3].為了降低計(jì)算復(fù)雜度,我們的字母手勢(shì)識(shí)別系統(tǒng)選用特征匹配的方法,從待測(cè)手勢(shì)圖像和模板手勢(shì)圖像中分別提取出具有代表性的特征向量進(jìn)行描述,然后對(duì)二者的特征向量進(jìn)行相似度計(jì)算即可進(jìn)行字母手勢(shì)圖像的識(shí)別.但是,提取的特征向量一定要具有代表性,要具有較小的信息冗余度,而且還要保證對(duì)旋轉(zhuǎn)、位移、縮放等保持不變性.在我們的識(shí)別系統(tǒng)中,選用了比較經(jīng)典的不變矩即H u矩的特征提取方法,并對(duì)其進(jìn)行了改進(jìn),來(lái)降低圖像噪聲的干擾.
3.2 特征向量的提取
基于H u矩的特征提取方法是一種比較經(jīng)典的方法,滿足圖像對(duì)于平移、旋轉(zhuǎn)、尺度等的不變性,在手勢(shì)識(shí)別中已得到了廣泛的應(yīng)用.
對(duì)于一幅二維數(shù)字圖像f(x,y),設(shè)定其分辨率為M×N,其p+q階原點(diǎn)矩mpq定義如下:
其p+q階中心矩μpq定義為:
其中(x,y)表示物體圖像上的點(diǎn),(x,y)是物體的質(zhì)心,其中=m10/m00y=m01/m00.
用原點(diǎn)矩或中心矩直接作為圖像的特征向量進(jìn)行識(shí)別,不能保證同時(shí)具有平移、旋轉(zhuǎn)和尺度不變性.為此,M.K. H u在1961年提出了不變矩的概念,并給出了具有平移、旋轉(zhuǎn)和比例不變性的七個(gè)H u不變矩的表達(dá)式,七個(gè)H u不變矩是由二階和三階中心矩的線性組合構(gòu)成的[5].
由上述中心矩的定義可以看出,在求和過(guò)程中,由于質(zhì)心附近區(qū)域的信息占據(jù)的比重很小,遠(yuǎn)離質(zhì)心的噪聲會(huì)嚴(yán)重地干擾質(zhì)心附近區(qū)域的重要信息,影響到識(shí)別的效果.盡管零階矩不存在這種現(xiàn)象,但七個(gè)H u不變矩中高階矩是決定性因素,所以,用七個(gè)H u不變矩作為特征向量來(lái)進(jìn)行識(shí)別,僅靠零階矩提供的微小的信息量來(lái)降低噪聲的干擾,來(lái)保證較高的識(shí)別準(zhǔn)確率還是遠(yuǎn)遠(yuǎn)不夠的.為此,提出了一個(gè)位置加權(quán)函數(shù)來(lái)提高質(zhì)心附近區(qū)域所占的比重.該函數(shù)定義如下:
其中,α是一個(gè)可調(diào)整參數(shù),可以通過(guò)在訓(xùn)練階段采用自動(dòng)優(yōu)化算法找出其最佳取值.
通過(guò)位置加權(quán)函數(shù)對(duì)物體的p+q階矩m'pq改進(jìn)如下:
中心矩μ'pq改進(jìn)為:
p+q階規(guī)范化中心矩定義為:
其中γ=(p+q)/2+1且p+q≥2
利用二階和三階規(guī)范化中心矩可以導(dǎo)出改進(jìn)后的7個(gè)H u不變矩組:
在我們的識(shí)別系統(tǒng)中,使用改進(jìn)后的7個(gè)H u不變矩作為圖像的特征向量,形成特征空間(M1,M2,M3,M4,M5,M6,M7)來(lái)進(jìn)行字母手勢(shì)圖像的識(shí)別.
3.3 字母手勢(shì)的識(shí)別
我們的字母手勢(shì)識(shí)別系統(tǒng)分為兩個(gè)階段:訓(xùn)練階段和識(shí)別階段.在進(jìn)行字母手勢(shì)識(shí)別之前,首先要進(jìn)行手勢(shì)訓(xùn)練以得到手勢(shì)的原型模板,建立手勢(shì)模板庫(kù),以用于測(cè)試集上的手勢(shì)識(shí)別.在訓(xùn)練階段,我們采用k_m e a n s聚類算法進(jìn)行手勢(shì)訓(xùn)練,得到字母手勢(shì)模板;在識(shí)別階段,對(duì)待識(shí)別的字母手勢(shì)樣本,用改進(jìn)的H u矩作為特征向量來(lái)進(jìn)行測(cè)試樣本與模板之間的相似性度量,從而識(shí)別各種待測(cè)手勢(shì).k-m e a n s算法是基于劃分的聚類方法,應(yīng)用非常廣泛,具有算法簡(jiǎn)單且收斂速度快的特點(diǎn).k-m e a n s算法以K為參數(shù),把N個(gè)對(duì)象分為K個(gè)簇,以使簇內(nèi)對(duì)象具有較高的相似度,而簇間對(duì)象的相似度較低[6].
在我們的字母手勢(shì)識(shí)別系統(tǒng)中,使用了高清數(shù)碼相機(jī)進(jìn)行字母手勢(shì)圖像的采集,對(duì)30個(gè)字母手勢(shì),我們分別對(duì)不同演示者進(jìn)行取照,每個(gè)字母手勢(shì)取照10張,共形成300張圖片庫(kù),其中選擇前5套作為訓(xùn)練樣本進(jìn)行訓(xùn)練產(chǎn)生手勢(shì)模板,其余的5套作為測(cè)試樣本來(lái)進(jìn)行識(shí)別.
實(shí)驗(yàn)結(jié)果顯示,在這5組測(cè)試集上,平均識(shí)別準(zhǔn)確率為91.34%.文獻(xiàn)[7]中,基于H u矩的平均識(shí)別率僅為87.5%.由此可見(jiàn),我們的方法顯著地提高了字母手勢(shì)識(shí)別的準(zhǔn)確率.
表3.1 測(cè)試集上的字母手勢(shì)識(shí)別結(jié)果
在我們的中國(guó)手指語(yǔ)字母手勢(shì)識(shí)別算法中,采用了模板匹配的方法,選取經(jīng)典Hu矩作為特征向量來(lái)進(jìn)行測(cè)試樣本與模板之間的相似性度量,并對(duì)其進(jìn)行改進(jìn),來(lái)降低噪聲的干擾,實(shí)驗(yàn)結(jié)果表明,我們的方法較好地實(shí)現(xiàn)了字母手勢(shì)的識(shí)別.
〔1〕Pavlovic V,Sharma R,Huang T.Visual Interpretation of Hand Gestures for Human-computer Interaction:AReview[J].IEEEPAMI,1997,19(7):156.
〔2〕張良國(guó),吳江琴,高文,等.基于Hausdorff距離的手勢(shì)識(shí)別[J].中國(guó)圖象圖形學(xué)報(bào),2002,7(11):2.
〔3〕何斌,馬天予,等.VisualC++數(shù)字圖像處理(第二版)[M].北京:人民郵電出版社,2002.146-148.
〔4〕李俊山,等.數(shù)字圖像處理[M].北京:清華大學(xué)出版社, 2006.125-128.
〔5〕M.Hu.Visual Pattern Recognition By Moment Invariants[J].IEEE Transaction on Information Theory,1962.8 (2):179-187.
〔6〕Treshansky A,Mc Graw R.An overview of clustering algorithms[C]//Proceedings of SPIE,The International Society for Optical Engineering,2001,4367:41-51.
〔7〕殷濤,葛元,王林泉.基于幾何矩的字母手勢(shì)識(shí)別算法[J].計(jì)算機(jī)工程,2004,30(18):129.
TP391
A
1673-260X(2013)03-0023-02
赤峰學(xué)院學(xué)報(bào)·自然科學(xué)版2013年5期