楊穎嫻尹方平
(1.廣東司法警官職業(yè)學院,廣東 廣州 510520;2.廣東省機電職業(yè)技術(shù)學院基礎(chǔ)部,廣東 廣州 510515)
眼睛與嘴巴狀態(tài)的檢測算法在人臉表情分析中具有廣泛的運用,而目前人們對眼睛的狀態(tài)分析較多,但針對嘴巴狀態(tài)的研究相對較少。盡管眼睛的狀態(tài)能夠在很大的程度上反映人的表情,但嘴巴所提供的信息也不容忽視,例如大笑、大哭、張大嘴、閉嘴等,都在人臉表情分析當中提供了非常豐富的信息。
王湘平等[1]用Gabor小波的方法變換及變形模板方法抽取眼睛特征,張百振等[2]通過積分投影和可變形模板的方法檢測嘴巴的位置,李英[3]等采用改進的活動輪廓模型方法提取嘴巴的輪廓。他們都只是將工作停留在嘴巴位置的檢測以及輪廓的提取,并未進一步對嘴巴的不同狀態(tài)進行分類。
基于現(xiàn)實應(yīng)用,可將嘴巴大體上分為開與閉兩種狀態(tài),而張嘴可分為為張大、O型(驚訝時),閉嘴可分為微笑和緊閉這幾種不同類型。本文在已有文獻的工作基礎(chǔ)上,針對不同類型的分類檢測問題展開研究,提出了一套基于小波變換與支持向量機(SVM)的分類方法,并且采用Mallet金字塔算法,降低了運算復(fù)雜度。
Gabor小波核函數(shù)具有與人類大腦皮層簡單細胞的2維反射區(qū)相同的特性,能夠捕捉對應(yīng)的頻率(尺度)、空間位置及方向選擇性的局部結(jié)構(gòu)信息;由于上述特點,在人臉表情識別中得到了廣泛的應(yīng)用。Gabor濾波器的構(gòu)造是基于高斯函數(shù)的,而且它的積分為0。
二維Gabor小波核的定義為:
設(shè)人臉圖象為I(x,y),通過圖像矩陣與Gobor小波核進行卷積,實現(xiàn)圖像的Gobor小波變換,變換后得到的圖像為:
將得到Gabor小波特征的行向量連接成一個向量就得到了一幅人臉圖像的特征矢量。考慮到算法的復(fù)雜性,在人臉圖像的特征提取過程中,為了減少運算中花費的時間,在Gabor小波變換過程中采用Mallet金字塔算法。
在上述Gabor小波的變換中,得到的特征維數(shù)是原始圖像的40倍。如果原始輸入圖像大小為100×100,那么Gabor特征維數(shù)將會是400000維,直接把這樣一個高維的特征向量送入分類器進行識別,顯然計算量非常大,因此有必要對通過Gabor小波變換得到的特征進行選取,選取的目的是為了對數(shù)據(jù)進行預(yù)處理,降維得到一個較小的子集。本文利用AdaBoost[5]算法挑選最優(yōu)的特征。
AdaBoost算法如下:通過每一個特征建立一個弱分類器,在每輪迭代過程中,從所有可能的特征空間中搜索出加權(quán)分類誤差最小的弱分類器,該分類誤差隨后用來更新權(quán)值,以使得錯分類的樣本值增加。弱分類器的定義如下:
其中x表示一個樣本,pj表示從x中抽取一個特征,φj是閾值,pj為表示不等號方向的正負號。選擇一個弱分類器就意味著對應(yīng)選擇了一個特征,這樣選出的特征維數(shù)會大大降低。
支持向量機是Vapnik[6]提出基于統(tǒng)計學理論的學習方法,從最優(yōu)分類問題提出了支持向量機,其基本思想為:通過構(gòu)造最優(yōu)分類超平面,使得對未知樣本的分類具有推廣能力。目前支持向量機用于多分類問題[7],可分為兩種:一種是將多類問題分解為一系列SVM可直接求解的兩類問題,基于這一系列SVM求解結(jié)果得出最終判別結(jié)果;另一種是通過對前面所述支持向量機中的原始最優(yōu)化問題進行適當改變,使得它能同時計算出所有多類分類決策函數(shù),從而“一次性”地實現(xiàn)多類分類。
“一對多”是指將n類問題轉(zhuǎn)化為n個兩類問題,每個類和剩余類形成兩類進行學習,假設(shè)線性可分樣本集為xi,i=1,2,…,n,x∈Rd。則第i類和其它類相區(qū)分開的第i個判別函數(shù)為:
Di(x)=0意味著樣本集xi能被某已超平面正確劃分,形成最優(yōu)分類超平面。sgn(·)是符號函數(shù),屬于第i類的支持向量滿足Di(x)=1,而屬于其它類的支持向量滿足Di(x)=-1。對于向量x,若只滿足其中一個i,則被劃分為i類別。滿足多個i或沒有一個滿足的時候,則x是不可分的。
判別的過程如下:假設(shè)第i類對第j類的包含最大邊緣的最優(yōu)分類函數(shù)為
其中:bij為標量,wij是n維向量;并且Dij(x)=-Dji(x)
在測試階段,每個SVM對類別進行投票,票數(shù)最多的那個類別就是最終的識別結(jié)果。
圖1 四種類型圖像
本文利用日本ormon數(shù)據(jù)庫中的人臉圖像進行訓練和檢測,分別選取如圖1所示的圖像中截取的四種不同類型嘴巴各40幅,尺度標準化后通過gabor變換得到特征圖像做訓練,然后對200個嘴巴狀態(tài)進行分類測試。結(jié)果如表1所示。
表1 四類嘴巴測試結(jié)果數(shù)據(jù)
如果將張大嘴與O型嘴都歸為張嘴一個大類,緊閉與微笑都歸為閉嘴一個大類進行識別,可得結(jié)果如表2所示。
表2 兩種類別實驗結(jié)果數(shù)據(jù)
實驗表明,所提出的方法具有實時性好、抗光照等優(yōu)點,具有較好的應(yīng)用前景。而該方法的局限性主要有以下幾個方面:
(1)人臉的姿勢變化太大。
(2)嘴巴張開但幅度不大。
(3)有胡子等遮掩物的影響。
(4)由于個體的差異,有時長大嘴和O型嘴會比較相似,緊閉與微笑也會比較相似,容易導(dǎo)致相互之間的錯誤識別。
對以上問題,還需加以研究和討論。
[1]王湘平,張星明.基于gabor小波的眼睛和嘴巴檢測算法[J].計算機工程,2005,(22);169-171.
[2]張百振,阮秋琦.積分投影預(yù)定位的變形模板提取嘴巴輪廓[J].計算機工程與應(yīng)用,2006,(35):178-180.
[3]李英,賴劍煌,阮邦志,黃瓊燕.非均勻光照下的人臉表情多狀態(tài)檢測與分類[J].中山大學學報(自然科學版),2006,(5):17-21.
[4]尹方平,阮邦志.基于谷算子的人眼特征點檢測方法[J].計算機應(yīng)用研究,2006,(8):180-185.
[5]Freund Yoav,Schapire Robert E.A decision—theoretic generalization of on—line learning and an application to boosting[J].Journal of Computer and System Sciences,1997,55(1):119-139
[6]Nello Cristianini,John Shawe-Taylor.An Introduction to Support Vector Machines and Other Kernel-based Learning Methods[M].Cambridge,England,Cambridge University Press,2000.
[7]JWeston,C Watkins.Multi-class support vector machines[R].Technical Report CSD-TR-98-04 in Royal Holloway University of London,1998.