穆 靜,陳 芳,王長(zhǎng)元
(西安工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,西安710021)
在人與人的交往中,人的面部表情是除了聲音以外的非常重要的通信方式,作為信息載體,表情能夠傳達(dá)很多語(yǔ)音所不能傳達(dá)的信息,且人臉面部表情圖像中包含了豐富的情感信息.近年來(lái),通過(guò)人臉面部表情進(jìn)行情感識(shí)別是一個(gè)研究熱點(diǎn).文獻(xiàn)[1]綜述了面部表情的情感識(shí)別.面部表情情感識(shí)別的基本方法是基于像素的人臉面部圖像情感識(shí)別,但該方法計(jì)算量大,且識(shí)別率不高.文獻(xiàn)[2-3]使用幾何特征和模板法以及Gabor小波對(duì)面部表情特征進(jìn)行提取,均獲得較好的識(shí)別結(jié)果.早期有專(zhuān)家學(xué)者將隱馬爾科夫模型(Hidden Markov Model,HMM)應(yīng)用到語(yǔ)音識(shí)別系統(tǒng)中[4],具有很好的應(yīng)用效果.對(duì)于一個(gè)人臉面部表情圖像,重要的區(qū)域有頭發(fā)、前額,眼睛,鼻子和嘴,可以把每一個(gè)重要的面部區(qū)域建模為一個(gè)左右模型的一維連續(xù)隱馬爾科夫模型的一個(gè)狀態(tài),因此,近年來(lái),有專(zhuān)家學(xué)者將隱馬爾科夫模型應(yīng)用到人臉面部表情圖像的情感識(shí)別上[5-6],獲得了有效的結(jié)果.面部表情的情感識(shí)別進(jìn)行之前的關(guān)鍵步驟是進(jìn)行面部特征提取,選取特征算法對(duì)識(shí)別的效果有較大影響.文中使用隱馬爾科夫模型對(duì)人臉面部表情圖像進(jìn)行情感識(shí)別,對(duì)人臉表情圖像使用子窗口進(jìn)行采樣并使用離散余弦變換對(duì)人臉面部圖像進(jìn)行特征提取,然后將人臉圖像建模成一維隱馬爾科夫模型,對(duì)日本女性面部表情數(shù)據(jù)庫(kù)(Japanese Female Facial Expression Database,JAFFE)[7]的人臉表情的七種情感:憤怒、厭惡、恐懼、中性、高興、悲傷及驚訝進(jìn)行識(shí)別,以期為人臉表情識(shí)別提供新方法.
一個(gè)HMM模型由以下參數(shù)決定[4]:①模型的狀態(tài)集表示為S=S{S1,S2,…,SN}.② 觀測(cè)符號(hào),其集合表示為V= {v1,v2,…,vM}.③ 狀態(tài)轉(zhuǎn)移概率分布A= {aij},aij=P[qt+1=Sj│qt=Si],1≤i,j≤N.④狀態(tài)的觀測(cè)符號(hào)概率分布B= {bj(vk)},其中bj(vk)=P[vkatt│qt=Sj]為t時(shí)刻狀態(tài)為Sj時(shí)測(cè)量值為vk的概率,1≤j≤N,1≤k≤M.⑤ 初始狀態(tài)分布π={πi},π=P[q1=Si],1≤j≤N.
一個(gè)隱馬爾可夫模型完整地描述為Λ={N,M,A,B,π},N為狀態(tài)數(shù),M為觀測(cè)符號(hào)數(shù),通常HMM 用Λ= {A,B,π}簡(jiǎn)記.
具有一個(gè)觀測(cè)序列O= {O1,O2,…,OT},其中T是觀測(cè)序列的長(zhǎng)度,Ot(t取值(1,2,…,T))是V中的一個(gè)符號(hào).HMM具有三個(gè)基本問(wèn)題,即
問(wèn)題1:已知觀測(cè)序列O= {O1,O2,…,OT}和模型Λ= {A,B,π},如何有效的計(jì)算在給定模型條件下產(chǎn)生觀測(cè)序列O的概率P(O│Λ}.
問(wèn)題2:已知觀測(cè)序列O= {O1,O2,…,OT}和模型Λ={A,B,π},如何選擇在某種意義上最佳的狀態(tài)序列.
問(wèn)題3:給定觀測(cè)序列O= {O1,O2,…,OT},如何調(diào)整參數(shù)HMM的參數(shù){A,B,π},使條件概率P(O│Λ}最大.
1.2.1 HMM 第一個(gè)問(wèn)題
該問(wèn)題是評(píng)估問(wèn)題,通常使用前向-后向算法解決.前向-后向算法描述為
定義前向變量αt(i),后向變量βt(i)為
式中:αt(i)為在給定模型下,產(chǎn)生t前的部分觀測(cè)符號(hào)序列O1,O2,…,Ot和t時(shí)刻處于狀態(tài)Si的概率;βt(i)為在給定模型和t時(shí)刻處于狀態(tài)Si的條件下,產(chǎn)生t以后的部分觀測(cè)符號(hào)序列Ot+1,Ot+2,…,OT的概率.
迭代計(jì)算前向和后向變量的步驟為
式中:1≤t≤T-1,1≤i,j≤N;αij為狀態(tài)轉(zhuǎn)移概率分布矩陣中的元素;bj(Ot)為觀測(cè)符號(hào)矩陣中的元素.
在給定模型下,產(chǎn)生觀測(cè)序列O的概率為
1.2.2 HMM 第二個(gè)問(wèn)題
這個(gè)問(wèn)題是求取產(chǎn)生觀測(cè)序列時(shí)的最佳狀態(tài)序列,實(shí)際使用的是以動(dòng)態(tài)規(guī)劃為基礎(chǔ)的尋找單個(gè)最佳狀態(tài)序列的Viterbi算法.
Viterbi算法描述為
1.2.3 HMM 第三個(gè)問(wèn)題
問(wèn)題三是如何調(diào)整模型參數(shù)(A,B,π),該問(wèn)題稱(chēng)之為模型參數(shù)重估問(wèn)題,即使觀測(cè)序列在給定模型下發(fā)生的概率最大.常用方法為Baum-Welch法來(lái)選擇模型參數(shù)(A,B,π)以使得P(O│Λ)最大.
定義變量γt(i)為
其中γt(i)為在給定觀測(cè)序列O和模型Λ的條件下,t時(shí)刻處在狀態(tài)Si的概率,使用前后向變量計(jì)算,可得
由于αt(i)βt(i)=P(O,qt=Si│Λ),式(15)表示為
定義變量該變量為在給定模型和觀測(cè)序列下,在時(shí)間t和t+1時(shí),狀態(tài)分別為Si和Sj的概率.
歸一化后的ξt(i,j)使用前向變量和后向變量表示為
其中t=1,2…,T-1.式(14)定義的γt(i)與ξt(i,j)之間的關(guān)系為
1.3.1 人臉表情圖像的HMM模型建立
對(duì)于一幅X×Y的平面面部圖像,從上到下可以分為前額、眼睛、鼻子、嘴巴和下巴五個(gè)區(qū)域,每個(gè)區(qū)域可以使用一維HMM的一個(gè)狀態(tài)表示[5].一幅臉部圖像的一維HMM建模如圖1所示,其中HMM不同狀態(tài)之間的轉(zhuǎn)移概率aij(1≤i≤X,1≤j≤Y)不為零.
圖1 人臉圖像的一維左右HMM模型的建立Fig.1 One dimension left-right HMM model for facial image
1.3.2 使用離散余弦變換進(jìn)行特征提取
離散余弦變換(Discrete Cosine Transformation,DCT)是使用一組基函數(shù)對(duì)圖像進(jìn)行變換.
一幅X×X的圖像的DCT變換為
圖像DCT變換后,獲得頻域的相應(yīng)圖像內(nèi)容,最大的去除了圖像的相關(guān)性,提取圖像的特征.原始圖像內(nèi)容中較為平坦的成分對(duì)應(yīng)于頻域中的低頻成分,而原始圖像中小的細(xì)節(jié)部分對(duì)應(yīng)于其高頻的成分.頻域圖像處理后,需要DCT逆變換獲得時(shí)域圖像.
DCT逆變換公式為
使用DCT系數(shù)作為圖像的特征提?。褂?×8子窗口對(duì)每一幅圖像進(jìn)行分割,分割順序從左到右,從上到下,重疊區(qū)為50%,獲得測(cè)量序列[8],如圖2所示.對(duì)于一幅X×Y大小的圖像,具有ND= (2X/N-1)(2Y/N-1)(其中N=8為窗口尺寸)子圖像.對(duì)每一個(gè)8×8子圖像進(jìn)行DCT變換,獲得64個(gè)DCT系數(shù),采用“Z”字形進(jìn)行排列,8×8的圖像經(jīng)過(guò)DCT變換后,其低頻分量都集中在左上角,高頻分量分布在右下角.低頻分量包含了圖像的主要信息,而高頻包含了較少的圖像信息,因此選擇前15個(gè)數(shù)據(jù)形成觀測(cè)向量,即L=15.一個(gè)子圖像(a,b)的觀測(cè)矢量[5]表示為
圖2 獲得測(cè)量向量的示意圖Fig.2 Diagram of obtaining the measurement vectors
根據(jù)以上獲得測(cè)量值訓(xùn)練隱馬爾可夫模型;再對(duì)測(cè)試集人臉表情圖片進(jìn)行識(shí)別.采用HMM進(jìn)行人臉識(shí)別,實(shí)質(zhì)上是一種概率運(yùn)算,根據(jù)訓(xùn)練集數(shù)據(jù)計(jì)算得出模型后,測(cè)試集數(shù)據(jù)只需分別計(jì)算個(gè)模型的條件概率,取此概率最大者即為識(shí)別結(jié)果.
實(shí)驗(yàn)圖像采用日本的JAFFE人臉表情數(shù)據(jù)庫(kù),JAFFE庫(kù)中由10位日本年輕女性的213幅圖像構(gòu)成,10位女性的代號(hào)分別為KA,KL,KM,KR,MK,NA,NM,TM,UY以及 YM.圖像均為256×256pixel的8位灰度圖像.每個(gè)女性人臉有七種表情:憤怒,厭惡,恐懼,高興,中性,悲傷及驚訝,每位女性的每個(gè)表情均含有2~3幅圖像.每幅圖像具有眼睛和嘴巴的位置大致對(duì)齊的特點(diǎn).為方便對(duì)算法的研究,使用HMM算法對(duì)JAFFE圖像庫(kù)10名女性的表情圖像進(jìn)行情感識(shí)別,識(shí)別結(jié)果見(jiàn)表1.對(duì)JAFFE數(shù)據(jù)庫(kù)YM的錯(cuò)誤情感識(shí)別如圖3所示(識(shí)別錯(cuò)誤用“X”標(biāo)出).
表1 基于HMM面部情感識(shí)別正確率統(tǒng)計(jì)表Tab.1 Results of emotion recognition using HMM
圖3 對(duì)JAFFE數(shù)據(jù)庫(kù)YM的錯(cuò)誤情感識(shí)別(圖中帶叉的表示錯(cuò)誤識(shí)別圖像)Fig.3 Emotion recognition errors for JAFFE database(images with cross are recognition error)
通過(guò)表1和圖3可以看到,該算法對(duì)KA,KL,KM,MK,NM,TM的人臉表情圖像的情感識(shí)別算法正確率高達(dá)到90%以上,這是由于這些人臉表情相對(duì)夸張,而夸張的圖像攜帶的信息量大,而且不同表情的圖像區(qū)別比較明顯,因此該算法表現(xiàn)了很好的識(shí)別能力;對(duì)于KR,NA,UY人臉圖像識(shí)別率較高,識(shí)別正確率達(dá)到了80%以上;而對(duì)于YM人臉圖像的情感識(shí)別只有63.6%,這是由于YM圖像的表情相對(duì)比較平淡,而表情平淡的面部表情,攜帶信息少,且易與其他狀態(tài)的表情混淆,模型在工作分析過(guò)程中困難較大,因此識(shí)別準(zhǔn)確率比較低,如圖3,對(duì)YM的第2~3幅的恐懼表情圖像識(shí)別為中性,對(duì)第4幅的恐懼表情圖像識(shí)別為悲傷,而對(duì)3幅高興表情圖像識(shí)別為悲傷.使用HMM方法對(duì)JAFFE庫(kù)人臉表情的情感識(shí)別總體正確識(shí)別率達(dá)到了87.3%,說(shuō)明該算法有效可行.與基于像素的人臉表情識(shí)別算法相比,該方法計(jì)算效率更高,且正確識(shí)別率更佳.
文中采用離散余弦變換方法提取了JAFFE數(shù)據(jù)庫(kù)人臉表情圖像的特征向量,給出了基于隱馬爾科夫模型的人臉面部表情圖像模型,結(jié)合該模型和特征向量,提出了基于隱馬爾科夫模型的人臉面部表情圖像情感識(shí)別方法,測(cè)試實(shí)驗(yàn)結(jié)果表明該方法對(duì)人臉表情圖像進(jìn)行情感識(shí)別有效可行,其總體正確識(shí)別率達(dá)到87.3%.
[1] CHELLAPPA R,WILSON C,SIROHEY S.Human and Machine Recognition of Faces:A Survey[J].Proceedings of IEEE,1995,83(5):705.
[2] 劉秋菊.基于Gabor的人臉表情識(shí)別研究[D].蘇州:蘇州大學(xué),2009.LIU Qiu-ju.Research on Facial Expression Recognition Based on Gabor[D].Suzhou:Suzhou University,2009.(in Chinese)
[3] 陸慧聰.面部表情識(shí)別系統(tǒng)中表情特征提取與識(shí)別算法研究[D].南京:東南大學(xué),2006.LU Hui-cong.Research on Facial Feature Extraction and Recognition in Automatic Facial Expression A-nalysis System[D].Nanjing:Southeast University,2006.(in Chinese)
[4] RABINER L R.A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition[J].Proceedings of the IEEE,1989,77(2):257.
[5] JOHAN S.Face Recognition Using Hidden Markov Models[D].Stellenbosch:University of Stellenbosch,2005.
[6] SANDERSON C.Face Processing & Frontal Face Verification[R].Berlin:IDIAP,2003.
[7] LYONS M,BUDYNEK J,AKAMATSU S.Automatic Classification of Single Facial Images[J].IEEE Transaction on Pattern Analysis and Machine Intelligence,1999,21(12):1357.
[8] FERDINANDO S S.Face Recognition Using Hidden Markov Models[D].Cambridge:University of Cambridge,1994.