張延良 盧 冰 蔣涵笑 洪曉鵬 趙國英 張偉濤
1(河南理工大學(xué)物理與電子信息學(xué)院 河南 焦作 454150)2(西安交通大學(xué)電子與信息工程學(xué)院 陜西 西安 710049)3(奧盧大學(xué)機(jī)器視覺和信號分析研究中心 芬蘭 奧盧 FI-90014)4(西安電子科技大學(xué)電子工程學(xué)院 陜西 西安 710071)
在日常的人際交流和溝通過程中,面部表情是傳遞情感的重要途徑。除了日常所見的普通面部表情,還有種試圖隱藏內(nèi)心真實(shí)情感卻又不由自主流露出的不易被察覺的微表情。微表情是無法偽裝和無法控制的自發(fā)式表情[1-3]。心理學(xué)家們普遍認(rèn)為微表情是測謊的重要線索,可以在國家安全[4]、案件偵破[5]、婚姻關(guān)系預(yù)測[6]、交流談判[7]等鄰域發(fā)揮很大的作用。
微表情最顯著的特點(diǎn)就是持續(xù)時(shí)間短、強(qiáng)度弱,往往難以有效識別。普通人捕捉和識別微表情準(zhǔn)確率較低,美國學(xué)者Ekman開發(fā)了輔助微表情識別訓(xùn)練工具M(jìn)ETT[8]來訓(xùn)練對微表情的檢測和識別。但是,經(jīng)過該工具訓(xùn)練的專業(yè)人士,識別準(zhǔn)確率也僅為47%[9]。因此,運(yùn)用計(jì)算機(jī)視覺技術(shù)實(shí)現(xiàn)微表情的識別成為情感計(jì)算領(lǐng)域的一個(gè)重要研究課題。
視頻序列中微表情特征提取算法的研究很多。在微表情識別的最初工作中,運(yùn)用局部二值模式(Local Binary Pattern,LBP)[10]的一種拓展描述算子三正交平面局部二值模式(Local Binary Pattern on Three Orthogonal Plane,LBP-TOP)[11]來編碼局部像素的時(shí)空共生模式。對LBP模式加以改進(jìn),又出現(xiàn)了時(shí)空完備局部量化描述子[12]、六交點(diǎn)局部二值描述子[13]、時(shí)空局部二值模式積分圖描述子[14]、時(shí)空中心化二值描述子[15]等微表情特征提取方法。后續(xù)又出現(xiàn)了不采用LBP的時(shí)空特征描述子,如三正交平面方向梯度直方圖描述子(Histograms of Oriented Gradients on Three Orthogonal Plane,HOG-TOP)、三正交平面圖像梯度直方圖描述子(Histograms of Image Gradient Orientation on Three Orthogonal Plane,HIGO-TOP)等用于微表情的識別。此外,文獻(xiàn)[16-17]對跨庫微表情識別的問題進(jìn)行了研究;文獻(xiàn)[18]將長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)方法結(jié)合應(yīng)用于微表情識別。
研究發(fā)現(xiàn),時(shí)空特征描述子提取到的特征向量維數(shù)過高,使微表情分類的計(jì)算復(fù)雜度大,處理時(shí)間長。更重要的是,微表情的發(fā)生只與臉部的部分區(qū)域緊密相關(guān),這種高維的特征向量里包含與微表情發(fā)生無關(guān)的分量,這是現(xiàn)有方法識別率不高的重要原因。本文用Fisher特征選擇算法來對原始特征向量進(jìn)行降維、篩選處理。先將同類特征向量篩選出來,計(jì)算類內(nèi)類間散度矩陣,再利用類內(nèi)類間散度矩陣計(jì)算特征向量的權(quán)重,最后將權(quán)重按照由大到小的順序排列,選擇較大權(quán)重對應(yīng)的特征分量。在CASMEII和SMIC兩個(gè)數(shù)據(jù)集上LBP-TOP、HOG-TOP及HIGO-TOP特征的實(shí)驗(yàn)結(jié)果表明了其有效性。
特征提取是計(jì)算機(jī)視覺技術(shù)自動(dòng)識別微表情的重要步驟,其中LBP-TOP、HOG-TOP、HIGO-TOP特征描述子已廣泛應(yīng)用于微表情識別。
為對動(dòng)態(tài)紋理進(jìn)行分析,Zhao等[11]提出LBP-TOP描述子,它是原始LBP靜態(tài)紋理描述子在時(shí)空域的延伸。該描述子廣泛應(yīng)用于面部表情的識別,近幾年,在微表情識別方面也取得了較好的效果。
一個(gè)視頻序列可以看成二維的靜態(tài)圖像(XY平面)沿著時(shí)間軸T堆疊而成的一個(gè)立方體。該立方體的XT和YT平面的紋理提供了圖像隨時(shí)間動(dòng)態(tài)變化的信息。圖1為提取視頻序列LBP-TOP特征的大致過程。分別抽取視頻幀序列的三個(gè)正交平面XY、XT及YT的LBP紋理特征,將得到的特征串聯(lián)起來就構(gòu)成了LBP-TOP特征向量。該描述子既考慮了微表情圖像的局部紋理信息,又對微表情隨時(shí)間變化的情況進(jìn)行了描述。
圖1 提取LBP-TOP特征的示意圖[11]
為了更好地表征微表情的動(dòng)態(tài)局部紋理信息,需要將視頻幀沿X軸、Y軸及T軸方向分割為若干個(gè)立方塊。然后提取每個(gè)分塊的LBP-TOP特征。按這種方法,在每個(gè)分塊提取到的特征向量維數(shù)為3×2p,其中p為鄰域點(diǎn)個(gè)數(shù)??紤]到LBP各模式的出現(xiàn)頻率,在研究中廣泛采用的是均勻LBP-TOP描述子[19],每個(gè)分塊特征向量的維數(shù)為3[p(p-1)+3]。
HOG利用局部圖像梯度方向直方圖提取人體的外形和運(yùn)動(dòng)特征[20]。研究表明,HOG算子也適用于人臉微表情識別。
給定一幅靜態(tài)圖像I,可以由卷積算子得到水平和垂直方向的導(dǎo)數(shù)Ix和Iy。具體來說Ix=I*KT,Iy=I*K。其中K=[-1 0 1]T,*表示卷積運(yùn)算。對于圖像中的每一個(gè)像素點(diǎn),其局部梯度方向θ和梯度幅值m為:
(1)
(2)
梯度方向θ∈[-π,π]。對θ進(jìn)行量化,假設(shè)量化等級數(shù)為B,量化等級為β={1,2,…,B}。量化函數(shù)為Q:[-π,π]→β。這樣,各分塊區(qū)域ψ的梯度方向直方圖可通過一個(gè)函數(shù)g:β→R計(jì)算得到,該函數(shù)定義為:
(3)
式中:b∈β。δ(i,j)定義為:
(4)
可根據(jù)同一個(gè)分塊內(nèi)的每一像素梯度計(jì)算結(jié)果,通過加權(quán)投票的方法得到該塊的量化梯度方向。
HIGO算子是HOG的一種變形。HIGO采用更為簡單的投票機(jī)制來計(jì)算各個(gè)分塊的直方圖,具體函數(shù)如下:
(5)
不同于HOG,HIGO算子忽略了梯度幅值對直方圖的影響,因此對光照和對比度變化不敏感。
為了描述視頻序列的動(dòng)態(tài)紋理特征,需要將HOG和HIGO描述子推廣到時(shí)空模式。分別計(jì)算三個(gè)正交平面XY、XT、YT的HOG和HIGO特征向量,再將三個(gè)平面的特征向量串聯(lián)起來就構(gòu)成HOG-TOP、HIGO-TOP特征描述子。
運(yùn)用上述三種特征描述子來進(jìn)行面部圖像分塊特征的提取,當(dāng)面部空間分塊個(gè)數(shù)為k時(shí),每一分塊的胞元數(shù)為q,提取的LBP-TOP、HOG-TOP和HIGO-TOP特征向量維數(shù)分別是3k[p(p-1)+3]、3kq和3kq。這種高維的特征向量在分類微表情時(shí),計(jì)算復(fù)雜,處理時(shí)間較長,而且特征向量中還包含與微表情發(fā)生無關(guān)的分量,進(jìn)而影響分類的準(zhǔn)確率,因此考慮用Fisher算法對特征向量進(jìn)行降維處理和有效的篩選。
Fisher準(zhǔn)則是一種有效的有監(jiān)督特征選擇方法[21-23]。其目的是從高維特征空間中篩選出鑒別能力強(qiáng)的低維特征,基本思想是在低維特征空間里,相同類別的樣本盡可能密集,不同類別的樣本距離盡可能遠(yuǎn)。
假設(shè)有分屬于c個(gè)類別的N個(gè)樣本:
X=[χ1,χ2,…,χN]=[X1,X2,…,Xc]
其中第i類的樣本集合記為:
(6)
因此,類內(nèi)散度矩陣為:
(7)
類間散度矩陣為:
(8)
則Fisher判據(jù)定義為:
JFisher=diag(Sb./Sw)
(9)
式中:“./”是矩陣的對應(yīng)元素相除;函數(shù)diag()是取矩陣對角線上的元素組成一向量。JFisher中的元素為對應(yīng)特征分量的權(quán)重,數(shù)值越大說明對應(yīng)特征分量的類別區(qū)分度越高。選擇最大的q個(gè)權(quán)重對應(yīng)的特征分量組成特征子集,這就是Fisher特征選擇的過程。
實(shí)驗(yàn)測試了特征描述子LBP-TOP、HOG-TOP、HIGO-TOP、不同參數(shù)分塊、Fisher特征選擇算法以及SVM不同核函數(shù)對微表情識別準(zhǔn)確率的影響。實(shí)驗(yàn)環(huán)境為Windows 7操作系統(tǒng)、4 GB內(nèi)存,編程環(huán)境為MATLAB 2016a。
為了更好地驗(yàn)證Fisher特征選擇方法的性能,在兩個(gè)微表情數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),分別是中國科學(xué)院心理研究所建立的CASMEII和芬蘭奧盧大學(xué)建立的SMIC。在CASMEII[24]中,分別讓26個(gè)參與者觀看不同類型的短片進(jìn)行情感誘發(fā),并采用一定的機(jī)制使其盡可能壓抑自己的情感表露,通過200 fps的高速相機(jī)拍攝的247個(gè)微表情視頻序列,標(biāo)定了5種微表情類別,CASMEII數(shù)據(jù)集類別及樣本分布如表1所示。SMIC[25-26]是通過對16個(gè)參與者采用類似的情感誘導(dǎo)機(jī)制,拍攝到了164個(gè)微表情視頻序列,標(biāo)定了3種微表情類別,其中正面情緒70個(gè),負(fù)面情緒43個(gè),驚訝51個(gè)。
表1 CASMEII微表情數(shù)據(jù)集類別及樣本分布
微表情的發(fā)生時(shí)間非常短暫(大約1/25~1/3 s),若用一個(gè)標(biāo)準(zhǔn)速度的相機(jī)來拍攝微表情,有些微表情只能維持4~5 幀,采集到的微表情序列太短將會限制特征的提取。為了解決這一難題,Li等[27]用時(shí)間插值模型(Temporal Interpolation Model,TIM)預(yù)處理微表情視頻序列為相同長度,結(jié)果表明采用TIM10模型來預(yù)處理微表情視頻序列,用時(shí)少、效果好。因此本文采用TIM10來預(yù)處理相關(guān)數(shù)據(jù)集。
(2) 對原始特征向量分別采用Fisher算法選取有效成分,實(shí)現(xiàn)降維,得到Fisher特征選擇向量。
(3) 在CASMEII和SMIC數(shù)據(jù)集中,分別用原始特征向量與Fisher特征選擇向量對支持向量機(jī)分類器進(jìn)行訓(xùn)練。支持向量機(jī)的內(nèi)核函數(shù)分別選擇卡方核(Chi-Square Kernel,CSK)、直方圖交叉核(Histogram Intersection Kernel,HIK)。
(4) 采用“留一交叉驗(yàn)證”的方式,分別計(jì)算兩類特征向量的識別率。即每次選擇一位受試者的所有視頻序列作為測試樣本,其余m個(gè)受試者的所有視頻序列作為訓(xùn)練樣本,共重復(fù)m+1次實(shí)驗(yàn),計(jì)算這m+1次的平均分類識別率。
實(shí)驗(yàn)流程如圖2所示,其中Fisher特征選擇模塊用虛線框。當(dāng)不進(jìn)行特征選擇,直接用原始特征向量進(jìn)行微表情識別實(shí)驗(yàn)時(shí),不采用該模塊。采用該模塊時(shí),是對原始特征向量進(jìn)行特征選擇后再進(jìn)行微表情識別,以此對比Fisher特征選擇對微表情識別性能的影響。
圖2 實(shí)驗(yàn)流程示意圖
表2和表3為原特征向量和Fisher選擇出的特征向量維數(shù)、分類所需時(shí)間以及該維數(shù)下微表情識別的準(zhǔn)確率。其中:n代表原特征向量的維數(shù);f代表Fisher選擇后的特征向量維數(shù);T、Acc分別代表在該特征向量下分類所需時(shí)間(單位:s)和分類識別率。
表2 原特征向量和Fisher特征向量的維數(shù)、運(yùn)算時(shí)間以及直方圖交叉核、卡方核分類準(zhǔn)確率對比(CASMEII)
續(xù)表2
表3 原特征向量和Fisher特征向量的維數(shù)、時(shí)間以及直方圖交叉核、卡方核分類準(zhǔn)確率對比(SMIC)
可以看出,在各種情況下,經(jīng)過Fisher選擇后特征向量的維數(shù)、分類所需時(shí)間較原特征向量均有大幅度的下降,而識別準(zhǔn)確率得以顯著提高。在CASMEII和SMIC數(shù)據(jù)集中,經(jīng)過Fisher特征選擇的特征向量,最高的識別率分別為75.71%和75%,而在其他參數(shù)相同的情況下,原方法的識別率為46.96%和51.22%,識別率分別提高了61.22%和46.43%(計(jì)算公式為:(Fisher識別率-原方法識別率)/原方法識別率);原特征向量的維數(shù)分別是19 116和12 744,采用的Fisher特征向量的維數(shù)分別是800和600,是原特征向量維數(shù)的4.18%和4.7%;原特征向量分類時(shí)間分別是760.49 s和129.27 s,F(xiàn)isher方法分類所需時(shí)間分別為32.50 s和2.08 s,是原特征向量分類所需時(shí)間的4.27%和1.61%。
動(dòng)作幅度小是造成微表情識別難度大的重要原因。文獻(xiàn)[27]在MATLAB環(huán)境下,在提取LBP-TOP、HOG-TOP、HIGO-TOP三種描述子之前先進(jìn)行動(dòng)作放大的實(shí)驗(yàn)。該方法在CASMEII和SMIC上的最好性能分別是67.21%和68.29%,本文在同樣實(shí)驗(yàn)環(huán)境下,沒有進(jìn)行動(dòng)作放大,采用同樣的三種特征描述子,F(xiàn)isher特征選擇后再進(jìn)行微表情識別,其最佳性能的識別率較文獻(xiàn)[27]在兩個(gè)實(shí)驗(yàn)數(shù)據(jù)集上分別提高了12.65%和9.83%。
為了進(jìn)一步從總體和平均的角度分析Fisher特征選擇方法的性能,對比了同一數(shù)據(jù)集、同一特征描述子、同一分類核函數(shù)的在各種分塊參數(shù)情況下,F(xiàn)isher方法與原方法的平均性能。表4為Fisher特征向量維數(shù)占原特征向量維數(shù)的平均比例,表5為Fisher方法分類所需時(shí)間占原特征向量分類時(shí)間的平均比例,表6為Fisher方法較原方法平均分類識別率的提高值。
表4 Fisher特征向量維數(shù)占原特征向量平均比例 %
表5 Fisher特征向量分類所需時(shí)間占原特征向量分類時(shí)間的平均比例 %
表6 Fisher特征較原特征平均分類識別率提高比例 %
可以看出,在CASMEII和SMIC數(shù)據(jù)集中,采用Fisher方法對由LBP-TOP、HOG-TOP及HIGO-TOP提取到的特征分別進(jìn)行特征選擇,再運(yùn)用SVM分類器進(jìn)行訓(xùn)練和微表情識別,在卡方核、直方圖交叉核兩種情況下,向量維數(shù)和運(yùn)算時(shí)間較原方法均有大幅度的下降,而平均識別率提高顯著。
綜上,無論從表2-表6所列出的各參數(shù)情況下的運(yùn)行實(shí)例,還是從總體和平均的角度,均表明了Fisher特征選擇方法能大幅度提高微表情分類的準(zhǔn)確率并且簡化分類運(yùn)算復(fù)雜度和運(yùn)行時(shí)間。
微表情是一個(gè)人試圖壓抑自己的真實(shí)情感,在無意識下產(chǎn)生的自發(fā)式表情,能夠在測謊、心理診斷、偵查等方面發(fā)揮巨大的作用。微表情具有時(shí)間短、強(qiáng)度弱的特點(diǎn),且發(fā)生只牽連到臉部的部分區(qū)域。針對現(xiàn)有常用的微表情特征描述子提取特征向量維數(shù)大、運(yùn)行時(shí)間久的缺點(diǎn),本文運(yùn)用Fisher特征選擇方法,對原特征向量進(jìn)行降維。首先用Fisher算法對LBP-TOP、HOG-TOP、HIGO-TOP提取的原特征向量擇優(yōu)選擇,再用SVM分類器的兩種核函數(shù)(卡方核、直方圖交叉核)進(jìn)行“留一交叉驗(yàn)證”方法的微表情分類實(shí)驗(yàn)。實(shí)驗(yàn)表明:本文算法簡單有效,在微表情CASMEII和SMIC數(shù)據(jù)集下,經(jīng)Fisher選擇后,特征向量的識別率最高分別達(dá)到75.71%和75%,較原特征向量識別率提高了61.22%和46.43%;同時(shí),在兩種數(shù)據(jù)集下,F(xiàn)isher選擇出的特征向量維數(shù)只是原特征向量維數(shù)的4.18%和4.71%,分類所需時(shí)間只是原方法的4.27%和1.61%。今后的工作重點(diǎn)是尋找微表情類別與特定面部區(qū)域的聯(lián)系,以進(jìn)一步提高微表情識別的準(zhǔn)確率。