于明,鐘元想,王巖
(1.河北工業(yè)大學(xué) 人工智能與數(shù)據(jù)科學(xué)學(xué)院,天津 300401;2.天津商業(yè)大學(xué) 信息工程學(xué)院,天津 300134)
面部表情、肢體語言、語音等能夠反映人類的真實(shí)情感,其中,面部表情是人類情感的重要表達(dá)方式之一。很多學(xué)者利用計(jì)算機(jī)視覺技術(shù)對(duì)面部表情進(jìn)行分析,進(jìn)而將其應(yīng)用到醫(yī)療服務(wù)[1]、學(xué)生課堂質(zhì)量檢測(cè)[2]、測(cè)謊[3]等人機(jī)交互系統(tǒng)中。
面部表情分為宏表情和微表情。宏表情是主動(dòng)發(fā)生的,可以偽造,有著較大的運(yùn)動(dòng)幅度。微表情持續(xù)時(shí)間較短,運(yùn)動(dòng)幅度較小,是下意識(shí)發(fā)生的,表示一個(gè)人在嘗試抑制真實(shí)情感時(shí)的一種情感泄露,其可以揭示人類的真實(shí)情感,因此,分析微表情能夠發(fā)現(xiàn)潛在的心理活動(dòng)。
2003年,EKMAN 開發(fā)了微表情培訓(xùn)工具(Micro-Expression Training Tool,METT),利用該工具可以進(jìn)行微表情識(shí)別[4]。然而,這種方式耗費(fèi)時(shí)間過長,且只能取得50%左右的準(zhǔn)確率。因此,眾多學(xué)者嘗試開發(fā)基于計(jì)算機(jī)視覺技術(shù)的微表情自動(dòng)分析系統(tǒng)。在研究初期,主要采用結(jié)合機(jī)器學(xué)習(xí)的多階段訓(xùn)練方式,先提取具有判別性的微表情運(yùn)動(dòng)特征,再訓(xùn)練一個(gè)可靠的分類器。芬蘭奧盧大學(xué)的趙國英研究團(tuán)隊(duì)[5-7]采用局部二值模式(Local Binary Pattern,LBP)以及擴(kuò)展算法捕捉面部紋理信息。中國科學(xué)院心理所的王甦菁團(tuán)隊(duì)提出主方向平均光流(Main Directional Mean Optical-flow,MDMO)[8]、張量獨(dú)立的顏色空間[9]等方法;山東大學(xué)的賁睍燁團(tuán)隊(duì)針對(duì)高維張量數(shù)據(jù)不易提取判別信息的問題,研發(fā)基于張量的最大邊緣投影用于微表情識(shí)別[10]。
隨著卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)在各個(gè)領(lǐng)域的廣泛應(yīng)用,許多研究人員將CNN與長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)相結(jié)合,研發(fā)端到端的微表情分析系統(tǒng)。KHOR等[11]將CNN 與LSTM 相結(jié)合提取微表情時(shí)空特征,但是該方法先提取空間特征再提取時(shí)序特征。LO 等[12]采用3DCNN 網(wǎng)絡(luò)表達(dá)空間信息與時(shí)間信息之間的關(guān)系。近年來,Transformer 因其能夠發(fā)現(xiàn)圖像全局依賴關(guān)系而在相關(guān)領(lǐng)域取得了良好表現(xiàn),ZHOU等[13]嘗試?yán)肨ransformer 的這一優(yōu)勢(shì),挖掘微表情面部全局運(yùn)動(dòng)關(guān)聯(lián)。
微表情分析包括檢測(cè)和識(shí)別兩個(gè)部分。微表情檢測(cè)是在微表情視頻中判斷是否存在微表情并定位時(shí)間位置。微表情識(shí)別是對(duì)存在微表情的圖像或視頻進(jìn)行分類。本文分析微表情數(shù)據(jù)集和面部圖像序列預(yù)處理方法,總結(jié)近年來微表情檢測(cè)和微表情識(shí)別方面的研究成果。首先分析基于傳統(tǒng)機(jī)器學(xué)習(xí)和基于深度學(xué)習(xí)的微表情檢測(cè)方法,其中,將機(jī)器學(xué)習(xí)方法細(xì)分為基于時(shí)間特征和基于特征變化的方法;然后比較基于紋理特征、基于光流特征和基于深度學(xué)習(xí)的微表情識(shí)別方法,在深度學(xué)習(xí)微表情識(shí)別方法中,從面部區(qū)域運(yùn)動(dòng)、關(guān)鍵幀、樣本量等角度進(jìn)行區(qū)分;最后通過多個(gè)實(shí)驗(yàn)指標(biāo)比較各類方法的特點(diǎn),并對(duì)該領(lǐng)域未來的發(fā)展方向進(jìn)行展望。
微表情分析技術(shù)的發(fā)展依賴于完善的數(shù)據(jù)集,現(xiàn)有微表情數(shù)據(jù)集可分為兩類:一類是非自發(fā)的微表情數(shù)據(jù)集,包括美國南佛羅里達(dá)大學(xué)創(chuàng)建的 USFHD[14]、日本筑波大學(xué)創(chuàng)建的 Polikovsky 數(shù)據(jù)集[15];另一類是自發(fā)的微表情數(shù)據(jù)集,包括芬蘭奧盧大學(xué)創(chuàng)建的SMIC[16],中國科學(xué)院創(chuàng)建的 CASME[17]、CASMEII[18]、CAS(ME)2[19]、CAS(ME)3[20],英國曼徹斯特城市大學(xué)創(chuàng)建的SAMM[21],山東大學(xué)創(chuàng)建的MMEW[22],加拿大PORTER 團(tuán)隊(duì)創(chuàng)建的York DDT[23]。表1 對(duì)上述數(shù)據(jù)集進(jìn)行分析與歸納,其中,F(xiàn)ACS(Facial Action Coding System)表示面部動(dòng)作編碼系統(tǒng)。
表1 微表情數(shù)據(jù)集 Table 1 Micro-expression datasets
在上述數(shù)據(jù)集中,USF-HD、Polikovsky 和York DDT 并未公開。USF-HD 中的受試者被要求同時(shí)表現(xiàn)宏表情和微表情,主要用于區(qū)分宏表情和微表情。Polikovsky 中的受試者被要求模擬微表情動(dòng)作,主要用于分析微表情所處階段。York DDT 由自發(fā)微表情組成,主要用于測(cè)謊。
經(jīng)典的自發(fā)微表情數(shù)據(jù)集有SMIC、CASME、CASMEII、SAMM、CAS(ME)2和MMEW。SMIC 有HS、VIS 和NIR 這3 個(gè)子集,分別用不同類型的攝像機(jī)捕捉微表情,受試者由8 個(gè)高加索人和8 個(gè)亞洲人組成,一共有164 個(gè)微表情片段,包含3 個(gè)微表情類別。CASME、CASMEII 和CAS(ME)2采用相同的實(shí)驗(yàn)方案。CASMEII 是CASME 的擴(kuò)展版本,分別有247 和195 個(gè)樣本:CASMEII 的分辨率為280×340 像素,有5 類微表情;CASME的分辨率為150×190 像素,有8 類微表情。CAS(ME)2收集宏表情和微表情的數(shù)據(jù),微表情分為4類,判定該數(shù)據(jù)集中表情持續(xù)時(shí)間小于0.5 s 的是微表情,否則為宏表情。SAMM包含159 個(gè)樣本,這些樣本由高速攝像機(jī)進(jìn)行記錄,分辨率為2 040×1 088 像素,有7 個(gè)微表情類別。MMEW 包含300 個(gè)樣本,有7 個(gè)微表情類別,該數(shù)據(jù)集中每個(gè)樣本都由專家標(biāo)定起始幀、頂點(diǎn)幀和終止幀,同時(shí)提供AU 標(biāo)注,分辨率為1 920×1 080 像素,相比于其他數(shù)據(jù)集具有更詳細(xì)的情感分類。
考慮到深度信息對(duì)視覺感知的影響,CAS(ME)3對(duì)深度信息進(jìn)行采集,可以更加敏銳地捕捉人臉信息的變化,該數(shù)據(jù)集包含7個(gè)微表情類別,分為Part A、Part B、Part C 三部分,Part A 和Part B 采用觀看視頻時(shí)保持中性表情的方式誘導(dǎo)微表情,Part A 中包含943 個(gè)有標(biāo)簽微表情樣本,Part B 中包含1 508 個(gè)無標(biāo)簽樣本,Part C中包含166 個(gè)樣本,其采用模擬犯罪的誘發(fā)范式誘導(dǎo)微表情,得到了高生態(tài)效度的數(shù)據(jù)集,為在真實(shí)環(huán)境中進(jìn)行微表情分析提供了基礎(chǔ)。
數(shù)據(jù)集中的評(píng)估方式包括單一數(shù)據(jù)集驗(yàn)證方法和跨數(shù)據(jù)集驗(yàn)證方法。在單一數(shù)據(jù)集驗(yàn)證方法中,采用留一法、留一視頻法和k 折交叉驗(yàn)證法將微表情數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集。在跨數(shù)據(jù)集驗(yàn)證方法中,采用復(fù)合數(shù)據(jù)集驗(yàn)證法和保留數(shù)據(jù)集驗(yàn)證法,其中,復(fù)合數(shù)據(jù)集驗(yàn)證法將多個(gè)數(shù)據(jù)集進(jìn)行合并再利用留一法劃分訓(xùn)練集和測(cè)試集,保留數(shù)據(jù)集驗(yàn)證法將一個(gè)數(shù)據(jù)集作為訓(xùn)練集,另外一個(gè)數(shù)據(jù)集作為測(cè)試集。
通常采用的實(shí)驗(yàn)指標(biāo)包括準(zhǔn)確率、精確率、未加權(quán)F1 分?jǐn)?shù)、加權(quán)F1 分?jǐn)?shù)、未加權(quán)平均召回率和加權(quán)平均召回率。
原始圖像序列是在一定的環(huán)境背景下拍攝而成的,不可避免地存在噪聲,對(duì)圖像序列進(jìn)行預(yù)處理,消除無關(guān)信息,保留面部關(guān)鍵信息,有利于特征提取和微表情分類。預(yù)處理的關(guān)鍵技術(shù)主要包括人臉檢測(cè)、人臉裁剪和對(duì)齊、幀歸一化、面部圖像分塊。
人臉檢測(cè)方法有基于方向梯度直方圖(Histogram of Oriented Gridients,HOG)特征的人臉檢測(cè)法[24]、基于特征金字塔網(wǎng)絡(luò)的方法[25]等;人臉裁剪和對(duì)齊方法有活動(dòng)形狀模型(Active Shape Models,ASM)[26]、約束局部模型(Constraint Local Model,CLM)[27]等;幀歸一化方法有時(shí)域插值模型等;面部圖像分塊方法有象限分割、網(wǎng)格分割、德勞奈三角測(cè)量、基于FACS 的分割等[28]。
微表情檢測(cè)的目標(biāo)是判斷視頻中是否存在微表情,若存在,則對(duì)微表情進(jìn)行定位,找到微表情起始點(diǎn)、頂點(diǎn)、終止點(diǎn)。起始點(diǎn)是微表情運(yùn)動(dòng)的開始,頂點(diǎn)是微表情肌肉運(yùn)動(dòng)幅度達(dá)到最大值的時(shí)間點(diǎn),終止點(diǎn)是微表情結(jié)束的時(shí)間點(diǎn)。微表情序列檢測(cè)方法可以分為基于傳統(tǒng)機(jī)器學(xué)習(xí)特征的檢測(cè)方法和基于深度特征的檢測(cè)方法兩類。表2和表3分別對(duì)兩種檢測(cè)方法進(jìn)行總結(jié)。
表2 基于傳統(tǒng)機(jī)器學(xué)習(xí)特征的微表情檢測(cè)方法 Table 2 Micro-expression detection methods based on traditional machine learning features
表3 基于深度特征的微表情檢測(cè)方法 Table 3 Micro-expression detection methods based on depth features
在基于傳統(tǒng)機(jī)器學(xué)習(xí)特征的檢測(cè)方法中,一類方法在時(shí)間維度上檢測(cè)微表情,另一類方法通過計(jì)算特征變化來檢測(cè)微表情。
3.1.1 基于時(shí)間特征的微表情檢測(cè)方法
SHREVE等[14,29]利用中心差分法計(jì)算下巴、嘴、臉頰、前額這些區(qū)域的光流場(chǎng),得到面部產(chǎn)生的運(yùn)動(dòng)強(qiáng)度,以此來檢測(cè)微表情。該方法可以判斷視頻序列中是否存在微表情,但是需要通過人工設(shè)定閾值,在訓(xùn)練數(shù)據(jù)較少的情況下,無法保證所選擇閾值的可靠性。對(duì)應(yīng)區(qū)域點(diǎn)的運(yùn)動(dòng)向量可以用u=[u,v]T表示,有限應(yīng)變張量ε可以用式(1)表示:
其中:u、v表示每個(gè)點(diǎn)的運(yùn)動(dòng)向量;εxx和εyy表示法向應(yīng)變分量;εxy和εyx表示切向應(yīng)變分量。
PATEL等[30]利用運(yùn)動(dòng)特征獲取方向連續(xù)性進(jìn)行微表情檢測(cè),先將判別響應(yīng)圖擬合模型[17]結(jié)合FACS定位人臉關(guān)鍵點(diǎn),并將關(guān)鍵點(diǎn)分為多個(gè)區(qū)域,再計(jì)算每個(gè)區(qū)域的平均運(yùn)動(dòng),最后通過累加每個(gè)區(qū)域的運(yùn)動(dòng)幅值找到相應(yīng)區(qū)域的運(yùn)動(dòng)頂點(diǎn)。通過計(jì)算平均運(yùn)動(dòng)并設(shè)定閾值,減少頭部運(yùn)動(dòng)、眨眼等動(dòng)作對(duì)微表情檢測(cè)的影響。然而,不同區(qū)域之間存在隱藏關(guān)聯(lián),該方法僅依靠單一區(qū)域檢測(cè)微表情,無法充分體現(xiàn)微表情的區(qū)域運(yùn)動(dòng)關(guān)聯(lián)。
MA等[31]統(tǒng)計(jì)運(yùn)動(dòng)單元發(fā)生的區(qū)域,接著根據(jù)運(yùn)動(dòng)出現(xiàn)的頻率選擇感興趣區(qū)域(Regions of Interest,ROI),最后提取光流場(chǎng),計(jì)算定向光流直方圖(Histogram of Oriented Optical Flow,HOOF),自動(dòng)識(shí)別頂點(diǎn)幀。該方法可以有效提高頂點(diǎn)幀檢測(cè)的準(zhǔn)確性,但其忽視了角度信息。GUO等[32]提出結(jié)合幅值與角度的光流特征提取方法,選擇眼瞼、眉毛、嘴角鼻子兩側(cè)這4 個(gè)ROI 提取光流向量,獲取可靠的運(yùn)動(dòng)信息,每一幀的光流幅值A(chǔ)i計(jì)算如式(2)所示,光流角度信息θi使用反三角函數(shù)進(jìn)行計(jì)算,如式(3)所示:
其中:i表示當(dāng)前幀數(shù);pi表示水平分量;ri表示垂直分量。
WANG[33]使用光流在主方向最大差異(Main Directional Maximal Difference,MDMD)進(jìn)行微表情定位,獲得了更加可靠的運(yùn)動(dòng)特征。在輸入的視頻序列中,設(shè)定當(dāng)前幀為Fi,F(xiàn)i的前k幀為Fi-k,F(xiàn)i的后k幀為Fi+k。將面部分為不同的區(qū)域,計(jì)算Fi-k幀與Fi幀、Fi-k幀與Fi+k幀的魯棒局部光流,將光流矢量個(gè)數(shù)最多的方向定義為主方向,并根據(jù)主方向計(jì)算所有區(qū)域中的差值并進(jìn)行降序排列,選擇前1/3作為Fi幀的特征,最后根據(jù)運(yùn)動(dòng)方向檢測(cè)微表情,檢測(cè)過程如圖1 所示。MDMD 雖然在檢測(cè)長視頻中的微表情時(shí)能夠取得很好的效果,但是不易選擇合適的k值,k值過大,對(duì)光流的計(jì)算會(huì)有影響,k值過小,則主方向上的差異也會(huì)很小,另外,該方法只能檢測(cè)單一幀的面部運(yùn)動(dòng)。在MDMD 方法的基礎(chǔ)上,HE 等[34]增加一個(gè)后處理步驟,將原先輸出幀的相鄰幀都視為微表情,形成一個(gè)間隔,但是該方法同樣需要手動(dòng)設(shè)置參數(shù)。為了消除頭部擺動(dòng)造成的影響,ZHANG等[35]從鼻子區(qū)域提取平均光流和局部運(yùn)動(dòng)矢量檢測(cè)微表情,此外還采用多尺度濾波器提高微表情檢測(cè)性能。HE等[36]選取14 個(gè)ROI 捕獲細(xì)微面部運(yùn)動(dòng),引入密集光流來估計(jì)ROI 的局部運(yùn)動(dòng),結(jié)合時(shí)域變化曲線的峰值檢測(cè)方法精確定位運(yùn)動(dòng)間隔。
圖1 MDMD 方法檢測(cè)流程Fig.1 Detection procedure of MDMD method
3.1.2 基于特征變化的微表情檢測(cè)方法
POLIKOVSKY等[15,37]將人臉圖像劃分為12 個(gè)ROI 區(qū)域,計(jì)算區(qū)域中的HOG 特征,通過k-means 算法判斷面部肌肉運(yùn)動(dòng)幅度的變化區(qū)間。該方法設(shè)計(jì)簡(jiǎn)潔,但是不適用于自發(fā)的微表情。DAVISON等[38]使用HOG 特征關(guān)注人臉運(yùn)動(dòng),但是沒有充分利用角度信息。
MOILANEN等[5]將人臉圖像分割為36 個(gè)區(qū)域,計(jì)算每個(gè)區(qū)域的LBP 直方圖特征,觀察相同的區(qū)域中序列幀的特征變化情況。此外,為了觀察當(dāng)前幀在圖像序列中的變化強(qiáng)度,計(jì)算與當(dāng)前幀間隔k幀的前后兩幀的特征平均值,最后得到當(dāng)前幀與平均值的卡方距離。XIA[39]基于ASM 和尺度不變特征變換描述符提取人臉關(guān)鍵點(diǎn),接著使用Procrustes 分析方法將關(guān)鍵點(diǎn)進(jìn)行對(duì)齊,消除頭部運(yùn)動(dòng)和光照變化對(duì)微表情的影響。此外,采用隨機(jī)漫步模型計(jì)算幀間的變形相關(guān)性,獲取轉(zhuǎn)移概率。最后,設(shè)定閾值進(jìn)行微表情檢測(cè)。LI等[40]利用Kanade-Lucas-Tomasi算法跟蹤圖像序列中的3 個(gè)點(diǎn),分別為2 個(gè)內(nèi)眼角和1 個(gè)鼻脊點(diǎn),根據(jù)3 個(gè)點(diǎn)對(duì)圖像序列進(jìn)行校正,接著將人臉圖像分為36 個(gè)圖像區(qū)域,計(jì)算每個(gè)區(qū)域中的LBP 特征和HOOF 特征,以此計(jì)算每幀的特征差分值,最后根據(jù)設(shè)定的閾值檢測(cè)微表情的起始點(diǎn)、頂點(diǎn)、終止點(diǎn)。雖然文獻(xiàn)[5,39-40]方法均能取得較好的實(shí)驗(yàn)結(jié)果,但是不易確定可靠的閾值或參數(shù),在實(shí)際應(yīng)用中有很多不確定性。
YAN等[41]、LIONG等[42]和HAN等[43]分別提出定位微表情頂點(diǎn)的方法。文獻(xiàn)[41]方法使用CLM 定位人臉關(guān)鍵點(diǎn),計(jì)算圖像序列與第一幀的相關(guān)性,最后根據(jù)峰值定位頂點(diǎn)幀。文獻(xiàn)[42]方法根據(jù)運(yùn)動(dòng)單元和人臉關(guān)鍵點(diǎn)對(duì)人臉區(qū)域進(jìn)行劃分,然后采用LBP、CLM、光學(xué)應(yīng)變(Optical Strain,OS)提取特征,最后根據(jù)二叉搜索策略定位頂點(diǎn)幀。上述兩種方法不需要人工設(shè)定閾值,但是只能定位頂點(diǎn)幀。文獻(xiàn)[43]提出協(xié)同特征差異算法,利用LBP特征和MDMO特征作為互補(bǔ)特征,將人臉劃分為ROI 區(qū)域,并給不同的區(qū)域分配不同的權(quán)重,從而突出關(guān)鍵區(qū)域,最后計(jì)算區(qū)域的特征差以定位頂點(diǎn)幀。
基于機(jī)器學(xué)習(xí)的微表情檢測(cè)方法能夠有效提取更多的面部運(yùn)動(dòng)變化細(xì)節(jié)信息,基于特征變化的方法大多依賴于設(shè)定的最佳上下限閾值,上限閾值能夠區(qū)分宏微表情,下限閾值能夠定義微表情的最小運(yùn)動(dòng)振幅,但是閾值的設(shè)定具有不可靠性,面部眨眼等噪聲動(dòng)作也會(huì)對(duì)閾值判定造成影響。基于時(shí)間特征的方法計(jì)算復(fù)雜度高,無法滿足實(shí)時(shí)檢測(cè)的需求。
ZHANG等[44]首次將深度學(xué)習(xí)方法用于微表情檢測(cè),利用頂點(diǎn)幀的相鄰幀擴(kuò)充數(shù)據(jù)集,然后使用SMEConvNet 網(wǎng)絡(luò)提取特征,最后使用滑動(dòng)窗口對(duì)特征矩陣進(jìn)行處理,從而定位頂點(diǎn)幀。相較傳統(tǒng)機(jī)器學(xué)習(xí)方法,其檢測(cè)效果得到提升,但是只能檢測(cè)頂點(diǎn)幀。TRAN等[45]提出基于深度序列模型的微表情檢測(cè)方法,采用機(jī)器學(xué)習(xí)方法提取視頻序列中每個(gè)位置的時(shí)空特征,接著使用LSTM 網(wǎng)絡(luò)預(yù)測(cè)頂點(diǎn)幀,其改善了由幀間距離導(dǎo)致的網(wǎng)絡(luò)魯棒性差問題。DING等[46]利用滑動(dòng)窗口將微表情長視頻片段分割成幾個(gè)短視頻,將光流與LSTM 相結(jié)合,通過改進(jìn)的低復(fù)雜度的光流算法提取特征曲線,接著使用LSTM 預(yù)測(cè)微表情的發(fā)生,從而達(dá)到實(shí)時(shí)檢測(cè)微表情的目的,但是該方法在劃分短視頻時(shí)采用固定大小的滑動(dòng)窗口,不能很好地反映滑動(dòng)窗口生成的候選片段屬于微表情的程度,導(dǎo)致起始幀和終止幀出現(xiàn)定位不準(zhǔn)確的情況。
為了解決低強(qiáng)度微表情對(duì)微表情定位的影響,PAN等[47]提出一種局部雙線性卷積神經(jīng)網(wǎng)絡(luò),將微表情定位問題轉(zhuǎn)變?yōu)榧?xì)粒度圖像分類問題,使用MDMD 獲取面部局部區(qū)域,分別為左眉毛、右眉毛、鼻子和嘴,再將人臉圖像和這4 個(gè)區(qū)域輸入到網(wǎng)絡(luò)中,分別獲取全局特征和局部特征,最后融合全局特征和局部特征進(jìn)行微表情檢測(cè)。該方法可以捕捉微表情細(xì)微的運(yùn)動(dòng),但是只能檢測(cè)單幀圖片。同樣地,LIONG等[48]提出的多流淺層網(wǎng)絡(luò)也只能檢測(cè)單幀微表情。WANG等[49]提出微表情定位網(wǎng)絡(luò)(Micro-Expression Spotting Network,MESNet),用于在長視頻中定位微表情序列,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。首先使用二維卷積網(wǎng)絡(luò)提取空間特征,接著使用一維卷積提取時(shí)間特征,根據(jù)剪輯建議網(wǎng)絡(luò)找出微表情序列的時(shí)間位置,最后通過分類網(wǎng)絡(luò)判定剪輯的視頻是否屬于微表情。該方法具有較好的檢測(cè)效果,但是模型包含了時(shí)空卷積網(wǎng)絡(luò)模塊、剪輯模塊和分類回歸模塊,龐大的參數(shù)量導(dǎo)致網(wǎng)絡(luò)效率較低,無法達(dá)到實(shí)時(shí)檢測(cè)的效果。
圖2 MESNet 網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 MESNet network structure
與文獻(xiàn) [48]方法和文獻(xiàn) [49]方法不同,XUE等[50]提出兩階段的微表情定位網(wǎng)絡(luò),將頂點(diǎn)幀定位和微表情間隔相結(jié)合,將光流的水平分量、垂直分量以及光學(xué)應(yīng)變輸入到第一階段的三流注意力網(wǎng)絡(luò)中,提取時(shí)空特征,定位頂點(diǎn)幀。TAKALKAR等[51]將雙重注意力網(wǎng)絡(luò)與二維卷積網(wǎng)絡(luò)相結(jié)合,提出一種基于雙重注意網(wǎng)絡(luò)結(jié)構(gòu),使用局部注意力模塊關(guān)注特定區(qū)域,同時(shí)構(gòu)建全局注意力模塊關(guān)注全局面部運(yùn)動(dòng)信息,模型在具有較高檢測(cè)效率的同時(shí)取得了較好的魯棒性。為了降低眨眼和光照的影響,GUPTA[52]將改進(jìn)的特征編碼與多尺度濾波器卷積網(wǎng)絡(luò)相結(jié)合,增加眉毛區(qū)域時(shí)間變形的可信度,同時(shí)也更好地探索序列之間的時(shí)序關(guān)聯(lián),提高了網(wǎng)絡(luò)效率。但是,該方法依賴精準(zhǔn)的預(yù)處理方法對(duì)眉毛和嘴巴進(jìn)行對(duì)齊和定位,需要更多的預(yù)處理時(shí)間。ZHOU等[13]提出一種基于雙向Transformer 的微表情檢測(cè)網(wǎng)絡(luò),首先利用候選片段生成模塊生成候選段,接著由時(shí)空特征提取模塊將候選段劃分為更小的時(shí)隙,最后通過分組模塊合并片段,定位微表情的起始幀和頂點(diǎn)幀。該方法很好地利用了時(shí)序信息,關(guān)注了幀間的相關(guān)性。
基于深度學(xué)習(xí)的微表情檢測(cè)方法相較于機(jī)器學(xué)習(xí)方法,具有更高的檢測(cè)效率,但是存在耗時(shí)、不穩(wěn)定等問題。由于微表情檢測(cè)模型需要提供判別模型以及剪輯模型,存在龐大的計(jì)算量,計(jì)算復(fù)雜度隨之上升,在部分小型網(wǎng)絡(luò)中,通常采用濾波器過濾峰值曲線,但是濾波器的不穩(wěn)定性會(huì)給檢測(cè)結(jié)果造成影響。
微表情識(shí)別是指對(duì)檢測(cè)到的微表情進(jìn)行識(shí)別并分類,根據(jù)特征提取的方式可以將微表情識(shí)別方法分為基于手工機(jī)器學(xué)習(xí)特征的識(shí)別方法和基于深度學(xué)習(xí)特征的識(shí)別方法。
基于手工機(jī)器學(xué)習(xí)特征的識(shí)別方法又可以分為基于紋理特征和基于光流特征的識(shí)別方法。
4.1.1 基于紋理特征的識(shí)別方法
微表情包含大量有效的時(shí)序信息,PFISTER等[53]為了發(fā)現(xiàn)微表情中的運(yùn)動(dòng)時(shí)空關(guān)系,利用三維正交平面的局部二值模式(Local Binary Pattern from Three Orthogonal Planes,LBP-TOP)提取特征,其微表情識(shí)別流程如圖3 所示。
圖3 LBP-TOP 微表情識(shí)別流程Fig.3 Micro-expression recognition procedure of LBP-TOP
LBP-TOP在XY、XT、YT這3個(gè)正交平面上提取LBP特征,并將得到的結(jié)果進(jìn)行拼接作為最終的LBP-TOP特征,該方法能夠有效捕捉時(shí)域信息,但是需要計(jì)算3個(gè)平面的特征,其特征維度高,只考慮2 個(gè)像素之間的特征差異,未考慮其他有用信息。為了解決該問題,WANG等[54]使用中心點(diǎn)上3條相交線的六交點(diǎn)減少冗余信息,提出六交點(diǎn)局部二值模式(Local Binary Pattern with Six Intersection Points,LBP-SIP)算法,該算法可以減少很多冗余信息,且計(jì)算速度快,但是其存在魯棒性差的問題。HUANG等[6]為了能夠捕捉水平和垂直積分投影的外觀和運(yùn)動(dòng)變化,提出積分投影時(shí)空局部二值模式(Spatio-Temporal Local Binary Pattern with Integral Projection,STLBP-IP)算法,該算法能夠有效保留人臉圖像的形狀特征,所采用的積分投影能夠更好地發(fā)現(xiàn)同類情緒的統(tǒng)計(jì)分布,但是其只關(guān)注類內(nèi)信息的相似性,忽視了樣本間的判別信息。之后,HUANG等[7]提出時(shí)空完全局部量化模式(Spatio-Temporal Completed Local Quantized Patterns,STCLQP)算法,該算法利用3 種有用的信息,包括基于符號(hào)、基于大小和基于方向的像素差,同時(shí)設(shè)計(jì)一種時(shí)空域的碼本,在碼本的基礎(chǔ)上提取時(shí)空特征,這使得局部模式更具判別性。
融合紋理和形狀信息進(jìn)行識(shí)別的效果優(yōu)于僅使用外觀信息進(jìn)行識(shí)別,為此,HUANG等[55]提出判別性時(shí)空局部二值模式算子(Discriminative Spatio-Temporal Local Binary Pattern with Revisited Integral Projection,DISTLBP-RIP)方法,以用于微表情識(shí)別,該方法將形狀屬性與動(dòng)態(tài)紋理信息相結(jié)合,獲得更具判別性的特征。當(dāng)微表情發(fā)生時(shí),面部肌肉在斜方向上會(huì)發(fā)生偏移,但LBP-TOP 只能捕捉水平和垂直方向上的信息,因此,WEI 等[56]提出五相交局部二值模式(Local Binary Pattern from Five Intersecting Planes,LBP-FIP)方法,先提取在偏離X或Y方向45°的斜方向上8 個(gè)頂點(diǎn)的LBP特征,獲得八頂點(diǎn)局部二值模式特征(Eight Vertices Local Binary Pattern features,EVLBP),然后與LBPTOP 提取的水平和垂直方向上的特征進(jìn)行級(jí)聯(lián)。
HOG 特征可以表示圖像的紋理信息,LI等[40]利用HOG 及其擴(kuò)展算法作為特征描述符,提取面部結(jié)構(gòu)信息,引入圖像梯度直方圖(Histograms of Image Gradient Orientation,HIGO),改變投票策略,降低光照對(duì)微表情識(shí)別的影響。相較LBP 相關(guān)方法,該算法更加適合在彩色視頻中進(jìn)行微表情識(shí)別。WEI等[57]提出單方向梯度直方圖(Histogram of Single Direction Gradient,HSDG)算法,該算法在某一運(yùn)動(dòng)方向上提取梯度值,簡(jiǎn)化HOG,最后將HSDG 與LBP-TOP 特征進(jìn)行級(jí)聯(lián),得到具有外觀紋理和運(yùn)動(dòng)信息的LBP-SDG(LBP with Single Direction Gradient)特征,其捕捉到了最有利于微表情識(shí)別的運(yùn)動(dòng)特征,但是選取18 個(gè)方向進(jìn)行測(cè)試,計(jì)算復(fù)雜度過高。
4.1.2 基于光流特征的識(shí)別方法
光流特征可以有效提取微表情的時(shí)間信息。LIU等[8]提出MDMO 特征用于微表情識(shí)別,將人臉劃分為36 個(gè)感興趣區(qū)域,減少了與表情無關(guān)的冗余信息。在各個(gè)區(qū)域中計(jì)算HOOF 直方圖,將直方圖特征的最大值索引作為主方向,最后計(jì)算主方向上向量特征的均值從而進(jìn)行微表情識(shí)別,其識(shí)別流程如圖4 所示。
圖4 MDMO 微表情識(shí)別流程Fig.4 Micro-expression recognition procedure of MDMO
MDMO 考慮到了各個(gè)區(qū)域的運(yùn)動(dòng)信息和空間位置,易于實(shí)現(xiàn)且特征維數(shù)小,但是容易丟失特征空間中固有的底層流形結(jié)構(gòu),采用預(yù)定義的AU關(guān)系進(jìn)行建模,導(dǎo)致模型泛化能力較差。LIU 等[58]在MDMO 的基礎(chǔ)上提出Sparse MDMO,能夠有效揭示底層流形結(jié)構(gòu),比MDMO 特征具有更強(qiáng)的判別能力。
為降低小強(qiáng)度噪聲光流的影響,LIONG[59]提出雙加權(quán)定向光流(Bi-Weighted Oriented Optical Flow,Bi-WOOF),首先估計(jì)頂點(diǎn)幀和起始幀之間的水平和垂直光流分量,然后根據(jù)這兩個(gè)分量計(jì)算每個(gè)像素點(diǎn)的方向、幅值和光學(xué)應(yīng)變,最后通過局部加權(quán)的幅值和全局加權(quán)的光學(xué)應(yīng)變獲得基于方向的Bi-WOOF 直方圖。然而,利用光流直方圖作為分類器的特征向量時(shí),光流直方圖的輕微偏移會(huì)增大圖像之間的歐氏距離,放大兩個(gè)圖像之間的差異,從而影響識(shí)別效果。HAPPY等[60]提出光流方向的模糊直方圖(Fuzzy Histogram of Optical Flow Orientations,F(xiàn)HOFO),其能忽略無關(guān)運(yùn)動(dòng),對(duì)表情強(qiáng)度和光照的變化不敏感。WANG[61]認(rèn)為基于運(yùn)動(dòng)強(qiáng)度的權(quán)值容易受到圖像噪聲的影響,因此,提出一種新的基于光流時(shí)間累積的加權(quán)特征提取方法MINOF(Motion Intensities of Neighboring Optical Flows):首先計(jì) 算微表情視頻中的光流時(shí)間累積,以降低圖像噪聲的影響;接著根據(jù)光流累積大小計(jì)算各區(qū)域的運(yùn)動(dòng)強(qiáng)度,獲取每個(gè)區(qū)域的權(quán)重;最后將局部特征和權(quán)重相乘生成全局特征,有效去除噪聲運(yùn)動(dòng)的權(quán)重,提高權(quán)值的有效性。
基于手工機(jī)器學(xué)習(xí)特征的微表情識(shí)別方法關(guān)注像素點(diǎn)的變化情況,可以保留更多的信息,對(duì)不同的面部表情具有很好的靈活性,能夠忽略光照強(qiáng)度的影響,但是其特征維度高,計(jì)算復(fù)雜度高,需要結(jié)合特征選擇算法過濾無效信息,以降低計(jì)算復(fù)雜度。MDMO、Bi-WOOF 等方法依賴于面部對(duì)齊效果,無法實(shí)現(xiàn)良好的微表情識(shí)別效果。上述方法的實(shí)驗(yàn)指標(biāo)對(duì)比如表4 所示,其中,ACC(Accuracy)表示準(zhǔn)確率,F(xiàn)1表示F1分?jǐn)?shù)。從表4 可以看出:LBP-TOP、STCLQP、Sparse MDMO 在SMIC 數(shù)據(jù)集上分別取得了0.542、0.640、0.705 的準(zhǔn)確率,這是因?yàn)镾MIC 數(shù)據(jù)集只有3 個(gè)情緒類別,同時(shí)采集微表情所用的近紅外攝像機(jī)也減少了光照對(duì)微表情的影響;LBP-TOP、STCLQP、Sparse MDMO在CASMEII數(shù)據(jù)集上分別取得了0.464、0.584、0.670 的準(zhǔn)確率,這是由于CASMEII 數(shù)據(jù)集情緒類別較完備,樣本分布更加均衡。
表4 基于手工機(jī)器學(xué)習(xí)特征的微表情識(shí)別方法 Table 4 Micro-expression recognition methods based on manual machine learning features
本節(jié)從AU、關(guān)鍵幀、遷移學(xué)習(xí)三方面對(duì)基于深度學(xué)習(xí)的微表情識(shí)別方法展開討論。
4.2.1 基于AU 的識(shí)別方法
在微表情運(yùn)動(dòng)中,分析AU 能夠發(fā)現(xiàn)潛在面部運(yùn)動(dòng)和情緒之間的關(guān)系。FACS 對(duì)面部行為進(jìn)行編碼,每個(gè)編碼表示一個(gè)AU,如AU1 代表內(nèi)部眉毛抬起、AU6 代表臉頰抬起等。不同AU 組合所表示的情緒如表5 所示?;趫D的學(xué)習(xí)算法可以在非歐氏數(shù)據(jù)中發(fā)現(xiàn)每個(gè)對(duì)象節(jié)點(diǎn)之間的關(guān)系,AU 通常與圖卷積(Graph Convolutional Network,GCN)相結(jié)合?;贏U 的微表情識(shí)別方法實(shí)驗(yàn)指標(biāo)對(duì)比如表6 所示,其中,CASMEII 和SAMM 默認(rèn)為五分類。
表5 情緒與AU 的關(guān)系 Table 5 The relationship between emotion and AU
表6 基于AU 的微表情識(shí)別方法性能對(duì)比 Table 6 Performance comparison of micro-expression recognition methods based on AU
WANG 等[9]基于AU定義16 個(gè)ROI,提取每個(gè)ROI 的特征,但預(yù)定義的AU 規(guī)則會(huì)導(dǎo)致泛化能力有限。LO 等[12]利用GCN 發(fā)現(xiàn)AU 之間的依賴關(guān)系,提出MER-GCN 網(wǎng)絡(luò)用于微表情識(shí)別,這是第一個(gè)基于GCN 的端到端微表情識(shí)別網(wǎng)絡(luò),其結(jié)構(gòu)如圖5所示。
圖5 MER-GCN 網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 MER-GCN network structure
MER-GCN 將每對(duì)AU 的共現(xiàn)作為相關(guān)關(guān)系構(gòu)建鄰接矩陣,然后通過GCN 獲取不同AU 之間的隱藏關(guān)系,最后將其與3DCNN 殘差模塊提取的特征進(jìn)行融合,以完成微表情識(shí)別。該方法關(guān)注了局部動(dòng)作變化,但是3DCNN 具有較大的參數(shù)量,同時(shí)AU關(guān)聯(lián)矩陣依靠共現(xiàn)作為相互關(guān)系,極易受到噪聲動(dòng)作的影響。LEI 等[62]設(shè)計(jì)雙流圖時(shí)序卷積網(wǎng)絡(luò)(Graph-TCN),通過獲取微表情局部肌肉的運(yùn)動(dòng)特征進(jìn)行微表情識(shí)別。首先選擇眉毛和嘴巴區(qū)域的28 個(gè)人臉關(guān)鍵點(diǎn),提取這些關(guān)鍵點(diǎn)7×7 的特征矩陣,并壓縮成長度為49 的特征向量,以此為基礎(chǔ)構(gòu)建圖結(jié)構(gòu)并輸入到雙通道網(wǎng)絡(luò)中,最后將提取的節(jié)點(diǎn)特征和邊緣特征進(jìn)行融合以完成微表情識(shí)別。Graph-TCN 能夠更好地分析微表情的局部運(yùn)動(dòng)信息,具有較好的判別性,但其利用固定的擴(kuò)張因子學(xué)習(xí)邊緣特征,只能學(xué)習(xí)到固定區(qū)域的關(guān)聯(lián)變化。LEI 等[63]提出雙流網(wǎng)絡(luò)Graph-GCN,包括圖學(xué)習(xí)流和AU 學(xué)習(xí)流。AU 學(xué)習(xí)模型選擇與眉毛和嘴巴相關(guān)的9 個(gè)AU,利用AU 的共現(xiàn)關(guān)系構(gòu)建鄰接矩陣,采用單詞嵌入的方法構(gòu)建節(jié)點(diǎn)矩陣,將這兩個(gè)矩陣輸入到雙層GCN 中提取特征,最后融合圖學(xué)習(xí)流的特征進(jìn)行分類。ZHAO 等[64]提出時(shí)空AU 圖卷積網(wǎng)絡(luò)(Spatio-Temporal AU Graph Convolutional Network,STAGCN),先利用3DCNN 提取AU 相關(guān)區(qū)域的時(shí)空運(yùn)動(dòng)信息,再通過GCN 捕捉AU 的依賴關(guān)系,最后與全臉特征相乘得到激活特征進(jìn)行微表情識(shí)別。SUN等[65]提出一個(gè)雙分支融合的微表情識(shí)別框架(Dual Expression Fusion micro-expression recognition framework,DEF-Net),使用OpenFace 模型分析AU 的發(fā)生,將深度網(wǎng)絡(luò)提取的人臉特征與AU 進(jìn)行級(jí)聯(lián),捕獲細(xì)微面部運(yùn)動(dòng)以完成微表情識(shí)別。WANG等[66]將AU 與人臉關(guān)鍵點(diǎn)相結(jié)合,構(gòu)建眼睛、鼻子、臉頰和嘴巴等4 個(gè)感興趣區(qū)域,接著將相應(yīng)區(qū)域進(jìn)行加權(quán),最后結(jié)合所提出的MER-AMRE(MER framework with Attention Mechanism and Region Enhancement)網(wǎng)絡(luò)提取特征,提高了網(wǎng)絡(luò)提取局部運(yùn)動(dòng)信息的能力。CEN等[67]為了挖掘面部表情與AU 之間的關(guān)聯(lián),將微表情視頻分割為多個(gè)相鄰視頻片段,揭示三維鄰域的時(shí)空特征變化情況,最后結(jié)合所提出的多任務(wù)面部活動(dòng)模式學(xué)習(xí)框架(Multi-task Facial Activity Patterns Learning Framework,MFAPLF),促進(jìn)同類微表 情聚合。
4.2.2 基于關(guān)鍵幀的識(shí)別方法
文獻(xiàn)[59,68]使用單一頂點(diǎn)幀進(jìn)行微表情識(shí)別,大幅減少了輸入幀的冗余信息,降低了特征的計(jì)算復(fù)雜度。LI等[69]基于VGG-16 CNN 架構(gòu)提出一個(gè)基于局部和全局信息的學(xué)習(xí)模型(LGCcon),分別提取全局和局部特征。先利用歐拉運(yùn)動(dòng)放大方法將頂點(diǎn)幀的細(xì)微運(yùn)動(dòng)進(jìn)行放大,再采用全局信息流提取整個(gè)面部圖像的上下文信息,利用局部信息流將面部圖像劃分為子區(qū)域,尋找貢獻(xiàn)最大的局部區(qū)域并提取特征,最后將局部和全局特征進(jìn)行融合以完成微表情識(shí)別。實(shí)驗(yàn)結(jié)果表明,與完整的序列相比,單一頂點(diǎn)幀也能獲得較好的性能,但是參數(shù)量相比于單分支結(jié)構(gòu)更大,模型能夠獲取關(guān)聯(lián)特征,但需要對(duì)全局和局部定義多重約束條件,同時(shí)需要引入多個(gè)損失函數(shù)來區(qū)分類內(nèi)和類間特征,模型復(fù)雜度過高。
起始幀和頂點(diǎn)幀之間的運(yùn)動(dòng)變化在微表情識(shí)別中具有較強(qiáng)的判別性,文獻(xiàn)[70-72]方法使用起始幀和頂點(diǎn)幀的光流提取面部的運(yùn)動(dòng)特征。LEI等[63]抽取起始幀和頂點(diǎn)幀作為輸入,設(shè)計(jì)Graph-GCN 網(wǎng)絡(luò),先利用MagNet[73]對(duì)頂點(diǎn)幀進(jìn)行放大,接著將圖學(xué)習(xí)模型和AUs 學(xué)習(xí)模型提取的特征進(jìn)行融合以完成微表情識(shí)別,其網(wǎng)絡(luò)結(jié)構(gòu)如圖6 所示。
圖6 Graph-GCN 網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Graph-GCN network structure
Graph-GCN 網(wǎng)絡(luò)可以學(xué)習(xí)到節(jié)點(diǎn)間的信息關(guān)聯(lián),但采用預(yù)定義的AU 信息,限制了模型的學(xué)習(xí)能力。其次,Transformer層數(shù)縮減為原始模型的一半,但依然存在較大的參數(shù)量。最后,雙分支融合模塊僅采用簡(jiǎn)單的串聯(lián)操作,增加了冗余信息。ZHAO等[71]采用基于L1 的總變差光流算法計(jì)算起始幀與頂點(diǎn)幀之間的運(yùn)動(dòng)信息,并將得到的光流特征反饋給后續(xù)的深度網(wǎng)絡(luò)。GAN等[74]提出基于頂點(diǎn)幀的光流特征網(wǎng)絡(luò)(Optical Flow Features from Apex frame Network,OFF-ApexNet),采用起始幀和頂點(diǎn)幀來提取兩個(gè)方向的光流,表示微表情的運(yùn)動(dòng)細(xì)節(jié),輸入到深度網(wǎng)絡(luò)中進(jìn)行特征增強(qiáng),從而獲得更具判別性的特征以完成微表情識(shí)別。文獻(xiàn)[75]和文獻(xiàn)[76]也采用類似的方法,將起始幀和頂點(diǎn)幀的光流作為網(wǎng)絡(luò)輸入,在降低模型輸入復(fù)雜性的同時(shí)又能保持較好的識(shí)別效果。CHEN 等[77]提出分塊卷積網(wǎng)絡(luò)(Block Division Convolutional Network,BDCNN),計(jì)算起始幀和頂點(diǎn)幀4 個(gè)光流特征,接著將這4 個(gè)光流圖進(jìn)行分塊,并對(duì)這些小塊進(jìn)行卷積和池化操作,最后將4 個(gè)光流提取的特征向量進(jìn)行特征級(jí)聯(lián),以完成微表情識(shí)別。
基于關(guān)鍵幀的微表情識(shí)別方法能夠在降低特征維度的同時(shí)保持良好的識(shí)別效果,但是會(huì)丟失較多的時(shí)序信息。各方法的實(shí)驗(yàn)指標(biāo)對(duì)比如表7所示,其中,UAR(Unweighted Average Recall)表示未加權(quán)平均召回率,標(biāo)有“*”代表三分類,SMIC 為三分類。
表7 基于關(guān)鍵幀的微表情識(shí)別方法性能對(duì)比 Table 7 Performance comparison of micro-expression recognition methods based on key frame
4.2.3 基于遷移學(xué)習(xí)的識(shí)別方法
遷移學(xué)習(xí)方法通常將知識(shí)從具有大樣本容量的源域遷移到目標(biāo)域中?,F(xiàn)有的微表情數(shù)據(jù)集較小,而宏表情數(shù)據(jù)集包含大量的訓(xùn)練樣本。考慮到宏表情與微表情存在相關(guān)性,通常會(huì)結(jié)合宏表情數(shù)據(jù)集進(jìn)行訓(xùn)練來提高微表情的識(shí)別性能。
文獻(xiàn)[68,78]方法利用遷移學(xué)習(xí)的思想,結(jié)合宏表情數(shù)據(jù)集提高微表情識(shí)別性能。文獻(xiàn)[79]方法使用3 種有效的二值面部描述子提取特征,將這些特征輸入到源域和目標(biāo)域共享的公共子空間中進(jìn)行學(xué)習(xí)。文獻(xiàn)[80]方法引入表情身份分離網(wǎng)絡(luò)(Expression-Identity Disentangle Network,EIDNet)作為特征提取器,分別用宏表情和微表情數(shù)據(jù)集對(duì)兩個(gè)EIDNet進(jìn)行訓(xùn)練,分別命名為MacroNet 和MicroNet,固定MacroNet 并對(duì)MicroNet 進(jìn)行微調(diào),MicroNet 可以從宏表情樣本中學(xué)習(xí)共享知識(shí),并采用不等式正則化損失使MicroNet 的輸出收斂于MacroNet 的輸出。EIDNet 利用從宏表情樣本學(xué)習(xí)到的知識(shí)指導(dǎo)微表情網(wǎng)絡(luò)的調(diào)整,提高了微表情的識(shí)別性能,但整個(gè)網(wǎng)絡(luò)模型包含多個(gè)模塊,模型設(shè)計(jì)較為復(fù)雜,且訓(xùn)練過程較為繁瑣,很難滿足實(shí)時(shí)性的需求。
文獻(xiàn)[81]方法在CK+、Oulu-CASIA NIR&VIS、Jaffe和 MUGFE 這4 個(gè)宏表情數(shù)據(jù)集[82]上進(jìn)行訓(xùn)練,接著利用微表情數(shù)據(jù)集對(duì)網(wǎng)絡(luò)進(jìn)行微調(diào),然而該網(wǎng)絡(luò)僅在注意力方面做出了改進(jìn),且在經(jīng)過宏表情預(yù)訓(xùn)練后再對(duì)微表情進(jìn)行訓(xùn)練,不能很好地突出宏微表情之間的關(guān)聯(lián)。TANG等[83]首次將遷移學(xué)習(xí)和GCN相結(jié)合應(yīng)用于微表情識(shí)別領(lǐng)域,提出遷移雙流隨機(jī)圖卷積網(wǎng)絡(luò)(Transferring Dual Stochastic Graph Convolutional Network,TDSGCN),利用宏表情數(shù)據(jù)集對(duì)源網(wǎng)絡(luò)進(jìn)行訓(xùn)練,然后用微表情數(shù)據(jù)集對(duì)網(wǎng)絡(luò)進(jìn)行微調(diào),最后完成微表情識(shí)別。ZHANG等[84]提出的運(yùn)動(dòng)放大多特征關(guān)系網(wǎng)絡(luò)利用遷移的ResNet50來提取全局特征,在一定程度上避免了過擬合問題。
基于遷移學(xué)習(xí)的微表情識(shí)別方法性能對(duì)比如表8所示。
表8 基于遷移學(xué)習(xí)的微表情識(shí)別方法性能對(duì)比 Table 8 Performance comparison of micro-expression recognition methods based on transfer learning
基于深度學(xué)習(xí)的微表情識(shí)別方法由多段訓(xùn)練發(fā)展到如今的端到端訓(xùn)練,可以提取微表情更深層次的信息,同時(shí)也避免了復(fù)雜的手工特征描述,但深度網(wǎng)絡(luò)需要依靠一個(gè)更大更真實(shí)的微表情數(shù)據(jù)集才能獲得較好的性能。Graph-TCN、LGCcon、Graph-GCN 等方法關(guān)注局部區(qū)域運(yùn)動(dòng)信息以挖掘微表情信息,這一點(diǎn)與手工特征方法中依賴面部網(wǎng)格分塊突出局部信息的思想一致。在深度學(xué)習(xí)方法中,Graph-TCN、Graph-GCN、OFF-ApexNet在CASMEII 數(shù)據(jù)集上分別取得了0.740、0.743、0.883 的準(zhǔn)確率,這是因?yàn)镃ASMEII 數(shù)據(jù)集中有AU 標(biāo)注,能夠突出運(yùn)動(dòng)區(qū)域;Graph-TCN、Graph-GCN、OFF-ApexNet 在SAMM 數(shù)據(jù)集上分別取得了0.750、0.743、0.681 的準(zhǔn)確率,這是由于SAMM 具有較為完備的情緒分類,同時(shí)也有較高的幀率。但是,這一類方法依然受限于現(xiàn)有微表情數(shù)據(jù)集的數(shù)據(jù)量,在現(xiàn)實(shí)環(huán)境中泛化能力較差。
微表情檢測(cè)和識(shí)別對(duì)人機(jī)交互的發(fā)展具有重大意義,擁有廣闊的應(yīng)用前景,未來會(huì)有更多的研究人員從各個(gè)角度對(duì)微表情展開研究。但是,目前微表情檢測(cè)和識(shí)別中還有一些亟待解決的問題,針對(duì)這些問題,本文總結(jié)了該領(lǐng)域未來可能的發(fā)展方向,具體如下:
1)生成高質(zhì)量微表情數(shù)據(jù)。為了彌補(bǔ)微表情數(shù)據(jù)量有限和部分微表情圖像質(zhì)量過低的問題,已有方法開始嘗試采用生成對(duì)抗網(wǎng)絡(luò)生成微表情數(shù)據(jù),但是在該過程中存在兩個(gè)問題:一是生成的微表情圖像對(duì)網(wǎng)絡(luò)性能提升效果有限,說明生成的AU 關(guān)系不夠準(zhǔn)確,同時(shí)在生成新的圖像時(shí)會(huì)引入噪聲,從而對(duì)分類器造成影響,在未來的工作中,利用GAN 生成高質(zhì)量的微表情圖像也是一個(gè)值得研究的問題;二是在FACS 中定義了微表情與面部動(dòng)作的關(guān)聯(lián),已有工作利用這一關(guān)聯(lián)作為先驗(yàn)知識(shí)解決微表情分析問題,事實(shí)上,這一關(guān)聯(lián)也直觀解釋了微表情的發(fā)生機(jī)理,但現(xiàn)有方法采用的GAN 并沒有與之相結(jié)合,因此,如何判定生成的圖像是否符合微表情的發(fā)生機(jī)理,還沒有一個(gè)規(guī)范的評(píng)價(jià)標(biāo)準(zhǔn),這也是未來的一個(gè)工作方向。
2)多模態(tài)微表情分析。目前微表情分析算法僅依靠單一面部表情進(jìn)行分析,但在實(shí)際生活中,微表情的發(fā)生常伴隨著肢體語言以及語音等狀態(tài)的變化。在未來的研究中,需要充分利用肢體語言等相關(guān)信息,充分體現(xiàn)微表情的發(fā)生機(jī)理,揭示多模態(tài)數(shù)據(jù)的內(nèi)在關(guān)聯(lián)。
3)采用其他學(xué)習(xí)策略。已有方法都是采用有監(jiān)督的方式訓(xùn)練網(wǎng)絡(luò),對(duì)數(shù)據(jù)量有一定的依賴性。在今后的研究中,可以考慮采用自監(jiān)督的方式,減少網(wǎng)絡(luò)對(duì)數(shù)據(jù)量的依賴,提升所學(xué)習(xí)到特征的適應(yīng)性。另外,現(xiàn)有的微表情數(shù)據(jù)庫存在類別不平衡的情況,這包括數(shù)量不平衡和識(shí)別難度不平衡,今后除了關(guān)注樣本數(shù)量外,還需要結(jié)合樣本的識(shí)別難度來動(dòng)態(tài)調(diào)整學(xué)習(xí)過程。
與人工分析微表情相比,基于計(jì)算機(jī)視覺的微表情分析方法具有較大優(yōu)勢(shì),本文對(duì)基于傳統(tǒng)機(jī)器學(xué)習(xí)和基于深度學(xué)習(xí)的微表情檢測(cè)與識(shí)別方法進(jìn)行分析和總結(jié)。通過對(duì)這些方法的分析比較發(fā)現(xiàn),基于機(jī)器學(xué)習(xí)的方法關(guān)注像素點(diǎn)的變化情況,能夠保留更多的有效信息,魯棒性較高,并且可以滿足實(shí)時(shí)性的需求,但是該類方法在預(yù)處理階段將面部圖像劃分為固定網(wǎng)格,難以體現(xiàn)面部運(yùn)動(dòng)的發(fā)生機(jī)理,存在精度低、過程繁雜等問題。相較機(jī)器學(xué)習(xí)方法,深度學(xué)習(xí)方法具有精度高、易于捕捉上下文信息的優(yōu)點(diǎn),但是存在容易過擬合、耗時(shí)、依賴數(shù)據(jù)量等缺點(diǎn)。在未來,微表情分析會(huì)有更多的應(yīng)用需求,對(duì)性能也會(huì)有更高的要求,下一步將對(duì)基于深度特征的微表情分析方法進(jìn)行深入探究,以開發(fā)具有高性能、高精度和強(qiáng)魯棒性的系統(tǒng)。