錢澤鋒 錢夢瑩
摘? 要:微表情的變化是非常微小的,這使得微表情的研究非常困難。微表情是不能偽造和壓制的,因此也成為判斷人們主觀情感的重要依據(jù)。本文提出了以卷積神經(jīng)網(wǎng)絡(luò)及改進(jìn)長短時(shí)記憶網(wǎng)絡(luò)特征融合為依托的微表情識(shí)別方法,先介紹了相關(guān)的背景知識(shí),再介紹了實(shí)驗(yàn)的預(yù)處理過程、特征提取以及相應(yīng)的特征融合的過程,將所得的結(jié)果用于實(shí)驗(yàn)?zāi)P偷念A(yù)測分類。實(shí)驗(yàn)結(jié)果表明,新模型具有更好的識(shí)別率。
關(guān)鍵詞:微表情識(shí)別;特征融合;微表情分類;卷積神經(jīng)網(wǎng)絡(luò);LSTM
中圖分類號(hào):TP3-0? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):2096-1472(2021)-04-26-04
Abstract: Changes in micro-expressions are very small, which makes it hard to study micro-expression. Besides, micro-expression cannot be forged and suppressed, which makes it an important basis for judging people's emotions. This paper proposes a micro-expression recognition method based on convolutional neural networks and improved Long-Short-Term Memory (LSTM) network feature fusion. First, it introduces relevant background knowledge and then introduces experimental preprocessing process, feature extraction and corresponding feature fusion process. Results are used in prediction classification of experiment model. Experimental results show that the new model has a better recognition rate.
Keywords: micro-expression recognition; feature fusion; micro-expression classification; convolutional neural network;?LSTM
1? ?引言(Introduction)
微表情的變化是非常微小的,這使得微表情的研究非常困難。這種表達(dá)方式是不能偽造和壓制的,因此也成為判斷人們主觀情感的重要依據(jù)[1-3]。
2002年,國外學(xué)者Russell等人將首個(gè)微表情訓(xùn)練工具開發(fā)出來。其后,Ekman團(tuán)隊(duì)又研究出來一個(gè)新的微表情識(shí)別測量工具:短暫表情識(shí)別測驗(yàn)。除了METT和JACBART技術(shù)之外,Ekman團(tuán)隊(duì)還設(shè)計(jì)了面部動(dòng)作編碼系統(tǒng)(Facial Action Coding System,F(xiàn)ACS)[4-5]。FACS根據(jù)人臉肌肉不同的部分,以生物學(xué)中的解剖學(xué)為基礎(chǔ),將人臉的不同區(qū)域劃分成44個(gè)運(yùn)動(dòng)單元(Action Unit,AU),它們彼此獨(dú)立又相互聯(lián)系,同時(shí)把不同的AU單元整合在一起,使FACS碼得以形成,任意一種面部表情與特定的FACS碼相對應(yīng)。圖1和圖2給出了FACS編碼中A0和A4的區(qū)別。
2? ?基本理論(Basic theory)
數(shù)據(jù)的預(yù)處理在大部分的實(shí)驗(yàn)中都是極其重要的,如果微表情圖像不經(jīng)過預(yù)處理就會(huì)有許多噪聲影響,這會(huì)使得微表情識(shí)別率不高。在檢測微表情時(shí),預(yù)處理圖像是必需的步驟。在識(shí)別時(shí),通常來說,預(yù)處理步驟是:人臉配準(zhǔn)(Face Alignment)、人臉切割(Face Cope)、圖像歸一化(Image Resize)[6-8];之后則是特征提取過程,這一步驟直接影響到后面分類的準(zhǔn)確性;還有對CNN和LSTM背景知識(shí)的介紹。
2.1? ?人臉檢測及配準(zhǔn)
人臉檢測與對齊簡稱人臉配準(zhǔn),人臉配準(zhǔn)的好壞對識(shí)別結(jié)果有很大的影響。人臉檢測的過程:先給出一張圖像,通過計(jì)算機(jī)自動(dòng)檢測判斷出該圖像中的人臉區(qū)域有沒有存在,倘若沒有包括在內(nèi),就會(huì)進(jìn)行提醒;相反,就會(huì)給出相應(yīng)的人臉區(qū)域[9]。2006年,Cootes等人提出局部約束模型算法(CLM算法)[10-11]。與活動(dòng)形狀模型和活動(dòng)表觀模型對比,這一方法不僅可以有效定位正臉,同時(shí)可以有效解決臉部形狀變化下產(chǎn)生的魯棒性問題,還解決了光照因素的魯棒性問題。不僅如此,這一模型的局部紋理關(guān)鍵點(diǎn)維度要低一些,在計(jì)算速度方面要快一些。盡管局部約束模型具有以上優(yōu)點(diǎn),但是其也有缺點(diǎn),就是配準(zhǔn)結(jié)果不平穩(wěn)[12-14]。
2.2? ?人臉切割及圖像歸一化
在人臉對齊后要實(shí)施人臉切割,也就是把之前圖像中人臉區(qū)域進(jìn)行有效劃分。對于不同的圖像處理技術(shù),如人臉檢測、表情以及年紀(jì)識(shí)別等均要實(shí)施圖像歸一化,利用這一操作,可以令圖像數(shù)量不發(fā)生變化,同時(shí)消除外部環(huán)境影響[15]。利用這一技術(shù),不僅能夠消除無關(guān)的影響因素,還能在后續(xù)操作中使提取準(zhǔn)確率得以保證,使分類識(shí)別準(zhǔn)確率提升。圖像歸一化處理有兩個(gè)方面,一是尺寸歸一化;二是灰度值歸一化。
2.3? ?微表情檢測特征提取
在各種圖像分類識(shí)別的模型中,特征提取都是至關(guān)重要的一環(huán),是算法的核心步驟。有效的特征提取方法不僅能夠降低不必要因素的干擾,獲得完整而準(zhǔn)確的圖像特征信息,還能夠降低數(shù)據(jù)維數(shù),減少數(shù)據(jù)運(yùn)算,使之后的圖像更好地分類[16-18]。此外,有效的特征提取方法穩(wěn)定性好,抗干擾能力突出。
2.4? ?卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)(CNN)為神經(jīng)網(wǎng)絡(luò)拓展的一類形式。神經(jīng)網(wǎng)絡(luò)的關(guān)鍵環(huán)節(jié)是把一個(gè)或多個(gè)傳入輸送到一個(gè)模型之中,并且獲得一個(gè)傳出,這個(gè)環(huán)節(jié)叫作神經(jīng)元,如圖3所示。
與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)一樣,CNN也是層級的網(wǎng)絡(luò),不過層的作用與模式各異。卷積運(yùn)算為獲取圖像特點(diǎn)的很好方式。從卷積核之中獲取特點(diǎn)之后,把獲得的特點(diǎn)傳送到完整的聯(lián)結(jié)層。CNN模型涵蓋卷積與池化執(zhí)行。每一個(gè)執(zhí)行還涵蓋對應(yīng)的傳入、激活、剪枝、傳出幾個(gè)板塊,如圖4所示。
2.5? ?長短時(shí)記憶網(wǎng)絡(luò)
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)可以通過獨(dú)特的記憶單元Unit將所有的時(shí)序進(jìn)行一些改變。所以,RNN的輸入數(shù)據(jù)、權(quán)值比重等影響著循環(huán)神經(jīng)網(wǎng)絡(luò)的輸出數(shù)據(jù)。而對于面部微表情的一些序列來說,它們彼此之間是有一定的關(guān)聯(lián)的,這也說明了不僅微表情的像素彼此之間是牽連的,而且序列之間的元素也是有一定關(guān)系的,因此通過RNN進(jìn)行學(xué)習(xí)可以得到更好的效果。
長短時(shí)記憶(Long Short-Term Memory, LSTM)網(wǎng)絡(luò)是RNN的一種特殊形式,它具有記憶能力,所以能更好地表現(xiàn)前后信息特征之間的相關(guān)性。RNN中存在梯度消失等問題,但是LSTM的出現(xiàn)很好地解決了這個(gè)問題。
3 基于CNN和改進(jìn)LSTM特征融合的表情識(shí)別(Expression recognition based on CNN and improved LSTM feature fusion)
微表情圖像序列的特征提取對之后的識(shí)別研究起著關(guān)鍵性的作用,如何提取有效的特征對于微表情識(shí)別至關(guān)重要,有效的圖像特征能極大提高最終的識(shí)別率。本節(jié)通過將深度學(xué)習(xí)與微表情識(shí)別相結(jié)合,提出一種有效的特征提取方法,通過CNN及改進(jìn)的LSTM獲取相應(yīng)特征整合構(gòu)成了微表情圖像序列的新特點(diǎn),而且把獲得的特點(diǎn)使用在最后的預(yù)估劃分中。
3.1? ?CNN和改進(jìn)LSTM特征融合的模型
因?yàn)橥ǔL卣鞅磉_(dá)符和我們需要的預(yù)估情感劃分相互之間存在一定的距離,所以微表達(dá)辨別的精準(zhǔn)性并不高。為求縮小特征表達(dá)符與微表情類別相互之間的距離,此小節(jié)給出了一種新的融合特征描述符,并將該描述符用于微表情識(shí)別,CNN與LSTM特征集中于全部圖像序列之中。除此之外,我們還通過CNN-LSTM特征融合層將兩者融合生成全局特征,并對LSTM結(jié)構(gòu)提出改進(jìn),然后將全局特征輸入分類器進(jìn)行預(yù)測分類,如圖5所示。
從光流圖中提取完整有效的時(shí)間特征,將兩幀之間的光流位移場圖當(dāng)作傳入值來做時(shí)間LSTM構(gòu)建。我們使用AlexNet構(gòu)建時(shí)間LSTM與空間CNN之間的關(guān)系。在我們的CNN之中,有5個(gè)卷積層、3個(gè)池化層與4個(gè)FC層。為了防止過擬合現(xiàn)象的發(fā)生,我們的池化層使用最大池化策略。而CNN的傳入大小為96×96×3,其中,3表示三通道圖像,如圖6所示。
3.2? ?實(shí)驗(yàn)過程
我們使用最常用的SMIC和CASMEⅡ微表情數(shù)據(jù)庫進(jìn)行實(shí)驗(yàn)驗(yàn)證,以此評估提出方法的識(shí)別準(zhǔn)確性。我們使用具有16 GB顯存的Tesla GPU進(jìn)行訓(xùn)練學(xué)習(xí)。實(shí)驗(yàn)的系數(shù)設(shè)立如下:對于CNN與LSTM特征的訓(xùn)練環(huán)節(jié),批處理大小的數(shù)值為50,最大輪次數(shù)設(shè)置為6,000,其中學(xué)習(xí)率取值為0.0005。
首先是預(yù)處理過程:為求達(dá)成適應(yīng)的CNN,我們按照先前闡述的方式實(shí)施了人臉測試與人臉對齊,而且把圖像的序列調(diào)節(jié)到96×96的大小。每兩幀相互之間的光流位移場圖當(dāng)作CNN的傳入。
因?yàn)閳D像序列的幀數(shù)并不完全一樣,圖像的信息比較少,為求達(dá)成拓寬它包含的信息,我們對每一個(gè)所得的序列實(shí)施了劃分,把圖像切換為大量幀與幀之間的片段,而且應(yīng)用片段當(dāng)作傳入的信息。
為了使微表情識(shí)別的效果最好,應(yīng)用以下方式來拓展訓(xùn)練信息的起點(diǎn)。我們把每一個(gè)片段的幀數(shù)定義為X,區(qū)間為[2,30],通過實(shí)驗(yàn)證明出現(xiàn)X的取值為20時(shí)最好。其中,當(dāng)圖像序列中的幀數(shù)高于20時(shí),前、后(X-20)/2幀被去除;反之,如若幀數(shù)低于20,則獲取最前和最后的(X-20)/2幀。
對于時(shí)間的LSTM,我們直接將包含的20幀圖像作為起始輸入數(shù)據(jù)。每20幀圖像可以得到19幅時(shí)間圖像,相鄰的兩幅圖像可以取得一幅時(shí)間圖像。我們把時(shí)間的數(shù)據(jù)定義為一組運(yùn)動(dòng)矢量dt,dt由第t幀與第t+1幀計(jì)算而得。時(shí)間圖像涵蓋兩個(gè)分量:dtx與dty。兩者依次代表的是第t幀到第t+1幀之間X與Y方向相應(yīng)的位置改變??紤]到網(wǎng)絡(luò)的傳入大小,我們利用dtx與dty的平方根計(jì)算第三個(gè)分量dtz,以此來表示輸入時(shí)間圖像。
為了防止過擬合,我們先將圖像序列中隱含的特征提取出來,接下來把該特點(diǎn)當(dāng)作傳入值傳入網(wǎng)絡(luò)實(shí)施學(xué)習(xí)與預(yù)估劃分,具體模型按照之前所給出的。我們將20個(gè)處理過的96×96×3大小的圖像片段傳入模型中獲取相應(yīng)的特征,最后進(jìn)行特征整合的過程,在給出的CNN-LSTM特征融合模型中,核心為訓(xùn)練好的整合層。
在實(shí)驗(yàn)探討環(huán)節(jié)中,我們研究了各異的時(shí)空特征整合方式,如出現(xiàn)空間數(shù)據(jù)、時(shí)態(tài)數(shù)據(jù)特征整合為一個(gè)單一結(jié)果的情況。在微表情識(shí)別實(shí)驗(yàn)中使用該全局特征識(shí)別效果最好。除了這些之外,我們還嘗試在各異的層之間放置改進(jìn)的CNN-LSTM整合層,而且探討了可以訓(xùn)練的策略和與之相反的策略之間的差異。最終,我們還對某些比較經(jīng)典的微表情識(shí)別方式進(jìn)行了對比,例如LBP-TOP+SVM、FDM及MDMO等,以此證實(shí)我們所給出的新方式的適用性。
4? 實(shí)驗(yàn)結(jié)果及分析(Experimental results and analysis)
根據(jù)以上的分析,我們可以得出在兩種模式之下對CNN-LSTM特征融合的微表情識(shí)別會(huì)有不同的結(jié)果,非訓(xùn)練模式的模型表現(xiàn)要比訓(xùn)練模式的模型效果差。在SMIC數(shù)據(jù)庫數(shù)據(jù)識(shí)別率過程中,訓(xùn)練模式要比非訓(xùn)練模式高出5.4%;在CASMEⅡ數(shù)據(jù)庫的數(shù)據(jù)識(shí)別過程中,訓(xùn)練模式要比非訓(xùn)練模式高出5%,如表1所示。
由此我們可以推斷,在訓(xùn)練模式的條件下,CNN-LSTM時(shí)空特征融合層可以更加準(zhǔn)確地獲取到圖像序列;而在非訓(xùn)練模式的條件下CNN-LSTM特征融合層僅僅是將過去的神經(jīng)網(wǎng)絡(luò)各個(gè)層中提取到的時(shí)間和空間特征進(jìn)行整合,因?yàn)闆]有對其進(jìn)行提前的訓(xùn)練,所以獲取特征信息的能力也就相對比較薄弱。
相較于FC6之后插入時(shí)空特征融合層得到的性能表現(xiàn),F(xiàn)C7合格率更高。在SMIC數(shù)據(jù)庫中提取數(shù)據(jù)時(shí),F(xiàn)C7比FC6識(shí)別率高了6.2%;在CASMEⅡ數(shù)據(jù)庫中提取數(shù)據(jù)時(shí),F(xiàn)C7比FC6識(shí)別率高了2.5%,如表2所示。
在以上的各個(gè)實(shí)驗(yàn)中,為了確保對比實(shí)驗(yàn)輸入數(shù)據(jù)的數(shù)量相同,使用每個(gè)片段19幀的空間圖像和每個(gè)片段19幀的時(shí)間圖像進(jìn)行微表情分類實(shí)驗(yàn)。
表3的結(jié)果表明,為了更好地識(shí)別微表情,可以使用特征融合,而且相較于時(shí)間/空間特征提取出來的微表情,融合特征提取出來的微表情得到的識(shí)別效果更好。出現(xiàn)這種情況主要是因?yàn)闀r(shí)空特征融合提取出了微表情圖像中更為關(guān)鍵有用的內(nèi)容,因此識(shí)別效果更好。
新的特征融合模型在識(shí)別方面的功能要遠(yuǎn)遠(yuǎn)高于過去以往的方法。出現(xiàn)這種情況源于微表情圖像序列中的時(shí)間和空間特征信息在我們提出的模型中得到了充分利用,與此同時(shí)在特征融合的作用下產(chǎn)生了功能更加齊全完善的時(shí)空特性。另外,在以上的種種實(shí)驗(yàn)過程中我們還得到一些其他的發(fā)現(xiàn),利用這些方法進(jìn)行識(shí)別的時(shí)候,因?yàn)镃ASMEⅡ的數(shù)據(jù)質(zhì)量比SMIC要高,所以如果識(shí)別的對象是CASMEⅡ,那么它的成功率遠(yuǎn)遠(yuǎn)比識(shí)別數(shù)據(jù)庫SMIC要高。從這一方面我們可以看出,如果數(shù)據(jù)庫的樣本是高質(zhì)量的,那么對于微表情的研究則有一定的推動(dòng)作用,如表4所示。
5? ?結(jié)論(Conclusion)
本文對微表情識(shí)別的三個(gè)階段,即預(yù)處理、特征提取和微表情分類進(jìn)行了分析。重點(diǎn)介紹了三個(gè)階段中所采用的主要方法和關(guān)鍵技術(shù)并對其進(jìn)行了比較,指出了所采用算法的基本原理和優(yōu)缺點(diǎn)。
經(jīng)過實(shí)驗(yàn),利用各種層次的方式對特征進(jìn)行提取,然后將新提取的特征進(jìn)行特征融合,再送到分類器對微表情進(jìn)行分門別類。實(shí)驗(yàn)最終的數(shù)據(jù)顯示,利用訓(xùn)練的模式比未經(jīng)訓(xùn)練的模式表現(xiàn)更好。根據(jù)其他的實(shí)驗(yàn)結(jié)果,該方法相較于經(jīng)典主流特征提取算法表現(xiàn)出了更好的識(shí)別分類效果,驗(yàn)證了該方法對提取基于圖像序列的微表情特征有著更好的效果。
參考文獻(xiàn)(References)
[1] EKMAN P, FRIESEN W V. The repertoire of nonverbal behavior: Categories, origins, usage, and coding[J]. SEMIOTICA, 1969, 1(4):49-98.
[2] EKMAN P, ROSENBERG E L. What the face reveals: Basic and applied studies of spontaneous expression using the facial action coding system(FACS)[M]. New York: Oxford University Press, 1997, 12(2):7-10.
[3] EKMAN P, FRIESEN W V, HAGAR J C. Facial action coding system investigator's guide[R].Salt Lake City: A Human Face, 2002, 22(6):10-16.
[4] SARAGIH J M, LUCEY S, COHN J F. Deformable model fitting by regularized landmark mean-shift[J]. International Journal of Computer Vision, 2011, 91(2):200-215.
[5] 劉宇灝.微表情識(shí)別的理論和方法研究[D].南京:東南大學(xué),2016,34(2):56-58.
[6] 伍凱,朱恒亮,郝陽陽,等.級聯(lián)回歸的多姿態(tài)人臉配準(zhǔn)[J].中國圖像圖形學(xué)報(bào),2017, 22(2):257-264.
[7] 張余敬,常丹華,劉宇,等.基于Gabor小波變換的人臉表情識(shí)別技術(shù)研究[J].計(jì)算機(jī)測量與控制,2010,18(4):906-908.
[8] 王建超.微表情數(shù)據(jù)庫的建立和微表情檢測技術(shù)研究[D].青島:山東大學(xué),2017,45(2):15-18.
[9] 吳雪.基于單演二值模式的微表情識(shí)別研究[D].天津:河北工業(yè)大學(xué),2015,35(12):12-20.
[10] 郭艷君.基于動(dòng)態(tài)序列的微表情識(shí)別[D].長春:吉林大學(xué),2015,26(5):30-38.
[11] 陳夢婷.基于視頻序列的微表情自動(dòng)識(shí)別算法研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2016,34(3):34-39.
[12] 趙中原.基于微表情特征的表情識(shí)別研究[D].北京:華北電力大學(xué),2016,44(12):55-58.
[13] 楊成.微表情識(shí)別算法研究[D].南京:南京郵電大學(xué),2017,46(8):15-24.
[14] 朱勇.基于CBP-TOP的人臉表情識(shí)別研究[D].鎮(zhèn)江:江蘇大學(xué),2011,45(2):46-48.
[15] CUN Y L, BOSER B, DENKER J S, et al. Handwritten digit recognition with a back-propagation network[J]. Advances in Neural Information Processing Systems, 1990, 2(2):396-404.
[16] 楊雪.基于深度學(xué)習(xí)的微表情特征提取算法設(shè)計(jì)與實(shí)現(xiàn)[D].北京:北京交通大學(xué),2017,18(2):8-16.
[17] 張軒閣,田彥濤,郭艷君,等.基于光流與LBP-TOP特征結(jié)合的微表情識(shí)別[J].吉林大學(xué)學(xué)報(bào)(信息科學(xué)版),2015,33(05):516-523.
[18] HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786):504-507.
作者簡介:
錢澤鋒(1994-),男,碩士生.研究領(lǐng)域:表情識(shí)別.
錢夢瑩(1988-),女,本科生.研究領(lǐng)域:環(huán)境監(jiān)測.