廖云峰,段文雙,羅佳佳,趙文潔,吳 旭
(上海工程技術(shù)大學(xué) 電子電氣工程學(xué)院,上海201620)
微表情是一種無法掩飾的面部表情,常常在人們試圖隱藏時下意識產(chǎn)生,反映了人們的真實心理與情感,暴露內(nèi)心想法。
面部表情可以根據(jù)發(fā)生的時間長短常常分為宏表情和微表情[1],宏表情常??梢暂p易被獲取發(fā)現(xiàn),但是有些時候這些信息有可能是偽造的,因為可以根據(jù)主觀意愿控制宏表情的發(fā)生和表現(xiàn)。在一些特定場合,可以通過控制宏表情來掩飾內(nèi)心真實想法。而微表情常常發(fā)生時間極短,很難被發(fā)現(xiàn),而且它的開始和結(jié)束不受主觀控制。因此,研究微表情在很多重要領(lǐng)域如醫(yī)學(xué)、刑偵等方面有著重要的意義。
目前,深度學(xué)習(xí)在學(xué)習(xí)特征方面識別精確率高且速度快。其中,卷積神經(jīng)網(wǎng)絡(luò)可以將底層的每一小塊區(qū)域相連接,將底層的具體信息特征映射到高層特征,并且對原圖像不需要復(fù)雜的預(yù)處理,能很好地應(yīng)用在圖像識別任務(wù)。
微表情圖像的預(yù)處理不同于宏表情,需要更加精細的操作。
利用不同的設(shè)備采集微表情圖像,可能得到的圖像會有尺寸大小不一或者有噪聲等問題。本文主要通過直方圖均衡化、濾波去噪、尺寸變化的方法消除外在因素對微表情識別的干擾。
(1)直方圖均衡化。在微表情識別中,圖像若是彩色,不僅會增加處理的難度,而且對之后的識別也沒有太大影響,因此在微表情識別的訓(xùn)練樣本中一般都是灰色圖像,大大降低數(shù)據(jù)的維度,然后對這些灰度圖像做直方圖均衡化處理,增強圖像的亮度,讓圖像中的細節(jié)更加清晰,減少拍攝時光照的影響,還能在一定的程度上減少膚色對微表情識別的影響。
(2)濾波去噪。在制作微表情的數(shù)據(jù)集過程中,存在著環(huán)境因素和設(shè)備因素的影響,會導(dǎo)致圖像中有比較多的噪聲。本文主要利用中值濾波和高斯濾波減少圖像中的噪聲。中值濾波主要是將圖像中的每一個像素點用其領(lǐng)域的中值代替,可以去除圖像中的脈沖噪聲,不會破壞圖像的邊緣信息;高斯濾波是將圖像中的每一個像素點的值用領(lǐng)域和自身的像素值加權(quán)平均替換,在邊緣信息處理上效果更好。
(3)尺寸變化。在卷積神經(jīng)網(wǎng)絡(luò)中訓(xùn)練時,需要采用統(tǒng)一尺寸的圖像,避免在訓(xùn)練過程中參數(shù)的調(diào)整。本文主要通過圖像尺寸的放大和縮小將圖像尺寸歸一化。
在將圖像預(yù)處理后,得到一組大小相同,圖像明亮,無噪聲的灰度圖像,可以利用這組處理好的圖像進行圖像特征信息提取和微表情識別。
目前常用的特征提取方法都是利用了表情的動態(tài)性,其中基于三個正交平面的局部二值模式(LBP-TOP)提取的特征更簡潔,計算時間更短,能夠很好地應(yīng)用于微表情圖像特征提取。
LBP-TOP處理一個微表情圖像特征的過程如下:首先,將該圖像根據(jù)X,Y,T軸建立三維坐標(biāo)系如圖1所示;其次,將該圖像分割成多個小正方體,計算每個小正方體中圖像在X Y,X T,Y T平面上的LBP值,再將每個小正方體區(qū)域內(nèi)的LBP直方圖串聯(lián)在一起,得到一個區(qū)域內(nèi)的完整直方圖;最后,將所有區(qū)域內(nèi)的直方圖都串聯(lián)起來最終得到一個完整圖像的直方圖,即整個圖像的LBP-TOP特征。
圖1 LBP-TOP的三維坐標(biāo)系Fig.1 Three dimensional coordinate system of LBP-TOP
本文結(jié)合LBP-TOP提取的微表情特征,設(shè)計了改進的卷積神經(jīng)網(wǎng)絡(luò)。該卷積網(wǎng)絡(luò)的輸入是LBP-TOP提取的特征,通過多個卷積層、池化層、全連接層和Softmax層進行微表情圖像的分類識別。卷積層再將輸入圖像經(jīng)過預(yù)處理后形成特征圖,經(jīng)過池化層將所有的特征圖都提取一樣固定長度的特征向量,再將這些特征向量都串聯(lián)在一起形成一個新的向量,最后將這個向量輸入給全連接層和Softmax層進行分類訓(xùn)練。本文的卷積神經(jīng)網(wǎng)絡(luò)主要改進了最大值池化層和結(jié)構(gòu)優(yōu)化兩個部分。
1.3.1 最大值池化層
池化層對圖像起到縮放的作用。經(jīng)過卷積層提取特征后,需要對其進一步的壓縮,此時需要池化層的參與。
最大值池化層方法能將輸入?yún)^(qū)域內(nèi)的數(shù)據(jù)拆成多個不相交的區(qū)域,每個區(qū)域內(nèi)的輸出都是這個區(qū)域內(nèi)的最大值,并且卷積層中提取的特征在最大池化層之后也會保存下來,能夠進一步地縮小特征圖的尺寸,減少了模型的大小,增加了計算的速度。
1.3.2 結(jié)構(gòu)優(yōu)化
本文在卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)中,采用了后向傳播方法訓(xùn)練權(quán)重。
首先從訓(xùn)練樣本中隨機選擇N個圖像,然后從每一個圖像中采集R個特征映射圖并行運算。常見的微表情主要包括悲傷、驚訝、高興、恐懼、厭惡和憤怒,因此本文的輸出結(jié)果有6類。在采集圖像之后,令x i表示最大池化層的第i個輸入,y n,j表示圖像n的第j層輸出。最大池化層的計算公式(1)和(2)。
輸入x i對應(yīng)多個不同的輸出y n,j。
最大池化層的反向函數(shù)的計算過程為式(3):
對于每一個圖像區(qū)域n和每一個池化層輸出單元y n,j,偏微分是累加的,后向傳播可以高效運行。
CASME數(shù)據(jù)庫是在2013年傅小蘭團隊設(shè)計,該數(shù)據(jù)庫包含了195段微表情視頻。每段微表情片段的持續(xù)時間小于500 ms或者開始持續(xù)時間小于250 ms。
CASMEII是第二代的CASME改進數(shù)據(jù)庫,由兩臺200 fps攝像機錄制,在生產(chǎn)的2 500多段微表情片段中最終選取了155個樣本,由于幀率較高,而又保持500 ms左右的持續(xù)時間,因此每一個微表情片段包含更多的圖像序列。
準(zhǔn)確率是微表情識別中最重要的評價指標(biāo),本文將在CASME和CASMEⅡ這兩個數(shù)據(jù)集上測試準(zhǔn)確率指標(biāo)。
為評價本文的方法性能,通過將本文的微表情識別方法與混合PCA和LBP方法[2].混合LBP和SVM方法[3]和CNN方法[4]進行對比。其參數(shù)設(shè)置如下:歸一化尺寸α×β為128×128,特征映射圖尺寸a×b為11×11;隨機選擇圖像N=8;隨機梯度下降的迭代次數(shù)為10 000,學(xué)習(xí)率為0.7。所有測試算法的運行平臺相同,主要參數(shù)為:Intel(R)Core(TM)i5-8300H CPU@2.30GHz 2.30GHz、Windows 10 64hit操作系統(tǒng)、TensorFlow 1.90環(huán)境。
關(guān)于CASME和CASMEⅡ人臉微表情數(shù)據(jù)集的識別率對比情況如圖2所示。本文的微表情識別率明顯要比其他三種的識別率指標(biāo)要高,主要是因為本文預(yù)處理得到的圖像明亮,無噪聲,并且在提取微表情特征利用LBP-TOP,對光照魯棒性強,有很好的人臉微表情識別效果。
圖2 不同方法微表情識別率對比Fig.2 Comparison of micro-expression recognition rates in different methods
本文在微表情研究中,提出了一種改進的卷積神經(jīng)網(wǎng)絡(luò),其主要特點是,在預(yù)處理時,通過直方圖均衡化、濾波去噪和尺寸變化得到了大小相同,圖像明亮,無噪聲的灰度圖像,減少了環(huán)境對微表情圖像的干擾,對微表情圖像的特征提取采用LBP-TOP,降低了光照變化對微表情識別的影響。通過改進后結(jié)構(gòu)優(yōu)化的卷積神經(jīng)網(wǎng)絡(luò)進行微表情圖像分類識別,提高了人臉微表情的識別率。實驗結(jié)果表明,在CASME和CASMEⅡ微表情數(shù)據(jù)集上都取得了較高的識別率,是一種有效的微表情識別方法。