王建霞 陳慧萍 李佳澤 張曉明
摘 要:針對卷積神經(jīng)網(wǎng)絡(luò)特征提取不夠充分且識別率低等問題,提出了一種多特征融合卷積神經(jīng)網(wǎng)絡(luò)的人臉表情識別方法。首先,為了增加網(wǎng)絡(luò)的寬度和深度,在網(wǎng)絡(luò)中引入Inception結(jié)構(gòu)來提取特征的多樣性;然后,將提取到的高層次特征與低層次特征進(jìn)行融合,利用池化層的特征,將融合后的特征送入全連接層,對其特征進(jìn)行融合處理來增加網(wǎng)絡(luò)的非線性表達(dá),使網(wǎng)絡(luò)學(xué)習(xí)到的特征更加豐富;最后,輸出層經(jīng)過Softmax分類器對表情進(jìn)行分類,在公開數(shù)據(jù)集FER2013和CK+上進(jìn)行實驗,并且對實驗結(jié)果進(jìn)行分析。實驗結(jié)果表明:改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)在FER2013和CK+數(shù)據(jù)集的面部表情上,識別率分別提高了0.06%和2.25%。所提方法在人臉表情識別中對卷積神經(jīng)網(wǎng)絡(luò)設(shè)置和參數(shù)配置方面具有參考價值。
關(guān)鍵詞:計算機圖像處理;面部表情識別;卷積神經(jīng)網(wǎng)絡(luò);特征融合;特征提取;表情分類
中圖分類號:TP319 ? 文獻(xiàn)標(biāo)志碼:A ? doi:10.7535/hbkd.2019yx06012
Abstract:Aiming at the problem of insufficient feature extraction and low recognition rate of convolutional neural network, a novel facial expression recognition method based on multi-feature fusion convolutional neural network is proposed. First, to increase the width and depth of the network, Inception architecture is introduced into the network to extract the diversity of features; Then, the extracted high-level features are fused with the low-level features, and the pooled features are used to send the fused features into the full connection layer, then the fused features are processed to increase the non-linear expression of the network and enrich the features learned by the network. Finally, the output layer classifies the expressions by Softmax classifier, conductes experiments on FER2013 and CK+, and analyzes the experimental results. Experimental results show that the improved network structure improves the recognition rate of facial expressions in FER2013 and CK+ data sets by 0.06% and 2.25%, respectively. The proposed method is valuable for setting up convolution neural network and parameter configuration in facial expression recognition.
Keywords:computer image processing; facial expression recognition; convolutional neural network; feature fusion; feature extraction; expression classification
人臉面部表情在人們的日常交流中起到了舉足輕重的作用,人們可以通過情緒的表達(dá)來傳遞一些信息。人臉表情識別現(xiàn)如今廣泛應(yīng)用于計算機視覺、公安安防、心理治療和人際交互等領(lǐng)域[1]。但是由于人臉面部表情識別具有復(fù)雜性和多樣性等特點,這就使得人臉面部表情的識別有了很大的難度。
人臉表情識別大致包括圖像采集、圖像預(yù)處理、特征提取和表情識別分類4個步驟,其中特征提取是最關(guān)鍵的步驟,研究者們也針對這方面進(jìn)行了深入研究,提出了很多方法。文獻(xiàn)[2]提出從面部顯著區(qū)域中提取LBP和HOG特征,用Z-score方法對這兩種方法進(jìn)行融合實現(xiàn)表情識別。文獻(xiàn)[3]融合Gabor和LBP特征向量進(jìn)行表情識別,結(jié)果表明,與單一方法相比較,融合后的效果更好。文獻(xiàn)[4]使用Fisher線性判別法來改進(jìn)傳統(tǒng)的主成分分析法,通過增加類間離散矩陣以增大類別之間的距離,應(yīng)用于礦工面部表情的識別,但其對光照因素比較敏感。
傳統(tǒng)的識別方法雖然能得到較好的分類效果,但是太依賴于前期的人工提取特征,人對其干擾因素比較大。目前,由于卷積神經(jīng)網(wǎng)絡(luò)的無監(jiān)督學(xué)習(xí)特性,使得特征提取和識別變得更加簡單,因此在表情識別中,也常常用到卷積神經(jīng)網(wǎng)絡(luò)。文獻(xiàn)[5]提出微笑檢測的面部表情識別方法,使用卷積神經(jīng)網(wǎng)絡(luò)在GPU上對數(shù)據(jù)集進(jìn)行訓(xùn)練和測試。文獻(xiàn)[6]首次將跨連卷積網(wǎng)絡(luò)模型應(yīng)用于人臉表情識別,在LeNet-5網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行改進(jìn),將網(wǎng)絡(luò)中的池化層與全連接層融合,提取圖像中的高層次特征與低層次特征,取得了不錯的分類效果。文獻(xiàn)[7]提出一種加權(quán)混合神經(jīng)網(wǎng)絡(luò),將提取的灰度圖像在經(jīng)過ImageNet數(shù)據(jù)庫訓(xùn)練的VGG-16網(wǎng)絡(luò)上進(jìn)行參數(shù)初始化,將圖像提取LBP特征后送入由DeepID改進(jìn)的淺層網(wǎng)絡(luò)中,對這2個通道的輸出以加權(quán)的方式融合,實驗證明,該方法優(yōu)于手工特征和單通道的神經(jīng)網(wǎng)絡(luò)。文獻(xiàn)[8]提出融合神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和條件隨機場的方法,在網(wǎng)絡(luò)中使用了3個Inception-ResNet模塊,大大提高了識別能力。文獻(xiàn)[9]提出了一種新的神經(jīng)網(wǎng)絡(luò)島嶼損失模型,增加了類間差異,使類內(nèi)距離變小。文獻(xiàn)[10]提出了一種雙通道卷積神經(jīng)網(wǎng)絡(luò),將提取的眼睛輸入第1通道,嘴巴輸入第2通道,通道融合送入全連接層,提高分類的精度。文獻(xiàn)[11]提出了EmotionDAN模型,將面部表情地標(biāo)作為分類損失函數(shù)的一部分,同時擴(kuò)展了深度對齊網(wǎng)絡(luò),取得了不錯的效果。
本文提出了一種多特征融合卷積神經(jīng)網(wǎng)絡(luò)方法,既考慮了圖像的高層次特征,又考慮了圖像的低層次特征,同時又將具有降維功能的Inception v1模塊引入卷積神經(jīng)網(wǎng)絡(luò)中,通過拓寬卷積神經(jīng)網(wǎng)絡(luò)的深度和寬度來增強提取特征的能力,并將此模型應(yīng)用于人臉表情識別。本文中的神經(jīng)網(wǎng)絡(luò)借鑒了VGG網(wǎng)絡(luò),但是又不同于VGG網(wǎng)絡(luò),沒有完全采用3×3的卷積核,而是采用3×3和5×5的卷積核,padding采用“SAME”,池化層均采用2×2的池化區(qū)域,激活函數(shù)的使用更能凸顯表情的邊緣信息和紋理信息。為了防止過擬合,在全連接層引入了Dropout技術(shù)。實驗結(jié)果表明,改進(jìn)后的網(wǎng)絡(luò)能有效提高人臉表情識別的準(zhǔn)確率,達(dá)到更好的分類效果。
1 VGG-16網(wǎng)絡(luò)結(jié)構(gòu)
VGG是在AlexNet基礎(chǔ)上進(jìn)行改進(jìn)的,并在ILSVRC[12]2014年比賽中取得了分類項目第2名和定位項目第1名的好成績。VGG-16網(wǎng)絡(luò)輸入圖片格式為224×224×3,采用的卷積核尺寸為3×3,卷積步長設(shè)置為1,采用的最大池化區(qū)域為2×2,步長為2。在經(jīng)過13個卷積層和5個最大池化層處理后,輸出一個4 096維度的數(shù)據(jù),然后經(jīng)過3個全連接層處理,最終輸入Softmax對圖像進(jìn)行分類,將分類結(jié)果輸出。采用2個3×3的卷積核代替1個5×5的卷積核,3個3×3的卷積核代替1個7×7的卷積核,在保證感受野相同的同時,也加深了網(wǎng)絡(luò)的深度。增加了ReLU[13]激活函數(shù)的使用次數(shù),使特征的學(xué)習(xí)能力增強;使用最大池化層,不僅減少了網(wǎng)絡(luò)中的參數(shù),而且更有利于保持圖像的性質(zhì)。VGG-16網(wǎng)絡(luò)模型如圖1所示。為了提高表情識別的識別率和魯棒性,在文中網(wǎng)絡(luò)架構(gòu)方面做了改進(jìn)。
2 跨連卷積神經(jīng)網(wǎng)絡(luò)的改進(jìn)
2.1 VGG網(wǎng)絡(luò)模型的改進(jìn)
傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)只是把提取到的特征向后傳輸,沒有很好地將低層次的特征進(jìn)行有效利用,從而對分類結(jié)果產(chǎn)生影響。同時,網(wǎng)絡(luò)層數(shù)的不斷加深會產(chǎn)生梯度的彌散問題,進(jìn)而對網(wǎng)絡(luò)的訓(xùn)練也會產(chǎn)生一定影響。為了克服這一傳統(tǒng)缺點,在本文中引入了跨連思想[14],用于人臉表情的分類。該網(wǎng)絡(luò)輸入一幅圖像X,然后分別交錯經(jīng)過卷積層(L1,L3,L5)、池化層(L2,L4,L6,L8)、Inception v1模塊、2個全連接層(L9,L10)和輸出層(O)。將池化層L2,L4,L6,L8提取到的特征直接送入全連接層進(jìn)行特征融合并分類,輸出層有7個分類。
VGG網(wǎng)絡(luò)通過相同的卷積核進(jìn)行特征提取,在每個卷積層的后邊均加入了ReLU激活函數(shù)以及批量正則化,可以緩解過擬合問題。改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)是基于VGG-16網(wǎng)絡(luò)結(jié)構(gòu)修改得到的,輸入大小為44像素×44像素,卷積層均采用3×3和5×5的卷積核,步長為1,采用padding=“SAME”,即卷積后保持圖像空間分辨率不發(fā)生改變,其中5×5的卷積核可以學(xué)習(xí)到更多的空間特征。一次卷積就等價于做了一次特征變換,不同卷積核的使用,增加了網(wǎng)絡(luò)模型對不同尺度的適應(yīng)性。池化層跟在卷積層的后面,采用2×2的滑動窗口,步長設(shè)置為2。全連接層中的Dropout設(shè)置為0.5,即丟棄網(wǎng)絡(luò)中一半的神經(jīng)網(wǎng)絡(luò)單元,有效防止過擬合,使網(wǎng)絡(luò)的泛化能力更強,因而減少了網(wǎng)絡(luò)的復(fù)雜度,同時也加快了運算速度。每個卷積層的后邊都會添加BN層,對每層輸入數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。
3 實 驗
實驗是基于Python3的深度學(xué)習(xí)框架Keras進(jìn)行的,使用的操作系統(tǒng)為Windows10,硬件配置:中央處理器(CPU)為Intel(R) Xeon(R) E5-2630 v2,主頻為2.60 GHz,內(nèi)存為32 GB;圖形處理器(GPU)為NVIDIA Quadro K2000,顯存為3 GB。安裝了NVIDIA CUDA Framework8.0和cuDNN庫。
3.1 數(shù)據(jù)集
在實驗中分別采用FER2013表情數(shù)據(jù)集和The extended Cohn-Kanade dataset (CK+)表情數(shù)據(jù)集進(jìn)行實驗。
FER2013數(shù)據(jù)集來自于2013年Kaggle比賽中的數(shù)據(jù)集,包含了35 887張圖片,在這里選用了其中的28 709張圖片用作訓(xùn)練集,3 589張圖片用作測試集,3 589張圖片用作驗證集。每張圖片都是固定大小為48像素×48像素的灰度圖。其中共包含了7種表情:憤怒、厭惡、恐懼、高興、悲傷、驚訝、中性。圖像涵蓋了不同的人種、年齡、光照、遮擋、側(cè)臉、姿勢等,同時圖像的分辨率偏低,使得在該數(shù)據(jù)集上進(jìn)行表情識別具有挑戰(zhàn)性。圖3為FER2013數(shù)據(jù)集中的7種表情樣例圖像。
CK+數(shù)據(jù)集是包含123個人、總共593個表情的視頻序列樣本。本實驗僅取某一種表情高潮狀態(tài)的3張圖片,檢測到人臉并且將人臉裁剪到48像素×48像素大小。共包含7種表情,分別為生氣、厭惡、害怕、開心、悲傷、驚訝及中性表情,圖4為CK+數(shù)據(jù)集中的7種表情樣例圖像。
由于數(shù)據(jù)集中的數(shù)據(jù)量不足,因而需對數(shù)據(jù)進(jìn)行數(shù)據(jù)增強處理,如表2所示。表2中,“Rotation_range”即為圖片可以隨機轉(zhuǎn)動的角度;“Rescale”表示對圖片進(jìn)行隨機縮放;“Shear_range”表示逆時針方向的隨機剪裁角度;“Zoom_range”表示隨機縮放的幅度;“Horizontal_flip”表示隨機水平翻轉(zhuǎn);“Fill_mode”表示當(dāng)進(jìn)行變換時超出邊界的點會根據(jù)設(shè)置的參數(shù)進(jìn)行處理。
3.2 實驗結(jié)果及分析
將圖像處理成固定大小的數(shù)據(jù)格式,方便將數(shù)據(jù)輸入到神經(jīng)網(wǎng)絡(luò)中。FER2013數(shù)據(jù)集中人臉圖像的大小為48像素×48像素,將圖像處理成大小為44像素×44像素,對圖像的像素歸一化到[0,1]內(nèi),對圖像進(jìn)行數(shù)據(jù)擴(kuò)充,擴(kuò)充方法的參數(shù)如表2所示。通過這一方法,擴(kuò)大了數(shù)據(jù)集的數(shù)量并實現(xiàn)了空間不變性。表3為FER2013數(shù)據(jù)集中的表情識別集。
CK+數(shù)據(jù)集采用5-折交叉驗證方法,將圖像分成5份,每份都分別含有7種表情,每次實驗時,選擇其中的4份作為訓(xùn)練集,剩余的1份作為測試集。訓(xùn)練集用于訓(xùn)練分類器,測試集用于測試和得到模型。進(jìn)行5次實驗,最后取5次實驗的平均結(jié)果作為最終的實驗結(jié)果。表4為CK+數(shù)據(jù)集中的表情平均識別率。
從表3可以看出,高興和驚訝的表情識別率最高,由此可見,這些表情相較于其他表情來說比較明顯,動作幅度比較大。憤怒、厭惡、恐懼、悲傷的表情識別難度比較大,其中恐懼和悲傷表情比較相似,因為它們都具有額頭緊皺和嘴唇拉開的特征。生氣與厭惡表情具有相同的皺眉和嘴角等特征,所以識別表情的時候容易發(fā)生混淆。
從表4可以看出,算法在CK+數(shù)據(jù)集中的整體表現(xiàn)較好,但在識別厭惡、害怕和悲傷表情時準(zhǔn)確率要低一些,主要原因可能是害怕、厭惡和悲傷之間表情的關(guān)系定義不是很明確,導(dǎo)致檢測時識別率有所下降。
由表3和表4可知,同種算法在CK+表情庫的識別效果要優(yōu)于在FER2013表情庫,造成這種結(jié)果的原因是FER2013表情庫的影響因素比較多,更接近于現(xiàn)實生活中的圖片,更具有代表性。因CK+是標(biāo)準(zhǔn)實驗室圖片,影響因素比較少,所以識別率相對于FER2013來說要高很多。
為了證明本文方法的有效性,在基準(zhǔn)數(shù)據(jù)庫的基礎(chǔ)上,對比了本文算法與表情識別主流算法的性能。表5和表6分別為在FER2013和CK+中的實驗結(jié)果對比。文獻(xiàn)[16]使用純卷積神經(jīng)網(wǎng)絡(luò)模型,表情識別率為57.10%;文獻(xiàn)[17]使用與GoogleLeNet[18]相似結(jié)構(gòu)的Inception,表情識別率達(dá)到71.60%;文獻(xiàn)[19]使用深層次的VGG網(wǎng)絡(luò),表情識別率為72.70%;文獻(xiàn)[20]提出基于面部表情識別其中情緒裝填的結(jié)果,以表情要素系數(shù)做特征進(jìn)行計算,用3-NN和MLP神經(jīng)網(wǎng)路進(jìn)行特征分類;文獻(xiàn)[5]在LeNet-5網(wǎng)絡(luò)的基礎(chǔ)上提出了跨連接網(wǎng)絡(luò),將低層次特征與高層次特征進(jìn)行融合,以彌補樣本數(shù)量的不足,表情識別率達(dá)到83.74%。由表5和表6對比結(jié)果可知,在這兩種數(shù)據(jù)集中,與其他方法相比,本文算法有較好的識別效果。在FER2013數(shù)據(jù)集中,本文算法比其他方法的識別率至少提高了0.06%。在CK+數(shù)據(jù)集中,本文算法較其他方法的識別率至少提高了2.55%。
4 結(jié) 語
針對人臉表情識別效果欠佳、魯棒性差等問題,提出了一個改進(jìn)的跨連接卷積神經(jīng)網(wǎng)絡(luò)來識別7種面部表情。在VGG網(wǎng)絡(luò)的基礎(chǔ)上對網(wǎng)絡(luò)進(jìn)行了改進(jìn),將網(wǎng)絡(luò)中的低層次特征與高層次特征進(jìn)行融合,并將融合后的特征輸入全連接層,充分利用了每個池化層的特征;引入了Inception網(wǎng)絡(luò)結(jié)構(gòu),增加網(wǎng)絡(luò)深度的同時,也增加了網(wǎng)絡(luò)的寬度,使網(wǎng)絡(luò)學(xué)習(xí)到的特征更加豐富,同時也加快了收斂速度。實驗證明,本文的特征提取方法在FER2013和CK+數(shù)據(jù)集上的識別率有明顯提高。本文僅考慮了表情圖片比較復(fù)雜、各個表情的類內(nèi)差距比較大的情況,后續(xù)工作還需要增大表情類間差距,降低類內(nèi)差距,進(jìn)一步提高表情的識別率。
參考文獻(xiàn)/References:
[1] 徐峰, 張軍平. 人臉微表情識別綜述[J]. 自動化學(xué)報, 2017,43(3):333-348.
XU Feng, ZHANG Junping. Facial microexpression recognition: A survey[J]. Acta Automatica Sinica, 2017, 43(3):333-348.
[2] LIU Yanpeng, LI Yibin, MA Xin, et al. Facial expression recognition with fusion features extracted from salient facial areas[J]. Sensors, 2017, 17(4): s17040712.
[3] SUN Yuechuan, YU Jun. Facial expression recognition by fusing Gabor and local binary pattern features[C]//International Conference on Multimedia Modeling. Cham: Springer, 2017: 209-220.
[4] 杜云, 張璐璐, 潘濤. 基于改進(jìn)的主成分分析法的礦工表情識別[J]. 河北科技大學(xué)學(xué)報, 2019, 40(1): 45-50.
DU Yun, ZHANG Lulu, PAN Tao. Miner expression recognition based on improved principal component analysis[J].Journal of Hebei University of Science and Technology,2019,40(1):45-50.
[5] IVANOVSKY L, KHRYASHCHEV V, LEBEDEV A, et al. Facial expression recognition algorithm based on deep convolution neural network[C]//2017 21st Conference of Open Innovations Association (FRUCT). Helsinki:IEEE, 2017: 141-147.
[6] 李勇, 林小竹, 蔣夢瑩. 基于跨連接 LeNet-5 網(wǎng)絡(luò)的面部表情識別[J]. 自動化學(xué)報, 2018, 44(1): 176-182.
LI Yong, LIN Xiaozhu, JIANG Mengying. Facial expression recognition with cross-connect LeNet-5 network[J]. Acta Automatica Sinica, 2018, 44(1): 176-182.
[7] YANG Biao, CAO Jinmeng, NI Rongrong, et al. Facial expression recognition using weighted mixture deep neural network based on double-channel facial images[J]. IEEE Access, 2017:2784096.
[8] HASANI B, MAHOOR M H. Spatio-temporal facial expression recognition using convolutional neural networks and conditional random fields[C]//2017 12th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2017). Washington DC:IEEE, 2017: 790-795.
[9] CAI Jie, MENG Zibo, KHAN A S, et al. Island loss for learning discriminative features in facial expression recognition[C]//2018 13th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2018). Xi′an:IEEE, 2018: 302-309.
[10] NWOSU L, WANG Hui, LU Jiang, et al. Deep convolutional neural network for facial expression recognition using facial parts[C]//2017 IEEE 15th Intl Conf on Dependable, Autonomic and Secure Computing, 15th Intl Conf on Pervasive Intelligence and Computing, 3rd Intl Conf on Big Data Intelligence and Computing and Cyber Science and Technology Congress. Orlando:IEEE, 2017: 1318-1321.
[11] TAUTKUTE I, TRZCINSKI T, BIELSKI A. I know how you feel: Emotion recognition with facial landmarks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR) Workshops. [S.l.]:[s.n.], 2018: 1878-1880.
[12] RUSSAKOVSKY O, DENG Jia, SU Hao, et al. ImageNet large scale visual recognition challenge[J]. International Journal of Computer Vision, 2015, 115(3): 211-252.
[13] 龔震霆, 陳光喜, 曹建收. 卷積神經(jīng)網(wǎng)絡(luò)在腦脊液圖像分類上的應(yīng)用[J]. 計算機工程與設(shè)計, 2017, 38(4):1056-1061.
GONG Zhenting,CHEN Guangxi,CAO Jianshou. Cerebrospinal fluid images classification based on convolution neural network[J]. Computer Engineering and Design, 2017, 38(4):1056-1061.
[14] 張婷, 李玉鑑, 胡海鶴, 等. 基于跨連卷積神經(jīng)網(wǎng)絡(luò)的性別分類模型[J]. 自動化學(xué)報, 2016, 42(6): 858-865.
ZHANG Ting, LI Yujian, HU Haihe, et al. A gender classification model based on cross-connected convolutional neural networks[J]. Acta Automatica Sinica, 2016, 42(6): 858-865.
[15] KLAMBAUER G, UNTERTHINER T, MAYR A, et al. Self-normalizing neural networks[C]//Advances in Neural Information Processing Systems. Linz:[s.n.], 2017: 971-980.
[16] TMEN V, SYLEMEZF, ERGEN B. Facial emotion recognition on a dataset using convolutional neural network[C]//2017 International Artificial Intelligence and Data Processing Symposium(IDAP). Malatya:[s.n.], 2017: 8090281.
[17] PRAMERDORFER C, KAMPEL M. Facial expression recognition using convolutional neural networks: State of the art[J]. CoRR, 2016:1612.02903v1.
[18] SZEGEDY C, LIU Wei, JIA Yangqing, et al. Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Boston:IEEE, 2015: 7298594.
[19] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[C]//3rd International Conference on Learning Representations. San Diego:ICLR, 2014:1409.1556V6.
[20] 徐琳琳, 張樹美, 趙俊莉. 構(gòu)建并行卷積神經(jīng)網(wǎng)絡(luò)的表情識別算法[J]. 中國圖象圖形學(xué)報, 2019, 24(2): 227-236.
XU Linlin, ZHANG Shumei, ZHAO Junli. Expression recognition algorithm for parallel convolutional neural networks[J]. Journal of Image and Graphics, 2019,24(2):227-236.