徐其華,孫 波
(1.西北師范大學商學院,甘肅 蘭州 730070;2.北京師范大學人工智能學院,北京 100875)
表情是人類在進行社會活動時心理感受和精神狀態(tài)的自然流露,通過觀察一個人的面部細微變化,就能判斷出他此時的內心情感。根據心理學家Mehrabian[1]的研究,一個人想要表達出來的全部信息,口頭語言只占7%,語言輔助(如語調、語速等)占38%,而面部表情卻占了55%,因此大量有價值的信息都可以通過面部表情獲取。而且相對于生理信號,面部表情的數(shù)據更加容易獲得,因此受到更多人的關注。
隨著計算機技術、傳感技術和通訊技術的發(fā)展,高清攝像頭的使用越來越普遍,特別是智能手機的廣泛應用,獲取一小段帶有人臉的高清視頻是非常容易的事情。通過深度學習技術對帶有人臉的高清視頻片段進行自動分析,識別出視頻中人臉的表情,識別結果不僅能在各種系統(tǒng)中幫助人機進行高效交互,而且還能應用在現(xiàn)實生活中的不同領域。
面部表情是指通過眼部肌肉、顏面肌肉和口部肌肉的變化來表現(xiàn)各種情緒狀態(tài),是人類內心情感比較直接的一種表達方式。根據科學家們的研究,人類有7種基本情感,即快樂、悲傷、憤怒、厭惡、驚訝、恐懼和中性。表情識別的研究,實際上可以認為是對這7類情感的模式分類問題。隨著人工智能的發(fā)展和實際應用需求的推動,基于微視頻的自發(fā)性表情識別已經取得了不錯的研究進展,涌現(xiàn)出了各種各樣的表情自動識別模型,如EmoNets[2]、VGG-Net(Visual Geometry Group-Network)[3]、HoloNet[4]、VGG-LSTM(Visual Geometry Group-Long Short Term Memory)[5]和C3Ds(3-Dimensional Convolutional neural networks)[6]等,但總體來說,這些模型在各種表情識別競賽中都取得了不錯的成績。這些模型的識別準確率還不盡人意,遠遠低于人類肉眼的識別準確率,還不能在社會各個領域中進行廣泛應用。
本文針對表情智能識別過程中存在的一些關鍵性問題,設計了一個全自動表情識別模型,并在該模型中構建了一個深度自編碼網絡來自動學習人臉表情特征,并結合證據理論對多分類結果進行有效融合。在一些公開的表情識別庫上的實驗結果表明,該模型能顯著提升表情識別的準確度,性能優(yōu)于大部分現(xiàn)有的表情識別模型。
表情識別是在人臉檢測的基礎上發(fā)展起來的,和人臉識別一樣,也包括人臉檢測、圖像預處理、面部特征提取和分類識別等過程。隨著深度學習技術的廣泛應用,表情識別方法也逐漸由傳統(tǒng)的淺層學習方法向深度學習方法過渡。近些年來,表情識別技術的研究得到了學術界持續(xù)的重視,與之相關的情感識別競賽也吸引了越來越多的人參加。其中由國際計算機協(xié)會多模態(tài)人機交互國際會議ACM ICMI(ACM International Conference on Multimodal Interaction)主辦的情感識別大賽EmotiW(Emotion recognition in the Wild)是世界范圍內情感識別領域最高級別、最具權威性的競賽,吸引了世界頂尖科研機構和院校參與,微軟美國研究院、Intel研究院、IBM研究院、美國密西根大學、美國波士頓大學、新加坡國立大學、北京大學和愛奇藝等均參加了比賽。該賽事每年舉辦一次,從2013年開始,迄今已連續(xù)舉辦了8屆。國內舉辦的情感識別競賽起步比較晚,由中國科學院自動化研究所領頭舉辦的多模態(tài)情感競賽MEC(Multimodal Emotion Recognition),迄今只舉辦了2次[7,8]。這些競賽的定期舉辦,吸引了情感識別研究領域大部分研究機構參加,對該領域的交流和發(fā)展起到了巨大的推動作用。
面部表情特征提取在整個表情識別過程中具有非常重要的作用,特征提取的好壞直接影響著最終的識別準確度。在廣泛使用深度學習技術提取表情特征之前,研究者們主要提取一些傳統(tǒng)的手工特征,如基于紋理信息變化的Gabor特征[9,10]和局部二值模式LBP(Local Binary Pattern)特征[11],以及在兩者基礎上擴展的LGBP(Local Gabor Binary Pattern)特征[12]和LBP-TOP(Local Binary Patterns from Three Orthogonal Planes)特征[13];基于梯度信息變化的尺度不變性特征變換特征SIFT(Scale Invariant Feature Transform)[14]、方向梯度直方圖HOG(Histogram of Oriented Gradient)特征[15,16]和局部相位量化LPQ(Local Phase Quantization)特征[17],以及在這3種特征上擴展的特征,如Dense SIFT、 MDSF(Multi-scale Dense SIFT Features)[18]、 PHOG(Pyramid of Histogram Of Gradients)[19]等。這些傳統(tǒng)的手工特征在剛提出時,都取得了不錯的效果。但是,這些特征在提取時容易受到干擾,對光照強度、局部遮擋和個體差異都非常敏感,而且提取的特征向量維度一般比較大,需要和其它的特征降維方法結合使用。
隨著深度學習技術的應用,基于深度神經網絡的面部特征自動學習方法逐漸成為熱門。這類方法從局部到整體對面部信息進行統(tǒng)計,得到一些面部特征的統(tǒng)計描述,簡稱為深度學習方法。深度學習方法本質上就是研究者們首先構建一個深度神經網絡,然后利用大量樣本進行訓練,讓機器自動統(tǒng)計其中的變化規(guī)律,從而學習出有效的特征表示。深度學習方法不同于淺層學習方法,它將特征學習和分類識別結合在一起,不需要單獨提取出特征之后再進行分類。集特征提取和分類識別于一體的深度神經網絡模型近些年發(fā)展得比較快,比較典型的模型如表1所示?;谏疃葘W習技術的特征學習方法雖然對旋轉、平移和尺度變換都有著很強的魯棒性,但也有著所有特征提取方法共同的缺陷:易受到噪聲干擾。而且深度學習還需要大量的樣本進行訓練,如果樣本量太少,效果則不如別的方法好。
Table 1 Facial expression recognition models
基于深度神經網絡的特征學習方法雖然是現(xiàn)在使用的主流特征提取方法,但它也不能完全替代傳統(tǒng)的手工提取方法,大部分研究者的做法是同時使用多種方法提取特征,然后進行特征級融合,或者先對每個特征進行分類識別,再進行決策級融合。也有研究者先提取傳統(tǒng)的手工特征,再將這些特征融入到深度神經網絡進行特征再學習[29 - 31]。本文構建的表情識別模型也提取了多種特征,并使用證據理論方法進行決策級融合。
每一幅面部表情圖像都來自于視頻中的一幀,在這幀圖像中,除了人的面部信息,還有大量的背景信息。在進行特征提取時,需要先進行面部檢測,只提取人物面部的特征。背景信息對人物情感識別沒有太大的幫助作用,需要剔除。本文采用開源的人臉檢測算法DSFD(Dual Shot Face Detector)[32]來完成人臉檢測,通過該算法,可以將視頻轉換成面部表情圖像序列。
基于微視頻的表情識別,都是一個視頻對應一個表情標簽,不進行單視頻幀標注。大部分研究者在進行面部表情特征提取時,通常的做法是將整個視頻的表情標簽默認為每個幀的標簽,再進行深度神經網絡模型訓練。這樣做有很大的缺陷,會造成大量的圖像樣本標注錯誤。針對此種情況,本文將自適應注意力模型與自編碼網絡相結合,構建了一個SA-DAE(Self-Attention Deep AutoEncoder)模型。該模型不僅可以以非監(jiān)督方式提取面部表情特征,還能對傳統(tǒng)的卷積神經網絡進行改進,在不增加參數(shù)規(guī)模的前提下,最大可能地獲取全局信息。
本文構建的SA-DAE網絡如圖1所示,該模型是對原始的自編碼網絡的一種改進,將原來的全連接層全部改成了卷積層或反卷積層,并在其中加入了自注意力層。模型訓練好后,輸入一幅新的人臉圖像,經過編碼網絡就能提取出該人臉的面部行為特征。
Figure 1 SA-DAE network model圖1 SA-DAE網絡模型
通過人臉檢測后,每個微視頻就轉換成了一個人臉圖像序列,然后將序列中每一幅人臉圖像輸入到已經訓練好的SA-DAE網絡中,根據自編碼網絡的特性,對每幀圖像進行非監(jiān)督特征提取。
卷積神經網絡的核心是卷積操作,不同于全連接,它以局部感受野和權值共享為特點,對某個區(qū)域進行卷積操作時,默認只與周圍小范圍內區(qū)域有關,與其它部分無關。卷積操作的這種特性大大減少了參數(shù)量,加快了整個模型的運行過程,因此相對于全連接層,實現(xiàn)卷積操作的卷積層一直是深度神經網絡中的首選。但就因為這些特性,導致了卷積操作的弊端:會丟失一些空間上的關聯(lián)信息。如果一幅圖像中2個區(qū)域離得比較遠,但卻是相互關聯(lián)的,比如人臉具有對稱性,在進行表情識別時,左右眼角、左右嘴角是有空間聯(lián)系的,卷積操作忽略了這一個問題,默認這2個區(qū)域無關聯(lián),從而丟失一些至關重要的空間關聯(lián)信息。解決方法就是擴大卷積核,但卷積核太大時,參數(shù)量又會呈直線上升。為了在參數(shù)量和卷積范圍之間找到一個平衡,本文模型引入自注意力機制,該機制既考慮到了非局部卷積問題,又考慮到了參數(shù)量問題,具體實現(xiàn)如圖2所示。
Figure 2 Flow chart of Self-Attention圖2 Self-Attention層實現(xiàn)流程
經過前一層的卷積操作后,會得到很多的卷積特征圖(Convolutional Feature Maps),在進行下一層的卷積操作之前,SA-DAE模型將這些卷積特征圖輸入到一個自注意力層中,提取這些圖中包含的全局空間信息。實施細節(jié)主要包括:
(1)自注意力層的輸入是該批次所有圖像卷積操作后得到的特征圖X∈RN×C×H×W,是一個4維的張量,其中,N和C分別表示圖像的批次大小和通道數(shù)量,H和W分別表示每幅特征圖的高度和寬度。自注意力層將每幅特征圖分別進行f(x)、g(x)和h(x)變換,這3種變換都是普通的1×1卷積,差別只在于輸出通道數(shù)量不同。變換之后再分別進行Reshape操作,即將特征圖進行序列化,張量由4維變成3維,以便于后繼的矩陣運算。這一階段的操作如式(1)所示:
F=Reshape(f(x))=Reshape(Wfx)
G=Reshape(g(x))=Reshape(Wgx)
H=Reshape(h(x))=Reshape(Whx)
(1)
其中,x∈RW×H表示單幅圖像卷積后的特征圖,Wf、Wg和Wh分別表示3種卷積變換時的權值參數(shù),F(xiàn)、G和H分別表示此階段3種操作后得到的3個張量。
(2)接著,自注意力層將張量F的后2維進行轉置,并和張量G進行張量相乘,這步操作主要用來計算特征圖任意2個位置之間的信息相關性,然后再通過Softmax函數(shù)進行歸一化。這個階段操作公式如式(2)所示:
S=Softmax(FT·G)
(2)
其中S∈RN×HW×HW為歸一化后的相關性張量。
(3)最后,將H和S進行張量相乘,主要作用是將計算出的信息相關性作為權重加權到原位置的特征信息上,隨后通過Reshape變換將3維的結果張量恢復成4維,得到自注意力特征圖(Self-Attention Feature Maps)。最終模型把全局空間信息和局部鄰域信息整合到一起,融合得到加入了注意力機制的特征圖。此階段的操作如式(3)所示:
O=X+γ(Reshape(H·S))
(3)
其中,X表示自注意力層的原始輸入,O表示自注意力層的輸出。自注意力層的最終輸出兼顧了局部鄰域信息和全局空間相關信息,這里引入了一個參數(shù)γ作為平衡因子,表示全局空間相關信息相對于鄰域信息所占的權重,γ剛開始時初始化為0,為的是讓模型首先關注鄰域信息,之后隨著訓練的迭代,再慢慢把權重變大,讓模型更多地關注到范圍更廣的全局空間相關信息。
不同的特征表征著不同的辨別信息,將這些信息的分類結果進行融合,可以有效地互補。本文除了使用SA-DAE網絡自動提取面部表情特征,還通過其它成熟的特征提取算法提取了一些傳統(tǒng)的手工特征,如LBP-TOP、HOG和DSIFT等,使用不同的特征進行分類會得到不同的分類結果,這就需要采用信息融合方法對不同的分類結果進行融合。
某一個樣本應該分在哪一類,這是不確定的,同一個樣本,通過不同的特征信息進行分類,也有可能分在完全不同的類。這種模式分類的不確定性和模糊性,剛好與不確定性推理原理相吻合,因此本文將不確定推理方法中的D-S(Dempster-Shafer)證據理論引入到分類結果融合策略中。
在經典的D-S證據理論中,Θ表示識別框架,它包含了n個不相容的命題,數(shù)學符號表示為Θ={Aj│1≤j≤n},Ω=2Θ是Θ的冪集,函數(shù)m:2Θ→[0,1]將所有命題的冪集全部映射到一個概率值(取值為0~1),滿足下列2個條件:
m(Φ)=0
(4)
(5)
其中,函數(shù)m()稱為基本概率分配BPA(Basic Probability Assignment)函數(shù),也稱為mass函數(shù)。Φ表示空集或Ω中不存在的命題,Ai表示Ω中的任意一個命題,m(Ai)表示在識別框架中證據對某個命題Ai的精確信任度,也可以認為是證據在命題Ai處的概率。D-S證據理論的融合規(guī)則如下:
(6)
其中,Ai,Aj,Ak都表示任意一個命題,即Ai,Aj,Ak∈Θ, (m1⊕m2)(Ai)表示第1個證據和第2個證據在命題Ai處的融合。如果所有命題間都是相互獨立的,則在Ai處的融合概率就是2個證據的概率乘積,即m1(A1)×m2(Ai),如果2個命題有交集(即Aj∩Ak=Ai,例如復合表情間就存在交集),且交集為命題Ai,則在Ai處的融合概率是所有相交元素的概率乘積之和。α表示歸一化因子,反映了證據之間的沖突程度,計算公式如式(7)所示:
(7)
其中,Aj∩Ak=?表示2種命題間無交集(相互獨立),則二者的mass函數(shù)值乘積就可以用來衡量證據間的沖突程度。當α趨近于0時,表示兩證據之間無沖突,可以完全融合;反之,當α趨近于1時,表示兩證據之間高度沖突,融合效果會很差。
Figure 3 Model for multi-feature facial expression recognition圖3 多特征面部表情識別模型
在具體的表情識別模型中,每個命題即是一種表情類別,每個特征即為一個證據。mass函數(shù)則代表某個特征對某種表情的信任度,即在某種特征下,視頻被分為該類表情的概率。在本文提出的表情自動識別模型中,先利用隨機森林算法對每個特征分別進行分類,每個特征的分類結果為一個7維的概率向量,向量中的每個值表示視頻在該特征情況下分類為某種表情類別的概率。如果有m個特征,則最終的分類結果為一個m×7的矩陣。模型再通過D-S證據理論的融合規(guī)則,把多個不同的分類結果向量融合成一個概率向量。
表情的自動識別,需要經過人臉檢測、特征提取、特征聚合、分類識別和結果融合等流程,本文將這些分散的模塊結合在一起,就構成了一個全自動表情識別模型,模型結構如圖3所示。在經過人臉檢測得到微視頻中人臉圖像序列后,該模型能自動學習深度神經網絡特征,也能提取一些傳統(tǒng)的手工特征;隨后通過一個長短期記憶網絡LSTM(Long Short-Term Memory)將多個幀級特征聚合成視頻級特征,再分別經過隨機森林分類得到不同特征的分類結果;最后經過D-S證據理論對分類結果進行融合后,即可得到最終的面部表情識別結果。
本文在中國科學院自動化研究所構建的CHEAVD2.0數(shù)據庫上進行了實驗,實驗結果與第2屆多模態(tài)情感識別競賽(MEC 2017)的參賽結果進行了對比。CHEAVD2.0數(shù)據庫的數(shù)據來源于影視劇中所截取的音視頻片段,每一個音視頻片段分別標注為一些常見情感(高興、悲傷、生氣、驚訝、厭惡、擔心、焦慮)及中性情感中的一種。整個數(shù)據庫將被分為訓練集、驗證集和測試集3部分,在文獻[8]中,中國科學院自動化研究所的研究者們對這個數(shù)據庫的建庫過程、數(shù)據來源和數(shù)據劃分進行了詳細的說明。同時,他們對庫中的每一段音視頻也進行了特征提取和分類,并將分類結果作為該庫的基線水平,以便其它研究者進行對比分析。由于本文未收集到測試集的標簽,因此本文用訓練集來進行整個表情識別模型的訓練,用驗證集來驗證模型的性能。在進行SA-DAE模型訓練時,本文使用了遷移學習方法,先用大型人臉庫CeleA進行初步訓練,訓練出來的模型參數(shù)再用CHEAVD2.0數(shù)據庫進行微調。
考慮到樣本數(shù)據分布的不均衡性,本文以宏觀平均精確度MAP(Macro Average Precision)作為模型的第1評價指標,以分類準確度ACC(Accuracy)作為第2評價指標。2個評價指標的公式如式(8)~式(10)所示:
(8)
(9)
(10)
其中,s表示表情的類別數(shù),Pi表示第i類表情的分類準確度,TPi和FPi分別表示在第i類表情上分類正確的樣本數(shù)量和分類錯誤的樣本數(shù)量。
針對每一個視頻,本文分別提取了SA-DAE、CNN、DSIFT、HOG、HOG-LBP和LBP-TOP 6種特征。其中CNN特征是采用VGG網絡模型經有監(jiān)督訓練提取出來的特征,HOG-LBP特征是仿照LBP-TOP算法提取出來的特征,由xy面的HOG特征與yz、xz的LBP特征串聯(lián)而成。各特征在驗證集上的分類結果如表2所示。
Table 2 Feature classification and recognition results on verification set
各特征提取出來后都通過隨機森林算法進行分類,在驗證集上的分類結果如表2所示。其中,a表示隨機森林算法中決策樹的數(shù)量,b表示隨機森林算法中決策樹的深度,針對不同的特征,這2個參數(shù)的取值并不相同,需要在訓練集上進行交叉搜索訓練得到。
根據結果顯示,在宏觀平均精確度(MAP)評價指標上,SA-DAE特征的分類效果優(yōu)于其它特征的,但在分類準確度(ACC)的評價指標上,SA-DAE特征和傳統(tǒng)的DSIFT、HOG特征,分類效果沒有太大的差別。
在決策級融合階段,本文先將所有的特征按照分類準確度從高到低進行了排序,然后將準確度最高的SA-DAE特征作為基礎,按照順序將其它特征逐項融合進來。SA-DAE、DSIFT和HOG 3個特征融合之后,分類效果有了較大的提升,但融合進第4個特征后,分類效果出現(xiàn)了下降,因此本文又以SA-DAE+DSFIT+HOG的融合特征作為基礎,與剩下的特征進行窮舉組合,最終得到不同特征融合的分類結果,如表3所示。在宏觀平均精確度(MAP)評價指標上,SA-DAE、DSIFT、HOG、HOG-LBP 4種特征的證據理論融合效果最好,達到了53.39%,在分類準確度(ACC)的評價指標上,SA-DAE、DSIFT、HOG、HOG-LBP和CNN 5種特征融合效果優(yōu)于其它特征融合策略的。
Table 3 Feature fusion classification and recognition results on verification set
最后,本文將提出的表情識別模型也應用到了數(shù)據庫的測試集上,并根據數(shù)據庫提供方反饋的識別結果,與數(shù)據庫的分類識別基線水平進行了對比(如表4所示),本文提出的模型不管是在驗證集上還是在測試集上,識別準確度都取得了不錯的效果,遠遠超過了基線水平。
Table 4 Classification and recognition results on verification set and test set
本文結合深度自編碼網絡、自注意力模型和D-S證據理論,構建了一個表情自動識別模型。實驗結果顯示,該模型提取的非監(jiān)督深度學習特征的分類效果優(yōu)于其它特征的。在多特征分類結果融合方面,該模型也取得了不錯的成績,識別效果遠遠高于基線水平。但是,模型識別的準確度還遠遠落后于人類肉眼的識別能力,表情自動識別在現(xiàn)實生活中的應用,還有很長的一段路要走。