聶倩倩,秦潤澤,高育新,胡欣宇
(1.山西農(nóng)業(yè)大學(xué),山西 太谷 030800;2.山西平安谷信息技術(shù)有限公司,山西 太原 030006)
人類表情往往攜帶著比語言更為豐富的信息,因此,人臉表情識別是計算機視覺領(lǐng)域的一個重要研究課題。其研究成果可應(yīng)用于人機交互、心理疾病患者治療、情感計算與遠程教育等領(lǐng)域,廣泛的應(yīng)用領(lǐng)域推動著人臉表情識別技術(shù)不斷發(fā)展。易積政[1]等提出了基于特征點矢量與紋理形變能量參數(shù)融合的人臉表情識別方法,該方法較傳統(tǒng)方法在識別率上有所提高。Taihao Li[2]等結(jié)合主動外觀模型與神經(jīng)網(wǎng)絡(luò)進行人臉表情識別。Ross P Holder, Jules R Tapamo[3]通過使用更精確的Scharr梯度算子、主成分分析降維等方法提出了改進的梯度局部三值模式(GLTP)。
1971年,心理學(xué)家Ekman與Friesen研究提出了人類的六種基本情感,即驚訝(Surprise)、悲傷(Sadness)、憤怒(Anger)、恐懼(Fear)、厭惡(Disgust)與高興(Happiness),與此對應(yīng),人類可產(chǎn)生相應(yīng)的面部表情。為了更好地描述人臉面部表情,隨之誕生了不同的面部表情編碼方式。Ekman與Keltner[4]提出了面部運動編碼系統(tǒng)(FACS),可根據(jù)面部肌肉和肌肉群的運動對不同的面部表情加以區(qū)分。臉部動畫參數(shù)(FAPS)也是一種表情編碼方式,其根據(jù)臉部特征部位的運動描述面部表情。另外,美國麻省理工學(xué)院,日本東京理科大學(xué)與哈爾濱工業(yè)大學(xué)等國內(nèi)外高校與研究機構(gòu)都對表情識別開展了相關(guān)研究工作。表情編碼識別系統(tǒng)如圖1所示。
在研究表情識別的過程中,建立了供測試使用的人臉表情數(shù)據(jù)庫。較為經(jīng)典的面部表情數(shù)據(jù)庫有JAFFE Database、The Extended Cohn-Kanade Dataset(CK+),GEMEP-FERA 等。其中,JAFFE Database是由十位日本女性分別做出7種表情所構(gòu)成的213張圖像的集合,CK+則是一個具備表情強度從低到高逐漸變化[5]的數(shù)據(jù)庫,如圖2所示。
圖1 表情識別編碼系統(tǒng)
圖2 JAFFE與CK+數(shù)據(jù)庫中的面部表情
人臉表情識別主要由三部分組成,即人臉檢測與預(yù)處理,特征提取,表情分類。人臉檢測預(yù)處理旨在將目標人臉從背景中分離出來,其中涉及人臉定位、圖像旋轉(zhuǎn)與歸一化等操作;特征提取旨在提取出能夠表達人類情緒的面部特征,有多種特征提取方法,如局部二值模式(LBP)、彈性圖匹配法、等距映射等,本文只按照一種分類方式說明其中的部分特征提取方法;表情分類則依據(jù)提取出的面部特征將其歸類為具體的表情,其中有K最近鄰算法、稀疏表示分類法等。人臉表情識別流程如圖3所示。
圖3 人臉表情識別流程
人的面部表情具有大量特征。一張包含人臉的圖像擁有極大的信息量,且在視頻流中,同一人在不同幀下的表情模式也不盡相同,因此需要對人臉圖像進行圖像降維處理并提取出五官特征、紋理特征等有效信息。這些有效信息的提取極為重要,能否準確有效地提取出特征不僅影響著識別流程的速率,也極大地影響著識別準確率。
幾何特征的提取即針對二維圖像的人臉表情的顯著特征對面部五官進行定位,可以得到五官的大小、位置及五官之間的相互比例等空間幾何信息,可通過這些信息進行人臉表情識別。基于該方法的模型有主動形狀模型(ASM),活動外觀模型(AAM)與尺度不變特征轉(zhuǎn)換。ASM最早由Cootes提出,之后其針對ASM進行改進,于1998年提出了AAM。該類提取方法存在五官遮擋問題,且當光照、角度、人臉尺寸等重要識別分類信息丟失時,識別精度不高。
該類方法的主要思想是遍歷整幅圖像,盡可能多地提取整幅圖像的特征信息。該類方法可以使用主成分分析(PCA)去除人臉圖像中的混亂信息、噪聲和冗余;使用方差衡量去除小方差的冗余信息,使用正交位數(shù)空間描述數(shù)據(jù)改變的方向。但該方法只對符合高斯樣本即噪聲或不感興趣、信號比較微弱的數(shù)據(jù)有效,導(dǎo)致數(shù)據(jù)具有較差的可分性。在PCA的基礎(chǔ)上提出了獨立成分分析法,即ICA(Independent Component Analysis,ICA)。ICA將數(shù)據(jù)看作多個獨立分量的線性組合,進而獲取數(shù)據(jù)的獨立成分,因此具有較好的可分性。由于外界背景環(huán)境的干擾,該方法在復(fù)雜背景環(huán)境下識別率會下降。
主要采用Gabor小波變換方法,該方法可以在頻域的不同尺度,不同方向上提取相關(guān)特征。Gabor方法先添加時間局部化窗函數(shù),得到窗口傅里葉變換,因為該方法無法聚焦,因此研究人員加入了小波理論,結(jié)合成Gabor小波變換。該方法在對人臉表情特征提取時,能夠有效提取不同細節(jié)程度的圖像特征。但由于是低層次的特征,因此不易于直接用于特征匹配。
光流法。光流為圖像亮度模式的表觀運動,能夠反映出圖像的運動,因此可以提取出圖像的運動信息。光流算法先假設(shè)體素和圖像像素守恒,評估兩次表情之間的細微形變,可以得到圖像約束方程,求出圖像約束方程的解后計算變化參數(shù)。該方法反應(yīng)了表情變化的本質(zhì),因此光照因素干擾較小,但計算量龐大。
3.1.1 Bayes分類算法
Bayes分類是以貝葉斯定理為基礎(chǔ)的一類分類算法,貝葉斯定理屬于概率論的一種,在邊緣概率分布與隨機變量的條件下,使用產(chǎn)生的新數(shù)據(jù)對已有數(shù)據(jù)做修改。樸素Bayes分類算法是Bayes分類算法中較為簡單的一種。樸素Bayes分類算法能夠根據(jù)待分類項符合的各個條件判別其所屬類別。由于樸素Bayes模型假設(shè)特征屬性之間相互獨立,因此該分類方法誤差率小,然而當將其應(yīng)用于實際時效果不佳。
3.1.2 支持向量機算法
1995年,Cortes與Vapnik提出了支持向量機(Support Vector Machine,SVM),即自動分類算法。SVM能夠區(qū)分數(shù)據(jù)類別的高維到一維投影,其任務(wù)是找到最佳決策邊界。在尋找最佳決策邊界的過程中,相繼引入了核函數(shù)、拉格朗日對偶與SMO算法,SVM算法不使用真正的向量而使用數(shù)量積進行分類,因而減小了系統(tǒng)開銷,使得SVM算法更加優(yōu)化。相較于更先進的神經(jīng)網(wǎng)絡(luò)算法,支持向量機擁有更快的運算速度,計算時使用更少的訓(xùn)練樣本。支持向量機示意圖如圖4所示。
圖4 支持向量機示意圖
3.1.3 HMM模型
隱馬爾科夫模型(Hidden Markov Model,HMM)是一種關(guān)于時序的概率生成模型。該算法描述了馬爾科夫過程,但該過程包含隱含的未知參數(shù)。HMM模型將人臉圖像看作顯性序列,從已知的數(shù)據(jù)中確定隱含數(shù)據(jù),再利用隱含數(shù)據(jù)進行數(shù)據(jù)分析,因此適合進行動態(tài)視頻流分析。黃小娟[6]等通過優(yōu)化隱馬爾科夫模型參數(shù)提出了改進的隱馬爾科夫表情識別模型,使得該模型可更有效地應(yīng)用于表情識別中。HMM模型示意圖如圖5所示。
圖5 HMM模型示意圖
3.2.1 基于CNN的分類算法
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)是針對人工神經(jīng)網(wǎng)絡(luò)(ANN)的一種改進,其靈感來源于貓的初級視覺皮層,其權(quán)值共享網(wǎng)絡(luò)結(jié)構(gòu)使之更接近生物神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)由多個卷積層和頂端的全聯(lián)通層構(gòu)成,相較于其他神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)還包括關(guān)聯(lián)權(quán)重與池化層。CNN利用損失函數(shù)判斷類別預(yù)測值與真實值間的差異,利用激活函數(shù)解決非線性問題,采用正則化操作削減過擬合現(xiàn)象,采用池化層操作降低網(wǎng)絡(luò)復(fù)雜度。上述使得CNN的訓(xùn)練速度更快,計算量減少且能夠?qū)崿F(xiàn)圖像降維,使之能更好地處理二維圖像,使用神經(jīng)網(wǎng)絡(luò)時需要采取的圖像預(yù)處理工作較少。卷積神經(jīng)網(wǎng)絡(luò)示意圖如圖6所示。
圖6 卷積神經(jīng)網(wǎng)絡(luò)示意圖
3.2.2 基于DBN的分類算法
2006年,Geoffrey Hinton提出了深度信念網(wǎng)絡(luò)。深度信念網(wǎng)絡(luò)(Deep Belief Network,DBN)其結(jié)構(gòu)類似于人腦的認知過程,由多層受限玻爾茲曼機(RBM)構(gòu)成。RBM由可見層與隱層組成,可見層接受輸入,隱層提取特征,兩層雙向連接,層內(nèi)各神經(jīng)元間無連接,可見層輸出作為隱層輸入。采取對比散度的學(xué)習(xí)算法訓(xùn)練RBM,得到使得訓(xùn)練樣本概率最大的權(quán)值。多層RBM訓(xùn)練層經(jīng)調(diào)優(yōu)構(gòu)成DBN。DBN將低層輸出作為高層輸入,再將高層輸出作為更高層輸入,是一個自下而上的無監(jiān)督學(xué)習(xí)過程。采用DBN時需要為樣本集設(shè)定標簽,學(xué)習(xí)過程慢。施徐敢[7]等融合深度信念網(wǎng)絡(luò)與多層感知器進行人臉表情識別,該識別方法可達到的最好人臉表情正確識別率為90.95%。由于環(huán)境中光照等復(fù)雜因素的存在,Chen Li[8]等將DBN與增強局部紋理特征相結(jié)合,克服了光照變化帶來的影響。深度信念網(wǎng)絡(luò)示意圖如圖7所示。
圖7 深度信念網(wǎng)絡(luò)示意圖
目前人臉表情識別是圖像處理領(lǐng)域的研究熱點,人臉表情庫越來越豐富。其特征提取算法包括基于幾何特征提取、PCA與ICA算法、Gabor小波變換、光流法等。這些算法與其他算法相結(jié)合,在解決圖像噪聲,人臉遮擋、角度,環(huán)境光照等許多影響因素上有較好的處理效果,但同時也增大了系統(tǒng)開銷。傳統(tǒng)的表情分類方法有Bayes分類算法、隱馬爾可夫模型、支持向量機SVM模型。傳統(tǒng)算法模型計算速度快,但精度不高,因此在科研機構(gòu)中主要為深度學(xué)習(xí)方法,CNN與DBN這類算法訓(xùn)練出的模型識別精度高,速率快,但訓(xùn)練需要使用GPU等硬件加速,訓(xùn)練時更需要大量的表情庫,訓(xùn)練周期長,難以在高校科研機構(gòu)以外的場所進行研發(fā)和使用。
綜上所述,人臉表情識別這一課題已經(jīng)擁有了較成熟的研究成果,但缺點依然存在,需要不同算法取長補短,如將深度學(xué)習(xí)與傳統(tǒng)算法結(jié)合等,算法的改進仍然是一個漫長的探索實踐過程。
[1]易積政,毛峽,MITSURU I,等.基于特征點矢量與紋理形變能量參數(shù)融合的人臉表情識別[J].電子與信息學(xué)報,2013,35(10):2403-2410.
[2] LI T,ZHOU J, TUYA N, et al.Recognize facial expression using active appearance model and neural network[J].CyberC,2017:182-185.
[3] HOLDER R P,TAPAMO J R. Improved gradient local ternary patterns for facial expression recognition[J].EURASIP Journal on image and video processing, 2017(1):1-15.
[4]余龍華,王宏,鐘洪聲.基于隱馬爾科夫模型的人臉識別[J].計算機技術(shù)與發(fā)展,2012,22(2):25-28.
[5] WU B F,LIN C H. Adaptive feature mapping for customizing deep learning based facial expression recognition mode[J].IEEE Access,2018:1.
[6]黃小娟,吳榮騰.改進的隱馬爾可夫表情識別模型參數(shù)優(yōu)化算法.河南工程學(xué)院學(xué)報(自然科學(xué)版)[J].2014(4):59-64.
[7]施徐敢,張石清,趙小明.融合深度信念網(wǎng)絡(luò)和多層感知器的人臉表情識別[J].小型微型計算機系統(tǒng),2015,36(7):1629-1632.
[8] JEONG M,KWAK S,KO B C,et al. Driver facial landmark detection in real driving situation[J]. IEEE Trans. circuits syst. video technol,2017:1-15.
[9]蔣斌,賈克斌,楊國勝.人臉表情識別的研究進展[J].計算機科學(xué),2011,38(4):25-31.
[10]王大偉,周軍,梅紅巖,等.人臉表情識別綜述[J].計算機工程與應(yīng)用,2014,50(20):149-157.
[11]常亮,鄧小明,周明全,等.圖像理解中的卷積神經(jīng)網(wǎng)絡(luò)[J].自動化學(xué)報, 2016,42(9):1300-1312.
[12]張學(xué)工.關(guān)于統(tǒng)計學(xué)習(xí)理論與支持向量機[J].自動化學(xué)報,2000,26(1):32-42.
[13]王信,汪友生.基于深度學(xué)習(xí)與傳統(tǒng)機器學(xué)習(xí)的人臉表情識別綜述[J].應(yīng)用科技,2018,45(1):65-72.
[14]施徐敢,趙小明,張石清.人臉表情識別研究的新進展[J].實驗室研究與探索,2014,33(10):103-107.
[15] KO B C. A brief review of facial emotion recognition based on visual informatio[J]. sensors,2018,18(2):401.
[16] LI C,ZHAO S,XIAO K, et al.Face recognition based on the combination of enhanced local texture feature and dbn under complex illumination conditions[J].JIPS,2018,14(1): 191-204.
[17] WU B,HU B G,JI Q. A coupled hidden markov random field model for simultaneous face clustering and tracking in videos[Z].Pattern recognition,2016.