梁華剛,張志偉,王亞茹
長(zhǎng)安大學(xué) 電子與控制工程學(xué)院,西安 710000
在現(xiàn)實(shí)生活中,表情是人類(lèi)最重要的生物特征之一,包含著非常豐富的情感信息,在人與人相互情感表達(dá)中起著重要作用。隨著近年來(lái)計(jì)算機(jī)視覺(jué)的發(fā)展,表情識(shí)別作為人工智能的一個(gè)方向也引起越來(lái)越多國(guó)內(nèi)外學(xué)者的關(guān)注。
鄭昌金等[1]的基于LBP(Local Binary Pattern)特征和熵正則化Wasserstein距離的表情特征提取和識(shí)別方法,對(duì)傳統(tǒng)LBP進(jìn)行了改進(jìn),并取得了良好的識(shí)別率。黃麗雯等[2]的非對(duì)稱(chēng)方向性局部二值模式人臉表情識(shí)別方法,通過(guò)對(duì)分割的表情區(qū)域計(jì)算相關(guān)貢獻(xiàn)度和二值模式直方圖信息,采用級(jí)聯(lián)網(wǎng)絡(luò)進(jìn)行多尺度多方向特征融合,最后對(duì)融合特征進(jìn)行分類(lèi)識(shí)別。Deng 等[3]的基于Gabor特征結(jié)合主成分分析和獨(dú)立成分分析的方法,對(duì)濾波器數(shù)量進(jìn)行了限制,減少了數(shù)據(jù)冗余,提高了模型計(jì)算速度。于明等[4]基于LGBP(Local Gabor Binary Pattern)的識(shí)別方法和張娟等[5]基于Gabor小波變換的表情識(shí)別方法相比較,前者采用對(duì)提取的多尺度、多方向的Gabor特征進(jìn)行局部二進(jìn)制編碼,然后建立過(guò)完備字典實(shí)現(xiàn)圖像分類(lèi),后者對(duì)預(yù)處理的圖像經(jīng)過(guò)單模式Gabor特征提取,進(jìn)而應(yīng)用模板匹配算法進(jìn)行識(shí)別。兩者模型簡(jiǎn)單,在不同數(shù)據(jù)庫(kù)上有很好的識(shí)別率,完全體現(xiàn)了Gabor小波在表情識(shí)別方面的優(yōu)勢(shì)。早在1989年,LeCun等[6]提出了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)模型,為現(xiàn)代圖像、計(jì)算機(jī)視覺(jué)和NLP 技術(shù)等領(lǐng)域的發(fā)展奠定了深度網(wǎng)絡(luò)的基礎(chǔ)。比如Xu 等[7]的基于卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別方法,通過(guò)參數(shù)迭代更新,提取圖像深度信息,實(shí)驗(yàn)結(jié)果表明卷積網(wǎng)絡(luò)模型相比于傳統(tǒng)方法在識(shí)別率、泛化性方面有很大優(yōu)勢(shì)。錢(qián)勇生等[8]的多視角表情識(shí)別方法,通過(guò)改進(jìn)卷積網(wǎng)絡(luò)提取不同視角的特征,引入壓縮和懲罰網(wǎng)絡(luò)進(jìn)行學(xué)習(xí),加入空間金字塔和優(yōu)化算法增強(qiáng)網(wǎng)絡(luò)魯棒性和快速性。Lopesa等[9]的深度卷積網(wǎng)絡(luò)的識(shí)別方法,應(yīng)用特定的預(yù)處理技術(shù),僅使用少量數(shù)據(jù)訓(xùn)練深度網(wǎng)絡(luò)提取特征,解決了公有數(shù)據(jù)集數(shù)據(jù)量不足的問(wèn)題,并且在保證識(shí)別率的情況下實(shí)時(shí)性也有不錯(cuò)的表現(xiàn)。Zeng等[10]的基于深度編碼器的識(shí)別方法,對(duì)編碼器結(jié)合深度學(xué)習(xí)特點(diǎn)進(jìn)行累加來(lái)提取圖像深度特征,在網(wǎng)絡(luò)結(jié)構(gòu)方面有很大的創(chuàng)新,并且有非常好的識(shí)別效果。以上傳統(tǒng)方法存在泛化性不強(qiáng)、提取特征單一、特征融合后高維特征冗余、多級(jí)網(wǎng)絡(luò)計(jì)算量大、對(duì)光照問(wèn)題不敏感等問(wèn)題。而深度卷積模型的網(wǎng)絡(luò)參數(shù)更新方式和結(jié)構(gòu)都比較復(fù)雜,訓(xùn)練過(guò)程過(guò)于繁瑣,對(duì)硬件要求較高,難以保證在實(shí)際應(yīng)用中模型實(shí)時(shí)性問(wèn)題。根據(jù)現(xiàn)有傳統(tǒng)方法、深度學(xué)習(xí)等方法的研究基礎(chǔ),設(shè)計(jì)能體現(xiàn)二者優(yōu)勢(shì)的網(wǎng)絡(luò)模型。
綜上,本文提出一種基于Gabor卷積核改進(jìn)的網(wǎng)絡(luò)模型,利用深度學(xué)習(xí)模型參數(shù)優(yōu)化的特點(diǎn),設(shè)計(jì)自適應(yīng)Gabor卷積核,采用不同的卷積通道,分別提取適應(yīng)度較高的Gabor 特征。進(jìn)一步對(duì)提取高維特征進(jìn)行通道內(nèi)降維和通道外編碼降維。然后應(yīng)用GA(Genetic Algorithm)優(yōu)化算法對(duì)支持向量機(jī)分類(lèi)器具有魯棒性的安全因子等相關(guān)參數(shù)進(jìn)行優(yōu)化,使得低位映射的超平面決定的決策邊界存在最大間隔。產(chǎn)生更加高效的數(shù)據(jù)分類(lèi)模型,在保證準(zhǔn)確率和泛化性的情況下,調(diào)節(jié)各級(jí)參數(shù),盡可能降低網(wǎng)絡(luò)訓(xùn)練時(shí)間、模型復(fù)雜度、錯(cuò)誤率。
本章主要對(duì)表情識(shí)別過(guò)程中用到的預(yù)處理操作、Gabor濾波器組、支持向量機(jī)理論進(jìn)行概述,分析不同過(guò)程中應(yīng)用的理論方法,為整體網(wǎng)絡(luò)框架提供基礎(chǔ)。
圖像預(yù)處理過(guò)程在表情識(shí)別方面至關(guān)重要,它主要包括人臉面部檢測(cè)、分割、歸一化等操作,目的是得到包含細(xì)節(jié)的歸一化、噪聲較少的表情圖像。(1)人臉粗剪檢測(cè):首先對(duì)圖像進(jìn)行分塊,其次應(yīng)用HOG特征對(duì)不同數(shù)據(jù)庫(kù)的圖像進(jìn)行人臉檢測(cè),然后根據(jù)提取的特征訓(xùn)練一個(gè)檢測(cè)模型,用于圖像預(yù)處理操作。(2)粗剪裁剪:將檢測(cè)出來(lái)的人臉表情用規(guī)定大小的實(shí)線框進(jìn)行標(biāo)記,并且截取框內(nèi)人臉圖像。(3)數(shù)據(jù)歸一化模塊:因?yàn)檩斎氲胶笃谧R(shí)別網(wǎng)絡(luò)的圖像大小是相同的,所以要對(duì)截取的表情圖像進(jìn)行精剪,進(jìn)一步進(jìn)行歸一化處理,最后得到歸一化后的表情圖像的大小為48×48。圖1為人臉表情預(yù)處理的結(jié)果示意圖,從圖中效果來(lái)看,分割效果比較可觀。
圖1 JAFFE表情庫(kù)人臉表情預(yù)處理結(jié)果
Gabor 變換[11-12]是一種短時(shí)傅里葉變換方法,當(dāng)選取的函數(shù)為高斯函數(shù)時(shí),這種短時(shí)傅里葉變換稱(chēng)為Gabor 變換。在圖像表示的空域中,一個(gè)二維的Gabor濾波器是一個(gè)正弦平面波和高斯核函數(shù)的乘積,具備在空間域和頻域[13]同時(shí)取得最優(yōu)局部化的特性,相應(yīng)的定義如式(1)所示:
式(1)為復(fù)數(shù)形式,且x′=xcosθ+ysinθ,y′=-xsinθ+ycosθ,λ為正弦波長(zhǎng),θ為 Gabor 核函數(shù)的方向,ψ為相位偏移量,σ為高斯函數(shù)的標(biāo)準(zhǔn)差,γ表示空間寬高比。一般的,Gabor 濾波器是自相似的,也就是所有的Gabor 濾波器都可以通過(guò)一個(gè)母小波經(jīng)過(guò)膨脹和旋轉(zhuǎn)產(chǎn)生。
本文設(shè)計(jì)了40 個(gè)實(shí)部濾波器,包括8 個(gè)不同方向(橫向)μ∈{0,1,2,3,4,5,6,7} ,5 個(gè)不同的尺度(縱向)。生成的濾波器組為圖2 所示,其中最大中心頻率為ωmax=π/2,以上Gabor 濾波器組的參數(shù)σ主要和設(shè)計(jì)濾波器的帶寬有關(guān)系(σ=0.5 為最佳濾波效果)。
圖2 不同頻率和方向的Gabor濾波器組
支持向量機(jī)(Support Vector Machine,SVM)[14]就是利用內(nèi)積核函數(shù)代替高維空間的非線性映射,通過(guò)此核函數(shù)對(duì)特征向量進(jìn)行變換,將低維不可分問(wèn)題轉(zhuǎn)化為高維可分,這個(gè)映射表示為:
其中,X為輸入數(shù)據(jù),每個(gè)樣本用(xi,yi)表示,φ為映射核函數(shù),Z為高維輸出向量。一般,定義的分類(lèi)超平面根據(jù)式(3)計(jì)算樣本點(diǎn)到超平面的距離:
式中,w為變換矩陣,b為偏差。應(yīng)用拉格朗日和KKT(Karush-Kuhn-Tucher)條件對(duì)支持向量最大間隔和與分類(lèi)面的最小距離進(jìn)行優(yōu)化,問(wèn)題轉(zhuǎn)化為使得||w||最小,表示為:
其中,xi為樣本的特征向量,yi為類(lèi)別標(biāo)簽,取值為±1,分別對(duì)應(yīng)的是正樣本和負(fù)樣本,K表示核函數(shù),n為樣本數(shù),ε為懲罰因子(人工經(jīng)驗(yàn)參數(shù))。
SVM在邏輯回歸基礎(chǔ)上存在的決策邊界不但要求支持向量間有最大間隔,也要使得與分類(lèi)面存在最大距離。如圖3 為支持向量機(jī)二分類(lèi)效果圖,圖(a)為支持向量和分類(lèi)面最小距離的最大間隔面效果圖,圖(b)為局部支持向量和分類(lèi)面最小距離的最大間隔面效果圖。其中前者是全局最優(yōu)解,分類(lèi)效果顯然比后者更加好。
圖3 SVM二分類(lèi)線效果圖
改進(jìn)的Gabor卷積核主要通過(guò)計(jì)算優(yōu)化出Gabor小波的中心頻率和方向等參數(shù),實(shí)現(xiàn)卷積核的自適應(yīng)特性,并且提取待卷積核圖像在整個(gè)頻率域的邊緣、亮度和位置等多方面的特征。根據(jù)圖4 所示的網(wǎng)絡(luò)模型,Gabor卷積特征就是將輸入的圖像與Gabor卷積核組進(jìn)行卷積得到。輸入圖像表示為I,得到圖像卷積特征的子區(qū)域圖像IC和Gabor卷積核的定義為:
式中,(μ,ν)為優(yōu)化完的自適應(yīng)Gabor 核參數(shù)值,IC為輸入的待卷積子區(qū)域圖像,Ψ函數(shù)為參數(shù)優(yōu)化函數(shù),k∈{1,2,3}。
本節(jié)主要對(duì)設(shè)計(jì)的GaAeS-net(Gabor Autoencoder Support Vector Machine Convolution Network)網(wǎng)絡(luò)模型結(jié)構(gòu)進(jìn)行概述,自適應(yīng)Gabor卷積核網(wǎng)絡(luò)方法區(qū)別于傳統(tǒng)手動(dòng)提取特征方法和自提取卷積神經(jīng)網(wǎng)絡(luò)方法,能夠體現(xiàn)Gabor 參數(shù)動(dòng)態(tài)性,實(shí)現(xiàn)兩次特征降維操作,并且根據(jù)優(yōu)化的分類(lèi)器模型實(shí)現(xiàn)表情識(shí)別。網(wǎng)絡(luò)模型如圖4 所示。網(wǎng)絡(luò)結(jié)構(gòu)共分為四部分:輸入數(shù)據(jù)層、卷積層、池化層、分類(lèi)層(本文“層”意不同于神經(jīng)網(wǎng)絡(luò)“層”)。
3.2.1 輸入數(shù)據(jù)層
為了保證得到面部圖像不同區(qū)域的器官特征,文中建立用于描述不同器官特征關(guān)系的圖像通道,根據(jù)在每個(gè)通道中定義的不同區(qū)域卷積核遍歷整張圖像提取Gabor特征,其中劃分區(qū)域的種類(lèi)、大小根據(jù)人臉表情圖像所確定。當(dāng)然,對(duì)于一張人臉來(lái)說(shuō)各器官的大致位置是確定的,但是對(duì)于表情變化主要基于各個(gè)器官位置關(guān)系,因此在輸入圖像時(shí)定義不同的網(wǎng)絡(luò)結(jié)構(gòu),對(duì)輸入的數(shù)據(jù)進(jìn)行變換和重復(fù)多利用。如圖4所示,I是長(zhǎng)寬為m×n的歸一化圖像矩陣,由預(yù)處理知道m(xù)=n=48。
3.2.2 卷積層
對(duì)于整個(gè)模型來(lái)講,卷積層可看成是整個(gè)網(wǎng)絡(luò)的核心,卷積層的復(fù)雜度、卷積核數(shù)目等都影響網(wǎng)絡(luò)提取特征的快速性以及最后用于識(shí)別的分類(lèi)器的準(zhǔn)確性。如圖4 所示,文中卷積層只有一層,通過(guò)輸入的歸一化圖像I定義5 種通道,并且根據(jù)每種通道劃分不同區(qū)域。所用卷積核大小為lC×lC,lC∈{12,24,32,36,48},C={1,2,…,5}∈RC,C為輸入圖像的通道數(shù)。首先,在卷積層對(duì)決定Gabor 核的方向、尺度、大小參數(shù)進(jìn)行初始化。然后,根據(jù)式(6)進(jìn)行優(yōu)化操作,表示提取的Gabor特征圖。為了能在不同方向和尺度上充分體現(xiàn)表情特征,對(duì)卷積參數(shù)進(jìn)行擴(kuò)充,主要根據(jù)3.1 節(jié)計(jì)算出Gabor自適應(yīng)值(μ,ν),通過(guò)計(jì)算二范數(shù)篩選出3對(duì)鄰近的Gabor核參數(shù),如式(8)、(9)所示:
其中,n為所用到的Gabor 核方向和尺度模板總數(shù),本文設(shè)計(jì)模板總數(shù)為40,(μa,νa)為鄰近參數(shù)值,a為擴(kuò)展參數(shù)對(duì)數(shù),與自適應(yīng)值(μ,ν)共同組成用于卷積的參數(shù)對(duì),含義為l×l大小的Gabor核在進(jìn)行i步卷積時(shí)得到的第k個(gè)Gabor 卷積核方向和尺度參數(shù)值。根據(jù)此操作可知,在每種卷積核下進(jìn)行一次卷積操作得到3張?zhí)卣鲌D。又因?yàn)樘崛〉膯蝹€(gè)局部區(qū)域特征不足以表達(dá)原始圖像的特征,所以采用步長(zhǎng)S∈{12,8,12,8,0}對(duì)每個(gè)通道的圖像進(jìn)行遍歷來(lái)提取各個(gè)局部信息。
3.2.3 池化層
在實(shí)現(xiàn)上述的卷積操作之后,得到的特征圖數(shù)據(jù)是巨大的,因此對(duì)高維特征數(shù)量進(jìn)行降維顯得尤為重要。如圖4 所示,本文網(wǎng)絡(luò)模型的降維操作分為兩步,首先進(jìn)行通道內(nèi)降維[15],其次進(jìn)行二次編碼降維。如式(10)所示通道內(nèi)降維:
圖4 GaAeS-net網(wǎng)絡(luò)模型圖
其中,base為需要進(jìn)行降維的基礎(chǔ)變換矩陣,此矩陣通過(guò)對(duì)協(xié)方差矩陣的特征值排序得到,排序前j列的特征向量組成base矩陣,表示特征向量矩陣。
通道內(nèi)降維對(duì)冗余信息進(jìn)行剔除,為了保證后期分類(lèi)的準(zhǔn)確性和迭代優(yōu)化的計(jì)算量,對(duì)于通道外的不同特征融合和降維應(yīng)用編碼網(wǎng)絡(luò)。經(jīng)過(guò)實(shí)驗(yàn)分析,無(wú)論從網(wǎng)絡(luò)泛化性、魯棒性、計(jì)算量都進(jìn)一步證明了編碼降維的必要性。對(duì)編碼降維基于Liu 等[16]的深度編碼網(wǎng)絡(luò),其中輸入為基于每個(gè)通道下卷積特征圖像連接而成的降維向量。編碼降維的目標(biāo)函數(shù)表示為:
式中,Wt、bt為編碼網(wǎng)絡(luò)權(quán)重和偏差矩陣,N為所分表情高維特征數(shù),F(xiàn)i為輸入的特征,為它的估計(jì),為輸入和估計(jì)的距離函數(shù)。
其中,ht為編碼層的隱含層神經(jīng)元輸出,t為隱含神經(jīng)元的個(gè)數(shù),激活函數(shù)sigm(x)=(1+exp(-x))-1。因?yàn)樵诰幋a過(guò)程中,編碼操作是不定向的,所以要對(duì)輸入特征進(jìn)行估計(jì),通過(guò)迭代更新權(quán)重減少編碼誤差,得到便于分類(lèi)器分類(lèi)的特征集合。式(15)是對(duì)輸入特征向量的估計(jì):
式中,hi為隱含神經(jīng)元的輸出,W2,t、b2,t為估計(jì)出的高維向量的解碼權(quán)重矩陣,為編碼向量的估計(jì)。
GaAeS-net[17]的池化降維操作在網(wǎng)絡(luò)中起著決定性的作用,為了保證在實(shí)際中提取特征的有效性,對(duì)兩次降維的參數(shù)進(jìn)行實(shí)驗(yàn)分析,在最大程度上保證信息完整性(第一次損失10%,第二次損失15%),使得特征識(shí)別的網(wǎng)絡(luò)模型計(jì)算量最小,參數(shù)適應(yīng)度最好。
3.2.4 分類(lèi)層
不管是Li[18]、Sun[19]等的復(fù)雜卷積神經(jīng)網(wǎng)絡(luò),還是Ding[20]、Pan[21]等的各種神經(jīng)網(wǎng)絡(luò)的變體模型,大多數(shù)使用的是KNN(K-Nearest Neighbor)以及Softmax 分類(lèi)器,由于在自學(xué)習(xí)網(wǎng)絡(luò)中的優(yōu)勢(shì),各種變體網(wǎng)絡(luò)更是偏愛(ài)基于統(tǒng)計(jì)學(xué)的分類(lèi)器。
根據(jù)數(shù)據(jù)庫(kù)、模型特征分析,本文所用數(shù)據(jù)庫(kù)的圖像都比較少,一方面難以滿(mǎn)足Softmax損失函數(shù)分類(lèi)器,有效避開(kāi)了歸納到演繹的傳統(tǒng)過(guò)程;另一方面分類(lèi)損失誤差不能傳輸?shù)骄W(wǎng)絡(luò)輸入進(jìn)行調(diào)節(jié),進(jìn)而選用SVM 為特征分類(lèi)器。又因?yàn)榛趦纱谓稻S后得到的自適應(yīng)Gabor 特征,應(yīng)用傳統(tǒng)SVM 分類(lèi)器時(shí),在原始訓(xùn)練集上不能很好地識(shí)別。針對(duì)以上問(wèn)題,GaAeS-net 模型應(yīng)用GA算法對(duì)定義的分類(lèi)器參數(shù)進(jìn)行優(yōu)化[22]。但是需要優(yōu)化的參數(shù)迭代次數(shù)完全取決于提取降維特征高效性,為了盡可能減少模型計(jì)算量,文中實(shí)驗(yàn)部分主要對(duì)涉及的參數(shù)應(yīng)用控制變量等方法進(jìn)行調(diào)節(jié)。得到不同參數(shù)不變的剩余參數(shù)最優(yōu)值,繪制相關(guān)曲線圖進(jìn)行分析,確定不同參數(shù)在限定范圍內(nèi)的最優(yōu)值,進(jìn)一步提高分類(lèi)器的識(shí)別率,強(qiáng)化模型泛化性,減少計(jì)算量,保證實(shí)時(shí)性要求。最后,設(shè)置GA所需的最大迭代數(shù)、種群數(shù)、交叉驗(yàn)證等參數(shù),在限定的參數(shù)范圍內(nèi)優(yōu)化核函數(shù)的參數(shù)集合,從而得到數(shù)據(jù)集上最優(yōu)分類(lèi)超平面。
本文人臉表情識(shí)別流程框架如圖5所示,主要應(yīng)用Gabor 特征的性能優(yōu)勢(shì),定義不同大小的Gabor 卷積核提取圖像不同區(qū)域特征,進(jìn)而對(duì)學(xué)習(xí)到的不同面部表情特征進(jìn)行分類(lèi),得到高效、快速、準(zhǔn)確的網(wǎng)絡(luò)模型。此模型主要分為三個(gè)階段,分別為圖像預(yù)處理階段、模型訓(xùn)練階段、數(shù)據(jù)測(cè)試階段。
圖像預(yù)處理階段:大多數(shù)的圖像由于拍攝環(huán)境多樣性使得表情圖像的背景較復(fù)雜,為后期特征提取帶來(lái)更多不屬于表情的特征,進(jìn)而給訓(xùn)練、識(shí)別的數(shù)據(jù)帶來(lái)更大誤差。因此這個(gè)階段的目的主要是得到包含細(xì)節(jié)的歸一化人臉表情圖像。
圖5 基于Gabor核卷積網(wǎng)絡(luò)框架
模型訓(xùn)練階段:此階段主要目的是訓(xùn)練高精度、快速、魯棒性較強(qiáng)的網(wǎng)絡(luò)模型。其中應(yīng)用設(shè)計(jì)的GaAeS-net網(wǎng)絡(luò)對(duì)預(yù)處理過(guò)的表情圖像進(jìn)行訓(xùn)練,通過(guò)調(diào)節(jié)自適應(yīng)Gabor、不同通道降維、分類(lèi)器優(yōu)化等相關(guān)參數(shù),得到最優(yōu)的識(shí)別模型。
數(shù)據(jù)測(cè)試階段:此階段主要目的是檢測(cè)訓(xùn)練模型的識(shí)別率、泛化性、快速性等相關(guān)性能。首先對(duì)原始數(shù)據(jù)集進(jìn)行分類(lèi),使得部分用于訓(xùn)練,部分用于測(cè)試。文中針對(duì)訓(xùn)練模型的數(shù)據(jù)預(yù)處理也是測(cè)試數(shù)據(jù)的處理過(guò)程,只是基于不同數(shù)據(jù)庫(kù)的圖像存在差異,因此也需要對(duì)處理過(guò)程中的參數(shù)進(jìn)行調(diào)節(jié),以適應(yīng)不同的數(shù)據(jù)集。
本文實(shí)驗(yàn)部分主要在不同數(shù)據(jù)庫(kù)、不同類(lèi)型卷積核、不同模型、不同訓(xùn)練時(shí)間等多方面進(jìn)行實(shí)驗(yàn)。主要使用Matlab 2014a 環(huán)境進(jìn)行實(shí)驗(yàn)分析,其次還在VS 2013+opencv、ubuntu 16.04+python+pytorch-GPU 中進(jìn)行圖像采集、預(yù)處理和部分模型的訓(xùn)練及驗(yàn)證工作。通過(guò)對(duì)比不同卷積核方法和各種先進(jìn)方法的實(shí)驗(yàn)結(jié)果,本文方法得到了充分的驗(yàn)證,在不同的數(shù)據(jù)庫(kù)上都表現(xiàn)出非常好的性能。
本文主要應(yīng)用了四種不同數(shù)據(jù)庫(kù),這些數(shù)據(jù)庫(kù)分別是:CK+數(shù)據(jù)庫(kù),此數(shù)據(jù)庫(kù)是在 2010 年 Cohn-Kanade 數(shù)據(jù)庫(kù)基礎(chǔ)上擴(kuò)展來(lái)的,其中包括了123個(gè)對(duì)象,593個(gè)視頻序列,而且每個(gè)視頻序列都有一個(gè)標(biāo)簽,共分為7類(lèi);JAFFE(The Japanses Female Facial Expression Database)數(shù)據(jù)庫(kù),日本女性數(shù)據(jù)庫(kù),共有213張表情圖像,由10 個(gè)女性的7 種表情組成;FER2013 數(shù)據(jù)庫(kù),此數(shù)據(jù)庫(kù)源自于一次人臉表情大賽,其中數(shù)據(jù)主要存放于fer2013.csv 文件中,共分為標(biāo)簽和像素值兩列,并且分為7 類(lèi);CHD2018(長(zhǎng)大電控2018)數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)是為了驗(yàn)證GaAeS-net 模型準(zhǔn)確率、泛化性、魯棒性等而自己創(chuàng)建的數(shù)據(jù)庫(kù),其中采集了30 個(gè)人的8 種不同表情,其中每種表情在不同光線(正常、強(qiáng)光、弱光)下進(jìn)行采集,共計(jì)圖像2 160張。
因?yàn)槊總€(gè)數(shù)據(jù)庫(kù)中的人物來(lái)自不同的國(guó)家和地區(qū),表情表達(dá)也深受地域限制,所以對(duì)各個(gè)數(shù)據(jù)庫(kù)的表情不做統(tǒng)一整合。而同一數(shù)據(jù)庫(kù)中的圖像存在冗余,進(jìn)而要進(jìn)行篩選,建立表1。并且對(duì)每個(gè)挑選的圖像進(jìn)行標(biāo)簽定義,最后的數(shù)據(jù)庫(kù)由8 個(gè)類(lèi)別文件夾和1 個(gè)文本標(biāo)簽組成,其中每個(gè)數(shù)據(jù)庫(kù)都有8 種表情(JAFFE、FER2013除外)。圖6是經(jīng)過(guò)整理后的不同標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)人臉表情圖像示例,其中包含不同年齡、不同性別、不同光強(qiáng)的表情樣本。本文實(shí)驗(yàn)主要在CK+、JAFFE、CHD2018 數(shù)據(jù)庫(kù)上進(jìn)行,其余數(shù)據(jù)庫(kù)用于測(cè)試或者驗(yàn)證其他方法。
為了測(cè)試本文GaAeS-net 模型的性能,在自建的CHD2018數(shù)據(jù)庫(kù)上進(jìn)行實(shí)驗(yàn),分別對(duì)模型準(zhǔn)確率、泛化性、光照強(qiáng)度等三方面進(jìn)行測(cè)試分析。為了便于實(shí)驗(yàn),其中將CHD2018 數(shù)據(jù)庫(kù)中每類(lèi)表情平均分為10 份,8份用于網(wǎng)絡(luò)訓(xùn)練,2份用于模型測(cè)試。
表1 不同數(shù)據(jù)庫(kù)表情樣本種類(lèi)數(shù)目
圖6 標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)表情示例
首先,對(duì)相關(guān)圖像進(jìn)行預(yù)處理,得到歸一化后的圖像集合。其次,初始化所有網(wǎng)絡(luò)模塊參數(shù)。具體的,隨機(jī)生成Gabor核參數(shù);編碼參數(shù)賦值為1;編碼迭代和分類(lèi)器優(yōu)化的最大迭代次數(shù)設(shè)置為150;學(xué)習(xí)率為0.01;種群數(shù)為40 等。最后,開(kāi)始訓(xùn)練和測(cè)試,分析實(shí)驗(yàn)結(jié)果。如圖7 為提取到的基于不同Gabor 卷積核的自適應(yīng)Gabor特征圖,共有5個(gè)通道,每個(gè)通道中有若干特征圖(圖中顯示前3張)。其中每種通道下存在特征冗余,但是經(jīng)過(guò)數(shù)據(jù)融合和降維操作后消除特征冗余,很大程度上減少了數(shù)據(jù)量,最后得到整合的特征向量。
圖7 各通道自適應(yīng)Gabor特征圖
根據(jù)提取到的特征圖像,經(jīng)過(guò)不同的通道內(nèi)降維和通道外編碼操作,對(duì)于二次編碼降維在一定程度上對(duì)分類(lèi)器優(yōu)化、準(zhǔn)確率有很好的效果,但是也使得網(wǎng)絡(luò)訓(xùn)練時(shí)間變長(zhǎng)。通過(guò)參數(shù)調(diào)節(jié)證明,編碼迭代次數(shù)為25時(shí),編碼損失誤差從開(kāi)始的3.425降到0.161,同時(shí)用于分類(lèi)器優(yōu)化的迭代時(shí)間和識(shí)別率都是最優(yōu)的。因此,進(jìn)一步將降維特征輸入到待優(yōu)化的SVM 分類(lèi)器,得到分類(lèi)器參數(shù)適應(yīng)度曲線,如圖8 所示。看圖可知,在訓(xùn)練集合上對(duì)分類(lèi)器參數(shù)進(jìn)行優(yōu)化分類(lèi),在迭代次數(shù)將近30 次時(shí)分類(lèi)器識(shí)別率基本穩(wěn)定在95%左右,并且平均適應(yīng)度也達(dá)到70%以上。最終迭代完150次時(shí),分類(lèi)器準(zhǔn)確率達(dá)到99.138 7%,得到適應(yīng)度最佳的核參數(shù)c=13.363 6,g=0.000 190 74。為了表現(xiàn)網(wǎng)絡(luò)的性能,分別對(duì)每類(lèi)表情的準(zhǔn)確識(shí)別率、錯(cuò)誤識(shí)別率進(jìn)行統(tǒng)計(jì),得到表2。
圖8 分類(lèi)器參數(shù)適應(yīng)度曲線
表2 基于CHD2018數(shù)據(jù)庫(kù)的GaAeS-net模型表情識(shí)別率 %
根據(jù)表2的實(shí)驗(yàn)結(jié)果分析,本文模型的最大識(shí)率達(dá)到98.15%,平均識(shí)別率為93.021 2%,平均錯(cuò)誤率為6.98%。其中自然、厭惡、輕蔑等表情容易被錯(cuò)誤識(shí)別,識(shí)別率分別為88.89%、92.59%、87.04%,最容易被錯(cuò)誤識(shí)別的是憤怒表情,錯(cuò)誤率最大的表情為輕蔑,錯(cuò)誤率達(dá)到9.26%??鞓?lè)、恐懼、驚訝等表情不容易被誤檢,準(zhǔn)確識(shí)別率分別為96.03%、94.44%、98.15%。對(duì)于所有表情最大識(shí)別率和最小識(shí)別率相差11.11個(gè)百分點(diǎn)。相比于在訓(xùn)練集合上的識(shí)別率,本文方法在不同測(cè)試集上也有良好的識(shí)別率和泛化性。因?yàn)楸旧頂?shù)據(jù)庫(kù)在建立的時(shí)候?qū)庹諒?qiáng)度做了分類(lèi),根據(jù)識(shí)別的結(jié)果分析可知,Gabor 卷積核得到的特征對(duì)光照不敏感,并且自適應(yīng)Gabor卷積核對(duì)表情圖像具有比較好的適應(yīng)度。
本節(jié)實(shí)驗(yàn)主要在兩個(gè)數(shù)據(jù)庫(kù)CK+、JAFFE上進(jìn)行了訓(xùn)練和測(cè)試,比較Gabor-SV 核和其他類(lèi)型卷積核的識(shí)別率。具體的,選擇PCA核[23]、LBP核、權(quán)重核、Gabor等5 種不同的卷積核和KNN、Softmax、SVM 等 3 種分類(lèi)器進(jìn)行實(shí)驗(yàn),結(jié)果如圖9所示。
圖9 不同類(lèi)型卷積核網(wǎng)絡(luò)準(zhǔn)確率
由圖9 可知:PCA 核在兩個(gè)數(shù)據(jù)庫(kù)上的準(zhǔn)確率為89.12%和72.14%;LBP核的準(zhǔn)確率為90.24%和88.59%;Gabor-So 核和Gabor-SV 核應(yīng)用的卷積核是一樣的,唯一不同在于分類(lèi)類(lèi)型,二者的實(shí)驗(yàn)結(jié)果為92.85%、90.32%和99.34%、94.86%;普通權(quán)重核的實(shí)驗(yàn)數(shù)據(jù)為91.57%和89.42%。相比于應(yīng)用相同Softmax 分類(lèi)器的LBP 核和普通權(quán)重核,Gabor 核在準(zhǔn)確率上增長(zhǎng)2.61 個(gè)百分點(diǎn)和1.28 個(gè)百分點(diǎn),從而說(shuō)明了Gabor 核提取特征的優(yōu)越性和Gabor 核優(yōu)化參數(shù)的有效性。在使用優(yōu)化SVM 對(duì)Gbaor 核提取的特征進(jìn)行分類(lèi)的最大準(zhǔn)確率能達(dá)到99.34%,相比于Softmax 分類(lèi)器,增長(zhǎng)6.49 個(gè)百分點(diǎn)和4.54個(gè)百分點(diǎn),進(jìn)一步體現(xiàn)了分類(lèi)器核參數(shù)優(yōu)化的有效性。PCA 核應(yīng)用KNN 分類(lèi)器不能很好地進(jìn)行分類(lèi),在兩個(gè)數(shù)據(jù)庫(kù)上其準(zhǔn)確率最低為72.14%。而不同卷積核在JAFFE 數(shù)據(jù)庫(kù)上的準(zhǔn)確率遠(yuǎn)不及在CK+數(shù)據(jù)庫(kù),主要是因?yàn)閿?shù)據(jù)量相差較大,網(wǎng)絡(luò)模型存在數(shù)據(jù)欠擬合,樣本特征不明顯等。
針對(duì)GaAeS-net 模型在不同數(shù)據(jù)庫(kù)上基于不同光照、不同類(lèi)型卷積核的實(shí)驗(yàn)對(duì)比分析,在一定程度上驗(yàn)證了模型的性能,在同類(lèi)方法中完全體現(xiàn)出了卷積核和模型的優(yōu)勢(shì)。但是本身模型的可推廣度、計(jì)算量和客觀度缺乏驗(yàn)證,因此根據(jù)自身?xiàng)l件通過(guò)在FER2013數(shù)據(jù)庫(kù)上進(jìn)行實(shí)驗(yàn),對(duì)比分析本文方法相比于現(xiàn)有的先進(jìn)方法的優(yōu)勢(shì)。根據(jù)不同模型的實(shí)驗(yàn)結(jié)果建立表3。
表3 本文改進(jìn)方法與現(xiàn)有方法性能對(duì)比
從表3可以看出,應(yīng)用了5種不同的方法,其中Gabor+CNN、CNN、DSAE等深度網(wǎng)絡(luò)的識(shí)別率分別為94.12%、92.43%、97.83%。DSAE 網(wǎng)絡(luò)的準(zhǔn)確識(shí)別率為97.83%,為同類(lèi)型中最高,但是相應(yīng)的計(jì)算時(shí)間為1 421.021 5 s,在所有算法中計(jì)算量最大。而本文改進(jìn)的GaAeS-net方法識(shí)別率為97.16%,計(jì)算時(shí)間為891.211 4。在識(shí)別率方面,與現(xiàn)有方法DSAE 相差0.67 個(gè)百分點(diǎn),相比傳統(tǒng)方法和普通卷積神經(jīng)網(wǎng)絡(luò)提高了11.3個(gè)百分點(diǎn)、4.73個(gè)百分點(diǎn),與之先進(jìn)的深度網(wǎng)絡(luò)識(shí)別率比較接近。同理,在計(jì)算量方面與最優(yōu)方法相差529.810 1 s,與傳統(tǒng)方法相差較大,進(jìn)一步說(shuō)明了改進(jìn)網(wǎng)絡(luò)的有效性和不同方面的性能優(yōu)勢(shì)。
綜上,本文結(jié)合傳統(tǒng)學(xué)習(xí)方法和深度學(xué)習(xí)方法的不同優(yōu)勢(shì),對(duì)已有的傳統(tǒng)機(jī)器學(xué)習(xí)方法進(jìn)行改進(jìn),提出一種GaAeS-net模型的方法。GaAeS-net模型可以提取面部表情的自適應(yīng)Gabor 外觀特征和不同器官之間的面部幾何關(guān)系特征,通過(guò)定義不同的卷積通道進(jìn)行特征提取,然后針對(duì)數(shù)據(jù)冗余和分類(lèi)復(fù)雜度,對(duì)高維特征進(jìn)行降維和編碼,進(jìn)而得到更加具有分辨力的特征向量。最后,在4種不同表情數(shù)據(jù)庫(kù)上對(duì)8類(lèi)面部表情通過(guò)3類(lèi)實(shí)驗(yàn)說(shuō)明了本文改進(jìn)方法的性能。相比于傳統(tǒng)方法,本文方法在識(shí)別率、泛化性方面有很大的優(yōu)勢(shì)。未來(lái)的研究也會(huì)圍繞表情識(shí)別開(kāi)發(fā)更復(fù)雜、更高性能的網(wǎng)絡(luò)系統(tǒng)。