張 鵬,孔韋韋,滕金保
1.西安郵電大學(xué),西安 710121
2.陜西省網(wǎng)絡(luò)數(shù)據(jù)分析與智能處理重點(diǎn)實(shí)驗(yàn)室,西安 710121
人臉表情在人類之間的溝通交流中發(fā)揮著重要作用,在日常生活中,面部表情雖然是一種非語言的交流方式,卻比語言和動(dòng)作能更好地表達(dá)人的心理活動(dòng)[1]。隨著計(jì)算機(jī)技術(shù)的進(jìn)步與發(fā)展,計(jì)算機(jī)的應(yīng)用領(lǐng)域逐漸增多,其中將計(jì)算機(jī)技術(shù)應(yīng)用到人臉表情識(shí)別成為了一個(gè)新的研究熱點(diǎn)。人臉表情識(shí)別在智能駕駛、刑事偵查和醫(yī)療輔助等領(lǐng)域都有著廣泛的應(yīng)用[2-3],如在智能駕駛領(lǐng)域,系統(tǒng)通過實(shí)時(shí)獲取人臉表情信息來判斷駕駛員是否處于疲勞駕駛狀態(tài),避免發(fā)生交通事故;在刑事偵查領(lǐng)域,通過分析犯罪嫌疑人微妙的表情變化來判斷對(duì)方是否撒謊,輔助警察偵破案情。
人臉表情識(shí)別算法也在不斷發(fā)展,傳統(tǒng)人臉表情識(shí)別算法是通過手工設(shè)計(jì)特征提取器進(jìn)行特征提取,如主成分分析法(principal component analysis,PCA)[4],局部二值模式(local binary patterns,LBP)[5]和梯度方向直方圖(histogram of oriented gradient,HOG)[6]。Zhu等[7]提出先用等效主成分分析進(jìn)行表情特征提取,再用線性回歸分類器做表達(dá)式分類器,該方法大幅度提高了表情特征提取的魯棒性。He 等[8]提出一種基于幾何紋理融合特征和高階奇異值分解的人臉表情識(shí)別算法,該算法將面部表情識(shí)別問題轉(zhuǎn)變成張量域,并使用高階奇異值分解提取獨(dú)立的表情特征,從而有效地排除了由于個(gè)體面部差異而對(duì)表情識(shí)別造成的干擾。然而,傳統(tǒng)算法在進(jìn)行特征提取時(shí),所用的手工特征提取器容易忽略對(duì)分類有較大影響的特征信息,導(dǎo)致識(shí)別準(zhǔn)確率一直不高。而深度學(xué)習(xí)則不需要人為設(shè)計(jì)特征提取器,深度學(xué)習(xí)是通過訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu),用誤差反向傳播算法不斷優(yōu)化網(wǎng)絡(luò)參數(shù),使網(wǎng)絡(luò)自動(dòng)提取圖像特征信息。2006年Hinton等[9]提出了深度信念網(wǎng)絡(luò),使深度學(xué)習(xí)重新引起了大家的重視。研究人員基于深度學(xué)習(xí)設(shè)計(jì)了許多經(jīng)典的網(wǎng)絡(luò)結(jié)構(gòu),如AlexNet[10]、GoogLeNet[11]等。由于深度學(xué)習(xí)取得的巨大成功,許多領(lǐng)域的研究都開始選擇用深度學(xué)習(xí),人臉表情識(shí)別的研究同樣引入了深度學(xué)習(xí)技術(shù),并取得了遠(yuǎn)超傳統(tǒng)算法的效果。Salunke等[12]將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到人臉表情識(shí)別任務(wù)中。Zhou 等[13]設(shè)計(jì)了一個(gè)模塊化的多通道深度神卷積神經(jīng)網(wǎng)絡(luò),并用全局平均池化來防止過擬合。Li 等[14]提出了一種基于深度殘差網(wǎng)絡(luò)ResNet-50 的特征提取方法,該方法結(jié)合卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行人臉情緒識(shí)別。Agrawal等[15]研究了不同的參數(shù)對(duì)人臉表情分類結(jié)果的影響,對(duì)不同大小的卷積核和過濾器數(shù)量進(jìn)行了全面評(píng)估。Hu等[16]提出了注意力機(jī)制網(wǎng)絡(luò)SENet(squeeze-and-excitation network),該網(wǎng)絡(luò)通過學(xué)習(xí)的方式來自動(dòng)獲取每個(gè)特征通道的重要程度,然后依照重要程度去增強(qiáng)對(duì)當(dāng)前任務(wù)重要的特征并抑制對(duì)當(dāng)前任務(wù)用處不大的特征。Li 等[17]提出一種基于注意力機(jī)制的自動(dòng)人臉表情識(shí)別網(wǎng)絡(luò),該網(wǎng)絡(luò)將LBP特征與注意力機(jī)制相結(jié)合,增強(qiáng)了注意力模型,獲得了更好的結(jié)果。
卷積神經(jīng)網(wǎng)絡(luò)在人臉表情識(shí)別過程中,雖然相較于傳統(tǒng)方法取得了明顯的進(jìn)步,但網(wǎng)絡(luò)結(jié)構(gòu)通常是簡單地將卷積層和池化層線性疊加,對(duì)圖像的多尺度特征提取不充分,且對(duì)重要的特征針對(duì)性不強(qiáng)。因此,本文提出了基于多尺度特征注意力機(jī)制的人臉表情識(shí)別方法,對(duì)人臉表情識(shí)別問題進(jìn)行研究。
在設(shè)計(jì)網(wǎng)絡(luò)架構(gòu)時(shí),若網(wǎng)絡(luò)層數(shù)選取過少則會(huì)對(duì)圖像信息的表達(dá)能力有所欠缺;若網(wǎng)絡(luò)層數(shù)選取過多則會(huì)出現(xiàn)過擬合現(xiàn)象。本文綜合考慮各種因素,設(shè)計(jì)了一種基于多尺度特征注意力機(jī)制的網(wǎng)絡(luò)模型,包括淺層特征提取層、多尺度特征提取層、通道注意力機(jī)制模塊和全連接層。網(wǎng)絡(luò)模型如圖1所示。
圖1 多尺度特征注意力模型Fig.1 Multi-scale feature attention model
該網(wǎng)絡(luò)輸入圖像的尺寸大小是48×48,淺層特征提取層包括兩個(gè)卷積層(Conv1、Conv2)和兩個(gè)最大池化層(Maxpool1、Maxpool2);多尺度特征提取層(包括Inception-a 和Inception-b)是在Inception 結(jié)構(gòu)基礎(chǔ)上并行加入了空洞卷積;通道注意力機(jī)制選用的是文獻(xiàn)[16]所提的SENet,網(wǎng)絡(luò)的最后是用全連接層和Softmax 層進(jìn)行分類。模型的卷積核大小,步長和輸出尺寸等參數(shù)如表1所示。
表1 中,3×3 reduce、5×5 reduce 和Dilated reduce 分別代表3×3、5×5 和Dilated 卷積前1×1 卷積核的數(shù)量;Pool proj代表Max pooling之后1×1卷積核的數(shù)量。
表1 模型參數(shù)Table 1 Model parameters
卷積神經(jīng)網(wǎng)絡(luò)是由卷積層、池化層和全連接層交叉堆疊而成的前饋神經(jīng)網(wǎng)絡(luò),卷積層的作用是提取一個(gè)局部區(qū)域的特征,不同的卷積核相當(dāng)于不同的特征提取器,用來提取特定的局部特征。假設(shè)輸入特征為X∈?M×N×D,其中每個(gè)切片Xd∈?M×N為一個(gè)輸入特征,1 ≤d≤D;用卷積核Wp,1,Wp,2,…,Wp,D分別對(duì)輸入特征X1,X2,…,XD進(jìn)行卷積,將卷積結(jié)果相加,并加上一個(gè)偏置b就會(huì)得到卷積層的凈輸出Zp,再經(jīng)過非線性激活后即得到輸出特征Yp。計(jì)算過程如公式(1)、(2)所示:
其中,f(?)為非線性激活函數(shù)。
由于淺層卷積層提取的是圖像的紋理特征,即無論什么網(wǎng)絡(luò)模型,第一層卷積核學(xué)到的信息都很相似,都是條狀、點(diǎn)狀的信息。因此本文先用兩個(gè)卷積層Conv1和Conv2 對(duì)輸入圖像進(jìn)行卷積操作,Conv1 和Conv2 的層數(shù)分別是32層和64層,卷積核大小都是3×3,且都使用padding操作,得到的輸出特征圖尺寸大小不變;每個(gè)卷積層都引入非線性激活函數(shù),使神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到非線性映射。本文引入修正線性單元(rectified linear unit,ReLU)激活函數(shù),其公式如下:
f(x)=max(0,x)(3)
選擇ReLU激活函數(shù)有以下優(yōu)勢:相對(duì)于線性函數(shù)來說,ReLU激活函數(shù)的表達(dá)能力更為優(yōu)異;相對(duì)于非線性函數(shù)而言,ReLU激活函數(shù)梯度計(jì)算簡單,且在非負(fù)區(qū)間的梯度為常數(shù),使模型的收斂速度保持穩(wěn)定。為降低模型復(fù)雜度,對(duì)卷積層Conv1和Conv2的輸出特征都進(jìn)行大小為2×2,步長為2 的最大池化操作(Maxpool1,Maxpool2),最大池化操作能很好地提取圖像紋理特征信息。經(jīng)過最大池化后,輸出特征圖的尺寸變?yōu)檩斎氲乃姆种?,但個(gè)數(shù)并沒有改變。
傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)如VGG16在處理圖像分類任務(wù)時(shí),為了提取圖像的深層次特征,會(huì)使用堆疊卷積層和池化層的方式構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu),這種結(jié)構(gòu)不僅參數(shù)量多,而且對(duì)圖像的多尺度特征信息提取不明顯,本文通過在Inception結(jié)構(gòu)基礎(chǔ)上并行加入膨脹率為2的空洞卷積來提取圖像的多尺度信息。
空洞卷積[18](dilated convolution)是一種不增加參數(shù)量的同時(shí)能增加輸出單元感受野的一種卷積神經(jīng)網(wǎng)絡(luò),其實(shí)現(xiàn)方式是在卷積核內(nèi)部元素之間加入空洞,相當(dāng)于在卷積核相鄰兩個(gè)元素之間加入零元素。插入的空洞個(gè)數(shù)被稱為膨脹率(dilated rate)[19]。如圖2 以3×3卷積核為例,展示在不同膨脹率下的空洞卷積。
圖2 不同膨脹率的空洞卷積Fig.2 Dilated convolution with different dilated rates
圖2 中的左、中、右三張圖片展示了空洞卷積在膨脹率分別為1、2、3時(shí)的情況,其中紅色方塊表示3×3的卷積核。分析可知,當(dāng)膨脹率為1 時(shí),空洞卷積即為普通卷積;在卷積核尺寸相同情況下,空洞卷積膨脹率越大,卷積核的感受野越大。
空洞卷積感受野計(jì)算如下:設(shè)輸入層為?Win*Hin*Din,超參數(shù)如表2所示。
表2 空洞卷積的超參數(shù)Table 2 Hyperparameters of dilated convolution
經(jīng)過空洞卷積操作后,其輸出層為?Wout*Hout*Dout,則輸入層和輸出層之間的關(guān)系為:
由上述關(guān)系可以得到,對(duì)于膨脹率為2 的空洞卷積,通過設(shè)置步長為1、填充值為2的方式可使輸出尺寸保持不變。加入空洞卷積,增加了輸出單元的感受野,提高了網(wǎng)絡(luò)對(duì)圖像不同尺度特征信息的提取能力。
需要說明的是,隨著網(wǎng)絡(luò)深度的增加,神經(jīng)網(wǎng)絡(luò)所提取的特征也越抽象,且每個(gè)特征所涉及的感受野也更大,因此相較于inception-a,inception-b 中3×3、5×5 卷積和空洞卷積的通道數(shù)比例有所增加。但網(wǎng)絡(luò)層級(jí)加多時(shí)容易出現(xiàn)收斂速度變慢、數(shù)據(jù)分布不均等問題。因此,在改進(jìn)的inception 結(jié)構(gòu)中,每個(gè)卷積層后都加入批歸一化(batch normalization,BN)操作,對(duì)輸入的數(shù)據(jù)先做歸一化處理再送入下一層。
卷積神經(jīng)網(wǎng)絡(luò)默認(rèn)每個(gè)通道是同等重要的,而在實(shí)際情況中,不同通道的重要性是有所不同的,有的通道對(duì)最終的分類結(jié)果影響較大[20]。因此,對(duì)重要特征通道分配更多的權(quán)重就變得尤為重要,本文對(duì)經(jīng)過多尺度特征提取層得到的特征引入壓縮-激勵(lì)模塊(SENet),以增強(qiáng)對(duì)重要特征通道的響應(yīng)。SENet 結(jié)構(gòu)如圖3 所示,包含了Squeeze、Excitation、Scale三個(gè)操作。
圖3 壓縮-激勵(lì)模塊Fig.3 Squeeze-Excitation model
(1)Squeeze操作
首先,對(duì)特征通道U=[u1,u2,…,uc]進(jìn)行Squeeze 操作,即用全局平均池化的方式將每個(gè)特征通道上的W×H特征圖壓縮為一個(gè)具有全局感受野的實(shí)數(shù),設(shè)壓縮后的特征為z=[z1,z2,…,zc] ,對(duì)于其中的一個(gè)元素zc,代表了一個(gè)通道上的全局特征,計(jì)算過程如公式(9)所示:
(2)Excitation操作
為獲取通道間的依賴關(guān)系,對(duì)Squeeze 操作得到的全局特征信息z進(jìn)行Excitation 操作,具體過程為依次進(jìn)行全連接Fc1、激活函數(shù)ReLU、全連接Fc2 和激活函數(shù)Sigmoid 操作,最終得到在(0,1)區(qū)間的歸一化權(quán)重s。權(quán)重s的計(jì)算過程如公式(10)所示:
(3)Scale操作
對(duì)于輸出特征X?,其對(duì)應(yīng)的權(quán)重值s可有效地表示不同特征通道對(duì)于表情識(shí)別任務(wù)的重要性。通過對(duì)多尺度特征提取層引入通道注意力機(jī)制,學(xué)習(xí)到不同特征通道的重要性,在模型的訓(xùn)練過程中,對(duì)于與表情識(shí)別結(jié)果相關(guān)的有用特征,SE 模塊會(huì)加大對(duì)應(yīng)特征通道的權(quán)重值來增強(qiáng)特征響應(yīng);而對(duì)于無用或干擾特征,SE模塊則會(huì)減小對(duì)應(yīng)特征通道的權(quán)重值來削弱特征響應(yīng)。通過這種引入通道注意力機(jī)制的方式,模型的特征表示能力得到提升。
在處理圖像分類任務(wù)時(shí),通常在最后卷積層后直接與若干全連接層相連接,但這樣做的一個(gè)缺點(diǎn)是參數(shù)量太多,導(dǎo)致計(jì)算困難且容易出現(xiàn)過擬合現(xiàn)象。為改進(jìn)這一缺點(diǎn),本文先對(duì)上一層的輸出進(jìn)行全局池化,這樣網(wǎng)絡(luò)的參數(shù)量大大減少;接著再進(jìn)行全連接操作,全連接層的作用是將網(wǎng)絡(luò)特征映射到樣本的標(biāo)記空間做出預(yù)測;最后用Softmax 函數(shù)作為輸出層,Softmax 函數(shù)接收一個(gè)k維向量作為輸入,然后把每一維的值轉(zhuǎn)換成區(qū)間在(0,1)中的某個(gè)值,假設(shè)網(wǎng)絡(luò)的輸入為Y1,Y2,…,Yk,則Softmax函數(shù)的運(yùn)算如公式(12)所示:
其中,P表示樣本向量x屬于第i類別的概率,K表示總類別數(shù),ω表示權(quán)值項(xiàng)。這些概率值相加的結(jié)果為1,輸出層的最終輸出結(jié)果是輸入的視覺信息屬于7 種表情概率的最大值所屬的類別。
本章對(duì)所提出的方法進(jìn)行實(shí)驗(yàn)驗(yàn)證,具體分為數(shù)據(jù)集的選取、實(shí)驗(yàn)環(huán)境的搭建、數(shù)據(jù)的增強(qiáng)、對(duì)照實(shí)驗(yàn)和消融實(shí)驗(yàn)五部分。
本文選用FER2013和CK+人臉表情數(shù)據(jù)集。FER2013數(shù)據(jù)集是2013年Kaggle面部識(shí)別挑戰(zhàn)賽使用的一個(gè)數(shù)據(jù)集,共由35 887 張人臉表情圖片組成,其中訓(xùn)練集有28 709 張,驗(yàn)證集和測試集各有3 589 張,表情共分為7種,具體表情對(duì)應(yīng)的中英文標(biāo)簽分別是:0 anger 生氣、1 disgust 厭惡、2 fear 恐懼、3 happy 開心、4 sad 傷心、5 surprise驚訝、6 neutral中性。每種表情的示例如圖4所示。
圖4 FER2013數(shù)據(jù)集示例Fig.4 FER2013 dataset example
CK+數(shù)據(jù)集[21]是Cohn-Kanade 數(shù)據(jù)集的擴(kuò)展版本。CK+數(shù)據(jù)集樣本是來源于不同國家、不同民族和不同性別的人臉表情,是目前較為完善的公開數(shù)據(jù)集。如圖5展示了該數(shù)據(jù)集7 種表情示例,分別是憤怒、蔑視、厭惡、害怕、高興、悲傷和驚訝。
圖5 CK+數(shù)據(jù)集示例Fig.5 CK+ dataset example
實(shí)驗(yàn)在如下環(huán)境中進(jìn)行:使用的編程語言是python3.7,深度學(xué)習(xí)框架是keras2.3.0,操作系統(tǒng)是64位的Microsoft Windows 10,CPU 為i5-6200U,顯卡為GeForce RTX2080 SUPER 8 GB。
人臉表情數(shù)據(jù)集樣本量較少,在網(wǎng)絡(luò)的訓(xùn)練中會(huì)容易造成模型泛化能力差,為改善這一狀況,本文對(duì)數(shù)據(jù)進(jìn)行增強(qiáng)處理,即對(duì)原始圖像進(jìn)行旋轉(zhuǎn)、偏移、反轉(zhuǎn)等操作。為了使實(shí)驗(yàn)結(jié)果避免偶然性,本研究采用5折交叉驗(yàn)證法,將人臉表情樣本均分為5份,每份都包含7種表情樣本,在每次實(shí)驗(yàn)中,都選取其中4份作為訓(xùn)練集,另一份作為測試集,重復(fù)操作5 次,取平均識(shí)別率作為最終的識(shí)別結(jié)果,避免識(shí)別結(jié)果具有偶然性。
為驗(yàn)證本文提出的多尺度特征注意力機(jī)制人臉表情識(shí)別方法的有效性,首先分別在有無多尺度特征注意力機(jī)制條件下對(duì)數(shù)據(jù)集進(jìn)行仿真實(shí)驗(yàn)。本文模型在訓(xùn)練參數(shù)更新時(shí)使用的優(yōu)化器是Adam,損失函數(shù)是交叉熵,批處理大小為128,總共進(jìn)行了60 個(gè)epoch,將得到的實(shí)驗(yàn)結(jié)果繪制成圖,分別如圖6和圖7所示。
圖7 CK+數(shù)據(jù)集實(shí)驗(yàn)Fig.7 CK+ dataset experiment
圖6是在FER2013數(shù)據(jù)集上得到的結(jié)果,其中藍(lán)色曲線代表模型加入多尺度特征注意力機(jī)制得到的識(shí)別準(zhǔn)確率,紅色曲線代表沒有引入多尺度特征注意力機(jī)制得到的識(shí)別準(zhǔn)確率,此時(shí)既沒有并行加入空洞卷積,也沒有引入注意力機(jī)制??梢钥吹剑弘S著訓(xùn)練次數(shù)的增加,藍(lán)色曲線和紅色曲線的準(zhǔn)確率整體都在不斷升高,在訓(xùn)練初期,模型的識(shí)別準(zhǔn)確率增長迅猛;當(dāng)訓(xùn)練至30個(gè)epoch 左右時(shí),模型識(shí)別準(zhǔn)確率增長緩慢;在第30 至47 個(gè)epoch 時(shí),模型識(shí)別準(zhǔn)確率會(huì)上下有所波動(dòng),但整體呈增長趨勢;當(dāng)訓(xùn)練至48 個(gè)epoch 左右時(shí),模型的識(shí)別準(zhǔn)確率變得非常平穩(wěn)。
圖6 FER2013數(shù)據(jù)集實(shí)驗(yàn)Fig.6 FER2013 dataset experiment
如圖7 所示,對(duì)CK+數(shù)據(jù)集而言,模型在訓(xùn)練初期時(shí),識(shí)別率同樣迅猛增長,當(dāng)訓(xùn)練至第27 個(gè)epoch 左右時(shí),模型的增長就變得緩慢了,在第35個(gè)epoch后,模型的識(shí)別準(zhǔn)確率變得很平穩(wěn)。本文模型在引入多尺度特征注意力機(jī)制后,相較于原模型,在FER2013和CK+兩個(gè)數(shù)據(jù)集上的識(shí)別準(zhǔn)確率分別提高了2.24個(gè)百分點(diǎn)和1.56個(gè)百分點(diǎn),證明了本文所提方法的有效性。需要說明的是,由于FER2013數(shù)據(jù)集中存在部分樣本錯(cuò)誤和標(biāo)簽錯(cuò)誤,導(dǎo)致在該數(shù)據(jù)集上進(jìn)行測試時(shí),準(zhǔn)確率通常不高。
為了驗(yàn)證本文方法的優(yōu)越性,本文與多種經(jīng)典算法相比較。
(1)AlexNet 是由8 個(gè)網(wǎng)絡(luò)層組成,包括前5 個(gè)卷積層和后3個(gè)全連接層,并在每個(gè)卷積層和全連接層之后使用ReLU非線性激活。
(2)Salunke 等[12]設(shè)計(jì)了一個(gè)包含3 個(gè)卷積層和1 個(gè)全連接層的模型;并在每個(gè)卷積層之后都連接一個(gè)最大池化層和ReLU激活,模型在訓(xùn)練和測試時(shí)采用不同的數(shù)據(jù)集以克服識(shí)別未知面孔的問題。
(3)Zhou等[13]設(shè)計(jì)了一種模塊化的多通道深度卷積神經(jīng)網(wǎng)絡(luò),為了避免過擬合,使用全局平均池化作為網(wǎng)絡(luò)的輸出。
(4)Agrawal 等[15]提出兩種新穎的CNN 架構(gòu):一種架構(gòu)的過濾器數(shù)量隨著網(wǎng)絡(luò)深度的增加保持不變,而另一種架構(gòu)的過濾器數(shù)量隨著深度的增加而減少,這兩種架構(gòu)全部采用大小為8的卷積核。
(5)徐琳琳等[22]為了提取更多細(xì)微的人臉表情,設(shè)計(jì)了一個(gè)具有兩個(gè)并行卷積池化單元的卷積神經(jīng)網(wǎng)絡(luò)來分別提取不同的圖像特征,并將特征進(jìn)行融合,最后用Softmax層進(jìn)行分類。
(6)文獻(xiàn)[23]提出在普通卷積池化操作基礎(chǔ)上引入4層Inception結(jié)構(gòu),并用跨數(shù)據(jù)庫的方式評(píng)估網(wǎng)絡(luò)架構(gòu)。
(7)錢勇生等[24]提出引入深度可分離卷積來減少網(wǎng)絡(luò)參數(shù),嵌入壓縮獎(jiǎng)勵(lì)網(wǎng)絡(luò)來學(xué)習(xí)網(wǎng)絡(luò)特征權(quán)重,并通過加入空間金字塔池化來增強(qiáng)網(wǎng)絡(luò)的魯棒性方法。
本文模型與上述算法在FER2013 數(shù)據(jù)集上進(jìn)行比較,結(jié)果如表3所示。
表3 不同算法在FER2013數(shù)據(jù)集上的識(shí)別率Table 3 Recognition accuracy with different algorithms on FER2013 dataset
由表3可知,在FER2013數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)時(shí),相對(duì)于以上提及的算法,本文模型獲得了更好的識(shí)別效果。本文相較于經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)AlexNet的分類效果提升了3個(gè)百分點(diǎn),AlexNet雖然達(dá)到了人類的識(shí)別水平,但訓(xùn)練時(shí)參數(shù)量多,需要耗費(fèi)大量時(shí)間;相較于文獻(xiàn)[12],識(shí)別效果提升了0.8 個(gè)百分點(diǎn),文獻(xiàn)[12]雖然是傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的改進(jìn),但網(wǎng)絡(luò)結(jié)果卻是簡單地堆疊卷積層和池化層,結(jié)構(gòu)相對(duì)單調(diào),沒有很好地提取多尺度信息;相較于文獻(xiàn)[15],識(shí)別效果提升了3.8 個(gè)百分點(diǎn),文獻(xiàn)[15]提出的網(wǎng)絡(luò)結(jié)構(gòu)是針對(duì)FER2013數(shù)據(jù)集而設(shè)計(jì)的,其結(jié)構(gòu)最適合FER2013數(shù)據(jù)集,而對(duì)其他數(shù)據(jù)集的泛化能力較弱,且其在FER2013數(shù)據(jù)集上的識(shí)別準(zhǔn)確效果也并不理想。文獻(xiàn)[13]設(shè)計(jì)了多通道提取圖像特征,文獻(xiàn)[22]融合了不同圖像特征,文獻(xiàn)[23]通過引入4 層Inception來提取圖像的多尺度信息,雖然這3 種算法都考慮了圖像多尺度信息,但卻沒有考慮不同特征的重要性。相較于文獻(xiàn)[24],識(shí)別效果提升了0.8個(gè)百分點(diǎn),文獻(xiàn)[24]雖然引入了注意力機(jī)制,但同時(shí)也引入了深度可分離卷積,深度可分離卷積能有效減少網(wǎng)絡(luò)參數(shù)量,但同時(shí)也會(huì)一定程度弱化模型的識(shí)別能力。相比之下;本文模型不僅提取了不同尺寸特征,而且對(duì)不同特征的重要性賦予不同權(quán)重,進(jìn)而提升了模型的特征表示能力。
對(duì)比不同算法在CK+數(shù)據(jù)集上的表現(xiàn):
(1)李勇等[25]提出基于跨連接網(wǎng)絡(luò)進(jìn)行面部表情識(shí)別,將LeNet網(wǎng)絡(luò)所提取的低層次特征和高層次特征相結(jié)合構(gòu)造分類器。
(2)Li等[26]先用傳統(tǒng)的Gabor濾波提取特征,然后用PCA降低特征維數(shù),最后用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行識(shí)別。
(3)Zeng等[27]先用人臉對(duì)齊的方法對(duì)密集的人臉標(biāo)志點(diǎn)進(jìn)行精確定位,然后將以地標(biāo)為中心的斑點(diǎn)中提取所有描述子串聯(lián)起來,形成高維特征,再用基于深度稀疏自編碼器對(duì)高維特征進(jìn)行有效提取。
(4)Sun 等[28]提出混合SIFT 和CNN 所提取的特征,并用支持向量機(jī)進(jìn)行分類。
本文模型與上述算法以及AlexNet、文獻(xiàn)[22]等算法在CK+數(shù)據(jù)集上的表現(xiàn)進(jìn)行對(duì)比,結(jié)果如表4所示。
表4 不同算法在CK+數(shù)據(jù)集上的識(shí)別率Table 4 Recognition accuracy with different algorithms on CK+ dataset
分析表4 可知,當(dāng)在CK+數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)時(shí),傳統(tǒng)的AlexNet 取得了87.03%的識(shí)別準(zhǔn)確率;相較于文獻(xiàn)[25],本文模型的效果提升了12.3個(gè)百分點(diǎn),文獻(xiàn)[25]采用低層次特征和高層次特征相結(jié)合,但通常來說,低層次中對(duì)分類有影響的有用特征比較少,因此結(jié)果準(zhǔn)確率相對(duì)較低。相較于文獻(xiàn)[26]效果提升了4.34 個(gè)百分點(diǎn),文獻(xiàn)[26]采用傳統(tǒng)方法和深度學(xué)習(xí)相結(jié)合,采用Gabor濾波器提取特征,而本文是自動(dòng)進(jìn)行特征提取,因此得到的效果要更佳。相較于文獻(xiàn)[22]、[23]和[27],本文的識(shí)別效果分別提升了2.01個(gè)百分點(diǎn)、2.84個(gè)百分點(diǎn)和0.25個(gè)百分點(diǎn),無論是文獻(xiàn)[22]提出的利用并行卷積來提取不同圖像特征,還是文獻(xiàn)[23]所提出用多層Inception結(jié)構(gòu)來提取多尺度人臉特征,亦或是文獻(xiàn)[27]所建立的深度稀疏自動(dòng)編碼器來提取高維特征,都沒有考慮對(duì)不同重要性的特征區(qū)別對(duì)待,相比之下,本文模型對(duì)重要特征分配更大的比重,取得了更佳的實(shí)驗(yàn)效果。
為了進(jìn)一步驗(yàn)證本文所提方法的有效性,本文進(jìn)行消融實(shí)驗(yàn)。其步驟依次如下:(1)首先在沒有引入空洞卷積和注意力機(jī)制時(shí)進(jìn)行實(shí)驗(yàn),此方法記為Base;(2)在Base 方法基礎(chǔ)上,加入空洞卷積但不使用注意力機(jī)制,此方法記為Base+Dilated;(3)在Base方法基礎(chǔ)上,引入注意力機(jī)制但不加入空洞卷積,此方法記為Base+SENet;(4)在Base方法基礎(chǔ)上,同時(shí)引入空洞卷積和注意力機(jī)制,即本文所提方法,記為Base+Dilated+SENet。表5展示了各方法在FER2013和CK+數(shù)據(jù)集上的識(shí)別結(jié)果。
表5 消融實(shí)驗(yàn)識(shí)別結(jié)果Table 5 Recognation results of ablation experiment%
由表5可以得到:當(dāng)在Base方法上引入多尺度特征注意力機(jī)制時(shí),在FER2013 和CK+數(shù)據(jù)集上得到的識(shí)別率分別是68.8%和96.04%;分析可知,當(dāng)沒有引入注意力機(jī)制時(shí),得到的結(jié)果分別是67.14%和94.92%,識(shí)別效果分別下降了1.66個(gè)百分點(diǎn)和1.12個(gè)百分點(diǎn),從而證明了引入注意力機(jī)制對(duì)人臉表情識(shí)別任務(wù)的有效性;當(dāng)沒有并行加入空洞卷積時(shí),識(shí)別效果分別下降了0.43個(gè)百分點(diǎn)和0.31個(gè)百分點(diǎn),從而證明了加入空洞卷積對(duì)人臉表情識(shí)別任務(wù)的有效性。
表6 和表7 分別表示FER2013 和CK+數(shù)據(jù)集在本文方法上的混淆矩陣。
表6 FER2013數(shù)據(jù)集混淆矩陣Table 6 Confusion matrix of FER2013 dataset%
表7 CK+數(shù)據(jù)集混淆矩陣Table 7 Confusion matrix of CK+ dataset%
由表6的混淆矩陣可知,本文模型對(duì)于高興和驚訝兩種表情的識(shí)別準(zhǔn)確率最高,分別達(dá)到了87.16%和82.16%,是因?yàn)檫@兩種表情面部特征夸張且運(yùn)動(dòng)幅度大,模型更容易提取特征;而模型對(duì)生氣、恐懼和悲傷表情的識(shí)別效果較差,因?yàn)榭謶趾捅瘋加欣_嘴唇和緊張前額的特征,而生氣和悲傷則具有相同的眉毛特征、狹窄以及皺起的嘴角特征,這三種表情之間具有一定相似性,容易發(fā)生錯(cuò)誤分類。模型在CK+數(shù)據(jù)集上的混淆矩陣和在FER2013數(shù)據(jù)集上的表現(xiàn)相似。
針對(duì)人臉表情識(shí)別問題提出一種基于多尺度特征注意力機(jī)制的人臉表情識(shí)別方法,首先提取人臉表情的淺層特征信息,其次,通過在Inception 結(jié)構(gòu)基礎(chǔ)上并行加入空洞卷積,提取人臉表情的多尺度特征信息,并通過引入通道注意力機(jī)制,增強(qiáng)模型對(duì)有用特征信息的響應(yīng)。分別用FER2013 和CK+數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),驗(yàn)證了本文所提方法的有效性;通過與其他經(jīng)典算法相比較,取得了高于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的效果,進(jìn)一步驗(yàn)證了本文方法的優(yōu)異性。由于相似表情之間差異性較小,導(dǎo)致容易錯(cuò)分類。接下來的工作是如何在優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)的同時(shí)擴(kuò)大不同表情的類差距,使網(wǎng)絡(luò)在保持輕量級(jí)結(jié)構(gòu)的同時(shí)擁有較高的識(shí)別準(zhǔn)確率。