亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

多尺度融合注意力機(jī)制的人臉表情識別網(wǎng)絡(luò)

2023-01-13 11:58:16羅思詩李茂軍

計(jì)算機(jī)工程與應(yīng)用 2023年1期

關(guān)鍵詞：深度特征

羅思詩，李茂軍，陳滿

長沙理工大學(xué) 電氣與信息工程學(xué)院，長沙 410114

在人類的交流過程中，面部表情是日常生活中最主要的一種信息傳遞方式。面部表情不僅可以呈現(xiàn)人類的情緒狀態(tài)，更能反映人類的情感。經(jīng)過心理學(xué)家調(diào)查研究發(fā)現(xiàn)，當(dāng)人們面對面交流時(shí)，人臉表情傳遞的情感信息是總體信息的55%，而語言所占有的信息僅含7%。人臉表情識別是情感計(jì)算研究的一個(gè)重要方向。近年來，人臉表情識別技術(shù)在機(jī)器人制造、醫(yī)療服務(wù)、通信和駕駛等需要人機(jī)交互的系統(tǒng)中有著廣闊的應(yīng)用前景。

人臉表情識別包括4個(gè)步驟：圖像采集、圖像預(yù)處理、特征提取和表情識別分類。特征提取是最為重要的一步，對表情識別結(jié)果有決定性影響，研究人員在這方面進(jìn)行了大量的深入研究，提出了許多方法。傳統(tǒng)的表情識別先人為設(shè)計(jì)特征，再用分類器將表情分類，常見的提取特征方法有：局部二值模式（local binary pattern，LBP）[1]、主成分分析法（principal component analysis，PCA）[2]以及Gabor小波變換[3]等。Zhu等[4]將等效主成分分析用作表情特征表示，線性回歸分類作為表達(dá)分類器，保留了原始圖像的有用信息，同時(shí)減少特征向量數(shù)據(jù)維度。傳統(tǒng)尺度不變特征變換（scale invariant feature transform，SIFT）方法提取特征點(diǎn)數(shù)量和位置具有不確定性，因此Shi等[5]提出了一種特征點(diǎn)約束算法，以SIFT描述符為特征參數(shù)，確定能夠有效代表表情變化區(qū)域特征點(diǎn)的最佳位置，并提取區(qū)域梯度信息。傳統(tǒng)方法為表情識別打下了較好的基礎(chǔ)并做出了很大貢獻(xiàn)，但人工設(shè)計(jì)的特征提取算法因難以有效處理背景、角度等因素的干擾，識別性能有限，泛化能力不足。

近年來，深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域得到了廣泛的應(yīng)用，并都取得了優(yōu)異的成績。與傳統(tǒng)設(shè)計(jì)方法相比，深度神經(jīng)網(wǎng)絡(luò)能夠自主學(xué)習(xí)特征，而且對存在光照、不同姿態(tài)等一些更難以識別的人臉表情圖像識別準(zhǔn)確率更高，穩(wěn)定性更好。Chen等[6]提出的方法由一個(gè)輸入是完整人臉圖像的主網(wǎng)絡(luò)和一個(gè)輸入是包含突出表情特征區(qū)域的預(yù)處理人臉圖像的輔助學(xué)習(xí)網(wǎng)絡(luò)組成。主網(wǎng)絡(luò)與輔助網(wǎng)絡(luò)結(jié)構(gòu)共享參數(shù)，能有效提高關(guān)注突出表情變化區(qū)域的能力。方明等[7]提出一種結(jié)合殘差網(wǎng)絡(luò)及目標(biāo)掩膜的特征提取方法，定位人眼的關(guān)鍵區(qū)域后進(jìn)行圖像掩膜，能減少眨眼動(dòng)作對特征提取造成的干擾，歐拉視頻放大算法能對微表情變化的關(guān)鍵區(qū)域進(jìn)行放大，獲得更明顯的表情變化。崔子越等[8]通過對預(yù)訓(xùn)練的VGG模型進(jìn)行微調(diào)，并設(shè)置概率閾值對Focal Loss進(jìn)行改進(jìn)，避免誤標(biāo)注樣本對模型分類性能產(chǎn)生影響。通過設(shè)計(jì)深層的網(wǎng)絡(luò)結(jié)構(gòu)或者對損失函數(shù)進(jìn)行改進(jìn)優(yōu)化等方法通?？梢垣@得良好的識別效果，但與此同時(shí)網(wǎng)絡(luò)層數(shù)、模型復(fù)雜度和參數(shù)量也不斷增加，計(jì)算代價(jià)越來越昂貴，容易產(chǎn)生過擬合等問題。值得注意的是，在MobileNet[9]中提出的深度可分離卷積將傳統(tǒng)卷積拆分為兩部分執(zhí)行，在幾乎不損失精度的情況下大大減少了參數(shù)的計(jì)算量，可有效克服過擬合問題。

在實(shí)際分類任務(wù)中，有效特征信息只分布在圖像的局部區(qū)域，為了突出有效特征信息，一些研究引入了注意力機(jī)制。Wang等[10]提出了一種自愈網(wǎng)絡(luò)來抑制面部表情數(shù)據(jù)的不確定性，其中自注意力模塊學(xué)習(xí)每個(gè)面部圖像的權(quán)重，以捕獲樣本對訓(xùn)練的重要性。Li等[11]提出了一種在有遮擋的情況下進(jìn)行面部表情識別的方法，利用注意力機(jī)制關(guān)注未被遮擋的部分，但網(wǎng)絡(luò)依賴于人臉關(guān)鍵點(diǎn)檢測，遮擋面積較大時(shí)，難生成自適應(yīng)權(quán)重。但上述方法均為完整網(wǎng)絡(luò)結(jié)構(gòu)，不易遷移。Wang等[12]提出一種高效通道注意力網(wǎng)絡(luò)，采用特征重標(biāo)定方式，強(qiáng)調(diào)有用區(qū)域并抑制用處不大的區(qū)域，提升效果顯著，且增加的模型復(fù)雜度小，可以直接插入到現(xiàn)有網(wǎng)絡(luò)中使用。

為了更好地提取人臉表情的有效特征，提高識別精度，同時(shí)減少網(wǎng)絡(luò)模型參數(shù)，提出一種多尺度融合注意力機(jī)制的人臉表情識別網(wǎng)絡(luò)，本文工作概括如下：

（1）為了引導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)對表情更有判別作用的局部特征信息，提出了利用高效通道注意力機(jī)制來提高關(guān)鍵特征的權(quán)重，強(qiáng)調(diào)表情識別的有效特征區(qū)域，有效提升了表情識別性能。

（2）引入具有多尺度卷積核的Inception模塊可以獲得更為豐富的圖像特征，通過在不同尺度上進(jìn)行卷積再聚合增加網(wǎng)絡(luò)的感受野，增強(qiáng)網(wǎng)絡(luò)的特征學(xué)習(xí)能力。

（3）在網(wǎng)絡(luò)模型中增加深度可分離卷積以減少參數(shù)計(jì)算量，降低模型復(fù)雜度，使網(wǎng)絡(luò)具有更好的抗過擬合性能。

本文方法在兩個(gè)公開人臉表情數(shù)據(jù)集上進(jìn)行驗(yàn)證，并與其他幾種方法進(jìn)行對比，結(jié)果表明本文方法有較好的效果。

1 表情識別網(wǎng)絡(luò)模型

1.1 ECA注意力機(jī)制

人臉表情的有效特征信息只分布在圖像的局部區(qū)域。為了從表情圖像中篩選出有效特征信息，引入注意力機(jī)制到網(wǎng)絡(luò)模型中。ECA-Net是一種超輕量級注意力模塊，其主要作用是考慮每個(gè)通道與其相鄰幾個(gè)通道進(jìn)行跨通道信息交互并生成權(quán)重值。增加面部表情關(guān)鍵特征的權(quán)重，降低無關(guān)特征權(quán)重，使網(wǎng)絡(luò)優(yōu)先關(guān)注有用的信息，提升網(wǎng)絡(luò)對重要特征的敏感度，其對識別準(zhǔn)確率的提升效果卓越。ECA-Net結(jié)構(gòu)圖如圖1所示。

圖1 ECA-Net結(jié)構(gòu)圖Fig.1 Structure diagram of ECA-Net

假設(shè)網(wǎng)絡(luò)的輸入特征圖為F∈RH×W。首先，對特征圖在不降低維度的情況下對每個(gè)通道都采用全局平均池化，將每個(gè)二維的特征通道壓縮到單個(gè)實(shí)數(shù)再進(jìn)行提取，得到一個(gè)1×1×C的全局描述特征。其次，考慮每個(gè)通道及其k個(gè)近鄰來捕獲本地跨通道交互信息，可以通過執(zhí)行卷積核大小為k的快速一維卷積有效實(shí)現(xiàn)。其中k代表跨通道交互的覆蓋范圍，即有多少個(gè)相近鄰參與一個(gè)通道的注意力預(yù)測，并用sigmoid激活函數(shù)生成各通道的權(quán)重占比。最后，把得到的各個(gè)通道權(quán)重值對輸入特征圖的每個(gè)通道加權(quán)，完成了特征在通道空間中的重新校準(zhǔn)。

ECA-Net只考慮每個(gè)通道與其k近鄰之間的相互作用，相比跨所有通道交互，能降低模型復(fù)雜度并提高效率。通過大小為k的一維卷積為每個(gè)通道生成權(quán)重，即：

式中C1Dk表示核大小為k的一維卷積，y表示通道，σ表示sigmoid激活函數(shù)。k與通道維數(shù)有關(guān)，通道維數(shù)越大，則局部跨通道交互的范圍k就越大。通過與通道維數(shù)相關(guān)的函數(shù)自適應(yīng)確定k值，即：

因此可得：

式中||todd為距離t最近的奇數(shù)，γ和b的值分別設(shè)置為2和1。

1.2 深度可分離卷積

MobileNet是Howard等在2017年提出的一種輕量網(wǎng)絡(luò)，它的基本單元是深度可分離卷積，其核心思想是將一個(gè)完整的卷積運(yùn)算分解為兩步進(jìn)行。第一步是深度卷積，深度卷積屬于濾波階段，把傳統(tǒng)的三維卷積核分解為一個(gè)逐通道處理的二維卷積核，每個(gè)卷積核分別處理輸入特征圖的一個(gè)通道，每個(gè)通道獨(dú)立進(jìn)行卷積運(yùn)算，將卷積處理后得到的所有特征圖按順序進(jìn)行拼接得到最終輸出。第二步是點(diǎn)卷積，實(shí)際為1×1卷積。點(diǎn)卷積屬于組合階段，它對輸入進(jìn)行逐點(diǎn)卷積，把深度卷積輸出的特征圖進(jìn)行通道融合，得到新的特征圖。標(biāo)準(zhǔn)卷積與深度可分離卷積的對比如圖2所示。

圖2 兩種卷積對比Fig.2 Comparison of two convolutions

假設(shè)輸入特征圖尺寸為DF×DF×M，卷積核大小為D×D，輸出特征圖尺寸為DF×DF×N。標(biāo)準(zhǔn)卷積計(jì)算量為D×D×M×N×DF×DF，而深度可分離卷積計(jì)算量為D×D×1×M×DF×DF+1×1×M×N×DF×DF，可得出深度可分離卷積與標(biāo)準(zhǔn)卷積計(jì)算量之比為由此可見，與標(biāo)準(zhǔn)卷積相比，深度可分離卷積能夠大幅度減少參數(shù)，有效提高了訓(xùn)練與識別的速度。

1.3 Inception

GoogLeNet[13]是Google推出的基于Inception模塊的深度神經(jīng)網(wǎng)絡(luò)模型，其目的是在保證模型質(zhì)量的前提下，解決卷積層堆疊的問題，避免冗余計(jì)算，減少參數(shù)數(shù)量，提取高維特征。其中不同尺度的卷積核不僅增強(qiáng)了網(wǎng)絡(luò)的泛化能力和結(jié)構(gòu)表達(dá)能力，而且為網(wǎng)絡(luò)模型增加更多的非線性，大大提高了卷積神經(jīng)網(wǎng)絡(luò)的特征學(xué)習(xí)能力。

Inception模塊對輸入圖像并行執(zhí)行多個(gè)卷積運(yùn)算，并將所有輸出結(jié)果拼接為一個(gè)特征圖。如圖3所示，一個(gè)Inception模塊包含3個(gè)不同尺寸的卷積核和一個(gè)最大池化層，并在每一層都使用一個(gè)1×1卷積，既在相同尺寸的感受野中疊加更多的卷積，提取到更豐富的特征，又進(jìn)行降維，降低計(jì)算復(fù)雜度。在多個(gè)尺度上進(jìn)行卷積再聚合可以獲得圖像的不同信息，將4個(gè)分支的輸出在特征維度上拼接起來，融合不同尺度特征，使網(wǎng)絡(luò)獲得不同的感受野。

圖3 Inception結(jié)構(gòu)Fig.3 Inception structure

1.4 表情識別網(wǎng)絡(luò)

受文獻(xiàn)[14-16]的啟發(fā)，本文提出了一種多尺度融合注意力機(jī)制的人臉表情識別方法，網(wǎng)絡(luò)框架如圖4所示。把圖像送入網(wǎng)絡(luò)進(jìn)行一系列運(yùn)算，提取表情特征，然后進(jìn)行分類。采用Inception模塊對輸入圖像降低通道數(shù)將信息聚集，再進(jìn)行多個(gè)尺度的特征提取及池化操作，獲得輸入圖像的不同尺度信息，既減少參數(shù)個(gè)數(shù)，又增強(qiáng)特征提取功能。不同類別的表情通常在某些局部區(qū)域改變更為明顯，因此為了使網(wǎng)絡(luò)更加關(guān)注這些關(guān)鍵區(qū)域的信息，捕獲圖像中更具分辨力的特征，在網(wǎng)絡(luò)中使用了高效通道注意力機(jī)制，提升表情識別性能。此外，在通道數(shù)較大的卷積層將普通卷積替換成深度可分離卷積，大幅降低了模型的參數(shù)量。

圖4 網(wǎng)絡(luò)模型結(jié)構(gòu)圖Fig.4 Structure diagram of network model

所提網(wǎng)絡(luò)結(jié)構(gòu)及詳細(xì)參數(shù)信息如表1所示。網(wǎng)絡(luò)主要由11個(gè)卷積層依次相連組成，將第6層的普通卷積層替換為Inception模塊，第9、10個(gè)卷積層采用深度可分離卷積，第11層使用ECA注意力模塊。卷積層的所有卷積核大小為3×3，步長為1，最后接一個(gè)全局平均池化。網(wǎng)絡(luò)中的部分卷積層后依次使用批量歸一化和SeLU激活函數(shù)，并且分別在第2、4、6、8、10層后嵌入了窗口大小為2、步長為2的最大池化層。

表1 模型參數(shù)Table 1 Model parameters

2 實(shí)驗(yàn)

2.1 數(shù)據(jù)集

FER-2013[17]是目前較大的人臉表情識別公開數(shù)據(jù)庫，由Kaggle人臉表情識別挑戰(zhàn)賽提供，共包含35 887張人臉表情圖像。其中訓(xùn)練集圖像28 709張，公共驗(yàn)證集圖像和私有驗(yàn)證集圖像分別有3 589張。所有圖像均已被標(biāo)記且固定為48×48的圖像，共有7種標(biāo)簽，分別為：憤怒、厭惡、恐懼、高興、悲傷、驚訝和蔑視。如圖5為該數(shù)據(jù)集中各類表情樣例，在面部姿態(tài)、角度、年齡等方面都有較大差異，反映了不同環(huán)境下人臉表情的真實(shí)狀態(tài)，很多圖片還有手、眼鏡和頭發(fā)等的遮擋，與真實(shí)環(huán)境中的條件非常接近，更具有說服力。

圖5 FER-2013表情庫7種表情示例圖像Fig.5 7 kinds of facial expression images in FER-2013 expression dataset

CK+數(shù)據(jù)集[18]是用于評估人臉表情識別方法最廣泛的數(shù)據(jù)集。該數(shù)據(jù)集包含了123個(gè)人的593個(gè)圖像序列，其中有327個(gè)帶標(biāo)簽的圖像序列，從中選取表情較為強(qiáng)烈的圖像作為實(shí)驗(yàn)數(shù)據(jù)，共選出981張圖像，有以下7種表情：憤怒、厭惡、恐懼、高興、悲傷、驚訝和蔑視，將圖像的人臉裁剪到大小固定為48×48。如圖6為7種表情示例圖像。

圖6 CK+表情庫7種表情示例圖像Fig.6 7 kinds of facial expression images in CK+expression dataset

2.2 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)操作系統(tǒng)為Windows10，實(shí)驗(yàn)環(huán)境python3.8，深度學(xué)習(xí)框架PyTorch，硬件平臺為CPU AMD EPYC 7302 16-Core Processor，內(nèi)存為251 GB，GPU為23 GB的NVIDIA GeForce RTX 3090。

2.3 數(shù)據(jù)增強(qiáng)

為了減少訓(xùn)練過程中的過擬合，提升模型的泛化能力，增強(qiáng)模型的魯棒性，使模型在有噪聲和角度變換等干擾的情況下保持穩(wěn)定性，在實(shí)驗(yàn)中對數(shù)據(jù)集進(jìn)行了數(shù)據(jù)增強(qiáng)。在訓(xùn)練之前，將原始圖像隨機(jī)裁剪為44×44大小，對裁剪之后的圖像進(jìn)行水平翻轉(zhuǎn)，使數(shù)據(jù)集擴(kuò)充為原來的兩倍。在測試集上，采用TenCrop策略，即在原圖片的4個(gè)角和中心各截取一幅大小為44×44的圖片，然后對圖片進(jìn)行水平翻轉(zhuǎn)，進(jìn)而將數(shù)據(jù)擴(kuò)增為原數(shù)據(jù)的10倍。

2.4 實(shí)驗(yàn)結(jié)果與分析

在FER-2013數(shù)據(jù)集上訓(xùn)練時(shí)，對實(shí)驗(yàn)進(jìn)行250個(gè)epoch的訓(xùn)練，初始學(xué)習(xí)率設(shè)為0.01，批量大小為32，50次迭代后，每8輪迭代學(xué)習(xí)率的衰減為之前的0.8倍。在驗(yàn)證集上測試調(diào)整網(wǎng)絡(luò)超參數(shù)，最后在測試集上評估模型性能。其混淆矩陣如圖7所示。

圖7 FER-2013識別結(jié)果混淆矩陣Fig.7 Confusion matrix of FER-2013 recognition results

由圖7可以看出，高興和驚訝等表情與其他種類表情相比，面部特征更加明顯，因此能得到更高的識別率。高興表情中大部分具有嘴角上揚(yáng)、眼角有紋路等顯著特征。驚訝表情中具有眼睛睜大、嘴巴張開等特征，在恐懼中也存在嘴巴張開的情況，但恐懼時(shí)的嘴巴張開幅度更大，這一特點(diǎn)使得驚訝容易與恐懼混淆。憤怒、悲傷和恐懼3種表情識別率相對較低?？謶值淖R別難度最大，其不僅容易與驚訝混淆，還容易與悲傷混淆，因?yàn)檫@兩類表情均有皺眉、額頭緊皺等相同特征。這三類表情同屬于消極類情緒，本身具有較強(qiáng)的相似性，面部關(guān)鍵點(diǎn)通常只有細(xì)微的改變，互相錯(cuò)分的比例較高。此外，數(shù)據(jù)集中各表情圖片類別數(shù)據(jù)的不均衡導(dǎo)致網(wǎng)絡(luò)訓(xùn)練不充分，也是影響其識別率的重要因素。

因CK+數(shù)據(jù)集圖片量較少，因此在訓(xùn)練時(shí)采用十折交叉驗(yàn)證。將數(shù)據(jù)集按9∶1的比例分為訓(xùn)練集和測試集，訓(xùn)練集882張圖片，測試集99張圖片。實(shí)驗(yàn)共訓(xùn)練100輪，批量大小為64，其余參數(shù)設(shè)置同F(xiàn)ER-2013數(shù)據(jù)集一樣。其測試集混淆矩陣如圖8所示。

從圖8中可以看出，高興、驚喜、厭惡等均有較高的識別率，而憤怒、恐懼、藐視、悲傷等表情的識別準(zhǔn)確率相對較低，原因是這幾類表情的訓(xùn)練樣本數(shù)據(jù)較少，類別數(shù)據(jù)不均衡，網(wǎng)絡(luò)對特征的訓(xùn)練不充分。除此以外，消極類別的表情特征本身類似，大多具有嘴角向下、眉頭皺起等特征，容易混淆，如圖9中的憤怒被識別成厭惡，傷心被識別成蔑視等，也會導(dǎo)致識別率降低。

圖9 識別失敗示例圖Fig.9 Example diagram of recognition failure

由圖7和圖8可知，同一個(gè)算法在CK+數(shù)據(jù)集上得到的識別結(jié)果比FER-2013數(shù)據(jù)集的要更好，其原因是FER-2013數(shù)據(jù)集存在大量面部受遮擋圖片，與現(xiàn)實(shí)生活中的真實(shí)情況更貼合，且存在部分表情標(biāo)簽誤分的問題，更具有挑戰(zhàn)性和代表性。而CK+是標(biāo)準(zhǔn)實(shí)驗(yàn)室圖片，排除了如光照、角度變化等眾多影響因素，都是清晰的正面表情，所以識別率相對于FER-2013來說要高很多。

圖8 CK+識別結(jié)果混淆矩陣Fig.8 Confusion matrix of CK+recognition results

為了驗(yàn)證本文方法的有效性，本文在CK+和FER-2013數(shù)據(jù)集上與幾種國內(nèi)外現(xiàn)有的公開方法進(jìn)行了比較。不僅對比了本文算法與表情識別經(jīng)典算法的準(zhǔn)確率，并與近幾年最新的表情識別算法進(jìn)行了比較。

由表2、3可知，大部分模型都取得了較好的準(zhǔn)確率。其中在CK+數(shù)據(jù)集上，本文算法達(dá)到95.76%的準(zhǔn)確率；在包含人臉遮擋和圖像對比度低的FER-2013數(shù)據(jù)集上，本文算法達(dá)到較高的72.28%的準(zhǔn)確率。因此，在圖像清晰、影響因素較少的情況下，當(dāng)前大多數(shù)方法都能獲得較為理想的效果，但在更真實(shí)復(fù)雜的場景下，很多方法并不適用。而MIANet引入Inception結(jié)構(gòu)提取圖像的多尺度特征信息；且還使用了ECA注意力機(jī)制，能提取到重要特征。因此可以有效解決上述問題，實(shí)驗(yàn)結(jié)果也展現(xiàn)了MIANet識別準(zhǔn)確率較好，獲得目前良好的效果。

表2 不同算法在FER-2013數(shù)據(jù)集上的識別率Table 2 Recognition accuracy with different algorithms on FER-2013 dataset

表3 不同算法在CK+數(shù)據(jù)集上的識別率Table 3 Recognition accuracy with different algorithms on CK+dataset

為了進(jìn)一步驗(yàn)證模型具有較好特征提取能力的同時(shí)又具有輕量性，將表2、3中部分網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)量與本文實(shí)驗(yàn)結(jié)果進(jìn)行對比，如表4所示，可以看出MIANet的參數(shù)量遠(yuǎn)小于其他網(wǎng)絡(luò)，并且依然能達(dá)到較高的識別精度，這表明MIANet能較好地兼顧識別準(zhǔn)確率與網(wǎng)絡(luò)的輕量化。

表4 不同方法的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)量Table 4 Network structure parameters of different methods

2.4.1 注意力模型對比實(shí)驗(yàn)

為了驗(yàn)證通道注意力模塊的有效性，將引入了Inception和深度可分離卷積的網(wǎng)絡(luò)作為基礎(chǔ)網(wǎng)絡(luò)Basis，分別嵌入不同的注意力模型SE、CBAM、ECA后在CK+數(shù)據(jù)集上進(jìn)行對比實(shí)驗(yàn)。由表5可知，在其他實(shí)驗(yàn)參數(shù)不變的情況下，加入ECA-Net的識別效果最好，充分驗(yàn)證了ECA注意力機(jī)制的有效性。嵌入注意力模型的網(wǎng)絡(luò)相比于基礎(chǔ)網(wǎng)絡(luò)識別率均有提升，而嵌入ECA-Net的識別準(zhǔn)確率最高，相比基礎(chǔ)網(wǎng)絡(luò)提高了2.43個(gè)百分點(diǎn)，因此在本文中，相較于其他注意力模塊，ECA能給網(wǎng)絡(luò)帶來更好的識別性能。

表5 注意力模型對比結(jié)果Table 5 Comparison results of attention models

隨機(jī)挑選兩張表情圖像，根據(jù)Grad-CAM方法生成ECA模塊上一層和該層的可視化熱力圖，觀察網(wǎng)絡(luò)在這兩層的輸出分別更側(cè)重于哪塊區(qū)域，如圖10所示。人臉表情特征主要體現(xiàn)在幾個(gè)局部區(qū)域，如：眉毛、嘴部、鼻翼等，不同類別的表情在這些局部區(qū)域會有不同的表現(xiàn)。因此，引導(dǎo)網(wǎng)絡(luò)關(guān)注這幾個(gè)關(guān)鍵部位的特征信息會有利于識別效果的提升。由圖10可知，在加入ECA模塊后，網(wǎng)絡(luò)將會更關(guān)注對分類起到重要作用的有效特征區(qū)域，使得模型能捕獲到用于分類的有效特征。

圖10 ECA模塊對特征提取的影響Fig.10 Impact of ECA module on feature extraction

2.4.2 模塊有效性驗(yàn)證實(shí)驗(yàn)

為了進(jìn)一步驗(yàn)證本文所提方法的有效性，本文進(jìn)行消融實(shí)驗(yàn)。其步驟依次如下：（1）首先在沒有引入任何其他模塊的基礎(chǔ)網(wǎng)絡(luò)上進(jìn)行實(shí)驗(yàn)，此方法記為Base；（2）在Base方法基礎(chǔ)上，加入深度可分離卷積但不使用注意力機(jī)制和Inception，此方法記為Base+Separable；（3）在Base方法基礎(chǔ)上，引入注意力機(jī)制但不加入深度可分離卷積和Inception，此方法記為Base+ECA-Net；（4）在Base方法基礎(chǔ)上，引入Inception但不加入深度可分離卷積和注意力機(jī)制，此方法記為Base+Inception；（5）在Base方法基礎(chǔ)上，同時(shí)引入Inception、注意力機(jī)制和深度可分離卷積，即MIANet。表6展示了各方法在FER-2013和CK+數(shù)據(jù)集上的識別結(jié)果。

表6 消融實(shí)驗(yàn)Table 6 Ablation experiments

MIANet驗(yàn)證了深度可分離卷積、通道注意力機(jī)制和多尺度提取Inception三個(gè)模塊的有效性。將各個(gè)模塊分別進(jìn)行了對比實(shí)驗(yàn)，表6中的結(jié)果顯示每個(gè)模塊在不同數(shù)據(jù)集上對表情識別準(zhǔn)確率的效果。由表6可知，在添加通道注意力機(jī)制后檢測效果有所提高，且增加的參數(shù)量可以忽略不計(jì)，這表明ECA-Net是有效且超輕量的。Inception模塊效果顯著，其中的1×1卷積既能起到疊加作用，提取更豐富的特征，又能進(jìn)行降維，降低了計(jì)算復(fù)雜度。深度可分離卷積使得模型參數(shù)量大幅縮減，降低了計(jì)算量。但其在兩個(gè)數(shù)據(jù)集上產(chǎn)生了不同的效果。在CK+數(shù)據(jù)集上有明顯的效果，但在FER-2013數(shù)據(jù)集上準(zhǔn)確率反而有所下降，這是因?yàn)镃K+是小型數(shù)據(jù)集，圖片數(shù)量少，當(dāng)使用深度可分離卷積時(shí)可以緩解網(wǎng)絡(luò)的過擬合現(xiàn)象，因此準(zhǔn)確率有所上升；而FER-2013是大型數(shù)據(jù)集，使用深度可分離卷積會產(chǎn)生欠擬合現(xiàn)象，因此準(zhǔn)確率有所下降。但從表6中可以看出，同時(shí)使用深度可分離卷積、通道注意力機(jī)制和多尺度提取Inception時(shí)，仍然能較好地實(shí)現(xiàn)識別準(zhǔn)確率與網(wǎng)絡(luò)輕量化的平衡。

3 結(jié)束語

本文針對人臉表情識別過程中難以兼顧準(zhǔn)確率與輕量化的問題，提出一種多尺度融合注意力機(jī)制的人臉表情識別網(wǎng)絡(luò)。首先，在網(wǎng)絡(luò)中加入Inception結(jié)構(gòu)，將網(wǎng)絡(luò)的深度和寬度同時(shí)提升，提取人臉表情不同尺度的特征信息；其次，利用高效通道注意力機(jī)制引導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)利于表情識別的有效特征；最后，使用深度可分離卷積對部分卷積層進(jìn)行替換，降低網(wǎng)絡(luò)參數(shù)，避免產(chǎn)生參數(shù)爆炸，從而導(dǎo)致過擬合的問題。在兩個(gè)公開人臉表情數(shù)據(jù)集FER-2013和CK+上分別進(jìn)行實(shí)驗(yàn)來對本模型進(jìn)行評估，實(shí)驗(yàn)結(jié)果驗(yàn)證了本文所提方法的有效性。在后續(xù)的研究中，將考慮利用反卷積等方法實(shí)現(xiàn)各卷積層特征的可視化。另外，可以將表情識別從室內(nèi)轉(zhuǎn)向室外，在更復(fù)雜、真實(shí)的場景下應(yīng)用，使得理論研究能夠與實(shí)際相結(jié)合，以及增加疼痛、困倦之類的表情類別，將面部表情識別方法應(yīng)用在醫(yī)療監(jiān)護(hù)及自動(dòng)駕駛等實(shí)際場景中。