亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多尺度融合注意力機(jī)制的人臉表情識別網(wǎng)絡(luò)

        2023-01-13 11:58:16羅思詩李茂軍
        關(guān)鍵詞:深度特征

        羅思詩,李茂軍,陳 滿

        長沙理工大學(xué) 電氣與信息工程學(xué)院,長沙 410114

        在人類的交流過程中,面部表情是日常生活中最主要的一種信息傳遞方式。面部表情不僅可以呈現(xiàn)人類的情緒狀態(tài),更能反映人類的情感。經(jīng)過心理學(xué)家調(diào)查研究發(fā)現(xiàn),當(dāng)人們面對面交流時(shí),人臉表情傳遞的情感信息是總體信息的55%,而語言所占有的信息僅含7%。人臉表情識別是情感計(jì)算研究的一個(gè)重要方向。近年來,人臉表情識別技術(shù)在機(jī)器人制造、醫(yī)療服務(wù)、通信和駕駛等需要人機(jī)交互的系統(tǒng)中有著廣闊的應(yīng)用前景。

        人臉表情識別包括4個(gè)步驟:圖像采集、圖像預(yù)處理、特征提取和表情識別分類。特征提取是最為重要的一步,對表情識別結(jié)果有決定性影響,研究人員在這方面進(jìn)行了大量的深入研究,提出了許多方法。傳統(tǒng)的表情識別先人為設(shè)計(jì)特征,再用分類器將表情分類,常見的提取特征方法有:局部二值模式(local binary pattern,LBP)[1]、主成分分析法(principal component analysis,PCA)[2]以及Gabor小波變換[3]等。Zhu等[4]將等效主成分分析用作表情特征表示,線性回歸分類作為表達(dá)分類器,保留了原始圖像的有用信息,同時(shí)減少特征向量數(shù)據(jù)維度。傳統(tǒng)尺度不變特征變換(scale invariant feature transform,SIFT)方法提取特征點(diǎn)數(shù)量和位置具有不確定性,因此Shi等[5]提出了一種特征點(diǎn)約束算法,以SIFT描述符為特征參數(shù),確定能夠有效代表表情變化區(qū)域特征點(diǎn)的最佳位置,并提取區(qū)域梯度信息。傳統(tǒng)方法為表情識別打下了較好的基礎(chǔ)并做出了很大貢獻(xiàn),但人工設(shè)計(jì)的特征提取算法因難以有效處理背景、角度等因素的干擾,識別性能有限,泛化能力不足。

        近年來,深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域得到了廣泛的應(yīng)用,并都取得了優(yōu)異的成績。與傳統(tǒng)設(shè)計(jì)方法相比,深度神經(jīng)網(wǎng)絡(luò)能夠自主學(xué)習(xí)特征,而且對存在光照、不同姿態(tài)等一些更難以識別的人臉表情圖像識別準(zhǔn)確率更高,穩(wěn)定性更好。Chen等[6]提出的方法由一個(gè)輸入是完整人臉圖像的主網(wǎng)絡(luò)和一個(gè)輸入是包含突出表情特征區(qū)域的預(yù)處理人臉圖像的輔助學(xué)習(xí)網(wǎng)絡(luò)組成。主網(wǎng)絡(luò)與輔助網(wǎng)絡(luò)結(jié)構(gòu)共享參數(shù),能有效提高關(guān)注突出表情變化區(qū)域的能力。方明等[7]提出一種結(jié)合殘差網(wǎng)絡(luò)及目標(biāo)掩膜的特征提取方法,定位人眼的關(guān)鍵區(qū)域后進(jìn)行圖像掩膜,能減少眨眼動(dòng)作對特征提取造成的干擾,歐拉視頻放大算法能對微表情變化的關(guān)鍵區(qū)域進(jìn)行放大,獲得更明顯的表情變化。崔子越等[8]通過對預(yù)訓(xùn)練的VGG模型進(jìn)行微調(diào),并設(shè)置概率閾值對Focal Loss進(jìn)行改進(jìn),避免誤標(biāo)注樣本對模型分類性能產(chǎn)生影響。通過設(shè)計(jì)深層的網(wǎng)絡(luò)結(jié)構(gòu)或者對損失函數(shù)進(jìn)行改進(jìn)優(yōu)化等方法通??梢垣@得良好的識別效果,但與此同時(shí)網(wǎng)絡(luò)層數(shù)、模型復(fù)雜度和參數(shù)量也不斷增加,計(jì)算代價(jià)越來越昂貴,容易產(chǎn)生過擬合等問題。值得注意的是,在MobileNet[9]中提出的深度可分離卷積將傳統(tǒng)卷積拆分為兩部分執(zhí)行,在幾乎不損失精度的情況下大大減少了參數(shù)的計(jì)算量,可有效克服過擬合問題。

        在實(shí)際分類任務(wù)中,有效特征信息只分布在圖像的局部區(qū)域,為了突出有效特征信息,一些研究引入了注意力機(jī)制。Wang等[10]提出了一種自愈網(wǎng)絡(luò)來抑制面部表情數(shù)據(jù)的不確定性,其中自注意力模塊學(xué)習(xí)每個(gè)面部圖像的權(quán)重,以捕獲樣本對訓(xùn)練的重要性。Li等[11]提出了一種在有遮擋的情況下進(jìn)行面部表情識別的方法,利用注意力機(jī)制關(guān)注未被遮擋的部分,但網(wǎng)絡(luò)依賴于人臉關(guān)鍵點(diǎn)檢測,遮擋面積較大時(shí),難生成自適應(yīng)權(quán)重。但上述方法均為完整網(wǎng)絡(luò)結(jié)構(gòu),不易遷移。Wang等[12]提出一種高效通道注意力網(wǎng)絡(luò),采用特征重標(biāo)定方式,強(qiáng)調(diào)有用區(qū)域并抑制用處不大的區(qū)域,提升效果顯著,且增加的模型復(fù)雜度小,可以直接插入到現(xiàn)有網(wǎng)絡(luò)中使用。

        為了更好地提取人臉表情的有效特征,提高識別精度,同時(shí)減少網(wǎng)絡(luò)模型參數(shù),提出一種多尺度融合注意力機(jī)制的人臉表情識別網(wǎng)絡(luò),本文工作概括如下:

        (1)為了引導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)對表情更有判別作用的局部特征信息,提出了利用高效通道注意力機(jī)制來提高關(guān)鍵特征的權(quán)重,強(qiáng)調(diào)表情識別的有效特征區(qū)域,有效提升了表情識別性能。

        (2)引入具有多尺度卷積核的Inception模塊可以獲得更為豐富的圖像特征,通過在不同尺度上進(jìn)行卷積再聚合增加網(wǎng)絡(luò)的感受野,增強(qiáng)網(wǎng)絡(luò)的特征學(xué)習(xí)能力。

        (3)在網(wǎng)絡(luò)模型中增加深度可分離卷積以減少參數(shù)計(jì)算量,降低模型復(fù)雜度,使網(wǎng)絡(luò)具有更好的抗過擬合性能。

        本文方法在兩個(gè)公開人臉表情數(shù)據(jù)集上進(jìn)行驗(yàn)證,并與其他幾種方法進(jìn)行對比,結(jié)果表明本文方法有較好的效果。

        1 表情識別網(wǎng)絡(luò)模型

        1.1 ECA注意力機(jī)制

        人臉表情的有效特征信息只分布在圖像的局部區(qū)域。為了從表情圖像中篩選出有效特征信息,引入注意力機(jī)制到網(wǎng)絡(luò)模型中。ECA-Net是一種超輕量級注意力模塊,其主要作用是考慮每個(gè)通道與其相鄰幾個(gè)通道進(jìn)行跨通道信息交互并生成權(quán)重值。增加面部表情關(guān)鍵特征的權(quán)重,降低無關(guān)特征權(quán)重,使網(wǎng)絡(luò)優(yōu)先關(guān)注有用的信息,提升網(wǎng)絡(luò)對重要特征的敏感度,其對識別準(zhǔn)確率的提升效果卓越。ECA-Net結(jié)構(gòu)圖如圖1所示。

        圖1 ECA-Net結(jié)構(gòu)圖Fig.1 Structure diagram of ECA-Net

        假設(shè)網(wǎng)絡(luò)的輸入特征圖為F∈RH×W。首先,對特征圖在不降低維度的情況下對每個(gè)通道都采用全局平均池化,將每個(gè)二維的特征通道壓縮到單個(gè)實(shí)數(shù)再進(jìn)行提取,得到一個(gè)1×1×C的全局描述特征。其次,考慮每個(gè)通道及其k個(gè)近鄰來捕獲本地跨通道交互信息,可以通過執(zhí)行卷積核大小為k的快速一維卷積有效實(shí)現(xiàn)。其中k代表跨通道交互的覆蓋范圍,即有多少個(gè)相近鄰參與一個(gè)通道的注意力預(yù)測,并用sigmoid激活函數(shù)生成各通道的權(quán)重占比。最后,把得到的各個(gè)通道權(quán)重值對輸入特征圖的每個(gè)通道加權(quán),完成了特征在通道空間中的重新校準(zhǔn)。

        ECA-Net只考慮每個(gè)通道與其k近鄰之間的相互作用,相比跨所有通道交互,能降低模型復(fù)雜度并提高效率。通過大小為k的一維卷積為每個(gè)通道生成權(quán)重,即:

        式中C1Dk表示核大小為k的一維卷積,y表示通道,σ表示sigmoid激活函數(shù)。k與通道維數(shù)有關(guān),通道維數(shù)越大,則局部跨通道交互的范圍k就越大。通過與通道維數(shù)相關(guān)的函數(shù)自適應(yīng)確定k值,即:

        因此可得:

        式中||todd為距離t最近的奇數(shù),γ和b的值分別設(shè)置為2和1。

        1.2 深度可分離卷積

        MobileNet是Howard等在2017年提出的一種輕量網(wǎng)絡(luò),它的基本單元是深度可分離卷積,其核心思想是將一個(gè)完整的卷積運(yùn)算分解為兩步進(jìn)行。第一步是深度卷積,深度卷積屬于濾波階段,把傳統(tǒng)的三維卷積核分解為一個(gè)逐通道處理的二維卷積核,每個(gè)卷積核分別處理輸入特征圖的一個(gè)通道,每個(gè)通道獨(dú)立進(jìn)行卷積運(yùn)算,將卷積處理后得到的所有特征圖按順序進(jìn)行拼接得到最終輸出。第二步是點(diǎn)卷積,實(shí)際為1×1卷積。點(diǎn)卷積屬于組合階段,它對輸入進(jìn)行逐點(diǎn)卷積,把深度卷積輸出的特征圖進(jìn)行通道融合,得到新的特征圖。標(biāo)準(zhǔn)卷積與深度可分離卷積的對比如圖2所示。

        圖2 兩種卷積對比Fig.2 Comparison of two convolutions

        假設(shè)輸入特征圖尺寸為DF×DF×M,卷積核大小為D×D,輸出特征圖尺寸為DF×DF×N。標(biāo)準(zhǔn)卷積計(jì)算量為D×D×M×N×DF×DF,而深度可分離卷積計(jì)算量為D×D×1×M×DF×DF+1×1×M×N×DF×DF,可得出深度可分離卷積與標(biāo)準(zhǔn)卷積計(jì)算量之比為由此可見,與標(biāo)準(zhǔn)卷積相比,深度可分離卷積能夠大幅度減少參數(shù),有效提高了訓(xùn)練與識別的速度。

        1.3 Inception

        GoogLeNet[13]是Google推出的基于Inception模塊的深度神經(jīng)網(wǎng)絡(luò)模型,其目的是在保證模型質(zhì)量的前提下,解決卷積層堆疊的問題,避免冗余計(jì)算,減少參數(shù)數(shù)量,提取高維特征。其中不同尺度的卷積核不僅增強(qiáng)了網(wǎng)絡(luò)的泛化能力和結(jié)構(gòu)表達(dá)能力,而且為網(wǎng)絡(luò)模型增加更多的非線性,大大提高了卷積神經(jīng)網(wǎng)絡(luò)的特征學(xué)習(xí)能力。

        Inception模塊對輸入圖像并行執(zhí)行多個(gè)卷積運(yùn)算,并將所有輸出結(jié)果拼接為一個(gè)特征圖。如圖3所示,一個(gè)Inception模塊包含3個(gè)不同尺寸的卷積核和一個(gè)最大池化層,并在每一層都使用一個(gè)1×1卷積,既在相同尺寸的感受野中疊加更多的卷積,提取到更豐富的特征,又進(jìn)行降維,降低計(jì)算復(fù)雜度。在多個(gè)尺度上進(jìn)行卷積再聚合可以獲得圖像的不同信息,將4個(gè)分支的輸出在特征維度上拼接起來,融合不同尺度特征,使網(wǎng)絡(luò)獲得不同的感受野。

        圖3 Inception結(jié)構(gòu)Fig.3 Inception structure

        1.4 表情識別網(wǎng)絡(luò)

        受文獻(xiàn)[14-16]的啟發(fā),本文提出了一種多尺度融合注意力機(jī)制的人臉表情識別方法,網(wǎng)絡(luò)框架如圖4所示。把圖像送入網(wǎng)絡(luò)進(jìn)行一系列運(yùn)算,提取表情特征,然后進(jìn)行分類。采用Inception模塊對輸入圖像降低通道數(shù)將信息聚集,再進(jìn)行多個(gè)尺度的特征提取及池化操作,獲得輸入圖像的不同尺度信息,既減少參數(shù)個(gè)數(shù),又增強(qiáng)特征提取功能。不同類別的表情通常在某些局部區(qū)域改變更為明顯,因此為了使網(wǎng)絡(luò)更加關(guān)注這些關(guān)鍵區(qū)域的信息,捕獲圖像中更具分辨力的特征,在網(wǎng)絡(luò)中使用了高效通道注意力機(jī)制,提升表情識別性能。此外,在通道數(shù)較大的卷積層將普通卷積替換成深度可分離卷積,大幅降低了模型的參數(shù)量。

        圖4 網(wǎng)絡(luò)模型結(jié)構(gòu)圖Fig.4 Structure diagram of network model

        所提網(wǎng)絡(luò)結(jié)構(gòu)及詳細(xì)參數(shù)信息如表1所示。網(wǎng)絡(luò)主要由11個(gè)卷積層依次相連組成,將第6層的普通卷積層替換為Inception模塊,第9、10個(gè)卷積層采用深度可分離卷積,第11層使用ECA注意力模塊。卷積層的所有卷積核大小為3×3,步長為1,最后接一個(gè)全局平均池化。網(wǎng)絡(luò)中的部分卷積層后依次使用批量歸一化和SeLU激活函數(shù),并且分別在第2、4、6、8、10層后嵌入了窗口大小為2、步長為2的最大池化層。

        表1 模型參數(shù)Table 1 Model parameters

        2 實(shí)驗(yàn)

        2.1 數(shù)據(jù)集

        FER-2013[17]是目前較大的人臉表情識別公開數(shù)據(jù)庫,由Kaggle人臉表情識別挑戰(zhàn)賽提供,共包含35 887張人臉表情圖像。其中訓(xùn)練集圖像28 709張,公共驗(yàn)證集圖像和私有驗(yàn)證集圖像分別有3 589張。所有圖像均已被標(biāo)記且固定為48×48的圖像,共有7種標(biāo)簽,分別為:憤怒、厭惡、恐懼、高興、悲傷、驚訝和蔑視。如圖5為該數(shù)據(jù)集中各類表情樣例,在面部姿態(tài)、角度、年齡等方面都有較大差異,反映了不同環(huán)境下人臉表情的真實(shí)狀態(tài),很多圖片還有手、眼鏡和頭發(fā)等的遮擋,與真實(shí)環(huán)境中的條件非常接近,更具有說服力。

        圖5 FER-2013表情庫7種表情示例圖像Fig.5 7 kinds of facial expression images in FER-2013 expression dataset

        CK+數(shù)據(jù)集[18]是用于評估人臉表情識別方法最廣泛的數(shù)據(jù)集。該數(shù)據(jù)集包含了123個(gè)人的593個(gè)圖像序列,其中有327個(gè)帶標(biāo)簽的圖像序列,從中選取表情較為強(qiáng)烈的圖像作為實(shí)驗(yàn)數(shù)據(jù),共選出981張圖像,有以下7種表情:憤怒、厭惡、恐懼、高興、悲傷、驚訝和蔑視,將圖像的人臉裁剪到大小固定為48×48。如圖6為7種表情示例圖像。

        圖6 CK+表情庫7種表情示例圖像Fig.6 7 kinds of facial expression images in CK+expression dataset

        2.2 實(shí)驗(yàn)環(huán)境

        實(shí)驗(yàn)操作系統(tǒng)為Windows10,實(shí)驗(yàn)環(huán)境python3.8,深度學(xué)習(xí)框架PyTorch,硬件平臺為CPU AMD EPYC 7302 16-Core Processor,內(nèi)存為251 GB,GPU為23 GB的NVIDIA GeForce RTX 3090。

        2.3 數(shù)據(jù)增強(qiáng)

        為了減少訓(xùn)練過程中的過擬合,提升模型的泛化能力,增強(qiáng)模型的魯棒性,使模型在有噪聲和角度變換等干擾的情況下保持穩(wěn)定性,在實(shí)驗(yàn)中對數(shù)據(jù)集進(jìn)行了數(shù)據(jù)增強(qiáng)。在訓(xùn)練之前,將原始圖像隨機(jī)裁剪為44×44大小,對裁剪之后的圖像進(jìn)行水平翻轉(zhuǎn),使數(shù)據(jù)集擴(kuò)充為原來的兩倍。在測試集上,采用TenCrop策略,即在原圖片的4個(gè)角和中心各截取一幅大小為44×44的圖片,然后對圖片進(jìn)行水平翻轉(zhuǎn),進(jìn)而將數(shù)據(jù)擴(kuò)增為原數(shù)據(jù)的10倍。

        2.4 實(shí)驗(yàn)結(jié)果與分析

        在FER-2013數(shù)據(jù)集上訓(xùn)練時(shí),對實(shí)驗(yàn)進(jìn)行250個(gè)epoch的訓(xùn)練,初始學(xué)習(xí)率設(shè)為0.01,批量大小為32,50次迭代后,每8輪迭代學(xué)習(xí)率的衰減為之前的0.8倍。在驗(yàn)證集上測試調(diào)整網(wǎng)絡(luò)超參數(shù),最后在測試集上評估模型性能。其混淆矩陣如圖7所示。

        圖7 FER-2013識別結(jié)果混淆矩陣Fig.7 Confusion matrix of FER-2013 recognition results

        由圖7可以看出,高興和驚訝等表情與其他種類表情相比,面部特征更加明顯,因此能得到更高的識別率。高興表情中大部分具有嘴角上揚(yáng)、眼角有紋路等顯著特征。驚訝表情中具有眼睛睜大、嘴巴張開等特征,在恐懼中也存在嘴巴張開的情況,但恐懼時(shí)的嘴巴張開幅度更大,這一特點(diǎn)使得驚訝容易與恐懼混淆。憤怒、悲傷和恐懼3種表情識別率相對較低??謶值淖R別難度最大,其不僅容易與驚訝混淆,還容易與悲傷混淆,因?yàn)檫@兩類表情均有皺眉、額頭緊皺等相同特征。這三類表情同屬于消極類情緒,本身具有較強(qiáng)的相似性,面部關(guān)鍵點(diǎn)通常只有細(xì)微的改變,互相錯(cuò)分的比例較高。此外,數(shù)據(jù)集中各表情圖片類別數(shù)據(jù)的不均衡導(dǎo)致網(wǎng)絡(luò)訓(xùn)練不充分,也是影響其識別率的重要因素。

        因CK+數(shù)據(jù)集圖片量較少,因此在訓(xùn)練時(shí)采用十折交叉驗(yàn)證。將數(shù)據(jù)集按9∶1的比例分為訓(xùn)練集和測試集,訓(xùn)練集882張圖片,測試集99張圖片。實(shí)驗(yàn)共訓(xùn)練100輪,批量大小為64,其余參數(shù)設(shè)置同F(xiàn)ER-2013數(shù)據(jù)集一樣。其測試集混淆矩陣如圖8所示。

        從圖8中可以看出,高興、驚喜、厭惡等均有較高的識別率,而憤怒、恐懼、藐視、悲傷等表情的識別準(zhǔn)確率相對較低,原因是這幾類表情的訓(xùn)練樣本數(shù)據(jù)較少,類別數(shù)據(jù)不均衡,網(wǎng)絡(luò)對特征的訓(xùn)練不充分。除此以外,消極類別的表情特征本身類似,大多具有嘴角向下、眉頭皺起等特征,容易混淆,如圖9中的憤怒被識別成厭惡,傷心被識別成蔑視等,也會導(dǎo)致識別率降低。

        圖9 識別失敗示例圖Fig.9 Example diagram of recognition failure

        由圖7和圖8可知,同一個(gè)算法在CK+數(shù)據(jù)集上得到的識別結(jié)果比FER-2013數(shù)據(jù)集的要更好,其原因是FER-2013數(shù)據(jù)集存在大量面部受遮擋圖片,與現(xiàn)實(shí)生活中的真實(shí)情況更貼合,且存在部分表情標(biāo)簽誤分的問題,更具有挑戰(zhàn)性和代表性。而CK+是標(biāo)準(zhǔn)實(shí)驗(yàn)室圖片,排除了如光照、角度變化等眾多影響因素,都是清晰的正面表情,所以識別率相對于FER-2013來說要高很多。

        圖8 CK+識別結(jié)果混淆矩陣Fig.8 Confusion matrix of CK+recognition results

        為了驗(yàn)證本文方法的有效性,本文在CK+和FER-2013數(shù)據(jù)集上與幾種國內(nèi)外現(xiàn)有的公開方法進(jìn)行了比較。不僅對比了本文算法與表情識別經(jīng)典算法的準(zhǔn)確率,并與近幾年最新的表情識別算法進(jìn)行了比較。

        由表2、3可知,大部分模型都取得了較好的準(zhǔn)確率。其中在CK+數(shù)據(jù)集上,本文算法達(dá)到95.76%的準(zhǔn)確率;在包含人臉遮擋和圖像對比度低的FER-2013數(shù)據(jù)集上,本文算法達(dá)到較高的72.28%的準(zhǔn)確率。因此,在圖像清晰、影響因素較少的情況下,當(dāng)前大多數(shù)方法都能獲得較為理想的效果,但在更真實(shí)復(fù)雜的場景下,很多方法并不適用。而MIANet引入Inception結(jié)構(gòu)提取圖像的多尺度特征信息;且還使用了ECA注意力機(jī)制,能提取到重要特征。因此可以有效解決上述問題,實(shí)驗(yàn)結(jié)果也展現(xiàn)了MIANet識別準(zhǔn)確率較好,獲得目前良好的效果。

        表2 不同算法在FER-2013數(shù)據(jù)集上的識別率Table 2 Recognition accuracy with different algorithms on FER-2013 dataset

        表3 不同算法在CK+數(shù)據(jù)集上的識別率Table 3 Recognition accuracy with different algorithms on CK+dataset

        為了進(jìn)一步驗(yàn)證模型具有較好特征提取能力的同時(shí)又具有輕量性,將表2、3中部分網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)量與本文實(shí)驗(yàn)結(jié)果進(jìn)行對比,如表4所示,可以看出MIANet的參數(shù)量遠(yuǎn)小于其他網(wǎng)絡(luò),并且依然能達(dá)到較高的識別精度,這表明MIANet能較好地兼顧識別準(zhǔn)確率與網(wǎng)絡(luò)的輕量化。

        表4 不同方法的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)量Table 4 Network structure parameters of different methods

        2.4.1 注意力模型對比實(shí)驗(yàn)

        為了驗(yàn)證通道注意力模塊的有效性,將引入了Inception和深度可分離卷積的網(wǎng)絡(luò)作為基礎(chǔ)網(wǎng)絡(luò)Basis,分別嵌入不同的注意力模型SE、CBAM、ECA后在CK+數(shù)據(jù)集上進(jìn)行對比實(shí)驗(yàn)。由表5可知,在其他實(shí)驗(yàn)參數(shù)不變的情況下,加入ECA-Net的識別效果最好,充分驗(yàn)證了ECA注意力機(jī)制的有效性。嵌入注意力模型的網(wǎng)絡(luò)相比于基礎(chǔ)網(wǎng)絡(luò)識別率均有提升,而嵌入ECA-Net的識別準(zhǔn)確率最高,相比基礎(chǔ)網(wǎng)絡(luò)提高了2.43個(gè)百分點(diǎn),因此在本文中,相較于其他注意力模塊,ECA能給網(wǎng)絡(luò)帶來更好的識別性能。

        表5 注意力模型對比結(jié)果Table 5 Comparison results of attention models

        隨機(jī)挑選兩張表情圖像,根據(jù)Grad-CAM方法生成ECA模塊上一層和該層的可視化熱力圖,觀察網(wǎng)絡(luò)在這兩層的輸出分別更側(cè)重于哪塊區(qū)域,如圖10所示。人臉表情特征主要體現(xiàn)在幾個(gè)局部區(qū)域,如:眉毛、嘴部、鼻翼等,不同類別的表情在這些局部區(qū)域會有不同的表現(xiàn)。因此,引導(dǎo)網(wǎng)絡(luò)關(guān)注這幾個(gè)關(guān)鍵部位的特征信息會有利于識別效果的提升。由圖10可知,在加入ECA模塊后,網(wǎng)絡(luò)將會更關(guān)注對分類起到重要作用的有效特征區(qū)域,使得模型能捕獲到用于分類的有效特征。

        圖10 ECA模塊對特征提取的影響Fig.10 Impact of ECA module on feature extraction

        2.4.2 模塊有效性驗(yàn)證實(shí)驗(yàn)

        為了進(jìn)一步驗(yàn)證本文所提方法的有效性,本文進(jìn)行消融實(shí)驗(yàn)。其步驟依次如下:(1)首先在沒有引入任何其他模塊的基礎(chǔ)網(wǎng)絡(luò)上進(jìn)行實(shí)驗(yàn),此方法記為Base;(2)在Base方法基礎(chǔ)上,加入深度可分離卷積但不使用注意力機(jī)制和Inception,此方法記為Base+Separable;(3)在Base方法基礎(chǔ)上,引入注意力機(jī)制但不加入深度可分離卷積和Inception,此方法記為Base+ECA-Net;(4)在Base方法基礎(chǔ)上,引入Inception但不加入深度可分離卷積和注意力機(jī)制,此方法記為Base+Inception;(5)在Base方法基礎(chǔ)上,同時(shí)引入Inception、注意力機(jī)制和深度可分離卷積,即MIANet。表6展示了各方法在FER-2013和CK+數(shù)據(jù)集上的識別結(jié)果。

        表6 消融實(shí)驗(yàn)Table 6 Ablation experiments

        MIANet驗(yàn)證了深度可分離卷積、通道注意力機(jī)制和多尺度提取Inception三個(gè)模塊的有效性。將各個(gè)模塊分別進(jìn)行了對比實(shí)驗(yàn),表6中的結(jié)果顯示每個(gè)模塊在不同數(shù)據(jù)集上對表情識別準(zhǔn)確率的效果。由表6可知,在添加通道注意力機(jī)制后檢測效果有所提高,且增加的參數(shù)量可以忽略不計(jì),這表明ECA-Net是有效且超輕量的。Inception模塊效果顯著,其中的1×1卷積既能起到疊加作用,提取更豐富的特征,又能進(jìn)行降維,降低了計(jì)算復(fù)雜度。深度可分離卷積使得模型參數(shù)量大幅縮減,降低了計(jì)算量。但其在兩個(gè)數(shù)據(jù)集上產(chǎn)生了不同的效果。在CK+數(shù)據(jù)集上有明顯的效果,但在FER-2013數(shù)據(jù)集上準(zhǔn)確率反而有所下降,這是因?yàn)镃K+是小型數(shù)據(jù)集,圖片數(shù)量少,當(dāng)使用深度可分離卷積時(shí)可以緩解網(wǎng)絡(luò)的過擬合現(xiàn)象,因此準(zhǔn)確率有所上升;而FER-2013是大型數(shù)據(jù)集,使用深度可分離卷積會產(chǎn)生欠擬合現(xiàn)象,因此準(zhǔn)確率有所下降。但從表6中可以看出,同時(shí)使用深度可分離卷積、通道注意力機(jī)制和多尺度提取Inception時(shí),仍然能較好地實(shí)現(xiàn)識別準(zhǔn)確率與網(wǎng)絡(luò)輕量化的平衡。

        3 結(jié)束語

        本文針對人臉表情識別過程中難以兼顧準(zhǔn)確率與輕量化的問題,提出一種多尺度融合注意力機(jī)制的人臉表情識別網(wǎng)絡(luò)。首先,在網(wǎng)絡(luò)中加入Inception結(jié)構(gòu),將網(wǎng)絡(luò)的深度和寬度同時(shí)提升,提取人臉表情不同尺度的特征信息;其次,利用高效通道注意力機(jī)制引導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)利于表情識別的有效特征;最后,使用深度可分離卷積對部分卷積層進(jìn)行替換,降低網(wǎng)絡(luò)參數(shù),避免產(chǎn)生參數(shù)爆炸,從而導(dǎo)致過擬合的問題。在兩個(gè)公開人臉表情數(shù)據(jù)集FER-2013和CK+上分別進(jìn)行實(shí)驗(yàn)來對本模型進(jìn)行評估,實(shí)驗(yàn)結(jié)果驗(yàn)證了本文所提方法的有效性。在后續(xù)的研究中,將考慮利用反卷積等方法實(shí)現(xiàn)各卷積層特征的可視化。另外,可以將表情識別從室內(nèi)轉(zhuǎn)向室外,在更復(fù)雜、真實(shí)的場景下應(yīng)用,使得理論研究能夠與實(shí)際相結(jié)合,以及增加疼痛、困倦之類的表情類別,將面部表情識別方法應(yīng)用在醫(yī)療監(jiān)護(hù)及自動(dòng)駕駛等實(shí)際場景中。

        猜你喜歡
        深度特征
        抓住特征巧觀察
        深度理解一元一次方程
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        深度觀察
        深度觀察
        深度觀察
        深度觀察
        抓住特征巧觀察
        精品国产中文字幕久久久| 一区二区韩国福利网站| 天天摸天天做天天爽天天舒服| 按摩少妇高潮在线一区| 永久免费a∨片在线观看 | 国产精品久久久久久久妇| 无码中文字幕在线DVD| 成年人视频在线播放视频| 久久99热只有频精品8国语| 最新国产福利在线观看精品| 国产v视频| 亚洲二区三区四区太九| 99久久免费看精品国产一| 日韩人妻无码精品久久免费一| 日韩中文网| 日本免费a一区二区三区 | 国产精品亚洲在钱视频| 亚洲成av人片在线观看| 日本公妇在线观看中文版| 日韩中文字幕一区二区高清| 高清不卡av在线播放| 久久99国产精品久久99| 无码h黄动漫在线播放网站| 欧美国产伦久久久久久久| 日韩免费精品在线观看| 最近2019年好看中文字幕视频| 欧美激情αv一区二区三区| 熟女乱乱熟女乱乱亚洲| 色综合天天综合网国产成人网| 国产人妻久久精品二区三区| 无码免费午夜福利片在线| 国产三级精品三级在线专区| 色妞色视频一区二区三区四区| 国产成人精品三级麻豆 | 亚洲一区二区观看播放| 国产精品一区二区三密桃| 国产av剧情一区二区三区| 一本加勒比hezyo无码人妻| 久久精品中文字幕久久| 蜜桃视频在线免费视频| 国产精品亚洲欧美大片在线看|