融合局部特征與兩階段注意力權重學習的面部表情識別

2022-01-01 00:00:00鄭劍鄭熾劉豪于祥春

計算機應用研究 2022年3期

摘要：面部的局部細節(jié)信息在面部表情識別中扮演重要角色，然而現(xiàn)有的方法大多只關注面部表情的高層語義信息而忽略了局部面部區(qū)域的細粒度信息。針對這一問題，提出一種融合局部特征與兩階段注意力權重學習的深度卷積神經(jīng)網(wǎng)絡FLF-TAWL（deep convolutional neural network fusing local feature and two-stage attention weight learning），它能自適應地捕捉重要的面部區(qū)域從而提升面部表情識別的有效性。該FLF-TAWL由雙分支框架構成，一個分支從圖像塊中提取局部特征，另一個分支從整個表情圖像中提取全局特征。首先提出了兩階段注意力權重學習策略，第一階段粗略學習全局和局部特征的重要性權重，第二階段進一步細化注意力權重，并將局部和全局特征進行融合；其次，采用一種區(qū)域偏向損失函數(shù)鼓勵最重要的區(qū)域以獲得較高的注意力權重。在FERPlus、Cohn-Kanada（CK+）以及JAFFE三個數(shù)據(jù)集上進行了廣泛實驗，分別獲得90.92%、98.90%、97.39%的準確率，實驗結果驗證了FLF-TAWL模型的有效性和可行性。

關鍵詞：面部表情識別；深度卷積神經(jīng)網(wǎng)絡；局部特征融合；兩階段注意力權重學習；區(qū)域偏向損失

中圖分類號：TP391.41 文獻標志碼：A

文章編號：1001-3695（2022）03-043-0889-06

doi：10.19734/j.issn.1001-3695.2021.07.0287

基金項目：國家自然科學基金資助項目（61563069，61462034）；江西省教育廳科學技術研究項目（GJJ170517，GJJ190468）；江西理工大學研究生創(chuàng)新專項資金資助項目（ZS2020-S049）

作者簡介：鄭劍（1977-），男，湖北武漢人，副教授，博士，主要研究方向為計算機視覺、大數(shù)據(jù)隱私保護；鄭熾（1996-），男，湖北黃岡人，碩士研究生，主要研究方向為計算機視覺、圖像處理；劉豪（1998-），男，江西九江人，碩士研究生，主要研究方向為深度學習、圖像處理；于祥春（1989-），男（通信作者），山東泰安人，講師，博士，主要研究方向為計算機視覺、深度學習（yuxc@jxust.edu.cn）.

Deep convolutional neural network fusing local feature and two-stage attention weight learning for facial expression recognition

Zheng Jian，Zheng Chi，Liu Hao，Yu Xiangchun^?

（School of Information Engineering，Jiangxi University of Science amp; Technology，Ganzhou Jiangxi 341000，China）

Abstract：Facial local detail information plays an important role in facial expression recognition（FER）.However，most of the existing methods only focus on the high-level semantic information of facial expressions，while ignoring the fine-grained information of local facial regions.To solve this problem，this paper proposed a deep convolutional neural network fusing local feature and two-stage attention weight learning（FLF-TAWL），which could adaptively capture important facial regions to improve the effectiveness of facial expression recognition.The FLF-TAWL model was composed of a dual-branch framework，one branch extracted local features from image blocks，and the other branch extracted global features from the entire expression image.Firstly，this paper proposed a two-stage attention weight learning strategy.In the first stage，it roughly learned the importance weights of global and local features，in the second stage，it further refined the attention weight，and fused the local and global features.Secondly，the model used a region-biased loss function to encourage the most important regions to obtain higher attention weights.Finally，this paper carried out extensive experiments on FERPlus，Cohn-Kanada（CK+） and JAFFE datasets to obtain accuracy rates of 90.92%，98.90% and 97.39% respectively.The experimental results verify the effectiveness and feasibility of the FLF-TAWL model.

Key words：facial expression recognition；deep convolutional neural network（DCNN）；fusing local feature；two-stage attention weight learning；region-biased loss function

0 引言

面部表情識別（facial expression recognition，F(xiàn)ER）可輔助計算機理解人類行為從而完成有效的人機交互，其應用極其廣泛，如智能教學系統(tǒng)、服務機器人、智能人機交互以及駕駛員疲勞監(jiān)控等。近年來，基于深度學習的面部表情識別研究已成為國內(nèi)外學術研究的熱點。

一般來說，面部表情可以分為七種基本表情，包括憤怒、厭惡、恐懼、快樂、悲傷、驚訝以及自然表情^[1]，表情識別的任務就是對這七類基本表情進行分類。面部表情識別不同于其他圖像識別，需要對面部特征進行精細的刻畫才能更加精確地完成識別任務。近年來，深度卷積神經(jīng)網(wǎng)絡（DCNN）在計算機視覺領域取得了巨大的成功，DCNN能夠自動從原始數(shù)據(jù)中提取有效特征，具有自適應學習特征表達的能力，相比手工特征具有更好的高層語義表達和本質(zhì)映射能力。許多研究利用DCNN來改善FER的性能。最早，Tang^[2]和Kahou等人^[3]設計了更深的DCNN用于面部特征提取，分別贏得了FER2013和EMotiw2013表情識別挑戰(zhàn)賽的冠軍。Ding等人^[4]提出了一種聯(lián)合訓練FER任務和人臉識別任務的FaceNet2ExpNet架構。Albanie等人^[5]利用VGGFace 2.0上預訓SeNet50進行遷移學習，并使用softmax分類函數(shù)在FERPlus數(shù)據(jù)集上進行微調(diào)。同時，心理學研究表明^[6]，人類可以有效地利用局部區(qū)域和整體區(qū)域來感知不完整的面部所傳遞的語義信息。Majumder等人^[7]研究發(fā)現(xiàn)面部表情變化通常與一些特定的面部區(qū)域，如嘴巴、眼睛以及鼻子等存在密切關聯(lián)，這意味著局部面部區(qū)域特征對面部表情識別至關重要。姚麗莎等人^[8]提出一種基于卷積神經(jīng)網(wǎng)絡局部特征融合的面部表情識別方法，通過構建的DCNN模型提取眼睛、眉毛以及嘴巴三個局部區(qū)域特征，然后采用SVM多分類器進行決策級加權融合，取得了較好的識別結果。Wang等人^[9]設計了一種基于局部區(qū)域的注意力網(wǎng)絡，用來解決FER問題中姿勢和遮擋的干擾問題。Xie等人^[10]提出雙分支的DCNN將面部全局特征和局部特征簡單地融合在一起，豐富了面部表情特征，但是不能自動抑制不相關的局部區(qū)域，在一定程度上限制了該方法的性能。Li等人^[11]提出了一種抗面部遮擋的表情識別方法，利用注意力機制使網(wǎng)絡關注未遮擋的部分從而提高識別效果，但是該方法所獲得的關鍵注意力權重還不夠精細。最近，Ben等人^[12]不僅對微表情識別進行了全面的綜述，還對宏觀表情識別的基本技術、最新進展和主要挑戰(zhàn)進行了系統(tǒng)的闡述和討論。

綜上所述，在心理學研究以及上述工作基礎上，本文對基于DCNN的FER方法進行相應改進，提出了融合局部特征與兩階段注意力權重學習的深度卷積神經(jīng)網(wǎng)絡模型FLF-TAWL。該模型更加關注局部特征的重要性，能夠提取更加精細的面部局部細節(jié)信息，更全面地表征表情信息。本文的主要工作如下：a）設計了一個包含兩分支的特征網(wǎng)絡融合框架，即全局面部特征提取模塊和局部特征提取模塊，該融合框架同時融合面部表情全局特征和局部子塊特征，實現(xiàn)兩個尺度信息的相互補充，更全面地表示表情圖像；b）提出了一種兩階段注意力權重計算策略，在第一階段通過自注意力權重模塊粗略計算局部子塊的注意力權重，在第二階段通過關系注意力模塊對拼接后的特征進一步細化注意力權重，完成注意力權重由粗到細的計算，自動感知具有判別性的局部圖像子塊和抑制非重要的局部圖像子塊；c）有機整合對數(shù)加權交叉熵損失（WCE-loss）和面部局部圖像子塊區(qū)域排名正則化損失（RR-loss），目的是完成目標任務的聯(lián)合優(yōu)化，從而使得本文模型能夠獲得更優(yōu)的注意力權重參數(shù)和更具判別性的識別效果。

1 相關理論

1.1 特征融合網(wǎng)絡

許多研究工作通過設計相應的深度卷積網(wǎng)絡來完成不同類型特征的融合，這通常比使用單一類型特征的網(wǎng)絡能獲得更好的識別效果。例如，Majumder等人^[7]從表情圖像中提取LBP特征和面部幾何特征，這兩種類型特征最終通過兩層自動編碼器進行融合，獲得了可觀的效果；彭玉青等人^[13]提出將一種將卷積神經(jīng)網(wǎng)絡與DenseSIFT特征進行融合的混合模型，從輸入信息中提取出了更為細微的特征，從而有效地提升了表情識別率；Sun等人^[14]提出了一種多通道深度時空特征融合神經(jīng)網(wǎng)絡（MDSTFN）來執(zhí)行靜態(tài)圖像的深度時空特征提取和融合，該網(wǎng)絡同時捕獲了時空特征從而取得了滿意的效果。然而值得注意的是，現(xiàn)有的基于深度學習的方法大多只關注面部表情的高層語義信息而忽略了局部面部區(qū)域的細粒度信息，與已有的工作不同，本文提出了一種可以同時有效融合全局和局部面部特征的方法，同時本文方法也致力于挖掘局部細節(jié)信息在表情識別中的重要性。

1.2 注意力網(wǎng)絡

注意力機制起初是在強化學習的基礎上發(fā)展而來。Mnih等人^[15]使用帶有注意力機制的RNN模型進行圖像分類，并成功地應用到了機器翻譯任務。之后，越來越多的研究者針對不同的研究任務提出了不同的自注意力模型。Wang等人^[16]提出了一種用于人臉檢測的注意力網(wǎng)絡，其在多選框生成步驟中突出顯示面部區(qū)域。Yang等人^[17]提出了一種神經(jīng)聚合網(wǎng)絡（neural aggregation network，NAN），NAN使用級聯(lián)注意力機制來融合視頻的面部特征或將其設置為緊湊的視頻表示。在NAN模型的啟發(fā)下，本文將注意力機制引入所設計的模型中。

2 本文方法

2.1 FLF-TAWL網(wǎng)絡

本文所提FLF-TAWL模型如圖1所示，它通過兩個獨立分支有效地融合全局和局部面部的深層特征信息。全局面部特征提取分支從整幅面部圖像中提取整體特征。局部特征提取分支從帶重疊面部圖像裁剪子塊中提取局部特征，將局部面部區(qū)域按照第一階段注意力權重系數(shù)進行加權聚合后得到局部聚合特征，接著在第二階段注意力權重計算將這兩個分支得到的輸出特征進行聚合，目的是有效覆蓋面部表情圖像的全局和局部尺度，同時有效實現(xiàn)兩個尺度信息的相互補充。這兩個分支的有機融合不僅豐富了特征提取尺度，而且在一定程度上降低了FER識別中干擾因素的影響并提升了模型的表示能力，從而增強了模型的泛化能力。整幅面部圖像表示為I，面部圖像的副本表示為x₀，均勻裁剪的帶重疊的局部區(qū)域依次為x₁，…，xL，L為每幅面部圖像所裁剪的局部圖像子塊數(shù)。當輸入圖像為I時，網(wǎng)絡的輸入數(shù)據(jù)集用X表示為

其中：x₀，x₁，…，xL是各部分圖像的矩陣表示。將X分別輸入兩分支的主干網(wǎng)絡進行特征提取，分別得到全局特征和局部特征F，具體表示如下：

其中：v0h為全局面部特征CNN提取模塊所提取的全局特征；vkl為局部面部特征CNN提取模塊所提取的第k個局部特征，k=1，2，3，…，L；r（.；θ）表示特征提取網(wǎng)絡CNN，θ是特征提取網(wǎng)絡CNN中的參數(shù)。局部特征被輸入到自注意力權重模塊進行第一階段注意力權重計算，全局特征和局部特征在關系注意力模塊進行第二階段注意力權重計算，獲得最終的聚合特征后以全連接形式輸入到softmax的分類器中，softmax函數(shù)如式（3）所示，其中C為表情類別數(shù)。

2.2 兩階段注意力權重計算模式

不同的面部局部圖像子塊將在FER任務中扮演不同的角色。為了在網(wǎng)絡的訓練中自動感知具有判別性的局部圖像子塊和抑制非重要的局部圖像子塊，本文設計了一種兩階段注意力權重計算模式：a）引入了自注意力權重加權模塊和排名正則化來對面部圖像子塊的貢獻度進行排名，具有較高判別性的局部子塊被賦予較高的重要性權重，同時判別性較弱的局部子塊被賦予較低的重要性權重；b）在獲得粗略計算的局部子塊注意力權重后，該模式又引入關系注意力模塊對局部子塊特征以及全局面部特征分別與來自第一階段融合后的表征進行關系建模以尋求細化的注意力權重。兩階段注意力權重計算模式的具體設計如圖2所示。

2.2.1 第一階段注意力權重計算

1）自注意力權重模塊由式（2）可知第k個局部特征向量為v^kl，按通道融合得到的F∈?^D^×L，其中D為特征維度，L為局部圖像子塊數(shù)。自注意力權重加權模塊輸入為每幅圖像中所有局部子塊的特征，輸出為每個局部子塊的粗略注意力權重。具體地，自注意力權重加權模塊計算公式為

其中：Wa為自注意力權重加權模塊全連接FC層的權重，該權重與局部子塊特征v^kl進行向量相乘，通過sigmoid函數(shù)σ過濾后得到第k個局部子塊注意力權重αk。本模塊得到的粗略計算后的局部子塊注意力權重，將會用于后續(xù)第二階段注意力計算模塊，從而得到更加細化的注意力權重。

2）面部局部圖像子塊排名正則化不同類別面部表情的形成由面部不同的子區(qū)域所影響^[4]。為了深度挖掘不同面部局部子塊的重要性，本文采用面部局部圖像子塊區(qū)域排名正則化來提升具有判別性的局部圖像子塊的權重和抑制非重要的局部圖像子塊權重。如圖2所示，在排名正則化約束模塊中，首先對局部子塊特征按照自注意力權重模塊所得到的注意力權重αk∈[0，1]的大小進行降序排列；然后要求局部子塊中最大注意力權重應大于全局面部圖像的注意力權重，兩者之間的邊距閾值由超參數(shù)δ₁來控制。本文使用下面的局部子塊排名正則化損失函數(shù)RR-loss來實現(xiàn)面部局部圖像子塊排名正則化約束，即

其中：δ₁為邊距閾值超參數(shù)；α₀為原始圖像副本（即整體面部圖像）的注意力權重；αmax為局部子塊中注意力權重最大值。排名正則化損失函數(shù)所施加約束的目的是突出某些局部子塊特征（如嘴巴、眼睛以及鼻子等），同時抑制非重要局部子塊特征（如額頭等）。排名正則化約束策略可以讓模型深度挖掘判別性更強的面部局部表情特征。在自注意力權重模塊得到粗略計算的αk后，本文將所有局部特征v^kl及其注意力權重進行有機整合從而得到第一階段的聚合特征Fm。

其中：Fk為局部特征；Fm為第一階段所得到的自注意力權重集合的特征。

2.2.2 第二階段注意力權重計算

第一階段獲得的注意力權重在一定程度上是粗糙的，例如所得到的針對于每一個局部子塊的注意力權重并不具備感知剩余其他局部子塊的信息，從而缺乏全局判別能力。本文提出通過第二階段的關系注意力策略來進一步細化逐個局部子塊的注意力權重。具體來講，首先將第一階段所獲得的自注意權重聚合特征Fm分別與每個局部子塊特征v^kl以及全局特征v⁰h進行拼接；然后通過全連接層來分別自動學習各個局部子塊特征v^kl以及全局特征v⁰h與該自注意權重聚合特征Fm之間的關系；最后繼續(xù)按照式（4）所描述的方式得到進一步細化的注意力權重。第二階段的關系注意力模塊中第k個區(qū)域的細化注意權重表示為

其中：Wβ是關系注意力模塊全連接FC層的權重，該權重與局部子塊特征Fk和Fm的拼接特征進行向量點乘，通過sigmoid函數(shù)σ過濾后得到第k個細化的局部子塊注意力權重βk。最后將兩階段注意力權重計算進行整合，得到最終的聚合特征為

其中：Fm為第一階段的聚合特征，具體如式（6）所示；對于Fk，當k=0時，F(xiàn)0為v0h；當kgt;0時，F(xiàn)k為vkl。PFLF-TAWL將作為FLF-TAWL網(wǎng)絡最終的特征表征。

2.2.3 WCE-loss與RR-loss聯(lián)合優(yōu)化

通過上述設計的兩階段注意力權重計算模塊得到了最終的聚合特征PFLF-TAWL，注意力權重在上述特征提取過程中扮演了重要角色，受文獻[15，18]的啟發(fā)，本文將所得到的注意力權重用于損失加權，目的是從目標損失函數(shù)角度引導注意力權重參數(shù)的學習，從而進一步完成具有判別性局部子塊特征的提升和非重要局部子塊特征的抑制。本文設計了對數(shù)加權交叉熵損失（WCE-loss）來完成目標優(yōu)化任務，具體表示為

2.3 裁剪方式

將面部圖像裁剪出多個局部子塊是FLF-TAWL中的一個基本任務。裁剪區(qū)域過大將導致特征的多樣性降低，裁剪區(qū)域過小將導致區(qū)域特征的區(qū)分能力不足。本文重點研究三種形式的局部子塊裁剪方案，即固定位置裁剪、隨機裁剪以及基于關鍵點位置裁剪，如圖3所示。

a）固定位置剪裁。以固定的比例在固定的位置進行局部子塊裁剪。具體地，使用該方法裁剪五個區(qū)域，其中三個是左上、右上和中下的面部區(qū)域，其大小固定為原始人臉的0.75比例；另外兩個區(qū)域類似于微笑分類任務中使用的區(qū)域，裁剪原始面部圖像大小為0.9和0.85比例的中心區(qū)域^[19]。

b）隨機剪裁。在基于深度學習面部識別任務中，DeepID^[20]在每幅面部表情圖像進行200次隨機裁剪，得到更多的局部子塊來提高其性能。本文在隨機裁剪過程中隨機裁剪N個區(qū)域，其中隨機區(qū)域的尺寸比例為原始人臉的0.7～0.95不等。

c）基于關鍵點位置剪裁。給定面部表情關鍵點，在關鍵點周圍的區(qū)域進行裁剪。本文使用MTCNN^[21]來檢測五個典型的面部標志點（即左眼、右眼、鼻子、左嘴角和右嘴角），并根據(jù)這些標志點為中心點得到半徑為r的裁剪區(qū)域。最后將所有裁剪下來的局部子塊進行縮放至64×64的統(tǒng)一大小。

3 實驗驗證與結果分析

為了驗證本文提出的FLF-TAWL模型的有效性，在三個公開的面部表情數(shù)據(jù)集上進行了大量的實驗，分別是FERPlus、CK+以及JAFFE數(shù)據(jù)集，這三個數(shù)據(jù)集的部分樣本示例如圖4所示。本實驗是在Ubuntu 18.04.5 LTS環(huán)境下，基于TensorFlow實現(xiàn)完成的。實驗硬件平臺為Intel Core^TMi5-6500 CPU，主頻為3.2 GHz，內(nèi)存為8 GB，同時借助顯存12 GB的NVIDIA GeForce RTX 2080Ti GPU進行加速處理。

3.1 數(shù)據(jù)集與數(shù)據(jù)預處理

FERPlus、CK+以及JAFFE數(shù)據(jù)集在面部表情識別領域應用廣泛，許多面部表情識別方法均在該數(shù)據(jù)集上進行驗證。FERPlus和CK+都包含八種基本表情，即自然、開心、驚訝、悲傷、生氣、厭惡、恐懼以及輕蔑。FERPlus數(shù)據(jù)集由ICML2013挑戰(zhàn)賽中的FER2013數(shù)據(jù)集擴展而來，該數(shù)據(jù)集是通過谷歌搜索引擎從互聯(lián)網(wǎng)上收集的大規(guī)模數(shù)據(jù)集，由28 709張訓練圖像、3 589張驗證圖像以及3589張測試圖像組成。相比于FER2013，擴展后的FERPlus數(shù)據(jù)集的標簽精度更高，在圖4中第1行顯示了該數(shù)據(jù)集的一些樣本。CK+數(shù)據(jù)集是一個動態(tài)表情數(shù)據(jù)集，它包含來自123個人共593例的動態(tài)表情圖像序列，每一個序列都包含表情從平靜到表情峰值的所有幀，但是僅有327個圖像序列帶表情標簽。圖4中第2行顯示了CK+數(shù)據(jù)集的部分樣本示例，本文選取了327個共有八種基本表情類別的序列進行實驗，對每個序列收集最后3幀峰值的表情幀作為表情圖像。JAFFE數(shù)據(jù)集是最常用的靜態(tài)圖像數(shù)據(jù)集，它包含10名日本女性共213張大小為256×256的面部正面靜態(tài)圖像，每人都有除輕蔑類別之外的七種基本表情，其中每種表情有2～4幅圖像，該數(shù)據(jù)集標簽比較標準，圖4第3行顯示了JAFFE數(shù)據(jù)集的部分樣本示例。

在訓練模型前先對數(shù)據(jù)進行預處理。在實驗中針對FERPlus和CK+數(shù)據(jù)集中樣本數(shù)據(jù)的不平衡問題，采用數(shù)據(jù)增強來提高樣本數(shù)量的均衡分布，從而盡可能避免因樣本數(shù)量不均衡所造成的面部表情識別率下降的影響。例如執(zhí)行圖像水平翻轉，每個圖像順時針和逆時針旋轉5°，此外還可以通過隨機添加具有零均值和0.01方差的高斯噪聲等方式獲得更多的樣本。針對人臉表情識別易受人臉光照和姿態(tài)的影響，采用如圖5所示的MTCNN人臉檢測器^[23]檢測所有選定面部圖像中的人臉并進行面部對齊，對齊之后再通過直方圖均衡化將圖像的直方圖分布變成近似均勻分布以增加圖像對比度、增強圖像細節(jié)。因此，經(jīng)過數(shù)據(jù)預處理后的實驗樣本集得到了很大的擴展和豐富。表1顯示了經(jīng)過數(shù)據(jù)預處理后實驗中選取樣本的數(shù)量分布情況。

3.2 實驗設置與實現(xiàn)細節(jié)

本文利用遷移學習思想，分別選擇VGG16以及ResNet50作為主干網(wǎng)絡，其中VGG16和ResNet50分別在VGG-Face 2.0、MSCeleb-1M人臉識別數(shù)據(jù)集上進行了預訓練。

為了與五點關鍵點裁剪出的局部圖像數(shù)量相等，在固定裁剪的訓練階段，本文使用所有五個區(qū)域以及每個原始人臉圖像的副本（即圖2中的L=5）作為網(wǎng)絡輸入；對于隨機裁剪的訓練，本文采用隨機裁剪的區(qū)域替換固定裁剪的五個區(qū)域。當使用RB-loss和WCE-loss進行聯(lián)合訓練時，默認的權重比為1：1，它們之間的占比對表情識別的影響將在隨后的消融實驗中進行研究。在所有數(shù)據(jù)集上，學習率初始化為0.01，每隔15個epoch學習率減少10倍，epoch=100，RR-loss中的超參數(shù)δ₁默認設置為0.02。為了評估該方法的性能，所有實驗均采用10折交叉驗證（即圖像被隨機分成10個等大小的子集，9個子集用于訓練，剩余的1個子集用于測試）。最后的結果通過平均識別精度得出。

3.3 實驗結果分析

為了進一步驗證本文提出的FLF-TAWL模型的有效性，首先采用以ResNet50作為FLF-TAWL的主干網(wǎng)絡，按照圖3中三種裁剪方式得到的局部和全局圖像數(shù)據(jù)作為網(wǎng)絡輸入，其中隨機裁剪中分別隨機9、30、60次，隨機取五個局部圖像輸入模型，分別得到三種裁剪方式的平均識別準確率；另外本文復現(xiàn)了文獻[10]的DCMA-CNN算法作為對比方法；同時還將原始的人臉圖像作為輸入，對傳統(tǒng)方法VGG16+SVM進行微調(diào)作為基線對比模型，實驗對比結果如表2～4所示，同時在三個數(shù)據(jù)集上的可視化結果如圖6所示。

通過表2～4及圖6可以看出，本文提出的方法取得了最優(yōu)結果。與傳統(tǒng)的基線模型比較，輸入單一特征的人臉表情圖像只能從整個表情圖像中提取特征，僅強調(diào)面部表情的完整性，從而忽略了局部細節(jié)信息，因此識別精度不高。與DCMA-CNN相比，本文的FLF-TAWL在三種裁剪方式上表現(xiàn)更穩(wěn)定，說明本文方法更易學習到局部面部區(qū)域的細粒度信息，從而充分利用編碼在表情圖像中的有效識別信息達到較優(yōu)的識別效果。另外，本文發(fā)現(xiàn)基于人臉關鍵點的裁剪方式產(chǎn)生的識別效果始終優(yōu)于隨機裁剪方式和固定裁剪方式，甚至使用多倍隨機裁剪策略的情況下，網(wǎng)絡模型也不會對識別精度提高很多。該實驗結果表明，人類面部表情的變化通常發(fā)生在面部的一些顯著區(qū)域，如嘴巴、嘴角、眼和鼻子周圍區(qū)域。更重要的是，本文的FLF-TAWL模型在固定位置裁剪和基于關鍵點位置剪裁的識別率差異小于DCMA-CNN模型，這表明了FLF-TAWL模型可以有效突出某些局部子塊特征（如嘴巴、眼睛以及鼻子等），同時抑制非重要局部子塊特征，從而提升表情識別任務的區(qū)分性，后續(xù)實驗最終選擇用人臉關鍵點裁剪方式的數(shù)據(jù)輸入FLF-TAWL。圖7中給出了本文FLF-TAWL模型在三個數(shù)據(jù)集下每個表情類別的混淆矩陣。

從圖7中可以看出，本文方法在中性、開心、生氣、悲傷這四類表情上識別率最高，其中在JAFFE和CK+數(shù)據(jù)集上中性的表情識別率達到100%，主要原因是JAFFE和CK+數(shù)據(jù)集中表情數(shù)據(jù)較為規(guī)范標準，中性類別的表情數(shù)量也最豐富。同樣的方法在JAFFE和CK+數(shù)據(jù)集上的表現(xiàn)要優(yōu)于FERPlus數(shù)據(jù)集，造成這種結果的原因是FERPlus數(shù)據(jù)集是一個從互聯(lián)網(wǎng)上收集的大規(guī)模數(shù)據(jù)集，它更加符合大規(guī)模真實世界環(huán)境下的表情數(shù)據(jù)集，在光照、頭部姿態(tài)以及面部遮擋等方面具有多樣性，這也從側面說明本文方法對光照等外界因素具有魯棒性。

為了進一步對FLF-TAWL中的三個模塊進行評估，本文設計了一項消融實驗，研究WCE-loss、自我注意力模塊和關系注意力模塊在三個數(shù)據(jù)集上的性能影響，結果如表5所示。對應表5中三個模塊有效性的評估結果，在圖8中展示了具體樣本案例的實驗結果。其中，最下方顯示圖片的原始標簽；樣本上的識別標簽中綠色代表識別正確，紅色代表識別錯誤（見電子版）。

表5中第一行為基礎模型，它使用傳統(tǒng)的softmax損失函數(shù)替換WCE-loss，并且去掉了所有注意力模塊，選取的具體樣本實驗結果對應圖8中的第一行。

對于這種訓練方案，在基礎模型上添加WCE-loss之后，在三個數(shù)據(jù)集上的識別精度都有所提升，這是因為該改進后的WCE-loss能很好地調(diào)整人臉特征的最大類內(nèi)距離小于最小類間距離。通過圖8第二行樣本案例可以看出進一步拉近了驚訝和開心類別之間的距離，這也是本文模型性能體現(xiàn)的原因之一。

當再在表5第二行的基礎上增加自我注意力模塊，表情識別結果相比第二行的精度在三個數(shù)據(jù)集上精度提升為0.27%、0.24%、0.47%。圖8中第三行實驗結果可以看出自我注意力模塊能夠明顯提高識別性能，這種提升得益于自我注意力模塊中粗略的權重值以及權重正則化帶來的效果增益。在表5第四行加上關系注意力權重模塊后，從圖8中第四行實驗結果可以看到，讓原本眉毛內(nèi)側和上眼皮有著相似動作的驚訝和恐懼表情也能夠正確區(qū)分開，使模型整體識別精度進一步提高，由此看出注意力機制對于分類準確率的提升有突出貢獻，同時也證明了三個模塊的有效性。

在同一數(shù)據(jù)集上將本文模型與其他的識別效果對比，如表6～8所示，可以看出，本文提出的FLF-TAWL模型在識別準確率上具有優(yōu)勢?；谏疃葘W習的方法（如Rest18+VGG16、Em-AlexNet和C-LetNet5）采用單分支結構來提取圖像特征，而本文方法通過增加一個分支來提取特征，從而更全面地表示表情。結果表明，局部特征提取的分支確實有利于表情分類。在JAFFE數(shù)據(jù)集上的實驗涉及到旋轉和噪聲等變化的圖像，但對比方法中大多是采用手工特征的方法，從實驗結果來看FLF-TAWL仍然可以正確地對大多數(shù)表達式進行分類，這說明了本文方法對表情圖像的微小變化具有一定的魯棒性。

另外對本文方法中的主干網(wǎng)絡采用除ResNet50之外的另一個經(jīng)典神經(jīng)網(wǎng)絡VGG16結構進行表情識別性能的對比驗證。結果表明，本文方法中使用網(wǎng)絡層數(shù)更深的ResNet50作為主干網(wǎng)絡提取特征能力加強，從而使得識別率有所提升。

實驗最后，本文在圖9中評估了分類損失WCE-loss與自注意力模塊中的排序正則化損失RR-loss之間不同比率γ對表情分類結果的影響。由圖9可以發(fā)現(xiàn)，對這兩個損失函數(shù)平均分配相等的權重可以獲得最佳分類結果。將RR-loss的權重從0.5增加到0.8，導致模型的識別性能顯著降低。

4 結束語

本文提出了一種新的面部表情識別網(wǎng)絡模型FLF-TAWL。首先，該模型由兩個獨立的CNN分支機構組成，其中一個分支用于整幅面部表情圖像特征提取，另一個分支對裁剪后的面部表情圖像塊進行局部特征提取。全局特征與局部特征的融合既豐富了面部表情特征又確保提取到的特征更具區(qū)分性。然后，在訓練階段提出了一種兩階段注意力權重計算策略，通過該注意力權重策略使得模型自動感知具有判別性的局部圖像子塊和抑制非重要的局部圖像子塊；將WCE-loss和RR-loss聯(lián)合優(yōu)化，加快了模型迅速收斂。最后，在三個公開的面部表情數(shù)據(jù)集上的大量實驗驗證了FLF-TAWL模型在提高識別精度、泛化能力的同時，也提高了識別算法的魯棒性，在三個數(shù)據(jù)集上的分類結果優(yōu)于其他許多有競爭力的工作。雖然本文的FLF-TAWL模型表現(xiàn)出了較好的性能，但仍存在一些不足，例如，本文的面部表情識別是基于靜態(tài)圖像的，而現(xiàn)實生活中的情感變化是有一定時間的，靜態(tài)圖像只能反映一個人在某個時間的表情狀態(tài)。接下來的工作將研究動態(tài)人臉表情識別，致力于設計出更加精準的用于動態(tài)面部表情識別的網(wǎng)絡模型。

參考文獻：

[1]彭小江，喬宇.面部表情分析進展和挑戰(zhàn)[J].中國圖象圖形學報，2020，25（11）：2337-2348.（Peng Xiaojiang，Qiao Yu.Advances and challenges in facial expression analysis[J].Journal of Image and Graphics，2020，25（11）：2337-2348）.

[2]Tang Yichuan.Deep learning using linear support vector machines[EB/OL].（2015-02-21）.https：//arxiv.org/pdf/1306.0239.pdf.

[3]Kahou S E，Pal C，Bouthillier X，et al.Combining modality specific deep neural networks for emotion recognition in video[C]//Proc of the 15th ACM on International Conference on Multimodal Interaction.New York：ACM Press，2013：543-550.

[4]Ding Hui，Zhou S K，Chellappa R.FaceNet2ExpNet：regularizing a deep face recognition net for expression recognition[C]//Proc of the 12th IEEE International Conference on Automatic Face amp; Gesture Recognition.Piscataway，NJ：IEEE Press，2017：118-126.

[5]Albanie S，Nagrani A，Vedaldi A，et al.Emotion recognition in speech using cross-modal transfer in the wild[C]//Proc of the 26th ACM International Conference on Multimedia.New York：ACM Press，2018：292-301.

[6]Yovel G，Duchaine B.Specialized face perception mechanisms extract both part and spacing information：evidence from developmental prosopagnosia[J].Journal of Cognitive Neuroscience，2006，18（4）：580-593.

[7]Majumder A，Behera L，Subramanian V K.Automatic facial expression recognition system using deep network-based data fusion[J].IEEE Trans on Cybernetics，2016，48（1）：103-114.

[8]姚麗莎，徐國明，趙鳳.基于卷積神經(jīng)網(wǎng)絡局部特征融合的人臉表情識別[J].激光與光電子學進展，2020，57（4）：041513.（Yao Lisha，Xu Guoming，Zhao Feng.Facial expression recognition based on local feature fusion of convolutional neural network[J].Laser amp; Optoelectronics Progress，2020，57（4）：041513.）

[9]Wang Kai，Peng Xiaojiang，Yang Jianfei，et al.Suppressing uncertainties for large-scale facial expression recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Pisca-taway，NJ：IEEE Press，2020：6897-6906.

[10]Xie Siyue，Hu Haifeng.Facial expression recognition using hierarchical features with deep comprehensive multipatches aggregation convolutional neural networks[J].IEEE Trans on Multimedia，2019，21（1）：211-220.

[11]Li Yong，Zeng Jiabei，Shan Shiguang，et al.Occlusion aware facial expression recognition using CNN with attention mechanism[J].IEEE Trans on Image Processing，2019，28（5）：2439-2450.

[12]Ben Xianye，Ren Yi，Zhang Junping，et al.Video-based facial micro-expression analysis：a survey of datasets，features and algorithms[J].IEEE Trans on Pattern Analysis and Machine Intelligence，2021，DOI：10.1109/TPAMI.2021.3067464.

[13]彭玉青，王緯華，劉璇，等.基于深度學習與Dense SIFT融合的人臉表情識別[J].中國科學技術大學學報，2019，49（2）：105-111.（Peng Yuqing，Wang Weihua，Liu Xuan，et al.Facial expression re-cognition based on fusion of deep learning and Dense SIFT[J].Journal of University of Science amp; Technology of China，2019，49（2）：105-111.）

[14]Sun Ning，Li Qi，Huan Ruizhi， et al.Deep spatial-temporal feature fusion for facial expression recognition in static images[J].Pattern Recognition Letters，2019，119（3）：49-61.

[15]Mnih V，Heess N，Graves A.Recurrent models of visual attention[C]//Proc of the 27th International Conference on Neural Information Processing Systems.Cambridge，MA：MIT Press，2014：2204-2212.

[16]Wang Jianfeng，Yuan Ye，Yu Gang.Face attention network：an effective face detector for the occluded faces[EB/OL].（2017-11-22）.https：//arxiv.org/abs/1711.07246.

[17]Yang Jiaolong，Ren Peiran，Zhang Dongqing，et al.Neural aggregation network for video face recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC：IEEE Computer Society，2017：5216-5225.

[18]Hu Wei，Huang Yangyu，Zhang Fan，et al.Noise-tolerant paradigm for training face recognition CNNs[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2019：11879-11888.

[19]Zhang Kaipeng，Tan Lianzhi，Li Zhifeng，et al.Gender and smile classification using deep convolutional neural networks[C] //Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC：IEEE Computer Society，2016：34-38.

[20]Sun Yi，Wang Xiaogang，Tang Xiaoou.Deep learning face representation from predicting 10 000 classes[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC：IEEE Computer Society，2014：1891-1898.

[21]Zhang Kaipeng，Zhang Zhanpeng，Li Zhifeng，et al.Joint face detection and alignment using multitask cascaded convolutional networks[J].IEEE Signal Processing Letters，2016，23（10）：1499-1503.

[22]楊旭，尚振宏.基于改進AlexNet的人臉表情識別[J].激光與光電子學進展，2020，57（14）：141026.（Yang Xu，Shang Zhenhong.Facial expression recognition based on improved AlexNet[J].Laser amp; Optoelectronics Progress，2020，57（14）：141026.）

[23]Li Hangyu，Wang Nannan，Ding Xinpeng，et al.Adaptively learning facial expression representation via CF labels and distillation[J].IEEE Trans on Image Processing，2021，30：2016-2028.

[24]Jiang Ping，Wan Bo，Wang Quan，et al.Fast and efficient facial expression recognition using a Gabor convolutional network[J].IEEE Signal Processing Letters，2020，27：1954-1958.

[25]王琳琳，劉敬浩，付曉梅.融合局部特征與深度置信網(wǎng)絡的人臉表情識別[J].激光與光電子學迚展，2018，55（1）：011002.（Wang Linlin，Liu Jinghao，F(xiàn)u Xiaomei.Facial expression recognition based on fusion of local features and deep belief network[J].Laser amp; Optoelectronics Progress，2018，55（1）：011002.）

[26]李勇，林小竹，蔣夢瑩.基于跨連接LeNet-5網(wǎng)絡的面部表情識別[J].自動化學報，2018，44（1）：176-182.（Li Yong，Lin Xiaozhu，Jiang Mengying.Facial expression recognition with cross-connect LeNet-5 network[J].Acta Automatica Sinica，2018，44（1）：176-182.）

[27]Khorrami P，Paine T，Huang T.Do deep neural networks learn facial action units when doing expression recognition？[C] //Proc of IEEE International Conference on Computer Vision.Washington DC：IEEE Computer Society，2015：19-27.

計算機應用研究2022年3期

計算機應用研究的其它文章: 下期要目; 點線融合雙目定位與建圖多維提升方法; 基于QBFM矩和三維結構的圖像哈希算法; 基于語義分割不確定性的特征點選擇算法; 基于可重疊混淆樹的卷積神經(jīng)網(wǎng)絡; 基于多級深度網(wǎng)絡架構的群體行為分析模型研究

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

融合局部特征與兩階段注意力權重學習的面部表情識別