鄭偉鵬,羅曉曙,蒙志明
(1.廣西師范大學(xué) 電子工程學(xué)院,廣西 桂林 541000;2.廣西師范大學(xué) 創(chuàng)新創(chuàng)業(yè)學(xué)院,廣西 桂林 541000)
面部表情是人類情緒的一種最直接的外部表現(xiàn),而賦予機器感知人類情緒的能力是實現(xiàn)人機交互的重要目標(biāo)之一。隨著人工智能的迅速發(fā)展,人臉表情的自動識別成為研究熱點。人臉表情識別(Facial Expression Recognition,F(xiàn)ER)的研究在心理學(xué)、疲勞駕駛檢測、課堂教學(xué)效果評價、智能醫(yī)療、公安測謊系統(tǒng)、車載安全系統(tǒng)等領(lǐng)域得到廣泛關(guān)注[1-2]。
近年來,隨著深度學(xué)習(xí)在計算機視覺和模式識別領(lǐng)域的廣泛應(yīng)用,F(xiàn)ER 取得了顯著的進展[3-4]。但是FER 不同于其他模式識別任務(wù),F(xiàn)ER 數(shù)據(jù)中的有用信息相對較少。FER 在背景簡單和人臉端正等實驗室環(huán)境下的準(zhǔn)確率相對較高。在自然環(huán)境下,受頭部姿態(tài)變化、遮擋、光照等因素以及不同個體對情感表達的影響,網(wǎng)絡(luò)在人臉表情的識別過程中會產(chǎn)生大量的冗余信息,導(dǎo)致FER 準(zhǔn)確率降低。為解決該問題,網(wǎng)絡(luò)架構(gòu)(如VGG[5]、AlexNet[6]、ResNet[7]等被作為基礎(chǔ)網(wǎng)絡(luò))廣泛應(yīng)用于FER,并對其進行優(yōu)化,以提高FER 的準(zhǔn)確率。例如,文獻[8]在VGG19的基礎(chǔ)上,通過優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù),并利用遷移學(xué)習(xí)技術(shù)克服訓(xùn)練樣本的不足,提高FER 的準(zhǔn)確率。文獻[9]將丟棄層引入到ResNet 網(wǎng)絡(luò)中,并移除softmax 層,通過對全連接層進行修改,減少網(wǎng)絡(luò)參數(shù)量,同時將SE 模塊添加到網(wǎng)絡(luò)中,以提高識別準(zhǔn)確率。文獻[10]提出一種結(jié)合殘差網(wǎng)絡(luò)與目標(biāo)掩膜的特征提取方法,通過3D ResNet 網(wǎng)絡(luò)對連續(xù)的微表情序列進行訓(xùn)練和識別。文獻[11]構(gòu)建基于域適應(yīng)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),以較少的參數(shù)量獲得較高的識別準(zhǔn)確率。文獻[12]引入深度可分離卷積以減少網(wǎng)絡(luò)參數(shù),嵌入壓縮網(wǎng)絡(luò)來學(xué)習(xí)網(wǎng)絡(luò)特征權(quán)重,并通過加入空間金字塔池化增強網(wǎng)絡(luò)的魯棒性。文獻[13]采用多層小尺度核卷積塊代替大卷積核,減少參數(shù)量,在相同感受野的條件下加深網(wǎng)絡(luò)并精簡網(wǎng)絡(luò)結(jié)構(gòu),利用softmax 分類器獲得表情分類結(jié)果,并對數(shù)據(jù)進行增強處理,提升網(wǎng)絡(luò)泛化能力并且減小識別誤差。同時,僅通過對基礎(chǔ)網(wǎng)絡(luò)的淺層設(shè)計修改難以充分地增強表情識別性能。因為在自然環(huán)境下的圖像質(zhì)量不一致,容易產(chǎn)生大量噪聲,而且表情間存在復(fù)雜的抑制共生問題,即不同表情間可能都會對嘴、眼睛、眉毛、鼻子有類似的動作,所以當(dāng)人臉存在部分遮擋的情況時,不同表情的類似動作會造成表情識別錯誤。文獻[14]通過重新標(biāo)記標(biāo)簽加權(quán)訓(xùn)練,增強對準(zhǔn)確率較低的噪聲、模糊、相似表情間的加權(quán)再學(xué)習(xí),并且增加額外噪聲數(shù)據(jù)集對網(wǎng)絡(luò)進行訓(xùn)練,增強網(wǎng)絡(luò)對噪聲數(shù)據(jù)的抗干擾能力。文獻[15]通過對輸入的Gabor 特征進行重新描述,并微調(diào)權(quán)重來細(xì)化訓(xùn)練過程中構(gòu)建的模型,通過對覆蓋部分的特征進行壓縮,在眼睛、嘴巴和下臉遮擋的情況下,獲得較高的表情分類準(zhǔn)確性。文獻[16]基于重建部分遮擋的面部表情數(shù)據(jù)庫,提出一個20 層的“VGG+殘差”卷積神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)對部分遮擋的表情具有較高的準(zhǔn)確度。文獻[17]通過關(guān)鍵點區(qū)域隨機將輸入表情圖像切分為若干個區(qū)域,通過卷積神經(jīng)網(wǎng)絡(luò)進行區(qū)域的特征提取,在自注意力模塊中采用全連接層和Sigmoid 函數(shù)將注意力權(quán)重分配到各個區(qū)域。通過上述分析,基礎(chǔ)網(wǎng)絡(luò)設(shè)計的方式存在特征表達瓶頸問題,同時,通過建立人臉表情局部和全局特征之間的有效聯(lián)系成為表情解析的關(guān)鍵。
本文提出一種基于改進輕量級秩擴展網(wǎng)絡(luò)(Rank Expansion Network,ReXNet)[18]的人臉表情識別方法。以ReXNet 網(wǎng)絡(luò)融合坐標(biāo)注意力機制[19]作為改進的基礎(chǔ)架構(gòu),將位置信息嵌入到通道注意力中。在第一次粗分類后引入細(xì)化模塊,從分類的角度提取全局上下文信息,從而獲得更精確的分類結(jié)果。
本文從基礎(chǔ)網(wǎng)絡(luò)的特征提取性能、計算量和復(fù)雜度角度,將坐標(biāo)注意力機制融合到網(wǎng)絡(luò)架構(gòu)中,以改進的輕量級秩擴展網(wǎng)絡(luò)(ReXNet)作為基礎(chǔ)網(wǎng)絡(luò)架構(gòu),引入細(xì)化模塊以優(yōu)化FER 模型。本文網(wǎng)絡(luò)架構(gòu)如圖1 所示。首先,將訓(xùn)練集中的人臉表情樣本作為模型的輸入,通過改進的主干網(wǎng)絡(luò)ReXNet 提取特征,從而獲得高層次的情感特征,在主干網(wǎng)絡(luò)之后增加一個坐標(biāo)注意力模塊,增強對表情特征的提取,以建立局部表情特征之間的長距離依賴關(guān)系;其次,將獲得的特征圖送入分類器中得到粗分類結(jié)果,為進一步改進ReXNet,引入細(xì)化模塊來修正粗分類結(jié)果中一些錯誤的樣本,細(xì)化模塊根據(jù)每種表情的粗分類結(jié)果計算不同類別的類中心和每種表情的注意力類別特征;最后,將注意力類別特征和原始特征圖相連接,以獲得最終人臉表情的精細(xì)分類。
圖1 本文網(wǎng)絡(luò)架構(gòu)Fig.1 Architecture of the proposed network
現(xiàn)有網(wǎng)絡(luò)通常采用按階段設(shè)計通道數(shù)的方式,同時在跨階段時進行分辨率下采樣、通道數(shù)倍增操作,在最終分類層之前將其通道數(shù)逐漸擴展到1 000以上。這種網(wǎng)絡(luò)架構(gòu)設(shè)計方案存在表達瓶頸的問題,因此,本文在表情識別過程中引入ReXNet,在網(wǎng)絡(luò)設(shè)計過程中采用通道數(shù)漸進遞增方式,同時引入Swish-1 激活函數(shù)。本文對大小為112×112×16 的淺層特征進行4 倍的卷積下采樣,隨后與高級語義特征相加并融合,增強對局部特征的關(guān)注。本文對網(wǎng)絡(luò)進行裁剪,將冗余的瓶頸層刪除,同時輸出的特征圖大小由原來的1 280 轉(zhuǎn)為185,參數(shù)量由6.8×104減少至5.8×104,達到更輕量化的效果。對于任意數(shù)據(jù)集,本文將人臉表情圖像統(tǒng)一設(shè)為224×224 像素,并將其輸入到網(wǎng)絡(luò)中。改進的ReXNet 網(wǎng)絡(luò)由卷積核為3×3、步長為2 的卷積層、兩層瓶頸卷積模塊(卷積層+正則化層+Swish-1 激活函數(shù)[13])、通道注意力模塊組成的瓶頸層、全局池化層、用于表情分類的全連接層組成。改進的ReXNet 網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。網(wǎng)絡(luò)依據(jù)下采樣以及漸進式的通道遞增規(guī)則逐步進行特征提取,最終輸出1×1×185 的特征圖,用于最后的表情分類。
圖2 改進的ReXNet 結(jié)構(gòu)Fig.2 Structure of improved ReXNet
坐標(biāo)注意力(Coordinate Attention,CA)[19]是利用精確的位置信息對通道關(guān)系和長期相關(guān)性進行編碼,形成一對方向感知和位置敏感的特征圖。特征圖能夠增強感興趣的目標(biāo)表示。一個CA 模塊可以看作一個用于增強特征表示能力的計算單元,它可以將中間張量X=[x1,x2,…,xc]∈RC×H×W作為輸入,并輸出一個具有同樣尺寸的增強表示能力Y=[y1,y2,…,yc]。CA模塊主要分為坐標(biāo)信息嵌入、坐標(biāo)注意力生成和輸入-輸出殘差連接3 個步驟。坐標(biāo)注意力模塊結(jié)構(gòu)如圖3所示。
圖3 坐標(biāo)注意力模塊結(jié)構(gòu)Fig.3 Structure of coordinate attention module
1.2.1 坐標(biāo)信息嵌入
坐標(biāo)信息嵌入將全局池化分解為兩個一維特征編碼,使得注意力模塊能夠捕獲具有精確位置信息的空間長期相關(guān)性。針對輸入X,坐標(biāo)信息嵌入使用尺寸(H,1)和(1,W)的池化核沿著水平坐標(biāo)方向和豎直坐標(biāo)方向?qū)γ總€通道進行編碼,因此,高度為h的第c個通道的輸出表述如式(1)所示:
同理,寬度為w的第c個通道輸出如式(2)所示:
式(1)和式(2)的變換是沿著2 個空間方向進行特征聚合,返回一對方向感知特征圖。這2 種變換使得注意力模塊捕捉到沿著1 個空間方向的長期相關(guān)性,并保存沿著另一個空間方向的精確位置信息,有助于網(wǎng)絡(luò)更準(zhǔn)確地定位感興趣的目標(biāo)。坐標(biāo)信息嵌入操作對應(yīng)圖3 中X軸平均池化層和Y軸平均池化層。
1.2.2 坐標(biāo)注意力生成與輸入-輸出殘差連接
為充分利用坐標(biāo)信息嵌入模塊的全局感受野和精確位置信息的表示,坐標(biāo)注意力模塊首先級聯(lián)坐標(biāo)信息嵌入模塊生成的兩個特征圖,然后使用一個共享的1×1 卷積進行變換F1,如式(3)所示:
其中:[,]為特征向量沿空間維度的拼接運算;δ為非線性激活函數(shù);生成的f∈RC/r×(H+W)為空間信息在水平方向和豎直方向的中間特征圖,r為下采樣比例,用于控制模塊的大小。坐標(biāo)注意力模塊沿著空間維度將f分為兩個單獨的張量f1∈RC/r×H和f2∈RC/r×W,再利用兩 個1×1 卷積Fh和Fw將特征圖fh和fw變換為與輸入X相同的通道數(shù),得到結(jié)果如式(4)和式(5)所示:
其中:σ為Sigmoid 函數(shù)。注意力坐標(biāo)機制對fh和fw進行拓展,并作為注意力權(quán)重,通過輸入-輸出殘差連接操作得到CA 模塊的最終輸出結(jié)果,如式(6)所示:
CA 模塊同時關(guān)注了水平方向和豎直方向的注意力,同時將輸入與注意力輸出相加形成殘差學(xué)習(xí)方式,防止梯度消失,同時增強模塊的學(xué)習(xí)能力。
坐標(biāo)注意力機制簡單靈活且高效,通過2D 全局池化計算通道注意力,在較低的計算成本下提高網(wǎng)絡(luò)性能,將改進的注意力機制加入到輕量級的ReXNet 網(wǎng)絡(luò)中,使網(wǎng)絡(luò)更加專注于人臉有效特征的提取。
細(xì)化模塊又稱注意力類特征(Attention Class Feature,ACF)模塊。由于在實際應(yīng)用過程中人臉表情特征間具有共享特性,即不同類別的特征差異性不明顯,因此本文通過上下文信息與粗分類進行特征細(xì)化操作,從而增強人臉表情的精細(xì)化分類。細(xì)化模塊是根據(jù)人臉表情特征計算并自適應(yīng)地感知整個樣本的不同類別中心,并通過特征聚合來提高識別準(zhǔn)確率。細(xì)化模塊分為類中心模塊和類別細(xì)化模塊。
類中心模塊用于描述每個訓(xùn)練批次樣本中每個類別的全局性表征,每個標(biāo)簽類的類中心都聚合該類別表情樣本的所有特征。類中心模塊利用類別上下文信息計算每個類的類中心。類中心模塊結(jié)構(gòu)如圖4 所示。
圖4 類中心模塊結(jié)構(gòu)Fig.4 Structure of class center module
本文給定表情粗分類結(jié)果Pcoarse∈RN×E和特征圖F∈RB×C,其中,B是表情樣本數(shù)量,N是類別數(shù),C是通道數(shù)。本文通過全連接層對特征圖F進行通道縮減操作,將通道數(shù)量縮減到C',將Pcoarse維度重塑得到Pcoarse∈RN×E,之后進行矩陣乘法和歸一化,計算得到類中心Fclass∈RN×C。每個類別的類中心都表達了該類別的全局信息,在訓(xùn)練時有助于模型學(xué)習(xí)到每個類別中具有鑒別力的特征,從而糾正之前被錯分的人臉表情類別。
類別細(xì)化模塊將粗分類結(jié)果作為類中心特征圖的注意力并計算類別細(xì)化特征。如果粗分類將表情圖片錯誤分類,粗分類需要更加關(guān)注那個錯誤的類別,以檢查特征是否具有一致性。類別細(xì)化模塊如圖5 所示。
圖5 類別細(xì)化模塊結(jié)構(gòu)Fig.5 Structure of class refine module
本文給定類中心Fclass∈RN×C和粗分類結(jié)果Pcoarse∈RN×E,對Fclass和Pcoarse轉(zhuǎn)置進行矩陣乘法,計算每張圖片的類別細(xì)化特征Fa。圖片j的類別細(xì)化特征計算如式(7)所示:
本文實驗是一個多分類的問題,常用的損失函數(shù)主要有0~1 損失函數(shù)、均方誤差損失函數(shù)和交叉熵?fù)p失函數(shù)。0~1 損失函數(shù)雖然可以用于度量誤分類問題,但是該函數(shù)曲線是非凸的,呈現(xiàn)階躍和間斷現(xiàn)象,在求最優(yōu)解時過于復(fù)雜。均方誤差損失函數(shù)通過求解數(shù)據(jù)間最小距離的平方獲得最優(yōu)解,常用于最小二乘法中。當(dāng)應(yīng)用于深度學(xué)習(xí)訓(xùn)練時,均方誤差損失函數(shù)使多個訓(xùn)練點到最佳直線的距離最小化。當(dāng)均方誤差損失函數(shù)與Sigmoid 激活函數(shù)一起使用時,輸出層神經(jīng)元的學(xué)習(xí)速率減慢。交叉熵?fù)p失函數(shù)是對數(shù)函數(shù),曲線呈單調(diào)性趨勢,使梯度隨損失函數(shù)單向變化,有利于梯度下降反向傳播,從而更好地更新每一層的參數(shù),以縮短預(yù)測值和實際值之間的距離。因此,本文采用的損失函數(shù)為交叉熵?fù)p失函數(shù)。交叉熵?fù)p失函數(shù)預(yù)測分布離真實值越遠(yuǎn),交叉熵?fù)p失越大,預(yù)測分布越接近真實值,交叉熵?fù)p失越小,其得到分類結(jié)果越準(zhǔn)確。具體的表達如式(8)所示:
其中:yn為真實值;pn為預(yù)測值;N為類別個數(shù)。
本文采用RAF-DB 數(shù)據(jù)集[20]和FERPlus 數(shù)據(jù)集[21]。RAF-DB 數(shù)據(jù)集提供了經(jīng)由40 人標(biāo)注的29 672 類表情圖片,這些圖片包含7 類基本表情類別的子集和11 類復(fù)合表情類別的子集。本文利用其中6 種基本表情和中性表情的圖片,共有15 339 張,將其中12 271 張圖片作為訓(xùn)練集,另外3 068 張圖片作為測試集。FERPlus 數(shù)據(jù)庫是對FER2013 數(shù)據(jù)庫的擴展,并對其重新標(biāo)簽,由28 709 張訓(xùn)練圖片、3 589 張驗證圖片和3 589 張測試圖片組成,該數(shù)據(jù)集有7 種標(biāo)記的表情。
本文實驗環(huán)境是在Ubuntu16.04 系統(tǒng)下使用Intel?UHD Graphics 630 GPU 運 行,以Pytorch 作 為基礎(chǔ)學(xué)習(xí)框架來編寫程序,在SCN 網(wǎng)絡(luò)的源代碼基礎(chǔ)上搭建本文模型。本文根據(jù)圖1 所示的網(wǎng)絡(luò)框架對整體網(wǎng)絡(luò)進行建模和相關(guān)庫的優(yōu)化,在訓(xùn)練過程中使用隨機Adam 優(yōu)化交叉熵?fù)p失,初始學(xué)習(xí)率設(shè)置為0.01,在FERPlus 和RAF-DB 數(shù)據(jù)集中總批次均設(shè)置為100 次。
RAF-DB 和FERPlus 數(shù)據(jù)集有不同的制作標(biāo)準(zhǔn)。RAF-DB 數(shù)據(jù)集為研究者提供了裁剪好的人臉圖片,而FERPlus 數(shù)據(jù)集僅提供48×48 的灰度值矩陣。本文實驗的所有圖片都是通過人臉對齊算法檢測,并調(diào)整到224×224 像素。
2.3.1 與現(xiàn)有方法對比
本文將原始ReXNet、VGG16、VGG19、ResNet18、ResNet34 和ResNet50 主干網(wǎng)絡(luò)與改進ReXNet 網(wǎng)絡(luò)進行對比,在RAF-DB 數(shù)據(jù)集上訓(xùn)練和測試不同網(wǎng)絡(luò)的性能。網(wǎng)絡(luò)的輸入圖片尺寸均為224×224 像素。在RAF-DB 數(shù)據(jù)集上不同主干網(wǎng)絡(luò)的準(zhǔn)確率對比如表1 所示。
表1 不同主干網(wǎng)絡(luò)的準(zhǔn)確率對比Table 1 Accuracy comparison among different backbone networks
從表1 可以看出,相對于VGG 和ResNet 系列網(wǎng)絡(luò),ReXNet 網(wǎng)絡(luò)以少量的參數(shù)能夠達到更高的人臉表情識別率,同時改進ReXNet 網(wǎng)絡(luò)較原始的ReXNet 網(wǎng)絡(luò)能夠更好地適應(yīng)表情識別任務(wù),表明改進后的ReXNet 網(wǎng)絡(luò)具有更少的參數(shù)量和較低的計算復(fù)雜度。相比其他主干網(wǎng)絡(luò),改進的ReXNet 作為特征提取器更合適,并具有較優(yōu)的識別精度。
在RAF-DB 數(shù)據(jù)集上,使用改進ReXNet 網(wǎng)絡(luò)的表情識別方法與DLP-CNN[22]、gACNN[23]、RAN[24]、SCN[25]方法的準(zhǔn)確率對比如表2所示。從表2可以看出,本文方法的FER 準(zhǔn)確率達到88.43%。因此,本文方法優(yōu)于這些最新的方法。說明本文提出的改進網(wǎng)絡(luò)在RAF-DB 數(shù)據(jù)集上能夠有效改進FER 識別效果。
表2 在RAF-DB 數(shù)據(jù)集上不同方法的人臉表情識別準(zhǔn)確率對比Table 2 Accuracy of facial expression recognition comparison among different methods on RAF-DB dataset %
在FERPlus 數(shù)據(jù)集上,本文方法與目前主流方法VGG16-PLD[26]、SHCNN[27]、ResNet+VGG[28]、RAN[24]進行準(zhǔn)確率對比,結(jié)果如表3 所示。從表3 可以看出,本文方法的FER 準(zhǔn)確率達到88.80%。與現(xiàn)有主流方法相比,本文方法具有較優(yōu)的泛化能力,并且對人臉表情的識別具有更高的準(zhǔn)確率。
表3 在FERPlus 數(shù)據(jù)集上不同方法的人臉表情識別準(zhǔn)確率對比Table 3 Accuracy of facial expression recognition comparison among different methods on FERPlus dataset %
2.3.2 注意力圖可視化
為進一步驗證改進ReXNet 網(wǎng)絡(luò)的有效性,本文采用加權(quán)梯度類激活映射(Gradient-weighted Class Activation Mapping,Grad-CAM)[29]方法獲得網(wǎng)絡(luò)模型的分類結(jié)果,使模型更關(guān)注人臉圖像區(qū)域的表情特征。Grad-CAM 方法使得任何目標(biāo)特征經(jīng)過最后一個卷積層后生成大致的局部特征圖,凸顯出圖像中對表情預(yù)測分類重要的區(qū)域。本節(jié)在RAF-DB 數(shù)據(jù)集上利用Grad-CAM 方法生成可視化注意力熱圖。部分測試圖像的可視化注意力熱圖如圖6 所示(彩色效果見《計算機工程》官網(wǎng)HTML 版)。
圖6 部分測試圖像的可視化注意力熱圖Fig.6 Visual attention heat map of some test images
從圖6 可以看出,對于各類基本表情,熱力圖紅色區(qū)域基本集中在人臉的眼睛、眉毛和嘴巴等周圍的關(guān)鍵區(qū)域。通過Grad-CAM 方法對測試圖像中驚訝表情預(yù)測的概率分別為0.895 4 和0.994 2(第一行和第二行),對恐懼表情預(yù)測的概率分別為1.000 0和0.985 4(第一行和第二行),對厭惡表情預(yù)測的概率分別為0.825 1 和0.984 7(第一行和第二行),對開心表情預(yù)測的概率分別為0.995 1 和0.825 1(第一行和第二行),對傷心表情預(yù)測的概率分別為1.000 0和0.912 5(第一行和第二行),對生氣表情預(yù)測的概率分別均為1.000 0(第一行和第二行),對中性表情預(yù)測的概率分別為1.000 0 和0.857 8(第一行和第二行)。本文方法能夠有效地挖掘表情局部和全局信息之間的關(guān)系,降低表情間共享特征的影響,使表情學(xué)習(xí)到區(qū)分性更明顯的人臉表情特征。
2.3.3 魯棒性對比
在人臉表情識別的相關(guān)研究中,最終的識別效果往往受諸多因素的干擾,特別是人臉中的遮擋因素。本文從RAF-DB 數(shù)據(jù)集中挑選具有遮擋的圖像,構(gòu)建帶有遮擋的遮擋RAF-DB 測試子集,測試本文方法對遮擋條件下表情識別的魯棒性。在RAF-DB 數(shù)據(jù)集和遮擋RAF-DB 數(shù)據(jù)集上,原始方法(ReXNet 網(wǎng)絡(luò))和本文方法的人臉表情識別準(zhǔn)確率對比如表4 所示。從表4 可以看出,在遮擋RAF-DB數(shù)據(jù)集上本文方法對于遮擋的表情識別具有較優(yōu)的魯棒性。
表4 在不同數(shù)據(jù)集上不同方法的人臉表情識別準(zhǔn)確率對比Table 4 Accuracy of facial expression recognition comparison among different methods on different datasets %
2.3.4 消融實驗
為進一步驗證坐標(biāo)注意力模塊和細(xì)化模塊的有效性,以改進的ReXNet 為基礎(chǔ)架構(gòu),本文在RAF-DB 和FERPlus 數(shù)據(jù)集上進行消融實驗。消融實驗結(jié)果如表5 所示。改進的ReXNet 網(wǎng)絡(luò)融合坐標(biāo)注意力機制CA 和細(xì)化模塊ACF 后,準(zhǔn)確率均有一定的提升。在RAF-DB 和FERPlus 數(shù)據(jù)集上加入CA 和ACF 模塊后整體網(wǎng)絡(luò)的FER 準(zhǔn)確率比基礎(chǔ)網(wǎng)絡(luò)(沒有坐標(biāo)注意力機制CA 和細(xì)化模塊ACF)分別提高了0.93 和0.8 個百分點。這說明坐標(biāo)注意力有助于模型更精準(zhǔn)地定位和識別感興趣的目標(biāo),從而提高有效特征的提取能力,同時說明細(xì)化模塊在一定程度上解決不同人臉表情類別間的差異性問題,通過上下文信息與粗分類進行特征細(xì)化操作,增強模型對人臉表情的精細(xì)化分類。因此,注意力機制和細(xì)化模塊能夠有效提高網(wǎng)絡(luò)性能,具有較優(yōu)的特征提取和模型優(yōu)化性能,提高表情識別的準(zhǔn)確率。
表5 消融實驗結(jié)果Table 5 Ablation experimental results %
2.3.5 特征可視化結(jié)果
本文采用t-SNE[30]對2D 空間上可視化基線方法(僅采用ReXNet 網(wǎng)絡(luò))和改進ReXNet 網(wǎng)絡(luò)進行特征提取。提取表達特征的可視化結(jié)果如圖7 所示(彩色效果見《計算機工程》官網(wǎng)HTML 版)。對于不同的面部表情,基線方法提取的表情特征難以區(qū)分,本文方法提取的特征可以有效地減少類內(nèi)差異,增強不同表情的類間可分性。因此,本文方法對恐懼與驚訝、厭惡與悲傷表情之間的分類更為明顯。
圖7 提取表達特征的可視化結(jié)果Fig.7 Visualization results of extracted expression features
本文提出一種基于改進輕量級秩擴展網(wǎng)絡(luò)的人臉表情識別方法。將改進的ReXNet 作為基礎(chǔ)架構(gòu),同時融合坐標(biāo)注意力模塊,增強表情局部特征的表達能力,從而減少計算開銷。在此基礎(chǔ)上,將細(xì)化模塊引入到改進的網(wǎng)絡(luò)架構(gòu)中,從分類的角度提取全局上下文信息,結(jié)合粗分類結(jié)果對表情間的關(guān)系進行細(xì)化分析,改進類間分化效果,從而提高模型的表情分類能力。在RAF-DB 和FERPlus 數(shù)據(jù)集上的實驗結(jié)果表明,與DLP-CNN、gACNN、RAN等方法相比,本文方法能夠有效挖掘表情局部與全局信息之間的關(guān)系,具有較高的人臉表情識別準(zhǔn)確率。后續(xù)將在GPU、CPU 等通用計算平臺上通過模型壓縮算法減少模型參數(shù)量,以滿足實際部署中低功耗、高性能的需求,使模型適用于更加復(fù)雜的應(yīng)用場景中。