亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合關(guān)鍵點屬性與注意力表征的人臉表情識別

        2023-02-14 10:31:16高紅霞
        計算機工程與應(yīng)用 2023年3期
        關(guān)鍵詞:關(guān)鍵點人臉注意力

        高紅霞,郜 偉

        1.河南工程學院 軟件學院,鄭州 451191

        2.信息工程大學 理學院,鄭州 450001

        人臉表情作為展現(xiàn)情緒變化的媒介,時刻反映人類的內(nèi)心活動以及心理狀態(tài)。不同的情緒狀態(tài)會產(chǎn)生差異化的行為和認知改變,因此,在智慧醫(yī)療、學生行為分析、駕駛員情緒監(jiān)測等領(lǐng)域,人臉表情識別成為研究的熱點[1]。Ekman[2]描述六種基本表情類型:憤怒、快樂、悲傷、驚訝、厭惡和恐懼,這些表情通常由面部肌肉的細微運動所引起,造成圖像中不同類型之間差異不明顯。此外,在表情圖像采集中,由于光照、角度、表情強度等變化,使得人臉表情識別充滿挑戰(zhàn)[3]。

        傳統(tǒng)的人臉表情識別方法采用手動設(shè)計特征結(jié)合分類器實現(xiàn)整個識別過程,其性能主要依賴特征表達的有效性。局部二值模式(local binary pattern,LBP)、Gabor小波、SIFT、SURF等特征及其變體[4-5]由于其良好的表征性能,在早期得到了廣泛的應(yīng)用。張哲源等[6]提出一種結(jié)合分塊LBP特征與投影字典對學習的表情識別方法。Revina等[7]在LBP的基礎(chǔ)上提出顯性梯度局部三元模式(DGLTP)特征。Shi等[8]提出了一種特征點約束算法來確定點的最優(yōu)位置,以有效地表示變化區(qū)域,并利用SIFT描述子提取區(qū)域梯度信息作為特征參數(shù)進行識別。Meng等[9]通過融合局部Gabor特征、LBP特征和關(guān)節(jié)幾何特征,提出一種基于變換多級特征融合和改進加權(quán)支持向量機的表情識別方法。雖然這些方法在實驗室數(shù)據(jù)集上性能良好,但在實際復雜場景下,性能往往急劇惡化。

        近年來,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)在自然圖像處理領(lǐng)域展現(xiàn)出強大的活力,研究者開始熱衷于利用CNN強大的非線性映射能力抽取更深層次、更抽象的語義表征來實現(xiàn)魯棒的人臉表情識別[10-11]。Lu等[12]采用18層殘差網(wǎng)絡(luò)提取深層特征,同時利用CLBP提取紋理特征,并將兩者融合后輸入網(wǎng)絡(luò)進行識別。Shi等[13]在ResNet基礎(chǔ)上引入樹形結(jié)構(gòu)構(gòu)建網(wǎng)絡(luò),提出一種多分支交叉連接卷積神經(jīng)網(wǎng)絡(luò)(MBCCCNN)的人臉表情識別方法。崔子越等[14]通過對預訓練的VGG模型進行微調(diào),并在損失函數(shù)中加入FocalLoss進一步提升模型的識別性能。梁華剛等[15]將Inception-V3作為骨干網(wǎng),通過加入雙向LSTM模塊捕獲表情的時序特征。上述方法通過將整張人臉圖像輸入到不同的網(wǎng)絡(luò),獲得最終的表情類別。然而,人臉表情變化非常細微,人臉圖像中包含大量非表情的背景信息,導致網(wǎng)絡(luò)很難關(guān)注到人臉圖像中的細微表情變化,降低識別的精準度。

        為了減小人臉中非表情區(qū)域?qū)ι窠?jīng)網(wǎng)絡(luò)識別造成的干擾,研究人員根據(jù)圖像處理中抑制背景噪聲影響的原則,提出了一些新的消除背景干擾的人臉表情識別方法。Li等[16]對人臉圖片檢測后進行感興趣區(qū)域裁剪,并利用CNN網(wǎng)絡(luò)對裁剪后的區(qū)域?qū)崿F(xiàn)表情分類。錢勇生等[17]提出在網(wǎng)絡(luò)中輸入多視角人臉表情圖像,并在殘差網(wǎng)絡(luò)基礎(chǔ)上嵌入壓縮和獎懲模塊提高網(wǎng)絡(luò)表達能力。姜月武等[11]通過人臉關(guān)鍵點獲取最大表情范圍以消除非表情區(qū)的干擾,將裁剪后的圖像輸入到帶權(quán)重分配機制的殘差網(wǎng)絡(luò)中,引導網(wǎng)絡(luò)學習具有強鑒別力的特征。上述方法通過裁剪人臉的感興趣區(qū)域,從而減小人臉圖像中非表情區(qū)域的干擾,但裁剪后的圖像只包含人臉的局部信息,缺失全局特征。此外,類間差異微小的表情,如:生氣、傷心、郁悶等,表情變化多表現(xiàn)為“眉頭緊鎖、嘴角下拉、臉頰微抬”,其信息差異主要集中在局部關(guān)鍵點區(qū)域。這種細微的改變在整張人臉圖像網(wǎng)絡(luò)上難以學習,但是關(guān)鍵點位置包含的信息會發(fā)生較大改變(如生氣時嘴角關(guān)鍵點下移)。因此,引導網(wǎng)絡(luò)關(guān)注這些關(guān)鍵點的屬性信息將對模型識別率的提升至關(guān)重要。

        為了減小人臉非表情干擾,從而捕獲局部表情的細微變化,本文提出一種融合關(guān)鍵點屬性與注意力表征的人臉表情識別方法,主要貢獻為兩個方面:

        (1)關(guān)鍵點屬性表征機制。通過神經(jīng)網(wǎng)絡(luò)提取人臉圖像中的關(guān)鍵點信息,利用關(guān)鍵點屬性而不是圖像全局信息表征人臉表情變化,不僅能夠有效避免非表情區(qū)域的干擾,而且還可以關(guān)注圖像中局部位置的細微變化。

        (2)基于注意力的特征融合機制。在獲得人臉關(guān)鍵點屬性的基礎(chǔ)上,為了進一步探索關(guān)鍵點之間的關(guān)系,引入Transformer的注意力機制,引導網(wǎng)絡(luò)學習對人臉表情類型更具分辨力的特征表示。最后,在CK+、JAFFE、FER2013三種公開數(shù)據(jù)集上進行實驗驗證,最高達到99.22%的識別準確率。

        1 融合關(guān)鍵點屬性與注意力表征的識別模型

        本文提出的表情識別模型主要包括兩個模塊,其中基于注意力的人臉關(guān)鍵點屬性表征模塊主要抽取具有表情的區(qū)分性的特征,而基于Transformer的特征融合機制則是探索不同特征點屬性之間的相關(guān)關(guān)系,網(wǎng)絡(luò)結(jié)構(gòu)圖如圖1所示。

        圖1 本文算法框架圖Fig.1 Overview of proposed framework

        1.1 混合注意力模塊

        傳統(tǒng)人臉識別方法直接將整張人臉圖像輸入網(wǎng)絡(luò)中推理,進行表情狀態(tài)的預測。這些方法容易受人臉圖像中非表情區(qū)域的干擾,很難獲得最佳的識別結(jié)果[14-15]。因此,本文提出一種基于注意力的人臉關(guān)鍵點屬性表征的特征描述符,通過利用卷積神經(jīng)網(wǎng)絡(luò)回歸獲得人臉中的關(guān)鍵點以及對應(yīng)的關(guān)鍵點特征向量,然后將其通過Transformer模塊編碼,進而進行表情狀態(tài)的識別。

        注意力機制作為一種模擬人的認知行為所提出的理論,在圖像處理方面展現(xiàn)出優(yōu)異的性能,因而在人臉表情識別領(lǐng)域也受到眾多研究者的應(yīng)用。亢潔等[18]在網(wǎng)絡(luò)中引入注意力模塊,結(jié)合遷移學習策略進行表情識別,但是其注意力模塊只包含通道注意力,忽略了空間位置關(guān)系。程換新等[19]將通過LBP算子與VGG網(wǎng)絡(luò)提取的特征在通道上通過注意力模塊進行融合,同樣缺失圖像像素的空間關(guān)系。

        綜上所述,可以看出注意力機制已經(jīng)取得了優(yōu)異的性能,對本文工作有極大的借鑒參考價值。因此,本文在計算人臉關(guān)鍵點過程中,應(yīng)用通道和空間的混合注意力模塊進一步豐富骨干網(wǎng)的結(jié)構(gòu),提升其性能。

        主要原因有兩點:其一,在CNN逐層運算中往往會產(chǎn)生較高的通道數(shù),導致通道間的信息冗余,以至于出現(xiàn)過擬合問題。其二,在關(guān)鍵點檢測中,圖像的不同位置應(yīng)該具有不同的重要性,網(wǎng)絡(luò)在關(guān)鍵點區(qū)域應(yīng)該加強關(guān)注,但是卷積核對它們的處理卻是相同的。為了解決上述問題,本文引入自適應(yīng)學習通道和空間關(guān)系的注意力網(wǎng)絡(luò)結(jié)構(gòu)。

        通道注意力:在CNN網(wǎng)絡(luò)的逐層運算過程中,通道數(shù)會有所增加,而每個通道對于關(guān)鍵信息的貢獻是不同的,因此當通道數(shù)過多時,會產(chǎn)生信息冗余。為了解決這一問題,本文采用通道注意力模塊,通過利用不同的池化策略壓縮輸入特征的空間維度,進行通道計算。

        此前研究多偏向于采用平均池化作為壓縮和激勵的模塊,而僅使用全局平均池化操作不足以區(qū)分人臉屬性。而最大值池化則只取覆蓋區(qū)域中的最大值來保持特征圖的最大響應(yīng)值?;诖?,本文采用將全局平均池化和最大池化相結(jié)合的策略,通過交叉矩陣乘法獲得注意力掩模的通道注意力矩陣,如圖2所示。

        圖2 通道注意力模塊Fig.2 Channel attention module

        首先將輸入特征FI∈RC×H×W饋送至通道注意力塊,對FI沿空間軸進行并行的全局平均池和最大值池化操作,得到C×1×1維的特征向量和,然后通過對和逐元素求和得到具有特征聚合特性的,使用1×1的卷積處理,再執(zhí)行PReLU和BatchNorm操作,得到中間的特征圖,故有:

        其中,∈RC×1×1;⊕表示逐元素求和;?表示卷積運算。去掉的冗余維度,并對其進行轉(zhuǎn)置,得到尺寸分別為C×1和1×C的特征圖,將這兩個特征圖相乘再通過softmax運算得到最終的通道注意力矩陣attc。

        其中,?表示矩陣乘法,可得到下式:

        其中,attc∈RC×C是二維矩陣;attci,j為在輸入特征映射中第i個通道對第j個通道的影響。最后,將輸入特征FI與通道注意力矩陣attc相乘,經(jīng)過殘差學習得到通道精細后的特征FC∈RC×H×W。

        其中,⊕表示元素求和;?表示矩陣相乘;α是可學習的參數(shù),一般初始值設(shè)為0,以降低前幾個訓練周期收斂過程的難度。通道注意力矩陣attc可被看作是一個選擇器,可篩選出能夠捕獲人臉特征的最佳濾波器。

        空間注意力:在人臉中,五官的位置是具有一定空間關(guān)系的,即圖像的不同位置具有不同的重要性,而卷積核對它們的處理卻是相同的。為了解決該問題,學習特征圖中存在的空間結(jié)構(gòu)之間的關(guān)系,本文在通道注意力模塊的基礎(chǔ)上,提出了一個空間注意力模塊。將空間注意力模塊與通道注意力模塊相結(jié)合,可以同時獲得重要的通道特征及特征之間的空間關(guān)系,從而使得最終得到的特征圖更精細化,如圖3所示。

        圖3 空間注意力模塊Fig.3 Spatial attention module

        首先將輸入的通道細化特征FC∈RC×H×W饋送至空間注意力模塊,對FC沿通道軸并行采取全局平均池化和最大池化操作,分別得到尺寸均為1×H×W的特征向量和,采用通道級聯(lián)的方式合并和構(gòu)成聚合特征∈R2×H×W。然后使用3×3卷積作用于,卷積步長和填充值均設(shè)為1,之后再進行PReLU和BatchNorm運算得到中間特征圖。在卷積過程中對步長和填充值的設(shè)置可以保證特征圖的大小不變,于是有:

        其中,∈R1×H×W;?表示卷積運算。對Fpsool進行維度變換,將其維度轉(zhuǎn)換為HW×1,再進行轉(zhuǎn)置得到1×HW的特征圖,對二者執(zhí)行矩陣乘法和softmax運算,得到空間注意矩陣atts。

        其中,?表示矩陣乘法,可得到下式:

        其中,atts∈RHW×HW是二維矩陣;attsi,j表示第i個空間位置對第j個空間位置的影響。最后,將通道細化特征FC與空間注意力矩陣atts相乘,再經(jīng)過殘差學習得到空間精細后的特征FS∈RC×H×W。

        其中,⊕表示元素求和;?表示矩陣相乘;β是可學習的參數(shù),一般初始值設(shè)為0,以降低前幾個訓練周期收斂過程的難度。這樣空間注意力矩陣atts就可被看作是一個位置掩膜,可以細化通道特征的空間信息,使得特征圖能夠獲取到人臉中具有空間關(guān)系的重要特征。

        1.2 基于注意力的人臉關(guān)鍵點屬性表征

        在殘差網(wǎng)絡(luò)的基礎(chǔ)上,將通道注意力和空間注意力模塊附加到每個殘差塊之后,為了直觀地理解繪制了基于注意力機制的神經(jīng)網(wǎng)絡(luò)(CS-ResNet)的殘差結(jié)構(gòu)如圖4所示。

        圖4 ResNet與CS-AttNet的對比Fig.4 Comparison between ResNet and CS-AttNet

        給定中間特征圖X,網(wǎng)絡(luò)首先生成一個通道注意力矩陣,并通過矩陣乘法得到加權(quán)特征,然后經(jīng)過逐元素求和得到通道細化特征。按順序,使用類似的方式得到空間細化特征。此外,批量歸一化是一種被廣泛應(yīng)用的穩(wěn)定訓練的技術(shù),同樣采用它加快收斂過程。最后通過殘差連接快速學習細化后的特征XR。

        通過構(gòu)建的CS-AttNet網(wǎng)絡(luò),在獲得人臉關(guān)鍵點位置的同時為每個點抽取對應(yīng)的特征表示,文中關(guān)鍵點數(shù)量設(shè)為kp=68,特征維度dim=512,如圖5所示。

        圖5 關(guān)鍵點屬性表征示圖Fig.5 Keypoints-attributes diagram

        經(jīng)過網(wǎng)絡(luò)訓練,輸出端不僅可以獲取每個點的位置坐標,也可得到對應(yīng)點的特征屬性,這樣為使用Transformer模塊去融合關(guān)鍵點之間的相關(guān)特征聯(lián)系奠定基礎(chǔ)。

        1.3 基于Transformer的人臉表情識別模型

        Transformer作為一種自注意力機制,在NLP任務(wù)中被首次提出即獲得巨大的關(guān)注,因其能在所有實體對之間執(zhí)行信息交換,這種特有的機制及其出色的性能,最近被廣泛應(yīng)用到各種計算機視覺任務(wù)中,并且在各自研究領(lǐng)域取得了最好的性能結(jié)果[20-21]。

        1.3.1 Transformer網(wǎng)絡(luò)框架

        標準Transformer的輸入是一維的詞嵌入向量,通過獲取網(wǎng)絡(luò)全連接層512維的向量,參照ViT中的參數(shù)設(shè)置[19],利用可訓練的線性投影變換將原始特征映射為768維的向量,文中將此投影的輸出稱為Embedded-Keypoints。Transformer層由Multi-Head Attention和Multi-Layer Perception(MLP)塊的層組成。在每個塊之前應(yīng)用層歸一化(Norm),在每個塊之后使用殘差連接。圖6顯示了Transformer網(wǎng)絡(luò)框架的主要結(jié)構(gòu),通過使用CS-AttNet模型從原始圖像中提取關(guān)鍵點特征表示。

        圖6 基于Transformer的表情識別框架Fig.6 Expression recognition framework via Transformer module

        位置編碼模塊采用不同頻率的正余弦函數(shù)對空間信息進行編碼。網(wǎng)絡(luò)將特征向量映射后,利用位置編碼補充它們,并將其輸入到12層的Transformer Layer中,文中所述的各層結(jié)構(gòu)相同,包括Multi-Head為8的自注意模塊和MLP模塊。最后,將網(wǎng)絡(luò)的輸出與金標準進行對比,計算交叉熵損失。

        1.3.2 位置編碼

        Transformer和傳統(tǒng)CNN不同,需要位置編碼結(jié)構(gòu)來編碼每個詞向量的位置信息,因為self-attention的結(jié)果具有排列不變性,即打亂關(guān)鍵點序列中點的排列順序并不會改變輸出結(jié)果。如果缺少關(guān)鍵點的位置信息,模型就額外需要通過點與點之間的語義信息來學習相關(guān)聯(lián)系,就會進一步增加學習成本。

        為了更好區(qū)分不同位置的關(guān)鍵點之間的差異性,以便網(wǎng)絡(luò)更好的訓練。本文把“位置編碼”添加到Transformer Layer底部的輸入詞嵌入中。由于位置編碼與關(guān)鍵點嵌入向量具有相同的維度,將兩者相加。本文使用不同頻率的正弦和余弦函數(shù)構(gòu)造Position Embedding:

        其中,pos表示特征點在序列中的位置;kp=68為關(guān)鍵點序列長度;d=768為線性變換后嵌入向量的維度;i表示嵌入向量的位置,i∈[1d]。由于位置編碼的每個維度對應(yīng)于1個正弦信號,在每個特征點向量的偶數(shù)和奇數(shù)位置分別添加sin和cos變量,從而填滿整個PE矩陣,再加到經(jīng)過線性映射后的輸入向量中,從而實現(xiàn)位置編碼的引入。

        2 實驗與結(jié)果分析

        2.1 數(shù)據(jù)集及評價準則

        本文在三種人臉表情公開數(shù)據(jù)集進行實驗,包括:CK+、JAFFE、FER2013。其中,CK+數(shù)據(jù)集含有326例標注的圖像序列,共7種類別;JAFFE數(shù)據(jù)集含有213張人臉表情圖像,共7種類別標簽;FER2013數(shù)據(jù)量大,包含35 887張人臉表情數(shù)據(jù),但人臉角度更多變且有一定的遮擋,表情類別仍是7種標簽,具體信息如表1所示。

        此外,由于三種數(shù)據(jù)集中每類表情樣本的數(shù)量不盡相同,表1中詳細描述。數(shù)據(jù)中不同情感類別的數(shù)量分布不均,差異較大,因此本文采用一種加權(quán)精度(weighted accuracy,WA)的評價方法,如公式(10)所示:

        表1 CK+、JAFFE、FER2013數(shù)據(jù)集樣本分布Table 1 Sample distribution of CK+,JAFFE,F(xiàn)ER2013

        其中,l表示類別標簽的數(shù)量,mi為第i個情感類別的數(shù)量,ri是第i個類別識別正確的個數(shù)。由于本文所使用的數(shù)據(jù)庫不均衡,實驗階段的精度計算均基于“WA”方法,下文以“Acc”表示。

        2.2 參數(shù)設(shè)置

        實驗中,將輸入圖像大小調(diào)整為256×256,并采用平移、旋轉(zhuǎn)、縮放等方法進行數(shù)據(jù)增強,提高模型魯棒性。關(guān)鍵點檢測階段,初始學習率為10-4,批數(shù)據(jù)大小為8,迭代次數(shù)為300,關(guān)鍵點數(shù)量kp=68,其特征維度dim=512,其他參數(shù)與文獻[20]一致。表情識別階段,輸入特征為CS-AttNet網(wǎng)絡(luò)提取的512維向量,Transformer Layer數(shù)量為12層,Multi-Head數(shù)為8,反向傳播中采用交叉熵損失函數(shù),詳細設(shè)置可參考文獻[19]。本文實驗過程中共使用三個數(shù)據(jù)集,由于CK+與JAFFE數(shù)據(jù)量較小,因此網(wǎng)絡(luò)首先都是在FER2013數(shù)據(jù)集上進行訓練,獲得模型參數(shù)。然后在CK+、JAFFE兩個數(shù)據(jù)集上,將保存好的參數(shù)作為預訓練參數(shù)加載,通過微調(diào)后再測試獲得最終的結(jié)果,這樣可以有效避免數(shù)據(jù)量小所帶來的模型過擬合問題。

        2.3 結(jié)果分析

        2.3.1 網(wǎng)絡(luò)模型有效性驗證

        為了驗證本文所提算法的有效性,在CK+、JAFFE、FER2013數(shù)據(jù)集上分別進行五折交叉驗證(5-fold crossvalidation)實驗,即數(shù)據(jù)集隨機分成5等份,選擇第1份作為測試集,剩余4份作為訓練集,類似地,選擇第2份作為測試集,剩余作為訓練集,累計循環(huán)重復5次獲得輸出結(jié)果,最后統(tǒng)計其平均準確率。實驗結(jié)果的混淆矩陣如圖7所示。

        從圖7的混淆矩陣中可看出:本文算法在CK+和JAFFE數(shù)據(jù)集上都能取得較好的結(jié)果,達到0.94以上的識別準確率,其中“高興、驚喜”表情結(jié)果最高,因為這兩類中人臉的面部變化最大,能夠產(chǎn)生更多差異性的特征點,因此也最容易識別。但是在FER2013數(shù)據(jù)集中,整體的識別精度與CK+和JAFFE有較大的差距。

        由于FER2013數(shù)據(jù)集中包含大量人臉遮擋和低對比度圖像,加之數(shù)據(jù)集中各表情類別數(shù)據(jù)不均衡,差異較大,給模型的識別造成較大的困擾。此外,從圖7(c)可以看出“悲傷、生氣、害怕”表情識別結(jié)果較差,分別達到0.65、0.64、0.60的準確率。分析這三類表情同屬于消極類情緒,它們之間本身具有很強的相似性,三者中互相錯分的比例很高,并且在出現(xiàn)這些表情時,面部關(guān)鍵點通常只有細微的改變,因此識別難度更高,后續(xù)可能需要引進一些細粒度分類的方法做進一步的改進提升。

        圖7 三種不同數(shù)據(jù)集中表情識別混淆矩陣Fig.7 Confusion matrix of three different datasets

        2.3.2 現(xiàn)有方法對比驗證

        為進一步驗證本文所提模型的識別性能,對三種公開數(shù)據(jù)集采用與2.3.1小節(jié)一致的數(shù)據(jù)劃分方式,將本文算法與現(xiàn)有的公開方法進行對比,結(jié)果如表2所示。從表2可看出:四種現(xiàn)有方法和本文算法在三種數(shù)據(jù)集上都取得了較好的識別結(jié)果。其中在CK+數(shù)據(jù)集上,本文算法達到99.22%的準確率,與最好的方法Resnet-MER-WAM[11]結(jié)果相當;在JAFFE數(shù)據(jù)集上,本文算法獲得96.57%的準確率,比SACNN-ALSTM[23]提升0.92個百分點;特別地,在包含人臉遮擋和圖像對比度低的FER2013數(shù)據(jù)集中,本文方法獲得73.37%的最好結(jié)果,提升2.06個百分點。

        表2 不同算法在三種數(shù)據(jù)集上的實驗結(jié)果Table 2 Experimental results of different algorithms on three datasets

        因此,在數(shù)據(jù)清晰、差異化較小的情況下,目前大部分方法都能取得較好的結(jié)果,但是在真實的復雜場景下,很多方法難以適用。然而本文所提的關(guān)鍵點屬性表征模塊和基于注意力的Transformer識別模塊能有效解決上述問題,實驗結(jié)果也展現(xiàn)了本文所提模型的識別精度,獲得目前最優(yōu)的結(jié)果。

        此外,利用小提琴圖展示不同方法識別結(jié)果的準確率波動情況,如圖8所示。小提琴圖中心線越高代表平均精度值越大,圖越扁平,說明結(jié)果方差越小,波動也越小,模型也就越穩(wěn)定。

        圖8 三種不同數(shù)據(jù)集中識別結(jié)果小提琴圖展示Fig.8 Violin plots of expression recognition in three datasets

        如圖8(a)所示,盡管在CK+公開數(shù)據(jù)集中Resnet-MER-WAM方法準確率略高于本文算法,但其結(jié)果有較大方差,并不能產(chǎn)生魯棒的結(jié)果。

        在JAFFE和FER2013數(shù)據(jù)集中,本文方法不僅取得最高的識別精度,而且結(jié)果的波動變化也更小,更穩(wěn)定,顯著優(yōu)于其他方法。所以進一步證明了所提模型不僅在數(shù)據(jù)良好的狀態(tài)下取得較優(yōu)性能,在復雜的場景下依然具有較強的識別能力和較強的魯棒性。

        2.3.3 消融實驗

        為了測試本文所提注意力機制和Transformer模塊的有效性,以ResNet50作為骨干網(wǎng),將其網(wǎng)絡(luò)中的殘差結(jié)構(gòu)置換為圖4中所示的注意力模塊,記為CS-AttNet。此外,在CS-AttNet基礎(chǔ)上,本文進一步加入Transformer模塊,記為CS-AttNet-Trans模型,能夠捕獲關(guān)鍵之間的相關(guān)聯(lián)系,對人臉表情識別產(chǎn)生積極作用。實驗數(shù)據(jù)的劃分和設(shè)置與2.3.1小節(jié)保持一致,結(jié)果如表3所示。

        表3 網(wǎng)絡(luò)不同模塊的實驗結(jié)果Table 3 Experimental results of different modules

        從表3可以看出,在三種不同的數(shù)據(jù)集上,本文所提的CS-AttNet模塊和Transformer模塊對表情識別的準確率都有一定的提升,充分表明本文所提模塊對人臉表情識別任務(wù)具有極大的提升作用。其中,CS-AttNet模塊相對于骨干網(wǎng)ResNet50識別準確率平均增加4.13個百分點。在CS-AttNet基礎(chǔ)上加入Transformer模塊,構(gòu)成CS-AttNet-Trans模塊,可以看出在CK+和JAFFE數(shù)據(jù)集上準確率分別只有0.37和1.37個百分點的提升。主要原因在于CK+和JAFFE數(shù)據(jù)集圖像清晰、差異化較小,因而基礎(chǔ)網(wǎng)絡(luò)都能取得較好的結(jié)果,表2所示的4種方法在其中也都能取得令人滿意的識別結(jié)果。

        然而,F(xiàn)ER2013數(shù)據(jù)集中包含大量人臉遮擋和低對比度圖像,其他算法很難得到較好的結(jié)果,而本文所提模塊在ResNet50基礎(chǔ)上準確率分別提升4.21和7.69個百分點,充分說明其在高質(zhì)量數(shù)據(jù)中能夠保持較高的識別準確率,在低質(zhì)量數(shù)據(jù)中同樣能夠取得較大的指標提升,進一步證明了本文算法的魯棒性和有效性。

        3 結(jié)束語

        本文提出一種融合關(guān)鍵點屬性與注意力表征的人臉表情識別方法,不僅能夠有效避免非表情區(qū)域的干擾,而且可以關(guān)注圖像中局部位置的細微變化。通過添加通道注意力和空間注意力機制,實現(xiàn)不同維度和位置的權(quán)重分配,引導網(wǎng)絡(luò)學習更具有表征性的特征。本文提出基于Transformer模塊構(gòu)建表情識別模型,通過Transformer模塊在所有實體對之間執(zhí)行信息交換,捕獲關(guān)鍵點之間豐富的位置信息和互信息,從而有效提升表情識別精度。最后將本文所提出的算法分別在CK+、JAFFE、FER2013三種公開數(shù)據(jù)集上進行實驗驗證,分別達到99.22%、96.57%、73.37%的識別準確率,其中FER2013數(shù)據(jù)集場景復雜、識別難度較高,本文提出的算法達到了目前為止最高的準確度,充分展現(xiàn)了算法的有效性和魯棒性。

        猜你喜歡
        關(guān)鍵點人臉注意力
        讓注意力“飛”回來
        聚焦金屬關(guān)鍵點
        肉兔育肥抓好七個關(guān)鍵點
        有特點的人臉
        三國漫——人臉解鎖
        動漫星空(2018年9期)2018-10-26 01:17:14
        “揚眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        馬面部與人臉相似度驚人
        醫(yī)聯(lián)體要把握三個關(guān)鍵點
        長得象人臉的十種動物
        奇聞怪事(2014年5期)2014-05-13 21:43:01
        99热视热频这里只有精品| 国产精品自拍网站在线| 国产午夜福利不卡在线观看视频| 国产在线精品一区二区| 性一交一乱一伦| 久久亚洲国产精品五月天| 九色精品国产亚洲av麻豆一 | 亚洲高清三区二区一区| 巨胸喷奶水www视频网站| 99久久久久国产| 亚洲一区二区三区综合网| 精品熟女av中文字幕| 久久久精品人妻一区二区三区妖精| 亚洲精品无码久久久| 亚洲精品久久久久久动漫| 日韩精品久久久中文字幕人妻| 日韩av中文字幕波多野九色| 亚洲日韩中文字幕在线播放| 亚洲中文字幕无码专区| 免费毛片性天堂| 蜜桃人妻午夜精品一区二区三区| 久久99精品久久久久麻豆| 久久久久av无码免费网| 亚洲精品国产综合一线久久| 亚洲一区二区国产精品视频| 亚洲中文字幕一区精品| 亚洲一区毛片在线观看| 四川发廊丰满老熟妇| 国产在线丝袜精品一区免费 | 未满十八勿入av网免费| 国产精品午夜福利亚洲综合网| 免费观看mv大片高清| 亚洲色偷拍区另类无码专区| 久久精品视频按摩| 精品一区二区在线观看免费视频| 人妻丰满熟妇av无码区不卡| 一个人看的www免费视频中文| 日韩av中出在线免费播放网站| 加勒比特在线视频播放| 大香蕉av一区二区三区| 久久久久波多野结衣高潮|