汪榕濤,黎 勇,劉 銳,劉澤圣
(重慶大學(xué) 計(jì)算機(jī)學(xué)院,重慶 400044)
人臉表情識(shí)別作為情感計(jì)算重要的組成部分,在公共安全、智慧交通和醫(yī)療康復(fù)等領(lǐng)域有著良好的應(yīng)用前景。在過(guò)去的幾年里,數(shù)據(jù)驅(qū)動(dòng)的深度神經(jīng)網(wǎng)絡(luò)雖然為人臉表情識(shí)別算法注入了新的活力,但是仍面臨以下2個(gè)關(guān)鍵性難點(diǎn):①頭部的偏轉(zhuǎn)造成了面部遮擋和配準(zhǔn)誤差,導(dǎo)致識(shí)別精度再向上提升變得異常困難,因此難以運(yùn)用到實(shí)際場(chǎng)景中;②現(xiàn)有數(shù)據(jù)集中存在一些不確定性表情樣本,這些樣本造成提取出的特征有害。
頭部偏轉(zhuǎn)造成的非正面表情識(shí)別會(huì)引入以下困難:①人臉中五官等面部要素被遮擋,造成表情信息缺失;②頭部偏轉(zhuǎn)造成人臉圖像發(fā)生不同程度的“形變”,使得人臉模型復(fù)雜化;③打破光照的均衡分布,改變了圖像中部分區(qū)域灰度值的大小[1]。這些因素使得人臉圖像中的表情屬性變得模糊,導(dǎo)致了表情識(shí)別模型提取不到魯棒的表情特征。現(xiàn)有減小頭部偏轉(zhuǎn)對(duì)于表情識(shí)別精度影響的方法主要分為4類:①擴(kuò)大非正面的人臉表情數(shù)據(jù)規(guī)模;②依靠幾何模型搜索圖像中的人臉關(guān)鍵點(diǎn),通過(guò)關(guān)鍵點(diǎn)獲取表情線索,從而回避頭部偏轉(zhuǎn)的干擾;③建立不同偏轉(zhuǎn)角度樣本之間的聯(lián)系,從而借助一種偏轉(zhuǎn)的表情識(shí)別出另一種偏轉(zhuǎn)的表情類別;④獲取人臉圖像的全局和局部表情特征,以局部信息增強(qiáng)模型的抗干擾性[1]?;谌四橁P(guān)鍵點(diǎn)的方法是緩解頭部偏轉(zhuǎn)干擾的有力工具,Pantic等[2]列舉了分布在額頭、眉毛、鼻子和嘴唇等周圍的10個(gè)特征點(diǎn),這些特征點(diǎn)圍成了與表情相關(guān)的側(cè)面輪廓,在提取這些關(guān)鍵點(diǎn)特征以后,采用分類方法實(shí)現(xiàn)非正面人臉表情識(shí)別;Sung等[3]采取了基于視圖的2D+3D主動(dòng)外觀模型實(shí)現(xiàn)人臉跟蹤與表情識(shí)別雙任務(wù),該模型通過(guò)擬合人臉圖像中的關(guān)鍵點(diǎn)坐標(biāo)位置,進(jìn)而實(shí)現(xiàn)對(duì)頭部姿態(tài)的估計(jì),最后將這些信息送入雙層廣義表情判別分類器中,實(shí)現(xiàn)人臉表情的識(shí)別。對(duì)于建立非正面樣本之間的聯(lián)系,Lai等[4]借鑒了人臉識(shí)別中的正則化方法,建立正面人臉與非正面人臉之間的聯(lián)系,對(duì)于不同的非正面圖像先利用生成對(duì)抗網(wǎng)絡(luò)(generative adversial network,GAN)生成正面表情圖像,再將學(xué)習(xí)到的頭部姿勢(shì)特征用于后續(xù)的表情分類任務(wù);Zhang等[5]利用不同的頭部偏轉(zhuǎn)和表情,進(jìn)行人臉圖像合成和非正面表情識(shí)別的雙任務(wù),首先利用GAN學(xué)習(xí)人臉圖像的生成性和區(qū)分性表征特征,合成不同頭部偏轉(zhuǎn)下的表情圖像,再將表情分類器置于GAN模型后,該方法不僅有效擴(kuò)充了數(shù)據(jù)集,而且利用了生成器中的魯棒特征,可以有效提升識(shí)別精度。利用局部特征也可以有效地提升非正面表情識(shí)別精度;Liu等[6]用訓(xùn)練好的多通道卷積神經(jīng)網(wǎng)絡(luò)對(duì)人臉圖像、眼部圖像和嘴巴圖像分別進(jìn)行特征提取,然后將特征輸入到聯(lián)合多尺度融合網(wǎng)絡(luò)獲得表情特征并判斷頭部偏轉(zhuǎn)角度,再根據(jù)所得頭部偏轉(zhuǎn)角度將特征輸入到對(duì)應(yīng)的姿勢(shì)感知表情網(wǎng)絡(luò)中,最后送入分類網(wǎng)絡(luò)中得到表情識(shí)別結(jié)果;Wang等[7]提出區(qū)域注意力網(wǎng)絡(luò)(region attention networks,RAN)模型來(lái)應(yīng)對(duì)頭部偏轉(zhuǎn)與面部遮擋問題,對(duì)于給定的一張圖片,首先按照一定的規(guī)則選取圖片中的局部區(qū)域,然后將原始圖片與局部區(qū)域送入主干網(wǎng)中提取出表情特征,最后將原始圖像的全局特征、局部區(qū)域的特征及其權(quán)重送入分類器得到表情類別。
Wang等[8]首次指出表情數(shù)據(jù)集中存在不確定性問題。模糊的表情、低像素的圖像以及標(biāo)注者的主觀性,這些都導(dǎo)致現(xiàn)有的面部表情數(shù)據(jù)中存在一些不確定性樣本。針對(duì)這種情況,Wang提出了自治愈網(wǎng)絡(luò)(self-cure network,SCN)模型,它將同一批次中的每張輸入圖像分配不同的權(quán)重,其中,不確定性的圖片會(huì)被分配低權(quán)重,并通過(guò)排序正則化損失函數(shù)將同一批次的圖片分為高注意力和低注意力兩組,最后設(shè)置重標(biāo)簽?zāi)K為那些被判定為錯(cuò)誤標(biāo)簽的樣本重新分配合適的偽標(biāo)簽。
不同于上述方法,本文從以下角度來(lái)緩解頭部姿勢(shì)與不確定性樣本的干擾。
1)對(duì)于頭部偏轉(zhuǎn),自注意力加權(quán)半臉輔助模塊首先將人臉區(qū)域劃分為左右半臉局部區(qū)域,為其分配不同的權(quán)重,使左右半臉局部區(qū)域的預(yù)測(cè)對(duì)最終結(jié)果的影響不同,從而有效緩解頭部偏轉(zhuǎn)的影響。相較于上述的局部特征方法,半臉結(jié)構(gòu)不僅減少了計(jì)算量,而且包含了部分五官信息,可以提供更豐富的局部特征。
2)對(duì)于數(shù)據(jù)集中的不確定性圖片,自適應(yīng)重標(biāo)簽?zāi)K提供2個(gè)維度幫助模型定位。①利用全局和輔助預(yù)測(cè)之和判斷與原標(biāo)簽是否不一致;②判斷全局預(yù)測(cè)和輔助預(yù)測(cè)是否相符。當(dāng)2個(gè)判定條件都滿足時(shí),才允許為圖片分配偽標(biāo)簽。相較于其他方法,該模塊更加嚴(yán)謹(jǐn)精確。
3)部分表情信息只占據(jù)了圖像中很小的區(qū)域,而這些信息會(huì)在卷積、池化堆疊的過(guò)程中簡(jiǎn)化甚至消失。為了抑制特征丟失,本文研究了一種多特征融合主干網(wǎng)。該主干網(wǎng)首先取消了全局池化的設(shè)置,利用上采樣和大核卷積達(dá)到參數(shù)降維、防止分類器過(guò)擬合的目的;其次保留了淺層的低級(jí)特征,利用上采樣和大核卷積抵消特征圖中的噪聲干擾。此外,為了增強(qiáng)主干網(wǎng)的表情特征學(xué)習(xí)能力,把表情特征劃分為人臉共享特征和表情差異特征,前者是從數(shù)據(jù)集中所有的表情圖像經(jīng)過(guò)計(jì)算提取得到的,因此,主干網(wǎng)不用從頭學(xué)習(xí)表情特征,只需要學(xué)習(xí)后者,從而簡(jiǎn)化了學(xué)習(xí)過(guò)程。
基于自注意力加權(quán)半臉的人臉表情識(shí)別模型的框架如圖1所示。本方法主要由5個(gè)小模塊構(gòu)成,即圖片切割、多特征融合主干網(wǎng)、自注意力權(quán)重、雙線預(yù)測(cè)融合和自適應(yīng)重標(biāo)簽。其中,圖片切割、自注意力權(quán)重和雙線預(yù)測(cè)融合構(gòu)成自注意力加權(quán)半臉輔助模塊用以對(duì)抗非正面表情識(shí)別,自適應(yīng)重標(biāo)簽幫助模型定位數(shù)據(jù)集中不確定性表情圖片并為它們分配合適的偽標(biāo)簽。
圖1 自注意力加權(quán)半臉的人臉表情識(shí)別算法框架Fig.1 Facial expression recognition method based on self-attention weighted half-face
給定一幅正面或非正面的表情圖像,首先使用多任務(wù)級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)(multi-task cascaded convolutional neural networks,MTCNN)[9]檢測(cè)出人臉框和5個(gè)人臉關(guān)鍵點(diǎn)(兩只眼睛的中間點(diǎn),鼻尖和嘴角),按照人臉框坐標(biāo)首先裁剪出人臉區(qū)域Iori,并選擇鼻子的坐標(biāo)點(diǎn)作為分界點(diǎn),將人臉區(qū)域Iori豎直切割成左右人臉區(qū)域Ileft和Iright,然后將原始圖像Iori和相應(yīng)的左右臉圖像Ileft和Iright縮放至相同的大小(224×224),送入多特征融合主干網(wǎng)提取特征。
MTCNN可以很好地在頭部多姿勢(shì)下準(zhǔn)確預(yù)測(cè)鼻子位置的坐標(biāo)點(diǎn)。相比于文獻(xiàn)[6]的方法,本文僅需鼻尖的坐標(biāo)位置,發(fā)生偏移的概率較小。但是在某些極端偏轉(zhuǎn)中(如90°的偏轉(zhuǎn)),會(huì)出現(xiàn)鼻尖點(diǎn)檢測(cè)失效的現(xiàn)象,由于面部的左右臉存在一定程度的關(guān)聯(lián)性和對(duì)稱性。因此,直接將原圖片沿水平方向翻轉(zhuǎn)后設(shè)定為左臉I(yè)left,原圖片設(shè)定為右臉I(yè)right,通過(guò)這些操作,所有輸入圖片均獲得Ileft和Iright。
基于深度學(xué)習(xí)的人臉表情識(shí)別方法大都將卷積神經(jīng)網(wǎng)絡(luò)作為主干網(wǎng)提取特征,其中包含了大量的卷積、池化操作。隨著模型的卷積層和池化層的不斷疊加,雖然可以檢測(cè)到更多關(guān)于表情的高級(jí)語(yǔ)義信息,但是也丟失了大量的空間信息。由于面部中有關(guān)表情的信息本身可能只占圖像很少的像素(嘴角、皮膚皺紋等),這些信息在連續(xù)卷積、池化的過(guò)程中極易丟失,導(dǎo)致在高層特征圖中缺少關(guān)鍵性線索,造成表情分類困難。
針對(duì)以上問題,本文提出一種基于ResNet18的多特征融合的主干網(wǎng)。為了保留ResNet18的特征提取能力,該主干網(wǎng)并沒有更改其內(nèi)部結(jié)構(gòu),僅在提取出的特征圖上進(jìn)行融合修改,其框架結(jié)構(gòu)如圖2所示。該主干網(wǎng)主要由2個(gè)模塊構(gòu)成:特征金字塔和共享特征。特征金字塔的作用有2點(diǎn):①取消全局池化,充分利用高級(jí)語(yǔ)義特征;②保留淺層網(wǎng)絡(luò)中高分辨率、低級(jí)紋理信息的低層特征。下面介紹主干網(wǎng)的詳細(xì)設(shè)置。
1.2.1 特征金字塔
圖2 多特征融合主干網(wǎng)Fig.2 Multi feature fusion backbone
1.2.2 共享特征
(1)
VG=VG+λVbatch
(2)
(3)
Vori、Vleft和Vright是多特征融合主干網(wǎng)分別從輸入Iori、Ileft和Iright中提取的3個(gè)特征向量。當(dāng)頭部發(fā)生偏轉(zhuǎn)時(shí),左右臉中包含的信息量不同且表情信息會(huì)出現(xiàn)不同程度的“形變”,因此它們對(duì)最終預(yù)測(cè)結(jié)果的影響也會(huì)不同。為了從模型中體現(xiàn)出這種差異,本文采用了自注意力機(jī)制。自注意力權(quán)重模塊由一個(gè)全連接層(FC)和一個(gè)Sigmoid激活函數(shù)組成,它從半臉局部特征向量Vleft和Vright中捕獲表情信息的豐富程度和“形變”程度,并以權(quán)值的形式數(shù)字化,在分類過(guò)程中體現(xiàn)了半臉局部特征對(duì)最終預(yù)測(cè)的貢獻(xiàn)度。每個(gè)局部特征向量Vi相應(yīng)的貢獻(xiàn)度,即自注意力模塊中的權(quán)重wi,計(jì)算過(guò)程為
wi=σ(WTVi),i∈{left,right}
(4)
(4)式中:Vi∈R(121×1)表示半臉的局部特征向量;W∈R(121×1)是全連接層的參數(shù);σ(·)是Sigmoid激活函數(shù)。經(jīng)過(guò)Sigmoid函數(shù)計(jì)算后,權(quán)重wi落在(0,1)。相比之下,原始圖像Iori擁有較豐富的全局信息,所以它的貢獻(xiàn)度得分應(yīng)該固定為1,不需要自注意力權(quán)重模塊的處理。此外,半臉區(qū)域作為表情判斷的輔助線索,其權(quán)重總和應(yīng)小于等于原始圖像的權(quán)重。因此,設(shè)計(jì)了自我注意力權(quán)重?fù)p失函數(shù)來(lái)約束這種關(guān)系,其表達(dá)式為
(5)
(5)式中,L1(·)是一個(gè)平滑的1損失函數(shù)[11],數(shù)字1來(lái)限制左右臉對(duì)于最終預(yù)測(cè)結(jié)果的權(quán)重接近完整人臉對(duì)于最終預(yù)測(cè)結(jié)果的權(quán)重,通過(guò)該損失函數(shù)可以幫助模塊有限制地分配權(quán)重。
對(duì)于主干網(wǎng)提取出來(lái)的特征,雙線預(yù)測(cè)融合模塊的結(jié)構(gòu)可以分為2行來(lái)處理:①根據(jù)提取的原始特征Vori作出全局預(yù)測(cè)Pori;②基于左右臉區(qū)域的局部特征做出局部預(yù)測(cè),即
(6)
(6)式中:Wfc∈R(121×n)為全連接層的參數(shù)矩陣;n為表情類別數(shù)。特別地,將半臉區(qū)域的預(yù)測(cè)結(jié)果Pleft和Pright分別乘以它們相應(yīng)的權(quán)重wleft和wright來(lái)構(gòu)成輔助預(yù)測(cè)Paux;隨后,將Paux與原始圖像的預(yù)測(cè)Pori相結(jié)合,得出最終輸出P,計(jì)算過(guò)程為
Paux=Pleft×wleft+Pright×wright
(7)
P=Paux+Pori
(8)
(8)式中,P∈R(n×1)表示模型最終的預(yù)測(cè)輸出,取概率最大的表情類別作為最終的預(yù)測(cè)結(jié)果。為了幫助主干網(wǎng)在非正面條件下提取強(qiáng)表征力的特征,使用平滑的L1損失函數(shù)迫使模型在學(xué)習(xí)局部特征和學(xué)習(xí)全局特征之間達(dá)到良好的平衡。因此,特征平衡損失函數(shù)計(jì)算過(guò)程為
(9)
通過(guò)損失函數(shù)的反向傳播,模型被迫加深對(duì)權(quán)重更大的局部特征的偏好。此外,為了保證模型學(xué)習(xí)的特征與表情相關(guān),直接利用模型的輸出P與真實(shí)標(biāo)簽構(gòu)成的one-hot向量Pgt構(gòu)造交叉熵?fù)p失函數(shù)為
(10)
最終模型的總損失函數(shù)為
(11)
(11)式中,α、β和γ是折中比。由于局部信息缺乏全局感受野,急切地迫使模型逼近輔助預(yù)測(cè)可能會(huì)損害模型學(xué)習(xí)特征的能力。因此,需要仔細(xì)調(diào)整特征平衡損失函數(shù)與交叉熵?fù)p失函數(shù)之間的比例。
人眼進(jìn)行面部表情識(shí)別時(shí),無(wú)論面部是正面還是側(cè)面,都可以很好地判斷出面部表情。利用這一特性本文重新設(shè)計(jì)了文獻(xiàn)[8]中的重標(biāo)簽?zāi)K,利用圖像的固有信息就可以幫助模型鑒別出不確定性的圖像。因此,在所提的雙線預(yù)測(cè)融合模塊后添加了一個(gè)自適應(yīng)重標(biāo)簽?zāi)K。具體而言,當(dāng)P中預(yù)測(cè)類別與真實(shí)標(biāo)簽不匹配時(shí),自適應(yīng)重標(biāo)簽?zāi)K會(huì)檢查輔助預(yù)測(cè)Paux是否等于原始圖像的預(yù)測(cè)Pori(圖1中的“=?”),如果這2個(gè)預(yù)測(cè)相等,則意味著無(wú)論從局部信息或是從全局信息的角度來(lái)看,圖像均被認(rèn)為屬于另一種表情,之后本模塊將概率最大的表情作為偽標(biāo)簽分配給原始圖像。在其他情況下,不執(zhí)行任何處理。本模塊通過(guò)增加輔助預(yù)測(cè)和全局預(yù)測(cè)的關(guān)系,使得定位不確定性圖片更加嚴(yán)謹(jǐn)、精確。本模塊僅在訓(xùn)練過(guò)程中幫助模型定位不確定性圖片,在預(yù)測(cè)時(shí)本模塊被遮蔽。
本文使用的ResNet18網(wǎng)絡(luò)在ImageNet數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練,同時(shí)將預(yù)訓(xùn)練好的ResNet18作為實(shí)驗(yàn)的基準(zhǔn)方法,用于對(duì)比實(shí)驗(yàn)。根據(jù)實(shí)踐經(jīng)驗(yàn),本文中的超參數(shù)設(shè)置如下:batch_size大小為128;學(xué)習(xí)率為0.001;λ為可更新參數(shù);總損失函數(shù)中的折中比率α、β和γ分別設(shè)置為3、1和2;模型的訓(xùn)練次數(shù)為70,并在第10個(gè)epoch后,讓重標(biāo)簽?zāi)K參與訓(xùn)練、優(yōu)化。此外,由于RaFD數(shù)據(jù)集沒有劃分訓(xùn)練集和測(cè)試集,所以本文采用5折交叉實(shí)驗(yàn)最后取平均值為最終結(jié)果。本文所有實(shí)驗(yàn)結(jié)果均為10次實(shí)驗(yàn)后的平均值。
為了評(píng)估自注意力加權(quán)半臉模型中每個(gè)小模塊的有效性,本節(jié)在RAF-DB上設(shè)計(jì)了消融實(shí)驗(yàn)來(lái)研究模型中的后4個(gè)模塊對(duì)識(shí)別精度的影響,實(shí)驗(yàn)結(jié)果如表1所示。
表1 消融實(shí)驗(yàn)Tab.1 Ablation experiment %
為了便于比較,自注意力權(quán)重模塊與雙線預(yù)測(cè)融合同時(shí)被遮蔽、參與訓(xùn)練優(yōu)化。由表1可知,僅將自適應(yīng)重新標(biāo)記模塊(第2行)添加到基準(zhǔn)方法(第1行)會(huì)略微降低精度,這說(shuō)明只依靠ResNet18不能提取強(qiáng)表征力的特征,此時(shí)模型還未“掌握”識(shí)別表情的知識(shí),這時(shí)的重標(biāo)簽?zāi)K將是有害的。之后添加了其他幾個(gè)模塊,明顯地提高了模型的性能(第6行和第7行),這表明多特征融合主干網(wǎng)、自注意力權(quán)重和雙線預(yù)測(cè)融合模塊能有效學(xué)習(xí)提取表情特征。本文所提出的模塊均在一定程度上提升了識(shí)別精度,其中多特征融合主干網(wǎng)的貢獻(xiàn)度最大,約提升3.23%(第4行)。
為了驗(yàn)證所提方法是否能提升非正面表情識(shí)別精度,本節(jié)在RAF-DB測(cè)試集上選取了不同姿勢(shì)的表情圖片進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果如圖3所示??梢钥闯?這些圖片存在著一定的信息缺失與人臉模型“變形”,基準(zhǔn)模型在面對(duì)頭部姿勢(shì)偏移時(shí),分類結(jié)果性能較差;而本文提出的模型可以很好地克服這一點(diǎn),可以在多種偏重角度下有效識(shí)別圖像中的表情類別。
圖3 基準(zhǔn)方法與自注意力加權(quán)半臉方法的實(shí)驗(yàn)對(duì)比Fig.3 Experimental comparison between baseline and self-attention weighted half-face method
此外,根據(jù)文獻(xiàn)[7]提供的頭部姿勢(shì)數(shù)據(jù)(30°偏轉(zhuǎn)和45°偏轉(zhuǎn)),本文所述模型還與其他模型對(duì)比了非正面表情識(shí)別能力,結(jié)果如表2所示。表2顯示,在RAF-DB、FERPlus和AffectNet數(shù)據(jù)集上,RAN模型與本文所述方法的識(shí)別精度均遠(yuǎn)高于基準(zhǔn)模型,并且相比于RAN取得的收益,本文方法更能克服頭部偏轉(zhuǎn)帶來(lái)的負(fù)面影響。
為了驗(yàn)證本文所提的自適應(yīng)重標(biāo)簽?zāi)K比SCN中帶閾值的重標(biāo)簽方法更有效,將設(shè)計(jì)的自適應(yīng)重標(biāo)簽?zāi)K替換為SCN中帶閾值的重標(biāo)簽方法來(lái)進(jìn)行對(duì)比,具體設(shè)置:對(duì)于模型最終預(yù)測(cè)向量P,將向量中的最大值減去向量中標(biāo)簽對(duì)應(yīng)的概率值,若差值大于給定閾值就為該圖像重新分配偽標(biāo)簽,相應(yīng)的對(duì)比結(jié)果繪制在圖4中。由圖4可知,SCN中僵硬的閾值重標(biāo)簽方法在不同閾值下識(shí)別精度有所不同,這是因?yàn)樵诓煌拈撝登闆r下,不確定性圖片被誤判漏判的可能性被放大或縮小;而本文提出的自適應(yīng)重新標(biāo)記方法總是具有更高的精度(90.76%)。
表2 多姿勢(shì)識(shí)別準(zhǔn)確率對(duì)比表Tab.2 Comparison table of recognition accuracy with multi-pose %
圖4 重標(biāo)簽方法的對(duì)比Fig.4 Comparison of relabeling methods
除了驗(yàn)證自適應(yīng)重標(biāo)簽?zāi)K的有效性以外,本文還深入訓(xùn)練過(guò)程中探究分配偽標(biāo)簽的合理性,結(jié)果如圖5所示。
圖5 訓(xùn)練過(guò)程中樣本標(biāo)簽的變化情況Fig.5 Changes of image labels during training
圖5a—5c中的第一列圖像被精確標(biāo)記,因此,自適應(yīng)重標(biāo)簽?zāi)K從始至終沒有更改過(guò)圖片標(biāo)簽。圖5a—5c中的第二列和第三列表明自適應(yīng)重標(biāo)簽?zāi)K認(rèn)為其特征分類結(jié)果和標(biāo)簽值不一致,因此,在訓(xùn)練過(guò)程中為圖片重新分配合適的偽標(biāo)簽。圖5a—5c中的最后一列原圖片被誤分類為另一種表情,但在模型訓(xùn)練一定次數(shù)后,這個(gè)錯(cuò)誤最終得到了糾正。
為了評(píng)估自注意力加權(quán)半臉模型中每個(gè)小模塊的有效性,將所述方法與最近的表情識(shí)別方法在RAF-DB、FERPlus和RaFD上進(jìn)行了比較,對(duì)比結(jié)果如表3—表5所示。
表3 與其他方法在RAF-DB上的對(duì)比Tab.3 Comparison with other methods on RAF-DB
表4 與其他方法在FERPlus上的對(duì)比Tab.4 Comparison with other methods on FERPlus
表5 與其他方法在RaFD上的對(duì)比Tab.5 Comparison with other methods on RaFD
實(shí)驗(yàn)結(jié)果表明,本文所提模型均獲得了較高的識(shí)別精度,在RAF-DB、FERPlus和RaFD上分別獲得了90.76%、91.08%和98.66%的識(shí)別精度。
由于表3—表5中僅使用了單一的識(shí)別準(zhǔn)確率評(píng)價(jià)指標(biāo),這不能體現(xiàn)數(shù)據(jù)集中不同表情類別之間的識(shí)別精度差異。因此,除了上述表格外,還繪制了混淆矩陣來(lái)展示不同表情的識(shí)別精度分布,如圖6所示。矩陣中對(duì)角線上的元素表示相應(yīng)表情的識(shí)別精度,其余位置為誤分類的情況。在RAF-DB數(shù)據(jù)集中樣本數(shù)較小的表情類別(恐懼和厭惡)均有明顯的提升;對(duì)于中性表情,本文所提模型可以達(dá)到99%的識(shí)別準(zhǔn)確率。在RaFD數(shù)據(jù)集中,多個(gè)表情類別的識(shí)別精度可以達(dá)到100%。而在FERPlus中,輕蔑表情識(shí)別精度最低,只有25%,這可能是因?yàn)镕ERPlus是對(duì)FER2013重新標(biāo)注,且輕蔑表情為新添加的標(biāo)簽,新標(biāo)簽與原數(shù)據(jù)存在一定差異,導(dǎo)致模型分類效果較差。
本文提出的自注意力加權(quán)半臉的人臉表情識(shí)別方法,在一定程度上緩解了頭部偏轉(zhuǎn)與不確定性的干擾,在多個(gè)數(shù)據(jù)集上均有一定的性能提升。與其他非正面表情識(shí)別方法相比,本文所述方法以增加一定復(fù)雜度為代價(jià),有效提升了非正面表情識(shí)別精度;與其他重標(biāo)簽方法相比,本文提供2個(gè)維度從而更加嚴(yán)謹(jǐn)?shù)嘏袛鄨D片是否應(yīng)被重標(biāo)簽,這為以后的數(shù)據(jù)清洗工作提供了自動(dòng)化方法。此外,本文將表情識(shí)別任務(wù)與其他分類任務(wù)相區(qū)分,不僅利用了低級(jí)特征,還將表情特征劃分為人臉共享特征與表情差異特征,這不僅豐富了表情特征,而且簡(jiǎn)化了模型的學(xué)習(xí)過(guò)程。
圖6 模型在不同數(shù)據(jù)集的混淆矩陣Fig.6 Confusion matrix of model in different datasets
重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版)2023年6期