武中華
(江蘇大學(xué) 計算機(jī)科學(xué)與通信工程學(xué)院,鎮(zhèn)江 212013)
在現(xiàn)實(shí)生活中,人臉表情是僅次于語氣之后必不可少的情感交流手段[1].人臉表情識別能讓計算機(jī)有效表達(dá)人類的情感信息,是人工智能領(lǐng)域中的重要組成部分.人臉表情識別是將人臉表情圖像識別為不同的表情類型,如憤怒、高興、悲傷、驚訝、厭惡和恐懼等等[2].近年來,隨著人工智能研究領(lǐng)域的不斷發(fā)展,人臉表情識別也因其重要性而受到廣泛關(guān)注.
目前,人臉表情識別方法劃分為3 個主要步驟,分別是預(yù)處理,人臉表情特征提取和人臉表情分類.在人臉表情特征提取中,根據(jù)特征提取方式不同分為手工特征和學(xué)習(xí)型特征,前者是通過手工設(shè)計的算法進(jìn)行提取,后者是通過深度學(xué)習(xí)模型進(jìn)行提取.對于手工特征,可以進(jìn)一步分為基于紋理的特征,如局部二值模式(local binary pattern,LBP)、Gabor 小波變換;基于幾何的特征,如尺度不變特征變換(scale-invariant feature transform,SIFT)和基于多種手工特征得到的混合特征.而大多數(shù)學(xué)習(xí)型特征都是基于神經(jīng)網(wǎng)絡(luò)自動進(jìn)行學(xué)習(xí)[3,4],如卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN),深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN),循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)和生成對抗網(wǎng)絡(luò)(generative adversarial network,GAN).人臉表情分類的方法則有支持向量機(jī)(support vector machine,SVM)、隱馬爾科夫模型(hidden Markov model,HMM)、K 最近鄰算法(K-nearest neighbor,KNN)和混合分類器模型等等[5,6].
傳統(tǒng)的人臉表情識別僅限于識別6 種基本人臉表情,即憤怒、高興、悲傷、驚訝、厭惡和恐懼.然而,現(xiàn)實(shí)生活中人類情感變化非常復(fù)雜,表現(xiàn)出來的人臉表情類別大大高于早期定義的6 種基本表情[7].復(fù)合人臉表情的提出為人臉表情識別開辟了一個新的領(lǐng)域,可以將計算機(jī)視覺和人工智能的研究提高到一個新的高度.復(fù)合人臉表情通常是來自于沒有任何控制條件下的真實(shí)場景,而大部分公開的自然環(huán)境下的人臉表情數(shù)據(jù)集只包含基本表情,而少數(shù)包含復(fù)合人臉表情的數(shù)據(jù)集也缺乏足夠的訓(xùn)練數(shù)據(jù).近年來,有一些基于復(fù)合人臉表情識別的研究,Benitez-Quiroz 等人[8]提出了利用檢測表情中的面部運(yùn)動單元(action unit,AU)來識別復(fù)合人臉表情,然而此方法需要顯著提升表情中AU的檢測性能才能有效識別復(fù)合人臉表情.Li 等人[9]改進(jìn)了基礎(chǔ)的深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural network,DCNN)提出一種新的模型(deep locality-preserving CNN,DLP-CNN)來進(jìn)行復(fù)合人臉表情識別,該方法大大增強(qiáng)了識別能力.但是,復(fù)合人臉表情數(shù)據(jù)集訓(xùn)練樣本的不足,人工標(biāo)注費(fèi)時費(fèi)力,因此,目前的研究還是主要集中在基本人臉表情的識別.
單標(biāo)簽學(xué)習(xí)中,每個樣本只屬于一個標(biāo)簽且標(biāo)簽之間兩兩互斥,而在多標(biāo)簽學(xué)習(xí)中,一個樣本可以對應(yīng)多個標(biāo)簽,且各個標(biāo)簽之間通常具有一定的聯(lián)系[10].在現(xiàn)實(shí)生活中,數(shù)據(jù)的復(fù)雜性導(dǎo)致單標(biāo)簽學(xué)習(xí)已經(jīng)無法滿足研究方法的要求,因?yàn)檎鎸?shí)的對象往往具有多義性,所以多標(biāo)簽學(xué)習(xí)逐漸得到了廣泛的關(guān)注.運(yùn)用面部動作編碼系統(tǒng)(facial action coding system,FACS)[7]對所有人臉表情中出現(xiàn)的人臉面部運(yùn)動單元(AU)進(jìn)行研究發(fā)現(xiàn),復(fù)合人臉表情一般是由兩種基本人臉表情組合而成的,如驚喜(happily surprised),其是由高興(happily)和驚訝(surprised)兩個基本表情組合而成,所以復(fù)合人臉表情識別可以視為一個多標(biāo)簽分類問題.
現(xiàn)實(shí)世界中的諸多問題都是用圖的形式來表示,近年來,由于圖卷積網(wǎng)絡(luò)能夠解決圖的卷積問題得到了巨大的發(fā)展[11,12].Wang 等人[13]利用圖卷積進(jìn)行零樣本圖像識別時,考慮到可見類別和不可見類別之間的關(guān)系,轉(zhuǎn)移從可見類別中學(xué)習(xí)到的知識來描述不可見類別,大幅度提高了零樣本識別的性能.Chen 等人[14]通過構(gòu)建知識圖來捕獲標(biāo)簽間的依賴關(guān)系,將圖卷積應(yīng)用在多標(biāo)簽圖像識別上,也取得了巨大的成功.Zhang等人[15]利用上下文信息來構(gòu)建情感關(guān)系圖,再利用圖卷積網(wǎng)絡(luò)來學(xué)習(xí)情感關(guān)系以推理情緒狀態(tài),獲得不錯的效果.Li 等人[16]在人臉面部單元識別中,先利用先驗(yàn)知識構(gòu)造了AU 關(guān)系圖,再使用GGNN 在圖上進(jìn)行信息傳播來得到AU的特征,最后進(jìn)行AU 識別.表明了人臉面部單元識別中使用圖神經(jīng)網(wǎng)絡(luò)的有效性.
我們將復(fù)合人臉表情識別視為多標(biāo)簽分類問題,通過復(fù)合人臉表情類別之間的聯(lián)系來構(gòu)建人臉表情類別關(guān)系知識圖,為了更好的獲得表情之間的關(guān)系,我們提出了一種基于圖卷積網(wǎng)絡(luò)多標(biāo)簽學(xué)習(xí)的復(fù)合人臉表情識別方(graph convolution network in multi-label learning for compound facial expression recognition,GCN-ML-CFER),來更好的實(shí)現(xiàn)對復(fù)合人臉表情的識別.
圖1所示為整體的網(wǎng)絡(luò)結(jié)構(gòu),基于圖卷積多標(biāo)簽學(xué)習(xí)的復(fù)合人臉表情識別模型(GCN-ML-CFER)主要分為3 個部分:1)以VGG19 網(wǎng)絡(luò)模型為骨架,再利用提供的人臉面部關(guān)鍵點(diǎn)來對感興趣區(qū)域(region of interest,ROI)[16,17]進(jìn)行學(xué)習(xí),最后提取人臉表情的特征.2)通過面部動作編碼系統(tǒng)(FACS)對所有人臉表情中出現(xiàn)的人臉面部運(yùn)動單元(AU)進(jìn)行分析,得到人臉表情類別之間的關(guān)系.再通過數(shù)據(jù)驅(qū)動的方式,挖掘人臉表情類別的標(biāo)簽在數(shù)據(jù)集中的共現(xiàn)模式,使用條件概率的形式對標(biāo)簽的依賴性關(guān)系進(jìn)行建模,得到人臉表情類別關(guān)系圖,圖卷積網(wǎng)絡(luò)作用在關(guān)系圖上進(jìn)行分類器學(xué)習(xí).3)通過提取的人臉表情特征與學(xué)習(xí)到的分類器進(jìn)行復(fù)合人臉表情預(yù)測.
圖1 GCN-ML-CFER 模型框架
面部動作編碼系統(tǒng)(FACS)根據(jù)人臉解剖學(xué)的特點(diǎn)用人臉面部運(yùn)動單元(AU)的變化來描繪不同的表情這種描述方式幾乎可以表現(xiàn)所有的面部表情,是目前標(biāo)準(zhǔn)的表情劃分參照體系.人臉表情的發(fā)生是基于人臉面部運(yùn)動單元(AU)的變化,所以為了獲得更加顯著的人臉表情特征,我們利用提供的人臉面部關(guān)鍵點(diǎn)來對感興趣區(qū)域進(jìn)行特征提取,這種全局和局部特征的結(jié)合,可以很好的表示人臉的表情.
我們選擇VGG19 作為我們的骨架網(wǎng)絡(luò),如圖1(a)所示,通過VGG19 我們可以得到人臉面部表情的全局特征圖F.接著我們根據(jù)提供的5 個人臉面部關(guān)鍵點(diǎn)置,縮放映射到全局特征圖的關(guān)鍵點(diǎn)位置,以此位置為中心,劃分出感興趣區(qū)域,使用ROI 網(wǎng)絡(luò)來對這5 個感興趣區(qū)域進(jìn)行特征提取,從而得到局部的人臉表情特征.
其中,l為提供的人臉面部關(guān)鍵點(diǎn),ROI為區(qū)域特征提取網(wǎng)絡(luò),f為從感興趣區(qū)域提取到的特征.將連接起來的全局和局部特征作為我們從人臉表情圖像中提取得到的表情特征.
其中,g為特征連接,X為最后的維度為600的人臉表情特征.
考慮到復(fù)合表情之間具有一定的相關(guān)性,捕獲和利用這些相關(guān)性可以提升復(fù)合表情的分類性能.拓?fù)浣Y(jié)構(gòu)的圖擁有對于復(fù)雜系統(tǒng)的強(qiáng)表現(xiàn)力,同時具有很強(qiáng)的推理能力,因此將人臉表情類別之間的關(guān)系構(gòu)造成圖的形式,可以很好的進(jìn)行復(fù)合人臉表情識別.
我們用V來表示圖中節(jié)點(diǎn)的集合,具體來說,每種基本表情類別分別對應(yīng)圖的一個節(jié)點(diǎn),即v∈V,圖中的每個節(jié)點(diǎn)表示為標(biāo)簽的詞嵌入.詞嵌入是一種將文本中的詞轉(zhuǎn)表示數(shù)字向量的方法,向量中的每一個維度可視為對應(yīng)特定的語義信息,在詞嵌入空間中,語義相關(guān)和相近的概念詞向量也彼此接近.
圖中節(jié)點(diǎn)間的關(guān)系我們用邊E來表示,如驚喜(happily surprised)這個復(fù)合表情,它在圖中體現(xiàn)為高興(happily)代表的節(jié)點(diǎn)和驚訝(surprised)代表的節(jié)點(diǎn)通過邊來進(jìn)行連接.根據(jù)面部動作編碼系統(tǒng)(FACS)和復(fù)合表情的標(biāo)簽,我們初步可以得到哪些基本表情之間是有關(guān)系的,也就是圖中哪些節(jié)點(diǎn)是通過邊相連的.同時,我們再通過數(shù)據(jù)驅(qū)動的方式來進(jìn)一步表示圖中節(jié)點(diǎn)間關(guān)系的強(qiáng)度,即通過挖掘數(shù)據(jù)集中不同復(fù)合表情的數(shù)量,來對圖中相連節(jié)點(diǎn)之間關(guān)系進(jìn)行調(diào)整.
我們以條件概率的形式對節(jié)點(diǎn)間關(guān)系的強(qiáng)度進(jìn)行建模.即P(Lj|Li),它表示的是出現(xiàn)標(biāo)簽Li時出現(xiàn)標(biāo)簽Lj的概率,需要注意的是,P(Lj|Li) 不等于P(Li|Lj).
復(fù)合表情可以視為基本表情的標(biāo)簽對.首先我們對訓(xùn)練集中的所有復(fù)合表情進(jìn)行計數(shù),得到矩陣M∈RC×C,其中,C為基本表情的個數(shù),Mij表示基本表情標(biāo)簽Li和Lj一同出現(xiàn)的次數(shù),也就是,這兩個基本表情組成的復(fù)合表情出現(xiàn)的次數(shù).
再利用Pij=Mij/Ni得到條件概率矩陣P∈RC×C,其中Ni表示基本表情標(biāo)簽Li在數(shù)據(jù)集中出現(xiàn)的次數(shù),Pij=P(Lj|Li).
在圖卷積后,節(jié)點(diǎn)的特征為節(jié)點(diǎn)自身特征與相鄰節(jié)點(diǎn)特征的加權(quán)和,對于圖卷積可能導(dǎo)致的過渡平滑問題,即節(jié)點(diǎn)特征可能變得相似,以至于不同類別的節(jié)點(diǎn)可能變的難以區(qū)分,為了緩解這個問題,我們對條件概率矩陣進(jìn)行一定的改進(jìn),首先對于可能出現(xiàn)的噪聲邊通過閾值t來進(jìn)行限制.
接著,在更新節(jié)點(diǎn)特征時,有一個固定的權(quán)重對節(jié)點(diǎn)本身的特征,而相鄰節(jié)點(diǎn)的特征由其分布決定,最后鄰接矩陣A表示為:
其中,A是鄰接矩陣,而p是分配給節(jié)點(diǎn)本身和其相鄰節(jié)點(diǎn)的權(quán)重,當(dāng)p趨近于1 時,節(jié)點(diǎn)本身的特征將不會著重考慮,主要使用其相鄰節(jié)點(diǎn)的特征.當(dāng)p趨近于0 時,其相鄰節(jié)點(diǎn)的特征將不會著重考慮,主要考慮節(jié)點(diǎn)本身的特征.
圖卷積在學(xué)習(xí)過程中能夠融合圖結(jié)構(gòu)信息,可以將來自相鄰節(jié)點(diǎn)的有效信息集成到節(jié)點(diǎn)自身當(dāng)中,因此,我們使用圖卷積從表情類別知識圖中學(xué)習(xí)表情類別分類器,如圖1(b)和圖1(c)所示.給定的圖是一個具有C個節(jié)點(diǎn)且每個節(jié)點(diǎn)的特征維度為d,從而得到圖的特征矩陣H0 ∈RC×d.其中節(jié)點(diǎn)的初始特征為相對應(yīng)表情標(biāo)簽的詞向量表示.表情類別知識圖用鄰接矩陣A∈RC×C表示.我們采用簡單的傳播規(guī)則進(jìn)行圖卷積.
其中,σ為ReLU 激活函數(shù),是對鄰接矩陣A進(jìn)行歸一化后的矩陣,Hl是第l層的節(jié)點(diǎn)特征表示,首層的節(jié)點(diǎn)特征表示為H(0),通過圖卷積將圖的節(jié)點(diǎn)特征矩陣更新為Hl+1 ∈RC×d′,可以通過多層的圖卷積來學(xué)習(xí)和建模節(jié)點(diǎn)間復(fù)雜的關(guān)系,Wl是第l層待學(xué)習(xí)的權(quán)重參數(shù),最后通過圖卷積后的輸出為Z∈RC×D,D與人臉表情特征X的維度相同.
Z∈RC×D
經(jīng)過圖卷積模塊得到的就是我們學(xué)習(xí)到的分類器,將其應(yīng)用到人臉表情特征上,就可以得到表情類別預(yù)測的分?jǐn)?shù):
人臉表情圖像的標(biāo)簽為y∈RC,其中yi={0,1} 表示人臉表情類別標(biāo)簽i是否出現(xiàn)在圖像中.整個網(wǎng)絡(luò)用傳統(tǒng)的多標(biāo)簽分類損失進(jìn)行訓(xùn)練:
其中,φ是S igmoid 函數(shù).
本文在2 個數(shù)據(jù)集上進(jìn)行復(fù)合人臉表情識別實(shí)驗(yàn).
RAF-DB[9].是目前最大公開可用的真實(shí)情感人臉數(shù)據(jù)集,它擁有15 339 張7 種基本表情圖像和3 954 張11種復(fù)合人臉表情圖像.本文使用11 種復(fù)合人臉表情,采用數(shù)據(jù)集提供的3 162 張訓(xùn)練集圖像和792 張測試圖像.
EmotioNet[8].是自然環(huán)境下大型人臉表情數(shù)據(jù)集,它擁有2 478 張帶有人臉表情標(biāo)簽的圖像,由于我們工作集中在復(fù)合人臉表情識別上,同時選擇有明確基本表情組成的復(fù)合人臉表情類別,最后我們從中獲取了1220 張復(fù)合人臉表情圖像,其中訓(xùn)練集圖像為980 個,測試集圖像為240 個.
在實(shí)驗(yàn)設(shè)置方面,首先,我們采用4 層圖卷積網(wǎng)絡(luò),每層維度為350,400,500,600.表情類別知識圖構(gòu)造中,我們選擇的是300 維度的GloVe[18]詞向量作為每個節(jié)點(diǎn)的初始化,圖中邊的構(gòu)造中,我們的參數(shù)設(shè)置為p=0.3,t=0.2.在人臉表情特征提取模塊,我們采用LeakyReLU=0.2 激活函數(shù),預(yù)訓(xùn)練的VGG19為主干網(wǎng)絡(luò),在訓(xùn)練過程中,輸入人臉表情圖像大小歸一化到為100×100,最后得到的圖像特征維度為600,與最后圖卷積后的節(jié)點(diǎn)維度一致.采用SGD 優(yōu)化算法,momentum為0.9,學(xué)習(xí)率初始化設(shè)置為0.01,每30 個epoch 學(xué)習(xí)率衰減10 倍.整個網(wǎng)絡(luò)構(gòu)建使用的是Python 3.6,CUDA10.2,PyTorch 1.3.1.
為了選擇合適的特征提取模型,在RAF-DB 這個數(shù)據(jù)集上,對幾個目前流行的深度學(xué)習(xí)模型的識別準(zhǔn)確率進(jìn)行了對比,即baseDCNN[9],ResNet18,ResNet34,ResNet50,ResNet101[19]和VGG19[20].其中,baseDCNN是RAF-DB 數(shù)據(jù)庫中基準(zhǔn)方法DLP-CNN的特征提取模型,DLP-CNN 能夠提高對學(xué)習(xí)到的特征的識別能力,可以比擬于其它最優(yōu)的方法.所有的模型都是用RAF-DB的訓(xùn)練集數(shù)據(jù)進(jìn)行訓(xùn)練,在測試集上進(jìn)行測試,結(jié)果如表1所示,我們使用的模型除了baseDCNN外,其它都是經(jīng)過ImageNet[21]預(yù)訓(xùn)練過后的模型.從表中可以看出,其它模型的識別率相對VGG19 來說,VGG19的結(jié)果最好,因此,后續(xù)的試驗(yàn)以VGG19 作為選擇的特征提取模型.
表1 不同模型的識別準(zhǔn)確率比較 (%)
我們展現(xiàn)了不同卷積層數(shù)對模型識別率的影響,對于3 層圖卷積網(wǎng)絡(luò),輸出的維度分別是,400,500,600,對于4 層圖卷積,輸出維度為350,450,550,600,對于5 層圖卷積,輸出維度為350,400,450,500,600.通過圖2中的結(jié)果展示,隨著圖卷積數(shù)目的增加,復(fù)合表情識別率先上升后下降,在使用4 層圖卷積的情形下識別率最高.可能的原因是,在使用更多的圖卷積層時,節(jié)點(diǎn)之間的多次傳播導(dǎo)致了過平滑,使得節(jié)點(diǎn)間的區(qū)分性降低,導(dǎo)致識別率的降低,而我們?yōu)榱司徑膺^平滑,在知識圖的構(gòu)造過程中,設(shè)置了t來限制節(jié)點(diǎn)之間邊的連接,設(shè)置p來分配給節(jié)點(diǎn)本身和其相鄰節(jié)點(diǎn)的權(quán)重,一定程度緩解了使用更多的圖卷積層而出現(xiàn)的過平滑,所以才會出現(xiàn)隨著圖卷積層數(shù)的變化,復(fù)合表情識別率也出現(xiàn)了先上升后下降的變化,而且變化幅度不大.
圖2 兩個數(shù)據(jù)集下不同GCN 層數(shù)的準(zhǔn)確率
在表情類別知識圖構(gòu)造中,運(yùn)用詞向量來對圖中節(jié)點(diǎn)進(jìn)行初始化,我們調(diào)查了幾個不同的詞向量表示,包括GloVe,GoogleNew[22]和FastText[23]3 個詞向量表示.圖3展示了這3 種詞向量對實(shí)驗(yàn)結(jié)果的影響,對比于其它的詞向量,GloVe 詞向量下模型的識別率相對較高.我們發(fā)現(xiàn),3 種不同的詞向量下實(shí)驗(yàn)結(jié)果差別不是很大,表明我們模型的識別率受詞向量的影響較小.同時運(yùn)用更加合理準(zhǔn)確的詞向量能夠得到更好的結(jié)果,原因可能是從豐富語料中學(xué)習(xí)到的詞向量包含了豐富的語義信息,我們的模型能夠利用這種有效的語義信息來提升對復(fù)合人臉表情識別的準(zhǔn)確率.
圖3 兩個數(shù)據(jù)集下不同詞向量的準(zhǔn)確率
在表情類別知識圖構(gòu)造中,鄰接矩陣中的t是一個閾值,來決定圖中兩個節(jié)點(diǎn)是否進(jìn)行連接.t∈{0,0.1,0.2,···,0.9,1},其結(jié)果如圖4所示.我們發(fā)現(xiàn),當(dāng)t取值為0 時,表示所有的節(jié)點(diǎn)進(jìn)行連接,隨著t值的增加,減少了一些干擾的邊,使得識別的準(zhǔn)確率不斷的增加,然而,當(dāng)太多的邊刪減之后,節(jié)點(diǎn)之間的關(guān)系不能很好的學(xué)習(xí)到,導(dǎo)致準(zhǔn)確在不斷的下降.我們從圖中發(fā)現(xiàn)在RAF-DB 數(shù)據(jù)集中,t=0.2 時,復(fù)合表情的識別率最好,而在EmotioNet 數(shù)據(jù)集中,t=0.4 時,復(fù)合表情的識別率最好.出現(xiàn)此類情況的原因可能是,不同的數(shù)據(jù)集所擁有的的復(fù)合表情的數(shù)目不同,而根據(jù)數(shù)據(jù)驅(qū)動而構(gòu)造的知識圖也因此受到影響,導(dǎo)致不同數(shù)據(jù)集下合適的t值是不同的.
圖4 兩個數(shù)據(jù)集下不同t 值的準(zhǔn)確率
在表情類別知識圖構(gòu)造中,鄰接矩陣中的p是分配給節(jié)點(diǎn)本身和其相鄰節(jié)點(diǎn)的權(quán)重.為了發(fā)現(xiàn)不同p值構(gòu)造的知識圖對復(fù)合表情識別的影響,我們應(yīng)用p∈{0,0.1,0.2,···,0.9,1},結(jié)果如圖5所示,我們能發(fā)現(xiàn)當(dāng)p=0.3時,它能取得最好的結(jié)果.如果p值太小,圖中節(jié)點(diǎn)不能從鄰接節(jié)點(diǎn)中學(xué)習(xí)到有效的信息,如果p值太大,它將不會保持自身的特征,導(dǎo)致出現(xiàn)過平滑現(xiàn)象.
圖5 兩個數(shù)據(jù)集下不同p 值的準(zhǔn)確率
我們根據(jù)RAF-DB 數(shù)據(jù)集提供的5 個人臉面部關(guān)鍵點(diǎn)位置,劃分出感興趣區(qū)域,使用ROI 網(wǎng)絡(luò)來對這5 個感興趣區(qū)域進(jìn)行特征提取,將得到的局部的人臉表情特征和全局人臉特征進(jìn)行結(jié)合得到最后的人臉表情特征.為了驗(yàn)證ROI 網(wǎng)絡(luò)的有效性,我們從模型中移除ROI 網(wǎng)絡(luò),直接進(jìn)行復(fù)合人臉表情識別,我們將缺失了ROI 網(wǎng)絡(luò)的模型稱為GCN-ML-CFER-ROI.由于EmotioNet 數(shù)據(jù)集中沒有提供準(zhǔn)確的人臉面部關(guān)鍵點(diǎn)位置,所在RAF-DB 數(shù)據(jù)集中進(jìn)行比較.對比結(jié)果如表2所示.我們發(fā)現(xiàn),在RAF-DB 數(shù)據(jù)集中,ROI 網(wǎng)絡(luò)的使用提升了復(fù)合人臉表情的識別率,提升了大約1.3%左右,原因很可能是通過ROI 網(wǎng)絡(luò),我們提取到了更有效的人臉表情特征,從而使得整個模型的復(fù)合人臉表情準(zhǔn)確率得到了提升.
表2 RAF-DB 數(shù)據(jù)集中ROI 網(wǎng)絡(luò)影響下的準(zhǔn)確率 (%)
實(shí)驗(yàn)與目前的主流研究方法作對比.表1給出了對比方法的準(zhǔn)確率結(jié)果.表1中的對比方法是在單標(biāo)簽學(xué)習(xí)基礎(chǔ)上進(jìn)行的,復(fù)合人臉表情圖像對應(yīng)復(fù)合人臉表情類別,即一張人臉表情圖像對應(yīng)一個標(biāo)簽.表3中是我們提出的基于圖卷積多標(biāo)簽的復(fù)合人臉表情識別模型GCN-ML-CFER的準(zhǔn)確率結(jié)果.從表3中可以明顯看出多標(biāo)簽學(xué)習(xí)下對復(fù)合人臉表情識別的準(zhǔn)確率明顯高于單標(biāo)簽學(xué)習(xí)下的準(zhǔn)確率.
表3給出了在多標(biāo)簽學(xué)習(xí)中,我們模型在不同主干網(wǎng)絡(luò)下的準(zhǔn)確率結(jié)果,從中可以看出:將我們模型的提取人臉表情特征的主干網(wǎng)絡(luò)替換,整個模型的復(fù)合人臉表情識別率都高于對應(yīng)的原先的模型.其中提升效果最好的為VGG19 方法,相較于單獨(dú)使用預(yù)訓(xùn)練過后的VGG19 模型,在RAF-DB 數(shù)據(jù)集中識別效果高出了4.92%,在EmotioNet 數(shù)據(jù)集中高出了4.16%,實(shí)現(xiàn)了在這兩個數(shù)據(jù)集下最好的識別效果,證明了圖卷積模塊可以獲取表情類別之間的關(guān)系,來更好的輔助復(fù)合人臉表情識別.
表3 模型在不同主干網(wǎng)絡(luò)下的準(zhǔn)確率比較結(jié)果 (%)
圖6給出了我們模型在兩個數(shù)據(jù)集上最好識別率下的混淆矩陣.在RAF-DB 數(shù)據(jù)集下的混淆矩陣中發(fā)現(xiàn),fearfully angry和fearfully surprised復(fù)合表情的識別率較高,而sadly angry和sadly surprised復(fù)合表情的識別率較低.在EmotioNet 數(shù)據(jù)集下的混下矩陣中,fearfully surprised和happily disgusted的識別率較高,而angrily disgusted和sadly angry的識別率較低.可能原因一方面在于,數(shù)據(jù)集中復(fù)合表情的樣本數(shù)目不平衡所致,數(shù)據(jù)集中復(fù)合表情的樣本數(shù)目越多,學(xué)習(xí)到的對應(yīng)的表情特征越準(zhǔn)確,另一方面,構(gòu)成復(fù)合表情的基本表情一起出現(xiàn)的概率越高,圖卷積通過語義空間學(xué)習(xí)的表情類別分類器越準(zhǔn)確,最后有效的提升相應(yīng)復(fù)合表情的識別率.
圖6 GCN-ML-CFER 模型在兩個數(shù)據(jù)集下的混淆矩陣
對于復(fù)合人臉表情識別,本文提出了一種基于圖卷積多標(biāo)簽學(xué)習(xí)的復(fù)合人臉表情識別方法.針對表情類別之間的關(guān)聯(lián)性,本文將基本表情類別作為圖中的節(jié)點(diǎn),利用先驗(yàn)知識和數(shù)據(jù)驅(qū)動方法,構(gòu)建了表情類別知識圖,再通過圖卷積網(wǎng)絡(luò)來有效提取知識圖中的關(guān)系信息,以提高復(fù)合人臉表情識別的性能.在RAF-DB和EmotioNet 這兩個數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明:所提出的方法在復(fù)合人臉表情識別上達(dá)到了很好的效果.由于本文主要是對復(fù)合人臉表情進(jìn)行識別,對所有表情混合進(jìn)行識別沒有深入考慮,同時,圖中節(jié)點(diǎn)特征的初始化使用的是詞向量,需要進(jìn)一步研究是否有更合適的方式,從而更加有效的提升人臉表情識別的準(zhǔn)確率.