祝錦泰,葉繼華,郭鳳,江蕗,江愛(ài)文
(1.江西師范大學(xué)計(jì)算機(jī)信息工程學(xué)院,江西 南昌 330022;2.淄博技師學(xué)院信息工程系,山東 淄博 255030)
基于視頻的人臉表情識(shí)別是表情識(shí)別任務(wù)的一部分,主要包含視頻數(shù)據(jù)預(yù)處理、表情特征提取與分類,其中,視頻中人臉表情信息的提取尤為重要。已有方法中,一部分通過(guò)CNN 網(wǎng)絡(luò)及其變體直接對(duì)視頻幀進(jìn)行表情特征提取,如HE 等[1]提出的ResNet在表情識(shí)別任務(wù)中取得了不錯(cuò)效果,YAO 等[2]提出的HoloNet 網(wǎng)絡(luò)在視頻任務(wù)中給出了新的思路,LIU 等[3]提出的DenseNet 在AFEW 表情數(shù)據(jù)集中的識(shí)別率達(dá)51.44%。另一部分通過(guò)幀間信息特征融合得到視頻表示,以取得更高的表情識(shí)別率,如MENG 等[4]引入了注意力模型,對(duì)視頻相對(duì)幀的特征向量進(jìn)行融合,取得了較好的識(shí)別效果,GAO等[5]嘗試引入圖卷積模型,結(jié)合注意力機(jī)制與圖的節(jié)點(diǎn)特征,實(shí)現(xiàn)了對(duì)視頻序列中表情的識(shí)別,通過(guò)新方法的交叉應(yīng)用令識(shí)別率不斷提升,XIE 等[6]通過(guò)改進(jìn)和優(yōu)化超參數(shù)算法,在AFEW 數(shù)據(jù)集與CK+數(shù)據(jù)集中取得了較好的識(shí)別效果。
在已有基于視頻的表情數(shù)據(jù)集中,有些由實(shí)驗(yàn)室采集,如CK+數(shù)據(jù)集[7],表情多由平靜走向峰值,訓(xùn)練相對(duì)容易,且大多網(wǎng)絡(luò)均具較高的識(shí)別率;有些通過(guò)剪輯的方式從電影的人臉表情視頻片段中獲取,如AFEW 數(shù)據(jù)集[8],此類數(shù)據(jù)集制作較困難,易導(dǎo)致同一片段中的表情分布不均勻,表情信息可能出現(xiàn)在中間幾幀,也可能出現(xiàn)在前后幾幀,甚至部分視頻片段的某幾幀不存在人臉信息,然而,目前已有的對(duì)于視頻幀的選擇方式大多為默認(rèn)挑選最后一幀或隨機(jī)選擇某幾幀,使得所選視頻幀中含有一定量無(wú)表情幀,影響模型的識(shí)別率。此外,基于視頻的表情識(shí)別網(wǎng)絡(luò),參數(shù)多、訓(xùn)練成本大,無(wú)法較好地應(yīng)用于實(shí)際。
為解決上述問(wèn)題,筆者設(shè)計(jì)了一個(gè)視頻幀選擇網(wǎng)絡(luò),通過(guò)自注意力機(jī)制賦予表情特征顯著的幀以較高的權(quán)重,并根據(jù)幀的損失大小對(duì)視頻信息進(jìn)行劃分,從而實(shí)現(xiàn)對(duì)具有顯著表情特征幀的選擇,即關(guān)鍵幀自主選擇,此外,將幀選擇模型與GhostNet 結(jié)合,在提高識(shí)別率的同時(shí)大幅度減少了模型參數(shù),從而降低模型訓(xùn)練的成本。本方法在CK+(Coh-Ka-Made dataset)和AFEW 這2 個(gè)公開(kāi)數(shù)據(jù)集上均取得了不錯(cuò)的效果。
本文的主要貢獻(xiàn):提出了一種基于注意力機(jī)制的幀選擇模型,可使其在視頻幀的選擇任務(wù)中,盡可能選擇表情特征顯著的關(guān)鍵幀,從而提高識(shí)別率;設(shè)計(jì)了一個(gè)幀選擇損失函數(shù),通過(guò)計(jì)算幀信息的注意力權(quán)重,按幀對(duì)每段視頻的信息進(jìn)行有效性劃分;將注意力模型與GhostNet 有效結(jié)合,在提高識(shí)別率的同時(shí)大幅度減少了模型參數(shù),從而降低模型訓(xùn)練的成本。
根據(jù)特征提取方式的不同,基于視頻的人臉表情識(shí)別可分為兩大類:(1)傳統(tǒng)手工特征提取方法,采用傳統(tǒng)方法,手工提取表情特征并進(jìn)行定位;(2)基于深度學(xué)習(xí)的特征提取方法,其優(yōu)勢(shì)是可自動(dòng)提取特征,且可提取部分手工無(wú)法提取的特征。
傳統(tǒng)手工特征提取方法主要包含局部二值模式(local binary pattern,LBP)[9]與方向梯度直方圖[10]等,其在表情識(shí)別任務(wù)中取得了較好的效果,但因不能自發(fā)學(xué)習(xí)并提取表情深度特征,限制了其進(jìn)一步發(fā)展。
隨著深度學(xué)習(xí)的發(fā)展與完善,更多的深度學(xué)習(xí)模型被應(yīng)用于表情識(shí)別,基于深度學(xué)習(xí)的特征提取方法主要有針對(duì)連續(xù)幀的特征提取與針對(duì)離散幀的特征提取2 種。
基于時(shí)空的特征提取方法其目的是為視頻中的時(shí)間或運(yùn)動(dòng)信息建模,主要用于連續(xù)幀的特征提取。目前,最常見(jiàn)的時(shí)空特征提取模型有長(zhǎng)短期記憶模型(LSTM)和3D 卷積神經(jīng)網(wǎng)絡(luò)(C3D)。利用特征向量提取序列信息的長(zhǎng)短期記憶模型已成功應(yīng)用于視頻序列的特征提取。HOCHREITER 等[11]提出了一種可靈活處理長(zhǎng)度(長(zhǎng)度可變)的連續(xù)數(shù)據(jù)LSTM 模型,有效提升了連續(xù)幀任務(wù)中表情的識(shí)別率。此外,3D 卷積神經(jīng)網(wǎng)絡(luò)與CNN 和LSTM相結(jié)合的組合神經(jīng)網(wǎng)絡(luò)也開(kāi)始廣泛用于視頻表情識(shí)別。
在針對(duì)離散幀的特征提取任務(wù)中,為獲得與不同幀相關(guān)聯(lián)的視頻信息,如何融合視頻幀實(shí)現(xiàn)更合理高效的視頻表示廣受關(guān)注,BARGAL 等[12]提出的統(tǒng)計(jì)編碼單元(STAT),通過(guò)計(jì)算每幀特征向量的平均值、最大值、最小值等實(shí)現(xiàn)幀間信息融合。ZHAO等[13]提出了一種峰值導(dǎo)頻深度網(wǎng)絡(luò)(PPDN),將同一測(cè)試者的非表情峰值和表情峰值圖像輸入神經(jīng)網(wǎng)絡(luò),利用L2 損失最小化2 個(gè)輸入圖像的距離,從而使網(wǎng)絡(luò)可學(xué)習(xí)表情峰值與非峰值的差異,最終將學(xué)習(xí)到的差異用于視頻幀的選擇與表情分類。
基于注意力機(jī)制與GhostNet 的人臉表情識(shí)別模型處理表情視頻序列的執(zhí)行過(guò)程如圖1 所示。主要分為特征嵌入(由GhostNet 實(shí)現(xiàn))、幀間信息融合和視頻幀選擇3 個(gè)基本模塊。
圖1 基于注意力機(jī)制與GhostNet 的人臉表情識(shí)別模型Fig.1 FSAGN model
特征嵌入模塊,主要用于提取視頻每幀的特征,并將其嵌入向量。為降低參數(shù)量、提升模型性能、降低訓(xùn)練成本,本文用GhostNet提取特征,并同時(shí)進(jìn)行特征嵌入,GhostNet特征提取的可視化效果如圖2 所示。由圖2 可知,GhostNet 提取的特征非常抽象,屬于圖像的高級(jí)特征,且隨著網(wǎng)絡(luò)深度的增加,其對(duì)不含人臉的圖像提取的特征較混亂,而對(duì)含人臉的圖像提取的特征大多包含了人臉的關(guān)鍵部位。
圖2 GhostNet 隨機(jī)提取AFEW 數(shù)據(jù)集特征圖展示Fig.2 GhostNet randomly extracted AFEW data set feature map display
自注意力模塊,主要通過(guò)自注意力機(jī)制對(duì)視頻每幀圖像的特征向量用sigmoid 函數(shù)計(jì)算其注意力權(quán)重,注意力權(quán)重為0~1,值越大代表此幀圖像包含的表情特征越顯著。幀間信息融合模塊,主要用于視頻幀的幀間信息融合,通過(guò)融合各關(guān)鍵幀的特征向量,得到較為準(zhǔn)確的視頻表示形式,并與自注意力權(quán)重融合,得到幀間信息注意力權(quán)重,權(quán)重越大表示此視頻幀對(duì)整段視頻的意義越顯著。視頻幀選擇模塊,對(duì)視頻關(guān)鍵幀進(jìn)行選擇,首先獲取由自注意力模塊與幀間信息融合模塊計(jì)算得到的各幀注意力權(quán)重,再通過(guò)幀選擇損失對(duì)關(guān)鍵幀與非關(guān)鍵幀進(jìn)行劃分,最終在視頻中挑選出表情特征豐富的關(guān)鍵幀,即注意力權(quán)重較大的幀進(jìn)行后續(xù)分類操作,通過(guò)此模塊,模型可以自發(fā)地學(xué)習(xí)如何在一段視頻中挑選表情信息豐富的關(guān)鍵幀。模型設(shè)計(jì)了ATCE Loss 實(shí)現(xiàn)結(jié)合注意力權(quán)重的交叉熵?fù)p失函數(shù),在進(jìn)行分類損失計(jì)算時(shí),可更多地將注意力關(guān)注到難分類樣本,從而提升分類效果。
綜上所述,模型算法流程如圖3 所示。
圖3 模型算法流程Fig.3 Model algorithm flow
首先將一段視頻幀v1,v2,…,vn導(dǎo)入GhostNet網(wǎng)絡(luò),得到一組特征向量F1,F(xiàn)2,…,F(xiàn)n,隨后由這一組特征向量通過(guò)自注意力機(jī)制得到每幀圖像對(duì)應(yīng)的自注意力權(quán)重值α1,α2,…,αn,將特征向量與權(quán)重值進(jìn)行幀間信息融合,并計(jì)算融合后的向量相較原向量的損失,得到每張圖像對(duì)應(yīng)的相對(duì)幀權(quán)重β,獲取兩組注意力權(quán)重后,通過(guò)綜合權(quán)重?fù)p失Lw_fu 約束得到最后的綜合權(quán)重γ。為自發(fā)選擇視頻關(guān)鍵幀,設(shè)計(jì)幀選擇損失Lfs,去除視頻段中特征不豐富的視頻幀,完成關(guān)鍵幀的自發(fā)選擇。最后,由ATCE 損失得到最終的分類結(jié)果。
GhostNet[14]為一種輕量級(jí)網(wǎng)絡(luò)。先提取一半圖像特征,再由這部分特征經(jīng)線性計(jì)算得到剩余的特征,因此GhostNet 在保證模型性能的同時(shí),大大減輕了訓(xùn)練成本。目前GhostNet 主要用于圖像識(shí)別,尚未見(jiàn)用于視頻領(lǐng)域的表情識(shí)別。
實(shí)驗(yàn)發(fā)現(xiàn),在包括AFEW 數(shù)據(jù)集與CK+數(shù)據(jù)集在內(nèi)的多個(gè)表情數(shù)據(jù)集中,在第一層神經(jīng)網(wǎng)絡(luò)提取的特征中也存在成對(duì)冗余現(xiàn)象,這與GhostNet 解決的問(wèn)題極為接近。為此,本文將GhostNet 與注意力模型相結(jié)合,在提升識(shí)別率的同時(shí),可大大減少訓(xùn)練參數(shù),降低訓(xùn)練成本。
2.2.1 基于自注意力機(jī)制的視頻幀權(quán)重分配
通過(guò)自注意力機(jī)制與幀選擇損失實(shí)現(xiàn)對(duì)關(guān)鍵幀的選取。值得注意的是,在一段含有表情動(dòng)作的視頻序列中,往往只有某幾幀包含表情特征,其他幀中表情相對(duì)平淡,或不含表情信息;在某些數(shù)據(jù)集中,甚至一段視頻中大多數(shù)幀不包含人臉信息,只有個(gè)別幀存在表情信息。圖4 所示的為AFEW 數(shù)據(jù)集中的某視頻片段,只在第3 幀中存在包含表情的人臉信息,其余幀均不含表情信息,本文將通過(guò)設(shè)計(jì)自注意力模塊解決此問(wèn)題。
圖4 AFEW 數(shù)據(jù)集中某視頻片段Fig.4 A video clip in the AFEW dataset
自注意力模塊通過(guò)自注意力機(jī)制對(duì)表情特征豐富的幀賦予高權(quán)值,對(duì)表情特征不顯著的幀賦予低權(quán)值,最后通過(guò)幀選擇損失對(duì)所有幀權(quán)值進(jìn)行排序,得到表情信息豐富的幀。
首先,用GhostNet 提取視頻中每幀的特征,得到對(duì)應(yīng)幀的特征向量。隨后,通過(guò)全連接層與sigmoid 函數(shù)為當(dāng)前幀分配注意力權(quán)重,注意力模型中常用的求解注意力權(quán)重的公式為
至此,本模型已經(jīng)得到視頻幀對(duì)應(yīng)的自注意力權(quán)重與幀間信息注意力權(quán)重,為更好地利用這2 個(gè)權(quán)重,對(duì)其進(jìn)行加權(quán)融合,得到綜合權(quán)重γ。令γ=ζ1·α+ζ2·β,需要注意的是,為便于后續(xù)網(wǎng)絡(luò)操作,綜合權(quán)重須約束在[0,1]內(nèi),若綜合權(quán)重不在此區(qū)間,則會(huì)使模型的收斂出現(xiàn)問(wèn)題。為實(shí)現(xiàn)綜合權(quán)重的動(dòng)態(tài)選擇,并保證綜合權(quán)重在[0,1]內(nèi),將綜合權(quán)重融合損失Lw_fu定義為
其中,ζ1與ζ2均為損失函數(shù)需要優(yōu)化的參數(shù),α和β分別為自注意力權(quán)重與幀間信息注意力權(quán)重。通過(guò)定義此損失函數(shù),可對(duì)自注意力權(quán)重與幀間信息注意力權(quán)重進(jìn)行相關(guān)性加權(quán)得到綜合權(quán)重,并將綜合權(quán)重約束在[0,1]內(nèi),從而確保模型訓(xùn)練的有效性。
最終,通過(guò)幀間信息融合,得到結(jié)合綜合注意力權(quán)重的視頻表示式:
其中,γi為第i幀圖像的綜合權(quán)重。
為選擇關(guān)鍵幀,設(shè)計(jì)了視頻幀選擇損失。在視頻幀選擇模塊中,首先用比率η通過(guò)學(xué)習(xí)將視頻幀權(quán)重劃分為高權(quán)重與低權(quán)重2 個(gè)組,筆者設(shè)計(jì)了一個(gè)視頻選擇損失,可確保高權(quán)重組的平均權(quán)重遠(yuǎn)大于低權(quán)重組的平均權(quán)重。損失函數(shù)定義為
δ為可調(diào)整超參數(shù),用于對(duì)視頻幀進(jìn)行合理分組,γ為融合了自注意力權(quán)重與幀間信息的綜合權(quán)重,γH與γL分別為高權(quán)重組與低權(quán)重組的平均權(quán)重,N為幀的總數(shù),M為N與比率η的乘積,當(dāng)且僅當(dāng)γH-γL>δ 時(shí)(其中δ為自定義超參數(shù)),損失降至最小值。通過(guò)計(jì)算損失函數(shù),合理劃分高權(quán)重組與低權(quán)重組,本文選擇高權(quán)重組中的幀作為對(duì)應(yīng)視頻的關(guān)鍵幀進(jìn)行后續(xù)分類操作,而低權(quán)重組中的幀因無(wú)法較好地表征表情特征,予以丟棄。
多分類交叉熵?fù)p失是深度學(xué)習(xí)分類任務(wù)中常用的損失函數(shù),而將注意力權(quán)重引入損失函數(shù)可取得更好的效果[15],焦點(diǎn)損失函數(shù)[16]通過(guò)置信度區(qū)間將樣本分為難分類樣本與易分類樣本,實(shí)現(xiàn)模型對(duì)難分樣本的關(guān)注,通過(guò)設(shè)置超參數(shù)提高難分類樣本損失。本文在注意力模塊中經(jīng)計(jì)算得到每幀的注意力權(quán)重,因在幀選擇模塊中非關(guān)鍵幀已被拋棄,所以在剩余樣本中,可將高權(quán)重幀歸為易分類樣本、低權(quán)重幀歸為難分類樣本。在此基礎(chǔ)上,本文設(shè)計(jì)了結(jié)合注意力權(quán)重的交叉熵?fù)p失(attention based crossentropy loss),將得到的注意力權(quán)重與交叉熵?fù)p失結(jié)合,實(shí)現(xiàn)降低易分類樣本損失、提高難分類樣本損失的目的。在原始交叉熵?fù)p失的基礎(chǔ)上,將不同樣本與其對(duì)應(yīng)注意力權(quán)重進(jìn)行乘法運(yùn)算,得到考慮了注意力的交叉熵?fù)p失。損失函數(shù)定義為
其中,Wj,bj分別為第j個(gè)類別的權(quán)值參數(shù)與偏置參數(shù),xi為第i個(gè)樣本,Wyi和byi分別為神經(jīng)網(wǎng)絡(luò)中的參數(shù)與偏置。由式(2)可知,γ的取值將影響損失的大小,且二者成正比關(guān)系。
在模型的訓(xùn)練過(guò)程中,總的損失函數(shù)可定義為
其中,λ1,λ2,λ3,λ4為平衡率,且λ1+λ2=1,λ3=0.05~0.25,λ4=0.5~0.9。
所用數(shù)據(jù)集為CK+與AFEW。CK+數(shù)據(jù)集共有123 位參與者,包含593 個(gè)視頻序列,被標(biāo)記為憤怒、蔑視、厭惡、恐懼、快樂(lè)、悲傷和驚訝共7 種基本表情標(biāo)簽。CK+數(shù)據(jù)集未分訓(xùn)練集與測(cè)試集,本文按照等樣本規(guī)則將其劃分為訓(xùn)練集與測(cè)試集,并通過(guò)旋轉(zhuǎn)、平移等方式進(jìn)行數(shù)據(jù)增強(qiáng)操作。
AFEW 數(shù)據(jù)集包含了從不同電影或電視劇中剪輯的表情視頻片段,無(wú)用信息多,訓(xùn)練難度較大。AFEW 數(shù)據(jù)集分訓(xùn)練集、驗(yàn)證集與測(cè)試集三部分,其中,訓(xùn)練集樣本773 個(gè),驗(yàn)證集383 個(gè),測(cè)試集653個(gè)。因?yàn)锳FEW 的測(cè)試集樣本是非開(kāi)放的,所以只選擇其中的訓(xùn)練集與驗(yàn)證集。
用pytorch 工具構(gòu)建訓(xùn)練特征集合。首先,提取各視頻的RGB 視頻幀序列,隨后將分辨率調(diào)整至224×224。然后,通過(guò)旋轉(zhuǎn)、平移、滑動(dòng)等操作,對(duì)視頻幀進(jìn)行數(shù)據(jù)增強(qiáng),將2 個(gè)數(shù)據(jù)集的數(shù)量擴(kuò)充10倍。用SGD 優(yōu)化器對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化,動(dòng)量設(shè)置為0.9,權(quán)重衰減為0.000 1。在CK+數(shù)據(jù)集中,設(shè)置初始學(xué)習(xí)率為0.1,且每隔20 個(gè)循環(huán)降0.02,共進(jìn)行80 次循環(huán)。在AFEW 數(shù)據(jù)集中,設(shè)置初始學(xué)習(xí)率為0.001,且每隔40 個(gè)循環(huán)降0.000 2,共進(jìn)行200 次循環(huán)。
實(shí)驗(yàn)環(huán)境為CPU Intel Core i5-6500,內(nèi)存為16 GB,顯卡型號(hào)為NVIDIA GeForce GTX 1080ti,操作系統(tǒng)為Ubuntu16.04,采用pytorch 深度學(xué)習(xí)框架。
表情識(shí)別準(zhǔn)確率是表情識(shí)別任務(wù)中常用的評(píng)價(jià)方法,本文在識(shí)別任務(wù)后首先計(jì)算單類別識(shí)別準(zhǔn)確率,即預(yù)測(cè)正確的視頻數(shù)量與視頻總數(shù)量的比值,之后,以所有類別識(shí)別準(zhǔn)確率的平均值作為最終的評(píng)價(jià)指標(biāo)。
3.2.1 CK+數(shù)據(jù)集
CK+數(shù)據(jù)集由實(shí)驗(yàn)室制作,數(shù)據(jù)集質(zhì)量較高,外部環(huán)境對(duì)視頻質(zhì)量的影響較小。由于CK+數(shù)據(jù)集視頻中的人臉表情大多由平靜向表情峰值逐漸變化,因此通常選擇最后一幀或后幾幀進(jìn)行特征提取與分類。為驗(yàn)證方法的有效性,將本文算法與效果較好的幾種已有算法進(jìn)行了實(shí)驗(yàn)對(duì)比,見(jiàn)表1。
表1 CK+數(shù)據(jù)集上各算法的識(shí)別率Table 1 The recognition rate of each method on CK+dataset
由表1 知,本文算法的平均識(shí)別率為99.64%,排第2,其中,SIKKA 等[18]提出的LoMo 算法提取了傳統(tǒng)的SIFT 及LBP 特征,并通過(guò)SVM 進(jìn)行分類,其識(shí)別率可達(dá)92%。CAI 等[20]將CNN 模型與Island 損失函數(shù)結(jié)合,應(yīng)用于表情分類任務(wù),取得了94.35%的識(shí)別率。HE 等[1]提出的RASNet 模型,將注意力模塊嵌入卷積層,得到了96.28%的識(shí)別率。MENG 等[4]提出的FAN 模型,引入自注意力與相對(duì)注意力模塊,在隨機(jī)挑選視頻幀的基礎(chǔ)上,實(shí)現(xiàn)了99.69%的高識(shí)別率,是目前較出色的算法。本文算法的識(shí)別率為99.62%,僅次于MENG 等[4]的算法,算法有效。
3.2.2 AFEW 數(shù)據(jù)集
AFEW 數(shù)據(jù)集由工作人員從影視節(jié)目中剪輯而來(lái),用于EmotionW 競(jìng)賽,其環(huán)境復(fù)雜度高、表情特征不顯著、個(gè)別視頻幀不含表情特征,模型學(xué)習(xí)困難,是當(dāng)前表情識(shí)別領(lǐng)域極具挑戰(zhàn)性的數(shù)據(jù)集之一。表2 為當(dāng)前AFEW 數(shù)據(jù)集中表現(xiàn)較好的幾個(gè)算法的比較。
表2 AFEW 數(shù)據(jù)集上各算法的識(shí)別率Table 2 The recognition rate of each method on AFEW dataset
其中,CNN-RNN 與VGG-LSTM 算法將卷積神經(jīng)網(wǎng)絡(luò)與循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行了有效結(jié)合,即先通過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取視頻幀特征,再將特征向量導(dǎo)入循環(huán)神經(jīng)網(wǎng)絡(luò),學(xué)習(xí)其時(shí)間特征,最后進(jìn)行表情分類。此算法學(xué)習(xí)了視頻的動(dòng)態(tài)時(shí)間信息,在一定程度上將循環(huán)神經(jīng)網(wǎng)絡(luò)帶入表情識(shí)別任務(wù),并取得了一定的效果。HoloNet 與DenseNet 算法則以卷積神經(jīng)網(wǎng)絡(luò)為基本框架,不包含動(dòng)態(tài)時(shí)間信息,是一種靜態(tài)識(shí)別方法。FAN 算法在AFEW 數(shù)據(jù)集也取得了不錯(cuò)的效果。
由表2 知,本文方法達(dá)到了較高水準(zhǔn),識(shí)別率較VGG-LSTM 等動(dòng)態(tài)模型有較大幅度提升,超DenseNet 0.81%。值得注意的是,F(xiàn)AN 算法也采用自注意力與相對(duì)注意力相結(jié)合的架構(gòu)進(jìn)行幀間信息融合操作,但因采用的是隨機(jī)方式選擇視頻幀,導(dǎo)致其在AFEW 數(shù)據(jù)集中容易選擇表情特征不顯著甚至不包含表情特征的圖像,使模型學(xué)習(xí)到不利于表情識(shí)別的特征,降低了模型的識(shí)別率。經(jīng)改進(jìn),本文算法的表情識(shí)別率有了較大提升。此外,在相同數(shù)據(jù)集下,通過(guò)引入GhostNet,在識(shí)別率提升的同時(shí)訓(xùn)練時(shí)間得以大幅縮短。
3.3.1 3 個(gè)模塊對(duì)實(shí)驗(yàn)效果的影響分析
本文模型包含基于自注意力機(jī)制的幀選擇模塊、結(jié)合GhostNet 的特征提取模塊、基于相對(duì)幀注意力機(jī)制的幀間信息融合模塊。為判斷模型中每個(gè)模塊的意義,設(shè)計(jì)了消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3所示。
表3 3 個(gè)模塊的實(shí)驗(yàn)效果比較Table 3 Effect comparison of three modules
在沒(méi)有使用GhostNet 的實(shí)驗(yàn)中,用ResNet19提取視頻圖像特征。由表3 前兩行可知,在特征提取時(shí),將其他網(wǎng)絡(luò)替換為GhostNet,實(shí)驗(yàn)效果不僅不會(huì)提升,反而略有下降;由表3 第3 行知,幀選擇模塊可大幅提升識(shí)別率,在不使用幀間信息融合模塊與GhostNet 的前提下,加入幀選擇模塊,即式(2)與式(3),識(shí)別率在CK+數(shù)據(jù)集中提升了10%,在AFEW 數(shù)據(jù)集中提升了7%,說(shuō)明加入基于自注意力機(jī)制的幀選擇模塊是有效的。由表3 第4、第5 行知,在使用幀選擇模塊、不使用GhostNet 的前提下,加入幀間信息融合模塊,即式(5),識(shí)別率有小幅提升;同樣,在使用GhostNet 后,不加入幀間信息融合模塊,識(shí)別率也有小幅提升,這也說(shuō)明加入幀間信息融合模塊是有效的。由表3 最后一行知,在使用幀選擇模塊與幀間信息融合模塊的前提下,引入GhostNet 的識(shí)別率較不引入有較小幅度提升,考慮GhostNet 的網(wǎng)絡(luò)架構(gòu),實(shí)驗(yàn)參數(shù)較少,訓(xùn)練時(shí)間較其他網(wǎng)絡(luò)大幅減少,因此大大降低了模型訓(xùn)練成本。
3.3.2 平衡率λ對(duì)識(shí)別率的影響分析
對(duì)分類損失函數(shù)ATCE Loss 與幀選擇損失函數(shù)FrameChoice Loss 的平衡率λ1和λ2進(jìn)行了實(shí)驗(yàn),以判斷λ1和λ2的選取對(duì)識(shí)別率的影響。實(shí)驗(yàn)在不包含λ3和λ4的條件下進(jìn)行,結(jié)果如表4 所示。發(fā)現(xiàn)λ1取0.4 時(shí)效果最好,逐漸提升或降低λ1,效果變差,由此說(shuō)明,分類損失函數(shù)的權(quán)重較幀選擇損失函數(shù)大。
表4 λ1和λ2的不同取值對(duì)模型識(shí)別率的影響Table 4 The influence of different values of λ1 and λ2 on model recognition rate
同時(shí),對(duì)幀融合損失平衡率λ3與權(quán)重融合損失平衡率λ4進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果分別如表5 和表6 所示,其中λ1和λ2分別取0.4 和0.6,對(duì)λ3的實(shí)驗(yàn),將λ4設(shè)置為0.7,對(duì)λ4的實(shí)驗(yàn),將λ3設(shè)置為0.15。發(fā)現(xiàn),當(dāng)λ3取0.15 時(shí)效果最佳,在AFEW 數(shù)據(jù)集中相較原模型提高了0.04%,在CK+數(shù)據(jù)集中則無(wú)明顯提升,λ3的取值越高效果越差,這也說(shuō)明幀融合損失函數(shù)對(duì)模型的提升具有局限性,面對(duì)實(shí)驗(yàn)室場(chǎng)景下的數(shù)據(jù)集,因數(shù)據(jù)完善,提升效果不明顯,而對(duì)于自然場(chǎng)景下的數(shù)據(jù)集,可以有效融合自注意力權(quán)重與原圖像,實(shí)現(xiàn)識(shí)別率的提升;在另一組實(shí)驗(yàn)中,當(dāng)λ4取0.7時(shí),識(shí)別率有較大提升,說(shuō)明綜合權(quán)重的選擇對(duì)提升模型識(shí)別率有重要意義。
表5 λ3的不同取值對(duì)應(yīng)的模型識(shí)別率Table 5 The recognition rate of the model with different values λ3
表6 λ4的不同取值對(duì)應(yīng)的模型識(shí)別率Table 6 The recognition rate of the model with different values λ4
3.3.3 高權(quán)重視頻幀比率γ對(duì)識(shí)別率的影響分析
γ為高權(quán)重組樣本占總樣本的比率。實(shí)驗(yàn)發(fā)現(xiàn),比率γ對(duì)模型的識(shí)別效果有一定影響,圖5 中,黃色折線表示模型在CK+數(shù)據(jù)集中的識(shí)別率,藍(lán)色折線表示模型在AFEW 數(shù)據(jù)集中的識(shí)別率。由圖5 可知,當(dāng)γ為0.7 時(shí),模型在AFEW 數(shù)據(jù)集中取得了最佳效果,當(dāng)γ小于0.7 時(shí),易造成過(guò)多視頻幀被拋棄,丟失部分有用信息,導(dǎo)致模型識(shí)別率下降;反之,若γ過(guò)大,保留了絕大多數(shù)視頻幀,無(wú)法有效刪除無(wú)用視頻幀,影響模型的識(shí)別率。值得注意的是,當(dāng)γ為0.8 時(shí),模型在CK+數(shù)據(jù)集中取得了最佳效果。分析發(fā)現(xiàn),因CK+數(shù)據(jù)集與表情無(wú)關(guān)的信息較少,對(duì)動(dòng)態(tài)選擇視頻幀的需求相對(duì)較低,所以當(dāng)γ較高時(shí),識(shí)別率更好。
圖5 比率γ 對(duì)模型識(shí)別效果的影響Fig.5 The influence of parameter γ on model recognition effect
3.3.4 分組閾值參數(shù)δ對(duì)識(shí)別率的影響分析
δ為對(duì)視頻幀進(jìn)行分組的閾值參數(shù),如圖6 所示,黃色折線表示模型在CK+數(shù)據(jù)集中的識(shí)別率,藍(lán)色折線表示模型在AFEW 數(shù)據(jù)集中的識(shí)別率。由圖6 可知,當(dāng)參數(shù)δ為0.2 時(shí),模型在AFEW 數(shù)據(jù)集中取得了最佳效果,當(dāng)δ為0.15 時(shí),模型在CK+數(shù)據(jù)集中取得了最佳效果,說(shuō)明此時(shí)高權(quán)重組權(quán)重平均值γH與低權(quán)重組權(quán)重平均值γL處于相對(duì)平衡狀態(tài),若破壞其平衡狀態(tài)則會(huì)令模型效果變差。
圖6 參數(shù)δ 對(duì)模型識(shí)別效果的影響Fig.6 The influence of parameter δ on model recognition effect
為更好地證明幀選擇模塊在模型中的意義,在AFEW 數(shù)據(jù)集實(shí)驗(yàn)中對(duì)幀選擇權(quán)重γ進(jìn)行了記錄和可視化。如圖7 所示,分別從AFEW 數(shù)據(jù)集7 種標(biāo)簽中隨機(jī)挑選一段視頻,為方便記錄,挑選的視頻均只包含6 幀,其中,紅色虛線框表示拋棄視頻幀,藍(lán)色虛線框表示保留視頻幀。在對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練后,記錄挑選視頻幀的權(quán)重γ,并對(duì)其做可視化操作。若一段視頻中包含不存在人臉信息的視頻幀,如惡心、害怕、悲傷3 段視頻,不含人臉信息的幀權(quán)重得分較低,而剩余包含人臉信息的視頻幀權(quán)重得分較高,所以,在視頻幀選擇過(guò)程中,刪除不包含人臉信息的視頻幀;若一段視頻全為人臉信息,則出現(xiàn)2 種權(quán)重值分配方式,如生氣、高興、驚喜3 段視頻,幀與幀之間表情反差較大,存在由無(wú)表情到有表情的變化,通過(guò)權(quán)值分配,雖然權(quán)重差異并不大,但依然完成了對(duì)表情特征較豐富的關(guān)鍵幀的選取,此外,如圖7 中的中性視頻片段所示,整段視頻不存在明顯的表情變化,各幀注意力權(quán)重較均勻,最終隨機(jī)選擇了部分視頻幀。
圖7 視頻幀選擇權(quán)重γ 可視化Fig.7 Video frame selection weight γ visualization
由此可知,視頻幀選擇模塊對(duì)無(wú)人臉表情信息或表情變化較大視頻段的選擇效果更佳。
提出了一種基于自注意力視頻幀選擇與GhostNet 結(jié)合的人臉表情識(shí)別模型,通過(guò)自注意力機(jī)制自發(fā)地選擇數(shù)據(jù)集中表情特征顯著的幀,通過(guò)幀間信息融合學(xué)習(xí)完整的視頻表示,其中,引入GhostNet 實(shí)現(xiàn)高效的特征提取工作,最終實(shí)現(xiàn)視頻表情分類任務(wù)。由于在視頻表情數(shù)據(jù)集中,人臉表情大多由平淡到峰值再到平淡的過(guò)程,且部分視頻幀可能不包含表情特征,因此可利用基于自注意力機(jī)制的幀選擇模塊實(shí)現(xiàn)對(duì)關(guān)鍵幀的選取。其次,因?yàn)楸砬樽R(shí)別深度模型參數(shù)量大,訓(xùn)練成本較高,所以引入GhostNet,以降低訓(xùn)練成本。最后,在2 個(gè)公開(kāi)的視頻表情數(shù)據(jù)集CK+與AFEW 中設(shè)計(jì)了多組實(shí)驗(yàn),并對(duì)模型進(jìn)行了多個(gè)方面評(píng)估。實(shí)驗(yàn)結(jié)果表明,基于自注意力幀選擇與GhostNet 的模型在降低訓(xùn)練成本的同時(shí),可有效提升表情識(shí)別率。
未來(lái)工作將考慮進(jìn)一步改進(jìn)GhostNet。GhostNet 對(duì)第一層神經(jīng)網(wǎng)絡(luò)提取特征冗余部分的處理最為特殊,通過(guò)線性計(jì)算在得到與原始模型相似特征的基礎(chǔ)上,可大大減少模型參數(shù),降低模型訓(xùn)練成本。如何改進(jìn)線性計(jì)算單元,使在降低模型參數(shù)的基礎(chǔ)上更出色地提取特征,將是進(jìn)一步研究的方向。微表情是表情識(shí)別的一個(gè)分支,其作為一種自發(fā)性的表情,動(dòng)作幅度小、持續(xù)時(shí)間短,難以訓(xùn)練出好的針對(duì)微表情的模型。如何將此模型較好地應(yīng)用于微表情,也是今后研究的方向。