陳湯慧 高美鳳
(江南大學(xué)輕工過(guò)程先進(jìn)控制教育部重點(diǎn)實(shí)驗(yàn)室,物聯(lián)網(wǎng)工程學(xué)院,江蘇無(wú)錫 214122)
微表情是一種持續(xù)時(shí)間短、肌肉運(yùn)動(dòng)幅度小的面部表情,通常發(fā)生在人類(lèi)試圖隱藏自己內(nèi)心真實(shí)情緒的時(shí)候,并且具有不可欺騙性。微表情的產(chǎn)生是無(wú)意識(shí)的,往往能夠有效表達(dá)一個(gè)人的真實(shí)情感,因此,微表情作為一種識(shí)別謊言的線(xiàn)索,在很多領(lǐng)域中都有廣泛的研究與應(yīng)用。例如,在心理學(xué)研究和臨床醫(yī)療領(lǐng)域,判別微表情有助于心理醫(yī)生更加快速、準(zhǔn)確地診斷和治療精神疾病,可用于抑郁癥的早期發(fā)現(xiàn);在刑偵領(lǐng)域,使用微表情作為重要線(xiàn)索對(duì)犯罪嫌疑人進(jìn)行測(cè)謊,從而降低審訊難度;在公共安全領(lǐng)域,通過(guò)微表情判斷潛伏的危險(xiǎn)分子,可以預(yù)防暴亂和恐怖行為的發(fā)生。
人臉微表情識(shí)別大致包括三個(gè)步驟:預(yù)處理、特征提取和分類(lèi),而其中功能強(qiáng)大的特征表示方法已經(jīng)成為近期關(guān)于微表情識(shí)別研究的重點(diǎn)之一。早期,微表情特征提取的主流方法是基于局部二值模式或光流的特征表示方法,Pfister 等人[1]首次使用局部二值模式實(shí)現(xiàn)微表情識(shí)別,提出基于三個(gè)正交平面的局部二值模式(Local Binary Pattern from Three Orthogonal Planes,LBP-TOP)來(lái)處理動(dòng)態(tài)特征。Huang 等人[2]改進(jìn)LBP-TOP,提出時(shí)空完備局部量化模式描述子,通過(guò)提取幀序列指示、幅值和方向特征以解決LBP-TOP 只關(guān)注外觀(guān)和運(yùn)動(dòng)特征的問(wèn)題。Liu等人[3]提出主方向平均光流特征,將一種簡(jiǎn)單有效的光流方法應(yīng)用于微表情序列,并進(jìn)行感興趣區(qū)劃分,更加精確地處理微表情特征。馬浩原等人[4]提出平均光流方向直方圖(Main Histogram of Oriented Optical Flow,MHOOF),提取感興趣區(qū)域相鄰兩幀的HOOF 特征來(lái)檢測(cè)頂點(diǎn)幀,將起始幀與該頂點(diǎn)幀之間的MHOOF 特征用于微表情識(shí)別。Routray 等人[5]提出一種全新的模糊光流方向直方圖,為基于光流的微表情識(shí)別方法提供了新的思路。
上述傳統(tǒng)方法雖然可以有效的識(shí)別微表情,但是存在以下不足:(1)計(jì)算量較大、耗時(shí)長(zhǎng),容易產(chǎn)生數(shù)據(jù)冗余;(2)手工特征設(shè)計(jì)過(guò)程較為復(fù)雜,需要一定的心理學(xué)專(zhuān)業(yè)知識(shí)。與依靠先驗(yàn)知識(shí)的傳統(tǒng)特征相比,通過(guò)神經(jīng)網(wǎng)絡(luò)自主學(xué)習(xí)可以得到更高層的語(yǔ)義信息。隨著深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺(jué)領(lǐng)域中的廣泛應(yīng)用,研究人員開(kāi)始嘗試將其應(yīng)用于微表情識(shí)別。
Liong 等人[6]先是引入來(lái)自頂點(diǎn)幀網(wǎng)絡(luò)的光流特征,僅從頂點(diǎn)幀和起始幀獲取光流信息,并首次進(jìn)行跨數(shù)據(jù)集驗(yàn)證。后又設(shè)計(jì)了一種淺層三流三維卷積神經(jīng)網(wǎng)絡(luò)[7],該網(wǎng)絡(luò)在計(jì)算上很輕,同時(shí)能夠提取出具有區(qū)分性的高級(jí)特征和微表情的細(xì)節(jié)。Peng等人[8]提出基于頂點(diǎn)幀空間信息和相鄰幀時(shí)間信息的頂點(diǎn)時(shí)間網(wǎng)絡(luò),通過(guò)學(xué)習(xí)時(shí)間信息輔助微表情識(shí)別,在跨數(shù)據(jù)集驗(yàn)證中極具魯棒性。蘇育挺等人[9]提出一種新的微表情識(shí)別方法,對(duì)多種運(yùn)動(dòng)特征圖進(jìn)行特征的再提取以及融合,以獲得更準(zhǔn)確的識(shí)別結(jié)果。Xia 等人[10]提出了一種基于深度遞歸卷積網(wǎng)絡(luò)的微表情識(shí)別方法,捕捉使用歐拉視頻放大方法進(jìn)行放大的微表情序列的時(shí)空變形。然而,由于微表情數(shù)據(jù)集樣本少,使用深度學(xué)習(xí)方法構(gòu)建大網(wǎng)絡(luò)訓(xùn)練容易導(dǎo)致過(guò)擬合,限制模型的最優(yōu)性能。宏表情與微表情之間具有相似性,通過(guò)遷移學(xué)習(xí)將從宏表情識(shí)別中學(xué)習(xí)到的知識(shí)加以應(yīng)用,可以解決數(shù)據(jù)集樣本少的問(wèn)題[11]。除此之外,現(xiàn)有的大多數(shù)基于視頻運(yùn)動(dòng)放大的方法對(duì)微表情視頻進(jìn)行無(wú)區(qū)別放大,盡管放大后的微表情特征更明顯,但是卻忽略了每個(gè)微表情樣本強(qiáng)度不同的情況。
針對(duì)上述問(wèn)題,本文以微表情運(yùn)動(dòng)幅度增強(qiáng)以及宏、微表情之間的語(yǔ)義相關(guān)性為出發(fā)點(diǎn),提出了一種基于ME-Xception 卷積神經(jīng)網(wǎng)絡(luò)的微表情識(shí)別方法。本方法根據(jù)余弦相似度可以反映圖片相似性的特點(diǎn),通過(guò)宏表情的先驗(yàn)知識(shí)得到合適的微表情放大倍數(shù),以實(shí)現(xiàn)自適應(yīng)放大微表情運(yùn)動(dòng)幅度;此外,改進(jìn)Mini-Xception 網(wǎng)絡(luò)模型以構(gòu)建MEXception 網(wǎng)絡(luò)模型,在Mini-Xception 網(wǎng)絡(luò)模型輸入層兩側(cè)各增加一個(gè)投影層,通過(guò)網(wǎng)絡(luò)訓(xùn)練來(lái)重整微表情輸入特征,以及將通道注意力機(jī)制加入由深度可分離卷積層和批歸一化層組成的循環(huán)模塊,為有效信息增加通道權(quán)重;最后,采用宏表情識(shí)別到微表情識(shí)別的遷移學(xué)習(xí),從宏表情中學(xué)習(xí)有用的知識(shí),以幫助在微表情識(shí)別時(shí)選擇高質(zhì)量的樣本,訓(xùn)練更為有效的分類(lèi)器。
本文算法的整體流程如圖1 所示,大致可以分為預(yù)處理、特征提取和分類(lèi)三個(gè)部分,其中,預(yù)處理過(guò)程包括人臉裁剪、人臉對(duì)齊、頂點(diǎn)幀定位和自適應(yīng)運(yùn)動(dòng)放大,特征提取過(guò)程包括光流特征提取和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)提取特征。
針對(duì)微表情肌肉運(yùn)動(dòng)幅度小的問(wèn)題,本文提出基于LVMM 的自適應(yīng)運(yùn)動(dòng)放大方法,以保證放大后的微表情圖像不失真,并且達(dá)到較好的效果。視頻運(yùn)動(dòng)放大技術(shù)能夠放大肉眼看不見(jiàn)的微小運(yùn)動(dòng),現(xiàn)有的基于運(yùn)動(dòng)放大的微表情識(shí)別方法大都采用歐拉視頻放大(Eulerian Video Magnification,EVM)方法[12]。但使用EVM進(jìn)行運(yùn)動(dòng)放大時(shí),需要手工設(shè)計(jì)參數(shù),過(guò)程復(fù)雜,并且因?yàn)檫\(yùn)動(dòng)很小,所以放大結(jié)果容易產(chǎn)生噪音或過(guò)度模糊。相較于EVM,基于學(xué)習(xí)的視頻運(yùn)動(dòng)放大(Learning-based Video Motion Mag?nification,LVMM)方法[13]可以在真實(shí)視頻上獲得更高質(zhì)量的結(jié)果,不需要手工設(shè)計(jì)參數(shù),只需輸入想要放大的倍數(shù)即可。理論上,不同強(qiáng)度的微表情樣本所需要的放大倍數(shù)也應(yīng)該是不同的。因此,針對(duì)不同樣本使用余弦相似度自動(dòng)計(jì)算相對(duì)應(yīng)的放大倍數(shù)m:
式(1)和式(2)中余弦相似度的計(jì)算公式如下:
其中,Aonset表示視頻樣本起始幀的像素矩陣;Aapex表示視頻樣本頂點(diǎn)幀的像素矩陣。
理論上,微表情強(qiáng)度越小,起始幀和頂點(diǎn)幀越相似,其余弦相似度就越大,根據(jù)式(1)求得的放大倍數(shù)也越大,符合實(shí)際需求。將根據(jù)上述方法計(jì)算得到的放大倍數(shù)和微表情視頻輸入到已訓(xùn)練好的LVMM 網(wǎng)絡(luò)模型對(duì)微表情進(jìn)行自適應(yīng)運(yùn)動(dòng)放大。本文的LVMM 網(wǎng)絡(luò)模型使用文獻(xiàn)[13]給出的網(wǎng)絡(luò)結(jié)構(gòu)、損失函數(shù)、數(shù)據(jù)集和訓(xùn)練方法進(jìn)行訓(xùn)練得到。
表1為該計(jì)算放大倍數(shù)方法在CASME Ⅱ數(shù)據(jù)集上的部分結(jié)果,由表1可知,兩張圖片的余弦相似度越大,其對(duì)應(yīng)的放大倍數(shù)也越大,反之亦然。余弦相似度大表示微表情運(yùn)動(dòng)幅度小,需要較大的放大倍數(shù)以得到更為明顯的運(yùn)動(dòng)放大圖像,因此,該方法符合預(yù)期的效果。其中,樣本Sub01_EP02_01f 和Sub19_EP01_01f頂點(diǎn)幀的原始圖片、EVM放大結(jié)果、LVMM 放大結(jié)果及自適應(yīng)放大結(jié)果如圖2所示。由圖2 可知,相較于EVM,LVMM 的放大效果更好,但在固定放大倍數(shù)為10時(shí),Sub19_EP01_01f樣本出現(xiàn)明顯扭曲和失真。設(shè)置自適應(yīng)放大倍數(shù)后,兩個(gè)樣本都可以在不失真的情況下得到較好的放大效果。
表1 余弦相似度及其對(duì)應(yīng)的放大倍數(shù)Tab.1 Cosine similarity and its corresponding magnification
與Xception 體系結(jié)構(gòu)類(lèi)似,Octavio Arriaga 等人[15]提出的CNN 框架Mini-Xception 結(jié)合殘差模塊和深度可分離卷積的使用,能夠?qū)崟r(shí)完成性別分類(lèi)和情感分類(lèi)(宏表情)任務(wù),而微表情與宏表情之間具有很強(qiáng)的相關(guān)性。此外,該模型的總體結(jié)構(gòu)是一個(gè)完全卷積的神經(jīng)網(wǎng)絡(luò),其中包含4 個(gè)由深度可分離卷積層、批歸一化層等組成的循環(huán)模塊。該結(jié)構(gòu)具有大約60000 個(gè)參數(shù),由于微表情識(shí)別的樣本數(shù)量較少,選用參數(shù)少的模型進(jìn)行訓(xùn)練有助于防止過(guò)擬合。綜上所述,將Mini-Xception 網(wǎng)絡(luò)模型應(yīng)用于微表情識(shí)別領(lǐng)域具有可行性。
本文提出了一種用于微表情識(shí)別的MEXception 網(wǎng)絡(luò)模型,如圖3 所示。主要是在Mini-Xception 網(wǎng)絡(luò)模型中添加投影層(對(duì)應(yīng)圖中的Leftmultiplied 和Right-multiplied 層)以及壓縮與激勵(lì)(Squeeze and Excitation,SE)模塊(對(duì)應(yīng)圖中的SE block)。
上述添加投影層的改進(jìn)方法,其具體操作如下:在Mini-Xception 網(wǎng)絡(luò)模型的輸入層兩側(cè)分別添加大小為30×48 和48×30 的左乘、右乘矩陣,其中矩陣的值由可訓(xùn)練權(quán)重組成。左乘投影變換和右乘投影變換將輸入的48×48 大小圖像重整為具有高信息含量的30×30 大小圖像,以此來(lái)增強(qiáng)光流特征。在網(wǎng)絡(luò)中加入投影層,以神經(jīng)網(wǎng)絡(luò)驅(qū)動(dòng)特征學(xué)習(xí),重新整合面部特征,能夠產(chǎn)生更具有區(qū)分性的特征[16]。由于卷積層跟隨第一個(gè)投影層,因此能夠從投影層的集合特征中提取高層特征。此外,投影變換實(shí)際上分解了CNN 網(wǎng)絡(luò)中的經(jīng)典二維卷積矩陣,從而大大減少了網(wǎng)絡(luò)中的連接數(shù),可以緩解由微表情數(shù)據(jù)集樣本數(shù)量少造成的深度學(xué)習(xí)方法在網(wǎng)絡(luò)訓(xùn)練過(guò)程中容易出現(xiàn)過(guò)擬合的問(wèn)題[17]。
上述添加SE模塊的改進(jìn)方法,其具體操作是在Mini-Xception 網(wǎng)絡(luò)模型的四個(gè)循環(huán)結(jié)構(gòu)中,將第一個(gè)深度可分離卷積層的輸出,輸入到圖4 所示的SE模塊中,得到的輸出再送入批歸一化層。微表情面部肌肉運(yùn)動(dòng)幅度小,網(wǎng)絡(luò)難以學(xué)習(xí)與微表情相關(guān)的微小特征,而添加通道注意力機(jī)制可以讓網(wǎng)絡(luò)進(jìn)一步關(guān)注和選擇有助于微表情分類(lèi)的信息[18]。SE 網(wǎng)絡(luò)是Hu 等人[19]聚焦于通道維度提出的,它對(duì)通道間的依賴(lài)關(guān)系進(jìn)行建模,使之可以自適應(yīng)地調(diào)整各通道的特征響應(yīng)值。由圖4所示,輸入X經(jīng)過(guò)深度可分離卷積后得到特征Q=[q1,q2,…,qc],qc∈RH×W,之后使用SE 模塊重新標(biāo)定每個(gè)特征通道的權(quán)重。SE 模塊分為3 個(gè)步驟,分別是壓縮、激勵(lì)和重定權(quán)重,用符號(hào)Fsq(·)、Fex(·,W)、Fscale(·,·)表示。
壓縮操作使用全局平均池化將每個(gè)通道都?jí)嚎s為一個(gè)實(shí)數(shù),從而將感受野擴(kuò)展到全局范圍,以此來(lái)得到更抽象的語(yǔ)義信息,該操作第k個(gè)通道對(duì)應(yīng)的實(shí)數(shù)為:
其中,qk為Q中第k個(gè)特征圖;H和W為Q的空間維度;C為通道個(gè)數(shù)。
激勵(lì)操作捕獲壓縮后的實(shí)數(shù)列信息,使用兩個(gè)全連接層增加模塊的非線(xiàn)性。經(jīng)過(guò)第一個(gè)全連接層降維后通過(guò)ReLU 函數(shù)激活,接著經(jīng)過(guò)第二個(gè)全連接層升維,最后通過(guò)Sigmoid 函數(shù)激活,整個(gè)過(guò)程如下:
其中,δ為線(xiàn)性激活函數(shù)ReLU;σ為Sigmoid 激活函數(shù);W1和W2為兩個(gè)全連接層的參數(shù),且,,r為壓縮比,在3.3.3 節(jié)將討論該參數(shù)的選擇。
重定權(quán)重操作用原來(lái)的特征逐個(gè)通道乘以激勵(lì)操作獲得的通道重要度系數(shù)s=[s1,s2,…,sc],得到重新標(biāo)定的特征:
目前,最常用的微表情數(shù)據(jù)集有SMIC、CASMEⅡ、SAMM 數(shù)據(jù)集,具體信息如表2所示,其中消極類(lèi)別包括消極、厭惡、恐懼、悲傷、壓抑、輕蔑、憤怒標(biāo)簽,積極類(lèi)別包含積極、快樂(lè)標(biāo)簽,而驚訝類(lèi)別只有驚訝標(biāo)簽。
表2 三種微表情數(shù)據(jù)集Tab.2 Three kinds of micro-expression datasets
SMIC 數(shù)據(jù)集是世界上第一個(gè)公開(kāi)發(fā)布用于微表情識(shí)別研究的自發(fā)式微表情數(shù)據(jù)集[20],由芬蘭奧盧大學(xué)的趙國(guó)英團(tuán)隊(duì)于2012 年設(shè)計(jì)采集。該數(shù)據(jù)集共采集16 位被試者的164 個(gè)自發(fā)式微表情,共包含積極、消極以及驚訝3 類(lèi)微表情。CASME Ⅱ數(shù)據(jù)集[21]是由中國(guó)科學(xué)院心理學(xué)研究所傅小蘭團(tuán)隊(duì)于2014 年提出的,該數(shù)據(jù)集使用面部編碼系統(tǒng)對(duì)每一個(gè)微表情標(biāo)注面部動(dòng)作單元的編碼,并對(duì)每個(gè)微表情序列均標(biāo)注微表情起始幀、結(jié)束幀和頂點(diǎn)幀。SAMM 自發(fā)式微表情數(shù)據(jù)集[22]由英國(guó)曼徹斯特大學(xué)Moi Hoon Yap 團(tuán)隊(duì)于2018年提出,與之前的微表情數(shù)據(jù)集相比,SAMM 數(shù)據(jù)集在被試者的選擇上更加廣泛和嚴(yán)謹(jǐn),其32 位被試者包括16 位女性和16位男性,來(lái)自13個(gè)不同的種族,年齡范圍在19歲至57歲,并且有意識(shí)的選擇更大范圍年齡差的被試人群。
對(duì)部分微表情數(shù)據(jù)集進(jìn)行預(yù)處理,SAMM 數(shù)據(jù)集提供的是未裁剪圖片,需要采用OpenCV 中的Dlib 人臉檢測(cè)器進(jìn)行人臉裁剪和對(duì)齊,與文獻(xiàn)[21]類(lèi)似,僅對(duì)每個(gè)視頻的第一幀進(jìn)行特征點(diǎn)檢測(cè),原因在于對(duì)每一幀進(jìn)行特征點(diǎn)檢測(cè)會(huì)產(chǎn)生一定的誤差,從而導(dǎo)致人為的頭部移動(dòng),而微表情持續(xù)時(shí)間短,在此過(guò)程中產(chǎn)生的頭部剛性運(yùn)動(dòng)往往可以忽略不計(jì)。實(shí)驗(yàn)過(guò)程使用的頂點(diǎn)幀數(shù)據(jù)由CASME Ⅱ數(shù)據(jù)集和SAMM 數(shù)據(jù)集自身給出,對(duì)于未提供頂點(diǎn)幀數(shù)據(jù)的SMIC 數(shù)據(jù)集,本文采用Li 等人[23]提出的方法進(jìn)行頂點(diǎn)幀定位。
本文通過(guò)自適應(yīng)運(yùn)動(dòng)放大和表情強(qiáng)度縮小來(lái)提高宏表情和微表情兩個(gè)域之間的適應(yīng)性,使用第2.1 節(jié)的方法對(duì)微表情進(jìn)行自適應(yīng)運(yùn)動(dòng)放大。對(duì)于CK+宏表情數(shù)據(jù)集,人為選取視頻的1/3幀作為頂點(diǎn)幀,以減少宏表情的強(qiáng)度。由于CNN 本身是空間的,而光流信息是時(shí)間特征,因此將二者結(jié)合起來(lái)得到時(shí)空特征。采用TV-L1 光流預(yù)測(cè)算法[24]計(jì)算微表情起始幀和放大后頂點(diǎn)幀之間的光流特征,包括水平光流、垂直光流和光學(xué)應(yīng)變,作為網(wǎng)絡(luò)的輸入。
3.3.1 實(shí)驗(yàn)環(huán)境和參數(shù)設(shè)置
本文實(shí)驗(yàn)環(huán)境為64 位的Windows 10 操作系統(tǒng)和CPU Intel Core i5-9400 設(shè)備,使用Keras 框架搭建神經(jīng)網(wǎng)絡(luò)。采用CK+宏表情數(shù)據(jù)集對(duì)ME-Xception網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,然后對(duì)微表情數(shù)據(jù)集進(jìn)行留一交叉驗(yàn)證(Leave One Subject Out,LOSO)驗(yàn)證實(shí)驗(yàn)。參數(shù)設(shè)置如下,初始學(xué)習(xí)率為0.0001,衰減率為0.00001,使用Adam 優(yōu)化器。網(wǎng)絡(luò)訓(xùn)練選用聚焦損失函數(shù)可以解決樣本類(lèi)別不平衡以及樣本分類(lèi)難度不平衡等問(wèn)題,該函數(shù)定義為:
其中,(1 -pt)γ是調(diào)節(jié)因子;γ≥0 是可調(diào)節(jié)的聚焦參數(shù)。并且加入L2正則化,以加快網(wǎng)絡(luò)收斂和防止過(guò)擬合,在網(wǎng)絡(luò)微調(diào)過(guò)程中加入早停機(jī)制以得到最佳的訓(xùn)練模型。
3.3.2 評(píng)價(jià)指標(biāo)
為了評(píng)估網(wǎng)絡(luò)性能,采用準(zhǔn)確度(Accuracy,Acc)、未加權(quán)平均召回率(Unweighted Average Re?call,UAR)和未加權(quán)F1 分?jǐn)?shù)(Unweighted F1-score,UF1)三個(gè)評(píng)價(jià)指標(biāo)。
Acc 指標(biāo)為L(zhǎng)OSO 實(shí)驗(yàn)k折上所有準(zhǔn)確度的平均值,但由于樣本類(lèi)別不平衡,需要使用更加公平的平衡指標(biāo)報(bào)告性能。UF1 和UAR 指標(biāo)提供了一個(gè)平衡的判斷,即一種方法是否能夠同樣好地預(yù)測(cè)所有類(lèi),從而降低了一種方法只適合于某些類(lèi)的可能性。
為了計(jì)算UF1,首先要獲得第i類(lèi)(共C類(lèi))的LOSO 實(shí)驗(yàn)k折上的所有真陽(yáng)性、假陽(yáng)性和假陰性樣本個(gè)數(shù)(NTP、NFP、NFN),UF1 通過(guò)平均每類(lèi)F1 分?jǐn)?shù)確定:
UAR 指標(biāo)也被稱(chēng)為系統(tǒng)的平衡精度,以類(lèi)似的方式,首先計(jì)算每個(gè)類(lèi)的準(zhǔn)確度分?jǐn)?shù),然后按類(lèi)數(shù)取平均值,ni是第i類(lèi)的樣本個(gè)數(shù):
3.3.3 設(shè)定SE模塊的壓縮比
由于SE模塊壓縮過(guò)程中的壓縮比(r值)大都是根據(jù)經(jīng)驗(yàn)選取的,本文通過(guò)對(duì)一系列r值進(jìn)行實(shí)驗(yàn),以選取在微表情識(shí)別網(wǎng)絡(luò)中使用SE 模塊的最優(yōu)壓縮比參數(shù)值,并提供實(shí)驗(yàn)結(jié)果以供參考。由于本文在ME-Xception 網(wǎng)絡(luò)模型的深度可分離卷積層之后添加SE 模塊,該卷積層的通道數(shù)小于32,實(shí)驗(yàn)的r值最大取16。圖5 表明準(zhǔn)確度并不總是隨著r值的增大而提高,其差值均在5%以?xún)?nèi),這說(shuō)明性能對(duì)一系列壓縮比較為魯棒。隨著r值減少,網(wǎng)絡(luò)復(fù)雜度增加,但不會(huì)單調(diào)提高性能,而較小的壓縮比卻會(huì)顯著增加模型參數(shù),因此,設(shè)置r=16可以在準(zhǔn)確性和復(fù)雜性之間實(shí)現(xiàn)良好的平衡。在可選擇的范圍內(nèi),r值取16 時(shí)三個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果也是最優(yōu)的。實(shí)驗(yàn)結(jié)論可以說(shuō)明,使用深度學(xué)習(xí)方法識(shí)別微表情時(shí),選取稍大一點(diǎn)的r值可以減少網(wǎng)絡(luò)模型參數(shù),從而在一定程度上緩解樣本數(shù)量小帶來(lái)的過(guò)擬合問(wèn)題以提高識(shí)別精度。
3.3.4 消融實(shí)驗(yàn)
為了驗(yàn)證網(wǎng)絡(luò)的識(shí)別性能,在CASME Ⅱ數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),不同方法在該數(shù)據(jù)集上的識(shí)別精度對(duì)比如圖6 所示。其中,各方法的詳細(xì)說(shuō)明如表3 所示,主要是在Mini-Xception 網(wǎng)絡(luò)模型的基礎(chǔ)上是否進(jìn)行自適應(yīng)運(yùn)動(dòng)放大、是否加入投影層和通道注意力機(jī)制。由圖6 可知,通過(guò)自適應(yīng)運(yùn)動(dòng)放大增強(qiáng)微表情識(shí)別和宏表情識(shí)別兩個(gè)領(lǐng)域之間的相似性,極大地提高了模型的識(shí)別性能;此外,提出的兩種改進(jìn)方式也能夠有效地選擇微表情特征中的關(guān)鍵信息,從而在一定程度上提高網(wǎng)絡(luò)模型的識(shí)別精度。ME-Xception 網(wǎng)絡(luò)模型在CASME Ⅱ數(shù)據(jù)集上的UF1、UAR和Acc分別是88.58%、89.19% 和90.62%,相較于Mini-Xception網(wǎng)絡(luò)模型分別提高了53.89%、56.69%和58.40%。
表3 消融實(shí)驗(yàn)中的四種方法Tab.3 Four methods in ablation experiment
3.3.5 性能對(duì)比
本文與其他主流算法的識(shí)別精度對(duì)比如表4所示,為了公平比較,選取UF1和UAR 兩個(gè)指標(biāo),并且表中其他算法的所有數(shù)據(jù)均由相應(yīng)的文獻(xiàn)報(bào)告得出,且均采用LOSO 驗(yàn)證協(xié)議。由表4 可知,本文算法在CASME Ⅱ、SMIC 數(shù)據(jù)集上都取得了最優(yōu)的UF1 和UAR,而在SAMM數(shù)據(jù)集上的UF1次優(yōu),UAR 精度略差一些??紤]到SAMM 數(shù)據(jù)集的被試者年齡差范圍較大,本文算法對(duì)于年齡較大人群的微表情不能較好地識(shí)別,尤其是光流特征提取本身會(huì)受到皺紋、肌肉松弛等因素的影響。但總體上,還是取得了比較有競(jìng)爭(zhēng)力的結(jié)果。
表4 與其他算法的識(shí)別精度對(duì)比Tab.4 Accuracy comparison with other algorithms
本文提出了一種基于ME-Xception 卷積神經(jīng)網(wǎng)絡(luò)的微表情識(shí)別,在自適應(yīng)運(yùn)動(dòng)放大等預(yù)處理后,改進(jìn)Mini-Xception 網(wǎng)絡(luò)模型,構(gòu)建適用于微表情識(shí)別領(lǐng)域的ME-Xception 網(wǎng)絡(luò)模型,提取微表情特征以用于分類(lèi)。首先,基于LVMM 的自適應(yīng)運(yùn)動(dòng)放大方法增強(qiáng)了微表情的肌肉運(yùn)動(dòng)幅度,使得后續(xù)提取到的光流特征覆蓋區(qū)域更廣。其次,通過(guò)兩個(gè)投影層重整光流特征,使之尺寸更小、有用信息含量更高。最后,在網(wǎng)絡(luò)中添加通道注意力機(jī)制讓網(wǎng)絡(luò)在提取特征的過(guò)程中有選擇性地增強(qiáng)信息量大的特征,使得后續(xù)處理可以充分利用這些特征,并對(duì)無(wú)用特征進(jìn)行抑制。本文算法在CASMEⅡ和SMIC 數(shù)據(jù)集上達(dá)到了最優(yōu)的UF1 和UAR,分別為88.58%、89.19% 和70.13%、72.35%,但受SAMM 數(shù)據(jù)集被試者年齡差范圍大、面部有皺紋和肌肉松弛的影響,其識(shí)別精度略有下降。因此,針對(duì)不同年齡人群面部特征的差異性,消除無(wú)關(guān)特征以及利用面部運(yùn)動(dòng)單元尋找其與微表情之間的密切關(guān)系,都是后續(xù)可以進(jìn)一步研究的方向和思路。