摘要:預(yù)測未來是否會出現(xiàn)微表情具有重要的應(yīng)用價值,尤其在情感識別、人機交互、心理健康、司法調(diào)查等多個領(lǐng)域。微表情的感知預(yù)測不僅可以提高情感感知的精確度,還能幫助人們在多種場景中做出更及時、更精準的反應(yīng)。該文提出了一種基于深度學(xué)習(xí)的微表情感知預(yù)測方法。首先,利用卷積神經(jīng)網(wǎng)絡(luò)模型提取微表情視頻幀的圖像特征;然后,通過長短時記憶網(wǎng)絡(luò)捕捉長時間跨度內(nèi)微表情視頻幀之間的依賴關(guān)系,并使用Seq2Seq架構(gòu)構(gòu)建視頻幀序列到未來標簽序列的映射;最后,利用輸出標簽類型預(yù)測未來視頻序列中是否會出現(xiàn)微表情。該文在CAMSEⅡ數(shù)據(jù)集上進行實驗,實驗結(jié)果證明了該方法的有效性。
關(guān)鍵詞:微表情感知;卷積神經(jīng)網(wǎng)絡(luò);長短時記憶網(wǎng)絡(luò)
中圖分類號:TP391.1
文獻標識碼:A
文章編號:1009-3044(2025)20-0016-03
0引言
微表情是快速且不自主的面部反應(yīng),通常表現(xiàn)為面部區(qū)域的細微變化,持續(xù)時間非常短(通常小于0.5秒)。由于微表情具有無意識的特點且難以模仿,它們成為探索人類真實情感的重要手段。在審訊、刑偵和心理治療等領(lǐng)域[1],提前感知和預(yù)測微表情的發(fā)生能夠幫助相關(guān)人員及時調(diào)整審訊策略或治療方法。
因此,準確檢測微表情開始出現(xiàn)的幀對于后續(xù)的微表情定位和識別等任務(wù)至關(guān)重要。然而,當(dāng)前微表情處理仍依賴于專家對視頻的人工檢測,這不僅費時而且效率低下。
受Hu等人[2]在宏觀表情預(yù)測任務(wù)的啟發(fā),本文提出了一種基于深度學(xué)習(xí)的微表情感知預(yù)測模型,能夠在時間序列上預(yù)測微表情是否會出現(xiàn)。該方法采用卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN)對視頻幀進行特征提取,使用長短時記憶網(wǎng)絡(luò)(LongShort-TermMemoryNetwork,LSTM)保留時間序列中的重要信息,并使用Seq2Seq(Sequence-to-Sequence)架構(gòu)來處理圖像幀序列到未來標簽序列的映射問題。此外,本文還結(jié)合使用了教師強制(TeacherForcing)策略,通過在訓(xùn)練過程中將真實標簽作為輸入來加速訓(xùn)練。
1相關(guān)工作
1.1微表情
微表情是自發(fā)的、非自愿的情緒表達,很難偽造,能夠有效地傳達一個人真實的內(nèi)心感受。因此,微表情在多個領(lǐng)域中都具有廣泛的應(yīng)用價值。在教育領(lǐng)域中[3],教師可以通過觀察學(xué)生的微表情來評估其課堂參與情況,從而調(diào)整教學(xué)策略以提升教學(xué)效果。在心理治療中[4],治療師能夠通過分析患者的微表情來了解其真實的情感需求,從而實施更為精準的治療方案。在司法訊問中[5],執(zhí)法人員可以通過觀察嫌疑人的微表情判斷其是否在撒謊,進而提高調(diào)查效率。
由于非專家在微表情研究方面面臨較大挑戰(zhàn),采用計算機視覺技術(shù)進行微表情研究顯得尤為關(guān)鍵。
深度學(xué)習(xí)的進步使得精準的微表情感知預(yù)測成為可能?;谏疃葘W(xué)習(xí)的微表情感知預(yù)測算法能夠顯著提升感知的準確性,推動這一領(lǐng)域的進一步研究和發(fā)展。
1.2卷積神經(jīng)網(wǎng)絡(luò)(CNN)
卷積神經(jīng)網(wǎng)絡(luò)是圖像處理中廣泛應(yīng)用的一種深度學(xué)習(xí)架構(gòu)[6],能夠自動地從原始圖像中學(xué)習(xí)出具有辨識力的空間特征。傳統(tǒng)的手工特征提取方法往往無法捕捉圖像中復(fù)雜的細節(jié)信息,而CNN通過多層卷積操作,能夠提取出圖像中不同層次的空間信息,尤其在處理微表情這種細節(jié)化且短暫的面部變化時具有明顯優(yōu)勢。
1.3長短時記憶網(wǎng)絡(luò)(LSTM)
長短時記憶網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeu?ralNetwork,RNN)的一個變種[7],專門設(shè)計用于處理和預(yù)測時間序列數(shù)據(jù)。LSTM通過其內(nèi)置的記憶單元,能夠有效捕捉長時間跨度內(nèi)的依賴關(guān)系,避免了傳統(tǒng)RNN在處理長序列時容易出現(xiàn)的梯度消失問題,其結(jié)構(gòu)如圖1所示。微表情的變化通常是連續(xù)的,且需要跨多個時間步進行識別,因此LSTM非常適合處理這種具有長期依賴關(guān)系的任務(wù)。
2模型框架
本文提出的模型設(shè)計基于CNN和LSTM的組合,如圖2所示,旨在通過CNN提取圖像的空間特征,并通過LSTM捕捉圖像序列之間的時間依賴關(guān)系。
2.1CNN特征提取模塊
CNN主要由卷積層和池化層構(gòu)成,具體結(jié)構(gòu)如圖3所示。卷積層負責(zé)將輸人的RGB圖像轉(zhuǎn)換為特征圖,通過卷積核的滑動操作提取局部特征,如邊緣、紋理等面部細節(jié)。而池化層則通過減少圖像的空間維度,保留最顯著的特征信息,進一步降低計算復(fù)雜度,避免過擬合。經(jīng)過卷積和池化后的特征圖會被展平,并傳遞至全連接層,生成一個低維的特征向量。這些特征向量隨后作為ISTM的輸人,為后續(xù)的時間序列建模提供充分信息。
微表情通常表現(xiàn)為面部細小肌肉的變化,這些變化往往具有較為明顯的空間特征,如表情的邊緣、紋理等。CNN通過局部感受野的特性,能夠有效捕捉這些細節(jié),為微表情的識別提供可靠的特征支持。
2.2Encoder(LSTM)
LSTM作為Encoder部分,接收CNN提取的每幀圖像的特征向量,并將其作為時間序列輸入。LSTM通過記憶和更新隱藏狀態(tài)(hn)以及細胞狀態(tài)(cn)來保留時間序列中的重要信息,逐步捕捉視頻幀之間的動態(tài)變化。Encoder的最終輸出是一個隱藏狀態(tài),該隱藏狀態(tài)包含了視頻序列的上下文信息,這些信息將作為Decoder的輸入。
2.3Decoder(LSTM)
輸出的隱藏狀態(tài)生成未來幀的預(yù)測標簽Decoder部分同樣采用LSTM,負責(zé)基于。微表情的Encoder預(yù)測是一個逐步生成的過程,因為模型需要預(yù)測每一幀是否含有微表情。Decoder接收來自Encoder的隱藏狀態(tài),逐步生成未來幀的標簽。
在訓(xùn)練過程中,引入了TeacherForcing策略。該策略通過將每一時刻的真實標簽作為Decoder的輸入,而非使用上一時刻的預(yù)測結(jié)果,從而加速了模型的收斂并減小了訓(xùn)練誤差。TeacherForcing策略能夠有效地減少梯度傳播中的誤差積累,使模型能夠更快地學(xué)到正確的時間序列映射。
在預(yù)測階段,Decoder的輸入會基于前一時刻的預(yù)測結(jié)果進行遞推,生成后續(xù)幀的微表情預(yù)測標簽。這種遞歸式的生成方式能夠逐步捕捉微表情的發(fā)生及其變化。
2.4Seq2Seq架構(gòu)
列長度不等的任務(wù)Seq2Seq架構(gòu)廣泛應(yīng)用于處理輸入序列與輸出序[8]。在微表情感知任務(wù)中,輸入是圖像幀序列,而輸出是未來幀的標簽序列。Encoder部分通過LSTM處理輸入圖像序列,并生成一個上下文信息(即隱藏狀態(tài))。Decoder部分則基于這些上下文信息逐步生成輸出標簽序列。Seq2Seq架構(gòu)能夠有效地處理這種映射關(guān)系,確保從圖像序列到微表情預(yù)測標簽的有效轉(zhuǎn)換。
3實驗與結(jié)果分析
3.1數(shù)據(jù)集和實驗環(huán)境
本研究采用中國科學(xué)院自主建立的自發(fā)宏表情和微表情識別數(shù)據(jù)庫集CASMEⅡ[9],這是原始CASME數(shù)據(jù)集的增強版[10],具有更多的微表情樣本,總計255個樣本,來自26名有效受試者。這些樣本使用高速攝像機以每秒200幀的速度進行錄制,分辨率為640×480像素,相比CASME數(shù)據(jù)集,具有更高的時間和空間分辨率。每個樣本都標注了開始、峰值和結(jié)束幀,并包括了5種情感類別:快樂、驚訝、厭惡、壓抑以及其他類別,共計5個類別。實驗操作系統(tǒng)為Ubuntu22.04.5,軟件環(huán)境配置為Python3.10,硬件配置為ROCm6.2.4,顯卡為AMDRadeonRX7900XTX24GB,CPU為13thGenIntel(R)Core(TM)i5-13600KF,GPU內(nèi)存為32GBDDR42400MHz。
3.2模型訓(xùn)練
在本文實驗中,輸入數(shù)據(jù)為CASMEⅡ數(shù)據(jù)集視頻文件夾中包含的若干幀圖片,且每個視頻包含一個Onset幀,表示微表情的開始。其他幀的標簽是0或1,表示該幀是否屬于微表情。Excel標簽文件提供了每個視頻的Subject、Filename和Onset等信息,用于確定每個視頻的微表情開始幀。
通過構(gòu)建滑動窗口的方式訓(xùn)練數(shù)據(jù),每個滑動窗口由連續(xù)的5幀組成并預(yù)測未來5幀的狀態(tài)。每個滑動窗口在經(jīng)過CNN提取特征后作為Encoder的輸入。最后輸出的預(yù)測值在經(jīng)過Decoder后映射為預(yù)測結(jié)果標簽。標簽為1表示微表情已開始,標簽為0表示微表情未開始。
針對微表情感知模型訓(xùn)練,采用Adam優(yōu)化器,初始學(xué)習(xí)率為0.001,使用dropout正則化,共訓(xùn)練30個周期。訓(xùn)練使用適用于二分類問題的BinaryCross EntropyLoss(BCELoss)作為損失函數(shù)。在二分類問題中,目標是將樣本分為0和1兩個類別。BCELoss用于衡量模型預(yù)測的概率分布與真實標簽之間的差異。其定義如公式(1)所示:
式中:N為類別的數(shù)量;yi為樣本真實標簽(0或1);pi為模型預(yù)測的類別為1的概率,輸出值通常通過sigmoid激活函數(shù)得到,表示模型預(yù)測為類別1的概率。
3.3實驗結(jié)果及分析
本文采用準確率(Accuracy)來評估微表情感知模型,其定義如公式(2)所示:
式中:TP為真陽性;TN為真陰性;FP為假陽性;FN為假陰性。
實驗的評估結(jié)果情況如表1所示。
4結(jié)束語
本研究提出了一種基于深度學(xué)習(xí)的微表情感知預(yù)測模型,旨在提高微表情的預(yù)測準確性與時效性。該模型首先利用卷積神經(jīng)網(wǎng)絡(luò)對視頻的每一幀進行特征提取,捕捉面部表情中的關(guān)鍵信息。然后,通過長短時記憶網(wǎng)絡(luò)處理這些特征序列,能夠有效捕獲微表情序列中的時間依賴性,并建立起時間上的連續(xù)性。模型結(jié)合了Seq2Seq架構(gòu),在時間序列的學(xué)習(xí)中采用了TeacherForcing策略,以加速收斂過程并增強模型的預(yù)測能力。此模型不僅能夠準確捕捉微表情的時序模式,還能有效預(yù)測未來可能發(fā)生的微表情,具有較強的實時性和精確度。
在實驗驗證方面,本文所提出的模型在微表情預(yù)測任務(wù)中表現(xiàn)優(yōu)越,較傳統(tǒng)方法具有明顯的性能提升。通過對比實驗,模型在多個評估指標上均表現(xiàn)出色,尤其在捕捉微表情細微變化和時序關(guān)聯(lián)性方面展現(xiàn)了強大的能力。實驗結(jié)果表明,模型能夠精確地捕捉微表情的快速變化。此外,所提出的模型展示了其在實際應(yīng)用中的巨大潛力和發(fā)展前景,尤其在情感計算和人機交互領(lǐng)域。微表情作為一種潛在的情感表達方式,對于理解人類真實情感狀態(tài)、提升人機交互體驗具有重要意義?;谠撃P偷奈⒈砬轭A(yù)測技術(shù),未來可以廣泛應(yīng)用于智能客服、情感計算、心理健康監(jiān)測、虛擬角色交互等多個領(lǐng)域,為人工智能系統(tǒng)與人類情感的更好融合提供支持。
參考文獻:
[1]VRIJA,MANNS.Policeuseofnonverbalbehaviorasin?dicatorsofdeception[M]//AppLICATIONSOFNONVERBALCOMMUNICATION.NewYork:PsychologyPress,2005:63-94.
[2]HUYH,CHENBY,LINJ,etal.Human-robotfacialcoexpres?sion[J].ScienceRobotics,2024,9(88):4724.
[3]DACREPOOLL,QUALTERP.Improvingemotionalintelli?genceandemotionalself-efficacythroughateachinginterven?tionforuniversitystudents[J].LearningandIndividualDiffer?ences,2012,22(3):306-312.
[4]WHITEHILLJ,SERPELLZ,LINYC,etal.Thefacesofengage?ment:automaticrecognitionofstudentengagementfromfacialexpressions[J].IEEETransactionsonAffectiveComputing,2014,5(1):86-98.
[5]EKMANP.Liecatchingandmicroexpressions[M]//ThePhiloso?phyofDeception.Oxford:OxfordUniversityPress,2009:118-136.
[6]周飛燕,金林鵬,董軍.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計算機學(xué)報,2017,40(6):1229-1251.
[7]楊麗,吳雨茜,王俊麗,等.循環(huán)神經(jīng)網(wǎng)絡(luò)研究綜述[J].計算機應(yīng)用,2018,38(S2):1-6.
[8]LIZ,CAIJ,HES,etal.Seq2seqdependencyparsing[C]//Pro?ceedingsofthetionalLinguistics.27StroudsburgthInternationalConferenceonComputa:ACL,2018:3203-3214.?
[9]YANWJ,LIXB,WANGSJ,etal.CASMEⅡ:animprovedspontaneousmicro-expressiondatabaseandthebaselineevalu?ation[J].PLoSOne,2014,9(1):e86041.
[10]YANWJ,QIW,LIUYJ,etal.CASMEdatabase:adatasetofspontaneousmicro-expressionscollectedfromneutralizedfaces[C]//201310thIEEEInternationalConferenceandWork?shopsonAutomaticFaceandGestureRecognition(FG).Shanghai,China.IEEE,2013:1-7.
【通聯(lián)編輯:代影】