西藏民族大學 武文哲
微表情通常表達人隱藏起來的真實情感,它的特征具有高度的相似性和隱匿性,傳統(tǒng)的微表情識別技術主要采用人工制作的方式,其識別效率和精度都難以保證,因此提出一種基于改進的雙通道網(wǎng)絡識別方法,以CASME II 作為數(shù)據(jù)集,通過對數(shù)據(jù)集進行預處理來保證圖像特征增強及數(shù)據(jù)平衡,在七類微表情識別分類下,與雙通道網(wǎng)絡(Dual Path Networks,DPN)模型進行了性能對比。實驗結(jié)果證明了所提出的改進的雙通道網(wǎng)絡模型,在識別精度上明顯優(yōu)于參照模型。
微表情是一種人下意識做出的,具有個人真實情緒的表情,其廣泛應用于刑事偵查、醫(yī)學等許多重要領域。與宏觀表情相比,由于它具有持續(xù)時間短、動作幅度小的特點,早期專業(yè)培訓的識別準確度也不到50%[1],因此微表情識別研究在國內(nèi)外受到廣泛關注。
目前研究中,微表情識別研究的相關方法主要分為:傳統(tǒng)方法和深度學習方法。(1)傳統(tǒng)方法是基于手工特征進行的,含有方法如,時空局部二值模式(LBP)、光流直方圖等,由于其需要復雜的實驗設計,導致效率及識別精度都難以實現(xiàn)理想狀態(tài)。(2)深度學習方法被證實在計算機視覺研究中優(yōu)于傳統(tǒng)手工特征方法,提出卷積神經(jīng)網(wǎng)絡(CNN)研究方法[2],可以通過預處理從數(shù)據(jù)中學到各層特征,廣泛應用于人臉識別、車輛識別等計算機視覺工作中。CHEN 等人[3]提出雙通道網(wǎng)絡(Dual Path Networks,DPN)算法,具有探索特征和細化特征優(yōu)勢,WOO 等人[4]提出注意力模塊CBAM(Convolutional Block Attention Module), 具有多方向特征增強的優(yōu)勢。本研究以構(gòu)建基于CBAM改進的DPN 模型對微表情進行識別分類,把CBAM 和DPN 優(yōu)勢相結(jié)合,優(yōu)化參數(shù),最終實現(xiàn)對于微表情分類效果的提升。
實驗所使用的數(shù)據(jù)庫為我國科學院心理研究所的CASME II[5]公開數(shù)據(jù)庫。
1.2.1 數(shù)據(jù)增強
數(shù)據(jù)增強常用在小樣本數(shù)據(jù)集的訓練中,主要方法是通過對圖像進行幾何變換:裁剪、旋轉(zhuǎn)、水平/垂直鏡像等方法來增加數(shù)據(jù)量。圖像后的增強效果如圖1 所示。
圖1 圖像增強效果Fig.1 Image enhancement effect
1.2.2 數(shù)據(jù)平衡
由于CASME II 數(shù)據(jù)集各標簽間數(shù)據(jù)量差距較大,模型訓練結(jié)果會導致更偏重數(shù)量大的類別,因此需要對所得到的增加數(shù)據(jù)進行數(shù)據(jù)平衡處理。具體將每個類別數(shù)量進行排序,取中位數(shù)作為每類樣本數(shù)量的最大值,具體分布如圖2 所示。
圖2 數(shù)據(jù)平衡結(jié)果Fig.2 Data balancing results
DPN 網(wǎng)絡是由ResNet[6]和DenseNet[7]結(jié)合而成的網(wǎng)絡模型,是典型的混合網(wǎng)絡。具備細化特征、特征重復利用、支持探索新細節(jié)特征、更少的參數(shù)開銷等優(yōu)勢。因高度耦合雙通道層鏈路連接特點,針對深層網(wǎng)絡訓練梯度消失的問題,可以進行有效的解決。
CBAM 結(jié)合了空間和通道兩個不同方向的注意力模塊,將通過新的權(quán)值賦值后將輸入的數(shù)據(jù)關鍵特征進行標記,讓網(wǎng)絡關注到輸入數(shù)據(jù)中需要被著重學習的特征區(qū)域。CBAM 的結(jié)構(gòu)如圖3 所示,DPN-CBAM 面部微表情算法的結(jié)構(gòu)圖如圖4 所示。需先對數(shù)據(jù)集進行預處理,再把得到的圖像矩陣輸入到網(wǎng)絡中,通過DPN 網(wǎng)絡前需對輸入數(shù)據(jù)進行批歸一化,以加快收斂速度,然后將得到的數(shù)據(jù)輸入進DPN 的每個模塊中去,再經(jīng)由雙通道模塊,提取出特征信息,后通過平均池化下采樣,實現(xiàn)特征矩陣的降維,優(yōu)化計算量,再通過Dropout 層進一步降低冗余,解決一定程度上的過擬合問題,最后根據(jù)得到的數(shù)值權(quán)重占比進行概率評估分類。
圖3 CBAM 結(jié)構(gòu)示意圖Fig.3 CBAM structure diagram
圖4 DPN-CBAM 整體結(jié)構(gòu)Fig.4 Overall structure of DPN-CBAM
本研究方法基于Pytroch 框架,操作系統(tǒng)為Windows11,CPU 為intel i7-12700kf,顯卡為英偉達RTX3070 8G,內(nèi)存為64GB。
因數(shù)據(jù)集的特點,經(jīng)過處理后的數(shù)據(jù)集仍然存在數(shù)據(jù)類別不平衡的問題,因此,為了更好的度量性能,采用未加權(quán)平均召回率(UAR)與未加權(quán)F1 值(UF1)評價指標。
本文使用26 層的DPN-CBAM 和DPN 網(wǎng)絡與幾種用于微表情識別深度網(wǎng)絡模型進行對比,識別效果如表1所示。
表1 不同模型的識別效果對比Tab.1 Comparison of recognition effects of different models
表1 中模型實驗均使用UAR 和UF1 評價指標,實驗均在CASME II 數(shù)據(jù)集上進行。DPN-CBAM 模型整體的識別效果均優(yōu)于其他幾種方法。同時計算了DPNCBAM 模型的參數(shù)量和算例,如表2 所示,從表2 中可以看出,在大大降低計算復雜度的程度上,增強了識別效果。
本文以雙通道網(wǎng)絡(DPN)作為主干網(wǎng)絡,融合注意力模塊(CBAM),提出實現(xiàn)一種DPN-CBAM 的網(wǎng)絡結(jié)構(gòu)。通過對模型訓練實驗結(jié)果證明,DPN-CBAM 網(wǎng)絡對于DPN 網(wǎng)絡在七類微表情分類效果中具有明顯的優(yōu)勢,更加符合實際場景下的多樣化識別要求,更具有實用性。此外,本文方法加入了數(shù)據(jù)增強技術,大大降低了樣本數(shù)量帶來的訓練效果不佳問題,采用UF1 及UAR 評價標準,充分保證在數(shù)據(jù)不均衡下的模型仍有不錯的性能計算指標,其UF1 及UAR 在七類微表情分類中達到0.4751 和0.5063。未來將進一步提高DPN-CBAM 的識別精度,也可以通過宏觀微表情數(shù)據(jù)集,如Oule-CASIA NIR&VIS 面部表情、CK+等進行遷移學習后再運用到識別任務當中去。
引用
[1] HOUSE C.MEYER R.Preprocessing and Descriptor Featuresfor Facial micro-expression Recognition[OL].[2016-10-15] .
[2] KIM D H,BADDAR W J,RO Y M.Micro-expression Recogni-tion with Expression-state Constrained Spatiotemporal Featurerepresentations[C]//Proceedings of the 24th ACM InternationalConference on Multimedia,2016:382-386.
[3] CHEN YP,LI J N,XIAO H X,et al.Dual path networks[C]//Proceedings of the 31st International Conference on NeuralInformation ProcessingSystems.Red Hook,NY:CurranAssociates Ine.,2017:4470-4478.
[4] WOO S,PARK J,LEE J Y,et al.CBAM:Convolutional Block Attention Module[C]//Proceedings of the 2018 European Conference on Computer Vision,LNCS 11211.Cham:Springer,2018:3-19.
[5] YAN W J,LI X B,WANG S J,et al.CASME II:An Improved Sponta-neous Micro-expression Database and the Baseline Evaluation[J].PLoS One,2014,9(1):1-8.
[6] 張順,龔怡宏,王進軍.深度卷積神經(jīng)網(wǎng)絡的發(fā)展及其在計算機視覺領域的應用[J].計算機學報,2019,42(3):453-482.
[7] ZHU Y,NEWSAM S.DenseNet for Dense Flow[C]//Proceedings of the 2017 IEEE International Conference on Image Processing.Piscataway:IEEE,2017:790-794.