亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結合多注意力機制和中間幀序列的微表情識別

        2023-03-17 07:28:36李思誠周順勇曾雅蘭
        無線電工程 2023年3期
        關鍵詞:峰值樣本特征

        李思誠, 周順勇?, 朱 豪, 曾雅蘭, 劉 學

        (1.四川輕化工大學 自動化與信息工程學院,四川 宜賓 644000;2.四川輕化工大學 人工智能四川省重點實驗室,四川 宜賓 644005)

        0 引言

        微表情是當一個人經(jīng)歷某種情緒但試圖隱藏時的一種短暫的、不自覺的面部運動。 正常的面部表情,也被稱為宏表情,持續(xù)時間在1/2~4 s,涉及到大面積的面部運動[1]。 Matsumoto 等[2]認為微表情發(fā)生在面部小部分區(qū)域,持續(xù)時間通常為 1/25~1/5 s。 雖然微表情面部動作的簡短和低幅度使得人眼甚至經(jīng)驗豐富的專家難以實時識別微表情。 但是與宏表情不同,人們很難掩飾自己的微表情。 因此,微表情在理解人類潛在情感方面發(fā)揮著至關重要的作用,為刑事審訊[3]、國家安全[4]、測謊[5-6]、心理疾病的臨床診斷等各種應用提供了幫助。

        微表情研究可分為微表情檢測和微表情識別。微表情檢測是在一段長視頻幀序列中自動檢測到微表情存在的開始幀至結束幀序列,并可使用視頻關鍵幀提取技術檢索到面部微表情運動幅度最大的Apex 幀位置。 微表情識別是將檢測出的微表情視頻序列自動分類為具體的情感類別。 本文主要研究微表情識別任務。

        1978 年Ekman 等[7]研究并開發(fā)了面部動作編碼系統(tǒng)(FACS) 和微表情訓練工具(METT)[8]。FACS 將面部表情分解成肌肉運動的各個組成部分,稱為動作單位(AU)。 AU 分析可以有效地解決表示不同個體表情的歧義問題,提高表情識別性能[9]。

        另一方面,METT 有助于提高人工識別面部微表情的能力,為后續(xù)構建可靠的微表情數(shù)據(jù)集提供了幫助。 盡管如此,人工識別面部微表情的能力依然有限,準確判斷的概率僅有47%[10]。 因此,利用計算機視覺技術設計一種行之有效的識別算法輔助人工識別顯得愈加重要。

        本文的主要貢獻如下:

        ① 引入了2 種注意力機制模塊,使得神經(jīng)網(wǎng)絡學習時更聚焦于面部的細微變化。

        ② 由于微表情發(fā)生時面部運動幅度較小,所以輸入圖像采用視頻序列中面部運動幅度最大的峰值幀(Apex Frame)和前后4 幀組成的中間幀序列。

        ③ 本文在3 個自發(fā)微表情數(shù)據(jù)集中進行實驗證明了此方法識別效果優(yōu)于傳統(tǒng)方法。

        1 相關工作

        1.1 傳統(tǒng)方法

        微表情識別研究初期特征提取主要采用手工提取特征,大致分為2 類:基于像素值的方法和基于特征區(qū)域變化的方法。

        基于像素值的方法通過統(tǒng)計面部區(qū)域像素值獲得微表情紋理特征,如基于局部二值模式(LBP)[11]的算法。 此后,Pfister 等[12]在LBP 算法基礎上從二維擴展至三維空間提出了基于三維局部二值直方圖(LBP-TOP)的算法,能夠更好地處理并提取動態(tài)特征。 繼LBP-TOP 后,Huang 等[13]提出了判別時空局部二值量化模式 (STCLQP)的算法,利用積分投影獲得水平和垂直投影,再采用LBP 算法提取2 個投影上的運動特征。

        基于特征區(qū)域變化的方法不會直接考慮像素值,而是聚焦于特征點或特征區(qū)域的變化。 目前主流的方法是提取面部運動光流特征,如Liu 等[14]于2015 年首次將光流引入至微表情識別領域,提出了一種主方向平均光流特征(MDMO),該方法不僅較已有方法有著更高的準確率而且更為簡單。 光流法主要分析微表情序列起始幀到峰值幀在光流場中的變化,Patel 等[15]提出了利用局部時空區(qū)域中的光流積分獲得的運動矢量并求出起始和偏移的幀編號來識別微表情。 Happy 等[16]提出了一種光流方向直方圖模糊化(FHOFO),從視頻流矢量方向構造合適的角度直方圖,對時間模式進行編碼,用于微表情的分類,為基于特征區(qū)域變化的識別方法融入了新的想法。

        1.2 深度學習方法

        上述傳統(tǒng)手工提取特征的方法,雖然能夠有效識別微表情,但是過程往往較為復雜,耗時長,而且需要專業(yè)的心理學家進行提取。 因此并不能在實際應用中發(fā)揮很好的作用。 與傳統(tǒng)方法需要研究人員有著心理學方面的先驗知識相比,利用神經(jīng)網(wǎng)絡自主學習物體的固有形狀和外觀特征能夠得到更高層的語義信息。 近年來,越來越多的學者嘗試將深度學習方法應用于微表情識別領域。

        Patel 等[17]首次在微表情識別領域使用深度學習方法,挑選出有用的深度特征,剔除無關的深度特征用于識別。 Peng 等[18]提出了一種結合了從頂點幀學習的空間特征和從相鄰幀學習的時間特征來識別微表情的新型峰值時間網(wǎng)絡(ATNet)。 Liong等[19]介紹了一種新的特征描述符,該特征描述符將光流與CNN 相結合,從起始幀至頂點幀獲得光流信息后,將光流特征送入Off-ApexNet 模型進行進一步的特征增強和表情分類。 繼Off-ApexNet 后,Liong等[20]又設計了一種淺層三流三維卷積神經(jīng)網(wǎng)絡(Shallow Triple Stream Three-dimensional CNN,STSTNet),該網(wǎng)絡模型更小,卻能提取更具差異性的高級特征。 Xia 等[21]提出了一種新的基于深度遞歸卷積網(wǎng)絡的微表情識別方法,捕捉了微表情序列的時空變形。 該模型由用于提取視覺特征的遞歸卷積層和用于識別的分類層組成,以端到端的方式進行優(yōu)化,避免了手動特征設計。

        綜上所述,與傳統(tǒng)方法相比,深度學習技術在微表情識別領域更為有效且效率更高。 但是由于目前公開的自發(fā)微表情數(shù)據(jù)集較少,僅使用峰值幀作為輸入圖像容易造成在訓練集上測試正確度較高,在測試集上測試正確度較低。 本文在選擇輸入圖像時觀察到峰值幀前后幾幀的差異十分輕微,為了避免過擬合現(xiàn)象,采用面部運動幅度最大的峰值幀(Apex Frame)和前后4 幀組成的中間幀序列作為輸入圖像。 此外,在特征提取時,為了使模型對面部細節(jié)的輕微變化更加敏感而在不同位置加入了多種注意力機制,以便有效得提取深層信息。

        2 本文算法

        2.1 整體結構

        本文算法的整體結構流程可分為預處理、特征提取以及表情分類3 個部分。 特征提取使用Res-Net34 網(wǎng)絡模型為基礎,構建ECANet34-DA 網(wǎng)絡模型,通過訓練宏表情數(shù)據(jù)集Fer2013[22]得到先驗知識,利用遷移學習應用到微表情識別領域,整體結構流程如圖1 所示。

        圖1 整體結構流程Fig.1 Overall structure

        2.2 預處理

        2.2.1 人臉對齊及裁剪

        在預處理階段,首先需要找到微表情視頻序列中峰值幀的位置索引值,SAMM 和CASME II 數(shù)據(jù)集已經(jīng)由心理學家提前標定了峰值幀位置。 而SMIC數(shù)據(jù)集提供的是微表情的起始幀和結束幀位置索引值,本文使用了幀間差最大法[23]提取各微表情視頻序列的關鍵幀作為SMIC 數(shù)據(jù)集的峰值幀。 其次,由于微表情的視頻序列包含了較多的干擾信息,所以需要裁剪出關鍵人臉區(qū)域。 通過Dlib 庫對人臉68 個關鍵點進行標定,然后基于這些標定點進行對齊,保持雙眼標定點的連線水平進行矩形裁剪以剔除冗余的背景信息,裁剪結果如圖2 所示。

        圖2 人臉裁剪Fig.2 Cropped image

        2.2.2 中間幀序列

        實驗對比發(fā)現(xiàn),峰值幀附近幀序列的表情變化差異極其微小,因此,構建由峰值幀及其前后4 幀組成的中間幀序列,以該中間幀序列作為輸入圖像,更好地解決數(shù)據(jù)量不足的問題,獲得更好的檢測效果。

        2.3 特征提取

        2.3.1 ECA 模塊

        Efficient Channel Attention(ECA)[24]模塊是一種高效通道注意力模塊,是SENet[25]的改進版,由于SENet 進行的降維操作將會影響對通道注意力的預測,且獲取依賴關系效率不高,所以ECA 模塊采用不降維的局部跨通道交互策略,能夠有效降低模型復雜性的同時保持良好的性能。 ECA 模塊的具體結構如圖3 所示。

        圖3 ECA 模塊具體結構Fig.3 ECA module

        ECA 模塊在SENet 的基礎上舍棄了2 個全連接層,在對卷積塊進行全局平均池化后的特征,直接使用一個自適應大小Kernel_Size 的1D 卷積進行學習,隨后通過Sigmoid 函數(shù)固定輸入特征層每一個通道的權值。 最后原特征層通過與獲得的通道權值相乘得到χ~,使得模型在不增加復雜性的同時對各通道特征更有辨別能力。

        2.3.2 DA 模塊

        Dual-Attention(DA)模塊是一種參考CBAM[26]機制的結合了雙重注意力的機制的輕量級卷積注意力模塊,在CBAM 基礎上加入了從輸入特征層與注意力輸出特征層相加的殘差連接(Residual Connection),相比ECA 模塊只關注通道特征能更好地處理空間特征。 DA 包含SAM 和CAM 兩個子模塊,具體結構如圖4 所示。

        圖4 DA 模塊具體結構Fig.4 Structure of DA module

        SAM 子模塊將輸入的特征圖F分別經(jīng)過全局最大池化和全局平均池化后,再分別輸入多層感知機(MLP)。 然后融合二者輸出的結果,經(jīng)Sigmoid函數(shù)激活,得到SAM 特征圖Ms(F)。

        CAM 子模塊先在空間維度上,對特征圖F′=F×Ms(F)進行2 種池化,然后對2 張?zhí)卣鲌D進行融合,再對其結果進行一次一維卷積處理,經(jīng)過Sigmoid函數(shù)激活得到CAM 特征圖Mc(F′),最終輸出F″=F′×Mc(F′)+F。

        2.3.3 ECANet34-DA 網(wǎng)絡

        本文用到的基本網(wǎng)絡是34 層ResNet 模型。ResNet 網(wǎng)絡由He 等[27]提出,其核心是使用殘差塊(Residual Block),將前面某一層的輸出直接跳過多層與后面數(shù)據(jù)層相加。 網(wǎng)絡結構參考了VGG19 網(wǎng)絡[28],但在其基礎上加入了2 種不同的殘差塊結構,如圖5 所示。

        圖5 2 種殘差塊結構Fig.5 Two structures of residual block

        根據(jù)ResNet 網(wǎng)絡層數(shù)的使用不同的結構,18,34 層為圖5(a),50,101,152 層為圖5(b)。 ECANet34-DA 在ResNet34 的ResBlock 中加入了ECA模塊及DA 模塊,其結構如圖6 所示。

        圖6 ECANet34-DA 結構Fig.6 ECANet34-DA structure

        2.4 表情分類

        完成表情分類工作的方法是在神經(jīng)網(wǎng)絡末層加入Softmax 回歸進行樣本分類。 當樣本輸入至Softmax 層后,神經(jīng)元會對該樣本進行預測并輸出一個屬于當前類別的概率值。 最終,各樣本概率值最大的類別即為表情分類結果。

        3 實驗

        3.1 數(shù)據(jù)集與數(shù)據(jù)處理

        3.1.1 數(shù)據(jù)集

        本文使用到微表情的自發(fā)數(shù)據(jù)集共3 種:SMICHS[29],CASME II[30]和SAMM[31]數(shù)據(jù)集。 SMIC-HS數(shù)據(jù)集是全球首個公開發(fā)布的自發(fā)式微表情數(shù)據(jù)集,由芬蘭奧盧大學的趙國英團隊收集。 CASME II數(shù)據(jù)集是中科院心理研究所傅小蘭團隊收集,受試者全部來自亞洲。 SAMM 數(shù)據(jù)集是英國曼徹斯特大學Moi Hoon Yap 團隊于2018 年收集,該數(shù)據(jù)集受試者男女比例1 ∶1,包括13 個種族,19~57 歲。 3 個數(shù)據(jù)集具體信息如表1 所示。

        表1 常用數(shù)據(jù)集的具體信息Tab.1 Common datasets

        由于SMIC-HS 和SAMM 樣本數(shù)據(jù)不足,所以在CASME II 數(shù)據(jù)集上進行了多情緒類別實驗。CASME II 包括“厭惡”“高興”“其他”“壓抑”“悲傷”“恐懼”和“驚訝”7 類微表情。 而恐懼和悲傷樣本十分稀少,因此在多類別實驗時,保留其余5 類。

        3.1.2 數(shù)據(jù)集融合

        為了使3 個數(shù)據(jù)集能夠融合使用以增加實驗數(shù)據(jù),按SMIC-HS 的情緒三分類(消極、積極、驚訝)對CASME II 和SAMM 數(shù)據(jù)做了重新劃分以便統(tǒng)一樣本標簽。 具體操作為:“厭惡”“憤怒”“壓抑”“輕蔑”“悲傷”“恐懼”樣本歸為“消極”樣本;“高興”樣本歸為“積極”樣本;“驚訝”樣本保持不變;“其他”樣本無法歸類故不使用。 新劃分數(shù)據(jù)集的具體信息如表2 所示。

        表2 新劃分數(shù)據(jù)集的具體信息Tab.2 Newly divided datasets

        3.2 實驗設置

        本實驗的操作系統(tǒng)為Windows 11,處理器為AMD Ryzen 7-5800H,CPU 主 頻3. 20 GHz,GPU 為NVDIA GeForce RTX3060,顯存12 GB。 實驗使用Python 3.9. 12,Pytorch1. 10. 0 框架搭建神經(jīng)網(wǎng)絡。預訓練使用Fer2013 宏表情數(shù)據(jù)集,為提取微表情特征提供先驗知識。 通過留一交叉驗證 (Leaveone-subject-out Cross-validation,LOSOCV) 法驗證微表情識別效果。 為解決微表情數(shù)據(jù)樣本類別分布不平衡的問題,損失函數(shù)使用Focal Loss 函數(shù),定義為:

        式中,p為模型預測屬于類別y=i的概率;α為類別i的權重因子;()γ為調(diào)制系數(shù),γ≥0。

        評價指標包括:未加權F1 得分 (Unweighted F1-score,UF1)、系統(tǒng)平衡精度(Unweighted Average Recall,UAR)和準確率 (Accuracy)。

        UF1 得分因為其可以不受各樣本類別數(shù)量差異影響,所以在處理多情緒類別問題上是一個很好的評估標準:

        式中,C為微表情總類別數(shù);F1i為類i的F1 指數(shù);TP,FP,FN分別為真陽性、假陽性、假陰性。

        UAR 又叫做未加權平均召回率,這是一種較加權平均召回率更合理的評估標準:

        式中,Acc為準確率;Acci為類i的準確率;TN為真陰性。

        3.3 實驗結果及分析

        3.3.1 CASME II 上的多類表情實驗

        多類表情實驗選用CASME II 數(shù)據(jù)集中“厭惡”“高興”“其他”“壓抑”“驚訝”5 類微表情。 采用LOSOCV 法作為驗證方法,即每一輪實驗中預留一位受試者的表情作為測試集,這樣可以避免訓練集和測試集中人臉樣本混合造成的測試結果不準確。

        本文方法與其他主流方法的識別效果對比如表3所示,選取UF1 和Accuracy 兩個指標。 通過對比可以發(fā)現(xiàn),本文方法在多類識別率上有著不錯的提升,在CASME II 數(shù)據(jù)集的5 類微表情識別上,較最優(yōu)主流算法TSCNN-II 的UF1 提升了1. 26%, 準確率提升了4.47%。

        表3 多類表情識別與其他算法效果對比Tab.3 Comparison of multi-class expression recognition and other algorithms

        3.3.2 新劃分數(shù)據(jù)集上的3 類表情實驗

        以SMIC-HS 數(shù)據(jù)集劃分為基準,重新劃分了CASME II 和SAMM 數(shù)據(jù)集,歸為“消極”“積極”“驚訝”三類。 在相同實驗條件下,與其余做3 類識別的文獻中的主流方法對比結果如表4 所示。

        表4 3 類表情識別與其他算法效果對比Tab.4 Comparison of the effects of three types of expression recognition and other algorithms

        由表4 可以看出,本文所提出的算法在3 類別微表情識別上依然有著不錯的效果,在SMIC-HS 數(shù)據(jù)集上識別效果最佳:UF1 提升了2. 56%,UAR 提升了2. 09%;在CASME II 和SAMM 數(shù)據(jù)集上也有著不錯的效果。 因此該算法與主流算法相比較依然有不錯的競爭力。

        3.4 消融實驗

        為了驗證ECANet34-DA 網(wǎng)絡的提取微弱特征的有效性,在CASME II 的5 類別微表情數(shù)據(jù)集上進行消融實驗,實驗方法設計如表5 所示。

        表5 5 種消融實驗方法Tab.5 Ablation experiments

        消融實驗的結果如圖7 所示。 由圖7 可以看出,在ResNet34 網(wǎng)絡模型中融入ECA 和DA 模塊后,有效地提高了網(wǎng)絡模型的精度。 此外,使用中間幀序列作為特征輸入相較于使用峰值幀,不僅有效解決了因訓練數(shù)據(jù)太少導致的過擬合現(xiàn)象,還在一定程度上提高了識別效果。

        圖7 消融實驗結果對比Fig.7 Comparison of the results of ablation experiments

        4 結束語

        本文提出了一種結合多注意力機制和中間幀序列的微表情識別算法,構建了一種更加注重微表情的微弱運動變化的ECANet34-DA 網(wǎng)絡模型。 使用改進的ResNet34 網(wǎng)絡模型,引入ECA 模塊及DA 模塊專注于提取不同情緒下面部細微差異特征。 在提取出峰值幀索引值后,選取其附近8 幀序列組成的中間幀序列用作輸入圖像,緩解了因數(shù)據(jù)量不足造成的過擬合現(xiàn)象,同時擴充了數(shù)據(jù)集。 實驗結果表明,該方法對于微表情的識別效果顯著,較其余主流算法有著不錯的競爭力。 未來研究將聚焦于融合多數(shù)據(jù)集的特征提取,解決跨數(shù)據(jù)集微表情識別困難等問題。

        猜你喜歡
        峰值樣本特征
        “四單”聯(lián)動打造適齡兒童隊前教育峰值體驗
        少先隊活動(2022年9期)2022-11-23 06:55:52
        用樣本估計總體復習點撥
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        推動醫(yī)改的“直銷樣本”
        抓住特征巧觀察
        隨機微分方程的樣本Lyapunov二次型估計
        寬占空比峰值電流型準PWM/PFM混合控制
        基于峰值反饋的電流型PFM控制方法
        村企共贏的樣本
        全亚洲最大的私人影剧院在线看| 国产精品自在线免费| 国产亚洲精品不卡在线| 中文字幕亚洲高清精品一区在线| 一二三四五区av蜜桃| 2020年国产精品| 日韩中文字幕不卡网站| 澳门精品一区二区三区| 国产精品久久久天天影视| 在线精品国产一区二区三区| 国产成人av综合亚洲色欲| 狼人狠狠干首页综合网| 日韩亚洲精品中文字幕在线观看| 欧美精品人人做人人爱视频| 91白浆在线视频| 蜜桃成人精品一区二区三区| 成人免费播放视频777777| 亚洲男人第一无码av网站| 99热这里只有精品国产66| 国产白浆一区二区三区佳柔| 国产又黄又硬又粗| 天码av无码一区二区三区四区| 国产成人AV乱码免费观看| 亚洲第一黄色免费网站| 偷偷色噜狠狠狠狠的777米奇| 亚洲欧美日韩国产一区| 国产成人综合亚洲国产| 国产高清乱码又大又圆| 影音先锋每日av色资源站| 亚洲人成影院在线高清| 一区二区视频在线国产| 日本真人做人试看60分钟| 欧美人妻日韩精品| 免费人成网在线观看品观网| 亚洲精品无码永久中文字幕| 最近中文字幕视频高清| 亚洲性爱区免费视频一区| 国产精品亚洲精品国产| 美女无遮挡免费视频网站| 国产精品青草久久久久婷婷| 未满十八勿入av网免费|