亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于人臉關(guān)鍵特征提取的表情識別

        2023-02-20 09:39:22冉瑞生翁穩(wěn)穩(wěn)王寧彭順順
        計(jì)算機(jī)工程 2023年2期
        關(guān)鍵詞:特征模型

        冉瑞生,翁穩(wěn)穩(wěn),王寧,彭順順

        (重慶師范大學(xué) 計(jì)算機(jī)與信息科學(xué)學(xué)院,重慶 401331)

        0 概述

        面部表情是人體語言的一部分,是對心理情感的一種表露形式,是情感傳遞的重要方式。美國傳播學(xué)家MEHRABIAN 通過實(shí)驗(yàn)提出,在情緒的表達(dá)中,面部表情所占比重高達(dá)55%[1]。由此可見,人臉表情識別(Facial Expression Recognition,F(xiàn)ER)是非常具有研究價(jià)值的課題。1971年,心理學(xué)家EKMAN 把基本表情劃分為6種,分別為開心、傷心、驚訝、害怕、生氣和厭惡[2],盡管不同人之間有所差異,但這些表達(dá)情感的方式是人類共有的。

        傳統(tǒng)的表情識別方法主要是通過人工設(shè)計(jì)特征并結(jié)合分類模型達(dá)到表情識別的目的。局部二值模式(Local Binary Pattern,LBP)[3]、Gabor 小波變換[4]以及尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)[5]等常被用來提取特征,再結(jié)合支持向量機(jī)(Support Vector Machine,SVM)[6]等分類模型來識別表情。在早期,這些經(jīng)典的特征提取算法在一些表情數(shù)據(jù)集上取得了不錯(cuò)的效果[7-8],但也有很多缺點(diǎn),主要表現(xiàn)為人工設(shè)計(jì)特征非常復(fù)雜、耗時(shí)和性能較低,對于實(shí)驗(yàn)室環(huán)境下的表情數(shù)據(jù)集,表情變化單一且不受自然環(huán)境干擾,不同表情之間的差異明顯,因此基于人工設(shè)計(jì)特征的方法可以取得不錯(cuò)的效果。但自然場景下的人臉表情受到光照、遮擋、不同種族、年齡、性別等因素的影響,表情特征復(fù)雜,傳統(tǒng)的表情識別方法效果很差。

        隨著深度學(xué)習(xí)的崛起,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)憑借自身強(qiáng)大的特征提取能力被廣泛應(yīng)用在計(jì)算機(jī)視覺領(lǐng)域,執(zhí)行圖像分類、目標(biāo)檢測等任務(wù)。人臉表情識別也屬于圖像分類任務(wù)的一種,因此許多經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)模型,如LeNet[9]、VGG[10]、ResNet[11]等常被作為基礎(chǔ)網(wǎng)絡(luò)用在人臉表情識別任務(wù)上,并在此基礎(chǔ)上進(jìn)行改進(jìn)優(yōu)化,從而達(dá)到提升模型識別準(zhǔn)確率的目的。例如,文獻(xiàn)[12]通過深度學(xué)習(xí)網(wǎng)絡(luò)來提取特征,并采用L2 正則化和支持向量機(jī)相結(jié)合的方式替代Softmax 函數(shù),提升了模型人臉表情識別準(zhǔn)確率。文獻(xiàn)[13]提出一種新的學(xué)習(xí)方法IcRL,通過提取獨(dú)立的表情特征來學(xué)習(xí)不同類別表情之間的相互關(guān)系,并擴(kuò)大類間距離與類內(nèi)距離之比。文獻(xiàn)[14]基于殘差網(wǎng)絡(luò)ResNet18,將過濾器響應(yīng)正則化、批量正則化、實(shí)例正則化和組正則化進(jìn)行組合,并分別嵌入網(wǎng)絡(luò)之中,平衡和改善特征數(shù)據(jù)分布,提升模型性能。文獻(xiàn)[15]提出一種新的深度位置保持卷積神經(jīng)網(wǎng)絡(luò)DLP-CNN,目的是通過增強(qiáng)保留局部性來提高深層特征的判別能力,同時(shí)最大化類間離散度。文獻(xiàn)[16]提出一種基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)(ACNN),可以感知人臉的遮擋區(qū)域,并關(guān)注最具鑒別性的未遮擋區(qū)域,針對不同的關(guān)注區(qū)域,提出基于局部的ACNN(PACNN)和基于全局人臉區(qū)域的ACNN(GACNN)。文獻(xiàn)[17]提出一種新穎的深度嵌入方法,該方法的目的是設(shè)計(jì)學(xué)習(xí)判別性表情特征同時(shí)表示大量類內(nèi)變化的表情特征,通過最小化樣本與其最近的子類中心之間的距離來形成局部緊湊的表示空間結(jié)構(gòu),最終提升模型性能。

        也有針對人臉面部遮擋等因素設(shè)計(jì)的表情識別方法,如文獻(xiàn)[18]提出一種新穎的生成對抗網(wǎng)絡(luò)用于遮擋表情識別,在加權(quán)重建損失、三元組損失和對抗損失的三重約束下,生成器自然地補(bǔ)充了表情圖像中的遮擋,再利用2 個(gè)判別器來區(qū)分圖像真假以及完成表情分類。文獻(xiàn)[19]通過結(jié)合殘差網(wǎng)絡(luò)和VGG16 網(wǎng)絡(luò),提出基于改進(jìn)VGG16 的20 層卷積神經(jīng)網(wǎng)絡(luò),并采用混合特征融合策略將Gabor 濾波器與改進(jìn)網(wǎng)絡(luò)并行化,通過實(shí)驗(yàn)驗(yàn)證了方法的優(yōu)勢。

        由此可見,為了讓表情識別模型在自然場景下具有良好的魯棒性以及較高的識別率,必須讓模型具有提取復(fù)雜特征的能力(如表情局部變化細(xì)微的特征以及面部表情遮擋的區(qū)域),以及能夠提取反映表情變化的關(guān)鍵特征,抑制非表情特征。

        本文以殘差網(wǎng)絡(luò)作為主要的特征提取網(wǎng)絡(luò),在網(wǎng)絡(luò)輸入端通過引入裁剪掩碼模塊(Cutout)[20],擴(kuò)充訓(xùn)練數(shù)據(jù)的復(fù)雜性。在殘差單元的最前端引入關(guān)鍵特征表征模塊,即使用卷積塊注意力模塊(Convolutional Block Attention Module,CBAM)[21],在空間和通道維度上提取表情的關(guān)鍵特征。最后在網(wǎng)絡(luò)輸出端引入Dropout 正則化技術(shù)[22],提升模型的泛化能力。將本文方法在兩個(gè)公開數(shù)據(jù)集Fer2013[23]和RAF-DB[15]上進(jìn)行實(shí)驗(yàn),以驗(yàn)證該方法的有效性。

        1 相關(guān)技術(shù)

        本文提出的人臉表情識別方法使用殘差網(wǎng)絡(luò)ResNet18 作為基礎(chǔ)網(wǎng)絡(luò),由裁剪掩碼、關(guān)鍵特征表征以及Dropout 正則化這3 部分構(gòu)成,本文方法的流程如圖1 所示。

        圖1 本文方法的流程Fig.1 Procedure of method in this paper

        由圖1 可知,裁剪掩碼單元能夠模擬遮擋數(shù)據(jù),將輸入圖像中一部分保持原樣,另外一部分隨機(jī)擦除一個(gè)矩形區(qū)域,從而增強(qiáng)數(shù)據(jù)集。在使用殘差網(wǎng)絡(luò)粗略提取特征后,將其送入殘差單元之前在模型中加入關(guān)鍵特征表征模塊,關(guān)鍵特征表征模塊主要由通道注意力和空間注意力構(gòu)成,用于提取人臉的關(guān)鍵特征,讓殘差單元學(xué)習(xí)到更加精細(xì)的特征。最后在特征圖輸出前,使用Dropout 正則化策略,達(dá)到組合不同訓(xùn)練模型的目的,提升模型泛化能力。

        1.1 關(guān)鍵特征表征

        近年來,注意力機(jī)制被廣泛應(yīng)用于各種視覺任務(wù)中,注意力機(jī)制的核心思想是幫助網(wǎng)絡(luò)選擇視覺區(qū)域中最重要的特征,并集中關(guān)注它。最常使用的有通道注意力機(jī)制以及混合注意力機(jī)制(空間和通道結(jié)合)。其中通道注意力機(jī)制最具代表性的網(wǎng)絡(luò)是通道注意力網(wǎng)絡(luò)(Squeeze and Excitation Networks,SENet)[24],通過計(jì)算輸入特征圖每個(gè)通道的權(quán)值,讓網(wǎng)絡(luò)學(xué)習(xí)更多重要的特征,從而提升模型性能,最終在圖像分類任務(wù)上取得了顯著效果。在許多任務(wù)中,空間位置信息具有不同的作用,尤其在表情識別中,嘴巴、眼睛等區(qū)域的重要性程度明顯更大。為彌補(bǔ)通道注意力的缺陷,混合注意力機(jī)制又增加了空間注意力,從而在特征提取時(shí)也關(guān)注特征圖上的空間位置。CBAM[21]是混合注意力機(jī)制最具代表性的網(wǎng)絡(luò),通過串聯(lián)通道注意力和空間注意力,在圖像分類任務(wù)中相比SENet,取得了較好的效果。本文關(guān)鍵特征表征模塊就是利用混合注意力機(jī)制[21]進(jìn)行特征選擇,使特征表達(dá)更加準(zhǔn)確。

        1.1.1 通道注意力

        將特征圖F∈?C×H×W輸入通道注意力模塊中(其中:C為通道數(shù);H為特征圖高度;W為特征圖寬度)。首先使用最大池化和平均池化對輸入特征圖進(jìn)行壓縮,得到2 個(gè)特征向量FCmax和FCavg,分別表示最大池化特征和平均池化特征。然后將FCmax和FCavg送入包含一個(gè)隱藏層的多層感知機(jī)(Multi-Layer Perceptron,MLP)里,得到2 個(gè)1×1×C的通道注意力特征圖,其中為了減少參數(shù)量,隱藏層的神經(jīng)元個(gè)數(shù)為(r是壓縮比例)。將多層感知機(jī)輸出的兩個(gè)通道注意力特征圖進(jìn)行元素求和并通過激活函數(shù)Sigmoid,最終得到具有特征聚合性的通道注意力圖Mc∈?C×1×1。將輸入特征與最終得到的通道注意力圖相乘即可得到經(jīng)過通道注意力表征過后的新特征,具體計(jì)算式如式(1)所示:

        其中:σ代表Sigmoid 激活函數(shù);和W1∈?C×Cr分別為多層感知機(jī)的權(quán)重,在參數(shù)W0后加入ReLU 激活函數(shù),向模型中加入更多非線性因素。通道注意力模塊結(jié)構(gòu)如圖2 所示。

        圖2 通道注意力模塊的結(jié)構(gòu)Fig.2 Structure of channel attention module

        1.1.2 空間注意力

        輸入一個(gè)特征圖F∈?C×H×W,沿通道方向分別使用最大池化和平均池化生成兩個(gè)二維特征圖和,采用通道維度級聯(lián)的方式將這兩個(gè)特征圖進(jìn)行合并,生成新的特征圖。然后使用一個(gè)7×7 大小,填充設(shè)置為3 的卷積核,作用于新的特征圖,并通過Sigmoid 激活函數(shù)后生成最終的空間注意力圖MS∈?H×W。與輸入的特征圖F∈?C×H×W進(jìn)行相乘即可獲得空間位置的關(guān)鍵特征表征圖。具體計(jì)算式如式(2)所示:

        其中:σ代表Sigmoid 激活函數(shù);f7×7代表卷積核大小為7×7 的標(biāo)準(zhǔn)卷積層??臻g注意力模塊的結(jié)構(gòu)如圖3所示。

        圖3 空間注意力模塊的機(jī)構(gòu)Fig.3 Structure of spatial attention module

        1.2 裁剪掩碼

        為提升模型的泛化能力,常常需要對原始輸入數(shù)據(jù)做數(shù)據(jù)增強(qiáng)處理,例如翻轉(zhuǎn)、鏡像變換等操作,但這些操作都是在原數(shù)據(jù)基礎(chǔ)上進(jìn)行簡單的線性變換,并不能帶來更多的數(shù)據(jù)復(fù)雜性。因此為了讓模型訓(xùn)練過程中學(xué)習(xí)更多接近真實(shí)環(huán)境下的人臉表情,本文引入了裁剪掩碼模塊(Cutout)[20]。

        文獻(xiàn)[20]對圖像進(jìn)行裁剪掩碼有兩種思路,最早是通過可視化技術(shù)獲取輸入圖像的重要視覺特征,然后把這一部分進(jìn)行掩碼。但是在實(shí)驗(yàn)過程中,作者發(fā)現(xiàn)該方法與直接隨機(jī)掩碼圖像中一部分特征的差別并不大,而且前者還引入了額外的重要特征計(jì)算,因此舍棄了這種方法,并且論文中也指出裁剪掩碼的區(qū)域大小比裁剪的形狀更重要。因此本文使用裁剪掩碼模塊(Cutout),借鑒文獻(xiàn)[20]中的第2 種思路,在輸入圖像中進(jìn)行隨機(jī)裁剪,掩碼形狀只需是正方形。具體操作是利用固定大小的正方形對圖像進(jìn)行遮擋,在正方形范圍內(nèi),所有值都被設(shè)置為0 或者其他純色值。裁剪掩碼的算法過程主要有以下4步。

        步驟1輸入?yún)?shù)n_holes、llength和iimg。其中第1 個(gè)參數(shù)為掩碼單元的個(gè)數(shù),第2 個(gè)參數(shù)為掩碼正方形像素邊長,第3 個(gè)參數(shù)為輸入圖像像素矩陣。

        步驟2根據(jù)輸入圖像img獲取圖像的高(H)和寬(W),并生成一個(gè)二維矩陣mH×Wmask,其中元素全部賦值為1。

        步驟3根據(jù)n_holes 值進(jìn)行遍歷,生成掩碼矩陣。計(jì)算式如式(3)所示:

        步驟4把輸入圖像的像素矩陣與掩碼矩陣進(jìn)行矩陣點(diǎn)乘獲得最終圖像,計(jì)算式如式(4)所示:

        1.3 Dropout 正則化

        在使用深度卷積神經(jīng)網(wǎng)絡(luò)時(shí),為防止網(wǎng)絡(luò)過擬合,往往需要使用大量數(shù)據(jù)進(jìn)行訓(xùn)練,但在實(shí)際中大數(shù)據(jù)集的標(biāo)注需要大量時(shí)間和資源。為解決這一問題,文獻(xiàn)[22]提出一種Dropout 正則化策略,通過阻止特征檢測器的共同作用來提高神經(jīng)網(wǎng)絡(luò)的性能。以下主要介紹Dropout 正則化在訓(xùn)練和測試階段的大致過程。

        訓(xùn)練時(shí),首先隨機(jī)(臨時(shí))刪除網(wǎng)絡(luò)中一部分隱藏神經(jīng)元,輸入輸出神經(jīng)元保持不變,其次把輸入特征通過修改后的網(wǎng)絡(luò)前向傳播,然后把計(jì)算出的損失結(jié)果通過網(wǎng)絡(luò)反向傳播回去,并在沒有刪除的神經(jīng)元上根據(jù)優(yōu)化策略更新連接參數(shù),被隨機(jī)刪除的神經(jīng)元不會參與本次前向傳播的計(jì)算。如圖4 所示為標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)(左)與加入Dropout 后的神經(jīng)網(wǎng)絡(luò)(右)的前向傳播結(jié)構(gòu)。測試時(shí),為保證模型輸出結(jié)果的穩(wěn)定性,并且讓測試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)總體一致,需要在測試階段時(shí)乘以丟棄權(quán)重p,即測試時(shí)權(quán)重必須進(jìn)行縮放,測試時(shí)的權(quán)重參數(shù)為W(l)test=p×W(l)。

        圖4 神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)對比Fig.4 Structure comparison of neural network

        2 本文方法

        為提高在自然場景下的人臉表情識別率,本文提出基于人臉關(guān)鍵特征提取的表情識別方法。首先經(jīng)過裁剪掩碼模塊得到真實(shí)場景下具有遮擋因素的表情圖像,其次利用關(guān)鍵特征表征模塊來幫助網(wǎng)絡(luò)提取更加精細(xì)的表情特征,然后結(jié)合Dropout 正則化策略幫助網(wǎng)絡(luò)融合多次訓(xùn)練結(jié)果,提升模型泛化能力。其中基礎(chǔ)網(wǎng)絡(luò)使用殘差網(wǎng)絡(luò)ResNet18,本文使用2 種結(jié)構(gòu)的殘差單元來提取特征,如圖5 所示。使用兩種殘差模塊是為了保持特征尺寸一致,殘差模塊1 提取特征前后特征圖尺寸沒有發(fā)生變化,殘差模塊2 的捷徑連接需要讓輸入特征尺寸和輸出特征尺寸一致,因此使用步長為2 的卷積。

        圖5 不同殘差單元結(jié)構(gòu)Fig.5 Different residual unit structures

        本文所提模型主要由輸入層裁剪掩碼、特征提取層(一個(gè)標(biāo)準(zhǔn)卷積、一個(gè)通道注意力和空間注意力、一個(gè)殘差模塊1 和3 個(gè)殘差模塊2)、全局平均池化、全連接層以及丟棄權(quán)重p=0.5 的Dropout 層組成,最后使用Softmax Loss 進(jìn)行表情分類損失的計(jì)算。

        在現(xiàn)實(shí)場景中,遮擋問題一直以來是一個(gè)難題。為使模型能夠處理更多具有遮擋人臉表情的數(shù)據(jù),提升對遮擋人臉表情識別的能力,本文引入了裁剪掩碼單元(Cutout),通過模擬現(xiàn)實(shí)場景中人臉表情遮擋數(shù)據(jù),提升模型學(xué)習(xí)能力。圖6 所示為輸入圖像進(jìn)行裁剪掩碼后的示例圖,在模型訓(xùn)練過程中裁剪區(qū)域是隨機(jī)產(chǎn)生的。本文將裁剪掩碼模塊中n_holes(掩碼個(gè)數(shù))和llength(掩碼正方形邊長)分別設(shè)置為1 和16。

        圖6 裁剪掩碼示意圖Fig.6 Schematic diagram of clipping mask

        在使用卷積操作提取特征的過程中,特征圖的通道數(shù)會逐漸增加,而其中每個(gè)通道的特征對于關(guān)鍵信息的貢獻(xiàn)是不一樣的。有的通道存在大量的關(guān)鍵特征,而有的通道有用信息少,因此會產(chǎn)生冗余特征,導(dǎo)致模型性能降低。為解決該問題,本文采用通道注意力機(jī)制,使用不同的池化策略并行計(jì)算,壓縮特征圖所產(chǎn)生的權(quán)重,并與輸入特征圖點(diǎn)乘,從而給予每個(gè)特征通道不同的權(quán)重。

        在提取人臉表情特征時(shí),人臉五官的位置也具有一定的空間關(guān)系,而不同五官的特征對于表情的影響程度不同,如嘴巴區(qū)域肌肉的變化比鼻子、眉毛等區(qū)域的特征更多,但傳統(tǒng)卷積操作對于空間位置的特征提取使用相同的方法。為解決該問題,本文引入空間注意力機(jī)制,使網(wǎng)絡(luò)可以學(xué)習(xí)到特征圖空間位置之間的關(guān)系。將通道注意力與空間注意力融合后的結(jié)構(gòu)如圖7 所示。

        圖7 混合注意力結(jié)構(gòu)Fig.7 Hybrid attention structure

        通過融合通道注意力和空間注意力模塊,可以同時(shí)獲取關(guān)鍵特征通道和特征間的位置關(guān)系,從而使模型提取的表情特征表征更加準(zhǔn)確。輸入特征F∈?C×H×W,經(jīng)過通道注意力模塊后得到新的特征FC,再把該特征輸入到空間注意力模塊中得到最終的關(guān)鍵特征表征FS,具體特征計(jì)算式如式(5)所示:

        其中:?表示矩陣同位素點(diǎn)乘運(yùn)算。

        通過引入裁剪掩碼和關(guān)鍵特征表征模塊后,模型提取的特征更具代表性,表情區(qū)分度更高。但在人臉表情識別中,各類表情的種類單一且數(shù)量較少,使用深度學(xué)習(xí)模型訓(xùn)練時(shí)容易造成過擬合,且表情識別精度也會降低。因此,本文在裁剪掩碼和關(guān)鍵特征表征模塊后,在網(wǎng)絡(luò)末端又加入了Dropout 策略,這樣可以起到2 個(gè)作用:1)訓(xùn)練時(shí)前向傳播隨機(jī)失活部分神經(jīng)元,有利于加快模型訓(xùn)練速度,并減少相鄰神經(jīng)元間的過渡依賴,有效解決網(wǎng)絡(luò)過擬合問題;2)在多次迭代訓(xùn)練時(shí),隨機(jī)失活神經(jīng)元不同,可以達(dá)到類似訓(xùn)練不同模型的效果,多個(gè)結(jié)果相互修正,最終提升模型識別準(zhǔn)確率。本文方法的網(wǎng)絡(luò)結(jié)構(gòu)如圖8 所示。

        圖8 本文方法的網(wǎng)絡(luò)結(jié)構(gòu)Fig.8 Network structure of method in this paper

        3 實(shí)驗(yàn)結(jié)果與分析

        本文實(shí)驗(yàn)使用深度學(xué)習(xí)框架PyTorch,版本1.10.0,編程語言為Python3.7,操作系統(tǒng)為Ubuntu 18.04.5,顯卡型號為NVIDIA RTX3090。實(shí)驗(yàn)中保持超參數(shù)一致,使用隨機(jī)梯度下降算法(Stochastic Gradient Descent,SGD)對交叉熵?fù)p失優(yōu)化,動量設(shè)置為0.09,衰減系數(shù)設(shè)置為0.000 5,初始學(xué)習(xí)率設(shè)置為0.01,在訓(xùn)練80 次后學(xué)習(xí)率開始衰減,總共迭代次數(shù)(epoch)設(shè)置為300,將每次訓(xùn)練完成后測試集上準(zhǔn)確率最高的參數(shù)作為模型精度。在實(shí)驗(yàn)過程中為了使模型訓(xùn)練達(dá)到最優(yōu),對訓(xùn)練集數(shù)據(jù)進(jìn)行了數(shù)據(jù)增強(qiáng)。本文使用10-crop 數(shù)據(jù)增強(qiáng)的手段,使數(shù)據(jù)量得到擴(kuò)充,其具體做法是將尺寸為48×48 像素的原始圖像進(jìn)行裁剪,分別從圖像正中間、右上角、右下角、左上角和左下角進(jìn)行裁剪,最后生成5 張尺寸為44×44 像素的圖像,然后把得到的圖像進(jìn)行鏡像操作,使訓(xùn)練數(shù)據(jù)被擴(kuò)充為原來的10倍。

        3.1 表情數(shù)據(jù)集介紹

        本文實(shí)驗(yàn)使用2 個(gè)公開人臉表情數(shù)據(jù)集進(jìn)行評估,分別是Fer2013 和RAF-DB 數(shù)據(jù)集,均為真實(shí)場景下的數(shù)據(jù)庫,均包含7 種基本表情,包括驚訝、害怕、厭惡、開心、傷心、生氣和自然。

        Fer2013[23]數(shù)據(jù)集是2013 年Kaggle 比賽使用的人臉表情數(shù)據(jù)集,圖像均是使用谷歌人臉識別接口從網(wǎng)上獲取,人臉角度較多且有遮擋,涵蓋不同年齡段的人,且男性和女性各占一定比例,符合自然條件下的表情分布。其主要由35 886 張不同表情圖像組成,其中訓(xùn)練集有28 708張,驗(yàn)證集和測試集各3 589張,每張圖像的大小是48×48 像素。

        RAF-DB[15]是一個(gè)真實(shí)世界人臉表情數(shù)據(jù)集,該數(shù)據(jù)集從互聯(lián)網(wǎng)上下載了大約30 000 張面部圖像,圖像大小均為100×100 像素。本文手動將圖像縮放到48×48 像素。數(shù)據(jù)庫包含單標(biāo)簽子集和雙標(biāo)簽子集兩個(gè)不同子集。單標(biāo)簽子集包括7 類基本情緒和邊界框,該數(shù)據(jù)集中的受試者年齡從0~70 歲不等,包括52%的女性,43%的男性,還有5%的不確定。對于種族分布,高加索人占77%,非裔美國人占8%,亞洲人占15%。并且數(shù)據(jù)集中的大量圖像具有遮擋、姿態(tài)等變化,符合自然場景下的表情分布。本文主要使用7 類基本表情,共15 339 張圖像作為實(shí)驗(yàn)數(shù)據(jù)集,其中包括12 271 張訓(xùn)練集圖像和3 068 張測試集圖像。

        圖9 是本文所使用數(shù)據(jù)庫的示例圖像,第1 排為Fer2013 數(shù)據(jù)庫示例圖,第2 排為RAF-DB 數(shù)據(jù)庫示例圖。從圖9 可知,這2 個(gè)數(shù)據(jù)集中存在大量遮擋、光照、性別等變化的圖像。此外,兩個(gè)數(shù)據(jù)集上每種表情數(shù)量的統(tǒng)計(jì)數(shù)據(jù)如圖10 所示。

        圖9 本文數(shù)據(jù)集示例Fig.9 Examples of datasets in this paper

        圖10 Fer2013 和RAF-DB 數(shù)據(jù)集的表情數(shù)據(jù)分布Fig.10 Distribution of expression data of Fer2013 and RAF-DB datasets

        3.2 結(jié)果分析

        為驗(yàn)證本文方法的可靠性,在Fer2013 與RAF-DB數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證,并與當(dāng)前先進(jìn)的人臉表情識別方法進(jìn)行比較。此外,為說明本文方法對各類表情的識別效果,使用最終訓(xùn)練模型在測試集上生成的混淆矩陣進(jìn)行分析。最后,為驗(yàn)證本文提出的各個(gè)模塊的有效性,進(jìn)行了消融實(shí)驗(yàn)。

        3.2.1 網(wǎng)絡(luò)模型有效性驗(yàn)證

        本文所提模型在2 個(gè)公開數(shù)據(jù)集上的混淆矩陣結(jié)果如圖11 所示。圖11(a)是在Fer2013 數(shù)據(jù)庫上的實(shí)驗(yàn)結(jié)果,從中可以看出對于“高興”和“驚訝”2 個(gè)特征變化明顯的表情,模型準(zhǔn)確率達(dá)到了較高水平,分別為93%和84%。圖11(b)是在RAF-DB 數(shù)據(jù)庫上的實(shí)驗(yàn)結(jié)果,該數(shù)據(jù)集上的圖像質(zhì)量較Fer2013 數(shù)據(jù)集好,因此整體模型識別準(zhǔn)確率相對較高,實(shí)驗(yàn)結(jié)果中有4 種表情識別率都超過了80%,模型能較好地識別各種表情。

        圖11 2 個(gè)公開數(shù)據(jù)集上的混淆矩陣結(jié)果Fig.11 Confusion matrix results on the two public datasets

        3.2.2 與現(xiàn)有方法的對比

        為進(jìn)一步證明本文所提方法的識別性能,在Fer2013 與RAF-DB 數(shù)據(jù)集上與當(dāng)前已有的先進(jìn)方法進(jìn)行對比,實(shí)驗(yàn)結(jié)果如表1 和表2 所示。從表中可知,各種方法在本文所使用的數(shù)據(jù)集中都取得了較高的識別率。其中文獻(xiàn)[25]提出的一種注意力分層雙線性池化殘差網(wǎng)絡(luò),采用有效的通道注意力機(jī)制顯式地建模各通道的重要程度,并引入雙線性池化層來捕獲層間部分特征關(guān)系,該方法在Fer2013 數(shù)據(jù)集上取得了73.840%的識別準(zhǔn)確率。文獻(xiàn)[26]提出的一種雙通道遮擋感知神經(jīng)網(wǎng)絡(luò)模型,分別使用VGG 和ResNet 網(wǎng)絡(luò)來學(xué)習(xí)遮擋表情特征和全臉特征,將兩種特征融合后在RAF-DB 數(shù)據(jù)集上取得了86%的識別準(zhǔn)確率。本文方法是在殘差網(wǎng)絡(luò)提取全局特征的前提下,通過引入通道注意力和空間注意力來提取圖像淺層的關(guān)鍵特征,為模型增加了更多精細(xì)化特征。另外引入的裁剪掩碼是通過隨機(jī)掩碼輸入圖像,手動向網(wǎng)絡(luò)中添加非線性因素,迫使模型在真實(shí)環(huán)境數(shù)據(jù)集上學(xué)習(xí)更多遮擋表情特征。最后使用Dropout 正則化,使模型融合學(xué)習(xí)參數(shù),提升模型的泛化性。本文方法在Fer2013 和RAF-DB 數(shù)據(jù)集上分別取得了74.366%和86.115%較高的識別準(zhǔn)確率,與對比方法相比,準(zhǔn)確率最高,驗(yàn)證了本文方法的有效性。

        表1 不同方法在Fer2013 數(shù)據(jù)集下的識別準(zhǔn)確率對比 Table 1 Comparison of recognition accuracy of different methods under Fer2013 dataset %

        表2 不同方法在RAF-DB 數(shù)據(jù)集下的識別準(zhǔn)確率對比 Table 2 Comparison of recognition accuracy of different methods under RAF-DB dataset %

        3.2.3 消融實(shí)驗(yàn)

        為測試本文所引入的裁剪掩碼和關(guān)鍵特征表征模塊CBAM 對網(wǎng)絡(luò)的有效性,進(jìn)行了交叉對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3 所示。以融合了Dropout 正則化策略的殘差網(wǎng)絡(luò)ResNet18 作為基礎(chǔ)網(wǎng)絡(luò)(Base),分別向模型中加入裁剪掩碼以及關(guān)鍵特征表征模塊CBAM 后作對比實(shí)驗(yàn)。從表3 可知,在基礎(chǔ)網(wǎng)絡(luò)中單獨(dú)加入裁剪掩碼和關(guān)鍵特征表征模塊都能提升網(wǎng)絡(luò)性能,當(dāng)2 個(gè)模塊同時(shí)加入網(wǎng)絡(luò)時(shí),準(zhǔn)確率提升最為顯著,在Fer2013 和RAF-DB 數(shù)據(jù)集上比基礎(chǔ)網(wǎng)絡(luò)分別提升了約1.34 和0.99 個(gè)百分點(diǎn)。由此可以推斷在加入關(guān)鍵特征表征模塊后可以使基礎(chǔ)模型提取的表情特征更加精細(xì)化,從而提升模型識別率。可見本文引入的各個(gè)模塊對于基礎(chǔ)網(wǎng)絡(luò)都是有效的,并且能夠共同促進(jìn)網(wǎng)絡(luò)性能的提升。

        表3 不同模塊的識別準(zhǔn)確率對比 Table 3 Comparison of recognition accuracy of different modules %

        3.2.4 遮擋表情驗(yàn)證

        為了讓本文模型學(xué)習(xí)到人臉表情被遮擋的情形,從而更接近真實(shí)環(huán)境下的人臉表情,本文引入了裁剪掩碼模塊。此外,為驗(yàn)證本文方法在具有遮擋情形下的人臉表情識別效果,本文在CK+數(shù)據(jù)集[7]上利用裁剪掩碼模塊[20]隨機(jī)在人臉圖像上添加遮擋,從而模擬具有遮擋的表情。然后用本文方法進(jìn)行表情識別。圖12 給出了各種表情的遮擋圖像,以及用本文方法預(yù)測的結(jié)果。圖13 給出了本文方法在CK+數(shù)據(jù)集上實(shí)驗(yàn)所得的混淆矩陣。從圖12、圖13 可以看出,遮擋住人臉較關(guān)鍵的部位如嘴巴、眼睛等之后,本文模型仍能準(zhǔn)確識別出圖像的真實(shí)表情。此外,本文方法在CK+數(shù)據(jù)集上取得93.939%的準(zhǔn)確率,說明本文方法對于遮擋圖像仍然具有較高的識別率,具有一定魯棒性。

        圖12 本文方法預(yù)測遮擋表情的結(jié)果示例Fig.12 Example of the results of method in this paper to predict occlusion expressions

        圖13 本文方法在CK+數(shù)據(jù)集下的混淆矩陣Fig.13 Confusion matrix of method in this paper under CK+dataset

        本文方法也存在一定的局限性。從圖11 的混淆矩陣可以看出,本文模型對個(gè)別表情的識別準(zhǔn)確率較低,且存在表情相互識別錯(cuò)誤的情形。比如在Fer2013數(shù)據(jù)集上,“害怕”表情的識別準(zhǔn)確率較低。這主要是由于Fer2013 數(shù)據(jù)集上存在大量低質(zhì)量圖像以及非人臉圖像。Fer2013 數(shù)據(jù)集是評估實(shí)驗(yàn)中最難的數(shù)據(jù)集,該數(shù)據(jù)集上人工正常識別率僅為65%左右。此外,相似表情易發(fā)生混淆也是原因之一,例如“害怕”和“傷心”、“厭惡”和“生氣”表情在現(xiàn)實(shí)中并非單一發(fā)生,生氣的情緒會產(chǎn)生厭惡,害怕會導(dǎo)致傷心,因此利用靜態(tài)表情圖像進(jìn)行識別是較難的。另外從圖10 可知,部分表情數(shù)量較少(如厭惡等),因此模型很難學(xué)到相關(guān)表情特征,導(dǎo)致識別準(zhǔn)確率較低。

        本文也分析了表情識別失敗的案例。圖14 給出了本文方法在RAF-DB 數(shù)據(jù)集下識別失敗的案例。經(jīng)分析可知,這可能是由于部分圖像的質(zhì)量太低;有些圖像的表情表達(dá)特別隱晦,容易造成誤判;有些圖像中表情明顯的區(qū)域被完全遮擋,模型無法提取到特征。這時(shí)可能需要結(jié)合人臉姿態(tài)、手勢等進(jìn)行表情判別。

        圖14 本文方法在RAF-DB 數(shù)據(jù)集下識別失敗的案例Fig.14 Identifies failure case of method in this paper under RAF-DB dataset

        4 結(jié)束語

        針對自然場景下人臉表情受遮擋、光照等因素影響,以及表情局部變化細(xì)微,導(dǎo)致現(xiàn)有人臉表情識別準(zhǔn)確率較低的問題,提出一種基于人臉關(guān)鍵特征提取的表情識別方法。通過引入裁剪掩碼模塊,使模型能有效提取遮擋表情特征。在此基礎(chǔ)上使用關(guān)鍵特征表征模塊使模型在通道和空間維度上引導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)更多關(guān)鍵特征,提高模型區(qū)分表情局部細(xì)微變化的能力及魯棒性。最后在網(wǎng)絡(luò)末端加入Dropout 正則化,有效緩解過擬合,提升模型的識別性能。在兩個(gè)自然場景下的人臉表情數(shù)據(jù)集Fer2013 和RAF-DB 上的實(shí)驗(yàn)結(jié)果表明,本文方法與L2-SVMs、IcRL、DLP-CNN 等方法相比,表情識別準(zhǔn)確率得到有效提升。但該方法存在部分表情識別率較低、個(gè)別表情之間誤判的問題,下一步將在保證識別準(zhǔn)確率的前提下,通過研究動態(tài)序列的人臉表情識別,提升人臉表情識別方法在自然場景下的識別準(zhǔn)確率及在低質(zhì)量圖像等情形下的魯棒性。

        猜你喜歡
        特征模型
        一半模型
        抓住特征巧觀察
        重要模型『一線三等角』
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        成 人 色综合 综合网站| 青青草 视频在线观看| 亚洲精品乱码久久久久久中文字幕| 99偷拍视频精品一区二区| av深夜福利在线| 亚洲一区二区视频免费看| 成人午夜高潮a∨猛片| 品色永久免费| 99精品久久久中文字幕| 白白色日韩免费在线观看| 搡女人真爽免费视频大全| 全部孕妇毛片| 日韩久久av电影| 一区二区三区四区黄色av网站| 一本一道av无码中文字幕麻豆| 欧美极品少妇性运交| 国产盗摄XXXX视频XXXX| 少妇被爽到高潮喷水免费福利| 国产婷婷色一区二区三区在线 | 亚洲一区二区三在线播放| 91精品国产一区国产二区久久| 国产乱码精品一区二区三区四川人 | 图片区小说区激情区偷拍区| 人妻丰满av无码中文字幕| 五月综合丁香婷婷久久| 国产aⅴ无码专区亚洲av| 236宅宅理论片免费| 精品丝袜国产在线播放| 亚洲不卡一区二区视频| 久久精品无码一区二区三区免费| 亚洲免费天堂| 一区二区三区国产天堂| 丰满大爆乳波霸奶| 久久国产精品久久精品国产| 久久久婷婷综合亚洲av| 中文字幕亚洲一区二区不下| 国产真实偷乱视频| 精品久久杨幂国产杨幂| 精品一区二区av在线| 国产精品多p对白交换绿帽| 国产精品爽爽va在线观看网站|