亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        嵌入注意力的Gabor CNN快速人臉表情識(shí)別方法

        2023-09-15 03:34:30南亞會(huì)華慶一劉繼華
        軟件導(dǎo)刊 2023年9期
        關(guān)鍵詞:集上人臉濾波器

        南亞會(huì),華慶一,劉繼華

        (1.西北大學(xué) 信息科學(xué)與技術(shù)學(xué)院,陜西 西安 710127;2.呂梁學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)系,山西 呂梁 033001)

        0 引言

        人臉表情識(shí)別(Facial Expression Recognition,F(xiàn)ER)是面部相關(guān)的研究中較為復(fù)雜的任務(wù)。通過分析、識(shí)別人臉生物特征來(lái)反映一個(gè)人的情緒狀態(tài),在人機(jī)交互、機(jī)器智能、醫(yī)療、虛擬現(xiàn)實(shí)等領(lǐng)域有重要作用。

        目前為止學(xué)術(shù)界、工業(yè)界對(duì)該問題進(jìn)行了許多研究。人臉表情識(shí)別一直是計(jì)算機(jī)視覺和人機(jī)交互領(lǐng)域的熱點(diǎn)問題,表情識(shí)別的目的是基于人臉圖像識(shí)別人類的驚訝、悲傷、恐懼等情感狀態(tài),使機(jī)器能感知、理解人類情感,從而更好地與人類交流互動(dòng)。

        近幾年,具有強(qiáng)大特征學(xué)習(xí)能力的深度學(xué)習(xí)技術(shù)得到了迅速發(fā)展,已被廣泛應(yīng)用于面部相關(guān)問題研究,例如人臉檢測(cè)、人臉識(shí)別、表情、年齡和性別識(shí)別等。其中,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)使表情識(shí)別準(zhǔn)確率得到了大幅提升,但CNN 最大的缺點(diǎn)是忽略了不同特征間的相對(duì)位置,無(wú)法從圖像中識(shí)別姿態(tài)、紋理和位置變化。同時(shí),池化操作會(huì)丟失部分信息,因此需要更多訓(xùn)練數(shù)據(jù)對(duì)損失進(jìn)行補(bǔ)償。此外,CNN 無(wú)法學(xué)習(xí)特征間的關(guān)系,傾向于記憶數(shù)據(jù)而非理解數(shù)據(jù),基于CNN 的特征提取僅屬于數(shù)據(jù)驅(qū)動(dòng)技術(shù)。

        雖然,CNN 強(qiáng)大的特征學(xué)習(xí)能力為FER 發(fā)展作出了貢獻(xiàn),但仍有一些問題尚待解決。例如,CNN 需要足夠多的數(shù)據(jù)來(lái)訓(xùn)練模型,避免模型發(fā)生過擬合現(xiàn)象,但現(xiàn)有面部表情數(shù)據(jù)庫(kù)不足以訓(xùn)練具備深度結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),并且實(shí)際場(chǎng)景中夾雜著光照、姿態(tài)、遮擋等干擾因素,需要模型具有更好的類內(nèi)差異能力和有效的表情差異表征。同時(shí),在面部相關(guān)問題中需要分辨面部特征的細(xì)微差別,例如嘴角、眼角變化幅度、皺紋的深淺等。研究表明,面部情緒的變化與嘴、眼睛、眉毛和鼻子區(qū)域等區(qū)域密切相關(guān),但普通CNN 無(wú)法較好地檢測(cè)、定義面部特征位置關(guān)系的差異。為了增強(qiáng)CNN 對(duì)方向和尺度變化的適應(yīng)能力,Luan 等[1]使用傳統(tǒng)手工制作的Gabor 小波[2]調(diào)制可學(xué)習(xí)的卷積濾波器,以減少可學(xué)習(xí)網(wǎng)絡(luò)參數(shù)數(shù)量,增強(qiáng)學(xué)習(xí)特征對(duì)方向和尺度變化的魯棒性。由于Gabor 濾波器和哺乳動(dòng)物視覺系統(tǒng)中簡(jiǎn)單細(xì)胞的接受頻譜非常相似,具有檢測(cè)紋理、邊緣和方向的能力,且Gabor 濾波器與CNN 低層卷積作用類似,因此在分類任務(wù)中準(zhǔn)確率較高[3]。

        人臉感興趣區(qū)域(Region of Interest,ROI)是視覺內(nèi)容豐富的區(qū)域。Gabor 濾波器既能表征人臉的空間頻率結(jié)構(gòu),又能有效捕獲人臉ROI 特征,因此廣泛應(yīng)用于FER 任務(wù)。Gabor 方向?yàn)V波器(Convolutional Gabor orientation Filter,GoF)[1]結(jié)合了Gabor 濾波器與傳統(tǒng)卷積濾波器的優(yōu)點(diǎn),在捕獲輸出特征圖中的空間定位、方向選擇性、空間頻率選擇性等視覺特性方面優(yōu)于傳統(tǒng)卷積核,可有效提取人臉ROI 的特征,因此使用GoF 的深度卷積網(wǎng)絡(luò)相較于傳統(tǒng)CNN 更適合FER。

        綜上,本文提出用于FER 任務(wù)的輕量級(jí)注意力的Gabor 卷積網(wǎng)絡(luò)(Gabor Convolutional Network,GCN)。其中,GoF 為CNN 的基本元素,在卷積濾波器上即可實(shí)現(xiàn),易于集成到任何深度架構(gòu)中。帶有注意力機(jī)制的GoF 卷積神經(jīng)網(wǎng)絡(luò)被稱為AGCN,可學(xué)習(xí)更健壯的特征表示,對(duì)具有空間轉(zhuǎn)換的圖像優(yōu)勢(shì)明顯。此外,由于GoF 由一組可學(xué)習(xí)的卷積濾波器組成,因此AGCN 模型更緊湊、易于訓(xùn)練。分析表明,GoF 在提取面部ROI 特征方面相較于傳統(tǒng)濾波器更有效,因此在研究不同深度(層數(shù))、寬度(卷積層中的單元數(shù))和卷積核尺寸的AGCN 體系結(jié)構(gòu)后,設(shè)計(jì)了一個(gè)最優(yōu)AGCN 模型。同時(shí),將最優(yōu)AGCN 模型與CNN 架構(gòu)的AlexNet[4]、VGGNet[5]、ResNet[6]和CapsNet[7]比較發(fā)現(xiàn),所提模型識(shí)別精度較好,參數(shù)量、空間資源最少。在FERPlus[8]和RAF-DB[9]數(shù)據(jù)集上的實(shí)驗(yàn)表明,所提方案優(yōu)于目前較先進(jìn)的FER 方法。

        1 相關(guān)工作

        1.1 Gabor濾波器

        Gabor 小波使用復(fù)函數(shù)作為信息理論應(yīng)用中傅里葉變換的基礎(chǔ),標(biāo)準(zhǔn)差的乘積在時(shí)域和頻域均最小。Gabor 濾波器[10]是一種有效的圖像表示學(xué)習(xí)特征提取器,可從圖像中提取不變的信息。Gabor 函數(shù)基于特定頻率和方向的正弦波,表征圖像的空間頻率信息。二維Gabor 濾波器為正弦波調(diào)制的高斯核函數(shù),由虛部和實(shí)部組成。實(shí)部可描述為:

        式中:x'=xcosθ+ysinθ;y'=-xsinθ+ycosθ;λ 表示Gabor 濾波核的實(shí)部波長(zhǎng);θ表示Gabor 函數(shù)的平行條紋的法線方向,有效值為0°~360°的實(shí)數(shù);φ表示相位偏移,有效值為-180°~180°,0°、180°的方程與原點(diǎn)對(duì)稱,-90°、90°的方程分別于原點(diǎn)成中心對(duì)稱,是兩項(xiàng)直角坐標(biāo)系中的余弦函數(shù);γ表示空間縱橫比,即Gabor 濾波器的橢圓度;σ表示Gabor過濾器中實(shí)用的高斯函數(shù)標(biāo)準(zhǔn)差。

        圖1 為Gabor 濾波器對(duì)人臉圖像提取特征的示例,表明Gabor濾波器能較好地尋找與給定θ相對(duì)應(yīng)的紋理,Hosseini 等[11]研究表明,使用Gabor 濾波特征作為輸入能提升CNN 的性能。Ou 等[12]利用經(jīng)典的8 個(gè)方向與4 個(gè)尺度的Gabor 濾波識(shí)別人臉表情,盡管Gabor 小波可處理圖像的尺度和方向變換,但結(jié)構(gòu)較淺,在大規(guī)模數(shù)據(jù)集的分類任務(wù)或復(fù)雜任務(wù)中表現(xiàn)不佳。

        Fig.1 Gabor filter banks extracting facial image features圖1 Gabor濾波器組提取人臉圖像特征

        為此,許多研究者試圖結(jié)合Gabor 小波與深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像表示學(xué)習(xí)。Meng 等[13,14]使用不同尺度和方向參數(shù)的Gabor 濾波器提取表情局部有用特征,將提取的特征作為數(shù)據(jù)訓(xùn)練CNN 用于人臉表情識(shí)別。Verma等[15]首先基于Viola-Jones 檢測(cè)算法檢測(cè)整幅圖像中的人臉圖像,然后利用Gabor 濾波器在空間域中提取人臉特征,以捕獲所有方向的整個(gè)頻譜,接下來(lái)利用Gabor 濾波器提取有意義的面部特征,最后將提取的人臉圖像Gabor 特征作為人工神經(jīng)網(wǎng)絡(luò)分類器的輸入,對(duì)人臉表情進(jìn)行分類。綜上,大部分工作均將Gabor 特征或結(jié)合提取的Gabor 特征和原始圖像作為CNN 輸入來(lái)訓(xùn)練模型。

        Luan 等[1]實(shí)現(xiàn)了Gabor 卷積神經(jīng)網(wǎng)絡(luò),在每個(gè)卷積層中通過不同方向、尺度的Gabor 濾波器調(diào)制卷積濾波器,生成卷積Gabor 方向?yàn)V波器,賦予卷積濾波器額外的能力以捕獲輸出特征圖中的空間定位、方向選擇性、空間頻率選擇性等視覺屬性。Jiang 等[16]提出由4 個(gè)Gabor 卷積層和兩個(gè)全連接組成的輕量Gabor 卷積網(wǎng)絡(luò)用于FER 任務(wù),在FER2013、FERPlus 和RAF-DB 數(shù)據(jù)集上的實(shí)驗(yàn)表明,所提方法具有良好的識(shí)別精度和較低的計(jì)算成本。

        Hosseini 等[17]提出結(jié)合人臉的Gabor 濾波響應(yīng)與原始人臉圖像作為CNN 輸入,增強(qiáng)了人臉的褶皺特征,在卷積層早期階段就能發(fā)現(xiàn)面部特征,從而提升了表情識(shí)別的整體性能。同時(shí),采用膠囊網(wǎng)絡(luò)思想捕獲面部特征間的關(guān)系,被證明對(duì)物體的旋轉(zhuǎn)具有魯棒性。結(jié)果表明,該算法相較于普通CNN、膠囊網(wǎng)絡(luò)性能更優(yōu),將Gabor濾波特征作為膠囊網(wǎng)絡(luò)的輸入能提升表情識(shí)別的整體性能。

        1.2 Gabor方向?yàn)V波器

        Gabor 濾波器具有U 方向和V 尺度,能將方向信息編碼到學(xué)習(xí)濾波器中,將尺度信息嵌入不同層中,將可操縱特性融入到Gabor 卷積網(wǎng)絡(luò)中,以捕獲輸入圖片的方向和尺度信息,從而增強(qiáng)相應(yīng)的卷積特征。標(biāo)準(zhǔn)CNN 中的卷積濾波器在經(jīng)過Gabor 濾波器調(diào)制前,通過反向傳播算法進(jìn)行學(xué)習(xí),稱為學(xué)習(xí)濾波器。假設(shè)一個(gè)學(xué)習(xí)濾波器的大小為N×W×W,其中W×W為2D 濾波器大?。∟ 個(gè)通道)。為了實(shí)現(xiàn)方便,選擇N為U用于調(diào)制該學(xué)習(xí)濾波器的Gabor 濾波器的方向數(shù),在已知濾波器上使用U個(gè)Gabor 濾波器為給定尺度進(jìn)行濾波,計(jì)算如式(2)所示,具體流程如圖2 所示。其中,左半部分為GoF 的調(diào)制過程;右半部分展示了一個(gè)4 通道GCN 卷積的例子,在GoF 中為了實(shí)現(xiàn)方便,通道數(shù)設(shè)為Gabor方向數(shù)U。

        Fig.2 Filter modulation process and examples圖2 濾波器調(diào)制流程與示例

        傳統(tǒng)CNN 卷積核的基本單位是K×K大小的二維濾波器,而Gabor 卷積神經(jīng)網(wǎng)絡(luò)的基本單位是GoF,通常定義為[1]:

        第v個(gè)尺度定義為:

        式中:G(u,v)表示一組K×K的Gabor 核(實(shí)部)[10];1≤u≤U、1≤v≤V分別表示方向和頻率;Ci,o為一個(gè)U×K×K大小的學(xué)習(xí)濾波器;?表示G(u,v)、Ci,o每個(gè)2D 濾波器間的點(diǎn)乘運(yùn)算(即也為U×K×K),因此第i個(gè)GoF 的實(shí)際上是一個(gè)U×U×K×K的濾波器。

        相較于傳統(tǒng)CNN 中H×W特征圖的不同之處在于,GCN 特征圖F 為U×H×W。因此,F(xiàn) 與一個(gè)GoF間的Gabor卷積運(yùn)算描述為:

        式中:*表示標(biāo)準(zhǔn)的3D 卷積操作。

        在Gabor 卷積神經(jīng)網(wǎng)絡(luò)中,Gabor 濾波器是調(diào)制學(xué)習(xí)的卷積濾波器。具體地,將CNN 的基本元素卷積濾波器改為GoF,以加強(qiáng)Gabor 濾波器對(duì)每個(gè)卷積層的影響。因此,在深度卷積神經(jīng)網(wǎng)絡(luò)中集成Gabor 濾波器,能增強(qiáng)深度特征對(duì)方向和尺度變化的抵抗力。

        在每個(gè)卷積層中,卷積濾波器由不同方向和尺度的Gabor 濾波器調(diào)制產(chǎn)生卷積Gabor 方向?yàn)V波器(Gabor Orientation Filter,GOF),賦予了卷積濾波器額外的能力,以捕獲輸出特征圖的空間定位、方向選擇性、空間頻率選擇性等視覺屬性。

        1.3 CBAM注意力卷積模塊

        CBAM 注意力機(jī)制[18]由通道注意力機(jī)制(channel)和空間注意力機(jī)制(spatial)組成。傳統(tǒng)基于卷積神經(jīng)網(wǎng)絡(luò)的注意力機(jī)制傾向于關(guān)注、分析通道域,局限于考慮特征圖通道間的作用關(guān)系。CBAM 從通道和空間兩個(gè)作用域出發(fā),引入空間注意力和通道注意力兩個(gè)分析維度,組成了從通道到空間的順序注意力結(jié)構(gòu)。其中,空間注意力可使神經(jīng)網(wǎng)絡(luò)更關(guān)注圖像中對(duì)分類起決定作用的像素區(qū)域,忽略無(wú)關(guān)緊要的區(qū)域;通道注意力則用于處理特征圖通道的分配關(guān)系,對(duì)兩個(gè)維度進(jìn)行注意力分配以增強(qiáng)注意力機(jī)制對(duì)模型性能的提升效果。

        1.3.1 通道注意力機(jī)制模塊

        圖3 為CBAM 中的通道注意力機(jī)制模塊。首先,將輸入特征圖分別輸入全局最大池化和全局平均池化,基于兩個(gè)維度壓縮特征映射,獲得兩張不同維度的特征描述,池化后的特征圖共用一個(gè)多層感知器網(wǎng)絡(luò)。然后,通過一個(gè)全連接層減少通道數(shù),再通過另一個(gè)全連接恢復(fù)通道數(shù),將兩張?zhí)卣鲌D在通道維度進(jìn)行堆疊,經(jīng)過sigmoid 激活函數(shù)將特征圖每個(gè)通道的權(quán)重歸一化到0~1。最后,將歸一化后的權(quán)重和輸入特征圖相乘。

        Fig.3 Channel attention mechanism module in CBAM圖3 CBAM中的通道注意力機(jī)制模塊

        1.3.2 空間注意力機(jī)制模塊

        圖4 為CBAM 中的空間注意力機(jī)制模塊,主要對(duì)通道注意力機(jī)制的輸出特征圖進(jìn)行空間域的處理。首先對(duì)輸入特征圖在通道維度下進(jìn)行最大池化和平均池化,將池化后的兩張?zhí)卣鲌D在通道維度進(jìn)行堆疊。然后,使用7×7 或3×3、1×1 大小的卷積核融合通道信息,使特征圖的維度由[b,2,h,w]轉(zhuǎn)化為[b,1,h,w]。最后,將卷積后的結(jié)果經(jīng)過sigmoid 函數(shù)對(duì)特征圖的空間權(quán)重進(jìn)行歸一化,再將輸入特征圖和權(quán)重相乘。

        在瞬態(tài)短路工況,阻尼系統(tǒng)的負(fù)荷能力按考慮,對(duì)應(yīng)額定容量相間不對(duì)稱突然短路的最高溫升和溫度值分別為72.2 K和125.2 ℃;單相對(duì)地不對(duì)稱突然短路的最高溫升和溫度值分別為65.7 K和118.7 ℃。

        Fig.4 Spatial attention mechanism module in CBAM圖4 CBAM中的空間注意力機(jī)制模塊

        1.3.3 CBAM注意力機(jī)制

        圖5 為CBAM 注意力模塊總體流程。首先將輸入特征圖經(jīng)過通道注意力機(jī)制;然后將通道權(quán)重和輸入特征圖相乘后輸入空間注意力機(jī)制;最后將歸一化后的空間權(quán)重和空間注意力機(jī)制的輸入特征圖相乘,得到最終加權(quán)后的特征圖。

        Fig.5 CBAM attention module圖5 CBAM注意力模塊

        2 基于CBAM的Gabor卷積神經(jīng)網(wǎng)絡(luò)模型

        Gabor 卷積網(wǎng)絡(luò)使用Gabor 定向?yàn)V波器(GoF)的深度卷積神經(jīng)網(wǎng)絡(luò)。其中,GoF 為一種可操縱的濾波器,通過Gabor 濾波器組操縱學(xué)習(xí)到的卷積濾波器生成增強(qiáng)后的特征映射,使用Gabor 卷積的GCN 網(wǎng)絡(luò)可學(xué)習(xí)更少的濾波器參數(shù),且注意力模塊既不會(huì)增加較多參數(shù),還能增強(qiáng)局部特征的提取能力。

        本文模型結(jié)構(gòu)如圖6 所示,由4 個(gè)Gabor 卷積層、4 個(gè)CBAM 注意力模塊和兩個(gè)全連接層組成。其中,Gabor 濾波器包含45°、90°、135°、180°方向,即U=4;在Gabor 卷積層中“4×3×3,8”表示8 個(gè)Gabor 方向?yàn)V波器,其學(xué)習(xí)濾波器的大小為4×3×3,且尺度值V在不同深度處不同;Max 操作選擇每個(gè)特征映射的最大通道(每個(gè)特征映射包括u個(gè)通道);flatten 操作將64×5×5 特征轉(zhuǎn)換為1 600×1 的向量,在所提AGCN 模型中激活函數(shù)為ReLU,最大池化核大小為2×2,dropout為0.5。

        Fig.6 AGCN model architecture圖6 AGCN模型架構(gòu)

        在RAF-DB 數(shù)據(jù)集上測(cè)試的AGCN 模型結(jié)果如表1 所示。其中,AGCN4(5×5)為本文模型,由圖2 可見其他模型也具有類似結(jié)構(gòu),即串聯(lián)GC 層、注意力模塊和2 個(gè)FC 層(第一個(gè)FC 層的輸出為1 600×1 的向量)。例如,AGCN4(5×5)_8 有4 個(gè)GC 層,每個(gè)GC 層中的GoF 數(shù)量分別為8、16、32、64,輸入數(shù)據(jù)從100×100 灰度圖片中隨機(jī)裁剪90×90 的圖片。AGCN3(3×3)、AGCN3(5×5)、AGCN3(7×7)模型層數(shù)和GoF 數(shù)量不變,增大卷積核大小既增加了模型參數(shù)量,還會(huì)降低準(zhǔn)確率。

        Table 1 Performance comparison of 8 AGCN models on RAF-DB datasets表1 8種AGCN模型在RAF-DB數(shù)據(jù)集上的性能比較

        AGCN3 系列模型相較于AGCN4 系列模型速度更快,但精度至少降低1.6%。AGCN4 相較于AGCN5 在精度和運(yùn)行效率方面更優(yōu),以此證明了不能簡(jiǎn)單通過增加Gabor卷積層和注意力模塊來(lái)提升性能。

        因此,本文綜合考慮模型的識(shí)別精度和計(jì)算復(fù)雜度,采用AGCN4(5×5)模型進(jìn)行后續(xù)實(shí)驗(yàn)。

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 實(shí)驗(yàn)準(zhǔn)備

        實(shí)驗(yàn)數(shù)據(jù)集為兩個(gè)基準(zhǔn)表情數(shù)據(jù)集FERPlus[8]和RAF-DB[9]。其中,F(xiàn)ERPlus 數(shù)據(jù)集屬于FER2013 數(shù)據(jù)集的擴(kuò)展,標(biāo)注了10 個(gè)標(biāo)簽,主要關(guān)注由多數(shù)投票選出的高興、生氣、悲傷、驚訝、恐懼、厭惡和平常表情圖片;RAF-DB數(shù)據(jù)集是一個(gè)大規(guī)模面部表情數(shù)據(jù)集,包含3 萬(wàn)張面部圖片,由40 名訓(xùn)練有素的人類編碼員標(biāo)注了基本或復(fù)合表情。為了便于計(jì)算,本文只使用了含有基本表情的圖片,其中12 271 張用于訓(xùn)練,1 225 張用于驗(yàn)證,3 068 張用于測(cè)試。在圖像預(yù)處理環(huán)節(jié)從大小為100×100 的灰度輸入圖片中,隨機(jī)裁剪出一張90×90 圖片,所有圖片進(jìn)行歸一化處理。為了防止模型發(fā)生過擬合,提升模型泛化能力,將圖片在-10°~10°間隨機(jī)旋轉(zhuǎn),并以50%的概率隨機(jī)水平翻轉(zhuǎn)進(jìn)行數(shù)據(jù)增強(qiáng)。在訓(xùn)練與測(cè)試環(huán)節(jié),使用Adam 優(yōu)化器對(duì)模型進(jìn)行端到端訓(xùn)練,每批次64 個(gè)樣本,動(dòng)量系數(shù)衰減值為0.9,共訓(xùn)練200 個(gè)epoch,學(xué)習(xí)率每25 次衰減50%,學(xué)習(xí)率初始值為0.001。

        本文采用10-crop 方法來(lái)識(shí)別測(cè)試圖片,首先將一張測(cè)試圖片裁剪為10 張90×90 大小,然后將其分類為這10張裁剪圖像平均得分最高的類別。

        3.2 實(shí)驗(yàn)結(jié)果

        本文模型在RAF-DB 和FERPlus 數(shù)據(jù)集上的混淆矩陣如圖7 所示。由此可見,高興表情的識(shí)別率最高,厭惡表情的識(shí)別率最低。

        Fig.7 Confusion matrix圖7 混淆矩陣

        在RAF-DB 數(shù)據(jù)集上,驚訝表情容易誤識(shí)別為平?;蚋吲d,恐懼表情容易誤識(shí)別為驚訝、悲傷、高興或生氣,厭惡表情容易誤識(shí)別悲傷、平常、高興或驚訝,高興表情容易誤識(shí)別為平常,悲傷表情容易誤識(shí)別為平?;蚋吲d,生氣表情容易誤識(shí)別為高興或恐懼,平常表情容易誤識(shí)別為悲傷或高興。在FERPlus 數(shù)據(jù)集上,生氣表情容易誤識(shí)別為平常、高興或悲傷,厭惡表情容易誤識(shí)別為生氣、平常和悲傷,恐懼表情容易誤識(shí)別為驚訝或悲傷,高興表情容易誤識(shí)別為平常,平常表情容易誤識(shí)別為悲傷或高興,悲傷表情容易誤識(shí)別為平常,驚訝表情容易誤識(shí)別為平常。

        圖8 為誤識(shí)別的表情圖片,一部分誤識(shí)別是因?yàn)檎趽?、光照、模糊等客觀因素所導(dǎo)致。由此可見,當(dāng)數(shù)據(jù)集搜集、標(biāo)注等不一致時(shí),每個(gè)數(shù)據(jù)集所呈現(xiàn)的誤識(shí)別現(xiàn)象并不統(tǒng)一,但高興表情均容易被誤識(shí)別為平常,原因是高興表情和平常表情在日常生活中最為常見,有些人在高興的時(shí)候臉部表現(xiàn)十分明顯,然而有些人與平常表情的差異 不大。

        Fig.8 Examples of misidentification on two datasets圖8 兩個(gè)數(shù)據(jù)集上誤識(shí)別樣例

        圖9 為與本文架構(gòu)相同的GCN 和AGCN 模型提取的特征熱力圖。由此可見,AGCN 模型提取的特征注意力較為集中,使得大部分表情關(guān)鍵區(qū)域局部特征的提取能力得到了提升;GCN 模型提取特征分散,例如平常表情關(guān)注眼睛和嘴巴區(qū)域變化,該模型只提取嘴巴區(qū)域的特征,因此容易產(chǎn)生分類錯(cuò)誤。

        Fig.9 Model characteristic heat map圖9 模型特征熱力圖

        3.3 比較實(shí)驗(yàn)

        將本文AGCN 模型與AlexNet[19],VGG16[19]、VGG19[20]、ResNet-18[19]、ResNet-34[20]和CapsNet[21]這些在FER 中廣泛使用的知名CNN 架構(gòu)進(jìn)行比較,結(jié)果如表2所示。由此可知,本文模型在RAF-DB、FERPlus 數(shù)據(jù)集上識(shí)別精度最優(yōu),AlexNet、CapsNet 模型相較于其他模型明顯較差。在精度方面,AGCN 模型相較于傳統(tǒng)VGG16、ResNet-18 模型的性能更高,在RAF-DB 數(shù)據(jù)集上使用一個(gè)epoch 來(lái)評(píng)估模型的計(jì)算復(fù)雜度發(fā)現(xiàn),AGCN 模型的訓(xùn)練時(shí)間6.13 s,分別為AlexNet、VGG16、ResNet18 的1/7、1/21、1/8。

        Table 2 Comparison of some well-known CNN architectures表2 一些知名的CNN架構(gòu)比較

        綜上,本文模型相較于FER 領(lǐng)域一些高效的CNN 架構(gòu)而言,具有更好的識(shí)別精度,所需計(jì)算資源和內(nèi)存成本更少。

        3.4 FER性能比較

        為了使模型達(dá)到最優(yōu)精度,許多方法在大型數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練。為此,本文模型在focal loss 損失的監(jiān)督下,在AffectNet 數(shù)據(jù)集[22]上進(jìn)行預(yù)訓(xùn)練,具體結(jié)果如表3 所示。本文模型的識(shí)別率分別為88.39%、87.22%,SPD-Attention 局部流行注意力網(wǎng)絡(luò)架構(gòu)[20]通過流行注意力模塊,對(duì)原始圖片和n張局部裁剪圖片的聯(lián)合特征向量提取的分類特征進(jìn)行表情預(yù)測(cè),整體識(shí)別率為87.9%和86.63%,但模型相當(dāng)復(fù)雜,不利于實(shí)際使用。

        Table 3 Performance evaluation on the FERPlus and RAF-DB datasets表3 FERPlus和RAF-DB數(shù)據(jù)集上的性能評(píng)估

        A-MobileNet[23]為基于輕量級(jí)MobileNet V1 的注意力模型,模型深度為27 層,參數(shù)量為3.4 M,在FERPlus、RAF-DB 數(shù)據(jù)集上分別達(dá)到88.11%、84.49% 識(shí)別率。SCN+ResNet18[24]為了抑制表情數(shù)據(jù)集中不確定性,提出一種簡(jiǎn)單、有效的自治愈網(wǎng)絡(luò),在RAF-DB 數(shù)據(jù)集上識(shí)別率相較于本文方法提升了0.92%,模型參數(shù)量為11 M。DICNN[25]為雙集成卷積神經(jīng)網(wǎng)絡(luò),參數(shù)量較少速度快,可在移動(dòng)端部署,但識(shí)別精度相對(duì)較低。孫冠[26]為了緩解注意力網(wǎng)絡(luò)對(duì)重點(diǎn)局部區(qū)域關(guān)注不充分的問題提出滑動(dòng)窗口塊,設(shè)計(jì)了由ResNet-50網(wǎng)絡(luò)提取特征圖+注意力模塊的滑動(dòng)塊注意力網(wǎng)絡(luò)+注意力模塊的全局注意力網(wǎng)絡(luò)組成的LGSBAN-AM 模型,該模型相較于本文方法效果幾乎相當(dāng),但基于ResNet-50 網(wǎng)絡(luò)的參數(shù)非常多且不易訓(xùn)練。黃苑琴[27]提出在VGG16 模型中加入SGE 注意力模塊以增強(qiáng)特征提取能力,在FERPlus 數(shù)據(jù)集上達(dá)到了89.5%的識(shí)別率,但在RAF-DB 數(shù)據(jù)集上僅為86.7%。吳晗[28]提出在ResNet-18 網(wǎng)絡(luò)中引入通道注意力模塊+空間注意力模塊+區(qū)域特征編碼模塊識(shí)別表情,但在FERPlus 數(shù)據(jù)集的準(zhǔn)確率相較于本文方法降低了4.69%。趙爽[29]提出融合多尺寸的局部注意視覺Transformer 表情識(shí)別方法MS-LAViT,識(shí)別效果相較于本文方法在FERPlus、RAF-DB 數(shù)據(jù)集上分別提升0.51%、0.26%,但訓(xùn)練ViT 模型需要大量的訓(xùn)練數(shù)據(jù)和算力。王廣宇[30]提出改進(jìn)殘差網(wǎng)絡(luò)Y-Net 表情識(shí)別方法,相較于本文方法在FERPlus、RAF-DB 數(shù)據(jù)集上的精確度分別降低1.89%和2.02%。

        綜上,本文所提AGCN 模型不僅結(jié)構(gòu)簡(jiǎn)單,而且在識(shí)別率、參數(shù)量和消費(fèi)算力等方面較為均衡,在FERPlus、RAF-DB 自然環(huán)境數(shù)據(jù)集上的識(shí)別精度優(yōu)于大多數(shù)最新的FER 方法,原因在于情緒識(shí)別與某些識(shí)別任務(wù)不同,主要依賴面部ROI 信息。例如,對(duì)于人臉識(shí)別而言,整個(gè)面部信息相較于局部特征更重要,GOF 刻畫局部紋理的特征非常有利,CBAM 注意力模塊可在通道和空間層集中提取更為顯著的特征,因此AGCN 模型能有效提取面部表情且所需計(jì)算資源非常少。同時(shí),本模型仍屬于一種CNN,因此能與任何應(yīng)用于FER 領(lǐng)域的傳統(tǒng)CNN 的技術(shù)相結(jié)合。

        4 結(jié)語(yǔ)

        由于面部表情變化主要集中在眼睛、眉毛、嘴巴和鼻子等局部區(qū)域,Gabor 濾波器特別適用于局部紋理,Gabor核與傳統(tǒng)卷積濾波器調(diào)制的GoF 在捕獲面部ROI 特征方面非常有效。因此,本文在使用GoF 的深度CNN 基礎(chǔ)上引入注意力模塊,提出一個(gè)僅為6 層結(jié)構(gòu)的輕量級(jí)AGCN模型。

        實(shí)驗(yàn)表明,本文所提模型相較于AlexNet、VGG16、VGG19、ResNet-18、ResNet-34 和CapsNet 這些在FER 中廣泛使用的知名CNN 架構(gòu)而言,識(shí)別性能更好且所需計(jì)算資源更少。

        猜你喜歡
        集上人臉濾波器
        基于無(wú)擾濾波器和AED-ADT的無(wú)擾切換控制
        有特點(diǎn)的人臉
        Cookie-Cutter集上的Gibbs測(cè)度
        鏈完備偏序集上廣義向量均衡問題解映射的保序性
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        三國(guó)漫——人臉解鎖
        開關(guān)電源EMI濾波器的應(yīng)用方法探討
        電子制作(2018年16期)2018-09-26 03:26:50
        復(fù)扇形指標(biāo)集上的分布混沌
        基于TMS320C6678的SAR方位向預(yù)濾波器的并行實(shí)現(xiàn)
        馬面部與人臉相似度驚人
        无码人妻一区二区三区在线视频| 国产精品露脸视频观看| 国产成人午夜高潮毛片| 成人在线观看视频免费播放| 日韩在线视精品在亚洲| 亚洲aⅴ无码成人网站国产app| 丰满少妇被粗大猛烈进人高清| 免费AV一区二区三区无码| 超清精品丝袜国产自在线拍| 国产一区二区视频在线免费观看| 中文字幕久久人妻av| 亚洲欧美日韩一区二区在线观看| 天天看片视频免费观看| 国产成人av综合色| 亚洲一区二区国产激情| 日本一区二区三区免费| 国产码欧美日韩高清综合一区| 亚洲AV日韩AV永久无码电影| 久久中文精品无码中文字幕下载| 免费人成小说在线观看网站| 风流熟女一区二区三区| 日韩女同一区在线观看| 久久香蕉免费国产天天看| 色88久久久久高潮综合影院| av在线入口一区二区| 极品少妇在线观看视频| 亚洲欧美成人在线免费| 国产精品女视频一区二区| 亚洲av片不卡无码久久| s级爆乳玩具酱国产vip皮裤| 五月开心六月开心婷婷网| 在线视频一区二区三区中文字幕| 国内视频偷拍一区,二区,三区| 国产不卡一区二区三区免费视| 香蕉视频在线精品视频| 最新国产精品久久精品| 日本边添边摸边做边爱喷水| 亚洲国产一区二区三区| 国产精品一区久久综合| 国内精品女同一区二区三区| 99久久国产一区二区三区|