亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)合關(guān)鍵點(diǎn)與權(quán)重分配殘差網(wǎng)絡(luò)的表情識別

        2022-09-06 11:09:06姜月武張玉金施建新
        關(guān)鍵詞:類間關(guān)鍵點(diǎn)殘差

        姜月武,張玉金,施建新

        上海工程技術(shù)大學(xué) 電子電氣工程學(xué)院,上海 201620

        表情是人們情緒變化的載體,通過表情狀態(tài)可以判斷人們的心情,傳遞交流中的情感信息。將情感賦能于機(jī)器已經(jīng)成為人工智能領(lǐng)域的研究熱點(diǎn)。Ekman 在其發(fā)表的跨文化研究[1]中定義了六種人類基本表情情緒:生氣、厭惡、害怕、高興、傷心和驚訝。盡管文化和種族存在差異,但是這些表情都是人類共同的情感表達(dá)方式。

        早期表情識別技術(shù)一般采用“手工特征提取+分類決策”的技術(shù)路線,識別性能主要依賴于特征的有效性。典型的特征包括局部二值模式(local binary pattern,LBP)[2]、Gabor 小波特征[3]、方向梯度直方圖(histograms of oriented gradient,HOG)[4]等。這些特征在實(shí)驗(yàn)室數(shù)據(jù)集上能夠取得良好的性能,然而面對樣本復(fù)雜、場景多樣的表情數(shù)據(jù)集識別性能顯著下降。手工特征還易受光照、背景、噪聲等因素的影響導(dǎo)致算法的識別精度較低,模型的泛化能力不足。

        近年來深度網(wǎng)絡(luò)在圖像識別問題上取得突破性進(jìn)展,為表情識別研究提供了借鑒。深度卷積網(wǎng)絡(luò)對人臉的位置變化和尺度變化具有較強(qiáng)的魯棒性。文獻(xiàn)[5]使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)作為基礎(chǔ)網(wǎng)絡(luò)有效地解決了人臉表情識別中尺度不變性問題。Bargal 等[6]提出了集合最優(yōu)表情識別網(wǎng)絡(luò),通過串聯(lián)特征一維輸出層進(jìn)行表情分類。Lv 等[7]利用級聯(lián)結(jié)構(gòu)設(shè)計(jì)了新的人臉表情識別網(wǎng)絡(luò),使用DBNs[8]檢測人臉表情區(qū)域,用堆疊式自動編碼器對這些面部單元進(jìn)行分類。上述方法通過設(shè)計(jì)不同網(wǎng)絡(luò)結(jié)構(gòu)、加深網(wǎng)絡(luò)層次等方法提高表情識別性能。然而,它們易受非表情內(nèi)容的干擾,對類間差異較小的表情識別精度不高。

        針對非表情內(nèi)容干擾問題,Li 等[9]提出了一種基于眼部關(guān)鍵點(diǎn)的裁剪方法結(jié)合CNN 網(wǎng)絡(luò)進(jìn)行表情分類,該方法使用固定關(guān)鍵點(diǎn)作為裁剪點(diǎn),對于不同的人臉樣本關(guān)鍵點(diǎn)會發(fā)生位置變化,可能會造成表情信息的損失。Kim等[10]使用viola-jones人臉檢測器結(jié)合面部關(guān)鍵點(diǎn)消除背景因素影響。褚晶輝等[11]使用了面部區(qū)域截取方案通過截取眼睛、鼻子、嘴巴部位作為輸入來去除非表情內(nèi)容,表情內(nèi)容的全局特征會受到影響,造成表情信息損失。針對類間差異微小的表情(如生氣、傷心、害怕)分類,表情類別信息一般分布在局部區(qū)域,需要引導(dǎo)網(wǎng)絡(luò)對這些有區(qū)分力的局部特征進(jìn)行提取。注意力機(jī)制借鑒了人類的注意力思維,通過加權(quán)關(guān)注圖像的局部細(xì)節(jié)信息,抑制無關(guān)信息。Jaderberg等[12]提出STN網(wǎng)絡(luò)使用多種空間變換作用于整個特征輸入,實(shí)現(xiàn)對關(guān)鍵區(qū)域特征的提取。Hu 等[13]提出了SE 模塊,該模塊在通道上進(jìn)行注意權(quán)重分配,使網(wǎng)絡(luò)關(guān)注信息量較大的通道特征。Wang 等[14]對SENet 進(jìn)行改進(jìn)提出了一種有效通道注意力網(wǎng)絡(luò)ECA,通過局部信道交互和自適應(yīng)選擇卷積核的方式實(shí)現(xiàn)網(wǎng)絡(luò)性能的提升。張愛梅等[15]通過ECA網(wǎng)絡(luò)結(jié)合分層雙線性池化構(gòu)建深度網(wǎng)絡(luò),學(xué)習(xí)具有強(qiáng)分辨能力的面部表情特征。STN網(wǎng)絡(luò)關(guān)注空間信息,缺少對通道上的刻畫。SENet、ECA僅關(guān)注了通道上的特征形態(tài),對空間上的局部表情特征刻畫能力不足。

        針對上述兩個問題,本文提出了結(jié)合面部關(guān)鍵點(diǎn)與權(quán)重分配殘差網(wǎng)絡(luò)的表情識別方法,本文的工作主要體現(xiàn)在以下兩方面:

        (1)為了有效消除非表情內(nèi)容的干擾,提高網(wǎng)絡(luò)學(xué)習(xí)表情特征的效率,提出了最大表情范圍裁剪方法,根據(jù)每個樣本的68 個關(guān)鍵點(diǎn)構(gòu)造外接矩形,最大限度保留全局表情特征,有效避免了表情信息缺失。

        (2)融合空間和通道上的權(quán)重分配機(jī)制,引導(dǎo)深度殘差網(wǎng)絡(luò)學(xué)習(xí)對表情具有鑒別力的局部特征??臻g權(quán)重分配可引導(dǎo)網(wǎng)絡(luò)關(guān)注局部表情特征,通道權(quán)重分配主要關(guān)注表情特征形態(tài),有效改善了類間差異微小的表情識別性能。

        本文方法在CK+[16]和FER2013[17]數(shù)據(jù)集上進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果與近期提出的方法相比有一定的優(yōu)越性。

        1 本文方法

        本文提出的人臉表情識別算法主要由預(yù)處理和權(quán)重分配殘差網(wǎng)絡(luò)兩部分構(gòu)成,算法流程如圖1所示。在預(yù)處理階段,進(jìn)行最大表情范圍的獲取。使用旋轉(zhuǎn)、變換和翻折策略進(jìn)行數(shù)據(jù)增強(qiáng)。在輸入深度網(wǎng)絡(luò)之前進(jìn)行圖像的歸一化和標(biāo)準(zhǔn)化。將經(jīng)過預(yù)處理的表情圖像輸入權(quán)重分配深度殘差網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練。

        圖1 本文算法流程Fig.1 Algorithm flow of this paper

        1.1 預(yù)處理層

        背景因素、非表情內(nèi)容、光照等都影響著深度網(wǎng)絡(luò)對表情特征的學(xué)習(xí),本文使用面部關(guān)鍵點(diǎn)裁剪獲取最大表情范圍,使用直方圖均衡化、Z-score變換對圖像的亮度和對比度進(jìn)行歸一化操作,使用數(shù)據(jù)增廣技術(shù)增強(qiáng)訓(xùn)練樣本的多樣性。上述預(yù)處理可有效改善圖像質(zhì)量、去除背景和噪聲干擾等,為深度網(wǎng)絡(luò)進(jìn)行特征提取提供良好的數(shù)據(jù)基礎(chǔ)。

        1.1.1 最大表情范圍

        人類通過控制面部肌肉變化實(shí)現(xiàn)表情切換。如圖2所示,人臉表情的變化部位主要位于關(guān)鍵點(diǎn)所圍區(qū)域,該區(qū)域的表情信息最為豐富,本文將該區(qū)域定義為最大表情范圍(maximum expression range,MER)。關(guān)鍵點(diǎn)檢測是獲得最大表情范圍的關(guān)鍵一步。本文使用面部關(guān)鍵點(diǎn)裁剪獲取最大表情范圍,減小背景、前額、頭發(fā)等非表情內(nèi)容影響。

        圖2 表情范圍和關(guān)鍵點(diǎn)的位置Fig.2 Expression range and position of key points

        級聯(lián)回歸樹是一種較為穩(wěn)健的關(guān)鍵點(diǎn)檢測方法[18],使用兩層回歸建立數(shù)學(xué)模型以優(yōu)化關(guān)鍵點(diǎn)坐標(biāo),模型經(jīng)過訓(xùn)練后可準(zhǔn)確、快速地獲取面部關(guān)鍵點(diǎn)。令某一個樣本面部關(guān)鍵點(diǎn)記為:

        其中,關(guān)鍵點(diǎn)坐標(biāo)矩陣M是一個大小為68×2的二維數(shù)組,矩陣M的每一行表示其中一個面部關(guān)鍵點(diǎn)。本文在上下左右四個方向取最遠(yuǎn)關(guān)鍵點(diǎn)構(gòu)成外接矩形,即可將表情豐富的區(qū)域最大限度保留。具體地,分別取{xi} (i=1,2,…,68) 中的最大值xmax和最小值xmin,{yi} (i=1,2,…,68)中的最大值ymax和最小值ymin。由這些最值點(diǎn)可以組成四個坐標(biāo)點(diǎn)a(xmin,ymin) 、b(xmax,ymin)、c(xmax,ymax)和d(xmin,ymax),則最大表情范圍S可表示為:

        由式(1)、(2)和(3)可獲取最大表情范圍,圖3為最大表情范圍的計(jì)算流程圖。

        圖3 最大表情范圍的計(jì)算流程Fig.3 Calculation process of maximum expression range

        1.1.2 數(shù)據(jù)的標(biāo)準(zhǔn)化與增強(qiáng)

        數(shù)據(jù)標(biāo)準(zhǔn)化使數(shù)據(jù)具有可比性,數(shù)據(jù)之間的相對關(guān)系轉(zhuǎn)換成標(biāo)準(zhǔn)模式,有利于網(wǎng)絡(luò)收斂。本文首先采用直方圖均衡化進(jìn)行光照的標(biāo)準(zhǔn)化。直方圖均衡化是一種利用灰度變換自動調(diào)節(jié)圖像對比質(zhì)量的方法,通過灰度級的概率密度函數(shù)求出灰度變換函數(shù)。變換函數(shù)T(r)與原圖像概率密度函數(shù)pr(r)之間的關(guān)系:

        其中,T(r)要滿足0 ≤T(r)≤1。

        由于直方圖均衡化會降低有用信號的對比度,接下來,本文使用Z-score 標(biāo)準(zhǔn)化來增強(qiáng)對比度。為了直觀地顯示圖像標(biāo)準(zhǔn)化后的效果,圖4給出了一幅人臉表情圖像經(jīng)過直方圖均衡和Z-score 處理后的結(jié)果。由圖4(b)可以看出,直方圖均衡化增強(qiáng)了過亮或過暗的人臉表情細(xì)節(jié)。使用Z-score對直方圖均衡化后的表情圖像進(jìn)行處理的結(jié)果如圖4(c)所示,表情圖像的細(xì)節(jié)和對比度得到進(jìn)一步的增強(qiáng)。

        圖4 圖像標(biāo)準(zhǔn)化Fig.4 Image normalization

        本文通過數(shù)據(jù)增廣技術(shù)(圖像隨機(jī)翻折、旋轉(zhuǎn)等操作)對樣本進(jìn)行擴(kuò)充,增加訓(xùn)練樣本的多樣性,增強(qiáng)網(wǎng)絡(luò)的泛化性。本文選取線上增廣技術(shù)在數(shù)據(jù)輸入模型前進(jìn)行批量操作,該過程可以通過GPU進(jìn)行加速處理。

        1.2 權(quán)重分配殘差網(wǎng)絡(luò)

        本節(jié)主要介紹權(quán)重分配殘差網(wǎng)絡(luò)的結(jié)構(gòu),基礎(chǔ)網(wǎng)絡(luò)選取更易優(yōu)化的殘差網(wǎng)絡(luò)[19]。殘差網(wǎng)絡(luò)可以有效緩解網(wǎng)絡(luò)性能衰減和梯度彌散問題,通過捷徑連接支路構(gòu)建恒等映射形成殘差單元。對于一個堆積層結(jié)構(gòu),當(dāng)輸入為x時,其學(xué)習(xí)到的特征記為H(x)。直接擬合H(x)比較困難,將問題轉(zhuǎn)化為學(xué)習(xí)一個殘差函數(shù)F(x)=H(x)-x,原始學(xué)習(xí)特征此時為F(x)+x。殘差單元通過恒等映射的方式在未引入額外參數(shù)和未增加計(jì)算量的情況下解決網(wǎng)絡(luò)性能退化問題。接下來,引入權(quán)重分配模塊引導(dǎo)網(wǎng)絡(luò)關(guān)注有益于表情分類的特征區(qū)域,抑制無關(guān)特征信息。

        1.2.1 權(quán)重分配網(wǎng)絡(luò)

        類間差異微小的表情類別(如害怕、傷心、生氣)表情特征通常聚集于局部區(qū)域,不僅需要關(guān)注有益于表情分類的特征形態(tài)還需要關(guān)注具體的局部特征。引入通道注意力機(jī)制與空間注意力機(jī)制[20]實(shí)現(xiàn)在通道和空間維度上的注意權(quán)重推斷,進(jìn)而實(shí)現(xiàn)不同區(qū)域的權(quán)重分配(weight allocation mechanism,WAM)。權(quán)重分配機(jī)制有效挖掘?qū)Ρ砬榉诸愑幸饬x的局部區(qū)域,實(shí)現(xiàn)局部特征學(xué)習(xí)強(qiáng)化,引導(dǎo)網(wǎng)絡(luò)利用聚合特征進(jìn)行表情識別。

        通道注意力機(jī)制在通道上實(shí)現(xiàn)權(quán)重分配,特征圖上每一個通道表示一個檢測器,通道注意力機(jī)制關(guān)注最有意義的特征是什么形態(tài)。輸入一個特征圖F∈RC×H×W(C為通道數(shù),H為高度,W為寬度),通過使用平均池化和最大池化方法來進(jìn)行特征信息聚合,最后得到平均池化后的特征圖Favg和最大池化后的特征圖Fmax。將得到的特征圖輸入到權(quán)重共享網(wǎng)絡(luò),該共享網(wǎng)絡(luò)為有一個隱含層的感知機(jī)構(gòu)成,輸出層的大小為1×1×C。將兩個新得到的特征圖相加經(jīng)過Sigmod激活函數(shù)得到權(quán)重系數(shù)Mc∈RC×1×1,將權(quán)重系數(shù)和原始輸入特征相乘即得到基于通道注意力的新特征。具體計(jì)算方式如下:

        其中,σ表示Sigmod 激活函數(shù),W0和W1表示多層感知機(jī)的權(quán)重。

        空間注意力機(jī)制在圖像空間上進(jìn)行權(quán)重分配,利用特征間的關(guān)系構(gòu)建空間注意力機(jī)制來尋找對于表情較有區(qū)分力的局部特征信息。輸入一個特征圖F∈RC×H×W,使用平均池化和最大池化生成兩個二維的特征圖Fasvg∈R1×H×W和Fmsax∈R1×H×W,將新生成的兩個二維特征圖連接后輸入到一個卷積核為7×7 的標(biāo)準(zhǔn)卷層,經(jīng)過Sigmod 激活函數(shù)得到二維空間權(quán)重推斷系數(shù)Ms∈RH×W,與原特征相乘即得到基于空間注意力的新特征。Ms的計(jì)算方式如下:

        其中,σ表示Sigmod激活函數(shù),Conv7×7為卷積核為7×7的標(biāo)準(zhǔn)卷積層。

        將通道注意力與空間注意力機(jī)制進(jìn)行融合,構(gòu)成權(quán)重分配模塊,實(shí)現(xiàn)通道和空間上的注意權(quán)重推斷。輸入特征F,經(jīng)過通道注意加權(quán)后得到Fc,再將Fc傳入空間注意力機(jī)制加權(quán)后得到Fs,將新特征輸入到網(wǎng)絡(luò)中相乘獲得經(jīng)過權(quán)重分配的特征Fc+s,權(quán)重分配結(jié)構(gòu)如圖5 所示,經(jīng)過權(quán)重分配后的特征計(jì)算方式如式(7)所示,其中?表示同位元素對應(yīng)相乘。

        圖5 權(quán)重分配網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Weight allocation network structure

        1.2.2 權(quán)重分配殘差網(wǎng)絡(luò)結(jié)構(gòu)

        深度殘差網(wǎng)絡(luò)通過殘差單元有效緩解梯度彌散和網(wǎng)絡(luò)性能衰減。本文以深度殘差網(wǎng)絡(luò)為基礎(chǔ)網(wǎng)絡(luò),引入權(quán)重分配機(jī)制,實(shí)現(xiàn)通道和空間的注意權(quán)重分配。深度網(wǎng)絡(luò)的層次結(jié)構(gòu)如圖6 表示。首先使用一個卷積層進(jìn)行特征的初步提取,將特征輸入權(quán)重分配模塊得到權(quán)重分配系數(shù)。使用原始特征與權(quán)重系數(shù)進(jìn)行同位元素對應(yīng)相乘獲得經(jīng)過權(quán)重分配的新特征。將新特征依次輸入到8個殘差模塊、2個全連接層中進(jìn)行特征學(xué)習(xí),在全連接層之后再次進(jìn)行權(quán)重分配運(yùn)算。最后接入softmax層進(jìn)行分類,整個基礎(chǔ)網(wǎng)絡(luò)共19 個卷積層。殘差模塊包含2個卷積層、2個BN(batch normalization)層和2個Relu 層,網(wǎng)絡(luò)中使用兩種不同的殘差模塊(如圖7 中的殘差模塊結(jié)構(gòu)1 和2)。殘差模塊結(jié)構(gòu)2 在連接支路加入1×1卷積(步長為2,填充為1)與BN層以實(shí)現(xiàn)輸入輸出的尺寸統(tǒng)一。為了使網(wǎng)絡(luò)實(shí)現(xiàn)權(quán)重分配的同時保持殘差單元的完整性,將兩個權(quán)重分配模塊插入在第一層卷積輸出后和softmax 分類層之前。殘差網(wǎng)絡(luò)有效緩解網(wǎng)絡(luò)性能退化問題,權(quán)重分配模塊引導(dǎo)網(wǎng)絡(luò)尋找表情變化突出的特征區(qū)域,更好地區(qū)分類間差異小的表情類別。

        圖6 權(quán)重分配殘差網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Residual network structure of weight allocation

        圖7 不同結(jié)構(gòu)的殘差單元Fig.7 Residual units of different structures

        2 實(shí)驗(yàn)結(jié)果與分析

        本文實(shí)驗(yàn)硬件平臺為臺式工作站,其配置如下:Ubuntu18.04系統(tǒng)、CPU主頻2.3 GHz的Intel Xeon Silver 4110 和NVIDIA RTX2080Ti 顯卡。實(shí)驗(yàn)中保持了超參數(shù)的一致,迭代次數(shù)(epoch)均設(shè)為250 次,初始學(xué)習(xí)率設(shè)為0.01,在迭代50 次后學(xué)習(xí)率以0.9 倍進(jìn)行衰減。使用SGD優(yōu)化器,權(quán)重衰減系數(shù)為5E-4,動量設(shè)為0.9。

        2.1 表情數(shù)據(jù)集

        本文實(shí)驗(yàn)使用CK+和FER2013 表情數(shù)據(jù)集。CK+是由CK數(shù)據(jù)集擴(kuò)展而來,包含了123個對象的593個圖像序列。CK+數(shù)據(jù)集是在實(shí)驗(yàn)室環(huán)境下獲取的表情數(shù)據(jù),圖像采集環(huán)境相對較好。FER2013人臉表情數(shù)據(jù)集由35 886 張人臉表情圖片組成,其中訓(xùn)練集28 708 張,驗(yàn)證集和測試集各3 589 張,共包含7 種表情。與CK+數(shù)據(jù)集不同,F(xiàn)ER2013數(shù)據(jù)集用中性類別取代了蔑視類別。FER2013數(shù)據(jù)集包含大量人臉遮擋圖像、低對比度圖像和非人臉圖像,其識別難度高于CK+數(shù)據(jù)集。

        2.2 實(shí)驗(yàn)結(jié)果分析

        本節(jié)對所提算法的性能進(jìn)行實(shí)驗(yàn)評估。首先對本文構(gòu)建的基礎(chǔ)網(wǎng)絡(luò)進(jìn)行對比實(shí)驗(yàn),表1分別列舉了三種典 型 深 度 網(wǎng) 絡(luò)(AlexNet[21]、VGG-19[22]和Resnet[19])在CK+和FER2013數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,結(jié)果表明Resnet比其他兩種網(wǎng)絡(luò)具有更高的識別精度,故本文選取Resnet網(wǎng)絡(luò)作為基礎(chǔ)網(wǎng)絡(luò)。

        表1 不同網(wǎng)絡(luò)在FER2013和CK+的準(zhǔn)確率Table 1 Accuracy of different algorithms in FER2013

        2.2.1 網(wǎng)絡(luò)結(jié)構(gòu)的有效性

        為了驗(yàn)證權(quán)重分配網(wǎng)絡(luò)和最大表情范圍裁剪方法的有效性,實(shí)驗(yàn)結(jié)果如表2 所示,其中Resnet 表示未加入任何模塊的基礎(chǔ)殘差網(wǎng)絡(luò),MER 表示最大表情范圍機(jī)制、WAM 表示權(quán)重分配機(jī)制。四種網(wǎng)絡(luò)結(jié)構(gòu)均在FER2013和CK+數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),CK+數(shù)據(jù)集實(shí)驗(yàn)使用十折(10-fold)交叉驗(yàn)證方法。從表2可以看出,最大表情范圍裁剪和權(quán)重分配機(jī)制對兩個數(shù)據(jù)集的識別準(zhǔn)確率都有一定提升。最大表情范圍獲取表情信息豐富的局部圖像作為輸入,使得網(wǎng)絡(luò)更有效地學(xué)習(xí)表情分類任務(wù)中的細(xì)微差異,提高識別準(zhǔn)確率。權(quán)重分配機(jī)制則在空間和通道上進(jìn)行注意權(quán)重的分配,引導(dǎo)網(wǎng)絡(luò)關(guān)注有益于表情分類的局部特征。結(jié)合權(quán)重分配網(wǎng)絡(luò)與最大表情范圍在FER2013和CK+數(shù)據(jù)集上實(shí)現(xiàn)了74.14%和98.99%的準(zhǔn)確率相較于基礎(chǔ)網(wǎng)絡(luò)分別提高了4.02 和4.04個百分點(diǎn),說明了本文所提的最大表情范圍和權(quán)重分配機(jī)制具有一定的有效性。

        表2 不同網(wǎng)絡(luò)結(jié)構(gòu)的對比Table 2 Comparison of different network structures

        類間差異微小的表情類別(如害怕、傷心、生氣)是表情分類的難點(diǎn),通過空間和通道上的注意權(quán)重分配,引導(dǎo)網(wǎng)絡(luò)關(guān)注局部細(xì)節(jié)特征,提高類間差異微小表情的識別準(zhǔn)確率。類間差異小的表情識別性能的變化可以通過混淆矩陣展現(xiàn)。

        圖8為不同網(wǎng)絡(luò)在FER2013數(shù)據(jù)集上的混淆矩陣,由圖8可看出:

        (1)圖8(a)為基礎(chǔ)網(wǎng)絡(luò)的混淆矩陣,可發(fā)現(xiàn)生氣、害怕、傷心等容易造成相互間的誤判,識別準(zhǔn)確率分別為63%、52%、63%。原因在于表情類間差異較小,表情信息接近易造成誤判。例如害怕誤判為傷心的概率達(dá)到了20%,傷心誤判為害怕的概率達(dá)到了12%,生氣誤判為傷心的概率達(dá)到15%。

        (2)圖8(b)為本文算法的混淆矩陣,相較于基礎(chǔ)網(wǎng)絡(luò),嵌入權(quán)重分配和最大表情范圍后生氣、害怕、傷心和中性的識別準(zhǔn)確率分別提升4、5、7、7 個百分點(diǎn)。類間差異小的類別之間的誤判率也得到有效改善,害怕誤判為傷心的概率為14%,傷心誤判為害怕的概率為10%,生氣誤判為傷心的概率為12%。其余識別準(zhǔn)確率均有小幅改善。該算法相較于基礎(chǔ)網(wǎng)絡(luò)(圖8(a))總體識別準(zhǔn)確率提高4.02 個百分點(diǎn),生氣、害怕、傷心、中性等類間差異小的表情識別性能得到有效改善。

        (3)圖8(c)和(d)分別為Resnet-WAM與Resnet-MER的混淆矩陣,二者的總體識別率分別比Resnet高出2.02和2.73 個百分點(diǎn)。由混淆矩陣可以看出,Resnet-MER在害怕和中性識別準(zhǔn)確率提高5 和7 個百分點(diǎn),Resnet-WAM 在傷心和厭惡上分別提高2 和4 個百分點(diǎn)。分別嵌入最大表情范圍和權(quán)重分配都能有效地改善類間差異小的表情識別性能,提升總體識別準(zhǔn)確率。

        圖8 不同網(wǎng)絡(luò)在FER2013數(shù)據(jù)集上的混淆矩陣Fig.8 Confusion matrix of different networks on FER2013 dataset

        圖9 為不同網(wǎng)絡(luò)在CK+數(shù)據(jù)集的混淆矩陣,由圖9可看出:

        (1)從圖9的混淆矩陣可知快樂、驚訝、厭惡等類間差異較大的表情在每個網(wǎng)絡(luò)都保持較高的識別準(zhǔn)確率,而生氣、傷心、害怕等類間差異較小的表情誤判率較高。圖9(b)為本文算法的混淆矩陣,該算法近一步提升生氣、傷心、害怕的準(zhǔn)確率分別達(dá)到100%、99%、97%,相比基礎(chǔ)網(wǎng)絡(luò)(圖9(a))分別提高8、4、7 個百分點(diǎn)。整體的識別準(zhǔn)確率相較于基礎(chǔ)網(wǎng)絡(luò)提升4.05 個百分點(diǎn)。說明本文算法對類內(nèi)差異較小的表情具有良好識別性能。

        (2)Resnet-WAM(圖9(c))、Resnet-MER(圖9(d))的識別率相較于基礎(chǔ)網(wǎng)絡(luò)分別提升1.01 和2.02 個百分點(diǎn),使用最大表情范圍可以最大限度保留全局表情特征,有效避免表情信息缺失,提升表情識別準(zhǔn)確率。在空間和通道上進(jìn)行權(quán)重分配,引導(dǎo)網(wǎng)絡(luò)關(guān)注表情變化突出的局部區(qū)域,提升類間差異小的表情識別準(zhǔn)確率。

        圖9 不同網(wǎng)絡(luò)在CK+數(shù)據(jù)集上的混淆矩陣Fig.9 Confusion matrix of different networks in CK+ dataset

        本文使用Grad-CAM[23]技術(shù)對權(quán)重分配模塊進(jìn)行特征學(xué)習(xí)區(qū)域可視化,Grad-CAM 使用梯度來計(jì)算卷積層中空間位置的重要性,構(gòu)建熱力圖直觀地展示卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的特征,將模型的關(guān)注點(diǎn)通過熱力圖表現(xiàn)出來。圖10為加入權(quán)重分配機(jī)制網(wǎng)絡(luò)與基礎(chǔ)網(wǎng)絡(luò)的特征熱力圖。圖10第二行中的熱力覆蓋范圍相對集中于表情變化區(qū)域,而第三行中的熱力覆蓋范圍分散于整個圖像??梢姍?quán)重分配機(jī)制有利于增強(qiáng)局部特征性能。圖10最后一列蔑視的變化區(qū)域在口部周圍,權(quán)重分配機(jī)制能很好地將特征權(quán)重分配到口部,將特征學(xué)習(xí)主要集中于口部周圍,而Resnet網(wǎng)絡(luò)的特征學(xué)習(xí)相對分散。因此權(quán)重分配機(jī)制可以很好地聚合對于表情分類有意義的特征,弱化其他特征。

        圖10 可視化權(quán)重分配機(jī)制的特征學(xué)習(xí)Fig.10 Feature learning of visual weight allocation mechanism

        2.2.2 與現(xiàn)有方法對比

        為了說明本文算法在類間差異微小的表情類別的識別性能,表3列舉了本文算法與近期一些算法的實(shí)驗(yàn)結(jié)果對比,可見本文算法相較于其他算法在類間差異微小的表情類別上有明顯的性能提升,使得整體表情識別準(zhǔn)確率提高,驗(yàn)證了本文方法的有效性。文獻(xiàn)[24]同樣使用注意力機(jī)制關(guān)注通道信息,忽略了空間上的局部信息。文獻(xiàn)[15]結(jié)合通道注意力和雙線性殘差網(wǎng)絡(luò),使用深層網(wǎng)絡(luò)Resnet50作為基礎(chǔ)網(wǎng)絡(luò),需要消耗更大的計(jì)算資源??梢钥偨Y(jié)出最大表情范圍裁剪使網(wǎng)絡(luò)聚焦于表情豐富區(qū)域,使用權(quán)重分配網(wǎng)絡(luò)可從空間和通道上對有利于表情分類的局部特征進(jìn)行權(quán)重加強(qiáng),兩種方法都有效提升了表情識別的準(zhǔn)確率。

        表3 本文算法與其他算法在CK+和FER2013數(shù)據(jù)集上的對比Table 3 Comparison between proposed algorithm and other methods on CK+ and FER2013 datasets

        3 結(jié)語

        本文提出基于面部關(guān)鍵點(diǎn)的最大表情范圍提取方法,有效減少非表情內(nèi)容影響。引入權(quán)重分配機(jī)制挖掘?qū)Ψ诸愑幸饬x的區(qū)域,引導(dǎo)網(wǎng)絡(luò)更好地學(xué)習(xí)局部特征。本文算法在FER2013 和CK+上的實(shí)驗(yàn)結(jié)果表明基于關(guān)鍵點(diǎn)的最大表情范圍裁剪和權(quán)重分配策略可以有效提升表情識別準(zhǔn)確率。本文算法有效改善了類間差異較小表情的識別效果。但實(shí)驗(yàn)中發(fā)現(xiàn)生氣、害怕、中性等表情的誤判率相較于其他類別仍然較高,高相似度表情識別有待進(jìn)一步研究。FER2013 數(shù)據(jù)集為非實(shí)驗(yàn)室數(shù)據(jù)集,圖像質(zhì)量差數(shù)據(jù)環(huán)境復(fù)雜,多種方法在該數(shù)據(jù)集上的識別準(zhǔn)確率較低。探索低質(zhì)表情圖像的識別算法也是下一步需要研究的問題。

        猜你喜歡
        類間關(guān)鍵點(diǎn)殘差
        基于雙向GRU與殘差擬合的車輛跟馳建模
        聚焦金屬關(guān)鍵點(diǎn)
        肉兔育肥抓好七個關(guān)鍵點(diǎn)
        基于OTSU改進(jìn)的布匹檢測算法研究
        基于殘差學(xué)習(xí)的自適應(yīng)無人機(jī)目標(biāo)跟蹤算法
        基于貝葉斯估計(jì)的多類間方差目標(biāo)提取*
        基于遞歸殘差網(wǎng)絡(luò)的圖像超分辨率重建
        基于類間相對均勻性的紙張表面缺陷檢測
        基于改進(jìn)最大類間方差法的手勢分割方法研究
        平穩(wěn)自相關(guān)過程的殘差累積和控制圖
        河南科技(2015年8期)2015-03-11 16:23:52
        亚洲乱色伦图片区小说 | 大红酸枝极品老料颜色| 亚洲视频在线播放免费视频 | 日本少妇人妻xxxxx18| 91天堂素人精品系列全集亚洲 | 精品天堂色吊丝一区二区| 少妇性俱乐部纵欲狂欢电影| 少妇被躁爽到高潮无码文| 久久精品亚洲精品毛片| 一区二区三区四区四色av| 久久九九精品国产不卡一区| 日本欧美大码a在线观看| 国产真实强被迫伦姧女在线观看| 国产在线无码制服丝袜无码| 在线观看av国产自拍| 蜜桃在线一区二区三区| 日本视频一区二区三区在线| 手机在线看片| 亚洲精品无人区| 亚洲综合一区无码精品| 97碰碰碰人妻视频无码| 日韩一区二区中文天堂| 91露脸半推半就老熟妇| 免费人成网站在线观看欧美| 欧美第一黄网免费网站| 亚洲精品国产一二三无码AV| 蜜桃人妻午夜精品一区二区三区| 人妻少妇精品视频一区二区三区l| 亚洲国产一二三精品无码| 亚洲av国产精品色午夜洪2| 人妻中出精品久久久一区二| 精品视频手机在线免费观看| 国产v片在线播放免费无码| 亚洲熟妇无码av不卡在线播放 | 久久dvd| 中文字幕一区二区在线看| 欧美v国产v亚洲v日韩九九| 亚洲依依成人亚洲社区| 亚洲av一区二区国产精品| 激情在线一区二区三区视频| 国99久9在线 | 免费|