亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于遮擋感知卷積神經(jīng)網(wǎng)絡(luò)的面部表情識(shí)別模型

        2021-10-15 10:08:36軍,趙凱,程
        計(jì)算機(jī)工程 2021年10期
        關(guān)鍵詞:數(shù)據(jù)庫(kù)區(qū)域模型

        王 軍,趙 凱,程 勇

        (1.南京信息工程大學(xué) 科技產(chǎn)業(yè)處,南京 210044;2.南京信息工程大學(xué) 計(jì)算機(jī)與軟件學(xué)院,南京 210044)

        0 概述

        近年來,面部表情識(shí)別(Facial Expression Recognition,F(xiàn)ER)在人機(jī)交互、自動(dòng)駕駛和心理健康評(píng)估等方面應(yīng)用廣泛。作為交叉領(lǐng)域技術(shù),面部表情識(shí)別的發(fā)展可以推動(dòng)人臉檢測(cè)技術(shù)[1-2]、人臉重組技術(shù)[3-4]、動(dòng)畫模擬技術(shù)[5]等相關(guān)技術(shù)領(lǐng)域的進(jìn)步。盡管現(xiàn)有面部表情識(shí)別系統(tǒng)已有較高識(shí)別率,但大多數(shù)基于實(shí)驗(yàn)室數(shù)據(jù)庫(kù)系統(tǒng)獲取,如CK+[6]、JAFFE[7]、MMI[8]等,這些面部圖像多數(shù)是正臉圖像且沒有任何遮擋,在實(shí)際應(yīng)用中不具有普適性。為提升真實(shí)場(chǎng)景下的表情識(shí)別率,研究人員收集大量臉部圖像組建表情數(shù)據(jù)庫(kù)[9-10],并提出新穎算法[11-13]與優(yōu)化網(wǎng)絡(luò)架構(gòu)[14-16],但從現(xiàn)有模型在數(shù)據(jù)庫(kù)上的表現(xiàn)來看,真實(shí)場(chǎng)景下的面部表情識(shí)別技術(shù)仍處于起步階段,其中對(duì)識(shí)別率影響最大因素之一就是遮擋問題。在真實(shí)場(chǎng)景中,遮擋不可避免,它可能由本身引起,如姿態(tài)、頭發(fā)、手臂等引起的自遮擋,也可能由外物引起,比如眼鏡、圍巾、口罩、食物和其他人的遮擋,這都將不可避免地導(dǎo)致識(shí)別精度下降。本文對(duì)表情識(shí)別中的遮擋問題進(jìn)行分析,提出具有遮擋感知能力的神經(jīng)網(wǎng)絡(luò)以提取遮擋情況下的面部表情特征。設(shè)計(jì)區(qū)域遮擋判定單元并集成到VGG16網(wǎng)絡(luò)(Visual Geometry Group Network,VGGNet),使整個(gè)模型能夠提取未遮擋區(qū)域及遮擋較少區(qū)域表情特征,在網(wǎng)絡(luò)卷積層利用遷移學(xué)習(xí)算法對(duì)卷積層進(jìn)行參數(shù)預(yù)訓(xùn)練,并使用基于殘差神經(jīng)網(wǎng)絡(luò)[16]修改的網(wǎng)絡(luò)(The modified Residual Network,modified ResNet)提取全臉特征。最終通過加權(quán)融合殘差網(wǎng)絡(luò)和遮擋感知網(wǎng)絡(luò)的輸出進(jìn)行面部識(shí)別。

        1 相關(guān)工作

        1.1 網(wǎng)絡(luò)結(jié)構(gòu)

        卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)在計(jì)算機(jī)視覺領(lǐng)域所取得的顯著成就,如圖像分類[17-18]、目標(biāo)檢測(cè)[19-20]等的主要原因是網(wǎng)絡(luò)架構(gòu)的不斷改進(jìn)。例如,ALEX 等[14]提出的AlexNet在ImageNet競(jìng)賽中獲得出色表現(xiàn)(top1 和top5 的錯(cuò)誤率分別為37.5%和17.0%),以高于第2 名10.9 個(gè)百分點(diǎn)的成績(jī)?nèi)〉玫?,AlexNet的出現(xiàn)引起人們對(duì)CNN 的學(xué)習(xí)熱潮。隨后為探索CNN 為何在圖像處理中有著優(yōu)異表現(xiàn),ZEILER等[21]設(shè)計(jì)反卷積神經(jīng)網(wǎng)絡(luò)(Deconvolutional Network)對(duì)網(wǎng)絡(luò)內(nèi)部進(jìn)行可視化分析并進(jìn)一步提高CNN 能力。反卷積神經(jīng)網(wǎng)絡(luò)主要由反池化、反激活、反卷積3 個(gè)部分組成,通過可視化AlexNet 各個(gè)特征層,對(duì)卷積核大小及步長(zhǎng)進(jìn)行優(yōu)化,改進(jìn)后的模型ZFNet 在ImageNet 2012的分類誤差與AlexNet相比均有所下降。2014年,由SIMONYAN 等[15]提出的VGGNet,通過探索分析出卷積神經(jīng)網(wǎng)絡(luò)深度和性能之間的關(guān)系,成功構(gòu)建出16/19 層深度神經(jīng)網(wǎng)絡(luò)。此后,為解決網(wǎng)絡(luò)層數(shù)達(dá)到一定程度后出現(xiàn)的性能退化問題,HE 等[16]提出殘差卷積神經(jīng)網(wǎng)絡(luò),通過在網(wǎng)絡(luò)中增加跳躍結(jié)構(gòu)以實(shí)現(xiàn)恒等映射,實(shí)現(xiàn)了利用網(wǎng)絡(luò)深度來提高準(zhǔn)確率的目的。當(dāng)前,科研人員對(duì)網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化的興趣較高,HUANG 等[22]提出的網(wǎng)絡(luò)模型的深度已達(dá)數(shù)百層。

        本文基于VGGNet 和殘差網(wǎng)絡(luò)提出模型架構(gòu),選用VGGNet的主要原因在于其在圖像特征提取方面的優(yōu)異表現(xiàn),且易于修改和訓(xùn)練。使用殘差網(wǎng)絡(luò)是由于其易于優(yōu)化,且經(jīng)過簡(jiǎn)單修改就可以很好地提取面部表情特征。

        1.2 特征提取

        真實(shí)場(chǎng)景下的面部表情識(shí)別是一項(xiàng)極具挑戰(zhàn)的任務(wù),因?yàn)樵谧R(shí)別過程中會(huì)遇到諸多不可避免的問題,如部分遮擋、光照變化、個(gè)體差異等,這些問題在空間表達(dá)上都與表情非線性相關(guān)。因此,有效提取表情相關(guān)特征難度很大。為解決面部表情識(shí)別中遇到的各種問題,研究人員通過嘗試不斷優(yōu)化網(wǎng)絡(luò)架構(gòu)和提出新算法來解決。例如,為有效提升模型對(duì)光照變化的魯棒性,YANG 等[23]提出名為雙通道混合神經(jīng)網(wǎng)絡(luò)模型(Weighted Mixed Deep Neural Network,WMDNN),該模型能有效地對(duì)面部灰度圖像特征和LBP 圖像特征進(jìn)行融合,成功構(gòu)建出光照不敏感模型。本文提出的模型與之類似,也采用雙通道輸出融合的方式來獲得更好的性能。為解決遮擋問題,LI 等人[24]提出帶有注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neutral Network with Attention mechanism,ACNN),其由局部感知網(wǎng)(patch based ACNN,pACNN)和全局感知網(wǎng)(global based ACNN,gACNN)組成,通過感知面部遮擋區(qū)域比例,使網(wǎng)絡(luò)專注于未遮擋區(qū)域。與ACNN 不同,本文模型使用多個(gè)區(qū)域遮擋判定單元構(gòu)成遮擋感知網(wǎng)絡(luò),比ACNN更容易訓(xùn)練和優(yōu)化。為解決樣本數(shù)據(jù)不足,DING等[11]提出遷移學(xué)習(xí)算法FaceNet2ExpNet以針對(duì)表情識(shí)別網(wǎng)絡(luò)的卷積層進(jìn)行參數(shù)預(yù)訓(xùn)練,該算法為2 階段訓(xùn)練算法:第1 階段利用人臉信息作為卷積層參數(shù)訓(xùn)練的監(jiān)督值,以實(shí)現(xiàn)卷積層參數(shù)初始化;第2 階段以面部表情信息作為監(jiān)督值來訓(xùn)練全連接層參數(shù),從而解決因訓(xùn)練數(shù)據(jù)不足帶來的過擬合問題。

        本文提出的模型主要針對(duì)面部表情識(shí)別中部分遮擋問題,在ACNN 的基礎(chǔ)上進(jìn)行優(yōu)化,設(shè)計(jì)區(qū)域遮擋判定單元并將其集成到單個(gè)網(wǎng)絡(luò)中,使網(wǎng)絡(luò)具有遮擋感知功能。采用雙通道網(wǎng)絡(luò)結(jié)構(gòu)來實(shí)現(xiàn)特征互補(bǔ),以獲得更好地表現(xiàn)性能。此外,利用遷移學(xué)習(xí)算法對(duì)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,解決訓(xùn)練樣本不足帶來的過擬合問題。

        2 本文方法

        2.1 系統(tǒng)框架

        本文提出的模型整體框架如圖1所示。藍(lán)色(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML版)實(shí)線框中為遮擋感知網(wǎng)絡(luò),用來提取遮擋較少區(qū)域的表情相關(guān)特征。藍(lán)色虛線框部分為區(qū)域遮擋判定單元(Region Decision Unit,RD-Unit),其主要功能為判定子區(qū)域遮擋比例是否超過設(shè)定值,當(dāng)某一區(qū)域遮擋超過設(shè)定比例時(shí),即舍棄該區(qū)域特征向量。本文通過將多個(gè)區(qū)域遮擋判定單元集成于VGG16網(wǎng)絡(luò)中,使其能夠篩選出臉部遮擋較少的子區(qū)域。因此遮擋感知網(wǎng)絡(luò)能夠提取遮擋較少區(qū)域的表情相關(guān)特征。紅色實(shí)線框部分為修改后的殘差神經(jīng)網(wǎng)絡(luò),用以提取全臉表情特征,該網(wǎng)絡(luò)以殘差網(wǎng)絡(luò)作為主干網(wǎng)并進(jìn)行針對(duì)性優(yōu)化。2個(gè)網(wǎng)絡(luò)的輸出通過單因子加權(quán)方式進(jìn)行特征向量融合,融合后的特征向量將用以表情分類。

        圖1 本文模型框架Fig.1 Framework of the proposed model

        2.2 遮擋感知網(wǎng)絡(luò)

        如圖2 所示,本文使用Face++調(diào)用應(yīng)用程序編程接口的方式對(duì)臉部進(jìn)行關(guān)鍵點(diǎn)檢測(cè),隨后在OpenCV 中對(duì)圖像包含關(guān)鍵點(diǎn)的區(qū)域進(jìn)行選取操作,處理后的面部圖像尺寸將統(tǒng)一縮放至128 像素×128 像素,隨后將會(huì)作為遮擋感知網(wǎng)絡(luò)的輸入進(jìn)行特征提取。在特征提取階段將使用滑動(dòng)劃分的方式對(duì)子區(qū)域進(jìn)行選取,即使用固定大小的窗口并設(shè)定滑動(dòng)步長(zhǎng),隨后使用逐步滑動(dòng)方式對(duì)人臉圖像進(jìn)行滑動(dòng)選取。

        圖2 圖像滑動(dòng)劃分方式Fig.2 Facial image sliding division methods

        假設(shè)輸入圖像的寬和高分別為w和h,滑動(dòng)窗口尺寸為d×d,使用滑動(dòng)劃分方式對(duì)輸入圖像進(jìn)行劃分后,將得到n子區(qū)域,其計(jì)算公式如下:

        其中:s為滑動(dòng)步長(zhǎng)大小。通過實(shí)驗(yàn)分析,滑動(dòng)步長(zhǎng)和網(wǎng)絡(luò)精確度及內(nèi)存消耗成正比。綜合考慮,本文將滑動(dòng)步長(zhǎng)設(shè)定為滑動(dòng)窗口尺寸的1/2,即s=d/2。使用滑動(dòng)方式進(jìn)行選取會(huì)產(chǎn)生部分區(qū)域重疊和資源消耗,但這有助于保留更多臉部信息?;瑒?dòng)選取方式在整個(gè)圖像上操作,對(duì)臉部關(guān)鍵點(diǎn)定位精度依賴性不高,因此該方式在一定程度上可以提升遮擋感知網(wǎng)絡(luò)的性能。臉部圖像區(qū)域的滑動(dòng)劃分方式如圖2 所示,當(dāng)d的大小被設(shè)定為32,在尺寸為128 像素×128 像素的臉部圖像上進(jìn)行滑動(dòng)劃分后將得到49 個(gè)子區(qū)域。在實(shí)際操作中,此劃分方式在圖像特征圖層面進(jìn)行,通過共享卷積層減少網(wǎng)絡(luò)參數(shù)。劃分后的區(qū)域特征圖將通過遮擋判定單元以提取遮擋少于設(shè)定比例的區(qū)域表情特征。

        遮擋感知網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示,紅色(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML版)虛線框部分為網(wǎng)絡(luò)卷積層,其主要功能是將輸入轉(zhuǎn)化為特征圖,其包含12 個(gè)卷積層和4 個(gè)池化層,卷積層過濾器尺寸為3×3,池化層過濾器尺寸為2×2。藍(lán)色(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML 版)虛線部分為區(qū)域遮擋判定單元,其主要功能是對(duì)劃分后的區(qū)域進(jìn)行遮擋判定,即判斷該區(qū)域的遮擋比例是否超過設(shè)定比例閾值。遮擋判定單元由2個(gè)分支構(gòu)成,第1個(gè)分支是決策網(wǎng),第2個(gè)分支是全連接層。決策網(wǎng)由1個(gè)池化層、2個(gè)全連接層和1個(gè)邏輯回歸函數(shù)組成。決策網(wǎng)的輸入為區(qū)域特征圖,經(jīng)過池化操作和向量特征提取后得到1個(gè)一維向量,最后通過一個(gè)邏輯回歸函數(shù)以實(shí)現(xiàn)對(duì)該區(qū)域向量的遮擋判定。如果該區(qū)域遮擋比例超過了設(shè)定閾值,則判定該區(qū)域標(biāo)簽為0,并舍棄該區(qū)域由第2 分支提取的特征向量,如果遮擋比例小于設(shè)定閾值則保留該區(qū)域特征向量。

        圖3 遮擋感知網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Structure of the convolutional neural network with occlusion perception

        本文使用ρi表示第i個(gè)區(qū)域特征圖。第1 個(gè)分支是決策網(wǎng),可對(duì)ρi執(zhí)行遮擋比例判定:

        其中:ηi表示第i個(gè)區(qū)域判定結(jié)果;δ(·)為分類函數(shù),表示決策網(wǎng)中的判定操作,如式(3)所示:

        其中,Ob為區(qū)域遮擋比例;β是設(shè)定遮擋比例閾值;1 表示該區(qū)域遮擋比例低于設(shè)定閾值;0 則表示判定該區(qū)域遮擋比例超過設(shè)定閾值,意味著從該區(qū)域?qū)W習(xí)的特征向量將不會(huì)進(jìn)行融合操作。最后,對(duì)第i個(gè)通道的輸出執(zhí)行判定操作:

        實(shí)驗(yàn)結(jié)果表明,當(dāng)臉部關(guān)鍵區(qū)域遮擋比例為0.45 時(shí)的平均識(shí)別率為36.9%,遮擋比例為0.55 時(shí)平均識(shí)別率為29.1%,即遮擋比例超過0.5 時(shí)準(zhǔn)確率出現(xiàn)明顯下降。因此將遮擋比例閾值手動(dòng)設(shè)置為0.5,即保留遮擋比例少于1/2 的區(qū)域特征向量用以表情分類。通過遮擋判定單元的篩選,遮擋感知網(wǎng)絡(luò)將保留遮擋較少區(qū)域的特征向量。

        文中將多個(gè)遮擋判定單元集成到單個(gè)神經(jīng)網(wǎng)絡(luò)中,使用窗口滑動(dòng)方式進(jìn)行區(qū)域劃分,通過這2 種方式的結(jié)合使神經(jīng)網(wǎng)絡(luò)能篩選出遮擋比例較少的區(qū)域,從而形成遮擋感知神經(jīng)網(wǎng)絡(luò)。此外,采用在特征圖上進(jìn)行子區(qū)域劃分的方式來實(shí)現(xiàn)卷積層共享以減少網(wǎng)絡(luò)參數(shù),從而達(dá)到優(yōu)化模型的效果。遮擋感知網(wǎng)絡(luò)卷積層參數(shù)將利用遷移學(xué)習(xí)算法FaceNet2 ExpNet[11]進(jìn)行預(yù)訓(xùn)練。

        2.3 殘差網(wǎng)絡(luò)

        考慮到大面積遮擋以及非遮擋性問題會(huì)導(dǎo)致遮擋感知網(wǎng)絡(luò)丟失部分細(xì)節(jié),因此將使用另一個(gè)深度神經(jīng)網(wǎng)絡(luò)來提取全臉特征,以達(dá)到和遮擋感知網(wǎng)絡(luò)互補(bǔ)的效果。該網(wǎng)絡(luò)以更易優(yōu)化的殘差網(wǎng)絡(luò)作為基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)。殘差網(wǎng)絡(luò)的優(yōu)點(diǎn)在于當(dāng)網(wǎng)絡(luò)深度達(dá)到一定程度時(shí),可進(jìn)一步優(yōu)化以提升性能,而不會(huì)像普通網(wǎng)絡(luò)那樣隨著網(wǎng)絡(luò)深度增加而產(chǎn)生性能退化問題,這是因?yàn)闅埐罹W(wǎng)絡(luò)在2 個(gè)卷積層中引入恒等映射(Identity mapping)。恒等映射相當(dāng)于在網(wǎng)絡(luò)層中間加入捷徑連接(Short-cut connections)以形成高速支路來構(gòu)成基本殘差單元。假設(shè)本來需學(xué)習(xí)的輸出為H(x),而在殘差網(wǎng)絡(luò)中,將學(xué)習(xí)F(x),即H(x)-x,這意味著原來要學(xué)習(xí)網(wǎng)絡(luò)的輸出H(x)變成了學(xué)習(xí)輸出H(x)與輸入x之間的差值,如果差值逼近于0,則說明這一層網(wǎng)絡(luò)發(fā)生了梯度消失,意味著在這層網(wǎng)絡(luò)中未學(xué)習(xí)到有效信息,將對(duì)這一層網(wǎng)絡(luò)進(jìn)行跳躍。網(wǎng)絡(luò)通過恒等映射的方式在未引入額外參數(shù)和未增加計(jì)算量的情況下實(shí)現(xiàn)進(jìn)一步優(yōu)化。殘差學(xué)習(xí)單元應(yīng)用于深度卷積神經(jīng)網(wǎng)絡(luò)可有效緩解網(wǎng)絡(luò)模型訓(xùn)練時(shí)反向傳播中梯度消失問題,進(jìn)而解決深層網(wǎng)絡(luò)難以訓(xùn)練和性能退化的問題。

        本文使用殘差網(wǎng)絡(luò)作為第2 個(gè)網(wǎng)絡(luò)的骨干網(wǎng),基于101 層殘差網(wǎng)絡(luò)進(jìn)行修改以提取全臉圖像表情相關(guān)特征。修改后網(wǎng)絡(luò)結(jié)構(gòu)為102 層,其網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示。對(duì)于網(wǎng)絡(luò)第一層,將尺寸為7×7 的過濾器改為5×5,因?yàn)?×7 的過濾器對(duì)表情特征來說相對(duì)較大,無法捕捉細(xì)節(jié)。隨后的池化層過濾器尺寸也做出相應(yīng)調(diào)整,由3×3 減小到2×2。其余4 個(gè)卷積塊仍使用尺寸為1×1 和3×3 過濾器。在卷積層訓(xùn)練階段使用ReLU(Rectified Linear Unit)作為激活函數(shù),并使用批歸一化(Batch Normalization,BN)對(duì)激活值進(jìn)行處理。最后,將1 000 維的單個(gè)全連接層改為2 個(gè)全連接層,分別為256 維和64 維。由于1 000 維向量對(duì)表情特征來說容易導(dǎo)致過擬合現(xiàn)象,因此改用256 維向量以減少特征維數(shù),并使用Dropout 以進(jìn)一步防止過擬合現(xiàn)象發(fā)生。最后,殘差網(wǎng)絡(luò)的64 維向量將和遮擋感知網(wǎng)絡(luò)的輸出進(jìn)行特征融合。

        圖4 修改后的殘差網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Structure of the modified ResNet

        2.4 卷積層預(yù)訓(xùn)練

        在主通道卷積層訓(xùn)練階段,使用遷移學(xué)習(xí)算法FaceNet2ExpNet 對(duì)卷積層參數(shù)進(jìn)行預(yù)訓(xùn)練。其訓(xùn)練過程如圖5 所示。訓(xùn)練過程分為2 個(gè)階段。在第1 個(gè)階段訓(xùn)練中,利用人臉網(wǎng)絡(luò)中的人臉深層特征信息作為監(jiān)督值,使表情學(xué)習(xí)變得容易。訓(xùn)練中定義卷積層的訓(xùn)練損失函數(shù)Loss 如下:

        圖5 遷移學(xué)習(xí)算法Fig.5 Transfer learning algorithm

        其中:G(I)表示人臉網(wǎng)絡(luò)卷積層輸出;gθ(I)表示表情網(wǎng)絡(luò)卷積層輸出表示使用p范式來進(jìn)行正則化訓(xùn)練。本文使用的是L2 范式,并且在每個(gè)卷積層都使用ReLU 作為激活函數(shù)。

        在第2 階段訓(xùn)練時(shí),首先將卷積層參數(shù)進(jìn)行凍結(jié),隨后使用pool5 的輸出對(duì)表情網(wǎng)絡(luò)學(xué)習(xí)進(jìn)行監(jiān)督學(xué)習(xí),最后在卷積層后面加上全連接層進(jìn)行訓(xùn)練。

        2.5 特征融合

        2 個(gè)網(wǎng)絡(luò)通道完成特征提取后,輸出將進(jìn)行加權(quán)融合。文中采用單因子加權(quán)方式,其融合方式如圖6所示。其中遮擋感知網(wǎng)絡(luò)的輸出將進(jìn)行等量融合,即遮擋判定單元中的有效輸出進(jìn)行等量加權(quán)融合后得到一個(gè)64 維特征向量。隨后該特征向量將與殘差網(wǎng)絡(luò)特征向量進(jìn)行單因子加權(quán)融合。

        圖6 雙通道輸出加權(quán)融合Fig.6 Weighted fusion outputs of two channels

        使用vi表示區(qū)域判定單元的單個(gè)輸出;vf_1表示遮擋感知網(wǎng)絡(luò)中所有有效特征向量融合后得到的向量,即所有遮擋少于設(shè)定閾值子區(qū)域轉(zhuǎn)化的向量融合得到的特征向量;vf_2表示殘差網(wǎng)絡(luò)輸出向量,最后進(jìn)行單因子加權(quán)融合得到融合向量vf:

        其中:α為加權(quán)因子,代表遮擋感知網(wǎng)絡(luò)輸出在融合向量中所占比重,α取值范圍為[0,1]。使用softmax 分類函數(shù)對(duì)表情進(jìn)行分類,計(jì)算出每個(gè)表情概率值

        其中:K(6 或7)表示表情種類;xi表示第i個(gè)表情的輸出值。在訓(xùn)練全連接層時(shí),交叉熵?fù)p失函數(shù)將被用于優(yōu)化整個(gè)網(wǎng)絡(luò),其公式定義如下:

        其中:yi為表情真值標(biāo)簽是表情預(yù)測(cè)標(biāo)簽。

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 數(shù)據(jù)庫(kù)

        本文在3 個(gè)公開的數(shù)據(jù)庫(kù)上進(jìn)行實(shí)驗(yàn)評(píng)估,分別為1 個(gè)實(shí)驗(yàn)室圖像數(shù)據(jù)庫(kù)CK+和2 個(gè)真實(shí)場(chǎng)景下的數(shù)據(jù)庫(kù),包括RAF-DB 和SFEW。圖7 是數(shù)據(jù)庫(kù)樣本圖像對(duì)比。第1 排是CK+數(shù)據(jù)庫(kù)樣本圖像,第2 排為RAF-DB 數(shù)據(jù)庫(kù)樣本圖像,最后一排為SFEW 數(shù)據(jù)庫(kù)圖像樣本。

        圖7 數(shù)據(jù)庫(kù)樣本圖像Fig.7 Examples images in datasets

        CK+[6]數(shù)據(jù)庫(kù)是最廣泛使用的實(shí)驗(yàn)室收集圖像數(shù)據(jù)庫(kù)。CK+包含來自123 名的593 個(gè)視頻序列項(xiàng)目。這些序列持續(xù)時(shí)間從10 幀到60 幀不等,包含面部表情從自然到最高峰值的轉(zhuǎn)變。在這些視頻中,來自118 名采集者的327個(gè)序列基于面部表情動(dòng)作編碼系統(tǒng)(FACS)被標(biāo)注為7 種基本表情,包括憤怒、輕蔑、厭惡、恐懼、快樂、悲傷和驚訝。因?yàn)镃K+不提供指定訓(xùn)練、驗(yàn)證和測(cè)試集,所以算法評(píng)估在這個(gè)數(shù)據(jù)庫(kù)上并不統(tǒng)一?;陟o態(tài)的識(shí)別方法,最常用的數(shù)據(jù)選擇方法是提取第一幀自然表情到最后一幀中的峰值表情,并將受試者分為n組進(jìn)行n次交叉驗(yàn)證實(shí)驗(yàn),其中n值通常選擇為5、8 和10。

        RAF-DB[25]為真實(shí)世界情感人臉數(shù)據(jù)庫(kù),是一個(gè)大型面部表情數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)從互聯(lián)網(wǎng)上下載了約3 萬張各種各樣的面部圖像。在眾包標(biāo)注基礎(chǔ)上對(duì)每張圖片進(jìn)行了大約40 次獨(dú)立標(biāo)注。數(shù)據(jù)庫(kù)中圖像受試者年齡、性別、種族、頭部姿勢(shì)、光照條件、遮擋(如眼鏡、面部毛發(fā)或自遮擋)、后處理操作(如各種濾鏡和特殊效果)等方面具有很大差異性。RAF-DB 具有多樣性、數(shù)量大、注釋豐富等特點(diǎn)。數(shù)據(jù)庫(kù)包含2 個(gè)不同子集:?jiǎn)螛?biāo)簽子集和雙標(biāo)簽子集。單標(biāo)簽子集包括7 類基本情緒和邊界框;雙標(biāo)簽子集包括12 類復(fù)合情緒、5 個(gè)準(zhǔn)確的地標(biāo)位置、37 個(gè)自動(dòng)地標(biāo)位置、邊界框、種族、年齡范圍,每張圖片性別屬性都有注釋,使用基線分類器輸出基本情緒和復(fù)合情緒。為了能夠客觀地評(píng)估測(cè)試系統(tǒng)的性能,將數(shù)據(jù)庫(kù)分為訓(xùn)練集和測(cè)試集,其中訓(xùn)練集的大小為測(cè)試集的5 倍,兩組表達(dá)式的分布幾乎相同。

        SFEW[9]數(shù)據(jù)庫(kù)是從真實(shí)場(chǎng)景下實(shí)際表情中選擇的靜態(tài)幀圖片,是一個(gè)非常具有挑戰(zhàn)性的數(shù)據(jù)庫(kù),因?yàn)镾FEW 數(shù)據(jù)庫(kù)包含不同程度面部表情、不受約束的頭部姿勢(shì)、不同遮擋、不同年齡范圍以及不同光照變化。數(shù)據(jù)庫(kù)樣本是1 個(gè)帶有7 個(gè)表達(dá)式的表情標(biāo)簽:憤怒、厭惡、恐懼、幸福、悲傷、驚訝和自然。數(shù)據(jù)庫(kù)中有95 個(gè)主題,其中有663 張明確標(biāo)簽的圖像。該數(shù)據(jù)庫(kù)已被分類為訓(xùn)練、驗(yàn)證和測(cè)試集。SFEW 2.0 分為3 組:訓(xùn)練集包含958 個(gè)樣本,驗(yàn)證集包含436 個(gè)樣本,測(cè)試集為372 個(gè)樣本。該數(shù)據(jù)庫(kù)的每個(gè)圖像都被分類到7 種表情中的1 個(gè),即憤怒、厭惡、恐懼、自然、快樂、悲傷和驚喜。表情的測(cè)試集和驗(yàn)證集的標(biāo)簽是公開的。

        判定單元訓(xùn)練數(shù)據(jù)集為訓(xùn)練遮擋判定單元,從公開數(shù)據(jù)庫(kù)中選擇100 張面部圖像進(jìn)行遮擋合成,并用作訓(xùn)練樣本。

        遮擋物根據(jù)其在日常生活中出現(xiàn)的頻率進(jìn)行選取,例如水果、頭發(fā)、帽子、書籍、杯子、玻璃杯等。此外,另選取100 張自然遮擋圖像作訓(xùn)練樣本,經(jīng)過組員一致標(biāo)記和檢查,最終該數(shù)據(jù)庫(kù)包含200 個(gè)訓(xùn)練樣本。圖8 展示了該數(shù)據(jù)庫(kù)部分圖像樣本。本文將區(qū)域遮擋率閾值設(shè)置為0.5,即當(dāng)區(qū)域遮擋率超過1/2 時(shí),將標(biāo)簽設(shè)置為0。因此,該數(shù)據(jù)庫(kù)易于標(biāo)記和訓(xùn)練。訓(xùn)練過程中,使用LOPES 等[26]提出的數(shù)據(jù)擴(kuò)充策略對(duì)樣本進(jìn)行了7 次增強(qiáng),通過訓(xùn)練,最終準(zhǔn)確率達(dá)到了84.3%。

        圖8 遮擋判定單元訓(xùn)練數(shù)據(jù)庫(kù)樣本圖像Fig.8 Examples images in the datasets for region decision units

        3.2 實(shí)驗(yàn)配置及權(quán)值評(píng)估

        3.2.1 實(shí)驗(yàn)配置

        本文基于Keras 框架提出的模型并運(yùn)行在Ubuntu 操作系統(tǒng)上,實(shí)驗(yàn)數(shù)據(jù)均在NVIDIA CUDA framework 6.5 上獲取,并使用了NVIDIA GTX 1080 GPU 進(jìn)行實(shí)驗(yàn)。此外,采用了VGGNet 作為ACNNs的骨干網(wǎng)絡(luò),首先使用ImageNet 上的圖像數(shù)據(jù)對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行初始化訓(xùn)練。實(shí)驗(yàn)中采用了小批量隨機(jī)梯度下降法優(yōu)化模型,基礎(chǔ)學(xué)習(xí)率的初始值設(shè)置為0.001,通過多項(xiàng)式策略將其降至0.1。動(dòng)量設(shè)定為0.9,重量衰減設(shè)置為0.000 5。在訓(xùn)練階段,將實(shí)際批大小的值設(shè)置為64 并迭代10 000 次。在訓(xùn)練殘差網(wǎng)絡(luò)時(shí),同樣使用ImageNet 上的臉部圖像對(duì)卷積層進(jìn)行預(yù)訓(xùn)練,并初始化所有卷積層的參數(shù)。隨后固定卷積層參數(shù),對(duì)最后全連接層進(jìn)行微調(diào)訓(xùn)練。訓(xùn)練過程中,將學(xué)習(xí)率的值設(shè)置為0.01,迭代20 000次后,在微調(diào)階段將學(xué)習(xí)率的值調(diào)整為0.000 1,并繼續(xù)迭代10 000 次。整個(gè)模型訓(xùn)練耗時(shí)5 天,參數(shù)固定后模型處理單張圖像時(shí)間為1.2 s。

        3.2.2 權(quán)值評(píng)估

        本文在3個(gè)基準(zhǔn)數(shù)據(jù)庫(kù)上對(duì)權(quán)重因子α進(jìn)行評(píng)估。測(cè)試過程中α的初始值設(shè)定為0,增幅設(shè)置為0.1。當(dāng)α=0 時(shí)表示只使用遮擋感知網(wǎng)絡(luò)的輸出作為分類結(jié)果,α=1 時(shí)則表示只使用殘差網(wǎng)絡(luò)輸出作分類結(jié)果。如圖9所示,圖9(a)、圖9(b)、圖9(c)分別表示在CK+,RAFDB 和SFEW 這3 個(gè)數(shù)據(jù)庫(kù)上的評(píng)估結(jié)果。在這3 個(gè)數(shù)據(jù)庫(kù)上,α取值分別為0.5、0.7 和0.6 時(shí),模型取得最佳表現(xiàn)。隨后進(jìn)一步對(duì)α的取值進(jìn)行測(cè)試,結(jié)果表明當(dāng)α取值為0.6 時(shí)模型在3 個(gè)數(shù)據(jù)庫(kù)上的整體表現(xiàn)最好,因此最終手動(dòng)將α的值設(shè)定為0.6。圖9 證明2 個(gè)網(wǎng)絡(luò)的輸出融合可以有效地提升模型性能。

        圖9 不同數(shù)據(jù)庫(kù)上的權(quán)重因子評(píng)估結(jié)果Fig.9 Evaluations of fusion weight on different datasets

        3.3 實(shí)驗(yàn)結(jié)果

        所提模型在3 個(gè)公開數(shù)據(jù)庫(kù)上的混淆矩陣結(jié)果如圖10 所示。圖10(a)是在數(shù)據(jù)庫(kù)CK+上的實(shí)驗(yàn)結(jié)果,對(duì)于6 個(gè)表情而言,識(shí)別準(zhǔn)確率均達(dá)95%以上,和人類的識(shí)別率不相上下。尤其是對(duì)變化特征比較明顯的幾個(gè)表情更是達(dá)到了99%的準(zhǔn)確率,比如高興、憤怒等。這意味著實(shí)驗(yàn)室圖像數(shù)據(jù)庫(kù)對(duì)于現(xiàn)有模型而言已不具有挑戰(zhàn)性,因此研究人員需要更多關(guān)注于解決真實(shí)場(chǎng)景下的表情識(shí)別問題。圖10(b)是在數(shù)據(jù)庫(kù)RAF-DB 下的混淆矩陣,對(duì)于高興和憤怒這2 個(gè)變化特征明顯的表情,實(shí)驗(yàn)?zāi)P瓦_(dá)到了90%以上的準(zhǔn)確率,在可接受范圍內(nèi)。而對(duì)于外觀變現(xiàn)并不明顯的表情,比如厭惡、悲傷,識(shí)別率仍然在85%以下。分析實(shí)驗(yàn)結(jié)果可知,其主要原因是這些表情在真實(shí)場(chǎng)景下外在表現(xiàn)差異并不明顯,甚至對(duì)人類而言,也難以準(zhǔn)確地分辨這2 個(gè)表情。圖10(c)是在數(shù)據(jù)庫(kù)SFEW 上的實(shí)驗(yàn)結(jié)果,此為評(píng)估實(shí)驗(yàn)中最具挑戰(zhàn)性的數(shù)據(jù)庫(kù)。實(shí)驗(yàn)結(jié)果表明,只有2 個(gè)表情取得了80%以上的識(shí)別率,其余所有表情識(shí)別率都低于70%,最低甚至只有49%的識(shí)別率。通過分析可知導(dǎo)致表情“厭惡”識(shí)別率低的主要原因是表情變化并不明顯;另外,有2 對(duì)表情經(jīng)常發(fā)生混淆,包括“悲傷”和“恐懼”、“驚訝”和“開心”。在現(xiàn)實(shí)中這些表情往往是伴隨性發(fā)生。例如,恐懼導(dǎo)致的悲傷,開心中帶著驚訝,這些表情即使人類在真實(shí)場(chǎng)景下也很難通過單幅靜態(tài)圖像對(duì)其進(jìn)行明確區(qū)分。

        圖10 3 個(gè)公開數(shù)據(jù)庫(kù)上的混淆矩陣結(jié)果Fig.10 Confusion matrices on three public databases

        3.4 實(shí)驗(yàn)對(duì)比評(píng)估

        本文將提出的模型與相似模型以及目前廣泛使用的模型進(jìn)行了實(shí)驗(yàn)結(jié)果對(duì)比。表1~表3 分別是本文模型與其他模型在3 個(gè)不同數(shù)據(jù)庫(kù)上的對(duì)比結(jié)果。

        表1 CK+數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)對(duì)比評(píng)估Table 1 Comparisons between proposed approach and other approaches on CK+database %

        表2 RAF-DB 數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)對(duì)比評(píng)估Table 2 Comparisons between proposed approach and other approaches on RAF-DB database %

        表3 SFEW 數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)對(duì)比評(píng)估Table 3 Comparisons between proposed approach and other approaches on SFEW database %

        表1 是在數(shù)據(jù)庫(kù)CK+上的對(duì)比結(jié)果,分析可知,本文所提出的模型平均準(zhǔn)確率為97.33%,取得了排名第2 的成績(jī)。排名第1 的算法模型是FaceNet2 ExpNet,其準(zhǔn)確率比本文模型高1.27 個(gè)百分點(diǎn)。CK+數(shù)據(jù)庫(kù)中的圖像都是在實(shí)驗(yàn)室情況下采集的無遮擋正面人臉照片,且并不提供指定訓(xùn)練集和測(cè)試集,因此不同的劃分結(jié)果會(huì)導(dǎo)致實(shí)驗(yàn)結(jié)果有所差異。由表1 還可知,大多數(shù)模型在實(shí)驗(yàn)室數(shù)據(jù)庫(kù)上的識(shí)別率均取得了較為滿意的準(zhǔn)確率,實(shí)現(xiàn)了與人類相當(dāng)?shù)淖R(shí)別水平。

        表2 是在RAF-DB 數(shù)據(jù)庫(kù)上的對(duì)比結(jié)果,結(jié)果表明本文模型取得了86%的平均準(zhǔn)確率,排名第1,其精確度比遮擋感知模型ACNN[24]提高了0.93 個(gè)百分點(diǎn)。與ACNN 相比,本文模型使用滑動(dòng)劃分選取方式在驅(qū)域上劃分,不依賴于關(guān)鍵點(diǎn)的精確度,選取方式與卷積神經(jīng)網(wǎng)絡(luò)中濾波器類似,使得網(wǎng)絡(luò)可以保留更多有效特征。此外,本文的單個(gè)遮擋判定單元只需對(duì)子區(qū)域進(jìn)行遮擋閾值的判定,而不需要計(jì)算子區(qū)域的精確遮擋比例,這使得單個(gè)遮擋判定單元更容易訓(xùn)練。在輸出的融合方式上,使用單因子方式進(jìn)行融合,也進(jìn)一步提升了模型的表現(xiàn)。此外,與基礎(chǔ)VGG16 和殘差網(wǎng)絡(luò)相比,遮擋感知網(wǎng)絡(luò)和修改后的殘差網(wǎng)絡(luò)分別提高了2.16 和1.7 個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果證實(shí)加入?yún)^(qū)域遮擋判定單元及優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)均可提升網(wǎng)絡(luò)性能。

        表3 是在SFEW 數(shù)據(jù)庫(kù)上的對(duì)比情況。在所有對(duì)比模型中,準(zhǔn)確率最高的是YU 等[27]提出的模型,其精確度比本文模型高0.23 個(gè)百分點(diǎn),該模型在臉部檢測(cè)階段有效結(jié)合3 種臉部檢測(cè)方式,使臉部的選取更為精準(zhǔn),從而提升了模型整體表現(xiàn)。遮擋感知網(wǎng)絡(luò)在SFEW 數(shù)據(jù)庫(kù)上的精確度比基礎(chǔ)VGG16 高了3.89 個(gè)百分點(diǎn),修改后的殘差網(wǎng)絡(luò)比基礎(chǔ)殘差網(wǎng)絡(luò)提升了1.96 個(gè)百分點(diǎn)。通過RAFDB 和SFEW 這2 個(gè)真實(shí)場(chǎng)景表情數(shù)據(jù)庫(kù)上的結(jié)果分析可知,對(duì)于挑戰(zhàn)難度更大的SFEW 數(shù)據(jù)庫(kù),加入遮擋判定單元所帶來的性能提升比在RAF-DB數(shù)據(jù)庫(kù)上更為明顯,這證實(shí)了遮擋感知網(wǎng)絡(luò)的實(shí)際應(yīng)用潛力。從本文模型在3 個(gè)公開數(shù)據(jù)庫(kù)上的表現(xiàn)以及與現(xiàn)有方法的對(duì)比分析結(jié)果來看,該模型具有實(shí)際應(yīng)用價(jià)值。

        4 錯(cuò)誤案例分析

        實(shí)驗(yàn)結(jié)果對(duì)后續(xù)工作及方向十分重要,因此仔細(xì)檢查了實(shí)驗(yàn)結(jié)果中所有錯(cuò)誤預(yù)測(cè)圖像,其中部分錯(cuò)誤樣本如圖11 所示。

        圖11 RAF-DB 數(shù)據(jù)庫(kù)上的錯(cuò)誤預(yù)測(cè)樣本圖像Fig.11 Some example images in RAF-DB that proposed model failed to predict the correct expression categories

        通過對(duì)錯(cuò)誤樣本的仔細(xì)分析,發(fā)現(xiàn)模型將圖像錯(cuò)誤分類主要由幾個(gè)原因引起,如關(guān)鍵區(qū)域均被遮擋、圖像模糊、光照條件差異、表情變化微小等。錯(cuò)誤案例中,當(dāng)表情相關(guān)區(qū)域均被遮擋時(shí),模型則不能對(duì)表情進(jìn)行正確地分類,這時(shí)需要從手勢(shì)及姿態(tài)等方面進(jìn)行表情判定。在對(duì)相似表情(悲傷和恐懼、驚訝和恐懼等)進(jìn)行分類時(shí),需要考慮加入額外的輸入(如聲音)以提高系統(tǒng)識(shí)別準(zhǔn)確率。同時(shí),微表情也是判定表情極大的依據(jù),而系統(tǒng)往往不能很好地對(duì)微表情進(jìn)行識(shí)別,結(jié)果導(dǎo)致系統(tǒng)將表情錯(cuò)誤分類。通過對(duì)錯(cuò)誤案例的分析,將進(jìn)一步明確后續(xù)工作方向及改進(jìn)點(diǎn)。

        5 結(jié)束語

        本文提出具有遮擋感知能力的雙通道網(wǎng)絡(luò)模型,通過設(shè)計(jì)遮擋感知神經(jīng)網(wǎng)絡(luò)提取遮擋情況下面部圖像的表情特征,利用優(yōu)化后的殘差網(wǎng)絡(luò)對(duì)全臉圖像表情特征進(jìn)行提取。在模型訓(xùn)練階段,使用遷移學(xué)習(xí)算法對(duì)卷積層參數(shù)進(jìn)行預(yù)訓(xùn)練,并融合2 個(gè)網(wǎng)絡(luò)輸出以進(jìn)一步提升整體模型表現(xiàn)。實(shí)驗(yàn)結(jié)果表明,與基礎(chǔ)網(wǎng)絡(luò)模型相比,本文提出的模型有效提升了真實(shí)場(chǎng)景數(shù)據(jù)庫(kù)上的表情識(shí)別準(zhǔn)確率。下一步將增加網(wǎng)絡(luò)對(duì)光照問題的魯棒性及提升對(duì)微表情的識(shí)別率,以提高模型在真實(shí)場(chǎng)景下的表情識(shí)別率。

        猜你喜歡
        數(shù)據(jù)庫(kù)區(qū)域模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        數(shù)據(jù)庫(kù)
        3D打印中的模型分割與打包
        數(shù)據(jù)庫(kù)
        關(guān)于四色猜想
        分區(qū)域
        數(shù)據(jù)庫(kù)
        數(shù)據(jù)庫(kù)
        久久久久成人片免费观看蜜芽| 亚洲国产av自拍精选| av中文字幕在线资源网| 国产精品亚洲在线播放| 国内自拍色第一页第二页| 夜夜爽日日澡人人添| 亚洲av无码国产精品色午夜洪| 亚洲人成人影院在线观看| 91精彩视频在线观看| 久久精品国产亚洲AV古装片| 色综合久久五十路人妻| 久草手机视频在线观看| 久久中文骚妇内射| 特黄特色的大片观看免费视频| 亚洲欧美一区二区三区| 日日摸夜夜欧美一区二区| 无码国产一区二区色欲| 不卡av一区二区在线| 娇小女人被黑人插免费视频| 国产成人午夜福利在线观看| 亚洲av日韩综合一区在线观看 | 久草视频在线手机免费看| 久久久久人妻精品一区三寸| 公粗挺进了我的密道在线播放贝壳| 一个人在线观看免费视频www| 初高中生精品福利视频| 国产成人cao在线| 亚洲高清国产拍精品熟女| 国产丝袜美腿在线播放| 99精品国产成人一区二区| 丰满少妇三级全黄| 日韩在线无| 国产AV无码专区亚洲AWWW| 蜜桃一区二区三区在线视频| 国产av综合网站不卡| 丰满多毛的大隂户毛茸茸| 亚洲狠狠婷婷综合久久| 国产乱子伦视频一区二区三区| 国产精品日本中文在线| 国产一区二区三区在线观看完整版| av无码国产在线看免费网站|