亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多尺度分層雙線性池化網(wǎng)絡(luò)的細(xì)粒度表情識別模型

        2021-12-20 12:35:52蘇志明藍(lán)崢杰
        計(jì)算機(jī)工程 2021年12期
        關(guān)鍵詞:池化識別率人臉

        蘇志明,王 烈,藍(lán)崢杰

        (廣西大學(xué)計(jì)算機(jī)與電子信息學(xué)院,南寧 530004)

        0 概述

        人臉表情識別(Facial Expression Recognization,F(xiàn)ER)旨在通過識別人臉表情使機(jī)器能夠理解人的內(nèi)心感受。該技術(shù)在遠(yuǎn)程教育、輔助醫(yī)療、安全駕駛、人機(jī)交互、公共安全等多個(gè)領(lǐng)域具有廣泛應(yīng)用[1],相關(guān)人臉表情識別研究已成為人工智能主要研究熱點(diǎn)之一。

        早期的表情識別基于傳統(tǒng)特征提取方法,大體上可分成3 種:基于線性變換,如主成成分分析法[2](Principal Component Analysis,PCA);基于紋理特征,如局部二值模式法(Local Binary Pattern,LBP)[3];基于幾何,如主動形狀法(Active Shape Models,ASM)[4]和主動外觀模型(Active Appearance Model,AAM)[5]。但這些方法存在特征提取不充分導(dǎo)致識別率低的問題。由于深度學(xué)習(xí)可以從端到端地學(xué)習(xí)更多差異化的面部表情特征,且與傳統(tǒng)方法相比具有更高識別率,因此研究人員致力于將深度學(xué)習(xí)應(yīng)用于面部表情識別,基于深度學(xué)習(xí)的人臉表情識別算法也層出不窮。文獻(xiàn)[6]改進(jìn)了AlexNet,引入多尺度卷積提取多尺度特征和利用全局平均池化將低層特征降維跨連到全連接層分類,在CK+人臉表情數(shù)據(jù)集的準(zhǔn)確率達(dá)到94.25%。文獻(xiàn)[7]提出利用小尺度核卷積代替大尺度核卷積的神經(jīng)網(wǎng)絡(luò)模型,在FER2013 數(shù)據(jù)集上取得了73.39%的識別率。LIU 等[8]將課程學(xué)習(xí)策略應(yīng)用到卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練階段,在FER2013 數(shù)據(jù)集上達(dá)到72.11%的識別準(zhǔn)確率。LI 等[9]改進(jìn)了經(jīng)典模型LeNet-5,通過將池化層的特征跨連到全連層,有效融合了高低層特征分類,在JAFFE 和CK+這2 個(gè)公開人臉表情數(shù)據(jù)集的識別率分別達(dá)到94.37%、83.74%,但改進(jìn)后的模型人臉表情識別率仍然有待提高。ZHANG 等[10]提出一種基于注意力分層雙線性池化殘差網(wǎng)絡(luò)的表情識別方法。該方法在ResNet-50 的框架基礎(chǔ)上嵌入有效通道注意力機(jī)制,并引入分層雙線性池化網(wǎng)絡(luò)以交互同一網(wǎng)絡(luò)不同層級間的特征,取得了不錯的人臉表情分類效果。但該方法僅交互同一網(wǎng)絡(luò)中來自3 個(gè)不同層級間的特征,缺乏不同網(wǎng)絡(luò)不同跨層的多尺度特征表達(dá),因此面部表情細(xì)微特征表征能力有待進(jìn)一步提升。

        目前,國內(nèi)外在表情識別領(lǐng)域已取得較大進(jìn)展,但人臉表情識別算法仍面臨眾多挑戰(zhàn)??傮w而言,人臉表情識別研究仍需要解決復(fù)雜環(huán)境下的表情識別、模型層間交互和模型多層特征融合等問題。

        本文設(shè)計(jì)并訓(xùn)練應(yīng)用于人臉表情分類的3 種粗細(xì)尺度網(wǎng)絡(luò),并構(gòu)建一個(gè)基于多尺度雙線性池化卷積神經(jīng)網(wǎng)絡(luò)的識別模型。通過分層雙線性池化捕捉不同網(wǎng)絡(luò)的多尺度特征,挖掘神經(jīng)網(wǎng)絡(luò)對嘴巴、眉毛、眼睛等面部表情關(guān)鍵區(qū)域細(xì)微變化的辨別力,同時(shí)提出一種多層信息融合的方法獲取有用的低頻信息,從而提高人臉表情分類性能。

        1 卷積神經(jīng)網(wǎng)絡(luò)

        1.1 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        本文提出多尺度分層雙線性池化網(wǎng)絡(luò)(Multi-scale Hierarchical Bilinear Pooling Network,MHBP)模型如圖1 所示。3 列網(wǎng)絡(luò)分別使用卷積尺度核為3、5、7 的不同粗細(xì)尺度網(wǎng)絡(luò),以提取更為精細(xì)的人臉表情特征。每列網(wǎng)絡(luò)有9 個(gè)卷積層、3 個(gè)最大池化層。3 列網(wǎng)絡(luò)有共同的人臉表情圖像輸入,通過分層雙線池化網(wǎng)絡(luò)交互3 列網(wǎng)絡(luò)最后同一深度位置的后3 個(gè)卷積層的特征圖,集成同一網(wǎng)絡(luò)以及不同網(wǎng)絡(luò)的不同跨層特征,捕獲不同層級間的部分聯(lián)系,以便于后續(xù)人臉表情特征分類。因集成的特征維度過高,冗余特征多,直接用以分類并不適用,所以需添加2 層全連接層過濾特征以實(shí)現(xiàn)表情分類。圖中僅給出了網(wǎng)絡(luò)最后一層卷積層輸出的特征圖跨層交互簡略示意圖,忽略了其他層,具體交互的機(jī)制見1.3.2 節(jié)。

        圖1 多尺度分層雙線性池化網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Multi-scale hierarchical bilinear pooling network structure

        為更好地利用主干網(wǎng)絡(luò)的不同尺度特征,本文提出了多尺度注意力交互模塊,如圖2 所示。

        圖2 多尺度注意力交互模塊Fig.2 Multi-scale attention interaction module

        該模塊先將3 個(gè)粗細(xì)尺度網(wǎng)絡(luò)的特征圖f3、f5 和f7 經(jīng)3×3 融合,一分支經(jīng)Sigmoid 函數(shù)激活生成特征權(quán)重后分別與特征圖f3、f5 和f7 元素相乘得到重新標(biāo)定的特征圖,最后分別與另一分支經(jīng)PReLU 函數(shù)[11]激活后的融合特征元素相加得到最終的各自輸出。該模塊可根據(jù)反向傳播自我更新學(xué)習(xí),自動選擇各支路需要融合的多尺度特征。該模塊在本網(wǎng)絡(luò)訓(xùn)練測試時(shí)加入位置為網(wǎng)絡(luò)前3 個(gè)池化層前的2 個(gè)卷積層之間,共添加3 個(gè)。

        1.2 模型參數(shù)配置

        MHBP 模型的具體參數(shù)配置如表1 和表2 所示。表1 和表2 省略了主干網(wǎng)絡(luò)多尺度特征融合模塊。根據(jù)輸出特征圖分辨率的不同,可分為4 個(gè)階段,每個(gè)網(wǎng)絡(luò)的前3 階段均有2 個(gè)卷積,后一個(gè)階段有3 個(gè)卷積。3 個(gè)網(wǎng)絡(luò)擁有共同輸入為48×48 大小的人臉表情圖像灰度圖。3×3、5×5、7×7 網(wǎng)絡(luò)的卷積核尺寸分別為3×3、5×5、7×7,步長和填充均為1,卷積核個(gè)數(shù)均為32。Maxpool 中的(3,2,1)表示濾波器尺寸為3×3,步長為2,填充為1。輸出特征圖為h×w×c,其中:h、w分別為特征圖的高和寬;c為特征圖數(shù)量即卷積核的數(shù)量。通過雙線性池化集成了18 組512 維人臉表情雙線性特征向量。為避免模型過擬合,通過提高模型的泛化能力進(jìn)一步提高人臉圖像分類準(zhǔn)確率。在每個(gè)池化層后加入Dropout網(wǎng)絡(luò),丟棄概率為0.1。同樣地,在匯合分類階段,2 層全連接層后均加入BN(Batch Normalization)和Dropout 網(wǎng)絡(luò),其中Dropout 網(wǎng)絡(luò)丟棄的概率為0.5,目的是加強(qiáng)網(wǎng)絡(luò)挖掘隱藏特征的能力,從而提升模型性能。第1 個(gè)全連接層與1 024 個(gè)神經(jīng)元完全連接,而第2 個(gè)全連接層與512 個(gè)神經(jīng)元完全連接。輸出層是由7 個(gè)神經(jīng)元組成的Softmax 層,用以預(yù)測7 種表情的輸出。

        表1 MHBP 模型參數(shù)配置1Table 1 Parameter configuration of MHBP model 1

        表2 MHBP 模型參數(shù)配置2Table 2 Parameter configuration of MHBP model 2

        1.3 分層雙線性池化

        分層雙線性池化[12]對局部成對特征的交互式建模已被證明是解決細(xì)粒度識別問題的有力工具。為獲得更好的表情特征表達(dá),提出了一種在細(xì)粒度識別任務(wù)背景下的表情挖掘方法。通過在不同跨層中交互建模,融合同尺度網(wǎng)絡(luò)和不同尺度網(wǎng)絡(luò)不同卷積層的中間層特征,實(shí)現(xiàn)表情識別。

        1.3.1 工作原理

        分層雙線性池化模型基于分解雙線性池化模型[13]構(gòu)建。因子分解雙線性池化的過程為:將經(jīng)粗細(xì)尺度主干網(wǎng)絡(luò)提取的特征圖記為X∈?h×w×c,其中h、w、c分別為特征圖的高度、寬度、通道數(shù)。令x=[x1,x2,…,xc]T為X上的一個(gè)空間位置c維描述符。雙線性模型的定義如下:

        其中:zi為雙線性模型的輸出;Wi∈?c×c為投影矩陣。雙線性模型可將Wi分解為低階外積運(yùn)算得到輸出特征:

        其中:P∈?d×o為分類矩陣;d為決定嵌入維度的超參數(shù);o為圖像分類類別總數(shù);U∈?c×d和V∈?c×d為從c維特征向量中獲得d維池化特征向量的投影矩陣;?為哈達(dá)瑪積。

        雙線性池化捕獲成對表征關(guān)系,是細(xì)粒度識別的重要技術(shù)。因?yàn)榕袛嗳四槺砬閷傩缘闹攸c(diǎn)區(qū)域只有眼睛、眉毛、鼻子、嘴角附近區(qū)域,屬于精細(xì)工作,因此可借助雙線性池化完成。但若只關(guān)注單一卷積層,完全忽略信息的跨層交互,將導(dǎo)致人臉表情分類效果不佳。這是因?yàn)閱蝹€(gè)卷積層的激活不完整,每個(gè)表情均有多個(gè)屬性,例如嘴的形狀、嘴角的弧度等,而這些對表情的細(xì)微變化至關(guān)重要。不同卷積層之間的層間特征相互作用能夠幫助捕獲細(xì)微表情的區(qū)別性特征。利用跨層雙線性池集成更多中間卷積層,進(jìn)一步增強(qiáng)表情特征的表征能力。通過獨(dú)立的線性映射(1×1 卷積)將來自不同卷積層的特征擴(kuò)展到高維空間。集成不同跨層表情特征的輸出表達(dá)式為:

        其中:U∈?c×d,V∈?c×d,S∈?c×d,…分別為需要的交互跨層卷積層特征x,y,z,…的投影矩陣。將聚合的來自不同跨層的表情特征輸入至全連接層和Softmax 分類中,Softmax 分類損失函數(shù)定義如下:

        其中:m為樣本數(shù);n為總類別數(shù),因本文需識別7 種面部表情,故取值為7;x為分類前全連接層的輸入特征向量;b為偏置量表示第i個(gè)樣本全連接層輸出矩陣中預(yù)測類別為真實(shí)類別的目標(biāo)判定。

        1.3.2 交互機(jī)制

        為捕獲不同尺度層間特征關(guān)系,本文分層雙線性池化跨層融合了來自同一網(wǎng)絡(luò)及不同網(wǎng)絡(luò)的不同卷積層特征,需要融合的層為經(jīng)PReLU 函數(shù)激活的不同尺度網(wǎng)絡(luò)最后3 層卷積層(Conv4_0,Conv4_1,Conv4_2)見表3。PReLU4_0_j,j=0,1,2。其中:j為第幾列網(wǎng)絡(luò)標(biāo)號;0 為3×3 網(wǎng)絡(luò);1 為5×5 網(wǎng)絡(luò);2 為7×7 網(wǎng)絡(luò)。

        表3 雙線性交互層列表Table 3 Bilinear interaction layer list

        現(xiàn)將雙線性匯合不同跨層特征分為以下3 類:

        1)同一網(wǎng)絡(luò)不同層級特征。將3 種網(wǎng)絡(luò)最后3 個(gè)卷積層經(jīng)PReLU 函數(shù)激活后的特征圖分別在同一網(wǎng)絡(luò)內(nèi)兩兩交互,得到共9 組雙線性特征。

        具體交互的雙線性特征計(jì)算表達(dá)式如下:

        圖3 所示為同一網(wǎng)絡(luò)不同層特征交互示意圖,其中,每列特征分別對應(yīng)3×3、5×5、7×7 網(wǎng)絡(luò)的最后3 個(gè)卷積層經(jīng)激活函數(shù)激活后的輸出特征每個(gè)虛線框代表一組特征兩兩交互。

        圖3 同一網(wǎng)絡(luò)不同層的特征交互Fig.3 Feature interaction between different layers of the same network

        2)不同網(wǎng)絡(luò)不同層級特征。為使不同尺度網(wǎng)絡(luò)的不同層特征交互,增加了2 個(gè)限制條件:

        (1)每個(gè)網(wǎng)絡(luò)最后一個(gè)卷積層必須參與交互。這是因?yàn)橐环矫婺壳爸髁鞯纳窠?jīng)網(wǎng)絡(luò)分類模型通過最后一層卷積提取的特征直接展平為一維向量,或者先通過全局平均池進(jìn)行降維,然后平鋪為一維向量分類。另一方面,神經(jīng)網(wǎng)絡(luò)的最后一層通常包含輸入圖像的高頻和全局特征信息,適合分類。

        (2)不同網(wǎng)絡(luò)的不同層存在互斥。以不同網(wǎng)絡(luò)不同層做為一組,分為3 組,每組有3 個(gè)層兩兩交互,共得9 組雙線性交互特征。

        具體交互的雙線性特征計(jì)算表達(dá)式如下:

        如圖4 所示,3 種不同顏色的箭頭指向的不同層級特征圖為3 組需要交互的特征。其中,每種顏色箭頭包函3 個(gè)不同網(wǎng)絡(luò)不同層的特征。

        圖4 不同網(wǎng)絡(luò)不同層的特征交互Fig.4 Feature interaction between different layers of different networks

        3)不同網(wǎng)絡(luò)同一深度位置特征。以同一深度層做為一組,可分為3 組,每組內(nèi)有3 個(gè)層兩兩交互,共得9 組雙線性交互特征。具體交互的雙線性特征計(jì)算表達(dá)式如下:

        不同網(wǎng)絡(luò)同一深度特征交互示意圖如圖5所示。

        圖5 不同網(wǎng)絡(luò)同一深度的特征交互Fig.5 Feature interaction in the same depth of different networks

        1.4 多層信息融合

        當(dāng)卷積神經(jīng)網(wǎng)絡(luò)向前傳播時(shí),通過逐層卷積獲得高頻信息,將最后一層提取的特征輸入到全連接層并進(jìn)行分類。逐層過濾將丟失一些低頻特征信息,如紋理、邊緣等細(xì)節(jié)信息,導(dǎo)致信息無法得到充分利用。為獲取有用的低頻信息,從而提高人臉表情圖像的識別率,本文提出一種多層信息融合(Multi-layer Information Fusion,MIF)方法。該方法通過反卷積將當(dāng)前卷積層輸出的激活值轉(zhuǎn)換為新的激活值,并逐層融合、逐層降維,最后將其輸入全連接層分類,如圖6 所示。

        圖6 多層信息融合Fig.6 Multi-layer information fusion

        若將沒池化前的卷積層記為一個(gè)階段,則MHBP 網(wǎng)絡(luò)共有3 個(gè)同一深度位置的池化層,故可將卷積分為4 個(gè)階段。圖6 中的卷積為MHBP 網(wǎng)絡(luò)一個(gè)階段的卷積,前3 個(gè)階段的每個(gè)階段均有6 個(gè)卷積層,最后一個(gè)階段共有9 個(gè)卷積層。多卷積層特征具體融合的過程如下:

        步驟1將最后一個(gè)階段n的9 個(gè)卷積層輸出的特征圖激活值通過torch.cat 拼接,通過1×1 卷積融合降維為上一個(gè)階段所有卷積層特征圖的維數(shù)(這里取32×6=192),并通過BN 和PReLU 函數(shù)激活得到激活值。接著將其輸入到反卷積層得到特征圖激活值。

        步驟2將步驟1 中得到的激活值和拼接后上一階段n-1 的所有卷積層的激活值做加性融合。融合后的特征圖c×h×w共有2 分支操作,一分支通過全局平均池化降維得到壓縮特征圖c×1×1,另一分支繼續(xù)通過反卷積得到特征圖c×h×w激活值。降維的目的是減少參數(shù),加快網(wǎng)絡(luò)運(yùn)行。

        步驟3執(zhí)行步驟1 一次,重復(fù)步驟2 兩次可得到3 組降維特征圖,將其拼接融合后展開為一維向量,則共有32×6×3=576 維表情特征向量,將其添加到MHBP 網(wǎng)絡(luò)的全連接層進(jìn)行人臉表情分類。

        2 實(shí)驗(yàn)

        2.1 實(shí)驗(yàn)環(huán)境

        FER2013 實(shí)驗(yàn)在型號為GTX2080Ti 的Pytorch框架上進(jìn)行,batch_size=128,初始學(xué)習(xí)效率為0.01,60 個(gè)epoch 后每10 個(gè)epoch 衰減0.9 倍。模型優(yōu)化器為SGD,動量為0.9,權(quán)重衰減為0.001。為提高模型的泛化能力,引入一種數(shù)據(jù)增強(qiáng)方式Mixup[14],該方式主要用于圖像分類,可用來提高模型的表情識別率。從訓(xùn)練樣本中隨機(jī)抽取2 個(gè)樣本進(jìn)行簡單隨機(jī)加權(quán)求和,樣本的標(biāo)簽也對應(yīng)于加權(quán)求和。通過加權(quán)求和,計(jì)算預(yù)測結(jié)果與標(biāo)簽之間的損失,并用逆導(dǎo)數(shù)更新參數(shù),計(jì)算式如式(8)和式(9)所示:

        其中:xi和xj為原始圖像輸入向量;yi和yj為one-hot標(biāo)簽編碼。其數(shù)據(jù)增強(qiáng)方式與文獻(xiàn)[15]類似,區(qū)別是增加了隨機(jī)旋轉(zhuǎn),角度為0.5。計(jì)算數(shù)據(jù)集的均值和方差后,再歸一化輸入到網(wǎng)絡(luò)訓(xùn)練和測試。使用Xavier 系統(tǒng)進(jìn)行初始化,訓(xùn)練時(shí)將表情圖片尺寸預(yù)處理為52×52,再隨機(jī)剪切為48×48,訓(xùn)練和測試時(shí)采用TenCrop 方法,將圖像沿左上角、右上角、左下角、右下角、中心剪切并水平翻轉(zhuǎn),取人臉表情識別率的平均值做為模型最終表情分類準(zhǔn)確率。

        2.2 數(shù)據(jù)集

        FER2013[16]數(shù)據(jù)集共有35 888張人臉表情圖像,其中訓(xùn)練樣本28 709 張,公開測試樣本和私有測試樣本各3 589 張。采用私有測試樣本測試。FER2013 數(shù)據(jù)集由Python 爬蟲獲得,存在人臉角度、遮擋、光照條件、頭部姿態(tài)變化、噪聲等復(fù)雜環(huán)境,滿足本文研究要求。

        CK+數(shù)據(jù)集[17]是國內(nèi)外研究人員常用的面部表情識別研究課題的基礎(chǔ)數(shù)據(jù)庫,具有較高的認(rèn)可度,共593 個(gè)圖像序列,其中帶標(biāo)簽的表情序列有327 個(gè),從每個(gè)序列中提取最后3 個(gè)幀,共981 張。CK+實(shí)驗(yàn)去掉了中性表情,取剩下的生氣、厭惡、害怕、高興傷心、驚訝、蔑視等表情做為實(shí)驗(yàn)數(shù)據(jù)。2 個(gè)數(shù)據(jù)集人臉表情示意圖如圖7 所示。

        圖7 不同數(shù)據(jù)集人臉表情Fig.7 Facial expressions in different data sets

        2.3 實(shí)驗(yàn)結(jié)果與分析

        實(shí)驗(yàn)1不同方法的有效性驗(yàn)證。不同方法的表情識別率如表4 所示。前3 個(gè)方法實(shí)驗(yàn)網(wǎng)絡(luò)架構(gòu)的池化層前卷積只有一個(gè),網(wǎng)絡(luò)使用2×2 池化且池化后沒有加入dropout 網(wǎng)絡(luò),在FER2013 人臉表情公開數(shù)據(jù)集上的識別率僅為72.081%,而使用3×3 重疊池化且加入dropout 后,識別率為72.75%,提升了0.669 個(gè)百分點(diǎn)。這說明dropout 在防止模型過擬合的同時(shí)還能增強(qiáng)網(wǎng)絡(luò)的學(xué)習(xí)能力。延長訓(xùn)練次數(shù)識別率有所提高,說明網(wǎng)絡(luò)還沒有完全收斂。當(dāng)將每個(gè)最大池化前的卷積添加到2 個(gè)時(shí),網(wǎng)絡(luò)的表情特征提取能力得到增強(qiáng),表情識別率達(dá)到了73.725%,提升了0.724 個(gè)百分點(diǎn)。由于硬件資源的限制,本文算法沒有繼續(xù)通過增加卷積層數(shù)來探索網(wǎng)絡(luò)性能。

        表4 不同方法的表情識別率對比Table 4 Comparison of expression recognition rates of different methods %

        實(shí)驗(yàn)2不同層的特征交互有效性驗(yàn)證。實(shí)驗(yàn)2在實(shí)驗(yàn)1 的基礎(chǔ)上進(jìn)行,將同一網(wǎng)絡(luò)不同層級的特征交互記為x1,將不同網(wǎng)絡(luò)不同層級特征交互記為x2,將不同網(wǎng)絡(luò)同一深度位置特征交互記為x3。在FER2013 數(shù)據(jù)集上通過分層雙線性池化集成不同跨層的雙線性特征對比實(shí)驗(yàn)如表5 所示。當(dāng)集成同一網(wǎng)絡(luò)不同層級特征和不同網(wǎng)絡(luò)不同層級特征時(shí),表情識別率最高為73.725%,說明模型捕獲了不同跨層間特征的部分聯(lián)系,也說明了多尺度雙線性池化的有效性。模型集成特征x1、x2與單集成特征x1,集成特征x1、x2、x3相比,表情識別率分別提高了0.494、0.278 個(gè)百分點(diǎn)。通過雙線性池化集成過多的不同跨層特征容易導(dǎo)致冗余特征過多,不利于面部表情分類。

        表5 FER2013 數(shù)據(jù)集不同層特征交互結(jié)果Table 5 Interaction results of different layer features of FER2013 data set %

        實(shí)驗(yàn)3不同高維空間的模型性能分析。將不同層次的特征升級到高維空間后采用分層雙線性池的方法提取雙線性特征,將對人臉表情識別的準(zhǔn)確性有一定的影響。FER2013 測試集的準(zhǔn)確率隨不同維度空間變化的曲線如圖8 所示。隨著維數(shù)的增加,人臉表情識別的準(zhǔn)確率逐漸提高(不同維度空間中0~200 的低點(diǎn)在誤差范圍內(nèi)),當(dāng)維數(shù)為400~600時(shí)達(dá)到最大值,之后隨著維數(shù)的增加識別率逐漸降低。

        圖8 不同維度空間對識別率的影響Fig.8 Influence of different dimension space on recognition rate

        為更直觀地看到不同維度空間的表情識別率,表6 給出了具體的數(shù)值。當(dāng)尺寸從初始值32 上升到64、128、256 時(shí),精度呈現(xiàn)非線性提高但幅度有限。當(dāng)維數(shù)升級到高維空間值512 時(shí),模型的識別率可高達(dá)73.725%,當(dāng)維數(shù)升級到1 024 個(gè)超高維空間時(shí),模型的識別率下降到73.252%。這說明將維數(shù)提升到合適的高維空間可以提高模型的表情識別率,且當(dāng)維數(shù)過低時(shí),由于缺乏有效的人臉表情特征分類導(dǎo)致分類性能低下;但維數(shù)過高時(shí),過多的冗余特征將影響分類性能。

        表6 不同維度空間的識別率Table 6 Recognition rate of different dimension spaces %

        實(shí)驗(yàn)4不同通道數(shù)的模型性能分析。通過實(shí)驗(yàn)3 發(fā)現(xiàn),當(dāng)把當(dāng)前維度升維到高維空間時(shí)表情識別率有所提升,在升維16 倍時(shí)取得最高值。實(shí)驗(yàn)4將研究不同通道數(shù)及升維16 倍到高維空間時(shí)模型表情的識別性能,性能分析如表7 所示。

        表7 不同通道數(shù)的模型性能分析Table 7 Performance analysis of models with different channel numbers

        當(dāng)維度保持512 不變時(shí),隨著通道數(shù)增加,人臉表情識別準(zhǔn)確率逐漸降低,說明基礎(chǔ)通道數(shù)對模型性能影響不大。當(dāng)通道數(shù)為48、維度為512 時(shí),表情準(zhǔn)確率為73.642%,而將通道數(shù)擴(kuò)展16 倍變成768時(shí),準(zhǔn)確率有所下降,但幅度不大。同樣地,將維度通道數(shù)64 拓展到1 024 特高空間時(shí),準(zhǔn)確率同樣出現(xiàn)略有下降的趨勢,原因可能是當(dāng)維度擴(kuò)大時(shí),全連接層的輸出參數(shù)不變。

        實(shí)驗(yàn)5不同尺度網(wǎng)絡(luò)的識別率比較。由圖9 曲線可知,網(wǎng)絡(luò)模型大概在400 個(gè)epoch 時(shí)開始收斂,最后趨于穩(wěn)定。在表情識別率方面,不同尺度網(wǎng)絡(luò)MHBP>5×5>7×7>3×3。其中3、5、7 均為單一尺度網(wǎng)絡(luò),5×5 網(wǎng)絡(luò)較7×7 網(wǎng)絡(luò)識別率高,這是因?yàn)榫W(wǎng)絡(luò)最后3 層卷積的特征圖大小為6×6,大尺度核卷積較小尺度核移動次數(shù)少,導(dǎo)致缺失重疊卷積部分特征。單一尺度5 和7 網(wǎng)絡(luò)均比單一尺度3 網(wǎng)絡(luò)的識別率高,說明適當(dāng)增大尺度核尺寸可提高識別率。MHBP 網(wǎng)絡(luò)集成了不同的跨層多尺度特征,可捕獲同一尺度及不同尺度的不同跨層特征聯(lián)系,加大對表情細(xì)微特征表征對象的利用。因此,本文提出多尺度MHBP 網(wǎng)絡(luò)在人臉表情識別率方面優(yōu)于其他單一尺度網(wǎng)絡(luò)算法。

        圖9 不同尺度網(wǎng)絡(luò)對識別率的影響Fig.9 Influence of different scale networks on recognition rate

        如圖10 所示,4 種不同尺度網(wǎng)絡(luò)的損失值均在0.8~0.9 之 間。MHBP網(wǎng)絡(luò)的損失值最?。?×5 網(wǎng)絡(luò)和7×7 網(wǎng)絡(luò)次之,且兩者損失值相近;3×3 網(wǎng)絡(luò)損失值最大。此外,MHBP 網(wǎng)絡(luò)損失值下降速度最快,收斂也快,且波動幅度不大,這進(jìn)一步說明了MHBP 網(wǎng)絡(luò)集成不同跨層特征的優(yōu)越性。

        圖10 不同尺度網(wǎng)絡(luò)損失值比較Fig.10 Comparison of network loss values at different scales

        由表8 可知,MHBP 網(wǎng)絡(luò)在FER2013 公開人臉表情數(shù)據(jù)集的識別準(zhǔn)確率比單一3×3,5×5,7×7 網(wǎng)絡(luò)分別提高了3.037、2.034、2.173 個(gè)百分點(diǎn)。這說明單一尺度網(wǎng)絡(luò)雖然集成了網(wǎng)絡(luò)最后3 層卷積層的特征,但缺乏多尺度表情特征信息,因此并不能準(zhǔn)確地對表情做出判斷。同時(shí)也證明端到端學(xué)習(xí)集成能夠提高多跨層多尺度雙線性人臉表情特征的辨識度,從而提高模型分類準(zhǔn)確率。

        表8 不同尺度網(wǎng)絡(luò)的表情識別率對比Table 8 Comparison of expression recognition rate of different scale networks %

        實(shí)驗(yàn)6多層信息融合的有效性分析。在MHBP 網(wǎng)絡(luò)添加多層信息融合FER2013 的實(shí)驗(yàn)發(fā)現(xiàn)表情識別率并沒有提升。這可能是受FER2013 數(shù)據(jù)集存在標(biāo)簽錯誤、光照不一、頭部姿勢各異等復(fù)雜背景因素影響。為排除外界非人臉因素的影響,本節(jié)實(shí)驗(yàn)選擇實(shí)驗(yàn)室環(huán)境的CK+表情數(shù)據(jù)集驗(yàn)證多層信息融合的有效性。將CK+數(shù)據(jù)集按照9∶1 劃分為訓(xùn)練集和測試集,采用十折交叉訓(xùn)練,選擇優(yōu)化器為AdaBound[18]。優(yōu)化器參數(shù)設(shè)置如下:學(xué)習(xí)率為0.001,并在250 epoch后每2 個(gè)epoch 衰 減0.9 倍,amsbound 參數(shù)設(shè)置為True。如表9 所示,在MHBP網(wǎng)絡(luò)中加入MHBP+MIF 及MHBPM 多層信息融合后,7 種表情的平均識別率提高了1 個(gè)百分點(diǎn)。其中,悲傷和蔑視的識別率分別比MHBP 網(wǎng)絡(luò)提高了0.05 和0.09 個(gè)百分點(diǎn),而其他表情的識別率基本相同。實(shí)驗(yàn)結(jié)果表明,通過反卷積對多層信息進(jìn)行融合分類并恢復(fù)丟失的低頻特征信息,能夠提高表情識別率,此結(jié)果驗(yàn)證了多層信息融合的有效性。

        表9 在CK+數(shù)據(jù)集上多層信息融合的性能分析Table 9 Performance analysis of multi-layer information fusion on CK+data set

        2.4 不同算法的識別率比較

        為更好地評估本文方法的有效性,選取幾個(gè)較新的算法在CK+和FER2013 數(shù)據(jù)集上做比較,結(jié)果如表10 所示。TURAN 等[19]提出了一種新的更有效的流形學(xué)習(xí)方法—軟局部保持映射(Soft Locality Preserving Map,SLPM),該方法旨在控制不同類的擴(kuò)散水平,能有效降低特征向量的維數(shù),并增強(qiáng)所提取網(wǎng)絡(luò)對表情識別的區(qū)分能力。ZHOU 等[20]改善了Softmax 層,使識別率得到了一定的提升。YANG等[21]提出了一種基于殘差表情的人臉表情識別方法。殘差學(xué)習(xí)法用于生成模型中間層的殘差,該殘差包含輸入表情圖像任何生成模型的表情成分。實(shí)驗(yàn)結(jié)果證明了從模型中間層提取表情成分的有效性。TIAN 等[22]提出一種新的基于類別感知容差和孤立點(diǎn)抑制的Triplet 損失函數(shù)。根據(jù)特征距離分布,對每一對表情,如快樂、恐懼等分配自適應(yīng)容差參數(shù),以剔除異常Triplet。SHAO 等[23]提出3 種不同架構(gòu)的新型卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型:6 個(gè)深度可分離的殘差模塊構(gòu)成的淺網(wǎng)絡(luò),雙分支并行提取傳統(tǒng)LBP 特征和深度學(xué)習(xí)特征的CNN 模型和采用轉(zhuǎn)移學(xué)習(xí)技術(shù)設(shè)計(jì)了預(yù)訓(xùn)練的CNN 模型。實(shí)驗(yàn)結(jié)果具有競爭力和代表性。FENG 等[7]提出小尺度核網(wǎng)絡(luò),LIU 等[8]引入課程學(xué)習(xí)(Curriculum Learning,CL)到卷積神經(jīng)網(wǎng)絡(luò),這些均使識別率得到了一定程度的提升。LAN 等[24]提出了聯(lián)合過濾器響應(yīng)正則化和批量正則化(Joint Normalization Strategy,JNS)訓(xùn)練模型,彌補(bǔ)了單一正則化的不足,提高了表情識別率。

        表10 不同算法在CK+和FER2013數(shù)據(jù)集上的識別率對比Table 10 Comparison of recognition rates of different algorithms on CK+and FER2013 data sets %

        FENG 等[7]和LAN 等[24]對FER2013 數(shù)據(jù)集的識別率較高,但對CK+數(shù)據(jù)集的識別率較低。相反,LIU等[8]對CK+數(shù)據(jù)集的識別率較高,但對FER2013 數(shù)據(jù)集的識別率較低。這說明以上算法均不具備普適性。然而,本文方法在CK+和FER2013 這2 個(gè)數(shù)據(jù)集上均取得了較好的效果。這是因?yàn)楸疚姆椒闪硕嗫鐚拥亩喑叨缺砬樘卣鳎軌虿蹲奖砬樯顚哟蔚奈⒚钭兓彝ㄟ^反卷積融合多層特征,恢復(fù)了表情圖像逐層傳遞過程中的特征信息損耗,從而解決了模型層間交互以及多層特征融合的問題,因此更適用于表情分類。

        3 結(jié)束語

        本文設(shè)計(jì)3 種不同尺度的網(wǎng)絡(luò)作為提取人臉表情特征的主干網(wǎng)絡(luò),通過在網(wǎng)絡(luò)中加入多尺度特征融合模塊實(shí)現(xiàn)主干網(wǎng)絡(luò)多尺度特征的自主融合,同時(shí)引入分層雙線性池化網(wǎng)絡(luò)集成同一網(wǎng)絡(luò)及不同網(wǎng)絡(luò)的跨層表情特征,以獲取有區(qū)分度的細(xì)膩表情特征屬性。在此基礎(chǔ)上,進(jìn)一步探究不同通道數(shù)及維度空間對所提MHBP 算法的影響,提出一種多層信息融合方法。實(shí)驗(yàn)結(jié)果表明,多層特征融合方法能有效利用丟失的信息,提高表情分類精度,且基于多尺度雙線性池化的網(wǎng)絡(luò)能捕獲具有明顯辨識度的人臉表情特征,提高人臉表情識別率。下一步將設(shè)計(jì)輕量級神經(jīng)網(wǎng)絡(luò),并利用金字塔池化改進(jìn)多層特征融合的方式,以獲得更高的運(yùn)行效率和更好的識別效果。

        猜你喜歡
        池化識別率人臉
        基于緊湊型雙線性網(wǎng)絡(luò)的野生茵識別方法研究
        無線電工程(2024年8期)2024-09-16 00:00:00
        基于Sobel算子的池化算法設(shè)計(jì)
        卷積神經(jīng)網(wǎng)絡(luò)中的自適應(yīng)加權(quán)池化
        有特點(diǎn)的人臉
        基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測
        基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識別率的關(guān)系
        基于卷積神經(jīng)網(wǎng)絡(luò)和池化算法的表情識別研究
        三國漫——人臉解鎖
        動漫星空(2018年9期)2018-10-26 01:17:14
        提升高速公路MTC二次抓拍車牌識別率方案研究
        高速公路機(jī)電日常維護(hù)中車牌識別率分析系統(tǒng)的應(yīng)用
        国产精品无码一区二区三区免费| 久久亚洲一区二区三区四区五| 亚洲精品第四页中文字幕| 亚洲国产精品色婷婷久久| 亚洲AV无码AV色| 中文字幕人妻互换激情| 免费国产在线精品一区| 越南女子杂交内射bbwbbw| 国产片三级视频播放| 白白色免费视频一区二区在线| 又湿又紧又大又爽a视频国产| 最新国产av无码专区亚洲| 国产高清在线91福利| 亚洲婷婷久久播66性av| 久久久久成人精品无码中文字幕 | 91精品福利观看| 精品国产一区二区三区久久狼| 丰满少妇在线播放bd| 中文乱码字慕人妻熟女人妻| 无码人妻少妇久久中文字幕蜜桃| 97超碰国产一区二区三区| 日韩 无码 偷拍 中文字幕| 亚洲va中文字幕无码久久不卡| 中文国产成人精品久久一区| 日韩精品视频在线观看无| 岳毛多又紧做起爽| 国产97色在线 | 免| 亚洲精品熟女av影院| 日韩日韩日韩日韩日韩日韩| 精品乱码一区二区三区四区| 亚洲视频不卡免费在线| 国产香蕉视频在线播放| 又色又爽又黄又硬的视频免费观看 | 白白色免费视频一区二区在线| 把女的下面扒开添视频| 国内久久婷婷激情五月天| 少妇激情一区二区三区| 国产a级毛片久久久精品毛片| 国产剧情av麻豆香蕉精品| 人妻丰满少妇一二三区| 亚洲欧洲免费无码|