亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于VGG-NET的特征融合面部表情識(shí)別*

        2020-03-26 11:07:48李校林鈕海濤
        關(guān)鍵詞:集上準(zhǔn)確度特征提取

        李校林,鈕海濤

        (1.重慶郵電大學(xué)通信與信息工程學(xué)院,重慶400065;2.重慶郵電大學(xué)通信新技術(shù)應(yīng)用研究中心,重慶400065; 3.重慶信科設(shè)計(jì)有限公司,重慶 401121)

        1 引言

        面部表情是人們傳達(dá)情感和意圖的自然而直接的手段,一個(gè)人的面部表情會(huì)無意識(shí)地流露出許多情感信息,如何讓智能機(jī)器正確分析人類所表達(dá)的情感和情緒已成為人機(jī)交互領(lǐng)域中的研究熱點(diǎn),廣泛應(yīng)用于醫(yī)療檢測(cè)、謊言檢測(cè)和多媒體等領(lǐng)域。隨著研究的深入,面部表情識(shí)別中的表情被分為7類[1,2],包括快樂、驚訝、悲傷、憤怒、恐懼、厭惡和中性表情。當(dāng)前面部表情識(shí)別的主要任務(wù)是特征提取和分類,傳統(tǒng)的特征提取方法難以在不同的膚色、年齡、性別和光照條件等復(fù)雜條件下選擇特征提取。近年來,面部表情特征提取方法層出不窮,有采用基于面部子空間的特征提取方法(比如主成分分析PCA(Principle Component Analysis)[3]、線性判別分析法[4,5]等提取面部細(xì)節(jié)局部特征的方法)、基于空頻變換的傅里葉變換法[6]、基于直方圖的局部二值模式LBP(Local Binary Patterns)特征提取法[7,8]和基于頻率域的Gabor小波特征提取法[9]等。Gabor小波通過圖像紋理表示特征信息,但Gabor變換效率低下;LBP特征,即局部二值模式特征,是通過對(duì)圖像紋理灰度進(jìn)行分析得到的分類能力良好的LBP特征,這類特征具有灰度不變性和旋轉(zhuǎn)不變性,但在表情的表達(dá)上容易產(chǎn)生較高的維數(shù),影響識(shí)別速度。以上特征提取方法都需要人工干預(yù),且面部靜態(tài)圖像存在受光照變換、不同的頭部姿態(tài)以及面部阻擋等干擾問題。

        深度學(xué)習(xí)技術(shù)的持續(xù)發(fā)展讓人們看到了深度學(xué)習(xí)在圖像領(lǐng)域的巨大潛力,對(duì)于面部表情識(shí)別的研究也逐漸從傳統(tǒng)手工設(shè)計(jì)特征的方式轉(zhuǎn)到以深度學(xué)習(xí)技術(shù)為基礎(chǔ)的研究,使面部表情識(shí)別技術(shù)取得了突破性進(jìn)展。李勇等人[10]通過改進(jìn)LeNet-5網(wǎng)絡(luò)架構(gòu),將網(wǎng)絡(luò)中提取到的低層次特征和高層次特征相結(jié)合作為分類器的輸入,在JAFFE表情數(shù)據(jù)庫(kù)上實(shí)現(xiàn)了94.37%的識(shí)別率;Chang等人[11]構(gòu)建了一種有效的卷積神經(jīng)網(wǎng)絡(luò)提取輸入圖像的特征,使用復(fù)雜性感知分類算法將數(shù)據(jù)集劃分為簡(jiǎn)單分類樣本子空間和復(fù)雜分類樣本子空間,降低了面部表情識(shí)別因環(huán)境因素而導(dǎo)致的復(fù)雜性;Georgescu等人[12]將卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的自動(dòng)特征和由視覺詞袋模型計(jì)算的手工特征相融合,使用支持向量機(jī)作為分類器預(yù)測(cè)類標(biāo)簽;Chen等人[13]提出一種強(qiáng)面部特征提取方法,提取表情表達(dá)峰值與中性面部表情幀中的差值表情幀特征,保留從中性面到表情面的過渡中改變的面部部分,在表情數(shù)據(jù)集上取得了較好的識(shí)別效果。

        盡管已經(jīng)有許多特征提取方法,但仍然存在一些問題,例如提取的特征單一化,特征受光照變化影響等。局部二值模式(LBP)側(cè)重于圖像局部紋理特征,由于其良好的旋轉(zhuǎn)不變性和光照不敏感性,被廣泛用于表情識(shí)別。本文提出了一種基于改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)合CNN(Convolutional Neural Networks)特征和LBP特征的面部表情識(shí)別方法,根據(jù)面部局部和整體信息的組合可以有效地描述面部的表情特征。所提出的方法結(jié)合2種類型的特征以獲得更高的識(shí)別精度,并解決了對(duì)光照的魯棒性問題。本文的主要工作如下所示:

        (1)利用多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)MTCNN(Multi-Task Convolutional Neural Network)算法定位面部圖像關(guān)鍵點(diǎn),對(duì)圖像進(jìn)行預(yù)處理。利用多尺度多關(guān)鍵點(diǎn)采樣方法提取LBP紋理特征,并通過PCA進(jìn)行特征降維。

        (2)設(shè)計(jì)了一種基于VGGNet的改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)。從卷積層獲得的特征以加權(quán)方式與LBP紋理特征合并,作為最終表情分類特征。

        (3)與現(xiàn)有的面部表情識(shí)別方法相比,在CK+和JAFFE表情數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。結(jié)果表明,本文方法提高了面部表情識(shí)別的準(zhǔn)確性,驗(yàn)證了其有效性。

        2 基本理論

        2.1 LBP算子

        局部二值模式LBP算子是用于描述圖像局部紋理特征的算子,對(duì)紋理細(xì)節(jié)特征提取能力顯著。通過比較圖像的中心像素值與周圍8個(gè)像素的值大小得到LBP值,圖像的局部紋理特征便用此值來描述。傳統(tǒng)的LBP算子如下所示:

        (1)

        其中,(x,y)是中心像素點(diǎn)的位置,P為采樣點(diǎn)個(gè)數(shù),gp是鄰域像素點(diǎn)的像素值,gc是中心像素點(diǎn)的像素值。S(x)是一個(gè)符號(hào)函數(shù),表示鄰域像素點(diǎn)的二進(jìn)制值:

        (2)

        從式(1)和式(2)中提取的二進(jìn)制代碼被轉(zhuǎn)換為十進(jìn)制數(shù),以便形成LBP圖像。傳統(tǒng)LBP算子不能滿足不同尺寸的紋理特征,并且不具有旋轉(zhuǎn)不變性。Ojala等人[7]提出了具有旋轉(zhuǎn)不變性的 LBP 算子,并將其定義為:

        i=0,1,…,P-1}

        (3)

        U(LBPP,R)=|S(gp-1-gc)-S(g0-gc)|+

        (4)

        (5)

        其中,U(LBPP,R)表示0到1或1到0變化的次數(shù),gc是矩形塊中心像素的灰度值,g0,…,gP-1為中心像素鄰域的P個(gè)灰度值,R為圓形鄰域的半徑。

        Figure 1 VGG-16 network structure 圖1 VGG-16網(wǎng)絡(luò)結(jié)構(gòu)

        2.2 卷積神經(jīng)網(wǎng)絡(luò)

        卷積神經(jīng)網(wǎng)絡(luò)CNN是一種特殊的專門用作處理具有類似網(wǎng)格結(jié)構(gòu)數(shù)據(jù)的人工神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)前部是多個(gè)卷積和池化層的組合,最后連接多個(gè)全連接層與一個(gè)分類器作為輸出,現(xiàn)已成為圖像分析領(lǐng)域中的研究熱點(diǎn)。與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)不同的是,卷積神經(jīng)網(wǎng)絡(luò)不需要網(wǎng)絡(luò)中每個(gè)神經(jīng)元與前一層的所有神經(jīng)元都進(jìn)行連接,其優(yōu)勢(shì)在于通過局部感知和權(quán)值共享可以減少網(wǎng)絡(luò)參數(shù)。在圖像特征中,每個(gè)神經(jīng)元感知圖像的局部信息,利用局部信息組合成圖像整體信息,減少網(wǎng)絡(luò)需要學(xué)習(xí)的參數(shù)數(shù)目;權(quán)值共享通過不同的濾波器(這種濾波器又稱為卷積核)來提取圖像中不同位置的不同特征的激活值。權(quán)值實(shí)際上是不同神經(jīng)元之間的連接參數(shù),權(quán)值共享的目的就是讓若干個(gè)連接參數(shù)相同,再通過多個(gè)卷積核來提取圖像特征,得到特征值。采樣層又叫池化層,是對(duì)輸入的圖像的局部區(qū)域進(jìn)行壓縮,在降低維度的同時(shí)起到防止過擬合的作用,一般常見的采樣方法為最大值(或均值)池化。牛津大學(xué)提出的VGGNet[14]網(wǎng)絡(luò)結(jié)構(gòu),在分類任務(wù)中功能強(qiáng)大,也正因如此,VGGNet網(wǎng)絡(luò)仍然被用作提取圖像特征。

        VGG-16由13層卷積層(conv)、3層全連接層(FC)以及Softmax輸出層構(gòu)成,如圖1所示。所有隱層的激活單元都采用ReLU函數(shù);使用3*3大小的卷積核來擴(kuò)大通道數(shù),以提取更復(fù)雜和更具有表達(dá)力的特征,通過零填充保證輸出數(shù)據(jù)體的維度與輸入相同。層與層之間使用大小為2*2,步長(zhǎng)為2的最大池化方式進(jìn)行采樣,以捕獲到更細(xì)微的信息,卷積核的數(shù)量隨著卷積層數(shù)量的增加而增加,卷積層深度依次為64→128→256→512→512。

        3 融合特征提取設(shè)計(jì)

        本文提出了一種LBP特征和CNN特征相融合的表情識(shí)別方法,使網(wǎng)絡(luò)能夠?qū)W習(xí)更多具有區(qū)分性的特征,從而有效地對(duì)結(jié)果進(jìn)行分類,提高識(shí)別準(zhǔn)確性。第1類特征是LBP特征,第2類特征來自改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)卷積層特征,使用自適應(yīng)加權(quán)函數(shù)將它們組合以得到用于分類的特征。具體的方法框架如圖2所示。

        Figure 2 Framework of the proposed method圖2 本文方法框架

        3.1 LBP特征提取

        Figure 3 LBP operators of different scales圖3 不同尺度的LBP算子圖

        在進(jìn)行表情識(shí)別之前,需要通過面部檢測(cè)處理來分離面部和非面部。我們使用MTCNN[15]算法對(duì)數(shù)據(jù)集中的面部表情圖像進(jìn)行面部檢測(cè)和特征點(diǎn)定位。將面部表情關(guān)鍵點(diǎn)如左/右眼、鼻子、左/右嘴角作為采樣區(qū)域并做仿射變換,校正面部,將面部區(qū)域圖像縮放為3個(gè)不同的尺度,包括75*75,120*120,224*224像素大小。固定采樣窗口的大小,即P=8,R=1。如圖4所示。通過在單個(gè)關(guān)鍵點(diǎn)周圍進(jìn)行多尺度的采樣來獲取不同尺度上的局部特征,增加LBP特征的維數(shù),并且不同的尺度使得提取到的特征既包含細(xì)節(jié)部分又擁有相對(duì)整體結(jié)構(gòu)的信息,增強(qiáng)了特征的表達(dá)能力。考慮到數(shù)據(jù)的主要信息都集中在主成分上,因此采用無監(jiān)督的主成分分析PCA方法對(duì)高維LBP特征進(jìn)行降維,在降低信息的冗余度和噪聲的同時(shí)盡量減小信息損失。PCA 降維處理的具體過程如下所示:

        (1)設(shè)有M個(gè)面部訓(xùn)練樣本,構(gòu)成特征矩陣X,其中每個(gè)樣本所對(duì)應(yīng)的特征向量為xi,記為X=[x1,x2,…,xM]。則平均向量表示為:

        (6)

        (2)根據(jù)式(7)和式(8)將特征矩陣均值化,計(jì)算協(xié)方差矩陣P。將特征值從大到小排序取對(duì)應(yīng)前k個(gè)特征向量構(gòu)成矩陣U=[μ1,μ2,…,μk],其中U為經(jīng)均值化后μi所組成的特征向量矩陣。經(jīng)過X的k階降維轉(zhuǎn)換,得到低維空間的特征矩陣Y=X*U

        (7)

        (8)

        由于是選取了5個(gè)關(guān)鍵點(diǎn),采樣的區(qū)域大小為4*4,使用了旋轉(zhuǎn)不變的等價(jià)LBP模式將P固定為8,則 LBP模式數(shù)量為9種,再經(jīng)過3次不同尺度的縮放,最終得到的LBP特征維數(shù)為2 160維(5*16*9*3)。即1個(gè)關(guān)鍵點(diǎn)區(qū)域包含432(16*9*3)維的特征向量,經(jīng)過PCA方法降維后,每一個(gè)關(guān)鍵點(diǎn)區(qū)域包含60維,最終得到300(5*60)維的特征向量。通過上述步驟得到的圖像特征維數(shù)與深度卷積提取的特征維數(shù)接近。

        Figure 4 Face detection and multi-scale sampling LBP image圖4 面部檢測(cè)及多尺度采樣LBP圖像

        3.2 改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)特征提取

        在VGG-16網(wǎng)絡(luò)中,由于連續(xù)多次使用了小卷積核并且每一層的卷積核呈翻倍式增長(zhǎng),使得相應(yīng)的輸出特征映射的數(shù)量變得更多,占用了更多的存儲(chǔ)空間。通過對(duì)原模型VGG-16進(jìn)行實(shí)驗(yàn)發(fā)現(xiàn),在第1個(gè)全連接層上會(huì)產(chǎn)生非常大的參數(shù)量,使得計(jì)算量巨大,消耗了更多的計(jì)算資源。此外,由于數(shù)據(jù)集的規(guī)模制約,中小規(guī)模的數(shù)據(jù)樣本在深度網(wǎng)絡(luò)上表現(xiàn)并不好,最后的實(shí)驗(yàn)結(jié)果遠(yuǎn)遠(yuǎn)低于預(yù)期,我們分析認(rèn)為部分原因是數(shù)據(jù)規(guī)模較小產(chǎn)生的過擬合問題,導(dǎo)致模型泛化能力不足,并未能體現(xiàn)出深度網(wǎng)絡(luò)VGG-16原有的優(yōu)秀性能,而通過不同方式減少神經(jīng)網(wǎng)絡(luò)深度來減少參數(shù)量,在一定程度上是有助于防止過擬合的。受GoogleNet[16]和AlexNet[17]的啟發(fā),在高維特征圖上使用大的卷積核直接降維,并沒有產(chǎn)生過多的計(jì)算,且連續(xù)的大卷積核代替小卷積核能降低模型的復(fù)雜度,進(jìn)一步壓縮參數(shù)數(shù)量;減少部分全連接層并不會(huì)影響特征層的表達(dá),反而降低了參數(shù)量。因此,本文對(duì)VGG-16結(jié)構(gòu)進(jìn)行以下改進(jìn):(1)在初始層的較大特征圖上使用5*5卷積核,在后3層堆疊的卷積層上依舊使用3*3卷積核,有效地降低特征圖占用的空間并保持模型的特征提取能力;(2)將第1層全連接層刪去,直接與第2層全連接層相連,其次將剩余2個(gè)全連接層中的神經(jīng)元的數(shù)量降為1 024和256,減少參數(shù)數(shù)量的同時(shí)可以促使最后一層卷積層得到的特征更具區(qū)分性,有助于提升融合效果。將改進(jìn)后的網(wǎng)絡(luò)命名為NEW-VGG,如圖5所示。網(wǎng)絡(luò)的輸入數(shù)據(jù)維度為224*224*3。在網(wǎng)絡(luò)中使用ReLU作為激活函數(shù),并使用Dropout來解決過擬合問題。選取Softmax作為分類器用于分類任務(wù),以估計(jì)M類中每個(gè)類標(biāo)簽的概率。通常,卷積神經(jīng)網(wǎng)絡(luò)需要在卷積層之后連接低維全連接層作為新特征層以減小特征尺寸,并且由卷積層獲得的特征通常包含豐富的圖像細(xì)節(jié)信息。因此,采用卷積層部分獲得的特征作為待融合的特征。

        Figure 5 Improved convolutional neural network NEW-VGG圖5 改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)NEW-VGG

        3.3 特征融合

        本文采用特征向量拼接方法融合上述2種類型的特征。考慮到2個(gè)特征向量的不同尺寸將導(dǎo)致不同的特征點(diǎn)比,本文使用加權(quán)函數(shù)來融合2個(gè)向量,以生成新特征。具體的特征融合方法如下所示:

        (1)LBP 特征和CNN 特征融合。

        將n維LBP 特征向量記為VLj,VLj=(VL1,VL2,…,VLn);m維CNN特征向量記為VCj,VCj=(VC1,VC2,…,VCm)。新的融合特征向量Vfc=(VN1,VN2,…,VNN),VNi表示第i(i=1,…,6,代表6種基本表情)個(gè)類別,記為:

        Vfc=αVCj+(1-α)VLj

        (9)

        其中,α是0~1的實(shí)數(shù)值,α和1-α分別對(duì)應(yīng)于2種類型的特征的組合權(quán)重。假設(shè)有N個(gè)圖像樣本,每個(gè)樣本的維度大小為D,基于表情識(shí)別共有6類。Softmax函數(shù)用于融合特征向量中估計(jì)6類中每個(gè)類標(biāo)簽的概率,如式(10)和式(11)所示:

        (10)

        (11)

        (12)

        根據(jù)式(10)~式(12)計(jì)算損失函數(shù),使用基于隨機(jī)梯度下降優(yōu)化方法的反向傳播來最小化式(13):

        (13)

        (2)對(duì)融合特征進(jìn)行降維處理。

        2種特征的融合是局部特征與全局特征的信息互補(bǔ),因此存在著大量的冗余信息,這就導(dǎo)致融合后的新特征VNi維數(shù)很高。故本文在進(jìn)行特征融合時(shí),將網(wǎng)絡(luò)模型最后一個(gè)全連接層的神經(jīng)元數(shù)目設(shè)為256,相當(dāng)于通過神經(jīng)網(wǎng)絡(luò)模型對(duì)拼接的2種特征進(jìn)行降維操作,去掉冗余信息,從而產(chǎn)生新的有用信息。

        融合后的特征具有更強(qiáng)的可區(qū)分性,可進(jìn)一步提升特征對(duì)光照的魯棒性,帶來更好的識(shí)別效果。將融合特征輸入到NEW-VGG模型的Softmax層中,可得到最終的分類識(shí)別結(jié)果。詳細(xì)的融合步驟如下所示:

        (1)對(duì)面部圖像進(jìn)行預(yù)處理。

        (2)提取LBP特征。利用式(3)~式(5)在訓(xùn)練樣本和測(cè)試樣本上分別提取具有光不敏感性的 LBP特征,并采用 PCA 進(jìn)行降維。

        (3)對(duì)NEW-VGG網(wǎng)絡(luò)模型參數(shù)進(jìn)行初始化設(shè)置并提取CNN特征。

        (4)融合2種類型特征。根據(jù)式(9)將CNN卷積層特征和 LBP 特征在 CNN 的第1層全連接層進(jìn)行融合并降維。

        (5)將已處理的特征導(dǎo)入Softmax層,以獲得最終的分類結(jié)果。

        (6)參數(shù)調(diào)整。根據(jù)式(9)調(diào)整特征向量參數(shù)。根據(jù)CNN網(wǎng)絡(luò)調(diào)整權(quán)重參數(shù),直到式(13)收斂到較小的值,調(diào)整完畢。

        4 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

        4.1 實(shí)驗(yàn)的準(zhǔn)備工作

        為了證明本文提出的特征融合的表情識(shí)別方法的有效性,本文設(shè)置了3組實(shí)驗(yàn)。實(shí)驗(yàn)數(shù)據(jù)來源于開源的JAFFE(the JApanese Female Facial Expression database)[18]和CK+(the extended Cohn-Kanade dataset)[19]表情數(shù)據(jù)集。CK+數(shù)據(jù)集用于訓(xùn)練好的網(wǎng)絡(luò)模型性能測(cè)試。JAFFE數(shù)據(jù)集包含213幅圖像,是10位日本女模特的7種面部表情(6種基本表情+1種中性表情)。CK+數(shù)據(jù)集包含123位受試者的593個(gè)圖像序列,每個(gè)序列都在此數(shù)據(jù)集以中性表達(dá)式開頭并繼續(xù)達(dá)到表情頂峰,最后一幅表情都有動(dòng)作單位的標(biāo)簽,共含6個(gè)基本面部表情。由于CK+數(shù)據(jù)集沒有中性表情,故在實(shí)驗(yàn)過程中選取6種基本表情??紤]到數(shù)據(jù)有限以及VGG-NET網(wǎng)絡(luò)的參數(shù)數(shù)量,本文將每種表情的標(biāo)簽圖像進(jìn)行一系列翻轉(zhuǎn)、平移、旋轉(zhuǎn)操作使表情樣本數(shù)據(jù)增加130倍,最后使用10折交叉驗(yàn)證進(jìn)行評(píng)估,其結(jié)果可直接反映網(wǎng)絡(luò)訓(xùn)練情況和模型設(shè)計(jì)質(zhì)量。2個(gè)數(shù)據(jù)集的示例集合如圖6所示。

        Figure 6 Examples of facial expression in JAFFE and CK+圖6 JAFFE和CK+中的面部表情示例

        4.2 環(huán)境配置和初始化設(shè)置

        本文實(shí)驗(yàn)環(huán)境:臺(tái)式電腦1臺(tái),CPU為Intel(R) Core(TM)i5,8 GB內(nèi)存。GPU為GTX 1060。開發(fā)環(huán)境為基于Python語言的TensorFlow框架。在訓(xùn)練過程中,所有學(xué)習(xí)率設(shè)置為0.1,batchsize大小為1 000,動(dòng)量為0.9,權(quán)重衰減為0.000 5,迭代次數(shù)設(shè)置為100,最大限制次數(shù)為10 000。使用隨機(jī)梯度下降優(yōu)化方法訓(xùn)練網(wǎng)絡(luò)。

        4.3 實(shí)驗(yàn)結(jié)果與分析

        (1)參數(shù)α的影響分析。

        為了探索參數(shù)α在融合特征中的作用,在JAFFE和CK+數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),以找到適合數(shù)據(jù)集的α值。我們將α的值從0逐漸增加到1,其中α=0表示融合特征中僅包含LBP特征,α=1表示融合特征中僅包含CNN特征。實(shí)驗(yàn)結(jié)果如圖7所示。從圖7中可以看出,隨著α值的增加,訓(xùn)練模型的識(shí)別率在一定范圍內(nèi)逐漸增大,當(dāng)權(quán)重α= 0.6時(shí),CK+數(shù)據(jù)集上的識(shí)別準(zhǔn)確度達(dá)到最大值,而JAFFE數(shù)據(jù)集上的準(zhǔn)確度則在α=0.7時(shí)達(dá)到最大。后續(xù)α再變大時(shí),2個(gè)數(shù)據(jù)集上的準(zhǔn)確度都呈減小的趨勢(shì)。這是由于當(dāng)CNN特征增加時(shí),融合特征中局部特征的比例減小,融合特征對(duì)光照的魯棒性降低,因?yàn)楫?dāng)面角變化很小時(shí),光照的影響更明顯,為了減弱光照影響,本文更傾向加大融合特征中LBP特征的比重。鑒于此,最終取2個(gè)數(shù)據(jù)集上的平均準(zhǔn)確度最大時(shí)的α值(即α固定為0.6)用于特征融合中。

        Figure 7 Evaluation of fusion weight α on different datasets圖7 不同數(shù)據(jù)集上的融合權(quán)重α的評(píng)估

        (2)網(wǎng)絡(luò)模型的性能比較分析。

        為了驗(yàn)證不同尺度數(shù)據(jù)集對(duì)NEW-VGG網(wǎng)絡(luò)模型性能的影響,將2個(gè)增強(qiáng)數(shù)據(jù)集混合為1個(gè)數(shù)據(jù)集,命名為Data1數(shù)據(jù)集,共有104 780幅圖像,其中80 000幅用于訓(xùn)練,其余用于測(cè)試,特征融合的權(quán)重α為0.6。將Data1分為100個(gè)批次,用Softmax訓(xùn)練該網(wǎng)絡(luò)模型并進(jìn)行反復(fù)迭代訓(xùn)練以減小損失值。經(jīng)過反復(fù)實(shí)驗(yàn)發(fā)現(xiàn),在初始設(shè)置20個(gè)epochs時(shí),模型的損失值較大。上調(diào)epochs值到80之后,其損失值穩(wěn)定在0.018,并且測(cè)試集上的性能也達(dá)到最高的99.15%。當(dāng)設(shè)置更大的epochs迭代更多次時(shí),平均識(shí)別準(zhǔn)確度不再提高。我們認(rèn)為NEW-VGG網(wǎng)絡(luò)在反復(fù)迭代中學(xué)習(xí)了一些高頻特征,這些高頻特征對(duì)模型提升并無幫助,還會(huì)造成過擬合的狀態(tài),影響最終的分類任務(wù),因此,該網(wǎng)絡(luò)的性能沒有進(jìn)一步提高。如圖8所示。

        Figure 8 Training performance curve of NEW-VGG network model 圖8 NEW-VGG網(wǎng)絡(luò)模型訓(xùn)練性能曲線

        最后,在Data1上分析了GoogleNet、VGG-16和NEW-VGG網(wǎng)絡(luò)模型的性能。如圖9所示,隨著訓(xùn)練數(shù)據(jù)集大小的增加,3種網(wǎng)絡(luò)的性能逐漸提高。當(dāng)數(shù)據(jù)集大小達(dá)到近80 000時(shí),NEW-VGG網(wǎng)絡(luò)的準(zhǔn)確度高于其他2個(gè)網(wǎng)絡(luò)的準(zhǔn)確度。同時(shí)發(fā)現(xiàn),NEW-VGG網(wǎng)絡(luò)架構(gòu)在訓(xùn)練和測(cè)試速度方面明顯快于其他2個(gè)網(wǎng)絡(luò)結(jié)構(gòu),證明了NEW-VGG網(wǎng)絡(luò)可以很好地處理更多數(shù)據(jù),也證明了改善網(wǎng)絡(luò)會(huì)影響面部表情識(shí)別的準(zhǔn)確度。

        Figure 9 Recognition accuracy on different scale datasets圖9 不同規(guī)模數(shù)據(jù)集上的識(shí)別準(zhǔn)確度

        (3)不同網(wǎng)絡(luò)結(jié)構(gòu)和特征維數(shù)比較分析。

        為了驗(yàn)證不同網(wǎng)絡(luò)結(jié)構(gòu)與不同特征維數(shù)對(duì)識(shí)別效果的影響,本節(jié)使用VGG-16網(wǎng)絡(luò)結(jié)構(gòu)以及NEW-VGG網(wǎng)絡(luò)結(jié)構(gòu)在Data1數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),分別選取不同維數(shù)的特征用于對(duì)比識(shí)別準(zhǔn)確度,結(jié)果如表1 所示。

        Table 1 Influence of different dimensions on recognition results表1 不同特征維數(shù)對(duì)識(shí)別效果的影響 %

        實(shí)驗(yàn)結(jié)果表明,隨著特征維數(shù)的減小,2種網(wǎng)絡(luò)識(shí)別精度并沒有隨之增加,反而是在128維時(shí)略微降低,說明特征維度在256時(shí)就足以表征Data1數(shù)據(jù)集,這256維特征包含了數(shù)據(jù)集里絕大部分的有效信息量。圖10是2種網(wǎng)絡(luò)結(jié)構(gòu)各卷積層特征的對(duì)比圖。NEW-VGG在淺層網(wǎng)絡(luò)所提取到的紋理、細(xì)節(jié)特征要比VGG-16提取到的更豐富,尤其是一些關(guān)鍵特征,如眼睛特征信息等。而在更深層的網(wǎng)絡(luò)中,NEW-VGG提取了更多的輪廓、形狀等特征,特別是在最后一層卷積層得到的抽象特征,相對(duì)而言,這些特征更具有代表性。并且NEW-VGG網(wǎng)絡(luò)沒有因?yàn)楹?jiǎn)化結(jié)構(gòu)使提取特征的能力下降,綜上所述,本文采用256維的特征維度。

        Figure 10 Features contrast of different convolutional layers of VGG-16 and NEW-VGG圖10 VGG-16和NEW-VGG不同各層卷積特征圖對(duì)比

        (4) CK+和JAFFE數(shù)據(jù)集上的準(zhǔn)確度分析。

        本節(jié)將2個(gè)增強(qiáng)數(shù)據(jù)集各自進(jìn)行10等分,取其中9組作為訓(xùn)練集,剩余1組作為測(cè)試集,進(jìn)行10折交叉驗(yàn)證,通過這10組平均混淆矩陣得到最終的混淆矩陣。將10組數(shù)據(jù)做3種處理:一種是只將單一特征Basic_LBP(即傳統(tǒng)LBP)用于網(wǎng)絡(luò)訓(xùn)練并進(jìn)行分類得到最終結(jié)果,另一種只取來自于NEW-VGG網(wǎng)絡(luò)的特征并進(jìn)行分類得到最終結(jié)果,最后一種是將Basic_LBP特征與CNN卷積層特征融合用于網(wǎng)絡(luò)訓(xùn)練并進(jìn)行分類得到最終結(jié)果。兩者實(shí)驗(yàn)結(jié)果如表2~表4所示。

        Table 2 Confusion matrix based on Basic_LBP feature (CK+)表2 基于Basic_LBP特征的混淆矩陣(CK+數(shù)據(jù)集) %

        Table 3 Confusion matrix based on NEW-VGG CNN feature(CK+)表3 基于NEW-VGG的CNN特征的混淆矩陣(CK+數(shù)據(jù)集) %

        Table 4 Confusion matrix based on NEW-VGG fusion feature (CK+)表4 基于NEW-VGG的融合特征的混淆矩陣(CK+數(shù)據(jù)集) %

        表2和表3是在CK+數(shù)據(jù)集上使用Basic_LBP特征和基于NEW-VGG的CNN特征計(jì)算出的混淆矩陣,表4是使用基于NEW-VGG的融合特征方法計(jì)算出的混淆矩陣??梢钥闯?,網(wǎng)絡(luò)在僅有LBP特征下時(shí),最高的識(shí)別準(zhǔn)確度來自于表達(dá)“快樂”的表情,達(dá)到了90.85%,最低的識(shí)別準(zhǔn)確度來自于表達(dá)“恐懼”的表情,只有79.22%。平均準(zhǔn)確度為86.51%。觀察上述2表可知,“驚喜”的表情容易被錯(cuò)誤預(yù)測(cè)為“快樂”的表情,“恐懼”的表情容易被錯(cuò)誤預(yù)測(cè)為“驚喜”和“悲傷”的表情。這是因?yàn)樵谶@幾種面部表情中,有些面部圖像中嘴巴呈閉攏狀,有些面部圖像中眼睛呈現(xiàn)驚恐狀,使更注重提取局部細(xì)節(jié)的LBP特征增加了錯(cuò)誤概率,難以進(jìn)行正確的特征分類。此外,表3中的實(shí)驗(yàn)結(jié)果整體好于表2中的實(shí)驗(yàn)結(jié)果,但是仍在“恐懼”與“悲傷”表情的識(shí)別上存在特征區(qū)分不明顯情況。而基于融合特征的識(shí)別方法,表情的平均識(shí)別精度為97.50%,最高的可識(shí)別表情是“憤怒”表情,達(dá)到了99.05%,增幅最大的是“恐懼”表情,增幅為19.41%。

        表5和表6是在JAFFE數(shù)據(jù)集上使用Basic_LBP特征和基于NEW-VGG的CNN特征計(jì)算出的混淆矩陣,表7是使用基于NEW-VGG的融合特征方法計(jì)算出的混淆矩陣?;贐asic_LBP特征的方法獲得了89.00%的平均識(shí)別準(zhǔn)確度,“驚喜”表情的識(shí)別準(zhǔn)確度最高(92.00%)。與Basic_LBP特征方法相比,CNN特征方法的平均識(shí)別準(zhǔn)確度只增長(zhǎng)了3.11%,“驚喜”與“憤怒”表情的準(zhǔn)確度反而有所下降。反觀使用融合特征的混淆矩陣,采用融合特征的識(shí)別準(zhǔn)確度高于采用單一特征的準(zhǔn)確度,準(zhǔn)確度最高的仍是“驚喜”表情,達(dá)到99.85%,“恐懼”表情的識(shí)別度最低,只有95.00%,平均識(shí)別準(zhǔn)確度達(dá)到97.62%,這個(gè)結(jié)果高于在CK+數(shù)據(jù)庫(kù)上實(shí)驗(yàn)結(jié)果。這是因?yàn)镃K+數(shù)據(jù)庫(kù)中的表情圖像有光照條件影響且表情姿勢(shì)更加難以捕獲。

        Table 5 Confusion matrix based on Basic_LBP feature (JAFFE)表5 基于Basic_LBP特征的混淆矩陣(JAFFE數(shù)據(jù)集) %

        Table 6 Confusion matrix based on NEW-VGG CNN features (JAFFE)表6 基于NEW-VGG的CNN特征的混淆矩陣(JAFFE數(shù)據(jù)集) %

        Table 7 Confusion matrix based on NEW-VGG fusion features (JAFFE)表7 基于NEW-VGG的融合特征的混淆矩陣(JAFFE數(shù)據(jù)集) %

        本文還比較了在本文方法和其他現(xiàn)有方法2個(gè)數(shù)據(jù)集上的準(zhǔn)確度,結(jié)果如表8所示。

        Table 8 Accuracy comparison among the proposed method and the existing methods表8 本文方法與現(xiàn)有方法準(zhǔn)確度對(duì)比 %

        實(shí)驗(yàn)對(duì)比結(jié)果表明,本文提出的特征融合方法在NEW-VGG網(wǎng)絡(luò)的幫助下具有更好的表情分類能力,一定程度上提高了表情識(shí)別率。與沒有進(jìn)行CNN特征融合的Basic_LBP單一特征在CK+與JAFFE驗(yàn)證集上的準(zhǔn)確度相比,其準(zhǔn)確度分別由86.51%,89.00%達(dá)到了97.50%,97.62%。優(yōu)于其他大多數(shù)方法,說明本文所提出的特征融合方法在識(shí)別不同數(shù)據(jù)集中的6個(gè)基本表情時(shí)的性能良好,有較好的泛化能力,不僅在光照變化的CK+數(shù)據(jù)集上帶來性能提升,也可增強(qiáng)對(duì)其他變化因素的魯棒性。

        5 結(jié)束語

        本文提出了一種基于NEW-VGG網(wǎng)絡(luò)的CNN特征和LBP特征相融合的表情識(shí)別方法。一種類型特征取自LBP特征,其使用旋轉(zhuǎn)不變的等價(jià)LBP模式,另一種特征取自卷積神經(jīng)網(wǎng)絡(luò)的卷積層,通過權(quán)重α融合2種特征,以便更充分地利用局部特征與全局特征信息。通過不同規(guī)模的數(shù)據(jù)集驗(yàn)證了改進(jìn)的NEW-VGG網(wǎng)絡(luò)的有效性,2個(gè)基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證了本文方法在識(shí)別6個(gè)基本表情方面的有效性,實(shí)現(xiàn)了更準(zhǔn)確、更有效的面部表情識(shí)別,尤其是可以準(zhǔn)確地識(shí)別“快樂”和“憤怒”,還可進(jìn)一步采取微調(diào)策略來修正諸如“驚喜”和“恐懼”等錯(cuò)誤分類情況。此外,與其他現(xiàn)有方法相比,本文方法在CK+和JAFFE數(shù)據(jù)集上分別達(dá)到了97.50%和97.62%的平均準(zhǔn)確度。然而,與Li等人[26]提出的方法相比,本文的網(wǎng)絡(luò)僅使用最基本的損失函數(shù)Softmax進(jìn)行分類驗(yàn)證,還沒有深入探討損失函數(shù)對(duì)表情識(shí)別準(zhǔn)確度的影響,這是未來將要開始探索和研究的內(nèi)容。

        猜你喜歡
        集上準(zhǔn)確度特征提取
        Cookie-Cutter集上的Gibbs測(cè)度
        鏈完備偏序集上廣義向量均衡問題解映射的保序性
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        幕墻用掛件安裝準(zhǔn)確度控制技術(shù)
        建筑科技(2018年6期)2018-08-30 03:40:54
        復(fù)扇形指標(biāo)集上的分布混沌
        Bagging RCSP腦電特征提取算法
        動(dòng)態(tài)汽車衡準(zhǔn)確度等級(jí)的現(xiàn)實(shí)意義
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        高爐重量布料準(zhǔn)確度的提高
        天津冶金(2014年4期)2014-02-28 16:52:58
        對(duì)電子天平的誤差及保證其稱量準(zhǔn)確度的探討
        av有码在线一区二区三区| 99久久婷婷国产精品综合网站| 少妇深夜吞精一区二区| 人妻精品久久一区二区三区| 91国产精品自拍在线观看| 日日摸天天摸97狠狠婷婷| 野狼第一精品社区| 午夜一级在线| 成人国产精品免费网站| 日韩av中文字幕波多野九色| 国产精品一区二区三区免费视频| 少妇久久久久久被弄高潮| 国产成人亚洲精品无码mp4| 久久精品国产亚洲5555| 久久精品女人天堂AV一个| 亚洲一区二区三区av无| 日韩人妻免费视频一专区| 肉色丝袜足j视频国产| 国产又色又爽又高潮免费视频麻豆 | 国产私人尤物无码不卡| 精品国产一区二区三区久久狼| 国产v精品成人免费视频400条| 亚洲精品乱码久久久久久不卡| 本道天堂成在人线av无码免费 | 亚洲中文字幕精品久久久久久直播| 成人av资源在线观看| 中国人在线观看免费的视频播放 | 无码三级在线看中文字幕完整版| 国产欧美日韩午夜在线观看 | 白白色青青草视频免费观看| 欧美牲交a欧美牲交aⅴ免费下载| 99国产精品久久久蜜芽| 成人无码区免费a片www| 久久婷婷国产综合精品| 亚洲国产av高清一区二区三区| 337p粉嫩日本欧洲亚洲大胆| 欧洲精品免费一区二区三区| 国产福利免费看| 狠狠躁夜夜躁人人爽天天不卡| 91热久久免费频精品99| 少妇久久久久久人妻无码|