亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        利用改進(jìn)深度信念網(wǎng)絡(luò)的人臉表情識(shí)別

        2021-07-21 05:05:04山笑珂張炳林
        關(guān)鍵詞:嘴部降維識(shí)別率

        山笑珂,張炳林

        (1.鄭州工程技術(shù)學(xué)院 文化遺產(chǎn)學(xué)院,河南 鄭州 450044;2.河南大學(xué) 教育科學(xué)學(xué)院,河南 開封 475004)

        0 引 言

        人臉表情識(shí)別[1,2]一般可分為基于模板的方法和基于特征的方法?;谀0宓姆椒ㄍǔ_m用于正面人臉表情識(shí)別,可靠性較低?;谔卣鞯姆椒P(guān)注外觀和幾何特征,如:定向梯度直方圖(histogram of oriented gradient,HOG)[4]、Gabor小波變換[5]和尺度不變特性變換(scale invariant feature transform,SIFT)[6]。HOG難以處理遮擋問題,對人臉方向變化和噪點(diǎn)敏感,因此,本文僅考慮Gabor小波變換和SIFT對人臉特征進(jìn)行提取。然而,直接提取到的特征維度較大,用于分類網(wǎng)絡(luò)效果很差,必須通過降維技術(shù)對其進(jìn)行降維。常見的降維技術(shù)可分為線性類和非線性類。線性類降維技術(shù)有主成分分析(principal component analysis,PCA)[7]和線性判別分析(linear discriminant analysis,LDA)[8]。非線性降維技術(shù)有核主成分分析(kernel principal component analysis,KPCA)[9]、局部線性嵌入(locally linear embedding,LLE)[10]、等距特征映射(isometric mapping,Isomap)[11]和T分布隨機(jī)鄰嵌入(t-distributed stochastic neighbor embedding,t-SNE)[12]。

        針對人臉表情識(shí)別問題,已有大量學(xué)者對其進(jìn)行研究。文獻(xiàn)[13]利用圖像顏色信息和通道之間的關(guān)聯(lián)性,結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)對人臉表情識(shí)別。文獻(xiàn)[14]提出一種雙路特征融合模型,將CNN和HOG方法結(jié)合對人臉表情識(shí)別。文獻(xiàn)[15]提出基于差分CNN兩階段框架的人臉表情識(shí)別方法,第一階段利用二元CNN從表情序列中自動(dòng)提取出中性表情幀和完全表情幀,第二階段利用差分CNN對表情分類。CNN類算法屬于監(jiān)督類算法,雖然精度較高,但是所需樣本必須是標(biāo)記后的。實(shí)際生活中大多數(shù)可用數(shù)據(jù)都是未標(biāo)記的,這在人臉表情識(shí)別領(lǐng)域尤其明顯,因此,半監(jiān)督方式較為合適。為此,文獻(xiàn)[16]提出基于Wasserstein生成式對抗網(wǎng)絡(luò)(Wasserstei generative adversarial networks,WGAN)的表情識(shí)別方法,該方法通過抑制類內(nèi)變異來提高表情識(shí)別的準(zhǔn)確性和魯棒性。文獻(xiàn)[17]提出基于圖形信號(hào)處理(graph signal processing,GSP)技術(shù)的表情識(shí)別方法,該方法利用譜圖小波變換提取信息,使用不同類型濾波器組,找到最佳的識(shí)別率性能。基于WGAN和基于GSP的方法具有無監(jiān)督學(xué)習(xí)能力,訓(xùn)練測試速度快,但其精度較低。文獻(xiàn)[18]利用誤差逆向傳播(back propagation,BP)算法對半監(jiān)督深度信念網(wǎng)絡(luò)(deep belief network,DBN)進(jìn)行微調(diào),精度較高,但BP算法在鄰近迭代中搜索正交方向時(shí),存在極值點(diǎn)陷入局部極小和收斂時(shí)間過長的問題。

        基于上述分析,半監(jiān)督類學(xué)習(xí)對人臉表情識(shí)別具有較好的性能,其中半監(jiān)督DBN精度高,優(yōu)勢明顯。但是半監(jiān)督DBN存在極值點(diǎn)陷入局部極小和收斂時(shí)間過長的問題。為了解決該問題,半監(jiān)督DBN在本文中被繼續(xù)研究,主要從兩方面入手:一方面提取表情特征后對其進(jìn)行降維,以此降低半監(jiān)督DBN網(wǎng)絡(luò)的學(xué)習(xí)復(fù)雜度;另一方面利用共軛梯度算法(conjugage gradient algorithm,CG)對BP算法處理過程進(jìn)行加速,解決半監(jiān)督DBN存在的問題。所提方法創(chuàng)新點(diǎn)總結(jié)如下:

        (1)提出了多特征處理人臉表情的方式,考慮嘴部與眼部的Gabor小波特征和尺度不變特性變換特征;

        (2)提出了人臉表情識(shí)別中半監(jiān)督DBN的改進(jìn)方式,利用共軛梯度算法對BP算法處理過程加速,解決其在識(shí)別過程中存在極值點(diǎn)陷入局部極小和收斂時(shí)間過長的問題。

        1 人臉表情特征提取及降維

        1.1 人臉表情多特征描述

        本文人臉表情識(shí)別的流程為:樣本采集、特征提取、降維、改進(jìn)DBN訓(xùn)練學(xué)習(xí)得到人臉表情識(shí)別網(wǎng)絡(luò)。所用樣本集是開放數(shù)據(jù)庫的標(biāo)準(zhǔn)人臉表情。通常,表情變化時(shí),眼部和嘴部存在明顯的特征變化。因此,本文重點(diǎn)考慮眼部和嘴部的特征。基于不同表情特征,從面部數(shù)據(jù)中提取眼部和嘴部特征,利用Gabor小波變換和SIFT提取眼部和嘴部特征。

        為了獲得最合適的提取方法,對4種特征進(jìn)行了評估,即:嘴部Gabor小波特征、眼部Gabor小波特征、嘴部SIFT特征和眼部SIFT特征。為了加速DBN訓(xùn)練,對特征向量降維,并將這些降維簡化的特征作為改進(jìn)DBN輸入,以計(jì)算改進(jìn)DBN對不同人臉表情的識(shí)別率。

        1.1.1 人臉表情Gabor小波特征

        Gabor小波能夠描述人類視覺細(xì)胞的刺激響應(yīng),高效地提取人臉表情的局部空間和頻域信息。其對光線敏感程度較低,對人臉圖像邊緣敏感,具有良好的方向和尺度選擇特性,能夠承受一定的圖像旋轉(zhuǎn)和形變。小波變換核心是卷積,即Gabor濾波器函數(shù)和圖像信號(hào)的卷積。

        二維Gabor函數(shù)g(x,y) 本質(zhì)是復(fù)正弦調(diào)制后的高斯函數(shù)。Gabor函數(shù)定義為

        (1)

        式中:ω為正弦頻率,σx,σy是標(biāo)準(zhǔn)差。

        Gabor函數(shù)經(jīng)過尺度變換和旋轉(zhuǎn)生成Gabor小波

        gmn(x,y)=a-mg(x′,y′)

        (2)

        式中:x′和y′表示尺度,具體為x′=a-m(xcosθ+ysinθ) 和y′=a-m(-xsinθ+ycosθ),m∈{0,…,M-1}。θ表示方向,θ=nπ/N,n∈{0,…,N-1}。 其余變量定義為

        (3)

        (4)

        (5)

        小波變換是Gabor濾波器函數(shù)與原始圖像I的卷積,為

        (6)

        上式中,Uh和Ul分別為設(shè)計(jì)頻段的上界和下界。

        1.1.2 人臉表情SIFT特征

        人眼幾乎能夠在任何尺度下識(shí)別出物體,而計(jì)算機(jī)難以直接識(shí)別不同尺度下的物體圖像。SIFT是一種特征提取方法,它解決了目標(biāo)在圖像旋轉(zhuǎn)、縮放、平移、光照、遮擋、雜物場景等因素下的影響。SIFT主要步驟為尺度空間的極值檢測、特征點(diǎn)定位、特征方向賦值和特征點(diǎn)描述。

        SIFT在構(gòu)建尺度空間時(shí),采用高斯核函數(shù)進(jìn)行濾波。尺度空間表示為

        L(x,y,σ)=G(x,y,σ)*I(x,y)

        (7)

        式中:I(x,y) 為原始圖像,σ是空間尺度因子,控制尺度的大小,尺度越大越凸顯人臉圖像全局特征,越小越凸顯人臉細(xì)節(jié)特征。高斯函數(shù)G表示為

        (8)

        式中:xm,xn表示高斯模糊的維度,決定于σ值。xm,xn是人臉表情照片像素的位置。

        高斯拉普拉斯算子(Laplace of Gaussian,LoG)在檢測圖像特征點(diǎn)時(shí),準(zhǔn)確性較高,但運(yùn)算量過大。采用差分高斯(difference of Gaussian,DoG)近似計(jì)算LoG為

        D(x,y,σ)=[G(x,y,kσ)-G(x,y,σ)]*I(x,y)=L(x,y,kσ)-L(x,y,σ)

        (9)

        DoG可以實(shí)現(xiàn)空間極值的檢測,查找特征點(diǎn),具體如下。尺度空間二次泰勒展開式為

        (10)

        (11)

        將最小值和主曲率作為閾值,剔除圖像中平滑區(qū)域內(nèi)不穩(wěn)定的邊緣點(diǎn)和對比度小的特征點(diǎn)。

        在尺度不變的情況下,對剩下所有特征點(diǎn)選取一個(gè)窗口,求解窗口內(nèi)特征點(diǎn)梯度向量的幅值mg(x,y) 和方向θg

        (12)

        (13)

        利用表情梯度直方圖確定特征點(diǎn)局部的穩(wěn)定方向。通過特征點(diǎn)位置、尺度和方向確定SIFT的特征區(qū)域。特征描述可通過校正旋轉(zhuǎn)方向,生成描述子和特征向量歸一化實(shí)現(xiàn)。

        1.2 人臉表情特征降維方法

        1.2.1 主成分分析降維

        主成分分析(PCA)是一種廣泛使用的方法,其目的是保證在信息盡可能不丟失情況下,對特征降維,所以它的輸出維數(shù)線性近似小于輸入維數(shù)。PCA中輸入數(shù)據(jù)向投影面進(jìn)行投影,使得每個(gè)主成分的方差最大,核心步驟是特征去中心化和求解協(xié)方差矩陣。對于第i張人臉表情圖片的像素信息xi,N張人臉表情圖像樣本的均值為

        (14)

        (15)

        協(xié)方差矩陣的一個(gè)特征向量對應(yīng)一個(gè)投影面,特征向量對應(yīng)的特征值是原始特征投影后的方差值。PCA降維最終所需結(jié)果是最大特征值對應(yīng)的特征向量。

        雖然PCA在計(jì)算上要求不高,但它不能模擬高維數(shù)據(jù)中的非線性變量。KPCA可以模擬非線性變量[11],該方法使用不同的內(nèi)核將輸入投影到非線性特征空間。KPCA最常用的內(nèi)核是高斯核、多項(xiàng)式核和雙曲正切核。然而,隨著數(shù)據(jù)點(diǎn)數(shù)的增加,KPCA內(nèi)核矩陣呈現(xiàn)二次增長,矩陣的特征值分解在計(jì)算上將變得困難。

        1.2.2 線性判別分析降維

        另一種有監(jiān)督線性降維算法是LDA,其可等價(jià)為計(jì)算系數(shù)w的線性優(yōu)化問題,目標(biāo)是使投影后的類間方差與類內(nèi)方差比最大,即類間方差最大,類內(nèi)方差最小。目標(biāo)函數(shù)為

        (16)

        式中:SB是人臉表情類間方差,SW是人臉表情類內(nèi)方差,上標(biāo)T代表轉(zhuǎn)置。

        數(shù)據(jù)集D={(x1,y1),(x2,y2),…,(xm,ym)}, 其中xi為n維向量,yi∈{C1,C2,…,Ck} 是類Ci集合里的一類。人臉表情類間方差和人臉表情類內(nèi)方差為

        (17)

        (18)

        式中:Nj是人臉表情第j類樣本的個(gè)數(shù)。μj為人臉表情第j類樣本的均值,Xj為人臉表情第j類樣本的集合,x為n維樣本數(shù)據(jù)。

        LDA也是一種運(yùn)用很廣的降維方法,但它也有其局限性。出于分類的目的,當(dāng)數(shù)據(jù)分布是非高斯分布時(shí),LDA將不能保留數(shù)據(jù)的復(fù)雜結(jié)構(gòu)。

        2 改進(jìn)深度信念網(wǎng)絡(luò)

        2.1 傳統(tǒng)深度信念網(wǎng)絡(luò)

        玻爾茲曼機(jī)(restricted Boltzmann machines,RBM)可見層和隱藏層的層間和層內(nèi)均有連接,不利于計(jì)算。可見層和隱藏層只存在層間無向加權(quán)全連接的玻爾茲曼機(jī)稱為RBM,其結(jié)構(gòu)如圖1所示。圖1中,觀察值用可見層單元表示稱為顯元,用于接受輸入。隱藏層單元稱為隱元,用于提取特征,故又稱為特征檢測器。

        圖1 受限玻爾茲曼機(jī)結(jié)構(gòu)

        傳統(tǒng)DBN是由多層RBM組成的網(wǎng)絡(luò),其訓(xùn)練過程包括一個(gè)預(yù)處理階段和微調(diào)階段。每個(gè)RBM都是以無監(jiān)督方式預(yù)訓(xùn)練,一層的輸出是下一層的輸入。

        RBM兩層聯(lián)合分布相關(guān)的能量函數(shù)為

        (19)

        式中:bi是可見層閾值,aj是隱藏層閾值,V和H分別是可見層和隱藏層的單元數(shù)量,wij是可見單元i和隱藏單元j之間的權(quán)重,vi和hj是單元的二進(jìn)制狀態(tài),v和h是包含它們的列向量。可見層單元h和隱藏層單元v的聯(lián)合概率為

        (20)

        式中:Z是歸一化因子,具體為

        (21)

        可見層單元v的邊緣分布為

        (22)

        隱藏層單元h的邊緣分布為

        (23)

        可見層單元v狀態(tài)給定時(shí),隱元狀態(tài)為1的后驗(yàn)概率為

        (24)

        隱藏層單元h狀態(tài)給定時(shí),顯元狀態(tài)為1的后驗(yàn)概率為

        (25)

        兩種后驗(yàn)概率都滿足sigmoid激活函數(shù)σ。采用對比散度的學(xué)習(xí)算法訓(xùn)練網(wǎng)絡(luò)。對比散度的學(xué)習(xí)規(guī)則為

        W′=W+ε[p(h=1|v)vT-p(h′=1|v′)v′T]

        (26)

        b′=b+ε(v-v′)

        (27)

        a′=a+ε[p(h=1|v)-p(h′=1|v′)]

        (28)

        式中:ε是學(xué)習(xí)效率。可見層v重構(gòu)后用v′表示,隱藏層h重構(gòu)后用h′表示。b和a是閾值的矢量形式,W是所有權(quán)值wij的矩陣表達(dá)式。b′和a′是經(jīng)過學(xué)習(xí)調(diào)整后的閾值矢量形式,W′是權(quán)值經(jīng)過學(xué)習(xí)調(diào)整后的矩陣形式。

        DBN可由L層RBM(參數(shù)為W(l)、a(l)和b(l)(1≤l≤L)) 堆疊構(gòu)成。這種網(wǎng)絡(luò)可逐層訓(xùn)練,因?yàn)槊恳粚庸?jié)點(diǎn)在給定前或后一層參數(shù)的情況下彼此條件獨(dú)立。

        為貫徹落實(shí)習(xí)近平總書記對廣東提出“四個(gè)走在全國前列”要求,加快建立現(xiàn)代財(cái)政制度,建立全面規(guī)范透明、標(biāo)準(zhǔn)科學(xué)、約束有力的預(yù)算制度,全面實(shí)施績效管理,打造“大財(cái)政、大預(yù)算”格局,提升財(cái)政資源配置效率,提升經(jīng)濟(jì)社會(huì)高質(zhì)量發(fā)展保障能力,2018年5月,廣東省印發(fā)實(shí)施了《關(guān)于深化省級預(yù)算編制執(zhí)行監(jiān)督管理改革的意見》,提出十二條改革措施,推動(dòng)預(yù)算編制執(zhí)行監(jiān)督管理改革“兩轉(zhuǎn)變、兩精簡、兩提高”,即通過轉(zhuǎn)變財(cái)政財(cái)政管理重心,轉(zhuǎn)變部門權(quán)責(zé)配置;精簡財(cái)政資金項(xiàng)目審批事項(xiàng),精簡預(yù)算執(zhí)行流程;提高部門、市縣推動(dòng)改革發(fā)展的積極性,提高資金使用效益,為廣東實(shí)現(xiàn)“四個(gè)走在全國前列”目標(biāo)提供堅(jiān)實(shí)的財(cái)政保障。

        2.2 基于共軛梯度算法的有監(jiān)督微調(diào)

        傳統(tǒng)典型DBN是一個(gè)無監(jiān)督學(xué)習(xí)網(wǎng)絡(luò),無需標(biāo)記樣本,但效率較低。而BP算法是有監(jiān)督學(xué)習(xí)網(wǎng)絡(luò),效率較高但需要標(biāo)記樣本。結(jié)合BP算法和DBN優(yōu)勢,即用標(biāo)記樣本數(shù)據(jù)和BP算法對DBN進(jìn)行微調(diào),可以實(shí)現(xiàn)對DBN的改進(jìn)。但是BP算法在鄰近迭代中搜索正交方向,容易在極值點(diǎn)陷入局部極小,且收斂時(shí)間過長。采用共軛梯度算法(CG)對這個(gè)過程進(jìn)行加速,實(shí)現(xiàn)對DBN的改進(jìn)。

        CG核心是將共軛和最速下降法結(jié)合,用已知點(diǎn)的梯度構(gòu)造共軛方向,然后進(jìn)行搜索,找到目標(biāo)函數(shù)的最小點(diǎn)。CG的訓(xùn)練過程可簡化為均方誤差(mean square error,MSE)函數(shù)最小值的求解過程。均方誤差MSE定義為

        MSE=E[(μd-μ)T(μd-μ)]

        (29)

        式中:E表示期望,μd是DBN的理想輸出,即訓(xùn)練人臉表情樣本的真實(shí)類別。μ是DBN的實(shí)際輸出,即預(yù)測的表情樣本類別。此處,CG目標(biāo)是找到DBN最優(yōu)的權(quán)值和閾值。

        在預(yù)處理階段,即被CG調(diào)整前,計(jì)算輸出誤差。在DBN和CG結(jié)合階段,DBN的權(quán)值矩陣調(diào)整方式為

        γk+1=γk+αkβk

        (30)

        式中:β是搜索方向,α是搜索步長,下標(biāo)k和k+1分別代表迭代的前后。步長采用線性搜索技術(shù)搜索,即在γk和βk已知的情況下,沿搜索方向求解MSE(γk+αkβk) 為最小值時(shí)對應(yīng)的αk。 搜索方向初值設(shè)為β0, 具體計(jì)算為

        (31)

        式中: -g0是最速下降方向初值。每次的迭代方向指向上次迭代方向和上次最速下降方向,有

        dk+1=-gk+δkdk

        (32)

        前后兩次的迭代搜索方向必須滿足共軛條件,即βk和βk+1滿足共軛條件。δk是CG的更新參數(shù)。δk影響著CG的具體種類,本文采用Fletcher-Reeves算法有

        (33)

        2.3 改進(jìn)深度信念網(wǎng)絡(luò)的結(jié)構(gòu)和訓(xùn)練

        改進(jìn)的5層DBN結(jié)構(gòu)如圖2所示。本文將人臉表情分為7類,因此分類器需要4個(gè)比特位,則輸出層的節(jié)點(diǎn)數(shù)是4。提取的特征有4種,因此輸入層有兩個(gè)節(jié)點(diǎn)。中間其余層分別有3、3和4個(gè)節(jié)點(diǎn),激活函數(shù)均為sigmoid函數(shù)。輸出節(jié)點(diǎn)使用softmax函數(shù)激活進(jìn)行標(biāo)準(zhǔn)化。該網(wǎng)絡(luò)首先使用對比散度算法以無監(jiān)督的方式進(jìn)行訓(xùn)練;然后,輸出層利用softmax函數(shù)激活來使用帶有標(biāo)記數(shù)據(jù)的BP算法和CG。

        圖2 改進(jìn)的深度信念網(wǎng)絡(luò)的結(jié)構(gòu)

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)集

        擴(kuò)展Cohn-Kanade數(shù)據(jù)庫(CK+)[19]和Radboud人臉數(shù)據(jù)庫(radboud face datebase,RaFD)[20]都經(jīng)常被用來測試面部表情識(shí)別方法,本文將這兩種數(shù)據(jù)庫作為訓(xùn)練樣本。CK+是基于實(shí)驗(yàn)室環(huán)境獲取的,而RaFD數(shù)據(jù)庫包含不同姿勢和注視方向的人臉表情。

        實(shí)驗(yàn)所用CK+數(shù)據(jù)庫由137名志愿者人臉表情視頻幀構(gòu)成,有中性、憤怒、厭惡、恐懼、開心、悲傷和驚喜7類人臉表情。本文在實(shí)驗(yàn)中,CK+數(shù)據(jù)庫每一類表情選取200幅圖像,共使用了1400幅表情圖像,圖像分辨率為720×576像素。本文實(shí)驗(yàn)所用RaFD數(shù)據(jù)庫由67名志愿者8種不同表情的圖像組成。本文將不考慮RaFD中蔑視表情情況,剩余7種人臉表情和CK+數(shù)據(jù)庫類型一致,各表情分別取200幅圖像,共使用了1400幅表情圖像。同時(shí)剩余7種表情僅考慮了120°、90°和60°這3個(gè)拍攝角度的樣本,各表情正面人臉圖像選取80幅分辨率為125×160像素,其它姿態(tài)分別選取60幅圖像分辨率為284×284像素。兩個(gè)數(shù)據(jù)集上,各表情選取150幅圖像作為訓(xùn)練樣本集,剩余圖像作為測試樣本集。RaFD數(shù)據(jù)庫中正面人臉圖像選取70幅圖像,其它姿態(tài)選取40幅作為訓(xùn)練樣本集。兩個(gè)數(shù)據(jù)集上的面部表情圖像示例如圖3所示。

        圖3 兩個(gè)數(shù)據(jù)集上的面部表情圖像示例

        3.2 評論指標(biāo)

        識(shí)別準(zhǔn)確率和識(shí)別速度是人臉表情識(shí)別的重要評價(jià)指標(biāo)。識(shí)別準(zhǔn)確率是所測試樣本集中正確識(shí)別表情樣本數(shù)和所測試集樣本總數(shù)的比值,可以表示為

        (34)

        式中:A是識(shí)別準(zhǔn)確率,g是指示函數(shù),xb是測試的樣本,f(xb) 是網(wǎng)絡(luò)的輸出值,yb是樣本的標(biāo)準(zhǔn)類別,p表示測試樣本集內(nèi)總的樣本數(shù),==是邏輯判斷是否相等。

        表情識(shí)別速度是單個(gè)測試樣本所花費(fèi)的平均時(shí)間。可以表示為

        (35)

        式中:T表示測試樣本集花費(fèi)的總時(shí)間。

        3.3 識(shí)別率比較

        表1是各種降維算法下改進(jìn)DBN網(wǎng)絡(luò)人臉表情的識(shí)別率對比結(jié)果。使用降維方法將嘴部Gabor小波特征、眼部Gabor小波特征、嘴部SIFT特征和眼部SIFT特征投影到低維空間。表1中二維和五維是執(zhí)行降維后的維數(shù)。

        表1 不同降維方法下改進(jìn)DBN對CK+數(shù)據(jù)庫的識(shí)別率

        當(dāng)本文方法與降維方法PCA、KPCA、LLE、Isomap和t-SNE聯(lián)合對人臉表情識(shí)別時(shí),二維和五維識(shí)別率是相似的。PCA和KPCA均采用高斯核函數(shù),PCA貢獻(xiàn)率取98%。采用LDA降維方法和改進(jìn)DBN時(shí),與五維相比,二維識(shí)別率顯著提高,且降維后的嘴部SIFT特征識(shí)別率為99.31%,性能表現(xiàn)出良好,嘴部Gabor小波變換識(shí)別率也達(dá)89.68%。

        此外,基于PCA降維比KPCA降維識(shí)別率高,PCA集中了原始特征的大部分信息。LLE、Isomap和t-SNE的嘴部SIFT特征相比于其它特征具有較高準(zhǔn)確率,眼部SIFT與眼部Gabor小波準(zhǔn)確率相近。綜合SIFT和Gabor小波變換的準(zhǔn)確率,SIFT優(yōu)于Gabor小波變換。降維后的嘴部特征比眼部特征更有效地分類人臉表情。

        3.4 混淆矩陣

        圖4是CK+數(shù)據(jù)庫人臉表情眼部SIFT、嘴部SIFT、眼部Gabor小波和嘴部Gabor小波特征的混淆矩陣測試。圖4中主對角線元素?cái)?shù)值代表了人臉表情識(shí)別的準(zhǔn)確率,非主對線元素?cái)?shù)值代表了不同人臉表情的混淆率,同一表情的準(zhǔn)確率與混淆率之和等于1。圖4中使用的是LDA降維后的人臉表情特征,改進(jìn)DBN使用的是65%標(biāo)記人臉表情樣本數(shù)據(jù)和35%未標(biāo)記人臉表情樣本數(shù)據(jù)。

        圖4 改進(jìn)的DBN對CK+數(shù)據(jù)庫識(shí)別的混淆矩陣

        從圖4(a)中可知,眼部SIFT特征的情況下,悲傷、厭惡和中性的表情是無法被準(zhǔn)確分類的。從圖4(b)可知,在嘴部SIFT特征的情況下,改進(jìn)DBN具有較高的準(zhǔn)確度,只在恐懼時(shí)出現(xiàn)2%的混淆。從圖4(c)可知,眼部Gabor小波變換特征僅在驚喜和厭惡的人臉表情出現(xiàn)混淆,而圖4(d)中的嘴部Gabor小波變換特征在所有情況下都有良好的準(zhǔn)確度。

        對比圖4(c)和圖4(d)可知,嘴部Gabor小波變換特征的整體識(shí)別率高于眼部SIFT特征和Gabor小波變換特征。在4個(gè)特征中,嘴部SIFT特征具有最低混淆特征,具體為98%的恐懼、99%的開心和100%的其余人臉表情識(shí)別率。綜上,降維后的嘴部特征更適合人臉表情識(shí)別的應(yīng)用。

        3.5 基于維度的性能評估

        圖5是改進(jìn)DBN在降維前后人臉表情識(shí)別性能比較,圖中前排圓柱代表的是降維前識(shí)別率,后排長方體代表的是降維后識(shí)別率。通過圖5可知降維后,對于眼部SIFT特征,測試準(zhǔn)確率從36.84%提高至67.32%;對于嘴部SIFT特征,測試準(zhǔn)確率從71.47%提高至99.87%;對于眼部Gabor小波特征測試準(zhǔn)確率從48.93%提高至84.65%;對于嘴部Gabor小波特征從67.35%提高至92.31%。

        圖5 降維前后改進(jìn)DBN的人臉表情識(shí)別率

        降維后的人臉表情識(shí)別率比降維前顯著提高,嘴部SIFT特征處,改進(jìn)DBN的識(shí)別效果最好。線性判別分析將嘴部SIFT特征的維數(shù)從6048維降低到2維。與高維數(shù)據(jù)相比,低維數(shù)據(jù)能夠更有助于人臉表情的識(shí)別。

        3.6 不同方法下的實(shí)驗(yàn)結(jié)果對比

        圖6比較了改進(jìn)DBN和支持向量機(jī)(support vector machine,SVM)[21]的人臉表情測試誤差,為了更直觀比較不同方法的性能,圖中采用了人臉表情嘴部SIFT特征。SVM采用徑向基函數(shù),最佳懲罰系數(shù)為135。圖6中SVM方法和本文方法曲線分別在測試誤差0.8和0附近震蕩。SVM曲線遠(yuǎn)遠(yuǎn)高于本文方法,則SVM的測試誤差遠(yuǎn)大于本文方法,故本文方法表情識(shí)別率更高。從圖6中可知,采用65%標(biāo)記數(shù)據(jù)和35%未標(biāo)記數(shù)據(jù)時(shí),本文方法每個(gè)特征向量表現(xiàn)出最低的測試誤差。

        圖6 不同標(biāo)記數(shù)據(jù)百分比下改進(jìn)的DBN和SVM對于嘴部SIFT特征的人臉表情測試誤差

        此外,即使使用了全部的標(biāo)記數(shù)據(jù),SVM人臉表情識(shí)別誤差也非常大。因此,與傳統(tǒng)SVM相比,本文方法能夠以較小代價(jià)獲得較好的性能。表2是不同方法識(shí)別人臉表情精度對比情況,表中除了本文方法外,SVM、CNN[14]、基于WGAN的方法[16]和基于GSP的方法[17]均作為對比方法。CNN中卷積核的大小為5×5,卷積核數(shù)量為32,采用最大值池化算法Maxpool,SoftmaxLoss損失函數(shù)。

        表2 不同方法識(shí)別人臉表情精度對比

        本文方法能夠獲得與CNN相當(dāng)?shù)木?,且只需?5%標(biāo)記數(shù)據(jù)來訓(xùn)練網(wǎng)絡(luò),而卷積類方法是監(jiān)督類方法,訓(xùn)練樣本需要全部標(biāo)記。此外,卷積類方法訓(xùn)練時(shí)間更長和內(nèi)存消耗更大。本文方法訓(xùn)練和測試時(shí)間是160.4 s,而卷積類方法需要大約17 832 s。與SVM、基于WGAN的方法和基于GSP的方法相比,本文方法對人臉識(shí)別的精度更高。綜合對比可知,本文方法對人臉表情識(shí)別具有精度高、時(shí)間成本低和內(nèi)存消耗小的優(yōu)點(diǎn)。

        3.7 復(fù)雜度分析

        表3是輸入特征向量不同維度的運(yùn)行時(shí)間,表中訓(xùn)練運(yùn)行時(shí)間為單次周期,考慮了人臉眼部和嘴部不同的特征集,同時(shí)也考慮了不同維度下的訓(xùn)練和測試運(yùn)行時(shí)間。如眼部SIFT特征每個(gè)樣本數(shù)據(jù)的維數(shù)從8642維降到5維再降到2維來訓(xùn)練所提改進(jìn)DBN。由表3可知,降維后的訓(xùn)練時(shí)間和測試更短。如眼部SIFT特征在維度為8642維時(shí)訓(xùn)練時(shí)間和測試時(shí)間分別為1.632 s和0.265 s,在5維時(shí)訓(xùn)練時(shí)間和測試時(shí)間分別為0.0463 s和0.0219 s。

        表3 輸入不同維度特征向量運(yùn)行時(shí)間

        表3中數(shù)據(jù)所用降維技術(shù)是LDA,因?yàn)長DA在準(zhǔn)確性方面表現(xiàn)良好,所以它能夠捕捉到人臉表情識(shí)別所需的重要特征。降維技術(shù)節(jié)省了計(jì)算時(shí)間和內(nèi)存使用,運(yùn)行時(shí)間的顯著減少也表明了其降維相關(guān)性。

        4 結(jié)束語

        針對人臉表情識(shí)別過程中,BP算法對DBN微調(diào)時(shí)容易陷入極值點(diǎn)局部極小和收斂時(shí)間過長的問題,提出一種改進(jìn)DBN方法,使用共軛梯度算法對原DBN中BP神經(jīng)網(wǎng)絡(luò)處理標(biāo)記人臉表情圖像的過程進(jìn)行加速,從而解決極值點(diǎn)局部極小和收斂時(shí)間過長的問題。本文首先利用不同的特征提取方法對眼部和嘴部特征進(jìn)行提取,然后用不同方法降維。最后本文對改進(jìn)DBN進(jìn)行了實(shí)驗(yàn)驗(yàn)證。驗(yàn)證結(jié)果如下:

        (1)與高維數(shù)據(jù)相比,降維后的人臉表情特征被識(shí)別率更高,訓(xùn)練測試時(shí)間更短。LDA的降維效果比KPCA、LLE、Isomap和t-SNE的降維效果更好;

        (2)嘴部特征比眼部特征更適合人臉表情識(shí)別的應(yīng)用,其中嘴部SIFT特征效果最好;

        (3)與SVM、基于WGAN的方法和基于GSP的方法相比,本文方法準(zhǔn)確率更高。與卷積類方法相比,本文方法訓(xùn)練時(shí)間更短和內(nèi)存消耗更小。

        雖然本文方法識(shí)別人臉表情準(zhǔn)確率或效率相對于其它方法已有較大的提升,但并沒有真正實(shí)現(xiàn)和人類一樣的人臉表情識(shí)別能力,后期針對這一問題還需要進(jìn)一步研究。

        猜你喜歡
        嘴部降維識(shí)別率
        混動(dòng)成為降維打擊的實(shí)力 東風(fēng)風(fēng)神皓極
        車主之友(2022年4期)2022-08-27 00:57:12
        此人為何杠得如此囂張?
        圓號(hào)教學(xué)中嘴部教學(xué)的重要性及訓(xùn)練方法研究
        黃河之聲(2020年19期)2020-12-07 18:32:31
        基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測
        降維打擊
        海峽姐妹(2019年12期)2020-01-14 03:24:40
        基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識(shí)別率的關(guān)系
        高中素描頭像教學(xué)中提高嘴部刻畫能力的策略探究
        提升高速公路MTC二次抓拍車牌識(shí)別率方案研究
        基于Horn-Schunck光流法的多目標(biāo)反芻奶牛嘴部自動(dòng)監(jiān)測
        高速公路機(jī)電日常維護(hù)中車牌識(shí)別率分析系統(tǒng)的應(yīng)用
        国产精品亚洲片在线观看不卡| 日本高清www无色夜在线视频| 国产精品无码精品久久久| 国产午夜精品久久久久| 日本一区二区三区高清视| 手机看黄av免费网址| 中国猛少妇色xxxxx| 欧美v日韩v亚洲综合国产高清| 亚洲av一区二区在线| 久久久麻豆精亚洲av麻花| 午夜性色一区二区三区不卡视频| 综合三区后入内射国产馆| 日韩少妇无码一区二区免费视频| 蜜桃视频在线免费观看完整版| 24小时在线免费av| 中文字幕人妻熟在线影院 | 久久精品国产福利亚洲av| 精品含羞草免费视频观看| 天天做天天爱天天爽综合网| 亚洲欧美日韩国产综合久| 在线不卡精品免费视频| 国产精品亚洲色婷婷99久久精品 | 国产成人无码av| 亚洲视频毛片| 婷婷色在线视频中文字幕| 久久久精品国产亚洲av网深田| 欧美粗大猛烈老熟妇| 精品熟女少妇免费久久| 国产亚洲av夜间福利在线观看| 99久热在线精品视频观看| 污污污污污污污网站污| 和少妇人妻邻居做爰完整版| 中文乱码字幕精品高清国产| a级毛片100部免费看| 阿v视频在线| 日本a级黄片免费观看| 曰本无码人妻丰满熟妇啪啪| 精选麻豆国产AV| 最近中文字幕精品在线| 国产精品成人3p一区二区三区| 国内精品一区视频在线播放|