亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學習的人臉表情特征分析

        2018-06-13 07:52:40余銳
        現(xiàn)代計算機 2018年13期
        關鍵詞:實驗模型

        余銳

        (重慶大學計算機學院,重慶 400044)

        0 引言

        人臉表情(Facial Expression)承載著人與人之間信息交流據(jù)。心里學家A.Mehrabian[1]的研究發(fā)現(xiàn),在人類日常生活中,人臉表情所傳遞的信息量約戰(zhàn)整個信息總量的55%,因此,近些年來對于人臉表情圖像識別的研究也是比較熱門,尤其是對人臉表情特征分析進行歸類的人臉表情識別成為人機交互、計算情感、智能控制、機器視覺、圖像處理及設計模式等領域的重要研究課題。

        我們已熟知的傳統(tǒng)人臉表情識別算法很大一部分集中在基于傳統(tǒng)的圖像處理相關技術,主要基于三步進行實現(xiàn),特征提取、特征選擇、分類器構建來完成識別,可參考朱健翔的基于Gabor特征與AdaBoost人臉表情識別[2],其中特征提取階段主要目的是能夠提取出能夠更好地進行面部表情分析的特征,目前比較成熟的技術包括Gabor小波特征[3-4]和AAM[5],而特征選擇主要集中在高緯度特征向量下降低維度數(shù),可以很大降低存儲量與計算量,其中包括PCA降維和AdaBoost算法。最后分類器構建則有著相對多的方法,其中主要運用到了模式識別中相關技術,包括了基于概率模型的方法,基于支持向量機SVM、基于神經(jīng)網(wǎng)絡的方法模型傳統(tǒng)人臉表情識別流程如圖1所示。

        圖1 傳統(tǒng)表情識別流程圖

        本文所采用的是深度學習技術來進行分臉表情特征分析,有別于之前的神經(jīng)網(wǎng)絡作為分類器算法,神經(jīng)網(wǎng)絡可劃歸淺層的網(wǎng)絡分類器模型中,而深度學習在圖像識別分類這一塊主要是讓機器自動從大量數(shù)據(jù)的樣本中通過深層次的網(wǎng)絡多通道維度學習,使得其能夠在訓練好的模型中體現(xiàn)出泛化表征性。

        1 深度學習和圖像識別

        深度學習是一門綜合性的研究領域,其基礎融合線性代數(shù)、微積分、概率論統(tǒng)計等學科,同樣也是機器學習非監(jiān)督學習領域下的一個分支,由于其在包括圖像識別語音識別及機器翻譯等多方面表現(xiàn)出卓越的效果而流行起來,2006年,神經(jīng)網(wǎng)絡之父Hinton和他學生在頂尖學術刊物Science發(fā)表了一篇使用深層結構的神經(jīng)網(wǎng)絡模型實現(xiàn)數(shù)據(jù)降維的論文[6],主要通過無監(jiān)督預訓練對權值初始化和有監(jiān)督訓練微調來解決了深層網(wǎng)絡訓練中梯度消失問題,由此開啟了深度學習在學術界和工業(yè)界的浪潮。在圖像識別領域一項大賽ImageNet中,廣泛的圖像識別技術通常采用了圖像處理與模式識別相關方法,必須借助SIFT、HoG等算法提取出良好區(qū)分性的特征,再結合SVM等機器學習算法進行圖像識別。

        深度學習有別于普通神經(jīng)網(wǎng)絡模型,其實質就是對具有深層次結構進行建模的方法統(tǒng)稱。深層結構主要針對淺層網(wǎng)絡而言(隱藏層數(shù)大于2),目前常見的模型與架構包括CNN、DBN、RNN、自動編碼器、GAN等,而其中CNN在圖像識別問題上表現(xiàn)出其強勁的性能。

        2 數(shù)據(jù)集選擇和模型設計

        2.1 數(shù)據(jù)集選擇

        人臉表情特征分析技術已經(jīng)發(fā)展了近30年,而數(shù)據(jù)集也隨著研究的進行不斷推進著,起初日本人臉表情數(shù)據(jù)集JAFFE是一個樣本量不大而又經(jīng)典的數(shù)據(jù)集,在前期的人臉表情識別的研究大多數(shù)采用了該數(shù)據(jù)集,整個數(shù)據(jù)庫共213張圖像、共10人,全部是女性,每個人對應表情分為 7種:sad、angry、disgust、fear、neutral;而后面的CK+人臉表情數(shù)據(jù)集合是在Cohn-Kanade Dataset[7]的基礎上擴充來的,發(fā)布于2010年,該數(shù)據(jù)集比JAFFE數(shù)據(jù)集要大很多,其中包含了表情的label和Action units的label,在后期很多人臉表情分析相關的研究都是在該數(shù)據(jù)下進行,而在作為機器學習競賽Kaggle用到的數(shù)據(jù)集FER2013(Facial Expression Recognition 2013)在后期的科研中也多次被運用。

        主要是其滿足了兩大實驗基本要求,首先,圖片數(shù)據(jù)集中已經(jīng)最好保留下了人臉正中的位置,而無需在進行人臉部門的賽選,其次擁有者足夠的樣本量夠模型的訓練,而本文中所用的數(shù)據(jù)集是基于JAFFE人臉表情數(shù)據(jù)集的擴充集Jaffe+來更加豐富網(wǎng)路訓練模型。JAFFE+數(shù)據(jù)庫如圖2所示。

        圖2 JAFFE+人臉表情數(shù)據(jù)庫

        2.2 模型設計

        本文之前也描述CNN網(wǎng)絡模型的基本結構,這里針對本文的實驗來作出更詳細的分析。CNN是一種采用反向傳播算法的前饋式的神經(jīng)網(wǎng)絡,其基本由下面幾個層組成:卷積層、池化層、全連接層、Softmax層。

        卷積層即做卷積操作,這一層也是整個CNN模型中至關重要的一步操作,卷積層主要是將網(wǎng)絡里的劃分的更小塊來進行深入分析而得到抽象程度更高的圖像特性[8]。卷積層的操作的三個關鍵特點就是局部感知、參數(shù)共享以及多核卷積,局部感知就是避免傳統(tǒng)神經(jīng)網(wǎng)絡中每個神經(jīng)元都與圖像中每個像素點連接,而采用卷積核中大小,避免造成權重數(shù)量巨大;參數(shù)共享保證圖像中不同位置相同目標他們的特征是一致的;多核卷積能是每個卷積核學習不同特征從而提取出原始圖中的特征。卷積層的計算公式可表示為:

        其中x[m ,n]表示輸入信號,h[m ,n]表示卷積核函數(shù),在通過卷積運算后會進行激活函數(shù)運算q(?),相比于之前通常采用的sigmoid或tanh,后更多采用能展示稀疏性的 ReLU(Rectified Linear Units)函數(shù)[9]。ReLU函數(shù)表示為:

        θ(x)=max(0,x)

        相關實驗表明ReLU函數(shù)不僅展現(xiàn)出性能上的稀疏特性,而且能夠消除神經(jīng)網(wǎng)絡反向傳播優(yōu)化參數(shù)方面可能出現(xiàn)的梯度消失問題。

        下采樣pooling層(池化層)的主要作用就是降低經(jīng)過卷積處理后圖像的高維度問題,如果直接將多層卷積后的特征去進行分類器訓練,必然會造成維度災難的問題[11],同時也能夠有效避免過擬合情況的發(fā)生。池化層主要由兩種方式:MaxPooling與Mean Pooling,通常一般沒特殊注明情況下就采用MaxPooling即獲取窗口內的最大值保留下來,同時也能夠去除一些哨聲信息的目的。以Tensorflow為例,其中該操作如下:

        max_pooling2d(inputs,pool_size,strides,padding='valid',data_format='channels_last',name=None)

        其中參數(shù)inputs表示tensor張量,pooli_size滑動窗口尺寸,stride代表補償,padding表示以何種方式處理圖像邊緣區(qū)域,通常選擇填充0的方式,name代表這一層的名稱。

        全連接層是將對后池化層每個特征圖從二維數(shù)組轉化成一維,作為全連接層的輸入。每個神經(jīng)元的輸出為:

        tw,b(x)=θ(wTx+b)

        tw,b(x)表示神經(jīng)元的輸出值;wT表示權值特征向量的轉置;x表示輸入特征向量;b表示偏置;同樣θ代表激活函數(shù)這里同樣采用了ReLU函數(shù)。最后的Softmax即分類層,這里采用的概率投票競爭的方式,最后的每個輸出神經(jīng)元輸出會在0~1范圍間表示各自輸出的概率,最后會選取輸出概率最大的作為最后的分類。

        網(wǎng)絡模型訓練階段,這里參考Lenet-5模型,后期大部分網(wǎng)絡模型都集中在網(wǎng)絡層深度的增加,具體訓練的網(wǎng)絡模型結構如下,輸入為由原始的255×255的圖像經(jīng)過圖像壓縮成32×32維度更小也同樣匯聚了原始特征的圖像,這些人臉表情圖像包含了0~6種人臉表情特征,集對應于7種表情類別;輸出即為0~6種的一種表情類別;C1層選取了32個filter即具有不同卷積核的過濾器,其中窗口大小為二維的5×5,步長采用了1,padding方式采用了same使得圖像卷積后輸出的大小保持不變,盡可能維持原始尺寸,針對這步操作需要在外圍補2圈零操,在沒特殊說明的情況下都是采用ReLU作為激活函數(shù);polling下采樣層采用filter為2×2,strides為2的操作MaxPooling操作;針對第二層卷積增加了一倍數(shù)量的filter64個,而后的pooling操作同上一步一樣,最后做扁平化flatten操作,后面全連接,全連接層激活了1024個神經(jīng)元,最后采用Softmax作為分類器函數(shù)。在數(shù)據(jù)樣本不足的情況下通常會出現(xiàn)overfitting(過擬合)情況出現(xiàn),之前的data augmentation操作就防止了過擬合,同樣CNN實驗中采用了dropout策略[10]來解決過擬合問題。

        3 實驗

        本次實驗中所采用的數(shù)據(jù)集來自Jaffe表情數(shù)據(jù)庫中,總共213張圖像,其中一共包含了10個人,每個人對應著由7種表情,每個人特種表情下有4張圖像,針對樣本數(shù)據(jù)量少的情況下符合傳統(tǒng)的圖像分類模式,顯然基于深度學習模式下的樣本數(shù)據(jù)量不足,這里在實驗前期對原始的樣本數(shù)據(jù)量基礎上進行了data augmentation(數(shù)據(jù)增強),數(shù)據(jù)增強有著較多的方式,在深度學習中AG Howard曾在論文[11]對數(shù)據(jù)增強對深度學習整個模型訓練的好處做出詳細論述。這里結合到之前的一些方法采用了以下方式來實現(xiàn):旋轉、裁剪平移、仿射變換以及加入一些高斯噪點,將之前的總共213張圖片擴充到了5323張,具體做法是針對仿射變換擴增了5倍樣本量,對圖像旋轉平移也分別擴增了5倍,針對于噪點共擴充了10倍(分別采用了隨機白噪聲點、加性零均值高斯噪聲),擴充后的數(shù)據(jù)集稱為Jaffe+。

        同樣由于Jaffe數(shù)據(jù)集中是在特定的實驗環(huán)境中進行的數(shù)據(jù)采集,不同光照條件下可能會對特定的人臉特征產(chǎn)生干擾,Jaffe+也同樣受影響,于是光照歸一化處理對于人臉表情特征分析中也是不可缺少的一步,這里主要就集中在采用何種光照歸一化的處理算法上。相關研究中也提供了各式的方法,例如基于二次多項式模型的人臉歸一化[12],基于形態(tài)學商圖像的光照歸一化,基于小波變換的人臉歸一化等,各式的算法運用的場景也有著特定的環(huán)境,而針對于Jaffe數(shù)據(jù)集,經(jīng)過實驗發(fā)現(xiàn)采用均值方差歸一化的處理就能達到目的。以下就是采用了均值方差歸一化消除光照處理后的對比,如圖3所示。

        圖3 消除光照影響前后對比

        經(jīng)過了前期的對Jaffe+數(shù)據(jù)集的圖像進行預處理后,數(shù)據(jù)集測試集、訓練集比例1:6,參考上一章節(jié)訓練好的網(wǎng)絡模型進行實驗,在對比實驗中我們采用了基于Gabor特征提取,隨后進行PCA降維處理,再進行SVM分類器來實現(xiàn)人臉表情識別別,其中Gabor濾波器組采用包含4個尺度,6個方向的濾波器組,SVM采用了“one-vs-one”的策略[13],內核函數(shù)采用 RBF核,同樣實驗也對基于KNN分類器、MLP(多層神經(jīng)網(wǎng)絡)進行了實驗比較,實驗結果如表1所示。

        表1 不同算法在Jaffe+上的識別準確率對比

        由實驗結果知CNN相比于之前的傳統(tǒng)用于識別的策略相比,在整體數(shù)據(jù)集上識別率提高了8%,傳統(tǒng)模型中所采用的方式相對復雜,而CNN將之前的特征提取以及降維處理都集中在一起。結合CNN在人臉表情7分類識別過程中的混淆矩陣,可以看出多種類表情易被誤識別成驚訝,對整個厭惡和中性表情的識別率較低,結果所表2所示。

        4 結語

        本文提出了基于深度學習下的人臉表情特征分析,該方式相比于傳統(tǒng)的人臉表情識別有所改進。主要是減少了前期對圖像的預處理以及人工的進行降維處理,相比于人臉表情識別不是如手寫體數(shù)字識別那么準確率高,主要是其圖像包含著更復雜紋理信息,其中主要體現(xiàn)在各個面部器官之間的復雜關系以及人臉表情在特定環(huán)境下采集的與實驗環(huán)境相關的誤差,實驗結果也顯示出該方法有著較高的識別率和泛化的特性,后期工作中還會對整個CNN網(wǎng)絡層與層之間的關系進行深入研究分析,包括可能從分類器入手或者采取更優(yōu)的策略才優(yōu)化整個CNN網(wǎng)絡結構,從而進一步來提高整個數(shù)據(jù)集下人臉表情的識別率。

        表2 CNN識別混淆矩陣

        [1]Mehrabian A,Russell J A.An Approach to Environmental Psychology[M].Cambridge:MITPress,1974.

        [2]朱健翔,蘇光大,李迎春.結合Gabor特征與Adaboost的人臉表情識別[J].光電子·激光,2006,17(8):993-998.

        [3]Lyons M,Akamatsu S,Kamachi M,et al.Coding Facial Expressions with Gabor Wavelets[C].Automatic Face and Gesture Recognition,1998.Proceedings.Third IEEE International Conference on.IEEE,1998:200-205.

        [4]Lyons M J,Budynek J,Akamatsu S.Automatic Classifica2tion of Single Facial Images[J].IEEE Transactions on Pat2 tern Analysis and Machine Intelligence,1999,21(12):135721362.

        [5]王李冬,王玉槐.基于AAM模型和RS-SVM的人臉識別研究[J].計算機工程與應用.

        [6]Hinton G E,Salakhutdinov R R.Reducing the Dimensionality of Data with Neural Networks[J].Science,2006,313(5786):504-507.

        [7]Lucey P,Cohn J F,Kanade T,et al.The Extended Cohn-Kanade Dataset(CK+):A Complete Dataset for Action Unit and Emotion-Specified Expression[C].Computer Vision and Pattern Recognition Workshops(CVPRW),2010 IEEE Computer Society Conference on.IEEE,2010:94-101.

        [8]Simonyan K,Zisserman A.Very Deep Convolutional Networks for Large-Scale Image Recognition[J].arXiv Preprint arXiv:1409.1556,2014.

        [9]Nair V,Hinton G E.Rectified Linear Units Improve Restricted Boltzmann Machines[C].Proceedings of the 27th International Conference on Machine Learning(ICML-10),2010:807-814.

        [10]Srivastava N,Hinton G,Krizhevsky A,et al.Dropout:A Simple Way to Prevent Neural Networks from Overfitting[J].The Journal of Machine Learning Research,2014,15(1):1929-1958.

        [11]Howard A G.Some Improvements on Deep Convolutional Neural Network Based Image Classification[J].Computer Science,2013.

        [12]謝曉華,賴劍煌,鄭偉詩.基于二次多項式模型的人臉光照歸一化[J].電子學報,2010,38(8):1791-1797.

        [13]Duan K B,Keerthi S S.Which is the Best Multiclass SVM Method?An Empirical Study[C].International Workshop on Multiple Classifier Systems.Springer,Berlin,Heidelberg,2005:278-285.

        猜你喜歡
        實驗模型
        一半模型
        記一次有趣的實驗
        微型實驗里看“燃燒”
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        做個怪怪長實驗
        3D打印中的模型分割與打包
        NO與NO2相互轉化實驗的改進
        實踐十號上的19項實驗
        太空探索(2016年5期)2016-07-12 15:17:55
        FLUKA幾何模型到CAD幾何模型轉換方法初步研究
        毛片a级毛片免费观看| 一区二区三区观看视频在线| 国产一区二区三区在线蜜桃| 欧美人伦禁忌dvd放荡欲情| 韩国三级中文字幕hd久久精品| 久久久久久免费播放一级毛片| 亚洲第一女优在线观看| 欧美亚洲一区二区三区| 99久久精品费精品国产一区二区| 熟妇无码AV| 日韩伦理av一区二区三区| 久久夜色精品国产亚洲av动态图| 久久精品人人做人人综合| 激情人妻在线视频| 麻豆av毛片在线观看| 成人无码一区二区三区| 国产成人免费一区二区三区| 国产亚洲美女精品久久| 日本午夜a级理论片在线播放| 野花香社区在线视频观看播放| 久久精品人人做人人爽电影蜜月 | 亚洲不卡免费观看av一区二区| 日韩人妻无码一区二区三区久久| 日韩精品无码一区二区三区免费| 国产高清女人对白av在在线| 亚洲国产中文字幕精品| 亚洲成av人片在线观看www| 国产欧美va欧美va香蕉在线观 | av永久天堂一区二区三区| 18禁免费无码无遮挡网站| 国产一区二区三区色区| 国产综合精品久久99之一| 啪啪无码人妻丰满熟妇| 国产亚洲欧美日韩国产片| 亚洲福利二区三区四区| 一本本月无码-| 亚洲成AⅤ人在线观看无码| 日韩精品午夜视频在线| 男女猛烈无遮挡免费视频| 久久99精品久久久久久久清纯| 成人黄网站免费永久在线观看|