亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

卷積神經(jīng)網(wǎng)絡(luò)在表情識別上的研究綜述

2022-04-12 01:52:51趙宣棟陳曦

計算機(jī)時代 2022年4期

關(guān)鍵詞：卷積神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)深度學(xué)習(xí)

趙宣棟　陳曦

摘? 要：近年來機(jī)器學(xué)習(xí)和深度學(xué)習(xí)在機(jī)器視覺方面已取得了很大進(jìn)展，表情識別已然成為其中的熱門領(lǐng)域。表情識別的應(yīng)用使得計算機(jī)可以更好的理解人類情緒，具有較高的研究價值和應(yīng)用前景。本文歸納了表情識別領(lǐng)域常用公開數(shù)據(jù)集;介紹了表情識別的基本流程與常見方法，以及不同卷積神經(jīng)網(wǎng)絡(luò)在表情識別方面的方法研究與分析;針對表情識別領(lǐng)域現(xiàn)存問題和未來發(fā)展進(jìn)行了分析總結(jié)。

關(guān)鍵詞：表情識別; 卷積神經(jīng)網(wǎng)絡(luò); 機(jī)器學(xué)習(xí); 深度學(xué)習(xí)

中圖分類號：TP391.41? ? ? ? ? 文獻(xiàn)標(biāo)識碼：A? ? ? ?文章編號：1006-8228（2022）04-01-04

Research of convolutional neural network in expression recognition

Zhao Xuandong Chen Xi

（1. School of Computer Science and Information Engineering， University of Harbin Normal University， Harbin， Heilongjiang 150000， China;

2. Zhengzhou University of light industry， College of computer and communication engineering）

Abstract： In recent years， machine learning and deep learning have made great progress in machine vision， and expression recognition has become a hot field. The application of expression recognition makes computer better understand human emotion， which has high research value and application prospect. In this paper， the common public data sets in the field of expression recognition are summarized; the basic process and common methods of expression recognition， as well as the research and analysis of facial expression recognition based on different convolutional neural networks are introduced; the existing problems and future development in the field of expression recognition are analyzed and summarized.

Key words： facial expression recognition; convolutional neural network; machine learning; deep learning

0 引言

19世紀(jì)，達(dá)爾文[1]第一次提出對表情進(jìn)行研究，直到現(xiàn)在對表情的研究仍在繼續(xù)。1969年，Ekman等[2]人通過深刻的研究將人的表情詳細(xì)劃分，建立了面部動作編碼系統(tǒng)，這一系統(tǒng)對之后的研究影響深遠(yuǎn)。在Ekman的面部動作編碼系統(tǒng)基礎(chǔ)上，很多學(xué)者通過將人臉劃分為多個動作單元，再組合一個或多個動作單元，來描述人的面部動作，進(jìn)而對人臉面部細(xì)微表情進(jìn)行檢測。目前，表情識別不僅廣泛地使用在司法、臨床、治安等領(lǐng)域，也引起了社會媒體和科學(xué)界[3]的廣泛關(guān)注。

1 基于卷積神經(jīng)網(wǎng)絡(luò)的表情識別研究與進(jìn)展

1.1 表情數(shù)據(jù)集

人的表情并非單一的，所以收集數(shù)據(jù)集時很難保證每個表情都具有單一性，加之收集時受外界條件影響較大，而非專業(yè)人員又難以準(zhǔn)確鑒別，因此專業(yè)性的表情數(shù)據(jù)集數(shù)量較少[4]，詳細(xì)數(shù)據(jù)集情況如表1所示。

1.2 基于LeNet-5模型的表情識別

20世紀(jì)末，LeCun研究團(tuán)隊開發(fā)了第一個卷積神經(jīng)網(wǎng)絡(luò)模型--LeNet-5模型[5]。該模型適合用于字符識別，如果想要使用LeNet-5模型對表情來識別，需要對嘴巴、眼睛以及其他面部皺紋的細(xì)微變化分別進(jìn)行識別，因此需要大量的特征圖像。同時，由于其網(wǎng)絡(luò)結(jié)構(gòu)過于復(fù)雜，且對硬件配置要求過高，導(dǎo)致訓(xùn)練時間過長，所以其實(shí)用性，性價比較低。因此，在實(shí)驗(yàn)中一般使用改進(jìn)后的LeNet-5模型，增加C1和S1層的特征圖數(shù)量，降低C3和S4層的特征圖數(shù)量，僅保留一個全連接層。

改進(jìn)的LeNet-5的優(yōu)點(diǎn)是可用于實(shí)際自然場景下和非證明的表情識別，其正確率和有效率遠(yuǎn)遠(yuǎn)高于LeNet-5模型，并且隨著訓(xùn)練次數(shù)的不斷增加，每批樣本的損失函數(shù)會逐漸下降，最終逐漸趨于平緩。當(dāng)訓(xùn)練達(dá)到38000次左右時，損失函數(shù)的變化就會小于0.001。但是，由于需要更多特征圖來檢測面部表情的細(xì)微變化，因此，需要更長時間來計算卷積，所以改進(jìn)后的LeNet-5訓(xùn)練時間會相對較長。

1.3 基于AlexNet模型的表情識別

相比于LeNet-5網(wǎng)絡(luò)，AlexNet網(wǎng)絡(luò)有很大的改進(jìn)，主要體現(xiàn)在GPU訓(xùn)練，通過將網(wǎng)絡(luò)擴(kuò)展在兩個GPU上進(jìn)行訓(xùn)練，加速網(wǎng)絡(luò)訓(xùn)練速度和加深網(wǎng)絡(luò)的層數(shù)，且將原LeNet-5網(wǎng)絡(luò)的7層擴(kuò)展到11層。加深網(wǎng)絡(luò)的深度可以增進(jìn)訓(xùn)練速度，但是同樣也暴露出Sigmoid激活函數(shù)存在的問題。據(jù)研究數(shù)據(jù)顯示，當(dāng)網(wǎng)絡(luò)深度隨著需求增加時，Sigmoid激活函數(shù)出現(xiàn)明顯的梯度彌散。為解決這一問題，AlexNet網(wǎng)絡(luò)選擇放棄Sigmoid激活函數(shù)，改用Relu激活函數(shù)。除此之外，AlexNet網(wǎng)絡(luò)新加了LRN層[6]，從而促進(jìn)了大的響應(yīng)神經(jīng)元，抑制了反饋小的神經(jīng)元，同時提高了模型的泛化能力。此外，該模型也利用大量的ImageNet和Dropout機(jī)制來減少過擬合情況。7342C20B-B95E-461D-9C3C-9DD9AA43235D

1.4 基于VGGNet模型的表情識別

VGGNet[7]是由Google Deep Mind團(tuán)隊和牛津大學(xué)合作完成的，可以說是 AlexNet的高配加深版。與AlexNet模型相比，VGGNet通過不斷增加網(wǎng)絡(luò)層數(shù)，發(fā)現(xiàn)了神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)深度對模型性能產(chǎn)生的直接影響。VGGNet的卷積核采用小而多的形式，使用了三個3×3的卷積核，而不是一個大的卷積核。這樣做的好處是既增大了網(wǎng)絡(luò)的深度，也沒有加大運(yùn)算量。在相同的感受野下，可得到更為精密高效的計算結(jié)果。此外，VGGNet具有較強(qiáng)的場景遷移性，在任何場景與環(huán)境上都具有較強(qiáng)的泛化能力。

VGGNet與同時推出的GoogleNet都是在AlexNet網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上改進(jìn)而得到，它們共同的特點(diǎn)就是“深度”[8]。GoogleNet模型的突出點(diǎn)在于模型結(jié)構(gòu)，而VGGNet更注重網(wǎng)絡(luò)深度。與GoogleNet相比，VGGNet使用三個3×3的卷積核，使原始圖像的感受野達(dá)到一個7×7的卷積核的效果，但是與一個7×7的卷積核相比，圖像經(jīng)過3次激活函數(shù)的非線性變換具有更好的表達(dá)性，也能夠相對減少參數(shù)量，這也是VGGNet遠(yuǎn)超其他網(wǎng)絡(luò)泛化能力的根本原因。在實(shí)驗(yàn)中，將進(jìn)行VGG-16網(wǎng)絡(luò)在Softmax損失+中心性損失+人臉驗(yàn)證損失和三元組損失兩種不同訓(xùn)練下的性能統(tǒng)計。在兩種損失信號都能達(dá)到99.2%的情況下，用VGG-16進(jìn)行表情識別時，同樣以RAF-DB和CK+作為數(shù)據(jù)集，其正確率可以分別達(dá)到67.06%和91.10%。

1.5 基于GoogleNet模型的表情識別

GoogLeNet相對于其他卷積神經(jīng)網(wǎng)絡(luò)來說，是較為新的卷積神經(jīng)網(wǎng)絡(luò)算法。首次提出是在ILSVRC14比賽上，GoogLeNet是一個深達(dá)22層的深層網(wǎng)絡(luò)[9]。GoogLeNet的研究核心是如何優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)的局部稀疏結(jié)構(gòu)，使其盡可能的接近實(shí)際密集內(nèi)容。

在GoogLeNet中，每個模塊的輸入都是在上一個分支在獲得一個特征映射后，將這些相同比例的特征映射拼接在一起，再傳遞給該模塊。為避免模塊的對齊問題，Inception結(jié)構(gòu)采用了不同尺度的嵌套低維濾波器，可以保留多個感受野的局部相關(guān)信息。在這種情況下研究發(fā)現(xiàn)，使用5*5的卷積核仍然會給程序帶來巨大的計算量。為解決這個問題，GoogLeNet選擇了與VGGNet完全不同的方法，通過在每個分支上加一個1×1的卷積核，來有效的減少參數(shù)數(shù)量。

與AlexNet和VGG不同的是，Inception V1用全局平均池化層代替全連接層，這一改進(jìn)將參數(shù)的數(shù)量減少到前所未有的少量，但研究人員可以添加全連接層來微調(diào)和再訓(xùn)練，以便在其他模式識別場景中使用;其次，為了解決網(wǎng)絡(luò)深度過深造成的梯度消失現(xiàn)象，Inception V1額外增加了兩個分類器層，反向傳播使用多個損失信號進(jìn)行參數(shù)梯度計算;最后Inception V3基于NIN思想的精髓，設(shè)計了一個精細(xì)的Inception模塊，以提高網(wǎng)絡(luò)參數(shù)的利用率。

在實(shí)驗(yàn)時我們使用CK+數(shù)據(jù)集進(jìn)行擴(kuò)充，進(jìn)行預(yù)處理后進(jìn)行訓(xùn)練，結(jié)果顯示，GoogleNet無論是從頭訓(xùn)練還是微調(diào)的情況下都能夠取得比AlexNet更好的識別效果。

1.6 基于ResNet模型的表情識別

2015年，ResNet [10]在ILSVRC 2015比賽中奪冠，進(jìn)而進(jìn)入大家的視野當(dāng)中。ResNet引入了殘差單元，利用殘差的思想成功訓(xùn)練了深度高達(dá)152層的神經(jīng)網(wǎng)絡(luò)，從此一鳴驚人。為避免深度網(wǎng)絡(luò)中的性能下降，ResNet[10]采用了對網(wǎng)絡(luò)中模塊學(xué)習(xí)目標(biāo)函數(shù)進(jìn)行變換的方法。打個比方，如果輸入n網(wǎng)絡(luò)模塊，那么其他神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)目標(biāo)函數(shù)為H（n），但如果n是直接連接到輸出，那么學(xué)習(xí)目標(biāo)則為H（n）-n，所以只需要學(xué)習(xí)最初學(xué)習(xí)目標(biāo)和網(wǎng)絡(luò)模塊輸入數(shù)量的差值即可，這也是“殘差”的由來，這樣做的最大優(yōu)勢是簡化了學(xué)習(xí)的目標(biāo)數(shù)量和難度，也為超深層網(wǎng)絡(luò)的訓(xùn)練提供了方向。

在兩層殘差學(xué)習(xí)單元模型中，k層直接輸入x1到k+2層輸出，然后將k+2層輸出作為k+3的輸出。而只有維度相同的向量才可以相加，所以在殘差過程中不能進(jìn)行池化操作，并且卷積核數(shù)和輸出數(shù)必須相等，否則就必須使用一個1×1卷積進(jìn)行線性變換。而在第三層殘差學(xué)習(xí)單元模型中，使用了兩個1×1的卷積核，可以通過卷積核的個數(shù)實(shí)現(xiàn)特征圖的降維和升維操作。

2016年，KaimingHe等人提出ResNetV2。該模型易于訓(xùn)練，具有較強(qiáng)的泛化能力。與ResNet相比，ResNetV2將ReLU激活函數(shù)改為同等映射函數(shù)，且在每一層中添加了批量歸一化技術(shù)。

在表情識別中，ResNet網(wǎng)絡(luò)在表情識別數(shù)據(jù)集進(jìn)行訓(xùn)練時，其正確率高達(dá)67.50%和92.21%，比VGGNet和AlexNet都要高出很多，同時其參數(shù)量又遠(yuǎn)小于其他經(jīng)典網(wǎng)絡(luò)。

2 存在的問題及發(fā)展趨勢

2.1 存在的問題

⑴ 缺乏對現(xiàn)實(shí)人類的研究。表情識別研究所用數(shù)據(jù)集絕大部分為基本表情數(shù)據(jù)集，雖然在這一方面取得了不小進(jìn)展，但是由于人的表情是多變和復(fù)雜的，所以絕大部分研究成品都無法應(yīng)用到現(xiàn)實(shí)中。

⑵ 面部表情數(shù)據(jù)嚴(yán)重不足。現(xiàn)在已有的表情數(shù)據(jù)庫中每個表情的數(shù)據(jù)都比較少，而且都非?？桃?，表情流露不自然，與自然境況下的表情存有一定的差異，難以成為十分精確有效的數(shù)據(jù)，并且其中的動態(tài)序列圖像更是嚴(yán)重缺乏。

⑶ 研究場所多為實(shí)驗(yàn)室，缺少真實(shí)情況下的訓(xùn)練。表情識別的研究絕大部分是在理想適合的條件下進(jìn)行的。但是由于自然環(huán)境下會出現(xiàn)遮擋物體、遮擋人臉，不同時間亮度不同，以及周圍環(huán)境等其他的情況，都會對面部表情識別結(jié)果產(chǎn)生較大的影響，最終導(dǎo)致實(shí)際結(jié)果與實(shí)驗(yàn)結(jié)果有所不同。

⑷ 當(dāng)前表情識別多數(shù)僅能在單一表情情況下識別。人類表情是豐富多彩的，每種表情之間的界限與區(qū)別都是模糊的，就像一個人的圖片是睜大眼睛的，這有可能代表害怕，也有可能代表驚喜或驚奇。7342C20B-B95E-461D-9C3C-9DD9AA43235D

⑸ 不同人的臉部存在差異。在同種人的情況下，由于每個人的民族、年齡、生長條件等因素都會影響到識別的正確性。且不同種族下人的習(xí)慣又存在差異，導(dǎo)致人臉很難使用統(tǒng)一的模型來歸類，增加了識別難度。

2.2 發(fā)展趨勢

⑴ 研究新的更加高效，更加精準(zhǔn)的識別算法。一個新的高效算法可以有效增加識別效率和降低識別時間，可以更大范圍的應(yīng)用到各個場景當(dāng)中。

⑵ 加強(qiáng)三維立體面部表情識別的研究。與二維圖像相比，三維立體圖像更接近于真實(shí)環(huán)境，其能包含更多、更準(zhǔn)確的人臉特征，結(jié)合三維信息可以更好地解決光照亮度等問題。

⑶ 在現(xiàn)實(shí)生活的應(yīng)用。一個人的表情往往可以直接反應(yīng)出其內(nèi)心的心理變化。如果可以把表情識別與心理學(xué)、神經(jīng)科學(xué)、犯罪學(xué)等學(xué)科結(jié)合，那么對于社會發(fā)展與治安將會產(chǎn)生巨大效益。

卷積神經(jīng)網(wǎng)絡(luò)的適用范圍越來越廣，可處理的數(shù)據(jù)越來越多，其模型層數(shù)也從幾層變?yōu)樯习賹?。本文對比和總結(jié)了熱門模型情況。如表2所示。

3 結(jié)束語

算法在不斷改進(jìn)，而卷積神經(jīng)網(wǎng)絡(luò)依然是計算機(jī)視覺乃至深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域的主流模型，但是由于人類表情具有多樣性、模糊性等特點(diǎn)，導(dǎo)致真實(shí)情況與研究情況產(chǎn)生誤差。因此，與其他識別相比，表情識別發(fā)展相對較慢，在現(xiàn)實(shí)中的應(yīng)用也較少。但表情識別在臨床醫(yī)學(xué)、人機(jī)交互以及心理分析等方面具有不可代替的地位，具有廣闊的應(yīng)用前景。除此之外，表情識別技術(shù)在理論上已相當(dāng)成熟，但在真實(shí)情況下的識別率和準(zhǔn)確度還有待提高，例如在室外的識別需加大研究力度?？偟膩碚f，卷積神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征提取能力極大地促進(jìn)了表情識別領(lǐng)域的發(fā)展，基于卷積神經(jīng)網(wǎng)絡(luò)的表情識別具有巨大的發(fā)展?jié)摿蛻?yīng)用前景。

參考文獻(xiàn)（References）：

[1] DARWIN C. The expression of the emotions in man and

animals[M]. University of Chicago Press，1965

[2] EKMAN P， Friesen W V. The repertoire of nonverbal

behavior： categories， origins， usage， and coding [J]. Semiotica，1969，1（1）：49-98

[3] SCHUBERT S. A look tells all [J]. Scientific American

Mind， 2006，17（5）：26-31

[4] DAILEY M N， JOYCE C， LYONS M J， et al. Evidence and

a computational explanation of cultural differences in facial expression recognition [J]. Emotion，2010，10（6）：874-893

[5] YANN L C， BOTTOU L， BENGIO Y， et al. Gradient-

based learning applied to document recognition[J]. Proceedings of the IEEE，1998，86（11）：2278-2324

[6] DHALL A， GOECKE R， Lucey S， et al. Collecting Large，

Richly Annotated Facial-Expression Databases from Movies[J].IEEE Multimedia，2012，19（3）：34-41

[7] SIMONYAN K， ZISSERMAN A. Very Deep Convolutional

Networks for Large-Scale Image Recognition[J]. Computer Science，2014，1409（15）：1-9

[8] SZEGEDY C， VANHOUCKE V， IOFFE S， et al. Rethinking

the Inception Architecture for Computer Vision[C]，Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition，2016：2818-2826

[9] HE K， ZHANG X， REN S， et al. Deep Residual Learning

for Image Recognition[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition，2015：770-778

[10] HUANG G， LIU Z， et al. Densely Connected

Convolutional Networks[C]，Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition，2017：4700-47087342C20B-B95E-461D-9C3C-9DD9AA43235D