亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于改進AlexNet模型的面部表情識別算法研究

2023-07-14 08:30:46孫歌王劍雄歐琪等

計算機應(yīng)用文摘·觸控 2023年12期

關(guān)鍵詞：深度學習

孫歌王劍雄歐琪等

摘要：面部表情是傳遞人類情感狀態(tài)最直觀的方式，通過分析面部表情，可以獲得某人在某時剖的精神和身體狀況。表情識別在人機通信、自動駕駛、醫(yī)學等應(yīng)用領(lǐng)域有著重要的應(yīng)用價值，并且受到越來越多的關(guān)注。隨著深度學習技術(shù)的發(fā)展，表情識別技術(shù)研究也從常規(guī)的圖像處理方法轉(zhuǎn)變?yōu)椴捎蒙疃葘W習的方法，但是由于樣本數(shù)量有限，以及硬件設(shè)備的限制，使得提高表情識別準確率的方法受到了一定的限制。文章主要對改進ALEXNET模型的表情識別算法進行研究，由于ALEXNET在人臉面部表情識別中準確率較低，因此在對ALEXNET網(wǎng)絡(luò)進行深入研究的基礎(chǔ)上，通過修改卷積核的大小以及卷積層的數(shù)量，增加注意力機制和殘差塊．以提高網(wǎng)絡(luò)對人臉特征的提取能力，并將改進后的AlcxNct模型應(yīng)用于CK+及jAFFE數(shù)據(jù)集，進而在該數(shù)據(jù)集上取得了較好的識別準確率。

關(guān)鍵詞：表情識別；AlcxNct；深度學習；卷積層

中圖法分類號：TP391 文獻標識碼：A

１引言

隨著科學技術(shù)的進步，深度神經(jīng)網(wǎng)絡(luò)現(xiàn)已被應(yīng)用于自動面部表情識別，從實驗室控制到野外環(huán)境，其應(yīng)用越來越廣闊。面部表情是人類最直接、最容易感知的信號之一，可以幫助人們更好地理解、表達情感和意圖。隨著社會自動化機器人、醫(yī)學、駕駛員疲勞檢測等人機交互信息系統(tǒng)的發(fā)展，面部表情自動分析已成為一種重要的技術(shù)手段，并受到廣泛的關(guān)注。機器可視化和機器學習方法也在發(fā)展，它們可以從面部表征中提取出有用的信息，從而實現(xiàn)對人臉的準確識別。２０世紀初，ＥＫＭＡＮ等［１］進行跨文化分析，提出了６種主要情感，這些情感可以被界定為憤慨、憎恨、驚恐、愉快、悲痛和震驚，表明不論文化背景如何，人們對這些情況的感知方式都是一致的。

在當今深度學習技術(shù)發(fā)展迅速的背景下，傳統(tǒng)分析方法和深度學習分析方法已經(jīng)是表情分析技術(shù)的２個重要方向。深度學習技術(shù)憑借自身強大的特征提取能力和自學習能力已在表情識別領(lǐng)域彰顯出巨大潛力。因此，在表情識別中應(yīng)用深度學習技術(shù)進行特征提取取代手工特征提取已逐漸成為主流，也是當今技術(shù)發(fā)展的必然要求。特別是在人臉表情識別方向，深度學習技術(shù)通過多層神經(jīng)網(wǎng)絡(luò)的組合，已能夠從人臉圖片中識別出當前人類情緒，并對情緒種類加以分類。當前較為流行的深度學習網(wǎng)絡(luò)有卷積神經(jīng)網(wǎng)絡(luò)［２］（ＣｏｎＶｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ，ＣＮＮ）、深度置信網(wǎng)絡(luò)［３］（ＤｅｅｐＢｅｌｉｅｆＮｅｔｗｏｒｋｓ，ＤＢＮ）、殘差神經(jīng)網(wǎng)絡(luò)［４］（ＲｅｓｉｄｕａｌＮｅｔｗｏｒｋｓ，ＲｅｓＮｅｔ）和生成對抗網(wǎng)絡(luò)［５］（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ，ＧＡＮ）等。

２改進的ＡｌｅｘＮｅｔ網(wǎng)絡(luò)結(jié)構(gòu)

在ＩＳＶＲＣ２０１２上最為矚目的當屬ＡｌｅｘＮｅｔ神經(jīng)網(wǎng)絡(luò)模型。ＡｌｅｘＮｅｔ的整體結(jié)構(gòu)總共分為８層，卷積層共５層和全連接層共３層，卷積核尺寸分別設(shè)定為１１×１１，５×５，３×３，３×３和３×３。ＡｌｅｘＮｅｔ網(wǎng)絡(luò)雖然在圖像識別領(lǐng)域中取得了一定成績，但隨著神經(jīng)網(wǎng)絡(luò)的迭代和發(fā)展，ＡｌｅｘＮｅｔ在應(yīng)用于圖像分析時也逐漸出現(xiàn)問題。尤其在表情分析領(lǐng)域中進行表情提取時，它仍存在提取表情不準確、表情種類分析準確率不高的情況，本文在ＡｌｅｘＮｅｔ網(wǎng)絡(luò)的基礎(chǔ)上提出了一種改進的ＡｌｅｘＮｅｔ網(wǎng)絡(luò)模型。該模型應(yīng)用ＣＮＮ網(wǎng)絡(luò)的深層特征提取能力彌補了ＡｌｅｘＮｅｔ網(wǎng)絡(luò)在某些情況下識別能力差、表情區(qū)分不清晰的短板，最終實現(xiàn)了更準確、更迅速的表情識別［６～１２］。改進前后的ＡｌｅｘＮｅｔ網(wǎng)絡(luò)結(jié)構(gòu)圖如圖１、圖２所示。

圖２改進后的網(wǎng)絡(luò)模型中包含６個卷積層、２個全連接層和１個ｓｏｆｔｍａｘ輸出層，并且引入了自注意力機制和避免了梯度消失問題的殘差塊，從圖中可以看出，改進前后的ＡｌｅｘＮｅｔ網(wǎng)絡(luò)的組織結(jié)構(gòu)組成是相似的［１３～１４］。

首先，由于純?nèi)四槇D像是經(jīng)過裁剪之后才輸入網(wǎng)絡(luò)模型中，圖像尺寸較小且原有網(wǎng)絡(luò)卷積核尺寸過大、步長過長，特征提取效果較差，因此將原始ＡｌｅｘＮｅｔ網(wǎng)絡(luò)第一層的１ｌ×１１卷積核改變?yōu)椋?個３×３卷積核的堆疊，步長從４減小到２。因為較小的卷積核提取的局部特征更細致，能夠提高網(wǎng)絡(luò)模型的分類結(jié)果，而采用２個堆疊的較小卷積核還可以有效利用非線性激活函數(shù)，并有效提升網(wǎng)絡(luò)的非線性表達能力，同時減少了網(wǎng)絡(luò)中的參數(shù)量。其次，因輸入圖像尺寸小、數(shù)據(jù)集樣本少且模型網(wǎng)絡(luò)層數(shù)較多，為更好地提升該模型的識別準確率，故借鑒何凱明，張翔宇等在２０１５年提出的ＲｅｓＮｅｔ殘差網(wǎng)絡(luò)，在本模型中構(gòu)建殘差網(wǎng)絡(luò)塊，以盡量避免梯度消失的問題，在減少模型參數(shù)訓練時間的同時，也提升了表情識別的準確率。ＳＥ注意力機制（Ｓｑｕｅｅｚｅ?ａｎｄ?ＥｘｃｉｔａｔｉｏｎＮｅｔｗｏｒｋｓ）在通道維度增加注意力機制，關(guān)鍵操作是ｓｑｕｅｅｚｅ和ｅｘｃｉｔａｔｉｏｎ。原始表情圖像的數(shù)據(jù)被分割成多個像素塊，每個像素塊的權(quán)重相同，即在模型訓練時的重要性是相同的，不僅影響訓練時間，還影響模型參數(shù)的準確性。故在模型開始部分引入自注意力機制，通過自動學習的方式，使用另外一個新的神經(jīng)網(wǎng)絡(luò)，獲取當前表情圖像中每個像素塊的重要程度，然后用這個重要程度去給每個像素特征賦予一個權(quán)重值，從而讓后續(xù)的神經(jīng)網(wǎng)絡(luò)重點關(guān)注某些像素特征，提升對當前表情識別有用的特征圖的像素塊，并抑制對當前識別任務(wù)用處不大的像素塊。表情類別差異微小的（如害怕、傷心、生氣）表情特征通常聚集于局部區(qū)域，不僅需要關(guān)注有益于表情分類的特征形態(tài)，還需要關(guān)注具體的局部特征。引入通道注意力機制實現(xiàn)通道權(quán)重判斷，進而實現(xiàn)不同區(qū)域的權(quán)重分配。權(quán)重分配機制有效挖掘?qū)Ρ砬榉诸愑幸饬x的局部區(qū)域，學習強化實現(xiàn)局部特征的提取，引導網(wǎng)絡(luò)利用聚合特征進行表情識別。通道注意力機制在通道上實現(xiàn)權(quán)重分配，特征圖上每一個通道表示一個檢測器，通道注意力機制關(guān)注最有意義的特征是什么形態(tài)。最后，為了將改進的ＡｌｅｘＮｅｔ模型應(yīng)用于７類表情分類任務(wù)中，將全連接層和ｓｏｆｔｍａｘ層神經(jīng)元的個數(shù)分別設(shè)置為５１２和７。

將預處理的臉部表情輸入至改進后的模型中，進行模型訓練和超參數(shù)調(diào)整，進而獲得識別效果最好的模型結(jié)果。如圖３所示，通過實現(xiàn)自注意力機制的人臉關(guān)鍵點定位技術(shù)，將其輸入到訓練好的模型中，輸出該圖像表情類別。

３混淆矩陣

優(yōu)秀的數(shù)據(jù)集是進行實驗的必要基礎(chǔ)，算法識別效果直接受數(shù)據(jù)標注準確度的影響。為更準確地評估本文改進模型識別能力，選取了ＪＡＦＦＥ和ＣＫ＋數(shù)據(jù)集進行實驗對照，可以更全面地了解改進模型的識別能力和短板。通過在ＪＡＦＦＥ和ＣＫ＋上構(gòu)建混淆矩陣，觀察二者對角線部分數(shù)值的高低，并將其作為模型準確率的評判標準，而矩陣中的其余部分則是模型的錯誤率，即表情被誤分類為其他類別的可能性。ＪＡＦＦＥ上識別的混淆矩陣如表１所列。

ＪＡＦＦＥ數(shù)據(jù)集中的圖像為日本女性面部表情，共含有２１３張表情圖片，每張圖片共有７０個不同表情，均由１０位女性各自７種不同表情構(gòu)成。ＣＫ＋數(shù)據(jù)集包含１２３個不同主題的５９３個序列，這些主題的年齡從１８歲到５０歲不等，具有各種性別和傳統(tǒng)。ＣＫ＋數(shù)據(jù)庫被認為是最廣泛使用于實驗室控制的面部表情分類數(shù)據(jù)庫，并用于大多數(shù)面部表情分類的方法。

ＣＫ＋上識別的混淆矩陣如表２所列。

在表１、表２的混淆矩陣對角線上可以明顯看到，高興表情的識別正確率均是最高的，因為此種表情的表現(xiàn)方式大多是嘴角上揚，在人類進行日常交流時嘴角變化通常是他人的注意點，所以更容易被察覺到。

同時，在ＣＫ＋數(shù)據(jù)集中，識別率最高的是驚訝表情，同理，在人類日常交流中，他人睜大眼睛或者嘴巴張大容易被人察覺。

４結(jié)束語

本文主要使用深度學習中的卷積神經(jīng)網(wǎng)絡(luò)對面部關(guān)鍵點進行定位，同時將面部關(guān)鍵點信息和ＡｌｅｘＮｅｔ網(wǎng)絡(luò)模型相結(jié)合，以達到獲取表情信息目的。

由表１、表２可知，在２個數(shù)據(jù)集上高興表情的準確率最高，因為高興表情的表現(xiàn)是嘴角上揚，可以看出對于其他幾類動作不明顯的表情還有待研究。本實驗雖然成功獲取關(guān)鍵點并同時估計出面部表情，但在具體不可控場景中（如超３０％圖像遮擋、圖像前后幀發(fā)生巨大變動或背景干擾因素過多），會發(fā)生一定程度的誤判。由于采用ＣＮＮ層次較多，同時涉及２次信息的輸入輸出，因此本實驗實時性表現(xiàn)一般，但估計的精確性較高，如何綜合性平衡系統(tǒng)實時性和精確性是下一個研究的重中之重。

參考文獻：

［１］ＥＫＭＡＮＰ，ＦｒｉｅｓｅｎＷＶ．Ｃｏｎｓｔａｎｔｓａｃｒｏｓｓｃｕｌｔｕｒｅｓｉｎｔｈｅｆａｃｅａｎｄｅｍｏｔｉｏｎ［Ｊ］．Ｊｏｕｒｎａｌｏｆｐｅｒｓｏｎａｌｉｔｙａｎｄｓｏｃｉａｌｐｓｙｃｈｏｌｏｇｙ，１９７１，１７（２）：１２４．

［２］張珂，馮曉晗，郭玉榮，等．圖像分類的深度卷積神經(jīng)網(wǎng)絡(luò)模型綜述［Ｊ］．中國圖像圖形學報，２０２１，２６（１０）：２３０５?２３２５．

［３］章新志．基于深度置信網(wǎng)絡(luò)的人臉識別算法研究［Ｄ］．南昌：華東交通大學，２０１９．

［４］韓玉．基于殘差模塊神經(jīng)網(wǎng)絡(luò)的人體行為檢測與識別研究［Ｄ］．包頭：內(nèi)蒙古科技大學，２０２２．

［５］范黎．基于生成對抗網(wǎng)絡(luò)的圖像數(shù)據(jù)增強技術(shù)研究及應(yīng)用［Ｄ］．杭州：浙江大學，２０２２．

［６］ＹＵＪＸ，ＬＩＭＫＭ，ＬＥＥＣＰ．ＭｏＶＥ?ＣＮＮｓ：ＭｏｄｅｌａＶｅｒａｇｉｎｇＥｎｓｅｍｂｌｅｏｆＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓｆｏｒＦａｃｉａｌＥｘｐｒｅｓｓｉｏｎＲｅｃｏｇｎｉｔｉｏｎ［Ｊ］．ＩＡＥＮＧＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，２０２１，４８（３）：２２?３３．

［７］ＷＯＯＳ，ＰＡＲＫＪ，ＬＥＥＪＹ，ｅｔａｌ．ＣＢＡＭ：ＣｏｎｖｏｌｕｔｉｏｎａｌＢｌｏｃｋＡｔｔｅｎｔｉｏｎＭｏｄｕｌｅ［Ｊ］．ＩＡＥＮＧＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，２０１８：６?１６．

［８］于方軍，焦玉杰，孫麗君．人體關(guān)鍵點檢測及教學應(yīng)用之人臉表情識別［Ｊ］．中國信息技術(shù)教育，２０２３（１）：９６?９８．

［９］葉繼華，祝錦泰，江愛文，等．人臉表情識別綜述［Ｊ］．數(shù)據(jù)采集與處理，２０２０，３５（１）：２１?３４．

［１０］何俊，劉躍，李倡洪，等．基于改進的深度殘差網(wǎng)絡(luò)的表情識別研究［Ｊ］．計算機應(yīng)用研究，２０２０，３７（５）：１５７８?１５８１．

［１１］呂方惠．基于雙流卷積神經(jīng)網(wǎng)絡(luò)的動態(tài)表情識別研究［Ｄ］．南京：南京郵電大學，２０２１．

［１２］楊旭，尚振宏．基于改進ＡｌｅｘＮｅｔ的人臉表情識別［Ｊ］．激光與光電子學進展，２０２０，５７（１４）：２４３＋２５０．

［１３］李珊．基于深度學習的真實世界人臉表情識別研究［Ｄ］．北京：北京郵電大學，２０２１．

［１４］呂鵬，單劍鋒．基于多特征融合的人臉表情識別算法［Ｊ］．計算機技術(shù)與發(fā)展，２０２２，３２（１０）：１５１?１５５＋１８１．

作者簡介：

孫歌（１９９９—），碩士，研究方向：人工智能。

王劍雄（１９７５—），碩士，教授，研究方向：人工智能（通信作者）。