盛偉 劉嵩巖 成杰 孫毅
摘 要 隨著計算機技術(shù)和人工智能技術(shù)及其相關(guān)學(xué)科的迅猛發(fā)展,人們對類似于人和人交流方式的人機交互的需求日益強烈。表情識別是人們獲取情感信息的基礎(chǔ),是計算機獲取人類情感的前提,同時也是人們探索和理解智能的有效途徑之一。本文在嵌入式系統(tǒng)的基礎(chǔ)上利用Fer2013數(shù)據(jù)集,在TensorFlow平臺上訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(CNN),從而實現(xiàn)面部表情識別。
關(guān)鍵詞 嵌入式系統(tǒng);CNN;TensorFlow;面部表情識別
引言
面部表情識別技術(shù)同其他人工智能技術(shù)相比,發(fā)展的比較緩慢。由于面部表情具有多變性和復(fù)雜性,再同情緒和個體差異結(jié)合,很大程度上提高表情識別的難度。因此,與生物識別技術(shù)如指紋識別、人臉識別等相比,發(fā)展相對較慢,應(yīng)用還不廣泛。但是表情識別突破了人與機器傳統(tǒng)的關(guān)系,因此國內(nèi)外學(xué)者致力于這方面的研究,并在技術(shù)方面有很大的突破。人臉表情識別是指從給定的靜態(tài)圖片或動態(tài)視頻序列中分離出的表情狀態(tài),本文主要研究的是從靜態(tài)圖片中確定被識別對象的心理情緒,實現(xiàn)計算機對人臉表情的理解與識別,從而更好達到人機交流[1]。
1技術(shù)背景
1.1 數(shù)據(jù)集
Fer2013人臉表情數(shù)據(jù)集由35886張人臉表情圖片組成,其中,測試圖(Training)28708張,公共驗證圖(PublicTest)和私有驗證圖(PrivateTest)各3589張,每張圖片是由大小固定為48×48的灰度圖像組成,共有7種表情,分別對應(yīng)于數(shù)字標簽0-6,具體表情對應(yīng)的標簽和中英文如下:0 anger 生氣; 1 disgust 厭惡; 2 fear 恐懼; 3 happy 開心; 4 sad 傷心;5 surprised 驚訝; 6 normal 中性[2]。
1.2 卷積神經(jīng)網(wǎng)絡(luò)
傳統(tǒng)表情識別技術(shù)和深度表情識別技術(shù)最大的區(qū)別就在于特征學(xué)習(xí)的方式不同。傳統(tǒng)表情識別技術(shù)的特征提取方法主要有Gabor小波變換、局部二值模式(LBP)等方法;而CNN網(wǎng)絡(luò)對圖片進行預(yù)處理獲取特征向量。近些年來,有越來越多的深度網(wǎng)絡(luò)用于表情識別,如卷積神經(jīng)網(wǎng)絡(luò)CNN等。本文就是采用是11層的CNN網(wǎng)絡(luò)進行面部表情識別,1層輸入層,4層卷積層,三層池化層、2層全連接層、損失函數(shù)層和輸出層。
第一層,輸入的圖片像素為48*48*1,經(jīng)過第一層步長為1,卷積核大小為1*1d的卷積層之后,輸出像素為48*48*32。第二層卷積核大小為5*5,步長為1,填充為2,輸出是48*48*32。經(jīng)過第三層池化層之后進入第四層,該層卷積核大小為3*3,步長和填充均為1,輸出為23*23*32。在經(jīng)過第五層池化層之后進入第六層,卷積核大小為5*5,步長為1,填充為2,輸出結(jié)果為11*11*64;經(jīng)過第七層池化層后,輸出為5*5*64。然后輸出結(jié)果經(jīng)過兩層全連接層在輸出,丟棄50%,輸出像素為1*1*1024;最后是輸出層,輸出結(jié)果為1*1*7[3]。
2測試
(1)預(yù)處理:預(yù)處理是將計算特征之前,排除掉和臉無關(guān)的一切干擾,因此,就有了人臉檢測,人臉對齊,歸一化等過程,主要有:人臉檢測,人臉對齊,數(shù)據(jù)增強,人臉歸一化。
(2)卷積神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練:基于構(gòu)建CNN的網(wǎng)絡(luò)模型,利用Fer2013作為訓(xùn)練集進行網(wǎng)絡(luò)模型訓(xùn)練;直接學(xué)習(xí)特征,預(yù)測概率(softmax),識別出表情結(jié)果。為了提高網(wǎng)絡(luò)的非線性特性,本文使用線性整流函數(shù)Relu作為激活函數(shù)可避免由其他一些激活函數(shù)引起的消失梯度問題。
(3)面部表情的識別測試:獲取圖像,利用訓(xùn)練好的完啦進行識別比對,返回識別結(jié)果[4]。
3結(jié)束語
基于深度學(xué)習(xí)的面部表情識別系統(tǒng),具有非常高性能的特征表達能力,適合基于圖像的分類問題,可以識別出準確識別出六種表情。利用深度學(xué)習(xí)技術(shù)來解決如光照變化、遮擋、非正面頭部姿勢等問題。本文研究的面部表情局限于6種表情,而人類的表情十分豐富;另外隨著人類的老去,面部表情識別的難度也增加,這些都是未來深入研究的方向。
參考文獻
[1] 劉芾,李茂軍,胡建文,等.基于低像素人臉圖像的表情識別[J].激光與光電子學(xué)進展,2020,57(10):97-104.
[2] 陸嘉慧,張樹美,趙俊莉.基于CNN集成的面部表情識別[J].青島大學(xué)學(xué)報(工程技術(shù)版),2020,35(2):24-29,42.
[3] 盧官明,何嘉利,閆靜杰,等.一種用于人臉面部表情識別的卷積神經(jīng)網(wǎng)絡(luò)[J].南京郵電大學(xué)學(xué)報(自然科學(xué)版),2016,36(1):16-22.
[4] 張嘯,周連喆,張琳琳.基于改進LeNet-5的面部表情識別方法[J].計算機與現(xiàn)代化,2019(10):83-87,93.
作者簡介
盛偉(1995-),女,黑龍江哈爾濱人;黑龍江大學(xué)在讀,學(xué)歷:碩士,研究方向:嵌入式系統(tǒng)。
劉嵩巖(1969-),男,黑龍江哈爾濱人;學(xué)歷:博士,職稱:副教授,現(xiàn)就職單位:黑龍江大學(xué),研究方向:嵌入式系統(tǒng)。
成杰(1996-),男,河北張家口人;黑龍江大學(xué)在讀,學(xué)歷:碩士,研究方向:嵌入式系統(tǒng)。
孫毅(1996-),男,山東濟南人;黑龍江大學(xué)在讀,學(xué)歷:碩士,研究方向:嵌入式系統(tǒng)。