王 遙 金 玲 林紫雯 韓慧娜
(吉林工商學(xué)院,吉林 長(zhǎng)春130062)
卷積神經(jīng)網(wǎng)絡(luò)在本質(zhì)上是一種從輸入到輸出的映射關(guān)系,并且不需要任何的數(shù)學(xué)表達(dá)式來(lái)表達(dá)其輸入到輸出之間的關(guān)系,而只需要利用已知的數(shù)據(jù)對(duì)卷積網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,從而能使得網(wǎng)絡(luò)具有了輸入輸出之間的映射關(guān)系。并且再卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行有監(jiān)督學(xué)習(xí)之前, 需要采用不同的隨機(jī)數(shù)對(duì)網(wǎng)絡(luò)中的各項(xiàng)權(quán)值進(jìn)行初始化操作。本文設(shè)計(jì)的用于人臉情緒識(shí)別的改進(jìn)后的卷積神經(jīng)網(wǎng)絡(luò),結(jié)構(gòu)如圖1 所示。
圖中所示的模型有著20 個(gè)卷積層,以此來(lái)形成人臉表情的特征提取。此模型中含有8 個(gè)殘差深度可分離卷積層,在每個(gè)卷積層后都是一個(gè)批歸一化操作和Relu 激活函數(shù)。接著是一個(gè)全局平均池化層,在將最后的結(jié)果輸入Softmax 分類器當(dāng)中從而生成表情識(shí)別的預(yù)測(cè)值。最后的Softmax 分類器對(duì)全局平均池化層的輸出結(jié)果進(jìn)行分類處理,將人臉情緒分類憤怒、沮喪、恐懼、高興、悲傷、驚訝、中性七類。
卷積神經(jīng)網(wǎng)絡(luò)是一種前饋神經(jīng)網(wǎng)絡(luò),它的人工神經(jīng)元可以響應(yīng)一部分覆蓋范圍內(nèi)的周圍單元, 對(duì)于大型圖像處理有出色表現(xiàn)。卷積神經(jīng)網(wǎng)絡(luò)中每層卷積層由若干卷積單元組成,第一層卷積層可能只能提取一些低級(jí)的特征如邊緣、線條和角等層級(jí),更多層的網(wǎng)絡(luò)能從低級(jí)特征中迭代提取更復(fù)雜的特征。一般情況下,設(shè)輸入圖像矩陣A,B,其行列數(shù)分別為ma、na、mb、nb,則卷積層的計(jì)算公式如下:
圖1 表情識(shí)別模型
當(dāng)我們選擇激活函數(shù)為Relu 函數(shù)時(shí), 卷積層的計(jì)算公式如下:
卷積層作為實(shí)現(xiàn)起到特征提取的功能, 每一層的每個(gè)神經(jīng)元輸入需要與前一層的局部感受相連, 從而提取出該局部的特征。本文模型中的卷積層1 采用3×3×8 的卷積核對(duì)輸入圖像進(jìn)行卷積求和操作,最后輸出得到8 個(gè)46×46 的特征圖,同理經(jīng)過(guò)卷積層2 得到16 個(gè)44×44 的特征圖。深度可分離卷積層1、深度可分離卷積層2 以及深度可分離卷積層3 均分別得到32個(gè)44×44、64 個(gè)11×11、128 個(gè)6×6 的特征圖。卷積層4 等得到7 個(gè)3×3 的特征圖。
本文模型中采用了兩類池化層,一類是最大池化層,另一類是平均池化層。為了防止直接將學(xué)習(xí)到的特征直接進(jìn)行Softmax訓(xùn)練從而帶來(lái)的參數(shù)維度過(guò)高的問(wèn)題, 最大池化層的目的就是將特征圖大小減小, 并且在減小的同時(shí)是特征圖的輸出具有平移不變性。全局平均池化層與最大池化層不同,它不改變輸入特征圖的大小,而是會(huì)將每個(gè)特征圖形成一個(gè)值。相對(duì)與使用全連接層減少了參數(shù)并且提高了訓(xùn)練時(shí)間,減少了過(guò)擬合。
采用的數(shù)據(jù)集是來(lái)自kaggle 競(jìng)賽中的數(shù)據(jù)Fer2013, 數(shù)據(jù)集由35886 張人臉表情圖片組成,其中,測(cè)試圖28708 張,公共驗(yàn)證圖和私有驗(yàn)證圖各3589 張, 每張圖片是由大小固定為48×48的灰度圖像組成,共有7 種表情分別對(duì)應(yīng)于數(shù)字標(biāo)簽0-6,具體表情對(duì)應(yīng)的標(biāo)簽和中英文如下:0 anger 生氣;1disgust 厭惡;2fear 恐懼;3happy 開(kāi)心;4sad 傷心;5surprised 驚訝;6normal 中性。但是,數(shù)據(jù)集并沒(méi)有直接給出圖片,而是將表情、圖片數(shù)據(jù)、用途的數(shù)據(jù)保存到csv 文件中。經(jīng)過(guò)10000 次的迭代訓(xùn)練,本文的表情識(shí)別模型在fer2013 數(shù)據(jù)集上的訓(xùn)練效果達(dá)到了67.2%的準(zhǔn)確率,結(jié)果如下表(表1)。圖2 與圖3 分別描述了本文模型在訓(xùn)練過(guò)程中的訓(xùn)練損失值及訓(xùn)練準(zhǔn)確值。
表1 本文模型在fer2013 數(shù)據(jù)集上的識(shí)別結(jié)果
從表1 中可以看出,本表情識(shí)別模型對(duì)高興與驚訝的識(shí)別準(zhǔn)確率最高,準(zhǔn)確率分別為86%和88%,但是對(duì)于恐懼和悲傷這兩種表情的識(shí)別準(zhǔn)確較低,分別為57%及49%,根據(jù)模型猜想是對(duì)特征圖的提取參數(shù)過(guò)少,忽略了部分表情特征使分類效果降低。
與傳統(tǒng)的深度學(xué)習(xí)模型在fer2013 數(shù)據(jù)集上的準(zhǔn)確率對(duì)比結(jié)果如表2 所示,其中LBP 由Rivera 設(shè)計(jì)提出,采用人工特征提取篩選進(jìn)行表情識(shí)別, 但其識(shí)別準(zhǔn)確度略低于常用深度學(xué)習(xí)算法。CNNs 模型采用并行卷積神經(jīng)網(wǎng)絡(luò)模型,使fer2013 的最終識(shí)別準(zhǔn)確率達(dá)到了65.6%。本文中設(shè)計(jì)的表情識(shí)別模型,比LBP 模型提高了1.7%,比CNNs 模型提高了1.6%,證明了本文設(shè)計(jì)的模型在人臉識(shí)別上具有較好的識(shí)別功能。
表2 不同模型在fer2013 數(shù)據(jù)集上識(shí)別率對(duì)比
本文以CNN 卷積神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),建立人臉情緒識(shí)別模型,實(shí)驗(yàn)證明建立的模型預(yù)測(cè)效果優(yōu)秀,正確率較高,并且以改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)提高了傳統(tǒng)識(shí)別模型對(duì)于fer2013 數(shù)據(jù)集上的識(shí)別了吧, 但分析識(shí)別結(jié)果在對(duì)于恐懼和悲傷表情的識(shí)別上該模型仍具有進(jìn)步空間, 需要對(duì)與臉部特征再進(jìn)行細(xì)分提取從而提高分類準(zhǔn)確率。本模型為人臉情緒識(shí)別提供了可靠的技術(shù)分析支持,可以將該模型應(yīng)用于病理研究、公共安全預(yù)警系統(tǒng)、機(jī)器人仿真等方面。