錢(qián)騭寰 陳懷民
(西北工業(yè)大學(xué) 陜西省西安市 710072)
人臉表情識(shí)別是目前人臉識(shí)別領(lǐng)域的一個(gè)熱點(diǎn)研究話題,其關(guān)鍵技術(shù)為表情特征提取,常用的有幾何特征提取方法、外貌特征提取方法。前者為一種宏觀的方法,其從總體上表示出人臉的結(jié)構(gòu)變化。具體方法設(shè)計(jì)主動(dòng)形狀模型、活動(dòng)外觀模型、差分主動(dòng)外觀模型。
1995年,Cootes 等人首先提出了主動(dòng)形狀模型(Active Shape Models,ASM), 該方法是基于統(tǒng)計(jì)模型的特征匹配方法。緊接著Cootes 等人在 ASM 的基礎(chǔ)提出了活動(dòng)外觀模型(Active Appearance Models, AAM)方法。 Cheon 等人提出了一種差分主動(dòng)外觀模型 (AAM) 和流形學(xué)習(xí)相結(jié)合的人臉表情識(shí)別方法實(shí)現(xiàn)了表情的分類(lèi)識(shí)別。
外貌特征的提取方法是一種微觀的方法,外貌特征是基于使用全部人臉圖像像素性質(zhì)的特征,反映了人臉圖像底層的信息,尤其表現(xiàn)了局部細(xì)微變化的信息。主要涉及局部二值模式(LBP)、Gabor 小波變換等方法。Shan 等人用增強(qiáng)的 LBP 算法來(lái)進(jìn)行特征提取,并結(jié)合SVM 分類(lèi)器,實(shí)現(xiàn)了識(shí)別性能的提升。Liu 等人提出了一種結(jié)合Gabor 小波和核主成分分析(KPCA)進(jìn)行人臉表情識(shí)別的方法,實(shí)驗(yàn)結(jié)果證明該方法有著較好的性能。
對(duì)人臉特征進(jìn)行提取之后,就需要開(kāi)始對(duì)表情情緒進(jìn)行識(shí)別,也即是將表情劃分為不同的情緒,常見(jiàn)的表情識(shí)別算法有隱馬爾科夫算法,人工神經(jīng)網(wǎng)絡(luò)算法,支持向量機(jī)算法,k 鄰域算法等。
從當(dāng)前的研究現(xiàn)狀分析可知,基于深度神經(jīng)網(wǎng)絡(luò)的人臉表情識(shí)別技術(shù)成為發(fā)展的新趨勢(shì),鑒于本文在上述兩個(gè)過(guò)程中采用了深度神經(jīng)網(wǎng)絡(luò)予以實(shí)現(xiàn),從而提高整體識(shí)別效果。
生成對(duì)抗性學(xué)習(xí)引入了一種相對(duì)較新的DL 框架,用于訓(xùn)練生成性對(duì)抗性網(wǎng)絡(luò)(GAN)。流程如圖1。
GAN 由兩個(gè)網(wǎng)絡(luò)組成:生成模型和鑒別器模型。通過(guò)產(chǎn)生最小 - 最大對(duì)抗性博弈同時(shí)訓(xùn)練兩種模型,其中判別模型試圖確定給定樣本是來(lái)自生成器還是來(lái)自真實(shí)數(shù)據(jù)。生成器從先前的分布p(z)映射sample z 并將其映射到數(shù)據(jù)空間。這被定義為:
雖然是一個(gè)相對(duì)較新的子領(lǐng)域,但GAN 已成為主流的合成圖像生成算法。因此,各種作品都集中在真實(shí)合成面部表情圖像的生成上。其中一些作品包括多姿態(tài)人臉識(shí)別或面部表情圖像完成。
圖1:生成對(duì)抗性網(wǎng)絡(luò)流程圖
圖2:GUIDE 運(yùn)行后的最終界面
貪婪GLW)分層是提高深層神經(jīng)網(wǎng)絡(luò)泛化重要方法,可通過(guò)將每個(gè)單獨(dú)的層視為淺層網(wǎng)絡(luò)來(lái)促進(jìn)深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。該有兩個(gè)層h1 和h2,在GLW 無(wú)監(jiān)督訓(xùn)練中,每層被視為個(gè)體淺層網(wǎng)絡(luò)并且被單獨(dú)訓(xùn)練為自動(dòng)編碼器,自動(dòng)編碼器由編碼器功能和解碼器功能組成,然后給定無(wú)監(jiān)督訓(xùn)練函數(shù)L,其將訓(xùn)練數(shù)據(jù)作為輸入并返回訓(xùn)練的編碼器函數(shù)f(k),使用原始像素?cái)?shù)據(jù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的第一層。將得到的f(k)加到經(jīng)過(guò)訓(xùn)練的編碼器函數(shù)中。對(duì)于每個(gè)剩余的圖層,傳遞原始像素?cái)?shù)據(jù)到f,并使用得到的特征來(lái)學(xué)習(xí)f(k + 1),直到k=m,其中m 是神經(jīng)網(wǎng)絡(luò)的層數(shù)。
情感識(shí)別中,采用Gabor filtеrs 來(lái)檢測(cè)邊緣并突出顯著特征。Gabor filtеrs 基本上是由高斯核函數(shù)調(diào)制的正弦曲線,其中正交方向由實(shí)部和虛部組成。Gabor filtеrs 的實(shí)際分量應(yīng)用于具有尺寸的圖像,其中:
將Gabor filtеrs 與圖像卷積后的幅度響應(yīng)由下式給出:
表1:SCAE 和CNN 拓?fù)?/p>
最近的研究表明,權(quán)重的隨機(jī)初始化可以導(dǎo)致局部最優(yōu)解,無(wú)法獲取全局最優(yōu)結(jié)果,對(duì)此設(shè)計(jì)SCAE 和CNN 拓?fù)渚W(wǎng)絡(luò)結(jié)構(gòu),其如表1 所示。
對(duì)抗性自動(dòng)編碼器旨在產(chǎn)生足夠逼真的重建同時(shí)實(shí)現(xiàn)最小的信息損失。對(duì)此本文中提出一種新穎的生成對(duì)抗性堆疊卷積自動(dòng)編碼器模型。該優(yōu)化通過(guò)求解如下公式獲取:
本文采用了兩個(gè)自動(dòng)編碼器,第一個(gè)模型深度對(duì)抗疊層卷積自動(dòng)編碼器旨在解決不變性問(wèn)題,而第二個(gè)模型深度對(duì)抗疊層卷積自動(dòng)編碼器則使用本章的姿態(tài)不變方法。前三個(gè)卷積層被ConvMLPlayers 替換,最后一個(gè)被替換為HalfConv 層。此外,兩種模型都使用Gradual-GLW 以貪婪的分層無(wú)監(jiān)督方式進(jìn)行訓(xùn)練。
為了提高可信度,訓(xùn)練兩個(gè)模型:第一個(gè)模型SCAE1 在Multi-PIE 和Yale 數(shù)據(jù)集上進(jìn)行了訓(xùn)練,并在CK +和KDEF 語(yǔ)料庫(kù)上進(jìn)行了評(píng)估;第二個(gè)模型SCAE2 在面部表情數(shù)據(jù)集的組合語(yǔ)料庫(kù)中進(jìn)行訓(xùn)練和評(píng)估。多PIE 數(shù)據(jù)集SCAE1 模型在Multi-PIE 數(shù)據(jù)集上進(jìn)行訓(xùn)練。
根據(jù)上述分析和相關(guān)技術(shù)支持得到了對(duì)應(yīng)的GUI 設(shè)計(jì)結(jié)果其如圖2 所示。在此基礎(chǔ)上那個(gè)進(jìn)行實(shí)驗(yàn)分析。
SCAE 模型使用改進(jìn)的GLW 算法進(jìn)行訓(xùn)練,得到最終的測(cè)試結(jié)果如圖3 所示。SCAE 模型能學(xué)習(xí)提高低亮度圖像(左圖像)的相對(duì)亮度,或降低相對(duì)高亮度圖像(右圖像)的亮度。與使用GLW 生成的重構(gòu)相比,使用貪婪GLW 生成的重構(gòu)保留了所有空間信息。本文提出的漸進(jìn)式Gradual-GLW 訓(xùn)練方法克服了經(jīng)典GLW 訓(xùn)練方法的局限性,顯著減少了訓(xùn)練時(shí)間和重建誤差。因此,SCAE 模型也提高了它們的泛化能力,即使在看不見(jiàn)的數(shù)據(jù)上也能產(chǎn)生顯著的光照不變性重建。
表2:CNN1a 和CNN1b 的分類(lèi)性能對(duì)比
圖3:算法性能對(duì)比:GLW 方法(中間圖像)訓(xùn)練時(shí),SCAE1 對(duì)未觀察數(shù)據(jù)(左圖像),經(jīng)驗(yàn)式GLW 方法(右圖像)。
表2 展示了CNN1a 和CNN1b 的分類(lèi)性能對(duì)比。CNN1a 對(duì)ck+語(yǔ)料庫(kù)的訓(xùn)練子集進(jìn)行了微調(diào),分類(lèi)性能達(dá)到94.90%。CNN1b 在kdef 上進(jìn)行了微調(diào),在測(cè)試子集上實(shí)現(xiàn)了95.70%的最新分類(lèi)率。
本文的主要目標(biāo)是檢測(cè)與識(shí)別出人臉情緒,在這個(gè)目標(biāo)下本文深入分析了人臉識(shí)別和人臉檢測(cè)的主流技術(shù)以及影響精確度的主要因素,提出一個(gè)創(chuàng)新的深層次人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)進(jìn)行面部表情圖像中情感的識(shí)別。此外,還探討了一種人臉檢測(cè)深層強(qiáng)化學(xué)習(xí)體系的發(fā)展,由于當(dāng)前大部分的深度學(xué)習(xí)算法都單純考慮面部表情的識(shí)別,并沒(méi)有考慮光照和姿勢(shì)的因素,因此具有一定的局限性,本文提出的算法可以解決現(xiàn)實(shí)生活場(chǎng)景中常見(jiàn)的照明,面部姿勢(shì)和面部旋轉(zhuǎn)帶來(lái)的識(shí)別問(wèn)題。最后通過(guò)實(shí)驗(yàn)證明了本文算法的有效性。