蔣 斌,李南星,鐘 瑞,吳慶崗,?;?/p>
鄭州輕工業(yè)大學(xué) 計(jì)算機(jī)與通信工程學(xué)院,鄭州 450001
作為人類重要的主觀體驗(yàn),情感是左右人類行為的一個(gè)關(guān)鍵因素,在人際交往活動(dòng)中發(fā)揮著巨大的作用。人類以多種方式表達(dá)自己的內(nèi)心情感,比如語言語音[1]、肢體動(dòng)作[2]、面部表情等。其中面部表情是觀察人類情感的直接手段,人們可以通過面部表情準(zhǔn)確地表達(dá)自己的思想和感情,也可以通過面部表情識(shí)別他人的態(tài)度和內(nèi)心世界,在上述表達(dá)方式中具有兩個(gè)顯著的特點(diǎn):(1)面部表情與人類情感之間的關(guān)聯(lián)度非常高。在有關(guān)的情感信息中,面部表情約占總體信息量的55%,因此通過面部表情可以很好地解釋人類的情感;(2)面部表情的表達(dá)方式簡(jiǎn)單自然,直截了當(dāng)。不需要聽者猜測(cè)語言語音背后蘊(yùn)含的說者含義,也不像肢體動(dòng)作那樣隱秘或夸張。對(duì)面部表情的準(zhǔn)確判斷就有助于正確地評(píng)估人類的情感狀態(tài);而人工智能技術(shù)的實(shí)現(xiàn),加快了人類情感信息的需求,所以在所有的信息交互方式中,人臉表情識(shí)別脫穎而出,成為了人工智能技術(shù)落地的一個(gè)關(guān)鍵研究方向。吸引研究者在駕駛員疲勞駕駛監(jiān)測(cè)[3]、教育場(chǎng)景中對(duì)學(xué)習(xí)者的學(xué)習(xí)狀態(tài)檢測(cè)[4]、服務(wù)型機(jī)器人的智能服務(wù)[5]等方面展開了持續(xù)的探索。
雖然目前人臉表情識(shí)別已經(jīng)在許多領(lǐng)域上展現(xiàn)出很高的應(yīng)用價(jià)值,但是在技術(shù)的應(yīng)用化過程中,仍然存在巨大的挑戰(zhàn),尤其是在獲取識(shí)別對(duì)象圖像時(shí)經(jīng)常遇到的人臉部分遮擋問題。人臉部分遮擋通常發(fā)生在各種應(yīng)用場(chǎng)景之中,比如:頭部姿態(tài)偏轉(zhuǎn)時(shí)出現(xiàn)的姿態(tài)遮擋[6],人臉光照不均衡時(shí)出現(xiàn)的色斑遮擋,圖像采集過程中發(fā)生的人臉區(qū)域的噪聲像素遮擋,以及日常生活中的實(shí)物遮擋[7],包括:飾物遮擋(口罩、圍巾、墨鏡)、面部部件遮擋(如頭發(fā)、胡須、疤痕)、靜物遮擋(建筑、樹木)、動(dòng)作遮擋(打哈欠時(shí)手放在嘴上)。意外遮擋(行駛的車輛、走動(dòng)的行人)等。這些種類各異的遮擋會(huì)導(dǎo)致人臉外觀在空間上發(fā)生顯著變化,造成采集圖像的缺損、人臉區(qū)域的形變,以及面部像素的異化。對(duì)人臉表情識(shí)別的應(yīng)用帶來了極大的麻煩和阻礙。于是在人臉部分遮擋狀態(tài)下,提升人臉表情識(shí)別性能,成為了研究者重點(diǎn)關(guān)注的問題。
如圖1所示,面部遮擋表情識(shí)別系統(tǒng)主要包括:人臉檢測(cè)、遮擋處理、特征提取和表情分類。首先,人臉檢測(cè)環(huán)節(jié)按照實(shí)際的應(yīng)用場(chǎng)景,還存在著兩種方式:第一、在線表情識(shí)別系統(tǒng),需要根據(jù)人臉檢測(cè)算法,實(shí)時(shí)獲取人臉區(qū)域圖像;第二、離線表情識(shí)別系統(tǒng),主要根據(jù)專業(yè)的表情數(shù)據(jù)庫(kù)訓(xùn)練算法模型;而專業(yè)數(shù)據(jù)庫(kù)的人臉圖像通常背景簡(jiǎn)單、面部區(qū)域突出,所以在這種情況下可以省略人臉檢測(cè)環(huán)節(jié)。其次,遮擋處理環(huán)節(jié)需要根據(jù)所選模型的實(shí)際情況考慮,通常有舍棄法和重構(gòu)法兩種方式,舍棄法是檢測(cè)到遮擋部位將其舍棄,主要聚焦于未遮擋的區(qū)域;而重構(gòu)法是通過淺層模型或者深度模型對(duì)遮擋的區(qū)域進(jìn)行重構(gòu),使其恢復(fù)成未遮擋的狀態(tài)。最后,特征提取和特征分類在淺層學(xué)習(xí)中是兩個(gè)分離的環(huán)節(jié);而在深度學(xué)習(xí)中,特征提取與特征分類環(huán)節(jié)被融合在同一個(gè)深度人工神經(jīng)網(wǎng)絡(luò)之內(nèi),一般將兩者合二為一。
圖1 人臉部分遮擋狀態(tài)下的表情識(shí)別過程Fig.1 Outline of facial expression recognition under partial occlusion
傳統(tǒng)的人臉表情數(shù)據(jù)庫(kù)是指在實(shí)驗(yàn)室等受控條件下,讓采集者模仿標(biāo)準(zhǔn)的表情圖片,做出相對(duì)應(yīng)的表情,最后人工篩選出合格樣本的過程,因此受控條件下采集的數(shù)據(jù)樣本噪聲比例相對(duì)比較低;非受控條件下的數(shù)據(jù)樣本更為接近真實(shí)場(chǎng)景下的人臉圖像,更強(qiáng)調(diào)人臉表情的實(shí)時(shí)性和真實(shí)性。除了上述區(qū)分方法之外,還可以站在不同角度所示,如表1本文將從樣本模態(tài)(視頻/圖片)、類別數(shù)目(6,7,8)、引導(dǎo)方式(模仿/自然)、收集來源(實(shí)驗(yàn)室/自然環(huán)境)和數(shù)據(jù)規(guī)模等維度加以分類[8]。下面將詳細(xì)介紹常用的人臉表情數(shù)據(jù)庫(kù)。
表1 人臉表情常用數(shù)據(jù)庫(kù)Table 1 Commonly used facial expression databases
JAFFE[9]包含10名不同日本女性一共213幅正面人臉圖像,每人有7種表情,每種表情大約有3、4幅灰度圖像,該數(shù)據(jù)庫(kù)是以(生氣、厭惡、恐懼、高興、悲傷、驚奇、中性)7種基本表情為基礎(chǔ)的數(shù)據(jù)庫(kù)。
CK+[10]數(shù)據(jù)庫(kù)包含123個(gè)志愿者的593個(gè)圖像序列,其中包括不同性別、族裔的表情序列。在593個(gè)圖像序列中有327個(gè)具有情感標(biāo)簽,包含6種基本表情外加中性表情和蔑視表情。
KDEF[11]數(shù)據(jù)庫(kù)在均勻、柔和的光照條件下,采集到70個(gè)志愿者的7種表情的人臉圖像庫(kù)。志愿者們年齡在20至30歲之間,沒有胡須、耳環(huán)或眼鏡等遮擋物進(jìn)行遮擋,共包含4 900張彩色圖像。
Oulu-CASIA[12]數(shù)據(jù)集包含在弱光、正常光和暗光三種不同程度的照明條件下收集80名23至58歲參與者的6種基本面部表情。
MMI[13]數(shù)據(jù)集包含43個(gè)主體,6種基本表情的213個(gè)視頻序列,這些視頻序列中的一些對(duì)象帶著帽子或者眼鏡,具有面部部分遮擋的常見示例。
RaFD[14]數(shù)據(jù)庫(kù)是Radboud大學(xué)行為科學(xué)研究所整理的人臉圖像庫(kù),包含67個(gè)模特,共8 040張圖片,該庫(kù)包含8種表情,即憤怒、厭惡、恐懼、快樂、悲傷、驚訝、蔑視和中性。每種表情有3種注視方向和5種姿態(tài)。
FER-2013[15]數(shù)據(jù)庫(kù)包含35 887張網(wǎng)絡(luò)數(shù)據(jù)集。數(shù)據(jù)集按照28 709張訓(xùn)練圖像、3 589張驗(yàn)證圖像和3 589張測(cè)試圖像進(jìn)行劃分,共包含8類情感標(biāo)簽。圖像質(zhì)量相對(duì)較低。
BU-3DFE[16]數(shù)據(jù)庫(kù)是人臉三維圖像數(shù)據(jù)庫(kù),收集了來自不同種族的100張面孔,每個(gè)對(duì)象有25個(gè)3D表情模型,部分模型存在人臉部分遮擋。
RAF-DB[17]是第一個(gè)在野外收集數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)包含29 672張不同年齡、不同性別、不同膚色的人臉圖像;而且具有遮擋的表情數(shù)據(jù)。該數(shù)據(jù)庫(kù)中包含6種基本情感標(biāo)簽以及12種復(fù)合情感標(biāo)簽。
SFEW2.0[18]的圖像由兩個(gè)獨(dú)立的標(biāo)簽進(jìn)行標(biāo)記,該數(shù)據(jù)庫(kù)包括遮擋、姿態(tài)等700幅從電影中截取的圖像。
AffectNet[19]是一個(gè)大規(guī)模帶有強(qiáng)度標(biāo)記的人臉表情數(shù)據(jù)庫(kù)。它在超過百萬張人臉圖片中對(duì)其中的450 000張圖像進(jìn)行手工注釋,分為8類表情類別,是迄今為止最大的含有情感強(qiáng)度和情感類別標(biāo)簽的數(shù)據(jù)集。
AFEW[20]是一個(gè)動(dòng)態(tài)時(shí)間面部表情數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)一共包含957個(gè)電影片段,標(biāo)注了憤怒、厭惡、恐懼、快樂、悲傷和自然6種基本表情。
SFEW[21]是真實(shí)環(huán)境中的面部表情圖像數(shù)據(jù)庫(kù)。數(shù)據(jù)庫(kù)中包含不受約束和受約束的各種人臉表情圖像,SFEW2.0版本包含958個(gè)訓(xùn)練樣本、436個(gè)驗(yàn)證樣本以及372個(gè)測(cè)試樣本在內(nèi)的7種基本表情。
FED-RO[22]是一個(gè)具有真實(shí)遮擋的面部表情數(shù)據(jù)庫(kù),通過標(biāo)記搜索引擎Google和Bing中挖掘出的具有遮擋的人臉圖像,獲得了7種基本表情的400幅圖片。
EmotioNet[23]數(shù)據(jù)庫(kù)包含了100萬張帶有相關(guān)情感標(biāo)簽的野外面部表情圖像,該數(shù)據(jù)庫(kù)中的圖像具有不同分辨率和不同光照條件,表情類別分為23種。
Multi-PIE[24]是一個(gè)含有不同姿勢(shì)和光照大型表情數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)包含337名志愿者在多種角度以及多種光照環(huán)境下拍攝的750 000張照片,標(biāo)注了厭惡、中性、尖叫、微笑、斜視以及驚奇6種表情。
ExpW[25]數(shù)據(jù)庫(kù)包含在互聯(lián)網(wǎng)上搜索的91 793張人臉圖像,每個(gè)圖像均被手工注釋為7種基本表情類別之一。
AR[26]人臉數(shù)據(jù)庫(kù)包含126人的4 000張人臉圖像,數(shù)據(jù)庫(kù)包含自然、喜悅、羞惱和吃驚4種基本表情,也包含不同角度光照影響以及實(shí)物局部遮擋的人臉圖像。
真實(shí)場(chǎng)景中往往難以獲得清晰、正面、完整的人臉圖像。更多的情況下,計(jì)算機(jī)捕捉到的人臉往往受到很多干擾,比如光照變化、頭部偏轉(zhuǎn)、實(shí)物遮擋等。遮擋直接影響人臉圖像的像素值,導(dǎo)致人臉圖像信息的喪失。當(dāng)面部的遮擋面積過大時(shí),會(huì)造成表情特征的嚴(yán)重缺失,從而導(dǎo)致識(shí)別困難甚至無法識(shí)別。
近年來,隨著深度學(xué)習(xí)網(wǎng)絡(luò)的發(fā)展,很多研究者將深度學(xué)習(xí)引入部分遮擋的人臉表情識(shí)別中來,在傳統(tǒng)的處理方法之上使用深度學(xué)習(xí)網(wǎng)絡(luò)可有效地獲取更準(zhǔn)確的表情特征。不僅減少了傳統(tǒng)特征提取與分類方法的盲目性,并且提高了識(shí)別精度。
由于環(huán)境的復(fù)雜性,會(huì)導(dǎo)致表情識(shí)別面臨許多遮擋。文獻(xiàn)[27]將遮擋分為長(zhǎng)期遮擋和臨時(shí)遮擋,長(zhǎng)期遮擋是指面部固有的一些存在,比如配飾及自身所擁有的成分,而臨時(shí)遮擋是指面部被其他物體在面部移動(dòng)造成的遮擋、外界環(huán)境變化以及自身角度偏轉(zhuǎn)等造成的遮擋。文獻(xiàn)[5]指出人臉表情識(shí)別主要的挑戰(zhàn)來自于光照變化、遮擋、變異姿勢(shì)、身份偏差、定性數(shù)據(jù)不足等,而遮擋和變異姿勢(shì)常發(fā)生在顯示生活之中,因此將部分遮擋根據(jù)真實(shí)物體是否導(dǎo)致遮擋分為人工遮擋和現(xiàn)實(shí)生活遮擋。文獻(xiàn)[28]將現(xiàn)實(shí)生活中的遮擋類型分為光照遮擋、物體遮擋、姿態(tài)變化引起的遮擋以及以上遮擋所導(dǎo)致的混合遮擋等。文獻(xiàn)[29]指出低分辨率問題同樣也是造成人臉表情識(shí)別方法在現(xiàn)實(shí)環(huán)境中性能下降的一大原因,普通相機(jī)捕捉到的面部圖像的分辨率可能會(huì)比較低甚至出現(xiàn)模糊的情況,會(huì)導(dǎo)致人臉圖像缺乏足夠的視覺信息進(jìn)行特征提取。文獻(xiàn)[30]指出光照變化會(huì)給人臉表情識(shí)別帶來一定的阻礙,尤其是在光線過亮或者過暗的情況下,影響對(duì)情感特征的提取。本文綜合分析了該領(lǐng)域的最新進(jìn)展,從光照遮擋、噪聲遮擋、姿態(tài)遮擋以及實(shí)物遮擋的角度展開論述。
人臉在現(xiàn)實(shí)中是以立體的形式出現(xiàn)的。在現(xiàn)實(shí)生活中,光源可能來自不同的方向,會(huì)導(dǎo)致面部明暗分布存在明顯的差異。同時(shí),過度光照和光照不足也可能導(dǎo)致采集到的圖像出現(xiàn)光照遮擋,出現(xiàn)面部表情細(xì)節(jié)丟失,這會(huì)對(duì)后續(xù)的處理帶來一定的影響。
文獻(xiàn)[31]使用對(duì)比度受限的自適應(yīng)直方圖均衡化(combines the limited contrast adaptive histogram equalization,CLAHE)將圖像劃分的子塊進(jìn)行直方圖均衡化,在限制的裁剪值處截?cái)嗷叶确植迹瑢⒋笥诓眉糁档南袼鼐鶆蚍植嫉秸麄€(gè)灰度范圍,可以縮小子塊中局部灰度快速變化引起的局部細(xì)節(jié)差異,從而增強(qiáng)圖像的局部對(duì)比度。然后加入Gamma灰度校正算法來提高圖像的整體亮度,最終有效地處理了因光照過度、弱光和不均勻造成的面部圖像光照遮擋的問題。
為了降低光照遮擋對(duì)表情特征提取的干擾,研究者考慮使用多特征的提取模式,從不同角度描繪表情特征的“容貌”。文獻(xiàn)[32]首先利用Haar小波變換和Gabor濾波器分別提取人臉表情圖像的全局和局部特征,然后使用非線性主成分分析(nonlinear principal component analysis,NLPCA)方法對(duì)提取的高維特征信息進(jìn)行降維處理,以降低訓(xùn)練的時(shí)間復(fù)雜度,最后使用支持向量機(jī)(support vector machine,SVM)分類器對(duì)人臉表情進(jìn)行識(shí)別分類。以實(shí)現(xiàn)在不同的光照條件下獲得更高的人臉情感識(shí)別和分類精度。
文獻(xiàn)[33]使用一種在尺度不變特征變換(scaleinvariant feature transform,SIFT)方法的基礎(chǔ)上改進(jìn)的方法來進(jìn)行情感識(shí)別。首先定義權(quán)重向量對(duì)檢測(cè)到的人臉圖像進(jìn)行形狀分解,使用特征點(diǎn)約束算法優(yōu)化表示表情變化區(qū)域的特征點(diǎn)的最佳位置。然后對(duì)每個(gè)特征點(diǎn)計(jì)算特征參數(shù)以便獲得更多的情感信息,最后用SVM分類器結(jié)合主成分分析法(principal component analysis,PCA)降維并進(jìn)行表情分類。本算法可提高不同面部姿勢(shì)和光照下面部表情識(shí)別的穩(wěn)健性。
文獻(xiàn)[34]研究了復(fù)雜光照環(huán)境下視頻中的面部表情識(shí)別,引入一種新的基于時(shí)間局部尺度歸一化的自適應(yīng)濾波器來提高對(duì)光照條件的穩(wěn)健性。具體操作是使用Viola-Jones算法進(jìn)行面部檢測(cè)并使用深度卷積網(wǎng)絡(luò)(deep convolutional neural network,DCNN)進(jìn)行表情預(yù)測(cè),由于視頻信息是高維數(shù)據(jù),DCNN中的自編碼器可以從這些高維信息中提取有意義的特征,DCNN中的半監(jiān)督學(xué)習(xí)器可以防止自編碼器過度擬合,在半監(jiān)督學(xué)習(xí)器之前添加額外的網(wǎng)絡(luò)層作為光照不變網(wǎng)絡(luò)來引入像素強(qiáng)度的尺度不變性,從而利用輔助神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)光照不變量的計(jì)算。
但是單任務(wù)神經(jīng)網(wǎng)絡(luò)在應(yīng)對(duì)復(fù)雜問題時(shí)有些力不從心,因此研究者又專門設(shè)計(jì)了針對(duì)復(fù)雜光照問題的多任務(wù)神經(jīng)網(wǎng)絡(luò)方法。文獻(xiàn)[35]提出多任務(wù)神經(jīng)網(wǎng)絡(luò),首先利用共享編碼器-解碼器將輸入的圖像提取有識(shí)別能力的特征,并生成光照不變的特征。其次圖像恢復(fù)分支和圖像分類分支并行使用共享權(quán)重將輸入的圖像進(jìn)行情感預(yù)測(cè)。該網(wǎng)絡(luò)由于對(duì)光照變化具有魯棒性的特點(diǎn),因此可以處理光照變化下的人臉表情識(shí)別分類。且可以支持在不帶標(biāo)注的數(shù)據(jù)集上進(jìn)行半監(jiān)督學(xué)習(xí),緩解小數(shù)據(jù)集上可能出現(xiàn)的過擬合問題。但由于是多網(wǎng)絡(luò)并行處理,因此網(wǎng)絡(luò)結(jié)構(gòu)較為復(fù)雜,這會(huì)導(dǎo)致網(wǎng)絡(luò)運(yùn)行時(shí)間成本較高,識(shí)別速率相對(duì)降低。
上述方法均是在可見光的條件下展開實(shí)驗(yàn),而部分研究者決定繞開可見光領(lǐng)域,從不同的光譜頻率上切入部分遮擋的表情識(shí)別問題。其中主動(dòng)近紅外成像(nearinfrared,NIR)是克服光照變化問題的一種方法,它甚至在接近黑暗的情況下依舊有一定的穩(wěn)健性。相比可見圖像的面部特征,主動(dòng)近紅外成像表征的面部清晰無遮擋。文獻(xiàn)[30]使用一種新穎的自動(dòng)面部表情識(shí)別的框架,首先通過使用從數(shù)據(jù)集中學(xué)習(xí)特征向量之間的余弦距離計(jì)算表情特征相似度,然后通過卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)根據(jù)特征相似度來進(jìn)行表情分類。最終實(shí)驗(yàn)證明在強(qiáng)光和弱光的情況下均有不錯(cuò)的識(shí)別效果。由于該模型能夠?qū)W習(xí)不同表達(dá)式的歧義或者相關(guān)性,因此有效地減少相似表達(dá)式的分類誤差,如表2。
表2 光照遮擋的方法性能對(duì)比Table 2 Performance comparison of light occlusion methods
為處理光照不變量造成的光照遮擋,處理方法可分三大類:第一類作用于原始圖像的預(yù)處理階段,使用簡(jiǎn)單且有效的數(shù)學(xué)方法直接計(jì)算像素灰度值。該種方式主要適用于人臉表情數(shù)據(jù)集數(shù)量不多的情況下;第二類方法作用于特征提取階段,使用對(duì)光照具有穩(wěn)健性的特征提取算法來提取不同光照條件下的人臉表情特征,通過提取不隨光照條件變化的特征,來減少不良光照的干擾。相比第一類的方法,該類方法通過在復(fù)雜的光照情況下提取更多的光照不變量,對(duì)人臉表情識(shí)別有著更好的估計(jì)結(jié)果;第三類則是使用深度學(xué)習(xí)網(wǎng)絡(luò)對(duì)人臉圖像進(jìn)行重建,構(gòu)建出光照不變模型。在不同的光照條件下通過使用大量的人臉表情數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)訓(xùn)練、圖像重建,從而得到更精準(zhǔn)的分類識(shí)別結(jié)果。
在現(xiàn)實(shí)環(huán)境中,由于人臉采集設(shè)備和環(huán)境條件的影響,人臉圖像質(zhì)量會(huì)變得較差,低分辨率面部圖像通常缺乏足夠的視覺信息來提取信息特征,低分辨率通常會(huì)導(dǎo)致人臉表情識(shí)別方法識(shí)別性能下降。
傳統(tǒng)的濾波學(xué)習(xí)方法具有較高的泛化能力和穩(wěn)健性,濾波器的設(shè)計(jì)目的是抑制噪聲信號(hào),放大有用信號(hào),從而增強(qiáng)濾波后信號(hào)的可分辨性。然而傳統(tǒng)的濾波器是手工設(shè)計(jì)的,沒有學(xué)習(xí)能力,但隨著卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展,卷積濾波器可以獲得更豐富的表征,因此文獻(xiàn)[29]提出一種基于圖像濾波器的子空間學(xué)習(xí)(image filter based subspace learning,IFSL)方法來對(duì)低分辨率的面部表情進(jìn)行識(shí)別。該方法是一種整體識(shí)別方法,相比局部識(shí)別方法相比,整體識(shí)別方法對(duì)圖像的分辨率的敏感性較低。首先將判別圖像濾波器(discriminative image filters,DIF)學(xué)習(xí)的過程中加入二類線性判別分析(linear discriminant analysis,LDA),可將高維樣本投影到最佳判別子空間有效的進(jìn)行樣本分離,然后線性組合由學(xué)習(xí)的判別圖像濾波器生成過濾圖像,最后根據(jù)組合的結(jié)果使用線性脊回歸(the linear ridge regression,LRR)算法進(jìn)行特征提取。使用此種方法可以顯著地去除不相干信息,有效保留有價(jià)值的表情信息,使得保留下的信息具有很高的可辨別性,提高識(shí)別效率。此方法從圖像濾波的角度解決了訓(xùn)練數(shù)據(jù)受限的問題,因此可以實(shí)現(xiàn)在小訓(xùn)練樣本下完成人臉表情識(shí)別。
文獻(xiàn)[36]基于局部二值模式(local binary pattern,LBP)提出一種具有自適應(yīng)窗口的新的方法來進(jìn)行人臉表情特征的提取,分別對(duì)鄰域和對(duì)角鄰域進(jìn)行計(jì)算,有效地降低了計(jì)算的復(fù)雜度,對(duì)于情感特征描述引入了自適應(yīng)窗口和徑向平均方法修改特征提取的窗口,實(shí)現(xiàn)了噪聲的穩(wěn)健性,這也可以有效地緩解噪聲遮擋的問題。
文獻(xiàn)[37]提出一種具有多標(biāo)簽分布學(xué)習(xí)的有效紅外面部表情識(shí)別方法,使用柯西分布標(biāo)簽學(xué)習(xí)網(wǎng)絡(luò)(Cauchy distribution label learning network,CDLLNet)來構(gòu)造表情標(biāo)簽來克服模糊的面部表情問題。首先計(jì)算同一個(gè)主題的不同面部表情的相似度值,然后利用相似度值構(gòu)造表達(dá)式多標(biāo)簽,使用基于柯西分布的標(biāo)簽學(xué)習(xí)構(gòu)建一個(gè)基于GoogleNet主干網(wǎng)絡(luò)來學(xué)習(xí)紅外表情圖像中的面部特征,引入KL散度來測(cè)量預(yù)測(cè)和真實(shí)分布,這樣對(duì)低質(zhì)量的圖像是穩(wěn)健的,利用協(xié)方差池化層來捕獲二階圖像特征,根據(jù)標(biāo)簽的相似度進(jìn)行分類。
文獻(xiàn)[38]提出了一種微小邊緣感知反饋神經(jīng)網(wǎng)絡(luò)(edge-aware feedback convolutional neural network,E-FCNN)來緩解因圖像分辨率降低而導(dǎo)致人臉表情識(shí)別精度下降的問題。采用超分辨率反饋(facial superresolution,F(xiàn)SR)網(wǎng)絡(luò)的反饋機(jī)制,使用殘差塊在低分辨率特征提取塊和反饋塊之間構(gòu)建分層特征提取結(jié)構(gòu)。并嵌入邊緣增強(qiáng)塊來增強(qiáng)人臉圖像的清晰度,利用上采樣塊放大人臉圖像,補(bǔ)充低頻信息。融合重建的圖像在識(shí)別精度上面保持了良好的水平。
文獻(xiàn)[39]提出一種將人臉的結(jié)構(gòu)信息合并到人臉超分辨率網(wǎng)絡(luò)方法,文獻(xiàn)將超分辨率生成對(duì)抗網(wǎng)絡(luò)(superresolution generative adversarial network,SRGAN)作為基礎(chǔ)網(wǎng)絡(luò),并將網(wǎng)絡(luò)的殘差塊用密集塊替換來提高收斂效果,使用面部關(guān)鍵點(diǎn)的描述面部結(jié)構(gòu)和面部輪廓的趨勢(shì)作為先驗(yàn)信息,添加到人臉特征網(wǎng)絡(luò)層中提高人臉圖像重建的效果。
文獻(xiàn)[40]在特征提取階段采用多示例注意力機(jī)制進(jìn)行人臉特征提取,以緩解低分辨率等不利因素對(duì)特征提取的阻礙。該文獻(xiàn)人臉表情識(shí)別為主,利用人臉性別和年齡雙屬性因子為輔,創(chuàng)造出一個(gè)多任務(wù)識(shí)別模型,使得在低分辨率的圖像中也具有一定的穩(wěn)健性,提高識(shí)別準(zhǔn)確率。由于使用的是基于注意力機(jī)制的多示例特征融合的方法,使得模型結(jié)構(gòu)較為復(fù)雜,增加了運(yùn)算量,進(jìn)而會(huì)導(dǎo)致運(yùn)算速度下降。
對(duì)于低分辨率圖像處理可分為兩種方式:第一類是超分辨率重建算法。使用人臉超分辨率方法將低分辨率的圖像構(gòu)建成高分辨的圖像,使用重建后的圖像再進(jìn)行人臉表情識(shí)別,這類方法是用于從小尺寸低分辨率圖像恢復(fù)大尺寸高分辨率圖像,因此適用于放大較小的人臉圖像。第二類應(yīng)用于特征提取的方法。又可分為基于幾何的方法和基于外觀的方法[41]。基于幾何特征的方法是提取面部成分和形狀位置的特征向量,由于實(shí)時(shí)提取幾何特征相對(duì)困難,因此該方法不適用實(shí)時(shí)的人臉表情識(shí)別;基于外觀的方法,獲取整個(gè)面部或者未被遮擋的特定區(qū)域的人臉表情的紋理結(jié)構(gòu)特征信息,再使用分類器識(shí)別不同人臉的表情。該類方法從人臉中可以提取具有較高區(qū)分度的不同類別之間的特征,從而達(dá)到更好人臉表情識(shí)別效果,如表3。
表3 噪聲遮擋的方法性能對(duì)比Table 3 Performance comparison of noise occlusion methods
人體旋轉(zhuǎn)會(huì)導(dǎo)致面部信息的缺失,而手勢(shì)等姿態(tài)更會(huì)在生活中造成自遮擋的情況。因此姿態(tài)遮擋下的表情識(shí)別,同樣會(huì)面臨面部遮擋的困擾。
文獻(xiàn)[42]提出了一種完全端到端級(jí)聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)(fully end-to-end cascaded convolutional neural network,F(xiàn)EC-CNN)結(jié)構(gòu)。首先將標(biāo)志點(diǎn)周圍的原始圖像裁切成區(qū)域塊,再由三個(gè)具有相同網(wǎng)絡(luò)結(jié)構(gòu)的子卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取并進(jìn)行特征連接,最后通過網(wǎng)絡(luò)中全連接層進(jìn)行預(yù)測(cè)。通過實(shí)驗(yàn)證明,F(xiàn)EC-CNN能夠準(zhǔn)確地檢測(cè)人臉標(biāo)志點(diǎn)位置,并且對(duì)姿勢(shì)、遮擋等大變化具有穩(wěn)健性。但由于為了實(shí)現(xiàn)更好的泛化性,因此該方法選擇進(jìn)行數(shù)據(jù)增強(qiáng),也增加了網(wǎng)絡(luò)過擬合的風(fēng)險(xiǎn)。
文獻(xiàn)[43]提出一種區(qū)域注意網(wǎng)絡(luò)(region attention network,RAN)來緩解卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)遮擋和姿勢(shì)變化環(huán)境中的性能的退化。該算法可以自適應(yīng)地捕獲人臉區(qū)域信息的重要性,并在區(qū)域特征和全局特征之間做出合理的權(quán)衡。首先將人臉圖像進(jìn)行固定或者隨機(jī)裁剪,將其裁剪成為多個(gè)區(qū)域,將裁剪的區(qū)域和整個(gè)人臉圖像輸入到主干卷積神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行區(qū)域特征提取,然后自注意力模塊為區(qū)域進(jìn)行分配注意權(quán)重,并使用選擇性區(qū)域偏損函數(shù)對(duì)RAN施加一個(gè)簡(jiǎn)單的約束來調(diào)整注意權(quán)重,增強(qiáng)有價(jià)值的區(qū)域。該文獻(xiàn)對(duì)圖像進(jìn)行裁剪區(qū)域可以擴(kuò)大訓(xùn)練數(shù)據(jù),并且將區(qū)域重新縮放到原來圖像的大小,可以突顯出更為細(xì)微面部特征,使用區(qū)域偏向損失來提高重要特征點(diǎn)的權(quán)重。由于自注意力機(jī)制需要額外的監(jiān)督機(jī)制來確保功能,因此在較大的遮擋和姿勢(shì)下,該網(wǎng)絡(luò)模型可能無法準(zhǔn)確定位這些未遮擋的面部區(qū)域,網(wǎng)絡(luò)的泛化性較差,在一些數(shù)據(jù)庫(kù)中識(shí)別效果有待提升。
文獻(xiàn)[44]聚焦于未遮擋人臉區(qū)域的表情特征,提出了一種遮擋自適應(yīng)深度網(wǎng)絡(luò)(occlusion-adaptive deep network,OADN)方法。遮擋自適應(yīng)深度網(wǎng)絡(luò)由兩個(gè)分支組成,地標(biāo)引導(dǎo)注意力分支和面部區(qū)域分支。首先利用ResNet50網(wǎng)絡(luò)對(duì)面部區(qū)域進(jìn)行全局特征的提取,隨后地標(biāo)引導(dǎo)注意力分支作用是利用標(biāo)志點(diǎn)檢測(cè)定位引導(dǎo)網(wǎng)絡(luò)專注于未遮擋的面部區(qū)域。主要是利用這些檢測(cè)出的標(biāo)志點(diǎn)的單元信息生成注意圖,通過注意圖對(duì)全局特征進(jìn)行調(diào)制,引導(dǎo)模型濾除遮擋區(qū)域并著重于非遮擋區(qū)域。面部區(qū)域分支是為了緩解因?yàn)槿四槆?yán)重遮擋時(shí)地標(biāo)引導(dǎo)注意力分支的不準(zhǔn)確性。主要方法是將特征映射劃分為非重疊的圖像塊,面部區(qū)域分支來訓(xùn)練表情分類器,以此來學(xué)習(xí)互補(bǔ)的上下文信息從而增強(qiáng)穩(wěn)健性。利用兩分支互補(bǔ)學(xué)習(xí)特征的特點(diǎn),可以更有利地聚焦辨別力很好的面部區(qū)域。相比自我注意力機(jī)制的方法,提出該方法可以更準(zhǔn)確地定位到非遮擋的面部區(qū)域。
文獻(xiàn)[45]提出了一種新的基于手勢(shì)的深度學(xué)習(xí)情感識(shí)別方法解決了因手部遮擋以及頭部旋轉(zhuǎn)的自遮擋而造成無法表情識(shí)別的問題。該方法與新的編碼模式相結(jié)合,從輸入的圖像中準(zhǔn)確地提取出手勢(shì),然后使用卷積神經(jīng)網(wǎng)絡(luò)從輸入的人臉圖像中提取各種顏色和紋理特征,使用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)對(duì)提取的特征進(jìn)行訓(xùn)練生成情感類別。最終實(shí)驗(yàn)的效果不僅大大提高情感識(shí)別的準(zhǔn)確率而且還能識(shí)別比如自信、羞恥等一些高級(jí)情緒。
相對(duì)聚焦面部未遮擋區(qū)域的方法,還有研究者認(rèn)為還原面部遮擋區(qū)域,最大程度地近似人臉圖像的未遮擋狀態(tài),能夠獲得圖像中更多的表情信息。文獻(xiàn)[46]使用生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)對(duì)多角度的人臉表情進(jìn)行識(shí)別,首先為了降低特征提取的難度,利用深度回歸網(wǎng)絡(luò)檢測(cè)人臉圖像的關(guān)鍵點(diǎn)進(jìn)行人臉對(duì)齊,預(yù)處理之后可以去除圖像中的冗余信息,然后將人臉圖像輸入到GAN網(wǎng)絡(luò)的生成器中,在生成器中添加跳過連接使網(wǎng)絡(luò)能夠適應(yīng)多角度圖像,在編碼階段生成器中的編碼器提取人臉圖像的人臉特征,將特征與新的人臉角度編碼信息融合輸入解碼部分,生成不同角度的人臉圖像,然后將多角度的人臉圖像輸入到卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行分類。
文獻(xiàn)[47]提出一種合成生成網(wǎng)絡(luò)(compositional generative adversarial network,Comp-GAN)來生成新的真實(shí)的人臉圖像來解決姿勢(shì)和復(fù)雜表情的變化問題,該網(wǎng)絡(luò)可根據(jù)輸入的圖像動(dòng)態(tài)的改變表情和姿勢(shì),同時(shí)還保留不包含表情的信息。
為解決深度學(xué)習(xí)中個(gè)體差異干擾,減少特征空間中相同表達(dá)的圖像之間的距離,文獻(xiàn)[48]提出一種基于GAN的特征分離模型,用于高純度分離表達(dá)相關(guān)特征和表達(dá)無關(guān)特征的Exchange-GAN,通過部分特征交換和各種損失函數(shù)的約束實(shí)現(xiàn)特征分離,可以獲得高純度相關(guān)情感特征,在人臉表情識(shí)別中,文中使用經(jīng)過訓(xùn)練的編碼器提取輸入圖像的特征,并將提取的特征分離為與表達(dá)無關(guān)的特征張量和與表達(dá)相關(guān)的特征張量,將與表達(dá)相關(guān)的特征張量部分特征輸入分類器進(jìn)行人臉表情分類,在遮擋的人臉圖像提取特征時(shí),可以將遮擋部分定義為與表達(dá)無關(guān)的特征張量,進(jìn)而更專注于提取用于分類的相關(guān)特征。
文獻(xiàn)[49]提出基于幾何信息引導(dǎo)的GAN網(wǎng)絡(luò)結(jié)構(gòu),利用面部標(biāo)志點(diǎn)為限制條件,為了合成任何表情和姿態(tài)的面部圖像。文中將面部圖像以及目標(biāo)標(biāo)志點(diǎn)作為信息輸入,網(wǎng)絡(luò)最終合成一張具有面部標(biāo)志點(diǎn)為主題的新的人臉圖像,并在網(wǎng)絡(luò)中嵌入一個(gè)分類器,以方便圖像表情分類,有效地緩解了因姿態(tài)偏轉(zhuǎn)造成的面部遮擋問題。
然而為了提升GAN等深度學(xué)習(xí)網(wǎng)絡(luò)對(duì)樣本的表情識(shí)別率,最直接的網(wǎng)絡(luò)結(jié)構(gòu)深度化、復(fù)雜化的設(shè)計(jì)思路已被不少研究者放棄,因?yàn)檫@種做法會(huì)增加算法運(yùn)行的時(shí)間成本和設(shè)備成本。目前,越來越多的研究者秉承深度學(xué)習(xí)網(wǎng)絡(luò)的輕量化設(shè)計(jì)理念,開始將其應(yīng)用于表情識(shí)別任務(wù)。文獻(xiàn)[50]提出了一種基于人臉分割的實(shí)時(shí)復(fù)雜表情識(shí)別框架。該框架包括人臉區(qū)域分割網(wǎng)絡(luò)(face segmentation network,F(xiàn)sNet)以及輕量級(jí)表情分類網(wǎng)絡(luò)(tiny classification network,TcNet)。FsNet采用全卷積的U型網(wǎng)絡(luò)結(jié)構(gòu)分割出復(fù)雜環(huán)境人臉圖像中與表情識(shí)別相關(guān)的感興趣區(qū)域,避免了復(fù)雜環(huán)境下利用特征點(diǎn)分割人臉失敗的狀況,大幅度提升復(fù)雜環(huán)境下人臉表情識(shí)別的精度。然后使用深度可分離卷積、線性bottle-necks和倒置殘差結(jié)構(gòu)構(gòu)建的TcNet對(duì)分割的圖像進(jìn)行表情分類。該方法可以減少網(wǎng)絡(luò)參數(shù),提高運(yùn)行速率;并且使用倒置殘差結(jié)構(gòu)可以有效地緩解網(wǎng)絡(luò)特征退化問題。但該網(wǎng)絡(luò)對(duì)負(fù)面情緒的表情辨別能力仍有待提高。
對(duì)于姿態(tài)偏轉(zhuǎn)導(dǎo)致的遮擋,從處理遮擋的角度來說,研究方法大體可分為兩類:第一類是利用剩余可見信息的方法。通常檢測(cè)定位出人臉面部的關(guān)鍵點(diǎn),利用這些關(guān)鍵點(diǎn)對(duì)人臉進(jìn)行面部姿態(tài)矯正,或者在神經(jīng)網(wǎng)絡(luò)中添加注意力機(jī)制,捕獲未被姿態(tài)偏轉(zhuǎn)遮擋的重要的人臉區(qū)域信息,有效地提取相關(guān)表情特征。第二類則是重建面部隱藏的部分。利用算法生成新的人臉圖像來解決姿勢(shì)導(dǎo)致的復(fù)雜表情問題,重建的優(yōu)勢(shì)在于可以識(shí)別面部表情的整個(gè)面部的理想狀態(tài),如表4。
表4 姿態(tài)遮擋的方法性能對(duì)比Table 4 Performance comparison of posture occlusion methods
在實(shí)際的場(chǎng)景中,實(shí)物遮擋也是較為普遍的遮擋方式。日常所佩戴的口罩、眼鏡、帽子、圍巾等裝飾品都會(huì)導(dǎo)致面部信息遮擋,進(jìn)而對(duì)計(jì)算機(jī)的分類識(shí)別帶來巨大的干擾。這些因素通常會(huì)讓模型提取的特征包含冗余的信息,從而失去判斷力,為提高人臉表情識(shí)別在真實(shí)場(chǎng)景下的性能,解決實(shí)物遮擋問題是非常必要的。
以往的面部出現(xiàn)實(shí)物遮擋時(shí),對(duì)待遮擋的方法一般為兩種:基于整體的方法和基于部分的方法?;谡w的方法或?qū)⑷四樧鳛橐粋€(gè)整體直接識(shí)別,或?qū)φ趽鯀^(qū)域進(jìn)行重建,以復(fù)原出完整的人臉?;诓糠值姆椒ㄍǔJ菍D片進(jìn)行分割,然后獲取每一個(gè)分割塊的表情特征。文獻(xiàn)[51]提出了一種新的門控卷積神經(jīng)網(wǎng)絡(luò)(patchgated convolutional neural network,PG-CNN),這是一個(gè)具有自注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),它可以關(guān)注面部圖像的不同區(qū)域,自動(dòng)感知人臉的遮擋區(qū)域,并根據(jù)遮擋情況對(duì)每個(gè)區(qū)域進(jìn)行重新加權(quán),聚焦于信息量最大的且未遮擋區(qū)域,這樣可以減輕因遮擋而導(dǎo)致的信息缺乏問題。該網(wǎng)絡(luò)主要分為兩部分:區(qū)域分解和遮擋感知。首先圖像通過VGG網(wǎng)絡(luò)進(jìn)行特征映射,然后使用PG-CNN網(wǎng)絡(luò)將整個(gè)人臉的特征圖分解成多個(gè)子特征圖,以滿足不同的局部補(bǔ)丁的獲得,使用PG單元為每塊的局部特征加權(quán),為遮擋部分學(xué)習(xí)較低的權(quán)重,為未遮擋并且信息豐富的部分增加比較高的權(quán)重,最后將加權(quán)局部特征連接起來進(jìn)行人臉遮擋表示。使用該方法可以減輕由于缺乏局部信息而造成的影響,可以很好地應(yīng)用于真實(shí)場(chǎng)景的面部遮擋下的人臉表情識(shí)別,但是該方法靠地標(biāo)定位方法來獲取遮擋部位,因此過度依賴于具有穩(wěn)健性的人臉檢測(cè)模塊和人臉地標(biāo)定位模塊。
文獻(xiàn)[52]提出了一種端到端的具有注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network with attention mechanism,ACNN)學(xué)習(xí)框架,可以感知人臉的遮擋區(qū)域,并將注意力集中在最有分辨率的未遮擋區(qū)域。它在文獻(xiàn)[51]基礎(chǔ)上增加了為整個(gè)人臉的特征映射進(jìn)行全局加權(quán),將加權(quán)的全局面部特征與局部表示相連接作為遮擋表示,由于全局區(qū)域與局部區(qū)域的不同,文獻(xiàn)使用基于局部的ACNN(pACNN)進(jìn)行局部面部塊的特征提取,而使用全局-局部的ACNN(gACNN)將局部表示和全局表示進(jìn)行集成。pACNN可以關(guān)注大多數(shù)相關(guān)的局部補(bǔ)丁,而gACNN借助全局加權(quán)的特征獲得更好的準(zhǔn)確率,可以提供pACNN中被局部補(bǔ)丁忽略的基本上下文信息,識(shí)別率有所提高。
文獻(xiàn)[53]提出一種基于空間注意機(jī)制的光注意嵌入網(wǎng)絡(luò)(light attention embedding network based on the spatial attention mechanism,LAENet-SA),使用DenseNet和ResNet作為主干網(wǎng)絡(luò)構(gòu)成LAENet樣本,替換原始主干網(wǎng)絡(luò)的較低卷積層,并在每個(gè)結(jié)構(gòu)化CNN塊之間嵌入注意塊。SA模塊通過根據(jù)表情標(biāo)簽的監(jiān)督自適應(yīng)地重新校準(zhǔn)空間特征圖,使得網(wǎng)絡(luò)專注于面部表情相關(guān)的重要面部局部區(qū)域,通過SA模塊數(shù)量最小,以限制模塊復(fù)雜性的增加,可以將注意掩碼應(yīng)用于不同層次的LAENet-SA中使用,可以增強(qiáng)淺層和深層情感相關(guān)的局部特征,以獲得更優(yōu)的特征提取。通過實(shí)驗(yàn)證明基于DenseNet的LAENet-SA在不同的人臉表情數(shù)據(jù)集中有很好的泛化能力,而基于ResNet的LAENet-SA執(zhí)行時(shí)間短,但在特定的數(shù)據(jù)庫(kù)中識(shí)別效果好。
文獻(xiàn)[54]從全局和局部的角度提出一種全局多尺度局部注意網(wǎng)絡(luò)(multi-scale and local attention network,MA-Net),由于在卷積神經(jīng)網(wǎng)絡(luò)中較淺的卷積具有較窄的感受野,所以可以降低遮擋帶來的敏感性,從而學(xué)習(xí)更全面的特征。在單個(gè)基本塊中提取多尺度特征,而不是以分層方式獲取多尺度特征。所提出的MA網(wǎng)絡(luò)能夠獲得穩(wěn)健的全局和局部特征,MA網(wǎng)絡(luò)中的特征預(yù)提取器利用兩個(gè)ResNet網(wǎng)絡(luò)構(gòu)建基本塊獲取中間層次的人臉特征。設(shè)計(jì)一個(gè)二分支網(wǎng)絡(luò)對(duì)提取的特征圖進(jìn)行處理,一個(gè)是多尺度模塊來提取全局特征,將提取的整個(gè)特征圖作為輸入,由于融合不同感受野的特征,有效降低深度卷積對(duì)遮擋的敏感性;另一個(gè)是用局部注意力模塊更專注于幾個(gè)不重疊的區(qū)域特征圖的局部顯著特征,消除遮擋的干擾。最后使用決策融合進(jìn)行分類。該網(wǎng)絡(luò)具有很強(qiáng)的穩(wěn)健性,在一些常見的野外數(shù)據(jù)集都實(shí)現(xiàn)了很好的性能,但是圖片出現(xiàn)模糊的情況時(shí)便會(huì)降低識(shí)別率。
現(xiàn)有的一些方法通常是將整個(gè)面部作為一個(gè)特征源來進(jìn)行人臉表情分析,但是心理學(xué)研究表明,對(duì)于人臉表情貢獻(xiàn)最大是眼睛和嘴巴等關(guān)鍵區(qū)域,這些區(qū)域通常與表情的表達(dá)有著密切的聯(lián)系。文獻(xiàn)[55]提出了關(guān)系卷積神經(jīng)網(wǎng)絡(luò)(relation convolutional neural network,ReCNN),該框架是一種端到端的體系結(jié)構(gòu)能夠自適應(yīng)地捕捉關(guān)鍵區(qū)域和面部表情之間的關(guān)系,并聚焦于最具辨別力的區(qū)域,使用兩級(jí)關(guān)系模塊計(jì)算關(guān)系權(quán)重,關(guān)系權(quán)重用于量化關(guān)系,可以著重關(guān)鍵區(qū)域。該網(wǎng)絡(luò)分為三個(gè)模塊,特征提取模塊使用VGG-Face來提取整個(gè)人臉的全局特征圖,利用關(guān)鍵區(qū)域生成模塊基于面部肌肉運(yùn)動(dòng)來提取具有代表性的關(guān)鍵區(qū)域,關(guān)系模塊用來發(fā)現(xiàn)和利用關(guān)鍵區(qū)域和面部表情之間的關(guān)系。
文獻(xiàn)[56]提出含有三元損失函數(shù)的師生訓(xùn)練方法,在最后的分類或回歸層之前的一層激活函數(shù)使用三元損失函數(shù)。在神經(jīng)網(wǎng)絡(luò)中,利用三元損失函數(shù)對(duì)于同屬一類的物體產(chǎn)生接近的嵌入,對(duì)不同屬一類的物體產(chǎn)生較遠(yuǎn)的嵌入的特點(diǎn)。來對(duì)遮擋的人臉進(jìn)行表情識(shí)別,該種方法可以應(yīng)用于大面積遮擋的人臉表情識(shí)別,但是在下半臉遮擋的情況下,算法性能有待提高。
文獻(xiàn)[57]針對(duì)口罩遮擋下的人臉表情識(shí)別,提出了一種改進(jìn)的Xception網(wǎng)絡(luò)模型,即M-Xception Net(modified Xception net)方法。該方法簡(jiǎn)化了Xception的參數(shù),保留了殘差機(jī)制和可分離卷積特征。在保證網(wǎng)絡(luò)輕量級(jí)特性的同時(shí),還保留了Xception模型將低層次特征與高層次特征進(jìn)行融合的特性。但是該方法傾向于識(shí)別負(fù)面情緒,對(duì)蘊(yùn)含正面情緒的人臉表情圖像的識(shí)別效果不明。
文獻(xiàn)[58]提出了一種針對(duì)佩戴虛擬現(xiàn)實(shí)眼鏡造成人臉上部遮擋的面部表情識(shí)別方法。首先使用幾何模型進(jìn)行遮擋模擬,然后使用遷移學(xué)習(xí)學(xué)習(xí)不同數(shù)據(jù)集的圖像在卷積之后相似的低級(jí)特征,最后使用VGG和ResNet網(wǎng)絡(luò)對(duì)嚴(yán)重遮擋的面部表情進(jìn)行分類。加入遷移學(xué)習(xí),可以減少?gòu)念^訓(xùn)練的成本,更好地提高計(jì)算速度,但是由于對(duì)眼部進(jìn)行模擬遮蓋,對(duì)真實(shí)場(chǎng)景下的訓(xùn)練結(jié)果還未知,對(duì)于不同的數(shù)據(jù)集的識(shí)別理想效果不一。
對(duì)于實(shí)物遮擋的圖像,通常也會(huì)采用遮擋區(qū)域重構(gòu)的方法進(jìn)行研究。文獻(xiàn)[59]提出一種用原始數(shù)據(jù)的未損壞區(qū)域重建被遮擋區(qū)域的方法,以達(dá)到人臉圖像重建的效果。文中基于人臉大致對(duì)稱的現(xiàn)象,提出另一半未遮擋的人臉來重建有遮擋區(qū)域的遮擋部分,從而降低遮擋的影響。文獻(xiàn)分別從整個(gè)面部遮擋級(jí)別、半面上的塊遮擋級(jí)別以及遮擋眼睛、鼻子和嘴等部位多種方式進(jìn)行遮擋處理,使用AlexNet對(duì)人臉圖像的各種遮擋進(jìn)行特征提取分類,通過結(jié)果測(cè)試卷積神經(jīng)網(wǎng)絡(luò)與翻轉(zhuǎn)策略的結(jié)合可以大大提升遮擋影響下的人臉識(shí)別精度。遮擋策略用于一半臉出現(xiàn)遮擋時(shí)效果較好,但如果遮擋出現(xiàn)在無法使用翻轉(zhuǎn)策略的區(qū)域時(shí),此種方法便不再適用。
文獻(xiàn)[60]提出了一種基于對(duì)稱快速尺度不變特征檢測(cè)器和描述符(SURF)和異構(gòu)軟分區(qū)的新框架,首先利用快速遮擋檢測(cè)模塊來檢測(cè)出被遮擋的區(qū)域,將面部特征點(diǎn)檢測(cè)算法用于遮擋部分的初步檢測(cè),并計(jì)算圖像梯度并設(shè)置閾值得到遮擋區(qū)域,然后基于對(duì)稱轉(zhuǎn)換的無監(jiān)督人臉修復(fù)模塊用來進(jìn)行遮擋修復(fù),根據(jù)人臉特征點(diǎn)檢測(cè)算法建立的關(guān)鍵點(diǎn)坐標(biāo)找到遮擋部分利用水平翻轉(zhuǎn)用原始圖像替代遮擋區(qū)域,最后利用基于異構(gòu)軟分區(qū)的人臉識(shí)別網(wǎng)絡(luò)進(jìn)行表情分類。這種方法不僅耗時(shí)更少,而且計(jì)算量也更少。通過實(shí)驗(yàn)證明,相比遮擋的圖像復(fù)原塊重建之后的人臉表情識(shí)別率大幅度提高。
文獻(xiàn)[61]提出了兩階段的遮擋感知生成對(duì)抗網(wǎng)絡(luò)(occlusion-aware GAN,OA-GAN),第一個(gè)生成器合成相應(yīng)的遮擋圖像;而第二個(gè)生成器在前者生成的遮擋圖像的條件下生成無遮擋的圖像。這樣可以透明地去除真實(shí)世界的遮擋,最大程度地保留有價(jià)值的表情特征,使得去除遮擋的過程具有可解釋性。
文獻(xiàn)[62]提出基于并行GAN網(wǎng)絡(luò)的有遮擋的動(dòng)態(tài)表情識(shí)別方法。對(duì)Inception網(wǎng)絡(luò)進(jìn)行改進(jìn)作為生成模型的編碼器,相比傳統(tǒng)的生成模型,采用雙線路對(duì)圖像進(jìn)行補(bǔ)全。首先使用并聯(lián)網(wǎng)絡(luò)(Para inception network,P-IncepNet)對(duì)人臉表情特征進(jìn)行提取。然后將所提取的特征輸入循環(huán)網(wǎng)絡(luò)(long-short term memory,LSTM)增強(qiáng)視頻中的時(shí)間信息編碼。
文獻(xiàn)[63]基于WassersteinGAN(WGAN)網(wǎng)絡(luò)提出了一種穩(wěn)健的面部表情識(shí)別方法,可以通過抑制類內(nèi)差異和新的數(shù)據(jù)驅(qū)動(dòng)特征提取框架來突出面部特征,然后建立人臉表情識(shí)別任務(wù)和身份識(shí)別任務(wù)之間的對(duì)抗關(guān)系,以抑制人臉表情特征提取過程中身份信息引起的類內(nèi)差異來提高表情識(shí)別的準(zhǔn)確性和穩(wěn)健性。
文獻(xiàn)[64]針對(duì)有局部破損或遮擋的低質(zhì)人臉圖像設(shè)計(jì)了一個(gè)端到端的網(wǎng)絡(luò)模型,將存在局部遮擋的人臉圖像作為生成對(duì)抗網(wǎng)絡(luò)的輸入,利用對(duì)抗損失將遮擋區(qū)域進(jìn)行復(fù)原。在分類過程中使用低質(zhì)人臉表情損失、修復(fù)人臉表情損失和原始人臉表情損失三類分類約束判別損失函數(shù)構(gòu)建分類器,對(duì)圖像進(jìn)行表情分類。修復(fù)后的圖像在算法識(shí)別率上得到大幅度提升。由于是人工遮擋,遮擋區(qū)域主要聚焦于眼部以及嘴部。因此與真實(shí)場(chǎng)景下的遮擋情況相比,缺乏多樣性,這會(huì)影響算法在實(shí)際應(yīng)用中的識(shí)別效果。
不同人產(chǎn)生的相同表情在面部運(yùn)動(dòng)方面有著很強(qiáng)的相似性,并且不依賴于人的身份信息。文獻(xiàn)[65]提出了一種具有跳躍鏈接的自動(dòng)編碼器的新方法,以在光流域中重建遮擋部分。該方法利用所有可見部分進(jìn)行重建,因此重建的圖像具有更高的可信度,對(duì)于眼睛遮擋的圖像有著很大的改善。但伴隨著重建圖像真實(shí)性的提高,算法也變得更加復(fù)雜,如表5。
表5 實(shí)物遮擋的方法性能對(duì)比Table 5 Performance comparison of physical occlusion methods
對(duì)于實(shí)物遮擋的遮擋方法可根據(jù)數(shù)據(jù)庫(kù)的類型分為靜態(tài)表情識(shí)別方法和動(dòng)態(tài)表識(shí)別方法。
靜態(tài)人臉表情識(shí)別方法可分為三類:第一類是基于人臉關(guān)鍵點(diǎn)的方法,由于人的面部可以被劃分為多個(gè)人臉關(guān)鍵點(diǎn)標(biāo)識(shí),即使面部被部分遮擋,仍可關(guān)注未遮擋區(qū)域的關(guān)鍵點(diǎn),因此提出注意力分支來引導(dǎo)神經(jīng)網(wǎng)絡(luò)關(guān)注無遮擋區(qū)域的關(guān)鍵點(diǎn)進(jìn)行表征學(xué)習(xí),來獲取更多的情感信息;第二類是基于人臉局部區(qū)域的方法。將圖片分解成較小的區(qū)域塊,通過加入注意力機(jī)制模塊可以自適應(yīng)的捕獲人臉區(qū)域的重要特征信息,對(duì)未遮擋且重要的區(qū)域進(jìn)行較高權(quán)重的分配,來提高相關(guān)特征的重要度;第三類是基于重構(gòu)遮擋的方法。試圖通過恢復(fù)紋理、幾何形狀以及面部運(yùn)動(dòng)來重建人臉。利用一些方法對(duì)遮擋部分進(jìn)行遮擋重構(gòu)處理來去除遮擋,盡可能地還原圖像,從而減少面部遮擋帶來的信息損失。
動(dòng)態(tài)表情識(shí)別方法可分為三類:第一類是基于人臉關(guān)鍵點(diǎn)軌跡的方法。獲取人臉關(guān)鍵點(diǎn)軌跡,則是依據(jù)人臉生理結(jié)構(gòu)捕捉人臉形狀特征在時(shí)間序列內(nèi)的動(dòng)態(tài)變化。第二類是基于時(shí)序編碼的方法。提取有表情判別能力的空間特征然后將該信息依次輸入到時(shí)序網(wǎng)絡(luò)中進(jìn)行時(shí)序信息的編碼。第三類是基于多任務(wù)網(wǎng)絡(luò)的方法。訓(xùn)練多個(gè)網(wǎng)絡(luò)來捕捉時(shí)間信息和空間信息,然后將其輸出加權(quán)融合。
人的面部獨(dú)特性對(duì)于人類的身份以及情感分析具有非凡的意義,通過利用人臉進(jìn)行表情識(shí)別將對(duì)人們的工作、學(xué)習(xí)、生活都將帶來極大的便利[66]。但這項(xiàng)技術(shù)仍然面臨著諸多的挑戰(zhàn)。遮擋表情識(shí)別可以在以下方面開展深入研究:
(1)從實(shí)驗(yàn)數(shù)據(jù)入手,建設(shè)以實(shí)踐為導(dǎo)向的專業(yè)數(shù)據(jù)庫(kù)
遮擋表情識(shí)別是一個(gè)剛剛起步的研究領(lǐng)域,因此在實(shí)驗(yàn)過程中缺乏專業(yè)的、多樣的、大型的人臉表情數(shù)據(jù)庫(kù)[67]。研究者為了解決這一問題,通常采用兩種方式:其一、在專業(yè)的無遮擋表情數(shù)據(jù)庫(kù)上,采用人工遮擋的方式獲取面部遮擋圖像。例如:文獻(xiàn)[58]為了解決沒有佩戴VR頭戴設(shè)備人群的數(shù)據(jù)庫(kù),便使用標(biāo)準(zhǔn)的面部表情圖像的上區(qū)域進(jìn)行遮掩,實(shí)現(xiàn)相應(yīng)的遮擋需求。文獻(xiàn)[68]為了使用遮擋圖像對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,使用一定大小的遮擋塊對(duì)現(xiàn)有的無遮擋數(shù)據(jù)進(jìn)行模擬遮擋操作;其二、搜集網(wǎng)絡(luò)圖片或自建小型的面部遮擋數(shù)據(jù)。例如:文獻(xiàn)[69]自建一個(gè)新的多模態(tài)數(shù)據(jù)庫(kù)來進(jìn)行情感識(shí)別。但是這兩種做法的局限性較為突出,前者與真實(shí)情況有出入,而且表情類型受限于源數(shù)據(jù)庫(kù);后者搜集的樣本面臨著表情類別標(biāo)記問題。自建圖像庫(kù)則受限于規(guī)模,而且亟需行業(yè)內(nèi)的認(rèn)可。
針對(duì)這一問題可以通過兩個(gè)方面加以完善。首先,遠(yuǎn)期目標(biāo)是建立自然場(chǎng)景下的專業(yè)的大型數(shù)據(jù)庫(kù)。以便研究在真實(shí)環(huán)境下,遮擋物的材質(zhì)、大小、形狀、位置等不同屬性對(duì)人臉表情識(shí)別帶來的挑戰(zhàn),增強(qiáng)算法的泛化能力,降低實(shí)驗(yàn)數(shù)據(jù)與真實(shí)數(shù)據(jù)的距離。
其次,近期目標(biāo)是在現(xiàn)有數(shù)據(jù)庫(kù)的基礎(chǔ)上進(jìn)行深度開發(fā)。一方面在算法上入手,研發(fā)針對(duì)小樣本數(shù)據(jù)集的面部遮擋表情識(shí)別算法。例如:文獻(xiàn)[70]就基于SIFT算法不依賴大數(shù)據(jù)的特點(diǎn),利用融合模型解決了卷積神經(jīng)網(wǎng)絡(luò)依賴大數(shù)據(jù)集訓(xùn)練的問題,提高在小樣本集中的準(zhǔn)確率;另一方面在數(shù)據(jù)上入手,針對(duì)目前面部遮擋條件下,對(duì)復(fù)合表情[71]識(shí)別研究不足的現(xiàn)狀,積極開展對(duì)現(xiàn)有數(shù)據(jù)集進(jìn)行復(fù)合表情標(biāo)注與識(shí)別的研究。提高對(duì)遮擋圖像的復(fù)合表情識(shí)別的研究深度。
(2)從模型方法入手,設(shè)計(jì)以實(shí)踐為導(dǎo)向的輕量級(jí)網(wǎng)絡(luò)
深度學(xué)習(xí)成為了席卷表情識(shí)別領(lǐng)域的一股浪潮。為了提高深度學(xué)習(xí)模型的表情識(shí)別率,普遍的網(wǎng)絡(luò)設(shè)計(jì)方法是通過堆疊網(wǎng)絡(luò)層增加尺度和深度。此類模型往往具有復(fù)雜的結(jié)構(gòu),并且占用著大量的計(jì)算資源。這使得它們很難部署在移動(dòng)端等常見的軟件應(yīng)用平臺(tái)之上。因此降低網(wǎng)絡(luò)復(fù)雜度,構(gòu)建以實(shí)踐為導(dǎo)向的輕量級(jí)網(wǎng)絡(luò),成為了遮擋表情識(shí)別研究的另一個(gè)重要方向。目前出現(xiàn)的輕量化手段有兩種:一種是在現(xiàn)有網(wǎng)絡(luò)基礎(chǔ)上的模型輕量化處理。常見方法有剪枝、量化、低秩分解、教師-學(xué)生網(wǎng)絡(luò)[72]等;一種是構(gòu)建專門的輕量化模型。例如:經(jīng)典的輕量化模型SqueezeNet,通過設(shè)計(jì)的Fire模塊將原始的卷積層進(jìn)行分解,從而達(dá)到減少模型參數(shù),提高運(yùn)算速度的目的。
然而,與遮擋表情識(shí)別任務(wù)相匹配的輕量級(jí)網(wǎng)絡(luò)研究仍處于起步階段,因此本領(lǐng)域亟待研究者鉆研、開拓。
(3)從研究思路入手,開展以實(shí)踐為導(dǎo)向的多領(lǐng)域研究
遮擋表情識(shí)別的研究不能局限于人臉識(shí)別和表情識(shí)別的一般思路。應(yīng)該從實(shí)踐出發(fā),結(jié)合多領(lǐng)域的研究成果,拓展該項(xiàng)研究在交叉學(xué)科下的發(fā)展。
首先,結(jié)合在測(cè)謊、國(guó)民安全等領(lǐng)域發(fā)揮重要作用的微表情理論,探索人臉部分遮擋下的表情識(shí)別研究。
從理論上看,面部遮擋條件下表情識(shí)別的準(zhǔn)確性取決于對(duì)局部人臉細(xì)節(jié)的精確把握。而微表情正是面部肌肉細(xì)微運(yùn)動(dòng)下展現(xiàn)的表情形態(tài)。因此,遮擋表情識(shí)別正是微表情應(yīng)用的直接領(lǐng)域。目前微表情研究成果多與表情識(shí)別中的面部行為編碼系統(tǒng)相結(jié)合。通過人臉動(dòng)作單元[73]描述臉部,即,有運(yùn)動(dòng)產(chǎn)生的表觀變化。例如:文獻(xiàn)[74]使用一種基于動(dòng)作單元注釋的新型GAN網(wǎng)絡(luò)調(diào)節(jié)方案,使得GAN網(wǎng)絡(luò)生成的圖像對(duì)光照變化以及各種遮擋具有一定的穩(wěn)健性。然而微表情的主攻方向是心理學(xué),很多研究成果還不具備自動(dòng)化計(jì)算的基礎(chǔ),仍需要多學(xué)科研究者的密切配合才能實(shí)現(xiàn)。
其次,結(jié)合在人機(jī)交互領(lǐng)域發(fā)揮重要作用的多模態(tài)情感計(jì)算技術(shù),探索人臉部分遮擋下的表情識(shí)別研究。
在遮擋條件下,研究者雖然無法獲取遮擋區(qū)域的完整表情細(xì)節(jié),但卻可以另辟蹊徑,繞開面部視覺特征,從其他角度獲取情感信息。進(jìn)而緩解遮擋帶來的表情識(shí)別阻礙,催生出更優(yōu)的方法來處理人臉部分遮擋問題,綜合各種情感特征,實(shí)現(xiàn)情感判斷。例如:文獻(xiàn)[75]認(rèn)為情緒化的肢體語言也是情感識(shí)別的重要參考依據(jù),并總結(jié)出從身體姿態(tài)來進(jìn)行識(shí)別情感的相關(guān)研究。文獻(xiàn)[69]使用顏色、深度和熱視頻來識(shí)別維度域中的面部表情。文獻(xiàn)[76]使用熱模態(tài)的頭部運(yùn)動(dòng)和皮膚溫度的信息用于面部表情識(shí)別當(dāng)中。
綜上所述,遮擋表情識(shí)別是人臉表情識(shí)別從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用過程中,亟待解決的重要技術(shù)難題。解決這一問題,對(duì)于模式識(shí)別領(lǐng)域相關(guān)技術(shù)的落地也會(huì)起到重要的指導(dǎo)作用。