摘 要: "在真實環(huán)境下遮擋是準確分析識別人臉表情的主要障礙之一。近年來研究者采用深度學習技術解決遮擋條件下表情誤識別率高的問題。針對遮擋表情識別的深度學習算法和遮擋相關的問題進行歸納總結(jié)。首先,概括局部遮擋條件下表情識別的發(fā)展現(xiàn)狀、表情的表示方式以及研究遮擋表情用到的數(shù)據(jù)集;其次,回顧遮擋表情識別深度學習方法的最新進展和分析遮擋對表情的影響;最后,總結(jié)主要技術挑戰(zhàn),研究難點及其可能的應對策略。目的是為將來的遮擋表情識別研究提供更有益的參考依據(jù)和基準。
關鍵詞: "人臉表情分析; 表情識別; 局部遮擋; 深度學習
中圖分類號: "TP391.41 """文獻標志碼: A
文章編號: "1001-3695(2022)02-001-0321-10
doi:10.19734/j.issn.1001-3695.2021.08.0307
Research progress of deep learning methods for "occlusion facial expression recognition
Nan Yahui1,2, Hua Qingyi1
(1.School Information Science amp; Technology, Northwest University, Xi’an 710127, China; 2.Dept. of Computer Science amp; Technology, Lyuliang University, Lyuliang Shanxi 033000, China)
Abstract: "Occlusion in a real environment is one of the main obstacles to accurately analyze and recognize facial expressions. In recent years, researchers have used deep learning technology to solve the problem of high misrecognition rate of facial expressions under occlusion conditions. It mainly summarized the deep learning algorithm of occlusion facial expression recognition and occlusion-related issues. Firstly, this paper summarized the development status of facial expression recognition under partial occlusion conditions, expression representation, and the data set used to study occlusion expression. Secondly, it reviewed the occlusion expression identify the latest developments in deep learning methods and analyzed the impact of occlusion on expressions. Finally, it summarized the main technical challenges, research difficulties and possible coping strategies. The purpose is to provide a more useful reference and benchmark for future research on occlusion expression recognition.
Key words: "facial expression analysis; emotion recognition; partial occlusion; deep learning
表情是人類心理狀態(tài)(如喜怒哀樂)在面部的反映,識別和利用人臉表情信息可以使各種應用程序和用戶更好地交流、提供更為個性化的服務和幫助。因此,自動人臉表情識別成為當前人工智能、人機交互以及圖像識別等領域的研究熱點之一。雖然正面人臉表情識別在實驗室環(huán)境下已經(jīng)達到了相當高的準確率,但是由于外部環(huán)境變化,如遮擋、面部姿態(tài)變化、光照變化、頭部運動、年齡、性別、膚色以及文化差異等,使準確識別人臉表情遇到了各種各樣的挑戰(zhàn)。所以,在不可控的真實環(huán)境中,如何準確地識別人臉表情,仍然是一個亟待解決的重大課題。表情識別是利用已有的情感信息,通過提取和分析面部圖像的特征,讓計算機獲得人類的學習和推理能力。在現(xiàn)實場景中,面部的某些器官會被眼鏡、帽子、圍巾、手、胡須或頭發(fā)等遮擋。遮擋會極大地改變?nèi)四樀囊曈X外觀,嚴重影響人臉表情識別的準確度。由于遮擋導致人臉特征定位不準確、人臉對齊不精確或配準錯誤,進而增加了從被遮擋的面部提取可鑒別特征的難度[1]。與此同時,遮擋也會在提取特征時引入噪聲等異常信息,致使同一類表情的內(nèi)部差異增大,增加了表情識別的難度。所以,遮擋是實際應用中準確分析識別表情的主要障礙之一。
人臉表情識別系統(tǒng)的一般過程分為人臉圖像的獲取與預處理、表情特征的提取和表情分類三步(圖1)。其中,由于提取特征是分類的主要依據(jù),提取特征的準確性和完整性將直接影響表情分類的性能。人臉表情識別的傳統(tǒng)特征提取方法主要是通過手工特征生成特征工程,包括局部二值模式[2]、線性判別分析[3]、主成分分析[4]、尺度不變特征變換[5]等,特征分類器有支持向量機[6]等。由于生成特征工程耗時耗力,而處理的數(shù)據(jù)量與日劇增,智能的深度學習技術逐漸成為圖像處理中特征提取的主流方法。深度卷積神經(jīng)網(wǎng)絡在各種圖像分類任務中取得了豐碩的成果[7, 8]。基于卷積、池化和分層結(jié)構(gòu)的局部到全局特征學習的精心設計使其具有很強的視覺表征能力,是人臉表情識別的有力工具?;诰矸e神經(jīng)網(wǎng)絡(CNN)的方法在表情識別任務中具有突出優(yōu)勢,但對遮擋表情識別問題及其相關算法的發(fā)展卻明顯滯后。在早期的人臉表情識別綜述中[9~11],沒有論文專門研究某種技術抑制或解決面部遮擋問題,針對遮擋表情識別的綜述[12]也較少,目前缺少專門針對遮擋條件下深度學習表情識別方法的綜述。
1 背景
1.1 遮擋人臉表情識別發(fā)展
面部表情的研究始于1872年,達爾文[13]闡述了人和動物面部表情之間的區(qū)別和聯(lián)系。1971年,Ekman[14]對現(xiàn)代人臉表情識別做出了開創(chuàng)性工作,跨文化和種族地研究了人類的六種基本表情(高興、悲傷、驚訝、恐懼、憤怒、厭惡),這表明全人類對某些基本情緒的感知方式是相同的。雖然人類的面部表情極其復雜,遠不止這六種,但都可以由這六種基本表情經(jīng)過復雜的融合生成。在此基礎上,他們建立了面部運動編碼系統(tǒng)(facial action coding system,F(xiàn)ACS)[15]。該系統(tǒng)根據(jù)肌肉的運動區(qū)域?qū)⑷四槃澐譃槎鄠€運動單元(action units,AU),AU的不同組合可用于描述各類表情。直到20世紀80年代,大多數(shù)表情識別工作都是由哲學家和心理學家提出 [16]的。Kenade[17]和Sown[18]是最早使用計算機技術識別表情的兩位研究者,他們開發(fā)了計算機程序提取面部特征點來分析人臉并代表面部表情。經(jīng)歷了20世紀70和80年代發(fā)展低潮期,90年代終于迎來了人臉表情識別系統(tǒng)的迅猛發(fā)展,從分析識別在受控的實驗室環(huán)境中收集的有意擺拍的近似正面人臉原型表情,到從非約束環(huán)境中收集的自發(fā)喚起的自然表情[19]。
在意識到遮擋對表情識別的巨大影響后,自1920年以來,大量的心理研究者[20,21]開始研究對人類感知和識別面部表情影響最大的面部組件(例如眼睛對情緒的識別和表情的影響要小于嘴巴的影響,尤其是“高興”表情)。2001年,Bourel等人[22]首次提出了遮擋條件的第一個人臉表情識別機器系統(tǒng)。該方法自動跟蹤圖像序列中的人臉特征點,并用來表示幾個感興趣區(qū)域組成的人臉模型。決策級融合將人臉模型的組件解釋轉(zhuǎn)換為全局識別評分,用來研究在鼻子以上的面部、嘴巴和左右半邊面部區(qū)域的遮擋對表情識別的影響。受此工作的啟發(fā),大多數(shù)早期研究[23,24]都專注于從靜態(tài)圖像遮擋的人臉中恢復幾何特征,以及使用單一的全局分類器對面部表情進行分類。更多的最新進展[25,26]已轉(zhuǎn)向采用紋理特征及與二維圖像或三維視頻序列中的幾何特征相結(jié)合,融合來自不同面部區(qū)域的多個局部分類器,得到整個面部表情的最終分類決策。Kotsia等人[27]采用一種基于Gabor小波紋理信息提取的方法把面部遮擋對六種基本表情識別的影響進行了較全面的分析,其結(jié)果與人類觀察研究的結(jié)果基本一致。隨著深度學習技術的廣泛應用,最近的研究[28~30]專注于使用深度神經(jīng)網(wǎng)絡直接對被遮擋的人臉圖像進行表情識別,而不涉及遮擋檢測、手工特征提取和分類器設計等步驟?;谏蓪咕W(wǎng)絡的方法[29,31]試圖恢復被遮擋區(qū)域后對表情進行識別。雖然當前的研究中包含更多類型的遮擋和數(shù)據(jù)集,但已有的研究大多是基于有限數(shù)量的人工合成的遮擋類型,因此,對遮擋條件下人臉表情識別深度學習方法的研究發(fā)展相對緩慢。
1.2 表情的表示方法
描述面部表情是評價表情識別系統(tǒng)有效性的前提條件,尤其是在存在遮擋的情況下。現(xiàn)有的研究通常采用基于信息的方法和基于面部組件運動的方法表示面部表情。
基于信息的方法可進一步分為離散分類和連續(xù)維方法。離散分類方法是心理學家描述面部表情最常用和最廣泛使用的方法。該方法將一種表情劃分為一個預定義的原型類別,如六種基本表情[32]。該理論創(chuàng)造了一種方便的方式來表示日常生活中觀察到的面部表情,使用一組具體含義的情感詞匯,這與人類的理解高度一致。然而,該理論只能代表自然交流條件下混合復雜情緒的一小部分。研究表明,單純的原型表情較少出現(xiàn),人類在現(xiàn)實生活中經(jīng)常表現(xiàn)出混合表情。連續(xù)維表示法起源于心理學領域[33]。它在多維空間中使用連續(xù)軸來描述面部表情,并將每個表情表示為空間中的一個點或一個區(qū)域。最常用的空間由二維和三維表示組成。維度空間相對于離散類別和AU的優(yōu)勢在于使用一組連續(xù)的軸值代表大量不同類型的情感,包括那些經(jīng)常出現(xiàn)在現(xiàn)實情況下的自然的非原型情感。它們可以提供有用的見解,以了解表情的強度以及表情類別之間的相似性和變化。事實上,由于連續(xù)軸的情感標注需要專門訓練的標注者,同時,一些表情在有限的維度上變得難以區(qū)分,所以該方法不能直接將分析結(jié)果應用于實際。
基于面部成分運動的方法是利用個體面部肌肉的運動來編碼表情狀態(tài)的。該方法的實例包括FACS[15]、情緒面部動作編碼系統(tǒng)(EMFACS)、最大區(qū)分性面部動作編碼系統(tǒng)(MAX)[34]和基于概率的AU空間[35]。FACS最初由Ekman等人在1978年開發(fā),定義了44個AU來編碼面部肌肉的運動。每個AU對應著單個或多個面部肌肉的收縮或拉伸,根據(jù)其位置和強度,這些肌肉可以產(chǎn)生特定的面部動作。
盡管離散分類方法在日常情感表現(xiàn)和其他情緒描述模型 (如面部動作編碼系統(tǒng)和使用情感維度的連續(xù)模型) 的復雜性和微妙性方面的能力有限,但是它被認為代表了更廣泛的表情。通過離散方法描述情緒分類模型,由于其開創(chuàng)性的研究以及對面部表情直接和直觀的定義,仍然是表情識別最流行的處理方式。本文限制在離散分類方法的人臉表情識別討論中。
1.3 面部遮擋的主要類型和特征
由于外界環(huán)境的復雜性與可變性,導致面部遮擋類型千差萬別。一般來說,遮擋主要有長期遮擋和臨時遮擋[23]兩種類型。長期遮擋是由個別面部成分的存在(如頭發(fā)、胡須或疤痕)或佩戴飾物,如圖2(a)所示。臨時遮擋是指臉部的一部分被其他物體暫時遮擋(如物體在臉部移動或用手遮擋面部)、來自環(huán)境條件的變化(光照或陰影)、由于頭部姿勢的變化而產(chǎn)生的自遮擋或臨時將物體放在面前,如圖2(b)所示。日常生活中,人類需要與環(huán)境不斷互動,因此,自遮擋比其他類型的臨時遮擋發(fā)生的頻率更高。面部遮擋不一定局限于長期或臨時遮擋,它可以由多種遮擋類型疊加組成,如圖2(c)所示。在特殊情況下,如圖2(d)所示,模糊、人工打碼遮擋或文本被專門添加到臉部以隱藏個人身份。
面部遮擋有幾個明顯的特征,使其特別難以處理:
a)不同類型。遮擋的類型取決于面部呈現(xiàn)的環(huán)境。除非預先知道在特定的環(huán)境中會發(fā)生什么類型的遮擋,否則表情識別系統(tǒng)應該考慮所有可能的類型,這是非常具有挑戰(zhàn)性的,至少目前在技術上是不可行的。
b)混合類型。多種類型的遮擋可能共存于面部。由于分離混合遮擋技術仍然是一個未探索的領域,所以混合遮擋的頻繁存在使得處理遮擋和研究單個遮擋的難度增加。
c)遮擋位置不固定。大多數(shù)類型的遮擋通常不是固定在臉部的某個位置。雖然對于某些經(jīng)常性遮擋,例如眼鏡和帽子,其位置大致可以預測,但仍然很難預測其準確位置,而對于暫時性遮擋,如手遮擋,預測則更加困難。
d)持續(xù)時間長短不等。不同類型的遮擋可能存在的時間長短不同。手在臉上移動造成的遮擋預計只持續(xù)幾秒,而太陽鏡的遮擋通常在視頻序列的總持續(xù)時間內(nèi)都存在。因此,遮擋的持續(xù)時間很大程度上取決于遮擋的性質(zhì)。
e)不可預測的性質(zhì)。由于遮擋物體的可變性,產(chǎn)生遮擋
的視覺屬性(形狀、外觀和大?。┩y以預測。例如,太陽 ""鏡、近視眼鏡和防護眼鏡的視覺外觀存在很大的差異。
f)局部的影響。不同于姿態(tài)和光照變化,它們通常會影響整個面部區(qū)域,而大多數(shù)類型的遮擋只影響面部的一小部分。因此,可以使用未被遮擋的臉部信息補償或推理出被遮擋的信息,這一特性可作為一個優(yōu)點。
2 相關數(shù)據(jù)集
能夠訪問具有良好標注的公開表情數(shù)據(jù)集是評價表情識別系統(tǒng)的先決條件。許多帶有面部遮擋的數(shù)據(jù)集[36]被用于人臉識別,但很少有專門針對遮擋表情識別的數(shù)據(jù)集。本章介紹深度學習技術遮擋人臉表情識別實驗相關的公開數(shù)據(jù)集(圖3),這些數(shù)據(jù)集廣泛用于現(xiàn)有人工合成的遮擋研究和系統(tǒng)評估。
表1列出了相關數(shù)據(jù)集的主要特征,可以看到所有的數(shù)據(jù)集都在以下范圍內(nèi)收集:a)主要使用離散的類別或AU表示表情;b)數(shù)據(jù)收集來自實驗室環(huán)境人工擺拍或現(xiàn)實自然表現(xiàn)的表情;c)專注于手、眼鏡、頭發(fā)等遮擋和單個人的表情遮擋;d)通過頭部姿態(tài)變化聚焦自遮擋。
3 遮擋人臉表情深度識別方法
遮擋條件下,主要利用單一的深度學習體系架構(gòu)研究人臉表情識別。本文并非對以前所有深度學習表情識別方法進行全面的總結(jié),而是將其限制在使用或研究了部分遮擋表情數(shù)據(jù)的深度學習方法。根據(jù)處理面部遮擋的策略不同,現(xiàn)有的深度學習人臉表情識別方法[47]大致可以分為修復遮擋區(qū)域方法、子區(qū)域分析方法和特征融合的方法。
3.1 重建遮擋區(qū)域的方法
由于遮擋區(qū)域可能是眼睛、嘴巴或鼻子,直接識別被遮擋的表情圖像是不現(xiàn)實的。遮擋區(qū)域包含了豐富的表情特征,如果不進行去遮擋處理,將會丟失關鍵的表情特征信息,從而導致后續(xù)的識別不能順利進行。因此,被遮擋的人臉表情識別應首先對遮擋區(qū)域進行補全,進一步根據(jù)補全的表情圖像進行識別。
從圖像生成角度看,人臉圖像的補全可以理解為概率分布的學習問題。圖像像素之間存在上下文語義關聯(lián),即每個像素的值都可以看做是圖像概率空間中的樣本,填充后的圖像在表情和上下文之間應該與原始未遮擋的圖像保持一致。其中最具代表性的是CNN。Ranzato等人[48]提出使用門控馬爾可夫隨機場(MRF)作為深度信念網(wǎng)絡(DBN)的前端學習圖像的深度生成模型,學到的特征能夠很好地識別人臉表情。利用模型的生成能力,通過填充來處理遮擋區(qū)域。但是該模型是在預先知道遮擋部位的前提下完成的,而現(xiàn)實中遮擋區(qū)域是很難提前預知的。Pathak等人[49]在2016年提出了一種基于上下文編碼器的圖像互補方法。他們建立了編碼器—解碼器結(jié)構(gòu)的神經(jīng)網(wǎng)絡,并從遮擋圖像中的未遮擋區(qū)域推斷出遮擋區(qū)域的信息,以提高填充圖像的質(zhì)量。該方法在像素重建損失的基礎上增加了生成圖像真實性的鑒別損失。
除了CNN,還有生成式對抗網(wǎng)絡(GAN)也應用于圖像生成領域。王素琴等人[50]提出基于生成對抗網(wǎng)絡的表情識別算法,先由生成器和鑒別器對遮擋人臉圖像填補修復,再由卷積神經(jīng)網(wǎng)絡分類器進行表情識別,在添加黑色矩形框模擬眼部、嘴巴和隨機遮擋的CK+數(shù)據(jù)集上取得了較高的表情識別率。王海涌等人[29]提出一種基于改進生成式對抗網(wǎng)絡的表情識別模型,先利用由自動編碼器構(gòu)成的生成器和兩個鑒別器(局部和全局)的對抗學習對遮擋人臉圖像進行填補修復,再在全局鑒別器后面添加多分類層進行表情識別。楊魯月等人[31]提出一種基于并行的GAN。首先為局部遮擋訓練一個基于CC-GAN(context-conditional GAN)的優(yōu)化生成對抗網(wǎng)絡模型,構(gòu)建了一個并聯(lián)網(wǎng)絡結(jié)構(gòu)P-IncepNet(para inception network)來代替?zhèn)鹘y(tǒng)的生成模型,采用雙線路模式進行圖像補全。其次將構(gòu)建的并聯(lián)網(wǎng)絡與長短時記憶網(wǎng)絡(LSTM)進行級聯(lián),充分利用并聯(lián)網(wǎng)絡的特征提取和 LSTM 的時空信息獲取能力,訓練得到一個更具魯棒性的動態(tài)表情識別網(wǎng)絡。孫超[51]提出一種平行生成對抗網(wǎng)絡應用于遮擋表情識別任務中,使用七個平行的生成對抗網(wǎng)絡還原修復遮擋的人臉表情圖像對應七種表情類別,把修復后的圖像送入分類器進行表情識別。姚乃明等人[52]提出了一種基于Wasserstein生成式對抗網(wǎng)絡(WGAN)的人臉圖像生成網(wǎng)絡,能夠為圖像中的遮擋區(qū)域生成上下文一致的補全圖像以及一個表情識別網(wǎng)絡,能夠通過在表情識別任務和身份識別任務之間建立對抗關系來提取用戶無關的表情特征并推斷表情類別。Lu等人[53]基于Wasserstein生成對抗網(wǎng)絡(WGAN)模型,構(gòu)造了一個生成器和兩個鑒別器來實現(xiàn)遮擋人臉圖像的互補。該方法利用重構(gòu)損失、三聯(lián)體損失和對抗損失來實現(xiàn)遮擋人臉圖像的互補。但是,由于遮擋的位置和類型太多,無法準確地重建人臉圖像,使得去遮擋圖像的可視化效果并不理想。
利用深度生成模型重構(gòu)這些被遮擋區(qū)域,并從重構(gòu)的人臉中訓練表情分類器。然而,由于訓練的遮擋類型有限,這些方法不能很好地泛化真實的被遮擋的面部圖像。
3.2 子區(qū)域分析方法
心理學研究表明,人類可以有效地利用局部區(qū)域和整體面部感知不完整面部傳遞的語義[54]?;谌祟愐曈X系統(tǒng)善于忽略遮擋而專注于非遮擋的面部區(qū)域這一事實,子區(qū)域分析方法明確地將人臉劃分為幾個區(qū)域,并根據(jù)這些區(qū)域?qū)Ρ砬檫M行分類。當面部的某些區(qū)域(如左下臉頰)被遮擋時,人類可能會根據(jù)面部的對稱部分(如右下臉頰)或其他高度相關的面部區(qū)域(如眼睛或嘴巴的特點)來判斷表情。Li等人[55]提出了一種端到端可訓練的patch-gated CNN,它能自動檢測被遮擋的區(qū)域,并聚焦于最有分辨力的非遮擋區(qū)域。PG-CNN基于68個面部地標點,選取24個興趣點,將選取的24個區(qū)域塊輸入注意網(wǎng)絡自動感知被遮擋的面部區(qū)域,主要關注未被遮擋的和信息豐富的區(qū)域塊。從這些塊中提取局部特征并獲取一個區(qū)域塊是否遮擋的評分。最后,分類器是基于所有區(qū)域塊的加權連接局部特征進行分類判斷。Li等人[45]進一步擴展了他們的方法,通過引入全局門控單元來補充面部圖像的全局信息進行表情識別。與Li等人不同,Wang等人[30]對相對較大的區(qū)域進行裁剪,并利用關系注意模塊和區(qū)域偏差損失函數(shù)對權值進行精化。然而,這些方法都是基于面部基準點來選擇區(qū)域塊,在遮擋的面部圖像中這種過程并不準確,極大地降低了注意網(wǎng)絡的性能。
Ding等人[56]提出了一種遮擋自適應深度網(wǎng)絡(OADN)來克服表情識別中的遮擋問題。首先生成一張注意力圖,以指示特定的面部區(qū)域是否被遮擋,并引導模型去注意非遮擋的區(qū)域。為了進一步提高魯棒性,該方法提出了一個面部區(qū)域分支,將特征映射劃分為不重疊的面部塊,并讓每個塊獨立地預測表情。這就產(chǎn)生了更多樣化和更具區(qū)別性的特征,即使面部部分被遮擋,表情識別系統(tǒng)仍然能夠重新識別?;谶@兩個分支的協(xié)同效應,自適應深度網(wǎng)絡在兩個具有挑戰(zhàn)性的野外基準數(shù)據(jù)集和三個真實世界的遮擋表情數(shù)據(jù)集上的性能顯著優(yōu)于最先進的方法。
由于沒有遮擋的面部圖像比遮擋的面部圖像提供了更多的面部表情識別信息,所以可以使用無遮擋的面部圖像來促進遮擋面部表情分類器的學習過程。Pan等人[57]提出使用成對的無遮擋圖像作為特權信息來指導遮擋分類器的對抗學習過程,使遮擋人臉圖像學習到的特征分布接近于非遮擋人臉圖像學習到的特征分布。此外,采用一種解碼器網(wǎng)絡從被遮擋特征重構(gòu)出非被遮擋人臉圖像。在非遮擋人臉圖像的指導下,期望遮擋網(wǎng)絡在訓練過程中學習到更好的特征和分類器。在基準數(shù)據(jù)集上對合成的和真實的遮擋人臉圖像進行了實驗,實驗結(jié)果表明該方法具有較好的優(yōu)越性。然而,當訓練集包含真實遮擋時,由于必須采用去遮擋處理來獲取配對數(shù)據(jù),所以Pan等人的方法受到限制。Xia等人[58]使用設計良好的學習策略和互補的對抗學習技術,將成對的圖像替換為偽成對的圖像,提出了一種逐步學習人臉表情識別策略,利用特征空間中的分布密度度量非遮擋數(shù)據(jù)的復雜度,將每一類的無遮擋圖像按照復雜度分成三個子集,引導過程分為三個階段(識別框架如圖4所示)。遮擋表情分類器首先從簡單的樣本中學習基本但清晰的視覺特征,并將其作為基本特征;然后,從更難的樣本中學習到更有意義和更有區(qū)別的特征;在最后階段,遮擋表情分類器通過增加第三子集來提高泛化能力,第三子集的圖像是模糊的,幾乎無法區(qū)分。在全局級和局部級特征空間中應用互補的對抗學習技術,使被遮擋特征的分布接近非遮擋特征的分布。通過自適應分類損失遷移不同圖像的可變性。在標簽空間中施加損耗不等式正則化,對遮擋網(wǎng)絡的輸出值進行標定。實驗結(jié)果表明,該方法在合成的遮擋數(shù)據(jù)集和真實的遮擋數(shù)據(jù)集上均有較好的性能提升。
子區(qū)域分析方法是把人臉圖像分割成幾個統(tǒng)一的區(qū)域,然后從這些區(qū)域提取特征表示,判別這些特征是否被遮擋區(qū)域或非被遮擋區(qū)域再重新分配特征權重,并基于加權特征表示訓練分類器。然而,這些方法沒有考慮全局信息,學習的權重可能會有偏差。
3.3 特征融合的方法
Chen等人[28]提出采用Gabor濾波器進行特征提取,進一步利用多層深度信念網(wǎng)絡對數(shù)據(jù)樣本進行預訓練,對輸入的Gabor特征重新進行復雜的描述,并對權值進行微調(diào),優(yōu)化學習模型。在JAFFE數(shù)據(jù)集上的實驗結(jié)果表明,該方法能夠獲得較好的識別率,尤其是對部分眼口遮擋的識別率。Chen等人[59]提出通過重構(gòu)部分遮擋的面部表情數(shù)據(jù)集,在改進的VGG16網(wǎng)絡基礎上,提出一個20層VGG +殘差CNN,并采用混合特征策略將Gabor濾波器與上述CNN并行化,同時利用LMCL和動量SGD對模型的分量進行了優(yōu)化。然后將結(jié)果與一定的權重相結(jié)合,得到分類結(jié)果。特征融合一般采用人工特征和深度特征,或深度模型特征之間的融合來決策遮擋表情的類別。
深度學習技術的強大之處在于,可以從原始面部數(shù)據(jù)中自動學習最有區(qū)別的面部表情特征模式。它們通常不需要單獨的遮擋檢測或重建過程。具體來說,遮擋信息可以內(nèi)在地嵌入到由深度學習體系結(jié)構(gòu)自動學習的特征集中。鑒于深度學習技術在各種計算機視覺任務中的最新性能,可以預測深度學習可能是處理人臉表情分析識別遮擋問題的最有效方法之一。然而,使用深度架構(gòu)進行人臉表情分析識別需要克服一些困難,如需要大量的訓練數(shù)據(jù)來確保適當?shù)奶卣鲗W習,難以調(diào)整大量的系統(tǒng)參數(shù),以及需要相當大的計算量。
3.4 面部表情識別方法總結(jié)
部分遮擋下的自動人臉表情識別方法研究現(xiàn)狀總結(jié)如下:
a)主要的遮擋類型包括眼睛,嘴巴,左/右、上/下半部分面部,隨機放置的遮擋物、手、眼鏡、頭部姿態(tài)變化引起的自遮擋以及在現(xiàn)實數(shù)據(jù)集上的模擬隨機物體遮擋(圖5)。
b)現(xiàn)有的研究大多集中于人工遮擋模擬,通過去除遮擋相關的特征或?qū)⑸傻恼趽跷锆B加到臉部的某個區(qū)域,很少有人嘗試從現(xiàn)實生活數(shù)據(jù)中使用自然發(fā)生的遮擋,比如口罩、太陽鏡[60~62]和手遮擋[63]。
c)大多數(shù)現(xiàn)有的評估是基于無遮擋人臉的JAFFE、CK、CK+、 RAF-DB和AffectNet數(shù)據(jù)集。一些初步的研究顯示了眼鏡、口罩[62]和手等產(chǎn)生自然遮擋的真實數(shù)據(jù),但結(jié)果主要用于系統(tǒng)對樣本遮擋數(shù)據(jù)的性能演示,在整個數(shù)據(jù)集上沒有對情感分類準確率等全面評價結(jié)果的論述。
d)目前所有的研究都集中在單一類型的正面遮擋上,共存的遮擋或多種遮擋疊加尚未被研究。
e)大多數(shù)工作直接從被遮擋的面部圖像中提取特征,而沒有加入遮擋檢測的預處理步驟。很少有人嘗試研究遮擋檢測技術,并將其集成到完整的人臉表情識別系統(tǒng)中。大多數(shù)方法需要精確的人臉定位和對準以及魯棒的人臉特征跟蹤。
f)所使用的特征在很大程度上僅限于來自2D視覺的紋理或幾何形狀,很少有研究利用融合特征[64]和膚色特征[65]。
g)大多數(shù)研究都強調(diào)六種基本情緒加上中性。只有少數(shù)研究利用非基本情緒,例如蔑視[64]、語意表情[66]和AU[65]。
h)盡管在現(xiàn)有工作中已經(jīng)使用了各種類型的特征描述符,但對于處理面部遮擋最有效的特征描述符尚未達成一致。例如,哪種描述符最適合稀疏表示仍然是一個懸而未決的問題。從這個角度來看,深度學習似乎通過自動學習表情最具辨別力的特征呈現(xiàn)出獨特的優(yōu)勢。
3.5 各種深度學習方法結(jié)果比較
本文從CK+、AffectNet和RAF-DB數(shù)據(jù)集的現(xiàn)有研究中確定了幾種方法。選擇這些方法的標準是在2010—2021年對表情數(shù)據(jù)集的六種基本和中性表情進行分類時達到了迄今為止最高的總體準確率。表2、3列出了這些方法在不同類型的面部遮擋下的準確率。目前的研究主要集中在:a)在六種基本表情和中性表情;b)嘴巴,眼睛,面部左/右、上/下部分的遮擋以及隨機遮擋;c)隨機合成各種物體在真實環(huán)境數(shù)據(jù)集上的隨機遮擋。需要注意的是,由于這些方法在訓練測試策略、人臉預處理步驟、遮擋模擬方法和其他變量方面的差異,可能無法直接進行比較。
4 遮擋對面部表情的影響
研究遮擋對面部表情分類性能的影響,有助于獲取面部表情信息量最大的組件特征,有益于設計表情識別系統(tǒng)。計算機視覺研究通?;谒惴ǖ淖R別性能。Buciu等人[67]表明,在JAFFE數(shù)據(jù)集中,眼睛和嘴巴遮擋對悲傷和中性表情的影響最大;在CK數(shù)據(jù)集中,對憤怒和悲傷表情的影響最大。Kotsia等人[27]也在JAFFE和CK數(shù)據(jù)集上進行了一個機器實驗和一個觀察實驗(2名專家和13名非專家)。結(jié)果表明,嘴巴遮擋比眼睛遮擋的分類準確率降低了50%以上,說明嘴巴在表情分類中的作用比眼睛更重要。左或右半邊面部遮擋對準確度影響不大。嘴巴遮擋對憤怒、恐懼、快樂和悲傷表情識別的影響較大,而眼睛遮擋對厭惡和驚訝表情識別的影響較大。實驗結(jié)果與人類觀察者的結(jié)果一致,即計算機視覺和人類視覺對局部遮擋下表情分類研究結(jié)論一致。Azmi等人[68]研究了嘴巴、眼睛和面部上下部分遮擋的效果。結(jié)果表明,遮擋眼睛比遮擋嘴巴對整體準確性的影響更大。眼睛遮擋對驚訝、憤怒和悲傷的分類準確率影響更大,而嘴巴遮擋對厭惡和恐懼的分類準確率影響更大。面部上半部分遮擋對悲傷、驚訝和憤怒的分類影響最大,下半部遮擋對厭惡、恐懼和中性的分類影響最大。關于訓練測試策略的研究[48,69]發(fā)現(xiàn),使用有遮擋的訓練和測試數(shù)據(jù)比使用無遮擋的訓練和遮擋的測試數(shù)據(jù)產(chǎn)生的精度更高。這表明了在訓練階段告知學習模型遮擋模式存在的重要性。從前面的結(jié)果可知,遮擋嘴巴和眼睛哪一部分對表情識別影響更大,并沒有直接的一致意見。以JAFFE數(shù)據(jù)集為例,有研究[67]發(fā)現(xiàn)兩者之間的作用同樣重要。相比之下,一些研究[27]發(fā)現(xiàn)嘴巴更重要,而另一些研究[61]指出眼睛更重要。產(chǎn)生相反結(jié)果的一個主要原因可能是在這些文獻中使用了不同的計算機視覺系統(tǒng)。系統(tǒng)在數(shù)據(jù)預處理步驟、特征類型、分類算法、系統(tǒng)設置和訓練測試策略等方面可能有很大的差異,即使利用具有相同遮擋類型的相同數(shù)據(jù)集進行評估,這些差異也會對結(jié)果產(chǎn)生直接的影響。
心理學家研究遮擋對人類感知的影響,通常要求招募的實驗對象從一張?zhí)囟ú课槐徽趽醯哪樕献R別預定義的面部表情。早期研究關注的問題是[20]:是否有一個面部區(qū)域可以最好地區(qū)分面部表情。Ekman等人[70]發(fā)現(xiàn),最獨特的面部成分隨著每種情緒的變化而變化。靜態(tài)面部表情最重要的組件是嘴/臉頰、眼睛/眼瞼和眉毛/額頭,厭惡表情嘴巴變化最明顯,恐懼表情主要表現(xiàn)在眼睛,悲傷表情眉毛和眼睛表現(xiàn)明顯,高興表情表現(xiàn)在嘴巴和眼睛,憤怒表情表現(xiàn)在嘴巴和眉毛,驚訝表情表現(xiàn)在嘴巴、眉毛和眼睛。
最近的研究傾向于使用自發(fā)的面部表情、視頻序列和不同年齡的實驗對象來研究遮擋對人類感知的影響。Halliday[71]讓56名女性參與者從一臺顯示器上的靜態(tài)照片中識別出高興、悲傷和恐懼,這些靜態(tài)照片來自真實環(huán)境或?qū)嶒炇覕[拍的面部表情,四個區(qū)域被遮擋,即前額和眉毛、鼻子和臉頰、眼睛和嘴巴。結(jié)果表明,研究對象能夠從有限的信息中準確地識別情緒,而嘴巴和眼睛是識別真實情緒的兩個最關鍵區(qū)域。Nusseck等人[72]在九個對話表情的視頻序列中,系統(tǒng)地操縱某些面部區(qū)域,以研究識別性能及其對不同面部組件運動的依賴。研究結(jié)果表明,嘴巴、眼睛和眉毛區(qū)域的組合足以表現(xiàn)出九種會話表情中的大多數(shù)可接受的表情。Roberson等人[73]通過比較幼兒、兒童和成年學生對模擬太陽鏡遮擋眼睛或嘴巴進行遮擋表情識別,觀察到準確識別表情的能力隨著年齡的增長而緩慢提升。
從計算機視覺和人類感知實驗結(jié)果得出,左半邊或右半邊臉遮擋對表情整體識別影響相同[61]。嘴巴是面部最重要的區(qū)域,遮擋嘴巴對六種基本表情的分類和整體識別影響較大,而對中性情緒的分類影響較小。眼睛是面部第二重要的區(qū)域,遮擋眼睛對悲傷、厭惡和驚訝的分類有很大的影響,但對快樂和中性的影響很小。遮擋臉上半部分對憤怒的分類影響更大[68],遮擋臉下半部分顯著影響整體表情識別[64]。遮擋鼻子對悲傷的分類影響較大,但對整體表現(xiàn)影響較小。遮擋眉毛對快樂、悲傷、恐懼和厭惡的分類影響很小??偟膩碚f,關于面部遮擋的影響還沒有達到絕對的共識。同一面部部位的遮擋對同一情緒的分類可能產(chǎn)生不同的影響,這表明遮擋效應在很大程度上依賴于情境,并受到特定實驗局部因素的影響,如特征、分類器、參與者、情緒刺激和評價方案等。
5 機遇與挑戰(zhàn)
部分遮擋的自動人臉表情識別是一個剛剛起步的領域,目前研究相對較少。因此,討論當前工作遇到的主要障礙和未來有可能突破的瓶頸是極為重要的。本章介紹遮擋表情識別關鍵卻尚未解決的問題,并討論解決這些問題的相關解決方案。
5.1 數(shù)據(jù)集的創(chuàng)建與標注
目前大多數(shù)研究都是基于無遮擋的JAFFE、CK或CK+數(shù)據(jù)集,并且僅限于有限數(shù)量的人工合成的單一類型遮擋以及六種基本表情加中性表情的研究,這很大程度上是由于缺乏包括各種類型的頻繁自然出現(xiàn)的面部遮擋和良好注釋的面部表情標簽以及全面的基準數(shù)據(jù)集。建立面部遮擋的表情數(shù)據(jù)集更加復雜和耗時,需要克服以下問題:
a)決定哪些類型的面部遮擋應該包括在內(nèi)。一般認為,面部信息最豐富的區(qū)域,即嘴巴、眼睛、眉毛和鼻子的遮擋應該包括在內(nèi)。對于特定的應用,面部的某一區(qū)域可能變得至關重要,需要單獨考慮。即使確定了遮擋部位,在遮擋模擬的過程中,仍然不清楚應該使用什么類型的特定物體遮擋這些部位以及遮擋到什么程度。模擬面部遮擋可能存在大量可供選擇的遮擋物,這些遮擋物可能具有大量不同的屬性,例如顏色、形狀、大小、外觀和材質(zhì)。遮擋中呈現(xiàn)的各種屬性可能給面部表情識別算法的有效訓練和測試帶來很大的挑戰(zhàn)。
b)面部遮擋自發(fā)表情的收集。面部表情是一個復雜的過程,涉及心理活動、認知理解和身體行為等,共同配合才能表現(xiàn)出各種表情。通過自然的面對面交流或適當?shù)那榫w刺激,較容易從實驗參與者身上激發(fā)出快樂、悲傷、驚訝等典型表情。然而,當超越原型情感到其他不常見的、依賴于上下文的表情時變得越來越困難,這些表情在日常生活中很少使用,并且涉及面部成分的細微變化,例如蔑視、好奇等表情。特別是在面部表情存在的情況下,人為疊加在面部或自然發(fā)生的遮擋可能會顯著干擾參與者對情緒刺激的自發(fā)反映并影響他們表達真實表情的可靠性和準確性。
c)如何標注遮擋。遮擋表情數(shù)據(jù)記錄下來,就需要明確對哪些特征進行標注和如何標注,因為遮擋可能是由屬性不同的物體引起的。一般認為遮擋的位置是影響人臉表情識別最重要的屬性,可以用遮擋區(qū)域的像素級標簽進行標注。然而,遮擋還有其他屬性,如遮擋物的類型、遮擋的強度、顏色和透明程度等。在UMB 3D數(shù)據(jù)集中[74],對遮擋物的類型進行了標注。在HAPPEI數(shù)據(jù)集中[75],遮擋強度被手工標注為三個級別之一,包括面部可見、部分遮擋和大面積遮擋,該注釋可用于評價不同遮擋程度對個體和群體情感的影響。Dhall等人[76]已經(jīng)證實遮擋對積極和消極兩種程度的情感的感知和識別有很大影響。它是對現(xiàn)實生活中多人圖像遮擋強度標注的最早研究之一。Zhang等人[69]也表明,黑色或白色遮擋會導致不同的分類準確率,固體或透明眼鏡遮擋也會產(chǎn)生不同的結(jié)果。
d)情感標注是一項難度巨大且有挑戰(zhàn)的任務。在有利的條件下,人們通??梢詮那逦拿婵字凶R別出一系列頻繁出現(xiàn)的表情。然而,在模糊或遮擋的情況下,人們在識別相同類型的表情時面臨更大的困難。遮擋可能嚴重影響人類情感標注的準確性和可靠性。信息最豐富的面部區(qū)域被遮擋,標注者很難根據(jù)剩余非遮擋部分的視覺特征正確識別情感類別。被遮擋的面部表情分類到最常見的原型類別時,這一問題可能相對容易解決,但當使用不常見情緒類別、FACS、AU或連續(xù)情緒維度時,這一問題可能會變得具有挑戰(zhàn)性。AU反映了面部局部成分的細微和局部肌肉變化。某個AU信息量最大的面部部分由于遮擋而看不見,就很難準確注釋該AU,這也可能影響其他AU的注釋,因為許多AU密切相關,許多情緒由多個AU組合表示而不是單個AU。使用連續(xù)維度的情感標注需要訓練有素的標注者和基于人類主觀感知的多維度的詳細量化。一種可能的解決方案是在相同的記錄設置中記錄每個對象的遮擋和非遮擋表情,并使用非遮擋面部中的情緒標簽作為對遮擋面部的估計。最近的研究[77]探索了從真實環(huán)境中收集的大量(超過100萬張)面部表情圖像的AU、AU強度和情感類別的自動注釋。然而,大多數(shù)帶注釋的圖像都沒有被遮擋,并且這些研究中沒有專門處理面部遮擋。
除了上述與數(shù)據(jù)創(chuàng)建和標注相關的問題外,收集遮擋表情樣本的大小、數(shù)據(jù)與現(xiàn)實自然場景的接近程度、時間和費用成本以及可訪問性、構(gòu)建和數(shù)據(jù)集的管理也是需要考慮的重要問題。3D人臉數(shù)據(jù)的獲取也是推動3D人臉表情識別模型研究的關鍵步驟。在人臉遮擋的記錄過程中,是否應該綜合考慮其他影響因素,如姿態(tài)和光照變化,仍然是一個值得考慮的問題。
5.2 遮擋檢測
大多數(shù)當前方法直接從被遮擋的面部圖像中提取特征,而沒有加入遮擋檢測的預處理,如在遮擋的面部執(zhí)行特征定位、跟蹤和提取,或者結(jié)合人工輔助處理來手動裁剪面部表情并標注基準點。
對于自動人臉表情識別系統(tǒng),遮擋的存在可能導致不精確的面部特征定位和錯誤的對齊或配準。精準地確定遮擋的特定參數(shù)的能力是人臉表情識別系統(tǒng)的一個關鍵組成部分。一旦可靠地測量或準確地確定了遮擋的參數(shù),就可以基于人臉結(jié)構(gòu)的先驗知識,有效地從訓練數(shù)據(jù)中重建被遮擋部位的特征或直接從提取的面部特征中剔除特征,以減少遮擋對性能的影響。先驗知識的遮擋參數(shù)已被證明是提高人臉識別性能的關鍵[78]。事實上,在人臉表情分析系統(tǒng)中,將遮擋檢測作為預處理步驟可以顯著提高性能[64]。
人臉遮擋檢測與恢復并非一個新領域[78],它是人臉檢測[80]領域的子問題,Chen等人[81]提出一種基于對抗式遮擋感知的人臉檢測器,它可以同時檢測遮擋的人臉并分割遮擋區(qū)域。具體來說,該方法采用一種對抗訓練策略來生成類似于遮擋的人臉特征,這些特征是人臉檢測器難以識別的。在檢測遮擋人臉的同時,對遮擋區(qū)域進行預測,并將遮擋區(qū)域作為一種輔助而不是一種障礙。此外,來自分割分支的監(jiān)督信號會對特征產(chǎn)生反向影響,有助于提取更多信息豐富的特征。近幾年研發(fā)的人臉分析工具IntraFace[82]在真實場景小面積遮擋下人臉檢測、跟蹤和特征識別方面取得了較好的結(jié)果。遮擋檢測技術可以提供遮擋聚焦參數(shù)和特征的詳細信息,以支持更具體的后處理和分析。設計遮擋檢測器是困難的,主要是由于遮擋的隨機性和多樣性。在特定情況下,獲得一個良好的遮擋局部上下文理解,如受試者的數(shù)量、遮擋的類型和地點(辦公室或操場)等在簡化設計過程中變得至關重要,在很大程度上決定了人臉表情系統(tǒng)的性能。開發(fā)特定于某種應用場景的遮擋檢測器可能比實現(xiàn)一個能夠在真實場景中檢測任何可能類型遮擋的通用檢測器更明智,例如新冠疫情下佩戴口罩人臉檢測器[83]。
5.3 多種模式
遮擋表情識別系統(tǒng)的結(jié)構(gòu)可以通過結(jié)合多種模式、利用深度學習架構(gòu)中的多層或兩者融合來進行擴展?,F(xiàn)有遮擋條件下的人臉表情識別研究大多只關注人臉的視覺特征,且僅限于使用單一的深度學習體系架構(gòu)。預計構(gòu)建更廣泛或更深的架構(gòu)可以帶來更強大的性能。
在人臉表情識別中,利用多種模式之間的時間或空間相關性并用融合特征抵抗遮擋的研究仍需要繼續(xù)探索?;诙嗄B(tài)傳感器數(shù)據(jù)的人臉表情自動識別系統(tǒng)綜述[84]中詳細介紹了視覺精細人臉傳感器,它可以檢測人臉組件的微小動態(tài)變化,如眼球追蹤器可能有助于區(qū)分背景噪聲和人臉特征。還有非視覺傳感器,如音頻、腦電圖傳感器,它們提供了視覺維度之外的額外信息,提高了識別的可靠性,如在光照變化和姿態(tài)變換的情況下。最后是目標聚焦傳感器,如紅外熱傳感器,它可以幫助人臉表情識別系統(tǒng)過濾無用的視覺內(nèi)容,并有助于抵抗光照變化。在每年ACM舉辦的圍繞現(xiàn)實環(huán)境中不同的情感計算問題的EmotiW算法競賽中,多模態(tài)情緒識別一直都是值得研究的問題,其中存在音頻特征和視頻特征被分別考慮的深度學習方法。當音頻和視頻特征同時被考慮時,存在特征級融合或決策級融合的深度模型。人類的情感表達往往是多種人類反映方式相互作用和協(xié)作的結(jié)果,如情緒化的聲音、面部表情、身體姿勢、頭和肩膀動作、凝視方向和生理信號。音頻、視覺、文本、腦電波和生理形態(tài)的融合特征已被廣泛用于情感分析,與單獨使用單一形態(tài)相比,其能提高表情識別性能[85,86]。合并多種模式的最大優(yōu)點是可以充分利用這些模式的特征來彌補彼此的缺點,從而生成更完善的方法來處理遮擋問題。由于面部遮擋主要影響面部的視覺特征,通常對音頻、身體姿勢和生理信號的影響有限,所以,將受影響較小的特征與面部特征整合在一起,能夠更穩(wěn)定地識別遮擋下的表情。
5.4 基于3D的方法
現(xiàn)有的遮擋表情識別研究主要是基于二維灰度數(shù)據(jù)?;?D數(shù)據(jù)的方法包括2D數(shù)據(jù)之上面部結(jié)構(gòu)和外觀的額外深度信息。深度信息可用于面部遮擋下生成更明顯的、有區(qū)別的、與視圖無關的特征,特別是那些由頭部姿態(tài)變化或缺失部分引起的特征[87]。雖然使用3D數(shù)據(jù)的面部表情分析已經(jīng)得到了深入研究,Sandbach等人[88]做了總結(jié),但專門用于克服面部遮擋問題的3D方法仍然有限,主要集中在處理頭部姿態(tài)變化引起的自遮擋。通過深入了解面部的全面物理結(jié)構(gòu),3D特征包含了關鍵的外觀和形狀信息,用于輔助遮擋檢測和恢復[89],識別被不可預見的外部物體部分遮擋的三維人臉。這些信息在構(gòu)建更豐富可靠的面部表情特征集,對更準確的表情識別至關重要。在面部區(qū)域同時存在遮擋和姿態(tài)變化的情況下,3D特征可以通過將面部重建到正面視圖[90]來補償姿態(tài)運動帶來的影響,并將問題簡化為僅有遮擋任務。使用3D面部特征生成模型來處理其他類型的常見遮擋,如口罩和眼鏡遮擋,仍是一個需要進一步研究的問題。由于缺乏具有不同遮擋類型的自然3D 人臉表情數(shù)據(jù)集,在很大程度上限制了基于3D數(shù)據(jù)研究的發(fā)展和評估。
6 結(jié)束語
本文綜述了自動人臉表情識別中處理部分遮擋的最新研究成果,并討論了相關的挑戰(zhàn)和機遇。在過去的研究中,盡管有越來越多的研究記錄了如何處理遮擋,但大多數(shù)能夠克服遮擋的人臉表情識別系統(tǒng)仍處于初級階段,其特征是數(shù)量非常有限的原型表情類別和人工合成的遮擋。特征完全局限于視覺模態(tài),評估主要基于2D/3D正面臉。
現(xiàn)有的局部遮擋條件下的人臉表情識別研究仍存在以下問題:a)缺少綜合基準數(shù)據(jù)集,包括各種類型頻繁發(fā)生的自然面部遮擋和面部表情的注釋,不僅要按離散類別標注,還要按AU單元標注的數(shù)據(jù)集;b)缺少面部遮擋檢測技術以可靠地確定面部遮擋的具體參數(shù),例如類型和位置;c)研究利用多種模態(tài)之間的時間或空間相關性并結(jié)合多種模態(tài)的融合特征來對抗面部遮擋;d)缺少全面研究面部遮擋對跨多個現(xiàn)實數(shù)據(jù)集的非原型自發(fā)情緒表現(xiàn)的影響。
未來處理面部遮擋的表情識別系統(tǒng)預計將從以下方面擴展:a)人工遮擋數(shù)據(jù)到自然遮擋數(shù)據(jù);b)手動人臉預處理到自動遮擋檢測和集成;c)單一面部模態(tài)到多種音頻、視覺和生理模態(tài);d)2D 到 3D 人臉表情數(shù)據(jù)集;e)靜態(tài) 2D 灰色特征到3D序列彩色特征;f)一組人的一張臉到多張臉;g)從淺層架構(gòu)到更深更廣的架構(gòu);h)原型情感到AU編碼、連續(xù)表示的表情和微表情。
隨著更全面的基準數(shù)據(jù)集的出現(xiàn)以及全世界研究者的努力,隨后將開發(fā)新算法,最終會實現(xiàn)自動化計算機系統(tǒng)能夠在不受約束的條件下支持表情識別的應用程序。作為一個交叉領域問題,人臉表情識別可以從計算機科學、心理學、認知科學、神經(jīng)科學等密切相關領域的知識進步中受益。遮擋作為挑戰(zhàn)并不是表情識別特有的,在人臉識別、人臉檢測、人臉跟蹤等相關領域也存在。這些領域的研究共享許多共同的技術、知識、問題和挑戰(zhàn),因此一個領域的任何進展都可能促使其他領域共同發(fā)展。進一步研究的一個有希望的方向是開發(fā)上下文敏感的表情識別算法,該算法考慮到局部環(huán)境的先驗知識來預測面部遮擋的特定參數(shù)。還值得進一步挖掘的是深度學習技術在無須人工干預的情況下恢復和處理面部遮擋問題的潛力。
參考文獻:
[1] "Ekenel H K, Stiefelhagen R. Why is facial occlusion a challenging problem?[C]//Proc of International Conference on Biometrics.Berlin:Springer,2009:299-308.
[2] Shan Caifeng, Gong Shaogang, Mcowan P W. Robust facial expression recognition using local binary patterns[C]//Proc of IEEE International Conference on Image Processing.Piscataway,NJ:IEEE Press,2005.
[3] Deng Hongbo, Jin Lianwei, Zhen Lixin, "et al . A new facial expression recognition method based on local Gabor filter bank and PCA plus LDA[J]. International Journal of Information Technology ,2005, 11 (11):86-96.
[4] Mohammadi M R, Fatemizadeh E, Mahoor M H. PCA-based dictio-nary building for accurate facial expression recognition via sparse representation[J]. Journal of Visual Communication and Image Representation ,2014, 25 (5):1082-1092.
[5] Ng P C, Henikoff S. SIFT: predicting amino acid changes that affect protein function[J]. Nucleic Acids Research ,2003, 31 (13):3812-3814.
[6] Platt J. Sequential minimal optimization:a fast algorithm for training support vector machines,MSR-TR-98-14[R].[S.l.]:Microsoft,1998.
[7] Russakovsky O, Deng Jia, Su Hao, "et al . ImageNet large scale visual recognition challenge[J]. International Journal of Computer Vision ,2015, 115 (3):211-252.
[8] Simonyan K, Zisserman A. Very deep convolutional networks for "large-scale image recognition[EB/OL].(2014-09-04).https://arxiv. org/abs/1409.1556.
[9] Fasel B, Luettin J. Automatic facial expression analysis:a survey[J]. Pattern Recognition ,2003, 36 (1):259-275.
[10] 王志良,陳鋒軍,薛為民.人臉表情識別方法綜述[J].計算機應用與軟件,2003, 20 (12):63-66.(Wang Zhiliang, Chen Fengjun, Xue Weimin.Survey of facial expression recognition methods[J]. Computer Applications and Software ,2003, 20 (12):63-66.)
[11] Li Shan, Deng Weihong. Deep facial expression recognition:a survey[J]. IEEE Trans on Affective Computing ,2020.DOI.10.1109/TAFFC.2020.2981446.
[12] Zhang Ligang, Verma B, Tjondronegoro D, "et al . Facial expression analysis under partial occlusion:a survey[J]. ACM Computing Surveys ,2018, 51 (2):1-49.
[13] Darwin C. The expression of emotion in man and animals[J]. Journal of the Science of Food amp; Agriculture ,1978, 123 (316):551-568.
[14] Ekman P. Constants across culture in the face and emotion[J]. Journal of Personality amp; Social Psychology ,1971, 17 (2):124-129.
[15] Friesen E, Ekman P. Facial action coding system: a technique for the measurement of facial movement[M].Palo Alto,CA:Consulting Psychologists Press,1978.
[16] Keltner D, Ekman P, Gonzaga G C, "et al . Facial expression of emotion[J]. Encyclopedia of Human Behavior ,2012, 30 (1):173-183.
[17] Kanade T. Picture processing system by computer complex and recognition of human faces[D].Kyoto:Kyoto University,1974.
[18] Sown M. A preliminary note on pattern recognition of facial emotional expression[C]//Proc of the 4th International Joint Conferences on Pattern Recognition.1978.
[19] "Bettadapura V. Face expression recognition and analysis: the state of the art[EB/OL].(2014-11-18).https://arxiv.org/abs/1203.6722.
[20] Dunlap K. The role of eye muscles and mouth muscles in the expression of the emotions[J]. Genetic Psychology Monograph ,1927, 2 (3):196-233.
[21] Boucher J D, Ekman P. Facial areas and emotional information[J]. Journal of Communication ,1975, 25 (2):21-29.
[22] Bourel F, Chibelushi C C, Low A A. Recognition of facial expressions in the presence of occlusion[C]//Proc of BMVC.2001:1-10.
[23] Towner H, Slater M. Reconstruction and recognition of occluded facial expressions using PCA[C]//Proc of International Conference on Affective Computing and Intelligent Interaction.Berlin:Springer,2007:36-47.
[24] 薛雨麗,毛峽,Catalin-Daniel C,等.遮擋條件下的魯棒表情識別方法[J].北京航空航天大學學報,2010, 36 (4):429-433.(Xue Yuli, Mao Xia, Catalin-Daniel C, "et al . Robust expression recognition method under occlusion condition[J]. Journal of Beijing University of Aeronautics and Astronautics ,2010, 36 (4):429-433.)
[25] Cotter S F. Recognition of occluded facial expressions using a fusion of localized sparse representation classifiers[C]//Proc of Digital Signal Processing and Signal Processing Education Meeting.Piscataway,NJ:IEEE Press,2011:437-442.
[26] Liu Shuaishi, Zhang Yan, Liu Keping. Facial expression recognition under partial occlusion based on Weber local descriptor histogram and decision fusion[C]//Proc of the 33rd Chinese Control Conference.Piscataway,NJ:IEEE Press,2014:4664-4668.
[27] Kotsia I, Buciu I, Pitas I. An analysis of facial expression recognition under partial facial image occlusion[J]. Image and Vision Computing ,2007, 26 (7):1052-1067.
[28] Chen Yue, Jiang Bin, Jia K. A deep structure for facial expression "recognition under partial occlusion[C]//Proc of the 10th International "Conference on Intelligent Information Hiding amp; Multimedia Signal Processing.Piscataway,NJ:IEEE Press,2014.
[29] 王海涌,梁紅珠.基于改進的GAN的局部遮擋人臉表情識別[J].計算機工程與應用,2020, 56 (5):141-146.(Wang Haiyong, Liang Hongzhu. Partial occluded facial expression recognition based on improved GAN[J]. Computer Engineering and Applications ,2020, 56 (5):141-146.)
[30] Wang Kai, Peng Xiaojiang, Yang Jianfei, "et al . Region attention networks for pose and occlusion robust facial expression recognition[J]. IEEE Trans on Image Processing ,2020, 29 :4057-4069.
[31] 楊魯月,張樹美,趙俊莉.基于并行GAN的有遮擋動態(tài)表情識別 [J].計算機工程與應用,2021, 57 (24):168-178.(Yang Luyue, Zhang Shumei, Zhao Junli. Dynamic expression recognition with occlusion based on parallel GAN[J]. Computer Engineering and Applications ,2021, 57 (24):168-178.)
[32] Ekman P. Strong evidence for universals in facial expressions: a reply to Russell’s mistaken critique[J]. Psychological Bulletin ,1994, 115 (2):268-287.
[33] Russell J A. A circumplex model of affect[J]. Journal of Personality and Social Psychology ,1980, 39 (6):1161-1178.
[34] Izard C E, Weiss M. Maximally discriminative facial movement coding system[D].Newark:University of Delaware,1979.
[35] Zhao Xi, Zou Jianhua, Li Huibin, "et al . Automatic 2.5-D facial landmarking and emotion annotation for social interaction assistance[J]. IEEE Trans on Cybernetics ,2015, 46 (9):2042-2055.
[36] Patil H, Kothari A, Bhurchandi K. 3-D face recognition: features, databases,algorithms and challenges[J]. Artificial Intelligence Review ,2015, 44 (3):393-441.
[37] Lyons M, Akamatsu S, Kamachi M, "et al . Coding facial expressions with Gabor wavelets[C]//Proc of the 3rd IEEE International Conference on Automatic Face and Gesture Recognition.Piscataway,NJ:IEEE Press,1998:200-205.
[38] Kanade T, Cohn J F, Tian Yingli. Comprehensive database for facial expression analysis[C]//Proc of the 4th IEEE International Conference on Automatic Face and Gesture Recognition.Piscataway,NJ:IEEE Press,2000:46-53.
[39] Lucey P, Cohn J F, Kanade T, "et al . The extended Cohn-Kanade dataset (CK+): a complete dataset for action unit and emotion-specified expression[C]//Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2010:94-101.
[40] Dhall A, Goecke R, Lucey S, "et al . Collecting large, richly annotated facial-expression databases from movies[J]. IEEE Multimedia, 2012, 19 (3):34-41.
[41] Li Shan, Deng Weihong, Du Junping. Reliable crowdsourcing and deep locality-preserving learning for expression recognition in the wild[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:2852-2861.
[42] Barsoum E, Zhang Cha, Ferrer C C, "et al . Training deep networks for facial expression recognition with crowd-sourced label distribution[C]//Proc of the 18th ACM International Conference on Multimodal Interaction.2016:279-283.
[43] Mollahosseini A, Hasani B, Mahoor M H. AffectNet: a database for facial expression, valence, and arousal computing in the wild[J]. IEEE Trans on Affective Computing, 2017, 10 (1):18-31.
[44] Pantic M, Valstar M, Rademaker R, "et al . Web-based database for facial expression analysis[C]//Proc of IEEE International Conference on Multimedia amp; Expo.Piscataway,NJ:IEEE Press,2005.
[45] Li Yong, Zeng Jiabei, Shan Shiguang, "et al . Occlusion aware facial expression recognition using CNN with attention mechanism[J]. IEEE Trans on Image Processing ,2018, 28 (5):2439-2450.
[46] Zhao Guoying, Huang Xiaohua, Taini M, "et al . Facial expression recognition from near-infrared videos[J]. Image and Vision Computing ,2011, 29 (9):607-619.
[47] 殷柯欣,廖冰冰,胡文楠,等.遮擋人臉表情圖像預處理研究進展[J].長春工業(yè)大學學報,2021, 42 (2):153-159.(Yin Kexin, Liao Bingbing, Hu Wennan, "et al . Researches in occlusion facial expression image preprocessing[J]. Journal of Changchun University of Technology ,2021, 42 (2):153-159.)
[48] Ranzato M A, Susskind J, Mnih V, "et al . On deep generative models with applications to recognition[C]//Proc of Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2011:2857-2864.
[49] Pathak D, Krahenbuhl P, Donahue J, "et al . Context encoders: feature learning by inpainting[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:2536-2544.
[50] 王素琴,高宇豆,張加其.基于生成對抗網(wǎng)絡的遮擋表情識別[J].計算機應用研究,2019, 36 (10):3112-3115,3120.(Wang Suqin, Gao Yudou, Zhang Jiaqi. Occluded facial expression recognition based on generative adversarial networks[J]. Application Research of Computers ,2019, 36 (10):3112-3115,3120.)
[51] 孫超.基于平行生成對抗網(wǎng)絡的遮擋表情識別研究[D].長春:吉林大學,2020.(Sun Chao. Research of occluded facial expression recognition based on parallel generative adversarial networks[D].Changchun:Jilin University,2020.)
[52] 姚乃明,郭清沛,喬逢春,等.基于生成式對抗網(wǎng)絡的魯棒人臉表情識別[J].自動化學報,2018, 44 (5):865-877.(Yao Naiming, Guo Qingpei, Qiao Fengchun, "et al . Robust facial expression recognition with generative adversarial networks[J]. Acta Automatica Sinica ,2018, 44 (5):865-877.)
[53] Lu Yang, Wang Shigang, Zhao Wenting, "et al . WGAN-based robust occluded facial expression recognition[J]. IEEE Access ,2019, 7 :93594-93610.
[54] Yovel G, Duchaine B. Specialized face perception mechanisms extract both part and spacing information: evidence from developmental prosopa-gnosia[J]. Journal of Cognitive Neuroscience ,2006, 8 (4):580-593.
[55] Li Yong, Zeng Jiabei, Shan Shiguang, "et al . Patch-gated CNN for occlusion-aware facial expression recognition[C]//Proc of the 24th International Conference on Pattern Recognition.Piscataway,NJ: IEEE Press,2018:2209-2214.
[56] Ding Hui, Zhou Peng, Chellappa R. Occlusion-adaptive deep network for robust facial expression recognition[C]//Proc of IEEE International Joint Conference on Biometrics.Piscataway,NJ:IEEE Press,2020:1-9.
[57] Pan B, Wang Shangfei, Xia Bin. Occluded facial expression recognition enhanced through privileged information[C]//Proc of the 27th ACM International Conference on Multimedia.New York:ACM Press,2019:566-573.
[58] Xia Bin, Wang Shangfei. Occluded facial expression recognition with step-wise assistance from unpaired non-occluded images[C]//Proc of the 28th ACM International Conference on Multimedia.New York:ACM Press,2020:2927-2935.
[59] Chen Yujian, Liu Shiguang. Deep partial occlusion facial expression re-cognition via improved CNN[C]//Proc of International Symposium on Visual Computing.Berlin:Springer,2020:451-462.
[60] 韋賽遠,林麗媛,張怡然.基于M-Xception網(wǎng)絡的戴口罩人臉表情識別[J].天津科技大學學報,2021, 36 (3):72-76.(Wei Saiyuan, Lin Liyuan, Zhang Yiran. Facial expression recognition with mask based on M-Xception net[J]. Journal of Tianjin University of Science and Technology ,2021, 36 (3):72-76.)
[61] Liu Shuaishi, Zhang Yan, Liu Keping, "et al . Facial expression recognition under partial occlusion based on Gabor multi-orientation features fusion and local Gabor binary pattern histogram sequence[C]//Proc of the 9th International Conference on Intelligent Information Hiding and Multimedia Signal Processing.Piscataway,NJ: IEEE Press,2013:218-222.
[62] Barros P, Sciutti A. I only have eyes for you: the impact of masks on convolutional-based facial expression recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2021:1226-1231.
[63] Nguyen T D, Ranganath S. Towards recognition of facial expressions in sign language: tracking facial features under occlusion[C]//Proc of the 15th IEEE International Conference on Image Processing.Piscataway,NJ:IEEE Press,2008:3228-3231.
[64] Huang Xiaohua, Zhao Guoying, Zheng Wenming, "et al . Towards a dynamic expression recognition system under facial occlusion[J]. Pattern Recognition Letters ,2012, 33 (16):2181-2191.
[65] Lin J C, Wu C H, Wei Wenli. Facial action unit prediction under partial occlusion based on error weighted cross-correlation model[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Proces-sing.Piscataway,NJ:IEEE Press,2013:3482-3486.
[66] Nguyen T D, Ranganath S. Tracking facial features under occlusions and recognizing facial expressions in sign language[C]//Proc of the 8th IEEE International Conference on Automatic Face amp; Gesture Recognition.Piscataway,NJ:IEEE Press,2008:1-7.
[67] Buciu I, Kotsia I, Pitas I. Facial expression analysis under partial occlusion[C]//Proc of IEEE International Conference on Acoustics, Speech, and Signal Processing.Piscataway,NJ:IEEE Press,2005:453-456.
[68] Azmi R, Yegane S. Facial expression recognition in the presence of occlusion using local Gabor binary patterns[C]//Proc of the 20th Iranian Conference on Electrical Engineering.Piscataway,NJ:IEEE Press,2012:742-747.
[69] Zhang Ligang, Tjondronegoro D, Chandran V. Random Gabor based templates for facial expression recognition in images with facial occlusion[J]. Neurocomputing ,2014, 145 :451-464.
[70] Ekman P, Friesen W V, Ellsworth P. Emotion in the human face: guidelines for research and an integration of findings[M].[S.l.]:Elsevier,2013.
[71] Halliday L A. Emotion detection: can perceivers identify an emotion "from limited information?[D].New Zealand:University of Canterbury "Psychology,2008.
[72] Nusseck M, Cunningham D W, Wallraven C, "et al . The contribution of different facial regions to the recognition of conversational expressions[J]. Journal of Vision ,2008, 8 (8):1-23.
[73] "Roberson D, Kikutani M, Dge P, "et al . Shades of emotion:what the addition of sunglasses or masks to faces reveals about the development of facial expression processing [J]. Cognition ,2012, 125 (2):195-206.
[74] Colombo A, Cusano C, Schettini R. UMB-DB:a database of partially occluded 3D faces[C]//Proc of IEEE International Conference on Computer Vision Workshops.Piscataway,NJ:IEEE Press,2011:2113-2119.
[75] Dhall A, Joshi J, Radwan I, "et al . Finding happiest moments in a social context[C]//Proc of Asian Conference on Computer Vision.Berlin:Springer,2012:613-626.
[76] Dhall A, Goecke R, Gedeon T. Automatic group happiness intensity analysis[J]. IEEE Trans on Affective Computing ,2015, 6 (1):13-26.
[77] Benitez-Quiroz C F, Srinivasan R, Martinez A M. EmotioNet: an accurate, real-time algorithm for the automatic annotation of a million facial expressions in the wild[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:5562-5570.
[78] Kim J, Choi J, Yi J, "et al . Effective representation using ICA for face recognition robust to local distortion and partial occlusion[J]. IEEE Trans on Pattern Analysis and Machine Intelligence ,2005, 27 (12):1977-1981.
[79] Lin Dahua, Tang Xiaoou. Quality-driven face occlusion detection and recovery[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2007:1-7.
[80] Kumar A, Kaur A, Kumar M. Face detection techniques: a review[J]. Artificial Intelligence Review ,2019, 52 (2):927-948.
[81] Chen Yujia, Song Lingxiao, Hu Yibo, "et al . Adversarial occlusion-aware face detection[C]//Proc of the 9th IEEE International Confe-rence on Biometrics Theory,Applications and Systems.Piscataway,NJ:IEEE Press,2018:1-9.
[82] De la Torre F, Chu Wensheng, Xiong Xuehan, "et al . IntraFace[C]//Proc of the 11th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition.Piscataway,NJ:IEEE Press,2015:1-8.
[83] Pooja S, Preeti S. Face mask detection using AI[M]//Predictive and Preventive Measures for Covid-19 Pandemic.Berlin:Springer,2021:293-305.
[84] Samadiani N, Huang Guangyan, Cai Borui, "et al . A review on automatic facial expression recognition systems assisted by multimodal sensor data[J]. Sensors ,2019, 19 (8):1863.
[85] Zeng Zhihong, Pantic M, Roisman G I, "et al . A survey of affect re-cognition methods: audio, visual, and spontaneous expressions[J]. IEEE Trans on Pattern Analysis and Machine Intelligence ,2009, 31 (1):39-58.
[86] Calvo R A, D’Mello S. Affect detection: an interdisciplinary review of models, methods, and their applications[J]. IEEE Trans on Affective Computing ,2010, 1 (1):18-37.
[87] Drira H, Amor B B, Srivastava A, "et al . 3D face recognition under expressions, occlusions, and pose variations[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2013, 35 (9):2270-2283.
[88] Sandbach G, Zafeiriou S, Pantic M, "et al . Static and dynamic 3D facial expression recognition: a comprehensive survey[J]. Image and Vision Computing ,2012, 30 (10):683-697.
[89] Colombo A, Cusano C, Schettini R. Three-dimensional occlusion detection and restoration of partially occluded faces[J]. Journal of Mathematical Imaging and Vision ,2011, 40 (1):105-119.
[90] Wang Kangkan, Wang Xianwang, Pan Zhigeng, "et al . A two-stage framework for 3D face reconstruction from RGBD images[J]. IEEE Trans on Pattern Analysis Machine Intelligence ,2014, 36 (8):1493-1504.
[91] 吳濤.基于VR情景遮擋人臉圖像復原的表情識別[D].廣州:華南理工大學,2019.(Wu Tao. Facial recognition based on VR scene occlusion face image restoration[D].Guangzhou:South China University of Technology,2019.)