宋佳,蔡峰權(quán),顧天晴,曾清源,譚定英,陳平平
(廣州中醫(yī)藥大學(xué)醫(yī)學(xué)信息工程學(xué)院,廣州510000)
情緒影響著人類的感知、學(xué)習(xí)、交流、行為、判斷和決策等各種功能,并通過影響人類的行為舉止和面部表情來表達個體內(nèi)心想法。情緒識別最主要涉及計算機科學(xué)、心理學(xué)領(lǐng)域,是典型的交叉學(xué)科研究方向,其又包括語音表情、姿勢表情和面部表情識別等。研究證明面部表情平均的識別準(zhǔn)確率比語音表情高約15%[1]。關(guān)于情緒識別的深度學(xué)習(xí)網(wǎng)絡(luò)包含卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)、深度信念網(wǎng)絡(luò)、生成對抗網(wǎng)絡(luò)等。其中CNN模型已被研發(fā)者大量使用并將其優(yōu)化獲得了更精準(zhǔn)的識別率。本研究以CNN為基礎(chǔ),闡述人臉情緒識別技術(shù)的階段性進展。
近年來,科研人員對CNN模型優(yōu)化的內(nèi)容主要有:①降低原始模型的復(fù)雜性,減少因大量訓(xùn)練數(shù)據(jù)集產(chǎn)生的數(shù)據(jù)冗余;②基于增強圖像等技術(shù)豐富模型學(xué)習(xí)參數(shù);③擴展模型功能如處理視頻序列、高分辨率圖像、非正臉圖像和預(yù)測行為表現(xiàn)等,旨在極大地提升模型效能的同時提高識別準(zhǔn)確率。NASUHA A等人提出一種通過分離卷積層來減少數(shù)量參數(shù)的CNN情感分類模型,其對7種基本情緒進行分類的平均準(zhǔn)確率達到了66%,其中對于快樂情緒的識別準(zhǔn)確率更高[2]。SAID Y等人基于FS-CNN在高分辨率圖像中檢測人臉并預(yù)測人的情緒,其測試準(zhǔn)確率約為95%[3]。MA H等人基于SE模塊與CNN相結(jié)合的信道注意機制,提出面部表情的識別網(wǎng)絡(luò),通過學(xué)習(xí)關(guān)注面部表情的顯著區(qū)域來捕獲有害的固有特征,忽略冗余信息[4]。HAZOURLI A R等人用一種基于面部補丁聚合網(wǎng)絡(luò)的人臉情緒識別方法和一種基于兩種數(shù)據(jù)增強技術(shù)的框架來擴展人臉情緒識別標(biāo)簽訓(xùn)練數(shù)據(jù)集,減小了淺卷積神經(jīng)網(wǎng)絡(luò)所需數(shù)據(jù)集,提高了識別準(zhǔn)確率[5]。
關(guān)于情緒識別的方法有多種,如面部表情識別、手勢情緒識別、語音情緒識別、生理模式識別和多模態(tài)情緒識別等。相對于以往單一模式的識別方法,多模態(tài)情緒識別具有較高的準(zhǔn)確性,其中如何實現(xiàn)不同模態(tài)信息的相互融合是多模態(tài)問題的關(guān)鍵。YU GP曾提出一種使用深度學(xué)習(xí)方法的多模態(tài)情感識別,以實現(xiàn)人臉、動作和上下文相的融合[6]。MA F等人設(shè)計了一個音頻網(wǎng)絡(luò)和視覺網(wǎng)絡(luò),分別從視聽數(shù)據(jù)中提取特征表示,然后使用融合網(wǎng)絡(luò)將提取的特征結(jié)合起來進行情感預(yù)測[7]。
硬件設(shè)施的不斷迭代更新,為語音、動作、神經(jīng)生理等信號的采集提供了良好技術(shù)支持的同時也推動了多模態(tài)情緒識別研究的研究進程。國內(nèi)對多模態(tài)情緒識別的課題研究已經(jīng)取得了一定成果。ZHANG X W等人從生理學(xué)和行為學(xué)的角度同時進行探索,將腦電信號與聲音信號融合,成果顯著[14]。FANGY C等人用一種多層次的融合方法結(jié)合視覺信息和生理信號來進行情感識別,實現(xiàn)了視覺和生理信息的特征級和決策級融合,驗證了該算法對多層次多模態(tài)特征的有效性[9]。WANG X H等人基于真實圖像,結(jié)合多任務(wù)學(xué)習(xí)和注意機制的優(yōu)點,對人臉進行情緒估計,從任務(wù)和特征兩個方面對多任務(wù)注意網(wǎng)絡(luò)進行了改進[10]。
FER2013數(shù)據(jù)集樣本來源于網(wǎng)絡(luò)的35887張48×48灰度圖,每張圖像被分類標(biāo)記成生氣、厭惡、恐懼、開心、傷心、驚訝、中性等7種情緒圖像,部分表情圖片如圖1所示。FER2013數(shù)據(jù)集中的源數(shù)據(jù)圖像被轉(zhuǎn)換為.csv中的像素矩陣,這使得數(shù)據(jù)存儲和預(yù)處理更為方便,而非在原生圖像進行裁切。
圖1 FER2013數(shù)據(jù)集部分圖像
FER2013數(shù)據(jù)集使用頻率較高,諸多人與臉情緒識別相關(guān)的研究都使用到了該數(shù)據(jù)集,并得出了較高的準(zhǔn)確率。SAURAV S等人提出使用新型CNN情感網(wǎng)絡(luò)模型的一種魯棒有效的自動識別野外面部情緒的方法,使用該方法在本數(shù)據(jù)集上的準(zhǔn)確率達到了75.00%[11];SHI C P等人使用一種基于多分支交叉連通卷積的方法用于面部表情識別的神經(jīng)網(wǎng)絡(luò)(MBCCCNN),其在FER2013數(shù)據(jù)集上的實驗結(jié)果準(zhǔn)確率為71.52%[12];MOHAN K等人利用深度神經(jīng)網(wǎng)絡(luò)進行識別的準(zhǔn)確度為78.90%[13]。
CK+數(shù)據(jù)集是在Cohn-Kanade-Dataset基礎(chǔ)上擴展形成的。該數(shù)據(jù)集包括來源于123個對象在實驗室條件下拍攝的593個圖像序列,部分表情圖片如圖2所示。這些圖像序列被分類標(biāo)記為8個情緒類別。由于該數(shù)據(jù)集的原圖像樣本是以圖像序列方式存在的,其預(yù)處理操作相對于普通圖像數(shù)據(jù)集會較為繁瑣。但基于Cohn-Kanade-Dataset的流行度和易用性,諸多研究者會選擇使用CK+數(shù)據(jù)集來進行數(shù)據(jù)訓(xùn)練。UMER S等人開發(fā)的面部表情識別系統(tǒng),在使用完整的數(shù)據(jù)增強技術(shù)時,運行準(zhǔn)確度最高的結(jié)果為97.69%[14];ANJANI SUPUTRI DEVI D等人提出基于深度學(xué)習(xí)回歸分類器的情緒識別方法,用一種利用新型DR分類器的高效人臉情緒識別系統(tǒng)進行識別,其在該數(shù)據(jù)集運行精度結(jié)果達98.85%[15];JEEN RETAN KUMAR R等人基于子帶選擇性多水平平穩(wěn)雙正交小波變換統(tǒng)計參數(shù)的人臉特征提取,其實驗運行結(jié)果準(zhǔn)確度也高達99.2%[16]。
圖2 CK+數(shù)據(jù)集部分圖像
JAFFE數(shù)據(jù)集來源于10位女性的213張圖像。在實驗室環(huán)境條件下,每個人做出悲傷、快樂、憤怒、厭惡、驚訝、恐懼、中立7種表情如圖3所示。該數(shù)據(jù)集規(guī)模小卻種類相對較全,符合小型數(shù)據(jù)訓(xùn)練的需求。
圖3 JAFFE數(shù)據(jù)集部分圖像
RAF數(shù)據(jù)集是由北京郵電大學(xué)的PRISLab發(fā)布和維護的,其發(fā)布時間約為2017年。該數(shù)據(jù)集搜集了來源于網(wǎng)絡(luò)的29672張人臉情緒相關(guān)圖片。這些圖片從情感分析的角度上來看,被分類成7類Basic表情和11類Compound表情,其表情種類豐富程度是本文舉例中最大的。
SFEW數(shù)據(jù)集來源于95個影視作品角色對象的1766個人臉靜態(tài)圖像樣本。雖然樣本數(shù)目少,但是由于來源于影視作品,其表現(xiàn)力可能會更強,相關(guān)的情緒特征也會更明顯,從而也更利于模型的訓(xùn)練和學(xué)習(xí)。
SAVEE數(shù)據(jù)集由480段包含7種表情的短視頻組成,每段視頻時長為3-5s。其中,短視頻是由CVSS的3D視覺實驗室對4位薩里大學(xué)在校生和研究人員在不同時間段連續(xù)數(shù)月采集面部信息集合而成的。由于其短視頻的特殊形式,常被用于動態(tài)情緒識別研究。DO L N等人以視頻信息作為輸入,建立了將CNN視覺數(shù)據(jù)與情感識別相融合的模型,該模型在其數(shù)據(jù)集上運行的精度可以達到84.37%[17]。
基于不同數(shù)據(jù)集參數(shù)屬性以及各引用文獻使用同模型不同數(shù)據(jù)集下運行的表現(xiàn),可繪制出表1和表2。對各項指標(biāo)對比分析可以初步發(fā)現(xiàn)CK+數(shù)據(jù)集在各研究中的綜合表現(xiàn)較為優(yōu)異。
表1 各數(shù)據(jù)集屬性參數(shù)
表2 數(shù)據(jù)集的精度度
傳統(tǒng)的人臉情緒識別方法包括原始圖像輸入、數(shù)據(jù)預(yù)處理、“特征工程”和表情分類四個基本流程(圖4),其中“特征工程”是傳統(tǒng)方法中最重要的步驟,它需要結(jié)合相應(yīng)研究問題,人為地進行特征提取,再喂入分類器進行學(xué)習(xí)。
圖4 傳統(tǒng)方法流程圖
在現(xiàn)階段的研究中,人臉情緒識別輸入的表情原始圖像主要為2D和3D圖片。由于現(xiàn)實生活中圖像采集的困難性,數(shù)據(jù)輸入大多為實驗室采集的人臉圖像,以降低下一步對數(shù)據(jù)進行預(yù)處理的難度。當(dāng)表情原始圖像輸入后,首先對其進行數(shù)據(jù)預(yù)處理,即通過人臉檢測、定位算法獲取臉部圖像,并對灰度值進行歸一化。然后通過“特征工程”去除非表情噪聲,提取表情特征后將其喂入分類器。最后分類器將表情原始圖像劃分歸類為某種基本表情。
基于深度學(xué)習(xí)的識別流程(圖5)類似于傳統(tǒng)方法。但是在深度學(xué)習(xí)中,有關(guān)特征提取的工作不需要人為干預(yù),由網(wǎng)絡(luò)模型自動完成。傳統(tǒng)方法與深度學(xué)習(xí)的區(qū)別就在于是否有“特征工程”?!疤卣鞴こ獭笔莻鹘y(tǒng)方法最重要的環(huán)節(jié),它需要結(jié)合實際問題、人為地進行特征提取,再喂入分類器進行學(xué)習(xí),其中特征提取的結(jié)果的優(yōu)劣與分類性能的高低有著密切關(guān)系,深度學(xué)習(xí)則略去了這一環(huán)節(jié)。深度學(xué)習(xí)對數(shù)據(jù)量需求大,若參與訓(xùn)練的數(shù)據(jù)量過少,則可能出現(xiàn)因過擬合而導(dǎo)致泛化性能差的問題。因此需要用“平移、切割、旋轉(zhuǎn)、加噪”等方式進行數(shù)據(jù)增強。
圖5 深度學(xué)習(xí)流程圖
CNN模型結(jié)構(gòu)如圖6所示,其由卷積層、池化層和全連接層組成,損失函數(shù)使用交叉熵。輸入的圖像先通過卷積層卷積并產(chǎn)生特定類型的激活特征映射;再通過池化層減小特征映射的空間大小和網(wǎng)絡(luò)的計算量;最后通過網(wǎng)絡(luò)末端的全連接層使得兩維特征映射能夠轉(zhuǎn)換為一維特征映射,以便進一步的特征表示和分類。但是由于CNNDE輸入樣本是2D靜態(tài)圖片,所以其不能處理視頻對象,而CNN-LSTM模型恰巧可以彌補這一點。ZHANG H P等人將基于2D圖像的雙通道加權(quán)混合網(wǎng)絡(luò)深度卷積神經(jīng)網(wǎng)絡(luò),與基于3D圖像序列的雙通道加權(quán)混合網(wǎng)絡(luò)的深度CNN-LSTM相結(jié)合,利用2D圖像特征來獲取序列時間特征[18]。
圖6 CNN模型結(jié)構(gòu)
CNN-LSTM模型能夠?qū)討B(tài)表情進行分類。其模型結(jié)構(gòu)如圖7所示,先使用CNN對每一幀2D圖片進行空間特征提取后,再由LSTM進行時間特征提取。ConvLSTM將卷積運算集成到LSTM模塊當(dāng)中,而實現(xiàn)了一個LSTM(具有卷積運算)即可完成情緒視頻的分類。CNN通常都被理解為2D-CNN,而C3D算法其實就是3D-CNN。將表情視頻看作是一個3D圖片,使用3D卷積層和3D池化層進行分類,其結(jié)構(gòu)如圖8所示。
圖7 CNN-LSTM模型結(jié)構(gòu)
圖8 3D-CNN模型結(jié)構(gòu)
單一的CNN模型自身存在著不能處理視頻對象等缺點,這使得大量的研究人員將各種方法與CNN相互配合使用,以達到研究需求。本研究總結(jié)了近期典型的CNN優(yōu)化模型的實驗結(jié)果,做出如表3所示的對比分析。
表3 CNN優(yōu)化模型試驗數(shù)據(jù)
續(xù)表
目前,人臉情緒識別技術(shù)已被研究應(yīng)用于現(xiàn)實生活,以期提高居民的生命質(zhì)量。在課堂教學(xué)方面,實時檢測系統(tǒng)可以反映學(xué)生的參與程度,評價學(xué)生學(xué)習(xí)效果并幫助教師調(diào)整教學(xué)方法[20];在自動駕駛領(lǐng)域,OH G等人用一種基于深度學(xué)習(xí)的駕駛員真實情感識別器(DRER)來識別駕駛員的真實情感[21],增強人機公駕模式的安全性;在移動應(yīng)用平臺上,各應(yīng)用軟件借助人臉情緒識別相關(guān)技術(shù)實現(xiàn)應(yīng)用功能,如FRANZEN M等人開發(fā)的適用于無法正確識別情緒的自閉癥患者的視頻會議識別軟件[22],WANG P等人還設(shè)計出了高性能的移動情感識別應(yīng)用程序開發(fā)者的微服務(wù)平臺[23];在醫(yī)療領(lǐng)域,LIU H等人建立了基于深度神經(jīng)網(wǎng)絡(luò)的WBS診斷自動人臉識別模型,采用5種交叉驗證方法對分類性能進行評價,并與人工專家評價結(jié)果進行比較,驗證了在臨床實踐中可以使用進行深度學(xué)習(xí)神經(jīng)系統(tǒng)網(wǎng)絡(luò)診斷WBS的可能性[24];在人機交互領(lǐng)域,MARTíNEZ A等設(shè)計了一種無人駕駛的社交機器人來監(jiān)控家里的家屬,以檢測家屬狀態(tài)并帶來必要的幫助[25]。
多年后,人臉情緒識別技術(shù)可能真正應(yīng)用于家政、接待服務(wù)領(lǐng)域[26],例如根據(jù)主人的情感自動調(diào)整室內(nèi)顏色和音樂;在公安領(lǐng)域,將人臉情感識別系統(tǒng)加入到監(jiān)控系統(tǒng)中,提高了監(jiān)控效率,降低了人力消耗;在醫(yī)療領(lǐng)域協(xié)助醫(yī)生診斷,幫助心理疾病患者和自閉癥患者治療。雖然目前還未發(fā)現(xiàn)人類情緒與其主觀行為有直接可靠的關(guān)系,但是隨著科研人員的不斷探索,人工智能時代終會來臨。
(1)根本原理存疑。面部表情和內(nèi)在情緒之間的關(guān)系是不可靠的、不特定的、不能普遍化的。對于在不同文化下成長長期居住生活的人群,其在外界不同因素的刺激下,面部表情變化不近相同,對于在相同文化下不同年齡的人群,亦是如此。而這其中并沒有包括性別、職業(yè)和健康狀況等相關(guān)因素,相關(guān)研究已經(jīng)證明了以上因素與情緒的關(guān)聯(lián)[27]。人臉表情與情緒兩者之間的關(guān)系錯綜復(fù)雜,并非簡單的依靠某種算法就能夠表示驗算。
(2)數(shù)據(jù)集缺乏。目前公開的經(jīng)典人臉表情數(shù)據(jù)集主要有FER2013、CK+和RAF-DB,其數(shù)據(jù)來源主要集中于網(wǎng)絡(luò)人臉數(shù)據(jù)和實驗室拍攝數(shù)據(jù)。具有某一特征的人群數(shù)據(jù)集極其匱乏,例如基于年齡特征的嬰幼兒表情數(shù)據(jù)集,基于職業(yè)特征的醫(yī)生表情數(shù)據(jù)集或基于自閉癥患者的表情數(shù)據(jù)集等。由于深度學(xué)習(xí)數(shù)據(jù)驅(qū)動的特性,如何能建立相對全面的數(shù)據(jù)集,直接影響實驗結(jié)果的準(zhǔn)確性。對于不同適應(yīng)性的課題,就需要去針對性地做大量的數(shù)據(jù)采集工作。
(3)識別準(zhǔn)確度難以保證。在自然環(huán)境條件下獲取的人臉表情圖像存在著圖像質(zhì)量低的問題,因此需要依靠人工處理標(biāo)注圖像。情感本身存在著較強的主觀性,表情也存在著較大的不確定性,在人工處理圖像時又受到標(biāo)注者的主觀影響,這導(dǎo)致人的主觀性對于圖像預(yù)處理過程影響較大的問題難以解決。同時自動面部表情分析也存在識別精度低、魯棒性差的致命問題。傳統(tǒng)的CNN模型在捕捉遠距離像素之間的依賴關(guān)系時效率較低,導(dǎo)致識別性能較差。同時也存在過擬合或信息不完整、數(shù)據(jù)不足的問題。雖然研究人員對此做出了多種嘗試,但僅僅是把不利影響降低而已,對于處理微小運動的視頻,以及較少視頻或圖片的數(shù)據(jù)集使用的人臉情緒識別方法仍然是一個巨大挑戰(zhàn)。
(4)場景限制。人臉情緒識別方法因使用場景的不同具有一定差異性。對于不同場景的特殊需求,需要設(shè)計相應(yīng)的算法和模型,來排除噪聲對識別準(zhǔn)確率的干擾。例如,在人群較多的公共場合,需要排除多余的干擾面部表情;在光照強度不確定遮擋物較多的野外場景,需要自適應(yīng)調(diào)節(jié)圖像不同條件下的參數(shù),并排除遮擋物的影響。COVID-19大流行病促進了世界各地面罩的廣泛使用,2020年中期,口罩已經(jīng)成為許多公民日常生活中的一個普遍特征??谡謺蓴_對攜帶者情緒狀態(tài)的識別同時使情緒表現(xiàn)更難解釋,面罩也可能會損害面部模仿和行為同步。人臉面部情緒識別技術(shù)應(yīng)迅速適應(yīng)外部外境變化,做出相應(yīng)優(yōu)化與改進,才能不被時代所拋棄。
相對于真正的人工智能而言,雖然人類僅僅是處于研究“機器智能”階段,但是目前已有的微小成果已經(jīng)開始影響人類的生活并且這種影響力還在逐步擴大。在這個萬物互聯(lián)的時代,人類的個人隱私越來越難以保護。從人類固有特性的角度來看,居民的自我情緒在被動條件下是抗拒被發(fā)覺、分析甚至窺視的,而這種“被窺視”的判定完全取決于個人。此前,中國藥科大學(xué)對一個人臉識別系統(tǒng)進行了前期實景測試。此系統(tǒng)能夠?qū)W(xué)生進行精準(zhǔn)考勤,并對其聽課全程進行監(jiān)控并分析,學(xué)生的聽課狀態(tài)暴露無遺[28]。社會對這一行為究竟是“管理”還是“監(jiān)控”進行了激烈爭論。
美國紐約大學(xué)今日人工智能研究中心指出,在影響人們?nèi)粘I詈蜖幦“l(fā)展機會獲得機遇時,監(jiān)管者應(yīng)該禁止使用情緒識別,例如決定誰有機會得到面試機會或者獲得工作機會,保險的價格,病患痛苦的評估以及學(xué)生在學(xué)校的表現(xiàn)[29]。SMITH M等人描述了生物特征面部識別在公共安全方面的不斷擴大的用途,基于其對個人生命權(quán),法律和秩序的影響,提出了國家政府監(jiān)管機制的解決辦法[30]。
對于人臉情緒識別技術(shù)的應(yīng)用,國內(nèi)外都存在著諸多擔(dān)憂和爭議。這也在提示研發(fā)人員,任何一項技術(shù)的研究與應(yīng)用,不能脫離甚至打破不同文化下的倫理和思維方式?!叭斯ぶ悄堋笔且浴叭恕睘榍疤?,在能確保維護“人”的權(quán)利基礎(chǔ)之上研發(fā)“工”的機制。
本研究從人臉情緒識別技術(shù)的研究發(fā)展背景、數(shù)據(jù)集、識別方法、發(fā)展與挑戰(zhàn)四個方面做了深刻分析與總結(jié)。首先,對人臉情緒識別技術(shù)的研發(fā)背景做了實時總結(jié)更新,發(fā)現(xiàn)將人臉表情與其他生理特征相結(jié)合的多模態(tài)多任務(wù)情緒識別方法正在被大量的研究應(yīng)用,其識別率也更為精準(zhǔn)。接著,對比分析了當(dāng)前流行各人臉表情數(shù)據(jù)集的不同參數(shù)值和在不同識別方法下的表現(xiàn)以及傳統(tǒng)方法與深度學(xué)習(xí)的異同點,對近期基于CNN優(yōu)化模型做出評估。初步對準(zhǔn)確度這一指標(biāo)進行縱向分析,發(fā)現(xiàn)各模型在CK+數(shù)據(jù)集上運行的識別準(zhǔn)確率較為優(yōu)異。最后,對人臉情緒識別技術(shù)未來深入研究方向以及應(yīng)用在家政、接待服務(wù)、公安和醫(yī)療領(lǐng)域的場景做出初步設(shè)想,提出現(xiàn)有優(yōu)化技術(shù)的局限性,以及現(xiàn)階段投入研究使用遇到的“人權(quán)”倫理問題。