趙小明,楊軼嬌,張石清
1.浙江科技學(xué)院 理學(xué)院,杭州310000
2.臺(tái)州學(xué)院 智能信息處理研究所,浙江 臺(tái)州318000
情感識(shí)別是一個(gè)以人的情感狀態(tài)為目標(biāo)的動(dòng)態(tài)過(guò)程,這意味著每個(gè)人的行為對(duì)應(yīng)的情感是不同的。日常生活中的情感識(shí)別對(duì)社會(huì)交往很重要,人類(lèi)以不同的方式表達(dá)自己的感受,情感在決定人類(lèi)行為中起著重要作用。為了確保有意義的交流,對(duì)這些情感的準(zhǔn)確解讀非常重要。
在情感識(shí)別任務(wù)中,情感通常分為離散狀態(tài)或連續(xù)狀態(tài)。常見(jiàn)的離散的情感狀態(tài)有快樂(lè)、恐懼、驚訝和悲傷等;連續(xù)情感狀態(tài)可以分為效價(jià)(valence)、喚醒(arousal)和支配(dominance)。喚醒表達(dá)的是激活的水平(被動(dòng)或主動(dòng)),并與當(dāng)前情感狀態(tài)的強(qiáng)度(積極或消極)有關(guān);效價(jià)表示愉悅程度;支配表示情感條件施加的控制程度。由于連續(xù)情感在現(xiàn)實(shí)環(huán)境中的測(cè)量具有挑戰(zhàn)性,離散情感建模更為流行。
人們交流感情的方式有很多,既有口頭語(yǔ)言,也有非口頭語(yǔ)言,包括表達(dá)性語(yǔ)言、面部姿勢(shì)、肢體語(yǔ)言等。因此,來(lái)自多種模態(tài)的情緒信號(hào)可用來(lái)預(yù)測(cè)一個(gè)主體的情緒狀態(tài)。然而,單一的模態(tài)無(wú)法準(zhǔn)確判斷一個(gè)人的情感,單憑眼前的某個(gè)特定實(shí)體或事件無(wú)法有效判斷某人的情感變化。這就是情感識(shí)別應(yīng)被視為多模態(tài)問(wèn)題的原因之一。因此多模態(tài)情感識(shí)別考慮了多種輸入模式,如語(yǔ)音、文本、視覺(jué)線(xiàn)索等,對(duì)情感信息進(jìn)行建模和識(shí)別。
多模態(tài)情感識(shí)別在社交機(jī)器人、教育質(zhì)量評(píng)估、安全控制、人機(jī)交互系統(tǒng)等方面具有相當(dāng)大的應(yīng)用前景。為了推動(dòng)情感識(shí)別任務(wù)的發(fā)展,近十年來(lái)出現(xiàn)了不同的多模態(tài)情感任務(wù)挑戰(zhàn)賽,包括AVEC、EmotiW、MuSe、MEC 等。AVEC(audio/visual emotion challenge and workshop)是一項(xiàng)音視頻挑戰(zhàn)賽,目的是為多模態(tài)信息處理提供通用的基準(zhǔn)測(cè)試集,并將基于聽(tīng)覺(jué)、視覺(jué)和視聽(tīng)覺(jué)情感識(shí)別任務(wù)聚集在一起。EmotiW(emotion recognition in the wild challenge)是一場(chǎng)野外挑戰(zhàn)競(jìng)賽,旨在為研究者提供一個(gè)平臺(tái),在代表真實(shí)世界或接近真實(shí)世界場(chǎng)景的數(shù)據(jù)上驗(yàn)證他們的方法。自2013年開(kāi)始,EmotiW每年都會(huì)舉辦一次,挑戰(zhàn)的子項(xiàng)目每年都會(huì)有所變化。MuSe 2020(multimodal sentiment)是一個(gè)基于現(xiàn)實(shí)生活媒體(real-life media)的挑戰(zhàn)賽,更全面地融合視聽(tīng)和語(yǔ)言模態(tài),重點(diǎn)關(guān)注情感識(shí)別、情感目標(biāo)參與和可信度檢測(cè)三個(gè)任務(wù),提出了一個(gè)用于競(jìng)賽的野外數(shù)據(jù)庫(kù)Muse-CaR?;贛uSe 2020 挑戰(zhàn)賽的工作,MuSe 2021更全面地整合了視聽(tīng)、語(yǔ)音和生理信號(hào)模態(tài),并提供了Ulm-TSST(Ulm-trier social stress)數(shù)據(jù)集。MEC(multimodal emotion recognition)挑戰(zhàn)賽是中國(guó)模式識(shí)別大會(huì)(Chinese conference on pattern recognition,CCPR)的一部分,提供了中國(guó)自然視聽(tīng)情感數(shù)據(jù)庫(kù)CHEAVD,定義了三個(gè)子挑戰(zhàn):音頻、視頻和多模態(tài)情感識(shí)別。
近年來(lái),深度學(xué)習(xí)依靠強(qiáng)大的特征學(xué)習(xí)能力,在語(yǔ)音信號(hào)處理、計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、情感計(jì)算等許多領(lǐng)域取得了巨大成功。深度學(xué)習(xí)本質(zhì)上是通過(guò)使用多個(gè)非線(xiàn)性變換的層次架構(gòu)來(lái)獲得高級(jí)的特征表示。深度信念網(wǎng)絡(luò)(deep belief network,DBN)、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)是深度學(xué)習(xí)最常用的三種方法。近年來(lái),這些深度學(xué)習(xí)方法在多模態(tài)情感識(shí)別任務(wù)中往往用于高層次的特征學(xué)習(xí)或多模態(tài)信息的融合。為了系統(tǒng)地總結(jié)深度學(xué)習(xí)方法在多模態(tài)情感識(shí)別領(lǐng)域中的研究現(xiàn)狀,本文擬對(duì)近年來(lái)面向深度學(xué)習(xí)的多模態(tài)情感識(shí)別研究進(jìn)行系統(tǒng)的分析與總結(jié)。
文獻(xiàn)[24]側(cè)重于綜述多模態(tài)信息的融合方法研究進(jìn)展,沒(méi)有涉及到面向深度學(xué)習(xí)的特征提取技術(shù)介紹。與上述文獻(xiàn)不同,本文既對(duì)多模態(tài)融合方法進(jìn)行詳細(xì)總結(jié)與歸納,又對(duì)近年來(lái)面向深度學(xué)習(xí)的語(yǔ)音、視覺(jué)及文本的特征提取方法進(jìn)行了分析和總結(jié)。本文主要貢獻(xiàn)可以總結(jié)如下:(1)從多模態(tài)的角度對(duì)面向深度學(xué)習(xí)的多模態(tài)情感識(shí)別研究進(jìn)行了最新的系統(tǒng)性文獻(xiàn)分析與歸納,即以多模態(tài)(語(yǔ)音、視覺(jué)、文本等)分析主體情感為中心,對(duì)手工情感特征提取、與深度學(xué)習(xí)技術(shù)相關(guān)的深度情感特征提取以及多模態(tài)信息融合方法進(jìn)行了分析與總結(jié)。(2)分析了該領(lǐng)域面臨的挑戰(zhàn)和機(jī)遇,并指出了未來(lái)的發(fā)展方向。
圖1給出了一般的多模態(tài)情感識(shí)別框架。由圖1所示,一般的多模態(tài)情感識(shí)別系統(tǒng)包括三個(gè)步驟:特征提取、多模態(tài)信息融合和情感分類(lèi)器的設(shè)計(jì)。特征提取是對(duì)語(yǔ)音、視覺(jué)、文本等不同模態(tài)信息分別提取與情感表達(dá)相關(guān)的特征參數(shù)。多模態(tài)信息融合指的是采用不同的融合策略對(duì)兩種及以上的單模態(tài)信息進(jìn)行融合。常見(jiàn)的多模態(tài)信息融合方法有特征層融合、決策層融合、模型層融合等。情感分類(lèi)器的設(shè)計(jì)是采用合適的分類(lèi)器來(lái)學(xué)習(xí)提取的特征表示與相關(guān)識(shí)別的情感之間的映射關(guān)系,從而獲得最終的情感識(shí)別結(jié)果。根據(jù)單一模態(tài)信息的不同,一個(gè)多模態(tài)情感識(shí)別系統(tǒng)往往包括多個(gè)單一模態(tài)情感識(shí)別子任務(wù),如采用語(yǔ)音信號(hào)的語(yǔ)音情感識(shí)別、采用視覺(jué)信息的視覺(jué)情感識(shí)別以及采用文本信息的文本情感識(shí)別等。
圖1 多模態(tài)情感識(shí)別框架Fig. 1 Framework of multimodal emotion recognition
多模態(tài)情感識(shí)別本質(zhì)上是一個(gè)模式識(shí)別問(wèn)題。目前,現(xiàn)有的機(jī)器學(xué)習(xí)方法大都可以用于情感的分類(lèi)。代表性的情感分類(lèi)器主要有:貝葉斯網(wǎng)絡(luò)(Bayesian networks,BN)、最大似然原理(maximum likelihood principle,MLP)、支持向量機(jī)(support vector machine,SVM)等??紤]到情感分類(lèi)器的設(shè)計(jì)已經(jīng)比較成熟,因此本文只針對(duì)多模態(tài)情感識(shí)別系統(tǒng)中的前兩個(gè)關(guān)鍵步驟——情感特征提取和多模態(tài)信息融合,系統(tǒng)地闡述其近年來(lái)的發(fā)展現(xiàn)狀和未來(lái)的展望。
多模態(tài)情感數(shù)據(jù)集是指包含動(dòng)態(tài)情感變化和多種情感類(lèi)別的數(shù)據(jù)集,數(shù)據(jù)集中包含常見(jiàn)的模態(tài)信息有語(yǔ)音、視覺(jué)、文本等。本章將重點(diǎn)介紹近些年來(lái)常用的多模態(tài)情感數(shù)據(jù)集,如表1所示。
表1 多模態(tài)情感數(shù)據(jù)集Table 1 Multimodal emotional datasets
eNTERFACE'05:該數(shù)據(jù)集是一個(gè)試聽(tīng)數(shù)據(jù)集,由1 277 個(gè)視聽(tīng)樣本組成,由來(lái)自14 個(gè)不同國(guó)家的42 名參與者(8 名女性)完成。每個(gè)參與者都被要求連續(xù)聽(tīng)6篇短篇小說(shuō),每一篇都能引起一種特定的情感。受試者必須對(duì)每一種情況做出反應(yīng),兩位人類(lèi)專(zhuān)家判斷這些反應(yīng)是否以明確的方式表達(dá)了預(yù)期的情感。六種特定的情感分別為:憤怒、厭惡、恐懼、快樂(lè)、悲傷和驚訝。
RML:該數(shù)據(jù)庫(kù)由720個(gè)包含視聽(tīng)情感表達(dá)的樣本組成,每個(gè)視頻的持續(xù)時(shí)間在3~6 s之間,包含了憤怒、厭惡、恐懼、幸福、悲傷、驚訝六種基本情緒。錄音是在安靜明亮的背景氛圍中進(jìn)行的,使用數(shù)碼相機(jī)。8 名受試者進(jìn)行了錄音,并會(huì)說(shuō)六種語(yǔ)言,分別為英語(yǔ)、普通話(huà)、烏爾都語(yǔ)、旁遮普語(yǔ)、波斯語(yǔ)和意大利語(yǔ),英語(yǔ)和普通話(huà)的不同口音也包括在內(nèi)。采用16 位單通道數(shù)字化,以22 050 Hz 的頻率記錄樣本。記錄速度被設(shè)置為30 frame/s。
IEMOCAP:該數(shù)據(jù)集是由南加州大學(xué)的Sail實(shí)驗(yàn)室收集的一個(gè)包含動(dòng)作、多模態(tài)和多峰值的數(shù)據(jù)庫(kù)。它包含10個(gè)說(shuō)話(huà)者在分成話(huà)語(yǔ)的雙向?qū)υ?huà)中的行為,包括視頻、語(yǔ)音、面部動(dòng)作捕捉和文本轉(zhuǎn)錄,所有視頻中對(duì)話(huà)的媒介都是英語(yǔ)??偣舶?0 039段對(duì)話(huà),平均持續(xù)時(shí)間為4.5 s,平均單詞數(shù)為11.4。參與者表演即興表演或腳本場(chǎng)景。被眾多注釋者標(biāo)注為中性、快樂(lè)、悲傷、憤怒、驚訝、恐懼、厭惡、挫折、興奮等類(lèi)別標(biāo)簽和配價(jià)、激活、支配等維度標(biāo)簽。
AFEW:該數(shù)據(jù)集是在具有挑戰(zhàn)性的條件下錄制的動(dòng)作面部表情數(shù)據(jù)集,由1 426 個(gè)視頻片段組成。這些視頻片段被標(biāo)記為6 類(lèi)基本情感(生氣、高興、悲傷、驚訝、厭惡、恐懼)和中性情感之一。該數(shù)據(jù)集捕捉了不同的面部表情、自然的頭部姿勢(shì)運(yùn)動(dòng)、遮擋物,來(lái)自不同種族、性別、年齡的受試者和一個(gè)場(chǎng)景中的多個(gè)受試者。
BAUM-1s:該數(shù)據(jù)集是一個(gè)視聽(tīng)自發(fā)數(shù)據(jù)集,包含來(lái)自31 名土耳其受試者的1 222 個(gè)視頻樣本。該數(shù)據(jù)集有六種基本情緒(快樂(lè)、憤怒、悲傷、厭惡、恐懼、驚訝)以及無(wú)聊和蔑視。它還包含四種精神狀態(tài),即不確定、思考、專(zhuān)注和煩惱。為了獲得自發(fā)的視聽(tīng)表達(dá),采用了觀看電影的情感激發(fā)方法。
CHEAVD:該數(shù)據(jù)集為中國(guó)自然情感視聽(tīng)數(shù)據(jù)庫(kù),提取了34部電影、2部電視劇、2部電視節(jié)目、1部即興演講和1部脫口秀節(jié)目中的140 min的自發(fā)情感片段,其中電影和電視劇占大部分。該數(shù)據(jù)集有238名說(shuō)話(huà)者,覆蓋了從兒童到老年人,其中男性比例為52.5%,女性比例為47.5%;總共有26 種非原型的情感狀態(tài),包括基本的6 種,由4 個(gè)講母語(yǔ)的人標(biāo)記。前8個(gè)主要的情感為憤怒、快樂(lè)、悲傷、擔(dān)心、焦慮、驚訝、厭惡和中性。
CMU-MOSI:該數(shù)據(jù)集是一個(gè)富含情感表達(dá)的數(shù)據(jù)集,由2 199個(gè)評(píng)論的話(huà)語(yǔ)、93段說(shuō)話(huà)者(含89個(gè)說(shuō)話(huà)者)視頻組成。這些視頻涉及大量主題,如電影、書(shū)籍和產(chǎn)品。視頻是從YouTube 上抓取的,并被分割成話(huà)語(yǔ)。每個(gè)分割情感標(biāo)簽由5 個(gè)注釋者在+3(強(qiáng)陽(yáng)性)到-3(強(qiáng)陰性)之間評(píng)分,將這5個(gè)注釋的平均值作為情感極性,因此只考慮了兩類(lèi)(積極和消極)。訓(xùn)練集由數(shù)據(jù)集中的前62段視頻組成,測(cè)試集包含剩余的31段視頻。在訓(xùn)練和測(cè)試中分別包含了1 447 個(gè)話(huà)語(yǔ)(含467 個(gè)否定話(huà)語(yǔ))和752 個(gè)話(huà)語(yǔ)(含285個(gè)否定話(huà)語(yǔ))。
RAMAS:該數(shù)據(jù)集是第一個(gè)俄羅斯多模態(tài)情感數(shù)據(jù)庫(kù)。他們認(rèn)為專(zhuān)業(yè)戲劇演員可能會(huì)使用動(dòng)作模式的刻板印象,因此選用半職業(yè)演員在情感情境中表演動(dòng)作。10 名半職業(yè)演員(5 名男性和5 名女性)參與了數(shù)據(jù)收集,年齡在18~28 歲,母語(yǔ)為俄語(yǔ)。半職業(yè)演員在設(shè)定的場(chǎng)景中表達(dá)了一種基本的情感(憤怒、厭惡、快樂(lè)、悲傷、恐懼、驚訝)。數(shù)據(jù)庫(kù)包含大約7 h 的高質(zhì)量特寫(xiě)視頻記錄,采集了音頻、運(yùn)動(dòng)捕捉、特寫(xiě)和全景視頻、生理信號(hào)等多種數(shù)據(jù)。
RAVDESS:該數(shù)據(jù)集由24 位專(zhuān)業(yè)演員錄制,包括60 段演講和44 首帶有情緒的歌曲(包含中性、平靜、快樂(lè)、悲傷、憤怒、恐懼、厭惡、驚訝)。每個(gè)演員錄制的作品有三種形式:視聽(tīng)、視覺(jué)和語(yǔ)音。錄音是在專(zhuān)業(yè)工作室錄制的,鏡頭中只有演員和綠色屏幕可見(jiàn)。為了確保相機(jī)能夠捕捉演員的頭和肩膀,相機(jī)的高度隨時(shí)調(diào)整。工作室提供全光譜照明來(lái)最小化面部陰影。
CMU-MOSEI:該數(shù)據(jù)集是迄今為止最大的多模態(tài)情感分析和情感識(shí)別數(shù)據(jù)集,包含來(lái)自1 000多名在線(xiàn)YouTube 演講者的3 837 段視頻,其中包含六種情緒類(lèi)別:快樂(lè)、悲傷、憤怒、恐懼、厭惡和驚訝。它在話(huà)語(yǔ)層面進(jìn)行注釋?zhuān)灿?3 259個(gè)樣本。CMUMOSEI 中的樣本包括三種模式:采樣率為44.1 kHz的音頻數(shù)據(jù)、文本轉(zhuǎn)錄和以30 Hz的頻率從視頻中采樣的圖像幀。該數(shù)據(jù)集是性別平衡的,所有的句子都是從各種主題和獨(dú)白視頻中隨機(jī)選擇的,視頻被轉(zhuǎn)錄并標(biāo)記正確的標(biāo)點(diǎn)符號(hào)。
MELD:該數(shù)據(jù)集是從EmotionLines 數(shù)據(jù)集演變而來(lái)的。EmotionLines只包含電視劇中的對(duì)話(huà)。MELD是一個(gè)多模態(tài)的情感對(duì)話(huà)數(shù)據(jù)集,包含語(yǔ)音、視覺(jué)和文本信息。MELD 包含了電視劇中1 433段對(duì)話(huà)中的13 000句話(huà),每段對(duì)話(huà)包含兩個(gè)以上的說(shuō)話(huà)者。由于數(shù)據(jù)僅從一部電視劇中獲得,參與人數(shù)有限,84%的場(chǎng)次由6 位主演獲得。對(duì)話(huà)中的每一句話(huà)都被標(biāo)記為這七種情感標(biāo)簽中的任何一種——憤怒、厭惡、悲傷、喜悅、中立、驚訝和恐懼。MELD 還對(duì)每個(gè)話(huà)語(yǔ)都有情緒(正面、負(fù)面和中性)注釋。
CH-SIMS:該數(shù)據(jù)集是一個(gè)中文單模態(tài)和多模態(tài)情感分析的數(shù)據(jù)集,其中包含2 281個(gè)經(jīng)過(guò)精煉的野外視頻片段,具有多模態(tài)和獨(dú)立的單模態(tài)注釋。它允許研究人員研究模態(tài)之間的相互作用或使用獨(dú)立的單模態(tài)注釋進(jìn)行單模態(tài)情感分析。該數(shù)據(jù)集只考慮普通話(huà),對(duì)口音材料的選擇持謹(jǐn)慎態(tài)度。剪輯長(zhǎng)度不少于1 s,也不超過(guò)10 s。對(duì)于每個(gè)視頻剪輯,除了演講者的臉外,不會(huì)顯示其他臉。每個(gè)片段包含15個(gè)單詞,平均長(zhǎng)度為3.67 s。每個(gè)剪輯都由人類(lèi)注釋者根據(jù)5個(gè)情感分?jǐn)?shù)的平均值進(jìn)行標(biāo)記,五類(lèi)分別為消極{-1.0,-0.8},弱消極{-0.6,-0.4,-0.2},中性{0},弱積極{0.2,0.4,0.6}和積極{0.8,1.0}。
HEU Emotion:該數(shù)據(jù)庫(kù)包含總共19 004 個(gè)視頻片段,根據(jù)數(shù)據(jù)源分為兩部分。第一部分包含從Tumblr、Google 和Giphy 下載的視頻,包括10 種情緒和兩種模式(面部表情和身體姿勢(shì));第二部分包括從電影、電視劇和綜藝節(jié)目中手工獲取的語(yǔ)料,包括10 種情緒和3 種形式(面部表情、身體姿勢(shì)和情緒言語(yǔ))。該數(shù)據(jù)庫(kù)是迄今為止最廣泛的多模態(tài)情緒數(shù)據(jù)庫(kù),共有9 951 名受試者,他們是來(lái)自不同文化背景的人,如中國(guó)人、美國(guó)人、泰國(guó)人和韓國(guó)人。在大多數(shù)情況下,他們說(shuō)自己的母語(yǔ)。因此,該數(shù)據(jù)庫(kù)是一個(gè)具有多種語(yǔ)言的情感數(shù)據(jù)庫(kù)。
深度學(xué)習(xí)被認(rèn)為是機(jī)器學(xué)習(xí)中一個(gè)新興的研究領(lǐng)域,近年來(lái)得到了更多的關(guān)注。與傳統(tǒng)方法相比,用于情感識(shí)別的深度學(xué)習(xí)技術(shù)具有許多優(yōu)點(diǎn),比如能夠檢測(cè)復(fù)雜的結(jié)構(gòu)與特征,而無(wú)需手動(dòng)進(jìn)行特征提取等。在本章中,簡(jiǎn)要回顧了幾種有代表性的深度學(xué)習(xí)方法及其最新的改進(jìn)方法。
深度信念網(wǎng)絡(luò)(DBN)是由Hinton等于2006年提出的一種生成式模型,旨在獲取輸入數(shù)據(jù)的高階層次特征表示。DBN 是一種多層深結(jié)構(gòu),由一系列疊加的限制玻爾茲曼機(jī)(restricted Boltzmann machine,RBM)構(gòu)建而成。RBM 由兩層神經(jīng)元構(gòu)成:可見(jiàn)層和隱藏層。每個(gè)神經(jīng)元與另一層的神經(jīng)元完全連接,但同一層的神經(jīng)元之間沒(méi)有連接。訓(xùn)練DBN 需要兩個(gè)階段:預(yù)訓(xùn)練和微調(diào)。預(yù)培訓(xùn)是通過(guò)一種有效的逐層貪婪學(xué)習(xí)策略以無(wú)監(jiān)督的方式實(shí)現(xiàn)的。在預(yù)訓(xùn)練過(guò)程中,采用對(duì)比發(fā)散(contrastive divergence,CD)算法對(duì)DBN中的RBM進(jìn)行訓(xùn)練,以?xún)?yōu)化DBN模型的權(quán)重和偏差。然后,使用反向傳播(back propagation,BP)算法進(jìn)行微調(diào)以更新網(wǎng)絡(luò)參數(shù)。DBN的主要優(yōu)點(diǎn)是它具有快速學(xué)習(xí)和提供高效表示的趨勢(shì),它通過(guò)層層預(yù)訓(xùn)練來(lái)實(shí)現(xiàn)這一點(diǎn)。同時(shí),DBN也存在局限性。如在訓(xùn)練DBN模型時(shí)計(jì)算成本高;DBN 不能考慮輸入圖像的二維結(jié)構(gòu),這可能會(huì)影響它們?cè)谟?jì)算機(jī)視覺(jué)等領(lǐng)域中的性能和適用性。
近年來(lái),不少研究者提出了一些基于DBN 模型的改進(jìn)方法。Lee等提出了一種用于全尺寸圖像的分層生成式模型,即卷積深度置信網(wǎng)絡(luò)(convolutional deep belief network,CDBN),由多個(gè)基于最大池化的卷積RBM(convolutional restricted Boltzmann machine,CRBM)相互堆疊而成。CDBN能夠從未標(biāo)記的對(duì)象圖像和自然場(chǎng)景中學(xué)習(xí)有用的高級(jí)視覺(jué)特征。Wang等提出了一種基于遷移學(xué)習(xí)的增長(zhǎng)型DBN(growing DBN with transfer learning,TL-GDBN)。TL-GDBN通過(guò)遷移學(xué)習(xí)將學(xué)習(xí)到的權(quán)重參數(shù)轉(zhuǎn)移到新添加的神經(jīng)元和隱藏層,從而實(shí)現(xiàn)結(jié)構(gòu)增長(zhǎng),直到滿(mǎn)足預(yù)訓(xùn)練的停止標(biāo)準(zhǔn)。然后采用自上而下逐層偏最小二乘回歸法對(duì)TL-GDBN 預(yù)訓(xùn)練得到的權(quán)值參數(shù)進(jìn)行了進(jìn)一步的微調(diào),避免了傳統(tǒng)的基于反向傳播算法的微調(diào)問(wèn)題。Deng 等提出了一種基于改進(jìn)的量子啟發(fā)差分演化(quantum-inspired differential evolution,MSIQDE)算法,然后利用具有全局優(yōu)化能力的MSIQDE 對(duì)DBN 的參數(shù)進(jìn)行優(yōu)化,構(gòu)造了一個(gè)最優(yōu)DBN 模型,并進(jìn)一步應(yīng)用該模型提出了一種新的故障分類(lèi)方法,即MSIQDE-DBN方法。MSIQDE-DBN可以消除人為因素的干擾,自適應(yīng)地選擇DBN 的最佳參數(shù),從而有效地提高分類(lèi)精度,滿(mǎn)足實(shí)際要求。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)最初是于1998年由LeCun等提出的,并被廣泛使用和改進(jìn)。CNN 的基本結(jié)構(gòu)包括卷積層、池化層和全連接層。卷積層采用多個(gè)可學(xué)習(xí)濾波器對(duì)整個(gè)輸入圖像進(jìn)行卷積運(yùn)算,從而產(chǎn)生相應(yīng)的激活特征映射。池化層連接于卷積層之后。池化層通過(guò)使用非線(xiàn)性下采樣方法實(shí)現(xiàn)平移不變性,用于對(duì)提取到的特征進(jìn)行降維,保留主要特征。常用的池化方法有最大池化和平均池化。全連接層通常位于CNN 的末端,它用于激活上一層以生成最終的特征表示和分類(lèi)結(jié)果。近年來(lái),各種改進(jìn)的CNN 架構(gòu)被提出,并應(yīng)用于大量領(lǐng)域。代表性的CNN架構(gòu)有AlexNet、VGGNet、GoogleNet、ResNet、DenseNet等。
與2D-CNN相比,Tran等提出的用于大規(guī)模視頻數(shù)據(jù)集上訓(xùn)練的三維卷積神經(jīng)網(wǎng)絡(luò)(3D-CNN),是一種簡(jiǎn)單而有效的時(shí)空特征學(xué)習(xí)方法,可以同時(shí)對(duì)外觀和動(dòng)作進(jìn)行建模。由于三維卷積比二維卷積涉及更多的參數(shù),計(jì)算成本較高,Yang等提出了一種近似于傳統(tǒng)的三維卷積網(wǎng)絡(luò)的模型——基于微網(wǎng)(MicroNets)的非對(duì)稱(chēng)單向三維卷積網(wǎng)絡(luò)(asymmetric 3D convolutional neural networks)。為了提高其特征學(xué)習(xí)能力,該模型采用了一組局部三維卷積網(wǎng)絡(luò),引入了多尺度三維卷積分支。然后,利用微網(wǎng)構(gòu)建非對(duì)稱(chēng)3D-CNN 深度模型,用于動(dòng)作識(shí)別任務(wù)。Kumawat 等提出了LP-3DCNN(local phase in 3D convolutional neural networks),使用校正局部相位體積(rectified local phase volume,ReLPV)塊代替?zhèn)鹘y(tǒng)的3D卷積塊,ReLPV塊通過(guò)提取輸入圖中每個(gè)位置的3D 局部鄰域中的相位來(lái)獲得特征圖。Chen 等提出了一種頻域緊致三維卷積神經(jīng)網(wǎng)絡(luò)(frequency domain compact 3D convolutional neural networks),利用一組學(xué)習(xí)到的具有很少網(wǎng)絡(luò)參數(shù)的最優(yōu)變換,將時(shí)域轉(zhuǎn)換為頻域來(lái)實(shí)現(xiàn)3D卷積操作,從而消除三維卷積濾波器的時(shí)間維冗余。
總之,卷積神經(jīng)網(wǎng)絡(luò)的權(quán)值共享網(wǎng)絡(luò)結(jié)構(gòu)網(wǎng)絡(luò)模型的復(fù)雜度,減少了權(quán)值的數(shù)量。該優(yōu)點(diǎn)在網(wǎng)絡(luò)的輸入使多維圖像上表現(xiàn)得更為明顯,使圖像可以直接作為網(wǎng)絡(luò)的輸入,避免了傳統(tǒng)識(shí)別算法中復(fù)雜的特征提取和數(shù)據(jù)重建過(guò)程。卷積神經(jīng)網(wǎng)絡(luò)的局限性有:無(wú)法表示高層特征與低層特征之間的位姿(平移和旋轉(zhuǎn))關(guān)系,以及底層對(duì)象之間的空間關(guān)系。因此,CNN在識(shí)別具有空間關(guān)系特征時(shí)存在不足;池化層可能會(huì)丟失有價(jià)值的信息等。
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)能夠從序列數(shù)據(jù)中捕獲時(shí)間信息,因此通常用于序列處理。作為一個(gè)單前饋神經(jīng)網(wǎng)絡(luò),RNN 采用隱狀態(tài)上的遞歸連接來(lái)捕獲序列數(shù)據(jù)的歷史信息。此外,RNN 在所有時(shí)間步長(zhǎng)上共享相同的網(wǎng)絡(luò)參數(shù)。對(duì)于訓(xùn)練RNN,采用傳統(tǒng)的時(shí)間反向傳播(backpropagation through time,BPTT)算法。然而當(dāng)網(wǎng)絡(luò)需要訓(xùn)練的參數(shù)很多時(shí),RNN容易造成梯度消失或梯度爆炸問(wèn)題。
長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)于1997年被提出,是一種新的循環(huán)網(wǎng)絡(luò)結(jié)構(gòu)。LSTM主要用于緩解RNN訓(xùn)練過(guò)程中產(chǎn)生的梯度消失和梯度爆炸問(wèn)題。LSTM 單元中有三種類(lèi)型的門(mén):輸入門(mén)、遺忘門(mén)和輸出門(mén)。輸入門(mén)用于控制有多少當(dāng)前輸入數(shù)據(jù)流入網(wǎng)絡(luò)的存儲(chǔ)單元。遺忘門(mén)作為L(zhǎng)STM單元的關(guān)鍵部件,用于控制哪些信息需要保留,哪些信息需要遺忘,并以某種方式避免梯度損失和爆炸問(wèn)題。輸出門(mén)控制存儲(chǔ)單元對(duì)當(dāng)前輸出值的影響?;谶@三個(gè)特殊門(mén),LSTM能夠?qū)π蛄袛?shù)據(jù)中的長(zhǎng)期相關(guān)性進(jìn)行建模。
近年來(lái),出現(xiàn)了各種RNN 或LSTM 的改進(jìn)。Chung 等于2014 年提出了循環(huán)門(mén)控單元(gated recurrent unit,GRU)。GRU 使每個(gè)循環(huán)單元自適應(yīng)地建模不同時(shí)間尺度的長(zhǎng)期依賴(lài)關(guān)系。與LSTM 單元不同,GRU單元內(nèi)沒(méi)有單獨(dú)的存儲(chǔ)單元。Zhao等于2019 年提出了一種基于卷積LSTM 的貝葉斯圖,用于識(shí)別基于骨架的動(dòng)作。Zhang 等于2019 年提出了一種用于語(yǔ)音情感分類(lèi)的多尺度深卷積LSTM。Xing等于2020年提出了一種新的脈沖卷積遞歸神經(jīng)網(wǎng)絡(luò)(spiking convolutional recurrent neural network,SCRNN),借助卷積運(yùn)算和遞歸連接,從基于事件的序列數(shù)據(jù)中建模時(shí)空關(guān)系。
語(yǔ)音、視覺(jué)、文本是情感表達(dá)最常見(jiàn)的三種模態(tài)。針對(duì)語(yǔ)音、視覺(jué)、文本信息的情感特征提取是多模態(tài)情感識(shí)別任務(wù)的一個(gè)關(guān)鍵問(wèn)題。根據(jù)特征類(lèi)型的不同,可以分為手工特征和深度特征兩大類(lèi)。下面將對(duì)語(yǔ)音、視覺(jué)、文本三種模態(tài)信息分別闡述其手工特征提取和深度特征提取技術(shù)的進(jìn)展。
語(yǔ)音情感識(shí)別是通過(guò)說(shuō)話(huà)人的聲音來(lái)識(shí)別他人的情緒。語(yǔ)音情感特征提取是決定語(yǔ)音情感識(shí)別精度高低的一個(gè)關(guān)鍵因素。語(yǔ)音情感特征主要分為低層次的手工語(yǔ)音情感特征和通過(guò)深度學(xué)習(xí)技術(shù)得到的深度語(yǔ)音情感特征。
早期用于自動(dòng)語(yǔ)音情感識(shí)別的語(yǔ)音情感特征是手工制作的低層次描述(low-level descriptors,LLD)特征,如韻律特征(基頻、能量)、音質(zhì)特征(共振峰、聲道參數(shù))、譜特征(線(xiàn)性預(yù)測(cè)倒譜系數(shù)(linear predictive cepstral coefficient,LPCC)、Mel頻率倒譜系數(shù)(Mel-frequency cepstral coefficients,MFCC))等。
Liscombe等提取了一系列基于基音周期、振幅和頻譜傾斜的連續(xù)語(yǔ)音特征,并評(píng)估了其與各種情感的關(guān)系。Yacoub 等提取了37 個(gè)韻律學(xué)特征,包括音高(基頻)、響度(能量)和音段(可聽(tīng)持續(xù)時(shí)間)等,分別比較了使用神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、K-近鄰算法和決策樹(shù)在語(yǔ)音情感分類(lèi)中的結(jié)果。Schmitt等使用由MFCC 和能量低級(jí)描述符(LLD)創(chuàng)建的音頻詞袋(bag-of-audio-words,BoAW)方法作為特征向量和簡(jiǎn)單的支持向量回歸(support vector regression,SVR)來(lái)預(yù)測(cè)喚醒和效價(jià)維度。孫韓玉等考慮了不同特征包含的信息,使用頻譜圖特征和LLD 特征分別輸入到雙通道卷積門(mén)控循環(huán)網(wǎng)絡(luò)。
Luengo 等從語(yǔ)音信號(hào)中提取聲學(xué)參數(shù):韻律學(xué)特征、譜相關(guān)特征和語(yǔ)音質(zhì)量特征。對(duì)單個(gè)參數(shù)和組合特征進(jìn)行研究分析,在參數(shù)級(jí)(早期融合)和分類(lèi)器級(jí)(后期融合)研究了不同參數(shù)類(lèi)型的組合,判別這些特征在情感識(shí)別中的不同性能。
近年來(lái),深度學(xué)習(xí)技術(shù)廣泛應(yīng)用于語(yǔ)音情感識(shí)別任務(wù),用于深度語(yǔ)音情感特征提取。常見(jiàn)的用于語(yǔ)音情感識(shí)別的深度學(xué)習(xí)方法有CNN、DBN、RNN 等。
Dutta 等提出了一種基于線(xiàn)性預(yù)測(cè)編碼(linear predictive coding,LPC)和MFCC 的語(yǔ)音識(shí)別模型。LPC 和MFCC 特征由兩種不同的RNN 網(wǎng)絡(luò)進(jìn)行提取,用于識(shí)別阿薩姆語(yǔ)。
Mao等提出了將CNN應(yīng)用于語(yǔ)音情感識(shí)別的特征提取。CNN有兩個(gè)學(xué)習(xí)階段:在第一階段,利用未標(biāo)記樣本通過(guò)一種稀疏自動(dòng)編碼器來(lái)學(xué)習(xí)局部不變特征;在第二階段,局部不變特征被用作特征提取器的輸入,即顯著判別特征分析(salient discriminative feature analysis,SDFA),以學(xué)習(xí)顯著判別特征。
陳婧等提出了一種新的多粒度特征提取方法。該方法基于不同的時(shí)間單位,包括短時(shí)幀粒度、中時(shí)段粒度以及長(zhǎng)時(shí)窗粒度。為了融合這些多粒度特征,提出了一種基于認(rèn)知機(jī)理的回饋神經(jīng)網(wǎng)絡(luò)(cognition-inspired recurrent neural network,CIRNN)。CIRNN組合不同的時(shí)間級(jí)特征來(lái)模擬人類(lèi)對(duì)音頻信號(hào)的逐步處理,通過(guò)同時(shí)突出情感的時(shí)間序列和內(nèi)容信息的作用,實(shí)現(xiàn)多級(jí)信息融合。
俞佳佳等提出了一種針對(duì)語(yǔ)音原始信號(hào)的特征提取方法,利用SincNet 濾波器從原始語(yǔ)音波形中提取一些重要的窄帶情感特征,再利用Transformer模型的編碼器提取包含全局上下文信息的深度特征。
Zhang 等利用DBN 對(duì)提取的低階聲學(xué)特征進(jìn)行無(wú)監(jiān)督特征學(xué)習(xí),根據(jù)DBN隱含層的學(xué)習(xí)結(jié)果,對(duì)多層感知器(multi-layer perceptron,MLP)進(jìn)行初始化,并用于漢語(yǔ)語(yǔ)音情感分類(lèi)。
Ottl等以?xún)煞N不同的方式從視頻中提取特征,其一使用深度頻譜(deep spectrum)工具包從音頻頻譜圖中學(xué)習(xí)深度表示,再采用各種流行的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行圖像識(shí)別預(yù)訓(xùn)練;此外,使用OpenSMILE工具提取了6 373維的手工特征表示,包括語(yǔ)音質(zhì)量特征,如抖動(dòng)和微光,以及頻譜、MFCC和與發(fā)聲相關(guān)的低級(jí)描述符(LLD)等。最后,對(duì)深度特征和手工特征進(jìn)行了早期和晚期融合。
從上述已有的手工語(yǔ)音情感特征和深度語(yǔ)音情感特征文獻(xiàn)來(lái)看:(1)采用OpenSMILE工具提取較高維度的LLD 特征,已成為手工語(yǔ)音情感特征的主流方法。(2)采用CNN從原始語(yǔ)音信號(hào)直接提取高層次的語(yǔ)音情感特征,已成為深度語(yǔ)音情感特征的主流方法。(3)手工語(yǔ)音情感特征和深度語(yǔ)音情感特征各有優(yōu)缺點(diǎn)。近年來(lái)將這兩種特征進(jìn)行融合用于語(yǔ)音情感識(shí)別,是一個(gè)有意義的研究方向。
視覺(jué)情感識(shí)別通過(guò)提取面部表情圖像的外觀和幾何特征并感知其變化來(lái)識(shí)別靜態(tài)圖像或視頻序列中的情感。根據(jù)視覺(jué)輸入數(shù)據(jù)的類(lèi)型,基于視覺(jué)的情感識(shí)別可分為兩種:基于靜態(tài)面部圖像的表情識(shí)別和基于動(dòng)態(tài)視頻序列的表情識(shí)別。下面將針對(duì)靜態(tài)面部圖像和動(dòng)態(tài)視頻序列分別闡述各自的手工特征提取和深度特征提取的進(jìn)展。
(1)靜態(tài)面部圖像
靜態(tài)圖像是指不包含音頻和時(shí)間信息的靜止圖像,先對(duì)其進(jìn)行一系列的預(yù)處理,如旋轉(zhuǎn)、人臉定位、對(duì)齊、歸一化等,再提取圖像信息中的幾何圖形和外貌特征來(lái)獲得人臉表情特征。用于傳統(tǒng)面部情感識(shí)別的典型特征主要是手工制作的特征,對(duì)于靜態(tài)面部圖像主要的手工特征提取方法有:局部二值模式(local binary pattern,LBP)、尺度不變特征變換(scale invariant feature transform,SIFT)、方向梯度直方圖(histograms of oriented gradients,HOG)、Gabor小波法等。
劉軍等提出了一種新的基于主導(dǎo)近鄰像素的人臉圖像表示——局部Gabor 空間直方圖(local Gabor spatial histogram based on dominant neighboring pixel,LGSH-DNP)。首先對(duì)人臉圖像進(jìn)行Gabor濾波器組濾波,過(guò)濾后的圖像中的每個(gè)像素都由具有最高值的兩個(gè)相鄰像素的位置標(biāo)記,從而得到多個(gè)描述子圖像。其次從這些描述子圖像中提取空間直方圖。最后采用加權(quán)交集直方圖相似度測(cè)度實(shí)現(xiàn)人臉?lè)诸?lèi)。在進(jìn)行了大量實(shí)驗(yàn)之后驗(yàn)證了所提出的LGSH-DNP方法的有效性。
Bah 等提出了一種新的方法,利用LBP 算法,結(jié)合對(duì)比度調(diào)整、雙邊濾波、直方圖均衡化和圖像融合等先進(jìn)的圖像處理技術(shù),解決了影響人臉識(shí)別精度的一些問(wèn)題,從而提高LBP編碼的識(shí)別率,提高了整個(gè)人臉識(shí)別系統(tǒng)的準(zhǔn)確率。
Deeba 等開(kāi)發(fā)了一個(gè)基于局部二值模式直方圖(local binary pattern histogram,LBPH)方法的人臉識(shí)別系統(tǒng),LBPH算法是LBP和HOG算法的組合,用于處理低層和高層圖像中的實(shí)時(shí)人臉識(shí)別。使用LBPH,可以用一個(gè)簡(jiǎn)單的特征向量表示人臉圖像。
Zhang 等從每幅人臉圖像中提取對(duì)應(yīng)于每幅人臉圖像的一組標(biāo)志點(diǎn)的尺度不變特征變換(SIFT)特征。然后,將由提取的SIFT 特征向量組成的特征矩陣作為輸入數(shù)據(jù),輸送到設(shè)計(jì)良好的深度神經(jīng)網(wǎng)絡(luò)模型,用于學(xué)習(xí)分類(lèi)的最佳鑒別特征。
(2)動(dòng)態(tài)視頻表情序列
面部表情涉及一個(gè)動(dòng)態(tài)過(guò)程,并且動(dòng)態(tài)信息(例如面部標(biāo)志的移動(dòng)和面部形狀的變化)包含可以更有效地表示面部表情的有用信息。因此,捕獲這樣的動(dòng)態(tài)信息以便識(shí)別整個(gè)視頻序列中的面部表情非常重要?;趧?dòng)態(tài)視頻表情序列的算法主要包括光流法和模型法。
在視頻表情序列中,光流分析已被應(yīng)用于檢測(cè)面部部件的運(yùn)動(dòng),通過(guò)測(cè)量?jī)蓚€(gè)連續(xù)幀之間面部特征點(diǎn)的幾何位移來(lái)確定這些部件的運(yùn)動(dòng)。Fan等使用兩種類(lèi)型的動(dòng)態(tài)信息來(lái)增強(qiáng)識(shí)別:一種基于梯度金字塔直方圖(pyramid histogram of gradients,PHOG)的新型時(shí)空描述符來(lái)表示面部形狀的變化,以及密集光流來(lái)估計(jì)面部標(biāo)志的移動(dòng)。將圖像序列視為時(shí)空體,并使用時(shí)間信息來(lái)表示與面部表情相關(guān)聯(lián)的面部地標(biāo)的動(dòng)態(tài)運(yùn)動(dòng)。在此背景下,將表示空間局部形狀的PHOG描述符擴(kuò)展到時(shí)空域,以捕獲時(shí)間維度中面部子區(qū)域局部形狀的變化,從而給出額頭、嘴、眉毛和鼻子的三維面部組件子區(qū)域。他們將這個(gè)描述符稱(chēng)為PHOG-TOP(PHOG-three orthogonal planes)。通過(guò)結(jié)合PHOG-TOP 和面部區(qū)域的密集光流,利用鑒別特征的融合進(jìn)行分類(lèi),從而識(shí)別面部表情。
劉濤等提出了一種新的面部情感識(shí)別的方法,通過(guò)對(duì)人臉表情圖像與中性表情圖像之間的光流特征的提取來(lái)體現(xiàn)人臉表情變化的差異,采用高斯線(xiàn)性判斷分析(linear discriminant analysis,LDA)方法對(duì)光流特征進(jìn)行映射,得到人臉表情圖像的特征向量,采用多類(lèi)支持向量機(jī)分類(lèi)器實(shí)現(xiàn)人臉情感分類(lèi)。
Happy 等探討了與面部微運(yùn)動(dòng)相關(guān)的時(shí)間特征,并提出了用于微表情識(shí)別的光流方向模糊直方圖(fuzzy histogram of optical flow orientation,F(xiàn)HOFO)特征。FHOFO使用直方圖模糊化從光流矢量方向構(gòu)造合適的角度直方圖,對(duì)時(shí)間模式進(jìn)行編碼,以對(duì)微觀表達(dá)式進(jìn)行分類(lèi)。
邵潔等針對(duì)RGB-D 圖像序列,提出了一種自發(fā)的人臉表情識(shí)別算法。在對(duì)圖像對(duì)齊和歸一化進(jìn)行預(yù)處理后,提取四維時(shí)空紋理數(shù)據(jù)作為動(dòng)態(tài)特征。然后采用慢速特征分析方法檢測(cè)表情的頂點(diǎn),建立頂點(diǎn)圖像的三維人臉幾何模型作為靜態(tài)特征。將這兩種特征結(jié)合起來(lái),通過(guò)主成分分析進(jìn)行降維,最后利用條件隨機(jī)場(chǎng)對(duì)特征進(jìn)行訓(xùn)練和分類(lèi)。
Yi 等利用特征點(diǎn)的運(yùn)動(dòng)趨勢(shì)和特征塊的紋理變化,提出了一種截取視頻序列的面部情感識(shí)別框架。首先,采用主動(dòng)外觀模型(active appearance model,AAM)對(duì)特征點(diǎn)進(jìn)行標(biāo)記,選擇其中最具代表性的24個(gè)特征點(diǎn)。其次,通過(guò)確定情感強(qiáng)度最小和最大的兩個(gè)關(guān)鍵幀,從人臉視頻中截取人臉表情序列。然后,擬合代表任意兩個(gè)特征點(diǎn)之間歐氏距離變化的趨勢(shì)曲線(xiàn),并計(jì)算趨勢(shì)曲線(xiàn)上特定點(diǎn)的斜率。最后,將計(jì)算得到的斜率集合與所提出的特征塊紋理差(feature block texture difference,F(xiàn)BTD)相結(jié)合,形成最終的表情特征,并輸入一維卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行情感識(shí)別。
盡管傳統(tǒng)的人臉識(shí)別方法通過(guò)提取手工特征取得了顯著的成功,但近年來(lái)由于深度學(xué)習(xí)方法高度的自動(dòng)識(shí)別能力逐漸應(yīng)用于情感識(shí)別,用于提取高級(jí)特征。
(1)靜態(tài)面部圖像
對(duì)于靜態(tài)面部圖像的深度特征提取,主要采用的是基于卷積神經(jīng)網(wǎng)絡(luò)的一些模型框架。Yolcu等提出了檢測(cè)面部重要部位的方法,使用三個(gè)結(jié)構(gòu)相同的CNN,每一個(gè)都能檢測(cè)到臉部的一部分,如眉毛、眼睛和嘴巴。在將圖像引入CNN之前,要進(jìn)行裁剪和面部關(guān)鍵點(diǎn)的檢測(cè),結(jié)合原始圖像獲得的標(biāo)志性人臉被引入第二類(lèi)CNN以檢測(cè)面部表情。研究人員表明,這種方法比單獨(dú)使用原始圖像或圖像化人臉更準(zhǔn)確。
Sun等用光流表示靜態(tài)圖像中的時(shí)間特征,提出了一種多通道深度時(shí)空特征融合神經(jīng)網(wǎng)絡(luò)(multichannel deep spatial-temporal feature fusion neural network,MDSTFN),用于靜態(tài)圖像的深度時(shí)空特征提取與融合。該方法的每個(gè)通道都是從預(yù)先訓(xùn)練好的深卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行微調(diào)。結(jié)果表明,該方法可以有效地提高靜態(tài)圖像的人臉表情識(shí)別性能。
張鵬等提出了一種基于多尺度特征注意機(jī)制的人臉表情識(shí)別方法,采用兩層卷積層提取淺層特征信息。其次,在Inception 結(jié)構(gòu)上并行加入空洞卷積(dilated convolution),用于提取多尺度特征,再引入通道注意力機(jī)制,加強(qiáng)了模型對(duì)有用的特征信息的利用。
Sepas-Moghaddam等首先利用VGG16卷積神經(jīng)網(wǎng)絡(luò)提取空間特征。然后,利用Bi-LSTM 從視點(diǎn)特征序列中學(xué)習(xí)空間角度特征,探索前向和后向角度關(guān)系。此外,通過(guò)注意力機(jī)制選擇性地關(guān)注最重要的空間-角度特征。最后,采用融合方法獲得情感識(shí)別分類(lèi)結(jié)果。
崔子越等提出了一種改進(jìn)的Focal Loss 和VGGNet相結(jié)合的人臉表情識(shí)別算法,利用新設(shè)計(jì)的輸出模塊來(lái)改進(jìn)VGGNet模型,提高了模型的特征提取能力。通過(guò)設(shè)置概率閾值來(lái)避免錯(cuò)誤標(biāo)記樣本對(duì)模型性能的負(fù)面影響,F(xiàn)ocal Loss得到了改進(jìn)。
鄭劍等提出了一種深度卷積神經(jīng)網(wǎng)絡(luò)FLFTAWL(deep convolutional neural network fusing local feature and two-stage attention weight learning)用于融合局部特征和兩階段注意力權(quán)重學(xué)習(xí)。該網(wǎng)絡(luò)能夠自適應(yīng)地捕獲人臉的重要區(qū)域,提高人臉表情識(shí)別的有效性。
(2)動(dòng)態(tài)視頻表情序列
對(duì)于動(dòng)態(tài)視頻表情序列的深度特征提取,常用的方法有CNN、RNN、LSTM 等。Jung等提出了一種聯(lián)合微調(diào)方法來(lái)整合兩個(gè)獨(dú)立的深層網(wǎng)絡(luò),分別使用圖像序列和面部標(biāo)志點(diǎn)進(jìn)行訓(xùn)練,以學(xué)習(xí)時(shí)間外觀特征和時(shí)間幾何特征。Jaiswal等提出了一種通過(guò)使用CNN和BiLSTM的組合來(lái)獲取時(shí)間信息的方法。Fan 等提出了一種混合網(wǎng)絡(luò),該網(wǎng)絡(luò)使用3DCNN 體系結(jié)構(gòu)進(jìn)行特征提取,并進(jìn)一步選擇RNN來(lái)捕獲面部信息的時(shí)間相關(guān)性。
Kim等研究了情緒狀態(tài)下面部表情的變化,他們提出了一種結(jié)合CNN和LSTM的框架。面部表情的特征編碼為兩部分:第一部分,CNN學(xué)習(xí)情緒狀態(tài)所有幀中面部表情的空間特征;第二部分,通過(guò)LSTM來(lái)學(xué)習(xí)時(shí)間特征。
Yu 等提出了一種稱(chēng)為時(shí)空卷積嵌套LSTM(spatio-temporal convolutional features with nested LSTM,STC-NLSTM)的新體系結(jié)構(gòu),該體系結(jié)構(gòu)基于三個(gè)深度學(xué)習(xí)子網(wǎng)絡(luò):用于提取時(shí)空特征的3DCNN,用于保持時(shí)間動(dòng)態(tài)的時(shí)間T-LSTM,對(duì)多級(jí)特征進(jìn)行建模的卷積C-LSTM。3DCNN用于從表示面部表情的圖像序列中提取時(shí)空卷積特征,T-LSTM用于對(duì)每個(gè)卷積層中的時(shí)空特征的時(shí)間動(dòng)態(tài)進(jìn)行建模,并采用C-LSTM將所有T-LSTM的輸出集成在一起,從而對(duì)網(wǎng)絡(luò)中間層編碼的多級(jí)特征進(jìn)行編碼。
Liang 等提出了一種用于面部情感識(shí)別的深度卷積雙向長(zhǎng)短時(shí)記憶(Bi-LSTM)融合網(wǎng)絡(luò),它可以利用空間和時(shí)間特征。該框架主要由三部分組成:用于區(qū)分性空間表示提取的深空間網(wǎng)絡(luò)(deep spatial network,DSN)、用于學(xué)習(xí)時(shí)間動(dòng)力學(xué)的深時(shí)間網(wǎng)絡(luò)(deep temporal network,DTN)和用于長(zhǎng)期時(shí)空特征積累的循環(huán)網(wǎng)絡(luò)。給定一個(gè)表示情感類(lèi)的圖像序列,具有更深和更大架構(gòu)的DSN 從序列中的每一幀中學(xué)習(xí)細(xì)微特征,而DTN 則通過(guò)將兩個(gè)相鄰幀作為輸入來(lái)關(guān)注短期表達(dá)變化。為了更好地識(shí)別時(shí)空信息,Bi-LSTM 網(wǎng)絡(luò)被進(jìn)一步用于發(fā)現(xiàn)數(shù)據(jù)之間的相關(guān)性。此外,該框架是端到端可學(xué)習(xí)的,因此可以調(diào)整時(shí)間信息以補(bǔ)充空間特征。
司馬懿等使用預(yù)先訓(xùn)練好的Inception ResNet v1 網(wǎng)絡(luò)提取每一幀的特征向量,然后計(jì)算特征向量之間的歐氏距離來(lái)定位表情強(qiáng)度最大的完整幀,從而得到標(biāo)準(zhǔn)化的人臉表情序列。為了進(jìn)一步驗(yàn)證定位模型的準(zhǔn)確性,分別采用VGG16 網(wǎng)絡(luò)和ResNet50網(wǎng)絡(luò)對(duì)定位后的完整幀進(jìn)行面部表情識(shí)別。
Meng 等提出了幀注意網(wǎng)絡(luò)(frame attention networks,F(xiàn)AN),將具有可變數(shù)量人臉圖像的視頻作為其輸入,并生成固定尺寸的表示。整個(gè)網(wǎng)絡(luò)由兩個(gè)模塊組成。特征嵌入模塊是一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò),它將人臉圖像嵌入到特征向量中。幀注意模塊學(xué)習(xí)多個(gè)注意權(quán)重,這些權(quán)重用于自適應(yīng)地聚合特征向量以形成單個(gè)判別視頻表示。
Pan 等提出了一種基于深度時(shí)空網(wǎng)絡(luò)的視頻面部表情識(shí)別方法。首先采用空間卷積神經(jīng)網(wǎng)絡(luò)和時(shí)間卷積神經(jīng)網(wǎng)絡(luò),分別提取視頻序列中的高級(jí)時(shí)空特征。然后組合提取的空間和時(shí)間特征輸入到融合網(wǎng)絡(luò)中,進(jìn)行基于視頻的面部表情分類(lèi)任務(wù)。
從上述已有的手工視覺(jué)情感特征和深度視覺(jué)情感特征文獻(xiàn)來(lái)看:(1)基于視覺(jué)的情感識(shí)別可分為基于靜態(tài)面部圖像的表情識(shí)別和基于動(dòng)態(tài)視頻序列的表情識(shí)別。(2)對(duì)于靜態(tài)面部圖像的手工特征提取,主要是通過(guò)提取圖像信息中的幾何圖形和外貌特征來(lái)獲得人臉表情特征,常用的方法有LBP、HOG、SIFT 等及其改進(jìn)的方法;對(duì)于靜態(tài)面部圖像的深度特征,主要采用基于CNN 的網(wǎng)絡(luò)模型進(jìn)行面部圖像的深度特征提?。粚?duì)于動(dòng)態(tài)視頻表情序列的手工特征提取,捕獲視頻序列的動(dòng)態(tài)信息才能更有效地表示面部表情的有用信息,常用的方法主要包括光流法和模型法;對(duì)于動(dòng)態(tài)視頻表情序列的深度特征提取,考慮視頻序列的時(shí)空性,通常采用基于CNN 和RNN的模型來(lái)分別提取空間深度特征和時(shí)間深度特征。(3)根據(jù)現(xiàn)有的文獻(xiàn)表明,將視覺(jué)手工特征和深度特征相結(jié)合,是一個(gè)值得深入研究的方向。
文本情感通常是利用文本信息來(lái)傳達(dá)人的情感。提取文本情感特征是文本情感識(shí)別任務(wù)的一個(gè)關(guān)鍵。首先對(duì)文本字符進(jìn)行轉(zhuǎn)化,轉(zhuǎn)化為可被計(jì)算機(jī)識(shí)別的數(shù)值,得到初步的文本特征表示。在此基礎(chǔ)上,為了減少信息冗余、降低數(shù)據(jù)維度,對(duì)其進(jìn)行有效特征提取,用于輸入到下游的神經(jīng)網(wǎng)絡(luò)中訓(xùn)練,實(shí)現(xiàn)最終的情感識(shí)別。因此文本情感特征提取是實(shí)現(xiàn)文本情感分類(lèi)的關(guān)鍵,主要分為手工文本情感特征提取和深度文本情感特征提取。
常用的手工文本情感特征提取方法是詞袋模型(bag-of-words model,BoW)。該模型將文檔映射成向量,如=[,,…,x],其中x表示基本術(shù)語(yǔ)中第個(gè)詞的出現(xiàn)。這些基本術(shù)語(yǔ)是從數(shù)據(jù)集中收集的,通常是出現(xiàn)頻度最高的前個(gè)詞。出現(xiàn)特征的值可以是二進(jìn)制、術(shù)語(yǔ)頻率或TF-IDF(term frequencyinverse document frequency)。二進(jìn)制值表示在文本中是否出現(xiàn)第個(gè)單詞,不考慮單詞的權(quán)重。術(shù)語(yǔ)頻率表示每個(gè)單詞出現(xiàn)的次數(shù)。一般來(lái)說(shuō),文本中的高頻詞匯可以體現(xiàn)文本的某些代表性思想,但某些詞在所有文本中可能高頻出現(xiàn)。TF-IDF平衡始終具有高頻率的單詞的權(quán)重。它假設(shè)一個(gè)詞的重要性與它在文檔中的頻率成比例增加,但被它在整個(gè)語(yǔ)料庫(kù)中的頻率所抵消。盡管BoW模型簡(jiǎn)單且常用,但它存在高維稀疏性和詞間關(guān)系缺失的問(wèn)題,是一種低層次的文本特征表示方法。
為了改進(jìn)BoW 模型,Deerwester 等提出了潛在語(yǔ)義分析(latent semantic analysis,LSA),LSA利用奇異值分解(singular value decomposition,SVD)將原始的BoW特征表示轉(zhuǎn)換為具有較低維度的向量。如果原始向量基于頻率,則轉(zhuǎn)換的向量也與術(shù)語(yǔ)頻率近似線(xiàn)性相關(guān)。Hofmann提出概率潛在語(yǔ)義分析(probability latent semantic analysis,PLSA),PLSA 基于LSA引入了統(tǒng)計(jì)概率模型,與標(biāo)準(zhǔn)LSA相比,它的概率變體具有良好的統(tǒng)計(jì)基礎(chǔ),并定義了一個(gè)合適的數(shù)據(jù)生成模型,解決了一義多詞和一詞多義的問(wèn)題。Blei 等提出了潛在狄利克雷分布模型(latent Dirichlet allocation,LDA),是一種離散數(shù)據(jù)集合(如文本語(yǔ)料庫(kù))的生成概率模型。LDA是一個(gè)三層貝葉斯概率模型,包含詞、主題、文檔三層結(jié)構(gòu),通過(guò)將詞映射到主題空間,計(jì)算出每個(gè)詞的權(quán)重,從而選擇文本特征。
詞嵌入(word embedding)是一種基于分布式語(yǔ)義建模的技術(shù),一些預(yù)訓(xùn)練好的面向深度學(xué)習(xí)的詞嵌入模型被廣泛應(yīng)用于文本情感提取任務(wù)。根據(jù)編碼信息的不同重點(diǎn),詞嵌入可分為兩類(lèi):典型詞嵌入和情感詞嵌入。前者側(cè)重于通過(guò)建模一般語(yǔ)義和上下文信息來(lái)學(xué)習(xí)連續(xù)單詞嵌入,而后者側(cè)重于將情感信息編碼到單詞嵌入中。
早期的詞嵌入模型通常基于句法上下文進(jìn)行訓(xùn)練。他們認(rèn)為出現(xiàn)頻率較高的詞在某些語(yǔ)義標(biāo)準(zhǔn)上往往是相似的,例如word2vec和Glove。它們?cè)诖罅课礃?biāo)記數(shù)據(jù)上進(jìn)行訓(xùn)練,目的是捕獲細(xì)粒度的語(yǔ)法和語(yǔ)義規(guī)則。預(yù)訓(xùn)練的詞嵌入模型比隨機(jī)初始化的單詞向量具有更好的性能,并且在NLP 任務(wù)中取得了巨大的成功。然而,早期的詞嵌入模型假設(shè)“一個(gè)詞由唯一向量表示”,并忽略了不同上下文信息的影響。它們將每個(gè)單詞嵌入一個(gè)唯一的向量,無(wú)論是單義還是多義。這種局限性阻礙了早期單詞嵌入模型的有效性。
近年來(lái),受遷移學(xué)習(xí)的啟發(fā),預(yù)訓(xùn)練語(yǔ)言模型的出現(xiàn)開(kāi)啟了NLP 領(lǐng)域的突破。ELMo(embeddings from language models)是一種新型的深層語(yǔ)境化(deep contextualized)單詞表示方法。ELMo 是一個(gè)深層的雙向語(yǔ)言模型,通過(guò)捕獲詞義隨上下文的變化動(dòng)態(tài)生成單詞嵌入。它可以模擬詞語(yǔ)的復(fù)雜特征(如同義詞和語(yǔ)義)及在不同的語(yǔ)言語(yǔ)境中的語(yǔ)義變化(即多義詞)。ELMo 可以很容易地轉(zhuǎn)移到現(xiàn)有模型中,并顯著改進(jìn)了六個(gè)具有挑戰(zhàn)性的NLP 問(wèn)題的最新技術(shù),包括問(wèn)題回答、情感分析等領(lǐng)域。
近年來(lái),OpenAI 提出了基于Transformer的語(yǔ)言模型GPT(generative pre-training)。與ELMo 不同,GPT 利用上文預(yù)測(cè)下一個(gè)單詞。GPT 采用兩階段過(guò)程,首先在未標(biāo)記的數(shù)據(jù)上使用語(yǔ)言建模目標(biāo)來(lái)學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型的初始參數(shù),隨后使用相應(yīng)的監(jiān)督目標(biāo)使這些參數(shù)適應(yīng)目標(biāo)任務(wù)。GPT 在GLUE 基準(zhǔn)測(cè)試的許多句子級(jí)任務(wù)上取得了先前的最新成果。
BERT(bidirectional encoder representations from transformers)是一種基于Transformer的雙向編碼表示模型,在所有層中對(duì)上下文進(jìn)行聯(lián)合調(diào)節(jié),通過(guò)無(wú)監(jiān)督學(xué)習(xí)預(yù)測(cè)上下文中隱藏的單詞,從未標(biāo)記文本中預(yù)訓(xùn)練深層雙向表示。BERT打破了11項(xiàng)NLP任務(wù)的最佳記錄。隨后越來(lái)越多的預(yù)訓(xùn)練模型及改進(jìn)不斷出現(xiàn),如GPT-2、GPT-3、Transformer-XL、XLNet等,推動(dòng)著NLP領(lǐng)域的不斷進(jìn)步與成熟。
在傳統(tǒng)詞嵌入的推動(dòng)下,情感詞嵌入在不同的情感任務(wù)中取得較大的貢獻(xiàn),如情感分類(lèi)和情感強(qiáng)度預(yù)測(cè)。為了將情感信息納入詞語(yǔ)表示,Tang 等提出了情感特定詞嵌入(sentiment-specific word embeddings,SSWE),它在向量空間中編碼情感(積極或消極)和句法上下文信息。與其他詞嵌入相比,這項(xiàng)工作證明了將情感標(biāo)簽納入與情感相關(guān)任務(wù)的詞級(jí)信息的有效性。
Felbo 等通過(guò)訓(xùn)練一個(gè)名為DeepMoji 的兩層Bi-LSTM模型,使用1.2億條推特?cái)?shù)據(jù)預(yù)測(cè)輸入文檔的情感,在情感任務(wù)方面取得了良好的效果。
Xu 等提出了Emo2Vec,將情感語(yǔ)義編碼為固定大小的實(shí)值向量的詞級(jí)表示,采用多任務(wù)學(xué)習(xí)的方法對(duì)Emo2Vec 進(jìn)行了6 個(gè)不同的情緒相關(guān)任務(wù)的訓(xùn)練。對(duì)Emo2Vec 的評(píng)估顯示,它優(yōu)于現(xiàn)有的與情感相關(guān)的表示方法,并且在訓(xùn)練數(shù)據(jù)更小的十多個(gè)數(shù)據(jù)集上取得了更好的效果。當(dāng)與GloVe級(jí)聯(lián)時(shí),Emo2Vec 使用簡(jiǎn)單的邏輯回歸分類(lèi)器在幾個(gè)任務(wù)上取得了與最新結(jié)果相當(dāng)?shù)男阅堋?/p>
Shi 等提出了一種新的學(xué)習(xí)領(lǐng)域敏感和情感感知嵌入的方法,該方法同時(shí)捕獲單個(gè)詞的情感語(yǔ)義信息和領(lǐng)域敏感信息,可以自動(dòng)確定并產(chǎn)生域通用嵌入和域特定嵌入。域公共詞和域特定詞的區(qū)分,使得多個(gè)域的通用語(yǔ)義數(shù)據(jù)增強(qiáng)的優(yōu)勢(shì)得以實(shí)現(xiàn),同時(shí)捕獲不同域的特定詞的不同語(yǔ)義。結(jié)果表明,該模型提供了一種有效的方法來(lái)學(xué)習(xí)領(lǐng)域敏感和情感感知的單詞嵌入,這有利于句子和詞匯層面的情感分類(lèi)。
從上述已有的手工文本情感特征和深度文本情感特征文獻(xiàn)來(lái)看:(1)常用的手工文本情感特征提取采用的是詞袋模型BoW,但它存在高維稀疏性和詞間關(guān)系缺失的問(wèn)題,是一種低層次的文本特征表示方法。為了改進(jìn)BoW 模型,繼而出現(xiàn)了一系列改進(jìn)的模型,如LSA、PLSA、LDA等。(2)深度文本情感特征主要以詞嵌入的形式表示,一些預(yù)訓(xùn)練好的面向深度學(xué)習(xí)的詞嵌入模型被廣泛使用于文本情感提取任務(wù),主要分為典型詞嵌入和情感詞嵌入。常用的詞嵌入為word2vec、Glove、BERT等。
情感是以非言語(yǔ)方式發(fā)生的動(dòng)態(tài)心理生理過(guò)程,這使得情感識(shí)別變得復(fù)雜。近年來(lái),盡管單模態(tài)情感識(shí)別任務(wù)取得了一些研究成果,但研究表明,多模態(tài)的情感識(shí)別任務(wù)效果優(yōu)于單一模態(tài)。研究嘗試結(jié)合不同模式的信號(hào),如語(yǔ)音、視覺(jué)、文本等信息,從而提高情感識(shí)別任務(wù)的效率和精確度。這部分將重點(diǎn)介紹多模態(tài)情感識(shí)別中的多模態(tài)信息融合方法。常見(jiàn)的融合方法有:特征層(feature-level)融合、決策層(decision-level)融合、模型層(modellevel)融合等。
特征層融合也被稱(chēng)為早期融合(early fusion,EF),是一種復(fù)雜度較低、相對(duì)簡(jiǎn)單的融合方法,考慮了模式之間的相關(guān)性。對(duì)于多模態(tài),特征層融合直接將單模態(tài)提取到的特征級(jí)聯(lián)成一個(gè)特征向量,并對(duì)其訓(xùn)練分類(lèi)器,用于情感識(shí)別。然而,集成多模態(tài)模式中不同度量級(jí)別的特征將顯著增加級(jí)聯(lián)特征向量的維數(shù),容易導(dǎo)致維度過(guò)高以至于訓(xùn)練模型困難。
決策層融合也被稱(chēng)為后期融合(late fusion,LF),采用某種決策融合規(guī)則,將不同的模態(tài)視為相互獨(dú)立的,組合多種單模態(tài)的識(shí)別結(jié)果,得到最終的融合結(jié)果。常用的決策融合規(guī)則包括“多數(shù)投票”“最大”“總和”“最小”“平均”“乘積”等。雖然基于規(guī)則的融合方法易于使用,但基于規(guī)則的融合面臨的困難是如何設(shè)計(jì)好規(guī)則。如果規(guī)則過(guò)于簡(jiǎn)單,它們可能無(wú)法揭示不同模式之間的關(guān)系。決策級(jí)融合的優(yōu)點(diǎn)是來(lái)自不同分類(lèi)器的決策易于比較,并且每個(gè)模態(tài)可以使用其最適合任務(wù)的分類(lèi)器。
模型層融合近年來(lái)廣泛應(yīng)用于情感識(shí)別任務(wù),其旨在對(duì)每個(gè)模態(tài)分別建模,同時(shí)考慮模態(tài)之間的相關(guān)性。因此,它可以考慮不同模式之間的相互關(guān)聯(lián),并且降低了這些模態(tài)時(shí)間同步的需求。此外,混合融合方法是特征級(jí)和決策級(jí)策略的組合,因此結(jié)合了早期融合和晚期融合兩者的優(yōu)點(diǎn)。
根據(jù)采用的單一模態(tài)信息的數(shù)量,常見(jiàn)的多模態(tài)情感識(shí)別可以分為雙模態(tài)情感識(shí)別和三模態(tài)情感識(shí)別。本章從基于雙模態(tài)和三模態(tài)的情感識(shí)別這兩方面對(duì)這些融合方法進(jìn)行分析,結(jié)果如表2所示。
表2 多模態(tài)信息融合方法Table 2 Multimodal information fusion methods
表2 (續(xù))
常見(jiàn)的雙模態(tài)情感識(shí)別可以分為:融合語(yǔ)音和視覺(jué)信息的音視頻情感識(shí)別以及融合語(yǔ)音和文本的雙模態(tài)情感識(shí)別。
Huang 等提出利用Transformer 模型在模型層面上融合視聽(tīng)模式。利用OpenSMILE提取聲學(xué)參數(shù)集(eGeMAPS)作為音頻特征,視覺(jué)特征由幾何特征構(gòu)成,包括面部地標(biāo)位置、面部動(dòng)作單位、頭部姿態(tài)特征和眼睛注視特征。多頭注意力在編碼音視頻后,從公共語(yǔ)義特征空間產(chǎn)生多模態(tài)情感中間表征,再將Transformer 模型與LSTM 相結(jié)合,通過(guò)全連接層得到回歸結(jié)果,進(jìn)一步提高了性能。在AVEC 2017數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)表明,模型級(jí)融合優(yōu)于其他融合策略。
劉菁菁等提出一種基于LSTM 網(wǎng)絡(luò)的多模態(tài)情感識(shí)別模型。對(duì)語(yǔ)音提取了43 維手工特征向量,包括MFCC 特征、Fbank 特征等;對(duì)面部圖像選取26個(gè)人臉特征點(diǎn)間的距離長(zhǎng)度作為表情特征。采用雙路LSTM分別識(shí)別語(yǔ)音和面部表情的情感信息,通過(guò)Softmax 進(jìn)行分類(lèi),進(jìn)行決策層加權(quán)特征融合。在eNTERFACE’05 數(shù)據(jù)集上,傳統(tǒng)情感六分類(lèi)的準(zhǔn)確率達(dá)到74.40%;另外,模型層特征融合方法采用雙層LSTM 的結(jié)構(gòu),將情感分類(lèi)特征映射到激活度-效價(jià)空間(arousal-valence space),在兩個(gè)維度上的準(zhǔn)確率分別達(dá)到84.10%和86.60%。
Liu等提出了一種新的表示融合方法,稱(chēng)為膠囊圖卷積網(wǎng)絡(luò)(capsule graph convolutional network,CapsGCN)。首先,從語(yǔ)音信號(hào)中提取聲譜圖,通過(guò)2D-CNN 進(jìn)行特征提??;對(duì)圖像進(jìn)行人臉檢測(cè),通過(guò)VGG16進(jìn)行視覺(jué)特征提取。將提取出的音視頻特征輸入到膠囊網(wǎng)絡(luò),分別封裝成多模態(tài)膠囊,通過(guò)動(dòng)態(tài)路由算法有效地減少數(shù)據(jù)冗余。其次,將具有相互關(guān)系和內(nèi)部關(guān)系的多模態(tài)膠囊視為圖形結(jié)構(gòu)。利用圖卷積網(wǎng)絡(luò)(GCN)學(xué)習(xí)圖的結(jié)構(gòu),得到隱藏表示。最后,將CapsGCN 學(xué)習(xí)到的多模態(tài)膠囊和隱藏關(guān)系表示反饋給多頭自注意力,再通過(guò)全連接層進(jìn)行分類(lèi)。實(shí)驗(yàn)表明提出的融合方法在eNTERFACE'05
上取得了80.83%的準(zhǔn)確率和80.23%的F1得分。
王傳昱等提出了一種基于音視頻的決策融合方法。對(duì)視頻圖像,利用局部二進(jìn)制模式直方圖(local binary patterns histograms,LBPH)、稀疏自動(dòng)編碼器(sparse auto-encoder,SAE)和改進(jìn)的CNN 來(lái)實(shí)現(xiàn);對(duì)于語(yǔ)音模態(tài),基于改進(jìn)深度受限波爾茲曼機(jī)和LSTM來(lái)實(shí)現(xiàn)。在單模態(tài)識(shí)別后,根據(jù)權(quán)重準(zhǔn)則將兩種模態(tài)的識(shí)別結(jié)果進(jìn)行融合,通過(guò)Softmax 進(jìn)行分類(lèi)。在CHEAVD 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,識(shí)別率達(dá)到了74.90%。
Hazarika 等提出了一種基于自注意力(selfattention)的特征級(jí)融合方法。對(duì)語(yǔ)音提取高維手工特征,如響度、音高、聲音質(zhì)量、梅爾光譜、MFCC 等;對(duì)文本采用FastText嵌入字典進(jìn)行編碼,再用CNN進(jìn)行特征提取;該注意力機(jī)制為這些模態(tài)分配適當(dāng)?shù)姆謹(jǐn)?shù),然后將這些分?jǐn)?shù)用作加權(quán)組合的權(quán)重,最后通過(guò)Softmax 進(jìn)行分類(lèi)。在IEMOCAP(前四個(gè)會(huì)話(huà)作為訓(xùn)練集,第五個(gè)會(huì)話(huà)作為測(cè)試集)數(shù)據(jù)集上的實(shí)驗(yàn)表明,該融合方法在四分類(lèi)的情感識(shí)別率達(dá)到了71.40%。
Priyasad 等提出了一種基于深度學(xué)習(xí)的方法來(lái)融合文本和聲音數(shù)據(jù)進(jìn)行情感分類(lèi)。利用SincNet層和深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)從原始音頻中提取聲學(xué)特征,級(jí)聯(lián)兩個(gè)并行分支(其一為DCNN,其二為Bi-RNN 與DCNN 串聯(lián))進(jìn)行文本特征提取,再引入交叉注意力(cross-attention)來(lái)推斷從Bi-RNN 收到的隱藏表示上的N-gram級(jí)相關(guān)性,最后通過(guò)Softmax進(jìn)行分類(lèi)。該方法在IEMOCAP(10 折交叉驗(yàn)證)數(shù)據(jù)集上進(jìn)行了評(píng)估,實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)性能優(yōu)于現(xiàn)有方法,加權(quán)精度提高0.052。
Krishna 等提出了一種利用跨模態(tài)注意力(cross-modal attention)和基于原始波形的一維卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行語(yǔ)音-文本情感識(shí)別的新方法。他們使用音頻編碼器(CNN+Bi-LSTM)從原始音頻波形中提取高級(jí)特征,并使用文本編碼器(詞嵌入Glove+CNN)從文本中提取高級(jí)語(yǔ)義信息;使用跨模態(tài)注意力,其中音頻編碼器的特征關(guān)注文本編碼器的特征,反之亦然,再通過(guò)Softmax 進(jìn)行分類(lèi)。實(shí)驗(yàn)表明,該方法在IEMOCAP(四個(gè)會(huì)話(huà)作為訓(xùn)練集,一個(gè)會(huì)話(huà)作為測(cè)試集,做交叉驗(yàn)證)數(shù)據(jù)集上獲得了最新的結(jié)果。與之前最先進(jìn)的方法相比,得到0.019的精度絕對(duì)提升。
Lian等提出了一個(gè)用于會(huì)話(huà)情感識(shí)別的多模態(tài)學(xué)習(xí)框架,稱(chēng)為CTNet(conversational transformer network),使用基于Transformer 來(lái)建模多模態(tài)特征之間的模態(tài)內(nèi)和模態(tài)間的交互。利用OpenSMILE提取88 維的聲學(xué)特征(eGeMAPS),在Common Crawl and Wikipedia 數(shù)據(jù)集上訓(xùn)練的300 維詞向量作為文本特征。為了建模上下文敏感和說(shuō)話(huà)人敏感的依賴(lài)關(guān)系,使用了基于多頭注意力的雙向GRU 網(wǎng)絡(luò)和說(shuō)話(huà)人嵌入,通過(guò)Softmax進(jìn)行分類(lèi)。在IEMOCAP(前四個(gè)會(huì)話(huà)用作訓(xùn)練集和驗(yàn)證集,第五個(gè)會(huì)話(huà)用作測(cè)試集)和MELD(十折交叉驗(yàn)證)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明了該方法的有效性,與其他方法相比在加權(quán)平均F1得分上表現(xiàn)出0.021~0.062的性能提升。
王蘭馨等提出了基于Bi-LSTM-CNN 的語(yǔ)音-文本情感識(shí)別算法。提取word2vec詞嵌入作為文本特征,再經(jīng)過(guò)Bi-LSTM和CNN模型進(jìn)行文本特征提取,對(duì)語(yǔ)音利用OpenSMILE 進(jìn)行手工聲學(xué)特征提?。↖S10_paraling),將兩者特征融合的結(jié)果作為聯(lián)合CNN 模型的輸入,通過(guò)Softmax進(jìn)行分類(lèi),進(jìn)行情感識(shí)別?;贗EMOCAP(四個(gè)會(huì)話(huà)作為訓(xùn)練集,一個(gè)會(huì)話(huà)作為測(cè)試集)的結(jié)果表明,情感識(shí)別準(zhǔn)確率達(dá)到了69.51%。
Poria等提出了一個(gè)能夠捕捉話(huà)語(yǔ)間上下文信息的循環(huán)模型。他們使用CNN 進(jìn)行文本特征提取,將話(huà)語(yǔ)表示為word2vec 向量的矩陣;使用Open-SMILE 提取音頻特征,提取的特征由幾個(gè)底層描述符組成,如聲音強(qiáng)度、音調(diào)及其統(tǒng)計(jì)數(shù)據(jù);用3D-CNN對(duì)視頻中圖像序列進(jìn)行特征提取。他們提出了一個(gè)基于上下文注意力的LSTM(contextual attention-based LSTM,CAT-LSTM)模型來(lái)模擬話(huà)語(yǔ)之間的上下文關(guān)系,之后引入了一種基于注意力的融合機(jī)制(attentionbased fusion,AT-Fusion),它在多模態(tài)分類(lèi)融合過(guò)程中放大了更高質(zhì)量和信息量的模式,最后通過(guò)Softmax進(jìn)行分類(lèi)。結(jié)果顯示,該模型在CMU-MOSI(訓(xùn)練集(含1 447個(gè)話(huà)語(yǔ))、測(cè)試集(含752個(gè)話(huà)語(yǔ))劃分與說(shuō)話(huà)人無(wú)關(guān))數(shù)據(jù)集上比最先進(jìn)的技術(shù)提高了0.06~0.08。
Pan 等提出了一種稱(chēng)為多模態(tài)注意力網(wǎng)絡(luò)(multi-modal attention network,MMAN)的混合融合方法。利用OpenSMILE 提取語(yǔ)音手工特征(IS13-ComParE),通過(guò)3D-CNN 提取視覺(jué)特征,提取word2vec詞嵌入作為文本特征。他們提出了一種新的多模態(tài)注意力機(jī)制(cLSTM-MMA),通過(guò)三種模式促進(jìn)注意力,并選擇性地融合信息,最后通過(guò)Softmax進(jìn)行分類(lèi)。MMAN在IEMOCAP(訓(xùn)練集、測(cè)試集隨機(jī)劃分)情感識(shí)別數(shù)據(jù)庫(kù)上實(shí)現(xiàn)了最先進(jìn)的性能。
Mittal 等提出了一個(gè)使用乘法融合層的多模態(tài)情感識(shí)別模型,稱(chēng)為M3ER。該方法學(xué)習(xí)更可靠的模態(tài),并在樣本基礎(chǔ)上抑制較弱的模態(tài)。提取Glove詞嵌入作為文本特征,對(duì)語(yǔ)音模態(tài)提取聲學(xué)特征,如音高等,從最先進(jìn)的面部識(shí)別模型、面部動(dòng)作單元和面部地標(biāo)中獲得的特征組合作為視覺(jué)特征。通過(guò)引入典型相關(guān)分析來(lái)區(qū)分無(wú)效模態(tài)和有效模態(tài),再生成代理功能來(lái)代替無(wú)效的模態(tài),最后通過(guò)全連接層進(jìn)行分類(lèi)。實(shí)驗(yàn)結(jié)果表明,在IEMOCAP上的平均準(zhǔn)確率為82.70%,在CMU-MOSEI(隨機(jī)劃分為訓(xùn)練集(70%)、驗(yàn)證集(10%)和測(cè)試集(20%))上的平均準(zhǔn)確率為89.00%,總體來(lái)說(shuō)比以往研究提高了約0.05的準(zhǔn)確率。
Siriwardhana 等首次使用從獨(dú)立預(yù)訓(xùn)練的自監(jiān)督學(xué)習(xí)(self supervised learning,SSL)模型中提取的SSL特征來(lái)表示文本(采用RoBERTa)、語(yǔ)音(采用Wav2Vec)和視覺(jué)(采用Fabnet)的三種輸入模態(tài)。鑒于SSL 特征的高維特性,引入了一種新的Transformer 和基于注意力的融合機(jī)制,最后通過(guò)Softmax獲得最終分類(lèi)結(jié)果。該機(jī)制可以結(jié)合多模態(tài)SSL 特征并實(shí)現(xiàn)多模態(tài)情感識(shí)別任務(wù)的最新結(jié)果。對(duì)該方法進(jìn)行了基準(zhǔn)測(cè)試和評(píng)估,在四個(gè)數(shù)據(jù)集IEMOCAP(前四個(gè)會(huì)話(huà)作為訓(xùn)練集,第五個(gè)會(huì)話(huà)作為測(cè)試集)、CMU-MOSEI(使用了CMU-SDK中提供的標(biāo)簽和數(shù)據(jù)集拆分)、CMU-MOSI(使用CMU-SDK中提供的標(biāo)簽和數(shù)據(jù)集拆分)、MELD 上的結(jié)果表明該方法優(yōu)于最先進(jìn)的模型。
Mai 等提出了多融合殘差記憶網(wǎng)絡(luò)(multifusion residual memory network,MFRM)來(lái)識(shí)別話(huà)語(yǔ)級(jí)情感。對(duì)語(yǔ)音、視覺(jué)及文本模態(tài)采用雙向GRU 模型來(lái)獲得每個(gè)模態(tài)的特征表示。在MFRM 中,提出了情感強(qiáng)度注意,使MFRM 能夠關(guān)注發(fā)生強(qiáng)烈情感或重大情感變化的時(shí)間步長(zhǎng),并引入時(shí)間步長(zhǎng)級(jí)融合來(lái)建模時(shí)間受限的模式間交互。此外,還提出了殘差記憶網(wǎng)絡(luò)(residual memory network,RMN)來(lái)處理融合特征。最后,通過(guò)全連接層得到分類(lèi)結(jié)果。大量實(shí)驗(yàn)表明,MFRM 在CMU-MOSI(1 284 個(gè)話(huà)語(yǔ)作為訓(xùn)練集,686 個(gè)話(huà)語(yǔ)作為測(cè)試集)、CMU-MOSEI(16 265 個(gè)話(huà)語(yǔ)作為訓(xùn)練集,4 643 個(gè)話(huà)語(yǔ)作為測(cè)試集)、IEMOCAP(前四個(gè)會(huì)話(huà)作為訓(xùn)練集,第五個(gè)會(huì)話(huà)作為測(cè)試集)、IMDB數(shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的結(jié)果。
Wang 等受Transformer 最近在機(jī)器翻譯領(lǐng)域取得成功的啟發(fā),提出了一種新的融合方法Trans-Modality來(lái)解決多模態(tài)情感分析的任務(wù)。文本、視覺(jué)和聲學(xué)特征分別通過(guò)CNN、3D-CNN 和OpenSMILE進(jìn)行提取。通過(guò)Transformer,學(xué)習(xí)的特征體現(xiàn)了源模態(tài)和目標(biāo)模態(tài)的信息,再通過(guò)全連接層進(jìn)行分類(lèi)。在多個(gè)多模態(tài)數(shù)據(jù)集CMU-MOSI(訓(xùn)練集、驗(yàn)證集包含1 447 個(gè)話(huà)語(yǔ),測(cè)試集包含752 個(gè)話(huà)語(yǔ))、MELD(訓(xùn)練集、驗(yàn)證集包含11 098個(gè)話(huà)語(yǔ),測(cè)試集包含2 610 個(gè)話(huà)語(yǔ))、IEMOCAP(訓(xùn)練集、驗(yàn)證集包含5 810個(gè)話(huà)語(yǔ),測(cè)試集包含1 623個(gè)話(huà)語(yǔ))上驗(yàn)證了該模型。實(shí)驗(yàn)表明,提出的方法達(dá)到了最先進(jìn)的性能。
Dai 等提出了一個(gè)完全端到端的模型(multimodal end-to-end sparse model,MESM)將特征提取和多模態(tài)建模這兩個(gè)階段連接起來(lái),并對(duì)它們進(jìn)行聯(lián)合優(yōu)化。對(duì)于語(yǔ)音和視覺(jué)模態(tài)中的每個(gè)光譜圖塊和圖像幀,采用CNN 進(jìn)行特征提?。粚?duì)文本采用Transformer 進(jìn)行編碼。為了減少端到端模型帶來(lái)的計(jì)算開(kāi)銷(xiāo),引入了稀疏跨模態(tài)注意力(cross-modal attention)進(jìn)行特征提取,最后通過(guò)前饋網(wǎng)絡(luò)得到分類(lèi)結(jié)果。在IEMOCAP(將70%、10%和20%的數(shù)據(jù)分別隨機(jī)分配到訓(xùn)練集、驗(yàn)證集和測(cè)試集)和CMU-MOSEI(隨機(jī)劃分)上的實(shí)驗(yàn)結(jié)果表明,完全端到端模型明顯優(yōu)于基于兩階段的現(xiàn)有模型。此外,通過(guò)添加稀疏的跨模態(tài)注意力,該模型可以在特征提取部分以大約一半的計(jì)算量保持相當(dāng)?shù)男阅堋?/p>
Ren 等提出了一種新的交互式多模態(tài)注意網(wǎng)絡(luò)(interactive multimodal attention network,IMAN)用于對(duì)話(huà)中的情緒識(shí)別。利用OpenSMILE對(duì)語(yǔ)音信息提取聲學(xué)特征(IS13 ComParE),利用3D-CNN提取視覺(jué)特征,提取Glove 詞嵌入作為文本特征。IMAN引入了一個(gè)跨模態(tài)注意融合模塊來(lái)捕獲多模態(tài)信息的跨模態(tài)交互,并采用了一個(gè)會(huì)話(huà)建模模塊來(lái)探索整個(gè)對(duì)話(huà)的上下文信息和說(shuō)話(huà)者依賴(lài)性,最后通過(guò)全連接層得到分類(lèi)結(jié)果。在IEMOCAP(前四個(gè)會(huì)話(huà)作為訓(xùn)練集,最后一個(gè)為測(cè)試集)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,IMAN 在加權(quán)平均精度和F1-得分方面分別達(dá)到了0.004和0.002的提升。
Khare 等將自監(jiān)督訓(xùn)練擴(kuò)展到多模態(tài)情感識(shí)別中,對(duì)一個(gè)基于Transformer 訓(xùn)練的掩碼語(yǔ)言模型進(jìn)行預(yù)訓(xùn)練,使用音頻(聲學(xué)特征)、視覺(jué)(VGG16 提取的深度特征)和文本(Glove 詞嵌入)特征作為輸入,最后通過(guò)全連接層進(jìn)行分類(lèi)。該模型對(duì)情感識(shí)別的下游任務(wù)進(jìn)行了微調(diào)。在CMU-MOSEI 數(shù)據(jù)集上的研究結(jié)果表明,與基線(xiàn)水平相比,自監(jiān)督訓(xùn)練模型可以提高高達(dá)0.03的情感識(shí)別性能。
來(lái)自不同模態(tài)的信息對(duì)最終情感識(shí)別性能的貢獻(xiàn)是不同的,模型應(yīng)該更加關(guān)注融合過(guò)程中提供更多信息的模態(tài)。傳統(tǒng)的特征融合和決策融合方法無(wú)法考慮模態(tài)之間的交互影響,因此近年來(lái)逐漸從傳統(tǒng)融合方法走向模型層融合。隨著注意力機(jī)制的不斷改進(jìn),考慮到注意力機(jī)制能夠?qū)W習(xí)不同模態(tài)對(duì)識(shí)別性能的影響,注意力機(jī)制在多模態(tài)融合中扮演著越來(lái)越重要的作用。
到目前為止,各種深度學(xué)習(xí)方法已經(jīng)成功地應(yīng)用于學(xué)習(xí)高級(jí)特征表示以進(jìn)行情感特征識(shí)別。此外,這些深度學(xué)習(xí)方法通常優(yōu)于基于手工特征的其他方法。然而,這些使用的深度學(xué)習(xí)技術(shù)具有大量的網(wǎng)絡(luò)參數(shù),導(dǎo)致其計(jì)算復(fù)雜度高。為了緩解這個(gè)問(wèn)題,越來(lái)越多的學(xué)者著手對(duì)深度網(wǎng)絡(luò)的壓縮和加速的研究。剪枝(pruning)是減少深度神經(jīng)網(wǎng)絡(luò)(DNN)參數(shù)數(shù)量的一種強(qiáng)有力的技術(shù)。在DNN中,許多參數(shù)是冗余的,在訓(xùn)練過(guò)程中對(duì)降低誤差沒(méi)有很大的貢獻(xiàn)。因此,在訓(xùn)練之后,這些參數(shù)可以從網(wǎng)絡(luò)中移除,移除這些參數(shù)對(duì)網(wǎng)絡(luò)精度的影響最小。剪枝的主要目的是減少模型的存儲(chǔ)需求并使其便于存儲(chǔ)。如He 等引入了一種新的通道剪枝方法來(lái)加速深度卷積神經(jīng)網(wǎng)絡(luò)。給定一個(gè)訓(xùn)練好的CNN模型,提出了一個(gè)迭代的兩步算法,通過(guò)基于LASSO(least absolute shrinkage and selection operator)回歸的通道選擇和最小二乘重建來(lái)有效地修剪每一層。進(jìn)一步將該算法推廣到多層和多分支的情況。修剪后的VGG16 以5 倍的加速達(dá)到了最先進(jìn)的結(jié)果,同時(shí)對(duì)ResNet、Xception等網(wǎng)絡(luò)實(shí)現(xiàn)了2倍的加速。
盡管就各種特征學(xué)習(xí)任務(wù)的性能衡量而言,深度學(xué)習(xí)已經(jīng)成為一種最先進(jìn)的技術(shù),但黑盒問(wèn)題仍然存在。深層模型的多個(gè)隱藏層究竟學(xué)習(xí)到了什么樣的內(nèi)部表示尚未可知。由于其多層非線(xiàn)性結(jié)構(gòu),深度學(xué)習(xí)技術(shù)通常被認(rèn)為不透明,其預(yù)測(cè)結(jié)果往往無(wú)法被人追蹤。為了緩解這個(gè)問(wèn)題,直接可視化學(xué)習(xí)到的特征已經(jīng)成為理解深度模型的廣泛使用的方式。然而,這種可視化的方式并沒(méi)有真正提出相關(guān)的理論來(lái)解釋這個(gè)算法到底在做什么。因此,從多模態(tài)情感識(shí)別的理論角度探討深度學(xué)習(xí)技術(shù)的可解釋性是一個(gè)重要的研究方向。
多模態(tài)情感識(shí)別技術(shù)雖然有了巨大的發(fā)展,但在跨語(yǔ)言的環(huán)境中,仍然是一個(gè)具有挑戰(zhàn)性但至關(guān)重要的問(wèn)題。由于數(shù)據(jù)采集和注釋環(huán)境的不同,不同數(shù)據(jù)集之間往往存在數(shù)據(jù)偏差和注釋不一致?,F(xiàn)在的多模態(tài)情感識(shí)別往往在同一個(gè)數(shù)據(jù)集進(jìn)行訓(xùn)練和測(cè)試,大多數(shù)研究人員通常在一個(gè)特定的數(shù)據(jù)集中驗(yàn)證他們提出的方法的性能,且當(dāng)下的跨庫(kù)情感識(shí)別也大多為單模態(tài)的情感識(shí)別任務(wù)。由于需要聯(lián)合處理多個(gè)數(shù)據(jù)源,這比單模態(tài)情感識(shí)別系統(tǒng)具有更大的復(fù)雜性。因此如何進(jìn)行跨庫(kù)的多模態(tài)情感識(shí)別也是未來(lái)的一個(gè)挑戰(zhàn)。近年來(lái),新發(fā)展起來(lái)的對(duì)抗學(xué)習(xí)方法是一種可行的跨庫(kù)多模態(tài)情感識(shí)別策略。常見(jiàn)的對(duì)抗學(xué)習(xí)網(wǎng)絡(luò)有生成性對(duì)抗網(wǎng)絡(luò)(generative adversarial networks,GAN)、對(duì)抗式自動(dòng)編碼器(adversarial autoencoder)等。
學(xué)習(xí)各種模式的聯(lián)合嵌入空間對(duì)于多模態(tài)融合至關(guān)重要。主流模態(tài)融合方法未能實(shí)現(xiàn)這一目標(biāo),留下了影響跨模態(tài)融合的模態(tài)缺口。Mai 等提出了一種新的對(duì)抗編碼器-解碼器-分類(lèi)器框架來(lái)學(xué)習(xí)一個(gè)模態(tài)不變的嵌入空間。由于各種模態(tài)的分布在本質(zhì)上是不同的,為了減少模態(tài)差異,使用對(duì)抗訓(xùn)練通過(guò)各自的編碼器將源模態(tài)的分布轉(zhuǎn)換為目標(biāo)模態(tài)的分布。進(jìn)一步通過(guò)引入重構(gòu)損失和分類(lèi)損失對(duì)嵌入空間施加額外約束。然后使用層次圖神經(jīng)網(wǎng)絡(luò)融合編碼表示,明確了多階段的單峰、雙峰和三峰相互作用。該方法在多個(gè)數(shù)據(jù)集上取得了最新的性能。因此在后續(xù)的多模態(tài)情感任務(wù)中,將對(duì)抗學(xué)習(xí)方法應(yīng)用于多模態(tài)融合是一個(gè)值得深入研究的方向。
以前的研究主要集中在依靠面部表情、語(yǔ)音和文本來(lái)評(píng)估人類(lèi)的情緒狀態(tài)。然而,這些類(lèi)型的輸入數(shù)據(jù)是相對(duì)主觀的,并且缺乏足夠的客觀特征來(lái)準(zhǔn)確標(biāo)記一個(gè)人的情緒。因此增加更多的模態(tài)信息進(jìn)行研究是一個(gè)值得探索的問(wèn)題。最近,人們開(kāi)始使用基于情感識(shí)別方法的生理信號(hào),這種方法更加客觀,適合于對(duì)情緒狀態(tài)進(jìn)行連續(xù)實(shí)時(shí)監(jiān)測(cè)。常用于檢測(cè)情緒的生理信號(hào)包括腦電圖(electroencephalogram,EEG)、心電圖(electrocardiogram,ECG)、皮膚電反應(yīng)(galvanic skin response,GSR)、皮膚溫度(skin temperature,ST)和光容積圖(photoplethysmogram,PPG)等。在情感識(shí)別系統(tǒng)中使用兩個(gè)或兩個(gè)以上的信號(hào)可以極大地提高整體準(zhǔn)確性。
此外,雖然面部表情自動(dòng)情緒識(shí)別取得了顯著的進(jìn)展,但身體手勢(shì)的情感識(shí)別尚未得到深入的探索。人們經(jīng)常使用各種各樣的身體語(yǔ)言來(lái)表達(dá)情感,很難列舉所有的情緒身體手勢(shì),并為每個(gè)類(lèi)別收集足夠的樣本。因此,識(shí)別新的情緒性身體手勢(shì)對(duì)于更好地理解人類(lèi)情緒至關(guān)重要。然而,現(xiàn)有的方法并不能準(zhǔn)確地確定一個(gè)新的身體姿勢(shì)屬于哪種情緒狀態(tài)。身體語(yǔ)言作為傳遞情感信息的重要因素,在情感識(shí)別中尚未得到深入的研究。人們經(jīng)常使用各種各樣的身體語(yǔ)言來(lái)表達(dá)情感,但很難列舉所有的情感身體姿勢(shì)種類(lèi),并為每個(gè)類(lèi)別收集足夠的樣本。目前主流的算法主要將現(xiàn)有的身體檢測(cè)和特征提取技術(shù)應(yīng)用到情感分類(lèi)任務(wù)中,但并不能準(zhǔn)確地確定一個(gè)新的身體姿勢(shì)屬于哪種情感狀態(tài)。因此,識(shí)別新的情感身體姿勢(shì)對(duì)于情感識(shí)別至關(guān)重要。
此外,目前的一些語(yǔ)義融合策略,如多視圖融合、遷移學(xué)習(xí)融合和概率依賴(lài)融合,在多模態(tài)數(shù)據(jù)的語(yǔ)義融合方面取得了一些進(jìn)展。因此,將深度學(xué)習(xí)和語(yǔ)義融合策略結(jié)合起來(lái),可能對(duì)多模態(tài)情感識(shí)別帶來(lái)一個(gè)新的研究方法。
在數(shù)據(jù)收集困難、缺乏數(shù)據(jù)的情況下,對(duì)情感識(shí)別任務(wù)而言是一個(gè)巨大的挑戰(zhàn)。例如大多數(shù)基于身體手勢(shì)的情感識(shí)別數(shù)據(jù)集只包含幾百個(gè)樣本,且大部分收集的是實(shí)驗(yàn)者在實(shí)驗(yàn)室環(huán)境中執(zhí)行的行為。這種收集方法大多由實(shí)驗(yàn)設(shè)計(jì)者預(yù)先指定,且姿勢(shì)種類(lèi)較少。然而,人們表達(dá)情感的方式是不同的,隨之產(chǎn)生不同的身體姿勢(shì)。當(dāng)在模型測(cè)試過(guò)程中出現(xiàn)一個(gè)新的身體手勢(shì)時(shí),算法很容易識(shí)別錯(cuò)誤。解決小樣本問(wèn)題的一種方法是擴(kuò)展訓(xùn)練數(shù)據(jù)集,以包括盡可能多的情感身體手勢(shì)。然而,收集所有類(lèi)別的標(biāo)記數(shù)據(jù)都是巨大的工作量。
對(duì)于數(shù)據(jù)小樣本問(wèn)題,零次學(xué)習(xí)(zero-shot learning,ZSL)是一種較好的解決方法。ZSL可以通過(guò)屬性和語(yǔ)義向量的等邊信息建立可見(jiàn)類(lèi)別和不可見(jiàn)類(lèi)別之間的關(guān)聯(lián)。例如它為身體姿勢(shì)這個(gè)問(wèn)題提供了一個(gè)解決方法,即使用它們的語(yǔ)義描述來(lái)識(shí)別新的身體姿勢(shì)類(lèi)別,然后從身體姿勢(shì)標(biāo)簽中推斷出情感類(lèi)別。因此,在情感識(shí)別任務(wù)中,對(duì)小樣本學(xué)習(xí)方法的深入研究及不斷改進(jìn)是未來(lái)值得探索的一個(gè)方向。
本文對(duì)近年來(lái)面向深度學(xué)習(xí)的融合語(yǔ)音、視覺(jué)、文本等模態(tài)信息的多模態(tài)情感識(shí)別技術(shù)進(jìn)行了系統(tǒng)性分析與總結(jié)。詳細(xì)闡述了幾種具有代表性的深度學(xué)習(xí)技術(shù),如DBN、CNN、LSTM及其改進(jìn)方法;介紹了近年來(lái)國(guó)內(nèi)外的多模態(tài)情感數(shù)據(jù)庫(kù),重點(diǎn)介紹了近年來(lái)深度學(xué)習(xí)技術(shù)在多模態(tài)情感識(shí)別領(lǐng)域中的研究進(jìn)展,如基于深度學(xué)習(xí)的單一模態(tài)情感特征提取方法及多模態(tài)信息融合策略。此外,給出了未來(lái)進(jìn)一步提高多模態(tài)情感識(shí)別性能的幾個(gè)具有挑戰(zhàn)性的研究方向。