劉 穎,艾 豪,張偉東
(西安郵電大學 通信與信息工程學院,陜西 西安 710121)
情感識別作為人工智能領(lǐng)域的熱門研究方向,是構(gòu)建智能人機交互系統(tǒng)的重要環(huán)節(jié),其在意外風險事故防范[1]、金融市場的預測[2]、商業(yè)評論的分析[3]和犯罪預測[4]等領(lǐng)域有著廣泛的應用。在情感識別研究發(fā)展的過程中,研究者通常使用文本、語音或者視覺(人臉)等3種單模態(tài)信息進行情感預測。在利用單模態(tài)信息進行情感識別時,信息來源都來自于某單一模態(tài),所以在一些情況下存在不足。例如,當單模態(tài)數(shù)據(jù)量較少時,網(wǎng)絡的訓練可能會出現(xiàn)過擬合現(xiàn)象,不僅如此,有時單模態(tài)數(shù)據(jù)甚至會提供錯誤信息,從而影響到最終預測結(jié)果[5]。因此,開展多模態(tài)情感識別的研究尤為必要。
基于傳統(tǒng)機器學習的多模態(tài)情感識別,常用的方法有基于樸素貝葉斯(Naive Bayes,NB)、隨機森林、支持向量機(Support Vector Machines,SVM)、決策樹學習和最大熵(Maximum Entropy,ME)等。文獻[6]提出了一個基于表情面部、手勢和語言的多模態(tài)情感識別框架,數(shù)據(jù)庫是一個包含8個情感和10個主題的多模態(tài)語料庫GEMEP[7](Geneva Multimodal Emotion Portrayals)。為了降低學習復雜度,采用Kononenko最小描述長度準則[8]對特征進行離散化且使用交叉驗證方法對語料庫進行訓練和測試。文獻[9]提出了一種用于微博情感識別的跨媒體詞袋模型(Cross media word Bag Model,CBM),該模型將文本和圖像視為一個整體,由文本和圖像的特征組成信息的特征,利用Logistic回歸進行分類。在情感識別任務中,傳統(tǒng)機器學習方法首先從信號中提取手工設計的特征,然后用這些特征訓練分類器。但是,這種手工設計的特征并不能充分表征情感信息,限制了傳統(tǒng)方法的系統(tǒng)性能。傳統(tǒng)機器學習想要構(gòu)建高性能的機器學習模型,需要特定的領(lǐng)域、技術(shù)和特征工程,不同領(lǐng)域的知識庫是完全不同的,所以結(jié)構(gòu)不夠靈活且適應性很差。自從2012年Geoffrey Hinton領(lǐng)導的小組在著名的ImageNet圖像識別大賽中,采用深度學習模型AlexNet[10]奪冠以來,深度學習被應用于各個領(lǐng)域。深度學習神經(jīng)網(wǎng)絡結(jié)構(gòu)靈活,適應性更強,更易于轉(zhuǎn)換。使用神經(jīng)網(wǎng)絡提取特征,可以避免大量人工提取特征的工作,節(jié)約成本。不僅如此,深度學習還可以模擬詞與詞之間的聯(lián)系,有局部特征抽象化和記憶功能。正是這些優(yōu)勢,使得深度學習在情感識別中發(fā)揮著舉足輕重的作用。
在多模態(tài)情感識別發(fā)展過程中,學者從不同的角度對現(xiàn)有的技術(shù)進行了總結(jié)。文獻[11]對情感進行了定義,討論了情感識別的應用并對文本、語音、視覺以及多模態(tài)情感識別的現(xiàn)有技術(shù)進行了歸納總結(jié)。文獻[12]對情感計算任務進行了分類,同時通過時間線對情感識別的發(fā)展進行了梳理,最后對單模態(tài)到多模態(tài)的情感識別技術(shù)進行了綜述。文獻[13]將情感識別任務分為核心任務和子任務兩部分。核心任務包括文檔級情感分類、句子級情感分類和方面級情感分類,子任務包括多領(lǐng)域情感分類和多模態(tài)情感分類。
該研究對基于深度學習的多模態(tài)情感識別進行討論總結(jié)。第1部分介紹了基于深度學習的文本、語音和人臉等3種單模態(tài)情感識別。第2部分總結(jié)了現(xiàn)有的多模態(tài)的情感識別數(shù)據(jù)集。第3部分將基于深度學習的多模態(tài)情感識別按照融合方式的不同分為基于早期融合、晚期融合、混合融合以及多核融合等4種情感識別方法,并在第4部分對不同方法進行對比分析。最后,在第5部分對全文進行了總結(jié),并對情感識別技術(shù)未來的發(fā)展趨勢進行展望。
在情感識別領(lǐng)域,與傳統(tǒng)的機器學習相比,深度學習更高效、更能提取出深層次的語義特征。隨著深度學習的發(fā)展,卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN)、記憶神經(jīng)網(wǎng)絡(Memory Neural Networks,MNN )、循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)、圖神經(jīng)網(wǎng)絡(Graph Neural Networks,GNN)、深度置信網(wǎng)絡(Deep Belief Networks,DBN)、膠囊網(wǎng)絡[14](Capluse Networks)以及Transformer[15]網(wǎng)絡均在情感識別領(lǐng)域取得了優(yōu)異的效果。下面將對基于深度學習的文本、語音和人臉情感識別分別進行簡要概括。
傳統(tǒng)的文本情感識別方法主要包括人工構(gòu)建情感詞典的方法和基于有監(jiān)督學習的機器學習模型,這兩種方法不僅耗費大量的人力,而且在大數(shù)據(jù)時代任務完成效率和任務完成質(zhì)量均較低。深度學習可以通過構(gòu)建網(wǎng)絡模型模擬人腦神經(jīng)系統(tǒng)對文本進行逐步分析,特征抽取且自動學習優(yōu)化模型輸出,以提高文本分類的正確性。
基于深度學習的文本進行情感識別時,首先需要對文本序列送入詞嵌入(Word Embedding)模型,由詞嵌入模型將其編碼為詞向量(Word Vector)作為后面神經(jīng)網(wǎng)絡的輸入。早期用于表示文檔詞匯表的方法是獨熱編碼(One-Hot Encoding),這種方法的問題是詞向量大小隨著語料庫大小的增加而增加,更重要的是這種編碼方式不能捕捉單詞之間的聯(lián)系?,F(xiàn)在比較常用的詞嵌入模型有Word2vec[16]、Glove[17]以及BERT[18](Bidirectional Encoder Representations from Transformers)。
Word2vec其本質(zhì)是一種單詞聚類的方法,是實現(xiàn)單詞語義推測和句子情感識別等目的的一種手段,兩種比較主流的實現(xiàn)算法是連續(xù)詞袋模型(Continuous Bag-of-Words,CBOW)和Skip-Gram。前者是利用周圍詞估計中心詞,缺點是周圍詞的學習效果要差一些,后者是根據(jù)中心詞估計周圍詞,優(yōu)點是學習效果要好一些,但是學習速度慢。Glove通過語料庫構(gòu)建詞的共現(xiàn)矩陣,然后通過共現(xiàn)矩陣和Glove模型對詞匯進行向量化表示。相比于Word2vec,Glove更容易并行化,速度更快,但是Glove算法本身使用了全局信息,所以更費內(nèi)存。BERT作為Word2vec的替代者,本質(zhì)上是通過在海量語料的基礎(chǔ)上運行自監(jiān)督學習方法為單詞學習一個好的特征表示,BERT使用Transformer作為算法的主要框架,能更徹底的捕捉語句中的雙向關(guān)系。除此之外,常用的詞向量模型還有ELMo[19](Embedding Language Model)和GPT[20](Generative Pre-Training)。
在得到詞向量之后,通常需要對特征進行聚類和篩選,以得到更高級的情感特征表征。文獻[21]借鑒了膠囊網(wǎng)絡的思想,通過為每個情感類別構(gòu)建膠囊,提出了基于RNN的膠囊用于情緒識別。方面級情感分類任務是對給定一個方面(Aspect),研究多模態(tài)文檔在該方面的情感極性。文獻[22]提出了利用膠囊網(wǎng)絡通過路由算法構(gòu)建基于向量的特征表示和聚類特征(Cluster Features),交互式注意力機制在膠囊路由過程中引入以建模方面術(shù)語與上下文的語義關(guān)系。文獻[23]也將膠囊網(wǎng)絡用于方面級情緒識別,取得了優(yōu)異的效果。
基于RNN、長短期記憶網(wǎng)絡( Long Short-Term Memory,LSTM)和門控循環(huán)單元( Gated Recurrent Unit,GRU)這種循環(huán)結(jié)構(gòu)的網(wǎng)絡模型在文本情感識別任務上已經(jīng)取得了優(yōu)異的效果,但是RNN 固有的順序?qū)傩宰璧K了訓練樣本間的并行化,對于長序列,內(nèi)存限制將阻礙對訓練樣本的批量處理。為此,文獻[24]提出了Transformer網(wǎng)絡。Transformer使用了自注意力機制(Self-Attention),該機制可以產(chǎn)生更具可解釋性的模型,可以從模型中檢查注意力分布,各個Attention Head可以注意到不同子空間的信息。Transformer突破了RNN不能并行計算的限制,相比于CNN,Transformer計算兩個位置之間的關(guān)聯(lián)所需的操作次數(shù)不隨距離的增長而增長。在此基礎(chǔ)上,文獻[25]提出一個分層Transformer框架,其中低層Transformer用來對單詞級的輸入進行建模,上層Transformer用來捕獲話語級輸入的上下文關(guān)系。
語音情感識別近年來受到廣泛關(guān)注,在人機交互和行車駕駛安全上[26]發(fā)揮著重要的作用。為了得到更好的實驗效果,通常首先將語音數(shù)據(jù)先進行預處理,然后進行特征提取,提取到的特征維度可能過高,需進一步降維操作。最后,通過分類器進行情感分類。
1.2.1 常用特征工具與降維
隨著深度學習技術(shù)逐步完善,在海量復雜數(shù)據(jù)建模上有很大優(yōu)勢。傳統(tǒng)的基于機器學習的語音情感識別所提取的語音特征通常包括波形、信號能量、F0、快速傅里葉變換( Fast Fourier Transform,FFT)頻譜、語音質(zhì)量、倒頻譜(Cepstrum)、線性預測倒譜系數(shù)(Linear Prediction Cepstral Coefficients,LPCC)、梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)、共振峰、語速和小波等。相較于傳統(tǒng)機器學習,深度學習能提取到高層次的深度特征,常用于語音特征提取的神經(jīng)網(wǎng)絡有深度神經(jīng)網(wǎng)絡(Deep Neural Networks,DNN)、CNN、DBN、RNN、LSTM和膠囊網(wǎng)絡等,常用語音特征提取工具[27]如表1所示。
表1 常用語音特征提取工具統(tǒng)計表
目前,除神經(jīng)網(wǎng)絡以外,比較主流的語音特征提取工具包括Praat[28]和OpenSMILE[29]兩種。由于這兩款工具圖形用戶界面(Graphical User Interface ,GUI)操作簡潔、功能完善和其跨平臺的特性,所以很多學者在進行多模態(tài)語音情感識別時會采用這兩款語音特征提取工具提取特征。但是通過這兩款工具提取到的語音特征維度很高,通常需要進行降維操作,例如主成分分析[30](Principle Component Analysis,PCA)和線性判別分析[31](Linear Discriminate Analysis,LDA)等。
1.2.2 深層特征提取
考慮到神經(jīng)網(wǎng)絡能提取到更豐富的聲學情感特征,文獻[32]采用CNN從語譜圖中提取圖像特征,從而改善MFCC丟失信息而造成識別結(jié)果準確率低的問題,最后通過多核分類器得到了很高的識別精度。DBN情感表征能力強,無監(jiān)督特征學習能力強,文獻[33]采用貪婪算法進行無監(jiān)督學習,通過BP(Back Propagation)神經(jīng)網(wǎng)絡反向微調(diào),找到全局最優(yōu)點,再將DBN算法的輸出參數(shù)作為深度特征,并在此過程中,采用隨機隱退思想防止過擬合。
CNN的Max-pooling操作只保留最活躍的神經(jīng)元,這樣可能會丟失比較重要的空間信息,所以文獻[34]在膠囊網(wǎng)絡的基礎(chǔ)上提出了采用兩個循環(huán)連接的膠囊網(wǎng)絡提取特征,增強空間敏感度,取得了比CNN-LSTM體系結(jié)構(gòu)更好的分類精度。除此之外,文獻[35]以類似于RGB圖像表示的3個對數(shù)梅爾光譜圖作為深度卷積神經(jīng)網(wǎng)絡(Deep Convolutional Neural Network,DCNN)的輸入,通過ImageNet預訓練的CNN模型學習光譜圖通道中的高級特征表示,將學習的特征由時間金字塔匹配策略聚合得到全局深度特征,進一步提升對有限樣本特征提取的有效性。
人臉情感識別對人機交互有重大意義,要讓計算機更好地理解人類表達,人臉情感識別不可或缺。通常將人臉表情分為高興、悲傷、憤怒、驚訝、恐懼和厭惡等6種基本表情。在進行特征提取前,為了讓識別結(jié)果更好,通常先進行圖像預處理,然后檢測出人臉部分,再對人臉部分進行特征提取。人臉表情識別的主要步驟是表情特征提取和情感分類,傳統(tǒng)的機器學習特征提取方法包括局部二值模式[36](Local Binary Pattern,LBP)、主動外觀模型(Active Appearance Model,AAM)、主動形狀模型(Active Shape Model,ASM)、尺度不變特征轉(zhuǎn)換(Scale Invariant Feature Transform,SIFT)和Gabor小波變換[37]。傳統(tǒng)機器學習是手工提取特征,費時費力,且由于人臉語義信息比其他圖像更為豐富,手工提取特征可能會漏掉重要的語義信息。深度學習能提取深度特征,深度特征更豐富,包含的語義信息更完整,因此,利用深度學習進行人臉情感識別成為研究的熱點。
常用于人臉表情識別的神經(jīng)網(wǎng)絡有CNN、DBN、生成對抗網(wǎng)絡[38](Generative Adversarial Networks,GAN)、深度自編碼器[39](Deep Autoencoder,DAE)和LSTM等。GAN因其強大的生成能力,在文獻[40]中被用來將非正面化的人臉正面化,達到多角度進行人臉表情識別。GAN雖然具有很強的生成能力,但是也存在訓練困難,超參數(shù)不容易調(diào)整的問題。深度自編碼器是一種無監(jiān)督學習的神經(jīng)網(wǎng)絡結(jié)構(gòu),輸入輸出相同維度,但是也存在易陷入局部最優(yōu)的問題,雖然無監(jiān)督逐層貪心預訓練能在一定程度解決這個問題,但是隨著隱藏層個數(shù)、神經(jīng)元數(shù)量和數(shù)據(jù)復雜的增加,梯度稀釋越來越嚴重,且訓練極其繁瑣。對于各種網(wǎng)絡的局限性,學者們通常結(jié)合幾種神經(jīng)網(wǎng)絡提取特征,在最后分類器的選擇上也不盡相同,有些利用神經(jīng)網(wǎng)絡的Softmax層進行分類,而很多也選擇SVM[41]或者AdaBoost[42]分類器進行分類。
介紹了基于深度學習的文本、語音和人臉(視覺)等3種單模態(tài)情感識別的方法。對于文本情感識別,主要介紹了常用的詞向量模型以及用來捕獲上下文關(guān)系的相關(guān)網(wǎng)絡模型。對于語音和人臉情感識別,介紹了相關(guān)特征提取工具包和特征提取神經(jīng)網(wǎng)絡,同時還對相關(guān)網(wǎng)絡架構(gòu)的性能進行了分析。
對目前多模態(tài)情感識別領(lǐng)域相關(guān)任務常用的數(shù)據(jù)集進行梳理,主要分為雙模態(tài)數(shù)據(jù)集(文本和圖片)和三模態(tài)數(shù)據(jù)集(文本、圖片和語音)。雙模態(tài)情感數(shù)據(jù)集包括Yelp[43]、Twitters[44]和Multi-ZOL[45]等3種,三模態(tài)數(shù)據(jù)集包括CMU-MOSEI[46](CMU Multimodal Opinion Sentiment and Emotion Intensity)、CMU-MOSI[47](CMU Multimodal Corpus of Sentiment Intensity)、YouTube[48]、ICT-MMMO[49](Institute for Creative Technologies’ Multi-Modal Movie Opinion)、IEMOCAP[50](Interactive Emotional dyadic Motion Capture database)和MELD[51](Multimodal EmotionLines Dataset)等6種,分別如表2和表3所示。表中分別用T、I和S表示文本、圖片和語音。
表2 雙模態(tài)情感數(shù)據(jù)集
表3 三模態(tài)情感數(shù)據(jù)集
Yelp數(shù)據(jù)集一共有44 305條評論,244 569張圖片,情感標簽標注是對每條評論的情感傾向打1~5分等5個分值。Twitters數(shù)據(jù)集分為訓練集、開發(fā)集和測試集,分別是19 816、2 410和2 409條帶圖片推文。該數(shù)據(jù)集的情感標簽標注為諷刺或不諷刺。Multi-ZOL數(shù)據(jù)集一共有5 288條多模態(tài)評論,每條多模態(tài)數(shù)據(jù)包含1個文本內(nèi)容、1個圖像集,以及至少1個但不超過6個評價。對于每個評價,都有1~10分的情感得分。
CMU-MOSEI數(shù)據(jù)集包含3 228個視頻、23 453個句子、1 000個講述者和250個話題,總時長達到65 h。CMU-MOSI數(shù)據(jù)集總共隨機收集了2 199個視頻,這些視頻的情緒極性強度標注為-3~+3,標簽標注為憤怒、厭惡、悲傷、喜悅、中立、驚訝和恐懼等情感七分類,數(shù)字越大代表情緒越積極。YouTube數(shù)據(jù)集收集了300個視頻,標簽標注為積極、消極和中性等情緒三分類。ICT-MMMO數(shù)據(jù)集包含340個多模態(tài)評論視頻,其中包括228個正面評論、23個中立評論和119個負面評論。IEMOCAP數(shù)據(jù)集總共包括4 784條即興會話和5 255條腳本化會話,最終的數(shù)據(jù)標簽標注為中立狀態(tài)、幸福、憤怒、驚訝、厭惡、挫敗感、興奮、其他、恐懼和悲傷等情感十分類。MELD數(shù)據(jù)集包含9 989個片段,每個片段的標簽標注不僅包含憤怒、厭惡、悲傷、喜悅、中立、驚訝和恐懼等情感七分類,也包含積極、消極和中性等情緒三分類。
將基于深度學習的多模態(tài)情感識別任務按照融合方式不同分為基于早期融合、晚期融合、混合融合以及多核融合等4種情感識別方法。早期融合大都將特征進行簡單的級聯(lián)操作。晚期融合是讓不同的模態(tài)先進行單獨訓練,再融合多個模型輸出的結(jié)果?;旌先诤蟿t是結(jié)合了早期融合和晚期融合的融合方法。多核學習則是通過多核映射,將多個特征空間組合成一個高維組合特征空間。
早期融合又叫特征級融合,通常將特征進行簡單的級聯(lián)操作。文獻[52]通過CNN提取圖像和文本特征,應用于反諷數(shù)據(jù)集Twitter進行圖像推文情緒分類任務,獲得了86%的精確度。在此基礎(chǔ)上,進一步利用CNN提取文本與圖像特征,通過結(jié)合注意力機制和LSTM捕獲文本和圖像之間的聯(lián)系,最終送入Softmax進行分類且獲得了3%的性能提升。文獻[53]提出GME-LSTM ( Gated Multimodal Embedding LSTM) 模型,在每個時間點引入了門控機制,在單詞層就能完成多種模態(tài)信息的融合。
與簡單的將不同模態(tài)特征進行級聯(lián)操作不同,文獻[54]針對在線視頻中不穩(wěn)定的口語以及伴隨的手勢和聲音,將多模態(tài)情感識別問題作為模態(tài)內(nèi)和模態(tài)間的動態(tài)建模,提出了一個新的張量融合網(wǎng)絡(Tensor Fusion Network,TFN),采用端到端的學習方式,從模態(tài)內(nèi)和模態(tài)間解決多模態(tài)情感識別問題。
在編碼階段,TFN使用1個LSTM和兩層全連接層對文本模態(tài)的輸入進行編碼,分別使用1個3層的深度神經(jīng)網(wǎng)絡對語音和視頻模態(tài)的輸入進行編碼。在模態(tài)嵌入子網(wǎng)絡(Modality Embedding Subnetworks,MES)中有3個子網(wǎng)絡,分別提取聲音特征向量zα、文本特征向量zl和圖片特征向量zv,表示為
(1)
得到3種特征向量之后,在張量融合層中通過三維的笛卡爾積將3種模態(tài)聯(lián)系起來,得到融合后的向量
(2)
送入情感決策層。張量融合如圖1所示。該網(wǎng)絡采用交叉熵損失函數(shù),取得了不錯的效果。
圖1 張量融合
文獻[55]提出了MARN(Multi-attention Recurrent Network)模型。考慮到不同模態(tài)之間具有模態(tài)交互信息,該模型通過分層注意力機制關(guān)注這種模態(tài)間的交互信息。在編碼階段,對LSTM進行改進以增強多模態(tài)表示,且將模態(tài)融合和模態(tài)編碼進行了結(jié)合。值得注意的是,該模型在每個階段都會進行模態(tài)融合,所以需要在編碼前進行模態(tài)對齊。MARN模型考慮到了模態(tài)間的交互信息,文獻[56]則考慮了關(guān)注交互信息的范圍,提出了MFN(Memory Fusion Network)模型,MFN使用增量記憶機制(Delta-Memory Attention,DMA)和多視野門控記憶(Multi-View Gated Memory,MVGM),同時捕捉上下文之間的聯(lián)系和不同模態(tài)之間的交互,保存上一時刻的多模態(tài)交互信息。
文獻[57]認為在以往利用文本、語音和視覺等3種模態(tài)信息進行情感識別的研究中,忽視了文本信息比語音和視覺信息更重要的事實。為此提出了一種文本信息起主導作用的框架。為了探索時間和通道的相關(guān)性,該框架利用時間卷積網(wǎng)絡提取每種模態(tài)的高級表征,利用兩個變體LSTM關(guān)注語音和視覺信息且增強文本信息的表示。對于Multi-ZOL數(shù)據(jù)集,文獻[58]提出了多交互記憶網(wǎng)絡(Multi-Interactive Memory Network,MIMN),該模型使用方面引導注意力機制指導模型生成文本和圖像的注意力向量,并使用多模態(tài)交互注意力機制捕獲多模態(tài)間和單模態(tài)內(nèi)的交互信息。文獻[59]提出了一種基于深度置信網(wǎng)絡的語言表情多模態(tài)情感識別方法,通過CNN獲得人臉表情特征,對于音頻,通過頻譜衰減和短時平均能量獲取高級聲學特征。為了提高兩種模態(tài)特征融合的有效性,采用雙模態(tài)深度置信網(wǎng)絡(Bi-DBN)融合表情和語音特征且去除模態(tài)間的冗余信息,將得到的融合特征送入SVM進行最終的分類。
LSTM和GRU固有的順序?qū)傩宰璧K了訓練樣本間的并行化,對于長序列,內(nèi)存限制將阻礙對訓練樣本的批量處理。為了克服這種缺陷且降低多模態(tài)情感識別任務中對標注數(shù)據(jù)的依耐性,文獻[60]提出了基于Transformer自監(jiān)督特征融合的多模態(tài)情感識別網(wǎng)絡框架,該網(wǎng)絡使用預訓練的自監(jiān)督網(wǎng)絡提取文本、音頻和視覺等3種模態(tài)信息的特征。同時,考慮到提取到的自監(jiān)督特征具有高維性,因此采用一種新的基于Transformer和注意力機制方法捕捉模態(tài)間和模態(tài)內(nèi)的上下文語義聯(lián)系。
晚期融合也叫決策級融合,不同的模態(tài)先進行單獨訓練,再融合多個模型輸出的結(jié)果。因為該方法的融合過程與特征無關(guān),且來自多個模型的錯誤通常是不相關(guān)的,所以這種融合方法在多模態(tài)情感識別中應用很多。
文獻[49]創(chuàng)建了ICT-MMMO數(shù)據(jù)庫,該數(shù)據(jù)庫是一個關(guān)于電影評論視頻的數(shù)據(jù)庫。對于語音征提取,是通過大量的低階描述符(Low-level Descriptors,LLD)及其導數(shù),并結(jié)合相應的統(tǒng)計函數(shù)捕獲一個片段內(nèi)的語音動態(tài),利用OpenSMILE在線音頻分析工具包進行語音特征提取。因為每個視頻片段中只有一個人,而且被試者大部分時間都面對著攝像頭,所以采用了從視頻序列中自動提取視覺特征。通過Bag-of-Words(BoW)和Bag-of-N-Gram(BoNG)以及自動語音識別(Automatic Speech Recognition,ASR)系統(tǒng)進行文本特征的提取。為了對連續(xù)話語之間的上下文信息進行建模,利用雙向長短時記憶網(wǎng)絡(Bi-LSTM)對音頻和視頻特征進行情感識別,對于語言特征分類,使用線性支持向量機。音頻和視頻特征作為Bi-LSTM網(wǎng)絡的輸入,進而產(chǎn)生情感預測。MFCC特征利用ASR系統(tǒng)生成語言特征,通過SVM對得到的BoW/BoNG特征進行分類,而SVM為每個電影評論視頻生成一個預測,由于這種異步性,所以采用晚期融合推斷最終的情感估計。Bi-LSTM網(wǎng)絡生成的總分是通過簡單地平均每個話語對應的分數(shù)計算,最后的情感評估是語言(權(quán)重1.2)和視聽(權(quán)重0.8)得分的加權(quán)和。為了將在語言知識數(shù)據(jù)庫上的得分整合到上述方法中,通過Logistic回歸將得分映射到[0,1]范圍內(nèi)。與文獻[49]不同,文獻[61]提出了一個深度多模態(tài)融合架構(gòu),如圖2所示,其能夠利用來自個體模態(tài)的互補信息預測說服力。
圖2 基于晚期融合的深度多模態(tài)網(wǎng)絡架構(gòu)
該網(wǎng)絡在最后利用DNN進行最終的情感預測,DNN的輸入是采用單個模態(tài)分類器的置信度得分和其互補得分,最終預測取得了90%的精確度。類似地,文獻[62]使用Word2vec對單詞進行編碼,利用DNN提取圖像特征,通過邏輯回歸對文本和圖像進行情感預測,最后使用從標記數(shù)據(jù)中學習到的平均策略和權(quán)重融合概率結(jié)果。
文獻[63]認為在以前的研究中,只是把話語當成一個獨立的部分,而沒有考慮話語前后的視頻畫面的關(guān)系。針對這種情況,基于LSTM的模型被提出,該模型能夠捕捉話語環(huán)境中的上下文信息。利用Text-CNN 提取文本特征,首先將每一個句子都變成每一個單詞向量的集合,使用Word2vec將這些詞編碼為維度為300維的詞向量。對于語音信息,利用OpenSMILE在線音頻分析工具包進行語音特征提取。對于圖像,使用3D-CNN進行圖像特征提取,然后使用Max-pooling 進行降維,得到一個300維度的特征向量。在得到文字、語言和視覺等3種模型的特征向量表示之后,再將這3種特征向量分別送入上下文LSTM捕獲相鄰語境之間的聯(lián)系,最終得到每種模態(tài)的情感預測結(jié)果,并將這些預測結(jié)果繼續(xù)送入到一個上下文LSTM中得到最終的預測結(jié)果。與利用文本、語音和人臉等3種模態(tài)進行情感識別不同,文獻[64]利用人臉與腦電進行多模態(tài)情感識別,采用CNN提取人臉特征且利用Softmax進行最終分類,而因為腦電的非線性特性,利用SVM進行最終的分類,在晚期融合層采用多重投票的方式且結(jié)合閾值法計算出兩種模態(tài)的最終分類結(jié)果,將得到的結(jié)果利用統(tǒng)計模擬法得到最后的多模態(tài)情感分類結(jié)果。文獻[65]提出一個應用于音樂視頻情感識別的網(wǎng)絡架構(gòu),在數(shù)據(jù)預處理階段,將視頻中的原始音頻聲波轉(zhuǎn)換為單聲道,然后以窗口大小為2 048,頻率為22 050 Hz進行二次采樣,利用OpenSMILE進行音頻特征提取。對于視頻中的視覺信息,由于三維卷積能更好的捕獲空間和運動信息,所以利用3D-CNN進行人臉特征提取,最后以晚期融合的策略送入分類器進行分類。
多模態(tài)數(shù)據(jù)的早期融合并不能有效地捕捉所涉及模態(tài)的互補相關(guān)性,并可能導致包含冗余的輸入向量一起輸入到情感決策層中,對情感預測造成干擾。晚期融合不能有效地捕捉不同模態(tài)之間的相關(guān)性,混合融合則集成了早期融合和晚期融合的優(yōu)點,在情感預測任務中取得了不錯的效果。文獻[66]提出了一種新的圖像-文本情感識別模型,即深度多模態(tài)關(guān)注融合(Deep Multimodal Attention Fusion,DMAF),利用視覺和語義內(nèi)容之間的區(qū)別特征和內(nèi)在相關(guān)性,通過混合融合框架進行情感識別。該網(wǎng)絡包含兩種獨立的單模態(tài)注意力模型和一種多模態(tài)注意力模型,兩種單模態(tài)注意力模型分別學習視覺模態(tài)和文本模態(tài),自動聚焦與情感最相關(guān)的判別區(qū)域和重要詞語。對于文本內(nèi)容,使用Glove上的預先訓練好的單詞特征初始化嵌入層(Embedding Layer)參數(shù),每個單詞都由一個300維的向量表示,文本內(nèi)容長度不超過30,大于30的序列將被截斷,小于30的用零填充。將得到的詞向量通過LSTM捕獲上下文關(guān)系,經(jīng)過語義注意力機制之后進行情感預測。首先,視覺特征通過視覺幾何組19[67](Visual Geometry Group,VGG19)模型進行提取,使用卷積層“Conv5_4”的輸出作為區(qū)域特征,其維度為196×512,經(jīng)過視覺注意力機制進行情感預測。然后,提出了一種基于早期融合的多模態(tài)注意力模型,利用視覺特征和文本特征之間的內(nèi)在關(guān)聯(lián)進行聯(lián)合情感預測。最后,將得到的3種情感預測結(jié)果采用一種晚期融合方案進行最終的情感預測。文獻[68]提出一種用于藝術(shù)繪畫多模態(tài)請感識別框架,藝術(shù)繪畫中包含圖像與文本信息。圖像信息利用CNN進行特征提取,而文本信息利用BERT構(gòu)造一個句子的詞向量,通過Bi-GRU捕獲上下文關(guān)系。
基于RNN、LSTM和GRU這種循環(huán)結(jié)構(gòu)網(wǎng)絡模型在多模態(tài)情感識別任務上已經(jīng)取得了優(yōu)異的效果,但是RNN 固有的順序?qū)傩宰璧K了訓練樣本間的并行化,對于長序列,內(nèi)存限制將阻礙對訓練樣本的批量處理。由此,文獻[69]提出了一個基于Transformer的會話級多模態(tài)情感識別框架,該架構(gòu)包含對于上下文無關(guān)的話語級特征提取和上下文相關(guān)的多模態(tài)特征提取兩個關(guān)鍵步驟。架構(gòu)中包含兩個Transformer,一個Transformer用來捕獲單模態(tài)特征之間的時間依耐性,另一個跨模態(tài)Transformer用來學習非對齊多模態(tài)特征上的跨模態(tài)交互作用。為了得到更有用的信息,通過注意力機制進行多模態(tài)特征融合,最后使用一個雙向GRU捕獲文本和語音兩個方向上的語境信息,并結(jié)合Multi-Head Attention突出重要的語境話語。
多核融合的方法來自于多核學習(Multi Kernel Learning,MKL),多核學習是一種特征選擇方法,將特征分組,每組都有自己的核函數(shù)[70]。SVM分類器都是單核的,即是基于單個特征空間。在實際應用中往往需要根據(jù)經(jīng)驗選擇不同的核函數(shù),如高斯核函數(shù)、多項式核函數(shù)等。指定不同的參數(shù),這樣不僅不方便而且當數(shù)據(jù)集的特征是異構(gòu)時,效果也不是很理想。正是基于SVM單核學習存在的上述問題,同時利用多個核函數(shù)進行映射的MKL應用而生。多核模型比單個核函數(shù)具有更高的靈活性。在多核映射的背景下,高維空間成為由多個特征空間組合而成的組合空間。組合空間充分發(fā)揮了各個基本核的不同特征映射能力,能夠?qū)悩?gòu)數(shù)據(jù)的不同特征分量分別通過相應的核函數(shù)得到解決。多核學習過程如圖3所示。
圖3 多核學習過程
多核學習很擅長處理異構(gòu)數(shù)據(jù),因此也被用于多模態(tài)情感識別。文獻[71]提出了基于深度卷積神經(jīng)網(wǎng)絡的文本特征和多核學習的話語級多模態(tài)情感識別。在一個帶有手工標注情緒標簽的訓練語料庫中訓練一個CNN,將訓練的CNN不作為分類器使用,而是將其隱藏層的輸出值作為多核SVM的輸入特征,從而提供更高的分類準確性。對于文本的預處理,使用Word2vec對單詞進行預處理,每個單詞處理成一個300維的向量,對于詞典里面沒有的單詞,處理成新的隨機向量。對于臉部特征點的提取,使用CLM-Z[72]人臉識別庫,對每一幀圖像提取68個面部特征點,使用OpenSMILE提取與音高和聲音強度相關(guān)的音頻特征。在模型中,將提取的特征用基于循環(huán)相關(guān)的特征子集和主成分分析進行特征選擇降低特征維度,通過交叉驗證確定MKL分類器的參數(shù)。選擇8個核的配置,其中5個核函數(shù)采用徑向基函數(shù)(Radial Basis Function,RBF),超參數(shù)Gamma設置成從0.01~0.05,RBF的Gamma參數(shù)控制單個訓練點的影響距離,剩余3個核的核函數(shù)分別采用多項式的2、3、4次冪。最后使用MKL對多模態(tài)異構(gòu)融合特征向量進行分類。
為了進一步提升情緒識別的準確性,文獻[73]提出了一種卷積遞歸多核學習模型。為了捕捉視頻上下內(nèi)容的時間相關(guān)性,將時間t和t+1的每對連續(xù)圖像轉(zhuǎn)換成單個圖像,利用CNN提取時間相關(guān)的特征,通過使用CNN學習到的輸出特征向量的協(xié)方差矩陣初始化RNN的權(quán)值,最終情感類別輸出為“積極”或“消極”。
介紹了基于深度學習的多模態(tài)情感識別相關(guān)方法,按照融合方式的不同將這些方法分為基于早期融合、晚期融合、混合融合和多核融合。早期融合大都將特征進行簡單的級聯(lián)操作或者進行張量融合,不能有效地捕捉所涉及模態(tài)的互補相關(guān)性,并可能導致包含冗余的輸入向量一起輸入到情感決策層中,對情感預測造成干擾。晚期融合則不能有效地捕捉不同模態(tài)之間的相關(guān)性,混合融合則集成了早期融合和晚期融合的優(yōu)點,但算法相對比較復雜。
為了比較多模態(tài)融合方式對精度的影響及單模態(tài)的識別效果,分別對比不同方法在雙模態(tài)數(shù)據(jù)集Twitter上的F1分數(shù)和精確度,如表4所示,F(xiàn)1分數(shù)是模型精確率和召回率的一種調(diào)和平均。為了比較不同方法網(wǎng)絡結(jié)構(gòu)在多模態(tài)情感識別中的表現(xiàn)情況,表5總結(jié)出了不同方法在三模態(tài)數(shù)據(jù)集IEMOCAP上的實驗結(jié)果,最終F1分數(shù)和精確度都取平均值。
表4 不同方法在雙模態(tài)數(shù)據(jù)集Twitter上實驗結(jié)果對比
表5 不同方法在三模態(tài)數(shù)據(jù)集IEMOCAP上實驗結(jié)果
由表4和表5可知:1)在單模態(tài)情感識別上,文本的表現(xiàn)要優(yōu)于圖像的表現(xiàn)。而在融合方式上,晚期融合的效果優(yōu)于早期融合,混合融合的效果明顯優(yōu)于其他兩種融合方式,但是算法相對更復雜。2)當融合方式相同時,CNN架構(gòu)由于池化操作可能會失去重要的空間信息,所以效果相對較差。引入LSTM、GRU捕捉文本上下文的聯(lián)系或者視頻上下幀的關(guān)聯(lián)能有效提高識別準確率,另外引入注意力機制,對不同模態(tài)的貢獻分配不同的權(quán)重也能提高準確率。3)Transformer可以克服RNN并行計算效率太低的缺點,但是整體復雜度相對要高一些。
深度學習中常用于情感識別特征提取的神經(jīng)網(wǎng)絡的優(yōu)缺點總結(jié)如表6所示。
表6 情感特征提取方法優(yōu)缺點總結(jié)
多模態(tài)情感識別旨在分析出人們對產(chǎn)品、服務、組織、個人、問題、事件和話題等實體的意見、情緒、情感、評價和態(tài)度,其在人機交互、輿情分析、災害評估和金融市場預測等方面發(fā)揮著重大作用。目前,多模態(tài)情感識別任務大都采用深度學習進行建模,通過分析基于深度學習的多模態(tài)情感識別的研究現(xiàn)狀,將基于深度學習的多模態(tài)情感識別按照融合方式不同分為早期融合、晚期融合、混合融合和多核融合等4種情感識別方法,并分別進行歸納總結(jié)。同時,對情感識別技術(shù)未來發(fā)展趨勢進行展望,具體如下。
1)多模態(tài)情感識別太依賴于特定領(lǐng)域,泛化性不足。設計一個跟領(lǐng)域無關(guān)的多模態(tài)情感識別系統(tǒng)是需要解決的問題,例如用車評數(shù)據(jù)集訓練出的模型分析斗魚評論。
2)生理特征需要引入多模態(tài)情感識別,文本、語音和圖像如果有一樣數(shù)據(jù)沒有表達人物的真實情感,對識別結(jié)果的影響是極其巨大的,即使引入注意力機制也不能有效解決,所以引入腦電、心率等生理特征非常關(guān)鍵。目前有一些學者引入了腦電等生理特征,如文獻[79]基于面部表情、皮膚靜電反應和腦電圖提出了一種基于混合融合的多模態(tài)情感識別系統(tǒng),但是對于引入生理特征方面的算法還非常欠缺和不成熟。
3)多模態(tài)情感識別對數(shù)據(jù)量要求較高,缺少任何單一模態(tài)的數(shù)據(jù)都會影響到最終的識別結(jié)果,引入小樣本學習且精度不降低也是迫切需要解決的問題。
4)模型過于復雜。目前基于深度學習的多模態(tài)情感識別方法模型參數(shù)過多,模型的訓練時間過長,如何精簡網(wǎng)絡結(jié)構(gòu)也是需要關(guān)注的問題。
5)多模態(tài)數(shù)據(jù)的特征提取與優(yōu)化。特征提取對于情感識別是最重要的一環(huán),直接影響最終的識別結(jié)果,如何將提取到的特征進一步優(yōu)化來提升模型的魯棒性也是值得研究的,例如怎樣高效的剔除冗余重復的情感特征。