賴雪梅,唐 宏,陳虹羽,李珊珊
(1.重慶郵電大學通信與信息工程學院,重慶 400065;2.移動通信技術(shù)重慶市重點實驗室(重慶郵電大學),重慶 400065)
(*通信作者電子郵箱798193875@qq.com)
隨著互聯(lián)網(wǎng)的普及和科學技術(shù)的發(fā)展,大量用戶通過社交媒體(如微博、抖音、快手等)以文本、圖像、音頻或視頻等多種方式來發(fā)表自己的觀點,海量社交媒體數(shù)據(jù)的形態(tài)不再局限于單一的文本模式[1]。面對如此龐大的多模態(tài)信息,雖然單模態(tài)數(shù)據(jù)的情感分析近年來在客戶滿意度分析、衡量投票意向等方面取得了成功,但由于信息的多樣性,它不能有效處理多模態(tài)數(shù)據(jù),多模態(tài)情感分析(Multimodal Sentiment Analysis)應(yīng)運而生[2]。
多模態(tài)情感分析是在單模態(tài)情感分析的基礎(chǔ)上,從文本、圖像或音頻組成的數(shù)據(jù)甚至視頻數(shù)據(jù)中對觀點、情感狀態(tài)等進行的計算研究[3]。社交媒體是各種產(chǎn)品和用戶服務(wù)意見的巨大來源,文本、圖像、音頻和視頻等多個模態(tài)信息的有效結(jié)合可以更好地指導分析,減少分類錯誤,提高情感分類器的準確性。對視頻進行情感分析可以彌補文本情感分析中聲音和視覺的不足,語音和面部表情為更好地識別意見持有者的情感狀態(tài)提供了重要線索,這對于輿情監(jiān)控、商品推薦和研究用戶反饋等實際應(yīng)用具有重大的現(xiàn)實意義[4-5]。
近年來,深度學習方法在情感分析領(lǐng)域取得了廣泛的應(yīng)用,顯示出巨大的潛力[6]。一般的深度學習模型有:卷積神經(jīng)網(wǎng) 絡(luò)(Convolutional Neural Network,CNN)[7]、長短時記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)[8]和門控循環(huán)單元(Gated Recurrent Unit,GRU)[9]等。大多數(shù)研究者將深度學習模型與多模態(tài)情感分析相結(jié)合以解決多模態(tài)特征融合問題,文獻[10]中使用LSTM 模型進行圖文融合。雖然研究者對多模態(tài)情感分析模型提出了許多改進方法,也在一定程度上解決了相關(guān)問題并改善了性能,但仍存在不足之處。由于視頻中的每一句話都是在不同時間以特定順序說出的,所以視頻可以視為一系列具有序列關(guān)系的話語。以前的方法大都忽略了視頻中的話語順序,沒有考慮每個話語的上下文信息。因為情感的表達通常通過語言、聲音和視覺等多種行為之間的相互作用完成,所以如何準確捕捉這些信息之間的聯(lián)系至關(guān)重要。而且人們在進行情感表達時,每個模態(tài)對情感分類的貢獻度不同,這會對最后的情感分類結(jié)果產(chǎn)生直接的影響。
本文針對以上問題,提出一種基于注意力機制的特征融合-雙向門控循環(huán)單元多模態(tài)情感分析模型(Feature fusion based on Attention Mechanism-Bidirectional Gated Recurrent Unit,AMF-BiGRU)。首先,采用雙向門控循環(huán)單元(Bidirectional Gated Recurrent Unit,BiGRU)對文本、語音和圖像特征進行預處理,得到具有上下文信息的各模態(tài)特征表示;然后,通過跨模態(tài)注意力交互網(wǎng)絡(luò)對各模態(tài)與模態(tài)之間的交互作用進行建模;最后通過注意力機制考慮各模態(tài)貢獻程度,將視頻中的多模態(tài)特征有效融合,從而進行情感分類。為驗證本文模型的有效性,在CMU-MOSI(CMU Multimodal Opinion-level Sentiment Intensity)[11]和 CMU-MOSEI(CMU Multimodal Opinion Sentiment and Emotion Intensity)[12]數(shù)據(jù)集上進行測試,該模型在準確率和F1值上均表現(xiàn)出較好的分類效果。
在視頻多模態(tài)情感分析中,首先從視頻中提取文本、語音和圖像特征,然后使用早融合[13]或晚融合[14]的方法將其融合分類。目前多模態(tài)情感分析方法主要分為兩類:1)獨立學習各模態(tài)特征并將其融合輸出[15-16];2)共同學習兩種或三種模態(tài)之間的交互作用[17-22]。
在將多模態(tài)特征融合之前,提取相鄰話語間的上下文關(guān)系是多模態(tài)情感分析領(lǐng)域中一個重要的研究課題。文獻[15]中提出了BC-LSTM(Bi-directional Contextual Long Short-Term Memory)模型,該模型在提取每個樣本特征時采用雙向LSTM結(jié)構(gòu)捕捉上下文信息。文獻[16]提出了GME-LSTM(A)(Gated Multimodal Embedding Long Short-Term Memory with temporal Attention)模型,將LSTM 嵌入門控機制并結(jié)合時間注意力進行單詞級別的融合。但是這兩種方法都忽略了各模態(tài)內(nèi)部信息與模態(tài)之間交互作用的結(jié)合。
如何對模態(tài)內(nèi)部信息與模態(tài)之間的交互作用進行建模是一個問題,文獻[17]中提出了張量融合網(wǎng)絡(luò)(Tensor Fusion Network,TFN),通過創(chuàng)建多維張量來模擬單個模態(tài)和交叉模態(tài)特征,將單模態(tài)、雙模態(tài)和三模態(tài)之間的相互作用結(jié)合起來,但其空間復雜度較高。隨著注意力機制(Attention Mechanism,AM)[18]的流行,越來越多的研究者將AM 應(yīng)用于多模態(tài)情感分析中:文獻[19]中提出了多注意力循環(huán)網(wǎng)絡(luò)(Multi-Attention Recurrent Network,MARN),通過分配多個注意分數(shù)來模擬模態(tài)內(nèi)部和跨模態(tài)之間的交互作用;文獻[20]中則提出了一種基于注意網(wǎng)絡(luò)和門控記憶的多視圖順序?qū)W習的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),對模態(tài)之間的交互作用進行建模,稱之為記憶力融合網(wǎng)絡(luò)(Memory Fusion Network,MFN);文獻[12]中利用動態(tài)融合圖代替MFN 中的注意網(wǎng)絡(luò)來學習模態(tài)動力學,得到了Graph-MFN(Graph Memory Fusion Network)模型;文獻[21]和文獻[22]則利用多頭注意力機制進行多模態(tài)情感分析研究。雖然上述文獻在精度度量方面取得了成功,但未對融合過程中的各個模態(tài)是如何參與交互創(chuàng)造新的見解,而且也沒有考慮各個模態(tài)的貢獻程度對最后情感分類結(jié)果的影響。
圖1 為本文提出的基于注意力機制的特征融合-雙向門控循環(huán)單元多模態(tài)情感分析(AMF-BiGRU)模型框架。
圖1 AMF-BiGRU模型框架Fig.1 Framework of AMF-BiGRU model
AMF-BiGRU模型主要包括以下4個部分:
1)上下文話語特征表示,稱之為Level1。該部分主要是將提取出的文本、語音和圖像特征分別輸入BiGRU 網(wǎng)絡(luò)中,得到各自具有上下文信息的特征表示。
2)跨模態(tài)注意力交互(Cross-Modality Attention Interaction,CMAI),稱之為Level2。這一部分主要是將模態(tài)內(nèi)部信息和模態(tài)之間的交互作用相結(jié)合,得到具有交互作用的各模態(tài)特征表示。
3)多模態(tài)注意力融合,稱之為Level3。該層主要使用注意力機制來考慮各模態(tài)的貢獻程度,并將多模態(tài)信息融合。
4)情感分類:將融合的多模態(tài)信息進行情感分類。
每段視頻可以看作是由一系列具有上下文關(guān)系的話語組成。假設(shè)共有N段視頻,其中任意視頻i的最大話語長度為Li,則視頻i的全部話語為:ui=ui1,ui2,…,。對于視頻i中的任意話語j,采用由卡內(nèi)基梅隆大學提供的多模態(tài)數(shù)據(jù)SDK工具分別獲取文本、語音和圖像特征,可以得到視頻i中話語j的文本特征表示語音特征表示、圖像特征表示。假設(shè)各單模態(tài)特征有km維,對于模態(tài)m的每個話語特征可以表示為,將一段視頻中所有話語的特征存放于矩陣中得到:
其中:m代表哪個模態(tài),且m∈{T,A,V},T 代表文本、A 代表語音、V代表圖像。
GRU 模型由更新門zt和重置門rt構(gòu)成,結(jié)構(gòu)簡潔,能夠有效緩解梯度爆炸或彌散問題。GRU可表示為:
其中:xit為視頻i中第t個話語的輸入特征為話語t的候選隱藏狀態(tài),ht為話語t的隱藏層狀態(tài);U、W和b分別為權(quán)重和偏置;δ函數(shù)為Sigmoid 激活函數(shù),*表示矩陣對應(yīng)元素相乘。雖然GRU 能夠解決話語的長期依賴問題,但并未利用話語之間的上下文信息。BiGRU不僅參數(shù)少,而且訓練快,能夠記住話語中上下文的長期依賴關(guān)系,輸出更緊湊的表達信息。因此本文采用BiGRU 模型去捕捉各模態(tài)中所有話語的上下文信息,其表達式如下:
多模態(tài)情感分析的一個挑戰(zhàn)在于如何有效地將模態(tài)內(nèi)部信息與模態(tài)之間的交互作用相結(jié)合,而各個模態(tài)之間是如何參與交互的是一個令人深思的問題。在AMF-BiGRU 模型中,模態(tài)內(nèi)部信息由Level1 中得到的具有上下文信息的特征表示;受文獻[23]的啟發(fā),將具有上下文信息的特征通過CMAI網(wǎng)絡(luò)層,從而獲得模態(tài)之間的交互作用。此處CMAI 網(wǎng)絡(luò)層主要由三部分組成:
1)CMAI_TA(Cross-Modality Attention Interaction_Text Audio):將具有上下文信息的文本、語音特征輸入到CMAI_TA 網(wǎng)絡(luò)層中,獲得文本和語音之間的跨模態(tài)交互作用表示
2)CMAI_TV(Cross-Modality Attention Interaction_Text Visual):將具有上下文信息的文本、圖像特征輸入到CMAI_TV 網(wǎng)絡(luò)層中,獲得文本和圖像之間的跨模態(tài)交互作用表示
3)CMAI_AV(Cross-Modality Attention Interaction_Audio Visual):將具有上下文信息的語音、圖像特征輸入到CMAI_AV 網(wǎng)絡(luò)層中,獲得語音和圖像之間的跨模態(tài)交互作用表示
假設(shè)由CMAI_EQ(Cross-Modality Attention Interaction_EQ)網(wǎng)絡(luò)層獲得視頻i中模態(tài)E和模態(tài)Q之間的跨模態(tài)交互作用表示。其中,將Ei和Qi作為CMAI_EQ 網(wǎng)絡(luò)層的輸入特征??傻玫骄哂薪换プ饔玫哪B(tài)E 特征表示為,其計算公式如下:
人們在進行情感表達時,并非所有的模態(tài)對情感分類都同等重要。有些人喜歡用浮夸的表情來表達自己的喜好,而有些人更傾向用音調(diào)的高低來進行情感的表達,所以各模態(tài)情感特征的貢獻程度對最后的情感分類會產(chǎn)生直接的影響。本文根據(jù)AM 確定各模態(tài)的貢獻程度,將在Level2 得到的模態(tài)m的特征輸入到注意力網(wǎng)絡(luò),且模態(tài)m所占的注意力權(quán)重為βm,通過加權(quán)累加得到最后用于分類的融合總特征,計算的表達式為:
其中:Pm為隱藏單元狀態(tài),分別是權(quán)重和偏置,βm是經(jīng)歸一化后的權(quán)重向量。
使用全連接層和softmax 函數(shù)對融合總特征進行情感分類,分類結(jié)果為:
式中:Wt、bt為全連接層的權(quán)重和偏置,Wsoft、bsoft為softmax 層的權(quán)重和偏置,yi為最終的情感分類結(jié)果。
在訓練過程中,本文采用交叉熵作為損失函數(shù),公式如下:
本文采用CMU-MOSI 和CMU-MOSEI 數(shù)據(jù)集進行仿真實驗。
1)CMU-MOSI(CMU Multimodal Opinion-level Sentiment Intensity)數(shù)據(jù)集:包括93段視頻、2 199個話語,每個話語都有一個與之相應(yīng)的情感標簽。在本文中,獲取的文本、語音和圖像特征中每個話語的特征維度分別為100 維、73 維和100 維,每個話語的情感極性被標注為積極或消極。采用62 段視頻(1 447 個話語)作為訓練集、31 段視頻(752 個話語)作為測試集,并從訓練集中選取20%數(shù)據(jù)作為驗證集。
2)CMU-MOSEI(CMU Multimodal Opinion Sentiment and Emotion Intensity)數(shù)據(jù)集:是目前最大的視頻多模態(tài)情感分析數(shù)據(jù)集。包括3 229 段視頻、22 676 個話語,每個話語都有一個與之相應(yīng)的情感標簽,其情感標簽范圍為[-3,+3]。在本文中,獲取的文本、語音和圖像特征中每個話語的特征維度分別為300 維、74 維和35 維,將情感極性大于等于0 的記為積極、小于0 的記為消極。采用2 250 段視頻(16 216 個話語)作為訓練集、679 段視頻(4 625 個話語)作為測試集、300 段視頻(1 835 個話語)作為驗證集。實驗數(shù)據(jù)集的統(tǒng)計信息如表1所示。
表1 實驗數(shù)據(jù)集的統(tǒng)計信息Tab.1 Statistics of experimental datasets
實驗代碼采用基于Tensorflow后端的Keras深度學習框架編寫。在模型的訓練過程中,參數(shù)設(shè)置十分重要,本文所提方法的參數(shù)設(shè)置如表2所示。
表2 實驗參數(shù)設(shè)置Tab.2 Experiment parameters setting
本文通過準確率(Accuracy)和F1 值(F1-Score)對情感分類的性能進行評估,F(xiàn)1 值是綜合考慮了精確率和召回率的指標。
為了驗證本文所提模型的有效性,對比實驗采用兩種形式:一是同AMF-BiGRU 模型的變體進行對比,二是同經(jīng)典的多模態(tài)情感分析模型進行對比。
AMF-BiGRU 模型的變體有3 種:1)NM(No Model):不使用任何模型,直接將文本、語音和圖像特征拼接,然后送入softmax 分類器進行分類輸出。2)BiGRU:將各單模態(tài)特征分別輸入上下文BiGRU 層,并進行拼接分類輸出。3)CMAIBiGRU(Cross-Modality Attention Interaction Bidirectional Gated Recurrent Unit):在BiGRU 的基礎(chǔ)上,加入跨模態(tài)注意力交互網(wǎng)絡(luò)層,然后再分類輸出。
經(jīng)典的多模態(tài)情感分析模型有以下6種方法:
1)BC-LSTM[15]。在提取各單模態(tài)特征時采用雙向LSTM網(wǎng)絡(luò)結(jié)構(gòu)捕捉上下文信息。
2)GME-LSTM(A)[16]。將LSTM 嵌入門控機制并結(jié)合時間注意力進行單詞級別的融合。
3)TFN[17]。通過創(chuàng)建多維張量來模擬單個模態(tài)和交叉模態(tài)特征,將單模態(tài)、雙模態(tài)和三模態(tài)之間的相互作用結(jié)合起來。
4)MFN[20]?;谧⒁饩W(wǎng)絡(luò)和門控記憶的多視圖順序?qū)W習的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),很好地建模了模態(tài)間交互作用。
5)MARN[19]。通過分配多個注意分數(shù)來模擬模態(tài)內(nèi)部和跨模態(tài)之間的交互作用。
6)Graph-MFN[12]。利用動態(tài)融合圖代替記憶力融合網(wǎng)絡(luò)中的注意網(wǎng)絡(luò)來學習模態(tài)動力學。
在以下表格中,各符號代表含義為:文本(Text,T)、圖像(Visual,V)、語音(Audio,A),T+V 表示文本與圖像融合,T+A表示文本與語音融合,V+A 表示圖像與語音融合,T+V+A 表示文本、圖像與語音融合。
表3和表4分別顯示了本文所提AMF-BiGRU 模型及其變體在CMU-MOSI、CMU-MOSEI 數(shù)據(jù)集上的準確率和F1 值對比。就單模態(tài)特征、雙模態(tài)融合特征以及三模態(tài)融合特征而言,本文將AMF-BiGRU 模型同其變體進行對比分析。對比BiGRU 與NM 模型,在CMU-MOSI 數(shù)據(jù)集上,BiGRU 比NM 在分類準確率上提升了2.52%~10.94%,在F1 值上提升了2.14%~10.65%;在CMU-MOSEI數(shù)據(jù)集上,BiGRU 比NM 在分類準確率上提升了0.61%~3.52%,在F1 值上提升了1.37%~4.07%。由此可見,加入BiGRU 來考慮話語中上下文的依賴關(guān)系是有效的。
由于跨模態(tài)交互作用需要在兩個模態(tài)及以上進行,由表3 和表4 可以看出,在CMU-MOSI 數(shù)據(jù)集上,CMAI-BiGRU 比BiGRU 在分類準確率上提升了0.29%~4.94%,在F1 值上提升了0.14%~4.16%;在CMU-MOSEI 數(shù)據(jù)集上,CMAI-BiGRU比BiGRU 在分類準確率上提升了0.21%~0.64%,在F1 值上提升了1.10%~1.49%。實驗結(jié)果表明,考慮跨模態(tài)交互作用能提高情感分類性能。
表3 AMF-BiGRU模型及其變體在CMU-MOSI數(shù)據(jù)集上的準確率和F1值對比 單位:%Tab.3 Comparison of accuracy and F1-Score among AMF-BiGRU model and its variants on CMU-MOSI dataset unit:%
表4 AMF-BiGRU模型及其變體在CMU-MOSEI數(shù)據(jù)集上的準確率和F1值對比 單位:%Tab.4 Comparison of accuracy and F1-Score among AMF-BiGRU model and its variants on CMU-MOSEI dataset unit:%
對比AMF-BiGRU 與CMAI-BiGRU 模型:在CMU-MOSI 數(shù)據(jù)集上,AMF-BiGRU 比CMAI-BiGRU 在分類準確率上提升了1.08%~4.03%,在F1 值上提升了1.20%~3.48%;在CMUMOSEI 數(shù)據(jù)集上,AMF-BiGRU 比CMAI-BiGRU 在分類準確率上提升了0.52%~1.96%,在F1 值上提升了0.77%~2.13%。由此可見,各模態(tài)的貢獻程度會對最后的情感分類結(jié)果產(chǎn)生影響,而本文提出的AMF-BiGRU模型情感分類效果最好。
由表3 和表4 可以看出,在兩個數(shù)據(jù)集上,對于任一種模型,利用單模態(tài)特征進行分類時,文本特征的分類準確率和F1 值最高,那是因為文本中通常包含更豐富的信息;利用雙模態(tài)融合特征進行分類時,文本-圖像、文本-語音的分類性能相當,但雙模態(tài)融合特征的分類性能都比其單模態(tài)特征好;利用三模態(tài)融合特征進行分類時的效果最好。所以,將文本、語音和圖像這三種特征進行有效融合有助于提高情感分類的性能。而本文提出的AMF-BiGRU 模型在三模態(tài)融合特征中的分類效果最好,其在CMU-MOSI 數(shù)據(jù)集上的準確率和F1 值分別達到了82.05%、82.02%;在CMU-MOSEI 數(shù)據(jù)集上的準確率和F1值分別達到了78.48%、78.16%。
就三模態(tài)融合特征而言,表5 顯示了AMF-BiGRU 模型與經(jīng)典的多模態(tài)情感分析方法在CMU-MOSI 和CMU-MOSEI 數(shù)據(jù)集上的準確率和F1 值對比。對于CMU-MOSI 數(shù)據(jù)集,本文所提模型在準確率上比BC-LSTM、GME-LSTM(A)、TFN、MARN 方法分別提升了2.18%、7.25%、6.42%、6.01%,在F1值上比BC-LSTM、GME-LSTM(A)、TFN、MARN 方法分別提升了2.40%、11.74%、5.29%、6.52%。
表5 不同方法在CMU-MOSI和CMU-MOSEI數(shù)據(jù)集上的準確率和F1值對比 單位:%Tab.5 Comparison of accuracy and F1-Score among different methods on CMU-MOSI and CMU-MOSEI datasets unit:%
對于CMU-MOSEI 數(shù)據(jù)集,本文所提模型在準確率上比BC-LSTM、MFN、MARN、Graph-MFN 方法分別提升了1.13%、3.26%、2.72%、2.05%,在F1 值上比BC-LSTM、MFN、MARN、Graph-MFN方法分別提升了1.11%、2.84%、2.30%、1.51%。
實驗結(jié)果表明,提出的AMF-BiGRU 模型的準確率和F1值在CMU-MOSI 和CMU-MOSEI 數(shù)據(jù)集上均優(yōu)于對比方法。分析結(jié)果產(chǎn)生的原因,AMF-BiGRU 模型的優(yōu)越性在于:首先使用BiGRU 充分利用了上下文話語間的互補信息;其次使用CMAI網(wǎng)絡(luò)層將兩個模態(tài)之間的交互作用進行了很好的結(jié)合,考慮了模態(tài)間的動態(tài)聯(lián)系;最后使用注意力機制為每個模態(tài)分配一個權(quán)重,使權(quán)重較大的模態(tài)更有助于情感分類。
在常用的計算機處理器上對每個話語進行情感預測,具體實驗環(huán)境為:Intel Core i5-7500 CPU 3.40 GHz,8.00 GB RAM,Windows 10,Python 3.6.5。AMF-BiGRU 模型在CMUMOSI 和CMU-MOSEI 數(shù)據(jù)集上的實際處理速度如表6 所示。從表6 可以看出,對于CMU-MOSI 數(shù)據(jù)集,每個話語的平均預測耗時為3.067 ms,遠小于每個話語的平均時長4.536 s;對于CMU-MOSEI 數(shù)據(jù)集,每個話語的平均預測耗時為1.544 ms,遠小于每個話語的平均時長7.158 s,所以能夠滿足實時性要求。之所以這兩個數(shù)據(jù)集的平均預測耗時不同,是因為這兩個數(shù)據(jù)集的特征提取方式不同,導致每個話語中各模態(tài)的特征向量維度不同,計算機的處理速度會有所差異。
表6 不同數(shù)據(jù)集中每個話語的耗時情況Tab.6 Time consumption of each utterance in different datasets
此外,本文還對不同方法在CMU-MOSI和CMU-MOSEI數(shù)據(jù)集上預測每個話語的耗時情況進行了對比,如表7所示。
表7 不同方法在CMU-MOSI和CMU-MOSEI數(shù)據(jù)集上預測每個話語的耗時對比Tab.7 Time consumption comparison of different methods to predict each utterance on CMU-MOSI and CMU-MOSEI datasets
從表7 可以看出,將這些模型應(yīng)用于視頻話語情感預測時,每個話語的平均預測耗時均遠小于平均時長,實時性都比較高。對于CMU-MOSI數(shù)據(jù)集,BC-LSTM 模型比較簡單,所以其預測耗時最??;GME-LSTM(A)模型加入了門控和短時注意力,所以其結(jié)構(gòu)較BC-LSTM 復雜,預測耗時相應(yīng)增加;TFN 模型使用了張量網(wǎng)絡(luò),MARN 模型運用多模注意力塊,涉及大量的張量運算,這兩個預測耗時是最多的;AMF-BiGRU 模型引入了跨模態(tài)注意力交互和多模態(tài)注意力融合層,其預測耗時位列第三,但和對比模型都相差不大。對于CMU-MOSEI數(shù)據(jù)集,BC-LSTM 模型預測耗時最?。籑FN 模型使用記憶注意網(wǎng)絡(luò)學習多視圖之間的交互,其預測耗時增加;Graph-MFN 模型使用動態(tài)融合圖替代MFN 模型中的記憶注意網(wǎng)絡(luò),增加了更復雜的張量運算,所以其預測耗時最多;從整體來看,AMFBiGRU模型與對比模型在每個話語的平均預測耗時方面都相差不大,都能很好地滿足實時性需求。
為了更好地體現(xiàn)本文所提方法的泛化性,采用一些實際數(shù)據(jù)在AMF-BiGRU 模型上進行測試,如表8 所示。表8 中所列話語為一段視頻中的連續(xù)幾個話語片段,表中列出了每個話語的文本(T)、圖像(V)、語音(A)的實際表示,以及真實情感與預測情感的情感極性。
表8 多模態(tài)情感分析的例子Tab.8 Examples of multimodal sentiment analysis
圖2 視頻圖片F(xiàn)ig.2 Pictures of a video
可以看出,從文本、圖像、語音任意單模態(tài)信息中,話語1和話語3都可以明顯地表示出消極的情感,話語5可以明顯地表示出積極的情感,所以情感預測正確。雖然話語2 中的文本表示比較含蓄,而且?guī)в形⑿Φ谋砬?,但是其音調(diào)低、語速偏慢,它的下文(即話語3)情感極性是消極的,所以可以正確地預測出話語2 表示的是消極的情感。話語4 中圖像和語音表現(xiàn)出中性情感,但其文本很明顯地表示出積極,所以可以正確預測出其情感極性為積極。通過這個多模態(tài)情感分析的例子,可以表明AMF-BiGRU 模型能將文本、圖像、語音這三種模態(tài)信息有效融合,正確預測出每個話語的情感極性。
為了有效地將視頻中所包含的情感進行分類,提出了一種AMF-BiGRU 模型進行視頻多模態(tài)情感分析研究。首先,使用BiGRU 獲取視頻中話語之間的上下文信息;然后,使用跨模態(tài)注意力交互網(wǎng)絡(luò)獲取兩個模態(tài)之間的交互作用;最后,引入注意力機制來考慮各個模態(tài)的貢獻程度。在公開的CMUMOSI 和CMU-MOSEI 數(shù)據(jù)集上進行驗證分析,實驗結(jié)果表明本文提出的AMF-BiGRU 模型可以很好地將多模態(tài)特征融合,提高多模態(tài)情感分類性能。在整體上,本文所提出的方法在準確率以及F1 值上均優(yōu)于其他方法。如何提高多模態(tài)情感分析模型的魯棒性是下一步的主要研究內(nèi)容。