亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于注意力的短視頻多模態(tài)情感分析

2021-04-10 05:52:42孫力娟任恒毅

圖學(xué)學(xué)報(bào) 2021年1期

黃歡，孫力娟,2，曹瑩，郭劍,2，任恒毅

黃歡1，孫力娟1,2，曹瑩3，郭劍1,2，任恒毅1

(1. 南京郵電大學(xué)計(jì)算機(jī)學(xué)院，江蘇南京 210003； 2.南京郵電大學(xué)江蘇省無線傳感網(wǎng)高技術(shù)重點(diǎn)實(shí)驗(yàn)室，江蘇南京 210003； 3. 河南大學(xué)計(jì)算機(jī)與信息工程學(xué)院，河南開封 475001)

針對現(xiàn)有的情感分析方法缺乏對短視頻中信息的充分考慮，從而導(dǎo)致不恰當(dāng)?shù)那楦蟹治鼋Y(jié)果?；谝粢曨l的多模態(tài)情感分析(AV-MSA)模型便由此產(chǎn)生，模型通過利用視頻幀圖像中的視覺特征和音頻信息來完成短視頻的情感分析。模型分為視覺與音頻2分支，音頻分支采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)架構(gòu)來提取音頻圖譜中的情感特征，實(shí)現(xiàn)情感分析的目的；視覺分支則采用3D 卷積操作來增加視覺特征的時(shí)間相關(guān)性。并在Resnet的基礎(chǔ)上，突出情感相關(guān)特征，添加了注意力機(jī)制，以提高模型對信息特征的敏感性。最后，設(shè)計(jì)了一種交叉投票機(jī)制用于融合視覺分支和音頻分支的結(jié)果，產(chǎn)生情感分析的最終結(jié)果。AV-MSA模型在IEMOCAP和微博視聽(WB-AV)數(shù)據(jù)集上進(jìn)行了評估, 實(shí)驗(yàn)結(jié)果表明，與現(xiàn)有算法相比，AV-MSA在分類精確度上有了較大的提升。

多模態(tài)情感分析；殘差網(wǎng)絡(luò)；3D卷積神經(jīng)網(wǎng)絡(luò)；注意力；決策融合

近年來，隨著社交媒體的發(fā)展，如微博、抖音、快手的出現(xiàn)，人們越來越傾向于在平臺上傳文字、圖片、視頻來表達(dá)個(gè)人情感，由此短視頻的數(shù)量日益增多。面對海量的短視頻數(shù)據(jù)，根據(jù)其情感進(jìn)行分類，從而引導(dǎo)用戶從大量數(shù)據(jù)中找到有價(jià)值的信息，已成為當(dāng)前的研究熱點(diǎn)之一。因此，研究人員開始專注于短視頻情感分析的研究。

現(xiàn)有研究所探討的情感分析多指文本中的情感分析(尤其是短文本情感分析)，如推特以及電影評論等。由于文字是抽象的，文字個(gè)體之間是相互獨(dú)立的，且具有不同語調(diào)的文字所承載的用戶的情感是不一樣的，單純的基于文字來完成情感分析是遠(yuǎn)遠(yuǎn)不夠的?？紤]到短視頻已經(jīng)成為當(dāng)前較為主流的情感載體，研究者們開始思考基于短視頻的視頻幀信息來完成情感分析。

但基于視頻幀圖像的短視頻情感分析在一些場景下是不準(zhǔn)確的，如在表達(dá)喜極而泣時(shí)，用戶的面部表情和聲音所表達(dá)的情感是不一樣的，會對情感的分析造成誤差。由此，學(xué)者們開始考慮多模態(tài)情感分析來降低上述場景對短視頻情感分析的影響。PORIA等[1]使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks，CNN)提取文本、音頻和視覺特征；連接其特征，并采用多核學(xué)習(xí)(multiple kernel learnin，MKL)進(jìn)行最終情感分類。MA等[2]融合了用于情感識別的音頻模態(tài)和EEG信號。上述方法都依賴于特征級融合。WU和LIANG[3]在決策層融合了音頻和文本特征。上述研究表明，多模態(tài)系統(tǒng)比任何單模態(tài)系統(tǒng)具有更優(yōu)的性能。因此，多模態(tài)情感分析[4-7]成為當(dāng)前短視頻情感分析較為重要的研究方向。

本文采用音視頻多模態(tài)情感分析(audio-visual multimodal sentiment analysis，AV-MSA)來完成短視頻的情感分析，框架如圖1所示。該模型包括2個(gè)分支：①音頻情感分析，采用CNN架構(gòu)[8]提取音頻圖譜中的情感特征并進(jìn)行分析；②視頻情感分析，首先，為了確保特征的時(shí)間相干性，本文使用了3D卷積[9]；其次，在ResNet[10]的基礎(chǔ)上，為了突出情感相關(guān)特征，添加了注意力機(jī)制，以提高模型對信息特征的敏感性；最后，以交叉投票機(jī)制融合2個(gè)分支的結(jié)果，最終的輸出即為短視頻的情感。將本文模型在IEMOCAP[11]和微博視聽(Weibo audio-visual，WB-AV)數(shù)據(jù)集上進(jìn)行了評估。本文自制了WB-AV數(shù)據(jù)集，主要反映亞洲人的語言特點(diǎn)。實(shí)驗(yàn)結(jié)果表明，與其他方法相比，本文模型在性能上提升了約3%。主要貢獻(xiàn)為：①提出了基于殘差注意力的AV-MSA模型，充分利用音頻和視頻中的信息對其中所包含的情感進(jìn)行分類；②設(shè)計(jì)了交叉投票機(jī)制，以融合音頻和視頻的分類結(jié)果并獲取短視頻的情感；③在基于視頻幀的基礎(chǔ)上，改進(jìn)了壓縮獎(jiǎng)懲[12](squeeze-and-excitation)網(wǎng)絡(luò)模塊的操作，并用于多模態(tài)情感分類；④制作了符合亞洲人語言特點(diǎn)的WB-AV數(shù)據(jù)集。其包含：生氣、害怕、厭惡、中性、快樂、悲傷和驚訝7種類型的情緒。

圖1 多模態(tài)情感分析流程圖

1 多模態(tài)情感分析模型

圖2為本文提出的AV-MSA模型。用公式表述為=-(PA，PV)。其中，為網(wǎng)絡(luò)的整體輸入；PA為音頻網(wǎng)絡(luò)輸入；PV為視頻網(wǎng)絡(luò)；-為交叉投票機(jī)制；為輸出。

1.1 音頻網(wǎng)絡(luò)

現(xiàn)有的方法一般使用開源軟件openSmile[13]直接提取聲學(xué)特征，但可能會丟失一些重要特征。本文首先將原始音頻文件轉(zhuǎn)換為音頻圖譜，并提取其特征；然后用對數(shù)梅爾帶能量和梅爾頻率倒譜系數(shù)(Mel-scale frequency cepstral coefficients，MFCC)作為聲學(xué)特征，如圖3所示。

圖2 多模態(tài)情感分析框架圖

圖3 音頻特征提取過程

本文采用CNN架構(gòu)，在softmax層生成輸出概率，包括2個(gè)連續(xù)的CNN塊和一個(gè)全連接層，每個(gè)CNN塊的輸出與上一模塊的輸出沿頻域連接，以在執(zhí)行最大池化之前增加特征的數(shù)量。其中，每個(gè)CNN塊由一個(gè)內(nèi)核大小為3的卷積層，一個(gè)ReLU激活函數(shù)和一個(gè)批量歸一化[14]組成。

1.2 視頻網(wǎng)絡(luò)

1.2.1 3D-CNN

對視覺內(nèi)容的情感分析可以幫助正確識別短視頻中包含的情感。相較于SIFT和HOG等傳統(tǒng)特征提取方法，深度學(xué)習(xí)[15]方法由于隨著網(wǎng)絡(luò)深度的增加，特征提取愈發(fā)完備而得到了廣泛地應(yīng)用。

首先，由于2D CNN未考慮視頻幀序列中特征的時(shí)間相干性[16]，所以會降低短視頻情感分類結(jié)果的準(zhǔn)確性。其次，短視頻中的異常情況(如目標(biāo)位置失真)也會降低情感結(jié)果的準(zhǔn)確性。最后，對于基于CNN的方法，隨著深度的增加，會陷入局部最優(yōu)解，這也會降低結(jié)果的準(zhǔn)確性，并且訓(xùn)練過程變得極其緩慢。

為了解決上述問題，本文采用3D卷積形式的殘差網(wǎng)絡(luò)(ResNet)。如圖4所示，時(shí)間維度為第三維。3D卷積是通過堆疊多個(gè)連續(xù)的幀組成一個(gè)立方體，然后再運(yùn)用3D卷積核。在這個(gè)結(jié)構(gòu)中，卷積層中每一個(gè)特征圖都會與上一層中多個(gè)鄰近的連續(xù)幀相連，因此能夠捕捉時(shí)間信息。

圖4 3D卷積結(jié)構(gòu)圖

1.2.2 改進(jìn)SE模塊

現(xiàn)有研究未考慮不同通道之間重要性可能不一樣，而是將其看成同等重要來處理的。因此，為了提高模型對信息特征的敏感性，本文基于SE (squeeze-and-excitation)進(jìn)行改進(jìn)。在SE模塊中，不同通道的重要性是通過學(xué)到的一組權(quán)值來標(biāo)定的，即對原來通道權(quán)值的一個(gè)重新標(biāo)定。這提高了模型對信息特征的敏感性，使后續(xù)處理能夠有效地利用與情感相關(guān)的信息特征。改進(jìn)后的結(jié)構(gòu)如圖5和圖6所示。

圖5 改進(jìn)SE模塊結(jié)構(gòu)圖

圖6 殘差SE模塊

實(shí)現(xiàn)過程為：

(1) 進(jìn)行全局最大池化(global max pooling)操作，即相當(dāng)于原來壓縮(squeeze)操作中的全局平均池化操作。采用全局最大池化操作，是因?yàn)槠淇梢杂行У乇Ａ舯尘靶畔?，并最大程度地提取有用的紋理特征，這對于進(jìn)行情感分類十分重要。

其中，為經(jīng)過卷積操作后，每個(gè)特征向量與基準(zhǔn)之間的最小距離，通過max函數(shù)，可獲取其中的最大值。

(2)由于全局最大池化操作后的輸出值有時(shí)幅度波動(dòng)較大，因此需添加歸一化操作，即

(3) 通過excitation全面捕獲通道依賴性。并采用了簡單的門控機(jī)制，使用的Sigmoid激活函數(shù)為

(4) 得到后，可以對原來殘差網(wǎng)絡(luò)的輸出進(jìn)行操作，即

其中，U為殘差網(wǎng)絡(luò)的輸出，是一個(gè)二維矩陣，下標(biāo)表示channel。S是上一步的輸出(向量)中的一個(gè)數(shù)值，也是權(quán)重，因此相當(dāng)于將U矩陣中的每個(gè)值都乘以S。

1.3 交叉投票機(jī)制

其中，和分別為音頻和視頻中的情感，對每一種情感每次需連續(xù)取20幀。

其中，，分別為通過與閾值對比而確認(rèn)的情感。

最后，使用P和P分別表示用視頻和音頻的結(jié)果去統(tǒng)計(jì)音頻和視頻分類的結(jié)果，其計(jì)算結(jié)果為

其中，為2種模態(tài)的權(quán)重。在諸如生氣、快樂、悲傷等情緒的表達(dá)中，視頻模態(tài)中表達(dá)的情感特征要多于音頻模態(tài)，因此，將設(shè)置為0.2；correct為最終的分類正確結(jié)果。

2 實(shí)驗(yàn)和結(jié)果

2.1 數(shù)據(jù)集介紹

本實(shí)驗(yàn)中所采用了IEMOCAP和WB-AV 2個(gè)數(shù)據(jù)集。其中IEMOCAP數(shù)據(jù)集是用來研究多模態(tài)表達(dá)以及動(dòng)態(tài)交互，包含的情感有快樂、悲傷、中性、生氣、驚訝、興奮、沮喪、厭惡、害怕等等。WB-AV數(shù)據(jù)集是本文采集制作的符合亞洲人語言特色的數(shù)據(jù)集，包含7種類型的情感，如圖7所示。

2.2 實(shí)驗(yàn)環(huán)境配置

本文在NVIDIA GeForce GTX 1080Ti GPU平臺上對所提出的網(wǎng)絡(luò)進(jìn)行訓(xùn)練和測試。在訓(xùn)練過程中，固定網(wǎng)絡(luò)的一支，單獨(dú)對另一支進(jìn)行訓(xùn)練，在每次池化后，采用50%的Dropout[19-20]來減少過擬合問題。最后采用交叉投票進(jìn)行決策融合。訓(xùn)練和測試過程，batch size大小設(shè)置為32，20。在訓(xùn)練中，根據(jù)訓(xùn)練次數(shù)使用動(dòng)態(tài)學(xué)習(xí)率，初始學(xué)習(xí)率為0.01，隨著訓(xùn)練次數(shù)的增加，學(xué)習(xí)率下降，最小值為0.000 01。另外，權(quán)重衰減系數(shù)(weight decay rate)用于避免模型過度擬合，其值為0.000 20。本文模型中引入了泄露修正線性單元，以防止在反向傳播過程中ReLU的導(dǎo)數(shù)為0，relu_leakiness 的值為0.1。此外，在實(shí)驗(yàn)數(shù)據(jù)集中，80%的數(shù)據(jù)用于訓(xùn)練，20%的數(shù)據(jù)用于測試。所有的對比方法均采用相同的訓(xùn)練方法和實(shí)驗(yàn)環(huán)境。

2.3 實(shí)驗(yàn)結(jié)果分析

本文將音頻、視頻以及多模態(tài)情感分析的精確度在IEMOCAP和WB-AV 2種數(shù)據(jù)集上對SVM、文獻(xiàn)[21]、文獻(xiàn)[22]、文獻(xiàn)[23]和本文的AV-MSA 5種方法的精確度進(jìn)行了比較，結(jié)果見表1和表2。從實(shí)驗(yàn)結(jié)果可知，SVM結(jié)果較差，而深度學(xué)習(xí)方法均取得較好的結(jié)果。經(jīng)過實(shí)驗(yàn)分析可知，與SVM依賴于核函數(shù)的方法不同，深度學(xué)習(xí)方法能夠基于少數(shù)樣本集中學(xué)習(xí)訓(xùn)練數(shù)據(jù)的本質(zhì)特征。在此基礎(chǔ)之上，本文方法引入注意力機(jī)制，其加強(qiáng)特征選擇，聚焦于情感相關(guān)的特征。從表中可以看出，結(jié)合注意力機(jī)制的方法在性能上約有3%的提高。

圖7 情感示意圖

表1 IEMOCAP數(shù)據(jù)集上情感分類精確度

表2 WB-AV數(shù)據(jù)集上情感分類精確度

2.3.1 3種模態(tài)之間的比較

表1和表2展示了音頻、視頻和多模態(tài)分類的結(jié)果，可以看到在音頻模態(tài)方面，本文采用的情感分類的幾種方法差距不大，是因?yàn)閷⒁纛l文件轉(zhuǎn)化為音頻圖譜后，由于表達(dá)情感的方式不同，某些情感特征在音頻圖譜中表現(xiàn)不明顯或某些特征表現(xiàn)形式比較相近；另在視頻模態(tài)中，深度學(xué)習(xí)的方法要比傳統(tǒng)的機(jī)器學(xué)習(xí)方法如SVM性能優(yōu)異，這是由于直接從視頻幀圖片上提取的特征較多，且特征分布在面部的各個(gè)區(qū)域，如眼睛、嘴巴、鼻子等等，此外隨著網(wǎng)絡(luò)的加深，網(wǎng)絡(luò)對特征的提取與學(xué)習(xí)也越來越準(zhǔn)確。在多模態(tài)方面，可以看出使用了音頻和視頻模態(tài)后的結(jié)果相較單模態(tài)有了大約10%~14%的提升。另外，相較于其他方法，AV-MSA約提升了3%。

2.3.2 7種情緒在3種模態(tài)下精確度比較

圖8為在AV-MSA方法下7種情緒在3種模態(tài)下的精確度，結(jié)果顯示，音頻的分類準(zhǔn)確率要普遍低于視頻的分類，并且可以看到，對于害怕及生氣2種情緒，不管是用視頻還是音頻分類的結(jié)果，準(zhǔn)確性均高于其他幾類情緒，而對于中性，如厭惡之類情緒的準(zhǔn)確度相對較低，這可能是因?yàn)楫?dāng)產(chǎn)生生氣以及害怕情緒時(shí)，人的面部表情比較豐富，聲音中的抖動(dòng)也較多，能提取到較多的特征，而中性、驚訝之類的情緒則特征不明確。這與亞洲人在表達(dá)情感時(shí)較為含蓄有關(guān)，因此能提取到的特征較少。

2.3.3 數(shù)據(jù)增強(qiáng)vs非數(shù)據(jù)增強(qiáng)

在深度學(xué)習(xí)中，充足的、高質(zhì)量的樣本能夠增強(qiáng)訓(xùn)練模型的泛化能力，因此，在本實(shí)驗(yàn)中，采用數(shù)據(jù)翻轉(zhuǎn)、圖像縮放、圖像裁剪、圖像平移、色彩增強(qiáng)等分別對音頻和視頻數(shù)據(jù)集進(jìn)行增強(qiáng)操作。從表1和表2的結(jié)果可以看出，采用數(shù)據(jù)增強(qiáng)后的性能約有5%~7%的提高。

2.3.4 遷移學(xué)習(xí)

由于WB-AV在采集方面條件比較苛刻，每次采集到新的短視頻，就要重新進(jìn)行模型訓(xùn)練，這無疑增加了時(shí)間成本，降低了工作效率。因此，本文考慮通過較完備的IEMOCAP數(shù)據(jù)集來訓(xùn)練一個(gè)模型，并將其遷移到WB-AV數(shù)據(jù)集上進(jìn)行分類實(shí)驗(yàn)。從表3中可以看出，通過遷移學(xué)習(xí)后，多模態(tài)情感分類的準(zhǔn)確度大約在52%左右。產(chǎn)生這一結(jié)果的原因可能是由于人種的差異引起的情感表達(dá)方式不同，從而導(dǎo)致了2個(gè)數(shù)據(jù)集的數(shù)據(jù)分布存在差異，使得分類的精確度不高。

表3 遷移學(xué)習(xí)

3 結(jié)束語

本文提出了AV-MSA模型，以分析短視頻中表現(xiàn)出的情感。該模型有2個(gè)分支：①音頻情感分析，采用CNN架構(gòu)提取音頻圖譜中的情感特征，實(shí)現(xiàn)情感分析的目的；②視頻情感分析，首先，為了確保特征的時(shí)間相干性，使用了3D卷積；其次，在Resnet的基礎(chǔ)上，為了突出情感相關(guān)特征，添加了注意力機(jī)制，以提高模型對信息特征的敏感性；最后，提出了將2分支結(jié)果融合在一起的交叉投票機(jī)制，融合結(jié)果即為短視頻的情感。所提模型在IEMOCAP和WB-AV數(shù)據(jù)集上進(jìn)行了評估，其中WB-AV數(shù)據(jù)集由本文制作，主要反映了亞洲人的特點(diǎn)。實(shí)驗(yàn)結(jié)果表明，與其他方法相比，該模型在性能上大約有3%的提升。在未來的研究中，將繼續(xù)擴(kuò)展數(shù)據(jù)集以添加更多特征，例如人類生理行為。

[1] PORIA S, CHATURVEDI I, CAMBRIA E, et al. Convolutional MKL based multimodal emotion recognition and sentiment analysis[C]//2016 IEEE International Conference on Data Mining (ICDM). New York: IEEE Press, 2016: 439-448.

[2] MA J, SUN Y, ZHANG X. Multimodal emotion recognition for the fusion of speech and EEG signals[J]. Xi’an Dianzi Keji Daxue Xuebao/Journal of Xidian University, 2019, 46(1): 143-150.

[3] WU C H, LIANG W B. Emotion recognition of affective speech based on multiple classifiers using acoustic-prosodic information and semantic labels[J]. IEEE Transactions on Affective Computing, 2011, 2(1): 10-21.

[4] SOLEYMANI M, GARCIA D, JOU B, et al. A survey of multimodal sentiment analysis[J]. Image and Vision Computing, 2017, 65: 3-14.

[5] HUSSION I O, JAZYAH Y H. Multimodal sentiment analysis: a comparison study[J]. Journal of Computer Science, 2018, 14(6): 804-818.

[6] 吳良慶, 劉啟元, 張棟, 等. 基于情感信息輔助的多模態(tài)情緒識別[J]. 北京大學(xué)學(xué)報(bào): 自然科學(xué)版, 2020, 56(1): 75-81. WU L Q, LIU Q Y, ZHANG D, et al. Multimodal emotion recognition based on emotional information assistance[J]. Journal of Peking University: Natural Science Edition, 2020, 56(1): 75-81 (in Chinese).

[7] 宋緒靖. 基于文本、語音和視頻的多模態(tài)情感識別的研究[D].濟(jì)南: 山東大學(xué), 2019. SONG X J. Research on multimodal emotion recognition based on text, speech and video[D]. Jinan: Shandong University, 2019 (in Chinese).

[8] DANG A, VU T H, WANG J C. Acoustic scene classification using convolutional neural networks and multi-scale multi-feature extraction[C]//2018 IEEE International Conference on Consumer Electronics (ICCE). New York: IEEE Press, 2018: 1-4.

[9] AKILAN T, WU Q J, SAFAEI A, et al. A 3D CNN-LSTM-based image-to-image foreground segmentation[J]. IEEE Transactions on Intelligent Transportation Systems, 2019, 21(3): 959-971.

[10] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 770-778.

[11] BUSSO C, BULUT M, LEE C C, et al. IEMOCAP: interactive emotional dyadic motion capture database[J]. Language Resources and Evaluation, 2008, 42(4): 335-359.

[12] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 7132-7141.

[13] PéREZ-ROSAS V, MIHALCEA R, MORENCY L P. Multimodal sentiment analysis of Spanish online videos[J]. IEEE Intelligent Systems, 2013, 28(3): 38-45.

[14] IOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift[EB/OL]. [2020-03-02]. https://arxiv.org/ abs/1502.03167.

[15] PORIA S, CAMBRIA E, HAZARIKA D, et al. Context-dependent sentiment analysis in user-generated videos[C]//The 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: Association for Computational Linguistics, 2017: 873-883.

[16] PORIA S, CAMBRIA E, GELBUKH A. Deep convolutional neural network textual features and multiple kernel learning for utterance-level multimodal sentiment analysis[C]//2015 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2015: 2539-2544.

[17] NAIR V, HINTON G E. Rectified linear units improve Restricted Boltzmann machines[C]//The 27th International Conference on Machine Learning. New York: ACM Press, 2010: 807-814.

[18] HAN J, MORAGA C. The influence of the sigmoid function parameters on the speed of backpropagation learning[J]. From Natural to Artificial Neural Computation, 1995: 195-201.

[19] SRIVASTAVA N, HINTON G E, KRIZHEVSKY A, et al. Dropout: a simple way to prevent neural networks from overfitting[J]. Journal of Machine Learning Research, 2014, 15(1): 1929-1958.

[20] 程俊華, 曾國輝, 魯敦科, 等. 基于Dropout的改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)模型平均方法[J]. 計(jì)算機(jī)應(yīng)用, 2019, 39(6): 1601-1606. CHENG J H, ZENG G H, LU D K, et al. Improved convolutional neural network model averaging method based on Dropout[J]. Journal of Computer Applications, 2019, 39(6): 1601-1606 (in Chinese).

[21] TZIRAKIS P, TRIGEORGIS G, NICOLAOU M A, et al. End-to-end multimodal emotion recognition using deep neural networks[J]. IEEE Journal of Selected Topics in Signal Processing, 2017, 11(8): 1301-1309.

[22] CHAE M, KIM T H, SHIN Y H, et al. End-to-end multimodal emotion and gender recognition with dynamic joint loss weights[EB/OL]. [2020-06-12]. https://arxiv.org/abs/1809.00758.

[23] PARISI G I, BARROS P, WU H, et al. A deep neural model for emotion-driven multimodal attention[C]//2017 AAAI Spring Symposium Series. Palo Alot: AAAI, 2017: 482-485.

Multimodal sentiment analysis of short videos based on attention

HUANG Huan1, SUN Li-juan1,2, CAO Ying3, GUO Jian1,2, REN Heng-yi1

(1. College of Computer, Nanjing University of Posts and Telecommunications, Nanjing Jiangsu 210003, China; 2. Jiangsu High Technology Research Key Laboratory for Wireless Sensor Networks, Nanjing University of Posts and Telecommunications, Nanjing Jiangsu 210003, China; 3. College of Computer and Information Engineering, Henan University, Kaifeng Henan 475001, China)

The existing sentiment analysis methods lack sufficient consideration of information in short videos, leading to inappropriate sentiment analysis results. Based on this, we proposed the audio-visual multimodal sentiment analysis (AV-MSA) model that can complete the sentiment analysis of short videos using visual features in frame images and audio information in videos. The model was divided into two branches, namely the visual branch and the audio branch. In the audio branch, the convolutional neural networks (CNN) architecture was employed to extract the emotional features in the audio atlas to achieve the purpose of sentiment analysis; in the visual branch, we utilized the 3D convolution operation to increase the temporal correlation of visual features. In addition, on the basis of ResNet, in order to highlight the emotion-related features, we added an attention mechanism to enhance the sensitivity of the model to information features. Finally, a cross-voting mechanism was designed to fuse the results of the visual and audio branches to produce the final result of sentiment analysis. The proposed AV-MSA was evaluated on IEMOCAP and Weibo audio-visual (Weibo audio-visual, WB-AV) datasets. Experimental results show that compared with the current short video sentiment analysis methods, the proposed AV-MSA has improved the classification accuracy greatly.

multimodal sentiment analysis; ResNet; 3D convolutional neural networks; attention; decision fusion

TP 751.1

10.11996/JG.j.2095-302X.2021010008

2095-302X(2021)01-0008-07

2020-07-22；

22 Jnly，2020；

2020-08-04

4August，2020

國家自然科學(xué)基金項(xiàng)目(61873131，61702284)；安徽省科技廳面上項(xiàng)目(1908085MF207)；江蘇省博士后研究基金項(xiàng)目(2018K009B)

：National Natural Science Foundation of China (61873131, 61702284); Anhui Science and Technology Department Foundation (1908085MF207); Postdoctoral Found of Jiangsu Province (2018K009B)

黃歡(1995–)，男，浙江嘉興人，碩士研究生。主要研究方向?yàn)閿?shù)字圖像處理與模式識別。E-mail：13736832754@163.com

HUANG Huan (1995-), male, master student. His main research interests cover digital image processing and pattern recognition. E-mail：13736832754@163.com

孫力娟(1963–)，女，江蘇南京人，教授，博士。主要研究方向?yàn)闊o線傳感網(wǎng)、深度學(xué)習(xí)、模式識別等。E-mail：sunlijuan_nupt@163.com

SUN Li-juan (1963–), female, professor, Ph.D. Her main research interests cover wireless sensor network, deep learning, pattern recognition, etc. E-mail：sunlijuan_nupt @163.com