亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于多任務(wù)學(xué)習(xí)的多模態(tài)情感識別方法

        2021-02-11 01:49:16林子杰龍云飛杜嘉晨徐睿峰
        關(guān)鍵詞:多任務(wù)集上語音

        林子杰 龍云飛 杜嘉晨 徐睿峰,?

        一種基于多任務(wù)學(xué)習(xí)的多模態(tài)情感識別方法

        林子杰1龍云飛2杜嘉晨1徐睿峰1,?

        1.哈爾濱工業(yè)大學(xué)(深圳)計算機(jī)科學(xué)與技術(shù)學(xué)院, 深圳 518055; 2.School of Computer Science and Electronic Engineering, University of Essex, Colchester CO4 3SQ; ? 通信作者, E-mail: xuruifeng@hit.edu.cn

        為了通過設(shè)置輔助任務(wù)學(xué)習(xí)到更具有情感傾向性的視頻和語音表示, 進(jìn)而提升模態(tài)融合的效果, 提出一種基于多任務(wù)學(xué)習(xí)的多模態(tài)情感識別模型, 使用多模態(tài)共享層來學(xué)習(xí)視覺和語音模型的情感信息。在 MOSI 數(shù)據(jù)集和 MOSEI 數(shù)據(jù)集上的實驗表明, 添加兩個輔助的單模態(tài)情感識別任務(wù)后, 模型可以學(xué)習(xí)到更有效的單模態(tài)情感表示, 并且在兩個數(shù)據(jù)集上的情感識別準(zhǔn)確率比目前性能最佳的單任務(wù)模型分別提升0.8%和 2.5%。

        多模態(tài)信息; 情感識別; 模態(tài)融合; 多任務(wù)學(xué)習(xí)

        在人類情感交流中, 每個人作為個體, 通過聆聽語言、觀察表情以及分析語言內(nèi)容等方式, 感受其他人的情感變化, 識別情感狀態(tài)信息, 進(jìn)而進(jìn)行情感交流。如果想讓模型如同人類一樣理解情感,就需要對人類多種情感的表達(dá)(視覺、語音和文本)進(jìn)行識別, 讓機(jī)器具有捕捉多模態(tài)情感特征并進(jìn)行處理, 最后表達(dá)出相應(yīng)人類情感的能力。

        目前, 大多數(shù)關(guān)于情感識別模型的研究集中在語言(尤其是文本)模態(tài)上, 但是單模態(tài)文本情感識別存在識別率不夠高和魯棒性差等缺點。多模態(tài)情感識別可以有效地利用多種模態(tài)識別包含的信息,捕捉模態(tài)之間的互補(bǔ)信息, 從而提升模型的識別能力和泛化能力。在進(jìn)行模態(tài)融合之前, 若能夠更好地挖掘視覺和語音模態(tài)的情感傾向特征, 則 3 種模態(tài)表示之間的任務(wù)相關(guān)性更強(qiáng), 也更有助于模態(tài)的融合。

        在多模態(tài)情感分析領(lǐng)域, 已經(jīng)提出大量計算模型, 包括張量融合網(wǎng)絡(luò)[1]、記憶融合網(wǎng)絡(luò)[2]和多級注意力循環(huán)網(wǎng)絡(luò)[3]等。傳統(tǒng)的多模態(tài)情感分析模型通常將單個模態(tài)信號建模為獨立的向量表示, 通過模態(tài)融合, 進(jìn)行模態(tài)之間相互關(guān)聯(lián)的建模, 但是在模態(tài)融合前, 缺少對情感特征的提取, 導(dǎo)致模態(tài)間book=8,ebook=11的共享情感特征不易被識別。為了解決這一問題,Akhtar 等[4]提出使用多任務(wù)學(xué)習(xí)框架, 對情緒識別任務(wù)和情感識別任務(wù)間的關(guān)聯(lián)建模, 通過相關(guān)任務(wù)之間的關(guān)聯(lián)性, 對不同模態(tài)中的情感特征進(jìn)行提取。但是, 該方法未考慮不同模態(tài)信息情感表達(dá)程度的不同, 可能導(dǎo)致模態(tài)融合效果不明顯, 且難以解釋模態(tài)之間的關(guān)聯(lián)性。

        為解決傳統(tǒng)的基于多任務(wù)學(xué)習(xí)的多模態(tài)情感識別模型中的問題, 本文提出一種不需要額外情緒標(biāo)注的, 適用于多模態(tài)情感識別任務(wù)的多任務(wù)學(xué)習(xí)框架, 通過引入單模態(tài)情感識別任務(wù), 可以學(xué)習(xí)到更具有情感傾向性的視頻和語音表示, 進(jìn)而提升模態(tài)融合的效果。

        1 相關(guān)工作

        1.1 多模態(tài)情感識別

        Baltru?aitis 等[5]將多模態(tài)機(jī)器學(xué)習(xí)的研究分為模態(tài)表示、模態(tài)傳譯、模態(tài)對齊、模態(tài)融合和合作學(xué)習(xí) 5 個方面, 多模態(tài)情感識別研究主要涉及模態(tài)表示、模態(tài)對齊、模態(tài)融合和合作學(xué)習(xí) 4 個方面,當(dāng)前多集中在模態(tài)融合層面。

        模態(tài)融合的目的是將不同單模態(tài)中提取的信息整合到一個緊湊的多模態(tài)表示中[6]。根據(jù)融合發(fā)生的階段, 分為早期融合、晚期融合和混合融合。早期融合[7]指在編碼前對多模態(tài)的特征進(jìn)行融合, 是特征層面的融合。由于發(fā)生在特征提取階段, 早期融合能夠有效地提取模態(tài)間的交互信息, 但可能忽略單模態(tài)內(nèi)的交互信息。較典型的早期融合模型是EF-LSTM[3], 該模型將文本、語音和圖像 3 種模態(tài)的特征表示進(jìn)行拼接, 得到多模態(tài)表示, 再輸入LSTM 中進(jìn)行編碼。晚期融合[7]發(fā)生在解碼之后,是決策層面上的融合, 能夠提取模態(tài)內(nèi)的交互信息,但無法提取模態(tài)間的交互信息, 常用的方法有平均[8]、投票[9]和加權(quán)[10]等?;旌先诤蟿t組合了前兩種融合方法。由于深度學(xué)習(xí)方法主要用于特征層的處理, 基于深度學(xué)習(xí)的模態(tài)融合方法大多采用早期融合策略和混合策略。本文主要針對早期融合方法進(jìn)行研究。

        1.2 基于多模態(tài)偏移門的模態(tài)融合方法

        Rahman 等[11]提出的 M-BERT 模型將預(yù)訓(xùn)練模型應(yīng)用在多模態(tài)情感識別任務(wù)中。與 BERT 不同,M-BERT 在輸入層與編碼層之間加入模態(tài)融合層,并使用多模態(tài)偏移門限機(jī)制[12](multimodal shifting gate, MSG), 實現(xiàn) 3 種模態(tài)的融合。MSG 通過將詞向量分別與視覺、語音模態(tài)的特征向量拼接, 用于產(chǎn)生兩個模態(tài)的門向量, 作為模態(tài)融合的權(quán)重, 生成偏移向量。偏移向量乘上一個比例因子后與詞向量相加, 得到修正后的多模態(tài)詞向量。

        1.3 多任務(wù)學(xué)習(xí)

        多任務(wù)學(xué)習(xí)(multi-task learning, MTL)是機(jī)器學(xué)習(xí)的一個子領(lǐng)域, 其訓(xùn)練過程中包含多個學(xué)習(xí)任務(wù),通過利用不同任務(wù)間的共性和差異來提高模型的泛化能力和預(yù)測準(zhǔn)確率[13–15]。一般來說, 訓(xùn)練不同種類任務(wù)需要不同的模型結(jié)構(gòu), 要實現(xiàn)多任務(wù)學(xué)習(xí),就需要實現(xiàn)模型間的參數(shù)共享。因此, 多任務(wù)學(xué)習(xí)模型是由多個結(jié)構(gòu)重疊的機(jī)器學(xué)習(xí)模型的組合, 重疊的部分是多個學(xué)習(xí)任務(wù)在反向傳播過程中都必須經(jīng)過的, 稱為共享層(shared layers)。

        多任務(wù)學(xué)習(xí)模型的參數(shù)共享策略主要有硬共享[16](hard sharing)和軟共享[17](soft sharing)兩種, 其次還有分層共享(hierarchical sharing)和稀疏共享[18](sparse sharing)等。硬共享是最常見的共享策略,不同任務(wù)共享除輸出層外的模型部分。硬共享可以同時訓(xùn)練多個任務(wù)的通用表示, 有效地避免由于訓(xùn)練數(shù)據(jù)較少導(dǎo)致的過擬合風(fēng)險。軟共享策略不直接共享模型結(jié)構(gòu), 每個任務(wù)都有自己的模型和參數(shù),通過對模型相似部分的參數(shù)進(jìn)行正則化[17,19]來保證模型的參數(shù)相似性。

        2 基于多任務(wù)學(xué)習(xí)的多模態(tài)情感識別方法

        本文基于多任務(wù)學(xué)習(xí)的多模態(tài)情感識別模型框架如圖 1 所示, 模型由以下 3 個部分組成。

        1) 多模態(tài)任務(wù)共享層: 包括 3 個任務(wù)模型共享的部分, 用于學(xué)習(xí)視頻和語音表示, 位于輸入層之后, 編碼層之前。在訓(xùn)練的過程中, 每一次反向傳播都會經(jīng)過共享層。

        2) 多模態(tài)情感識別模型: 是加入了共享層的M-BERT, 除共享層外的部分, 只有在其輸入為 3種模態(tài)的特征向量時, 才會在反向傳播過程中更新參數(shù)。

        3) 單模態(tài)情感識別模型: 即視頻/語音情感識別任務(wù)模型, 包括輸入層、共享層、編碼層和預(yù)測層。除共享層外, 只有在輸入是任務(wù)對應(yīng)模態(tài)的特征向量時, 才會在反向傳播過程中更新參數(shù)。

        book=9,ebook=12

        2.1 多模態(tài)任務(wù)共享層

        我們在輸入層后面加入視覺和語音共享層, 用于學(xué)習(xí)更適合情感分類任務(wù)的視覺/語音表示。圖 1中的視覺隱向量和聲學(xué)隱向量為視覺特征向量 Vi和聲學(xué)特征向量 Ai經(jīng)過共享層后的輸出。這里為視頻和語音模態(tài)分別設(shè)置一個線性層作為共享層,共享層輸出的視覺/聲學(xué)隱向量和:

        其中,i=1,2,?,N,和ba分別為視頻和語音模態(tài)共享層的參數(shù)權(quán)重和偏置,。當(dāng)模型的輸入為多模態(tài)數(shù)據(jù)時, 進(jìn)行多模態(tài)情感識別訓(xùn)練, 將共享層輸出的視覺隱向量和聲學(xué)隱向量傳入MSG 單元, 與詞向量一起進(jìn)行模態(tài)融合; 當(dāng)輸入僅為視頻/語音模態(tài)的數(shù)據(jù)時, 進(jìn)行單模態(tài)情感識別訓(xùn)練, 學(xué)習(xí)到的視覺/聲學(xué)隱向量將傳入后續(xù)的單模態(tài)編碼器中, 經(jīng)過預(yù)測層輸出情感極性。

        2.2 多模態(tài)情感識別模型

        本文使用加入多模態(tài)任務(wù)共享層的 M-BERT模型作為多模態(tài)情感識別模型, 共享層的位置在特征輸入層與模態(tài)融合層之間。模型將長度為 N 的詞序列(L1, L2, …, LN)、視覺特征序列(V1, V2, …, VN)和聲學(xué)特征序列(A1, A2, …, AN)作為輸入, 詞序列經(jīng)BERT 輸入層映射為詞嵌入序列(E1, E2, …, EN)。多模態(tài)情感識別模型的輸出為預(yù)測的情感得分y%, 計算真實情感得分 y 和預(yù)測情感得分y%之間的平均絕對誤差mL:

        2.3 單模態(tài)情感識別模型

        單模態(tài)情感識別模型如圖 2 所示, 使用雙向LSTM 網(wǎng)絡(luò)作為單模態(tài)編碼器。為了準(zhǔn)確地捕捉時間序列中的重要信息, 加入軟注意力機(jī)制對 LSTM的每一層輸出進(jìn)行加權(quán)求和, 并與 LSTM 的最后一層輸出拼接, 作為預(yù)測層的輸入。對輸入的視覺/語音隱向量序列H=[H1, H2, …, HN]進(jìn)行如下計算:

        其中,為雙向 LSTM 在 i 時刻輸出的拼接向量,為輸出的拼接向量, dh為 LSTM 的隱向量維度。

        模型的預(yù)測層為一個多層感知機(jī), At經(jīng)過計算,得到預(yù)測的情感得分。多層感知機(jī)由 3 個線性層組成, 兩次線性變化之間會經(jīng)過一次激活函數(shù)計算,實驗中使用ReLU激活函數(shù)。單模態(tài)情感識別任務(wù)的損失值計算方法見式(1),vL和a L分別表示視覺和聲學(xué)的情感識別任務(wù)損失。在訓(xùn)練過程中, 不對損失值進(jìn)行求和, 而是分別進(jìn)行訓(xùn)練。

        3 實驗與結(jié)果分析

        3.1 數(shù)據(jù)集

        實驗數(shù)據(jù)選用卡內(nèi)基–梅隆大學(xué) Zadeh 等發(fā)布的 MOSI 數(shù)據(jù)集[20]和 MOSEI 數(shù)據(jù)集[21]。MOSI 數(shù)據(jù)集是于 2016 年發(fā)布的多模態(tài)情感分析數(shù)據(jù)集, 包含2198 條視頻片段, 視頻內(nèi)容為 YouTube 上的單鏡頭評論錄像, 還包含每條短視頻錄制者說話內(nèi)容的文本。MOSEI 是 2018 年發(fā)布的大規(guī)模情感及情緒分析數(shù)據(jù)集, 內(nèi)容同樣來自 YouTube, 包含 22856 條視頻片段。MOSI 和 MOSEI 數(shù)據(jù)集的每條視頻片段都包含一個位于[–3, 3]區(qū)間的情感得分, 數(shù)值越大,正面情感極性越強(qiáng)。兩個數(shù)據(jù)集的文本被映射為GloVe[22]詞向量序列, 每個詞向量的尺寸為 300。使用 Facet 面部分析工具[23], 從視頻畫面提取一組特征, 包括面部標(biāo)記、面部動作單元、頭部姿勢、視線軌跡和 HOG 特征等, 從 MOSI 提取的每一幀的特征向量尺寸為 47, MOSEI 為 35。使用 COVAREP 聲學(xué)分析工具[24], 從語音提取包括 12 個梅爾倒譜系數(shù)(MFCCs)、音高跟蹤和濁音/清音分割特征、聲門源參數(shù)、峰值斜率參數(shù)和最大色散商等在內(nèi)的低級的聲學(xué)特征, 每一幀的特征向量尺寸為 74。表 1列出兩個數(shù)據(jù)集的詳細(xì)統(tǒng)計數(shù)據(jù)。

        由于 BERT 使用字節(jié)對編碼[25](byte pair encoder, BPE)的分詞方法, 在進(jìn)行模態(tài)對齊時, 需要對被拆分的單詞重新進(jìn)行模態(tài)對齊。對拆分后多出來的 token, 我們使用填充 0(zero)、復(fù)制(copy)和復(fù)制后平均(mean) 3 種方法來補(bǔ)充其對應(yīng)的視覺和語音模態(tài)數(shù)據(jù)。圖 3 展示文本“[CLS]no no he##s un ##fu##nn ##y not funny at all[SEP]”分別用3種方法對齊后的形式。經(jīng)過對比實驗后取復(fù)制后, 平均(mean)的方法。

        book=10,ebook=13

        3.2 訓(xùn)練策略及評價指標(biāo)

        在訓(xùn)練過程中, 多模態(tài)模型基于 BERT 進(jìn)行微調(diào), 與單模態(tài)模型一起進(jìn)行訓(xùn)練。對多模態(tài)情感識別任務(wù)和兩個單模態(tài)情感識別任務(wù), 本文都采用平均絕對誤差作為損失函數(shù), 并使用 Adam 優(yōu)化器[26]對模型進(jìn)行參數(shù)優(yōu)化。根據(jù) Zadeh 等[20–21]的研究,選取二類準(zhǔn)確率(binary accuracy, A2)、加權(quán)平均的F1 值(weighted average F1-score, w-f1)、平均絕對誤差(mean absolute error, MAE)和皮爾遜相關(guān)系數(shù)(Pearson correlation coefficient, Corr)作為性能評價指標(biāo)。

        圖1 基于多任務(wù)學(xué)習(xí)的多模態(tài)情感識別框架Fig.1 Framework of multimodal sentiment recognition based on multitask learning

        圖2 單模態(tài)情感識別模型Fig.2 Single-modal sentiment recognition model

        book=11,ebook=14

        表1 MOSI和MOSEI數(shù)據(jù)集的統(tǒng)計信息Table 1 Statistics of MOSI and MOSEI

        注: *表示已刪去無法進(jìn)行模態(tài)對齊的數(shù)據(jù)。

        圖3 3種模態(tài)填充方式Fig.3 Three modal filling methods

        3.3 基線模型

        將本文提出的基于多任務(wù)學(xué)習(xí)的多模態(tài)情感分類模型, 與一些經(jīng)典的方法和目前性能最佳(state of the art, SOTA)的方法進(jìn)行對比, 以便驗證其效果。

        EF-LSTM[3]: 早期融合的 LSTM 模型(earlyfusion LSTM)。在編碼前期, 將 3 個模態(tài){l, v, a}的特征向量進(jìn)行拼接, 作為 LSTM 的輸入。

        LF-LSTM[3]: 晚期融合的 LSTM 模型(latefusion LSTM)。為每個模態(tài)的特征向量分別設(shè)置一個 LSTM 網(wǎng)絡(luò), 用于單模態(tài)的編碼, 并將 3 個LSTM 最后一層的隱層向量進(jìn)行拼接, 作為多模態(tài)的特征表示。

        TFN[1]: 張量融合網(wǎng)絡(luò)(tensor fusion network)。使用 3 個子網(wǎng)絡(luò)分別對{l, v, a}的特征向量進(jìn)行編碼, 得到zl,zv,za3 個向量, 將{zl,zv,za}的向量尾部分別拓展一個 1, 進(jìn)行外積運算, 得到融合單模態(tài)、雙模態(tài)和三模態(tài)的多模態(tài)表示向量。

        LMF[27]: 低秩多模態(tài)融合網(wǎng)絡(luò)(low-rank multimodal fusion network), 是在 TFN 基礎(chǔ)上提出的改進(jìn)模型, 使用張量分解的方法分解外積運算層的參數(shù)張量。

        MARN[3]: 多級注意力循環(huán)網(wǎng)絡(luò)(multi-attention recurrent network)?;谀B(tài)間的關(guān)聯(lián)是不唯一的這一觀點, 采用多級注意力機(jī)制捕捉模態(tài)間的多種交互信息。

        MFN[2]: 記憶融合網(wǎng)絡(luò)(memory fusion network)??紤] LSTM 中多個相鄰時刻的信息之間的關(guān)聯(lián)性,使用跨時刻的注意力機(jī)制, 同時捕捉時序上和模態(tài)間的交互。

        MTL[4]: 一種將情感識別任務(wù)和情緒識別任務(wù)聯(lián)合訓(xùn)練的多任務(wù)學(xué)習(xí)方法。

        MulT[28]: 多模態(tài) transformer 模型(multimodal transformer)。在不改變 Transformer 編碼器結(jié)構(gòu)的基礎(chǔ)上, 對其稍加改動, 提出跨模態(tài) Transformer 網(wǎng)絡(luò), 實現(xiàn)一種模態(tài)向另一種模態(tài)的信息對齊。

        M-BERT[11](SOTA): 在文本序列預(yù)訓(xùn)練模型BERT 的基礎(chǔ)上, 對其進(jìn)行改造, 在 BERT 的輸入端加入多模態(tài)偏移門限單元, 利用視頻和語音模態(tài)信息, 使詞向量在特征空間上向更能表達(dá)情感極性的方向偏移。

        3.4 實驗結(jié)果

        表 2 為多任務(wù)學(xué)習(xí)方法和單任務(wù)學(xué)習(xí)方法在MOSI 和 MOSEI 數(shù)據(jù)集上的評價指標(biāo)實驗結(jié)果??梢园l(fā)現(xiàn), 在 MOSI 數(shù)據(jù)集上, 多任務(wù)模型在分類指標(biāo)和回歸指標(biāo)上都超過當(dāng)前的最佳模型 M-BERT,其中準(zhǔn)確率提升 0.8%, 達(dá)到當(dāng)前已知的最好結(jié)果。在兩個回歸指標(biāo)上, 多任務(wù)模型也較 M-BERT 有所提升。由于 M-BERT 原論文未給出在 MOSEI 數(shù)據(jù)集上的結(jié)果, 所以表 2 中數(shù)據(jù)是我們復(fù)現(xiàn)的結(jié)果。在 MOSEI 數(shù)據(jù)集上, 多任務(wù)模型取得最好的分類結(jié)果, 準(zhǔn)確率和 F1 值比 M-BERT 分別提升 1.7%和1.2%。在回歸指標(biāo)上, 取得與單任務(wù)訓(xùn)練的 MBERT模型可比較的結(jié)果。

        book=12,ebook=15

        表2 各模型在MOSI測試集和MOSEI測試集上的結(jié)果Table 2 Results of models on MOSI and MOSEI test sets

        說明: *表示 M-BERT作者未給出加權(quán)平均的F1值, 故用標(biāo)準(zhǔn)F1值代替; ?SOTA 表示我們的方法與最佳模型在各指標(biāo)上的相對變化值;↑表示提升, ↓表示下降; 粗體數(shù)字表示效果最優(yōu), 下同。

        從表 2 可以看出, 多任務(wù)學(xué)習(xí)模型在兩個數(shù)據(jù)集的分類指標(biāo)上都取得當(dāng)前最好效果, 說明引入的單模態(tài)情感識別任務(wù)可以更好地學(xué)習(xí)到具有情感傾向的視頻/語音表示。在回歸指標(biāo)上, 多任務(wù)模型比單任務(wù)模型在小規(guī)模語料上的 MAE 提升明顯, 在大規(guī)模語料上有微弱的下降。

        為了確定兩個輔助任務(wù)對多模態(tài)情感識別任務(wù)擬合效果的影響, 分別繪制在兩個數(shù)據(jù)集的訓(xùn)練過程中 3 種任務(wù)的損失值曲線(圖 4)??梢钥吹? 在MOSI 數(shù)據(jù)集上, 兩個單模態(tài)情感識別任務(wù)的損失值都能較好地擬合, 在 MOSEI 數(shù)據(jù)集上則較難擬合, 且需要更多輪的訓(xùn)練, 損失值才有所下降。由此可見, 在小數(shù)據(jù)集上, 加入的輔助任務(wù)能夠提高多模態(tài)情感識別的擬合效果, 但在更大的數(shù)據(jù)集上,受限于單模態(tài)編碼模型的編碼能力, 輔助任務(wù)難以在提高數(shù)據(jù)擬合效果上對主任務(wù)有所幫助。

        表 3 展示一組樣本案例。在 1 號樣本中, 文本“Maybe only 5 jokes made me laugh”包含正面情感短語“made me laugh”, 但“maybe only”又給人感覺難以確定, 單從文本很難正確地判斷其中表達(dá)的情感傾向。如果只看視頻內(nèi)容, 能夠從人物飄忽不定的眼神和緊皺的眉頭判斷此時帶有的是負(fù)面情感,從聲學(xué)信號也可以看出人物此時的情緒并不積極,整體的語音語調(diào)都偏低, 所以可以判斷是負(fù)樣本。在單任務(wù)模型上, 該樣本被錯誤地判定為積極情緒樣本, 在多任務(wù)模型上則判斷正確(消極情緒), 這說明加入的兩個單模態(tài)情感識別任務(wù)確實能夠更好地學(xué)習(xí)到具有情感傾向的視頻和語音表示。

        為了探究不同的共享層設(shè)置對多任務(wù)學(xué)習(xí)模型訓(xùn)練效果的影響, 我們在 MOSI 數(shù)據(jù)集上進(jìn)行兩組

        book=0,ebook=16

        5 結(jié)語

        book=14,ebook=17

        表4 不同共享層策略的模型在MOSI測試集和MOSEI測試集上的結(jié)果Table 4 Results of models with different sharing layers on MOSI and MOSEI test sets

        層后連接 3 個任務(wù)獨有的模型結(jié)構(gòu)。在訓(xùn)練的過程中, 單模態(tài)情感識別任務(wù)的作用主要是對共享層參數(shù)進(jìn)行調(diào)節(jié), 使其能夠更好地捕捉對應(yīng)模態(tài)的具有情感傾向的特征。實驗結(jié)果表明, 我們提出的模型在 MOSI 和 MOSEI 數(shù)據(jù)集上的情感分類指標(biāo)都取得當(dāng)前最好的效果。

        [1] Zadeh A, Chen M, Poria S, et al.Tensor fusion network for multimodal sentiment analysis // Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing.Copenhagen, 2017:1103–1114

        [2] Zadeh A, Liang P P, Mazumder N, et al.Memory fusion network for multi-view sequential learning //Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence.Palo Alto, 2018: 5634–5641

        [3] Zadeh A, Liang P P, Poria S, et al.Multi-attention recurrent network for human communication comprehension // Proceedings of the 32th AAAI Conference on Artificial Intelligence.Palo Alto, 2018: 5642–5649

        [4] Akhtar M S, Chauhan D S, Ghosal D, et al.Multi-task learning for multi-modal emotion recognition and sentiment analysis // Burstein J, Doran C, Solorio T.Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies.Minneapolis, 2019, 370–379

        [5] Baltru?aitis T, Ahuja C, Morency L P.Multimodal machine learning: a survey and taxonomy.IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 41(2): 423–443

        [6] Zhang C, Yang Z, He X, et al.Multimodal Intelligence: representation learning, information fusion,and applications.IEEE Journal of Selected Topics in Signal Processing, 2020, 14(3): 478–493

        [7] Snoek C G M, Worring M, Smeulders A W M.Early versus late fusion in semantic video analysis // Proceedings of the 13th Annual ACM International Conference on Multimedia.New York, 2005: 399–402

        [8] Shutova E, Kiela D, Maillard J.Black holes and white rabbits: metaphor identification with visual features //Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies.Stroudsburg,2016: 160–170

        [9] Morvant E, Habrard A, Ayache S.Majority vote of diverse classifiers for late fusion // Proceedings of Structural, Syntactic, and Statistical Pattern Recognition.New York, 2014: 153–162

        [10] Evangelopoulos G, Zlatintsi A, Potamianos A, et al.Multimodal saliency and fusion for movie summarization based on aural, visual, and textual attention.IEEE Transactions on Multimedia, 2013, 15(7): 1553–1568

        [11] Rahman W, Hasan M K, Zadeh A, et al.M-BERT:injecting multimodal information in the BERT structure // Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics.Seattle,2020: 2359–2369

        [12] Wang Y, Shen Y, Liu Z, et al.Words can shift:dynamically adjusting word representations using nonverbal behaviors // Proceedings of the 33th AAAI Conference on Artificial Intelligence.Palo Alto, 2019,33: 7216–7223

        [13] Baxter J.A model of inductive bias learning.Journal of Artificial Intelligence Research, 2000, 12(1): 149–198

        [14] Thrun S.Is learning the n-th thing any easier thanbook=15,ebook=18learning the first? // Proceedings of the 8th International Conference on Neural Information Processing Systems.Cambridge MA, 1995: 640–646

        [15] Caruana R.Multitask learning.Machine Learning,1997, 28(1): 41–75

        [16] Caruana R.Multitask learning: a knowledge based source of inductive bias // Proceedings of the 10th International Conference on Machine Learning.San Francisco, 1993: 41–48

        [17] Duong L, Cohn T, Bird S, et al.Low resource dependency parsing: cross-lingual parameter sharing in a neural network parser // Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing.Beijing, 2015: 845–850

        [18] Sun T, Shao Y, Li X, et al.Learning sparse sharing architectures for multiple tasks // Proceedings of the 34th AAAI Conference on Artificial Intelligence.New York, 2020: 8936–8943

        [19] Yang Y, Hospedales T M.Trace norm regularised deep multi-task learning [EB/OL].(2017–02–17)[2020–09–18].https://arxiv.org/abs/1606.04038

        [20] Zadeh A, Zellers R, Pincus E, et al.Multimodal sentiment intensity analysis in videos: facial gestures and verbal messages.IEEE Intelligent Systems, 2016,31(6): 82–88

        [21] Zadeh A B, Liang P P, Poria S, et al.Multimodal language analysis in the wild: CMU-MOSEI dataset and interpretable dynamic fusion graph // Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics.Melbourne, 2018: 2236–2246

        [22] Pennington J, Socher R, Manning C.Glove: Global vectors for word representation // Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing.Doha, 2014: 1532–1543

        [23] Zhu Q, Yeh M C, Cheng K T, et al.Fast human detection using a cascade of histograms of oriented gradients // 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.New York, 2006: 1491–1498

        [24] Degottex G, Kane J, Drugman T, et al.COVAREP —a collaborative voice analysis repository for speech technologies // 2014 IEEE International Conference on Acoustics, Speech and Signal Processing.Florence, 2014: 960–964

        [25] Shibata Y, Kida T, Fukamachi S, et al.Byte pair encoding: a text compression scheme that accelerates pattern matching [R].Technical Report DOI-TR-161.Fukuoka, 1999

        [26] Kingma D P, Ba J.Adam: a method for stochastic optimization [EB/OL].(2014–12–22) [2017–01–30].https://arxiv.org/abs/1412.6980

        [27] Liu Z, Shen Y, Lakshminarasimhan V B, et al.Efficient low-rank multimodal fusion with modalityspecific factors // Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics.Melbourne, 2018: 2247–2256

        [28] Tsai Y H H, Bai S, Liang P P, et al.Multimodal transformer for unaligned multimodal language sequences // Proceedings of the 57th Conference of the Association for Computational Linguistics.Florence,2019: 6558–6569

        A Multi-modal Sentiment Recognition Method Based on Multi-task Learning

        LIN Zijie1, LONG Yunfei2, DU Jiachen1, XU Ruifeng1,?

        1.School of Computer Science and Technology, Harbin Institute of Technology (Shenzhen), Shenzhen 518055;2.School of Computer Science and Electronic Engineering, University of Essex, Colchester CO4 3SQ;? Corresponding author, E-mail: xuruifeng@hit.edu.cn

        In order to learn more emotionally inclined video and speech representations through auxiliary tasks,and improve the effect of multi-modal fusion, this paper proposes a multi-modal sentiment recognition method based on multi-task learning.A multimodal sharing layer is used to learn the sentiment information of the visual and acoustic modes.The experiment on MOSI and MOSEI data sets shows that adding two auxiliary single-modal sentiment recognition tasks can learn more effective single-modal sentiment representations, and improve the accuracy of sentiment recognition by 0.8% and 2.5% respectively.

        multi-modal information; sentiment recognition; multi-modal fusion; multi-task learning

        國家自然科學(xué)基金(61876053, 61632011, 62006062)、深圳市基礎(chǔ)研究學(xué)科布局項目(JCYJ20180507183527919, JCYJ20180507183608379)和廣東省新冠肺炎疫情防控科研專項(2020KZDZX1224)和深圳市技術(shù)攻關(guān)項目(JSGG20170817140856618)資助

        2020–06–08;

        2020–08–14

        10.13209/j.0479-8023.2020.085

        猜你喜歡
        多任務(wù)集上語音
        Cookie-Cutter集上的Gibbs測度
        鏈完備偏序集上廣義向量均衡問題解映射的保序性
        魔力語音
        基于MATLAB的語音信號處理
        電子制作(2019年14期)2019-08-20 05:43:38
        基于中心化自動加權(quán)多任務(wù)學(xué)習(xí)的早期輕度認(rèn)知障礙診斷
        基于MQ3與MP3的價廉物美的酒駕語音提醒器
        電子制作(2019年9期)2019-05-30 09:42:10
        對方正在輸入……
        小說界(2018年5期)2018-11-26 12:43:42
        復(fù)扇形指標(biāo)集上的分布混沌
        基于判別性局部聯(lián)合稀疏模型的多任務(wù)跟蹤
        電測與儀表(2016年5期)2016-04-22 01:13:46
        亚洲精品国产福利在线观看 | 一本一本久久aa综合精品| 手机在线观看日韩不卡av| 亚洲人成无码区在线观看| 夜爽8888视频在线观看| 亚洲色拍拍噜噜噜最新网站| 精品国产色哟av一区二区三区| 国产精品天干天干| 色一情一乱一伦一区二区三区| 99re6久精品国产首页| 麻豆成人久久精品二区三区免费| 五月天激情电影| 亚洲精品无码mv在线观看| 国产一起色一起爱| 区一区二区三免费观看视频| 精品久久久久久久久午夜福利| 久久久久久久99精品国产片| 亚洲国产不卡av一区二区三区| 国模91九色精品二三四| 国产喷水1区2区3区咪咪爱av| 亚洲免费视频播放| 国产成人精品一区二区日出白浆| 久久精品国产亚洲av麻豆瑜伽| 人妻少妇精品视频无码专区| 亚洲动漫成人一区二区| 亚洲一区二区三区在线激情| 国产色视频一区二区三区qq号| 日日躁夜夜躁狠狠久久av| 国产精品视频yuojizz| 亚洲影院在线观看av| 欧美拍拍视频免费大全| 丰满熟女人妻中文字幕免费| 日韩免费一区二区三区在线| 精品一区二区三区女同免费| 国产精品视频亚洲二区| 97久久精品午夜一区二区| 国产欧美久久久精品影院| 99久久国产精品免费热| 日韩欧美人妻一区二区三区| 一级一级毛片无码免费视频| 天堂久久一区二区三区|