亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于跨模態(tài)注意力機(jī)制的多模態(tài)情感分析方法探究

        2025-03-02 00:00:00郭繼偉魯慧哲許杰
        電腦知識(shí)與技術(shù) 2025年1期

        摘要:多模態(tài)情感分析旨在融合文本、視覺和聽覺等模態(tài)的信息,以提升情感識(shí)別的準(zhǔn)確性?,F(xiàn)有工作常忽視模態(tài)數(shù)據(jù)元素間存在的長(zhǎng)距離依賴關(guān)系,未能充分融合來(lái)自不同模態(tài)的情感信息。為此,文章提出一種基于跨模態(tài)注意力機(jī)制的情感分析模型。該模型無(wú)須對(duì)多模態(tài)序列進(jìn)行預(yù)對(duì)齊處理,能夠在整個(gè)時(shí)間尺度范圍內(nèi)尋找各模態(tài)元素間的最佳映射關(guān)系,從而充分融合多模態(tài)數(shù)據(jù)。相較于基線模型,該模型在CMU-MOSI數(shù)據(jù)集上取得了1.0%至2.2%的性能提升,優(yōu)于現(xiàn)有模型,有效驗(yàn)證了該方法在情感分析任務(wù)中的優(yōu)越性。

        關(guān)鍵詞:自然語(yǔ)言處理;多模態(tài)情感分析;多模態(tài)融合;跨模態(tài)注意力機(jī)制;長(zhǎng)距離依賴關(guān)系

        中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A

        文章編號(hào):1009-3044(2025)01-0001-04 開放科學(xué)(資源服務(wù)) 標(biāo)識(shí)碼(OSID) :

        0 引言

        伴隨著在線視頻網(wǎng)站的興起,包含文本、視覺及聽覺模態(tài)的多模態(tài)數(shù)據(jù)呈現(xiàn)出爆發(fā)式增長(zhǎng)[1]。挖掘和理解多模態(tài)數(shù)據(jù)中蘊(yùn)含的情感元素[2],即多模態(tài)情感分析(Multimodal Sentiment Analysis,MSA) 已成為一個(gè)熱門的研究方向[3]。多模態(tài)情感分析通過整合來(lái)自不同模態(tài)的信息,利用各個(gè)模態(tài)之間存在的協(xié)同性和互補(bǔ)性,提高模型在復(fù)雜場(chǎng)景下識(shí)別情感的魯棒性。然而,現(xiàn)有方法往往忽視模態(tài)間存在的長(zhǎng)距離依賴關(guān)系,未能充分融合來(lái)自不同模態(tài)的情感信息,從而影響模型的預(yù)測(cè)精度。此外,傳統(tǒng)方法通常需要對(duì)多模態(tài)數(shù)據(jù)進(jìn)行時(shí)間維度上的手動(dòng)對(duì)齊[4],且在設(shè)計(jì)融合方案時(shí)未考慮到多模態(tài)數(shù)據(jù)之間的互補(bǔ)性。

        為解決上述多模態(tài)情感分析領(lǐng)域存在的問題,本文提出基于跨模態(tài)注意力機(jī)制的多模態(tài)情感分析模型(Multimodal Sentiment Analysis Based on CrossmodalityAttention Mechanism,MCA) 。該模型利用跨模態(tài)注意力機(jī)制,使其能夠有效關(guān)注到模態(tài)自身內(nèi)部以及其他模態(tài)所在位置的輸入信息,賦予多模態(tài)序列不同位置相應(yīng)的注意力權(quán)重系數(shù),從而更好地捕捉潛在的多模態(tài)長(zhǎng)距離依賴關(guān)系,對(duì)多模態(tài)信息進(jìn)行充分融合。由于各個(gè)模態(tài)的采樣率不同,先前的工作需要手動(dòng)地將各個(gè)模態(tài)的數(shù)據(jù)在時(shí)間維度上做對(duì)齊處理,以尋找各個(gè)模態(tài)元素之間的對(duì)應(yīng)關(guān)系。這種手動(dòng)的對(duì)齊方式不僅耗時(shí)耗力,而且也無(wú)法獲取跨模態(tài)情感元素之間的最佳映射關(guān)系。利用跨模態(tài)注意力機(jī)制可以有效地建立各個(gè)模態(tài)元素之間的最佳映射,挖掘和利用模態(tài)間存在的長(zhǎng)距離依賴關(guān)系。此外,先前的工作在設(shè)計(jì)多模態(tài)融合方案時(shí),模態(tài)輸入的數(shù)量是受限的,即一次只考慮對(duì)兩個(gè)模態(tài)信息融合,當(dāng)模態(tài)數(shù)量超過兩個(gè)時(shí),需要執(zhí)行多次融合才能實(shí)現(xiàn)對(duì)多個(gè)模態(tài)信息的融合。這種融合設(shè)計(jì)方案不僅會(huì)使模型保留大量冗余參數(shù),增加計(jì)算的復(fù)雜性,而且還將多個(gè)模態(tài)之間的交互割裂開來(lái),未能充分挖掘利用模態(tài)之間的互補(bǔ)性,導(dǎo)致模型的效率和性能下降[5]。為此,本文在執(zhí)行多模態(tài)融合的過程中,將考慮到所有輸入的模態(tài)信息,充分考慮模態(tài)信息之間的互補(bǔ)性,理解并挖掘多模態(tài)數(shù)據(jù)背后所蘊(yùn)含的情感信息。本文在公開的多模態(tài)情感分析數(shù)據(jù)集CMU-MOSI[6]上進(jìn)行實(shí)驗(yàn),將模型的表現(xiàn)與所選取具有代表性的基線在分類和回歸兩項(xiàng)任務(wù)的四個(gè)評(píng)價(jià)指標(biāo)上進(jìn)行對(duì)比,性能提升范圍從1% 到2.2%,優(yōu)于現(xiàn)有模型。具體的貢獻(xiàn)總結(jié)如下:

        1) 提出一種新的跨模態(tài)注意力機(jī)制,用于捕獲模態(tài)自身以及跨模態(tài)元素之間存在的長(zhǎng)距離依賴關(guān)系,實(shí)現(xiàn)對(duì)多模態(tài)數(shù)據(jù)的有效融合。

        2) 在未對(duì)齊的多模態(tài)序列數(shù)據(jù)上完成情感分析任務(wù),無(wú)須手動(dòng)將各個(gè)模態(tài)在時(shí)間維度上強(qiáng)制對(duì)齊,從而節(jié)省人力物力和時(shí)間成本。

        3) 在對(duì)多模態(tài)數(shù)據(jù)進(jìn)行融合時(shí),考慮到所有輸入的模態(tài)信息,使模態(tài)之間的互補(bǔ)性得到充分利用和挖掘。

        1 模型概述

        本小節(jié)首先闡述多模態(tài)情感分析任務(wù)的定義,然后詳細(xì)介紹本文所提出的基于跨模態(tài)注意力機(jī)制的多模態(tài)情感分析模型,如圖1所示。該模型主要包括三個(gè)部分:模態(tài)特征提取、多模態(tài)融合和情感分類器。模態(tài)特征提取用于將原始輸入的數(shù)據(jù)轉(zhuǎn)換為計(jì)算機(jī)可處理的數(shù)字序列向量;多模態(tài)融合旨在整合匯聚來(lái)自多個(gè)模態(tài)數(shù)據(jù)中與識(shí)別情感有關(guān)的信息,從而得到一個(gè)緊湊的多模態(tài)表示;情感分類器將獲取到的多模態(tài)表示進(jìn)行識(shí)別預(yù)測(cè),從而完成情感分析任務(wù)。

        1.1 任務(wù)定義

        多模態(tài)情感分析任務(wù)通過分析從數(shù)據(jù)集中獲得的多個(gè)模態(tài)序列數(shù)據(jù)來(lái)精確判斷其背后的情感強(qiáng)度或者為其分配對(duì)應(yīng)的情感標(biāo)簽?;诳缒B(tài)注意力機(jī)制多模態(tài)情感分析模型輸入的是未對(duì)齊的多模態(tài)序列數(shù)據(jù)Xm ∈ RTm × dm ,其中m ∈ { t,v,a },Tm 和dm 分別代表模態(tài)m 的序列長(zhǎng)度(例如,文本模態(tài)中單詞的數(shù)量,視覺模態(tài)視頻幀的數(shù)量) ,以及模態(tài)特征向量維度。模型最終輸出的y? ∈ R 作為最終預(yù)測(cè)結(jié)果,用于完成下游的多模態(tài)情感分析任務(wù)。

        1.2 模態(tài)特征提取

        模態(tài)特征提取的作用是將原始模態(tài)信號(hào)經(jīng)過特征提取后轉(zhuǎn)化成計(jì)算機(jī)可以處理的數(shù)字向量。對(duì)于文本模態(tài),本文使用基于Transformers架構(gòu)的預(yù)訓(xùn)練模型(Bert) [7]提取文本模態(tài)的特征,將原始文本模態(tài)中的單詞轉(zhuǎn)換為詞向量表示。在模型輸入文本模態(tài)的首部和尾部分別添加[ cls ]和[ sep ]兩個(gè)標(biāo)簽得到預(yù)訓(xùn)練模型的輸入,s = { w0,w1,w2,...,wn,wn + 1 }。將s 送入預(yù)訓(xùn)練模型,獲得文本模態(tài)的詞向量表示。Bert有多個(gè)不同版本,本文選取的是在多模態(tài)情感分析領(lǐng)域主流的版本Bert-base-uncased,該預(yù)訓(xùn)練模型是由12個(gè)編碼器層組成。具體計(jì)算公式描述如下:

        Ft = Bert(s,θBerts ) ∈ RTt × dt (1)

        式中:Tt代表文本模態(tài)的序列長(zhǎng)度,dt代表特征向量維度,θBerts 代表Bert模型的參數(shù),s 代表模型輸入原始的文本模態(tài)信息。

        對(duì)于視覺和聽覺模態(tài)信息,遵循前人的工作,分別使用Facet和COVAREP工具從原始的數(shù)據(jù)信號(hào)提取初級(jí)特征向量表示(無(wú)可訓(xùn)練的參數(shù)) 。然后使用單向的長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)[8]捕捉模態(tài)的時(shí)間特征。具體計(jì)算公式描述如下:

        Fv = sLSTM (Xv ; θLSTMv ) ∈ RTv × dv (2)

        Fa = sLSTM (Xa ; θLSTMa ) ∈ RTa × da (3)

        式中:Tv 和Ta 分別代表視覺和聽覺模態(tài)的時(shí)間序列長(zhǎng)度,dv 和da 分別代表視覺和聽覺模態(tài)的特征維度,θLSTM 代表長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)參數(shù),Xv 和Xa 分別代表模型輸入的視覺和聽覺模態(tài)。

        1.3 多模態(tài)融合

        多模態(tài)融合模塊是由跨模態(tài)注意力機(jī)制、層標(biāo)準(zhǔn)化、殘差以及平均化組成(如圖2所示) ,其主要作用是融合來(lái)自不同模態(tài)的信息,送入下游的情感分類器模塊。首先將提取到的文本、視覺以及聽覺模態(tài)的特征信息拼接在一起得到一個(gè)簡(jiǎn)單的多模態(tài)聯(lián)合表示Xm,送入多模態(tài)融合模塊。在多模態(tài)融合模塊中,利用跨模態(tài)注意力機(jī)制對(duì)每個(gè)模態(tài)元素進(jìn)行計(jì)算模態(tài)自身內(nèi)部以及其他模態(tài)元素之間的注意力系數(shù),對(duì)多模態(tài)數(shù)據(jù)中存在的長(zhǎng)距離依賴關(guān)系進(jìn)行建模??缒B(tài)注意力機(jī)制操作如下:定義查詢矩陣Qm = XmWQm,鍵矩陣Km = XmWKm 以及值矩陣Vm = XmWVm。其中,WQm,WKm以及WVm 分別是神經(jīng)網(wǎng)絡(luò)中的權(quán)重矩陣。計(jì)算公式如下:

        式中: 根號(hào)下dk 代表縮放系數(shù),T 代表轉(zhuǎn)置操作,soft max函數(shù)代表歸一化操作,Xf 表示跨模態(tài)注意力機(jī)制輸出。

        然后對(duì)跨模態(tài)注意力機(jī)制模塊輸出的Xf 在特征維度上進(jìn)行層標(biāo)準(zhǔn)化操作,目的是加快模型收斂速度以及提升模型的泛化能力。殘差網(wǎng)絡(luò)的使用是為了避免在訓(xùn)練模型的過程中,出現(xiàn)梯度消失或爆炸問題。最后將高維度的多模態(tài)表示進(jìn)行降維操作,提取全局特征,用于下個(gè)階段對(duì)多模態(tài)情感進(jìn)行預(yù)測(cè)任務(wù)。具體計(jì)算公式描述如下:

        X'm= Mean(LayerNorm(X ) f + Xm ) (5)

        式中:Xm 代表簡(jiǎn)單多模態(tài)表示,Xf 代表跨模態(tài)注意力機(jī)制輸出,LayerNorm(?) 代表層標(biāo)準(zhǔn)化操作,Mean(?)代表對(duì)多模態(tài)表示降維操作,X'm代表多模態(tài)融合模塊輸出。

        1.4 情感分類器

        情感分類器模塊接收多模態(tài)融合模塊輸出的多模態(tài)表示,實(shí)現(xiàn)對(duì)情感結(jié)果的最終預(yù)測(cè)功能。該模塊主要由多個(gè)前饋神經(jīng)網(wǎng)絡(luò)和激活函數(shù)組成。具體計(jì)算公式簡(jiǎn)述如下:

        式中:y?代表輸出的情感預(yù)測(cè)結(jié)果,f (?)代表激活函數(shù),Wm 代表可學(xué)習(xí)的權(quán)重矩陣,X'm 代表多模態(tài)融合模塊輸出的多模態(tài)表示信息,bm 代表偏置。訓(xùn)練期間,多個(gè)批次的多模態(tài)原始數(shù)據(jù)送入模型后,經(jīng)過前向傳播輸出對(duì)情感的預(yù)測(cè),然后利用反向傳播函數(shù)更新模型參數(shù),使得模型預(yù)測(cè)情感標(biāo)簽更加貼近真實(shí)值,本文選取的損失函數(shù)是L1Loss,計(jì)算模型值和樣本值之間差的平均絕對(duì)值。具體計(jì)算公式描述如下:

        式中:y?i 代表模型輸出第i 個(gè)樣本的預(yù)測(cè)值,yi 代表第i 個(gè)樣本人工標(biāo)注真實(shí)情感標(biāo)簽,n 代表樣本總?cè)萘俊?/p>

        2 實(shí)驗(yàn)設(shè)置

        本小節(jié)首先介紹多模態(tài)情感分析領(lǐng)域受歡迎的數(shù)據(jù)集CMU-MOSI,實(shí)驗(yàn)設(shè)置以及模型的評(píng)價(jià)指標(biāo),緊接著對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行詳細(xì)分析,最后探索模態(tài)數(shù)量對(duì)多模態(tài)情感分析模型性能的影響。

        2.1 數(shù)據(jù)集介紹

        CMU-MOSI是多模態(tài)情感分析研究領(lǐng)域常用的數(shù)據(jù)集,包含文本、視覺及聽覺模態(tài)信息。該數(shù)據(jù)集由來(lái)自YouTube平臺(tái)的93個(gè)視頻組成,每個(gè)視頻持續(xù)時(shí)間為2至5分鐘。經(jīng)過拆分后得到2 199個(gè)視頻片段,每個(gè)視頻片段經(jīng)由人工標(biāo)注其情感值,情感強(qiáng)度范圍為-3至+3,這種標(biāo)注將情感劃分為7種類別:強(qiáng)消極、消極、弱消極、中立、弱積極、積極、強(qiáng)積極。該數(shù)據(jù)集提供3個(gè)子集:訓(xùn)練集、驗(yàn)證集及測(cè)試集,訓(xùn)練集樣本個(gè)數(shù)為1 284,驗(yàn)證集樣本個(gè)數(shù)為292,測(cè)試集樣本個(gè)數(shù)為686。

        2.2 實(shí)驗(yàn)設(shè)置

        實(shí)驗(yàn)環(huán)境:Ubuntu 22.04 64位操作系統(tǒng),Python版本3.12,Pytorch版本2.2.2。

        訓(xùn)練最優(yōu)參數(shù)設(shè)置:隱藏層維度為768,批次大小為32,優(yōu)化器為Adam,主模型參數(shù)學(xué)習(xí)率為1e-3,Bert-base-uncased預(yù)訓(xùn)練模型學(xué)習(xí)率為1e-5,情感分類器中Dropout設(shè)置為0.1,訓(xùn)練輪數(shù)設(shè)置為20。本文提出的模型通過使用網(wǎng)格搜索方法,當(dāng)且僅當(dāng)模型在驗(yàn)證集上的損失函數(shù)取得最佳結(jié)果時(shí),確定網(wǎng)絡(luò)模型中超參數(shù)組合為最佳超參數(shù)。具體步驟描述:確定需要調(diào)優(yōu)的超參數(shù)取值范圍,例如批次大小取值為[8,16,32,64],學(xué)習(xí)率取值為[1e-5,3e-5,1e-3,3e-3,1e-2] 等;將超參數(shù)可能取值進(jìn)行排列組合,模型根據(jù)選擇的超參數(shù)組合進(jìn)行訓(xùn)練,計(jì)算超參數(shù)組合在驗(yàn)證集上的表現(xiàn),以此來(lái)確定最優(yōu)的超參數(shù)組合。

        2.3 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)

        本文從分類及回歸兩個(gè)角度共4個(gè)指標(biāo)評(píng)價(jià)模型的表現(xiàn)。分類任務(wù)評(píng)價(jià)指標(biāo)包括二分類(Binary Accu?racy, Acc-2) 和F1分?jǐn)?shù)(F1-Score) ,回歸任務(wù)評(píng)價(jià)指標(biāo)包括皮爾遜相關(guān)系數(shù)(Pearson Correlation, Corr) 和平均絕對(duì)誤差(Mean Absolute Error, MAE) 。在樣本分布均衡時(shí),二分類能夠很好地反映模型的分類能力;面對(duì)樣本分布不均衡時(shí)或需要綜合考慮精準(zhǔn)率和召回率時(shí),F(xiàn)1分?jǐn)?shù)則更具參考價(jià)值。皮爾遜相關(guān)系數(shù)在多模態(tài)情感分析任務(wù)中有助于評(píng)估模型預(yù)測(cè)的情感與真實(shí)情感之間的線性關(guān)系強(qiáng)度,平均絕對(duì)誤差則有助于評(píng)估模型預(yù)測(cè)情感強(qiáng)度的準(zhǔn)確性。對(duì)于分類任務(wù)和皮爾遜相關(guān)系數(shù),較高的值表示模型表現(xiàn)更好;對(duì)于平均絕對(duì)誤差(MAE) ,較低的誤差則表示模型預(yù)測(cè)結(jié)果更接近真實(shí)標(biāo)簽。

        2.4 實(shí)驗(yàn)結(jié)果分析

        本文所提出的基于跨模態(tài)注意力機(jī)制的模型在多模態(tài)情感分析CMU-MOSI數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),并與典型代表性的多模態(tài)情感分析工作進(jìn)行詳細(xì)對(duì)比。具體的對(duì)比工作包括:張量融合網(wǎng)絡(luò)模型(Ten?sor Fusion Network,TFN) [9]、記憶融合網(wǎng)絡(luò)模型(Memory Fusion Network,MFN) [10]、多模態(tài)轉(zhuǎn)換融合網(wǎng)絡(luò)(Multimodal Transformers,MulT) [11]、學(xué)習(xí)模態(tài)不變性及特性表示的情感分析模型(Modality-Invariant and-Specific Representations for Multimodal SentimentAnalysis,MISA) [12]以及將多模態(tài)信息整合到大型預(yù)訓(xùn)練Transformers 中的模型(Integrating Multimodal Infor?mation in Large Pretrained Transformers,MAG) [13]。

        本文所提出的基于跨模態(tài)注意力機(jī)制多模態(tài)情感分析模型(MCA) 與選取的其他基線模型的實(shí)驗(yàn)結(jié)果對(duì)比如表1、表2所示。從兩個(gè)表中可以觀察到,在分類和回歸兩項(xiàng)任務(wù)的4個(gè)評(píng)價(jià)指標(biāo)上都顯著優(yōu)于所選取的模型,模型表現(xiàn)性能提升范圍為1%至2.2%。相較于多模態(tài)轉(zhuǎn)換融合網(wǎng)絡(luò)(MulT) [11],本文提出的模型在整合匯聚多模態(tài)特征信息時(shí),沒有打破多模態(tài)交互的完整性,一次性考慮到所有輸入的模態(tài)信息,充分挖掘多模態(tài)元素之間的交互信息。與將多模態(tài)信息整合到大型預(yù)訓(xùn)練Transformers中的模型(MAG) [13]不同之處在于,MAG執(zhí)行多模態(tài)融合時(shí),假定多模態(tài)數(shù)據(jù)在時(shí)間維度上已經(jīng)被手工處理,即多個(gè)模態(tài)數(shù)據(jù)在時(shí)間尺度上是相等的,僅考慮對(duì)相同時(shí)間尺度內(nèi)的模態(tài)數(shù)據(jù)進(jìn)行融合。由于模態(tài)采樣率的不同,情感的表達(dá)是一個(gè)隨時(shí)間動(dòng)態(tài)變化的過程。例如,沮喪的面部表情與之前說(shuō)過的一句悲觀話語(yǔ)密切相關(guān),單一時(shí)間尺度內(nèi)的交互無(wú)法理解情感表達(dá)的本質(zhì)。本文所提出的模型針對(duì)未對(duì)齊的多模態(tài)序列數(shù)據(jù),利用跨模態(tài)注意力機(jī)制捕獲多模態(tài)數(shù)據(jù)存在的長(zhǎng)距離依賴關(guān)系,不受時(shí)間尺度的限制,從而更加準(zhǔn)確地捕捉到多模態(tài)數(shù)據(jù)背后所蘊(yùn)含的情感信息。實(shí)驗(yàn)結(jié)果驗(yàn)證了本文提出的基于跨模態(tài)注意力機(jī)制的多模態(tài)情感分析模型在情感分析領(lǐng)域的優(yōu)越性。

        2.5 消融實(shí)驗(yàn)

        為驗(yàn)證模態(tài)數(shù)量對(duì)多模態(tài)情感分析模型性能的影響,本文通過控制模型輸入模態(tài)的種類,設(shè)計(jì)三組不同的實(shí)驗(yàn)進(jìn)行對(duì)比研究。具體包括:將基于單個(gè)文本模態(tài)的模型(T) 、基于視覺和文本雙模態(tài)的模型(Tamp;V) 以及基于聽覺和文本雙模態(tài)的模型(Tamp;A) 與本文提出的模型(Tamp;Aamp;V) 的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比。

        本文提出的模型接受不同數(shù)量的模態(tài)信息在分類任務(wù)(Acc-2和F1分?jǐn)?shù)評(píng)價(jià)指標(biāo)) 上的對(duì)比如圖3所示??梢杂^察到,模型接受三種模態(tài)信息(Tamp;Aamp;V) 輸入的表現(xiàn)性能顯著優(yōu)于接受兩種模態(tài)(Tamp;V和Tamp;A) 輸入以及單模態(tài)(T) 輸入的表現(xiàn)性能,有力地證明伴隨著模態(tài)數(shù)量的增加,情感分析模型的魯棒性也得到提升。值得注意的是,基于文本模態(tài)的情感分析模型(T) 在情感分析任務(wù)中表現(xiàn)結(jié)果最差。這是因?yàn)閱渭兊奈谋灸B(tài)在反語(yǔ)、諷刺等場(chǎng)景下,文本字面表達(dá)的情感信息與闡述者真實(shí)表達(dá)的信息完全相反,因此導(dǎo)致模型性能表現(xiàn)較差。人類情感的傳遞方式是多元化的,不僅局限于文本模態(tài),還通過語(yǔ)調(diào)、面部姿勢(shì)等多種形式傳達(dá)。伴隨著模態(tài)數(shù)量的增加,模型能夠捕捉到更多的情感信息。在面對(duì)個(gè)別模態(tài)信息缺失、模態(tài)信息被噪聲干擾等復(fù)雜場(chǎng)景下,情感信息之間可以起到相互驗(yàn)證和補(bǔ)充的積極作用,從而有助于提高模型的魯棒性。

        3 總結(jié)與展望

        針對(duì)多模態(tài)情感分析領(lǐng)域存在的忽視長(zhǎng)距離依賴以及需要手動(dòng)將多模態(tài)數(shù)據(jù)在時(shí)間維度對(duì)齊等問題,本文提出基于跨模態(tài)注意力機(jī)制的多模態(tài)情感分析模型。該模型可以在未對(duì)齊的多模態(tài)序列數(shù)據(jù)上關(guān)注到模態(tài)內(nèi)部以及模態(tài)間任意位置的輸入信息,從而將多個(gè)模態(tài)信息整合到一個(gè)緊湊的多模態(tài)表示中,完成多模態(tài)情感預(yù)測(cè)任務(wù)。在公開的CMU-MOSI數(shù)據(jù)集上進(jìn)行大量實(shí)驗(yàn),并與具有代表性的多模態(tài)基線模型進(jìn)行對(duì)比分析,驗(yàn)證本文所提出方法在多模態(tài)情感分析任務(wù)上的優(yōu)越性。

        盡管本文所提出的模型在多模態(tài)情感分析任務(wù)中取得優(yōu)異的性能,但也存在一些不足之處,主要體現(xiàn)在未能實(shí)現(xiàn)端到端的方式完成情感分析任務(wù)。未來(lái)工作的重點(diǎn)方向是設(shè)計(jì)新的模態(tài)特征提取范式,不再借助Facet和COVAREP外部工具將原始的模態(tài)信號(hào)轉(zhuǎn)換成數(shù)字向量,使模型可以自適應(yīng)學(xué)習(xí)更有效的特征表示,實(shí)現(xiàn)端到端的多模態(tài)情感分析模型方案,便于推廣和普及多模態(tài)情感分析在真實(shí)社會(huì)場(chǎng)景下的應(yīng)用。

        參考文獻(xiàn):

        [1] 劉繼明,張培翔,劉穎,等.多模態(tài)的情感分析技術(shù)綜述[J].計(jì)算機(jī)科學(xué)與探索,2021,15(7):1077-1095.

        [2] hHiAerNar cWhi,cCaHl EmNu tHua,Pl OinRfoIArm Sa.tIiomnp rmovaixnigm mizautlitoimn ofdoarl mfuuslitoinm owditahl sEemntpiimriecnatl Maneatlhyosdiss[ Cin]/ /NParotucreaeld Linagnsg uoaf gteh eP r2o0ce2s1s iCngon.Ofenrleinncee a nond tPiounn tfao rC Canoam,Dpuotmatiinoincaaln L Rinegpuuibstliiccs.S,2tr0o2u1d:s9b1u8r0g-,P9A19,U2S. A:Associa?

        [3] 吳友政,李浩然,姚霆,等.多模態(tài)信息處理前沿綜述:應(yīng)用、融合和預(yù)訓(xùn)練[J].中文信息學(xué)報(bào),2022,36(5):1-20.

        【通聯(lián)編輯:謝媛媛】

        白白视频在线免费观看| 香蕉视频在线精品视频| 欧美成人形色生活片| 亚洲AV秘 片一区二区三区 | 一区二区三区中文字幕p站| 少妇无码av无码一区| 国产人成精品综合欧美成人| 男女激情床上视频网站| 亚洲日本一区二区在线| 日韩国产精品无码一区二区三区 | 精品国产群3p在线观看| 一区二区三区少妇熟女高潮| 久久777国产线看观看精品 | 午夜视频免费观看一区二区| 国产精品成人自拍在线观看| av鲁丝一区鲁丝二区鲁丝三区| 国产精品亚洲五月天高清| 蜜桃视频色版在线观看| 91三级在线观看免费| 日韩欧美成人免费观看| 国产在线一91区免费国产91| 亚洲综合一区二区三区蜜臀av| 亚洲成人福利在线视频| 国产女人高潮叫床视频| 国产亚洲精久久久久久无码苍井空| 久久婷婷夜色精品国产| 人妻夜夜爽天天爽三区丁香花| 国产99视频精品免视看9| 久久久久久无中无码| 乳乱中文字幕熟女熟妇| 成人精品天堂一区二区三区| 91spa国产无码| 日本女优中文字幕四季视频网站| 强d乱码中文字幕熟女免费| 无码精品a∨在线观看| 成人永久福利在线观看不卡| 不卡免费在线亚洲av| 99久久超碰中文字幕伊人| 在线亚洲综合| 国产一区二区三区蜜桃| 日韩人妻少妇一区二区三区|