亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進的FGM-CM-BERT模型多模態(tài)情感分析方法

        2025-03-16 00:00:00李仁正高冠東宋勝尊肖珂
        河北大學學報(自然科學版) 2025年2期

        DOI:10.3969/j.issn.10001565.2025.02.010

        摘" 要:針對語音文本多模態(tài)情感分析方法中泛化能力弱和特征融合效率低的問題,提出了一種改進的FGM-CM-BERT模型,改進快速梯度法(FGM)以對抗訓練提升模型泛化能力,并采用多頭注意力機制提取融合多模態(tài)特征,以提升算法準確度.首先,根據(jù)多模態(tài)數(shù)據(jù)特征,通過一種基于輸入數(shù)據(jù)特征的自適應參數(shù)調整策略來改進FGM權重函數(shù),在embedding層增加自適應擾動提升模型泛化能力;其次,在跨模態(tài)交互層提出利用多頭自注意力機制,通過將文本查詢和音頻鍵值對交叉融合,在特征融合效率與模型復雜度之間達到了較好的平衡;最后,實驗采用CMU-MOSI和CMU-MOSEI數(shù)據(jù)集,對比了常用的15個基線模型,結果表明:該模型在七類情緒評分分類及二元情緒分類的準確率較基線模型均有所提升,分別達到了48.2%和87.5%,驗證了該方法的有效性.

        關鍵詞:多模態(tài)情感分析;快速梯度法;多頭注意力機制;對抗訓練;自適應擾動;跨模態(tài)特征融合

        中圖分類號:TP391.1""" 文獻標志碼:A""" 文章編號:10001565(2025)02019212

        Multimodal sentiment analysis method based on improved FGM-CM-BERT model

        LI Renzheng1, GAO Guandong2, SONG Shengzun3, XIAO Ke1

        (1. College of Information Science,Hebei Agricultural University, Baoding 071001, China;

        2. Department of Information Management,The National Police University for Criminal Justice, Baoding 071000,China;

        3. Department of Penology, The National Police University for Criminal Justice, Baoding 071000, China)

        Abstract: In response to the challenges of weak generalization ability and inefficient feature fusion in multimodal sentiment analysis methods using speech-text data, an improved FGM-CM-BERT model was proposed. The Fast Gradient Method (FGM) was enhanced for adversarial training to improve model generalization and a multi-head attention mechanism was employed to extract and fuse multimodal features for enhanced algorithm accuracy. Firstly, based on the features of multimodal data, an adaptive parameter adjustment strategy for the FGM weight function was introduced, using an input-data-based approach to enhance the models generalization ability at the embedding layer through adaptive perturbations. Secondly,

        收稿日期:20241012;修回日期:20241211

        基金項目:

        國家自然科學基金資助項目(31801782);河北省社會科學基金資助項目(HB21ZZ002)

        第一作者:李仁正(1998—),男,河北農業(yè)大學在讀碩士研究生,主要從事自然語言處理方向研究.E-mail:1064149655@qq.com

        通信作者:高冠東(1979—),男,中央司法警官學院教授,博士,主要從事機器視覺、大數(shù)據(jù)分析技術方向研究.E-mail:gaoguandong@sina.com

        情感在人類溝通中起著重要作用[1].情感分析作為人機交互的關鍵技術之一,影響著人工智能的發(fā)展,已經被廣泛應用于許多應用場景,如人機對話、自動驅動等[2].文本是日常生活中不可或缺的一種形式,它通過詞語和短語表達情感[3].然而,文本模態(tài)所包含的信息是有限的,很難通過文本信息準確判斷情緒.在日常生活中,文本情態(tài)往往伴隨著有聲情態(tài).多模態(tài)情感分析作為越來越廣泛的情感計算領域已經引起了廣泛注意[4].

        多模態(tài)情感分析涉及多種感官或數(shù)據(jù)類型的系統(tǒng)或任務.常見的模態(tài)包括視頻、音頻和文本,這些模態(tài)可以單獨使用或結合在一起,以提取更豐富的信息.Geetha等[5]針對最前沿的多模態(tài)模型進行了綜述,其中音頻模態(tài)處理音頻信號,文本模態(tài)關注預訓練模型、跨模態(tài)融合與多模態(tài)文本分析.最前沿的一些跨模態(tài)融合中,Rasipuram等[6]提出了一種通過門控制單元(gated recurrent unit,GRU)和長短期記憶神經網(wǎng)絡(long short term memory,LSTM)結合音頻和視覺特征的雙峰方法,來預測情感維度.Miao等[7]在視頻和文本的模態(tài)中,提出了一種基于多模態(tài)圖卷積神經網(wǎng)絡(graph convolutional network,GCN)和共同關注的端到端多輸出深度學習模型,用于美學和情感的聯(lián)合分析.Singh等[8]結合音頻和文本特征開發(fā)了一種多模態(tài)語音情感識別系統(tǒng).文本和音頻的組合表現(xiàn)更好,因其語義信息相似,更易融合.然而,目前由于多模態(tài)數(shù)據(jù)集的混雜和有限的計算資源,會導致泛化能力降低的問題[9],并且多模態(tài)特征的融合也存在跨模態(tài)融合效率低的問題[10].

        針對以上問題,本文提出了一種改進的(fast gradient method cross-modal bidirectional encoder representations from transformers, FGM-CM-BERT)模型.首先,該模型在文本數(shù)據(jù)通道BERT預訓練階段,采用改進的FGM對抗訓練算法自適應生成對詞向量的擾動,以提升文本特征的泛化能力;然后,在文本和音頻特征融合時引入多頭注意力機制,通過預先計算文本的查詢和音頻的鍵值對以及音頻的查詢和文本的鍵值對,在不引入過多噪聲的情況下提供有意義的交叉注意力信息,進而幫助對齊模型并找到最優(yōu)的對齊參數(shù);最后,構建了用于預測文本和音頻多模態(tài)數(shù)據(jù)集的情感分析模型,通過改進的FGM算法實現(xiàn)模型更好的魯棒性和泛化性,引入多頭注意力機制來實現(xiàn)模型更高的跨模態(tài)處理效率.

        1" 多模態(tài)情感分析中的預訓練與優(yōu)化技術

        1.1" 預訓練模型

        預訓練模型在多模態(tài)情感分析中也起到了關鍵作用.Kenton等[11]提出BERT模型,采用了基于Transformer架構的雙向多層編碼器,通過預訓練的詞向量模型在下游NLP任務中對BERT模型進行微調,實現(xiàn)不同語義環(huán)境下詞向量的動態(tài)表示.CM-BERT模型[12]通過結合文本和音頻模態(tài)進行預訓練,在捕捉跨模態(tài)特征方面取得了一定的效果.CM-BERT在處理不同模態(tài)的干擾以及適應未見過的數(shù)據(jù)上仍然面臨挑戰(zhàn),其泛化能力和對噪聲的魯棒性有待提升.因此,優(yōu)化預訓練模型,使其更好地適應多模態(tài)數(shù)據(jù)中的復雜性和變異性,是當前研究的重點.

        1.2" 對抗訓練方法

        對抗訓練本質是為了提高模型的魯棒性,Goodfellow等[13]提出了快速梯度符號法(fast gradient sign method,F(xiàn)GSM)通過計算輸入數(shù)據(jù)的梯度符號生成對抗樣本,具有生成速度快的特點,但其對梯度信息的利用有限,生成的樣本較為簡單.為提升對抗樣本的豐富性和攻擊效果,提出了快速梯度法(fast gradient method,F(xiàn)GM)采用了更加全面的梯度歸一化方法,更加全面地利用了輸入數(shù)據(jù)的梯度信息.因此,基于其在計算效率、靈活性和資源需求方面相較其他方法的優(yōu)勢,F(xiàn)GM能夠以較低的計算開銷增強模型的魯棒性.

        1.3" 多頭注意力機制

        多頭注意力(multi-head attention,MHA)能夠提高模型對輸入序列的建模能力和表達能力.Vaswani等[14]提出了Transformer模型同時提出自注意力(self-attention)機制作為模型的核心組件.自注意力機制在序列中的每個位置對其他位置進行加權,從而實現(xiàn)全局建模.然而,自注意力機制在表達能力上仍有局限,尤其在捕捉序列中特定特征時表現(xiàn)不足.為了提高自注意力的表達能力,Vaswani等[14]將注意力機制擴展為多頭注意力機制,通過引入多個獨立的注意力頭,分別學習不同的注意力權重,從而增加模型對不同特征的捕捉能力.因此,本研究選用多頭注意力機制,以更好地捕捉多模態(tài)情感分析中的復雜特征和跨模態(tài)關聯(lián).

        2" 基于對抗訓練和多頭注意力機制的FGM-CM-BERT模型

        2.1" 模型框架及流程

        為了解決模型泛化能力弱和特征融合效率低的問題,本文提出基于多頭注意力機制的FGM-CM-BERT模型結構,如圖1所示.

        首先,在特征提取模塊提取文本和音頻數(shù)據(jù)的底層特征.在文本數(shù)據(jù)通道數(shù)據(jù)經分詞和token embedding層映射為對應的詞向量,采用改進自適應權重函數(shù)的FGM算法對詞向量進行擾動,生成對抗性詞向量表示,經過與segment embedding層和position embedding層的信息結合,輸入數(shù)據(jù)被轉換為具有豐富語義信息的詞向量.在音頻數(shù)據(jù)通道,使用聲學分析框架(collaborative voice analysis repository, COVAREP)來提取音頻特征.

        其次,在注意力機制模塊中,采用多頭注意力機制,文本的查詢(Qt)與音頻的鍵值對(KaVa)及音頻的查詢(Qa)與文本的鍵值對(KtVt)結合,實現(xiàn)跨模態(tài)特征融合.通過殘差連接保留數(shù)據(jù)原始結構,并利用線性層和標準化層進一步優(yōu)化特征,得到情感極性層的輸出.最后,對模型性能進行評估,使用測試集評估多分類或二分類的準確性、召回率、F1值等指標.

        2.2" FGM算法融合模塊

        傳統(tǒng)靜態(tài)的擾動方式在一定程度上限制了FGM算法[15]的魯棒性和泛化能力.針對文本情感分析模塊訓練模型的過程中會出現(xiàn)數(shù)據(jù)過擬合、泛化能力較差的問題,本文提出了一種自適應調整權重函數(shù)的FGM算法,如圖2所示.

        首先,詞向量提取階段(word embedding),BERT模型輸入文本進行分詞,并將每個詞轉換為對應的詞向量(embedding).其次,將改進的FGM算法應用于token embedding層的這些詞向量上.根據(jù)詞向量的梯度信息和每個詞向量的特征長度token,自適應添加對抗性擾動,生成對抗性的詞向量表示.最后,經過FGM處理后的對抗性詞向量與segment embedding層和position embedding層的編碼信息結合起來被用作BERT模型的輸入,進行下一步的分詞處理.

        改進后的FGM算法通過輸入的token長度來自適應調整對抗性擾動的大小,相較于原算法中基于固定權重或參數(shù)生成擾動的靜態(tài)方式,此改進通過設計與token長度相關的約束函數(shù),自適應調整擾動大小,提升了模型的泛化能力,其流程如圖3所示.

        首先,獲取token的embedding表示token xi,通過BERT的token embedding層得到其對應的embedding向量ei.其次,根據(jù)輸入token序列的長度|x|計算自適應調整后的擾動大小1,通過函數(shù)來進行約束

        1=0×|x|max_length,(1)

        其中:0是基礎擾動的大小;|x|是輸入token序列的長度;max_length是輸入序列的最大長度,將其設置為512.

        0沿著梯度方向的公式為

        0=·sign(g)(2)

        g=xL(x,y;θ)(3)

        其中:為一常數(shù)表示擾動程度的超參數(shù);sign()為符號函數(shù);為梯度符號;L(x,y;θ)是針對單個樣本的損失函數(shù).

        由式(2)、 (3)可以得出0的添加公式

        0=·g/‖g‖2.(4)

        最后,對每個token的embedding應用自適應調整后的對抗性擾動Δx

        Δx=ei+1sign(eiL(θ,x)),(5)

        其中:ei L(θ,x)是損失函數(shù)L(θ,x)對當前token embedding ei的梯度;sign()是取梯度的符號函數(shù);L(θ,x)中θ表示模型的參數(shù);x表示token序列.

        改進后的FGM算法能夠根據(jù)輸入數(shù)據(jù)的不同長度動態(tài)調整擾動強度,避免了固定擾動可能導致的過擬合問題.這一改進使得模型不僅在已見數(shù)據(jù)上表現(xiàn)優(yōu)異,同時在面對未見過的數(shù)據(jù)時也能保持較高的魯棒性.通過在embedding層引入自適應擾動,模型能夠更好地適應多樣化的數(shù)據(jù),減少對特定模態(tài)或數(shù)據(jù)類型的依賴,從而顯著提升了整體的泛化能力.

        2.3" 多頭注意力機制融合模塊

        針對原模型文本特征和音頻特征跨模態(tài)的關聯(lián)性問題[16],本文將原有的文本和音頻特征直接輸入的交互方式更改為多頭注意力機制[14],提高了音頻和文本特征的對齊效率,更好地解決了跨模態(tài)的關聯(lián)性問題.

        多頭注意力機制(MHA)的輸入包括查詢向量(query)、鍵向量(key)和值向量(value).MHA通過計算查詢向量與鍵向量的相似度確定權重,并對鍵向量加權求和,結果再與值向量結合輸出.相似度的計算通常采用點積(dot product)或雙線性(bilinear)方法.

        多頭注意力機制通過將輸入序列分成多個頭進行獨立計算,學習多樣化和復雜特征,提升模型的表達能力.各頭的輸出最終拼接形成整體輸出.

        MHA的計算可以表示為以下的公式:

        MultiHead(Q,K,V)=Concat(head1,head2,…,headh)Wo,(6)

        其中:Q、K、V分別表示查詢向量、鍵向量和值向量;h表示頭的數(shù)量;headi表示第i個頭的輸出;Wo是輸出變換矩陣.每個頭的輸出headi可以表示為

        headi=Attention(QWQi,KWKi,VWVi)(7)

        其中:WQi、WKi、WVi分別是第i個頭的查詢、鍵、值變換矩陣;Attention是注意力計算函數(shù).在MHA中,一般使用自注意力機制(Self-Attention)來計算注意力.

        自注意力機制的計算可以表示為

        Attention(Q,K,V)=softmaxQKTdkV,(8)

        其中:dk是鍵向量的維度;T表示矩陣轉置;通過應用softmax函數(shù)對相似度進行歸一化,可以計算每個鍵向量的權重,并與對應的值向量相乘,加權求和得到注意力機制的輸出.

        改進后的注意力機制模塊如圖4所示.

        通過多頭注意力機制獲得的文本特征定義為Ut,音頻特征定義為Ua.文本模態(tài)的QueryQt和KeyKt定義為Qt=Kt=Ut.Query查詢向量,表示要關注或檢索的目標.Key鍵向量表示要與查詢向量進行匹配或比較的源,基本原理是:給定一個Query,計算Query與Key的相關性.對于音頻模態(tài)的QueryQa和KeyKa被定義為Qa=Ka=Ua,將文本注意矩陣αt和音頻注意矩陣βa定義為Q和K同源且使用Relu進行計算權重.

        αt=Relu(QtKTt),(9)

        βa=Relu(QaKTa),(10)

        其中:Relu函數(shù)(rectified linear Unit)是一種常用的非線性激活函數(shù).為了通過文本與音頻模態(tài)的交互來調整每個詞的權重,本文對文本注意矩陣和音頻注意矩陣進行權重加和,計算出加權融合注意矩陣.

        通過加權計算出2個模態(tài)的融合表示如式(11)所示.

        Wf=wt*αt+wa*βb+b,(11)

        其中:wt表示每個單詞的權重;wa表示聲音的權重;b表示偏差.為了解決填充序列的問題,引入了一個名為mask矩陣M的概念.在該矩陣中,使用0表示token的位置,而使用-∞表示填充位置(在應用softmax函數(shù)后,填充位置的注意分數(shù)將為0).隨后,根據(jù)式(12),定義了多模態(tài)注意矩陣

        Wm=softmax(Wf+M),(12)

        其中:M為mask矩陣,是一個由0和1組成的矩陣.下面給出softmax的定義:

        softmax(zi)=ezi∑Cc=1ezc,(13)

        其中:Zi為第i個節(jié)點的輸出值;C為節(jié)點數(shù)目,可能輸出結果的總數(shù)(分類類別數(shù)),最后,將BERT得到的單詞向量進行加權.如式(14)所示.

        UAtt=WmVm,(14)

        其中:Vm是BERT最后一個encoder層的輸出,定義為Vm=Ut.

        3" 實驗及分析

        3.1" 數(shù)據(jù)集

        為了驗證本文模型的有效性,本文采用CMU多模態(tài)意見級情緒強度(CMU-MOSI)數(shù)據(jù)集[17]進行了實驗評估.CMU-MOSI由來自YouTube電影評論的93個觀點視頻組成,涵蓋了2199個話語.每個話語的標簽由5個不同的工作者標注,在-3到+3內,-3表示高度否定,3表示高度肯定.在訓練集、驗證集和測試集中分別分割了52、10、31個視頻數(shù)據(jù),分別對應1 284、229和686條音頻數(shù)據(jù),將音頻數(shù)據(jù)轉換成1284、229和686條文本數(shù)據(jù).CMU-MOSEI數(shù)據(jù)集[18]在CMU-MOSI數(shù)據(jù)集的基礎上增加了情感維度和強度標注,引入了更多模態(tài)數(shù)據(jù)、擴展了數(shù)據(jù)覆蓋范圍.本文實驗使用了文本類型的數(shù)據(jù)和音頻類型的數(shù)據(jù)如表1和表2所示.

        3.2" 實驗環(huán)境、參數(shù)設置及評價指標

        本文使用的實驗平臺為Pycharm 2021.3.2,網(wǎng)絡模型搭建使用Python3.6、Pytorch1.3.2深度學習框架,硬件為Intel i7-12700處理器,32GB內存,RTX3070ti顯卡.

        為了提高模型的穩(wěn)定性,本文對CM-BERT模型的2個參數(shù)進行了優(yōu)化調整.實驗驗證,表明設置“hidden size=1024”,“num hidden layers=24”.同時,需要將model中的BertEncoder類中的config.num attention heads修改為config.num hidden layers,避免因模型size過大導致的問題,實驗參數(shù)設置如表3所示.

        在實驗中,使用相同的評估度量來比較本文模型和基線模型的性能表現(xiàn).情緒評分分類任務采用7類精度(Acch7),二元情緒分類任務采用2類精度(Acch2)和F1評分(F1).回歸任務采用模型預測與真實標簽的相關性(Corrh)和平均絕對誤差(MAEl).在這些評估指標中,除MAE外,各指標值越高表示性能越優(yōu).為提高結果可靠性,實驗隨機選擇5顆種子運行5次,取最佳結果作為最終實驗結果.

        3.3" 實驗結果與分析

        為了與以往的多模態(tài)情感分析工作進行比較,同時驗證本文提出基于改進的多頭注意力機制的FGM-CM-BERT模型的能力.基于此,選取了15種基線模型,這些模型涵蓋了從傳統(tǒng)LSTM結構到Transformer的復雜架構,代表了多模態(tài)情感分析的不同研究思路和技術手段.這些基線模型的選擇依據(jù)是其在文獻中得到廣泛認可.本文選取的15種具有代表性的相關基線模型為:

        1) EF-LSTM[19].2) TFN[20].3) LMF[21].4) MFN[22].5) MAG-BERT[23].6) MFM[24].7) MISA[25].8) MulT[26].9) ICDN[27].10) DG-MCM[28].11) Self-MM[29].12) CubeMLP[30].13) MM-SS-HDFN[31].14) T-BERT[11].15) CM-BERT[12].在數(shù)據(jù)集CMU-MOSI上的實驗結果如表4所示,其中T代表文本模態(tài),A代表音頻模態(tài).

        實驗結果顯示:基于改進的多頭注意力機制的FGM-CM-BERT模型在CMU-MOSI數(shù)據(jù)集上取得了一個較好的結果,并提高了所有評估指標的性能.在二元情感分類任務中,F(xiàn)GM-CM-BERT模型在Acch2上達到了87.5%,與基線相比提高了約3%~12.3%.與Acch2類似,模型在F1上實現(xiàn)了0.030~0.093的提升.在情感評分分類任務中,F(xiàn)GM-CM-BERT模型在Acch7上達到了48.2%,與基線相比提高了3.3%~14.6%.在回歸任務中,F(xiàn)GM-CM-BERT模型在MAEl上減少了大約0.036~0.331,在Corrh上提高了大約0.036~0.224.

        FGM-CM-BERT模型在二元情感分類任務和情感評分分類任務中,相較于原模型CM-BERT有3%左右的提升,同時,相比于近2年提出的多模態(tài)情感分析模型MM-SS-HDFN,在各個方面也表現(xiàn)出明顯的優(yōu)勢.這些結果表明,對抗訓練使模型不斷提高抵御攻擊的能力,多頭注意力機制使模型更好地捕捉數(shù)據(jù)之間的關聯(lián)性和語義信息,從而提高情感分類和回歸任務的準確性和穩(wěn)定性.

        同時,在CMU-MOSEI數(shù)據(jù)集上進行實驗,為了方便比較,根據(jù)之前的基線模型,選擇準確率排名靠前的5個模型進行實驗,結果如表5所示.

        由表5可以看出,在CMU-MOSEI數(shù)據(jù)集上FGM-CM-BERT也有明顯提升,證明了本文方法的泛化性.

        為了驗證跨模態(tài)特征融合的效率,通過實驗來對比模型多模態(tài)特征融合方式、參數(shù)量以及模型的推理時間,從而更全面地評估本文模型在推理效率上的優(yōu)勢.實驗結果如表6所示.

        由表6可以看出,本文通過CMU-MOSEI數(shù)據(jù)集對14個多模態(tài)情感分析模型進行了實驗,展示了每個模型的推理時間(s/樣本)、模型參數(shù)量以及其采用的特征融合方式.因保持各模型的原始架構以保證實驗公平性,模型參數(shù)量有所差異,體現(xiàn)推理時間與參數(shù)量的權衡.

        EF-LSTM、LMF、MFN等模型因結構相對簡單,推理時間維持在0.120~0.140 s/樣本,但這種設計限制了多模態(tài)特征融合的精度,難以充分捕捉復雜模態(tài)間的交互信息.相比之下,TFN、MFM、MISA等模型通過復雜特征融合機制,在推理時間上增加至0.140~0.150 s/樣本,計算開銷相應增加.MAG-BERT和ICDN等大型模型結合多模態(tài)融合與復雜注意力機制(如自適應門機制和Transformer架構),盡管顯著增強了多模態(tài)特征關聯(lián)性的捕捉能力,但推理時間超過0.180 s/樣本,復雜性顯著提高.

        本文提出的FGM-CM-BERT模型的推理時間為0.165 s/樣本,盡管其參數(shù)量達到125×106,但

        在推理效率上依然優(yōu)于一些大型模型.但相較于一些更簡單的模型,其推理時間稍長.不過,F(xiàn)GM-CM-BERT在推理效率與模型復雜度之間達到了較好的平衡,這一效率提升得益于本文模型中

        引入的多頭注意力機制和自適應擾動策略.首先,多頭注意力機制通過并行處理機制有效減少了跨模態(tài)特征對齊過程中的等待時間,顯著提升了特征融合的效率.其次,改

        進的FGM算法通過生成自適應擾動,動態(tài)調整擾動大小,減少了模型對特定模態(tài)或數(shù)據(jù)類型的過擬合現(xiàn)象提高了泛化能力,從而進一步提升了模型的推理效率.

        另外,為了探究FGM-CM-BERT模型在CMU-MOSI數(shù)據(jù)集和CMU-MOSEI數(shù)據(jù)集上不同epoch對應的loss變化,選擇5個epoch中的數(shù)據(jù),如圖5所示.

        由圖5可以看出,F(xiàn)GM-CM-BERT模型的loss值在穩(wěn)步下降,這說明模型在訓練過程中逐漸減少了預測值和真實值之間的差距,使模型能夠更好地擬合數(shù)據(jù)的分布和特征接近最佳訓練狀態(tài),從而更好地應對新數(shù)據(jù).

        3.4" 消融實驗

        為了深入分析基于改進的多頭注意力機制的FGM-CM-BERT模型中每個模塊的有效性,進行消融實驗,從表7可以看出本文所提模型效果最好.為了驗證模型中每個模塊的有效性,首先對基礎模型CM-BERT只增加FGM模塊,使其增強了泛化能力,與FGM-CM-BERT模型的結果相比,Acch7下降了1.1%,Acch2下降0.8%,F(xiàn)1下降了0.8%,可以看出加入FGM模塊以后對效果有所提升但是提升不夠明顯.然后對基礎模型只增加MHA模塊使其更加穩(wěn)定,與FGM-CM-BERT模型的結果相比,Acch7下降了1.4%,Acch2下降1.2%,F(xiàn)1下降了1.2%,因此,模型中任意一個模塊都會降低模型的性能,充分證明了本文模型達到的一個最佳效果.

        4" 結語

        為了能提高模型情感分析的準確性,本文提出了基于改進的多頭注意力機制的FGM-CM-BERT模型.首先,在BERT微調階段embedding層改進FGM算法,從而增強了模型的泛化能力,解決了原模型泛化能力差.容易受噪聲干擾的問題.其次,改進文本和音頻特征融合的階段的交互方式為多頭注意力機制來增強跨模態(tài)數(shù)據(jù)之間的關聯(lián)性,解決了對齊效率低和關聯(lián)性弱的問題.

        通過實驗與之前的基線相比,基于改進的多頭注意力機制的FGM-CM-BERT模型在CMU-MOSI數(shù)據(jù)集上的性能有了顯著提高,模型的F1值提高了0.03,再次驗證本文方法的有效性.本文提出的方法雖然達到了一定的效果,但是也有一些缺陷:使用多頭注意力機制進行結合會增加計算成本,尤其是在大規(guī)模數(shù)據(jù)集上進行訓練時.在多模態(tài)模型中,通常已經存在大量的復雜計算,進一步增加計算成本可能會導致訓練時間和資源消耗的增加.下一步工作將會考慮這些不足,對模型進行更細粒度的研究.

        參" 考" 文" 獻:

        [1]" 王穎潔,朱久祺,汪祖民,等.自然語言處理在文本情感分析領域應用綜述[J].計算機應用, 2022, 42(4): 1011-1020. DOI: 10.11772/j.issn.1001-9081.2021071262.

        [2]" 徐月梅,胡玲,趙佳藝,等.大語言模型的技術應用前景與風險挑戰(zhàn)[J].計算機應用, 2024, 40(5): 1-10. DOI: 10.11772/j.issn.1001-9081.2023060885.

        [3]" LI R N, WU Z Y, JIA J, et al. Towards discriminative representation learning for speech emotion recognition[C]//Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence. August 10-16, 2019. Macao, China. California: International Joint Conferences on Artificial Intelligence Organization, 2019. DOI: 10.24963/ijcai.2019/703.

        [4]" HOLLER J, LEVINSON S C. Multimodal language processing in human communication[J]. Trends Cogn Sci, 2019, 23(8): 639-652. DOI: 10.1016/j.tics.2019.05.006.

        [5]" GEETHA A V, MALA T, PRIYANKA D, et al. Multimodal Emotion Recognition with Deep Learning: Advancements, challenges, and future directions[J]. Information Fusion, 2024, 105: 102218. DOI: 10.1016/j.inffus.2023.102218.

        [6]" RASIPURAM S, BHAT J H, MAITRA A. Multi-modal expression recognition in the wild using sequence modeling[C]//2020 15th IEEE International Conference on Automatic Face and Gesture Recognition (FG 2020). Buenos Aires, Argentina. IEEE, 2020: 629-631. DOI: 10.1109/FG47880.2020.00096.

        [7]" MIAO H T, ZHANG Y F, WANG D L, et al. Multi-output learning based on multimodal GCN and co-attention for image aesthetics and emotion analysis[J]. Mathematics, 2021, 9(12): 1437. DOI: 10.3390/math9121437.

        [8]" SINGH P, SRIVASTAVA R, RANA K P S, et al. A multimodal hierarchical approach to speech emotion recognition from audio and text[J]. Knowledge-Based Systems, 2021, 229: 107316. DOI: 10.1016/j.knosys.2021.107316.

        [9]" ZHANG Q Y, WEI Y K, HAN Z B, et al. Multimodal fusion on low-quality data: a comprehensive survey[EB/OL]. 2024: arXiv: 2404.18947. http://arxiv.org/abs/2404.18947

        [10]" ZHANG S Q, YANG Y J, CHEN C, et al. Deep learning-based multimodal emotion recognition from audio, visual, and text modalities: a systematic review of recent advancements and future prospects[J]. Expert Systems with Applications, 2024, 237: 121692. DOI: 10.1016/j.eswa.2023.121692.

        [11]" DEVLIN J, CHANG M W, LEE K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[EB/OL]. 2018: arXiv: 1810.04805. http://arxiv.org/abs/1810.04805

        [12]" YANG K C, XU H, GAO K. CM-BERT: cross-modal BERT for text-audio sentiment analysis[C]//Proceedings of the 28th ACM International Conference on Multimedia. Seattle WA USA. ACM, 2020. DOI: 10.1145/3394171.3413690.

        [13]" GOODFELLOW I J, SHLENS J, SZEGEDY C. Explaining and harnessing adversarial examples[EB/OL]. 2014: arXiv: 1412.6572. http://arxiv.org/abs/1412.6572

        [14]" VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[EB/OL]. 2017: arXiv: 1706.03762. http://arxiv.org/abs/1706.03762

        [15]" 趙子天,詹文翰,段翰聰,等.基于SVD的深度學習模型對抗魯棒性研究[J].計算機科學, 2023, 50(10): 362-368. DOI: 10.11896/jsjkx.220800090.

        [16]" 冼廣銘,招志鋒,陽先平.基于注意力融合網(wǎng)絡的方面級多模態(tài)情感分類[J].計算機系統(tǒng)應用, 2024, 33(2): 94-104. DOI: 10.15888/j.cnki.csa.009385.

        [17]" ZADEH A, ZELLERS R, PINCUS E, et al. Multimodal sentiment intensity analysis in videos: facial gestures and verbal messages[J]. IEEE Intelligent Systems, 2016, 31(6): 82-88. DOI: 10.1109/MIS.2016.94.

        [18]" BAGHER ZADEH A, LIANG P P, PORIA S, et al. Multimodal language analysis in the wild: CMU-MOSEI dataset and interpretable dynamic fusion graph[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Melbourne, Australia. Stroudsburg, PA, USA: Association for Computational Linguistics, 2018. DOI: 10.18653/v1/p18-1208.

        [19]" ABDU S A, YOUSEF A H, SALEM A. Multimodal video sentiment analysis using deep learning approaches, a survey[J]. Information Fusion, 2021, 76: 204-226. DOI: 10.1016/j.inffus.2021.06.003.

        [20]" ZADEH A, CHEN M H, PORIA S, et al. Tensor fusion network for multimodal sentiment analysis[C]//Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. Copenhagen, Denmark. Stroudsburg, PA, USA: Association for Computational Linguistics, 2017. DOI: 10.18653/v1/d17-1115.

        [21]" LIU Z, SHEN Y, LAKSHMINARASIMHAN V B, et al. Efficient low-rank multimodal fusion with modality-specific factors[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Melbourne, Australia. Stroudsburg, PA, USA: Association for Computational Linguistics, 2018. DOI: 10.18653/v1/p18-1209.

        [22]" ZADEH A, LIANG P P, MAZUMDER N, et al. Memory fusion network for multi-view sequential learning[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2018. DOI: 10.1609/aaai.v32i1.12021.

        [23]" RAHMAN W, HASAN M K, LEE S W, et al. Integrating multimodal information in large pretrained transformers[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Online. Stroudsburg, PA, USA: Association for Computational Linguistics, 2020. DOI: 10.18653/v1/2020.acl-main.214.

        [24]" TSAI Y H H, LIANG P P, ZADEH A, et al. Learning factorized multimodal representations[C]//Proceding of the 7th International Conference on Learning Representations. Appleton: ICLR, 2018: 1-20. DOI: 10.1109/ICLR.2018.0018.

        [25]" HAZARIKA D, ZIMMERMANN R, PORIA S. MISA: modality-invariant and-specific representations for multimodal sentiment analysis[C]//Proceedings of the 28th ACM International Conference on Multimedia. Seattle WA USA. ACM, 2020. DOI: 10.1145/3394171.3413678.

        [26]" TSAI Y H H, BAI S J, LIANG P P, et al. Multimodal transformer for unaligned multimodal language sequences[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence, Italy. Stroudsburg, PA, USA: Association for Computational Linguistics, 2019. DOI: 10.18653/v1/p19-1656.

        [27]" ZHANG Q A, SHI L, LIU P Y, et al. Retraction Note: ICDN: integrating consistency and difference networks by transformer for multimodal sentiment analysis[J]. Applied Intelligence, 2023, 53(16): 19808. DOI: 10.1007/s10489-023-04869-x.

        [28]" 王香,毛力,陳祺東,等.融合動態(tài)梯度和多視圖協(xié)同注意力的情感分析[J].計算機科學與探索, 2024, 18(5): 1328-1338. DOI: 10.3778/j.issn.1673-9418.2301042.

        [29]" YU W M, XU H, YUAN Z Q, et al. Learning modality-specific representations with self-supervised multi-task learning for multimodal sentiment analysis [C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2021. DOI: 10.1609/aaai.v35i12.17289.

        [30]" SUN H, WANG H Y, LIU J Q, et al. CubeMLP: an MLP-based model for multimodal sentiment analysis and depression estimation[C]//Proceedings of the 30th ACM International Conference on Multimedia. Lisboa Portugal. ACM, 2022. DOI: 10.1145/3503161.3548025.

        [31]" 丁健,楊亮,林鴻飛,等.基于多模態(tài)異質動態(tài)融合的情緒分析研究[J].中文信息學報, 2022, 36(5): 112-124. DOI: 10.3969/j.issn.1003-0077.2022.05.012.

        (責任編輯:孟素蘭)

        全球av集中精品导航福利| av黄色在线免费观看| √天堂资源中文www| 亚洲丁香五月天缴情综合| 亚洲国产美女在线观看| 在线视频一区二区观看| 中国老熟女露脸老女人| 国产男女免费完整视频| 93精91精品国产综合久久香蕉| 亚洲亚洲亚洲亚洲亚洲天堂| 男女视频一区二区三区在线观看| 久久99国产精品久久| 亚洲欧美日韩国产精品专区 | 日日麻批免费高清视频| 国产无套粉嫩白浆在线| 国产亚洲av手机在线观看| 官网A级毛片| 九七青青草视频在线观看| 亚洲激情一区二区三区视频| 日本妇人成熟免费2020| 精品免费看国产一区二区| 久久精品免费无码区| 人妻有码中文字幕在线不卡| 久久久亚洲成年中文字幕| 亚洲av国产av综合av卡| 亚洲va欧美va国产综合| 国产成人自拍视频在线免费| 经典三级免费看片天堂| 人妻 色综合网站| 国产欧美精品一区二区三区,| 东京热东京道日韩av| 激情内射人妻1区2区3区| 亚洲老妇色熟女老太| 性导航app精品视频| 亚洲啪啪AⅤ一区二区三区| 久久本道久久综合伊人| 天下第二社区在线视频| 亚洲精品一二区| 成人影院羞羞的视频免费观看| 日韩精品无码一区二区| 狠狠躁夜夜躁人人爽超碰97香蕉|