陳 燕, 賴宇斌, 肖 澳, 廖宇翔, 陳寧江
(1.廣西大學 計算機與電子信息學院,廣西 南寧 530000;2.廣西大學 廣西多媒體通信與網(wǎng)絡(luò)技術(shù)重點實驗室,廣西 南寧 530000)
隨著科技的發(fā)展和短視頻平臺的流行,人們在社交媒體和各種網(wǎng)站平臺上的情感表達方式也越來越多樣化,不僅有文本,還有圖片、音頻、視頻等多模態(tài)信息。相比于單一模態(tài)信息,多模態(tài)數(shù)據(jù)可以從不同視角表達語義信息,包含更多情感內(nèi)容。圖1為一個多模態(tài)表達的例子,一段視頻片段配上字幕“你那點財務(wù)還需要助理?”,如果只看文字,可能會感覺說話者是在輕視和嘲諷對方,讓觀眾認為此處表現(xiàn)出消極的情感極性。但是結(jié)合視頻內(nèi)容,就可以發(fā)現(xiàn)說話者是在開玩笑地和對方交流,想表達的是積極情感。因此,利用多模態(tài)信息的互補和增強,可以更全面和準確地理解人們的情感狀態(tài)。
圖1 多模態(tài)數(shù)據(jù)示例
在文本數(shù)據(jù)缺乏情感信息的情況下,可以利用圖片、視頻或其他模態(tài)信息來加強和補充。但文本和圖像包含的情感信息屬于不同層次和不同程度的信息,因此存在相關(guān)性的同時也會包含冗余信息和噪聲信息。此外,目前許多特征融合方法依賴預(yù)設(shè)的規(guī)則或權(quán)重,不能自適應(yīng)地調(diào)整模態(tài)之間的關(guān)系和重要性。因此,多模態(tài)情感分析任務(wù)面臨著一些挑戰(zhàn)。
情感分析任務(wù)最早由Pang等[1]提出,通過詞袋框架和有監(jiān)督的機器學習方法對電影文本評論進行情感分類。隨著數(shù)據(jù)語料庫和人工智能技術(shù)的發(fā)展,情感分析任務(wù)得到了越來越多人的重視,并得到了廣泛的應(yīng)用[2]。目前,情感分析研究不局限于單一模態(tài)的文本數(shù)據(jù),還包括圖片、動圖、視頻等多種模態(tài)數(shù)據(jù)相融合的情感分析。
在文本情感分析方面,李勇等[3]基于雙向長短時記憶網(wǎng)絡(luò)(Bi-LSTM)與位置注意力機制提取語義特征,使用CNN對食品評論進行分類,得到比較好的分類效果。Munikar等[4]通過BERT預(yù)訓(xùn)練模型對10 000余條電影評論數(shù)據(jù)進行細粒度情感分析,提高了多分類情感任務(wù)的效果。在視覺情感分析方面,Zhu等[5]提出了一種統(tǒng)一的CNN-RNN模型,通過不同層次的特征融合和依賴關(guān)系,有效地實現(xiàn)了視覺情感識別。You等[6]提出了一個基于注意力機制的視覺情感分析模型,能夠自動發(fā)現(xiàn)和加權(quán)圖像中與情感相關(guān)的局部區(qū)域。在多模態(tài)情感分析方面,針對多模態(tài)情感分析中存在的標注數(shù)據(jù)量少、模態(tài)間融合不充分,以及信息冗余等問題,Wang等[7]使用選擇加法學習方法將不同模態(tài)的特征進行加權(quán)平均,得到一個多模態(tài)的特征表示,可以提高神經(jīng)網(wǎng)絡(luò)的泛化能力;吳思思等[8]使用后端融合的方法,提出了一種基于感知融合的多任務(wù)多模態(tài)情感分析模型,有效地整合了文本、語音和圖像3種模態(tài)信息,并利用多任務(wù)學習來提高模型的泛化能力。但上述多模態(tài)情感分析模型在特征融合上有一定缺陷,需要使用自注意力機制加強模態(tài)之間信息交互和融合。
針對多模態(tài)情感分析數(shù)據(jù)集數(shù)據(jù)缺乏、模型特征融合不足等問題,本文提出了一種基于對比語言-圖片訓(xùn)練(contrastive language-image pretraining,CLIP)[9]和交叉注意力(cross-attention,CA)的多模態(tài)情感分析(multimodal sentiment analysis,MSA)模型CLIP-CA-MSA。本文使用了根據(jù)自然語言指示從圖像中預(yù)測最相關(guān)的文本片段的CLIP多模態(tài)預(yù)訓(xùn)練模型和利用提示學習,在少量數(shù)據(jù)下得到較好的文本情感分類效果的PIFT[10]模型,并進行特征提取,同時引入了交叉注意力機制來實現(xiàn)不同模態(tài)之間的信息傳遞。對于視覺情感分析,借助CLIP預(yù)訓(xùn)練模型的豐富先驗信息,使用標簽文本作為提示信息,并采用預(yù)訓(xùn)練的對比學習方法進行相似度計算,得到相似度分數(shù)最高的類別作為視覺情感分析結(jié)果。為了減少冗余和噪聲信息的影響,使用了不確定性損失函數(shù)來自動分配視覺和文本的重要性占比,以增強模型的泛化能力和魯棒性。
本文提出的CLIP-CA-MSA模型結(jié)構(gòu)如圖2所示。
圖2 CLIP-CA-MSA模型結(jié)構(gòu)
首先將視頻按照一定的幀率分割成若干張圖片,然后使用CLIP預(yù)訓(xùn)練的BERT模型和ViT模型來提取標簽特征和每張圖片的圖像特征,并使用Transformer編碼器將圖像特征構(gòu)建成一個視頻特征向量。接著使用PIFT模型來提取文本數(shù)據(jù)的文本特征。隨后,使用交叉注意力機制將圖像特征向量和文本特征向量進行交互。最后,再利用標簽特征計算視頻和標簽之間的相似度,得到一個視頻分類特征向量。該向量和文本分類特征向量一起被輸入到同方差不確定性損失中進行計算,并輸出最終的情感分類結(jié)果。
CLIP-CA-MSA模型算法如下。
輸入:視頻數(shù)據(jù)集Dv和文本數(shù)據(jù)集Dt,數(shù)據(jù)集數(shù)量大小M,最大迭代次數(shù)N;
輸出:模型f。
① fort=1,2, …,Ndo
② form=1,2, …,Mdo
③ ∥將視頻數(shù)據(jù)輸入到視頻編碼器
④ video_encorder←Dv(m);
⑤ Transformer_encorder←video_encorder;
⑥ ∥將文本數(shù)據(jù)輸入到文本編碼器
⑦ text_encorder←Dt(m);
⑧ ∥特征提取
⑨Hv←Transformer_encorder;
⑩Ht←text_encorder;
本文使用的多模態(tài)情感分析數(shù)據(jù)集包含文本、視頻2個模態(tài)。
(1)文本特征提取。文本模態(tài)由文本信息(視頻對應(yīng)的字幕信息)和標簽信息(加入提示的標簽文本)構(gòu)成,如式(1)所示。
Text={T,P1,P2,P3}。
(1)
式中:Text表示文本模態(tài);T表示文本信息;P1、P2、P3表示加入提示的分類標簽(如中性、積極和消極)信息。
將文本信息T和標簽信息P1、P2、P3按字粒度劃分,如式(2)、(3)所示。
T={TCLS,T1,…,Tn};
(2)
(3)
為了避免模型規(guī)模過大和訓(xùn)練難度大的問題,采用了基于提示嵌入和焦點損失函數(shù)的PIFT模型來提取文本特征,具體提取過程如式(4)所示。為保證模型的情感分析精度,利用經(jīng)過CLIP預(yù)訓(xùn)練的BERT模型來提取標簽信息,提取過程如式(5)所示。
Ht=PIFT(TCLS,T1,T2,…,Tn);
(4)
HP=[HP1,HP2,HP3]=BERT(P1,P2,P3)。
(5)
式中:Ht表示文本特征向量;Hp表示所有類別的標簽特征向量。
(2)視頻特征提取與融合。為了獲取視頻表示,首先從視頻片段中按幀提取出一組圖像,即V=(V1,V2,…,Vm),其中m表示每組圖片最大數(shù)量(本文實驗中m=6)。然后通過視覺編碼器對其進行編碼,得到視頻特征序列。
(6)
如圖2中視頻編碼器模塊所示,CLIP-CA-MSA利用ViT編碼器對輸入圖像中每個塊之間的相互關(guān)系進行建模以獲取圖像特征,如式(7)所示。
H={H1,H2,…,Hm}=ViT(L1,L2,…,Lm)。
(7)
式中:H1表示ViT從第1張圖片提取出圖像特征;H表示視頻特征序列。
最終,需要融合圖像特征序列得到代表整組圖像特征的視頻特征向量Hv。本文使用Transformer編碼器來融合視頻特征序列。首先,插入標記HCLS作為視頻全局特征表示,并為圖像加入時序信息;其次,使用自注意力機制獲取視頻中的時空關(guān)系,以有效地幫助識別視頻情感極性。具體融合過程如式(8)所示。
Hv=Transformer(HCLS,H1,H2,…,Hm)。
(8)
式中:Hv為視頻的特征向量,蘊含視頻的重要信息。
為了減少單一模態(tài)情感信息不足或噪聲污染的問題,本文使用交叉注意力機制進行模態(tài)交互。交叉注意力機制是一種在多模態(tài)情感分析中用于融合不同模態(tài)信息的注意力機制,它可以在圖像、文本等模態(tài)之間交叉計算注意力分數(shù),以提取共享的情感特征,并增強每個模態(tài)的表示能力。本文采用的交叉注意力機制的基本原理如圖3所示。
圖3 交叉注意力機制
首先,使用一個輸入作為查詢(Q),另一個輸入作為鍵(K)和值(V),用注意力機制來計算2個輸入每個元素之間的相關(guān)性;其次,將注意力權(quán)重與值(V)相乘并求和,得到模態(tài)間的交互特征;最后,將交互特征與原始輸入連接起來,形成新的融合了多模態(tài)信息的特征表示。通過這種方式,可以有效地減少單個模態(tài)在情感分析中的局限,提高模型的泛化性能和魯棒性。
多頭注意力機制是交叉注意力機制進行模態(tài)交互的重點,其計算過程如式(9)、(10)所示。
(9)
(10)
式中:·為點乘操作;Softmax代表歸一化函數(shù);dk表示鍵向量的維度,此處的作用為對點積的結(jié)果進行縮放,避免結(jié)果過大或過小影響Softmax的梯度。
殘差連接與正則化計算過程如式(11)、(12)所示。
S′t=LayerNorm(St+Qt);
(11)
S′v=LayerNorm(Sv+Qv)。
(12)
以式(11)為例,將Qt與St相加能夠幫助特征向深層網(wǎng)絡(luò)傳遞,再進行正則化以提高模型的穩(wěn)定性和收斂速度,得到S′t。然后將其進行前向傳播為特征增加非線性變化,增強其表達能力。最后經(jīng)過一次求和與歸一化得到文本-視頻特征向量Ht2v。式(12)同理,最后得到視頻-文本特征向量Hv2t。
為了在少量數(shù)據(jù)下提高模型效果,根據(jù)視頻特征向量與每個情感分類標簽之間的相似程度來判斷其所屬類別。具體相似度計算過程如式(13)所示。
(13)
多模態(tài)任務(wù)的重點之一在于如何平衡不同任務(wù)損失之間的權(quán)重,目前大多數(shù)方法采用對多個模態(tài)的損失函數(shù)進行加權(quán),其損失函數(shù)如式(14)所示。
Lossall=μtLosst+μvLossv。
(14)
式中:μt與μv分別表示文本和視頻模態(tài)損失函數(shù)的權(quán)重;Losst與Lossv表示文本和視頻模態(tài)損失函數(shù),Losst使用焦點損失函數(shù),Lossv使用相似度計算損失函數(shù);Lossall表示總體網(wǎng)絡(luò)的損失函數(shù),即多模態(tài)任務(wù)的優(yōu)化目標。
然而,簡單的線性加權(quán)求和方法需要人為設(shè)定每個模態(tài)的權(quán)重,這不符合實際數(shù)據(jù)的分布和特性,會導(dǎo)致某些模態(tài)被過分強調(diào)或忽略,也限制了模型的泛化能力。
因此,本文使用同方差不確定性損失來自動平衡不同模態(tài)之間的損失函數(shù)權(quán)重,同時避免信息的丟失或者冗余。假設(shè)x表示模型的輸入,W為參數(shù)矩陣,其概率似然估計如式(15)所示。
P(y|fW(x))=Softmax(fW(x))。
(15)
式中:Softmax函數(shù)用來從產(chǎn)生的概率向量中抽取樣本。假設(shè)文本與視頻模態(tài)的輸出向量為yt與yv,并都服從高斯分布,則模型的最大似然函數(shù)如式(16)所示。
P(yt,yv|fW(x))=P(yt|fW(x))·P(yv|fW(x))=
N(yt;fW(x),σt2)·N(yv;fW(x),σv2)。
(16)
為了最大化似然參數(shù),需要最小化其負對數(shù)似然函數(shù),過程如式(17)所示。
L(W,σt,σv)=-logP(yt,yv|fW(x))∝
logσt+logσv。
(17)
本文將詳細介紹所采用的多模態(tài)數(shù)據(jù)集、實驗評價指標和實驗參數(shù)設(shè)置,將CLIP-CA-MSA模型與其他多模態(tài)模型進行對比實驗并進行分析。
為驗證CLIP-CA-MSA模型的情感分析性能,本文采用公開數(shù)據(jù)集CH-SIMS(chinese single and multimodal sentiment)[11]進行實驗。數(shù)據(jù)集分布情況如圖4所示。
圖4 CH-SIMS數(shù)據(jù)分布圖
CH-SIMS數(shù)據(jù)集是一個中文多模態(tài)情感分析數(shù)據(jù)集,視頻來源于中文電影、電視劇和演出節(jié)目,根據(jù)說話者的話語將視頻幀劃分為多個片段,每個片段對應(yīng)一個說話者的一句話,長度在1~10 s之間,對每個視頻片段的文本和視覺模態(tài)分別進行消極、中性和積極的情感極性標注。
本文選取了幾種常用的多模態(tài)情感分析模型作為基準模型,并與CLIP-CA-MSA模型進行實驗對比和分析。這些基準模型包括以下幾種。
TFN[12]:使用張量外積來顯式地聚合單模態(tài)、雙模態(tài)和三模態(tài)之間的交互關(guān)系。
LMF[13]:使用LSTM編碼文本,CNN編碼圖像,用低秩張量外積來聚合模態(tài)間的交互關(guān)系。
MulT[14]:利用方向性成對交叉模態(tài)注意力,可以在不同時間步中關(guān)注多模態(tài)序列之間的交互,并隱式地適應(yīng)數(shù)據(jù)的對齊方式。
Self-MM[15]:利用自監(jiān)督任務(wù)來增強多模態(tài)情感分析的方法,可以同時學習不同模態(tài)的特征表示和情感分類。
MMAF[8]:利用多任務(wù)學習和感知融合層對多模態(tài)數(shù)據(jù)進行情感分析。
MMAF+T+A+V:將MMAF提取的多特征向量與單模態(tài)特征向量融合。
CLIP-CA-MSA模型與上述基準模型在CH-SIMS數(shù)據(jù)集的對比實驗結(jié)果如表1所示。
表1 多模態(tài)模型對比實驗結(jié)果
由表1可以看出,TFN和LMF的效果相對較差,說明張量外積聚合交互關(guān)系并不足以捕捉多模態(tài)數(shù)據(jù)之間復(fù)雜的關(guān)聯(lián)性。MulT能夠捕捉不同時間步中多模態(tài)序列之間的交互關(guān)系,但仍沒有考慮到多模態(tài)數(shù)據(jù)之間的語義一致性和情感相關(guān)性。Self-MM讓模型同時學習到多模態(tài)數(shù)據(jù)之間的內(nèi)在聯(lián)系,提高情感分類效果。MMAF通過引入多任務(wù)學習和感知融合層來增強多特征向量的表達能力,而MMAF+T+A+V能更好地理解每個單獨模態(tài)以及整體模態(tài)對于情感分類任務(wù)的貢獻程度,并且避免了信息冗余或丟失,兩者的Acc和F1值均有明顯的提升。
CLIP-CA-MSA模型利用CLIP方法來提取多模態(tài)特征和標簽特征,引入PIFT模型來提取文本特征,交叉注意力機制能保留模態(tài)內(nèi)特征和關(guān)注模態(tài)間特征,通過同方差不確定性損失自動調(diào)整模態(tài)重點,使得模型在準確率Acc上達到了78.07%,F1值達到了77.39%。
綜上所述,CLIP-CA-MSA模型最優(yōu),其成功的原因在于它引入了強大的多模態(tài)特征提取方法、多模態(tài)融合方式以及自動均衡模態(tài)權(quán)重,使得模型能夠更好地利用多模態(tài)數(shù)據(jù)之間的交互關(guān)系。
為驗證CLIP-CA-MSA模型多模態(tài)融合的效果,先將視頻和文本模態(tài)用視覺模型和文本模型分別進行單模態(tài)實驗,再進行模態(tài)融合實驗。
2.3.1 視覺模型對比實驗
本文對CH-SIMS數(shù)據(jù)集中的視頻模態(tài)部分進行情感分類任務(wù),采用了常用的5個深度學習視覺模型進行測試和比較。進行實驗對比的模型相關(guān)信息如下。
VGG-16[16]:使用小卷積核和多卷積子層方法的深度神經(jīng)網(wǎng)絡(luò),提高計算效率和網(wǎng)絡(luò)性能。
ResNet[17]:由多個殘差塊組成深度神經(jīng)網(wǎng)絡(luò),使用快捷連接的方法,解決了深層網(wǎng)絡(luò)訓(xùn)練中的退化現(xiàn)象。
ConvNeXt[18]:基于CNN卷積網(wǎng)絡(luò),參考Transformer網(wǎng)絡(luò)的思想,對ResNet網(wǎng)絡(luò)的卷積層、池化層和注意力機制進行了改進。
OpenFace2.0[19]:一個面部行為分析工具,使用基于卷積神經(jīng)網(wǎng)絡(luò)的局部模型,可以從圖片中檢測出68個人臉關(guān)鍵點,并根據(jù)這些關(guān)鍵點估計頭部姿態(tài)、眼睛注視方向和面部動作單元。
ViT[20]:通過將圖片分成固定大小的塊,然后通過線性變化作為Transformer的輸入序列,從而進行特征提取和分類。ViT-B-16使用16×16的塊,ViT-B-32使用32×32的塊。
視覺模型的實驗結(jié)果如表2所示,P為精確率,R為回收率。
表2 視覺模型對比實驗結(jié)果
由表2可知,VGG-16模型的層數(shù)較淺,無法很好地提取視頻特征,所以表現(xiàn)最差。而ConvNeXt網(wǎng)絡(luò)的卷積層、池化層和注意力機制的改進能使視頻分類效果有一定提升。OpenFace2.0在面部行為分析上表現(xiàn)優(yōu)異。ResNet34具有良好的深度和殘差連接結(jié)構(gòu),能夠很好地提取視頻特征。ResNet50是ResNet系列中更深、更復(fù)雜的模型,具有更多的層和殘差塊,使網(wǎng)絡(luò)能夠更準確地進行視頻分類,其效果略好于ResNet34,這也證明了深層網(wǎng)絡(luò)能夠提高模型的表現(xiàn)。
ViT模型中,相較于ViT-B-32,ViT-B-16的準確率和F1值分別提高了2.00百分點和0.99百分點,這是由于塊的大小對模型性能的影響,更小的塊可以捕捉到更細粒度的圖像特征。相比于效果最差的VGG-16,準確率和F1分別提高了21.65百分點和33.19百分點。相較于ResNet50,其準確率提升了1.79百分點,但是F1降低了0.45百分點。
由于該數(shù)據(jù)集的規(guī)模不大、多樣性不足,無法很好地判斷2個模型的優(yōu)劣。ViT-B-16準確率較高,說明其在處理圖像中的全局特征和細粒度特征方面表現(xiàn)更好,可以更好地識別視頻中的物體和場景,但需要更多的計算資源和數(shù)據(jù)量。而ResNet50有較高的F1值,這說明該模型在處理視頻中的空間信息方面表現(xiàn)更好,能夠更準確地對視頻進行分類,同時具有較好的穩(wěn)健性。
本文使用基于消融分析的可視化方法Ablation-CAM[21],為2個模型生成視覺解釋并且定位圖像中的相關(guān)區(qū)域,如圖5所示。
圖5 可視化分析
這2張熱力圖顯示出了模型對于人臉表情的關(guān)注點。ResNet的熱力圖顯示出了模型對于圖像的整體區(qū)域都有關(guān)注,其中主要集中在人臉上,但分散的關(guān)注點可能會導(dǎo)致模型判斷錯誤。而ViT的熱力圖則顯示出了模型對于人臉表情的關(guān)注更加集中,這是因為ViT使用了自注意力機制,可以更好地捕捉到圖像中的局部特征。
2.3.2 文本模型對比實驗
采用文本分類模型ALBERT[22]、BERT[23]、ERNIE[24]、MacBERT[25]和RoBERTa[26]作為詞嵌入工具,使用提示嵌入和焦點損失進行情感分類,得到的模型分別為Al-PIFT、B-PIFT、E-PIFT、M-PIFT和PIFT。文本模型實驗結(jié)果如表3所示。
表3 文本模型對比實驗結(jié)果
由表3可知,Al-PIFT在所有指標上都表現(xiàn)最差,說明其在降低參數(shù)量和內(nèi)存消耗的同時,也限制了模型容量和表征能力。B-PIFT雖各項指標有了一定的提升,但表現(xiàn)不如其他模型。E-PIFT的各項指標均有所提高,說明ERNIE模型能增強對中文語言特征的理解能力。M-PIFT使用糾錯型掩碼語言模型等方法進一步提高模型性能。PIFT模型在所有指標上都取得了最好的結(jié)果,這說明RoBERTa通過增加數(shù)據(jù)量和訓(xùn)練時間等方法進一步提高模型性能,讓模型學習到更豐富的先驗信息。
2.3.3 模型融合實驗
為驗證模態(tài)融合的有效性,文本模型均采用效果最好的PIFT進行文本特征提取,對視覺模型使用效果較好的ResNet34、ResNet50、ViT-B-32及ViT-B-16進行視覺特征提取,再使用本文方法進行模態(tài)融合,實驗結(jié)果如表4所示。
表4 模態(tài)融合對比實驗
通過實驗評估,發(fā)現(xiàn)CLIP-ResNet50和CLIP-CA-MSA表現(xiàn)相近,但CLIP-CA-MSA在準確率和回收率2個指標上均優(yōu)于CLIP-ResNet50。
為驗證本文各模塊對多模態(tài)情感分析的性能提升效果,本文分別針對視頻融合方法、特征融合方法、圖像分類方法及損失函數(shù),在CH-SIMS數(shù)據(jù)集上進行消融實驗。
視頻融合的方法主要有MeanP、LSTM、Transformer[27]3種。其中,MeanP可以減少計算量和內(nèi)存的消耗,但是也忽略了視頻中的時序信息,無法捕捉視頻的動態(tài)變化和關(guān)鍵幀。LSTM可以學習視頻中的長期依賴關(guān)系,捕捉視頻的時序信息和動態(tài)變化,但計算量和內(nèi)存消耗較大,容易出現(xiàn)梯度消失或爆炸的問題。Transformer使用自注意力機制對多幀視頻進行并行建模,實現(xiàn)全局交互和長范圍依賴,捕捉視頻中時空信息動態(tài)變化。視頻融合方法消融實驗結(jié)果如表5所示。
表5 視頻融合方法消融實驗結(jié)果
從表5可知,MeanP方法各項指標都較低,比文本單模態(tài)分類準確率低了0.44百分點,說明MeanP忽略了視頻中情感的變換過程。LSTM可以有效地考慮到視頻特征之間的時序關(guān)系,在各項指標上都有提升。Transformer方法能考慮到視頻特征之間的空間關(guān)系與交互信息,準確率較LSTM方法提高了0.88百分點。
拼接(concat)和交叉注意力(cross-attention)為多模態(tài)特征融合的2種方法。簡單拼接方法將各模態(tài)數(shù)據(jù)進行簡單拼接后使用一個編碼器來處理融合后的信息,可以節(jié)省計算資源,但會忽略單模態(tài)內(nèi)的交互信息。交叉注意力為每個模態(tài)設(shè)計一個Transformer編碼器,提取各模態(tài)特征,再交互模態(tài)特征,得到綜合的多模態(tài)表示。可以實現(xiàn)不同模態(tài)之間的信息交互,從而獲得更豐富的語義信息。其他模塊保持不變,更改多模態(tài)特征融合方法,實驗結(jié)果如表6所示。
表6 多模態(tài)特征融合方法消融實驗結(jié)果
由表6可知,交叉注意力方法可以更好地處理各模態(tài)的特征,避免了冗余信息問題,因此相對于拼接方法的情感分類效果有了明顯的提高。
綜上所述,通過對多模態(tài)情感分析模型的消融實驗進行效果對比,發(fā)現(xiàn)交叉注意力機制在CH-SIMS數(shù)據(jù)集上表現(xiàn)較好,驗證了該方法的有效性。
本文實驗使用CLIP模型中的相似度分類方法(similarity-CLS)將視覺特征與類別進行相似度計算,得分最高的類即為分類結(jié)果。與常用的線性分類(lineaer-CLS)進行對照實驗,使用CH-SIMS數(shù)據(jù)集,結(jié)果如表7所示。
表7 圖像情感分類方法消融實驗結(jié)果
由表7可知,Linear-CLS方法的準確率為76.75%,比相似度分類方法低1.76百分點。線性分類方法需要單獨訓(xùn)練線性分類器,在特征空間中尋找一個超平面,將不同類別的數(shù)據(jù)分離開來,這種方法的表現(xiàn)可能會受到特征空間分布的影響。并且由于CH-SIMS的數(shù)據(jù)量不大、視頻中存在噪聲干擾,也會導(dǎo)致線性分類方法準確率降低。而相似度計算方法與CLIP模型的預(yù)訓(xùn)練任務(wù)相同,預(yù)訓(xùn)練模型所學習到的豐富特征可以直接轉(zhuǎn)移到下游任務(wù),不需要額外的適應(yīng)過程,減少了模型的訓(xùn)練時間和數(shù)據(jù)需求。
為了證明本文使用損失函數(shù)的有效性,將其與加權(quán)求和損失函數(shù)進行對比實驗。損失函數(shù)消融實驗結(jié)果如表8所示。
表8 損失函數(shù)消融實驗結(jié)果
由表8可知,使用加權(quán)求和后的各項指標較單模態(tài)而言已經(jīng)有了較大的提升,這說明將損失加權(quán)求和能夠在一定程度上平衡不同模態(tài)的重要性和難度。但同方差不確定性損失在多模態(tài)情感分析中具有更好的效果,其在準確率與F1值上較加權(quán)求和損失提升了1.32和1.29百分點,說明各模態(tài)固有不確定性的重要性以及自動調(diào)整各模態(tài)權(quán)重能夠更加準確地學習到不同模態(tài)的信息,提高模型的性能。
本文針對多模態(tài)情感分析存在的模態(tài)融合不充分、信息冗余以及數(shù)據(jù)量不足等問題,提出一種基于特征融合和不確定性損失的多模態(tài)情感分析模型CLIP-CA-MSA。首先,闡述了CLIP-CA-MSA的整體框架。然后介紹了實驗所使用的數(shù)據(jù)集以及參數(shù)設(shè)置,通過實驗驗證了該模型的優(yōu)越性,并探究了不同的視覺模型對該方法的影響,證明了多模態(tài)預(yù)訓(xùn)練模型對該方法的有效提升。然后,通過消融實驗,驗證各模塊的有效性。但本文只使用了CH-SIMS數(shù)據(jù)集的文本部分和視頻的視覺部分。后續(xù)研究將加入視頻中的音頻模態(tài),以確保數(shù)據(jù)的完整性,進一步提升模型情感分析的準確率和泛化能力。