亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度圖文細粒度對齊的弱監(jiān)督多模態(tài)情感分析

        2025-02-28 00:00:00劉洲馬立平張海燕
        計算機應用研究 2025年2期

        摘 要:針對現(xiàn)有多模態(tài)情感分析方法在模態(tài)對齊上不夠精細,深度特征融合時易丟失重要信息的問題,提出了一種圖文深度交互模型。該模型擯棄使用圖像區(qū)域強監(jiān)督的方式檢測圖片中的物體,首先將圖片平等劃分成更精細的區(qū)域序列,通過雙路融合流的深度融合層來對齊多模態(tài)數(shù)據(jù)中蘊涵的潛在模式,并使用自適應門閥優(yōu)化殘差注意力信息的傳遞。在MSED和MSVA數(shù)據(jù)集上進行實驗,相比較基線模型,在準確率和F1分數(shù)上分別取得了最高1.06%、0.74%和0.75%、0.63%的提升。最后通過可視化細粒度對齊效果和消融實驗證明了所提方法的有效性。

        關鍵詞: 多模態(tài)情感分析; 模態(tài)細粒度對齊; 深度跨模態(tài)交互; 殘差注意力

        中圖分類號: TP391.4

        文獻標志碼: A

        文章編號: 1001-3695(2025)02-013-0419-06

        doi: 10.19734/j.issn.1001-3695.2024.07.0285

        Weakly supervised multimodal sentiment analysis based on deep

        fine-grained alignment of image and text

        Liu Zhou1, Ma Liping1, Zhang Haiyan2

        (1.School of Computer Science amp; Technology, Southwest University of Science amp; Technology, Mianyang Sichuan 621010, China; 2. Wuhan Sanjiang Yuanfang Technology Co., Ltd., Wuhan 430048, China)

        Abstract:This paper proposed an image-text deep interaction model. It addressed issues of insufficiently fine modal alignment and information loss in existing multimodal sentiment analysis methods. The model abandoned strong supervision for detecting objects in images. It divided images into finer region sequences. The deep fusion layer of dual-path fusion flow aligned potential patterns in multimodal data. Adaptive threshold valves optimized residual attention information transmission. Experiments on MSED and MSVA datasets show that compared with the baseline model, accuracy and F1 score increased by up to 1.06%, 0.74% and 0.75%, 0.63% respectively. Finally, visualization and ablation experiments demonstrate the effectiveness of the proposed method.

        Key words:multimodal sentiment analysis; fine-grained modal alignment; deep cross-modal interaction; residual attention

        0 引言

        進入信息時代以來,社交媒體已經成為人們分享觀點、表達情感的重要工具。社交媒體的多模態(tài)信息如圖像、文本等包含了豐富的情感信息,分析這些信息對理解用戶的情緒、態(tài)度、觀點具有重大意義[1。在商業(yè)領域,產品評論的情感分析能夠幫助企業(yè)更好地理解消費者需求,定制產品和服務;在政治領域,輿情分析能夠幫助政府洞察公眾情緒,反映社會的真實聲音。

        不同模態(tài)的信息有其獨特的特點和優(yōu)勢。圖片能夠直觀直白地呈現(xiàn)情緒的表達,文字則可以在細節(jié)描述上反映更多情緒的層次,且更加細膩。多模態(tài)情感分析通過將圖片、文字等不同模態(tài)的信息融合,在更寬廣和深入的層次上理解情感表達,使得情感分析結果更為準確客觀。

        在進行多模態(tài)情感分析時,將不同模態(tài)的特征直接拼接的方法不符合人類的感覺,缺乏解釋性,效果還往往不如人意。在社交信息中,人們首先會關注圖片的局部明顯區(qū)域,再去閱讀文本,試圖得到有情感色彩的描述。綜合圖片和文本上下文,是能直觀感受到圖片區(qū)域和文本存在呼應關系的。在圖1中,能發(fā)現(xiàn)文本中的“blue sky”在圖片中有對應區(qū)域,這種呼應關系蘊涵了人們表達的情感。將不同模態(tài)之間的呼應部分對齊[2,使用這種方式挖掘并理解呼應關系,能提升多模態(tài)情感分析的準確性。

        以往的研究在模態(tài)對齊上不夠精細,還需要進行額外的圖片物體檢測[3,且模型對文圖語義的關聯(lián)理解不夠充分。針對這些問題,本文提出了基于殘差注意力的跨模態(tài)深度交互模型RADM (residual attention-based cross-modal deep interaction model),放棄使用圖片物體檢測,將輸入圖片平等劃分為大小一致的像素塊序列,與文本序列在深度交互網絡中實現(xiàn)弱區(qū)域監(jiān)督的細粒度模態(tài)對齊,并提出一種自適應門閥,用于優(yōu)化注意力信息在不同融合層之間的殘差傳遞,通過在視覺問答數(shù)據(jù)集上進行預訓練,提高模型對圖文關系的理解。本文的主要貢獻可以總結如下:

        a)提出基于殘差注意力的跨模態(tài)深度交互模型,用于多模態(tài)情感分析的跨模態(tài)交互與細粒度對齊,實現(xiàn)了弱圖像監(jiān)督的跨模態(tài)學習。

        b)設計了自適應門閥控制不同融合層的殘差連接,使得多模態(tài)信息在多次的融合對齊中保留下重要信息。

        c)在MSED和MVSE數(shù)據(jù)集上進行實驗,在精確率、召回率和F1值上取得了比基線模型更好的成績。多種實驗證明了本文方法的有效性和普適性。

        1 相關工作

        本章將回顧多模態(tài)情感分析以及相關領域的研究方法。

        早期研究階段,研究人員使用矩陣和機器學習算法來進行模態(tài)融合。TFN[4使用張量外積計算不同模態(tài)間的關聯(lián),但是算出的矩陣維度大,難以訓練。LMF[5將特征進行線性變換后再通過點積運算來實現(xiàn)矩陣降維,但是矩陣融合始終存在參數(shù)多、難訓練、語義丟失的問題。Sikka等人[6使用多核學習方法對特征進行學習和組合,并利用SVM分類。李婷婷等人[7將多種特征組合,在使用SVM的基礎上添加CRF來提升分類精度。機器學習方法通常需要人工提取特征,十分依賴于先驗知識和專業(yè)技能,且模型復雜度相對較低,表達能力有限。

        隨著深度學習火熱發(fā)展,CNN、Faster R-CNN[8、Transfor-mer[9等重要模型進入了研究人員的視野。Dos Santos等人[10首次將CNN用于多模態(tài)情感分析任務,使用兩個獨立CNN分別提取簡短文字和圖片特征,再拼接特征并輸入到一個CNN中學習模態(tài)間的聯(lián)系,進行情感預測。但拼接只是簡單地將特征組合在一起,沒有考慮模態(tài)特征間的交互。Poria等人[11將注意力機制引入多模態(tài)情感分析領域,通過搭建基于跨模態(tài)注意力的網絡來改進上下文學習和特征融合。Xu等人[12則采用更強大的VGG19分別提取圖片中的目標和場景特征。文本特征、目標特征和場景特征的加入,豐富了跨模態(tài)注意力的融合信息。宋云峰等人[13使用CNN和BiGRU來提取模態(tài)特征,先進行跨模態(tài)融合,再進行模態(tài)內自注意力融合,這使得原始模態(tài)信息得到增強,促進了多模態(tài)融合效果。Xu等人[14繼續(xù)在深度上不斷探索,提出深層記憶網絡,使用多層的注意力和GRU單元來融合模態(tài)信息。

        深度融合使得模型缺乏可解釋性,研究人員開始將文本和圖像進行對齊以解釋圖像和文本的呼應關系。CAMP[15和INIT[16使用在Visual genome[17數(shù)據(jù)集上預訓練過的Faster R-CNN來檢測圖片中的物體,用跨模態(tài)注意力機制將圖片物體與文本對齊,并提出了不同門閥模塊抑制不好的融合,INIT還使用ResNet和GRU提取圖文全局特征作為補充信息。SCAN[18采用同樣的方式檢測圖片物體區(qū)域,并堆疊多層跨模態(tài)注意力來進行深度融合與對齊。Oscar[19將圖片物體框、物體標簽和文本一起輸入Transformer encoder來實現(xiàn)融合對齊。LXMERT[20先使用自注意力機制對圖片物體框和文本特征進行內部信息挖掘,再通過一層跨模態(tài)注意力進行對齊,極大提升了分類準確率。UNITER[21提出一種通用嵌入方式來構造物體框和文本的特征在公共空間的相似分布,適用多種視覺語言任務的跨模態(tài)融合,降低了對物體檢測網絡的性能要求。

        以上強監(jiān)督方法需要額外的數(shù)據(jù)集標注或者物體檢測網絡。Vilt[22放棄使用圖片物體檢測,將圖片劃分為區(qū)域序列與文本序列組合在一起,使用自注意力首次實現(xiàn)了弱圖像區(qū)域監(jiān)督的圖文模態(tài)對齊,使得訓練速度大幅加快,但是在精度上略有欠缺。為提高模型表達能力,mPLUG[23拓展融合深度,在融合層中構建以文本為主的融合路徑,來進行模態(tài)內增強和跨模態(tài)對齊,保證高效訓練的同時,提升了模型精度。

        在訓練方法上,LXMERT、UNITER、Vilt 和mPLUG都在多個視覺-語言任務數(shù)據(jù)集上進行預訓練,學習具有廣泛適用性的特征表示,捕捉不同類型視覺對象和語言的關聯(lián),為后續(xù)的任務提供高起點。

        注意力機制和跨模態(tài)對齊技術的發(fā)展,為提高模型的表達能力和可解釋性提供了新思路。并且,預訓練在多個視覺-語言任務上的成功應用,證明了廣泛特征表示的重要性?;谶@些啟發(fā),本文研究利用預訓練模型提取高質量的圖文特征,并提出了雙路融合流的深度融合層,以增強模型對圖文信息的深入理解,捕捉視覺對象和語言間的復雜關聯(lián)。此外,為了解決深度融合可能導致的模型退化問題,本文設計了一種門閥機制,優(yōu)化注意力信息的殘差傳遞,確保關鍵特征的保留和增強。最后,針對性的預訓練進一步強化了模型對圖文關系的理解,為多模態(tài)情感分析任務提供了堅實的基礎。

        2 方法

        2.1 模型概述

        如圖2所示,本文模型由特征編碼器、跨模態(tài)深度交互網絡以及自融合編碼器組成。

        特征編碼器對圖像和文本進行特征提取,將圖像轉換成像素塊嵌入序列,將文本轉換成單詞嵌入序列,隨后將序列輸入到跨模態(tài)殘差注意力網絡中進行深度交互融合。為避免在模態(tài)間的交互過程中喪失重要信息,本文提出自適應門閥控制的殘差注意力的傳遞來保留重要信息。通過將圖像和文本進行跨模態(tài)的交互,實現(xiàn)了模態(tài)間的細粒度對齊,多層的交互網絡實現(xiàn)特征深度融合,使模型能更好地跨模態(tài)學習。

        2.2 特征提取

        對于輸入長度為n的文本序列T,劃分其為單詞集{w1,w2,…,wn},其中wi是T的第i個單詞。使用BERT[24作為文本編碼器將單詞wi嵌入成d維的詞向量hi,并添加cls標記得到文本特征集H={hcls,h1,h2,…,hn}。BERT在大規(guī)模語料庫上進行了預訓練,從而比傳統(tǒng)的單向語言模型更加準確地捕捉語言的細微差異。

        hi=BERT(wi)(1)

        對于輸入圖片I,先將其調整至224×224的尺寸,再劃分成默認長度為196的16×16像素塊ri序列。使用ViT[25將像素塊線性投影為768維度的向量vi,從而得到視覺特征集V={vcls,v1,v2,…,vn}。ViT有效感受野要大于CNN中的局部卷積操作,可以捕捉長距離依賴關系和全局信息。得益于在大規(guī)模數(shù)據(jù)集上進行預訓練,ViT對圖像語義有更深入的理解。

        vi=ViT(ri)(2)

        2.3 自適應門閥控制的多頭殘差注意力機制

        受到RealFormer[26和Transformer的啟發(fā),在層中構建了殘差注意力(residual attention,RA)。相比直接相加,本文使用更加細膩的自適應門閥來控制殘差注意力的傳遞。

        首先,給定第n層的輸出Xn∈?l×d,將輸入進行線性變換得到查詢向量Q、鍵向量R和值向量V。殘差注意力的計算如式(3)(4)所示,其中l(wèi)是輸入個數(shù),d是特征維度,Wq、Wk、Wv是可學習的參數(shù)矩陣。

        Q=XnWq,K=XnWk,V=XnWν(3)

        RAn=softmaxQKTdk+Sn-1V(4)

        將Q和K的轉置相乘,再除以dk用來放縮,dk是輸入拆分后的維度。使用softmax將結果值歸一化到0~1,使和為1,得到的注意力分數(shù)矩陣反映出查詢向量Q和鍵向量K的匹配程度,隨后與值向量V相乘得到最終的注意力表示。

        在深層的特征交互融合中,特征在不同層的流動中可能失去一些關鍵信息,為了能夠將重要的信息傳遞下去,在不同的交互層之間建立殘差注意力傳遞。將第n-1層注意力分數(shù)信息繼續(xù)傳遞給第n層,并在第n層通過自適應門閥機制更新注意力分數(shù)。

        Sn=gateQKTdk,Sn-1

        n≥1

        QKTdkn=0(5)

        該門閥首先將從通道傳遞的注意力信息Sn-1和當前層的注意力分數(shù)相乘,通過一層全連接層來評估相似程度得到G,以此決定保留的信息Skeep,全連接層在訓練中自動調整,以抑制不好的信息。最終,這些被保留的信息會被繼續(xù)傳遞下去。門閥更新機制如式(6)~(8)所示,其中FC代表全連接層,concat表示拼接。

        G=FCQKTdk×Sn-1(6)

        Skeep=G×concat(QKTdk,Sn-1)(7)

        Sn=Skeep+Sn-12(8)

        為了提高泛化性能,使模型學習到輸入中更豐富的特性,將輸入Xn∈Euclid ExtraaBpl×d沿最小維度拆分,并行計算輸入不同維度部分的殘差注意力,最后拼接在一起就是多頭殘差注意力機制(multi-head residual attention,MHRA),其計算方式如式(9)(10)所示,其中k=d/dhead,k為拆分個數(shù),d為輸入維度,dbead為拆分后的維度。

        MHRA(Q,K,V,S)=concat(head1,…,headk)Wo(9)

        headi=RA(Q,K,V,S)(10)

        2.4 深度跨模態(tài)交互網絡

        深度跨模態(tài)交互網絡由n個單獨的交互層組成。每層中,分別是多頭殘差注意力、交互注意力和前饋層,使用對稱的布局來處理圖文模態(tài)信息。來自兩個模態(tài)的視覺特征序列H和文本特征序列V,在深層的交互中發(fā)揮各自模態(tài)的優(yōu)勢補充其他模態(tài),并完成細粒度的對齊,為最終的精確預測提供支撐。

        在第n層中,對于由n-1層輸入的特征Hn-1和Vn-1,先構建各自的殘差自注意力,挖掘內在的模式。其中LN表示層歸一化(layer normalization)。

        HnRA=LN(RA(Hn-1,Sn-1))(11)

        VnRA=LN(RA(Vn-1,Sn-1))(12)

        之后使用跨模態(tài)注意力(cross-modal attention,CA)進行模態(tài)間交互。如式(13)所示,輸入Xn1∈?l×d,Xn2∈?m×d,l和m是輸入長度,d為特征維度。由Xn1變換得到查詢向量Q,Xn2變換得到鍵向量K和值向量V。

        CA(Xn1,Xn2)=softmaxXn1Wq(Xn2WkTdkXn2Wv(13)

        跨模態(tài)注意力機制通過計算相似度,反映來自兩個不同特征空間的輸入的呼應程度。通過對應元素級別的計算完成兩個序列的細粒度對齊,更好地捕捉跨模態(tài)之間的語義信息,同時,可以充分利用視覺和語言兩種信息的互補性,視覺信息可以幫助語言特征更好地捕捉語義,而語言信息也能夠改善視覺特征的語義表達能力,增強特征的表達能力。最后得到交互完成的視覺特征序列VnCA和文本特征序列HnCA。

        HnCA=LN(CA(HnRA,VnRA)+HnRA)(14)

        VnCA=LN(CA(VnRA,HnRA)+VnRA)(15)

        將HnCA和HnCA作為輸入特征送入前饋層進行特征變換,使模型學習到輸入特征的復雜非線性關系。如式(16)所示,前饋層由兩個全連接層組成,使用GELU[27作為激活函數(shù)。相較于ReLU激活函數(shù)在0處存在斷點,GELU激活函數(shù)具有平滑非線性特性、更好的梯度傳播以及生物學啟發(fā)等特點,使其在處理復雜任務時比傳統(tǒng)的ReLU函數(shù)有更出色的表現(xiàn)。同時進行層歸一化,層歸一化的加入進一步增強了模型的泛化性能。式(16)中W1、W2、b1、b2為前饋層中的可學習參數(shù)。

        FFN(x)=GELU(xW1+b1)W2+b2(16)

        Hn=LN(FFN(HnCA)+HnCA)(17)

        Vn=LN(FFN(VnCA)+VnCA)(18)

        2.5 多模態(tài)情感預測

        在深度跨模態(tài)交互網絡中完成交互與對齊后,文本特征集Hn和視覺特征集Vn包含了充足的交互信息和上下文語義,將Hn和Vn進行池化操作得到Hnmean和Vnmean,這樣是進一步整合每個樣本的文本和視覺特征,為后續(xù)的分類任務提供更加緊湊和有效的輸入。最后拼接送入全連接層進行分類。本文使用交叉熵損失作為多模態(tài)情感預測任務的損失函數(shù)。如式(19)(20)所示,其中i是模型的預測,yi是真實的標簽, ⊕表示拼接操作。

        "

        3 實驗

        3.1 數(shù)據(jù)集

        本文在MSED[28和MVSA[29兩個多模態(tài)情感分析數(shù)據(jù)集上測試模型。

        MSED有9 190條從社交媒體上收集的圖文對,包括6 127條訓練數(shù)據(jù),1 021條驗證數(shù)據(jù)和2 042條測試數(shù)據(jù)。擁有欲望分析(desire analysis)、情感分析(sentiment analysis)、情緒分析(emotion analysis)三個任務,MSED詳細統(tǒng)計如表1所示。

        欲望分析著重聚焦于人內心所渴盼的目標或需求,其核心旨在深度洞悉人們心靈深處潛藏的愿望與動機。諸如對知識的好奇、對成功的追求、對溫馨家庭的向往等均是欲望分析所關注的范疇。欲望往往充當著驅動人們付諸行動以及做出決策的內在強勁動力,深入洞察個體的內心欲望,有助于揭示其行為動向和決策傾向。

        情感分析致力明確在各種表達中所蘊涵的情感趨向,具體可劃分為積極、消極或者中性三大類別,重點關注的是情感的宏觀走向。例如 “這部電影太棒了!”清晰地展現(xiàn)出積極向上的情感,而當有人評論“這個產品太糟糕了”,則鮮明地流露出消極負面的情感。情感分析通能夠幫助理解人們對于各種事物的基本態(tài)度。

        情緒分析相較而言會更深入地探查具體的情緒狀態(tài),如興奮、焦慮、平靜、沮喪等。例如,在面臨重要考試之前,人們可能會被焦慮所籠罩,而當意外收到心儀已久的禮物時,則可能瞬間感到無比興奮。情緒分析能精準地捕捉人們在不同情境下情緒的微妙變化。

        總的來講,欲望分析將目光鎖定在個體內在的渴求和追求之上,情感分析側重于把握情感大致趨向,而情緒分析則更細膩地探究具體情緒狀況。這三者之間相互關聯(lián)又存在差異,它們協(xié)同作用,是全方位多層次理解人類心理和行為的有力工具,能夠更加深入、全面地洞察人類豐富復雜的內心世界。

        MVSA包括MVSA-Single和MVSA-Multiple兩部分, MVSA-Single收集了來自Twitter的5 129條圖文對。每條圖文對由一個注釋者標注,該注釋者會分別給圖像和文本指定積極、中性或消極中的一種作為標簽。MVSA-Multiple包含了19 600個圖文對,每條圖文對由三個注釋者獨立標注。

        接下來確定每條圖文對的最終標簽。對于MVSA-Single,如果圖像和文本的標簽有一個是中性,另外一個是積極或者消極的,最終圖文對標簽就決定為積極或者消極。如果兩者標簽一個是積極,而另外一個是消極,則刪去這條數(shù)據(jù)。對于MVSA-Multiple,先投票確定文本和圖像的標簽,規(guī)定至少有兩個標簽相同,才視為文本或圖像的標簽,否則刪去數(shù)據(jù)。經過投票,數(shù)據(jù)集標簽情況變?yōu)榕cMVSA-Single相同,再使用同樣方法確定MVSA-Multiple最終標簽。確定標簽后,再刪掉無法讀取的數(shù)據(jù),最終統(tǒng)計情況如表2所示。

        3.2 實驗具體設置

        本文使用PyTorch 2.1.0框架實現(xiàn)模型,使用AdamW優(yōu)化器。為提高泛化能力,防止過擬合,采用dropout,其概率設為0.2,批處理大小設為64,隨機數(shù)種子設為42,隱藏層維度為1 024,文本最大長度設為120,深度跨模態(tài)交互網絡的層數(shù)為4層。

        在VQA v2視覺問答數(shù)據(jù)集[30上預訓練模型。VQA v2包含265 016張圖像,問題涉及圖像內容、顏色、屬性、關系等多方面,使模型能學到強大的圖文理解能力。預訓練權重衰減設為1E-2,初始學習率設為1E-4,之后每10輪降為原來的1/10,在NVIDIA A6000 上訓練30輪得到的模型權重為V。

        對MSED的三個任務,統(tǒng)一設置權重衰減為1E-4,視覺編碼器學習率為1E-5,其他參數(shù)學習率為1E-4,學習率每10輪降為原來的1/10。對情感分析任務,使用權重V繼續(xù)訓練6輪,并得到權重S;對情緒分析任務,使用權重S繼續(xù)訓練3輪;對欲望分析任務,使用權重V繼續(xù)訓練6輪。

        對MVSA-Single和MVSA-Multiple,分別按照8∶1∶1的比例劃分為訓練集、測試集、驗證集。統(tǒng)一權重衰減設置為1E-3,視覺編碼器學習率設置為1E-4,其他參數(shù)學習率設置為1E-3,每10輪降為原來的1/10。使用權重V分別繼續(xù)訓練3輪、5輪。

        本文使用準確率(accuracy)、F1分數(shù)(F1-score)作為評估指標。準確率綜合考慮了所有樣本的分類情況,能反映模型整體上的表現(xiàn)。在不平衡的數(shù)據(jù)集上,不同類別的樣本數(shù)量存在較大差異,導致模型可能會傾向于預測出多數(shù)類,表面上準確率較高,但實際上對少數(shù)類的識別效果不佳,F(xiàn)1分數(shù)綜合精確率和召回率能更全面地評價模型的性能。

        3.3 基線模型

        本文選定如下基線模型來進行比較:

        a)ITIN:文獻[16]使用自上而下的注意力來提取圖片物體框用于對齊模態(tài),提出了門閥模塊控制融合效果,用ResNet18、GRU提取全局信息輔助分類。

        b)CoMN[31:使用多層注意力和線性層構建了模態(tài)交互層,將圖片特征圖和文本詞嵌入向量在交互層間深度融合。

        c)BERT+ResNet:使用BERT base提取文本信息,使用ResNet50提取圖像信息,最后簡單拼接用于分類,以下簡稱BR。

        d)MMTF-DES[32:微調了ViLT和VAuLT[33兩個預訓練視覺語言模型,將它們組合在一起用于多模態(tài)情感分類。

        e)MultimodalTransformer:文獻[28]使用一層Transformer Encoder融合圖片的特征圖和文本詞嵌入向量,以下簡稱MT。

        f)MVAN[34:利用記憶網絡的交互學習機制提取單模態(tài)情緒特征,并交互建模圖文之間的跨視角依賴關系來作出預測。

        3.4 實驗結果

        如表3所示,本文RADM模型在兩個數(shù)據(jù)集上都取得了比基線模型更好的效果。與第二的MMTF-DES相比,在MSED的sentiment analysis 任務上,準確率和F1分別提高0.65%、0.51%;在emotion analysis任務上,分別提高1.06%、0.74%;在desire analysis任務上,分別提高0.82%、0.73%。在MSVA-Single數(shù)據(jù)集上,準確率和F1分數(shù)分別提高0.62%和0.42%。在MSVA-Multiple數(shù)據(jù)集上提高0.75%、0.63%。

        從總體表現(xiàn)來看,由于 MT只進行了淺層融合,模型結構較簡單,所以性能最差,CoMN和MVAN通過增加融合層數(shù),顯著提升了模型的表達能力,MVAN還增強了長距離依賴能力,從而在效果上表現(xiàn)更好。BERT和ResNet在大規(guī)模數(shù)據(jù)集上進行預訓練,能夠學習到廣泛而通用的特征表示,而MT、CoMN、MVAN使用未預訓練的模型提取特征,在特征提取上優(yōu)勢不足。INIT不但使用預訓練模型提取全局信息和特征,還使用特殊門閥結構抑制不好的融合,性能要強過BERT+ResNet這種預訓練模型的簡單組合。Vilt則直接將整個模型都在大規(guī)模圖文數(shù)據(jù)集上進行過預訓練,大規(guī)模數(shù)據(jù)集通常包含豐富的語義和模式信息,使得Vilt能更好地應對復雜多樣化的下游任務場景。MMTF-DES模型采用了集成學習的思想,通過結合ViLT和VauLT兩個預訓練模型,有效降低了單個模型可能存在的局限性和偏差,進一步提升了總體泛化能力。相比基線模型,本文提出的RADM使用BERT和ViT提取特征信息,為跨模態(tài)交互奠定了良好的基礎。構建深層的跨模態(tài)對齊網絡,更加精確地挖掘圖像和文本之間的語義關系,增強了模型對圖文關系的理解能力。有針對性地在VQA v2數(shù)據(jù)集上預訓練,使得模型擁有了更加強大的視覺-語言理解能力。得益于上述的創(chuàng)新和訓練方法,使得模型取得了優(yōu)秀的成績。在兩個數(shù)據(jù)集上的測試,也充分說明了本文模型的優(yōu)勢和任務普適性。

        3.5 消融實驗

        為證明所提出方法的有效性,針對關鍵組件進行消融實驗。先分別單獨去掉模型中的殘差注意力控制門閥、跨模態(tài)交互,將這兩種變體分別命名為rm_rg、rm_c。再同時去掉殘差注意力控制門閥和跨模態(tài)交互,命名為rm_rg_c,在兩個數(shù)據(jù)集上對這些變體模型進行了五輪測試,并取平均值作為最終結果。

        消融實驗結果如表4所示,總體來看,所有變體的性能相較完整的RADM模型都有不同程度下降,組合模塊消融變體的性能下降幅度大于單模塊消融變體。僅當門閥被移除后,變體rm_rg在各項指標上的表現(xiàn)都有明顯下降,這證明殘差注意力控制門閥對模型性能的顯著正面影響,門閥控制結構可以優(yōu)化不同層之間的特征融合,使得深層網絡能夠更有效地整合來自不同層的注意力信息,失去門閥控制,模型的殘差連接使用直接傳遞的方式,增加了信息的冗余,反而造成了性能下降??缒B(tài)交互模塊在變體中移除后,變體rm_c表現(xiàn)同樣下降,但幅度小于rm_rg,這證明該模塊起到了重要作用,其確保模型能夠充分利用不同模態(tài)的信息,以實現(xiàn)更深層次語義理解,它的缺失影響了模型處理多模態(tài)數(shù)據(jù)的能力。rm_rg_c同時去掉了殘差注意力控制門閥和跨模態(tài)交互,在結構上退化為多層殘差注意力和前饋層的深度堆疊,同時失去門閥梳理和跨模態(tài)信息的交互,所以性能表現(xiàn)最差。綜上,實驗結果清晰地展示了單個組件的重要性。跨模態(tài)交互、殘差注意力門閥都是該模型的關鍵組成,它們的存在對于模型保持良好的多模態(tài)理解能力至關重要,共同使模型取得出色的成績。

        3.6 用例分析

        在交互網絡的最后一層,取出文本對圖像的多頭交叉注意力均值,得到權重矩陣的每一行代表每個單詞與像素塊的對齊程度。將多個詞對應的注意力一起顯示出來,查看感興趣的短語和圖像區(qū)域的對齊程度,區(qū)域越亮,代表對齊效果越好。

        圖3中,第一張圖片為原始的輸入,將其劃分為196個16×16的像素塊。最上方文字為原始文本。其余三張圖為對齊效果展示??梢钥吹健癢axwing trills, Chickadees calling”(紫衣雀鳴叫,山雀呼喚)和“enthusiastic athletes”(激情四射的運動員)在圖中并沒有出現(xiàn),或者說顯示效果不好,因此對齊效果不好,注意力權重比較分散。而“blue sky amp; snow”(藍天與雪地)則對齊較好,注意力權重集中在上方藍天和雪地上。圖文匹配不好可能是諷刺,也可能是一起補充描述心情,模型根據(jù)圖文匹配程度,再結合了圖文全局上下文語義,最終將情感預測為積極,這也與人類的直觀感受過程一致。

        4 結束語

        針對模態(tài)對齊上不夠精細,特征融合時易丟失重要信息,需要額外的圖片物體檢測的問題,本文提出了一種基于殘差注意力的跨模態(tài)深度交互模型來實現(xiàn)細粒度的圖文模態(tài)對齊,并用于多模態(tài)情感分析。本文將224×224的圖片均勻劃分為16×16的小像素塊,并嵌入得到像素塊序列,與文本單詞級向量序列來作細粒度的對齊。為了保證在深層的融合中保留下重要信息,還設計了一種門閥結構來優(yōu)化注意力分數(shù)的深層傳遞。本文模型在MSED和MSVA兩個多模態(tài)數(shù)據(jù)集上都取得了優(yōu)秀的結果,通過消融實驗和可視化效果,證明了研究方法的有效性。

        此外,本文方法仍存在一些局限性,模型對諸如哲學、之類的比較抽象的圖文信息理解能力較弱。設法提升模型對抽象圖文關系的理解將是筆者接下來的主要研究工作,同時也將不斷探索模型在視覺語言類任務上的通用潛力。

        參考文獻:

        [1]Chandrasekaran G, Nguyen T N, Hemanth D J. Multimodal sentimental analysis for social media applications: a comprehensive review [J]. Wiley Interdisciplinary Reviews: Data Mining and Know-ledge Discovery, 2021, 11(5): e1415.

        [2]Wang Xiaohan, Zhu Linchao, Yang Yi. T2VLAD: global-local sequence alignment for text-video retrieval [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press, 2021: 5079-5088.

        [3]Anderson P, He Xiaodong, Buehler C, et al. Bottom-up and top-down attention for image captioning and visual question answering [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2018: 6077-6086.

        [4]Zadeh A, Chen Minghai, Poria S, et al. Tensor fusion network for multimodal sentiment analysis [EB/OL]. (2017-07-23). https://arxiv.org/abs/1707.07250.

        [5]Liu Zhun, Shen Ying, Lakshminarasimhan V B, et al. Efficient low-rank multimodal fusion with modality-specific factors [EB/OL]. (2018-05-31). https://arxiv.org/abs/1806.00064.

        [6]Sikka K, Dykstra K, Sathyanarayana S, et al. Multiple kernel lear-ning for emotion recognition in the wild [C]// Proc of the 15th ACM on International Conference on Multimodal Interaction. New York:ACM Press, 2013: 517-524.

        [7]李婷婷, 姬東鴻. 基于 SVM 和 CRF 多特征組合的微博情感分析 [J]. 計算機應用研究,2015, 32(4): 978-981.(Li Tingting,Ji Donghong.Sentiment analysis of micro-blog based on SVM and CRF using various combinations of features [J]. Application Research of Computers, 2015, 32(4):978-981.)

        [8]Ren Shaoqing, He Kaiming, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks [J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2016, 30(6): 1137-1149.

        [9]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need [C]// Proc of Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2017: 6000-6010.

        [10]Dos Santos C, Gatti M. Deep convolutional neural networks for sentiment analysis of short texts [C]// Proc of the 25th International Conference on Computational Linguistics: Technical Papers. 2014: 69-78.

        [11]Poria S, Cambria E, Hazarika D, et al. Multi-level multiple attentions for contextual multimodal sentiment analysis [C]// Proc of IEEE International Conference on Data Mining. Piscataway,NJ:IEEE Press, 2017: 1033-1038.

        [12]Xu Nan, Mao Wenji. Multisentinet: a deep semantic network for multimodal sentiment analysis [C]// Proc of ACM Conference on Information and Knowledge Management. New York:ACM Press, 2017: 2399-2402.

        [13]宋云峰, 任鴿, 楊勇, 等. 基于注意力的多層次混合融合的多任務多模態(tài)情感分析 [J]. 計算機應用研究, 2022, 39(3): 716-720. (Song Yunfeng, Ren Ge, Yang Yong, et al. Multimodal sentiment analysis based on hybrid feature fusion of multi-level attention mechanism and multi-task learning [J]. Application Research of Computers, 2022, 39(3): 716-720.)

        [14]Xu Nan, Mao Wenji, Chen Guandan. Multi-interactive memory network for aspect based multimodal sentiment analysis [C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2019: 371-378.

        [15]Wang Zihao, Liu Xihui, Li Hongsheng, et al. CAMP: cross-modal adaptive message passing for text-image retrieval [C]// Proc of IEEE/CVF International Conference on Computer Vision. Pisca-taway, NJ: IEEE Press, 2019: 5764-5773.

        [16]Zhu Tong, Li Leida, Yang Jufeng, et al. Multimodal sentiment ana-lysis with image-text interaction network [J]. IEEE Trans on Multimedia, 2022, 25: 3375-3385.

        [17]Krishna R, Zhu Yuke, Groth O, et al. Visual genome: connecting language and vision using crowdsourced dense image annotations [J]. International Journal of Computer Vision, 2017, 123: 32-73.

        [18]Lee K H, Chen Xi, Hua Gang, et al. Stacked cross attention for image-text matching [C]// Proc of European Conference on Compu-ter Vision. Berlin: Springer, 2018: 201-216.

        [19]Li Xiujun, Yin Xi, Li Chunyuan, et al. Oscar: object-semantics aligned pre-training for vision-language tasks [C]//Proc of the 16th European Conference on Computer Vision. Cham: Springer, 2020: 121-137.

        [20]Tan Hao, Bansal M. LXMERT: learning cross-modality encoder representations from transformers [EB/OL]. (2019-12-03). https://arxiv.org/abs/1908.07490.

        [21]Chen Y C, Li Linjie, Yu Licheng, et al. UNITER: universal image-text representation learning [C]//Proc of European Conference on Computer Vision. Cham: Springer, 2020: 104-120.

        [22]Kim W, Son B, Kim I. Vilt: vision-and-language transformer without convolution or region supervision [C]// Proc of International Confe-rence on Machine Learning. New

        York: ACM Press, 2021: 5583-5594.

        [23]Li Chenliang, Xu Haiyang, Tian Junfeng, et al. mPLUG: effective and efficient vision-language learning by cross-modal skip-connections [EB/OL]. (2022-05-25).https://arxiv.org/abs/2205.12005.

        [24]Devlin J, Chang M W, Lee K, et al. BERT: pre-training of deep bidirectional Transformers for language understanding [EB/OL]. (2019-05-24). https://arxiv.org/abs/1810.04805.

        [25]Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16×16 words: Transformers for image recognition at scale [EB/OL]. (2021-06-03). https://arxiv.org/abs/2010.11929.

        [26]He Ruining, Ravula A, Kanagal B, et al. RealFormer: Transformer likes residual attention [EB/OL]. (2021-09-10).https://arxiv.org/abs/2012.11747.

        [27]Hendrycks D, Gimpel K. Gaussian error linear units [EB/OL]. (2023-06-06). https://arxiv.org/abs/1606.08415.

        [28]Jia A, He Yu, Zhang Yazhou, et al. Beyond emotion: a multi-modal dataset for human desire understanding [C]// Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA:ACL Press, 2022: 1512-1522.

        [29]Niu Teng, Zhu Shiai, Pang Lei, et al. Sentiment analysis on multi-view social data [C]//Proc of the 22nd International Conference on MultiMedia Modeling. Cham: Springer, 2016: 15-27.

        [30]Goyal Y, Khot T, Summers-Stay D, et al. Making the v in vqa matter: Elevating the role of image understanding in visual question answering [C]// Proc of IEEE conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2017: 6904-6913.

        [31]Xu Nan, Mao Wenji, Chen G. A co-memory network for multimodal sentiment analysis [C]// Proc of the 41st International ACM SIGIR Conference on Research amp; Development in Information Retrieval. New York:ACM Press, 2018: 929-932.

        [32]Aziz A, Chowdhury N K, Kabir M A, et al. MMTF-DES: a fusion of multimodal transformer models for desire, emotion, and sentiment analysis of social media data [EB/OL]. (2023-10-22). https://arxiv.org/abs/2310.14143.

        [33]Chochlakis G, Srinivasan T, Thomason J, et al. VAuLT: augmenting the vision-and-language transformer with the propagation of deep language representations [EB/OL]. (2023-01-25).https://arxiv.org/abs/2208.09021.

        [34]Yang Xiaocui, Feng Shi, Wang Daling, et al. Image-text multimodal emotion classification via multi-view attentional network [J]. IEEE Trans on Multimedia, 2020, 23: 4014-4026.

        无码中文字幕专区一二三| 黑森林福利视频导航| 999国内精品永久免费视频| 久久久久亚洲AV成人网毛片 | 女人的精水喷出来视频| 无码人妻精品一区二区三区下载| 亚洲中文字幕无码卡通动漫野外| 亚洲一区有码在线观看| 亚洲在线视频免费视频| 黑人巨大无码中文字幕无码| 国产亚洲精久久久久久无码苍井空 | 精品亚洲少妇一区二区三区| 亚洲一区二区岛国高清| 岳丰满多毛的大隂户| 亚洲av无码国产剧情| 国产成人久久精品激情91| 在线亚洲妇色中文色综合| 狠狠色噜噜狠狠狠狠97首创麻豆| 国产亚洲av综合人人澡精品| 青青草视频华人绿色在线| 亚洲成熟中老妇女视频| 艳妇臀荡乳欲伦69调教视频| 亚洲综合无码一区二区| 蜜桃av多人一区二区三区| 亚洲乱码中文字幕综合久久| 99热这里有精品| 成人无码h真人在线网站| 91亚洲夫妻视频网站| 色与欲影视天天看综合网| 国产精品久久婷婷六月丁香| 2020最新国产激情| 国产亚洲精品久久情侣| 人妻 色综合网站| 亚洲国产美女精品久久| 激情乱码一区二区三区| 亚洲国产精品成人久久久| 欧美freesex黑人又粗又大| 又色又爽又黄的视频网站| 手机av在线中文字幕| 99久久人妻精品免费二区| 男性一插就想射是因为啥|