亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向多模態(tài)情感分析的雙模態(tài)交互注意力

        2022-04-13 02:40:40包廣斌李港樂(lè)王國(guó)雄
        計(jì)算機(jī)與生活 2022年4期
        關(guān)鍵詞:注意力語(yǔ)音模態(tài)

        包廣斌,李港樂(lè),王國(guó)雄

        蘭州理工大學(xué) 計(jì)算機(jī)與通信學(xué)院,蘭州730050

        隨著移動(dòng)互聯(lián)網(wǎng)和和社交媒體的蓬勃發(fā)展,越來(lái)越多的用戶(hù)通過(guò)YouTube、微博、抖音等社交媒體討論時(shí)事、表達(dá)觀點(diǎn)、分享日常等,從而產(chǎn)生了海量的具有情感取向的多模態(tài)數(shù)據(jù)。在社交媒體平臺(tái)上,用戶(hù)上傳的視頻是多模態(tài)數(shù)據(jù)的重要來(lái)源之一。視頻數(shù)據(jù)通常包含三種模態(tài):描述用戶(hù)觀點(diǎn)的文本、表達(dá)用戶(hù)面部表情的圖像以及記錄用戶(hù)語(yǔ)音語(yǔ)調(diào)的音頻。針對(duì)這些多模態(tài)數(shù)據(jù)進(jìn)行情感分析將有利于了解人們對(duì)某些事件或商品的觀點(diǎn)和態(tài)度,在輿情分析、心理健康、政治選舉等方面都有著巨大的應(yīng)用價(jià)值。

        與傳統(tǒng)的單模態(tài)情感研究相比,多模態(tài)情感分析的目標(biāo)是通過(guò)融合多個(gè)模態(tài)的數(shù)據(jù)來(lái)推斷目標(biāo)序列的情感狀態(tài)。如圖1 顯示了文本、面部表情和語(yǔ)音語(yǔ)調(diào)對(duì)于情感分類(lèi)的作用。其中,視頻中說(shuō)話人關(guān)于某部電影發(fā)表評(píng)論“The only actor who can really sell their lines is Erin.”這條評(píng)論是一個(gè)陳述句,而且沒(méi)有明顯體現(xiàn)情感取向的詞語(yǔ),因此僅僅依據(jù)這句話所傳達(dá)的信息很難判斷出說(shuō)話人的情感狀態(tài),但如果為這句評(píng)論加入說(shuō)話人的面部表情(facial expressions)和語(yǔ)音語(yǔ)調(diào)(voice intonation),則可以反映出說(shuō)話人目前的情感狀態(tài)是消極的。因此,對(duì)于多模態(tài)情感分析任務(wù),文本、語(yǔ)音和視頻模態(tài)之間的語(yǔ)義和情感關(guān)聯(lián)能夠?yàn)榍楦蟹诸?lèi)帶來(lái)重要的補(bǔ)充信息。

        圖1 文本、面部表情和語(yǔ)音語(yǔ)調(diào)對(duì)于情感分類(lèi)的作用Fig.1 Effect of text,facial expressions and voice intonation on sentiment classification

        由于文本、語(yǔ)音和視頻特征在時(shí)間、語(yǔ)義維度上存在較大差異,目前大多數(shù)多模態(tài)情感分析方法是將所有可用的模態(tài)特征直接映射到一個(gè)共享空間中,學(xué)習(xí)不同模態(tài)之間復(fù)雜的交互作用。但是,大多數(shù)情況下,并不是融合的模態(tài)信息越豐富,情感分類(lèi)的準(zhǔn)確率就越高,這主要是因?yàn)椴煌B(tài)的信息對(duì)于情感分類(lèi)的貢獻(xiàn)是不相等的。

        為了解決上述問(wèn)題,本文提出了一種融合上下文和雙模態(tài)交互注意力的多模態(tài)情感分析方法,該方法首先采用BiGRU(bidirectional gated recurrent unit)分別捕獲文本、語(yǔ)音和視頻序列的上下文特征。然后利用不同模態(tài)之間存在的語(yǔ)義和情感關(guān)聯(lián),設(shè)計(jì)了一種雙模態(tài)交互注意力,并結(jié)合自注意力和全連接層構(gòu)造了一個(gè)層次化的多模態(tài)特征融合模塊,旨在通過(guò)注意力機(jī)制更多地關(guān)注目標(biāo)序列及其上下文信息與各模態(tài)之間的相關(guān)性,從而幫助模型區(qū)分哪些模態(tài)信息對(duì)于判別目標(biāo)序列的情感分類(lèi)更加重要,實(shí)現(xiàn)跨模態(tài)交互信息的有效融合。最后,在CMU-MOSI(CMU multimodal opinion-level sentiment intensity)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,相比現(xiàn)有的多模態(tài)情感分類(lèi)模型,該模型在準(zhǔn)確率和1分?jǐn)?shù)上均有所提升。

        1 相關(guān)工作

        多模態(tài)情感分析主要致力于聯(lián)合文本、圖像、語(yǔ)音與視頻模態(tài)的情感信息來(lái)進(jìn)行情感的識(shí)別與分類(lèi),是自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)和語(yǔ)音識(shí)別相交叉的一個(gè)新興領(lǐng)域。與單一模態(tài)的情感分析相比,多模態(tài)情感分析不僅要學(xué)習(xí)單模態(tài)的獨(dú)立特征,還要融合多種模態(tài)的數(shù)據(jù)。多模態(tài)融合主要是通過(guò)建立能夠分析和處理不同模態(tài)數(shù)據(jù)的模型來(lái)為情感分類(lèi)提供更多的有效信息。Zadeh 等人利用模態(tài)之間的聯(lián)系建立了一種張量融合網(wǎng)絡(luò)模型,采用三倍笛卡爾積以端到端的方式學(xué)習(xí)模態(tài)之間的動(dòng)力學(xué)。Zadeh等人提出了一種可解釋的動(dòng)態(tài)融合圖(dynamic fusion graph,DFG)模型,用于研究跨模態(tài)動(dòng)力學(xué)的本質(zhì),并根據(jù)每個(gè)模態(tài)的重要性動(dòng)態(tài)改變其結(jié)構(gòu),從而選擇更加合理的融合圖網(wǎng)絡(luò)。Chen 等人提出利用時(shí)間注意力的門(mén)控多模態(tài)嵌入式模型來(lái)實(shí)現(xiàn)多模態(tài)輸入時(shí)單詞級(jí)別的特征融合,該方法有效地緩解了噪聲對(duì)特征融合的影響。上述方法在進(jìn)行特征提取時(shí)都將每個(gè)話語(yǔ)看作獨(dú)立的個(gè)體,忽略了與上下文之間的依賴(lài)關(guān)系。

        多模態(tài)情感分析的研究數(shù)據(jù)通常來(lái)自社交網(wǎng)站上用戶(hù)上傳的視頻,這些視頻數(shù)據(jù)被人為地劃分成視頻片段序列,而片段序列之間往往存在著一定的語(yǔ)義和情感聯(lián)系。因此,當(dāng)模型對(duì)目標(biāo)序列進(jìn)行情感分類(lèi)時(shí),不同片段序列之間的上下文可以提供重要的提示信息。Poria 等人建立了一種基于LSTM(long short-term memory)的層次模型來(lái)捕捉視頻片段間的上下文信息。Majumder 等人通過(guò)保持兩個(gè)獨(dú)立的門(mén)控循環(huán)單元來(lái)跟蹤視頻中對(duì)話者的狀態(tài),有效地利用了說(shuō)話者之間的區(qū)別和對(duì)話中的上下文信息。Shenoy 等人提出的基于上下文感知的RNN(recurrent neural network)模型能夠有效地利用和捕獲所有模態(tài)對(duì)話的上下文用于多模態(tài)情緒識(shí)別和情感分析。Kim 等人建立了一種基于多頭注意力的循環(huán)神經(jīng)網(wǎng)絡(luò)模型,該模型采用BiGRU 和注意力機(jī)制來(lái)捕獲會(huì)話的上下文信息的關(guān)鍵部分。但是,現(xiàn)在人們表達(dá)情感的方式已不再局限于單一的文字,往往通過(guò)文本、圖像、視頻等多種模態(tài)相結(jié)合的方式共同傳遞信息,那么如何有效利用多模態(tài)信息進(jìn)行情感分析仍是一項(xiàng)艱巨的任務(wù)。

        近年來(lái),注意力機(jī)制已被廣泛應(yīng)用于NLP(natural language processing)領(lǐng)域。研究表明,注意力機(jī)制能夠聚焦于輸入序列的關(guān)鍵信息,并忽略其中不相關(guān)的信息,從而提高模型的整體性能。因此,越來(lái)越多的研究人員嘗試將注意力機(jī)制應(yīng)用于探索模態(tài)內(nèi)部和不同模態(tài)之間的交互作用。Zadeh 等人提出了一種多注意力循環(huán)神經(jīng)網(wǎng)絡(luò)(multi-attention recurrent network,MARN),利用多注意力模塊(multi-attention block,MAB)發(fā)現(xiàn)模態(tài)之間的相互作用,并將其存儲(chǔ)在長(zhǎng)短時(shí)混合記憶(long-short term hybrid memory,LSTHM)的循環(huán)網(wǎng)絡(luò)中。Xi 等人提出利用多頭交互注意力來(lái)學(xué)習(xí)文本、語(yǔ)音和視頻模態(tài)之間的相關(guān)性。Verma 等人提出了一種高階通用網(wǎng)絡(luò)模型來(lái)封裝模態(tài)之間的時(shí)間粒度,從而在異步序列中提取信息,并利用LSTM 和基于張量的卷積神經(jīng)網(wǎng)絡(luò)來(lái)發(fā)現(xiàn)模態(tài)內(nèi)部和模態(tài)之間的動(dòng)力學(xué)。

        綜上所述,隨著深度學(xué)習(xí)研究的不斷深入,多模態(tài)情感分析實(shí)現(xiàn)了跨越式的進(jìn)步和發(fā)展,但如何有效地利用單模態(tài)獨(dú)立特征和多模態(tài)交互特征進(jìn)行建模依舊是多模態(tài)情感分析所面臨的主要問(wèn)題。為此,本文在現(xiàn)有多模態(tài)情感分析方法的基礎(chǔ)上,提出了一種融合上下文和雙模態(tài)交互注意力的多模態(tài)情感分析模型,旨在利用BiGRU 和注意力機(jī)制更多地關(guān)注相鄰話語(yǔ)之間的依賴(lài)關(guān)系以及文本、語(yǔ)音和視頻模態(tài)之間的交互信息并為其分配合理的權(quán)重,實(shí)現(xiàn)多模態(tài)特征的有效融合,從而提高多模態(tài)情感分類(lèi)的準(zhǔn)確率。

        2 融合上下文和雙模態(tài)交互注意力的模型

        本文針對(duì)現(xiàn)有多模態(tài)情感分析方法中存在情感分類(lèi)準(zhǔn)確率不高,難以有效融合多模態(tài)特征等問(wèn)題,提出了一種融合上下文和雙模態(tài)交互注意力的多模態(tài)情感分析模型(multimodal sentiment analysis model based on context and bimodal interactive attention,Con-BIAM),如圖2 所示。具體來(lái)說(shuō),Con-BIAM 模型分為以下四部分:

        圖2 融合上下文和雙模態(tài)交互注意力的模型結(jié)構(gòu)Fig.2 Model structure combining context and bimodal interactive attention

        (1)針對(duì)文本、語(yǔ)音和視頻模態(tài)數(shù)據(jù)的不同特點(diǎn),構(gòu)建不同的神經(jīng)網(wǎng)絡(luò)提取單模態(tài)特征。

        (2)利用BiGRU 分別編碼文本、語(yǔ)音和視頻序列,然后將其映射到共享的語(yǔ)義空間中,在每個(gè)模態(tài)的不同時(shí)間步長(zhǎng)上捕獲視頻目標(biāo)序列的上下文信息。

        (3)利用不同模態(tài)之間的交互作用,設(shè)計(jì)了一種新穎的雙模態(tài)交互注意力機(jī)制融合不同模態(tài)的信息;然后通過(guò)雙模態(tài)交互注意力、自注意力和全連接層構(gòu)造多模態(tài)特征融合模塊,得到跨模態(tài)聯(lián)合特征。

        (4)將得到的上下文特征和跨模態(tài)聯(lián)合特征連接起來(lái),經(jīng)過(guò)一層全連接層后饋送至Softmax 進(jìn)行最終的情感分類(lèi)。

        2.1 特征提取

        為了獲取視頻中的文本、語(yǔ)音和視覺(jué)特征,采用卡內(nèi)基梅隆大學(xué)提供的多模態(tài)數(shù)據(jù)分析工具CMUMultimodal Data SDK進(jìn)行提取。對(duì)于文本數(shù)據(jù),首先將視頻中的每個(gè)話語(yǔ)進(jìn)行轉(zhuǎn)錄,然后將其表示為Glove 詞向量,輸入至卷積神經(jīng)網(wǎng)絡(luò)中提取文本特征。為了有效地利用視頻中的動(dòng)態(tài)信息,使用3DCNN(3D convolutional neural networks)從視頻中提取視覺(jué)特征。在實(shí)驗(yàn)過(guò)程中,32 個(gè)特征圖(f)和5×5×5(f×f×f)的過(guò)濾器取得了最優(yōu)的結(jié)果。對(duì)于音頻模態(tài)數(shù)據(jù),利用openSMILE工具包以30 Hz的幀速率和100 ms的滑動(dòng)窗口提取音頻特征。

        2.2 上下文特征表示

        本文將預(yù)處理后的文本()、語(yǔ)音()和視頻()特征分別輸入至BiGRU 中提取序列的上下文信息。考慮到不同模態(tài)數(shù)據(jù)的異構(gòu)性,利用Dense層在時(shí)間維度上提取目標(biāo)序列與上下文特征之間的長(zhǎng)跨度信息,獲得相同數(shù)據(jù)維度的上下文特征表示。

        假設(shè)數(shù)據(jù)集包含個(gè)視頻片段,每個(gè)視頻片段對(duì)應(yīng)一個(gè)固定情感強(qiáng)度的觀點(diǎn)。視頻中包含的一系列片段序列可表示為:

        此外,為了更加準(zhǔn)確地對(duì)視頻片段X進(jìn)行情感分類(lèi),將X定義為X的上下文:

        其中,表示視頻中其他片段序列的長(zhǎng)度。

        BiGRU 由兩個(gè)方向相反的GRU(gated recurrent unit)構(gòu)成,能夠有效地捕獲序列中上下文的長(zhǎng)依賴(lài)關(guān)系,解決RNN 訓(xùn)練過(guò)程中出現(xiàn)的梯度消失和梯度爆炸問(wèn)題。在BiGRU 中,正向和反向輸入的特征向量會(huì)得到對(duì)應(yīng)時(shí)刻的隱藏層表示,之后通過(guò)拼接操作得到具有上下文信息的文本、視覺(jué)和語(yǔ)音特征。雙向門(mén)控循環(huán)單元的結(jié)構(gòu)如圖3 所示。

        圖3 BiGRU 結(jié)構(gòu)模型圖Fig.3 BiGRU structure model diagram

        每個(gè)GRU 單元的工作原理如下:

        其中,X是當(dāng)前節(jié)點(diǎn)的輸入序列,h是上一個(gè)GRU 單元傳輸下來(lái)的狀態(tài),r是GRU 的重置門(mén),z是GRU 的更新門(mén),W,W,U,U∈R是訓(xùn)練過(guò)程中要學(xué)習(xí)的參數(shù),是Sigmoid 函數(shù),⊙表示對(duì)應(yīng)元素相乘。

        為了深度挖掘單模態(tài)特征的內(nèi)部相關(guān)性,將得到的具有上下文信息的單模態(tài)特征分別映射到各自的語(yǔ)義空間中。計(jì)算過(guò)程如下:

        其中,W、、、分別是激活函數(shù)tanh 的參數(shù),、、是經(jīng)過(guò)BiGRU 得到的文本、語(yǔ)音和視覺(jué)特征。∈R,∈R,∈R分別表示最終輸出的具有上下文信息的文本、語(yǔ)音和視覺(jué)特征向量,表示Dense層中神經(jīng)元的數(shù)量。

        2.3 特征融合模塊

        對(duì)于多模態(tài)情感分析任務(wù),不同模態(tài)的數(shù)據(jù)包含了各自的情感信息,它們彼此不同卻又相輔相成。因此,在基于模態(tài)內(nèi)部關(guān)系建模的同時(shí)關(guān)注另一種模態(tài)信息的補(bǔ)充作用,能夠有效地提升模型的分類(lèi)性能。此外,在進(jìn)行多模態(tài)信息融合時(shí),不同模態(tài)的信息對(duì)情感分類(lèi)結(jié)果的重要性也是不同的。因此,對(duì)多模態(tài)信息進(jìn)行建模時(shí),需要有選擇性地區(qū)分各模態(tài)信息對(duì)目標(biāo)序列的情感預(yù)測(cè)的重要程度,增強(qiáng)重要信息所占的權(quán)重,從而輸出更有效的跨模態(tài)聯(lián)合特征表示。

        由此,本文提出了一種多模態(tài)特征融合模塊(multimodal feature fusion module,MFM)。該模塊采用層次化的融合策略融合所有的模態(tài)特征,主要由兩層注意力機(jī)制和一個(gè)全連接層串聯(lián)構(gòu)成。首先第一層是雙模態(tài)交互注意力(bimodal interactive attention,Bim_Att)層,Bim_Att 能夠?qū)煞N模態(tài)的融合特征作為條件向量,強(qiáng)化與模態(tài)間重要交互特征的關(guān)聯(lián),弱化與次要交互特征的關(guān)聯(lián),深度探索不同模態(tài)之間的交互性;第二層是自注意力層(self attention,Self_Att),用于捕獲目標(biāo)序列及其上下文信息與模態(tài)自身的相關(guān)性,從而減少對(duì)外部信息的依賴(lài);最后一層是全連接層,用于提取雙模態(tài)交互融合信息和單模態(tài)內(nèi)部信息,輸出跨模態(tài)聯(lián)合特征。

        為了進(jìn)一步增強(qiáng)模態(tài)之間的交互性,本文提出了一種雙模態(tài)交互注意力機(jī)制,整體結(jié)構(gòu)如圖4 所示。雙模態(tài)交互注意力機(jī)制類(lèi)似于一種門(mén)控機(jī)制,能夠?qū)⑽谋?、語(yǔ)音和視覺(jué)特征進(jìn)行兩兩融合,即文本+視頻、文本+語(yǔ)音和語(yǔ)音+視頻,并有條件地計(jì)算不同模態(tài)之間的交互向量。以文本()和語(yǔ)音()為例,首先將兩種模態(tài)的信息進(jìn)行拼接,并經(jīng)過(guò)一層全連接層捕獲模態(tài)之間的交互信息,得到雙模態(tài)聯(lián)合特征;接著在激活函數(shù)Sigmoid 的作用下生成條件向量,用于約束每個(gè)模態(tài)內(nèi)部的相似程度,增加強(qiáng)關(guān)聯(lián)特征所持的比重。計(jì)算過(guò)程如式(10)、式(11)所示。

        圖4 雙模態(tài)交互注意力(Bim_Att)結(jié)構(gòu)圖Fig.4 Structure diagram of bimodal interactive attention(Bim_Att)

        其中,⊕表示向量的拼接操作;表示隨機(jī)初始化的權(quán)重矩陣;表示偏置項(xiàng)。

        其中,⊙表示對(duì)應(yīng)元素相乘,·表示矩陣乘法。

        最后,將得到的注意力特征向量與上下文特征向量進(jìn)行拼接,并使用全連接層整合得到的模態(tài)間交互特征和模態(tài)內(nèi)部特征,輸入至Softmax 進(jìn)行情感分類(lèi),其計(jì)算過(guò)程如下:

        其中,∈R,′表示全連接層輸出的特征維度,Wb是激活函數(shù)ReLU 的權(quán)重和偏置。

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 數(shù)據(jù)集

        本文使用多模態(tài)情感分析數(shù)據(jù)集CMU-MOSI 進(jìn)行實(shí)驗(yàn),簡(jiǎn)稱(chēng)MOSI。該數(shù)據(jù)集由89 位不同英語(yǔ)演講者對(duì)來(lái)自YouTube網(wǎng)站中的主題進(jìn)行評(píng)論,共有93個(gè)視頻。數(shù)據(jù)集中共包含3 702個(gè)觀點(diǎn)片段,共計(jì)26 295個(gè)單詞。每個(gè)視頻片段的情感強(qiáng)度在∈[-3.0,3.0]的線性范圍內(nèi),其中大于或等于0 的情感值表示正面情緒,小于0 的情感值表示負(fù)面情緒。本實(shí)驗(yàn)將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,分別設(shè)置為52、10、31。每個(gè)集合分別包含1 151、296和752個(gè)視頻片段。

        3.2 實(shí)驗(yàn)設(shè)置

        本實(shí)驗(yàn)所有代碼都是在Pycharm 代碼編輯器上采用Tensorflow 和Keras 深度學(xué)習(xí)框架編寫(xiě),利用顯存為32 GB 的GPU(NVIDIA Tesla V100)進(jìn)行模型的訓(xùn)練。實(shí)驗(yàn)參數(shù)設(shè)置如表1 所示。

        表1 實(shí)驗(yàn)參數(shù)設(shè)置Table 1 Experimental parameter setting

        本文選取1 分?jǐn)?shù)和準(zhǔn)確率(Accuracy)作為分類(lèi)性能的評(píng)價(jià)指標(biāo)。1 分?jǐn)?shù)和Accuracy 的值越大,說(shuō)明模型的整體性能越好。為了進(jìn)一步驗(yàn)證模型的有效性,將本文提出的Con-BIAM 模型與現(xiàn)有的一些多模態(tài)情感分析模型進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表2 所示。

        3.3 實(shí)驗(yàn)結(jié)果分析

        表2 列出了不同模型在MOSI 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。圖5 是Con-BIAM 模型在MOSI 數(shù)據(jù)集上得到的混淆矩陣。

        表2 在MOSI數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 2 Experimental results on MOSI dataset %

        圖5 Con-BIAM 模型在MOSI數(shù)據(jù)集上的混淆矩陣Fig.5 Con-BIAM model confusion matrix on MOSI dataset

        實(shí)驗(yàn)結(jié)果表明,本文提出的Con-BIAM 模型在準(zhǔn)確率和1 分?jǐn)?shù)這兩個(gè)評(píng)價(jià)指標(biāo)上的表現(xiàn)都要優(yōu)于其他對(duì)比模型,準(zhǔn)確率和1分?jǐn)?shù)分別提升了5.41個(gè)百分點(diǎn)和12個(gè)百分點(diǎn),尤其是對(duì)比現(xiàn)有先進(jìn)的Multilogue-Net模型,準(zhǔn)確率提升了0.72 個(gè)百分點(diǎn),1 提升了5.3個(gè)百分點(diǎn)。這充分地說(shuō)明了融合上下文和雙模態(tài)交互注意力的多模態(tài)情感分析(Con-BIAM)在多模態(tài)情感分類(lèi)任務(wù)上的有效性和先進(jìn)性。此外,根據(jù)上述實(shí)驗(yàn)結(jié)果可以看出,Con-BIAM 模型的1 值與其他模型相比具有較大提升,這可能是因?yàn)椴煌瑢哟尾煌M合的模態(tài)融合方法關(guān)注到了模態(tài)的內(nèi)部信息和更高層次的模態(tài)交互信息,使得模型的精確率和召回率分別達(dá)到了85.22%和85.59%,進(jìn)而增大了模型的1 值,提高了模型的分類(lèi)性能。

        4 對(duì)比實(shí)驗(yàn)

        為了進(jìn)一步分析模態(tài)之間的聯(lián)合特征對(duì)模型最終分類(lèi)效果的貢獻(xiàn)程度,在MOSI 數(shù)據(jù)集上分別針對(duì)雙模態(tài)和三模態(tài)聯(lián)合特征,選擇以下幾種多模態(tài)情感分析方法進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表3 和表4 所示。

        表3 不同模型在雙模態(tài)、三模態(tài)特征融合的準(zhǔn)確率Table 3 Accuracy of different models in bimodal and trimodal feature fusion %

        表4 不同模型在雙模態(tài)、三模態(tài)特征融合的F1 分?jǐn)?shù)Table 4 F1 scores of different models in bimodal and trimodal feature fusion %

        實(shí)驗(yàn)結(jié)果表明,與其他模型相比,除了語(yǔ)音和視頻模態(tài)的融合之外,Con-BIAM 模型的其他模態(tài)融合方式都達(dá)到了最好的結(jié)果。其中,三種模態(tài)(文本、語(yǔ)音和視覺(jué))融合的分類(lèi)效果最佳,證明了多模態(tài)信息的必要性。在雙模態(tài)融合的實(shí)驗(yàn)中,文本+圖像和文本+語(yǔ)音融合分類(lèi)準(zhǔn)確率高于語(yǔ)音+視頻的融合。這一方面說(shuō)明了文本模態(tài)的情感特性更為顯著,另一方面也反映了語(yǔ)音和視頻模態(tài)的情感特性較弱,可能存在噪聲的干擾。

        為了進(jìn)一步分析視頻片段的上下文信息、自注意力和雙模態(tài)交互注意力對(duì)模型性能的貢獻(xiàn),本文設(shè)計(jì)了三組對(duì)比實(shí)驗(yàn),比較不同模塊對(duì)于模型整體性能的影響。在MOSI 數(shù)據(jù)集上對(duì)比實(shí)驗(yàn)的結(jié)果如圖6 所示。

        圖6 在MOSI數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)Fig.6 Comparative experiment on MOSI dataset

        (1)Con-BIAM(GRU):使用GRU代替模型中BiGRU,比較上下文信息對(duì)模型性能的影響。

        (2)Con-BIAM(Self_Att):舍棄雙模態(tài)交互注意力機(jī)制,保留自注意力機(jī)制,探究?jī)煞N模態(tài)之間的交互信息對(duì)分類(lèi)效果的影響。

        (3)Con-BIAM(Bim_Att):舍棄自注意力機(jī)制,保留雙模態(tài)交互注意力,探究單模態(tài)情感信息對(duì)分類(lèi)效果的影響。

        (4)Con-BIAM:本文所提出模型。

        實(shí)驗(yàn)結(jié)果表明,對(duì)于MOSI 數(shù)據(jù)集,舍棄Con-BIAM 模型中的任一重要模塊,都會(huì)使得模型的分類(lèi)性能下降。首先,相比于GRU 模型,基于BiGRU 的模型準(zhǔn)確率提升了2.52 個(gè)百分點(diǎn),說(shuō)明了對(duì)于視頻中某一片段序列,序列前面和后面的視頻片段都會(huì)對(duì)它產(chǎn)生一定的影響,而B(niǎo)iGRU 能夠同時(shí)捕捉到視頻片段序列前向和反向的信息。其次,多模態(tài)特征融合模塊中的雙模態(tài)交互注意力和自注意力對(duì)情感分類(lèi)的準(zhǔn)確率分別貢獻(xiàn)了1.20 個(gè)百分點(diǎn)和0.94 個(gè)百分點(diǎn),1 值也分別提升了2.67 個(gè)百分點(diǎn)和2.36 個(gè)百分點(diǎn)。這主要是因?yàn)槲谋?、語(yǔ)音和視頻模態(tài)內(nèi)部與模態(tài)之間存在著大量的情感信息,而本文所設(shè)計(jì)的多模態(tài)特征融合模塊能夠同時(shí)提取單模態(tài)信息和雙模態(tài)融合信息,并通過(guò)注意力機(jī)制有選擇地關(guān)注有利于情感分類(lèi)的模態(tài)信息,從而提高了模型分類(lèi)性能。

        5 結(jié)束語(yǔ)

        本文建立了一種融合上下文和雙模態(tài)交互注意力的多模態(tài)情感分析模型,利用視頻片段的上下文信息和不同模態(tài)之間的交互信息來(lái)預(yù)測(cè)情感分類(lèi)。該模型首先采用BiGRU 捕獲文本、語(yǔ)音和視頻序列之間的上下文信息。然后,通過(guò)雙模態(tài)交互注意力、自注意力和全連接層構(gòu)成的多模態(tài)特征融合模塊,關(guān)注目標(biāo)序列及其上下文信息與模態(tài)內(nèi)部和模態(tài)之間的關(guān)聯(lián)性,實(shí)現(xiàn)了多模態(tài)信息的有效融合。最后,將得到的上下文特征和跨模態(tài)聯(lián)合特征輸入至分類(lèi)器進(jìn)行情感分類(lèi)。在MOSI 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明了所提出的模型在多模態(tài)情感分類(lèi)任務(wù)上的有效性和優(yōu)異性。在未來(lái)的工作中,將針對(duì)多模態(tài)融合過(guò)程中所出現(xiàn)的語(yǔ)義沖突和噪聲問(wèn)題展開(kāi)進(jìn)一步研究。

        猜你喜歡
        注意力語(yǔ)音模態(tài)
        讓注意力“飛”回來(lái)
        魔力語(yǔ)音
        基于MATLAB的語(yǔ)音信號(hào)處理
        電子制作(2019年14期)2019-08-20 05:43:38
        基于MQ3與MP3的價(jià)廉物美的酒駕語(yǔ)音提醒器
        電子制作(2019年9期)2019-05-30 09:42:10
        對(duì)方正在輸入……
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        A Beautiful Way Of Looking At Things
        國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
        由單個(gè)模態(tài)構(gòu)造對(duì)稱(chēng)簡(jiǎn)支梁的抗彎剛度
        国产高清在线视频一区二区三区| 最新国产精品亚洲二区| 人妻体内射精一区二区三四| 久久和欧洲码一码二码三码| 亚洲AⅤ永久无码精品AA| 无码无在线观看| 亚洲成在人线天堂网站| 午夜少妇高潮在线观看| 亚洲国产精品无码专区| 国产成人久久777777| 在线观看精品视频一区二区三区| 白色白色在线视频播放平台| 亚洲高清一区二区三区在线播放| 玩弄人妻少妇精品视频| 久久精品女人天堂av| 精品少妇一区一区三区| 国产精品久久国产三级国| 亚洲av少妇高潮喷水在线| 欧美成人精品a∨在线观看| 无码粉嫩虎白一线天在线观看 | 护士的小嫩嫩好紧好爽| 东北寡妇特级毛片免费| 亚洲精品天堂av免费看| 国产三级在线观看不卡| 亚洲日本国产精品久久| 国产亚洲一本大道中文在线| 亚洲av日韩av无码污污网站 | 亚洲av无码av吞精久久| 在线观看视频亚洲| 亚洲精品一区二区三区av| 精品视频一区二区三区日本| 丝袜美腿一区二区三区| 午夜福利电影| 在线无码免费看黄网站| 亚洲视频一区二区免费看| 插入日本少妇一区二区三区 | 不卡视频在线观看网站| 97久久久久人妻精品区一| 无码国产一区二区三区四区| 毛片一级精油按摩无码| 久久亚洲网站中文字幕|