亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于話語間時序多模態(tài)數(shù)據(jù)的情緒分析方法①

        2022-06-27 03:54:02江家懿羅時強(qiáng)伍文燕
        關(guān)鍵詞:模態(tài)情緒特征

        馮 廣, 江家懿, 羅時強(qiáng), 伍文燕

        1(廣東工業(yè)大學(xué) 計算機(jī)學(xué)院, 廣州 510006)

        2(廣東工業(yè)大學(xué) 自動化學(xué)院, 廣州 510006)

        3(廣東工業(yè)大學(xué) 網(wǎng)絡(luò)信息與現(xiàn)代教育技術(shù)中心, 廣州 510006)

        目前隨著互聯(lián)網(wǎng)的發(fā)展, 網(wǎng)絡(luò)視頻和社交平臺日漸火熱, 諸如國內(nèi)的嗶哩嗶哩、抖音、快手, 國外的YouTube、Twitter、TikTok 等, 這些平臺上的網(wǎng)絡(luò)視頻包含了大量用戶對某個事物所發(fā)表的觀點(diǎn)和評價,這些點(diǎn)評數(shù)據(jù)蘊(yùn)含著用戶的情緒信息, 挖掘這些用戶的情緒信息不僅有利于平臺商家對用戶進(jìn)行有針對性的產(chǎn)品推送, 對一些需要獲得用戶情緒狀態(tài)的互聯(lián)網(wǎng)服務(wù)型行業(yè)有所幫助, 而且在面對某些社會突發(fā)事件時, 也能夠協(xié)助相關(guān)部門掌握社會輿論的走向[1].

        目前大多數(shù)的情感分析方法存在以下兩個問題:(1)基于單模態(tài)數(shù)據(jù)的分析方法角度單一, 無法全面地反映人類復(fù)雜的情感表達(dá). (2)目前大部分基于多模態(tài)數(shù)據(jù)的情緒分析方法沒有充分考慮并融合時序數(shù)據(jù)的模態(tài)內(nèi)和跨模態(tài)的話語間時序信息關(guān)聯(lián), 導(dǎo)致情緒分析的準(zhǔn)確率較低. 為解決以上問題, 本文使用時序多模態(tài)數(shù)據(jù), 在前人的研究基礎(chǔ)上, 改進(jìn)了多模態(tài)情緒分析模型, 提出一種基于話語間時序多模態(tài)數(shù)據(jù)的情緒分析方法.

        1 相關(guān)研究

        情緒分析是一個涉及人工智能、計算機(jī)視覺、自然語言處理等多個多學(xué)科交叉的研究領(lǐng)域[2]. 早期的情緒分析大多是基于單一模態(tài)數(shù)據(jù)的, 目前主流方法是針對人臉表情和文本的情緒分析. Connie 等人[3]使用由3 個子網(wǎng)絡(luò)構(gòu)成的卷積神經(jīng)網(wǎng)絡(luò)在CK+和FER2013數(shù)據(jù)集上進(jìn)行人臉表情情感識別, 在6 類的情感分類中得到良好的識別效果. 李婷婷等人[4]針對微博短文本數(shù)據(jù), 使用傳統(tǒng)的SVM 和CRF 組合方法進(jìn)行情感分析, 并選用不同的特征組合得到了最優(yōu)的分析效果.由于深度學(xué)習(xí)方法的興起, 研究人員也開始在文本情感分析上使用深度學(xué)習(xí)模型. Chen 等人[5]基于TF-IDF特征, 使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行文本情感分類, 相比傳統(tǒng)的機(jī)器學(xué)習(xí)方法準(zhǔn)確率得到了顯著的提升. 曹宇等人[6]使用BGRU 對文本的上下文信息進(jìn)行提取分析, 實(shí)驗表明加入上下文信息后能夠有效提高情緒分析的準(zhǔn)確性.

        由于單模態(tài)數(shù)據(jù)分析方法存在一定的局限性, 無法應(yīng)對某些真實(shí)的場景, 因此研究者們開始探索使用兩種或以上模態(tài)數(shù)據(jù)的研究方法, 同時因為網(wǎng)絡(luò)視頻這種多模態(tài)數(shù)據(jù)載體的興起, 近年來針對視頻數(shù)據(jù)集的多模態(tài)情感分析成為了一個研究熱點(diǎn).

        在多模態(tài)情緒分析研究領(lǐng)域, 目前大多數(shù)研究是基于文本、語音和視覺3 種模態(tài)信息. Baltru?aitis 等人[7]將多模態(tài)機(jī)器學(xué)習(xí)分為模態(tài)表示、模態(tài)傳譯、模態(tài)對齊、模態(tài)融合和合作學(xué)習(xí)5 個方面[8], 其中模態(tài)融合的效果對分析結(jié)果的準(zhǔn)確性有很大的影響[9]. 模態(tài)融合主要分為特征級融合(早期融合)和決策級融合(晚期融合), 二者的區(qū)別在于前者是將單模態(tài)特征直接進(jìn)行融合后分析, 后者則是單獨(dú)分析單模態(tài)特征后再對結(jié)果進(jìn)行融合分析, 現(xiàn)在有研究者將這兩種方式相結(jié)合并稱之為混合融合. Pérez-Rosas 等人[10]使用OpenEAR和CERT 在MOUD 多模態(tài)數(shù)據(jù)集中提取語音和面部的情感特征, 并且將單詞與每個話語轉(zhuǎn)錄內(nèi)的頻率對應(yīng)的值相關(guān)聯(lián), 得到加權(quán)特征圖作為文本的情感特征,最后將3 種模態(tài)特征進(jìn)行特征級融合后使用SVM 分析, 在該數(shù)據(jù)集上得到良好的識別效果. Yu 等人[11]針對中文微博數(shù)據(jù), 使用CNN 和DNN 分別分析文本和視覺情感, 最后通過決策級融合的方法對分析結(jié)果進(jìn)行融合, 在中文微博數(shù)據(jù)集上獲得了最優(yōu)的結(jié)果. Zadeh等人[12]提出一種張量融合方法(TFN), 使用張量乘法將3 種單模態(tài)特征數(shù)據(jù)融合在一起, 最后使用MLP 神經(jīng)網(wǎng)絡(luò)進(jìn)行分析預(yù)測, 在MOSI 數(shù)據(jù)集上獲得較好的準(zhǔn)確率, 但這種方法沒有利用話語級別的上下文時序信息特征, 而且時間復(fù)雜度和空間復(fù)雜度極高. 后來他們又提出了一種分層的動態(tài)融合圖方法[13], 將三種模態(tài)信息兩兩組合, 首次在MOSEI 數(shù)據(jù)集上獲得較高的識別準(zhǔn)確率且具有一定的可解釋性. Poria 等人[14]提出一種非端到端的方法, 使用兩層LSTM 網(wǎng)絡(luò)分別對單模態(tài)和組合模態(tài)進(jìn)行訓(xùn)練, 這種方法雖然利用了模態(tài)內(nèi)的話語上下文信息, 但非端到端的方法增加了分析的復(fù)雜性, 不利于應(yīng)用到實(shí)際.

        近年來, 研究者們希望模型能夠像人類在觀察事物的時候, 能夠把注意力集中在特征明顯的部分, 因此原本被用于機(jī)器翻譯領(lǐng)域的注意力機(jī)制被情緒分析領(lǐng)域的研究者們廣泛關(guān)注, 并嘗試在自己的模型中加入注意力機(jī)制, 使得模型能夠關(guān)注數(shù)據(jù)中對情緒影響較大的特征. 朱燁等人[15]融合了卷積神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制對評論文本進(jìn)行情緒分析, 實(shí)驗表明使用注意力加權(quán)的方式識別準(zhǔn)確率高于單一的CNN 模型. Poria 等人[16]對其原模型進(jìn)行了改進(jìn), 先在單模態(tài)內(nèi)部加入注意力機(jī)制,隨后在話語層面使用LSTM 網(wǎng)絡(luò)提取上下文信息, 然后再對擁有上下文信息的序列使用注意力模塊, 相比他們原來的模型, 準(zhǔn)確率有了較大的提升. Ghosal 等人[17]提出了MMMU-BA 模型, 對雙模態(tài)使用注意力機(jī)制, 挖掘兩個模態(tài)之間的上下文交互作用, 但該方法沒有考慮增強(qiáng)單模態(tài)的上下文關(guān)聯(lián), 因此仍然存在改進(jìn)的空間.

        2 基于話語間時序多模態(tài)數(shù)據(jù)的情緒分析方法

        時序多模態(tài)數(shù)據(jù)有兩個特征: 一是每個數(shù)據(jù)樣本都存在3 種模態(tài)可以分析, 二是句子上下文存在時序關(guān)聯(lián). 如圖1 所示, 以圖中上文語句為例, 從文本模態(tài)“I did not like”來看, 該視頻段說話者的情緒是消極的, 但結(jié)合語音模態(tài)和視覺模態(tài)分析可知文本模態(tài)信息相對冗余, 因此說話者所表達(dá)的真實(shí)情緒其實(shí)是積極的. 與單模態(tài)情感分析不同, 在同一個話語中, 不是所有模態(tài)都能發(fā)揮同等的作用, 所以多模態(tài)情感分析的難點(diǎn)在于如何有效整合不同模態(tài)的數(shù)據(jù), 使模型既能發(fā)揮所有模態(tài)的作用, 也不會因為某個模態(tài)的冗余特征而影響到預(yù)測的結(jié)果. 同時, 以圖1 中的目標(biāo)語句為例, 若只分析目標(biāo)語句實(shí)際上難以準(zhǔn)確判斷此時說話者的情緒傾向, 但視頻是由一系列的話語組成的, 每句話都具有特定的時間順序, 與非時序數(shù)據(jù)不同, 視頻中的每一段話語可能具有一定的關(guān)聯(lián)性而且會彼此影響情感傾向[14]. 由此可見, 利用時序多模態(tài)數(shù)據(jù)進(jìn)行情緒分析能夠挖掘數(shù)據(jù)中不同模態(tài)、不同話語之間的內(nèi)在關(guān)聯(lián). 因此本研究利用MOSEI 和MOSI視頻數(shù)據(jù)集的3 種模態(tài)信息(文本、聲音、視覺)進(jìn)行多模態(tài)情緒分析研究, 并且利用卡內(nèi)基梅隆大學(xué)開源的多模態(tài)數(shù)據(jù)處理SDK, 在提取模態(tài)特征的同時保留視頻上下文話語之間的時序特征, 通過注意力機(jī)制增強(qiáng)模態(tài)內(nèi)和跨模態(tài)的上下文聯(lián)系, 最后進(jìn)行情緒分析, 形成一種基于話語間時序多模態(tài)數(shù)據(jù)的情緒分析模型.

        圖1 時序多模態(tài)數(shù)據(jù)上下文影響情感分析的例子

        本文基于話語間時序多模態(tài)數(shù)據(jù)的情緒分析模型框架如圖2 所示, 模型主要由以下4 個部分組成.

        圖2 基于時序多模態(tài)數(shù)據(jù)的情緒分析模型框架圖

        (1)單模態(tài)時序特征表示. 該部分主要是獲取話語之間的上下文關(guān)聯(lián), 同時將各模態(tài)特征數(shù)統(tǒng)一到相同的維度.

        (2)模態(tài)內(nèi)時序信息增強(qiáng). 這部分的任務(wù)是增強(qiáng)上一層所得到的各模態(tài)內(nèi)部的上下文信息關(guān)聯(lián).

        (3)雙模態(tài)時序信息交互. 該層主要是對單模態(tài)時序信息特征進(jìn)行跨模態(tài)融合, 不同模態(tài)兩兩組合, 并且挖掘跨模態(tài)的上下文關(guān)聯(lián).

        (4)情緒分類. 將各層輸出的特征矩陣進(jìn)行拼接后獲得多模態(tài)融合信息, 進(jìn)行情緒分類.

        2.1 單模態(tài)時序特征表示

        一個視頻是由若干個視頻片段組成的, 每個視頻片段都具有時間順序和特征. 在這一部分, 我們使用雙向門控循環(huán)網(wǎng)絡(luò)(Bi-GRU)來捕獲視頻片段的上下文語義信息. GRU 單元是LSTM 單元的變體, 它將LSTM中的遺忘門和輸入門合并成了一個更新門, 減少了參數(shù)的同時也能達(dá)到和LSTM 相近的效果. 這里采用Bi-GRU 則是為了更加充分地挖掘上文和下文對目標(biāo)語句的影響. 假設(shè)一個視頻有u個話語片段, 每個片段特征維度為dm, 則某個模態(tài)下一個視頻可以表示為M∈Ru×dm,其中M,m∈{T,A,V}分別為文本、語音和視覺模態(tài). 以ut表示視頻中的一個話語片段, 設(shè)xt=[u1,u2,···,ut]作為Bi-GRUm的輸入, 獲得正向和反向輸出序列的每個隱藏狀態(tài), 并將其拼接為一個隱藏狀態(tài)ht, 如下:

        2.2 模態(tài)內(nèi)時序信息交互增強(qiáng)

        圖3 單模態(tài)內(nèi)上下文交互增強(qiáng)方法

        2.3 雙模態(tài)時序信息交互

        2.4 情緒分類

        3 實(shí)驗

        3.1 數(shù)據(jù)集

        本文使用卡內(nèi)基梅隆大學(xué)的研究者提供的MOSI數(shù)據(jù)集和MOSEI 數(shù)據(jù)集對模型進(jìn)行驗證.

        (1) MOSI 數(shù)據(jù)集

        該數(shù)據(jù)集包含了YouTube 上的93 個關(guān)于電影評論的視頻, 每個視頻都被切分為若干個視頻片段并且打上情緒標(biāo)簽, 單個視頻最多有63 個話語片段, 總計2 199個片段. 本文使用Poria 等人[14]提供的處理過的MOSI數(shù)據(jù)集, 文本模態(tài)、聲音模態(tài)和視覺模態(tài)的話語特征維度分別為100、73 和100, 由于只提供了訓(xùn)練集和測試集, 因此本文從訓(xùn)練集中抽取了一部分作為驗證集,得到訓(xùn)練集、驗證集和測試集的視頻數(shù)量為52、10、31, 由于每個視頻的話語片段數(shù)量不一, 因此對不足63 片段數(shù)的樣本進(jìn)行補(bǔ)0.

        (2) MOSEI 數(shù)據(jù)集

        該數(shù)據(jù)集包含了3 228 個視頻, 單個視頻的話語片段數(shù)最多為98, 總計22 677 個視頻片段. 本文使用卡內(nèi)基梅隆大學(xué)提供的多模態(tài)數(shù)據(jù)SDK 進(jìn)行處理, 從原始數(shù)據(jù)集中提取包含話語間上下文時序信息的特征,最終得到文本、聲音和視覺3 個模態(tài)的話語特征維度分別為300、74 和35, 訓(xùn)練集、驗證集和測試集的視頻數(shù)量為2 250、300 和678, 同樣的, 對不足98 個片段數(shù)的樣本進(jìn)行補(bǔ)0.

        3.2 參數(shù)設(shè)置

        本實(shí)驗在Ubuntu 16.04 操作系統(tǒng)上完成, 內(nèi)存大小為32 GB, GPU 型號為GTX3070, CPU 型號為3.7 GHz主頻的i5-9600k, 深度學(xué)習(xí)框架使用TensorFlow 2.4 的GPU 加速版本. 模型中提到的Bi-GRU 網(wǎng)絡(luò)的隱藏層單元數(shù)為300, 后續(xù)全連接層神經(jīng)元數(shù)量為100,訓(xùn)練批次(batch_size)大小為64, 共迭代(epoch) 50 次.使用Adam 優(yōu)化器更新模型參數(shù), 學(xué)習(xí)率為0.001. 同時在訓(xùn)練過程中, 使用dropout 降低過擬合, 對于MOSI和MOSEI 數(shù)據(jù)集, 模型設(shè)置dropout 值分別為0.3 和0.5. 最后使用準(zhǔn)確率和F1 值作為模型的評價指標(biāo).

        3.3 基線模型選擇

        本文將選擇以下模型作為本方法的基線模型進(jìn)行比較.

        (1) TFN[12]: 該模型由Zadeh 等人在2017 年提出,直接將3 種模態(tài)的特征數(shù)據(jù)統(tǒng)一到同一維度后, 進(jìn)行張量乘法操作, 形成一個張量后輸入到分析網(wǎng)絡(luò)中, 沒有考慮時序信息特征, 而且時間復(fù)雜度和空間復(fù)雜度都很高.

        (2) MFN[18]: 該模型由Zadeh 等人在2018 年提出,使用一種多視圖順序?qū)W習(xí)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu), 使用LSTM網(wǎng)絡(luò)挖掘一個話語中的前后文關(guān)聯(lián)與跨模態(tài)交互.

        (3) BC-LSTM[14]: 該方法是由Poria 等人在2017年提出的一種非端到端學(xué)習(xí)方法, 使用雙向LSTM 網(wǎng)絡(luò)先對單模態(tài)數(shù)據(jù)進(jìn)行訓(xùn)練, 再將訓(xùn)練特征拼接起來作為多模態(tài)融合數(shù)據(jù)進(jìn)行訓(xùn)練.

        (4) GMFN[13]: 該模型由Zadeh 等人在2018 年提出, 它以分層的方式動態(tài)融合模態(tài), 首次在MOSEI 數(shù)據(jù)集上取得較好的結(jié)果.

        (5) MMMU-BA[17]: 該模型由Ghosal 等人在2018年提出, 它使用一種跨模態(tài)注意力機(jī)制充分融合了雙模態(tài)的時序特征信息, 但并沒有充分考慮到單模態(tài)內(nèi)的時序信息的交互作用.

        3.4 實(shí)驗結(jié)果與分析

        為驗證多模態(tài)時序信息在情緒分析中的重要性,本文首先是將模型中的每一個單一結(jié)構(gòu)進(jìn)行測試, 結(jié)果如表1 所示.

        表1 模型中單一結(jié)構(gòu)的效果對比(%)

        從表1 中單一結(jié)構(gòu)T、A、V 來看, 在3 種模態(tài)中文本模態(tài)提供了最多的信息, 準(zhǔn)確率和F1 值都是最高的, 因此一般情況下通過文本模態(tài)可以大致確定說話者的情緒傾向. 當(dāng)使用自注意力機(jī)制加強(qiáng)了模態(tài)內(nèi)的上下文信息后(表中單一結(jié)構(gòu)TT、AA、VV), 對MOSEI數(shù)據(jù)集而言, 3 種模態(tài)的準(zhǔn)確率和F1 值都有所提高,但對于MOSI 數(shù)據(jù)集而言, 聲音模態(tài)存在較多的冗余數(shù)據(jù), 加強(qiáng)了模態(tài)內(nèi)上下文信息后準(zhǔn)確率和F1 值反而下降了. 單一結(jié)構(gòu)TA、TV、VA 則是雙模態(tài)的上下文信息交互層, 可以看出跨模態(tài)的上下文信息交互能提供更好的識別效果, 但由于視覺模態(tài)和聲音模態(tài)本身提供的信息較弱, 因此這二者的融合效果會比有文本模態(tài)的融合效果要差, 由此可見不是所有模態(tài)都能提供相同的分析效果, 甚至存在冗余的模態(tài)信息會對分析效果產(chǎn)生負(fù)面的影響. 最后則是將模態(tài)內(nèi)的時序信息交互特征和雙模態(tài)的時序信息交互特征拼接后進(jìn)行分析, 得到的準(zhǔn)確率和F1 值都比前面所述的單一結(jié)構(gòu)高.

        本文模型與其他模型的對比如表2 所示. 從表中可以看到, 前3 個模型都沒有利用到多模態(tài)數(shù)據(jù)的時序特征, 僅僅是針對單個話語進(jìn)行訓(xùn)練與識別, 而BCLSTM 和MMMU-BA 模型利用到了數(shù)據(jù)的時序特征,準(zhǔn)確率與F1 值都有明顯的提高, 證明了話語級的時序信息特征確實(shí)能夠提高情緒分析的識別. 本文的方法對前人的模型進(jìn)行了改進(jìn), 同時融合模態(tài)內(nèi)的時序信息特征和雙模態(tài)的時序信息特征, 在MOSEI 數(shù)據(jù)集上準(zhǔn)確率比基準(zhǔn)模型最高值提高了0.32%, 而F1 值提高了1.96%, 在MOSI 數(shù)據(jù)集上, 準(zhǔn)確率提高了0.15%,而F1 值雖然比最高值低, 但仍然比非話語級時序的分析高. 由此可見, 本文提出的方法是能夠提高情緒分析的識別準(zhǔn)確率, 同時模型的穩(wěn)健性更高.

        表2 不同模型的效果對比(%)

        4 結(jié)語

        本文提出了一種基于話語間時序多模態(tài)數(shù)據(jù)的情緒分析方法, 有效提取了模態(tài)內(nèi)的時序信息交互特征和雙模態(tài)的時序信息交互特征. 首先通過對模型中每一個結(jié)構(gòu)進(jìn)行單獨(dú)的實(shí)驗, 可以看出單模態(tài)數(shù)據(jù)提供的分析角度較為單一, 時序多模態(tài)數(shù)據(jù)的分析方法通過利用多模態(tài)特征和時序特征, 有效提高模型分析角度的全面性, 同時, 在加入了時序信息增強(qiáng)特征和雙模態(tài)時序交互特征后, 更是明顯提高了情緒分析任務(wù)的準(zhǔn)確率. 最后與現(xiàn)有的模型進(jìn)行比較, 證明了本文提出的方法在MOSEI 和MOSI 數(shù)據(jù)集上能夠不僅有效提升了情緒分析任務(wù)的識別準(zhǔn)確率, 還得到了更好的模型穩(wěn)健性. 由此可見, 話語間的時序多模態(tài)數(shù)據(jù)蘊(yùn)含了更多的情緒信息, 其特征的提取、模態(tài)的融合等會對識別效果產(chǎn)生顯著的影響. 因此后續(xù)的工作將繼續(xù)在多模態(tài)情緒分析這一領(lǐng)域, 在特征提取與模態(tài)融合的方向進(jìn)行更深入的研究.

        猜你喜歡
        模態(tài)情緒特征
        如何表達(dá)“特征”
        不忠誠的四個特征
        小情緒
        小情緒
        小情緒
        抓住特征巧觀察
        國內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
        情緒認(rèn)同
        由單個模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
        計算物理(2014年2期)2014-03-11 17:01:39
        青青草视频在线免费视频| 久久精品久久久久观看99水蜜桃| 妺妺窝人体色www聚色窝仙踪| 免费a级毛片出奶水| 欧美激情中文字幕在线一区二区| 亚洲av日韩av天堂久久不卡| 国产亚洲一区二区在线观看| 人人爽久久涩噜噜噜av| 成人国产精品一区二区网站| 在线精品亚洲一区二区三区 | 国产福利小视频在线观看| 国产在线观看免费不卡视频| 久久综合久久美利坚合众国| 亚洲国产精品成人无码区| 99久久久无码国产精品动漫| 亚洲精品天堂日本亚洲精品| 欧美不卡一区二区三区| 中国亚洲女人69内射少妇| 日本一区二区亚洲三区| 久久久麻豆精亚洲av麻花| 伊人中文字幕亚洲精品乱码 | 激情人妻另类人妻伦| 黑人大荫道bbwbbb高潮潮喷| 亚洲国产精品中文字幕日韩| 国产精品女丝袜白丝袜美腿| 夜夜爽日日澡人人添| 最新亚洲人成网站在线观看| 日韩在线第二页| 亚洲天堂一二三四区在线| 日韩av无码一区二区三区| 少妇寂寞难耐被黑人中出| 18禁国产美女白浆在线| 亚洲天堂精品一区入口| 特级无码毛片免费视频尤物| 免费观看一区二区| 亚洲无人区乱码中文字幕动画| 国产不卡视频一区二区三区| 国产精品第一二三区久久蜜芽| 日本人妻伦理片在线观看| 一本色道久久婷婷日韩| 天天看片视频免费观看|