亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)合多種注意力機(jī)制的多模態(tài)情感識別方法

        2023-10-31 11:39:44史愛武
        軟件導(dǎo)刊 2023年10期
        關(guān)鍵詞:模態(tài)特征文本

        史愛武,蔡 潤

        (武漢紡織大學(xué) 計(jì)算機(jī)與人工智能學(xué)院,湖北 武漢 430200)

        0 引言

        在智能語音助手、情感對話系統(tǒng)等現(xiàn)代人機(jī)交互系統(tǒng)中,情感識別扮演著至關(guān)重要的角色。情感識別系統(tǒng)的分析對象為語音、文本或圖片,例如語音情感識別系統(tǒng)就是采用機(jī)器感知語音中包含的情感。然而,想要正確識別出語音中的情感信息是一件很困難的事情,因?yàn)檎Z音中的情感受對話內(nèi)容、韻律特征等多種因素影響[1],僅通過聲學(xué)特征或口語文本中離散的單詞很難準(zhǔn)確預(yù)測。

        近年來,多模態(tài)情感識別方法得到廣泛研究,語音、文本和圖片等多個模態(tài)已經(jīng)被用于提高情感識別準(zhǔn)確率。與傳統(tǒng)單模態(tài)研究不同,多模態(tài)情感識別的目標(biāo)是通過融合多個模態(tài)的數(shù)據(jù)預(yù)測目標(biāo)序列的情感狀態(tài)。近年來,許多深度學(xué)習(xí)模型被用于從人工提取的聲學(xué)特征或原始語音信號中提取情感相關(guān)信息,例如卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[2]、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[3]、自注意 力機(jī)制以及 它們的組合[4]。然而,包含在語音中的文本信息卻很少被利用,文本信息對于語音情感識別系統(tǒng)同樣重要,因?yàn)樵谀承┣闆r下話語中包含的情感可以由語義決定,例如“That’s great!”表達(dá)了說話者高興的心情。

        將聲學(xué)與文本信息融合并不是一件簡單的事情,需要考慮模態(tài)間和模態(tài)內(nèi)的交互[5]。模態(tài)內(nèi)交互指單一模態(tài)內(nèi)細(xì)粒度的特征交互,如在聲學(xué)特征中不同語音幀之間的交互以及在文本特征中一個句子里單詞之間的直接交互。通過對模態(tài)內(nèi)的交互進(jìn)行建??梢圆蹲降皆撃B(tài)中對于情感分類更為關(guān)鍵的信息;而模態(tài)間的交互表示一種模態(tài)在考慮到另外一種模態(tài)時的交互作用,例如同一個句子用不同語氣說出時會表達(dá)出不一樣的情感。然而,目前大多數(shù)情感分析方法在對兩種模態(tài)信息進(jìn)行融合時都只考慮到上述兩種交互的其中一種。為解決上述問題,本文提出一種基于雙向循環(huán)門控單元(Bidirectional Gated Recurrent Unit,Bi-GRU)[6]和多種注意力的多模態(tài)情感識別模型。該模型首先采用Bi-GRU 分別捕獲文本和語音序列的上下文特征;然后設(shè)計(jì)一種多模態(tài)特征融合網(wǎng)絡(luò),其主要由兩個自注意力模塊和兩個引導(dǎo)注意力模塊組成,自注意力模塊利用自注意力機(jī)制捕獲每個模態(tài)內(nèi)部的關(guān)鍵特征,而引導(dǎo)注意力機(jī)模塊利用引導(dǎo)注意力機(jī)制捕獲兩個模態(tài)間重要的交互特征。在上述兩種模塊的幫助下,本文模型可以同時對模態(tài)內(nèi)部的關(guān)鍵特征和模態(tài)間的交互特征進(jìn)行建模,從而使模型可以識別對于目標(biāo)序列情感分類更為重要的模態(tài)特征,實(shí)現(xiàn)兩種模態(tài)特征的有效融合;最后在IEMOCAP(Interactive Emotional Dyadic Motion Capture Database)[7]數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),驗(yàn)證所提模型的識別分類效果。

        1 相關(guān)研究

        多模態(tài)情感識別主要致力于聯(lián)合與人類情感表達(dá)相關(guān)的語音、圖像、文本等不同模態(tài)信息來識別人的情感狀態(tài),在人機(jī)交互、人工智能等領(lǐng)域有重要作用[8]。與單一模態(tài)的情感識別相比,多模態(tài)情感識別不僅需要學(xué)習(xí)單個模態(tài)的獨(dú)立特征,還要考慮如何有效融合多個模態(tài)數(shù)據(jù)?,F(xiàn)有多模態(tài)融合方法通常是在作出預(yù)測結(jié)果前融合不同模態(tài)的低級特征(早期融合),或?qū)γ總€模態(tài)分開建模,然后融合每個模型的預(yù)測結(jié)果(晚期融合)[9]。在早期融合的研究中,人們越來越專注于使用不同數(shù)學(xué)公式融合語音和文本特征,包括多模態(tài)池化融合[9]、多模態(tài)層級融合[10]以及語音和文本特征的詞級拼接[1]等。例如,Zadeh 等[11]提出一種張量融合網(wǎng)絡(luò)模型,通過張量融合顯示聚合不同特征之間單模態(tài)、雙模態(tài)和三模態(tài)的交互以捕獲不同模態(tài)間的動力學(xué);Arevalo 等[12]提出一種多模態(tài)門控單元,通過乘法門學(xué)習(xí)各個模態(tài)信息對單元激活的影響程度,進(jìn)而找到基于不同模態(tài)聯(lián)合特征的中間特征。上述方法可以對來自不同數(shù)據(jù)源的信息進(jìn)行融合,但沒有考慮到同一語句中語音和文本特定的時間相關(guān)性,即一個序列的語音幀和單詞在時間上是對齊的。對于一個語音幀序列,通過了解其中特定的單詞去學(xué)習(xí)更有辨識度的特征將有助于情感分類。例如,當(dāng)一個人說出“I hate it!”來表達(dá)生氣或說出“I’m happy”來表達(dá)高興時,此時情感識別系統(tǒng)應(yīng)該將更多的注意力放在單詞“hate”和“happy”及其對應(yīng)的語音幀上,這就需要一種機(jī)制捕獲不同模態(tài)信息之間的交互。為此,Yoon 等[13]提出一個深度雙循環(huán)神經(jīng)網(wǎng)絡(luò)來編碼語音和文本序列信息,并通過點(diǎn)乘注意力機(jī)制將注意力集中在語音文本序列的特定單詞上以捕獲兩種模態(tài)間的交互;Tripathi等[14]使用1D-CNN 進(jìn)行詞嵌入,使用2D-CNN 對光譜特征進(jìn)行編碼,但該方法只考慮捕獲模態(tài)內(nèi)的交互作用,沒有考慮模態(tài)間的交互作用。

        綜上所述,隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,多模態(tài)情感識別研究也取得了長足進(jìn)展,但如何充分利用單模態(tài)特征和多模態(tài)交互特征進(jìn)行建模依舊是該領(lǐng)域需要突破的難題[15]。本文模型使用Bi-GRU 提取序列信息上下文特征的同時利用特征融合網(wǎng)絡(luò)中的引導(dǎo)注意力和自注意力對模態(tài)內(nèi)與模態(tài)間的交互作用進(jìn)行建模,實(shí)現(xiàn)了多模態(tài)特征的有效融合,有效提高了多模態(tài)情感分類準(zhǔn)確率。

        2 模型構(gòu)建

        本文模型整體框架如圖1 所示。圖中的Self表示自注意力模塊,Guided表示引導(dǎo)注意力模塊,P表示全局最大池化層。首先使用Bi-GRU 分別對音頻和文本特征進(jìn)行編碼;然后將編碼后的特征送入引導(dǎo)注意力模塊和自注意力模塊以學(xué)習(xí)語音和文本模態(tài)間的交互關(guān)系以及各自模態(tài)內(nèi)的交互關(guān)系;最后對以上模塊輸出的特征進(jìn)行拼接后送入全連接分類器中進(jìn)行情感分類。

        2.1 Bi-GRU編碼器

        本文使用兩個獨(dú)立的Bi-GRU 分別對語音和文本進(jìn)行編碼,用于提取序列的上下文信息。Bi-GRU 由兩個方向相反的GRU(Gated Recurrent Unit)構(gòu)成,能有效捕獲序列中上下文的長依賴關(guān)系,解決RNN 訓(xùn)練過程中出現(xiàn)的梯度消失和梯度爆炸問題[16]。在Bi-GRU 中,正向和反向輸入的特征向量會得到對應(yīng)時刻的隱藏層表示,然后通過拼接操作得到具有上下文信息的語音或文本特征。采用[x1|,...,|xN]表示音頻及其對應(yīng)文本的特征序列,計(jì)算過程如下:

        2.2 引導(dǎo)注意力模塊

        引導(dǎo)注意力模塊旨在捕獲每一對語音幀與文本單詞之間的模態(tài)交互作用,其可以學(xué)習(xí)一種模態(tài)與另一種模態(tài)交互后的特征。對于從特征提取器中獲得的語音特征[s1,...,sK]和文本特征[t1,...,tL],使用以下公式計(jì)算第i個語音向量和第j個文本向量之間的注意力權(quán)重:

        式中:u、v和b為可訓(xùn)練的參數(shù);αj,i為語音序列中歸一化后的注意力權(quán)重,表示第j個單詞與第i個語音幀之間的軟對齊強(qiáng)度;為語音端Bi-GRU 隱狀態(tài)的加權(quán)求和,可以看作是與第j個單詞交互后的語音特征。對該特征向量使用全局最大池化操作可得到與文本特征交互后的語音特征as→t。

        使用相似方法學(xué)習(xí)與語音特征交互后的文本特征。對于從Bi-GRU 特征提取器中獲得的文本特征[t1,...,tL]和語音特征[s1,...,sK],使用以下公式計(jì)算第j個文本向量與i個語音向量之間的注意力權(quán)重:

        式中:βi,j為單詞序列中歸一化后的注意力權(quán)重,表示第i個語音幀與第j個單詞之間的軟對齊強(qiáng)度;為文本端雙向GRU 中隱狀態(tài)的加權(quán)求和,可以看作是與i個語音幀對齊后的文本特征。對該特征向量使用全局最大池化操作可得到與語音特征交互后的文本特征at→s。

        2.3 自注意力模塊

        自注意力模塊旨在捕獲語音和文本各自模態(tài)內(nèi)的交互作用,其可以學(xué)習(xí)模態(tài)內(nèi)的關(guān)鍵特征。對于從Bi-GRU特征提取器中獲得的語音特征[s1,...,sK],其計(jì)算過程如下:

        式中,wimi+bi表示mi中的線性變換;ai為文本序列中歸一化后的注意力權(quán)重,表示第i個語音幀在整個語音序列中的重要程度為語音端Bi-GRU 中隱狀態(tài)與該特征注意力權(quán)重的加權(quán)求和,可以看作是被賦予關(guān)鍵信息后的第i個語音幀。對賦予關(guān)鍵信息后的特征向量使用全局最大池化操作可得到模態(tài)內(nèi)交互后的語音特征as。

        采用相同方法捕獲文本序列模態(tài)內(nèi)的交互作用。對于從雙向GRU 特征提取器中獲得的文本特征[t1,...,tL],其計(jì)算過程如下:

        式中:at為模態(tài)內(nèi)交互后的文本特征。

        2.4 情感分類層

        將以上得到的4 組特征as→t、at→s、as、at∈Rd進(jìn)行拼接得到兩種模態(tài)融合后的特征,然后使用全連接層結(jié)合softmax 預(yù)測情感類別,同時采用交叉熵?fù)p失對模型進(jìn)行優(yōu)化。計(jì)算公式為:

        3 實(shí)驗(yàn)方法與結(jié)果分析

        3.1 數(shù)據(jù)集

        本文選取的IEMOCAP 數(shù)據(jù)集由南加州大學(xué)的SAIL 實(shí)驗(yàn)室創(chuàng)建,包含約12 h 的視聽數(shù)據(jù),共5 段對話,每段對話由一名男演員和一名女演員完成。采取5 折交叉驗(yàn)證,使用其中的4 段對話作為訓(xùn)練集,剩下的1 段對話作為測試集,以此保證說話者的獨(dú)立性。為與以往在IEMOACP 數(shù)據(jù)集上進(jìn)行的研究保持一致,本文將excitement 類別加入到happiness 類別中,只使用sad、angry、happiness、neutral 4個類別。

        使用Python 庫從語音中提取包括梅爾倒譜系(MFCCs)、梅爾語譜圖(Mel-spectrogram)過零率、頻譜質(zhì)心、頻譜延展度在內(nèi)的聲學(xué)特征,每一幀的特征向量為60 維。將語音的最大長度設(shè)置為7.5 s,較長的語音會被刪減至7.5 s,較短的語音用零填充。數(shù)據(jù)集中的文本被映射為GloVe 詞向量序列,每個詞向量的尺寸為300。

        3.2 實(shí)驗(yàn)參數(shù)設(shè)置

        實(shí)驗(yàn)中的所有代碼均是在Pycharm 代碼編輯器上采用Tensorflow 和Keras 深度學(xué)習(xí)框架編寫,利用顯存為24 GB的GPU(RTX 3090)進(jìn)行模型訓(xùn)練。實(shí)驗(yàn)參數(shù)設(shè)置如表1所示。

        Table 1 Experimental parameter settings表1 實(shí)驗(yàn)參數(shù)設(shè)置

        3.3 評價指標(biāo)

        選取兩個最常用的評價指標(biāo):加權(quán)準(zhǔn)確率(Weighted Accuracy,WA)和 未加權(quán)準(zhǔn)確率(Unweighted Accuracy,UA)。首先在每一折上計(jì)算指標(biāo),然后給出所有折的平均準(zhǔn)確率。WA 的計(jì)算公式為:

        UA 的計(jì)算公式為:

        式中:N為樣本類別數(shù)。

        3.4 特征比較

        使用本文提出的特征融合網(wǎng)絡(luò)可得到4 組基于注意力機(jī)制交互后的特征,分別為與文本特征交互后的語音特征as→t、與語音特征交互后的文本特征at→s、模態(tài)內(nèi)交互后的語音特征as和模態(tài)內(nèi)交互后的文本特征at。使用相同分類層評估4 組特征在情感分類中的辨別能力,其在5個折疊上的準(zhǔn)確率如表2所示。

        Table 2 Accuracy of 4 sets of features on 5 folds表2 4組特征在5個折疊上的準(zhǔn)確率 (%)

        實(shí)驗(yàn)結(jié)果表明,多模態(tài)融合后的特征as→t和at→s的分類效果明顯優(yōu)于單模態(tài)特征as和at,這是由于as→t和at→s均從另外一種模態(tài)中獲得了額外信息,證明了多模態(tài)信息的必要性。在只考慮單模態(tài)時,文本特征at的分類準(zhǔn)確率高于語音特征as,說明與語音模態(tài)相比,文本模態(tài)的情感特性更為顯著。對于雙模態(tài)融合后的特征而言,as→t的分類效果優(yōu)于at→s,原因可能是對于相同的話語,語音幀和文本序列的長度不同,語音幀數(shù)可達(dá)到750 幀,而文本序列中可能只包含約20 個單詞。as→t經(jīng)過最大池化前的序列長度與文本相同,at→s最大池化前的序列長度則與語音相同,由于語音序列要比文本序列長很多,雖然同樣都融合了雙模態(tài)信息,但最大池化操作將兩者的序列長度都變?yōu)? 后,as→t中包含的全局信息更豐富,其分類效果更好。

        3.5 與現(xiàn)有方法比較

        選 擇BiAtt-TFL[11]、BiAtt-GMU[12]、CNN-Att[17]、LSTM-Att[18]、Self-Att[19]、Att-LSTM[20]模型作為對照,在IEMOCAP 數(shù)據(jù)集上與本文模型進(jìn)行性能比較,結(jié)果見表3。表中S 和T 分別表示語音和文本模態(tài),所有方法均采用5 折交叉驗(yàn)證,使用其中的4 個會話作為訓(xùn)練集,剩余的1個會話作為驗(yàn)證集。表中僅利用語音模態(tài)的3 個模型(CNN-Att、LSTM-Att 和Self-Att)分別使用基于CNN 的注意力機(jī)制、長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)和自注意力機(jī)制。在語音加文本的多模態(tài)情感識別實(shí)驗(yàn)中,本文使用相同的實(shí)驗(yàn)設(shè)置對所有標(biāo)*的模型進(jìn)行公平比較。

        Table 3 Comparison result of each model表3 各模型性能比較結(jié)果 (%)

        實(shí)驗(yàn)結(jié)果表明,本文模型在WA 和UA 兩個評價指標(biāo)上優(yōu)于對照模型,表明利用多種注意力模塊學(xué)習(xí)模態(tài)間及模態(tài)內(nèi)的交互特征有利于改善網(wǎng)絡(luò)性能。此外,同時使用語音和文本的多模態(tài)方法的準(zhǔn)確率明顯高于僅使用語音的方法。由于Att-LSTM 模型只考慮了與語音和文本的單向交互,其準(zhǔn)確率低于基于模態(tài)間雙向交互的BiAtt-TFL和BiAtt-GMU 模型。本文模型不僅利用了模態(tài)間的雙向交互關(guān)系,而且利用了每個模態(tài)內(nèi)的交互關(guān)系,因此準(zhǔn)確率最高。

        3.6 消融實(shí)驗(yàn)

        為進(jìn)一步分析模型中自注意力模塊、引導(dǎo)注意力模塊和模塊數(shù)量對模型性能的影響,本文在IEMOCAP 數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4 所示??梢钥闯觯?dāng)自注意力模塊和引導(dǎo)注意力模塊被去掉后,模型的WA 分別下降0.62%和1.21%,UA 分別下降0.87%和2.06%,證明了這兩種注意力模塊的重要性,也說明了在多模態(tài)方法中同時對模態(tài)間和模態(tài)內(nèi)交互建模的必要性。此外,相較于自注意力模塊,引導(dǎo)注意力模塊被去掉后模型性能下降得更明顯,表明對模態(tài)間交互作用的捕獲比模態(tài)內(nèi)交互作用的捕獲更為重要。本文還驗(yàn)證了引導(dǎo)注意力模塊數(shù)量對模型性能的影響,發(fā)現(xiàn)對引導(dǎo)注意力模塊進(jìn)行堆疊后,模型性能開始下降,這可能是由于堆疊模塊后導(dǎo)致模型太大,而IEMOCAP 數(shù)據(jù)集太小,無法充分訓(xùn)練大模型,造成了過擬合現(xiàn)象。

        Table 4 Ablation experiment results表4 消融實(shí)驗(yàn)結(jié)果 (%)

        4 結(jié)語

        為實(shí)現(xiàn)更加準(zhǔn)確的語音情感識別,本文提出一種基于多種注意力機(jī)制的多模態(tài)情感識別模型。該模型首先采用Bi-GRU 作為編碼器提取語音和文本的上下文特征,然后通過注意力網(wǎng)絡(luò)同時捕獲模型間及模態(tài)內(nèi)的交互關(guān)系,在IEMOCAP 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明了所提模型的有效性。后續(xù)計(jì)劃引入視覺模態(tài),針對三模態(tài)融合問題展開深入研究。

        猜你喜歡
        模態(tài)特征文本
        如何表達(dá)“特征”
        在808DA上文本顯示的改善
        不忠誠的四個特征
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        抓住特征巧觀察
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        國內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
        由單個模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
        如何快速走進(jìn)文本
        語文知識(2014年1期)2014-02-28 21:59:13
        日本九州不卡久久精品一区| 色诱视频在线观看| 亚洲欧美一区二区三区在线| 欧美日韩在线观看免费| 国产西西裸体一级黄色大片| 亚洲精品一区二区网站| a级国产乱理伦片| 四虎国产精品永久在线国在线| 乱中年女人伦av| 亚洲蜜芽在线精品一区| 中文字幕一区二区三区亚洲| 日韩精品极品系列在线免费视频| 国产无遮挡又黄又爽高潮| 制服丝袜人妻中文字幕在线| 日韩av一区二区毛片| 口爆吞精美臀国产在线| 久久国产人妻一区二区| 人妻系列无码专区久久五月天| 最新国产成人在线网站| 国产精品美女主播在线| 18国产精品白浆在线观看免费| 少妇白浆高潮无码免费区| 久久国产亚洲高清观看5388| 手机在线免费av网址| 亚洲黄色天堂网站在线观看禁18| 无码人妻久久一区二区三区不卡 | 免费人成黄页在线观看国产| 日日噜噜夜夜狠狠久久丁香五月| 国产精品久久久久久52avav| 婷婷一区二区三区在线| 毛片精品一区二区二区三区| 午夜天堂一区人妻| 东京无码熟妇人妻av在线网址| 无码一区二区三区不卡AV| 中文字幕精品乱码一二三区| av一区二区三区在线| 中文字幕精品久久久久人妻| 九九99久久精品在免费线97| 一区二区三区视频亚洲| 手机看片久久国产免费| 九九99国产精品视频|