顧 煜,金 赟,2,馬 勇,姜芳艽,俞佳佳
(1.江蘇師范大學(xué)物理與電子工程學(xué)院,徐州 221116;2.江蘇師范大學(xué)科文學(xué)院,徐州 221116;3.江蘇師范大學(xué)語(yǔ)言科學(xué)與藝術(shù)學(xué)院,徐州 221116)
盡管語(yǔ)音情感識(shí)別(Speech emotion recognition,SER)和自然語(yǔ)言處理(Natural language process?ing,NLP)已經(jīng)取得了很大的進(jìn)展,但人類(lèi)仍然無(wú)法與機(jī)器進(jìn)行自然地交流。因此,建立一套能夠在人機(jī)交互中檢測(cè)情感的系統(tǒng)至關(guān)重要。但由于人類(lèi)情感的多變性和復(fù)雜性,這仍然是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。傳統(tǒng)的情感識(shí)別主要針對(duì)于單個(gè)模態(tài),如文本、語(yǔ)音和圖像等,在識(shí)別性能上存在一定的局限性[1]。如在早期的語(yǔ)音情感識(shí)別任務(wù)中,研究人員主要利用的是語(yǔ)音中的聲學(xué)特征和一些相關(guān)的韻律學(xué)特征,往往忽視了語(yǔ)音中所包含的具體語(yǔ)義信息(文本信息)。但在日常會(huì)話和社交媒體中,聲音往往是對(duì)一段文本內(nèi)容的復(fù)述,二者密切相關(guān)??紤]到語(yǔ)音和文本模態(tài)之間的同一性、互補(bǔ)性和強(qiáng)相關(guān)聯(lián)性,不少研究人員從單模態(tài)轉(zhuǎn)向了多模態(tài)的情感識(shí)別研究。其中,融合語(yǔ)音和文本這兩種不同模態(tài)信息來(lái)進(jìn)行情感識(shí)別也成為了熱點(diǎn)研究方向。實(shí)驗(yàn)表明,與單個(gè)模態(tài)相比,同時(shí)考慮多種模態(tài)信息可以更加準(zhǔn)確地捕捉情感[2]。在多模態(tài)融合方面,主要采用3種融合策略:特征層融合、決策層融合以及混合融合。Kim等[1]利用深度神經(jīng)網(wǎng)絡(luò)(Deep neural network,DNN)提取話語(yǔ)級(jí)聲學(xué)瓶頸特征和以分布表征和情感詞匯為基礎(chǔ)的文本特征,將這些聲學(xué)和文本特征進(jìn)行早期融合后輸入至另一個(gè)DNN網(wǎng)絡(luò)進(jìn)行分類(lèi),并取得了良好的效果。文獻(xiàn)[3]使用OpenSMILE工具箱提取的特征和原始的倒譜特征作為語(yǔ)音的話語(yǔ)級(jí)聲學(xué)特征,而在文本特征方面利用N?gram語(yǔ)言模型進(jìn)行捕獲,并將兩個(gè)模態(tài)先分別訓(xùn)練識(shí)別,再進(jìn)行決策融合。也有研究人員另辟蹊徑,將側(cè)重點(diǎn)放在兩個(gè)模態(tài)信息融合上,文獻(xiàn)[4]提出一種新穎的多模態(tài)交叉的自注意力網(wǎng)絡(luò)(Multimodal cross and self?attention network,MCSAN),該網(wǎng)絡(luò)主要利用交叉注意力機(jī)制來(lái)引導(dǎo)一個(gè)模態(tài)關(guān)注另一個(gè)模態(tài),從而實(shí)現(xiàn)特征的更新。
隨著技術(shù)的發(fā)展,許多研究機(jī)構(gòu)也在不斷探索新的語(yǔ)言模型。2019谷歌研究所[5]首次提出一種新型語(yǔ)言表征模型BERT,該模型可以生成深層次的語(yǔ)言雙向表征,對(duì)自然語(yǔ)言處理各項(xiàng)任務(wù)的結(jié)果都有很大的提升。文獻(xiàn)[6]利用BERT獲得上下文詞嵌入來(lái)表征轉(zhuǎn)錄文本中所包含的信息,但沒(méi)有考慮到因BERT復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)與情感語(yǔ)料庫(kù)數(shù)據(jù)量不足而不匹配的問(wèn)題。BERT雖然可以用來(lái)生成文本信息的表征,但無(wú)法彌補(bǔ)轉(zhuǎn)錄文本自身忽視一些潛在情感信息的不足。在轉(zhuǎn)錄文本時(shí)并不會(huì)體現(xiàn)出說(shuō)話過(guò)程中的停頓信息。文獻(xiàn)[7]調(diào)研了說(shuō)話停頓信息與情感之間的聯(lián)系,發(fā)現(xiàn)與快樂(lè)、積極相比,在悲傷、害怕的情感狀態(tài)下,沉默停頓的平均時(shí)長(zhǎng)占整段語(yǔ)音的比例增加了,且注意到處于不同情感狀態(tài)時(shí),說(shuō)話停頓的頻率、持續(xù)時(shí)間以及停頓發(fā)生的位置也會(huì)有所區(qū)別。另一方面,基于注意力機(jī)制的深度網(wǎng)絡(luò)在解碼階段顯示了優(yōu)越的性能,在自然語(yǔ)言處理和語(yǔ)音識(shí)別領(lǐng)域中得到了廣泛的應(yīng)用。而在語(yǔ)音情感識(shí)別中,由于情感特征在語(yǔ)句中分布并不均勻,因此不少研究人員在情感識(shí)別任務(wù)中增加了注意力機(jī)制,如文獻(xiàn)[8?10],使得網(wǎng)絡(luò)對(duì)包含情感信息較多的部分具有指導(dǎo)性機(jī)制,重點(diǎn)突出局部最具情感的信息。
針對(duì)提高情感識(shí)別性能,本文提出了一種基于聲學(xué)和文本特征的多模態(tài)識(shí)別方法。在文本模態(tài)上,原始的轉(zhuǎn)錄文本缺失了情感相關(guān)的說(shuō)話人停頓信息,因而利用語(yǔ)音和轉(zhuǎn)錄文本的強(qiáng)制對(duì)齊,將停頓信息編碼后添加至文本。為解決傳統(tǒng)BERT復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)與情感數(shù)據(jù)量少的不匹配問(wèn)題,將文本輸入分層密集連接BERT模型(Densely connected bi?directional encoder representation from transformers,DC?BERT)提取話語(yǔ)級(jí)文本特征。在語(yǔ)音模態(tài)上,利用OpenSMILE提取語(yǔ)音情感的淺層特征,并與Transformer Encoder學(xué)習(xí)淺層特征后得到的深層特征進(jìn)行融合生成多層次的聲學(xué)特征。本文專注于特征提取的質(zhì)量與有效性,利用早期特征層融合技術(shù)來(lái)補(bǔ)充聲學(xué)和文本特征之間相互缺失的信息,并采用了基于注意力機(jī)制的雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(BiLSTM?ATT)作為分類(lèi)器。其中BiLSTM網(wǎng)絡(luò)的優(yōu)勢(shì)是能夠充分利用先驗(yàn)知識(shí),獲取有效的上下文信息,而注意力機(jī)制有助于抽取特征中突顯情感信息的部分,避免信息冗余。最后,本文對(duì)比了目前使用較為廣泛的3種注意力機(jī)制,即局部注意力機(jī)制[11]、自注意力機(jī)制[12]、多頭自注意力機(jī)制[12]對(duì)情感信息的捕獲能力。最終,本文方法在IEMOCAP數(shù)據(jù)集[13]上4類(lèi)情感分類(lèi)中加權(quán)準(zhǔn)確率達(dá)到78.7%。與基線系統(tǒng)相比,展示了良好的性能。
本節(jié)主要描述了系統(tǒng)的整體框架及其所涉及的技術(shù)。該系統(tǒng)由聲學(xué)特征提取模塊、文本特征提取模塊和BiLSTM?ATT網(wǎng)絡(luò)模型組成,系統(tǒng)整體框架如圖1所示。
圖1 多模態(tài)情感識(shí)別模型的系統(tǒng)框架Fig.1 System framework of the proposed model for multimodal emotion recognition
本文使用OpenSMILE工具箱[14]中的Emobase特征集提取了988維淺層聲學(xué)特征。它們由低級(jí)描述符(Low?level descriptors,LLDs)組成,如強(qiáng)度、響度、梅爾頻率倒譜系數(shù)(Mel?frequency cepstral coef?ficients,MFCC)、音調(diào)以及它們?cè)谠捳Z(yǔ)級(jí)上每個(gè)短幀的統(tǒng)計(jì)值,如最大值、最小值、平均值和標(biāo)準(zhǔn)偏差等。但是,低級(jí)描述符只包含全局淺層信息,僅僅使用其表達(dá)情感是不夠的,需要從中挖掘出更細(xì)節(jié)的情感描述特征。
受自然語(yǔ)言處理領(lǐng)域Transformer模型[12]的啟發(fā),采用Transformer Encoder網(wǎng)絡(luò)結(jié)構(gòu)對(duì)低級(jí)描述符進(jìn)行2次學(xué)習(xí)提取深層特征。Transformer模型最早用于機(jī)器翻譯任務(wù),可以很好地解決序列到序列(Sequence to sequence,Seq2seq)的問(wèn)題,從而廣泛應(yīng)用于自然語(yǔ)言處理領(lǐng)域。該模型主要包括編碼器、解碼器。其中,在Seq2seq模型中,編碼器主要將輸入單詞序列映射為高維的連續(xù)表征序列,而解碼器則是在給定高維連續(xù)表征序列的情況下,生成一個(gè)單詞序列作為輸出。
但在語(yǔ)音情感分類(lèi)任務(wù)中,一句話對(duì)應(yīng)一個(gè)情感標(biāo)簽,且數(shù)據(jù)量不如機(jī)器翻譯任務(wù),因而本文僅采用Transformer的編碼器結(jié)構(gòu),其強(qiáng)大的特征學(xué)習(xí)能力受益于內(nèi)部的自注意機(jī)制,可以有效地從淺層聲學(xué)特征中挖掘到與情感狀態(tài)高度相關(guān)的深層表征。
考慮到說(shuō)話停頓對(duì)情感表達(dá)的影響,本文通過(guò)賓夕法尼亞大學(xué)語(yǔ)音標(biāo)簽強(qiáng)制對(duì)齊工具(Penn pho?netics lab forced aligner,P2FA)對(duì)預(yù)處理后的轉(zhuǎn)錄文本和音頻進(jìn)行強(qiáng)制對(duì)齊,從而確定停頓的位置和持續(xù)時(shí)間。文本預(yù)處理包含刪除轉(zhuǎn)錄文本的標(biāo)點(diǎn)符號(hào),以及單詞統(tǒng)一轉(zhuǎn)換為小寫(xiě)。根據(jù)文獻(xiàn)[15]的經(jīng)驗(yàn),將停頓時(shí)長(zhǎng)分為6個(gè)區(qū)間:0.05~0.1 s,0.1~0.3 s,0.3~0.6 s,0.6~1.0 s,1.0~2.0 s和大于2.0 s。對(duì)這6個(gè)區(qū)間分別進(jìn)行編碼:“..”“…”“….”“…..”“……”“…….”;最后添加“.”在每個(gè)說(shuō)話人的句尾作為結(jié)束的標(biāo)志。該流程如圖2所示。
圖2 停頓編碼流程圖Fig.2 Procedure for pause encoding
針對(duì)上文所述,BERT復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)與數(shù)據(jù)量不匹配,本文采用了一種改進(jìn)的BERT模型作為文本特征提取器,即分層密集連接BERT模型,它保留了Transformer中每個(gè)多頭自注意層[16]內(nèi)部的殘差連接,在層與層之間新增了密集連接,即每一個(gè)多頭自注意力層的輸入額外增加了前兩層的特征信息,目的是加快模型的收斂速度,使網(wǎng)絡(luò)的損失函數(shù)更加平滑,而每一層提取的特征也可以在不同的注意層之間被重復(fù)使用,提高了特征的利用率。DC?BERT網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,其中Trm為T(mén)ransformer。假設(shè)給定一個(gè)輸入特征序列X,X中元素如式(1)所示。
圖3 DC-BERT模型結(jié)構(gòu)Fig.3 DC-BERT model structure
式中:x i為輸入特征序列X的第i個(gè)元素;H為非線性函數(shù);α和β為保留前兩層信息的權(quán)重系數(shù),使得每一層都能得到前兩層處理的結(jié)果,卻又不占主導(dǎo)地位。
DC?BERT模型由12層Transformer組成,每一層的輸出理論上都可以作為話語(yǔ)級(jí)的文本特征。根據(jù)之前的實(shí)驗(yàn)經(jīng)驗(yàn),本文選擇DC?BERT倒數(shù)第2層的768維輸出序列作為話語(yǔ)級(jí)文本特征。
LSTM網(wǎng)絡(luò)可以解決長(zhǎng)距離信息依賴問(wèn)題,以及在訓(xùn)練過(guò)程中避免梯度消失或爆炸。BiLSTM網(wǎng)絡(luò)是由前向LSTM和反向LSTM組成,相較于單向的LSTM網(wǎng)絡(luò),BiLSTM網(wǎng)絡(luò)能夠充分利用先驗(yàn)知識(shí),更好地捕捉和考慮上下文信息。
本文在BiLSTM網(wǎng)絡(luò)中引入注意力機(jī)制來(lái)關(guān)注話語(yǔ)中包含強(qiáng)烈情感特征的特定部分,即BiLSTM?ATT模型,同時(shí)對(duì)比了3種注意力機(jī)制,即局部注意力機(jī)制[11]、自注意力機(jī)制[12]、多頭自注意力機(jī)制[12]。
1.3.1 局部注意力機(jī)制
為了解決計(jì)算開(kāi)銷(xiāo)問(wèn)題,本文采用了一種局部注意力機(jī)制,該機(jī)制只關(guān)注一部分編碼隱藏層。局部注意力首先在時(shí)間t上,為當(dāng)前節(jié)點(diǎn)生成一個(gè)對(duì)齊位置pt,然后選擇性地設(shè)置1個(gè)固定大小為2D+1的上下文窗口。
式中:D根據(jù)經(jīng)驗(yàn)選擇;Pt為窗口中心,由當(dāng)前隱藏狀態(tài)的ht決定,是一個(gè)實(shí)數(shù);編碼器的全部隱藏狀態(tài)為;對(duì)齊權(quán)重的計(jì)算過(guò)程和傳統(tǒng)attention相似,即
式中標(biāo)準(zhǔn)偏差σ根據(jù)經(jīng)驗(yàn)設(shè)定。
1.3.2 自注意力機(jī)制
自注意力機(jī)制利用了輸入特征序列元素之間的加權(quán)相關(guān)性。具體來(lái)說(shuō),輸入序列的每個(gè)元素都可以通過(guò)一個(gè)線性函數(shù)投影成3種不同的表示形式:查詢(query)、鍵(key)、值(value)[17],即
式中:w q、w v、w k分別為查詢、鍵、值的權(quán)重矩陣;u i為輸入的第i個(gè)詞向量。
最終注意矩陣為
式中:Q為查詢矩陣;K為鍵矩陣;V為句子的值矩陣;d k為比例因子。
1.3.3 多頭自注意力機(jī)制
為了擴(kuò)展模型對(duì)不同位置的關(guān)注能力,本文在自注意力機(jī)制的基礎(chǔ)上對(duì)比了多頭自注意力機(jī)制對(duì)語(yǔ)音情感識(shí)別任務(wù)的影響。多頭是指輸入特征序列的每個(gè)變量(query、key和value)的投影數(shù)不止一組。也就是說(shuō),在參數(shù)不共享的前提下,將Q、K、V通過(guò)參數(shù)矩陣映射后,做單層的自注意力,然后將自注意力層層疊加。多頭自注意力計(jì)算公式為
為了驗(yàn)證所提方法的有效性,本文在IEMOCAP情感數(shù)據(jù)集[13]上進(jìn)行了多組實(shí)驗(yàn)。該數(shù)據(jù)集包含5組二元互動(dòng)的會(huì)話,共包括12 h的視聽(tīng)數(shù)據(jù)(音頻、轉(zhuǎn)錄文本、視頻和面部動(dòng)作捕捉)。本文僅使用了音頻和轉(zhuǎn)錄文本,一些多模態(tài)情感識(shí)別利用自動(dòng)語(yǔ)音識(shí)別(Automatic speech recognition,ASR)系統(tǒng)將語(yǔ)音翻譯成文本,本文并沒(méi)有針對(duì)該語(yǔ)音訓(xùn)練一個(gè)專門(mén)的ASR系統(tǒng),而是直接使用IEMOCAP數(shù)據(jù)庫(kù)所包含的轉(zhuǎn)錄文本,減少了因ASR系統(tǒng)識(shí)別錯(cuò)誤帶來(lái)的消極影響,Li等做了相應(yīng)的實(shí)驗(yàn)驗(yàn)證了直接使用轉(zhuǎn)錄文本能夠提升情感識(shí)別的準(zhǔn)確率[18]。
IEMOCAP數(shù)據(jù)庫(kù)共有10類(lèi)情感(憤怒、高興、悲傷、中立、沮喪、興奮、恐懼、驚訝、厭惡、其他),每句話都由3位注釋員進(jìn)行情感判定。為了與先前的研究結(jié)果具有對(duì)比性,選取了4種情感進(jìn)行分類(lèi),其中將高興與興奮劃分為一類(lèi),以平衡數(shù)據(jù)在不同類(lèi)別之間的分布。最終實(shí)驗(yàn)數(shù)據(jù)共計(jì)5 531句話語(yǔ),類(lèi)別占比分別為:憤怒19.9%,快樂(lè)29.5%,中立30.8%,悲傷19.5%。
本文采用特定人的十折交叉驗(yàn)證作為最終實(shí)驗(yàn)結(jié)果。模型的參數(shù)主要根據(jù)交叉驗(yàn)證的結(jié)果進(jìn)行調(diào)整。為了增加模型的泛化能力,在交叉驗(yàn)證中,把訓(xùn)練數(shù)據(jù)分成10份,其中訓(xùn)練集9份和驗(yàn)證集1份,通過(guò)十折的交叉驗(yàn)證求取平均值來(lái)獲得模型的參數(shù)。此外,設(shè)置了Dropout防止模型過(guò)擬合,在全連接層加入Dropout可以隨機(jī)地將某些輸出置0,相當(dāng)于增加了噪聲,從而防止模型過(guò)擬合。實(shí)驗(yàn)結(jié)果也表明,本文提出的方法具有較好的泛化能力。最終模型的參數(shù)為:BiLSTM網(wǎng)絡(luò)的神經(jīng)元數(shù)設(shè)置為200(100個(gè)正向節(jié)點(diǎn)和100個(gè)反向節(jié)點(diǎn)),訓(xùn)練批次大小設(shè)置為64,迭代次數(shù)設(shè)置為20,Dropout設(shè)置為0.5;采用IEMOCAP數(shù)據(jù)集最常用的評(píng)價(jià)指標(biāo):加權(quán)準(zhǔn)確率WA和未加權(quán)準(zhǔn)確率UA來(lái)評(píng)估模型性能的優(yōu)劣。WA是整個(gè)測(cè)試數(shù)據(jù)的總體準(zhǔn)確率,UA是每個(gè)情感類(lèi)別的平均準(zhǔn)確率。采用交叉熵?fù)p失函數(shù)作為模型的損失函數(shù),其公式如下
式中:n為樣本個(gè)數(shù);y為期望輸出;a為神經(jīng)元實(shí)際輸出。
為了分析驗(yàn)證所提的多模態(tài)融合方法以及該模型的優(yōu)越性,本文分3個(gè)步驟進(jìn)行驗(yàn)證分析。首先針對(duì)單語(yǔ)音模態(tài)驗(yàn)證深淺特征融合的有效性,本文做了如下幾組對(duì)比實(shí)驗(yàn):(1)IS09+BiLSTM:使用384維的IS09特征集作為聲學(xué)特征,并采用BiLSTM網(wǎng)絡(luò)進(jìn)行分類(lèi);(2)emobase+BiLSTM:使用988維的emobase特征集作為聲學(xué)特征,并采用BiLSTM網(wǎng)絡(luò)進(jìn)行分類(lèi);(3)emobase+deep features(pro?posed):使用988維的emobase特征集作為淺層特征,將其輸入Transformer Encoder提取深層特征,再將深淺特征融合,送入BiLSTM網(wǎng)絡(luò)進(jìn)行分類(lèi)。對(duì)比實(shí)驗(yàn)結(jié)果如表1所示。由表1可以看出,在BiLSTM網(wǎng)絡(luò)參數(shù)與上述設(shè)置一致的前提下,對(duì)于單語(yǔ)音模態(tài)而言,Emobase+deep features(pro?posed)的WA和UA分別可以達(dá)到67.55%和66.39%。深淺融合特征明顯優(yōu)于僅有低級(jí)描述符的淺層特征。同時(shí)驗(yàn)證了利用Transformer Encoder是可以從淺層特征中提取更顯著的局部情感信息。
表1 僅語(yǔ)音模態(tài)的實(shí)驗(yàn)對(duì)比結(jié)果Table1 Exper imental compar ison results for only speech modal
其次,針對(duì)單文本模態(tài),本文做了如下幾組對(duì)比實(shí)驗(yàn):(1)Word2vec+BiLSTM:使用傳統(tǒng)詞嵌入模型word2vec提取文本特征,并采用BiLSTM網(wǎng)絡(luò)進(jìn)行分類(lèi);(2)BERT+BiLSTM:直接采用轉(zhuǎn)錄文本,將其輸入BERT預(yù)訓(xùn)練模型后,提取倒數(shù)第2層的768維輸出序列作為文本特征,并采用BiLSTM網(wǎng)絡(luò)進(jìn)行分類(lèi);(3)DC?BERT+BiLSTM:直接采用轉(zhuǎn)錄文本,將其輸入DC?BERT預(yù)訓(xùn)練模型后,提取倒數(shù)第2層的768維輸出序列作為文本特征,并采用BiLSTM網(wǎng)絡(luò)進(jìn)行分類(lèi);(4)Pause+BERT+BiLSTM:使用經(jīng)過(guò)停頓編碼后的轉(zhuǎn)錄文本,將其輸入BERT預(yù)訓(xùn)練模型后,提取倒數(shù)第2層的768維輸出序列作為文本特征,并采用BiLSTM網(wǎng)絡(luò)進(jìn)行分類(lèi);(5)Pause+DC?BERT+BiLSTM:使用經(jīng)過(guò)停頓編碼后的轉(zhuǎn)錄文本,將其輸入DC?BERT預(yù)訓(xùn)練模型后,提取倒數(shù)第2層的768維輸出序列作為文本特征,并采用BiLSTM網(wǎng)絡(luò)進(jìn)行分類(lèi)。對(duì)比結(jié)果如表2所示。由表2可知,在BiLSTM網(wǎng)絡(luò)參數(shù)與上述設(shè)置一致的前提下,對(duì)于單文本模態(tài)而言,DC?BERT+BiLSTM的WA可以達(dá)到69.01%,UA達(dá)到了68.93%;而B(niǎo)ERT+BiLSTM的WA為68.78%,UA為68.69%,Word2vec+BiLSTM的WA僅為65.21%。由此DC?BERT的性能要優(yōu)于BERT模型和word2vec。除此之外,不難發(fā)現(xiàn)相較于直接使用轉(zhuǎn)錄文本,采用經(jīng)過(guò)停頓編碼后的文本新增了語(yǔ)義與停頓信息的聯(lián)結(jié),在一定程度上是對(duì)語(yǔ)義信息無(wú)聲的補(bǔ)充,可以有效地提高情感識(shí)別的準(zhǔn)確性,而DC?BERT與停頓編碼的組合也進(jìn)一步提升了識(shí)別的準(zhǔn)確性,其中WA和UA分別達(dá)到了70.13%和70.34%。
表2 僅文本模態(tài)的實(shí)驗(yàn)對(duì)比結(jié)果Table 2 Experimental comparison results for only text(transcribed text)modal
最后將語(yǔ)音和文本模態(tài)融合的結(jié)果(本文采用基于特征層融合的策略)與最近的一些實(shí)驗(yàn)結(jié)果比較,其中這些引用皆使用了相同的情感語(yǔ)料庫(kù),同時(shí)在此基礎(chǔ)上,本實(shí)驗(yàn)對(duì)比了3種不同注意力機(jī)制,如表3所示。
表3 多模態(tài)模型在IEMOCAP數(shù)據(jù)集上的對(duì)比結(jié)果Table 3 Comparison results on IEMOCAP dataset using multimodal models
(1)Concat(Yoon et al.,2018)[19]:提出一種多模態(tài)雙循環(huán)編碼器模型,使用雙向RNN對(duì)語(yǔ)音和文本序列進(jìn)行編碼,再使用前饋神經(jīng)網(wǎng)絡(luò)將編碼序列組合從而完成情感類(lèi)別預(yù)測(cè),最終在IE?MOCAP數(shù)據(jù)集上獲得了71.8%的識(shí)別率。
(2)Concat(Gu et al.,2018)[20]:提出一種多模態(tài)分層注意力結(jié)構(gòu)(Multimodal hierarchical at?tention structure),該結(jié)構(gòu)主要包括文本注意力模塊、語(yǔ)音注意力模塊和融合模塊,在預(yù)處理階段,將文本和語(yǔ)音進(jìn)行強(qiáng)制對(duì)齊。然后,文本注意模塊和語(yǔ)音注意模塊從相應(yīng)的輸入中提取特征,并通過(guò)融合后的特征進(jìn)行情感預(yù)測(cè),最終在IEMOCAP數(shù)據(jù)集上獲得了72.7%的識(shí)別率。
(3)Concat(Xu et al.,2019)[21]:使用注意力機(jī)制來(lái)學(xué)習(xí)語(yǔ)音幀和文本詞之間的對(duì)齊,再將對(duì)齊的多模態(tài)特征輸入至序列模型中進(jìn)行情感識(shí)別,最終在IEMOCAP數(shù)據(jù)集上的WA和UA分別為72.50%和70.90%。
(5)Concat(Pepino et al.,2020)[6]:通過(guò)BERT獲得的上下文詞嵌入作為轉(zhuǎn)錄文本的特征,利用OpenSMILE工具包提取36維的聲學(xué)特征,采用模型融合的方式將兩個(gè)模態(tài)的信息整合,最終在IE?MOCAP數(shù)據(jù)集上的UA為65.10%。
(6)Concat(Patamia et al.,2021)[2]:利用librosa獲取34維聲學(xué)特征,通過(guò)BERT獲得的上下文詞嵌入作為文本的特征,并將兩個(gè)模態(tài)的特征輸入神經(jīng)網(wǎng)絡(luò)獲取更深層的特征,采用特征層融合的方式整合兩個(gè)模態(tài)的信息,最終在IEMOCAP數(shù)據(jù)集上的WA為70.18%。
(7)LLDs+word2vec+BiLSTM:將語(yǔ)音模態(tài)的988維LLDs和文本模態(tài)中使用word2vec提取的詞嵌入進(jìn)行簡(jiǎn)單的特征拼接,再送入與上述參數(shù)設(shè)置一致的BiLSTM網(wǎng)絡(luò)中進(jìn)行情感識(shí)別,最終WA為71.10%。
本實(shí)驗(yàn)在多模態(tài)的基礎(chǔ)上,將注意力機(jī)制引入BiLSTM來(lái)引導(dǎo)網(wǎng)絡(luò)關(guān)注特征中情感濃烈的地方,并對(duì)比了3種不同注意機(jī)制(LoaclAtt、SelfAtt和MultiAtt),其WA分別是78.70%、77.99%和76.39%,UA為79.51%、78.77%和75.97%。顯然,與其他先進(jìn)的方法進(jìn)行比較,本文所提模型的性能優(yōu)于上述模型。本模型相較于上述模型識(shí)別效果有所提高主要在于兩個(gè)模態(tài)特征提取的創(chuàng)新,在語(yǔ)音模態(tài),本文對(duì)淺層聲學(xué)特征進(jìn)行2次學(xué)習(xí),從淺層聲學(xué)特征中挖掘深層聲學(xué)特征,并將深淺層特征融合,得到的新特征包含更豐富的信息,可以多層次的去識(shí)別情感;在文本模態(tài),本文將語(yǔ)音中的停頓時(shí)長(zhǎng)信息以編碼的形式添加至轉(zhuǎn)錄文本中,這是把語(yǔ)音模態(tài)中的特定信息與文本模態(tài)信息融合,使得文本所帶的語(yǔ)義信息中加入了停頓信息,讓文本內(nèi)容變得更加豐富。最終將兩個(gè)模態(tài)的特征進(jìn)行融合,并采用注意力機(jī)制去關(guān)注情感信息突出的部分,獲得了較好的實(shí)驗(yàn)結(jié)果。
3種不同注意力機(jī)制下的分類(lèi)混淆矩陣如圖4所示,發(fā)現(xiàn)基于局部注意力機(jī)制的BiLSTM網(wǎng)絡(luò)要比基于自注意力機(jī)制或多頭自注意力機(jī)制的BiLSTM網(wǎng)絡(luò)表現(xiàn)更好??梢钥闯觯辛㈩?lèi)別外,其他類(lèi)的識(shí)別率幾乎都在75%以上。文獻(xiàn)[22]曾表述高興是一種正效價(jià)和喚醒值情感,僅靠淺層特征信息是無(wú)法很好預(yù)測(cè)的。在本文實(shí)驗(yàn)中,高興的識(shí)別率在80%左右,遠(yuǎn)高于文獻(xiàn)[22],證明了利用Transformer從淺層特征中學(xué)習(xí)深層特征的方法是有效的。
圖4 在3種不同注意力機(jī)制下4類(lèi)情感識(shí)別結(jié)果的混淆矩陣Fig.4 Confusion matrices of four categories of emotion recognition results under three different attention mechanisms
為了進(jìn)一步驗(yàn)證BiLSTM?LocalAtt模型在語(yǔ)音情感識(shí)別方面的優(yōu)勢(shì),本文在IEMOCAP數(shù)據(jù)庫(kù)上進(jìn)行了參數(shù)量(Params)和計(jì)算復(fù)雜度(FLOPs)對(duì)比實(shí)驗(yàn)。如表4所示,BiLSTM?MultiAtt模型的網(wǎng)絡(luò)參數(shù)量最多,計(jì)算復(fù)雜度最大,但其識(shí)別準(zhǔn)確率最低,可見(jiàn)對(duì)于小數(shù)據(jù)量的情感識(shí)別任務(wù),較為龐大的網(wǎng)絡(luò)結(jié)構(gòu)未必能取得預(yù)期效果。BiLSTM?LocalAtt模型和BiLSTM?SelfAtt模型的網(wǎng)絡(luò)參數(shù)量和計(jì)算復(fù)雜度是一樣的,但局部注意力機(jī)制的效果要優(yōu)于自注意力機(jī)制,可見(jiàn)對(duì)于整句語(yǔ)音而言,情感并不是平均分布的,而是相對(duì)集中在某幾個(gè)地方,因此局部注意力機(jī)制會(huì)更適合情感識(shí)別任務(wù)。
表4 網(wǎng)絡(luò)復(fù)雜度對(duì)比實(shí)驗(yàn)結(jié)果Table 4 Comparison of experimental r esults for net?work complexity
本文提出了一種有效的從語(yǔ)音和轉(zhuǎn)錄文本中識(shí)別情感的方法。通過(guò)Transformer Encoder模型從OpenSMILE工具箱提取的淺層特征中2次學(xué)習(xí)獲得深層特征,再把深淺層特征融合以補(bǔ)全信息的完整性。利用兩個(gè)模態(tài)的對(duì)齊獲取語(yǔ)音中的停頓信息,并以停頓編碼的方式將說(shuō)話停頓添加到轉(zhuǎn)錄文本中,補(bǔ)充了文本模態(tài)除語(yǔ)義信息外的其他從屬信息,使得文本信息更加多元化。最終結(jié)果表明,與直接使用轉(zhuǎn)錄文本相比,具有停頓信息的轉(zhuǎn)錄文本可以提高情感識(shí)別的準(zhǔn)確性;再使用DC?BERT模型提取的話語(yǔ)級(jí)文本特征,以彌補(bǔ)因BERT復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)與數(shù)據(jù)量不足而不匹配的問(wèn)題。本文將兩種改進(jìn)后的模態(tài)特征融合并輸入到BiLSTM?ATT網(wǎng)絡(luò)中進(jìn)行情感分類(lèi)。實(shí)驗(yàn)結(jié)果表明,該方法在情感識(shí)別效果上優(yōu)于其他方法。同時(shí)本文對(duì)比了3種注意力機(jī)制在情感識(shí)別任務(wù)中的影響,發(fā)現(xiàn)在本實(shí)驗(yàn)數(shù)據(jù)情況下,局部注意力機(jī)制的效果要優(yōu)于另外兩個(gè)注意力機(jī)制。