陳巧紅,于澤源,賈宇波
(浙江理工大學(xué)信息學(xué)院,浙江 杭州 310018)
近年來(lái)人工智能取得了巨大的進(jìn)步,但人類(lèi)還遠(yuǎn)不能與機(jī)器無(wú)障礙地互動(dòng),部分原因是機(jī)器無(wú)法理解人的情緒狀態(tài),而語(yǔ)音情緒識(shí)別就是對(duì)語(yǔ)音信號(hào)中包含的情緒狀態(tài)進(jìn)行判斷,其中如何提取有效的情緒特征是一個(gè)值得探索的問(wèn)題[1]。與語(yǔ)音識(shí)別相比,情緒識(shí)別方面的特征參數(shù)研究相對(duì)較少。以往的研究大多是根據(jù)基礎(chǔ)常規(guī)聲學(xué)特征,例如音高、韻律等作為輸入并生成段級(jí)情緒狀態(tài)概率分布。語(yǔ)音情緒識(shí)別的目的是從低層特征識(shí)別出話語(yǔ)的高級(jí)情緒狀態(tài),也可以作為一個(gè)序列的分類(lèi)問(wèn)題。為了有效地進(jìn)行情緒分類(lèi),Bitouk等[2]在英文情緒數(shù)據(jù)集和柏林EMO-DB情緒數(shù)據(jù)庫(kù)上,從輔音和元音中提取出基礎(chǔ)的梅爾頻率倒譜系數(shù)MFCC(Mel Frequency Cepstral Coefficents)。Wu等[3]利用支持向量機(jī)SVM(Support Vector Machine)計(jì)算制譜特征和韻律特征,在特征方面通過(guò)控制錯(cuò)誤通過(guò)率,再通過(guò)預(yù)加重、濾波器組等處理,最終提取出三角洲和雙三角洲特征,計(jì)算出13維的MFCC特征。
在語(yǔ)音情緒特征提取相關(guān)研究日益成熟時(shí),應(yīng)用在語(yǔ)音情緒識(shí)別上的模型也在不斷更新。Mower等[4]利用支持向量機(jī)SVM對(duì)低階聲學(xué)特征進(jìn)行計(jì)算,然后將得到的語(yǔ)音信號(hào)的全局統(tǒng)計(jì)特征進(jìn)行分類(lèi)。其他一些分類(lèi)器雖然也被陸續(xù)用于語(yǔ)音情緒識(shí)別[5],但大多需要人工特征選擇經(jīng)驗(yàn)。在這項(xiàng)研究中,Yamagishi等[6]將常規(guī)聲學(xué)特征作為輸入并生成段級(jí)情緒狀態(tài)概率分布,并以此為基礎(chǔ)生成言語(yǔ)級(jí)特征來(lái)確定語(yǔ)言層面的情緒狀態(tài)。除了傳統(tǒng)機(jī)器學(xué)習(xí)方法以外,深度學(xué)習(xí)的衍生也對(duì)語(yǔ)音情緒識(shí)別提供了新的思路。例如,深度神經(jīng)網(wǎng)絡(luò)DNN(Deep Neural Network)因?yàn)橛辛俗銐虻挠?xùn)練數(shù)據(jù)和合適的訓(xùn)練策略,在許多機(jī)器學(xué)習(xí)任務(wù)中表現(xiàn)得很好[7]。Zhang等[8]使用循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network)作為聲學(xué)模型,獲得了更高的識(shí)別精度。但是,梯度消失和梯度爆炸問(wèn)題降低了RNN學(xué)習(xí)時(shí)間依賴(lài)性的能力。為了解決這些問(wèn)題,Zhao等[9]引入了長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)LSTM(Long Short-Term Memory)作為語(yǔ)音情緒識(shí)別模型,LSTM對(duì)靜態(tài)數(shù)據(jù)表現(xiàn)敏感,因此出現(xiàn)了針對(duì)語(yǔ)音數(shù)據(jù)的目標(biāo)延遲,成為了聲學(xué)領(lǐng)域建模的首選。在此基礎(chǔ)上,Zhang等[10]提出了一種在2個(gè)方向上處理輸入序列以做出決定的特殊體系結(jié)構(gòu),即雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)BLSTM(Bidirectional Long Short-Term Memory),可以更好地捕捉雙向情緒依賴(lài),更具有魯棒性。考慮到僅使用一種神經(jīng)網(wǎng)絡(luò)提取到的深層特征不夠充分,Huang等[11]提出將卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)與BLSTM進(jìn)行融合,首先利用CNN提取局部顯著特征,再利用BLSTM提取語(yǔ)音信號(hào)的上下文特征,最后對(duì)訓(xùn)練好的特征進(jìn)行拼接合并。實(shí)驗(yàn)結(jié)果表明,混合神經(jīng)網(wǎng)絡(luò)模型可以更好地完成語(yǔ)音情緒識(shí)別。
本文提出的用于語(yǔ)音情緒識(shí)別的深層混合方法,能夠解決語(yǔ)音情緒識(shí)別準(zhǔn)確率較低的問(wèn)題。在分析了輸入特征集和CNN體系結(jié)構(gòu)之后,考慮到BLSTM可對(duì)上下文信息提取更充分的特性,本文提出了一個(gè)基于CNN-BLSTM模型和混合分布注意力機(jī)制結(jié)構(gòu)的模型作為解決方法,其中混合分布注意力機(jī)制是改進(jìn)的多頭注意力機(jī)制。該方法首先由CNN和BLSTM在2個(gè)通道上分別提取語(yǔ)音特征;然后,將2個(gè)模型提取到的特征輸入到混合分布注意力機(jī)制中進(jìn)行融合,分割計(jì)算后再進(jìn)行拼接;最后,輸出到全連接層進(jìn)行分類(lèi)識(shí)別。
語(yǔ)音情緒識(shí)別中情緒種類(lèi)較多,且有些情緒特征比較接近,難以區(qū)分,同時(shí)考慮到語(yǔ)音信號(hào)的上下文信息關(guān)聯(lián),本文構(gòu)建了一個(gè)基于混合分布多頭注意力機(jī)制與混合神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行語(yǔ)音情緒識(shí)別,識(shí)別步驟如下:
(1)對(duì)語(yǔ)音數(shù)據(jù)集進(jìn)行整理,將可用數(shù)據(jù)輸入模型中。
(2)對(duì)語(yǔ)音進(jìn)行加窗、分幀等預(yù)處理操作后,從語(yǔ)音中提取出梅爾頻譜圖作為特征向量。
(3)將頻譜圖輸入到CNN中,由CNN在數(shù)據(jù)空間進(jìn)行特征提取。
(4)在CNN處理的同時(shí)將頻譜圖也輸入到雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)BLSTM(Bidirectional Long Short-term Memory)中;特征參數(shù)經(jīng)過(guò)雙向LSTM處理后,得到正向LSTM層與反向LSTM層的輸出,將2個(gè)輸出向量進(jìn)行拼接,得到一個(gè)新的特征參數(shù)向量。
(5)將上述2個(gè)模型輸出的特征向量輸入到混合多頭注意力機(jī)制中,首先將2個(gè)模型的特征融合計(jì)算生成權(quán)重,并且保留BLSTM的輸出特征向量;接著對(duì)權(quán)重做混合分布處理并進(jìn)行歸一化;然后將BLSTM的輸出向量與混合分布得到的權(quán)重計(jì)算出最終的特征表示,再拼接生成一個(gè)完整的注意力特征。
(6)最后將結(jié)果輸出到全連接層,分類(lèi)識(shí)別后輸出分類(lèi)標(biāo)簽并獲得識(shí)別正確率。
基于混合分布注意力機(jī)制與混合神經(jīng)網(wǎng)絡(luò)的語(yǔ)音情緒識(shí)別流程如圖1所示。
Figure 1 Speech emotion recognition process using mixed distributed attention mechanism and hybrid neural network
常用的語(yǔ)音情緒識(shí)別特征為韻律、音素等基礎(chǔ)語(yǔ)音特征,但這些特征局限性較大,尤其在多情緒分類(lèi)中沒(méi)有明顯的情緒差別??紤]到語(yǔ)音的產(chǎn)生過(guò)程,本文選擇了根據(jù)人類(lèi)聲道模型建立的特征參數(shù):梅爾頻率倒譜系數(shù)的頻譜圖作為語(yǔ)音情緒特征。
本文使用librosa提取梅爾頻譜圖,提取步驟如下所示:
(1)將語(yǔ)音信號(hào)進(jìn)行預(yù)加重處理,增強(qiáng)高頻信號(hào),再進(jìn)行分幀處理。
(2)對(duì)分幀后的信號(hào)添加漢明窗處理,增加語(yǔ)音信號(hào)的連續(xù)性,以參數(shù)a來(lái)控制漢明窗的大小,具體計(jì)算方式如式(1)所示:
(1)
其中,M∈[0,N-1],a設(shè)置為0.46,N為幀的大小。
(3)逐幀進(jìn)行傅立葉變換,對(duì)絕對(duì)值取平方后生成語(yǔ)音信號(hào)頻譜,具體計(jì)算如式(2)所示:
(2)
其中,x(M)為輸入的語(yǔ)音信號(hào),k∈[0,N],k為傅里葉變換的點(diǎn)數(shù)。
通過(guò)上述步驟后,得到語(yǔ)音信號(hào)各幀的梅爾頻譜圖,梅爾頻譜圖中包含著語(yǔ)音的空間特征、頻率能量等信息。
本文使用CNN提取梅爾頻譜圖的空間特征。CNN層與層之間的連接權(quán)值可以共享,其中最主要的2個(gè)部分是卷積層和池化層,卷積層中的每一個(gè)輸入都是由n幅二維特征圖組成的三維數(shù)組,該階段的輸出也是一個(gè)由m幅二維特征圖構(gòu)成的三維數(shù)組,具體對(duì)應(yīng)關(guān)系如式(3)所示:
(3)
其中,xi表示輸入特征,y表示輸出特征。w表示輸入xi與輸出y之間的權(quán)值,b為偏移量。
Figure 2 Model structure of CNN
卷積層將計(jì)算后的結(jié)果輸入到池化層中,池化層將卷積層輸出的特征維度進(jìn)行縮小,以減少特征量。在卷積層和池化層后,由全連接層將特征進(jìn)行整合。本文采用的CNN模型結(jié)構(gòu)如圖2所示,包括2個(gè)卷積層、2個(gè)池化層、1個(gè)全連接層和1個(gè)Dropout層。
該網(wǎng)絡(luò)的具體實(shí)現(xiàn)為:
(1)卷積層1:32個(gè)5×5卷積核。
(2)池化層1:大小為2×2。
(3)卷積層2:采用64個(gè)5×5卷積核。
(4)池化層2:大小為2×2。
Figure 3 Speech emotion recognition process using BLSTM
(5)全連接層:大小為1*1024。
(6)Dropout層:dropout參數(shù)值設(shè)為0.5。
LSTM是一種時(shí)間遞歸神經(jīng)網(wǎng)絡(luò),能選擇性地記憶歷史信息[12]。LSTM的結(jié)構(gòu)由3種門(mén)控單元構(gòu)成,分別為遺忘門(mén)、輸入門(mén)和輸出門(mén)。將上一時(shí)刻的狀態(tài)輸入門(mén)控單元,得到當(dāng)前時(shí)刻的狀態(tài)。計(jì)算公式如式(4)~式(9)所示:
Ft=σ(Wf[at-1,xt,ct-1]+bf)
(4)
Ut=σ(Wu[at-1,xt,ct-1]+bu)
(5)
Ot=σ(Wo[at-1,xt]+bo)
(6)
(7)
(8)
ht=tanh(ct)×Ot
(9)
這種計(jì)算方式的局限在于每一次計(jì)算都無(wú)法得到上下文的關(guān)聯(lián)信息。針對(duì)上述問(wèn)題,本文使用BLSTM進(jìn)行上下文信息的提取。BLSTM由輸入層、前向傳遞層、后向傳遞層和輸出層構(gòu)成。通過(guò)前向傳遞層和后向傳遞層,可以從2個(gè)相反方向更全面地去提取上下文中所包含的特征信息,基于BLSTM的語(yǔ)音情緒識(shí)別流程如圖3所示。
(10)
BLSTM層通過(guò)正向LSTM和反向LSTM獲取全局的上下文信息,然后輸入到多頭注意力機(jī)制模塊中。
本文在 CNN-BLSTM的雙通道編碼框架下,由CNN提取語(yǔ)音數(shù)據(jù)的空間特征,同時(shí)使用BLSTM從編碼向量中解碼出語(yǔ)音的時(shí)序特征矩陣,但因?yàn)樯商卣鬏^多,在分類(lèi)識(shí)別時(shí)無(wú)法最大化利用有效特征。因此,本文在CNN-BLSTM的雙通道模型后添加了注意力機(jī)制模塊,以增加有效特征權(quán)重,增強(qiáng)模型表達(dá)能力。
多頭注意力機(jī)制通過(guò)將Q、K和V分別用n個(gè)不同的矩陣投影n次,再分別計(jì)算n次單一注意力,最后對(duì)結(jié)果進(jìn)行拼接。其中,Q、K和V都源于輸入特征本身,Q和K由輸入特征得到,用來(lái)計(jì)算注意力權(quán)重的特征向量,V表示單個(gè)輸入特征的向量,再根據(jù)注意力權(quán)重加權(quán)計(jì)算。多個(gè)注意力計(jì)算本身也會(huì)增加模型的表達(dá)能力,但是在實(shí)際語(yǔ)音情緒識(shí)別中,多頭注意力機(jī)制將Q和K分別投影到低維時(shí),假設(shè)特征維度為d,序列長(zhǎng)度為l,投影后的注意力計(jì)算結(jié)果總的參數(shù)量為2ld/n,而此時(shí)Q和K2個(gè)向量的聯(lián)合分布構(gòu)成的隨機(jī)向量總值為l2,當(dāng)n較大時(shí),總參數(shù)量很難逼近總值,就會(huì)造成一種低秩瓶頸,影響模型表達(dá)。為了解決上述問(wèn)題,本文對(duì)Q和K進(jìn)行融合計(jì)算后,將每一個(gè)多頭注意力計(jì)算方式改進(jìn)為混合分布計(jì)算,即使用每個(gè)頭帶有的低秩分布與相似性進(jìn)行計(jì)算,將原本孤立的注意力聯(lián)系起來(lái)。傳統(tǒng)多頭注意力機(jī)制及其改進(jìn)分別如圖4和圖5所示。
Figure 4 Traditional multi-head attention mechanism
Figure 5 Mixed distributed attention mechanism
其中,圖4和圖5中的Ci表示CNN在最后一層輸出的特征向量,yi表示BLSTM的輸出向量。本文首先根據(jù)2個(gè)模型的輸出計(jì)算相似性,如式(11)所示:
φ(yi,C)=tanh(yi·W·CT+b)
(11)
其中,W為權(quán)值矩陣,b為訓(xùn)練學(xué)習(xí)時(shí)得到的偏置項(xiàng)??紤]到低秩分布問(wèn)題,將每一個(gè)頭帶有的低秩分布作為參數(shù)矩陣λ,并將此參數(shù)矩陣與2個(gè)模型的相似性結(jié)果進(jìn)行疊加計(jì)算,如式(12)所示:
(12)
通過(guò)混合分布計(jì)算得到的權(quán)重,再利用softmax進(jìn)行歸一化處理,得到對(duì)應(yīng)權(quán)重Ai,最后將BLSTM的輸出向量與對(duì)應(yīng)權(quán)重Ai計(jì)算得到最終的特征表示Pi,如式(13)和式(14)所示:
(13)
(14)
混合分布多頭注意力機(jī)制通過(guò)CNN和BLSTM輸出得到的語(yǔ)音信號(hào)的隱藏層結(jié)構(gòu)作為注意力層的輸入,通過(guò)分割計(jì)算,并將每個(gè)頭帶有的低秩分布與相似性進(jìn)行混合分布計(jì)算,使其在不減少頭數(shù)量的情況下,逼近與Q和K二元聯(lián)合分布的總值,增加模型的表達(dá)能力,再進(jìn)行歸一化操作并計(jì)算得到不同的特征表示Pi,最后進(jìn)行拼接得到注意力表示。
語(yǔ)音情緒識(shí)別的準(zhǔn)確率與語(yǔ)音情緒數(shù)據(jù)庫(kù)的質(zhì)量息息相關(guān)。本文為了有效地驗(yàn)證基于混合分布注意力機(jī)制與混合神經(jīng)網(wǎng)絡(luò)的語(yǔ)音情緒識(shí)別方法的有效性,選用了柏林德語(yǔ)數(shù)據(jù)集EMO-DB和北美數(shù)據(jù)集IEMOCAP進(jìn)行實(shí)驗(yàn)。
EMO-DB數(shù)據(jù)集是語(yǔ)音情緒識(shí)別中常用的數(shù)據(jù)庫(kù),共535句情緒語(yǔ)句,包括中性、生氣、害怕、高興、悲傷、厭惡和無(wú)聊7種情緒,采樣率為48 kHz,16 bit量化[13]。本文采用10折交叉驗(yàn)證來(lái)進(jìn)行實(shí)驗(yàn)。
IEMOCAP具有多種情緒類(lèi)別,但為了與現(xiàn)有研究保持一致和便于對(duì)比,本文采用目前該數(shù)據(jù)集中最常用的4類(lèi)情緒類(lèi)別,分別為高興、悲傷、中立和憤怒,采樣率為48 kHz,16 bit量化[14],4類(lèi)情緒語(yǔ)音分布情況如表1所示。該數(shù)據(jù)集包含5個(gè)會(huì)話,其中4個(gè)會(huì)話的數(shù)據(jù)用于訓(xùn)練模型,第5個(gè)會(huì)話的數(shù)據(jù)用于測(cè)試。本文對(duì)IEMOCAP數(shù)據(jù)集采取5折交叉驗(yàn)證。
Table 1 Distribution of 4 kinds of emotions in IEMOCAP dataset
本文實(shí)驗(yàn)在TensorFlow深度學(xué)習(xí)框架上完成。在特征提取時(shí)統(tǒng)一轉(zhuǎn)換語(yǔ)音信號(hào)為16 kHz,使用16 bit量化語(yǔ)音信號(hào),將預(yù)加重的閾值設(shè)為0.97,將每一幀長(zhǎng)度設(shè)定為256個(gè)采樣點(diǎn)。BLSTM網(wǎng)絡(luò)隱藏層單元個(gè)數(shù)設(shè)為128,考慮到數(shù)據(jù)批量值和學(xué)習(xí)率對(duì)準(zhǔn)確率的影響,將批大小初始值設(shè)為64,初始學(xué)習(xí)率設(shè)為0.001。為了驗(yàn)證本文方法的有效性,分別在2個(gè)數(shù)據(jù)集上進(jìn)行測(cè)試,并與當(dāng)前主流的語(yǔ)音情緒識(shí)別算法進(jìn)行比較。本文挑選了幾個(gè)近年來(lái)在EMO-DB數(shù)據(jù)集上實(shí)驗(yàn)效果較好的方法進(jìn)行比較,評(píng)價(jià)指標(biāo)包括加權(quán)準(zhǔn)確率WA(Weighted Accuracy)和未加權(quán)準(zhǔn)確率UA(Unweighted Accuracy)。DNN-RE[15]和DNN-KELM[16]為基于DNN創(chuàng)新組合后的新方法,其中DNN-RE為基于DNN和向量重建誤差RE(Reconstruction Error)融合方法,DNN-KELM為DNN和極限學(xué)習(xí)機(jī)KELM(Kernel Based Extreme Learning Machine)融合方法;Attention-RCNN-RNN[17]將通過(guò)殘差卷積神經(jīng)網(wǎng)絡(luò)RCNN(Resnet Convolution Neural Network)提取的特征輸入到BLSTM中,再通過(guò)注意力機(jī)制進(jìn)行識(shí)別;CNN-KELM[16]利用CNN提取聲學(xué)特征,采用極限學(xué)習(xí)機(jī)識(shí)別語(yǔ)音情緒;CNN-BLSTM[11]將卷積神經(jīng)網(wǎng)絡(luò)與雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)進(jìn)行3個(gè)通道的特征融合,特征融合后再進(jìn)行識(shí)別。在EMO-DB數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表2所示。
Table 2 Experimental results on EMO-DB dataset
從表2可以看出,在EMO-DB數(shù)據(jù)集上本文提出的方法效果優(yōu)于其他方法,在WA和UA上都有一定的提升。
為進(jìn)一步驗(yàn)證本文方法的有效性,在IEMOCAP數(shù)據(jù)集上再次進(jìn)行對(duì)比實(shí)驗(yàn)。CNN-KELM、RNN-Attention[18]、Attention-LSTM-Attention[19]、FCN-LSTM-Attention[20]和Attention-RCNN-RNN為近年來(lái)在IEMOCAP數(shù)據(jù)集上效果較好的方法,并且都是基于卷積神經(jīng)網(wǎng)絡(luò)或循環(huán)神經(jīng)網(wǎng)絡(luò)的語(yǔ)音情緒識(shí)別創(chuàng)新方法。其中Attention-LSTM-Attention為雙累加注意力機(jī)制,在LSTM模型前后分別添加注意力機(jī)制模塊,增強(qiáng)模型特征表示;FCN-LSTM-Attention對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn),將基于注意力的完全卷積神經(jīng)網(wǎng)絡(luò)FCN(Fully Connected Neural Network)與LSTM模型混合,從而進(jìn)行語(yǔ)音情緒識(shí)別。實(shí)驗(yàn)結(jié)果如表3所示。
Table 3 Experimental results on IEMOCAP dataset
從表3可以看出,本文方法在WA上高于其他方法,但在UA上略低于Attention-CNN-RNN方法。
從2個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果可以得出:本文方法與Attention-CNN-RNN對(duì)比,雖然在IEMOCAP數(shù)據(jù)集上的識(shí)別效果稍差,但在EMO-DB數(shù)據(jù)集上效果更好;與其他方法的結(jié)果相比,本文方法的整體效果高于其他方法。表明本文方法在語(yǔ)音情緒識(shí)別上有著更好的識(shí)別率和較高的準(zhǔn)確率。
為證明本文提出的混合分布注意力機(jī)制在語(yǔ)音情緒識(shí)別上具有更好的識(shí)別效果,設(shè)置了3種消融實(shí)驗(yàn)進(jìn)行對(duì)比:
(1)使用CNN-BLSTM進(jìn)行雙通道特征提取,將提取出的特征輸出到單一注意力機(jī)制模塊中進(jìn)行計(jì)算,最后進(jìn)行分類(lèi)識(shí)別。
(2)使用CNN-BLSTM進(jìn)行雙通道特征提取,將提取出的特征輸出到傳統(tǒng)多頭注意力機(jī)制模塊中計(jì)算注意力,對(duì)計(jì)算出的結(jié)果進(jìn)行拼接后進(jìn)行分類(lèi)識(shí)別。
(3)同樣使用CNN-BLSTM進(jìn)行雙通道特征提取,在保證2個(gè)神經(jīng)網(wǎng)絡(luò)參數(shù)完全一致的情況下,將提取出的特征輸出到混合分布注意力機(jī)制模塊中計(jì)算注意力,同時(shí)保證與消融實(shí)驗(yàn)(2)中的多頭注意力機(jī)制頭數(shù)量一致。
分別在EMO-DB和IEMOCAP 2個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),采用WA作為評(píng)價(jià)標(biāo)準(zhǔn),實(shí)驗(yàn)結(jié)果如表4所示。
Table 4 Comparison of ablation tests
從表4可以看出,基于CNN-BLSTM-多頭注意力機(jī)制的方法在2個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果優(yōu)于CNN-BLSTM-注意力機(jī)制的實(shí)驗(yàn)結(jié)果,表明多個(gè)頭可以增強(qiáng)模型的表達(dá)能力;基于CNN-BLSTM-混合分布注意力機(jī)制的方法在2個(gè)數(shù)據(jù)集上的識(shí)別準(zhǔn)確率高于CNN-BLSTM-多頭注意力機(jī)制的,驗(yàn)證了在模型輸入條件和注意力機(jī)制的頭數(shù)量相同的情況下,混合分布注意力機(jī)制對(duì)分布擬合能力更強(qiáng),識(shí)別準(zhǔn)確率更高,表明本文方法在語(yǔ)音情緒識(shí)別上的識(shí)別效果更好。
為了更直觀地展現(xiàn)混合分布注意力對(duì)多頭注意力機(jī)制的改進(jìn)效果,設(shè)計(jì)不同的頭數(shù)量分別基于本文提出的混合神經(jīng)網(wǎng)絡(luò)-混合分布注意力模型和混合神經(jīng)網(wǎng)絡(luò)-多頭注意力模型進(jìn)行實(shí)驗(yàn),以WA為評(píng)價(jià)指標(biāo),實(shí)驗(yàn)結(jié)果如圖6所示。
Figure 6 Comparison of experimental results based on different numbers of heads
由圖6可知,在EMO-DB數(shù)據(jù)集上,混合神經(jīng)網(wǎng)絡(luò)-多頭注意力在頭數(shù)量為8時(shí)準(zhǔn)確率達(dá)到92.31%,頭數(shù)量增大時(shí),準(zhǔn)確率逐漸減小,表明多頭注意力在頭數(shù)量過(guò)大時(shí)無(wú)法逼近參數(shù)總量,出現(xiàn)了上文所說(shuō)的低秩瓶頸。而本文方法在頭數(shù)量為8時(shí)準(zhǔn)確率為92.93%,高于多頭注意力機(jī)制;當(dāng)頭數(shù)量繼續(xù)增大時(shí)準(zhǔn)確率持續(xù)提升,在頭數(shù)量為32時(shí)準(zhǔn)確率達(dá)到了93.79%,比多頭注意力模型高2.65%,表明混合分布注意力機(jī)制在消除低秩問(wèn)題后,可以有效利用多個(gè)注意力增強(qiáng)模型表達(dá)能力。在IEMOCAP數(shù)據(jù)集上,多頭注意力模型在頭數(shù)量為32時(shí)準(zhǔn)確率開(kāi)始減小,同樣出現(xiàn)了低秩瓶頸。而本文模型在頭數(shù)量為32時(shí),準(zhǔn)確率達(dá)到69.80%,比多頭注意力模型的高1%左右,表明在IEMOCAP數(shù)據(jù)集上混合分布注意力機(jī)制依然可以取得更好的識(shí)別效果。上述實(shí)驗(yàn)更細(xì)致地證明了混合分布注意力機(jī)制能夠解決低秩瓶頸問(wèn)題,增強(qiáng)多頭注意力機(jī)制表達(dá)能力,充分驗(yàn)證了本文模型的有效性。
為驗(yàn)證本文提出的語(yǔ)音情緒識(shí)別方法的魯棒性,對(duì)EMO-DB數(shù)據(jù)集添加噪聲處理。NOISEX-92數(shù)據(jù)集是公開(kāi)的噪聲語(yǔ)音集,其中包括白噪聲、汽車(chē)噪聲和工廠噪聲。本文將EMO-DB數(shù)據(jù)集與上述3種噪聲按照-6 dB、-3 dB的信噪比進(jìn)行混合,得到不同信噪比下的混合噪聲語(yǔ)音信號(hào),在此語(yǔ)音信號(hào)上進(jìn)行噪聲魯棒性實(shí)驗(yàn)。對(duì)比實(shí)驗(yàn)采用CNN、CNN-BLSTM和CNN-BLSTM-多頭注意力與本文方法進(jìn)行對(duì)比,采用WA作為評(píng)價(jià)標(biāo)準(zhǔn),實(shí)驗(yàn)結(jié)果如表5所示。
由表5和表4進(jìn)行對(duì)比可以得出:(1)在信噪比為-3 dB時(shí),各方法的準(zhǔn)確率較純凈EMO-DB數(shù)據(jù)集相比均有下降,表明噪聲對(duì)模型識(shí)別造成了一定影響。但是,本文提出的CNN-BLSTM-混合分布注意力機(jī)制方法與其他方法相比,準(zhǔn)確率依然最高,表明了本文方法在噪聲環(huán)境下依然優(yōu)于其它方法。其中,CNN模型準(zhǔn)確率最低,表明了單一模型在噪聲環(huán)境下受到的影響較大。(2)當(dāng)信噪比為-6 dB時(shí),各類(lèi)方法的準(zhǔn)確率較信噪比為-3 dB時(shí)的降低了9.14%~13.04%。其中,本文方法在對(duì)比中準(zhǔn)確率下降最小,表明混合分布注意力機(jī)制在噪聲環(huán)境下依然可以關(guān)注到重要性較高的特征,可提高模型的表達(dá)能力。通過(guò)噪聲實(shí)驗(yàn)對(duì)比可知,本文提出的基于混合分布注意力機(jī)制與CNN-BLSTM融合的語(yǔ)音情緒識(shí)別方法具有更好的魯棒性。
Table 5 Comparison of WA of noise tests
語(yǔ)音情緒識(shí)別是一個(gè)值得研究的課題,由于情緒自身的諸多表現(xiàn)也使情緒信息的識(shí)別富有挑戰(zhàn)性。本文提出了一種基于混合分布注意力機(jī)制與CNN-BLSTM融合的語(yǔ)音情緒識(shí)別方法,從CNN-BLSTM的2個(gè)通道上提取語(yǔ)音特征,將CNN和BLSTM的輸出作為混合分布注意力機(jī)制模塊的輸入,混合分布注意力機(jī)制模塊在計(jì)算2種神經(jīng)網(wǎng)絡(luò)輸出的特征相似性后,將低秩分布與相似性做混合分布計(jì)算,計(jì)算后進(jìn)行歸一化并求出最終的特征表示,最后輸入到全連接層中進(jìn)行分類(lèi)輸出。實(shí)驗(yàn)結(jié)果表明,混合分布注意力機(jī)制與CNN-BLSTM模型識(shí)別效果高于現(xiàn)有的深度學(xué)習(xí)模型,表明了本文方法的有效性和可行性。同時(shí),考慮到人機(jī)交互的發(fā)展,如何更好地提取不同情緒的特征參數(shù),提高語(yǔ)音情緒的識(shí)別率,使情緒識(shí)別更精準(zhǔn)、更可靠地應(yīng)用在日常生活中也具有很重要的現(xiàn)實(shí)意義。