亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于混合分布注意力機(jī)制與混合神經(jīng)網(wǎng)絡(luò)的語(yǔ)音情緒識(shí)別方法*

2022-12-22 11:31:26陳巧紅于澤源賈宇波

計(jì)算機(jī)工程與科學(xué) 2022年12期

陳巧紅，于澤源，賈宇波

(浙江理工大學(xué)信息學(xué)院，浙江杭州 310018)

1 引言

近年來(lái)人工智能取得了巨大的進(jìn)步，但人類(lèi)還遠(yuǎn)不能與機(jī)器無(wú)障礙地互動(dòng)，部分原因是機(jī)器無(wú)法理解人的情緒狀態(tài)，而語(yǔ)音情緒識(shí)別就是對(duì)語(yǔ)音信號(hào)中包含的情緒狀態(tài)進(jìn)行判斷，其中如何提取有效的情緒特征是一個(gè)值得探索的問(wèn)題[1]。與語(yǔ)音識(shí)別相比，情緒識(shí)別方面的特征參數(shù)研究相對(duì)較少。以往的研究大多是根據(jù)基礎(chǔ)常規(guī)聲學(xué)特征，例如音高、韻律等作為輸入并生成段級(jí)情緒狀態(tài)概率分布。語(yǔ)音情緒識(shí)別的目的是從低層特征識(shí)別出話語(yǔ)的高級(jí)情緒狀態(tài)，也可以作為一個(gè)序列的分類(lèi)問(wèn)題。為了有效地進(jìn)行情緒分類(lèi)，Bitouk等[2]在英文情緒數(shù)據(jù)集和柏林EMO-DB情緒數(shù)據(jù)庫(kù)上，從輔音和元音中提取出基礎(chǔ)的梅爾頻率倒譜系數(shù)MFCC(Mel Frequency Cepstral Coefficents)。Wu等[3]利用支持向量機(jī)SVM(Support Vector Machine)計(jì)算制譜特征和韻律特征，在特征方面通過(guò)控制錯(cuò)誤通過(guò)率，再通過(guò)預(yù)加重、濾波器組等處理，最終提取出三角洲和雙三角洲特征，計(jì)算出13維的MFCC特征。

在語(yǔ)音情緒特征提取相關(guān)研究日益成熟時(shí)，應(yīng)用在語(yǔ)音情緒識(shí)別上的模型也在不斷更新。Mower等[4]利用支持向量機(jī)SVM對(duì)低階聲學(xué)特征進(jìn)行計(jì)算，然后將得到的語(yǔ)音信號(hào)的全局統(tǒng)計(jì)特征進(jìn)行分類(lèi)。其他一些分類(lèi)器雖然也被陸續(xù)用于語(yǔ)音情緒識(shí)別[5]，但大多需要人工特征選擇經(jīng)驗(yàn)。在這項(xiàng)研究中，Yamagishi等[6]將常規(guī)聲學(xué)特征作為輸入并生成段級(jí)情緒狀態(tài)概率分布，并以此為基礎(chǔ)生成言語(yǔ)級(jí)特征來(lái)確定語(yǔ)言層面的情緒狀態(tài)。除了傳統(tǒng)機(jī)器學(xué)習(xí)方法以外，深度學(xué)習(xí)的衍生也對(duì)語(yǔ)音情緒識(shí)別提供了新的思路。例如,深度神經(jīng)網(wǎng)絡(luò)DNN(Deep Neural Network)因?yàn)橛辛俗銐虻挠?xùn)練數(shù)據(jù)和合適的訓(xùn)練策略，在許多機(jī)器學(xué)習(xí)任務(wù)中表現(xiàn)得很好[7]。Zhang等[8]使用循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network)作為聲學(xué)模型，獲得了更高的識(shí)別精度。但是，梯度消失和梯度爆炸問(wèn)題降低了RNN學(xué)習(xí)時(shí)間依賴(lài)性的能力。為了解決這些問(wèn)題，Zhao等[9]引入了長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)LSTM(Long Short-Term Memory)作為語(yǔ)音情緒識(shí)別模型，LSTM對(duì)靜態(tài)數(shù)據(jù)表現(xiàn)敏感，因此出現(xiàn)了針對(duì)語(yǔ)音數(shù)據(jù)的目標(biāo)延遲，成為了聲學(xué)領(lǐng)域建模的首選。在此基礎(chǔ)上，Zhang等[10]提出了一種在2個(gè)方向上處理輸入序列以做出決定的特殊體系結(jié)構(gòu)，即雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)BLSTM(Bidirectional Long Short-Term Memory),可以更好地捕捉雙向情緒依賴(lài)，更具有魯棒性。考慮到僅使用一種神經(jīng)網(wǎng)絡(luò)提取到的深層特征不夠充分，Huang等[11]提出將卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)與BLSTM進(jìn)行融合，首先利用CNN提取局部顯著特征，再利用BLSTM提取語(yǔ)音信號(hào)的上下文特征，最后對(duì)訓(xùn)練好的特征進(jìn)行拼接合并。實(shí)驗(yàn)結(jié)果表明，混合神經(jīng)網(wǎng)絡(luò)模型可以更好地完成語(yǔ)音情緒識(shí)別。

本文提出的用于語(yǔ)音情緒識(shí)別的深層混合方法，能夠解決語(yǔ)音情緒識(shí)別準(zhǔn)確率較低的問(wèn)題。在分析了輸入特征集和CNN體系結(jié)構(gòu)之后，考慮到BLSTM可對(duì)上下文信息提取更充分的特性，本文提出了一個(gè)基于CNN-BLSTM模型和混合分布注意力機(jī)制結(jié)構(gòu)的模型作為解決方法，其中混合分布注意力機(jī)制是改進(jìn)的多頭注意力機(jī)制。該方法首先由CNN和BLSTM在2個(gè)通道上分別提取語(yǔ)音特征；然后，將2個(gè)模型提取到的特征輸入到混合分布注意力機(jī)制中進(jìn)行融合，分割計(jì)算后再進(jìn)行拼接；最后，輸出到全連接層進(jìn)行分類(lèi)識(shí)別。

2 混合神經(jīng)網(wǎng)絡(luò)與混合分布注意力機(jī)制

語(yǔ)音情緒識(shí)別中情緒種類(lèi)較多，且有些情緒特征比較接近，難以區(qū)分，同時(shí)考慮到語(yǔ)音信號(hào)的上下文信息關(guān)聯(lián)，本文構(gòu)建了一個(gè)基于混合分布多頭注意力機(jī)制與混合神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行語(yǔ)音情緒識(shí)別，識(shí)別步驟如下：

(1)對(duì)語(yǔ)音數(shù)據(jù)集進(jìn)行整理，將可用數(shù)據(jù)輸入模型中。

(2)對(duì)語(yǔ)音進(jìn)行加窗、分幀等預(yù)處理操作后，從語(yǔ)音中提取出梅爾頻譜圖作為特征向量。

(3)將頻譜圖輸入到CNN中，由CNN在數(shù)據(jù)空間進(jìn)行特征提取。

(4)在CNN處理的同時(shí)將頻譜圖也輸入到雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)BLSTM(Bidirectional Long Short-term Memory)中；特征參數(shù)經(jīng)過(guò)雙向LSTM處理后，得到正向LSTM層與反向LSTM層的輸出，將2個(gè)輸出向量進(jìn)行拼接，得到一個(gè)新的特征參數(shù)向量。

(5)將上述2個(gè)模型輸出的特征向量輸入到混合多頭注意力機(jī)制中，首先將2個(gè)模型的特征融合計(jì)算生成權(quán)重，并且保留BLSTM的輸出特征向量；接著對(duì)權(quán)重做混合分布處理并進(jìn)行歸一化；然后將BLSTM的輸出向量與混合分布得到的權(quán)重計(jì)算出最終的特征表示，再拼接生成一個(gè)完整的注意力特征。

(6)最后將結(jié)果輸出到全連接層，分類(lèi)識(shí)別后輸出分類(lèi)標(biāo)簽并獲得識(shí)別正確率。

基于混合分布注意力機(jī)制與混合神經(jīng)網(wǎng)絡(luò)的語(yǔ)音情緒識(shí)別流程如圖1所示。

Figure 1 Speech emotion recognition process using mixed distributed attention mechanism and hybrid neural network

2.1 語(yǔ)音信號(hào)頻譜圖

常用的語(yǔ)音情緒識(shí)別特征為韻律、音素等基礎(chǔ)語(yǔ)音特征,但這些特征局限性較大，尤其在多情緒分類(lèi)中沒(méi)有明顯的情緒差別?？紤]到語(yǔ)音的產(chǎn)生過(guò)程，本文選擇了根據(jù)人類(lèi)聲道模型建立的特征參數(shù)：梅爾頻率倒譜系數(shù)的頻譜圖作為語(yǔ)音情緒特征。

本文使用librosa提取梅爾頻譜圖，提取步驟如下所示：

(1)將語(yǔ)音信號(hào)進(jìn)行預(yù)加重處理，增強(qiáng)高頻信號(hào)，再進(jìn)行分幀處理。

(2)對(duì)分幀后的信號(hào)添加漢明窗處理，增加語(yǔ)音信號(hào)的連續(xù)性，以參數(shù)a來(lái)控制漢明窗的大小，具體計(jì)算方式如式(1)所示：

(1)

其中，M∈[0,N-1]，a設(shè)置為0.46，N為幀的大小。

(3)逐幀進(jìn)行傅立葉變換，對(duì)絕對(duì)值取平方后生成語(yǔ)音信號(hào)頻譜，具體計(jì)算如式(2)所示：

(2)

其中，x(M)為輸入的語(yǔ)音信號(hào)，k∈[0,N]，k為傅里葉變換的點(diǎn)數(shù)。

通過(guò)上述步驟后，得到語(yǔ)音信號(hào)各幀的梅爾頻譜圖，梅爾頻譜圖中包含著語(yǔ)音的空間特征、頻率能量等信息。

2.2 卷積神經(jīng)網(wǎng)絡(luò)

本文使用CNN提取梅爾頻譜圖的空間特征。CNN層與層之間的連接權(quán)值可以共享，其中最主要的2個(gè)部分是卷積層和池化層，卷積層中的每一個(gè)輸入都是由n幅二維特征圖組成的三維數(shù)組，該階段的輸出也是一個(gè)由m幅二維特征圖構(gòu)成的三維數(shù)組，具體對(duì)應(yīng)關(guān)系如式(3)所示：

(3)

其中，xi表示輸入特征，y表示輸出特征。w表示輸入xi與輸出y之間的權(quán)值，b為偏移量。

Figure 2 Model structure of CNN

卷積層將計(jì)算后的結(jié)果輸入到池化層中，池化層將卷積層輸出的特征維度進(jìn)行縮小，以減少特征量。在卷積層和池化層后，由全連接層將特征進(jìn)行整合。本文采用的CNN模型結(jié)構(gòu)如圖2所示，包括2個(gè)卷積層、2個(gè)池化層、1個(gè)全連接層和1個(gè)Dropout層。

該網(wǎng)絡(luò)的具體實(shí)現(xiàn)為：

(1)卷積層1：32個(gè)5×5卷積核。

(2)池化層1：大小為2×2。

(3)卷積層2：采用64個(gè)5×5卷積核。

(4)池化層2：大小為2×2。

Figure 3 Speech emotion recognition process using BLSTM

(5)全連接層：大小為1*1024。

(6)Dropout層：dropout參數(shù)值設(shè)為0.5。

2.3 雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)

LSTM是一種時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)，能選擇性地記憶歷史信息[12]。LSTM的結(jié)構(gòu)由3種門(mén)控單元構(gòu)成，分別為遺忘門(mén)、輸入門(mén)和輸出門(mén)。將上一時(shí)刻的狀態(tài)輸入門(mén)控單元，得到當(dāng)前時(shí)刻的狀態(tài)。計(jì)算公式如式(4)～式(9)所示：

Ft=σ(Wf[at-1,xt,ct-1]+bf)

(4)

Ut=σ(Wu[at-1,xt,ct-1]+bu)

(5)

Ot=σ(Wo[at-1,xt]+bo)

(6)

(7)

(8)

ht=tanh(ct)×Ot

(9)

這種計(jì)算方式的局限在于每一次計(jì)算都無(wú)法得到上下文的關(guān)聯(lián)信息。針對(duì)上述問(wèn)題，本文使用BLSTM進(jìn)行上下文信息的提取。BLSTM由輸入層、前向傳遞層、后向傳遞層和輸出層構(gòu)成。通過(guò)前向傳遞層和后向傳遞層，可以從2個(gè)相反方向更全面地去提取上下文中所包含的特征信息，基于BLSTM的語(yǔ)音情緒識(shí)別流程如圖3所示。

(10)

BLSTM層通過(guò)正向LSTM和反向LSTM獲取全局的上下文信息，然后輸入到多頭注意力機(jī)制模塊中。

2.4 混合分布注意力機(jī)制

本文在 CNN-BLSTM的雙通道編碼框架下，由CNN提取語(yǔ)音數(shù)據(jù)的空間特征，同時(shí)使用BLSTM從編碼向量中解碼出語(yǔ)音的時(shí)序特征矩陣，但因?yàn)樯商卣鬏^多，在分類(lèi)識(shí)別時(shí)無(wú)法最大化利用有效特征。因此，本文在CNN-BLSTM的雙通道模型后添加了注意力機(jī)制模塊，以增加有效特征權(quán)重，增強(qiáng)模型表達(dá)能力。

多頭注意力機(jī)制通過(guò)將Q、K和V分別用n個(gè)不同的矩陣投影n次，再分別計(jì)算n次單一注意力，最后對(duì)結(jié)果進(jìn)行拼接。其中，Q、K和V都源于輸入特征本身，Q和K由輸入特征得到，用來(lái)計(jì)算注意力權(quán)重的特征向量，V表示單個(gè)輸入特征的向量，再根據(jù)注意力權(quán)重加權(quán)計(jì)算。多個(gè)注意力計(jì)算本身也會(huì)增加模型的表達(dá)能力，但是在實(shí)際語(yǔ)音情緒識(shí)別中，多頭注意力機(jī)制將Q和K分別投影到低維時(shí)，假設(shè)特征維度為d，序列長(zhǎng)度為l，投影后的注意力計(jì)算結(jié)果總的參數(shù)量為2ld/n，而此時(shí)Q和K2個(gè)向量的聯(lián)合分布構(gòu)成的隨機(jī)向量總值為l2，當(dāng)n較大時(shí)，總參數(shù)量很難逼近總值，就會(huì)造成一種低秩瓶頸，影響模型表達(dá)。為了解決上述問(wèn)題，本文對(duì)Q和K進(jìn)行融合計(jì)算后，將每一個(gè)多頭注意力計(jì)算方式改進(jìn)為混合分布計(jì)算，即使用每個(gè)頭帶有的低秩分布與相似性進(jìn)行計(jì)算，將原本孤立的注意力聯(lián)系起來(lái)。傳統(tǒng)多頭注意力機(jī)制及其改進(jìn)分別如圖4和圖5所示。

Figure 4 Traditional multi-head attention mechanism

Figure 5 Mixed distributed attention mechanism

其中，圖4和圖5中的Ci表示CNN在最后一層輸出的特征向量，yi表示BLSTM的輸出向量。本文首先根據(jù)2個(gè)模型的輸出計(jì)算相似性，如式(11)所示:

φ(yi,C)=tanh(yi·W·CT+b)

(11)

其中,W為權(quán)值矩陣，b為訓(xùn)練學(xué)習(xí)時(shí)得到的偏置項(xiàng)?？紤]到低秩分布問(wèn)題，將每一個(gè)頭帶有的低秩分布作為參數(shù)矩陣λ，并將此參數(shù)矩陣與2個(gè)模型的相似性結(jié)果進(jìn)行疊加計(jì)算，如式(12)所示:

(12)

通過(guò)混合分布計(jì)算得到的權(quán)重，再利用softmax進(jìn)行歸一化處理，得到對(duì)應(yīng)權(quán)重Ai，最后將BLSTM的輸出向量與對(duì)應(yīng)權(quán)重Ai計(jì)算得到最終的特征表示Pi，如式(13)和式(14)所示:

(13)

(14)

混合分布多頭注意力機(jī)制通過(guò)CNN和BLSTM輸出得到的語(yǔ)音信號(hào)的隱藏層結(jié)構(gòu)作為注意力層的輸入，通過(guò)分割計(jì)算，并將每個(gè)頭帶有的低秩分布與相似性進(jìn)行混合分布計(jì)算，使其在不減少頭數(shù)量的情況下，逼近與Q和K二元聯(lián)合分布的總值，增加模型的表達(dá)能力，再進(jìn)行歸一化操作并計(jì)算得到不同的特征表示Pi，最后進(jìn)行拼接得到注意力表示。

3 實(shí)驗(yàn)與結(jié)果分析

3.1 實(shí)驗(yàn)數(shù)據(jù)

語(yǔ)音情緒識(shí)別的準(zhǔn)確率與語(yǔ)音情緒數(shù)據(jù)庫(kù)的質(zhì)量息息相關(guān)。本文為了有效地驗(yàn)證基于混合分布注意力機(jī)制與混合神經(jīng)網(wǎng)絡(luò)的語(yǔ)音情緒識(shí)別方法的有效性，選用了柏林德語(yǔ)數(shù)據(jù)集EMO-DB和北美數(shù)據(jù)集IEMOCAP進(jìn)行實(shí)驗(yàn)。

EMO-DB數(shù)據(jù)集是語(yǔ)音情緒識(shí)別中常用的數(shù)據(jù)庫(kù)，共535句情緒語(yǔ)句，包括中性、生氣、害怕、高興、悲傷、厭惡和無(wú)聊7種情緒，采樣率為48 kHz，16 bit量化[13]。本文采用10折交叉驗(yàn)證來(lái)進(jìn)行實(shí)驗(yàn)。

IEMOCAP具有多種情緒類(lèi)別，但為了與現(xiàn)有研究保持一致和便于對(duì)比，本文采用目前該數(shù)據(jù)集中最常用的4類(lèi)情緒類(lèi)別，分別為高興、悲傷、中立和憤怒，采樣率為48 kHz,16 bit量化[14],4類(lèi)情緒語(yǔ)音分布情況如表1所示。該數(shù)據(jù)集包含5個(gè)會(huì)話，其中4個(gè)會(huì)話的數(shù)據(jù)用于訓(xùn)練模型，第5個(gè)會(huì)話的數(shù)據(jù)用于測(cè)試。本文對(duì)IEMOCAP數(shù)據(jù)集采取5折交叉驗(yàn)證。

Table 1 Distribution of 4 kinds of emotions in IEMOCAP dataset

3.2 實(shí)驗(yàn)結(jié)果對(duì)比

本文實(shí)驗(yàn)在TensorFlow深度學(xué)習(xí)框架上完成。在特征提取時(shí)統(tǒng)一轉(zhuǎn)換語(yǔ)音信號(hào)為16 kHz，使用16 bit量化語(yǔ)音信號(hào)，將預(yù)加重的閾值設(shè)為0.97，將每一幀長(zhǎng)度設(shè)定為256個(gè)采樣點(diǎn)。BLSTM網(wǎng)絡(luò)隱藏層單元個(gè)數(shù)設(shè)為128，考慮到數(shù)據(jù)批量值和學(xué)習(xí)率對(duì)準(zhǔn)確率的影響，將批大小初始值設(shè)為64，初始學(xué)習(xí)率設(shè)為0.001。為了驗(yàn)證本文方法的有效性，分別在2個(gè)數(shù)據(jù)集上進(jìn)行測(cè)試，并與當(dāng)前主流的語(yǔ)音情緒識(shí)別算法進(jìn)行比較。本文挑選了幾個(gè)近年來(lái)在EMO-DB數(shù)據(jù)集上實(shí)驗(yàn)效果較好的方法進(jìn)行比較，評(píng)價(jià)指標(biāo)包括加權(quán)準(zhǔn)確率WA(Weighted Accuracy)和未加權(quán)準(zhǔn)確率UA(Unweighted Accuracy)。DNN-RE[15]和DNN-KELM[16]為基于DNN創(chuàng)新組合后的新方法，其中DNN-RE為基于DNN和向量重建誤差RE(Reconstruction Error)融合方法，DNN-KELM為DNN和極限學(xué)習(xí)機(jī)KELM(Kernel Based Extreme Learning Machine)融合方法；Attention-RCNN-RNN[17]將通過(guò)殘差卷積神經(jīng)網(wǎng)絡(luò)RCNN(Resnet Convolution Neural Network)提取的特征輸入到BLSTM中，再通過(guò)注意力機(jī)制進(jìn)行識(shí)別；CNN-KELM[16]利用CNN提取聲學(xué)特征，采用極限學(xué)習(xí)機(jī)識(shí)別語(yǔ)音情緒；CNN-BLSTM[11]將卷積神經(jīng)網(wǎng)絡(luò)與雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)進(jìn)行3個(gè)通道的特征融合，特征融合后再進(jìn)行識(shí)別。在EMO-DB數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表2所示。

Table 2 Experimental results on EMO-DB dataset

從表2可以看出，在EMO-DB數(shù)據(jù)集上本文提出的方法效果優(yōu)于其他方法，在WA和UA上都有一定的提升。

為進(jìn)一步驗(yàn)證本文方法的有效性，在IEMOCAP數(shù)據(jù)集上再次進(jìn)行對(duì)比實(shí)驗(yàn)。CNN-KELM、RNN-Attention[18]、Attention-LSTM-Attention[19]、FCN-LSTM-Attention[20]和Attention-RCNN-RNN為近年來(lái)在IEMOCAP數(shù)據(jù)集上效果較好的方法，并且都是基于卷積神經(jīng)網(wǎng)絡(luò)或循環(huán)神經(jīng)網(wǎng)絡(luò)的語(yǔ)音情緒識(shí)別創(chuàng)新方法。其中Attention-LSTM-Attention為雙累加注意力機(jī)制，在LSTM模型前后分別添加注意力機(jī)制模塊，增強(qiáng)模型特征表示；FCN-LSTM-Attention對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn)，將基于注意力的完全卷積神經(jīng)網(wǎng)絡(luò)FCN(Fully Connected Neural Network)與LSTM模型混合，從而進(jìn)行語(yǔ)音情緒識(shí)別。實(shí)驗(yàn)結(jié)果如表3所示。

Table 3 Experimental results on IEMOCAP dataset

從表3可以看出，本文方法在WA上高于其他方法，但在UA上略低于Attention-CNN-RNN方法。

從2個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果可以得出：本文方法與Attention-CNN-RNN對(duì)比，雖然在IEMOCAP數(shù)據(jù)集上的識(shí)別效果稍差，但在EMO-DB數(shù)據(jù)集上效果更好；與其他方法的結(jié)果相比，本文方法的整體效果高于其他方法。表明本文方法在語(yǔ)音情緒識(shí)別上有著更好的識(shí)別率和較高的準(zhǔn)確率。

3.3 消融實(shí)驗(yàn)結(jié)果對(duì)比

為證明本文提出的混合分布注意力機(jī)制在語(yǔ)音情緒識(shí)別上具有更好的識(shí)別效果，設(shè)置了3種消融實(shí)驗(yàn)進(jìn)行對(duì)比：

(1)使用CNN-BLSTM進(jìn)行雙通道特征提取，將提取出的特征輸出到單一注意力機(jī)制模塊中進(jìn)行計(jì)算，最后進(jìn)行分類(lèi)識(shí)別。

(2)使用CNN-BLSTM進(jìn)行雙通道特征提取，將提取出的特征輸出到傳統(tǒng)多頭注意力機(jī)制模塊中計(jì)算注意力，對(duì)計(jì)算出的結(jié)果進(jìn)行拼接后進(jìn)行分類(lèi)識(shí)別。

(3)同樣使用CNN-BLSTM進(jìn)行雙通道特征提取，在保證2個(gè)神經(jīng)網(wǎng)絡(luò)參數(shù)完全一致的情況下，將提取出的特征輸出到混合分布注意力機(jī)制模塊中計(jì)算注意力，同時(shí)保證與消融實(shí)驗(yàn)(2)中的多頭注意力機(jī)制頭數(shù)量一致。

分別在EMO-DB和IEMOCAP 2個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，采用WA作為評(píng)價(jià)標(biāo)準(zhǔn)，實(shí)驗(yàn)結(jié)果如表4所示。

Table 4 Comparison of ablation tests

從表4可以看出，基于CNN-BLSTM-多頭注意力機(jī)制的方法在2個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果優(yōu)于CNN-BLSTM-注意力機(jī)制的實(shí)驗(yàn)結(jié)果，表明多個(gè)頭可以增強(qiáng)模型的表達(dá)能力；基于CNN-BLSTM-混合分布注意力機(jī)制的方法在2個(gè)數(shù)據(jù)集上的識(shí)別準(zhǔn)確率高于CNN-BLSTM-多頭注意力機(jī)制的，驗(yàn)證了在模型輸入條件和注意力機(jī)制的頭數(shù)量相同的情況下，混合分布注意力機(jī)制對(duì)分布擬合能力更強(qiáng)，識(shí)別準(zhǔn)確率更高，表明本文方法在語(yǔ)音情緒識(shí)別上的識(shí)別效果更好。

為了更直觀地展現(xiàn)混合分布注意力對(duì)多頭注意力機(jī)制的改進(jìn)效果，設(shè)計(jì)不同的頭數(shù)量分別基于本文提出的混合神經(jīng)網(wǎng)絡(luò)-混合分布注意力模型和混合神經(jīng)網(wǎng)絡(luò)-多頭注意力模型進(jìn)行實(shí)驗(yàn)，以WA為評(píng)價(jià)指標(biāo)，實(shí)驗(yàn)結(jié)果如圖6所示。

Figure 6 Comparison of experimental results based on different numbers of heads

由圖6可知，在EMO-DB數(shù)據(jù)集上，混合神經(jīng)網(wǎng)絡(luò)-多頭注意力在頭數(shù)量為8時(shí)準(zhǔn)確率達(dá)到92.31%，頭數(shù)量增大時(shí)，準(zhǔn)確率逐漸減小，表明多頭注意力在頭數(shù)量過(guò)大時(shí)無(wú)法逼近參數(shù)總量，出現(xiàn)了上文所說(shuō)的低秩瓶頸。而本文方法在頭數(shù)量為8時(shí)準(zhǔn)確率為92.93%，高于多頭注意力機(jī)制；當(dāng)頭數(shù)量繼續(xù)增大時(shí)準(zhǔn)確率持續(xù)提升，在頭數(shù)量為32時(shí)準(zhǔn)確率達(dá)到了93.79%，比多頭注意力模型高2.65%，表明混合分布注意力機(jī)制在消除低秩問(wèn)題后，可以有效利用多個(gè)注意力增強(qiáng)模型表達(dá)能力。在IEMOCAP數(shù)據(jù)集上，多頭注意力模型在頭數(shù)量為32時(shí)準(zhǔn)確率開(kāi)始減小，同樣出現(xiàn)了低秩瓶頸。而本文模型在頭數(shù)量為32時(shí)，準(zhǔn)確率達(dá)到69.80%，比多頭注意力模型的高1%左右，表明在IEMOCAP數(shù)據(jù)集上混合分布注意力機(jī)制依然可以取得更好的識(shí)別效果。上述實(shí)驗(yàn)更細(xì)致地證明了混合分布注意力機(jī)制能夠解決低秩瓶頸問(wèn)題，增強(qiáng)多頭注意力機(jī)制表達(dá)能力，充分驗(yàn)證了本文模型的有效性。

3.4 噪聲魯棒性實(shí)驗(yàn)

為驗(yàn)證本文提出的語(yǔ)音情緒識(shí)別方法的魯棒性，對(duì)EMO-DB數(shù)據(jù)集添加噪聲處理。NOISEX-92數(shù)據(jù)集是公開(kāi)的噪聲語(yǔ)音集，其中包括白噪聲、汽車(chē)噪聲和工廠噪聲。本文將EMO-DB數(shù)據(jù)集與上述3種噪聲按照-6 dB、-3 dB的信噪比進(jìn)行混合，得到不同信噪比下的混合噪聲語(yǔ)音信號(hào)，在此語(yǔ)音信號(hào)上進(jìn)行噪聲魯棒性實(shí)驗(yàn)。對(duì)比實(shí)驗(yàn)采用CNN、CNN-BLSTM和CNN-BLSTM-多頭注意力與本文方法進(jìn)行對(duì)比，采用WA作為評(píng)價(jià)標(biāo)準(zhǔn)，實(shí)驗(yàn)結(jié)果如表5所示。

由表5和表4進(jìn)行對(duì)比可以得出：(1)在信噪比為-3 dB時(shí)，各方法的準(zhǔn)確率較純凈EMO-DB數(shù)據(jù)集相比均有下降,表明噪聲對(duì)模型識(shí)別造成了一定影響。但是，本文提出的CNN-BLSTM-混合分布注意力機(jī)制方法與其他方法相比，準(zhǔn)確率依然最高，表明了本文方法在噪聲環(huán)境下依然優(yōu)于其它方法。其中，CNN模型準(zhǔn)確率最低，表明了單一模型在噪聲環(huán)境下受到的影響較大。(2)當(dāng)信噪比為-6 dB時(shí)，各類(lèi)方法的準(zhǔn)確率較信噪比為-3 dB時(shí)的降低了9.14%～13.04%。其中，本文方法在對(duì)比中準(zhǔn)確率下降最小，表明混合分布注意力機(jī)制在噪聲環(huán)境下依然可以關(guān)注到重要性較高的特征，可提高模型的表達(dá)能力。通過(guò)噪聲實(shí)驗(yàn)對(duì)比可知，本文提出的基于混合分布注意力機(jī)制與CNN-BLSTM融合的語(yǔ)音情緒識(shí)別方法具有更好的魯棒性。

Table 5 Comparison of WA of noise tests

4 結(jié)束語(yǔ)

語(yǔ)音情緒識(shí)別是一個(gè)值得研究的課題，由于情緒自身的諸多表現(xiàn)也使情緒信息的識(shí)別富有挑戰(zhàn)性。本文提出了一種基于混合分布注意力機(jī)制與CNN-BLSTM融合的語(yǔ)音情緒識(shí)別方法，從CNN-BLSTM的2個(gè)通道上提取語(yǔ)音特征，將CNN和BLSTM的輸出作為混合分布注意力機(jī)制模塊的輸入，混合分布注意力機(jī)制模塊在計(jì)算2種神經(jīng)網(wǎng)絡(luò)輸出的特征相似性后，將低秩分布與相似性做混合分布計(jì)算，計(jì)算后進(jìn)行歸一化并求出最終的特征表示，最后輸入到全連接層中進(jìn)行分類(lèi)輸出。實(shí)驗(yàn)結(jié)果表明，混合分布注意力機(jī)制與CNN-BLSTM模型識(shí)別效果高于現(xiàn)有的深度學(xué)習(xí)模型，表明了本文方法的有效性和可行性。同時(shí)，考慮到人機(jī)交互的發(fā)展，如何更好地提取不同情緒的特征參數(shù)，提高語(yǔ)音情緒的識(shí)別率，使情緒識(shí)別更精準(zhǔn)、更可靠地應(yīng)用在日常生活中也具有很重要的現(xiàn)實(shí)意義。