亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于混合分布注意力機(jī)制與混合神經(jīng)網(wǎng)絡(luò)的語(yǔ)音情緒識(shí)別方法*

        2022-12-22 11:31:26陳巧紅于澤源賈宇波
        關(guān)鍵詞:注意力語(yǔ)音準(zhǔn)確率

        陳巧紅,于澤源,賈宇波

        (浙江理工大學(xué)信息學(xué)院,浙江 杭州 310018)

        1 引言

        近年來(lái)人工智能取得了巨大的進(jìn)步,但人類(lèi)還遠(yuǎn)不能與機(jī)器無(wú)障礙地互動(dòng),部分原因是機(jī)器無(wú)法理解人的情緒狀態(tài),而語(yǔ)音情緒識(shí)別就是對(duì)語(yǔ)音信號(hào)中包含的情緒狀態(tài)進(jìn)行判斷,其中如何提取有效的情緒特征是一個(gè)值得探索的問(wèn)題[1]。與語(yǔ)音識(shí)別相比,情緒識(shí)別方面的特征參數(shù)研究相對(duì)較少。以往的研究大多是根據(jù)基礎(chǔ)常規(guī)聲學(xué)特征,例如音高、韻律等作為輸入并生成段級(jí)情緒狀態(tài)概率分布。語(yǔ)音情緒識(shí)別的目的是從低層特征識(shí)別出話語(yǔ)的高級(jí)情緒狀態(tài),也可以作為一個(gè)序列的分類(lèi)問(wèn)題。為了有效地進(jìn)行情緒分類(lèi),Bitouk等[2]在英文情緒數(shù)據(jù)集和柏林EMO-DB情緒數(shù)據(jù)庫(kù)上,從輔音和元音中提取出基礎(chǔ)的梅爾頻率倒譜系數(shù)MFCC(Mel Frequency Cepstral Coefficents)。Wu等[3]利用支持向量機(jī)SVM(Support Vector Machine)計(jì)算制譜特征和韻律特征,在特征方面通過(guò)控制錯(cuò)誤通過(guò)率,再通過(guò)預(yù)加重、濾波器組等處理,最終提取出三角洲和雙三角洲特征,計(jì)算出13維的MFCC特征。

        在語(yǔ)音情緒特征提取相關(guān)研究日益成熟時(shí),應(yīng)用在語(yǔ)音情緒識(shí)別上的模型也在不斷更新。Mower等[4]利用支持向量機(jī)SVM對(duì)低階聲學(xué)特征進(jìn)行計(jì)算,然后將得到的語(yǔ)音信號(hào)的全局統(tǒng)計(jì)特征進(jìn)行分類(lèi)。其他一些分類(lèi)器雖然也被陸續(xù)用于語(yǔ)音情緒識(shí)別[5],但大多需要人工特征選擇經(jīng)驗(yàn)。在這項(xiàng)研究中,Yamagishi等[6]將常規(guī)聲學(xué)特征作為輸入并生成段級(jí)情緒狀態(tài)概率分布,并以此為基礎(chǔ)生成言語(yǔ)級(jí)特征來(lái)確定語(yǔ)言層面的情緒狀態(tài)。除了傳統(tǒng)機(jī)器學(xué)習(xí)方法以外,深度學(xué)習(xí)的衍生也對(duì)語(yǔ)音情緒識(shí)別提供了新的思路。例如,深度神經(jīng)網(wǎng)絡(luò)DNN(Deep Neural Network)因?yàn)橛辛俗銐虻挠?xùn)練數(shù)據(jù)和合適的訓(xùn)練策略,在許多機(jī)器學(xué)習(xí)任務(wù)中表現(xiàn)得很好[7]。Zhang等[8]使用循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network)作為聲學(xué)模型,獲得了更高的識(shí)別精度。但是,梯度消失和梯度爆炸問(wèn)題降低了RNN學(xué)習(xí)時(shí)間依賴(lài)性的能力。為了解決這些問(wèn)題,Zhao等[9]引入了長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)LSTM(Long Short-Term Memory)作為語(yǔ)音情緒識(shí)別模型,LSTM對(duì)靜態(tài)數(shù)據(jù)表現(xiàn)敏感,因此出現(xiàn)了針對(duì)語(yǔ)音數(shù)據(jù)的目標(biāo)延遲,成為了聲學(xué)領(lǐng)域建模的首選。在此基礎(chǔ)上,Zhang等[10]提出了一種在2個(gè)方向上處理輸入序列以做出決定的特殊體系結(jié)構(gòu),即雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)BLSTM(Bidirectional Long Short-Term Memory),可以更好地捕捉雙向情緒依賴(lài),更具有魯棒性。考慮到僅使用一種神經(jīng)網(wǎng)絡(luò)提取到的深層特征不夠充分,Huang等[11]提出將卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)與BLSTM進(jìn)行融合,首先利用CNN提取局部顯著特征,再利用BLSTM提取語(yǔ)音信號(hào)的上下文特征,最后對(duì)訓(xùn)練好的特征進(jìn)行拼接合并。實(shí)驗(yàn)結(jié)果表明,混合神經(jīng)網(wǎng)絡(luò)模型可以更好地完成語(yǔ)音情緒識(shí)別。

        本文提出的用于語(yǔ)音情緒識(shí)別的深層混合方法,能夠解決語(yǔ)音情緒識(shí)別準(zhǔn)確率較低的問(wèn)題。在分析了輸入特征集和CNN體系結(jié)構(gòu)之后,考慮到BLSTM可對(duì)上下文信息提取更充分的特性,本文提出了一個(gè)基于CNN-BLSTM模型和混合分布注意力機(jī)制結(jié)構(gòu)的模型作為解決方法,其中混合分布注意力機(jī)制是改進(jìn)的多頭注意力機(jī)制。該方法首先由CNN和BLSTM在2個(gè)通道上分別提取語(yǔ)音特征;然后,將2個(gè)模型提取到的特征輸入到混合分布注意力機(jī)制中進(jìn)行融合,分割計(jì)算后再進(jìn)行拼接;最后,輸出到全連接層進(jìn)行分類(lèi)識(shí)別。

        2 混合神經(jīng)網(wǎng)絡(luò)與混合分布注意力機(jī)制

        語(yǔ)音情緒識(shí)別中情緒種類(lèi)較多,且有些情緒特征比較接近,難以區(qū)分,同時(shí)考慮到語(yǔ)音信號(hào)的上下文信息關(guān)聯(lián),本文構(gòu)建了一個(gè)基于混合分布多頭注意力機(jī)制與混合神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行語(yǔ)音情緒識(shí)別,識(shí)別步驟如下:

        (1)對(duì)語(yǔ)音數(shù)據(jù)集進(jìn)行整理,將可用數(shù)據(jù)輸入模型中。

        (2)對(duì)語(yǔ)音進(jìn)行加窗、分幀等預(yù)處理操作后,從語(yǔ)音中提取出梅爾頻譜圖作為特征向量。

        (3)將頻譜圖輸入到CNN中,由CNN在數(shù)據(jù)空間進(jìn)行特征提取。

        (4)在CNN處理的同時(shí)將頻譜圖也輸入到雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)BLSTM(Bidirectional Long Short-term Memory)中;特征參數(shù)經(jīng)過(guò)雙向LSTM處理后,得到正向LSTM層與反向LSTM層的輸出,將2個(gè)輸出向量進(jìn)行拼接,得到一個(gè)新的特征參數(shù)向量。

        (5)將上述2個(gè)模型輸出的特征向量輸入到混合多頭注意力機(jī)制中,首先將2個(gè)模型的特征融合計(jì)算生成權(quán)重,并且保留BLSTM的輸出特征向量;接著對(duì)權(quán)重做混合分布處理并進(jìn)行歸一化;然后將BLSTM的輸出向量與混合分布得到的權(quán)重計(jì)算出最終的特征表示,再拼接生成一個(gè)完整的注意力特征。

        (6)最后將結(jié)果輸出到全連接層,分類(lèi)識(shí)別后輸出分類(lèi)標(biāo)簽并獲得識(shí)別正確率。

        基于混合分布注意力機(jī)制與混合神經(jīng)網(wǎng)絡(luò)的語(yǔ)音情緒識(shí)別流程如圖1所示。

        Figure 1 Speech emotion recognition process using mixed distributed attention mechanism and hybrid neural network

        2.1 語(yǔ)音信號(hào)頻譜圖

        常用的語(yǔ)音情緒識(shí)別特征為韻律、音素等基礎(chǔ)語(yǔ)音特征,但這些特征局限性較大,尤其在多情緒分類(lèi)中沒(méi)有明顯的情緒差別??紤]到語(yǔ)音的產(chǎn)生過(guò)程,本文選擇了根據(jù)人類(lèi)聲道模型建立的特征參數(shù):梅爾頻率倒譜系數(shù)的頻譜圖作為語(yǔ)音情緒特征。

        本文使用librosa提取梅爾頻譜圖,提取步驟如下所示:

        (1)將語(yǔ)音信號(hào)進(jìn)行預(yù)加重處理,增強(qiáng)高頻信號(hào),再進(jìn)行分幀處理。

        (2)對(duì)分幀后的信號(hào)添加漢明窗處理,增加語(yǔ)音信號(hào)的連續(xù)性,以參數(shù)a來(lái)控制漢明窗的大小,具體計(jì)算方式如式(1)所示:

        (1)

        其中,M∈[0,N-1],a設(shè)置為0.46,N為幀的大小。

        (3)逐幀進(jìn)行傅立葉變換,對(duì)絕對(duì)值取平方后生成語(yǔ)音信號(hào)頻譜,具體計(jì)算如式(2)所示:

        (2)

        其中,x(M)為輸入的語(yǔ)音信號(hào),k∈[0,N],k為傅里葉變換的點(diǎn)數(shù)。

        通過(guò)上述步驟后,得到語(yǔ)音信號(hào)各幀的梅爾頻譜圖,梅爾頻譜圖中包含著語(yǔ)音的空間特征、頻率能量等信息。

        2.2 卷積神經(jīng)網(wǎng)絡(luò)

        本文使用CNN提取梅爾頻譜圖的空間特征。CNN層與層之間的連接權(quán)值可以共享,其中最主要的2個(gè)部分是卷積層和池化層,卷積層中的每一個(gè)輸入都是由n幅二維特征圖組成的三維數(shù)組,該階段的輸出也是一個(gè)由m幅二維特征圖構(gòu)成的三維數(shù)組,具體對(duì)應(yīng)關(guān)系如式(3)所示:

        (3)

        其中,xi表示輸入特征,y表示輸出特征。w表示輸入xi與輸出y之間的權(quán)值,b為偏移量。

        Figure 2 Model structure of CNN

        卷積層將計(jì)算后的結(jié)果輸入到池化層中,池化層將卷積層輸出的特征維度進(jìn)行縮小,以減少特征量。在卷積層和池化層后,由全連接層將特征進(jìn)行整合。本文采用的CNN模型結(jié)構(gòu)如圖2所示,包括2個(gè)卷積層、2個(gè)池化層、1個(gè)全連接層和1個(gè)Dropout層。

        該網(wǎng)絡(luò)的具體實(shí)現(xiàn)為:

        (1)卷積層1:32個(gè)5×5卷積核。

        (2)池化層1:大小為2×2。

        (3)卷積層2:采用64個(gè)5×5卷積核。

        (4)池化層2:大小為2×2。

        Figure 3 Speech emotion recognition process using BLSTM

        (5)全連接層:大小為1*1024。

        (6)Dropout層:dropout參數(shù)值設(shè)為0.5。

        2.3 雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)

        LSTM是一種時(shí)間遞歸神經(jīng)網(wǎng)絡(luò),能選擇性地記憶歷史信息[12]。LSTM的結(jié)構(gòu)由3種門(mén)控單元構(gòu)成,分別為遺忘門(mén)、輸入門(mén)和輸出門(mén)。將上一時(shí)刻的狀態(tài)輸入門(mén)控單元,得到當(dāng)前時(shí)刻的狀態(tài)。計(jì)算公式如式(4)~式(9)所示:

        Ft=σ(Wf[at-1,xt,ct-1]+bf)

        (4)

        Ut=σ(Wu[at-1,xt,ct-1]+bu)

        (5)

        Ot=σ(Wo[at-1,xt]+bo)

        (6)

        (7)

        (8)

        ht=tanh(ct)×Ot

        (9)

        這種計(jì)算方式的局限在于每一次計(jì)算都無(wú)法得到上下文的關(guān)聯(lián)信息。針對(duì)上述問(wèn)題,本文使用BLSTM進(jìn)行上下文信息的提取。BLSTM由輸入層、前向傳遞層、后向傳遞層和輸出層構(gòu)成。通過(guò)前向傳遞層和后向傳遞層,可以從2個(gè)相反方向更全面地去提取上下文中所包含的特征信息,基于BLSTM的語(yǔ)音情緒識(shí)別流程如圖3所示。

        (10)

        BLSTM層通過(guò)正向LSTM和反向LSTM獲取全局的上下文信息,然后輸入到多頭注意力機(jī)制模塊中。

        2.4 混合分布注意力機(jī)制

        本文在 CNN-BLSTM的雙通道編碼框架下,由CNN提取語(yǔ)音數(shù)據(jù)的空間特征,同時(shí)使用BLSTM從編碼向量中解碼出語(yǔ)音的時(shí)序特征矩陣,但因?yàn)樯商卣鬏^多,在分類(lèi)識(shí)別時(shí)無(wú)法最大化利用有效特征。因此,本文在CNN-BLSTM的雙通道模型后添加了注意力機(jī)制模塊,以增加有效特征權(quán)重,增強(qiáng)模型表達(dá)能力。

        多頭注意力機(jī)制通過(guò)將Q、K和V分別用n個(gè)不同的矩陣投影n次,再分別計(jì)算n次單一注意力,最后對(duì)結(jié)果進(jìn)行拼接。其中,Q、K和V都源于輸入特征本身,Q和K由輸入特征得到,用來(lái)計(jì)算注意力權(quán)重的特征向量,V表示單個(gè)輸入特征的向量,再根據(jù)注意力權(quán)重加權(quán)計(jì)算。多個(gè)注意力計(jì)算本身也會(huì)增加模型的表達(dá)能力,但是在實(shí)際語(yǔ)音情緒識(shí)別中,多頭注意力機(jī)制將Q和K分別投影到低維時(shí),假設(shè)特征維度為d,序列長(zhǎng)度為l,投影后的注意力計(jì)算結(jié)果總的參數(shù)量為2ld/n,而此時(shí)Q和K2個(gè)向量的聯(lián)合分布構(gòu)成的隨機(jī)向量總值為l2,當(dāng)n較大時(shí),總參數(shù)量很難逼近總值,就會(huì)造成一種低秩瓶頸,影響模型表達(dá)。為了解決上述問(wèn)題,本文對(duì)Q和K進(jìn)行融合計(jì)算后,將每一個(gè)多頭注意力計(jì)算方式改進(jìn)為混合分布計(jì)算,即使用每個(gè)頭帶有的低秩分布與相似性進(jìn)行計(jì)算,將原本孤立的注意力聯(lián)系起來(lái)。傳統(tǒng)多頭注意力機(jī)制及其改進(jìn)分別如圖4和圖5所示。

        Figure 4 Traditional multi-head attention mechanism

        Figure 5 Mixed distributed attention mechanism

        其中,圖4和圖5中的Ci表示CNN在最后一層輸出的特征向量,yi表示BLSTM的輸出向量。本文首先根據(jù)2個(gè)模型的輸出計(jì)算相似性,如式(11)所示:

        φ(yi,C)=tanh(yi·W·CT+b)

        (11)

        其中,W為權(quán)值矩陣,b為訓(xùn)練學(xué)習(xí)時(shí)得到的偏置項(xiàng)??紤]到低秩分布問(wèn)題,將每一個(gè)頭帶有的低秩分布作為參數(shù)矩陣λ,并將此參數(shù)矩陣與2個(gè)模型的相似性結(jié)果進(jìn)行疊加計(jì)算,如式(12)所示:

        (12)

        通過(guò)混合分布計(jì)算得到的權(quán)重,再利用softmax進(jìn)行歸一化處理,得到對(duì)應(yīng)權(quán)重Ai,最后將BLSTM的輸出向量與對(duì)應(yīng)權(quán)重Ai計(jì)算得到最終的特征表示Pi,如式(13)和式(14)所示:

        (13)

        (14)

        混合分布多頭注意力機(jī)制通過(guò)CNN和BLSTM輸出得到的語(yǔ)音信號(hào)的隱藏層結(jié)構(gòu)作為注意力層的輸入,通過(guò)分割計(jì)算,并將每個(gè)頭帶有的低秩分布與相似性進(jìn)行混合分布計(jì)算,使其在不減少頭數(shù)量的情況下,逼近與Q和K二元聯(lián)合分布的總值,增加模型的表達(dá)能力,再進(jìn)行歸一化操作并計(jì)算得到不同的特征表示Pi,最后進(jìn)行拼接得到注意力表示。

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        語(yǔ)音情緒識(shí)別的準(zhǔn)確率與語(yǔ)音情緒數(shù)據(jù)庫(kù)的質(zhì)量息息相關(guān)。本文為了有效地驗(yàn)證基于混合分布注意力機(jī)制與混合神經(jīng)網(wǎng)絡(luò)的語(yǔ)音情緒識(shí)別方法的有效性,選用了柏林德語(yǔ)數(shù)據(jù)集EMO-DB和北美數(shù)據(jù)集IEMOCAP進(jìn)行實(shí)驗(yàn)。

        EMO-DB數(shù)據(jù)集是語(yǔ)音情緒識(shí)別中常用的數(shù)據(jù)庫(kù),共535句情緒語(yǔ)句,包括中性、生氣、害怕、高興、悲傷、厭惡和無(wú)聊7種情緒,采樣率為48 kHz,16 bit量化[13]。本文采用10折交叉驗(yàn)證來(lái)進(jìn)行實(shí)驗(yàn)。

        IEMOCAP具有多種情緒類(lèi)別,但為了與現(xiàn)有研究保持一致和便于對(duì)比,本文采用目前該數(shù)據(jù)集中最常用的4類(lèi)情緒類(lèi)別,分別為高興、悲傷、中立和憤怒,采樣率為48 kHz,16 bit量化[14],4類(lèi)情緒語(yǔ)音分布情況如表1所示。該數(shù)據(jù)集包含5個(gè)會(huì)話,其中4個(gè)會(huì)話的數(shù)據(jù)用于訓(xùn)練模型,第5個(gè)會(huì)話的數(shù)據(jù)用于測(cè)試。本文對(duì)IEMOCAP數(shù)據(jù)集采取5折交叉驗(yàn)證。

        Table 1 Distribution of 4 kinds of emotions in IEMOCAP dataset

        3.2 實(shí)驗(yàn)結(jié)果對(duì)比

        本文實(shí)驗(yàn)在TensorFlow深度學(xué)習(xí)框架上完成。在特征提取時(shí)統(tǒng)一轉(zhuǎn)換語(yǔ)音信號(hào)為16 kHz,使用16 bit量化語(yǔ)音信號(hào),將預(yù)加重的閾值設(shè)為0.97,將每一幀長(zhǎng)度設(shè)定為256個(gè)采樣點(diǎn)。BLSTM網(wǎng)絡(luò)隱藏層單元個(gè)數(shù)設(shè)為128,考慮到數(shù)據(jù)批量值和學(xué)習(xí)率對(duì)準(zhǔn)確率的影響,將批大小初始值設(shè)為64,初始學(xué)習(xí)率設(shè)為0.001。為了驗(yàn)證本文方法的有效性,分別在2個(gè)數(shù)據(jù)集上進(jìn)行測(cè)試,并與當(dāng)前主流的語(yǔ)音情緒識(shí)別算法進(jìn)行比較。本文挑選了幾個(gè)近年來(lái)在EMO-DB數(shù)據(jù)集上實(shí)驗(yàn)效果較好的方法進(jìn)行比較,評(píng)價(jià)指標(biāo)包括加權(quán)準(zhǔn)確率WA(Weighted Accuracy)和未加權(quán)準(zhǔn)確率UA(Unweighted Accuracy)。DNN-RE[15]和DNN-KELM[16]為基于DNN創(chuàng)新組合后的新方法,其中DNN-RE為基于DNN和向量重建誤差RE(Reconstruction Error)融合方法,DNN-KELM為DNN和極限學(xué)習(xí)機(jī)KELM(Kernel Based Extreme Learning Machine)融合方法;Attention-RCNN-RNN[17]將通過(guò)殘差卷積神經(jīng)網(wǎng)絡(luò)RCNN(Resnet Convolution Neural Network)提取的特征輸入到BLSTM中,再通過(guò)注意力機(jī)制進(jìn)行識(shí)別;CNN-KELM[16]利用CNN提取聲學(xué)特征,采用極限學(xué)習(xí)機(jī)識(shí)別語(yǔ)音情緒;CNN-BLSTM[11]將卷積神經(jīng)網(wǎng)絡(luò)與雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)進(jìn)行3個(gè)通道的特征融合,特征融合后再進(jìn)行識(shí)別。在EMO-DB數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表2所示。

        Table 2 Experimental results on EMO-DB dataset

        從表2可以看出,在EMO-DB數(shù)據(jù)集上本文提出的方法效果優(yōu)于其他方法,在WA和UA上都有一定的提升。

        為進(jìn)一步驗(yàn)證本文方法的有效性,在IEMOCAP數(shù)據(jù)集上再次進(jìn)行對(duì)比實(shí)驗(yàn)。CNN-KELM、RNN-Attention[18]、Attention-LSTM-Attention[19]、FCN-LSTM-Attention[20]和Attention-RCNN-RNN為近年來(lái)在IEMOCAP數(shù)據(jù)集上效果較好的方法,并且都是基于卷積神經(jīng)網(wǎng)絡(luò)或循環(huán)神經(jīng)網(wǎng)絡(luò)的語(yǔ)音情緒識(shí)別創(chuàng)新方法。其中Attention-LSTM-Attention為雙累加注意力機(jī)制,在LSTM模型前后分別添加注意力機(jī)制模塊,增強(qiáng)模型特征表示;FCN-LSTM-Attention對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn),將基于注意力的完全卷積神經(jīng)網(wǎng)絡(luò)FCN(Fully Connected Neural Network)與LSTM模型混合,從而進(jìn)行語(yǔ)音情緒識(shí)別。實(shí)驗(yàn)結(jié)果如表3所示。

        Table 3 Experimental results on IEMOCAP dataset

        從表3可以看出,本文方法在WA上高于其他方法,但在UA上略低于Attention-CNN-RNN方法。

        從2個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果可以得出:本文方法與Attention-CNN-RNN對(duì)比,雖然在IEMOCAP數(shù)據(jù)集上的識(shí)別效果稍差,但在EMO-DB數(shù)據(jù)集上效果更好;與其他方法的結(jié)果相比,本文方法的整體效果高于其他方法。表明本文方法在語(yǔ)音情緒識(shí)別上有著更好的識(shí)別率和較高的準(zhǔn)確率。

        3.3 消融實(shí)驗(yàn)結(jié)果對(duì)比

        為證明本文提出的混合分布注意力機(jī)制在語(yǔ)音情緒識(shí)別上具有更好的識(shí)別效果,設(shè)置了3種消融實(shí)驗(yàn)進(jìn)行對(duì)比:

        (1)使用CNN-BLSTM進(jìn)行雙通道特征提取,將提取出的特征輸出到單一注意力機(jī)制模塊中進(jìn)行計(jì)算,最后進(jìn)行分類(lèi)識(shí)別。

        (2)使用CNN-BLSTM進(jìn)行雙通道特征提取,將提取出的特征輸出到傳統(tǒng)多頭注意力機(jī)制模塊中計(jì)算注意力,對(duì)計(jì)算出的結(jié)果進(jìn)行拼接后進(jìn)行分類(lèi)識(shí)別。

        (3)同樣使用CNN-BLSTM進(jìn)行雙通道特征提取,在保證2個(gè)神經(jīng)網(wǎng)絡(luò)參數(shù)完全一致的情況下,將提取出的特征輸出到混合分布注意力機(jī)制模塊中計(jì)算注意力,同時(shí)保證與消融實(shí)驗(yàn)(2)中的多頭注意力機(jī)制頭數(shù)量一致。

        分別在EMO-DB和IEMOCAP 2個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),采用WA作為評(píng)價(jià)標(biāo)準(zhǔn),實(shí)驗(yàn)結(jié)果如表4所示。

        Table 4 Comparison of ablation tests

        從表4可以看出,基于CNN-BLSTM-多頭注意力機(jī)制的方法在2個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果優(yōu)于CNN-BLSTM-注意力機(jī)制的實(shí)驗(yàn)結(jié)果,表明多個(gè)頭可以增強(qiáng)模型的表達(dá)能力;基于CNN-BLSTM-混合分布注意力機(jī)制的方法在2個(gè)數(shù)據(jù)集上的識(shí)別準(zhǔn)確率高于CNN-BLSTM-多頭注意力機(jī)制的,驗(yàn)證了在模型輸入條件和注意力機(jī)制的頭數(shù)量相同的情況下,混合分布注意力機(jī)制對(duì)分布擬合能力更強(qiáng),識(shí)別準(zhǔn)確率更高,表明本文方法在語(yǔ)音情緒識(shí)別上的識(shí)別效果更好。

        為了更直觀地展現(xiàn)混合分布注意力對(duì)多頭注意力機(jī)制的改進(jìn)效果,設(shè)計(jì)不同的頭數(shù)量分別基于本文提出的混合神經(jīng)網(wǎng)絡(luò)-混合分布注意力模型和混合神經(jīng)網(wǎng)絡(luò)-多頭注意力模型進(jìn)行實(shí)驗(yàn),以WA為評(píng)價(jià)指標(biāo),實(shí)驗(yàn)結(jié)果如圖6所示。

        Figure 6 Comparison of experimental results based on different numbers of heads

        由圖6可知,在EMO-DB數(shù)據(jù)集上,混合神經(jīng)網(wǎng)絡(luò)-多頭注意力在頭數(shù)量為8時(shí)準(zhǔn)確率達(dá)到92.31%,頭數(shù)量增大時(shí),準(zhǔn)確率逐漸減小,表明多頭注意力在頭數(shù)量過(guò)大時(shí)無(wú)法逼近參數(shù)總量,出現(xiàn)了上文所說(shuō)的低秩瓶頸。而本文方法在頭數(shù)量為8時(shí)準(zhǔn)確率為92.93%,高于多頭注意力機(jī)制;當(dāng)頭數(shù)量繼續(xù)增大時(shí)準(zhǔn)確率持續(xù)提升,在頭數(shù)量為32時(shí)準(zhǔn)確率達(dá)到了93.79%,比多頭注意力模型高2.65%,表明混合分布注意力機(jī)制在消除低秩問(wèn)題后,可以有效利用多個(gè)注意力增強(qiáng)模型表達(dá)能力。在IEMOCAP數(shù)據(jù)集上,多頭注意力模型在頭數(shù)量為32時(shí)準(zhǔn)確率開(kāi)始減小,同樣出現(xiàn)了低秩瓶頸。而本文模型在頭數(shù)量為32時(shí),準(zhǔn)確率達(dá)到69.80%,比多頭注意力模型的高1%左右,表明在IEMOCAP數(shù)據(jù)集上混合分布注意力機(jī)制依然可以取得更好的識(shí)別效果。上述實(shí)驗(yàn)更細(xì)致地證明了混合分布注意力機(jī)制能夠解決低秩瓶頸問(wèn)題,增強(qiáng)多頭注意力機(jī)制表達(dá)能力,充分驗(yàn)證了本文模型的有效性。

        3.4 噪聲魯棒性實(shí)驗(yàn)

        為驗(yàn)證本文提出的語(yǔ)音情緒識(shí)別方法的魯棒性,對(duì)EMO-DB數(shù)據(jù)集添加噪聲處理。NOISEX-92數(shù)據(jù)集是公開(kāi)的噪聲語(yǔ)音集,其中包括白噪聲、汽車(chē)噪聲和工廠噪聲。本文將EMO-DB數(shù)據(jù)集與上述3種噪聲按照-6 dB、-3 dB的信噪比進(jìn)行混合,得到不同信噪比下的混合噪聲語(yǔ)音信號(hào),在此語(yǔ)音信號(hào)上進(jìn)行噪聲魯棒性實(shí)驗(yàn)。對(duì)比實(shí)驗(yàn)采用CNN、CNN-BLSTM和CNN-BLSTM-多頭注意力與本文方法進(jìn)行對(duì)比,采用WA作為評(píng)價(jià)標(biāo)準(zhǔn),實(shí)驗(yàn)結(jié)果如表5所示。

        由表5和表4進(jìn)行對(duì)比可以得出:(1)在信噪比為-3 dB時(shí),各方法的準(zhǔn)確率較純凈EMO-DB數(shù)據(jù)集相比均有下降,表明噪聲對(duì)模型識(shí)別造成了一定影響。但是,本文提出的CNN-BLSTM-混合分布注意力機(jī)制方法與其他方法相比,準(zhǔn)確率依然最高,表明了本文方法在噪聲環(huán)境下依然優(yōu)于其它方法。其中,CNN模型準(zhǔn)確率最低,表明了單一模型在噪聲環(huán)境下受到的影響較大。(2)當(dāng)信噪比為-6 dB時(shí),各類(lèi)方法的準(zhǔn)確率較信噪比為-3 dB時(shí)的降低了9.14%~13.04%。其中,本文方法在對(duì)比中準(zhǔn)確率下降最小,表明混合分布注意力機(jī)制在噪聲環(huán)境下依然可以關(guān)注到重要性較高的特征,可提高模型的表達(dá)能力。通過(guò)噪聲實(shí)驗(yàn)對(duì)比可知,本文提出的基于混合分布注意力機(jī)制與CNN-BLSTM融合的語(yǔ)音情緒識(shí)別方法具有更好的魯棒性。

        Table 5 Comparison of WA of noise tests

        4 結(jié)束語(yǔ)

        語(yǔ)音情緒識(shí)別是一個(gè)值得研究的課題,由于情緒自身的諸多表現(xiàn)也使情緒信息的識(shí)別富有挑戰(zhàn)性。本文提出了一種基于混合分布注意力機(jī)制與CNN-BLSTM融合的語(yǔ)音情緒識(shí)別方法,從CNN-BLSTM的2個(gè)通道上提取語(yǔ)音特征,將CNN和BLSTM的輸出作為混合分布注意力機(jī)制模塊的輸入,混合分布注意力機(jī)制模塊在計(jì)算2種神經(jīng)網(wǎng)絡(luò)輸出的特征相似性后,將低秩分布與相似性做混合分布計(jì)算,計(jì)算后進(jìn)行歸一化并求出最終的特征表示,最后輸入到全連接層中進(jìn)行分類(lèi)輸出。實(shí)驗(yàn)結(jié)果表明,混合分布注意力機(jī)制與CNN-BLSTM模型識(shí)別效果高于現(xiàn)有的深度學(xué)習(xí)模型,表明了本文方法的有效性和可行性。同時(shí),考慮到人機(jī)交互的發(fā)展,如何更好地提取不同情緒的特征參數(shù),提高語(yǔ)音情緒的識(shí)別率,使情緒識(shí)別更精準(zhǔn)、更可靠地應(yīng)用在日常生活中也具有很重要的現(xiàn)實(shí)意義。

        猜你喜歡
        注意力語(yǔ)音準(zhǔn)確率
        讓注意力“飛”回來(lái)
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        魔力語(yǔ)音
        基于MATLAB的語(yǔ)音信號(hào)處理
        電子制作(2019年14期)2019-08-20 05:43:38
        基于MQ3與MP3的價(jià)廉物美的酒駕語(yǔ)音提醒器
        電子制作(2019年9期)2019-05-30 09:42:10
        對(duì)方正在輸入……
        高速公路車(chē)牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        不卡一卡二卡三乱码免费网站| 蜜桃视频高清在线观看| 国产另类av一区二区三区| 天天干天天日夜夜操| 成人爽a毛片在线视频| 久久综合五月天| 一区二区三区在线免费av| 亚洲中文字幕在线一区| 国产精成人品日日拍夜夜免费 | 成人影院在线观看视频免费| 亚洲人妻调教中文字幕| 国产99久久久国产精品免费看| 91国视频| 国产肥熟女视频一区二区三区| 国产一区二区三区天堂| 特级a欧美做爰片第一次| 欧美伊人网| 激情视频国产在线观看| 香蕉视频在线观看亚洲| 国产乱妇乱子在线播视频播放网站| 亚洲中文欧美日韩在线人| 中文字幕日韩一区二区不卡| 免费的日本一区二区三区视频| 欧美艳星nikki激情办公室| 亚洲综合偷自成人网第页色| 亚洲av免费看一区二区三区| 欧洲美女熟乱av| 欧美性videos高清精品| 少妇高潮无码自拍| 亚洲一区二区三区精品| 亚洲精品欧美精品日韩精品| 久久亚洲精品无码va大香大香 | 欧美午夜一区二区福利视频| 日韩精品视频在线一二三| 我要看免费久久99片黄色| 亚洲性啪啪无码av天堂| av一区二区三区亚洲| 男人的精品天堂一区二区在线观看| 狠狠躁日日躁夜夜躁2020| 黄色资源在线观看| 亚洲女同恋中文一区二区|