亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于自身注意力時(shí)空特征的語音情感識別算法

        2022-01-21 15:20:12徐華南周曉彥李大鵬
        聲學(xué)技術(shù) 2021年6期
        關(guān)鍵詞:池化識別率時(shí)空

        徐華南,周曉彥,姜 萬,李大鵬

        (南京信息工程大學(xué)電子與信息工程學(xué)院,江蘇南京 210044)

        0 引 言

        語音作為情感傳達(dá)的載體之一,包含說話者豐富的情感信息,語音情感識別的目的是讓計(jì)算機(jī)能剖析說話者語音中所帶情感的變化,對人類情感感知的過程進(jìn)行模擬,從而使人機(jī)交互更加人性化[1]。

        目前深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)能自動學(xué)習(xí)有效表征說話者情緒的高級情感特征[2-5],CNN網(wǎng)絡(luò)特別擅長捕捉空間領(lǐng)域的高級特征,Neumann等[2]從空間角度,采用基于多視圖的CNN模型學(xué)習(xí)音頻信號的特征,在(Interactive Emotional Dyadic Motion Capture Database,IEMOCAP)數(shù)據(jù)庫上識別率達(dá)到62.11%,Li等[3]提出一種基于注意力池化的CNN網(wǎng)絡(luò),使用兩種不同卷積核的CNN網(wǎng)絡(luò)提取空間特征并融合;RNN網(wǎng)絡(luò)能考慮到語音幀之間的長時(shí)相關(guān)性,增強(qiáng)長時(shí)建模的能力,Ho等[4]提出一種多模態(tài)多組注意力機(jī)制和RNN網(wǎng)絡(luò)的語音情感識別方法,融合音頻-文本信息,利用RNN網(wǎng)絡(luò)捕捉上下文信息。然而文獻(xiàn)[2-4]只考慮了空間特征學(xué)習(xí)或時(shí)間依賴性構(gòu)造,并沒有對關(guān)鍵的時(shí)空依賴關(guān)系進(jìn)行建模。而語音信號是時(shí)序信號,本身就存在多樣性,且情感相關(guān)信號不僅包含某一時(shí)刻的空間成分,還包含時(shí)間片段之間的上下文相關(guān)性,僅僅使用CNN或者RNN網(wǎng)絡(luò)無法快速學(xué)習(xí)語音情感特征,為了更好地識別情感,必須對關(guān)鍵的時(shí)空依賴關(guān)系進(jìn)行建模。于是Zhao等[5]利用全卷積網(wǎng)絡(luò)(Fully Convolutional Network,FCN)和長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)提取時(shí)空特征表征,在IEMOCAP數(shù)據(jù)庫上的非加權(quán)平均識別率提高了4.2個(gè)百分點(diǎn),但是無法消除說話者差異所帶來的影響,且在時(shí)間特征提取模塊,訓(xùn)練單一的LSTM時(shí)會出現(xiàn)不穩(wěn)定和梯度消失等現(xiàn)象。本文于是借鑒文獻(xiàn)[6-7]將語音信號轉(zhuǎn)變?yōu)檎Z譜圖,計(jì)算對數(shù)梅爾特征和一階差分、二階差分特征的特征提取方法。結(jié)合文獻(xiàn)[5]和文獻(xiàn)[8],在特征提取模塊,提取對數(shù)梅爾特征和一階差分、二階差分特征合成3-D log-Mel集來降低說話者差異所帶來的影響;在網(wǎng)絡(luò)部署模塊,從時(shí)間和空間兩個(gè)角度進(jìn)行特征提取和融合的方法,利用對稱型雙線性卷積神經(jīng)網(wǎng)絡(luò)(Bilinear Convolutional Neural Network,BCNN)在空間角度提取空間特征,CNN_BLSTM(Bi-directional Long Short-Term Memory,BLSTM)模型從時(shí)間角度提取相關(guān)時(shí)間序列信息。其中對稱型BCNN模型具有兩個(gè)相同的CNN分流,與CNN_BLSTM模型共享CNN網(wǎng)絡(luò),降低了計(jì)算復(fù)雜度且減少了內(nèi)存占用。

        然而,對于上述提取到的時(shí)空特征,人類可以自動從大量時(shí)空特征中快速篩選情緒突出部分,忽略無關(guān)情緒,而CNN和LSTM卻不能考慮人類機(jī)制如何關(guān)注情感部分。自從注意力機(jī)制提出后,Peng等[9]提出一種結(jié)合三維卷積和基于注意力的滑動遞歸神經(jīng)網(wǎng)絡(luò)(Attention-based Sliding Recurrent Neural Networks,ASRNNs)進(jìn)行情緒識別,在IEMOCAP和MSP-IMPROV數(shù)據(jù)庫識別率分別為62.6%和55.7%,Li等[10]提取低級描述符(Low-Level descriptors,LLDs)聲學(xué)特征,利用擴(kuò)張型殘差網(wǎng)絡(luò)(Dilated Residual Network,DRN)和多組注意力機(jī)制去捕獲特征信息,識別率提高了11.7~18.6個(gè)百分點(diǎn)。于是本文利用多組注意力對上述提取到的時(shí)空特征在多個(gè)子空間內(nèi)部自動捕獲判別性強(qiáng)的情緒特征,從而增強(qiáng)突出信息的導(dǎo)入能力。

        1 基于自身注意力時(shí)空特征框架

        1.1 預(yù)處理

        為了降低說話者年齡、性別以及說話者所處的文化和環(huán)境背景的影響,并考慮到靜態(tài)特征只描述了基于幀級語音的能譜包絡(luò),但信號可能具有一定的動態(tài)信息。于是本文提取語音信號的log-Mel特征、一階差分和二階差分等動態(tài)特征,合并成 3D log-Mel特征集,同時(shí)一階差分和二階差分特性能夠反映情感的變化過程,保留有效的情感信息的同時(shí)減少情感無關(guān)的因素的影響。預(yù)處理過程圖2所示,具體操作如下:

        (1)利用高通濾波器對語音信號預(yù)加重處理,并分幀、加窗,其中幀長為25 ms,幀移為10 ms;

        (2)對加窗后的信號進(jìn)行短時(shí)傅里葉變換(Short-Time Fourier Transform,STFT)得到各幀頻譜;

        (3)對頻譜取模平方得到功率譜,將時(shí)域信號轉(zhuǎn)換為頻域上的能量分布;

        圖1 基于自身注意力時(shí)空特征的語音情感識別框架Fig.1 Speech emotion recognition framework based on self-attention spatio-temporal features

        圖2 3D log-Mel特征集提取過程Fig.2 Extraction process of 3D log-Mel feature set

        1.2 BCNN和LSTM時(shí)空特征融合

        1.2.1 BCNN模型提取空間特征

        CNN結(jié)構(gòu)一般采用平均池化或最大池化等一階池化方法,這些池化方法假設(shè)樣本服從單峰分布,限制了CNN的表達(dá)能力。假設(shè)利用二階池化(Second-order Pooling)對情感特征矩陣進(jìn)行池化改進(jìn),將3D log-Mel特征集經(jīng)過卷積操作得到的特征圖中每個(gè)情感特征向量與自身的轉(zhuǎn)置求外積來豐富特征信息。給定語音M0和包含L個(gè)局部情感特征的特征組,則二階平均池化表達(dá)式為[11]

        其中,xi為局部特征向量,xiT是局部特征向量xi的轉(zhuǎn)置。二階池化能直接計(jì)算兩兩特征維度之間的相關(guān)性,更易實(shí)現(xiàn)與計(jì)算。

        BCNN網(wǎng)絡(luò)優(yōu)勢在于經(jīng)過卷積操作后拋棄原始的平均、求和或最大池化,對來自預(yù)處理階段提取的3D log-Mel特征集,利用雙線性池化將卷積后得到的特征在某一特定位置進(jìn)行矩陣外積,得到空間特征向量,然后對不同空間位置的特征向量平均匯合得到雙線性特征[12]。本文利用對稱的BCNN模型,即雙通道的CNN結(jié)構(gòu)相同。故BCNN模型的函數(shù)表達(dá)式為[13]

        其中,F(xiàn)A為雙線性卷積神經(jīng)網(wǎng)絡(luò)中兩個(gè)CNN分支的特征提取函數(shù),p是池化函數(shù),q是分類函數(shù)。

        由上式(4)、(6)可知:兩者是等價(jià)的,則對稱的雙線性池化也可被稱為二階池化。

        這里,對稱型BCNN模型包括兩個(gè)相同CNN分支,包括四層卷積層、兩層池化層。卷積層中第一層卷積層有128個(gè)輸出通道,其他卷積層的輸出通道為256,卷積核大小為5×3,池化層大小為1×2,經(jīng)過多層卷積之后,又經(jīng)過雙線性池化,將CNN分支的輸出進(jìn)行矩陣外積得到雙線性特征,大小為256×256。經(jīng)過雙線性池化之后得到空間特征,將與下面討論的LSTM網(wǎng)絡(luò)提取的時(shí)間特征融合得到時(shí)空特征,取代原始的雙線性池化后輸入到分類函數(shù)進(jìn)行分類,同時(shí)CNN分支與LSTM連接,避免訓(xùn)練單一的LSTM時(shí)會出現(xiàn)不穩(wěn)定和梯度消失等現(xiàn)象。

        1.2.2 LSTM模型提取時(shí)間特征

        輸入門主要對當(dāng)前網(wǎng)絡(luò)的輸入xt有多少信息能保存到當(dāng)前時(shí)刻的單元狀態(tài)Ct,輸入門的計(jì)算公式為

        最后為輸出門,主要用來控制當(dāng)前的單元狀態(tài)Ct有多少信息能保存輸出:

        其中,xt為LSTM網(wǎng)絡(luò)的輸入,來自BCNN網(wǎng)絡(luò)分支CNN的輸出,ht為LSTM細(xì)胞單元的隱藏向量,it、ft、ot、Ct分別是輸入門、忘記門、輸出門和細(xì)胞狀態(tài),Wi、bi分別為輸入門的權(quán)重和偏置,Wf、bf分別為忘記門的權(quán)重和偏置,Wo、bo分別為輸出門的權(quán)重和偏置,σ為Sigmoid函數(shù)。

        1.3 基于多組注意力判別性時(shí)空特征提取

        但是自身注意力機(jī)制探究特征矩陣內(nèi)部聯(lián)系,會損失兩兩特征之間有用的信息,使得情感信息的交互有限,多組(multi-head)可以產(chǎn)生多組注意力權(quán)重,允許模型在不同的時(shí)空位置捕獲不同時(shí)空情感子空間的信息,從而對不同位置的元素之間的相對依賴關(guān)系進(jìn)行序列建模,增強(qiáng)了情緒突出部分導(dǎo)入信息的能力[15]。

        (1)首先對來自融合后的時(shí)空特征進(jìn)行線性變換,得到Q、K、V權(quán)重矩陣組;

        (3)最后將j次的縮放點(diǎn)積結(jié)果進(jìn)行拼接,再進(jìn)行1次線性變換,得到多組注意力的結(jié)果。

        2 實(shí)驗(yàn)設(shè)置與分析

        2.1 情感數(shù)據(jù)庫

        為了驗(yàn)證基于自身注意力時(shí)空特征模型的有效性,本文采用IEMOCAP英語數(shù)據(jù)庫[16]和EMO-DB德語數(shù)據(jù)庫[17]。IEMOCAP數(shù)據(jù)庫由南加州大學(xué)的Sail實(shí)驗(yàn)室錄制,10位專業(yè)表演者(5男、5女),數(shù)據(jù)庫包括5節(jié)(session),分別為session1、session2、session3、session4、session5,每一節(jié)包含兩位說話者(一男、一女),這里選用即興表演部分,包含中性、高興、生氣、悲傷四種情感,分別有1 099、284、289和608條語音。EMO-DB數(shù)據(jù)庫由柏林工業(yè)大學(xué)錄制,由10位專業(yè)表演者(5男、5女,標(biāo)注序號分別為03、08、09、10、11、12、13、14、15、16,共10位說話者)對10句語句(5長、5短)進(jìn)行7種情感(中性、生氣、害怕、高興、悲傷、厭惡、無聊)模擬得到,最后保留男性情感語句233條,女性情感語句302條,共535條。

        2.2 參數(shù)設(shè)置

        本文使用Tensorflow平臺部署實(shí)驗(yàn),網(wǎng)絡(luò)參數(shù)中,迭代次數(shù)(epoch)為500,單次訓(xùn)練用的樣本數(shù)(batch_size)為40,學(xué)習(xí)率(learning_rate)10?4,權(quán)重衰減(decay_rate)為0.99,dropout為0.1,采用非加權(quán)平均召回率(Unweighted Average Recall,UAR)作為評價(jià)指標(biāo)。采用“l(fā)eave one subject out”協(xié)議[6-7],將數(shù)據(jù)庫中10位表演者中的8位說話者的語音作為訓(xùn)練集,一位作為驗(yàn)證集,剩下最后一位作為測試集,以此類推重復(fù)10次實(shí)驗(yàn),然后將這10次實(shí)驗(yàn)中識別率的平均值作為最終的預(yù)測結(jié)果。為了使實(shí)驗(yàn)不具有偶然性,將每一位測試者分別重復(fù)三次求平均值作為這位測試者最后的識別率。

        為了驗(yàn)證基于自身注意力時(shí)空特征模型的有效性,分別進(jìn)行了以下對比實(shí)驗(yàn):

        (1)DCNN_DTPM[18]:提取三通道的梅爾頻譜圖作為深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Neural Networks,DCNN)的輸入,使用預(yù)先訓(xùn)練的DCNN模型去學(xué)習(xí)語音片段的高級特征表示,利用判別時(shí)間金字塔匹配(Discriminant Temporal Pyramid Matching,DTPM)策略對學(xué)習(xí)到的分段級特征進(jìn)行聚類;

        (2)state-of-the-art-1[19]:利用DRN網(wǎng)絡(luò)、LSTM網(wǎng)絡(luò)和注意力機(jī)制對增強(qiáng)語音特征的提取,并結(jié)合中心損失和softmax損失函數(shù)改善分類性能;

        (3)state-of-the-art-2[10]:提取LLDs作為輸入,采用基于多組注意力的DRN網(wǎng)絡(luò)和LSTM網(wǎng)絡(luò)生成話語級表示向量,DNN網(wǎng)絡(luò)進(jìn)行情感分類;

        (4)CNN_base:提取語音的log-Mel特征,并計(jì)算其一階差分、二階差分得到三通道的梅爾頻譜圖,僅輸入到CNN網(wǎng)絡(luò)中進(jìn)行情感分類;

        (5)BCNN_base:在實(shí)驗(yàn)(4)的基礎(chǔ)上,引入對稱型BCNN結(jié)構(gòu),將CNN的輸出進(jìn)行雙線性池化,探究基于BCNN空間特征的情感識別;

        (6)BCNN_BLSTM_base:在實(shí)驗(yàn)(5)的基礎(chǔ)上,分別輸入到BCNN網(wǎng)絡(luò)和CNN_BLSTM網(wǎng)絡(luò),探究基于時(shí)間-空間特征的情感識別;

        (7)BCNN_BLSTM_attention:在實(shí)驗(yàn)(6)的基礎(chǔ)上,加入注意力機(jī)制,探究基于注意力時(shí)空特征的語音情感識別。

        2.3 實(shí)驗(yàn)結(jié)果

        本文選用“l(fā)eave one subject out”協(xié)議,對基于自身注意力時(shí)空特征模型進(jìn)行驗(yàn)證,表1、2分別為在IEMOCAP和EMO-DB數(shù)據(jù)庫上每個(gè)人的識別率,圖3為在IEMOCAP和EMO-DB數(shù)據(jù)庫的混淆矩陣。表1中M表示男性(Male),F(xiàn)表示女性(Fmale)。

        由實(shí)驗(yàn)結(jié)果可知,首先,IEMOCAP數(shù)據(jù)庫的識別率為63.12%,EMO-DB數(shù)據(jù)庫的識別率為87.09%,由此可知,基于自身注意力時(shí)空特征網(wǎng)絡(luò)在語音情感識別系統(tǒng)中具有較好的識別性能。

        其次,數(shù)據(jù)集的不平衡性導(dǎo)致每個(gè)人的測試結(jié)果相差很大,在IEMOCAP數(shù)據(jù)庫上,由表1可知,在將session1,3,4,5作為訓(xùn)練集,session2中男性作驗(yàn)證集,女性作測試集的實(shí)驗(yàn)中,最高識別率能達(dá)到73.06%,而在將session5中男性作為測試集的實(shí)驗(yàn)中,識別率只有56.94%,兩位說話者之間的識別率相差14.85%。在EMO-DB數(shù)據(jù)庫上,最好的識別率在10序號的說話者作為測試集時(shí),為96.43%,而最低的識別率在 09序號的說話者作為測試集時(shí),平均識別率為82.91%,相差12.92%。

        表1 IEMOCAP數(shù)據(jù)庫中的每個(gè)人的識別率Table 1 Recognition rates of different speakers in IEMOCAP database

        表2 EMO-DB數(shù)據(jù)庫中的每個(gè)人的識別率Table 2 Recognition rates of different speakers in EMO-DB database

        圖3 IEMOCAP和EMO-DB數(shù)據(jù)庫上的混淆矩陣Fig.3 Confusion matrices of the IEMOCAP database and the EMO-DB database

        最后,通過混淆矩陣可以看出,在IEMOCAP數(shù)據(jù)庫上,情感標(biāo)簽為悲傷和生氣的識別率較高,分別為78.20%和74.01%。在EMO-DB數(shù)據(jù)庫上,悲傷、中性和無聊的情感識別率很高,分別為98.39%,94.94%和93.49%,其次生氣、恐懼和厭惡情感分別達(dá)到79.53%,86.96%和83.95%。而高興的情感相對其他情感較低,在IEMOCAP數(shù)據(jù)庫上,只有48.23%,其中有13.92%被誤判成生氣,19.92%被誤判成中性。在EMO-DB數(shù)據(jù)庫上,同樣也是在高興這類情感上識別率最低,只有71.83%,其中18.31%被誤判成生氣。這是因?yàn)閺那榫w的維度空間模型上看,在喚醒度上,生氣和高興的距離較近,而中性情感處于喚醒度/效價(jià)度空間的中心,離各種情感的距離都較近。因此會產(chǎn)生高興、生氣、中性情感誤判的情況。

        2.4 與其他方案比較

        不同方案下的語音情感識別率如表3所示。

        表3 不同方案下的語音情感識別率Table 3 Speech emotion recognition rate under different schemes(%)

        通過表3可知:

        (1)本文提出的算法基于“l(fā)eave one subject out”協(xié)議,圍繞說話者無關(guān)進(jìn)行實(shí)驗(yàn),在IEMOCAP數(shù)據(jù)庫上識別率為63.12%,與state-of-the-art-2相比,識別率較低,但是state-of-the-art-2方案在十折交叉驗(yàn)證協(xié)議下的實(shí)驗(yàn),是圍繞說話者相關(guān)進(jìn)行討論,理論結(jié)果表明[19],說話者相關(guān)的識別率會高于說話者無關(guān)。

        (2)在“l(fā)eave one subject out”協(xié)議下,與其他論文方案對比,本文提出的算法識別率有所提高。在EMO-DB數(shù)據(jù)庫上識別率為87.09%,與DCNN_DTPM方案和state-of-the-art-1方案相比,識別率分別提高了3.56個(gè)百分點(diǎn)和1.7個(gè)百分點(diǎn),本方案在EMO-DB數(shù)據(jù)庫上識別率達(dá)到最高。

        (3)不同方案對比,單獨(dú)的BCNN網(wǎng)絡(luò)用于語音情感識別時(shí),在IEMOCAP和EMO-DB上識別率能分別達(dá)到53.29%和72.28%,比CNN_base的識別率分別提高了0.81個(gè)百分點(diǎn)和1.92個(gè)百分點(diǎn),說明BCNN提取的空間特征能促進(jìn)情感分類;加上BLSTM網(wǎng)絡(luò),識別率分別達(dá)到58.46%和79.21%,說明BLSTM能促進(jìn)網(wǎng)絡(luò)提取上下文的依賴特征,融合時(shí)空特征能促進(jìn)情感分類;在BCNN_BLSTM_base的基礎(chǔ)上后連注意力機(jī)制,識別率分別達(dá)到62.14%和82.95%,說明在融合后的時(shí)空特征后加入注意力機(jī)制能更好地提取到判別性強(qiáng)的特征表示。最后本文提出的基于自身注意力時(shí)空特征的語音情感識別網(wǎng)絡(luò),識別率在IEMOCAP和EMO-DB庫上分別達(dá)到了63.12%和87.09%,較BCNN_base分別提高了9.83和14.28個(gè)百分點(diǎn),較BCNN_BLSTM_base分別提高了4.66和7.88個(gè)百分點(diǎn),較BCNN_BLSTM_attention分別提高了0.98和4.14個(gè)百分點(diǎn),通過比較說明,自身注意力機(jī)制能提高語音情感識別的分類性能。

        3 結(jié) 論

        本文提出基于自身注意力時(shí)空特征的語音情感識別框架,提取3D log-Mel特征集降低說話者性別、年齡和所處環(huán)境的影響,從時(shí)間和空間兩個(gè)角度分析情感特征,將BCNN模型的空間信息和LSTM模型的時(shí)間信息融合,利用多組注意力提取判別性強(qiáng)的特征表示。本文將分類結(jié)果分別與在空間、時(shí)間特征、注意力機(jī)制上的分類結(jié)果進(jìn)行了對比。結(jié)果表明,基于自身注意力時(shí)空特征模型提高了正確率,優(yōu)于其他模型結(jié)構(gòu)。在今后的研究探索中,可以適當(dāng)增加神經(jīng)網(wǎng)絡(luò)的深度、訓(xùn)練的迭代次數(shù)來獲得更好的分類識別效果。

        猜你喜歡
        池化識別率時(shí)空
        基于緊湊型雙線性網(wǎng)絡(luò)的野生茵識別方法研究
        無線電工程(2024年8期)2024-09-16 00:00:00
        基于Sobel算子的池化算法設(shè)計(jì)
        跨越時(shí)空的相遇
        卷積神經(jīng)網(wǎng)絡(luò)中的自適應(yīng)加權(quán)池化
        鏡中的時(shí)空穿梭
        基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測
        基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識別率的關(guān)系
        基于卷積神經(jīng)網(wǎng)絡(luò)和池化算法的表情識別研究
        玩一次時(shí)空大“穿越”
        提升高速公路MTC二次抓拍車牌識別率方案研究
        国产的自拍av免费的在线观看| 国产成人激情视频在线观看| 国产无码夜夜一区二区| 97国产免费全部免费观看| 亚洲男人堂色偷偷一区| 男人的av天堂狠狠操| 蜜桃码一区二区三区在线观看| 日本按摩偷拍在线观看| 成人免费自拍视频在线观看| 波多野结衣有码| 亚洲成AⅤ人在线观看无码| 亚欧免费视频一区二区三区| 国产不卡一区二区三区视频| av男人的天堂第三区| 天天综合天天爱天天做| 国产91第一页| 日韩精品极品免费观看| 东北老熟女被弄的嗷嗷叫高潮| 插插射啊爱视频日a级| ā片在线观看免费观看| 亚洲熟妇无码av不卡在线播放| 国产a级精精彩大片免费看 | 久久青草国产免费观看| 国产黄色看三级三级三级| 大陆成人精品自拍视频在线观看 | 强奷乱码中文字幕| 野花社区www高清视频| 亚洲成年网站在线777| 亚洲国产精品午夜一区| 亚洲天堂丰满人妻av| 国产av无码专区亚洲av蜜芽| av片在线观看免费| 国产日韩欧美视频成人| 亚洲中文字幕第15页| 美女网站免费福利视频| 精品2021露脸国产偷人在视频| 亚洲AV秘 片一区二区三区| av天堂中文亚洲官网| 97成人精品国语自产拍| 男女一边摸一边做爽爽的免费阅读| 欧美极品第一页|