亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于SE注意力機(jī)制和深度卷積的語(yǔ)音情感識(shí)別

        2024-11-21 00:00:00張少華馮炎余仁杰邢沛然任藝昊
        現(xiàn)代電子技術(shù) 2024年22期
        關(guān)鍵詞:差分注意力語(yǔ)音

        摘" 要: 針對(duì)語(yǔ)音情感識(shí)別無(wú)法全面提取語(yǔ)音中的情感特征,導(dǎo)致識(shí)別準(zhǔn)確率低的問題,提出一種基于SE注意力機(jī)制和深度卷積的雙通道網(wǎng)絡(luò)模型。首先利用速度增強(qiáng)對(duì)原始數(shù)據(jù)集進(jìn)行數(shù)據(jù)擴(kuò)增,選取Mel譜圖、一階差分、二階差分混合特征圖作為輸入,以獲得更全面的語(yǔ)音信號(hào)特征;然后在SE注意力機(jī)制通道前后添加Ghost卷積提取局部特征,在深度卷積通道前后引入卷積層和逐點(diǎn)卷積提取全局特征,通過特征融合層融合特征;最后利用指數(shù)型下降進(jìn)行訓(xùn)練識(shí)別。結(jié)果表明,所提模型在擴(kuò)增后的中文數(shù)據(jù)集CASIA、英文數(shù)據(jù)集SAVEE、eNTERFACE05中的準(zhǔn)確率均高于其他深度卷積神經(jīng)網(wǎng)絡(luò)模型,驗(yàn)證了該模型的有效性及泛化能力。

        關(guān)鍵詞: 語(yǔ)音情感識(shí)別; 雙通道; SE注意力機(jī)制; 數(shù)據(jù)擴(kuò)增; Ghost卷積; 深度卷積; 逐點(diǎn)卷積; 特征融合

        中圖分類號(hào): TN912?34" " " " " " " " " " " " " " "文獻(xiàn)標(biāo)識(shí)碼: A" " " " " " " " " " " 文章編號(hào): 1004?373X(2024)22?0064?07

        Speech emotion recognition based on SE attention mechanism and deep convolution

        Abstract: To solve the problem of low recognition accuracy due to the inability to fully extract emotion features in speech emotion recognition, a dual channel network model based on SE attention mechanism and deep convolution is proposed. The speed enhancement is used to augment the original dataset, and the Mel spectrogram, first?order differential, and second?order differential mixed feature maps are selected as inputs to obtain more comprehensive speech signal features. The Ghost convolution is added to extract local features before and after the SE attention mechanism channel, convolutional layers and point by point convolution are introduced to extract global features before and after the deep convolution channel, and then features are fused by means of feature fusion layer. The rain recognition is conducted by means of exponential descent. The results show that the accuracy of the proposed model in the expanded Chinese dataset CASIA, English dataset SAVEE, and eNTERFACE05 is higher than other deep convolutional neural network models, respectively, verifying the effectiveness and generalization ability of the model.

        Keywords: speech emotion recognition; dual channel; SE attention mechanism; data augmentation; Ghost convolution; deep convolution; pointwise convolution; feature fusion

        0" 引" 言

        語(yǔ)音情感識(shí)別作為人機(jī)交互和智能服務(wù)領(lǐng)域的關(guān)鍵技術(shù),旨在實(shí)現(xiàn)對(duì)語(yǔ)音信號(hào)中所蘊(yùn)含的情感和情緒信息的準(zhǔn)確識(shí)別和理解[1]。然而,面對(duì)人類情感的復(fù)雜性和多樣性,傳統(tǒng)的語(yǔ)音情感識(shí)別方法在情感特征提取和分類準(zhǔn)確率上面臨著諸多挑戰(zhàn)[2]。傳統(tǒng)方法依賴于人工設(shè)計(jì)特征,導(dǎo)致情感分類準(zhǔn)確率難以取得突破性進(jìn)展。傳統(tǒng)的情感特征分為韻律特征[3]、譜特征[4]和聲音質(zhì)量特征[5]3類。文獻(xiàn)[6]提取語(yǔ)音的短時(shí)過零率、MFCC、短時(shí)能量,利用SVM進(jìn)行語(yǔ)音情感識(shí)別分類。文獻(xiàn)[7]提取語(yǔ)音的Mel譜圖,利用HMM進(jìn)行語(yǔ)音情感識(shí)別。Mel譜圖對(duì)于信號(hào)動(dòng)態(tài)變化的敏感性較弱,因此,本文在Mel譜圖中加入一階差分和二階差分來(lái)提升效果。

        使用傳統(tǒng)方法對(duì)語(yǔ)音情感識(shí)別過程繁瑣而且準(zhǔn)確度較低,因此近年來(lái)深度學(xué)習(xí)方法在語(yǔ)音情感識(shí)別中嶄露頭角。文獻(xiàn)[8]以LeNet?5模型為基礎(chǔ),在此基礎(chǔ)上進(jìn)行改進(jìn),提升了語(yǔ)音情感識(shí)別效果。文獻(xiàn)[9]設(shè)計(jì)了一種加入注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)(CNN?ATN),在SAVEE數(shù)據(jù)庫(kù)中達(dá)到了74%的準(zhǔn)確率,在RAVDESS數(shù)據(jù)庫(kù)中達(dá)到了77%的準(zhǔn)確率。文獻(xiàn)[10]將深度殘差網(wǎng)絡(luò)和Transformer模型相結(jié)合,使用MFCC特征作為輸入,在RAVDESS數(shù)據(jù)集上準(zhǔn)確率達(dá)到了84.89%。文獻(xiàn)[11]設(shè)計(jì)了一種注意導(dǎo)向并行卷積神經(jīng)網(wǎng)絡(luò)編碼器模型,將不同的特征并行,在不同的數(shù)據(jù)集上取得了較好的效果。文獻(xiàn)[12]提出了一種基于多頭注意力的時(shí)空表征學(xué)習(xí)增強(qiáng)語(yǔ)音情感識(shí)別模型,所提方法獲得多尺度特征表達(dá),準(zhǔn)確度有了明顯提升。盡管深度學(xué)習(xí)在提高情感識(shí)別準(zhǔn)確率方面取得了顯著進(jìn)展,但在面對(duì)語(yǔ)音情感識(shí)別特征提取時(shí)仍無(wú)法全面提取語(yǔ)音中的情感特征,導(dǎo)致識(shí)別準(zhǔn)確率低。

        針對(duì)目前模型無(wú)法全面提取語(yǔ)音中的情感特征,導(dǎo)致識(shí)別準(zhǔn)確率低的問題,結(jié)合現(xiàn)有注意力機(jī)制和深度卷積等模型的特點(diǎn)與缺陷,本文提出了一種基于SE注意力機(jī)制和深度卷積的雙通道網(wǎng)絡(luò)模型。該模型分別以SE注意力機(jī)制和深度卷積為兩條通道的主干,在注意力機(jī)制通道前后加入Ghost卷積,提取局部特征,以獲得更多特征信息;在深度卷積的通道前加入卷積層,避免信息丟失;在通道后加入逐點(diǎn)卷積,增強(qiáng)模型的非線性能力,提取全局特征,通過特征融合層融合特征。本文的研究旨在為語(yǔ)音情感識(shí)別領(lǐng)域的研究和應(yīng)用貢獻(xiàn)新的啟發(fā)和思路。

        1" 語(yǔ)音情感識(shí)別算法

        在語(yǔ)音情感識(shí)別中,研究過程包括數(shù)據(jù)預(yù)處理、特征提取、模型訓(xùn)練識(shí)別3個(gè)步驟。本文的語(yǔ)音情感識(shí)別算法流程如圖1所示。

        1.1" 數(shù)據(jù)擴(kuò)增

        CASIA漢語(yǔ)語(yǔ)音情感數(shù)據(jù)集樣本較少,為避免訓(xùn)練模型過程中出現(xiàn)過擬合問題,本文對(duì)原始語(yǔ)音信號(hào)進(jìn)行速度增強(qiáng)。速度增強(qiáng)是一種音頻信號(hào)處理技術(shù),通過調(diào)整音頻信號(hào)的播放速度來(lái)改變其音調(diào),同時(shí)保持音頻的時(shí)長(zhǎng)不變。

        在速度增強(qiáng)過程中,音頻信號(hào)的時(shí)間軸會(huì)被拉伸或壓縮,以達(dá)到改變播放速度的效果。這一過程中,音頻信號(hào)的頻率得到相應(yīng)的調(diào)整,但音頻的時(shí)長(zhǎng)保持不變。本文將速度增強(qiáng)的倍數(shù)設(shè)定為1.2,表示將音頻信號(hào)的播放速度加快20%。

        一條語(yǔ)音速度增強(qiáng)之前的信號(hào)波形和速度增強(qiáng)之后的信號(hào)波形分別如圖2、圖3所示。

        從圖2和圖3可以看出,速度增強(qiáng)之后的波形相較于速度增強(qiáng)之前,語(yǔ)音信號(hào)在時(shí)間軸上被拉伸,從而使得波形在短時(shí)間內(nèi)完成更多個(gè)周期的振動(dòng),導(dǎo)致整體振幅縮小。語(yǔ)音信號(hào)在時(shí)間軸上被加速,波形的時(shí)長(zhǎng)會(huì)相應(yīng)變短,波形振動(dòng)的周期變短。語(yǔ)音信號(hào)的頻率增加,使得聲音音調(diào)聽起來(lái)更高。在對(duì)1 200條語(yǔ)音信號(hào)進(jìn)行速度增強(qiáng)后,生成1 200條語(yǔ)音信號(hào),對(duì)樣本進(jìn)行數(shù)據(jù)擴(kuò)增,樣本數(shù)擴(kuò)增為2 400條,這樣可以有效地增加數(shù)據(jù)樣本的數(shù)量和多樣性,有利于為后續(xù)模型提供更為豐富的訓(xùn)練數(shù)據(jù),幫助提升模型性能。

        1.2" 特征提取

        本文提取語(yǔ)音信號(hào)的Mel譜圖、一階差分、二階差分特征,將這些特征合并成一個(gè)包含動(dòng)態(tài)和靜態(tài)頻譜信息的特征圖像。

        Mel譜圖[13]是一種在Mel頻率尺度上表示的頻譜圖,通常情況下呈現(xiàn)為一種頻率?能量圖,展示了音頻信號(hào)中不同頻率的能量分布。Mel譜圖包含頻率信息、Mel刻度信息、動(dòng)態(tài)范圍信息、音頻特征信息等有關(guān)內(nèi)容,其提取過程如圖4所示。圖中對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)加重、分幀、加窗、快速傅里葉變換(FFT),生成的功率譜通過Mel濾波器組后得到Mel譜圖。

        一階差分是指在時(shí)間序列數(shù)據(jù)中相鄰兩個(gè)樣本之間的差值。對(duì)于音頻特征提取,一階差分可以表示音頻頻譜在時(shí)間上的變化情況,有利于捕捉音頻信號(hào)的動(dòng)態(tài)特征。

        二階差分是一階差分的差分操作,即對(duì)一階差分再進(jìn)行一次差分。二階差分可以進(jìn)一步強(qiáng)調(diào)音頻信號(hào)的動(dòng)態(tài)變化特征,提供了更高階的信息。一階差分和二階差分可以幫助捕捉音頻信號(hào)在時(shí)間上的動(dòng)態(tài)特征,包括音頻頻譜的瞬時(shí)變化和加速度變化,對(duì)聲音的快速變化和變化趨勢(shì)提供了有用信息。

        1.3" 模型結(jié)構(gòu)

        基于SE注意力機(jī)制和深度卷積的雙通道模型是通過基于SE注意力機(jī)制的通道和基于深度卷積的通道分別提取局部特征和全局特征,然后將雙通道處理后的特征進(jìn)行融合以及語(yǔ)音情感識(shí)別?;赟E注意力機(jī)制和深度卷積的雙通道模型結(jié)構(gòu)如圖5所示。

        由圖5可知,模型主要由三部分組成:第一,基于SE注意力機(jī)制的通道是針對(duì)語(yǔ)音的局部特征,第一個(gè)Ghost卷積提取主要特征,下采樣確保寬高與后續(xù)一致,SE注意力機(jī)制學(xué)習(xí)特征之間的依賴關(guān)系,第二個(gè)Ghost卷積確保輸出特征圖通道數(shù)正確,殘差連接用來(lái)減少梯度消失或梯度爆炸問題;第二,基于深度卷積的通道是針對(duì)語(yǔ)音的全局特征,卷積層實(shí)現(xiàn)分塊操作,將圖像劃分為不重疊的區(qū)域,并為每個(gè)區(qū)域提取特征,避免信息丟失,深度卷積逐步提取圖像的高級(jí)特征表達(dá),逐點(diǎn)卷積增強(qiáng)模型非線性及泛化能力;第三,特征融合將輸入特征對(duì)應(yīng)維度進(jìn)行拼接,從而產(chǎn)生一個(gè)更大的特征作為輸出。

        1.3.1" 基于SE注意力機(jī)制的改進(jìn)通道

        基于SE注意力機(jī)制的改進(jìn)通道由Ghost卷積、下采樣、SE注意力機(jī)制、Ghost卷積、殘差連接五部分組成。本節(jié)在原有注意力機(jī)制通道的基礎(chǔ)上前后添加Ghost卷積,以獲得更多特征信息。

        Ghost卷積層首先通過1×1卷積將通道數(shù)降低,濃縮特征信息,生成M個(gè)特征圖。用于產(chǎn)生M個(gè)特征圖的任意卷積層的操作表示為:

        [Y=X*f]" " " " " (1)

        式中:X為輸入;f為卷積核。X:C×H×W,f:C×K×K×M,Y:H′×W′×M。其中:C為通道數(shù);H為輸入圖像的高度;W為輸入圖像的寬度;K×K為卷積核大小。

        后續(xù)對(duì)M個(gè)特征圖進(jìn)行3×3深度卷積(線性變換)得到N=M×S個(gè)特征圖,借此獲取更多的特征組合信息。3×3深度卷積(線性變換)的公式如下:

        [Yi′j′=Φi′j′yi′]" " " " " " " " " "(2)

        式中:i′=1,2,…,M;j′=1,2,…,S,S為線性操作方式的次數(shù)。

        將第一次卷積和深度卷積得到的特征圖在通道維度上進(jìn)行堆疊。

        下采樣通過調(diào)整步長(zhǎng)和卷積操作,以此降低特征圖的空間分辨率,確保寬高與后續(xù)一致。

        SE注意力機(jī)制[14]可以幫助學(xué)習(xí)特征之間的依賴關(guān)系,從而增強(qiáng)模型對(duì)重要特征的響應(yīng)。SE注意力機(jī)制原理圖如圖6所示。

        Squeeze操作將特征圖Y進(jìn)行全局平均池化處理,生成一個(gè)1×1×C的向量,公式為:

        Excitation操作通過權(quán)重W生成所需的權(quán)重信息,通過兩個(gè)全連接層W1、W2對(duì)上一步(Squeeze操作)的向量ZC進(jìn)行處理,得到通道權(quán)重值s,公式為:

        [s=σgZC,W=σW2δW1ZC]" " (4)

        Scale操作將生成的權(quán)重向量s對(duì)特征圖Y進(jìn)行權(quán)重更新賦值,得到所需的特征圖[Y'],公式為:

        [Y'=sY]" " " " " " " (5)

        殘差連接將輸入特征與經(jīng)過下采樣或通道調(diào)整后的殘差部分相加,以促進(jìn)信息傳遞和梯度流動(dòng),減少梯度消失或梯度爆炸問題。

        1.3.2" 基于深度卷積的改進(jìn)通道

        基于深度卷積的改進(jìn)通道主要由三部分組成,即:卷積層、深度卷積、逐點(diǎn)卷積。本節(jié)在原有深度卷積通道的基礎(chǔ)上,在通道前加入卷積層,避免信息丟失,在通道后加入逐點(diǎn)卷積,有效地增強(qiáng)了模型的非線性能力及泛化能力。卷積層采用7×7的卷積核、滑動(dòng)步長(zhǎng)為7的卷積層劃分圖像,提取特征,避免信息丟失。深度卷積[15]原理圖如圖7所示。對(duì)輸入的特征圖的每個(gè)通道進(jìn)行獨(dú)立的卷積操作,產(chǎn)生多個(gè)特征圖。對(duì)于輸入的每個(gè)通道,使用獨(dú)立的卷積核進(jìn)行卷積操作,得到與輸入通道數(shù)相等的特征圖。

        逐點(diǎn)卷積原理圖如圖8所示。對(duì)上一步(深度卷積)獲得的特征圖進(jìn)行卷積操作,將分離的通道特征圖進(jìn)行整合和壓縮,通道數(shù)減少至所需的輸出通道數(shù)。

        1.3.3" 特征融合

        特征融合層主要由三部分組成,即:concatenate、批標(biāo)準(zhǔn)化層、softmax。特征融合方式采用concatenate,concatenate用于將多個(gè)輸入特征沿著指定的軸連接,其原理為將輸入特征的對(duì)應(yīng)維度進(jìn)行拼接,從而產(chǎn)生一個(gè)更大的特征作為輸出。批標(biāo)準(zhǔn)化層對(duì)每個(gè)批次的數(shù)據(jù)上進(jìn)行標(biāo)準(zhǔn)化處理,使得每個(gè)特征的均值接近于0,標(biāo)準(zhǔn)差接近于1。softmax分類器將模型的輸出轉(zhuǎn)換為每個(gè)類別的概率分布。

        2" 實(shí)驗(yàn)分析

        2.1" 實(shí)驗(yàn)準(zhǔn)備

        CASIA數(shù)據(jù)集是中國(guó)科學(xué)院自動(dòng)化研究所錄制的,4位說(shuō)話人(2男2女),包含6種情感(生氣(angry)、害怕(fear)、高興(happy)、中立(neutral)、悲傷(sad)、驚訝(surprise)),總共1 200條語(yǔ)音,對(duì)原始數(shù)據(jù)集進(jìn)行速度增強(qiáng),將速度增強(qiáng)后的1 200條語(yǔ)音擴(kuò)增到原始的數(shù)據(jù)集中,最終擴(kuò)增后的數(shù)據(jù)集總共2 400條語(yǔ)音。實(shí)驗(yàn)環(huán)境為云服務(wù)器,算力型號(hào)為L(zhǎng)40,顯存為48 GB,采用TensorFlow 2.9.0、Python 3.8、CUDA 11.2。

        對(duì)2 400條語(yǔ)音樣本數(shù)據(jù)集提取Mel譜圖、一階差分、二階差分混合特征圖,形狀為224×224×3。將數(shù)據(jù)集劃分為5份,4份作為訓(xùn)練集,1份作為測(cè)試集。學(xué)習(xí)率采用指數(shù)型下降,經(jīng)過5次輪換訓(xùn)練和測(cè)試,取平均值為最終的識(shí)別結(jié)果。準(zhǔn)確率計(jì)算公式為:

        式中:i為輪換的次數(shù),總共5次輪換;[TPi]為True Positives的數(shù)量,即在第i次輪換中模型正確分類為正類(或者說(shuō)正確預(yù)測(cè)的樣本數(shù)量)的樣本數(shù);[Ni]為第i次輪換中所有測(cè)試樣本的數(shù)量。通過公式(6)可以看出,整體準(zhǔn)確率是通過對(duì)每次輪換時(shí)的正確分類占所有樣本比例進(jìn)行求和取平均值得到的。

        網(wǎng)絡(luò)層激活函數(shù)使用ReLU函數(shù),損失使用交叉熵函數(shù),加入Dropout層減少過擬合,采用Adam優(yōu)化器。

        2.2" 實(shí)驗(yàn)結(jié)果分析

        將擴(kuò)增后的CASIA數(shù)據(jù)集分別提取短時(shí)過零率、MFCC、短時(shí)能量混合特征圖,線性頻譜圖,Mel譜圖、一階差分、二階差分混合特征圖,并將提取的特征輸入本文模型。3種不同特征輸入下的測(cè)試集準(zhǔn)確率如表1所示。

        由表1可知,在本文模型的情況下,輸入為Mel譜圖、一階差分、二階差分混合特征圖的準(zhǔn)確率更高。短時(shí)過零率、MFCC、短時(shí)能量混合特征圖主要提取了語(yǔ)音信號(hào)的振幅、強(qiáng)度、頻譜信息;線性頻譜圖主要對(duì)語(yǔ)音信號(hào)的頻率和時(shí)間進(jìn)行分析,反映語(yǔ)音信號(hào)在不同頻率上的能量分布情況及聲道信息;Mel譜圖、一階差分、二階差分混合特征圖結(jié)合了頻譜信息和動(dòng)態(tài)信息,提取了語(yǔ)音信號(hào)在時(shí)間上的演變信息。Mel譜圖、一階差分、二階差分混合特征圖相較于其他特征圖,使得特征判別性更強(qiáng),更能夠捕捉語(yǔ)音信號(hào)的復(fù)雜結(jié)構(gòu)和變化及動(dòng)態(tài)特性。因此,本文選取Mel譜圖、一階差分、二階差分混合特征圖作為輸入的混合特征圖。

        接著對(duì)合適的學(xué)習(xí)率方式進(jìn)行對(duì)比分析:第1組為初始學(xué)習(xí)率不變,學(xué)習(xí)率大小為0.000 1;第2組為階梯型下降,初始學(xué)習(xí)率為0.000 1,若測(cè)試集損失保持3輪不下降,則學(xué)習(xí)率縮小為原來(lái)學(xué)習(xí)率的[12];第3組為指數(shù)型下降,初始學(xué)習(xí)率為0.000 1,衰減系數(shù)為0.95。不同學(xué)習(xí)率方法下本文模型的準(zhǔn)確率如表2所示。

        由表2可知,采用學(xué)習(xí)率調(diào)度策略,相較于學(xué)習(xí)率不變,測(cè)試集準(zhǔn)確率有明顯提升。指數(shù)型下降是一種連續(xù)、平滑的更新學(xué)習(xí)率過程,而階梯型下降是一種離散的參數(shù)更新。指數(shù)型下降相較于階梯型下降,具有更好的收斂性、平滑性和自適應(yīng)性,能夠更快、更穩(wěn)定地找到最優(yōu)解。通過實(shí)驗(yàn)證明,指數(shù)型下降的準(zhǔn)確率相較于階梯型下降也有些許提升。因此,本文采用指數(shù)型下降來(lái)更新學(xué)習(xí)率。

        為了驗(yàn)證本文模型的有效性,將該模型與其他深度卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行對(duì)比分析,并展示該模型混淆矩陣。LeNet、AlexNet、Vgg16、ResNet18、ResNet34及本文模型的混淆矩陣如圖9~圖14所示。

        不同模型在擴(kuò)增后的CASIA數(shù)據(jù)集的準(zhǔn)確率結(jié)果如表3所示。由表3可知,本文模型在語(yǔ)音情感識(shí)別上有著較好的效果,可以很好地區(qū)分不同的情感,對(duì)輸入數(shù)據(jù)的特征可以多尺度地提取有用的特征,增加特征的多樣性和豐富性,更全面地捕捉和利用特征信息。由混淆矩陣可知,測(cè)試集樣本為480,每種情感數(shù)量為80。從真實(shí)標(biāo)簽和預(yù)測(cè)標(biāo)簽的對(duì)應(yīng)關(guān)系的混淆百分?jǐn)?shù)可知,本文模型在識(shí)別率上有著較好的效果。

        為了進(jìn)一步驗(yàn)證模型在相似問題上的泛化能力,本文還在SAVEE數(shù)據(jù)集和eNTERFACE05數(shù)據(jù)集上進(jìn)行對(duì)比分析。SAVEE數(shù)據(jù)集是英語(yǔ)語(yǔ)言的數(shù)據(jù)集,4個(gè)說(shuō)話人,包含7種情感,選取其中420條語(yǔ)音,每種情感的語(yǔ)音均勻分布。按照CASIA數(shù)據(jù)集數(shù)據(jù)擴(kuò)增的方法對(duì)SAVEE數(shù)據(jù)集進(jìn)行數(shù)據(jù)擴(kuò)增,擴(kuò)增后的數(shù)據(jù)集為840條語(yǔ)音。eNTERFACE05數(shù)據(jù)集包含44個(gè)說(shuō)話人,包含6種情感,選取其中1 260條語(yǔ)音,每種情感的語(yǔ)音均勻分布。按照CASIA數(shù)據(jù)集數(shù)據(jù)擴(kuò)增的方法對(duì)eNTERFACE05數(shù)據(jù)集進(jìn)行數(shù)據(jù)擴(kuò)增,擴(kuò)增后的數(shù)據(jù)集為2 520條語(yǔ)音。不同模型在擴(kuò)增后的SAVEE數(shù)據(jù)集和eNTERFACE05數(shù)據(jù)集的準(zhǔn)確率結(jié)果分別如表4、表5所示。

        由表4和表5可知,本文模型在除中文之外的語(yǔ)音情感識(shí)別上也有著較好的效果,考慮到不同語(yǔ)種數(shù)據(jù)情感特征、說(shuō)話人數(shù)量、樣本數(shù)量存在一定的差異性,所以準(zhǔn)確率會(huì)有些許不同。同時(shí)驗(yàn)證了該模型也具有一定的跨語(yǔ)種識(shí)別的能力,對(duì)后續(xù)的語(yǔ)音情感識(shí)別的研究也有著一定的參考價(jià)值。

        3" 結(jié)" 語(yǔ)

        本文為減少訓(xùn)練過程中的過擬合問題,利用速度增強(qiáng)對(duì)原始數(shù)據(jù)集進(jìn)行數(shù)據(jù)擴(kuò)增,選取Mel譜圖、一階差分、二階差分混合特征圖作為輸入,以獲得更全面的語(yǔ)音信號(hào)特征。針對(duì)語(yǔ)音情感識(shí)別無(wú)法全面提取語(yǔ)音中的情感特征,導(dǎo)致識(shí)別準(zhǔn)確率低的問題,提出了一種基于SE注意力機(jī)制和深度卷積的網(wǎng)絡(luò)模型。利用基于SE注意力機(jī)制的改進(jìn)通道提取局部特征,基于深度卷積的改進(jìn)通道提取全局特征,通過特征融合層融合特征,進(jìn)一步提高了語(yǔ)音情感識(shí)別準(zhǔn)確率。同時(shí),在不同語(yǔ)種的語(yǔ)音情感數(shù)據(jù)集上,本文模型也得到了有效驗(yàn)證,具有一定的泛化能力,豐富了語(yǔ)音情感識(shí)別的研究。

        參考文獻(xiàn)

        [1] WANI T M, GUNAWAN T S, QADRI S A A, et al. A comprehensive review of speech emotion recognition systems [J]. IEEE access, 2021, 9: 47795?47814.

        [2] LATIF S, RANA R, KHALIFA S, et al. Survey of deep representation learning for speech emotion recognition [J]. IEEE transactions on affective computing, 2021, 14(2): 1634?1654.

        [3] MARY L, YEGNANARAYANA B. Extraction and represent?ation of prosodic features for language and speaker recognition [J]. Speech communication, 2008, 50(10): 782?796.

        [4] ITTICHAICHAREON C, SUKSRI S, YINGTHAWORNSUK T. Speech recognition using MFCC [C]// International Conference on Computer Graphics, Simulation and Modeling. Macau, China: IEEE, 2012: 9.

        [5] SHIMIZU T, ONAGA H. Study on acoustic improvements by sound?absorbing panels and acoustical quality assessment of teleconference systems [J]. Applied acoustics, 2018, 139: 101?112.

        [6] 陳富麗.中文語(yǔ)音情感識(shí)別方法研究[D].重慶:重慶郵電大學(xué),2019.

        [7] 林巧民,齊柱柱.基于HMM和ANN混合模型的語(yǔ)音情感識(shí)別研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2018,28(10):74?78.

        [8] 姜芃旭,傅洪亮,陶華偉,等.一種基于卷積神經(jīng)網(wǎng)絡(luò)特征表征的語(yǔ)音情感識(shí)別方法[J].電子器件,2019,42(4):998?1001.

        [9] MOUNTZOURIS K, PERIKOS I, HATZILYGEROUDIS I. Speech emotion recognition using convolutional neural networks with attention mechanism [J]. Electronics, 2023, 12(20): 4376.

        [10] 劉方如,王亮.基于Res?Transformer模型的語(yǔ)音情感識(shí)別方法研究[J].物聯(lián)網(wǎng)技術(shù),2023,13(6):36?39.

        [11] FAZLIDDIN M, ALPAMIS K, FARKHOD A, et al. Modeling speech emotion recognition via attention?oriented parallel CNN encoders [J]. Electronics, 2022, 11(23): 4047.

        [12] CHEN Z, LIN M, WANG Z, et al. Spatio?temporal represent?ation learning enhanced speech emotion recognition with multi?head attention mechanisms [J]. Knowledge?based systems, 2023, 281: 111077.

        [13] 楊雨欣,于紅,楊宗軼,等.基于Mel聲譜圖與改進(jìn)SEResNet的魚類行為識(shí)別[J].漁業(yè)現(xiàn)代化,2024,51(1):56?63.

        [14] JIE H, LI S, SAMUEL A, et al. Squ?eeze?and?excitation networks [EB/OL]. [2023?01?12]. https://blog.csdn.net/qq_45929156/article/details/116106978.

        [15] KAMAL K C, YIN Z, WU M, et al. Depthwise separable convolution architectures for plant disease classification [J]. Computers and electronics in agriculture, 2019, 165(10): 104948.

        猜你喜歡
        差分注意力語(yǔ)音
        讓注意力“飛”回來(lái)
        數(shù)列與差分
        魔力語(yǔ)音
        基于MATLAB的語(yǔ)音信號(hào)處理
        電子制作(2019年14期)2019-08-20 05:43:38
        基于MQ3與MP3的價(jià)廉物美的酒駕語(yǔ)音提醒器
        電子制作(2019年9期)2019-05-30 09:42:10
        對(duì)方正在輸入……
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        A Beautiful Way Of Looking At Things
        基于差分隱私的大數(shù)據(jù)隱私保護(hù)
        相對(duì)差分單項(xiàng)測(cè)距△DOR
        太空探索(2014年1期)2014-07-10 13:41:50
        9999精品视频| 欧美又大又硬又粗bbbbb| 亚洲欧美日韩中文字幕一区二区三区| 久久精品无码专区免费青青| 天天狠天天透天干天天| 国产一区二区三区经典| 精品国产一区二区三区18p | 亚洲一区二区懂色av| 中文字幕免费在线观看动作大片 | 男女av免费视频网站| 亚洲精品无码久久久| 男人天堂网在线视频| 东风日产系列全部车型| av手机在线观看不卡| 丁字裤少妇露黑毛| 久久综合网天天 | 久久蜜臀av一区三区| 亚洲中文字幕人妻av在线| 国产麻豆成人精品av| 欧美亚洲国产日韩一区二区三区| 精品专区一区二区三区| 在线观看午夜视频一区二区| 欧美精品中文字幕亚洲专区| 亚洲国产精品悠悠久久琪琪| 我的美艳丝袜美腿情缘| 国产精品视频一区二区三区不卡| 亚洲av无码一区二区三区网站 | 成年女人永久免费看片| 亚洲精品午夜精品国产| 久久国产在线精品观看| 精品人妻午夜一区二区三区四区 | 五十路丰满中年熟女中出| 国产精品网站夜色| 日本免费三级一区二区| 少妇被粗大的猛进出69影院 | 性生交大片免费看淑女出招| 一本大道久久东京热无码av| 亚洲一区二区三区免费的视频| a级国产乱理伦片| 四月婷婷丁香七月色综合高清国产裸聊在线 | 国产超碰人人做人人爱ⅴa|