摘 "要: 結(jié)合神經(jīng)網(wǎng)絡(luò)、并行多特征向量和注意力機(jī)制,有助于提高語(yǔ)音情感識(shí)別的性能?;诖?,從前期已經(jīng)提取的DFCC參數(shù)入手,提取I?DFCC和Mid?DFCC特征參數(shù),利用Fisher比選取特征參數(shù)構(gòu)成F?DFCC;再將F?DFCC特征參數(shù)與LPCC、MFCC特征參數(shù)進(jìn)行對(duì)比并融合,輸入到含雙向LSTM網(wǎng)絡(luò)及注意力機(jī)制的ECAPA?TDNN模型中;最后,在CASIA和RAVDESS數(shù)據(jù)集上驗(yàn)證F?DFCC融合特征參數(shù)的有效性。實(shí)驗(yàn)結(jié)果表明:與單一的F?DFCC特征參數(shù)相比,F(xiàn)?DFCC融合特征的準(zhǔn)確率WA、召回率UA、F1?score在CASIA數(shù)據(jù)集上分別提高0.035 1、0.031 1、0.031 3;在RAVDESS數(shù)據(jù)集上分別提高0.024 5、0.035 8、0.033 2。在兩個(gè)數(shù)據(jù)集中,surprised情感的識(shí)別準(zhǔn)確率最高,為0.94;F?DFCC融合特征參數(shù)的6種和8種情感識(shí)別率與其他特征參數(shù)相比均有所提升。
關(guān)鍵詞: 語(yǔ)音情感識(shí)別; DFCC; F?DFCC; 融合特征; 特征提??; Fisher比; ECAPA?TDNN
中圖分類號(hào): TN912.3?34 " " " " " " " " " " " " " 文獻(xiàn)標(biāo)識(shí)碼: A " " " " " " " " " " "文章編號(hào): 1004?373X(2024)06?0131?06
Speech emotion recognition based on F?DFCC fusion feature
HE Zhaoxia1, ZHU Rongtao1, LUO Hui2
(1. College of Arts and Science, Yangtze University, Jingzhou 434023, China;
2. College of Computer and Control Engineering, Northeast Forestry Univesity, Harbin 150040, China)
Abstract: The performance of speech emotion recognition can be improved by combining neural networks, parallel multiple feature vectors, and attention mechanisms. On this basis, starting from the previously extracted DFCC parameters, I?DFCC and Mid DFCC feature parameters are extracted, and Fisher's ratio is used to select feature parameters to form F?DFCC. F?DFCC feature parameters are compared and fused with LPCC and MFCC feature parameters, and then they are inputted into the ECAPA?TDNN model with bidirectional LSTM network and attention mechanism. The effectiveness of F?DFCC fusion feature parameters is verified on the CASIA and RAVDESS datasets. The experimental results show that in comparison with single F?DFCC feature parameter, the accuracy WA, recall UA, and F1?score of F?DFCC fusion features are improved by 0.035 1, 0.031 1, and 0.031 3 on the CASIA dataset, respectively, improved by 0.024 5, 0.035 8, and 0.033 2 on the RAVDESS dataset, respectively. In the two datasets, the highest recognition accuracy was realized for supervised emotions, at 0.94. In comparison with other feature parameters, the recognition rates of the 6 and 8 emotions fused by F?DFCC are improved.
Keywords: speech emotion recognition; DFCC; F?DFCC; fusion feature; feature extraction; Fisher ratio; ECAPA?TDNN
0 "引 "言
語(yǔ)音情感識(shí)別(Speech Emotion Recognition, SER)在人機(jī)交互和計(jì)算機(jī)輔助人際交流等應(yīng)用中發(fā)揮著重要作用。然而,由于自發(fā)情感表達(dá)的微妙性和模糊性,要使機(jī)器完全正確地解釋出語(yǔ)音信號(hào)中所包含的情感是具有挑戰(zhàn)性的。盡管SER已經(jīng)得到了廣泛的應(yīng)用,但它的性能遠(yuǎn)遠(yuǎn)低于人類,識(shí)別過(guò)程仍然受到很多因素的困擾,因此,有必要進(jìn)一步提高SER系統(tǒng)的性能。深度學(xué)習(xí)網(wǎng)絡(luò),例如卷積神經(jīng)網(wǎng)絡(luò)(CNN)和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)等[1],在SER任務(wù)中表現(xiàn)出較高的效率,識(shí)別精度較傳統(tǒng)方法也有了很大的提高。注意力機(jī)制可以動(dòng)態(tài)地聚焦于某些部分,目前已經(jīng)被應(yīng)用于神經(jīng)網(wǎng)絡(luò)中。S. Mirsamadi等將局部注意力機(jī)制引入語(yǔ)音神經(jīng)網(wǎng)絡(luò),使其關(guān)注語(yǔ)音信號(hào)的情感顯著區(qū)域[2]。L. Tarantino等提出了一種帶有自注意力機(jī)制的系統(tǒng),以改善SER性能[3]。近年來(lái),注意力機(jī)制引起了廣泛關(guān)注,例如:Li Y等對(duì)語(yǔ)譜圖的顯著周期采用自我注意力機(jī)制[4];Xie Y等提出了一種基于時(shí)間和空間特征維注意力的長(zhǎng)短期記憶(Long Short Term Memory, LSTM)輸出加權(quán)算法[5];Li R等結(jié)合深度殘差網(wǎng)絡(luò)和多頭注意力模型的內(nèi)部依賴,將算法模型的最后一個(gè)時(shí)間步輸出作為下一層的輸入[6];B. Desplanques等提出了ECAPA?TDNN模型,該模型更加注重通道之間的注意力、信息的傳播和聚合[7]。上述研究表明,與神經(jīng)網(wǎng)絡(luò)結(jié)合,并行多特征向量和引入注意力機(jī)制有助于提高SER性能。
MFCC參數(shù)是根據(jù)人耳聽覺特性提出的,是識(shí)別語(yǔ)音信號(hào)最常用的特征[8]。針對(duì)MFCC特征參數(shù)在情感分析問題時(shí)存在的中、高頻識(shí)別精度不高這一缺陷,王思羽、吳虹蕾選取MFCC、I?MFCC、Mid?MFCC特征參數(shù),通過(guò)降維算法Fisher比準(zhǔn)則,計(jì)算三種Mel倒譜系數(shù)對(duì)語(yǔ)音情感識(shí)別貢獻(xiàn)度的高低,選取貢獻(xiàn)度最高的參數(shù)進(jìn)行融合后得到F?MFCC特征參數(shù),并在此基礎(chǔ)上對(duì)語(yǔ)音情感特征參數(shù)做進(jìn)一步改進(jìn)[9?10]。為了進(jìn)一步提高系統(tǒng)的SER性能,本文從前期已經(jīng)提取的DFCC參數(shù)入手,提取I?DFCC和Mid?DFCC參數(shù),融合到一起構(gòu)成F?DFCC特征;再適當(dāng)?shù)貙?DFCC特征與LPCC、MFCC特征通過(guò)CNN網(wǎng)絡(luò)融合,得到基于F?DFCC的融合特征,增加每一個(gè)特征的情感信息量;同時(shí)將雙向的LSTM網(wǎng)絡(luò)應(yīng)用到含有注意力機(jī)制的ECAPA?TDNN模型中,進(jìn)一步選擇有用的情感特征信息;最后,在CASIA數(shù)據(jù)集和RAVDESS數(shù)據(jù)集上,通過(guò)實(shí)驗(yàn)驗(yàn)證了F?DFCC融合特征參數(shù)和ECAPA?TDNN?LSTM模型的有效性。
1 "特征提取
1.1 "F?DFCC特征提取
前期,在深入研究非線性共振的典型代表——Duffing振動(dòng)的基礎(chǔ)上,提出一種基于Duffing濾波器的特征提取方法(DFCC)[11],DFCC參數(shù)提取流程如圖1所示。72通道的Duffing濾波器組的幅頻特性(每4通道繪制一條曲線)如圖2所示。
各通道濾波器的中心頻率為[fDuffing],由于說(shuō)話人語(yǔ)音信號(hào)頻率的覆蓋范圍一般為60~3 500 Hz,本文選定最低頻率[f0=60 Hz]。中心頻率的計(jì)算公式如下:
[fDuffing=2i12f0,i=1,2,…,N] " " (1)
式中:i為通道數(shù);N為樣本數(shù)量,本文中N取值為72。
由圖2可知:濾波器在低頻區(qū)域比較密集,頻率變化快;濾波器在高頻區(qū)域比較稀疏,頻率變化緩慢。由此可知,濾波器組提取出的DFCC特征參數(shù),低頻區(qū)域的分辨率相比于高頻區(qū)域會(huì)更好。
仿照I?MFCC特征參數(shù)的提取方法,I?DFCC特征性參數(shù)與DFCC特征參數(shù)相反,提取過(guò)程中Duffing濾波器組在高頻區(qū)域比較密集,低頻區(qū)域比較稀疏;Mid?DFCC特征參數(shù)則是Duffing濾波器組在中頻區(qū)域比較密集,高低頻區(qū)域比較稀疏。I?Duffing濾波器組和Mid?Duffing濾波器組各通道的中心頻率公式分別如下:
[fI?Duffing=4 000-272-i12f0, i=1,2,…,N] (2)
[fMid?Duffing=2 000+2i12-1-272-i12-1f0, i=1,2,…,N] " (3)
圖3為三種Duffing濾波器組的中心頻率分布圖。由圖可知,根據(jù)圖1提取的特征參數(shù),三種Duffing濾波器組DFCC特征參數(shù)在低頻區(qū)域分辨率高,I?DFCC特征參數(shù)在高頻區(qū)域分辨率高,Mid?DFCC特征參數(shù)在中頻區(qū)域分辨率高。因此,分別在低、中、高頻段使用合適的濾波器組,并將特征參數(shù)通過(guò)適當(dāng)?shù)姆绞饺诤?,可得到在整個(gè)頻段分辨率都高的特征參數(shù)。
如果簡(jiǎn)單地將DFCC、I?DFCC、Mid?DFCC三種參數(shù)進(jìn)行疊加,通道數(shù)較多,計(jì)算量相對(duì)較大,同時(shí)會(huì)受到語(yǔ)音情感識(shí)別模型的影響。因此,本文考慮根據(jù)Fisher比[12]的大小來(lái)選取最優(yōu)的語(yǔ)音情感特征。Fisher比的定義如下:
[F=σbetweenσwithin] " " " (4)
式中:[σbetween]為語(yǔ)音情感特征的類間方差,表示特征離散程度;[σwithin]為語(yǔ)音情感特征的類內(nèi)方差,表示特征的聚集程度。F值越大,語(yǔ)音情感特征越明顯,其區(qū)分度也更大。
F?DFCC特征提取流程如圖4所示。
1.2 "其他幀級(jí)特征提取
目前在深度學(xué)習(xí)模型中,常用基于譜的特征作為模型的輸入。本文的音頻幀級(jí)特征提取過(guò)程中,利用librosa工具箱提取MFCC、LPCC等常用的基于譜的情感特征。
2 "ECAPA?TDNN?LSTM模型
為提高幀級(jí)特征的利用率,突出區(qū)分度強(qiáng)的深層動(dòng)態(tài)特征,本文在MFCC、LPCC、F?DFCC等特征的基礎(chǔ)上,采用CNN網(wǎng)絡(luò)提取語(yǔ)音信號(hào)的時(shí)序特征,全面把握語(yǔ)音信號(hào)的情感信息;然后將提取的情感信息作為ECAPA?TDNN模型的輸入。ECAPA?TDNN模型是對(duì)基于TDNN的x?vector架構(gòu)進(jìn)行改進(jìn)得到的。本文在該模型的基礎(chǔ)上引入Bi?LSTM(雙向LSTM網(wǎng)絡(luò)),完整的ECAPA?TDNN?LSTM系統(tǒng)架構(gòu)如圖5所示。
ECAPA?TDNN?LSTM模型的結(jié)構(gòu)分為以下4個(gè)模塊:
1) CNN處理好的語(yǔ)音情感特征經(jīng)過(guò)TDNN+ReLU+BatchNorm層,其中TDNN是一層一維卷積層,用來(lái)獲取語(yǔ)音信號(hào)的前后相關(guān)性,ReLU激活,BatchNorm規(guī)整;
2) 3個(gè)SE?Res2Block層,SE?Res2Block主要由TDNN、SE?Net和Res2Net組成;
3) 將Bi?LSTM[13]網(wǎng)絡(luò)嵌入到前兩個(gè)SE?Res2Block層的輸出端,2個(gè)Bi?LSTM的輸出與最后1個(gè)SE?Res2Block模塊的輸出聚合到一起,實(shí)現(xiàn)多層特征聚合與匯總,進(jìn)一步地挖掘語(yǔ)音信號(hào)中的時(shí)間上下文信息。Bi?LSTM網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。
4) 注意力統(tǒng)計(jì)池化層(Attentive Stat Pooling+BN)。由于重要的信息不僅在不同時(shí)間上,同時(shí)也在不同的特征圖通道上,該層利用時(shí)間信息和通道信息共同建模,獲得語(yǔ)音的統(tǒng)計(jì)信息,最后將語(yǔ)音的統(tǒng)計(jì)信息通過(guò)一個(gè)全連接層并降維,得到深度情感表征。
ECAPA?TDNN?LSTM模型的損失函數(shù)采用加性角度間隔損失函數(shù)(Additive Angular Margin Softmax, AAM?Softmax)[14]。該函數(shù)是在Softmax函數(shù)的基礎(chǔ)上提出的。相比于Softmax函數(shù),AAM?Softmax函數(shù)可以更好地縮小類內(nèi)間距,增大類間間距,具體表達(dá)式如下:
[Loss=1Ni=1Nloges?(cos(θyi+m))es?(cos(θyi+m))+j=1,j≠yines?cosθj] (5)
式中:N為樣本數(shù)量;n為類別數(shù)量;[θyi]是第i個(gè)樣本xi與第j類對(duì)應(yīng)的權(quán)重向量之間的夾角;s為縮放因子;m為邊緣角度。
3 "實(shí)驗(yàn)與分析
3.1 "實(shí)驗(yàn)環(huán)境
本實(shí)驗(yàn)在Windows系統(tǒng)下進(jìn)行,主要使用Python、PaddlePaddle深度學(xué)習(xí)框架,具體的實(shí)驗(yàn)環(huán)境配置如表1所示。
3.2 "數(shù)據(jù)庫(kù)
在CASIA數(shù)據(jù)集和RAVDESS數(shù)據(jù)集上對(duì)所提出的特征參數(shù)和模型進(jìn)行評(píng)估。CASIA數(shù)據(jù)集是中科大專為語(yǔ)音情感識(shí)別錄制的,為中文,4個(gè)對(duì)象,1 200條語(yǔ)音,表達(dá)快樂(happy)、悲傷(sad)、憤怒(angry)、恐懼(fearful)、 驚訝(surprised)和中性(neutral)共6種不同的情感。RAVDESS數(shù)據(jù)集的語(yǔ)音文件為英文,包含1 440個(gè)文件,24個(gè)對(duì)象,每個(gè)對(duì)象60個(gè)音頻,表達(dá)平靜(calm)、快樂(happy)、 悲傷(sad)、憤怒(angry)、恐懼(fearful)、 驚訝(surprised)、 厭惡(disgust)和中性(neutral)共8 種不同的情感。本研究在兩種數(shù)據(jù)集上實(shí)驗(yàn)時(shí),隨機(jī)選取了其中90%語(yǔ)音樣本作為訓(xùn)練集,10%語(yǔ)音樣本作為測(cè)試集。
3.3 "特征提取
本文語(yǔ)音信號(hào)的預(yù)處理階段,采樣率為16 kHz,幀長(zhǎng)為25 ms,幀移為10 ms,窗函數(shù)為漢明窗。對(duì)DFCC、I?DFCC、Mid?DFCC各選取了8階特征參數(shù),然后利用Fisher比在24階特征中選取Fisher比值較大,即貢獻(xiàn)程度較好的12階特征參數(shù)作為靜態(tài)特征,進(jìn)一步對(duì)提取出的F?DFCC特征參數(shù)做一階差分,即獲得語(yǔ)音信號(hào)的動(dòng)態(tài)特征。最后,選取動(dòng)態(tài)特征的極值、均值、方差等進(jìn)行疊加,得到96維F?DFCC相關(guān)特征參數(shù)。
3.4 "實(shí)驗(yàn)設(shè)置
本文主要通過(guò)設(shè)置各種語(yǔ)音特征參數(shù)在情感識(shí)別中的對(duì)比實(shí)驗(yàn)來(lái)說(shuō)明本文方法的可行性。主要驗(yàn)證本文的F?DFCC特征參數(shù)相比于傳統(tǒng)特征參數(shù)MFCC、LPCC有無(wú)優(yōu)越性;接著基于F?DFCC,通過(guò)CNN網(wǎng)絡(luò)構(gòu)成融合特征參數(shù),輸入ECAPA?TDNN?LSTM情感識(shí)別模型,在CASIA數(shù)據(jù)集和RAVDESS數(shù)據(jù)集上驗(yàn)證情感識(shí)別的性能,并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行具體分析。
3.5 "實(shí)驗(yàn)和討論
首先,分別將LPCC、MFCC、DFCC、F?DFCC等參數(shù)以及LPCC、MFCC、F?DFCC三種特征構(gòu)成的融合參數(shù),輸入ECAPA?TDNN?LSTM模型,比較它們?cè)贑ASIA數(shù)據(jù)集和RAVDESS數(shù)據(jù)集上的準(zhǔn)確率WA、召回率UA和F1?score,識(shí)別結(jié)果如表2和表3所示。
觀察表2和表3可知,無(wú)論是在CASIA數(shù)據(jù)集還是RAVDESS數(shù)據(jù)集上,DFCC特征參數(shù)的識(shí)別效果都明顯優(yōu)于LPCC,略遜于MFCC特征參數(shù),但是F?DFCC特征參數(shù)的效果優(yōu)于MFCC。F?DFCC準(zhǔn)確率WA、召回率UA、F1?score三個(gè)指標(biāo),在CASIA數(shù)據(jù)集上分別高于MFCC特征0.016 9、0.026 1、0.023 5;在RAVDESS數(shù)據(jù)集上分別高于MFCC特征0.019 2、0.023 8、0.021 1。
進(jìn)一步,將LPCC、MFCC、F?DFCC三種特征文件輸入CNN模型中,提取F?DFCC融合特征中的高級(jí)特征。F?DFCC融合特征的準(zhǔn)確率WA、召回率UA、F1?score較單一的F?DFCC特征參數(shù),在CASIA數(shù)據(jù)集上分別高0.035 1、0.031 1、0.031 3;在RAVDESS數(shù)據(jù)集上分別高0.024 5、0.035 8、0.033 2。由此證明F?DFCC融合特征能夠較全面地把握語(yǔ)音信號(hào)的情感信息。
接著,將F?DFCC融合特征參數(shù)輸入ECAPA?TDNN?LSTM模型,分別在CASIA和RAVDESS數(shù)據(jù)集上對(duì)比其訓(xùn)練損失函數(shù),結(jié)果如圖7所示。
對(duì)比圖7中兩條損失函數(shù)曲線,在RAVDESS數(shù)據(jù)集上下降比較緩慢,主要原因是RAVDESS數(shù)據(jù)集較CASIA數(shù)據(jù)集情感類型更多。整體而言,當(dāng)step為4 000時(shí),兩個(gè)訓(xùn)練集上的損失函數(shù)基本穩(wěn)定。
同時(shí),得到在兩個(gè)數(shù)據(jù)集上的混淆矩陣,分別如圖8和圖9所示。
混淆矩陣可以更加直觀地展現(xiàn)出F?DFCC融合特征參數(shù)輸入ECAPA?TDNN?LSTM模型進(jìn)行語(yǔ)音情感識(shí)別的性能,兩圖中對(duì)角線表示情感識(shí)別率,其他數(shù)值表示某種情感被誤判為其他情感的比例。
從圖8和圖9中可以看出,無(wú)論是在CASIA數(shù)據(jù)集還是RAVDESS數(shù)據(jù)集,surprised情感的識(shí)別準(zhǔn)確率最高,識(shí)別率高達(dá)0.94。從整體上看,情感之間存在比較輕度的相互干擾,在兩種數(shù)據(jù)集上的neutral情感的識(shí)別率相比于其他情感識(shí)別率低,最高誤判率達(dá)到了0.10以上。從整體性能來(lái)看,F(xiàn)?DFCC融合特征參數(shù)的6種和8種情感識(shí)別率與其他特征參數(shù)相比均有所提升。
4 "結(jié) "論
本文仿照F?MFCC特征參數(shù)提取方法,引入DFCC、I?DFCC、Mid?DFCC特征參數(shù),并對(duì)其特點(diǎn)、提取方法分別做詳細(xì)介紹;再利用Fisher比計(jì)算三種特征參數(shù)對(duì)語(yǔ)音情感識(shí)別的貢獻(xiàn)度,選取貢獻(xiàn)度最高的12階參數(shù)進(jìn)行融合降維,得出F?DFCC特征參數(shù)。
將F?DFCC特征參數(shù)與LPCC、MFCC融合后進(jìn)行情感識(shí)別實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明:F?DFCC融合特征的準(zhǔn)確率WA、召回率UA、F1?score與單一的F?DFCC特征參數(shù)相比,在CASIA數(shù)據(jù)集上分別高0.035 1、0.031 1、0.031 3;在RAVDESS數(shù)據(jù)集上分別高0.024 5、0.035 8、0.033 2。證明F?DFCC融合特征能夠較全面地把握語(yǔ)音信號(hào)的情感信息。
將F?DFCC融合特征參數(shù)輸入ECAPA?TDNN?LSTM模型,得出無(wú)論是在CASIA數(shù)據(jù)集還是RAVDESS數(shù)據(jù)集,surprised情感的識(shí)別準(zhǔn)確率最高,為0.94。從整體性能來(lái)看,F(xiàn)?DFCC融合特征參數(shù)的6種和8種情感識(shí)別率與其他特征參數(shù)相比均有所提升。
注:本文通訊作者為羅輝。
參考文獻(xiàn)
[1] TRIGEORGIS G, RINGEVAL F, BRUECKNER R, et al. Adieu features?End?to?end speech emotion recognition using a deep convolutional recurrent network [C]// IEEE International Conference on Acoustics,Speech and Signal Processing. Shanghai: IEEE, 2016: 5200?5204.
[2] MIRSAMADI S, BARSOUM E, ZHANG C. Automatic speech emotion recognition using recurrent neuralnetw orks with local attention [C]// IEEE International Conference on Acoustics,Speech and Signal Processing. New Orleans, LA, USA: IEEE, 2017: 2227?2231.
[3] TARANTINO L, GARNER P N, LAZARIDIS A. Self?attention for speech emotion recognition [C]// Interspeech. Graz, Austria: IEEE, 2019: 2578?2582.
[4] LI Y, ZHAO T, KAW AHARA T. Improved end?to?end speech emotion recognition using self attention mechanism and multitask learning [C]// Interspeech. Graz, Austria: IEEE, 2019: 2803?2807.
[5] XIE Y, LIANG R, LIANG Z, et al. Speech emotion classifi cation using attention?based LSTM [J]. IEEE/ACM transactions on audio, speech, and language processing, 2019, 27(11): 1675?1685.
[6] LI R, WU Z, JIA J, et al. Dilated residual network with multi?head self?attention for speech emotion recognition [C]// IEEE International Conference on Acoustics, Speech and Signal Processing. Brighton, UK: IEEE, 2019: 6675?6679.
[7] DESPLANQUES B, THIENPONDT J, DEMUYNCK K. Ecapa?TDNN: emphasized channel attention, propagation and aggregation in TDNN based speaker verification [C]// International Speech Communication Association. Shanghai: IEEE, 2020: 3830?3834.
[8] 崔琳,崔晨露,劉政偉,等.改進(jìn)MFCC和并行混合模型的語(yǔ)音情感識(shí)別[J].計(jì)算機(jī)科學(xué),2023,50(z1):166?172.
[9] 王思羽.語(yǔ)音情感識(shí)別算法研究[D].南京:南京郵電大學(xué),2019.
[10] 吳虹蕾.基于深度學(xué)習(xí)的語(yǔ)音情感識(shí)別算法的設(shè)計(jì)與實(shí)現(xiàn)[D].哈爾濱:黑龍江大學(xué),2021.
[11] 何朝霞,潘平,羅輝.音色變換音頻信號(hào)的篡改檢測(cè)技術(shù)研究[J].中國(guó)測(cè)試,2017,43(2):98?103.
[12] 孫肖然.阻塞性睡眠呼吸暫停低通氣的鼾聲識(shí)別與分類[D].廣州:華南理工大學(xué),2022.
[13] 王佳慧.基于CNN與Bi?LSTM混合模型的中文文本分類方法[J].軟件導(dǎo)刊,2023,22(1):158?164.
[14] 張悅.基于深度學(xué)習(xí)的語(yǔ)音情感識(shí)別[D].成都:電子科技大學(xué),2022.
[15] SCHULLER B, STEIDL S, BATLINER A, et al. The INTER SPEECH 2010 paralinguistic challenge [C]// Interspeech.
Makuhari, Japan: IEEE, 2010: 2794?2797.