亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Res-Transformer模型的語音情感識(shí)別方法研究

        2023-06-17 08:39:10劉方如
        物聯(lián)網(wǎng)技術(shù) 2023年6期
        關(guān)鍵詞:特征情感模型

        劉方如,王 亮

        (沈陽化工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 沈陽 110142)

        0 引 言

        在語音中包含著說話人所表達(dá)的文本和情感的信息。語音情感識(shí)別(Speech Emotion Recognition,SER)在人機(jī)交互領(lǐng)域中是一個(gè)熱點(diǎn)研究方向[1-2]。SER 通常是指通過機(jī)器處理,從語音信號(hào)中模擬人類感知并識(shí)別人類情感的一種技術(shù)。研究者們就SER 做了大量的研究,使得SER 在教育、醫(yī)學(xué)、服務(wù)等領(lǐng)域發(fā)展得非常迅速。因此,積極開展SER 領(lǐng)域的研究具有很大的發(fā)展?jié)摿蛻?yīng)用價(jià)值。

        完整的語音情感識(shí)別流程包括采集語音信號(hào)、預(yù)處理、特征提取、情感識(shí)別等流程,如圖1所示。

        圖1 語音情感識(shí)別流程

        在語音情感識(shí)別中,提取的語音特征需要有效并且富有各類的情感,對(duì)于研究來說才有重要作用。其中,梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCC)是使用最為廣泛的聲學(xué)特征。MFCC 特征可以有效反映人耳的聽覺特性。文獻(xiàn)[3]利用MFCC 技術(shù)對(duì)快樂、悲傷和憤怒這三種情感進(jìn)行測(cè)試,測(cè)試結(jié)果為80%。此外,還有許多研究者喜歡采用多種特征相互結(jié)合的方式,即融合特征進(jìn)行實(shí)驗(yàn)的研究。

        在情感識(shí)別算法方面,高斯混合模型[4]、支持向量機(jī)[5]以及K 最近鄰分類器分類算法[6]等機(jī)器學(xué)習(xí)算法對(duì)于語音情感分類而言都是最基本的模型。盡管這些分類模型在語音情感識(shí)別領(lǐng)域做了很多貢獻(xiàn),但是上述分類模型的準(zhǔn)確性仍有待提高,需要研究者繼續(xù)探索。

        近年來,深度學(xué)習(xí)極大地促進(jìn)了語音情感識(shí)別的進(jìn)展。深度信念網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、深度神經(jīng)網(wǎng)絡(luò)和長短期記憶等深度學(xué)習(xí)分類器的研究越來越多[7]。在多類的應(yīng)用中,卷積神經(jīng)網(wǎng)絡(luò)取得了顯著的成功。He 等[8]提出的深度殘差網(wǎng)絡(luò)取得了重要的成果,刷新了CNN 模型的多項(xiàng)歷史。在深度殘差網(wǎng)絡(luò)中,其中的殘差塊使用了跳躍連接,主要作用是當(dāng)深度增加時(shí),緩解了梯度的消失問題。2017年,谷歌提出了Transformer 模型[9],該模型不僅在速度性能上最優(yōu),而且效果也是最佳的。Transformer 模型的多頭注意力機(jī)制結(jié)構(gòu)可以更好地捕獲長期的上下文依賴,提取到遠(yuǎn)距離特征,有效提升了分類的準(zhǔn)確率。文獻(xiàn)[10]逐漸使用多頭注意力機(jī)制在處理時(shí)序特征上取代RNN 模型。如今,將深度學(xué)習(xí)和注意力機(jī)制結(jié)合的方法使得語音情感識(shí)別的效果更好。

        因此,針對(duì)語音情感識(shí)別中數(shù)據(jù)樣本不足、識(shí)別準(zhǔn)確率不高的問題,本文的主要貢獻(xiàn)如下:提出將Resnet 結(jié)構(gòu)與Transformer 編碼器結(jié)構(gòu)相結(jié)合,提出了Res-Transformer 模型對(duì)語音中的情感信息進(jìn)行提取,Res-Transformer 模型不僅可提取到較豐富的深層情感特征,還提高了識(shí)別精度。針對(duì)數(shù)據(jù)樣本不足而造成的過擬合問題,使用加法高斯白噪聲(AWGN)來擴(kuò)大數(shù)據(jù)集以增強(qiáng)數(shù)據(jù)。采用中心損失函數(shù)和SoftMax 交叉熵?fù)p失函數(shù)聯(lián)合決策的方式,增加了類間的距離,提高了分類的準(zhǔn)確度。

        1 Res-Transformer 模型

        本文提出的Res-Transformer 模型主要是由Resnet 結(jié)構(gòu)和Transformer 編碼器結(jié)構(gòu)所組成,該模型整體結(jié)構(gòu)如圖2所示。首先將MFCC 特征作為模型的輸入獲取語音信號(hào)中的情感特征,使用兩個(gè)并行的Resnet 層和一個(gè)Transformer編碼器層來獲得更深層的特征,利用Transformer 編碼器結(jié)構(gòu)處理時(shí)間信息,Resnet 結(jié)構(gòu)處理時(shí)間信息,其中Resnet結(jié)構(gòu)中引入的殘差單元主要處理隨著網(wǎng)絡(luò)層數(shù)加深而產(chǎn)生的梯度爆炸或梯度消失問題。最后,將提取后的特征作為全連接層的輸入,通過中心損失函數(shù)和SoftMax 交叉熵?fù)p失函數(shù)聯(lián)合決策的方式進(jìn)行情感識(shí)別,得到最終的八分類情感。

        圖2 Res-Transformer 編碼器結(jié)構(gòu)

        1.1 深度殘差網(wǎng)絡(luò)結(jié)構(gòu)

        網(wǎng)絡(luò)深度適當(dāng)加深會(huì)導(dǎo)致系統(tǒng)的性能有所提升,但是網(wǎng)絡(luò)深度過度加深系統(tǒng)性能就會(huì)下降,由于在訓(xùn)練過程中的難度太大,因此導(dǎo)致了梯度消失和梯度爆炸的問題。深度殘差網(wǎng)絡(luò)中引入了殘差塊,由此構(gòu)建更深層的網(wǎng)絡(luò),很好地解決了此問題,殘差塊結(jié)構(gòu)如圖3所示。圖中:x表示輸入;H(x)表示輸出;F(x)表示殘差映射;weight layer表示卷積層;ReLu 表示激活函數(shù)。

        圖3 殘差塊結(jié)構(gòu)

        1.2 Transformer 編碼器結(jié)構(gòu)

        Transformer模型可以很好地解決序列到序列的問題。自注意力機(jī)制計(jì)算的是序列對(duì)注意力,并將每一幀上的頻域特征向量a1,a2,...,ai與訓(xùn)練好的權(quán)重WQ、WK、WV分別相乘創(chuàng)建出了3 個(gè)向量,即 query、key、value,如式(1)所示:

        計(jì)算所有的query 向量和key 向量,經(jīng)過縮放點(diǎn)乘最后得到每一個(gè)向量與其他向量之間的關(guān)聯(lián)性,并對(duì)計(jì)算結(jié)果進(jìn)行歸一化以保證梯度的穩(wěn)定性,關(guān)聯(lián)矩陣A如式(2)所示:

        將矩陣A進(jìn)行SoftMax 標(biāo)準(zhǔn)化,然后和value 向量相互點(diǎn)乘,得到具有相關(guān)性的特征向量Head 如式(3)所示:

        多頭注意力機(jī)制通過計(jì)算query、key、value 向量進(jìn)行注意力計(jì)算。使用多頭注意力機(jī)制可以學(xué)習(xí)到獨(dú)立的相關(guān)信息,并且將多頭注意力機(jī)制與子空間中的信息合在一起,最后可令得到的特征信息更加全面和豐富。在子空間上對(duì)自注意力進(jìn)行多次計(jì)算最終可得到注意力矩陣的輸出為Headn,n為頭數(shù),將Headn進(jìn)行拼接可以得到特征矩陣MultiHead,如式(4)所示:

        1.3 中心損失函數(shù)和SoftMax 交叉熵?fù)p失函數(shù)

        SoftMax 主要用于解決多分類的問題,并且通過使用梯度下降的方法完成網(wǎng)絡(luò)訓(xùn)練,使其結(jié)果得到最小值。中心損失函數(shù)是一種典型的聚類算法,其損失函數(shù)是由特征值和對(duì)應(yīng)中心的距離計(jì)算所得出。因?yàn)轭悇e不平衡,所以在實(shí)驗(yàn)中將權(quán)重分配給中心損失和SoftMax 交叉熵?fù)p失函數(shù),其損失為:

        式中:Ls為SoftMax 交叉熵?fù)p失;Lc為中心損失;wyi是反比于第j種類別在總訓(xùn)練集中的占比。神經(jīng)網(wǎng)絡(luò)通過使用聯(lián)合的損失來進(jìn)行訓(xùn)練,則聯(lián)合損失為:

        式中:λ用來平衡中心損失和SoftMax交叉熵?fù)p失。當(dāng)λ=0時(shí),可以認(rèn)為是僅有SoftMax 損失的結(jié)果。

        2 實(shí) 驗(yàn)

        2.1 數(shù)據(jù)集

        數(shù)據(jù)集的自然程度對(duì)評(píng)價(jià)語音情感識(shí)別方法的效果非常有效,數(shù)據(jù)集的質(zhì)量比較差的情況下可能會(huì)得到錯(cuò)誤的結(jié)果。本文選用RAVDESS 數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),RAVDESS 數(shù)據(jù)集[11]是通過驗(yàn)證后得到的情感語音和歌曲的數(shù)據(jù)集,本文主要使用它的語音部分。此數(shù)據(jù)集一共有1 440 個(gè)樣本,由24 名專業(yè)的演員(12 男,12 女)組成,其中包含8 類情感(平靜、快樂、悲傷、憤怒、恐懼、驚訝、厭惡和中性)。RAVDESS數(shù)據(jù)集的平衡性較好,所以使用RAVDESS 數(shù)據(jù)集對(duì)這八類情感進(jìn)行研究。

        2.2 語音預(yù)處理

        本文使用Librosa 音頻處理庫來實(shí)現(xiàn)MFCC 的提取。首先使用長度為1 024、跳長為512 的漢明窗口對(duì)音頻信號(hào)進(jìn)行短時(shí)傅里葉變換(STFT),得到音頻信號(hào)的功率譜圖。然后利用梅爾濾波器將譜圖映射到梅爾尺度,取對(duì)數(shù)得到Mel譜圖。最后,使用離散余弦變換(DCT)來獲得MFCC。采用MFCC 作為輸入,將MFCC 視為灰度圖像,寬度是時(shí)間尺度,高度是頻率尺度,MFCC 中每個(gè)像素的值是在一個(gè)時(shí)間步長的特定梅爾頻率范圍內(nèi)的音頻信號(hào)強(qiáng)度。

        由于本文網(wǎng)絡(luò)層次較深,使用的訓(xùn)練數(shù)據(jù)量過小會(huì)出現(xiàn)過擬合問題,導(dǎo)致模型泛化性差。為了提高識(shí)別精度,在RAVDESS 數(shù)據(jù)集上對(duì)原有的1 440 條語音數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng)。使用高斯白噪聲(AWGN)將數(shù)據(jù)集擴(kuò)大到原來的二倍,對(duì)數(shù)據(jù)添加信噪比15~30 dB 的噪聲,使得訓(xùn)練出的模型具有一定抗噪性,可以很好地解決過擬合問題。語音樣本采樣率為48 kHz,原始語音數(shù)據(jù)和高斯白噪聲增強(qiáng)數(shù)據(jù)分別如圖4和圖5所示。

        圖4 原始語音數(shù)據(jù)

        圖5 高斯白噪聲語音數(shù)據(jù)

        2.3 實(shí)驗(yàn)設(shè)置

        本實(shí)驗(yàn)在Ubuntu 環(huán)境下運(yùn)行,內(nèi)存大小為8 GB,CPU為i5-1035G1,GPU 為MX350,使用Python 版本為3.9.7,使用PyTorch 框架實(shí)現(xiàn)。語音情感數(shù)據(jù)中訓(xùn)練集、驗(yàn)證集和測(cè)試集所占比例為8 ∶1 ∶1。在RAVDESS 數(shù)據(jù)集上有1 440 條語音數(shù)據(jù),使用高斯白噪聲增強(qiáng)后的語音數(shù)據(jù)有2 880 條,最終語音數(shù)據(jù)總計(jì)4 320 條,劃分后的數(shù)量為3 441、429 和450。

        每次卷積和池化后都采用0.1的Dropout來緩解過擬合,使用中心損失函數(shù)和SoftMax 交叉熵?fù)p失函數(shù)聯(lián)合決策。使用SGD 優(yōu)化器,學(xué)習(xí)率為0.001,動(dòng)量設(shè)置為0.8,權(quán)重衰減設(shè)置為1×10-3,批處理(mini-batch)設(shè)置為8,迭代周期(Epoch)設(shè)置為500。

        2.4 評(píng)價(jià)指標(biāo)

        本文采用準(zhǔn)確率(Accuracy)、精確率(Precision)和召回率(Recall)來評(píng)估模型的性能。

        (1)準(zhǔn)確率是指在全部樣本中,預(yù)測(cè)為正確的樣本所占有的比例,其公式為:

        式中:TN 表示負(fù)樣本被成功識(shí)別樣本數(shù);TP 表示正樣本被成功識(shí)別樣本數(shù);FN 表示負(fù)樣本被錯(cuò)誤識(shí)別樣本數(shù);FP 表示正樣本被錯(cuò)誤識(shí)別樣本數(shù)。

        (2)精確率是指正樣本被正確識(shí)別出來的比例,其公式為:

        (3)召回率是指被正確識(shí)別的正樣本占所有被識(shí)別為正樣本的比例,其公式為:

        2.5 實(shí)驗(yàn)結(jié)果分析

        實(shí)驗(yàn)將MFCC 作為Res-Transformer 模型的輸入,提取了語音的情感特征。使用SoftMax 交叉熵?fù)p失和中心損失函數(shù)聯(lián)合決策的方式增大了分類的準(zhǔn)確率。在RAVDESS 數(shù)據(jù)集上的Res-Transformer 模型經(jīng)過訓(xùn)練和驗(yàn)證的損失結(jié)果如圖6所示。在RAVDESS 數(shù)據(jù)集上,本文提出的Res-Transformer 模型性能表現(xiàn)良好,通過不斷地迭代訓(xùn)練,其訓(xùn)練集中的損失值達(dá)到0.35 左右,其驗(yàn)證集中的損失值達(dá)到0.99 左右。在訓(xùn)練集和驗(yàn)證集中,其精度與損失值收斂的方向大體相同,模型表現(xiàn)出非常優(yōu)秀的擬合能力。最后,評(píng)估結(jié)果是對(duì)Res-Transformer模型在測(cè)試集上的精度與其損失值進(jìn)行計(jì)算。實(shí)驗(yàn)結(jié)果表明,測(cè)試集上的Res-Transformer 模型有優(yōu)秀的性能,顯示出該模型在RAVDESS 數(shù)據(jù)集上的準(zhǔn)確率為84.89%。

        圖6 Res-Transformer 模型在RAVDESS數(shù)據(jù)集上進(jìn)行訓(xùn)練和驗(yàn)證的損失

        實(shí)驗(yàn)利用Resnet 處理空間信息,Transformer 編碼器結(jié)構(gòu)處理時(shí)間信息。表1展示了Res-Transformer 模型在RAVDESS 數(shù)據(jù)集上的八分類情感數(shù)據(jù),該模型的語音情感識(shí)別準(zhǔn)確率為84.89%,召回率分別為84.75%、83.87%、84.06%、86.67%、87.04%、84.62%、85.25%和83.33%。其中,平靜的情感預(yù)測(cè)效果最好,高達(dá)96.67%,即在60 個(gè)情感樣本中有58 個(gè)樣本預(yù)測(cè)正確,僅有2 個(gè)樣本被預(yù)測(cè)為其他類情感,說明模型可以很好地識(shí)別該情感的特征。但快樂的情感模型識(shí)別率有一部分被誤分為驚訝,說明模型不能很好地區(qū)分相似情感特征,模型識(shí)別時(shí)會(huì)有一定程度的混淆。最后,某類樣本可能容易預(yù)測(cè)為另一類,但反過來不一定成立。在本文的實(shí)驗(yàn)條件下該結(jié)果符合預(yù)期。

        表1 Res-Transformer 在RAVDESS 數(shù)據(jù)集下的八分類情感

        由表2可以看出,本文的方法與DCNN 模型相比,準(zhǔn)確率提高了3.89%;與文獻(xiàn)[13]中的模型相比,準(zhǔn)確率提高了2.68%。在訓(xùn)練過程中,CNN-Transformer 模型獲得80%的準(zhǔn)確率,Res-Transformer 模型獲得了84.89%的準(zhǔn)確率,改進(jìn)后的Res-Transformer 模型在RAVDESS 數(shù)據(jù)集下八種情感的識(shí)別率提高了4.89%,同一數(shù)據(jù)庫的不同模型下改進(jìn)后的Res-Transformer 模型語音情感識(shí)別準(zhǔn)確率得到顯著提升。

        表2 與其他在RAVDESS 數(shù)據(jù)集上的研究結(jié)果對(duì)比

        3 結(jié) 語

        本文將Resnet 和Transformer 編碼器結(jié)構(gòu)組合,利用Resnet處理空間信息,Transformer編碼器結(jié)構(gòu)處理時(shí)間信息,結(jié)合高斯白噪聲(AWGN)增強(qiáng)數(shù)據(jù),以減少過度擬合。使用中心損失函數(shù)和SoftMax 交叉熵?fù)p失函數(shù)聯(lián)合決策的方式進(jìn)一步提高分類準(zhǔn)確率。

        在今后的工作中,可以對(duì)數(shù)據(jù)進(jìn)行更加有效的預(yù)處理并且使用特征融合的方式來保證提取最優(yōu)特征,對(duì)Transformer模型做進(jìn)一步研究以構(gòu)建更優(yōu)秀的模型,從而能更好地提高語音情感識(shí)別的準(zhǔn)確率。

        猜你喜歡
        特征情感模型
        一半模型
        如何在情感中自我成長,保持獨(dú)立
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        如何表達(dá)“特征”
        情感
        不忠誠的四個(gè)特征
        如何在情感中自我成長,保持獨(dú)立
        抓住特征巧觀察
        色综合av综合无码综合网站| 亚洲中文字幕日本日韩| 四虎精品视频| 99在线无码精品秘 人口| 亚洲黄色精品在线播放| 国产精品一区二区av麻豆| 午夜亚洲www湿好爽| 亚洲欧洲久久久精品| 日韩一区二区中文字幕| 国产视频自拍一区在线观看| 性欧美老人牲交xxxxx视频| 亚洲国产精品线路久久| 日本高清不卡一区二区三区| 精品一区2区3区4区| 亚洲成年国产一区二区| 国产成人a级毛片| 东北少妇不带套对白| 奇米影视久久777中文字幕| 亚洲爆乳大丰满无码专区| 亚洲天堂一区二区精品| 国产一级黄色录像大片| 无码人妻少妇久久中文字幕蜜桃| 丰满人妻被黑人中出849| 欧美日韩一线| 国产午夜精品久久精品| 国产综合色在线精品| 亚洲日韩∨a无码中文字幕| 精品人妻无码中文字幕在线| 91久久精品一二三区蜜桃| 免费观看在线视频播放| 狠狠色丁香婷婷综合潮喷| 真人新婚之夜破苞第一次视频| 亚洲天堂资源网| av日本一区不卡亚洲午夜| 夜晚黄色福利国产精品| 日韩av激情在线观看| 精品人妻伦九区久久aaa片69| 热久久久久久久| 一区二区视频资源在线观看| 中文字幕一区二区三区四区五区 | 亚洲日本一区二区在线|