亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

VMD改進(jìn)GFCC的情感語(yǔ)音特征提取

2020-09-04 04:58:40劉雨柔張雪英陳桂軍黃麗霞

計(jì)算機(jī)工程與設(shè)計(jì) 2020年8期

劉雨柔，張雪英，陳桂軍，黃麗霞，張靜

(太原理工大學(xué) 信息與計(jì)算機(jī)學(xué)院，山西太原 030024)

0 引言

語(yǔ)音情感識(shí)別是人工智能領(lǐng)域的一個(gè)重要分支，主要分為預(yù)處理、特征提取、識(shí)別模型3個(gè)部分，提取能有效表達(dá)情感信息的特征對(duì)識(shí)別結(jié)果起著關(guān)鍵的作用。目前應(yīng)用最廣泛的特征是Mel頻率倒譜系數(shù)(Mel-frequency cepstral coefficients，MFCC)，研究發(fā)現(xiàn)MFCC提取過(guò)程中存在兩個(gè)問(wèn)題，一方面利用三角形濾波器組會(huì)出現(xiàn)相鄰頻帶間能量的泄露，不利于反映共振峰特性，另一方面頻帶的劃分是以中心頻率按照Mel尺度均勻分布為前提，與聽(tīng)覺(jué)特性中臨界帶寬概念不完全相符[1]。文獻(xiàn)[2]指出MFCC在用于識(shí)別時(shí)若無(wú)干擾則識(shí)別效果很好，但在噪聲干擾條件下識(shí)別效果急劇下降。Gammatone濾波器組能有效模擬人耳的頻譜分析與頻率選擇特性，而且具有很強(qiáng)的抗噪性[3]。文獻(xiàn)[4]在說(shuō)話(huà)人識(shí)別系統(tǒng)中選用由Gammatone濾波器代替Mel尺度的三角形濾波器組提取的Gammatone頻率倒譜系數(shù)(Gammatone frequency cepstral coefficients，GFCC)，結(jié)果表明其識(shí)別率與魯棒性均優(yōu)于MFCC。傳統(tǒng)的MFCC、GFCC忽略了信號(hào)本身非線(xiàn)性、非穩(wěn)態(tài)特性，不能全面地獲取語(yǔ)音中的情感信息。經(jīng)驗(yàn)?zāi)Ｊ椒纸?empirical mode decomposition，EMD)是一種能有效處理非線(xiàn)性、非平穩(wěn)信號(hào)的技術(shù)，可以用于解決上述問(wèn)題。屠彬彬等提出一種基于EMD改進(jìn)MFCC的新特征用于語(yǔ)音情感識(shí)別，相比傳統(tǒng)的MFCC識(shí)別率提高了3.26%[5]，但是EMD會(huì)出現(xiàn)波形混疊現(xiàn)象。文獻(xiàn)[6]提出一種能夠有效抑制模態(tài)混疊現(xiàn)象的信號(hào)分解方法——變分模態(tài)分解。文獻(xiàn)[7-9]研究結(jié)果表明，與EMD算法的分解結(jié)果相比，VMD不僅去噪效果好，而且可以準(zhǔn)確地分解出不同頻率段的信號(hào)。

VMD可以解決語(yǔ)音信號(hào)的非線(xiàn)性、非穩(wěn)態(tài)問(wèn)題，GFCC具有較好的噪聲魯棒性，因此本文將VMD算法與GFCC特征相結(jié)合，得到一種VMD改進(jìn)GFCC的新特征——VGFCC用于語(yǔ)音情感識(shí)別，并通過(guò)實(shí)驗(yàn)驗(yàn)證其有效性。

1 VGFCC特征提取及識(shí)別系統(tǒng)

語(yǔ)音情感識(shí)別是一項(xiàng)利用計(jì)算機(jī)提取說(shuō)話(huà)者語(yǔ)音中的特征參數(shù)，并將其通過(guò)識(shí)別模型對(duì)說(shuō)話(huà)者的情感狀態(tài)進(jìn)行判別的技術(shù)。本文所提新特征VGFCC的提取識(shí)別系統(tǒng)框架如圖1所示。

圖1 VGFCC提取識(shí)別系統(tǒng)框架

1.1 變分模態(tài)分解算法

2014年由K.Dragomiretskiy等提出一種不同于經(jīng)驗(yàn)?zāi)B(tài)分解、局部均值分解(local mean decomposition，LMD)的信號(hào)分解方法——變分模態(tài)分解[6]。VMD算法核心是通過(guò)迭代搜索獲取約束變分模型的最優(yōu)解，自動(dòng)獲取固有模態(tài)函數(shù)的中心頻率及帶寬。信號(hào)f的約束變分模型可用式(1)表示

(1)

式中：K代表分解的IMF個(gè)數(shù)，{uk={u1,u2,…,uK表示IMF分量集；{ωk={ω1,ω2,…,ωK是IMF分量集對(duì)應(yīng)的中心頻率集。

為獲取式(1)最優(yōu)解，引入二次懲罰因子α降低噪聲干擾，通過(guò)拉格朗日乘子λ保持約束的嚴(yán)格性，約束變分問(wèn)題轉(zhuǎn)為非約束變分問(wèn)題[10]

(2)

圖2 VMD迭代運(yùn)算流程

VMD分解所得的固有模態(tài)函數(shù)分量的中心頻率值從低到高分布，IMF分量個(gè)數(shù)K從1開(kāi)始取值，如最后一個(gè)IMF的中心頻率第一次達(dá)到最大值，則代表未出現(xiàn)分解不足的問(wèn)題，K值逐漸遞增，直至最大的中心頻率保持相對(duì)穩(wěn)定，即可認(rèn)定此時(shí)的K值為最恰當(dāng)?shù)姆纸鈧€(gè)數(shù)[11]。表1是根據(jù)情感語(yǔ)句分解得到的各IMF中心頻率，K=7時(shí)頻率最大值最小值基本保持不變，因此確定K的最佳值為7。

表1 各IMF分量的中心頻率/Hz

圖3為EMD、LMD與VMD這3種不同的信號(hào)分解方法對(duì)EMO-DB中隨機(jī)選取語(yǔ)音的分解結(jié)果，觀察可得：3種分解方法都存在不同程度的端點(diǎn)效應(yīng)導(dǎo)致分解信號(hào)波形失真的問(wèn)題，但VMD分解的IMF1與原信號(hào)最相似，具有較好的魯棒性，分解效果優(yōu)于其它兩種方法。

1.2 提取VGFCC

通過(guò)研究人的聽(tīng)覺(jué)特性發(fā)現(xiàn)，耳蝸相當(dāng)于一個(gè)濾波器組，很多學(xué)者對(duì)此深入研究并取得了一定成果，Lyon提出共振峰濾波器[12]，Patterson等提出Roex函數(shù)濾波器[13]，但是共振濾波器不具備非線(xiàn)性特性且無(wú)法主動(dòng)反饋，Roex濾波器難以用簡(jiǎn)單的沖激響應(yīng)函數(shù)表示。1972年Johannesma提出Gammatone(GT)濾波器模型模擬人耳所需參數(shù)少，具有簡(jiǎn)單的沖激響應(yīng)表達(dá)式[2]，之后Gammatone濾波器被廣泛應(yīng)用于模擬聽(tīng)覺(jué)的頻響性質(zhì)，其時(shí)域形式如下

g(f,t)=ctm-1e-2πntcos(2πft+φ),t≥0

(3)

式中：f表示中心頻率，c表示對(duì)應(yīng)濾波器的增益，m為濾波器所選階數(shù)，φ為相位，衰減因子n與中心頻率f關(guān)系如式(4)

n=24.7(4.37f/1000+1)

(4)

GFCC是基于Gammatone濾波器提取的一種語(yǔ)音參數(shù)，語(yǔ)音信號(hào)是隨時(shí)間改變的信號(hào)，傳統(tǒng)的GFCC提取將信號(hào)直接經(jīng)過(guò)FFT，設(shè)定信號(hào)在短時(shí)間內(nèi)是近似不變的，沒(méi)有體現(xiàn)出信號(hào)的非線(xiàn)性、非平穩(wěn)性，忽略了部分信息；VGFCC的提取先通過(guò)VMD分解信號(hào)再進(jìn)行FFT，準(zhǔn)確地反映了信號(hào)的局部特性，可以得到更全面的語(yǔ)音信號(hào)情感特征。VGFCC的詳細(xì)計(jì)算過(guò)程分5步：

(1)預(yù)處理：將語(yǔ)音信號(hào)x(n)經(jīng)過(guò)預(yù)加重、分幀、加窗(漢明窗)后為x′(n)；

(2)VMD分解后進(jìn)行FFT：經(jīng)過(guò)VMD分解x′(n)為K個(gè)IMF分量{uk={u1,u2,…,uK，對(duì)所有IMF分量進(jìn)行FFT

(5)

其中，N是傅里葉變換點(diǎn)數(shù)，r表示每幀信號(hào)的點(diǎn)數(shù)，k=1,2,…,K；

(3)頻率合成：對(duì)IMF分量的頻譜幅度Xk(r) 取模平方得到信號(hào)的能量譜

圖3 EMD、LMD、VMD分解語(yǔ)音信號(hào)對(duì)比

(6)

將各個(gè)頻段相加

(7)

(4)濾波后求對(duì)數(shù)能量：S(r)通過(guò)Gammatone濾波器進(jìn)行濾波，最后對(duì)頻譜能量取對(duì)數(shù)

(8)

式中：m代表濾波器通道號(hào)，CH是通道總數(shù)，l代表濾波器階數(shù)，L一般取12～16；

(5)計(jì)算VGFCC：將上一步中的E(m)做離散余弦變換，可得系數(shù)

(9)

對(duì)所得系數(shù)求最大值、最小值、平均值、標(biāo)準(zhǔn)差、中值5種統(tǒng)計(jì)參數(shù)即為VGFCC。

2 實(shí)驗(yàn)與結(jié)果分析

2.1 情感語(yǔ)音數(shù)據(jù)庫(kù)

選取由柏林工業(yè)大學(xué)錄制的德語(yǔ)EMO-DB與太原理工大學(xué)信息與計(jì)算機(jī)學(xué)院數(shù)字音視頻實(shí)驗(yàn)室錄制的漢語(yǔ)TYUT2.0作為數(shù)據(jù)庫(kù)進(jìn)行實(shí)驗(yàn)，詳細(xì)情況見(jiàn)表2和表3。

表2 EMO-DB實(shí)驗(yàn)數(shù)據(jù)庫(kù)

表3 TYUT2.0實(shí)驗(yàn)數(shù)據(jù)庫(kù)

2.2 特征

提取特征VGFCC，EGFCC(基于EMD改進(jìn)GFCC)與LGFCC(基于LMD改進(jìn)GFCC)，同時(shí)提取傳統(tǒng)的語(yǔ)音特征對(duì)比驗(yàn)證所提改進(jìn)特征的可行性。特征詳細(xì)介紹見(jiàn)表4。

2.3 識(shí)別網(wǎng)絡(luò)

識(shí)別網(wǎng)絡(luò)為常見(jiàn)的SVM，其核函數(shù)的選擇對(duì)于性能的表現(xiàn)有至關(guān)重要的作用，徑向基核函數(shù)(radial basis func-tion，RBF)是一種局部性強(qiáng)的核函數(shù)，可以實(shí)現(xiàn)將一個(gè)樣本映射到一個(gè)更高維的空間內(nèi)，應(yīng)用較廣，無(wú)論樣本大小都有較好的性能，因此本文選用RBF作為SVM的核函數(shù)。

表4 語(yǔ)音情感特征及其統(tǒng)計(jì)參數(shù)

2.4 情感識(shí)別

為了說(shuō)明VGFCC新特征的優(yōu)勢(shì)，設(shè)計(jì)以下實(shí)驗(yàn)進(jìn)行論證。

2.4.1 對(duì)比不同信號(hào)分解方法改進(jìn)的GFCC

分別采用EMD、LMD與VMD這3種不同的信號(hào)分解方法處理情感語(yǔ)音信號(hào)之后提取GFCC，通過(guò)SVM分類(lèi)器分別對(duì)兩種語(yǔ)音庫(kù)中的不同情感進(jìn)行識(shí)別，實(shí)驗(yàn)結(jié)果見(jiàn)表5。

表5 與不同改進(jìn)特征比較的識(shí)別結(jié)果

從表5中可以看出：

(1)無(wú)論是EMO-DB還是TYUT2.0語(yǔ)音庫(kù)，所提新特征VGFCC的識(shí)別效果均是最優(yōu)的；相比于傳統(tǒng)的GFCC識(shí)別率有了顯著的提高，說(shuō)明通過(guò)信號(hào)分解方法可以有效解決傳統(tǒng)信號(hào)處理中忽略語(yǔ)音非線(xiàn)性、非平穩(wěn)性的問(wèn)題，更全面地捕捉語(yǔ)音中所包含的信息；

(2)與EGFCC、LGFCC相比，VGFCC識(shí)別效果更好，進(jìn)一步驗(yàn)證相比于EMD、LMD，VMD可以更有效地處理非線(xiàn)性、非穩(wěn)態(tài)的情感語(yǔ)音信號(hào)，分解信號(hào)具有更好的自適應(yīng)性。

2.4.2 對(duì)比VGFCC與傳統(tǒng)語(yǔ)音特征

提取韻律、非線(xiàn)性幾何、非線(xiàn)性屬性、MFCC這4種傳統(tǒng)的語(yǔ)音特征與改進(jìn)的新特征VGFCC，采用SVM進(jìn)行分類(lèi)，結(jié)果見(jiàn)表6。

表6 與傳統(tǒng)語(yǔ)音特征比較的識(shí)別結(jié)果

由表6可知兩種語(yǔ)音庫(kù)中，相比于傳統(tǒng)的語(yǔ)音特征，改進(jìn)的新特征VGFCC總能得到最高的識(shí)別率，傳統(tǒng)特征中表達(dá)情感效果最好的是MFCC，在EMO-DB語(yǔ)音庫(kù)中，VGFCC比MFCC提高了5.48%，在TYUT2.0語(yǔ)音庫(kù)中，VGFCC比MFCC提高了5.06%。

為了充分驗(yàn)證VGFCC的有效性，圖4和圖5分別是兩種語(yǔ)音庫(kù)中每一種情感的識(shí)別率，圖中觀察可得：無(wú)論是EMO-DB語(yǔ)音庫(kù)中的6種情感還是TYUT2.0語(yǔ)音庫(kù)中的4種情感，相比于傳統(tǒng)的語(yǔ)音特征，VGFCC對(duì)于每一類(lèi)情感的識(shí)別結(jié)果均是最優(yōu)的，與表6的實(shí)驗(yàn)結(jié)果是一致的。

圖4 不同情感在EMO-DB中的識(shí)別率

圖5 不同情感在TYUT2.0中的識(shí)別率

3 結(jié)束語(yǔ)

本文提出一種基于VMD改進(jìn)GFCC——VGFCC情感語(yǔ)音特征的提取方法，通過(guò)VMD分解信號(hào)可以準(zhǔn)確表現(xiàn)情感語(yǔ)音信號(hào)的非線(xiàn)性、非穩(wěn)態(tài)特性。選用EMD-DB與TYUT 2.0兩種語(yǔ)音庫(kù)，以常用的支持向量機(jī)作為分類(lèi)器進(jìn)行實(shí)驗(yàn)對(duì)比驗(yàn)證所提新特征的有效性，實(shí)驗(yàn)結(jié)果表明：兩種語(yǔ)音庫(kù)中，VGFCC識(shí)別效果均優(yōu)于傳統(tǒng)的語(yǔ)音特征、GFCC、EGFCC和LGFCC，是一種有效的情感特征。目前關(guān)于情感語(yǔ)音跨庫(kù)識(shí)別的效果不好，下一步計(jì)劃尋找性能更好的識(shí)別算法，結(jié)合本文所提出的識(shí)別效果較好的VGFCC特征構(gòu)造一個(gè)完整的識(shí)別系統(tǒng)以提高跨庫(kù)語(yǔ)音的情感識(shí)別率。