劉雨柔,張雪英,陳桂軍,黃麗霞,張 靜
(太原理工大學(xué) 信息與計(jì)算機(jī)學(xué)院,山西 太原 030024)
語(yǔ)音情感識(shí)別是人工智能領(lǐng)域的一個(gè)重要分支,主要分為預(yù)處理、特征提取、識(shí)別模型3個(gè)部分,提取能有效表達(dá)情感信息的特征對(duì)識(shí)別結(jié)果起著關(guān)鍵的作用。目前應(yīng)用最廣泛的特征是Mel頻率倒譜系數(shù)(Mel-frequency cepstral coefficients,MFCC),研究發(fā)現(xiàn)MFCC提取過(guò)程中存在兩個(gè)問(wèn)題,一方面利用三角形濾波器組會(huì)出現(xiàn)相鄰頻帶間能量的泄露,不利于反映共振峰特性,另一方面頻帶的劃分是以中心頻率按照Mel尺度均勻分布為前提,與聽(tīng)覺(jué)特性中臨界帶寬概念不完全相符[1]。文獻(xiàn)[2]指出MFCC在用于識(shí)別時(shí)若無(wú)干擾則識(shí)別效果很好,但在噪聲干擾條件下識(shí)別效果急劇下降。Gammatone濾波器組能有效模擬人耳的頻譜分析與頻率選擇特性,而且具有很強(qiáng)的抗噪性[3]。文獻(xiàn)[4]在說(shuō)話(huà)人識(shí)別系統(tǒng)中選用由Gammatone濾波器代替Mel尺度的三角形濾波器組提取的Gammatone頻率倒譜系數(shù)(Gammatone frequency cepstral coefficients,GFCC),結(jié)果表明其識(shí)別率與魯棒性均優(yōu)于MFCC。傳統(tǒng)的MFCC、GFCC忽略了信號(hào)本身非線(xiàn)性、非穩(wěn)態(tài)特性,不能全面地獲取語(yǔ)音中的情感信息。經(jīng)驗(yàn)?zāi)J椒纸?empirical mode decomposition,EMD)是一種能有效處理非線(xiàn)性、非平穩(wěn)信號(hào)的技術(shù),可以用于解決上述問(wèn)題。屠彬彬等提出一種基于EMD改進(jìn)MFCC的新特征用于語(yǔ)音情感識(shí)別,相比傳統(tǒng)的MFCC識(shí)別率提高了3.26%[5],但是EMD會(huì)出現(xiàn)波形混疊現(xiàn)象。文獻(xiàn)[6]提出一種能夠有效抑制模態(tài)混疊現(xiàn)象的信號(hào)分解方法——變分模態(tài)分解。文獻(xiàn)[7-9]研究結(jié)果表明,與EMD算法的分解結(jié)果相比,VMD不僅去噪效果好,而且可以準(zhǔn)確地分解出不同頻率段的信號(hào)。
VMD可以解決語(yǔ)音信號(hào)的非線(xiàn)性、非穩(wěn)態(tài)問(wèn)題,GFCC具有較好的噪聲魯棒性,因此本文將VMD算法與GFCC特征相結(jié)合,得到一種VMD改進(jìn)GFCC的新特征——VGFCC用于語(yǔ)音情感識(shí)別,并通過(guò)實(shí)驗(yàn)驗(yàn)證其有效性。
語(yǔ)音情感識(shí)別是一項(xiàng)利用計(jì)算機(jī)提取說(shuō)話(huà)者語(yǔ)音中的特征參數(shù),并將其通過(guò)識(shí)別模型對(duì)說(shuō)話(huà)者的情感狀態(tài)進(jìn)行判別的技術(shù)。本文所提新特征VGFCC的提取識(shí)別系統(tǒng)框架如圖1所示。
圖1 VGFCC提取識(shí)別系統(tǒng)框架
2014年由K.Dragomiretskiy等提出一種不同于經(jīng)驗(yàn)?zāi)B(tài)分解、局部均值分解(local mean decomposition,LMD)的信號(hào)分解方法——變分模態(tài)分解[6]。VMD算法核心是通過(guò)迭代搜索獲取約束變分模型的最優(yōu)解,自動(dòng)獲取固有模態(tài)函數(shù)的中心頻率及帶寬。信號(hào)f的約束變分模型可用式(1)表示
(1)
式中:K代表分解的IMF個(gè)數(shù),{uk={u1,u2,…,uK表示IMF分量集;{ωk={ω1,ω2,…,ωK是IMF分量集對(duì)應(yīng)的中心頻率集。
為獲取式(1)最優(yōu)解,引入二次懲罰因子α降低噪聲干擾,通過(guò)拉格朗日乘子λ保持約束的嚴(yán)格性,約束變分問(wèn)題轉(zhuǎn)為非約束變分問(wèn)題[10]
(2)
圖2 VMD迭代運(yùn)算流程
VMD分解所得的固有模態(tài)函數(shù)分量的中心頻率值從低到高分布,IMF分量個(gè)數(shù)K從1開(kāi)始取值,如最后一個(gè)IMF的中心頻率第一次達(dá)到最大值,則代表未出現(xiàn)分解不足的問(wèn)題,K值逐漸遞增,直至最大的中心頻率保持相對(duì)穩(wěn)定,即可認(rèn)定此時(shí)的K值為最恰當(dāng)?shù)姆纸鈧€(gè)數(shù)[11]。表1是根據(jù)情感語(yǔ)句分解得到的各IMF中心頻率,K=7時(shí)頻率最大值最小值基本保持不變,因此確定K的最佳值為7。
表1 各IMF分量的中心頻率/Hz
圖3為EMD、LMD與VMD這3種不同的信號(hào)分解方法對(duì)EMO-DB中隨機(jī)選取語(yǔ)音的分解結(jié)果,觀察可得:3種分解方法都存在不同程度的端點(diǎn)效應(yīng)導(dǎo)致分解信號(hào)波形失真的問(wèn)題,但VMD分解的IMF1與原信號(hào)最相似,具有較好的魯棒性,分解效果優(yōu)于其它兩種方法。
通過(guò)研究人的聽(tīng)覺(jué)特性發(fā)現(xiàn),耳蝸相當(dāng)于一個(gè)濾波器組,很多學(xué)者對(duì)此深入研究并取得了一定成果,Lyon提出共振峰濾波器[12],Patterson等提出Roex函數(shù)濾波器[13],但是共振濾波器不具備非線(xiàn)性特性且無(wú)法主動(dòng)反饋,Roex濾波器難以用簡(jiǎn)單的沖激響應(yīng)函數(shù)表示。1972年Johannesma提出Gammatone(GT)濾波器模型模擬人耳所需參數(shù)少,具有簡(jiǎn)單的沖激響應(yīng)表達(dá)式[2],之后Gammatone濾波器被廣泛應(yīng)用于模擬聽(tīng)覺(jué)的頻響性質(zhì),其時(shí)域形式如下
g(f,t)=ctm-1e-2πntcos(2πft+φ),t≥0
(3)
式中:f表示中心頻率,c表示對(duì)應(yīng)濾波器的增益,m為濾波器所選階數(shù),φ為相位,衰減因子n與中心頻率f關(guān)系如式(4)
n=24.7(4.37f/1000+1)
(4)
GFCC是基于Gammatone濾波器提取的一種語(yǔ)音參數(shù),語(yǔ)音信號(hào)是隨時(shí)間改變的信號(hào),傳統(tǒng)的GFCC提取將信號(hào)直接經(jīng)過(guò)FFT,設(shè)定信號(hào)在短時(shí)間內(nèi)是近似不變的,沒(méi)有體現(xiàn)出信號(hào)的非線(xiàn)性、非平穩(wěn)性,忽略了部分信息;VGFCC的提取先通過(guò)VMD分解信號(hào)再進(jìn)行FFT,準(zhǔn)確地反映了信號(hào)的局部特性,可以得到更全面的語(yǔ)音信號(hào)情感特征。VGFCC的詳細(xì)計(jì)算過(guò)程分5步:
(1)預(yù)處理:將語(yǔ)音信號(hào)x(n)經(jīng)過(guò)預(yù)加重、分幀、加窗(漢明窗)后為x′(n);
(2)VMD分解后進(jìn)行FFT:經(jīng)過(guò)VMD分解x′(n)為K個(gè)IMF分量{uk={u1,u2,…,uK,對(duì)所有IMF分量進(jìn)行FFT
(5)
其中,N是傅里葉變換點(diǎn)數(shù),r表示每幀信號(hào)的點(diǎn)數(shù),k=1,2,…,K;
(3)頻率合成:對(duì)IMF分量的頻譜幅度Xk(r) 取模平方得到信號(hào)的能量譜
圖3 EMD、LMD、VMD分解語(yǔ)音信號(hào)對(duì)比
(6)
將各個(gè)頻段相加
(7)
(4)濾波后求對(duì)數(shù)能量:S(r)通過(guò)Gammatone濾波器進(jìn)行濾波,最后對(duì)頻譜能量取對(duì)數(shù)
(8)
式中:m代表濾波器通道號(hào),CH是通道總數(shù),l代表濾波器階數(shù),L一般取12~16;
(5)計(jì)算VGFCC:將上一步中的E(m)做離散余弦變換,可得系數(shù)
(9)
對(duì)所得系數(shù)求最大值、最小值、平均值、標(biāo)準(zhǔn)差、中值5種統(tǒng)計(jì)參數(shù)即為VGFCC。
選取由柏林工業(yè)大學(xué)錄制的德語(yǔ)EMO-DB與太原理工大學(xué)信息與計(jì)算機(jī)學(xué)院數(shù)字音視頻實(shí)驗(yàn)室錄制的漢語(yǔ)TYUT2.0作為數(shù)據(jù)庫(kù)進(jìn)行實(shí)驗(yàn),詳細(xì)情況見(jiàn)表2和表3。
表2 EMO-DB實(shí)驗(yàn)數(shù)據(jù)庫(kù)
表3 TYUT2.0實(shí)驗(yàn)數(shù)據(jù)庫(kù)
提取特征VGFCC,EGFCC(基于EMD改進(jìn)GFCC)與LGFCC(基于LMD改進(jìn)GFCC),同時(shí)提取傳統(tǒng)的語(yǔ)音特征對(duì)比驗(yàn)證所提改進(jìn)特征的可行性。特征詳細(xì)介紹見(jiàn)表4。
識(shí)別網(wǎng)絡(luò)為常見(jiàn)的SVM,其核函數(shù)的選擇對(duì)于性能的表現(xiàn)有至關(guān)重要的作用,徑向基核函數(shù)(radial basis func-tion,RBF)是一種局部性強(qiáng)的核函數(shù),可以實(shí)現(xiàn)將一個(gè)樣本映射到一個(gè)更高維的空間內(nèi),應(yīng)用較廣,無(wú)論樣本大小都有較好的性能,因此本文選用RBF作為SVM的核函數(shù)。
表4 語(yǔ)音情感特征及其統(tǒng)計(jì)參數(shù)
為了說(shuō)明VGFCC新特征的優(yōu)勢(shì),設(shè)計(jì)以下實(shí)驗(yàn)進(jìn)行論證。
2.4.1 對(duì)比不同信號(hào)分解方法改進(jìn)的GFCC
分別采用EMD、LMD與VMD這3種不同的信號(hào)分解方法處理情感語(yǔ)音信號(hào)之后提取GFCC,通過(guò)SVM分類(lèi)器分別對(duì)兩種語(yǔ)音庫(kù)中的不同情感進(jìn)行識(shí)別,實(shí)驗(yàn)結(jié)果見(jiàn)表5。
表5 與不同改進(jìn)特征比較的識(shí)別結(jié)果
從表5中可以看出:
(1)無(wú)論是EMO-DB還是TYUT2.0語(yǔ)音庫(kù),所提新特征VGFCC的識(shí)別效果均是最優(yōu)的;相比于傳統(tǒng)的GFCC識(shí)別率有了顯著的提高,說(shuō)明通過(guò)信號(hào)分解方法可以有效解決傳統(tǒng)信號(hào)處理中忽略語(yǔ)音非線(xiàn)性、非平穩(wěn)性的問(wèn)題,更全面地捕捉語(yǔ)音中所包含的信息;
(2)與EGFCC、LGFCC相比,VGFCC識(shí)別效果更好,進(jìn)一步驗(yàn)證相比于EMD、LMD,VMD可以更有效地處理非線(xiàn)性、非穩(wěn)態(tài)的情感語(yǔ)音信號(hào),分解信號(hào)具有更好的自適應(yīng)性。
2.4.2 對(duì)比VGFCC與傳統(tǒng)語(yǔ)音特征
提取韻律、非線(xiàn)性幾何、非線(xiàn)性屬性、MFCC這4種傳統(tǒng)的語(yǔ)音特征與改進(jìn)的新特征VGFCC,采用SVM進(jìn)行分類(lèi),結(jié)果見(jiàn)表6。
表6 與傳統(tǒng)語(yǔ)音特征比較的識(shí)別結(jié)果
由表6可知兩種語(yǔ)音庫(kù)中,相比于傳統(tǒng)的語(yǔ)音特征,改進(jìn)的新特征VGFCC總能得到最高的識(shí)別率,傳統(tǒng)特征中表達(dá)情感效果最好的是MFCC,在EMO-DB語(yǔ)音庫(kù)中,VGFCC比MFCC提高了5.48%,在TYUT2.0語(yǔ)音庫(kù)中,VGFCC比MFCC提高了5.06%。
為了充分驗(yàn)證VGFCC的有效性,圖4和圖5分別是兩種語(yǔ)音庫(kù)中每一種情感的識(shí)別率,圖中觀察可得:無(wú)論是EMO-DB語(yǔ)音庫(kù)中的6種情感還是TYUT2.0語(yǔ)音庫(kù)中的4種情感,相比于傳統(tǒng)的語(yǔ)音特征,VGFCC對(duì)于每一類(lèi)情感的識(shí)別結(jié)果均是最優(yōu)的,與表6的實(shí)驗(yàn)結(jié)果是一致的。
圖4 不同情感在EMO-DB中的識(shí)別率
圖5 不同情感在TYUT2.0中的識(shí)別率
本文提出一種基于VMD改進(jìn)GFCC——VGFCC情感語(yǔ)音特征的提取方法,通過(guò)VMD分解信號(hào)可以準(zhǔn)確表現(xiàn)情感語(yǔ)音信號(hào)的非線(xiàn)性、非穩(wěn)態(tài)特性。選用EMD-DB與TYUT 2.0兩種語(yǔ)音庫(kù),以常用的支持向量機(jī)作為分類(lèi)器進(jìn)行實(shí)驗(yàn)對(duì)比驗(yàn)證所提新特征的有效性,實(shí)驗(yàn)結(jié)果表明:兩種語(yǔ)音庫(kù)中,VGFCC識(shí)別效果均優(yōu)于傳統(tǒng)的語(yǔ)音特征、GFCC、EGFCC和LGFCC,是一種有效的情感特征。目前關(guān)于情感語(yǔ)音跨庫(kù)識(shí)別的效果不好,下一步計(jì)劃尋找性能更好的識(shí)別算法,結(jié)合本文所提出的識(shí)別效果較好的VGFCC特征構(gòu)造一個(gè)完整的識(shí)別系統(tǒng)以提高跨庫(kù)語(yǔ)音的情感識(shí)別率。