趙義正
(合肥電子工程學(xué)院,安徽 合肥 230037)
語音轉(zhuǎn)換是指改變一個(gè)說話人(源說話人)的語音個(gè)性特征,使之具有另外一個(gè)說話人(目標(biāo)說話人)的語音個(gè)性特征。語音轉(zhuǎn)換技術(shù)的主要應(yīng)用場(chǎng)合包括計(jì)算機(jī)語音合成、計(jì)算機(jī)語音翻譯、語音編輯、廣播及多媒體等方面?,F(xiàn)階段對(duì)語音的轉(zhuǎn)換主要包含對(duì)韻律和譜包絡(luò)的轉(zhuǎn)換。譜包絡(luò)轉(zhuǎn)換方法有很多種,其中以基于高斯混合模型(GMM)[1]的映射方法效果最好,也是當(dāng)前的主流方法。但是基于GMM的譜包絡(luò)轉(zhuǎn)換存在一個(gè)嚴(yán)重缺陷,即導(dǎo)致轉(zhuǎn)換頻譜的過平滑[2-4]。它會(huì)造成轉(zhuǎn)換頻譜的共振峰峰值特性下降,造成轉(zhuǎn)換語音的聽覺感知特性下降,影響轉(zhuǎn)換效果。
對(duì)于造成過平滑的原因,一種觀點(diǎn)(Toda)[4]認(rèn)為,過平滑是由GMM模型中的統(tǒng)計(jì)平均運(yùn)算造成的,另一種觀點(diǎn)認(rèn)為過平滑是由于轉(zhuǎn)換函數(shù)中GMM的協(xié)方差估計(jì)不準(zhǔn)確造成的[5],參考文獻(xiàn)[6]認(rèn)為過平滑主要是由于轉(zhuǎn)換函數(shù)中的相關(guān)項(xiàng)引起的,并針對(duì)相關(guān)項(xiàng)進(jìn)行改進(jìn)以抑制過平滑現(xiàn)象。
由于GMM轉(zhuǎn)換的特征可以分為均值項(xiàng)和相關(guān)項(xiàng)兩部分,本文研究發(fā)現(xiàn),過平滑產(chǎn)生是由兩者共同導(dǎo)致的,而且均值項(xiàng)的影響更大。因此提出一種基于修正均值的語音轉(zhuǎn)換方法,可更好地抑制過平滑現(xiàn)象。
基于高斯混合模型的語音轉(zhuǎn)換方法的轉(zhuǎn)換函數(shù)可表示為:
式(1)可以改寫成以下形式:
轉(zhuǎn)換后的頻譜之所以會(huì)出現(xiàn)過平滑現(xiàn)象,是因?yàn)檗D(zhuǎn)換特征的離散程度較低,本文采用標(biāo)準(zhǔn)差來度量語音特征的離散度。為了分析均值項(xiàng)和相關(guān)項(xiàng)對(duì)轉(zhuǎn)換特征標(biāo)準(zhǔn)差的影響,圖1給出不同特征維數(shù)的目標(biāo)語音、GMM轉(zhuǎn)換均值項(xiàng)和相關(guān)項(xiàng)的標(biāo)準(zhǔn)差分布,圖中GMM-mu表示均值項(xiàng),GMM-sigma表示相關(guān)項(xiàng)。
圖1 不同維數(shù)轉(zhuǎn)換特征標(biāo)準(zhǔn)差
從圖1可見,均值項(xiàng)和相關(guān)項(xiàng)的標(biāo)準(zhǔn)差與目標(biāo)語音特征相比都很小,意味著均值項(xiàng)和相關(guān)項(xiàng)都會(huì)導(dǎo)致過平滑現(xiàn)象。還可看出,相關(guān)項(xiàng)的標(biāo)準(zhǔn)差比均值項(xiàng)的要小,說明相關(guān)項(xiàng)的離散程度相對(duì)更低,以往文獻(xiàn)就此認(rèn)為相關(guān)項(xiàng)是導(dǎo)致過平滑現(xiàn)象的主要原因。而本文認(rèn)為,由于該結(jié)論沒有考慮到相關(guān)項(xiàng)和均值項(xiàng)在轉(zhuǎn)換函數(shù)中所占的比例,因此并不能得出該結(jié)論。事實(shí)上,相關(guān)項(xiàng)在轉(zhuǎn)換函數(shù)中的數(shù)值一般都很小[2]。
圖2給出了均值項(xiàng)和相關(guān)項(xiàng)的標(biāo)準(zhǔn)差變化對(duì)轉(zhuǎn)換特征標(biāo)準(zhǔn)差的影響。當(dāng)均值項(xiàng)和相關(guān)項(xiàng)各自增加相同比例時(shí),均值項(xiàng)所造成的轉(zhuǎn)換特征標(biāo)準(zhǔn)差的增加量要明顯大于相關(guān)項(xiàng)造成的增加量。而且隨著變化量的增大,差距逐漸增大,這說明均值項(xiàng)標(biāo)準(zhǔn)差的變化對(duì)整個(gè)轉(zhuǎn)換特征標(biāo)準(zhǔn)差的影響更大。因此若能減小均值項(xiàng)的標(biāo)準(zhǔn)差就能降低整個(gè)轉(zhuǎn)換特征的標(biāo)準(zhǔn)差,有效抑制過平滑現(xiàn)象。
本文研究發(fā)現(xiàn),碼本映射法所獲得的特征都是來自特征空間,且轉(zhuǎn)換過程不包含平均化處理,因此轉(zhuǎn)換特征的離散性更好。本文將其與GMM方法結(jié)合起來,先使用碼本映射法對(duì)均值項(xiàng)進(jìn)行修正,然后將修正結(jié)果與GMM方法的轉(zhuǎn)換結(jié)果相結(jié)合,得到最終轉(zhuǎn)換結(jié)果。由于是對(duì)均值項(xiàng)進(jìn)行修改,所以稱為修正均值法(Rmu-GMM)。整個(gè)轉(zhuǎn)換過程分為訓(xùn)練和轉(zhuǎn)換兩個(gè)階段。
圖2 均值項(xiàng)和相關(guān)項(xiàng)標(biāo)準(zhǔn)差變化比較
訓(xùn)練階段:
(1)訓(xùn)練 GMM模型,得到模型參數(shù)和式(1)中的轉(zhuǎn)換函數(shù);
(2)根據(jù)模型參數(shù)得到用于碼本訓(xùn)練的均值項(xiàng),該均值項(xiàng)等于總特征減去它們的相關(guān)部分。對(duì)齊的源與目標(biāo)特征 z=[x,y]的均值項(xiàng)為:
(3)對(duì)均值項(xiàng)建立碼本映射規(guī)則 Fμ,利用統(tǒng)計(jì)直方圖建立兩者的加權(quán)轉(zhuǎn)換關(guān)系。
轉(zhuǎn)換階段:
(1)對(duì)于要轉(zhuǎn)換的特征矢量 x,使用 GMM轉(zhuǎn)換函數(shù)式(2)得到轉(zhuǎn)換特征相關(guān)項(xiàng)與均值項(xiàng)如下:
(2)計(jì)算得到用于碼本映射的均值項(xiàng),稱為修正項(xiàng):
利用訓(xùn)練階段得到 Fμ的重新對(duì) xμ進(jìn)行轉(zhuǎn)換,得到碼本映射法轉(zhuǎn)換后的均值項(xiàng):
(3)結(jié)合從步驟(1)得到的均值項(xiàng)和相關(guān)項(xiàng),得到最終的轉(zhuǎn)換函數(shù)為:
其中,參數(shù)λ用于調(diào)節(jié)GMM法與碼本映射法所占比重,λ=0時(shí)表示僅使用 GMM法,λ=1時(shí)表示均值項(xiàng)全由碼本映射轉(zhuǎn)換所得,且相關(guān)項(xiàng)為GMM轉(zhuǎn)換所得。
采用修正均值法的語音轉(zhuǎn)換原理如圖3所示。整個(gè)轉(zhuǎn)換過程分為訓(xùn)練和轉(zhuǎn)換兩個(gè)階段,在訓(xùn)練階段除了訓(xùn)練原有轉(zhuǎn)換函數(shù),還需要為碼本映射法訓(xùn)練一個(gè)碼本映射準(zhǔn)則。轉(zhuǎn)換階段通過轉(zhuǎn)換函數(shù)首先對(duì)特征矢量進(jìn)行轉(zhuǎn)換,得到均值項(xiàng)、相關(guān)項(xiàng)與修正項(xiàng)三部分,利用碼本映射準(zhǔn)則對(duì)修正項(xiàng)進(jìn)行轉(zhuǎn)換,最后通過λ的加權(quán)與其他兩部分組成最終的轉(zhuǎn)換特征。
圖3 采用修正均值法的語音轉(zhuǎn)換原理框圖
實(shí)驗(yàn)中采用通用語音庫中的語音數(shù)據(jù),特征參數(shù)為16維LSF矢量,訓(xùn)練特征為19 282幀,GMM階數(shù)為32階,測(cè)試特征為4 000幀,協(xié)方差矩陣為對(duì)角協(xié)方差陣,采用Kain的訓(xùn)練方法。
采用客觀評(píng)價(jià)法衡量轉(zhuǎn)換后的譜與目標(biāo)譜之間的相似性,并采用一種常用的相似度評(píng)價(jià)標(biāo)準(zhǔn):
其中,M是LSF矢量的個(gè)數(shù),p是LSF階數(shù)。m和i表示第 m 幀 LSF 矢 量的第 i維,t(n),t?(n),s(n)分別 為目標(biāo)語音、轉(zhuǎn)換后語音和源語音的特征矢量??陀^評(píng)測(cè)中,PLSF得分越高,表示轉(zhuǎn)換頻譜與目標(biāo)譜越相似。
實(shí)驗(yàn)一:λ的取值
圖4給出了λ的不同取值在各種GMM混合數(shù)目下的性能比較。從圖中可見,各混合數(shù)目下LSF得分先隨λ的增大而提高,然后又隨著λ的增大而降低。而且,混合數(shù)目越少,LSF達(dá)到最大值時(shí)對(duì)應(yīng)的λ越大。這說明混合數(shù)目較少時(shí)GMM法的效果不如碼本映射法,需要較大的λ使得碼本映射轉(zhuǎn)換的部分特征在總體中所占比例較大。隨著GMM階數(shù)的提高,達(dá)到最大值時(shí)所需的λ較小。
實(shí)驗(yàn)二:轉(zhuǎn)換方法性能比較
表1給出了GMM法、參考文獻(xiàn)[6]中的混合法(mix-GMM)和本文的修正均值法 (Rmu-GMM)這三種方法LSF得分的比較。從表中可見,在各種混合數(shù)目下,修正均值法的LSF得分都好于GMM法和混合法,說明修正均值法對(duì)總體特征的改善更好。從表1中還可看出,混合數(shù)目增加到一定程度后,導(dǎo)致訓(xùn)練數(shù)據(jù)出現(xiàn)過適應(yīng),性能反而下降。因此在實(shí)際應(yīng)用中,混合數(shù)目應(yīng)根據(jù)實(shí)際情況確定。
圖4 不同λ值對(duì)應(yīng)的LSF得分
表1 GMM法、mix-GMM與Rmu-GMM的LSF得分比較
基于GMM的語音轉(zhuǎn)換方法是當(dāng)前語音轉(zhuǎn)換采用的主流方法,但其最大不足是導(dǎo)致轉(zhuǎn)換特征的過平滑,影響轉(zhuǎn)換效果。本文對(duì)此進(jìn)行了研究,發(fā)現(xiàn)GMM轉(zhuǎn)換函數(shù)中的均值項(xiàng)與相關(guān)項(xiàng)標(biāo)準(zhǔn)差過小共同導(dǎo)致了過平滑現(xiàn)象,而均值項(xiàng)對(duì)轉(zhuǎn)換特征的過平滑有著更大的影響。為改善均值項(xiàng)標(biāo)準(zhǔn)差,本文提出一種修正均值法,實(shí)驗(yàn)結(jié)果表明了該方法相對(duì)于其他方法的優(yōu)越性。該方法可應(yīng)用于計(jì)算機(jī)語音合成、計(jì)算機(jī)語音翻譯、語音編輯、廣播及多媒體等領(lǐng)域。
[1]BENISTY H,MALAH D.Voice conversion using GMM with enhanced global variance[C].INTERSPEECH 2011:669-672.
[2]HELANDER E, VIRTANENT, NURMINENJ, etal.Voice conversion using partial least squares regression[J].IEEE Transactions on Audio, Speech, and Language Processing, 2010, 18(5): 912-921.
[3]DESAI S, BLACK A W, YEGNANARAYANA B, et al.Voice conversion using artificial neural networks[C].ICASSP 2009:3893-3896.
[4]呂聲,尹俊勛.基于高斯混合模型和殘差預(yù)測(cè)的說話人轉(zhuǎn)換系統(tǒng)[J].電聲技術(shù),2004,33(4):3-4.
[5]Chen Yining,Chu Min.Voice conversion with smoothed GMM and MAP adaption[C].Geneva, Switzerland: Proceedings of Eurospeech.2003:2413-2416.
[6]康永國(guó),雙志偉.基于混合映射模型的語音轉(zhuǎn)換算法研究[J].聲學(xué)學(xué)報(bào),2006,31(6):555-562.