亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種改進(jìn)高斯混合模型均值項(xiàng)的語音轉(zhuǎn)換方法

2012-08-08 00:51:34趙義正

網(wǎng)絡(luò)安全與數(shù)據(jù)管理 2012年19期

關(guān)鍵詞：特征模型

趙義正

（合肥電子工程學(xué)院，安徽合肥 230037）

語音轉(zhuǎn)換是指改變一個(gè)說話人（源說話人）的語音個(gè)性特征，使之具有另外一個(gè)說話人（目標(biāo)說話人）的語音個(gè)性特征。語音轉(zhuǎn)換技術(shù)的主要應(yīng)用場(chǎng)合包括計(jì)算機(jī)語音合成、計(jì)算機(jī)語音翻譯、語音編輯、廣播及多媒體等方面?，F(xiàn)階段對(duì)語音的轉(zhuǎn)換主要包含對(duì)韻律和譜包絡(luò)的轉(zhuǎn)換。譜包絡(luò)轉(zhuǎn)換方法有很多種，其中以基于高斯混合模型（GMM）[1]的映射方法效果最好，也是當(dāng)前的主流方法。但是基于GMM的譜包絡(luò)轉(zhuǎn)換存在一個(gè)嚴(yán)重缺陷，即導(dǎo)致轉(zhuǎn)換頻譜的過平滑[2-4]。它會(huì)造成轉(zhuǎn)換頻譜的共振峰峰值特性下降，造成轉(zhuǎn)換語音的聽覺感知特性下降，影響轉(zhuǎn)換效果。

對(duì)于造成過平滑的原因，一種觀點(diǎn)（Toda）[4]認(rèn)為，過平滑是由GMM模型中的統(tǒng)計(jì)平均運(yùn)算造成的，另一種觀點(diǎn)認(rèn)為過平滑是由于轉(zhuǎn)換函數(shù)中GMM的協(xié)方差估計(jì)不準(zhǔn)確造成的[5]，參考文獻(xiàn)[6]認(rèn)為過平滑主要是由于轉(zhuǎn)換函數(shù)中的相關(guān)項(xiàng)引起的，并針對(duì)相關(guān)項(xiàng)進(jìn)行改進(jìn)以抑制過平滑現(xiàn)象。

由于GMM轉(zhuǎn)換的特征可以分為均值項(xiàng)和相關(guān)項(xiàng)兩部分，本文研究發(fā)現(xiàn)，過平滑產(chǎn)生是由兩者共同導(dǎo)致的，而且均值項(xiàng)的影響更大。因此提出一種基于修正均值的語音轉(zhuǎn)換方法，可更好地抑制過平滑現(xiàn)象。

1 基于高斯混合模型的語音轉(zhuǎn)換函數(shù)及其分解

基于高斯混合模型的語音轉(zhuǎn)換方法的轉(zhuǎn)換函數(shù)可表示為：

式（1）可以改寫成以下形式：

2 轉(zhuǎn)換特征的標(biāo)準(zhǔn)差分析

轉(zhuǎn)換后的頻譜之所以會(huì)出現(xiàn)過平滑現(xiàn)象，是因?yàn)檗D(zhuǎn)換特征的離散程度較低，本文采用標(biāo)準(zhǔn)差來度量語音特征的離散度。為了分析均值項(xiàng)和相關(guān)項(xiàng)對(duì)轉(zhuǎn)換特征標(biāo)準(zhǔn)差的影響，圖1給出不同特征維數(shù)的目標(biāo)語音、GMM轉(zhuǎn)換均值項(xiàng)和相關(guān)項(xiàng)的標(biāo)準(zhǔn)差分布，圖中GMM-mu表示均值項(xiàng)，GMM-sigma表示相關(guān)項(xiàng)。

圖1 不同維數(shù)轉(zhuǎn)換特征標(biāo)準(zhǔn)差

從圖1可見，均值項(xiàng)和相關(guān)項(xiàng)的標(biāo)準(zhǔn)差與目標(biāo)語音特征相比都很小，意味著均值項(xiàng)和相關(guān)項(xiàng)都會(huì)導(dǎo)致過平滑現(xiàn)象。還可看出，相關(guān)項(xiàng)的標(biāo)準(zhǔn)差比均值項(xiàng)的要小，說明相關(guān)項(xiàng)的離散程度相對(duì)更低，以往文獻(xiàn)就此認(rèn)為相關(guān)項(xiàng)是導(dǎo)致過平滑現(xiàn)象的主要原因。而本文認(rèn)為，由于該結(jié)論沒有考慮到相關(guān)項(xiàng)和均值項(xiàng)在轉(zhuǎn)換函數(shù)中所占的比例，因此并不能得出該結(jié)論。事實(shí)上，相關(guān)項(xiàng)在轉(zhuǎn)換函數(shù)中的數(shù)值一般都很小[2]。

圖2給出了均值項(xiàng)和相關(guān)項(xiàng)的標(biāo)準(zhǔn)差變化對(duì)轉(zhuǎn)換特征標(biāo)準(zhǔn)差的影響。當(dāng)均值項(xiàng)和相關(guān)項(xiàng)各自增加相同比例時(shí)，均值項(xiàng)所造成的轉(zhuǎn)換特征標(biāo)準(zhǔn)差的增加量要明顯大于相關(guān)項(xiàng)造成的增加量。而且隨著變化量的增大，差距逐漸增大，這說明均值項(xiàng)標(biāo)準(zhǔn)差的變化對(duì)整個(gè)轉(zhuǎn)換特征標(biāo)準(zhǔn)差的影響更大。因此若能減小均值項(xiàng)的標(biāo)準(zhǔn)差就能降低整個(gè)轉(zhuǎn)換特征的標(biāo)準(zhǔn)差，有效抑制過平滑現(xiàn)象。

3 修正均值算法

本文研究發(fā)現(xiàn)，碼本映射法所獲得的特征都是來自特征空間，且轉(zhuǎn)換過程不包含平均化處理，因此轉(zhuǎn)換特征的離散性更好。本文將其與GMM方法結(jié)合起來，先使用碼本映射法對(duì)均值項(xiàng)進(jìn)行修正，然后將修正結(jié)果與GMM方法的轉(zhuǎn)換結(jié)果相結(jié)合，得到最終轉(zhuǎn)換結(jié)果。由于是對(duì)均值項(xiàng)進(jìn)行修改，所以稱為修正均值法（Rmu-GMM）。整個(gè)轉(zhuǎn)換過程分為訓(xùn)練和轉(zhuǎn)換兩個(gè)階段。

圖2 均值項(xiàng)和相關(guān)項(xiàng)標(biāo)準(zhǔn)差變化比較

訓(xùn)練階段：

（1）訓(xùn)練 GMM模型，得到模型參數(shù)和式（1）中的轉(zhuǎn)換函數(shù)；

（2）根據(jù)模型參數(shù)得到用于碼本訓(xùn)練的均值項(xiàng)，該均值項(xiàng)等于總特征減去它們的相關(guān)部分。對(duì)齊的源與目標(biāo)特征 z=[x，y]的均值項(xiàng)為：

（3）對(duì)均值項(xiàng)建立碼本映射規(guī)則 Fμ，利用統(tǒng)計(jì)直方圖建立兩者的加權(quán)轉(zhuǎn)換關(guān)系。

轉(zhuǎn)換階段：

（1）對(duì)于要轉(zhuǎn)換的特征矢量 x，使用 GMM轉(zhuǎn)換函數(shù)式（2）得到轉(zhuǎn)換特征相關(guān)項(xiàng)與均值項(xiàng)如下：

（2）計(jì)算得到用于碼本映射的均值項(xiàng)，稱為修正項(xiàng)：

利用訓(xùn)練階段得到 Fμ的重新對(duì) xμ進(jìn)行轉(zhuǎn)換，得到碼本映射法轉(zhuǎn)換后的均值項(xiàng)：

（3）結(jié)合從步驟（1）得到的均值項(xiàng)和相關(guān)項(xiàng)，得到最終的轉(zhuǎn)換函數(shù)為：

其中，參數(shù)λ用于調(diào)節(jié)GMM法與碼本映射法所占比重，λ=0時(shí)表示僅使用 GMM法，λ=1時(shí)表示均值項(xiàng)全由碼本映射轉(zhuǎn)換所得，且相關(guān)項(xiàng)為GMM轉(zhuǎn)換所得。

4 算法應(yīng)用流程

采用修正均值法的語音轉(zhuǎn)換原理如圖3所示。整個(gè)轉(zhuǎn)換過程分為訓(xùn)練和轉(zhuǎn)換兩個(gè)階段，在訓(xùn)練階段除了訓(xùn)練原有轉(zhuǎn)換函數(shù)，還需要為碼本映射法訓(xùn)練一個(gè)碼本映射準(zhǔn)則。轉(zhuǎn)換階段通過轉(zhuǎn)換函數(shù)首先對(duì)特征矢量進(jìn)行轉(zhuǎn)換，得到均值項(xiàng)、相關(guān)項(xiàng)與修正項(xiàng)三部分，利用碼本映射準(zhǔn)則對(duì)修正項(xiàng)進(jìn)行轉(zhuǎn)換，最后通過λ的加權(quán)與其他兩部分組成最終的轉(zhuǎn)換特征。

圖3 采用修正均值法的語音轉(zhuǎn)換原理框圖

5 實(shí)驗(yàn)結(jié)果及其分析

實(shí)驗(yàn)中采用通用語音庫中的語音數(shù)據(jù)，特征參數(shù)為16維LSF矢量，訓(xùn)練特征為19 282幀，GMM階數(shù)為32階，測(cè)試特征為4 000幀，協(xié)方差矩陣為對(duì)角協(xié)方差陣，采用Kain的訓(xùn)練方法。

采用客觀評(píng)價(jià)法衡量轉(zhuǎn)換后的譜與目標(biāo)譜之間的相似性，并采用一種常用的相似度評(píng)價(jià)標(biāo)準(zhǔn)：

其中，M是LSF矢量的個(gè)數(shù)，p是LSF階數(shù)。m和i表示第 m 幀 LSF 矢量的第 i維，t（n），t?（n），s（n）分別為目標(biāo)語音、轉(zhuǎn)換后語音和源語音的特征矢量?？陀^評(píng)測(cè)中，PLSF得分越高，表示轉(zhuǎn)換頻譜與目標(biāo)譜越相似。

實(shí)驗(yàn)一：λ的取值

圖4給出了λ的不同取值在各種GMM混合數(shù)目下的性能比較。從圖中可見，各混合數(shù)目下LSF得分先隨λ的增大而提高，然后又隨著λ的增大而降低。而且，混合數(shù)目越少，LSF達(dá)到最大值時(shí)對(duì)應(yīng)的λ越大。這說明混合數(shù)目較少時(shí)GMM法的效果不如碼本映射法，需要較大的λ使得碼本映射轉(zhuǎn)換的部分特征在總體中所占比例較大。隨著GMM階數(shù)的提高，達(dá)到最大值時(shí)所需的λ較小。

實(shí)驗(yàn)二：轉(zhuǎn)換方法性能比較

表1給出了GMM法、參考文獻(xiàn)[6]中的混合法（mix-GMM）和本文的修正均值法（Rmu-GMM）這三種方法LSF得分的比較。從表中可見，在各種混合數(shù)目下，修正均值法的LSF得分都好于GMM法和混合法，說明修正均值法對(duì)總體特征的改善更好。從表1中還可看出，混合數(shù)目增加到一定程度后，導(dǎo)致訓(xùn)練數(shù)據(jù)出現(xiàn)過適應(yīng)，性能反而下降。因此在實(shí)際應(yīng)用中，混合數(shù)目應(yīng)根據(jù)實(shí)際情況確定。

圖4 不同λ值對(duì)應(yīng)的LSF得分

表1 GMM法、mix-GMM與Rmu-GMM的LSF得分比較

基于GMM的語音轉(zhuǎn)換方法是當(dāng)前語音轉(zhuǎn)換采用的主流方法，但其最大不足是導(dǎo)致轉(zhuǎn)換特征的過平滑，影響轉(zhuǎn)換效果。本文對(duì)此進(jìn)行了研究，發(fā)現(xiàn)GMM轉(zhuǎn)換函數(shù)中的均值項(xiàng)與相關(guān)項(xiàng)標(biāo)準(zhǔn)差過小共同導(dǎo)致了過平滑現(xiàn)象，而均值項(xiàng)對(duì)轉(zhuǎn)換特征的過平滑有著更大的影響。為改善均值項(xiàng)標(biāo)準(zhǔn)差，本文提出一種修正均值法，實(shí)驗(yàn)結(jié)果表明了該方法相對(duì)于其他方法的優(yōu)越性。該方法可應(yīng)用于計(jì)算機(jī)語音合成、計(jì)算機(jī)語音翻譯、語音編輯、廣播及多媒體等領(lǐng)域。

[1]BENISTY H，MALAH D.Voice conversion using GMM with enhanced global variance[C].INTERSPEECH 2011：669-672.

[2]HELANDER E， VIRTANENT， NURMINENJ， etal.Voice conversion using partial least squares regression[J].IEEE Transactions on Audio， Speech， and Language Processing， 2010， 18（5）： 912-921.

[3]DESAI S， BLACK A W， YEGNANARAYANA B， et al.Voice conversion using artificial neural networks[C].ICASSP 2009：3893-3896.

[4]呂聲，尹俊勛.基于高斯混合模型和殘差預(yù)測(cè)的說話人轉(zhuǎn)換系統(tǒng)[J].電聲技術(shù)，2004，33（4）：3-4.

[5]Chen Yining，Chu Min.Voice conversion with smoothed GMM and MAP adaption[C].Geneva， Switzerland： Proceedings of Eurospeech.2003：2413-2416.

[6]康永國(guó)，雙志偉.基于混合映射模型的語音轉(zhuǎn)換算法研究[J].聲學(xué)學(xué)報(bào)，2006，31（6）：555-562.