亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種改進(jìn)高斯混合模型均值項(xiàng)的語音轉(zhuǎn)換方法

        2012-08-08 00:51:34趙義正
        關(guān)鍵詞:特征模型

        趙義正

        (合肥電子工程學(xué)院,安徽 合肥 230037)

        語音轉(zhuǎn)換是指改變一個(gè)說話人(源說話人)的語音個(gè)性特征,使之具有另外一個(gè)說話人(目標(biāo)說話人)的語音個(gè)性特征。語音轉(zhuǎn)換技術(shù)的主要應(yīng)用場(chǎng)合包括計(jì)算機(jī)語音合成、計(jì)算機(jī)語音翻譯、語音編輯、廣播及多媒體等方面?,F(xiàn)階段對(duì)語音的轉(zhuǎn)換主要包含對(duì)韻律和譜包絡(luò)的轉(zhuǎn)換。譜包絡(luò)轉(zhuǎn)換方法有很多種,其中以基于高斯混合模型(GMM)[1]的映射方法效果最好,也是當(dāng)前的主流方法。但是基于GMM的譜包絡(luò)轉(zhuǎn)換存在一個(gè)嚴(yán)重缺陷,即導(dǎo)致轉(zhuǎn)換頻譜的過平滑[2-4]。它會(huì)造成轉(zhuǎn)換頻譜的共振峰峰值特性下降,造成轉(zhuǎn)換語音的聽覺感知特性下降,影響轉(zhuǎn)換效果。

        對(duì)于造成過平滑的原因,一種觀點(diǎn)(Toda)[4]認(rèn)為,過平滑是由GMM模型中的統(tǒng)計(jì)平均運(yùn)算造成的,另一種觀點(diǎn)認(rèn)為過平滑是由于轉(zhuǎn)換函數(shù)中GMM的協(xié)方差估計(jì)不準(zhǔn)確造成的[5],參考文獻(xiàn)[6]認(rèn)為過平滑主要是由于轉(zhuǎn)換函數(shù)中的相關(guān)項(xiàng)引起的,并針對(duì)相關(guān)項(xiàng)進(jìn)行改進(jìn)以抑制過平滑現(xiàn)象。

        由于GMM轉(zhuǎn)換的特征可以分為均值項(xiàng)和相關(guān)項(xiàng)兩部分,本文研究發(fā)現(xiàn),過平滑產(chǎn)生是由兩者共同導(dǎo)致的,而且均值項(xiàng)的影響更大。因此提出一種基于修正均值的語音轉(zhuǎn)換方法,可更好地抑制過平滑現(xiàn)象。

        1 基于高斯混合模型的語音轉(zhuǎn)換函數(shù)及其分解

        基于高斯混合模型的語音轉(zhuǎn)換方法的轉(zhuǎn)換函數(shù)可表示為:

        式(1)可以改寫成以下形式:

        2 轉(zhuǎn)換特征的標(biāo)準(zhǔn)差分析

        轉(zhuǎn)換后的頻譜之所以會(huì)出現(xiàn)過平滑現(xiàn)象,是因?yàn)檗D(zhuǎn)換特征的離散程度較低,本文采用標(biāo)準(zhǔn)差來度量語音特征的離散度。為了分析均值項(xiàng)和相關(guān)項(xiàng)對(duì)轉(zhuǎn)換特征標(biāo)準(zhǔn)差的影響,圖1給出不同特征維數(shù)的目標(biāo)語音、GMM轉(zhuǎn)換均值項(xiàng)和相關(guān)項(xiàng)的標(biāo)準(zhǔn)差分布,圖中GMM-mu表示均值項(xiàng),GMM-sigma表示相關(guān)項(xiàng)。

        圖1 不同維數(shù)轉(zhuǎn)換特征標(biāo)準(zhǔn)差

        從圖1可見,均值項(xiàng)和相關(guān)項(xiàng)的標(biāo)準(zhǔn)差與目標(biāo)語音特征相比都很小,意味著均值項(xiàng)和相關(guān)項(xiàng)都會(huì)導(dǎo)致過平滑現(xiàn)象。還可看出,相關(guān)項(xiàng)的標(biāo)準(zhǔn)差比均值項(xiàng)的要小,說明相關(guān)項(xiàng)的離散程度相對(duì)更低,以往文獻(xiàn)就此認(rèn)為相關(guān)項(xiàng)是導(dǎo)致過平滑現(xiàn)象的主要原因。而本文認(rèn)為,由于該結(jié)論沒有考慮到相關(guān)項(xiàng)和均值項(xiàng)在轉(zhuǎn)換函數(shù)中所占的比例,因此并不能得出該結(jié)論。事實(shí)上,相關(guān)項(xiàng)在轉(zhuǎn)換函數(shù)中的數(shù)值一般都很小[2]。

        圖2給出了均值項(xiàng)和相關(guān)項(xiàng)的標(biāo)準(zhǔn)差變化對(duì)轉(zhuǎn)換特征標(biāo)準(zhǔn)差的影響。當(dāng)均值項(xiàng)和相關(guān)項(xiàng)各自增加相同比例時(shí),均值項(xiàng)所造成的轉(zhuǎn)換特征標(biāo)準(zhǔn)差的增加量要明顯大于相關(guān)項(xiàng)造成的增加量。而且隨著變化量的增大,差距逐漸增大,這說明均值項(xiàng)標(biāo)準(zhǔn)差的變化對(duì)整個(gè)轉(zhuǎn)換特征標(biāo)準(zhǔn)差的影響更大。因此若能減小均值項(xiàng)的標(biāo)準(zhǔn)差就能降低整個(gè)轉(zhuǎn)換特征的標(biāo)準(zhǔn)差,有效抑制過平滑現(xiàn)象。

        3 修正均值算法

        本文研究發(fā)現(xiàn),碼本映射法所獲得的特征都是來自特征空間,且轉(zhuǎn)換過程不包含平均化處理,因此轉(zhuǎn)換特征的離散性更好。本文將其與GMM方法結(jié)合起來,先使用碼本映射法對(duì)均值項(xiàng)進(jìn)行修正,然后將修正結(jié)果與GMM方法的轉(zhuǎn)換結(jié)果相結(jié)合,得到最終轉(zhuǎn)換結(jié)果。由于是對(duì)均值項(xiàng)進(jìn)行修改,所以稱為修正均值法(Rmu-GMM)。整個(gè)轉(zhuǎn)換過程分為訓(xùn)練和轉(zhuǎn)換兩個(gè)階段。

        圖2 均值項(xiàng)和相關(guān)項(xiàng)標(biāo)準(zhǔn)差變化比較

        訓(xùn)練階段:

        (1)訓(xùn)練 GMM模型,得到模型參數(shù)和式(1)中的轉(zhuǎn)換函數(shù);

        (2)根據(jù)模型參數(shù)得到用于碼本訓(xùn)練的均值項(xiàng),該均值項(xiàng)等于總特征減去它們的相關(guān)部分。對(duì)齊的源與目標(biāo)特征 z=[x,y]的均值項(xiàng)為:

        (3)對(duì)均值項(xiàng)建立碼本映射規(guī)則 Fμ,利用統(tǒng)計(jì)直方圖建立兩者的加權(quán)轉(zhuǎn)換關(guān)系。

        轉(zhuǎn)換階段:

        (1)對(duì)于要轉(zhuǎn)換的特征矢量 x,使用 GMM轉(zhuǎn)換函數(shù)式(2)得到轉(zhuǎn)換特征相關(guān)項(xiàng)與均值項(xiàng)如下:

        (2)計(jì)算得到用于碼本映射的均值項(xiàng),稱為修正項(xiàng):

        利用訓(xùn)練階段得到 Fμ的重新對(duì) xμ進(jìn)行轉(zhuǎn)換,得到碼本映射法轉(zhuǎn)換后的均值項(xiàng):

        (3)結(jié)合從步驟(1)得到的均值項(xiàng)和相關(guān)項(xiàng),得到最終的轉(zhuǎn)換函數(shù)為:

        其中,參數(shù)λ用于調(diào)節(jié)GMM法與碼本映射法所占比重,λ=0時(shí)表示僅使用 GMM法,λ=1時(shí)表示均值項(xiàng)全由碼本映射轉(zhuǎn)換所得,且相關(guān)項(xiàng)為GMM轉(zhuǎn)換所得。

        4 算法應(yīng)用流程

        采用修正均值法的語音轉(zhuǎn)換原理如圖3所示。整個(gè)轉(zhuǎn)換過程分為訓(xùn)練和轉(zhuǎn)換兩個(gè)階段,在訓(xùn)練階段除了訓(xùn)練原有轉(zhuǎn)換函數(shù),還需要為碼本映射法訓(xùn)練一個(gè)碼本映射準(zhǔn)則。轉(zhuǎn)換階段通過轉(zhuǎn)換函數(shù)首先對(duì)特征矢量進(jìn)行轉(zhuǎn)換,得到均值項(xiàng)、相關(guān)項(xiàng)與修正項(xiàng)三部分,利用碼本映射準(zhǔn)則對(duì)修正項(xiàng)進(jìn)行轉(zhuǎn)換,最后通過λ的加權(quán)與其他兩部分組成最終的轉(zhuǎn)換特征。

        圖3 采用修正均值法的語音轉(zhuǎn)換原理框圖

        5 實(shí)驗(yàn)結(jié)果及其分析

        實(shí)驗(yàn)中采用通用語音庫中的語音數(shù)據(jù),特征參數(shù)為16維LSF矢量,訓(xùn)練特征為19 282幀,GMM階數(shù)為32階,測(cè)試特征為4 000幀,協(xié)方差矩陣為對(duì)角協(xié)方差陣,采用Kain的訓(xùn)練方法。

        采用客觀評(píng)價(jià)法衡量轉(zhuǎn)換后的譜與目標(biāo)譜之間的相似性,并采用一種常用的相似度評(píng)價(jià)標(biāo)準(zhǔn):

        其中,M是LSF矢量的個(gè)數(shù),p是LSF階數(shù)。m和i表示第 m 幀 LSF 矢 量的第 i維,t(n),t?(n),s(n)分別 為目標(biāo)語音、轉(zhuǎn)換后語音和源語音的特征矢量??陀^評(píng)測(cè)中,PLSF得分越高,表示轉(zhuǎn)換頻譜與目標(biāo)譜越相似。

        實(shí)驗(yàn)一:λ的取值

        圖4給出了λ的不同取值在各種GMM混合數(shù)目下的性能比較。從圖中可見,各混合數(shù)目下LSF得分先隨λ的增大而提高,然后又隨著λ的增大而降低。而且,混合數(shù)目越少,LSF達(dá)到最大值時(shí)對(duì)應(yīng)的λ越大。這說明混合數(shù)目較少時(shí)GMM法的效果不如碼本映射法,需要較大的λ使得碼本映射轉(zhuǎn)換的部分特征在總體中所占比例較大。隨著GMM階數(shù)的提高,達(dá)到最大值時(shí)所需的λ較小。

        實(shí)驗(yàn)二:轉(zhuǎn)換方法性能比較

        表1給出了GMM法、參考文獻(xiàn)[6]中的混合法(mix-GMM)和本文的修正均值法 (Rmu-GMM)這三種方法LSF得分的比較。從表中可見,在各種混合數(shù)目下,修正均值法的LSF得分都好于GMM法和混合法,說明修正均值法對(duì)總體特征的改善更好。從表1中還可看出,混合數(shù)目增加到一定程度后,導(dǎo)致訓(xùn)練數(shù)據(jù)出現(xiàn)過適應(yīng),性能反而下降。因此在實(shí)際應(yīng)用中,混合數(shù)目應(yīng)根據(jù)實(shí)際情況確定。

        圖4 不同λ值對(duì)應(yīng)的LSF得分

        表1 GMM法、mix-GMM與Rmu-GMM的LSF得分比較

        基于GMM的語音轉(zhuǎn)換方法是當(dāng)前語音轉(zhuǎn)換采用的主流方法,但其最大不足是導(dǎo)致轉(zhuǎn)換特征的過平滑,影響轉(zhuǎn)換效果。本文對(duì)此進(jìn)行了研究,發(fā)現(xiàn)GMM轉(zhuǎn)換函數(shù)中的均值項(xiàng)與相關(guān)項(xiàng)標(biāo)準(zhǔn)差過小共同導(dǎo)致了過平滑現(xiàn)象,而均值項(xiàng)對(duì)轉(zhuǎn)換特征的過平滑有著更大的影響。為改善均值項(xiàng)標(biāo)準(zhǔn)差,本文提出一種修正均值法,實(shí)驗(yàn)結(jié)果表明了該方法相對(duì)于其他方法的優(yōu)越性。該方法可應(yīng)用于計(jì)算機(jī)語音合成、計(jì)算機(jī)語音翻譯、語音編輯、廣播及多媒體等領(lǐng)域。

        [1]BENISTY H,MALAH D.Voice conversion using GMM with enhanced global variance[C].INTERSPEECH 2011:669-672.

        [2]HELANDER E, VIRTANENT, NURMINENJ, etal.Voice conversion using partial least squares regression[J].IEEE Transactions on Audio, Speech, and Language Processing, 2010, 18(5): 912-921.

        [3]DESAI S, BLACK A W, YEGNANARAYANA B, et al.Voice conversion using artificial neural networks[C].ICASSP 2009:3893-3896.

        [4]呂聲,尹俊勛.基于高斯混合模型和殘差預(yù)測(cè)的說話人轉(zhuǎn)換系統(tǒng)[J].電聲技術(shù),2004,33(4):3-4.

        [5]Chen Yining,Chu Min.Voice conversion with smoothed GMM and MAP adaption[C].Geneva, Switzerland: Proceedings of Eurospeech.2003:2413-2416.

        [6]康永國(guó),雙志偉.基于混合映射模型的語音轉(zhuǎn)換算法研究[J].聲學(xué)學(xué)報(bào),2006,31(6):555-562.

        猜你喜歡
        特征模型
        一半模型
        抓住特征巧觀察
        重要模型『一線三等角』
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        性色av无码不卡中文字幕| 国产精品毛片极品久久| 国产高清成人在线观看视频 | 777精品久无码人妻蜜桃| 在线观看免费a∨网站| 久久久久国产精品四虎| 自拍偷区亚洲综合激情| 国产精品久人妻精品老妇| 国产特级毛片aaaaaa高清| 丰满人妻熟妇乱又伦精品软件| 国产精品久久久久国产精品| 蜜桃成人永久免费av大| 久久亚洲av午夜福利精品西区| 国产三级黄色免费网站| 国产色xx群视频射精| 亚洲国产无线乱码在线观看| 亚洲国产精品日韩专区av| 在线国人免费视频播放| 亚洲色一区二区三区四区| 久久夜色精品国产| 欧美韩国精品另类综合| 免费av在线 国产精品| 国产一区二区三区视频地址| 寂寞少妇做spa按摩无码| 午夜大片又黄又爽大片app| 日日骚一区二区三区中文字幕| 久久伊人精品中文字幕有尤物| 国产av一区二区三区传媒| 国产一级片毛片| 日本一区二区三区精品不卡| 国产一区二区长腿丝袜高跟鞋| 国产伦理一区二区| 亚洲色大成网站www在线观看| 日本激情一区二区三区| 日本丰满少妇xxxx| 亚洲人成77777在线播放网站| 日韩在线看片免费人成视频| 91精品啪在线看国产网站| 国产爽快片一区二区三区| 免费a级毛片18禁网站app| 欧美精品一区视频|