沈惠玲, 萬永菁
(華東理工大學(xué)信息科學(xué)與工程學(xué)院,上海 200237)
一種基于預(yù)測譜偏移的自適應(yīng)高斯混合模型在語音轉(zhuǎn)換中的應(yīng)用
沈惠玲, 萬永菁
(華東理工大學(xué)信息科學(xué)與工程學(xué)院,上海 200237)
基于高斯混合模型(GMM)的語音幀譜包絡(luò)轉(zhuǎn)換算法容易導(dǎo)致轉(zhuǎn)換后的語音譜包絡(luò)過平滑、語音細節(jié)特征受損。通過對GMM中協(xié)方差的準確性與譜包絡(luò)過平滑現(xiàn)象的研究,提出了一種基于預(yù)測譜偏移的自適應(yīng)GMM建模方法。該方法采用平滑加權(quán)算法對目標譜的偏移進行建模,并根據(jù)語音幀信息自適應(yīng)調(diào)節(jié)預(yù)測譜偏移項的比例系數(shù),結(jié)合高斯混合模型共同實現(xiàn)對譜包絡(luò)的轉(zhuǎn)換。實驗結(jié)果表明,該建模方法能夠有效抑制轉(zhuǎn)換后語音譜包絡(luò)的失真現(xiàn)象,提高轉(zhuǎn)換后語音的清晰度、自然度和可懂度。
語音轉(zhuǎn)換; 高斯混合模型; 預(yù)測譜偏移; 自適應(yīng)
語音轉(zhuǎn)換是在保持源說話人語義的情況下,將其個性特征轉(zhuǎn)變?yōu)槟繕苏f話人的個性特征,最終使源說話人的聲音聽起來更加像目標說話人聲音的語音處理技術(shù)[1]。語音轉(zhuǎn)換過程分為訓(xùn)練階段和轉(zhuǎn)換階段。在訓(xùn)練階段,首先對源語音和目標語音進行預(yù)處理,提取譜特征參數(shù)及基音頻率;然后對提取的特征參數(shù)進行動態(tài)時間規(guī)整[2],之后選擇轉(zhuǎn)換算法建立譜特征參數(shù)和基音頻率的轉(zhuǎn)換模型。在轉(zhuǎn)換階段,對測試語音進行預(yù)處理和特征提取,由轉(zhuǎn)換模型對語音特征參數(shù)進行轉(zhuǎn)換,最后合成語音。在語音轉(zhuǎn)換技術(shù)中,基音周期的提取及轉(zhuǎn)換模型的建立相對比較成熟。語音譜特征參數(shù)是最能表現(xiàn)說話人個性特征的參數(shù),因此,在源說話人和目標說話人之間建立一個有效的基于譜特征參數(shù)的轉(zhuǎn)換模型,對語音轉(zhuǎn)換質(zhì)量有十分重要的影響。文獻[3]提出了基于矢量量化(VQ)的語音轉(zhuǎn)換算法,該算法實現(xiàn)簡單且占用空間小,但存在將譜特征參數(shù)硬劃分為不同碼字的問題,導(dǎo)致了轉(zhuǎn)換后語音的不連續(xù)性。文獻[4]提出了基于模糊矢量量化的改進算法,該算法并未根本解決特征空間的硬劃分產(chǎn)生的轉(zhuǎn)換空間不連續(xù)性問題。文獻[5]提出了基于徑向基(RBF)神經(jīng)網(wǎng)絡(luò)的語音轉(zhuǎn)換模型,該模型在譜特征參數(shù)轉(zhuǎn)換時具有更高的效率和魯棒性,但是模型存在過訓(xùn)練問題[6]。文獻[7]提出了基于最大似然準則的高斯混合模型,該模型存在轉(zhuǎn)換后語音譜特征參數(shù)過平滑問題,導(dǎo)致語音細節(jié)信息丟失,語音質(zhì)量下降。文獻[8]利用幀間信息來補償丟失信息改進GMM,該算法改善語音譜特征參數(shù)的過平滑問題,但改進的GMM將會引入高維數(shù)的特征參數(shù)和高時間復(fù)雜度。
本文從研究高斯混合模型轉(zhuǎn)換中的譜特征參數(shù)入手,針對譜特征參數(shù)相關(guān)項中協(xié)方差估計不準確導(dǎo)致的譜特征參數(shù)過平滑以及語音細節(jié)信息丟失的問題,提出了一種基于預(yù)測譜偏移的方法改進GMM相關(guān)項的計算,從而補償譜包絡(luò)細節(jié)信息,抑制GMM譜包絡(luò)的過平滑現(xiàn)象,達到提高語音轉(zhuǎn)換質(zhì)量的目的。
1.1基于傳統(tǒng)GMM的語音轉(zhuǎn)換算法
一個M階高斯混合模型的概率密度函數(shù)如式(1)所示[7]:
(1)
N(X;μm;Σm)=
(2)
其中:μm為均值矢量;Σm為協(xié)方差矩陣。
對拼接后的譜特征參數(shù)進行聯(lián)合高斯概率密度建模,得到每一個子分布的均值和方差。分解高斯混合模型的均值項和相關(guān)項如式(3)和式(4)所示[8]:
(3)
(4)
在轉(zhuǎn)換階段,假設(shè)xtn為源說話人的測試語音,根據(jù)最小均方誤差準則,對應(yīng)的目標說話人的譜特征參數(shù)ydn,如式(5)所示[8]。
(5)
其中:ymn為轉(zhuǎn)換后目標說話人的均值項;ycn為相關(guān)項,分別如式(6)和式(7)所示[8]。
(6)
(7)
(8)
利用式(5)可以在已知測試語音的譜特征參數(shù)的情況下求得目標說話人的譜特征參數(shù)。
1.2傳統(tǒng)GMM在語音轉(zhuǎn)換中存在的問題
在應(yīng)用傳統(tǒng)GMM轉(zhuǎn)換語音時,會使轉(zhuǎn)換后的語音譜包絡(luò)產(chǎn)生過平滑現(xiàn)象,即轉(zhuǎn)換后的譜包絡(luò)與目標語音的譜包絡(luò)總體變化趨勢一致,但譜包絡(luò)的細節(jié)信息丟失。圖1示出了目標語音幀譜包絡(luò)與GMM轉(zhuǎn)換后語音幀譜包絡(luò)的對比??梢钥闯?GMM轉(zhuǎn)換后語音幀的譜包絡(luò)在高頻部分不能很好地擬合目標語音幀譜包絡(luò)的峰值,即轉(zhuǎn)換后語音不能充分表征目標語音的個性特征,從而導(dǎo)致轉(zhuǎn)換效果不佳。不少學(xué)者對過平滑現(xiàn)象進行了研究。文獻[9]從GMM的均值項入手,提出了用后驗概率相等的方法,通過在GMM中尋找一個后驗概率與均值項的后驗概率最接近的特征參數(shù),代替GMM均值項;文獻[10]指出GMM過平滑原因是由于相關(guān)項中協(xié)方差參數(shù)估計不準確所導(dǎo)致的;文獻[11]提出基于混合映射模型的語音轉(zhuǎn)換算法,相關(guān)項的估計由GMM和碼本映射共同計算,該算法在一定程度上改善了GMM的過平滑現(xiàn)象,但是存在轉(zhuǎn)換函數(shù)中參數(shù)選取非自適應(yīng)的問題,導(dǎo)致對不同語音進行轉(zhuǎn)換時,需通過實驗求取最佳轉(zhuǎn)換參數(shù),限制了實際應(yīng)用前景。
圖1 目標語音幀譜包絡(luò)與GMM轉(zhuǎn)換后語音幀譜包絡(luò)的對比Fig.1 Comparison of target and GMM converted spectral envelop
通過對比分析目標語音的相關(guān)項和GMM的相關(guān)項,可以發(fā)現(xiàn)GMM導(dǎo)致語音譜包絡(luò)過平滑的原因是相關(guān)項中協(xié)方差的幅值過小,導(dǎo)致函數(shù)的非奇異性。在譜特征參數(shù)的維數(shù)為24的情況下,典型目標語音幀和GMM轉(zhuǎn)換后語音幀的譜特征參數(shù)相關(guān)項中每一維標準差的對比如圖2所示,可以看出GMM相關(guān)項的標準差浮動小于目標語音相關(guān)項的標準差,因此,本文從GMM相關(guān)項入手,對高斯混合模型(式(7))進行修正,將譜包絡(luò)的特征細節(jié)保留,從而改善GMM過平滑問題,提高語音的轉(zhuǎn)換質(zhì)量。
圖2 目標語音幀和GMM轉(zhuǎn)換后語音幀標準差的對比Fig.2 Comparison of target and GMM converted speech frame’s standard deviation
2.1基于預(yù)測譜偏移的自適應(yīng)GMM轉(zhuǎn)換算法原理
基于預(yù)測譜偏移的自適應(yīng)GMM語音轉(zhuǎn)換算法的流程如圖3所示。
圖3 基于預(yù)測譜偏移的自適應(yīng)高斯混合模型的語音轉(zhuǎn)換算法流程圖Fig.3 Voice conversion algorithm diagram based on adaptive GMM using predictive spectral shift
首先,在訓(xùn)練階段,對源語音和目標語音進行分幀、加窗、預(yù)加重等預(yù)處理。通過線性預(yù)測分析得到源語音和目標語音的譜特征參數(shù)以及基音頻率。再將源語音和目標語音的每一幀特征參數(shù)進行動態(tài)時間規(guī)整,使規(guī)整后的每一幀對應(yīng)相同的音節(jié)。對規(guī)整后的源語音和目標語音的基音頻率進行單高斯轉(zhuǎn)換[11],計算得出基音頻率的轉(zhuǎn)換模型。
然后,對規(guī)整后的源語音和目標語音的每一幀譜特征參數(shù)進行聯(lián)合高斯概率密度建模,利用式(3)和式(4)得到高斯混合模型的每一個子分布的均值和方差,并進行分解。
之后,計算源語音譜特征參數(shù)的后驗概率βm,n,如式(9)所示。
(9)
(10)
利用平滑加權(quán)算法對目標譜的偏移進行建模,得到高斯混合模型下目標說話人的譜特征參數(shù)偏移量指標C={Cm|m=1,…,M},其中Cm表示第m個高斯混合模型對應(yīng)的目標說話人的譜特征參數(shù)偏移量,如式(11)所示。
(11)
(12)
最后,利用式(13)求出本文改進的GMM轉(zhuǎn)換函數(shù)ydn。
電纜線的內(nèi)部有大量金屬,這些金屬的市場價格一直很高,這就導(dǎo)致一些不法分子對電纜進行竊取。在城市一些偏遠的地方,經(jīng)常出現(xiàn)有不法分子盜竊電纜的現(xiàn)象,在偷盜的過程中還會對相應(yīng)的布置造成一定程度的破壞,這也從一定程度上成為電力電纜發(fā)生故障的重要原因。
(13)
轉(zhuǎn)換函數(shù)ydn由高斯混合模型的均值項、相關(guān)項和預(yù)測譜偏移項這3個分量組成。其中,λ為預(yù)測譜偏移項比例系數(shù),λ∈[0,1],該參數(shù)用于調(diào)節(jié)ycn和yon的比例。當(dāng)λ=0時,改進的GMM就是傳統(tǒng)的高斯混合模型;當(dāng)λ=1時,改進的GMM的相關(guān)項完全使用預(yù)測譜偏移的方法計算求得。
2.2預(yù)測譜偏移項比例系數(shù)λ的計算方法
語音轉(zhuǎn)換分為4種不同的轉(zhuǎn)換模式,即:女聲轉(zhuǎn)女聲,女聲轉(zhuǎn)男聲,男聲轉(zhuǎn)女聲,男聲轉(zhuǎn)男聲。語音譜特征參數(shù)的轉(zhuǎn)換效果,一般采用平均譜失真測度DIS衡量,如式(14)所示[12]:
(14)
其中:dn(ycon,ytgt)表示第n對轉(zhuǎn)換后語音幀與目標語音幀之間的IS(Itakura-Saito)譜距離[13],IS譜距離是針對線性預(yù)測分析模型,用極大似然準則推導(dǎo)的,對語音信號的功率譜進行比較;dn(ysrc,ytgt)表示第n對源語音幀與目標語音幀之間的IS譜距離;N表示總的語音幀數(shù),該比值越小表示轉(zhuǎn)換模型的性能越好。
轉(zhuǎn)換后語音的平均譜失真測度DIS與λ的關(guān)系如圖4所示。從圖中可以看出,當(dāng)λ取值為0.4左右時,女聲轉(zhuǎn)男聲以及女聲轉(zhuǎn)女聲的DIS取得最小值;當(dāng)λ取值為0.7左右時,男聲轉(zhuǎn)女聲以及男聲轉(zhuǎn)男聲的DIS取得最小值。
從圖4可以看出,λ的大小會影響語音轉(zhuǎn)換的效果。為了使算法對4種不同的轉(zhuǎn)換模式更具適應(yīng)性,本文提出λ的自適應(yīng)計算法方法,即基于每一幀中預(yù)測譜偏移所占的比重自適應(yīng)選取λ值。以每一幀基于譜偏移的標準差占相關(guān)項的標準差加預(yù)測譜偏移標準差的比值為依據(jù)選取λn值,計算方法如式(15)所示。
(15)
對4種不同的轉(zhuǎn)換,隨機選取15幀譜特征參數(shù),計算轉(zhuǎn)換后譜特征參數(shù)與目標譜特征參數(shù)之間的IS譜距離dn(ycon,ytgt),如圖5所示。從圖中可以看出,自適應(yīng)取值得到的轉(zhuǎn)換后譜特征參數(shù)與目標語音譜特征參數(shù)之間的IS譜距離,比取最優(yōu)統(tǒng)一值時每一幀得到的IS譜距離更小,也更小于GMM算法得到的每一幀之間的IS譜距離。因此,λ參數(shù)自適應(yīng)取值后,降低了轉(zhuǎn)換語音的每一幀譜包絡(luò)的失真。
3.1評價指標
語音轉(zhuǎn)換算法評判標準分為客觀評判和主觀評判??陀^評判通過數(shù)學(xué)計算得出轉(zhuǎn)換后語音幅度譜與目標語音幅度譜之間的偏差,常用的是平均IS譜失真測度,如式(14)所示。主觀評價是通過多個人對轉(zhuǎn)換后語音從清晰度、可懂度等方面進行評判打分,有ABX測試和平均MOS意見分兩種方法。
圖4 平均IS譜失真測度對比圖Fig.4 Comparison of average IS distortion
圖5 不同λ計算方法的IS譜失真對比圖Fig.5 Comparison of IS distortion based on different λ calculating methods
ABX測試需要測試者聽A、B和X這3組語音,判斷出X是屬于A或者B,計算公式如式(16)所示[14]。
(16)
其中:θij取值為0或者1,θij=1表示轉(zhuǎn)換后語音更加像目標說話人的語音,θij=0表示轉(zhuǎn)換后語音更加像源說話人;U表示參與測試人員的數(shù)量;V表示總共需要測試的語音數(shù)目。
平均MOS意見分是從語音的可懂度、自然度和清晰度等方面對語音進行評價,計算公法如式(17)所示[14]。
(17)
其中,scoreij表示第i個人對第j段語音的打分,分值從5分到1分,5分表示轉(zhuǎn)換的語音效果最好,察覺不到失真;而1分表示轉(zhuǎn)換的語音效果最差,失真無法忍受。
3.2實驗結(jié)果與分析
實驗所用的語音庫由210個漢語語句組成,涵蓋大約400個漢語音節(jié),由4個說話人進行錄制,其中兩個男生、兩個女生,可實現(xiàn)4種不同的轉(zhuǎn)換模式。錄制過程中,周圍環(huán)境相對安靜,且每個說話人在發(fā)音時基本保持一樣的語速、語氣和節(jié)奏,以保證語義在時間上對齊。語音信號的采樣頻率為8 kHz,8 bit量化,基本滿足實驗需求。
本文將傳統(tǒng)的GMM、基于混合映射的GMM (Mixed GMM)以及改進的自適應(yīng)GMM (Adaptive GMM)進行了比較。在不同轉(zhuǎn)換算法下,典型語音幀的頻譜圖如圖6所示。由圖6可以看出,不論是同性之間的轉(zhuǎn)換還是異性之間的轉(zhuǎn)換,高斯混合模型進行轉(zhuǎn)換的語音存在過平滑的問題,基于混合映射模型的語音轉(zhuǎn)換算法的譜包絡(luò)與目標譜包絡(luò)更相近,但是高頻部分還是存在譜包絡(luò)過平滑問題,而本文自適應(yīng)GMM算法能夠得到更貼近目標語音的譜包絡(luò),有效改善過平滑現(xiàn)象。
圖6 不同語音轉(zhuǎn)換算法的語音幀譜包絡(luò)對比圖Fig.6 Comparison of spectral envelop based on different algorithms
圖7示出了不同譜包絡(luò)轉(zhuǎn)換算法在4種不同轉(zhuǎn)換模式下平均IS的譜失真測度。實驗對比的轉(zhuǎn)換算法分別是基于矢量量化(VQ)的語音轉(zhuǎn)換算法[3]、基于徑向基(RBF)神經(jīng)網(wǎng)絡(luò)的語音轉(zhuǎn)換算法[5]、傳統(tǒng)的GMM轉(zhuǎn)換算法、基于混合映射的GMM轉(zhuǎn)換算法以及自適應(yīng)GMM轉(zhuǎn)換算法。從圖中可以看出,矢量量化算法轉(zhuǎn)換的譜包絡(luò)失真情況最為嚴重;而基于徑向基神經(jīng)網(wǎng)絡(luò)的算法相對于矢量量化算法在平均IS譜失真測度上有所下降,但由于算法在均值和方差等計算中都采用了平均思想,譜失真測度整體上仍高于50%;傳統(tǒng)的GMM算法的譜失真情況相對比于VQ和RBF算法,無論在同性還是異性之間的轉(zhuǎn)換都有好轉(zhuǎn),但轉(zhuǎn)換效果仍不理想;自適應(yīng)GMM算法相較于傳統(tǒng)GMM算法和基于混合映射的GMM算法在平均IS譜失真測度上均有下降,同性之間的轉(zhuǎn)換,平均IS的譜失真測度降低到了50%以下,達到了一個較為理想的轉(zhuǎn)換效果。
圖7 不同語音算法的平均IS譜距離測度對比Fig.7 Comparison of average IS distortion based on different conversion algorithms
不同譜包絡(luò)轉(zhuǎn)換算法應(yīng)用于4種轉(zhuǎn)換模式的主觀評價實驗對比結(jié)果如表1所示。從主觀評價指標ABX值和平均MOS意見分可以看出,基于矢量量化轉(zhuǎn)換的語音在聽覺上明顯感覺到聲音的失真,轉(zhuǎn)換效果最差。基于徑向基神經(jīng)網(wǎng)絡(luò)的語音轉(zhuǎn)換算法相對比于矢量量化算法在清晰度上有所提高,但轉(zhuǎn)換質(zhì)量遠低于傳統(tǒng)GMM。自適應(yīng)GMM算法在語音的辨識度、清晰度、自然度、可懂度上均有顯著的提高,尤其是同性之間的轉(zhuǎn)換,ABX值提高到了90%以上,平均MOS意見分接近3.0。
表1 不同語音轉(zhuǎn)換算法的實驗結(jié)果對比Table 1 Comparison of experimental results based on different conversion algorithms
F-M:女聲轉(zhuǎn)男聲;F-F:女聲轉(zhuǎn)女聲;M-F:男聲轉(zhuǎn)女聲;M-M:男聲轉(zhuǎn)男聲
本文通過對高斯混合模型相關(guān)項的分析,發(fā)現(xiàn)譜包絡(luò)的細節(jié)丟失與相關(guān)項估計值過小之間存在關(guān)聯(lián),并由此提出一種基于預(yù)測譜偏移的自適應(yīng)GMM建模方法彌補相關(guān)項引起的損失。實驗結(jié)果表明,本文提出的建模方法可以有效地改善譜包絡(luò)過平滑的問題,使轉(zhuǎn)換后的語音譜包絡(luò)與目標語音的譜包絡(luò)更加切合,提高了語音的清晰度和自然度。
[1] ERRO D,ALONSO A,SERRANO L.Interpretable parametric voice conversion functions based on Gaussian mixture models and constrained transformations[J].Computer Speech & Language,2014,30(1):3-15.
[2] RABINER L,SCHMIDT C.Application of dynamic time warping to connected digit recognition[J].IEEE Transactions on Acoustics Speech & Signal Processing,1980,28(4):377-388.
[3] ABE M,NAKAMURA S,SHIKANO K.Voice conversion through vector quantization[C]//1988 International Conference on Acoustics,Speech,and Signal Processing.USA:IEEE,1988:71-76.
[4] SHIKANO K,NAKAMURA S,ABE M.Speaker adaptation and voice conversion by codebook mapping[C]//IEEE International Symposium on Circuits and Systems.USA:IEEE,1991:594-597 .
[5] 左國玉,劉文舉,阮曉鋼.基于遺傳徑向基神經(jīng)網(wǎng)絡(luò)的聲音轉(zhuǎn)換[J].中文信息學(xué)報,2004,18(1):78-84.
[6] NIRMAL J,ZAVERI M,PATNAIK S.Voice conversion using general regression neural network[J].Applied Soft Computing,2014,24(24):1-12.
[7] STYLIANOU Y,CAPPE O,MOULINES E.Statistical methods for voice quality transformation[C]//Fourth European Conference on Speech Communication and Technology.Madrid,Spain:Springer,1995:447-450.
[8] TODA T,BLACK A W,TOKUDA K.Voice conversion based on maximum-likelihood estimation of spectral parameter trajectory[J].IEEE Transactions on Audio Speech & Language Processing,2007,15(8):2222-2235.
[9] 趙義正.改進GMM譜包絡(luò)轉(zhuǎn)換性能的語音轉(zhuǎn)換算法研究[J].科學(xué)技術(shù)與工程,2010,10(17):4172-4174.
[10] CHEN Yining,CHU Min,CHANG Eric.Voice conversion with smoothed GMM and MAP adaptation[C]//8th European Conference on Speech Communication and Technology.Geneva,Switzerland:2003:1065-1073.
[11] 康永國,雙志偉,陶建華,等.基于混合映射模型的語音轉(zhuǎn)換算法研究[J].聲學(xué)學(xué)報(中文版),2006,31(6):555-562.
[12] SONG P,ZHAO L.Improving the performance of GMM based voice conversion method[C]//2008 IEEE Pacific-Asia Workshop on Computational Intelligence and Industrial Application.USA:IEEE,2008:456-460.
[13] TAIZO UMEZAKI,FUMITADA ITAKURA.Evaluation of the smoothed group delay spectrum distance measure for speaker:Dependent speech recognition[J].Electronics & Communications in Japan,1991,74(4):1-9.
[14] 趙玲麗.基于高斯混合模型的語音轉(zhuǎn)換技術(shù)研究[D].南京:南京郵電大學(xué),2011.
AnAdaptiveGaussianMixedModelBasedonPredictiveSpectralShiftandItsApplicationinVoiceConversion
SHENHui-ling,WANYong-jing
(SchoolofInformationScienceandEngineering,EastChinaUniversityofScienceandTechnology,Shanghai200237,China)
Voice conversion algorithm based on Gaussian mixture model (GMM) may result in the over-smoothing of spectral envelop and the damage of speech feature.By analyzing the relationship between covariance’s accuracy and over-smoothed phenomena,this paper proposes an adaptive GMM conversion algorithm based on spectral shift,which uses the weighted average algorithm to predict the converted spectral shift.Both the proposed spectral shift and the GMM are adopted to realize the appropriate converted spectral sequence.Moreover,the spectral shift proportion and GMM correlation are adaptively adjusted by using the spectral parameter.The experiment results show that the proposed algorithm can effectively alleviate the over-smoothing and improve the clearness naturalness and intelligibility of converted voice.
voice conversion; Gaussian mixed model; predictive spectral shift; adaptive
1006-3080(2017)04-0546-07
10.14135/j.cnki.1006-3080.2017.04.014
2016-10-10
沈惠玲(1992-),女,上海人,碩士生,研究方向為語音信號處理、模式識別。
萬永菁,E-mail:wanyongjing@ecust.edu.cn
TN912
A