李燕萍,曹 盼,石 楊,張 燕,錢 博
(1. 南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇 南京 210023; 2. 金陵科技學(xué)院 軟件工程學(xué)院,江蘇 南京 211169; 3.南京電子技術(shù)研究所,江蘇 南京 210039)
語音轉(zhuǎn)換是在保持語音內(nèi)容不變的同時,改變一個人的聲音,使之聽起來像另一個人的聲音[1-2].在實際應(yīng)用中,預(yù)先采集大量平行訓(xùn)練文本不僅耗時耗力,而且在跨語種轉(zhuǎn)換和醫(yī)療輔助系統(tǒng)中往往無法采集到平行文本,因此非平行文本條件下的語音轉(zhuǎn)換研究具有更大的應(yīng)用背景和現(xiàn)實意義,同時具有很大的挑戰(zhàn)性,是當(dāng)前語音轉(zhuǎn)換領(lǐng)域研究的熱點和難點.
性能良好的語音轉(zhuǎn)換系統(tǒng)既要保持重構(gòu)語音的聽覺質(zhì)量,又要兼顧轉(zhuǎn)換后的目標(biāo)說話人的個性特征是否準(zhǔn)確,近年來,為了改善轉(zhuǎn)換后合成語音的自然度和說話人個性的相似度,非平行文本條件下的語音轉(zhuǎn)換研究取得了很大進(jìn)展,根據(jù)其研究思路的不同,大致可以分為3類.第1類是從語音重組的角度,在一定條件下將非平行文本轉(zhuǎn)化為偽平行文本[3-4]進(jìn)行處理,其代表算法包括兩種: 一種是使用獨立于說話人的自動語音識別(Automatic Speech Recognition, ASR)系統(tǒng)標(biāo)記音素;另一種是借助文語轉(zhuǎn)換(Text To Speech, TTS)系統(tǒng)將小型語音單元拼接成平行語音.該類方法原理簡單,易于實現(xiàn),然而這類方法很大程度上依賴于ASR或TTS系統(tǒng)的性能.第2類是從統(tǒng)計學(xué)角度利用背景說話人的信息作為先驗知識,應(yīng)用模型自適應(yīng)技術(shù)對已有的平行轉(zhuǎn)換模型進(jìn)行更新,包括說話人自適應(yīng)[5-6]、說話人歸一化等,但是這類方法通常要求背景說話人的訓(xùn)練數(shù)據(jù)是平行的,因此并不能完全解除對平行訓(xùn)練數(shù)據(jù)的依賴,還增加了系統(tǒng)的復(fù)雜性.第3類方法利用分離語義和說話人的個性信息,轉(zhuǎn)換過程是在語義信息上疊加目標(biāo)說話人個性信息來實現(xiàn)語音重構(gòu),其代表算法包括基于條件變分自編碼器(Conditional Variational Auto-Encoder, C-VAE)[7]的方法、基于變分自編碼器和生成對抗網(wǎng)絡(luò)(Variational Autoencoding Wasserstein Generative Adversarial Network, VAWGAN)[8]的方法、基于語音后驗圖(Phonetic Posteriorgrams, PPG)[9]的方法等.這類方法直接規(guī)避了非平行文本對齊的問題,提供了多說話人向多說話人轉(zhuǎn)換的新框架,是目前非平行文本條件下語音轉(zhuǎn)換的主流方法.
基于VAWGAN方法可以實現(xiàn)非平行文本條件下高質(zhì)量的語音轉(zhuǎn)換,在訓(xùn)練過程中不需要任何對齊過程,還可以將多個源-目標(biāo)說話人對的轉(zhuǎn)換系統(tǒng)整合在1個轉(zhuǎn)換模型中,即實現(xiàn)多說話人對多說話人轉(zhuǎn)換.然而Wasserstein生成對抗網(wǎng)絡(luò)(Wasserstein Generative Adversarial Network, WGAN)[10]存在著一些不足之處,例如訓(xùn)練困難、收斂速度較慢等.如果能提升WGAN的性能或者找到性能更強大的生成對抗網(wǎng)絡(luò),則有望進(jìn)一步提升語音轉(zhuǎn)換系統(tǒng)生成語音的清晰度,從而生成具有更好音質(zhì)的語音.
近年來,輔助分類器生成對抗網(wǎng)絡(luò)(Auxiliary Classifier GANs, ACGAN)[11]在圖像生成領(lǐng)域獲得了很好的效果,本文將ACGAN結(jié)合到語音轉(zhuǎn)換的應(yīng)用中,提出利用ACGAN替代VAWGAN模型中的WGAN,由于ACGAN的鑒別器不僅能鑒別生成的頻譜包絡(luò)特征的真假,還能鑒別生成的頻譜包絡(luò)特征的類別,因此,生成的樣本更加接近特定樣本,從而進(jìn)一步提升轉(zhuǎn)換語音的質(zhì)量.充分的主觀和客觀實驗表明: 本文提出的將ACGAN應(yīng)用于語音轉(zhuǎn)換領(lǐng)域,在有效改善合成語音質(zhì)量的同時進(jìn)一步提升了說話人個性的相似度,實現(xiàn)了高質(zhì)量的語音轉(zhuǎn)換.
針對C-VAE解碼器輸出趨于過平滑的問題,基于VAWGAN的語音轉(zhuǎn)換框架利用WGAN提升了C-VAE的性能,VAWGAN網(wǎng)絡(luò)由3部分構(gòu)成: 編碼器、生成器和鑒別器,其中C-VAE的解碼器部分由WGAN中的生成器代替,完整的語音轉(zhuǎn)換模型可以表示為
(1)
為了實現(xiàn)語音轉(zhuǎn)換,WGAN使用Wasserstein目標(biāo)函數(shù)[8]來替代生成對抗網(wǎng)絡(luò)(Generative Adversarial Network, GAN)中的JS散度(Jensen-Shannon divergence, JS)來衡量生成數(shù)據(jù)分布和真實數(shù)據(jù)分布之間的距離.由于VAWGAN模型是由C-VAE和WGAN結(jié)合而成,因此模型完整的目標(biāo)函數(shù)可以表示為
JVAWGAN=L(x;φ,θ)+αJWGAN,
(2)
其中:L(x;φ,θ)表示C-VAE模型部分的目標(biāo)函數(shù),通常使用隨機梯度下降法來更新C-VAE中的網(wǎng)絡(luò)型參數(shù);α是調(diào)節(jié)WGAN損失的系數(shù);JWGAN表示W(wǎng)GAN的目標(biāo)函數(shù).定義如下:
L(x;φ,θ)=-DKL(qφ(z|x)‖pθ(z))+Eqφ(z|x)[lnpθ(x|z,y)],
(3)
(4)
其中:DKL表示KL散度(Kullback-Leibler divergence, KL);qφ表示編碼網(wǎng)絡(luò);pθ表示解碼網(wǎng)絡(luò);pθ(z)為潛在變量z的先驗分布,該分布為標(biāo)準(zhǔn)多維高斯分布;Gθ表示W(wǎng)GAN中的生成器;Dψ表示鑒別器;θ和ψ分別是生成器和鑒別器的相關(guān)參數(shù).
綜上分析可知,VAWGAN利用潛在語義內(nèi)容zn和說話人標(biāo)簽yn重構(gòu)任意目標(biāo)說話人的語音幀,實現(xiàn)了非平行文本條件下多對多的語音轉(zhuǎn)換.此外,WGAN通過Wasserstein距離在一定程度上改善了GAN訓(xùn)練不穩(wěn)定的問題,而WGAN為了實現(xiàn)穩(wěn)定的訓(xùn)練,通常將權(quán)重剪切到一定范圍內(nèi),如[-0.01,0.01],但該方法容易導(dǎo)致權(quán)重集中在-0.01和0.01上,造成梯度爆炸或梯度彌散,從而導(dǎo)致訓(xùn)練相對困難,收斂速度較慢等,所以WGAN在數(shù)據(jù)生成能力上仍存在一定的改進(jìn)空間.基于此,本文從提升WGAN的性能或者找到生成性能更加強大的GAN對轉(zhuǎn)換方法進(jìn)行改進(jìn),以期望進(jìn)一步獲得更好質(zhì)量的語音.
為了進(jìn)一步提升VAWGAN的性能,通過找到生成性能更加強大的GAN替換WGAN是本文的研究出發(fā)點.2017年,Odena等[11]提出的ACGAN是1種用于圖像合成的生成對抗網(wǎng)絡(luò)的方法,對于圖像生成的性能提升很大.與WGAN結(jié)構(gòu)不同,ACGAN的鑒別器中包含輔助解碼器網(wǎng)絡(luò),該輔助解碼器網(wǎng)絡(luò)輸出訓(xùn)練數(shù)據(jù)的類標(biāo)簽或生成樣本的潛在變量的子集,另外,輔助解碼器網(wǎng)絡(luò)可以利用預(yù)訓(xùn)練的鑒別器來進(jìn)一步改善生成樣本的質(zhì)量.
在ACGAN框架中,除了噪聲z之外,生成的每個樣本都具有對應(yīng)的類標(biāo)簽c~pc,生成樣本的類別標(biāo)簽用one-hot編碼表示,以區(qū)分不同的生成樣本.在生成器G使用噪聲z和類標(biāo)簽c來生成樣本Xfake=G(c,z).鑒別器D會輸出判別樣本真假來源的概率分布和類標(biāo)簽上的概率分布:
P(S|X),P(C|X)=D(X),
(5)
其中:P(S|X)表示鑒別器D判別數(shù)據(jù)源是否為真實數(shù)據(jù)的概率分布;P(C|X)表示鑒別器D判別數(shù)據(jù)源屬于類標(biāo)簽的概率分布.
圖1 ACGAN的結(jié)構(gòu)示意圖Fig.1 Structure diagram of ACGAN
ACGAN的結(jié)構(gòu)如圖1所示,其中,ACGAN的鑒別器不僅能判別樣本的“真假”,還能判別樣本所屬的類別.ACGAN的鑒別器D僅將樣本作為輸入,輸出為預(yù)測的樣本的“真假”和預(yù)測的樣本所屬的類別,因此,ACGAN鑒別器的目標(biāo)函數(shù)分為兩部分: 正確來源的對數(shù)似然LS和正確類的對數(shù)似然LC,即
LS=E[lnP(S=real|Xreal)]+E[lnP(S=fake|Xfake)],
(6)
LC=E[lnP(C=c|Xreal)]+E[lnP(C=c|Xfake)].
(7)
訓(xùn)練過程中,鑒別器D的訓(xùn)練目標(biāo)是使LS+LC最大化,同時訓(xùn)練生成器G使LS-LC最大化.
從2.1節(jié)的分析可知,ACGAN將特征樣本的類別標(biāo)簽作為輔助信息,其鑒別器不僅能預(yù)測樣本真假,還能預(yù)測樣本所屬的類別,理論上提高了生成對抗網(wǎng)絡(luò)的生成性能,同時使得訓(xùn)練過程更加穩(wěn)定,在圖像領(lǐng)域的實驗[11]證明了ACGAN強大的生成能力.
若將ACGAN結(jié)合到語音轉(zhuǎn)換應(yīng)用中,其鑒別器不僅能鑒別生成的頻譜包絡(luò)特征的真假,還能鑒別生成的頻譜包絡(luò)特征的類別,使得生成的樣本更加接近特定樣本,從而提升語音質(zhì)量.因此,本文提出基于VAE和ACGAN的語音轉(zhuǎn)換模型(Variational Autoencoding Auxiliary Classifier GAN, VAACGAN),利用ACGAN替換VAWGAN模型中的WGAN.
基于VAACGAN的語音轉(zhuǎn)換模型框圖如圖2所示,該模型分為訓(xùn)練階段和轉(zhuǎn)換階段.
圖2 基于VAACGAN的語音轉(zhuǎn)換模型的框圖Fig.2 Block diagram of voice conversion model based on VAACGAN
2.2.1 訓(xùn)練階段
獲取包含多名源說話人和目標(biāo)說話人的訓(xùn)練語料,將上述訓(xùn)練語料通過WORLD語音分析/合成模型[12],提取出各說話人語句的頻譜包絡(luò)、對數(shù)基頻lnf0和非周期特征,將提取的頻譜包絡(luò)x和說話人標(biāo)簽y輸入VAACGAN模型進(jìn)行訓(xùn)練.VAACGAN模型由編碼器、生成器和鑒別器組成,VAACGAN模型的目標(biāo)函數(shù)為
JVAACGAN=L(x;φ,θ)+αJACGAN,
(8)
其中:L(x;φ,θ)表示編碼器部分的損失函數(shù),該損失函數(shù)的計算和VAWGAN模型相同;α是ACGAN的損失系數(shù),在訓(xùn)練過程中,設(shè)置α為50.0;JVAACGAN表示ACGAN的部分損失函數(shù),且
(9)
其中:Dψs(·)為鑒別器對輸入樣本真假判別的輸出;Dψc(·)為鑒別器對輸入樣本類別判別的輸出;loss(·) 為鑒別器預(yù)測的樣本類別和真實類別之間的交叉熵?fù)p失,樣本類別損失記為
(10)
在ACGAN中,生成器的損失函數(shù)為
LG=-Eqφ(z|x)[lnpθ(x|z,y)]-βEz~qφ(z|x)[Dψc(Gθ(z,y))]+Lc,
(11)
優(yōu)化目標(biāo)為
(12)
在ACGAN中,鑒別器的損失函數(shù)為
(13)
優(yōu)化目標(biāo)為
(14)
在ACGAN的訓(xùn)練過程中,要使生成器損失函數(shù)LG盡量小,同時使鑒別器損失函數(shù)LD盡量大,訓(xùn)練語料的頻譜包絡(luò)特征x在經(jīng)過VAACGAN模型的編碼器后,得到與說話人無關(guān)的語義特征z,將z和說話人標(biāo)簽y送入VAACGAN模型的生成器得到“假樣本”,將其和真實頻譜包絡(luò)特征一同送入鑒別器,得到鑒別器對輸入樣本真假判別的輸出以及輸入樣本類別標(biāo)簽的輸出.
構(gòu)建從源說話人語音對數(shù)基頻lnf0到目標(biāo)說話人語音對數(shù)基頻lnf′0的基頻轉(zhuǎn)換函數(shù):
(15)
其中:μ和σ分別表示源說話人的基頻在對數(shù)域的均值和均方差;μ′和σ′分別表示目標(biāo)說話人的基頻在對數(shù)域的均值和均方差.
2.2.2 轉(zhuǎn)換階段
本實驗采用VCC2018[13]中的語音庫,本文選取其中4名女性說話人和4名男性說話人的語音,即VCC2SF3、VCC2SF4、VCC2TF1、VCC2TF2、VCC2SM3、VCC2SM4、VCC2TM1、VCC2TM2.每個說話人在訓(xùn)練階段均選取81句訓(xùn)練語音,在轉(zhuǎn)換階段選取35句測試語音進(jìn)行轉(zhuǎn)換,一共有16組轉(zhuǎn)換情形.本實驗使用WORLD分析/合成模型提取語音參數(shù),包括頻譜包絡(luò)、非周期特征和基頻,其中頻譜包絡(luò)和非周期特征均為513維.本文主要利用VAACGAN模型實現(xiàn)頻譜包絡(luò)的轉(zhuǎn)換,基頻采用傳統(tǒng)的高斯歸一化的轉(zhuǎn)換方法轉(zhuǎn)換對數(shù)基頻,非周期特征不變.
在VAACGAN模型中,所述編碼器、生成器、鑒別器均采用2維卷積神經(jīng)網(wǎng)絡(luò),激活函數(shù)均采用LReLu函數(shù).圖3為VAACGAN模型網(wǎng)絡(luò)結(jié)構(gòu)圖,其中,編碼器由5個卷積層構(gòu)成,5個卷積層的過濾器大小均為7×1,步長均為3,過濾器深度分別為16,32,64,128,256.生成器由4個反卷積層構(gòu)成,4個反卷積層的過濾器大小分別為9×1,7×1,7×1,1025×1,步長分別為3,3,3,1,過濾器深度分別為32,16,8,1.鑒別器由3個卷積層和1個全連接層構(gòu)成,3個卷積層的過濾器大小分別為7×1,7×1,115×1,步長均為3,過濾器深度分別為16,32,64.VAACGAN相比于VAWGAN的改進(jìn)主要在鑒別器部分,其中多了1層輸出語音數(shù)據(jù)類標(biāo)簽的網(wǎng)絡(luò)層.
圖3 VAACGAN模型的網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.3 Network structure diagram of VAACGAN model
圖3中,h,w,c分別表示高度、寬度、通道數(shù);k,c,s分別表示卷積層的內(nèi)核大小、輸出通道數(shù)、步長;Conv表示卷積;Deconv表示反卷積(轉(zhuǎn)置卷積);Fully connected表示全連接層;Batch norm表示批歸一化.潛在變量z的維度設(shè)置為128,訓(xùn)練的批次大小設(shè)置為16,訓(xùn)練周期為200,學(xué)習(xí)率為0.0001,最大迭代次數(shù)為150000.
為了驗證本文提出方法的性能,本文將VAWGAN模型作為實驗的基準(zhǔn)模型,采用充分的客觀評價和主觀評價來評測基于VAACGAN的語音轉(zhuǎn)換模型和基準(zhǔn)模型的性能.
本文選用梅爾倒譜失真距離(Mel Cepstral Distortion, MCD)作為客觀評價標(biāo)準(zhǔn),通過MCD來衡量轉(zhuǎn)換后的語音與目標(biāo)語音的距離[1-2],MCD(單位為dB)的計算公式如下:
(16)
從圖中分析可知,16種轉(zhuǎn)換情形下VAWGAN基準(zhǔn)模型和VAACGAN模型的轉(zhuǎn)換語音的平均MCD值分別5.690和5.350,VAACGAN的平均MCD值比基準(zhǔn)模型低5.98%,驗證了本文提出的改進(jìn)模型得到的轉(zhuǎn)換語音的頻譜相似度優(yōu)于基準(zhǔn)模型,表明了ACGAN能夠顯著改善轉(zhuǎn)換語音的質(zhì)量,提高合成音質(zhì).
本文采用反映語音質(zhì)量的平均意見得分(Mean Opinion Score, MOS)值和反映個性相似度的ABX值來評測轉(zhuǎn)換后的語音.主觀評測人員為20名有語音信號處理研究背景的老師及碩士研究生,本實驗共有16種轉(zhuǎn)換情形,每種情形有35句轉(zhuǎn)換語音,為了避免主觀傾向以及減少評測人員的工作量,在模型置亂的轉(zhuǎn)換情形下,選擇從每種情形的轉(zhuǎn)換語音里面為每個人隨機抽取1句,其中在ABX測試中,評測人員還需同時測聽轉(zhuǎn)換語音相對應(yīng)的源和目標(biāo)說話人的語音.
在MOS測試中,評測人員根據(jù)聽到的語音的質(zhì)量對該語音進(jìn)行打分,評分分為5個等級: 1分表示完全不能接受,2分表示較差,3分表示可接受,4分表示較好,5分表示非常樂意接受.本文將16種轉(zhuǎn)換情形劃分為4類: 男-男,男-女,女-男,女-女.這4類轉(zhuǎn)換情形下兩種模型的轉(zhuǎn)換語音MOS值如圖5所示,本文提出的方法在4種轉(zhuǎn)換情形下的MOS值均高于基準(zhǔn)模型,從實驗結(jié)果對比分析可得,基準(zhǔn)模型和本文提出模型的平均MOS值分別為3.36和3.59,相比基準(zhǔn)模型,本文提出模型的平均MOS值提高了6.85%,表明轉(zhuǎn)換合成語音的自然度優(yōu)于基準(zhǔn)模型,再次驗證了本文提出的利用ACGAN改進(jìn)基準(zhǔn)模型的方案能夠有效地改善合成語音的音質(zhì),提高聽覺質(zhì)量.
圖4 16種轉(zhuǎn)換情形下兩種模型轉(zhuǎn)換語音的MCD值對比Fig.4 Comparison of the MCD values of the speech converted by two models in 16 kinds of conversion cases
圖5 兩種模型在不同轉(zhuǎn)換類別下的MOS值的對比Fig.5 Comparison of MOS values of two models under different conversion categories
在ABX測試中,評測人員評測A、B、X共3組語音,其中: A代表源說話人語音,B代表目標(biāo)說話人語音,X為轉(zhuǎn)換后得到的語音.評測人員判斷轉(zhuǎn)換后的語音更加接近源語音還是目標(biāo)語音,在實際評測時,通常將相似度分為4種等級: A(sure)表示轉(zhuǎn)換語音完全確定是源說話人;A(not sure)表示轉(zhuǎn)換語音像源說話人但不完全確定;B(not sure)表示轉(zhuǎn)換語音像目標(biāo)說話人但不完全確定;B(sure)表示轉(zhuǎn)換語音像目標(biāo)說話人且完全確定.在評測結(jié)果分析中,將B(not sure)和B(sure)的百分比之和作為衡量轉(zhuǎn)換語音更像目標(biāo)說話人的評價標(biāo)準(zhǔn),即ABX值.
本文將16種轉(zhuǎn)換情形劃分為同性轉(zhuǎn)換(男-男,女-女)和異性轉(zhuǎn)換(男-女,女-男),兩種模型在同性轉(zhuǎn)換下的ABX測試結(jié)果如圖6(見第328頁)所示,異性轉(zhuǎn)換下的ABX測試結(jié)果如圖7(見第328頁)所示.在兩種模型的評測中,沒有評測人員認(rèn)為轉(zhuǎn)換后的語音確定是源說話人,因此A(sure)沒有得分,即在圖中沒有比例顯示.如圖6所示,在同性轉(zhuǎn)換情形下,VAWGAN模型和VAACGAN模型的ABX值的比例分別為70.2%和83.1%,與VAWGAN模型相比,VAACGAN模型提升了18.4%.在異性轉(zhuǎn)換情形下,VAWGAN模型和VAACGAN模型的ABX值的比例分別為84.6%和88.7%,與VAWGAN模型相比,VAACGAN模型提升了4.8%.兩種模型在異性轉(zhuǎn)換情形下的說話人個性的相似度均優(yōu)于同性轉(zhuǎn)換情形下的說話人個性的相似度,分析認(rèn)為: 這是因為在ABX的測試中異性轉(zhuǎn)換情形下,人耳對說話人傾向性的測聽更加明顯.同時,VAACGAN模型在同性轉(zhuǎn)換情形下轉(zhuǎn)換語音的相似性提升較大,可見該模型更多地改善了同性轉(zhuǎn)換情形下轉(zhuǎn)換語音的相似性.在同性和異性兩種情形下,VAACGAN模型的平均ABX值提升了10.98%,分析認(rèn)為: VAACGAN模型不僅有效地改善了語音的合成音質(zhì),而且說話人個性相似度方面也有明顯提高,進(jìn)一步驗證了本文提出的改進(jìn)點能夠顯著提升轉(zhuǎn)換合成語音的效果.
圖6 同性轉(zhuǎn)換情形下VAWGAN和 VAACGAN轉(zhuǎn)換語音的ABX圖Fig.6 ABX test results of VAWGAN and VAACGAN for intra-gender
圖7 異性轉(zhuǎn)換情形下VAWGAN和 VAACGAN轉(zhuǎn)換語音的ABX圖Fig.7 ABX test results of VAWGAN and VAACGAN for inter-gender
綜上分析可得,VAACGAN模型相比VAWGAN模型,平均MCD值降低5.98%,平均MOS值提高6.85%,平均ABX值提高10.98%,表明本文通過ACGAN提出的改進(jìn)模型顯著提升了合成語音的質(zhì)量和說話人個性的相似度.
本文提出1種基于變分自編碼器和ACGAN的語音轉(zhuǎn)換框架,可以進(jìn)一步提升非平行文本條件下多對多語音轉(zhuǎn)換的性能.該方法利用ACGAN的鑒別器增加了對樣本分類的輸出性能,使得鑒別器不僅能鑒別生成的頻譜包絡(luò)特征的真假,還能鑒別生成的頻譜包絡(luò)特征的類別,因此,ACGAN能夠提升生成樣本的質(zhì)量,使得生成的樣本更接近特定樣本.充分的客觀和主觀實驗表明: 本文提出的方法明顯優(yōu)于基準(zhǔn)模型,在有效改善轉(zhuǎn)換語音的合成質(zhì)量的同時也顯著提升了說話人個性相似度.下一步的工作將考慮d向量[14]、x向量[15]等更好的說話人表征向量在語音轉(zhuǎn)換中的應(yīng)用,以進(jìn)一步提升轉(zhuǎn)換合成語音的說話人個性的相似度.