高俊峰 陳俊國
(山東科技大學(xué)能源與礦業(yè)工程學(xué)院力學(xué)系 山東 青島 266590)
語音轉(zhuǎn)換是一種在保留語義信息的同時修改語音特征的技術(shù)。此技術(shù)可用于各種任務(wù),如語音輔助[1]、語音增強(qiáng)[2]和身份轉(zhuǎn)換[3]等。
語音轉(zhuǎn)換可以表述為估計(jì)從源語音到目標(biāo)語音的映射函數(shù)的回歸問題,在此之前提出的較為成功的方法有:基于高斯混合模型(GMM)的統(tǒng)計(jì)方法[4-5];基于神經(jīng)網(wǎng)絡(luò)(NN)的方法,如受限玻爾茲曼機(jī)(RBM)[6]、前饋神經(jīng)網(wǎng)絡(luò)(FNN)[7]、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[8]、卷積神經(jīng)網(wǎng)絡(luò)(CNN)[9];基于范例的方法,如非負(fù)矩陣分解(NMF)[10-11]等。
以上VC方法通常使用源語音和目標(biāo)語音進(jìn)行時間對齊的平行數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),如果完全對齊的平行數(shù)據(jù)可獲取,則獲取映射函數(shù)的難度會大大降低。但在實(shí)際應(yīng)用方案中,很難收集到平行數(shù)據(jù),即使獲取到了足夠的數(shù)據(jù)也需要執(zhí)行自動時間對齊,因?yàn)槠叫袛?shù)據(jù)中的錯位可能導(dǎo)致轉(zhuǎn)換語音質(zhì)量下降,因此有一定的失敗概率,所以這些方案需預(yù)篩選和數(shù)據(jù)校正。
由于訓(xùn)練條件的缺陷,非平行語料下的VC研究難度大且起步晚。當(dāng)前,一些非平行VC研究使用了自動語音識別(ASR)模塊或額外的說話者之間的部分平行語料數(shù)據(jù)。盡管它們對訓(xùn)練有幫助,但準(zhǔn)備附加模塊會增加其他成本,從而限制其應(yīng)用。為了提高普適性和精簡性,近期一些研究使用了概率神經(jīng)網(wǎng)絡(luò)(例如自適應(yīng)受限玻爾茲曼機(jī)(ARBM)[12]和變分自動編碼器(VAE)[13]),這些模型沒有多余的數(shù)據(jù)、模塊和時間對齊過程。它們的局限性在于需要顯式地近似數(shù)據(jù)分布(通常使用高斯分布),而這往往會導(dǎo)致通過統(tǒng)計(jì)平均造成的過度平滑。為了克服數(shù)據(jù)分布問題,最近的研究結(jié)合了GAN[14],它可以學(xué)習(xí)接近目標(biāo)的生成分布而無須顯式逼近,從而避免了由統(tǒng)計(jì)平均引起的過度平滑。但這些模型難以學(xué)習(xí)語音的時序性特征。
為進(jìn)一步提高語音轉(zhuǎn)換效果,Kaneko等[15]提出了CycleGAN-VC模型,此模型將循環(huán)一致性生成式對抗網(wǎng)絡(luò)(CycleGAN)[16]應(yīng)用到語音轉(zhuǎn)換中,使用了門控CNN來配置CycleGAN,并使用身份映射損失[17]進(jìn)行訓(xùn)練,這使得網(wǎng)絡(luò)可以更好地保留語音信息的同時捕獲順序和層次結(jié)構(gòu)。CycleGAN-VC的局限是只能用于兩個訓(xùn)練樣本之間的語音轉(zhuǎn)換,為解決多說話人的語音轉(zhuǎn)換問題,日本的NTT實(shí)驗(yàn)室又提出了StarGAN-VC[18],但仍舊只能解決訓(xùn)練的幾個特定說話人間的語音轉(zhuǎn)換。
盡管CycleGAN-VC已經(jīng)在非平行數(shù)據(jù)下取得不錯的成果,并且之后又提出了修改生成器和判別器結(jié)構(gòu)的CycleGAN-VC2[19],但其實(shí)際語音轉(zhuǎn)換效果仍有較大進(jìn)步空間。
另外,NVIDIA最近提出的StyleGAN[20]被用來生成高分辨率真實(shí)的圖片,其核心在于對生成過程的分層精細(xì)控制以及對特征的解纏研究。其生成樣本的本質(zhì)是對不同訓(xùn)練樣本的特征進(jìn)行融合。
本文提出一種基于Style-CycleGAN-VC的非平行語料下的語音轉(zhuǎn)換新方法。其主要思想是將StyleGAN精細(xì)的生成器結(jié)構(gòu)融合到CycleGAN-VC的生成器網(wǎng)絡(luò)中,添加輔助的特征提取神經(jīng)網(wǎng)絡(luò)提取頻譜特征用于特征融合,并通過構(gòu)造超參數(shù)來控制特征提取網(wǎng)絡(luò)對轉(zhuǎn)換網(wǎng)絡(luò)架構(gòu)的影響。實(shí)驗(yàn)表明,新模型提高了語音轉(zhuǎn)換效果且實(shí)現(xiàn)了任意說話人間的語音轉(zhuǎn)換。
另外,Style-CycleGAN-VC與Info-GAN[21-22]有較大不同。Info-GAN通過帶有互信息的損失函數(shù),使其更傾向于生成數(shù)據(jù)的抽象特征與輸入隱碼之間聯(lián)系的可解釋性,而本文模型則更傾向于生成數(shù)據(jù)的真實(shí)性及不可分辨性。
生成式對抗網(wǎng)絡(luò)以一種非監(jiān)督學(xué)習(xí)的方式,通過讓兩個神經(jīng)網(wǎng)絡(luò)相互博弈的方法進(jìn)行學(xué)習(xí)。生成對抗網(wǎng)絡(luò)由一個生成網(wǎng)絡(luò)和一個判別網(wǎng)絡(luò)組成,生成網(wǎng)絡(luò)從潛在空間中隨機(jī)采樣作為輸入,其輸出結(jié)果需要盡量模仿訓(xùn)練集中的真實(shí)樣本。判別網(wǎng)絡(luò)的輸入為真實(shí)樣本或生成網(wǎng)絡(luò)的輸出,其目的是將生成網(wǎng)絡(luò)的輸出從真實(shí)樣本中盡可能地分辨出來,而生成網(wǎng)絡(luò)則盡可能地欺騙判別網(wǎng)絡(luò),兩個網(wǎng)絡(luò)相互對抗,不斷調(diào)整參數(shù)。生成對抗網(wǎng)絡(luò)常用于生成以假亂真的圖片。
CycleGAN由兩個生成網(wǎng)絡(luò)和兩個判別網(wǎng)絡(luò)組成,生成網(wǎng)絡(luò)A是輸入A類風(fēng)格的圖片輸出B類風(fēng)格的圖片,生成網(wǎng)絡(luò)B是輸入B類風(fēng)格的圖片輸出A類風(fēng)格的圖片。生成網(wǎng)絡(luò)中編碼部分的網(wǎng)絡(luò)結(jié)構(gòu)采用Convolution-Norm-ReLU作為基礎(chǔ)結(jié)構(gòu),解碼部分的網(wǎng)絡(luò)結(jié)構(gòu)由Transpose Convolution-Norm-ReLU組成,判別網(wǎng)絡(luò)由Convolution-Norm-Leaky_ReLU作為基礎(chǔ)結(jié)構(gòu)。其整體結(jié)構(gòu)圖如圖1所示,其中:X為源數(shù)據(jù)域;Y為目標(biāo)數(shù)據(jù)域;x為X中的數(shù)據(jù);y為Y中的數(shù)據(jù);G為從X到Y(jié)的映射函數(shù);F為從Y到X的映射函數(shù);y2為x通過G映射后生成的數(shù)據(jù);x1為y2通過F映射后生成的數(shù)據(jù);Dx為判別x2真假的判別器;x2為y通過F映射后生成的數(shù)據(jù);y1為x2通過G映射后生成的數(shù)據(jù);Dy為判別y2真假的判別器。
圖1 CycleGAN整體結(jié)構(gòu)
StyleGAN為生成對抗網(wǎng)絡(luò)提出了另一種生成器結(jié)構(gòu)。此結(jié)構(gòu)可以在無監(jiān)督學(xué)習(xí)下分離高級屬性(例如在人臉上訓(xùn)練時的姿勢和身份)和生成圖像(例如,雀斑、頭發(fā))中的隨機(jī)變化,并能夠直觀地、按照特定尺度地控制生成。其詳細(xì)結(jié)構(gòu)如圖2所示。
圖2 StyleGAN詳細(xì)結(jié)構(gòu)
輸入圖像的整體特征和細(xì)微特征間存在耦合,而耦合就導(dǎo)致了圖像可控性差,無法對單個特征進(jìn)行調(diào)節(jié)。從結(jié)構(gòu)圖可以看出,StyleGAN提出了一種無監(jiān)督但又可控性強(qiáng)的方案,對不同層次的卷積層進(jìn)行操作,從而最終實(shí)現(xiàn)特征解耦和生成特征的可解釋性和可控性。
無論是目前雙向轉(zhuǎn)換效果較好的CycleGAN-VC和CycleGAN-VC2,還是對多說話人進(jìn)行語音轉(zhuǎn)換的StarGAN-VC,對其生成器進(jìn)行分析,其訓(xùn)練過程本質(zhì)上是對語音特征的記憶存儲以及融合過程。而StarGAN-VC之所以效果不如CycleGAN-VC,是因?yàn)槠涫褂昧讼蛄縼肀硎静煌恼f話人,從而使生成器調(diào)用大量網(wǎng)絡(luò)層參數(shù)中的不同部分(不考慮特征耦合)進(jìn)行生成。但CycleGAN的生成器參數(shù)與其相差不多,而且一個生成器只用于存儲記錄一個說話人的語音特征,所以在語音特征總體和細(xì)節(jié)上都會更好,從而使得轉(zhuǎn)化效果更好。
對此,本文提出一種Style-CycleGAN-VC對生成器整體結(jié)構(gòu)添加輔助特征提取網(wǎng)絡(luò),將之前的特征記憶存儲缺陷轉(zhuǎn)化為特征提取過程,并借鑒StyleGAN對生成圖片分辨率不同層次的精細(xì)控制結(jié)構(gòu),將其融合到生成器的主結(jié)構(gòu)中,重構(gòu)損失函數(shù),最終實(shí)現(xiàn)語音轉(zhuǎn)換效果的提高和任意說話人下的任意語音轉(zhuǎn)換。
1) 總架構(gòu)。假設(shè)源數(shù)據(jù)x∈X,目標(biāo)數(shù)據(jù)y∈Y,模型的目標(biāo)是在不使用平行數(shù)據(jù)的情況下,學(xué)習(xí)它們之間的映射GX→Y。整個系統(tǒng)分為正向和逆向兩部分,二者連接構(gòu)成循環(huán)網(wǎng)絡(luò)。兩部分分別由一個生成器和一個判別器構(gòu)成,其中生成器由兩部分組成,分別是特征提取網(wǎng)絡(luò)和特征融合網(wǎng)絡(luò)。選取前向部分進(jìn)行說明,數(shù)據(jù)X通過GY→X嘗試生成滿足Y分布的數(shù)據(jù)F_Y,判別器Dy通過與真實(shí)的目標(biāo)數(shù)據(jù)進(jìn)行對比,判斷出F_Y是假的目標(biāo)數(shù)據(jù),從而驅(qū)使生成器生成更真實(shí)的數(shù)據(jù),同時驅(qū)使判別器更好地識別數(shù)據(jù)真假。同時,為了使生成器生成的數(shù)據(jù)是在語音特征上不是在語音信息上與目標(biāo)數(shù)據(jù)接近,一個約束是使用循環(huán)網(wǎng)絡(luò)的另一部分,將F_Y作為輸入,通過GY→X生成X’,通過逼近X與X’,來實(shí)現(xiàn)語義信息的保留,另一個約束是將Y作為輸入,使用GX→Y生成I_Y,通過逼近Y與I_Y,進(jìn)一步保證語音信息的保留。網(wǎng)絡(luò)結(jié)構(gòu)的拓?fù)鋱D如圖3所示。
圖3 Style-CycleGAN-VC全局架構(gòu)
2) 生成器和判別器架構(gòu)。生成器主要由兩部分構(gòu)成,分別為特征融合和特征提取網(wǎng)絡(luò),特征融合又分為編碼、轉(zhuǎn)換、解碼三部分。
(1) 特征提取網(wǎng)絡(luò)與判別器。特征提取網(wǎng)絡(luò)可以看作是對需要轉(zhuǎn)化的目標(biāo)數(shù)據(jù)的特征提取,與判別器架構(gòu)類似,判別器結(jié)構(gòu)和參數(shù)如圖4和表1所示。由于判別器只通過將頻譜的特征映射到低維空間判斷數(shù)據(jù)真假,所以可以看作判別器提取到了數(shù)據(jù)的非信息特征,特征提取網(wǎng)絡(luò)與之不同之處在于去除了Sigmoid層,而且使用的全連接層的輸出維度更高。二者的其他實(shí)現(xiàn)采用二維卷積層、實(shí)例歸一化層、門控CNN層。其中門控CNN不僅實(shí)現(xiàn)了語言建模[23]和語音建模[24]的最新技術(shù),而且實(shí)現(xiàn)了對順序數(shù)據(jù)進(jìn)行并行化。在門控CNN中,GLU是數(shù)據(jù)驅(qū)動的激活函數(shù),公式如下:
表1 判別器參數(shù)表
圖4 判別器結(jié)構(gòu)
Hl+1=(Hl×Wl+bl)?σ(Hl×Vl+cl)
(1)
式中:Wl和Vl表示不同的卷積核;bl和cl是偏置參數(shù);σ是S形函數(shù);?是元素乘積。根據(jù)最新的研究表明,采用門控CNN可以替代RNN并選擇性地根據(jù)先前的層狀態(tài)傳播信息。
(2) 特征融合網(wǎng)絡(luò)。特征融合網(wǎng)絡(luò)分為三部分,編碼器部分是對數(shù)據(jù)進(jìn)行下采樣,將頻譜信息映射到低維空間后,使用6個殘差塊網(wǎng)絡(luò)進(jìn)行特征轉(zhuǎn)換。使用一維卷積層、實(shí)例化歸一層、門控CNN來實(shí)現(xiàn)。轉(zhuǎn)換部分由6個殘差塊實(shí)現(xiàn),其表達(dá)式如下:
Xk=Hk(Xk-1)+Xk-1
(2)
式中:Hl表示兩組一維卷積,自適應(yīng)實(shí)例歸一化(AdaIN),門控CNN,其中,自適應(yīng)實(shí)例歸一化操作定義為:
(3)
式中:μ(xi)為均值;σ(xi)為方差;每個特征映射xi分別標(biāo)準(zhǔn)化后,使用放射變化的可學(xué)習(xí)參數(shù)ys,i和yb,i分別進(jìn)行縮放和偏置操作。
本文使用一個超參數(shù)λγ_β控制輔助的特征提取網(wǎng)絡(luò)對主網(wǎng)絡(luò)的影響,公式如下:
ysn,i=(1+γ×λγ_β)×(ys,i×(1-λγ_β))
(4)
ybn,i=(1+β×λγ_β)×(yb,i×(1-λγ_β))
(5)
式中:γ和β是分別通過仿射變換An得到的參數(shù)。
所以,最終的AdaIN操作為:
(6)
特征融合網(wǎng)絡(luò)的參數(shù)設(shè)置如表2所示。
表2 生成器參數(shù)表
將上述兩個網(wǎng)絡(luò)整合,最終得到的生成器總結(jié)構(gòu)如圖5所示,其中“S×5”表示此處為5個與模塊S相同的模塊。
圖5 生成器結(jié)構(gòu)
(1) 對抗性損失。對抗性損失是為了使生成器生成的數(shù)據(jù)難以被分辨真假,生成器GX→Y通過最小化損失生成Dy無法分辨真假的數(shù)據(jù),Dy通過最大化損失不被GY→X所欺騙。用公式可以表示為:
Ladv(GX→Y,Dy)=Ey~PData(y)[‖Dy(y2)‖]+
Ey~PData(y)[‖1-Dy(GX→Y(x,y))‖2]
(7)
式中:y~Pdata(y)表示y來自于真實(shí)數(shù)據(jù)分布Pdata(y),x與之類似;E表示對所有數(shù)取均值。
(2) 循環(huán)一致性損失。僅使用對抗性損失并不能保證生成的數(shù)據(jù)保留語音的語音信息,而循環(huán)一致性損失通過最小化循環(huán)生成的數(shù)據(jù)與源數(shù)據(jù)的L1范數(shù),幫助保存語音信息。用公式可以表示為:
Lcyc(GX→Y,GX→Y)=Ex~PData(x)[‖GY→X(GX→Y(x,y))-x1‖]+
Ey~PData(y)[‖GX→Y(GY→X(y,x),y)-y1‖]
(8)
(3) 身份映射損失。在單向過程中,使用身份映射損失,將目標(biāo)數(shù)據(jù)作為輸入,并將輸出與目標(biāo)數(shù)據(jù)進(jìn)行逼近,驅(qū)使生成器保證語音信息的保留。用公式表示如下:
Lid(GX→Y,GX→Y)=Ex~PData(x)[‖GY→X(x,x)-x1‖]+
Ey~PData(y)[‖GX→Y(y,y)-y1‖]
(9)
(4) 總損失。使用超參數(shù)λcyc、λid作為系數(shù),將前文中的三項(xiàng)損失加權(quán)相加,得到總損失,公式如下:
Lfull(GX→Y,GX→Y)=Ladv(GX→Y,Dy)+
Lαdv(GY→X,Dx)+λcycLcyc(GX→Y,GX→Y)+
λidLid(GX→Y,GX→Y)
(10)
在預(yù)處理過程中,使用WORLD模型 ,把音頻文件分解為對數(shù)基頻參數(shù)(logF0)、頻譜參數(shù)(SP)、非周期性參數(shù)(AP),并隨機(jī)選取128幀固定長度的段,設(shè)置初始λcyc為10,λid為5,λγ_β=10-5,λγ_β的值隨著迭代次數(shù)的增加線性增加,并設(shè)置在10 000次迭代后,λid為0,且設(shè)置λγ_β=0.9時保持不變。同時,使用Adam優(yōu)化器[25]訓(xùn)練網(wǎng)絡(luò),動量項(xiàng)設(shè)為0.5,生成器的學(xué)習(xí)率為0.000 2,判別器學(xué)習(xí)率為0.000 1,當(dāng)?shù)螖?shù)超過100 000次后,學(xué)習(xí)率線性降低。同時使用Xavier[26]初始化參數(shù),使每一層輸出的方差盡量相等。
實(shí)驗(yàn)使用Voice Conversion Challenge 2016 中基于DAPS(數(shù)據(jù)和制作演講)數(shù)據(jù)集的開放數(shù)據(jù)集。實(shí)驗(yàn)時,每段錄音被下采樣到16 kHz、16 bit。
為加速實(shí)驗(yàn),實(shí)驗(yàn)在兩個平臺下分別運(yùn)行,分別是本地的TensorFlow版和AIstudio云平臺的Paddlefluid版,由于Paddlefluid版本的代碼是在AIstudio上運(yùn)行,平臺限制導(dǎo)致數(shù)據(jù)預(yù)處理部分與語音合成部分放在了本地運(yùn)行,與神經(jīng)網(wǎng)絡(luò)相分離。
梅爾倒譜(Mel-cepstral)失真[27]是評估合成的MCEP質(zhì)量的常用方法,但是最近的三項(xiàng)研究[13,28-29]表明此方式存在一定局限性。因?yàn)镸EL-CD內(nèi)部呈現(xiàn)高斯分布, 導(dǎo)致其傾向于過平滑。因此,本文采用MOS測試和ABX測試評估轉(zhuǎn)換后的語音質(zhì)量。
作為對比實(shí)驗(yàn),將本文方法分別與基于GMM、StarGAN-VC、CycleGAN-VC的方法進(jìn)行比較,選取4組說話人進(jìn)行神經(jīng)網(wǎng)絡(luò)的訓(xùn)練并進(jìn)行評估。盡管Style-CycleGAN-VC可以實(shí)現(xiàn)任意樣本下的語音轉(zhuǎn)換,但為了控制變量從而與其他模型進(jìn)行等價對比,本文實(shí)驗(yàn)過程中仍舊對Style-CycleGAN-VC模型進(jìn)行了4次重新訓(xùn)練。另外,在復(fù)現(xiàn)過程中發(fā)現(xiàn)CycleGAN-VC生成損失中使用的對數(shù)函數(shù)訓(xùn)練不夠穩(wěn)定,使用L2范數(shù)對其進(jìn)行替代,并使用相同的參數(shù)初始化。
對于任意樣本的語音轉(zhuǎn)換,本文使用了未經(jīng)網(wǎng)絡(luò)擬合的TM1和TF2說話人的樣本進(jìn)行轉(zhuǎn)換實(shí)驗(yàn)來測試,并將評估結(jié)果分別與GMM、ARBM、StarGAN-VC、CycleGAN-VC進(jìn)行對比。
實(shí)驗(yàn)使用WORLD模型得到對數(shù)基頻參數(shù)(logF0)、頻譜參數(shù)(SP)、非周期性參數(shù)(AP)。轉(zhuǎn)換完成后對神經(jīng)網(wǎng)絡(luò)得到的SP、使用單高斯模型轉(zhuǎn)換的logF0,以及不做改變的AP進(jìn)行語音合成。最后,對得到的合成語音進(jìn)行質(zhì)量和相似度評估。
整個語音合成過程如圖6所示。
圖6 語音轉(zhuǎn)換總體框架
不同模型間的對比實(shí)驗(yàn)共分為四組,分別是SF1->TF2、SM1->TM2、SF1->TM2、SM1->TF2,使用MOS對GMM、StarGAN-VC、CycleGAN-VC、Style-CycleGAN-VC四種模型的實(shí)驗(yàn)結(jié)果的語音質(zhì)量進(jìn)行評估,結(jié)果如圖7所示。
圖7 不同模型語音轉(zhuǎn)換質(zhì)量對比結(jié)果
可見,在語音轉(zhuǎn)換質(zhì)量方面,相較于CycleGAN-VC、StarGAN-VC和GMM,Style-CycleGAN-VC無論是在性別間還是性別內(nèi)的轉(zhuǎn)換效果均有所提高。另外,二者都在女轉(zhuǎn)男的測試中得分高于男轉(zhuǎn)女。
用ABX測試法對Style-CycleGAN-VC的四組語音轉(zhuǎn)換結(jié)果相似度進(jìn)行評估,結(jié)果如圖8所示。
圖8 Style-CycleGAN-VC語音相似度分析結(jié)果
在語音相似度方面,性別間轉(zhuǎn)換由于基頻的原因,實(shí)驗(yàn)結(jié)果與預(yù)測的相同,全部更接近轉(zhuǎn)換目標(biāo),而性別內(nèi)轉(zhuǎn)換,由于不同說話人之間的音色差別有些較大有些較小導(dǎo)致對不同數(shù)據(jù)的實(shí)驗(yàn)結(jié)果相差較大,但從實(shí)驗(yàn)結(jié)果也可以看出轉(zhuǎn)換更偏向于目標(biāo)。
對任意樣本下的實(shí)驗(yàn)分為兩組,測試結(jié)果如表3所示。
表3 任意樣本語音轉(zhuǎn)換質(zhì)量及相似度得分表
Style-CycleGAN-VC的語音轉(zhuǎn)換質(zhì)量高于ABRM,與CycleGAN-VC、StarGAN-VC相差較小,而語音相似度方面得分有所降低。但考慮到Style-CycleGAN-VC未經(jīng)過轉(zhuǎn)換語音訓(xùn)練而直接進(jìn)行轉(zhuǎn)換,所以實(shí)驗(yàn)結(jié)果可以接受。
任取CycleGAN-VC和Style-CycleGAN-VC一組語音數(shù)據(jù)轉(zhuǎn)化為相應(yīng)波形圖如圖9所示。
圖9 SF1->TF2轉(zhuǎn)換結(jié)果波形圖
CycleGAN-VC轉(zhuǎn)化語音的波形圖幅值在特定位置超過1,而由此產(chǎn)生的噪音會嚴(yán)重影響語音質(zhì)量,相比之下,Style-CycleGAN-V生成的語音則更為平滑,因此轉(zhuǎn)換過程產(chǎn)生的噪聲明顯降低,語音質(zhì)量明顯提高。
經(jīng)實(shí)驗(yàn)表明,Style-CycleGAN-VC實(shí)現(xiàn)了非平行語料下任意樣本間的語音轉(zhuǎn)換,且與ABRM、StarGAN-VC、CycleGAN-VC等主流模型相比,新模型對特定說話人的任意樣本的語音轉(zhuǎn)換效果有所提高,對任意說話人的任意樣本的語音轉(zhuǎn)換效果與CycleGAN-VC模型相近。
本文提出一種用于非平行語料下實(shí)現(xiàn)任意說話人的任意樣本間語音轉(zhuǎn)換的方法Style-CycleGAN-VC。由于基于深度學(xué)習(xí)的方法很難實(shí)現(xiàn)端對端的語音轉(zhuǎn)換,而是使用了對數(shù)據(jù)進(jìn)行預(yù)處理使用頻譜做轉(zhuǎn)換的方式,這導(dǎo)致后期進(jìn)行語音合成時,需要使用單高斯模型轉(zhuǎn)換法對基頻進(jìn)行轉(zhuǎn)換。目前階段由于頻譜轉(zhuǎn)換的質(zhì)量問題,這種方法的局限性不會表現(xiàn)明顯,但隨著網(wǎng)絡(luò)架構(gòu)的進(jìn)一步細(xì)化或頻譜轉(zhuǎn)換質(zhì)量的進(jìn)一步提高,這種方案就會成為整體語音轉(zhuǎn)換系統(tǒng)的短板從而降低語音轉(zhuǎn)換的質(zhì)量。而這也是前文中提到的男女之間轉(zhuǎn)換質(zhì)量存在明顯差異的原因。
另外,從本文提出的網(wǎng)絡(luò)生成器架構(gòu)來看,由于輔助特征提取網(wǎng)絡(luò)從生成器主網(wǎng)絡(luò)中分離,從而使原本需要將特征保存在生成器網(wǎng)絡(luò)中的特征轉(zhuǎn)化為特征提取過程,由此得到一個語音轉(zhuǎn)換的通用模型,這使得可以像任意圖片間的風(fēng)格遷移一樣,實(shí)現(xiàn)任意樣本下的語音轉(zhuǎn)換,而無須通過分別訓(xùn)練擬合不同樣本數(shù)據(jù)得到不同的模型分別做語音轉(zhuǎn)換。不足之處在于通用模型的語音相似度和語音轉(zhuǎn)換質(zhì)量還有待提高。希望未來技術(shù)進(jìn)一步發(fā)展實(shí)現(xiàn)無限逼近真實(shí)語音效果的語音轉(zhuǎn)換。