王 民,楊秀峰,要趁紅
(西安建筑科技大學(xué)信息與控制工程學(xué)院,陜西 西安 710055)
語音包含許多信息,其中最主要的是語義信息和個性化特征信息。語音轉(zhuǎn)換是指改變一個說話人的語音個性特征信息,使之具有另外一個人的語音個性特征信息[1]。語音轉(zhuǎn)換是一種新興的語音處理技術(shù),可應(yīng)用于眾多領(lǐng)域,如用于商業(yè)應(yīng)用文語的轉(zhuǎn)換[2]、用于電影行業(yè)的配音[3]及在醫(yī)學(xué)領(lǐng)域提升喉部受損人的語音質(zhì)量和清晰度[4]等。
語音轉(zhuǎn)換系統(tǒng)設(shè)計的根本在于提取表征說話人的個性特征信息并建立合適的轉(zhuǎn)換模型。目前語音轉(zhuǎn)換系統(tǒng)主要是針對譜包絡(luò)的轉(zhuǎn)換,譜包絡(luò)中含有大量的語音個性特征信息,使得譜特征的提取更加便捷。除此之外,韻律特征也是很重要的語音個性化特征,如基因頻率改變較大的情況下會導(dǎo)致語音的機(jī)械性。迄今為止,學(xué)者們對語音轉(zhuǎn)換方法的探索從未停止。孫健等[5]提出了一種基于卷積非負(fù)矩陣分解的語音轉(zhuǎn)換方法,但由于分解結(jié)果的不唯一問題阻礙了其在語音轉(zhuǎn)換中的應(yīng)用;馬振等[6]利用語音的稀疏性和K-均值奇異值分解來實現(xiàn)語音轉(zhuǎn)換,但其本質(zhì)上是線性的,對語音信號中的非線性特征表征不足。但是,最為普遍使用的語音轉(zhuǎn)換方法是基于高斯混合模型GMM(Gaussian Mixture Model)[7 - 10]和人工神經(jīng)網(wǎng)絡(luò)ANN(Artificial Neural Network)[11 - 14]模型的。然而,利用GMM模型進(jìn)行語音轉(zhuǎn)換存在過平滑和過擬合等問題,影響了轉(zhuǎn)換語音的性能。不少學(xué)者對其進(jìn)行了改進(jìn),如簡志華等[7]提出采用壓縮感知理論來考慮語音特征參數(shù)的相關(guān)性,Ghorbandoost等[8]提出特征組合方法進(jìn)行語音轉(zhuǎn)換,Erro等[9]利用雙線性頻率彎折和振幅縮放的方法優(yōu)化GMM,但轉(zhuǎn)換后的效果依然不理想。
Figure 1 Voice conversion system diagram圖1 語音轉(zhuǎn)換系統(tǒng)框圖
針對以上語音轉(zhuǎn)換方法存在的問題,本文提出了一種粒子群算法PSO(Particle Swarm Optimization)[13,14]優(yōu)化廣義回歸神經(jīng)網(wǎng)絡(luò)GRNN(General Regression Neural Network)[15],形成了PSO-GRNN[16]模型的語音轉(zhuǎn)換方法。首先,GRNN是一個訓(xùn)練過程快、相對耗時少的學(xué)習(xí)網(wǎng)絡(luò),能很好地表征說話人之間個性特征的非線性關(guān)系,于是利用源語音和目標(biāo)語音的聲道和激勵源的個性化特征參數(shù)分別訓(xùn)練兩個GRNN,得到GRNN的結(jié)構(gòu)參數(shù)。其次,基于實際應(yīng)用的考慮,引入PSO優(yōu)化GRNN的結(jié)構(gòu)參數(shù)進(jìn)行優(yōu)化,加快網(wǎng)絡(luò)的收斂性,同時也可最大限度地減少模型參數(shù)選擇時人為因素的影響,提升語音轉(zhuǎn)換的精確度。最后,對語音的韻律特征基音輪廓和能量分別進(jìn)行線性轉(zhuǎn)換,保證了轉(zhuǎn)換后的語音含有更多目標(biāo)語音的個性特征信息,提升了轉(zhuǎn)換語音的自然度與似然度,使得轉(zhuǎn)換后的語音更接近目標(biāo)語音。
語音轉(zhuǎn)換系統(tǒng)的框圖如圖1所示。語音轉(zhuǎn)換系統(tǒng)由訓(xùn)練和轉(zhuǎn)換兩個階段組成。
訓(xùn)練階段:
(1)對源和目標(biāo)訓(xùn)練語音進(jìn)行歸一化,然后去除語音端點的冗余,剩余信號則用于特征提取并改造。
(2)通過線性預(yù)測LPC(Linear Predictive Coefficients)分析提取聲道參數(shù),源于LPC參數(shù)的基因殘留用來描述語音信號的激勵源。
(3)LPC參數(shù)推導(dǎo)得到線譜頻率LSF(Line Spectral Frequencies)系數(shù),克服LPC參數(shù)存在的插值、量化和穩(wěn)定性問題,對基因殘留估計進(jìn)行小波分解。
(4)對源和目標(biāo)語音的LSF系數(shù)及第一層小波分解系數(shù)分別使用動態(tài)時間規(guī)整DTW(Dynamic Time Warping)技術(shù);對韻律特征進(jìn)行參數(shù)提取。
(5)用特征參數(shù)LSF系數(shù)和第一層小波分解系數(shù)分別訓(xùn)練徑向基函數(shù)RBF(Radial Basis Function)、GRNN、PSO-GRNN這三種模型,建立相應(yīng)的轉(zhuǎn)換規(guī)則。
轉(zhuǎn)換階段:
(1)用RBF、GRNN和PSO-GRNN這三種轉(zhuǎn)換模型分別對測試語音的個性特征進(jìn)行轉(zhuǎn)換;
(2)LSF系數(shù)逆推得到LPC參數(shù)。對轉(zhuǎn)換后的小波系數(shù)進(jìn)行小波重建,特征之間的組合使用LPC合成;
(3)使用基因同步疊加技術(shù)將LPC合成語音、測試語音的基因輪廓及基因輪廓的比例因子組合成新的語音信號;
(4)將基因能量根據(jù)比例因子也縮放至語音信號中,再通過濾波的方式提高轉(zhuǎn)換后的語音質(zhì)量,得到最終期望的目標(biāo)語音。
已知自變量X可求得因變量y的期望為:
(1)
通常聯(lián)合密度函數(shù)f(X,Y)可由訓(xùn)練樣本集近似估計出來,本文選用高斯核函數(shù)進(jìn)行估計。
(2)
其中,N為學(xué)習(xí)樣本數(shù)目,σ表示光滑因子,P表示X的維數(shù)。
(3)
(4)
GRNN的拓?fù)浣Y(jié)構(gòu)由兩個靜態(tài)層構(gòu)成:模式層和求和層,如圖2所示。
Figure 2 Structure diagram of GRNN model圖2 GRNN模型結(jié)構(gòu)圖
模式層的節(jié)點接受輸入層神經(jīng)元的輸出向量Xn=[xn,1,xn,2,…,xn,P]T,其中神經(jīng)元個數(shù)等于訓(xùn)練樣本中輸入向量的維數(shù)P。通過式(5)計算模式層中第n個訓(xùn)練樣本輸入的第j個神經(jīng)元的輸出值:
(5)
求和層可以看作是由單元M和單元D組成,分別與式(6)的分子和分母對應(yīng)。模式層輸出被應(yīng)用到求和層的M、D單元。權(quán)值wj,k表示模式層中第j個神經(jīng)元與求和層中第k個分子求和神經(jīng)元之間的連接,等于訓(xùn)練樣本中第j個輸出向量中的第k個元素yj,k。
最后,輸出層中神經(jīng)元的個數(shù)等于學(xué)習(xí)樣本中輸出向量的維數(shù)K,各個輸出神經(jīng)元的輸出是用單元M的輸出除以單元D的輸出產(chǎn)生結(jié)果:
(6)
在本文中,基于GRNN聲道映射模型是通過源和目標(biāo)語音的LSP參數(shù)訓(xùn)練建立;激勵映射模型是通過小波殘差訓(xùn)練建立。
將GRNN模型的光滑因子看作是PSO的粒子,利用PSO尋找最優(yōu),最大限度地減少人為因素對模型參數(shù)選擇的影響。粒子在維空間中的位置為xi=(xi1,xi2,…,xip)T,速度為vi=(vi1,vi2,…,viD)T。由式(7)計算得到每個粒子的個體最佳適應(yīng)度值和全局最佳適應(yīng)度值。
(7)
通過式(8)~式(10)更新粒子的位置和速度:
vid=w·vid+c1·r1d·(pid-xid)+
c2·r2d(pgd-xid),
i=1,2,…,N;d=1,2,…,D
(8)
xid=xid+vid
(9)
(10)
其中,c1、c2為加速因子;r1d、r2d為0~1的隨機(jī)數(shù);pid、pgd為個體極值和全局極值;w為慣性因子;wma、wmi分別是初始慣性權(quán)值和迭代至最大次數(shù)時的慣性權(quán)值;it、itma分別是當(dāng)前迭代次數(shù)和最大迭代次數(shù)。
PSO結(jié)束時,得到的全局最優(yōu)值作為GRNN模型的光滑因子。
韻律參數(shù)包括基因輪廓、時長和能量等,韻律的轉(zhuǎn)換就是對韻律參數(shù)的轉(zhuǎn)換。本文采用基因同步的方法轉(zhuǎn)換基因輪廓,轉(zhuǎn)換系數(shù)定義為源和目標(biāo)說話人基因的平均總間距之比,故轉(zhuǎn)換系數(shù)又稱為比例因子。比例因子α可以用下式表示:
α=ps/pt
(11)
其中,源和目標(biāo)說話人的平均基因周期分別用ps和pt表示。因此,語音轉(zhuǎn)換后的基因輪廓就是測試語音信號的基因輪廓和基因修改因子的乘積。
為設(shè)計有效的語音轉(zhuǎn)換系統(tǒng),測試語音的能量也需要根據(jù)所需的目標(biāo)語音的能量進(jìn)行調(diào)整。用源和目標(biāo)說話人音段平均能量之比表示轉(zhuǎn)換因子,這個比例因子的數(shù)學(xué)表達(dá)為:
β=es/et
(12)
其中,es和et分別表示源和目標(biāo)說話人的平均能量。測試語音的音段信號能量根據(jù)比例因子β重構(gòu),即可得到期望信號的能量。
實驗選用卡內(nèi)基梅隆大學(xué)CMU(Camogie Mellon University)的ARCTIC語音庫。從該語音庫中選擇兩個男性和兩個女性的語音,然后各挑選120段語音作為訓(xùn)練語音,20段語音作為測試語音。
關(guān)于PSO的參數(shù)設(shè)置:粒子群大小根據(jù)訓(xùn)練GRNN模型的所得光滑因子確定,設(shè)定為40;加速因子、慣性因子限值、最大迭代次數(shù)分別根據(jù)實驗仿真效果所設(shè),分別為2、0.9~0.4、1 000。
本文采用主、客觀兩種評價方式測評本文的語音轉(zhuǎn)換方法。主觀評價通過MOS和ABX兩種評測方式,分別評測轉(zhuǎn)換語音的自然度和似然度;客觀評價根據(jù)譜失真來測評。
MOS測試分為5個等級,從1分到5分別對應(yīng):很差、差、一般、好和很好。選用10位具有正常聽覺感知能力的人作為測評人,測評結(jié)果如表1所示。
Table 1 Result of MOS test表1 MOS測評結(jié)果
由表1可知:縱向?qū)Ρ?,基于RBF、GRNN、PSO-GRNN這三種模型的語音轉(zhuǎn)換,同性別轉(zhuǎn)換語音的自然度高于異性間的。橫向?qū)Ρ?,PSO-GRNN模型轉(zhuǎn)換語音測評的數(shù)值高于RBF模型和GRNN模型的,說明本文提出的基于PSO-GRNN模型轉(zhuǎn)換語音的自然度明顯高于基于RBF和GRNN模型的轉(zhuǎn)換語音,且無論是同性或異性間的轉(zhuǎn)換語音的自然度均大于或等于3,達(dá)到一般水準(zhǔn)。
ABX測試中A表示源說話人語音,B表示目標(biāo)說話人語音,X表示轉(zhuǎn)換得到的語音。選用10位具有正常聽覺感知能力的人作為測評人,判斷X與A、B的相似度,滿分為100分。測評結(jié)果如表2所示。
Table 2 Result of ABX test表2 ABX測評結(jié)果
從表2可以看出:基于RBF、GRNN、PSO-GRNN這三種模型的轉(zhuǎn)換語音,異性間轉(zhuǎn)換的語音似然度優(yōu)于同性之間,而異性間的語音轉(zhuǎn)換似然度又以男聲轉(zhuǎn)換為女生時為最佳。當(dāng)語音轉(zhuǎn)換的源和目標(biāo)語音一定時,GRNN模型轉(zhuǎn)換語音的相似度優(yōu)于RBF模型的轉(zhuǎn)換語音,而本文提出的PSO-GRNN模型的轉(zhuǎn)換語音相似度優(yōu)于RBF模型和GRNN模型的轉(zhuǎn)換語音,轉(zhuǎn)換后語音的相似度為最佳??v觀表中所有數(shù)據(jù),本文提出的PSO-GRNN模型將男聲轉(zhuǎn)為女聲時測評分?jǐn)?shù)最高,即此時的轉(zhuǎn)換語音似然度最優(yōu),最接近目標(biāo)語音。
譜失真測評:
(13)
Figure 3 Voice spectrum distortion(M-F)圖3 語音譜失真圖(男聲-女聲)
從圖3可以看出,基于GRNN模型的語音轉(zhuǎn)換方法的譜失真小于RBF模型的語音轉(zhuǎn)換的譜失真,而PSO-GRNN模型的語音轉(zhuǎn)換方法的譜失真小于GRNN模型的語音轉(zhuǎn)換的譜失真,故本文提出的基于PSO-GRNN模型的轉(zhuǎn)換性能最優(yōu),使得轉(zhuǎn)換語音的質(zhì)量得到了進(jìn)一步提升。
本文建立了兩個GRNN模型,一個使用源和目標(biāo)語音信號的LSF系數(shù)訓(xùn)練,另一個使用小波分解系數(shù)訓(xùn)練;同時,利用PSO算法來尋找最優(yōu)的光滑因子σ的值,以此達(dá)到優(yōu)化GRNN模型的目的; 此外,文中還對韻律參數(shù)進(jìn)行了線性轉(zhuǎn)換,使得轉(zhuǎn)換后的語音含有更多說話人的個性特征。最后的主客觀測評結(jié)果表明,相對于RBF模型和GRNN模型而言,本文提出的基于PSO-GRNN模型的語音轉(zhuǎn)換系統(tǒng)具有更加優(yōu)越的性能,特別是對于男聲到女聲的轉(zhuǎn)換,轉(zhuǎn)換后的語音更接近目標(biāo)語音。
參考文獻(xiàn):
[1] Savic M,Nam I H.Voice personality transformation[J].Digital Signal Processing,1991,1(2):107-110.
[2] Kain A,Macon M W.Spectral voice conversion for text-to-speech synthesis[C]∥Proc of IEEE International Conference on Acoustics,1999:285-288.
[3] Sundermann D,Ney H,Hoge H.VTLN-based cross-language voice conversion[C]∥Proc of IEEE Workshop on Automatic Speech Recognition and Understanding,2003:676-681.
[4] Nslsmura K,Toda T,Saruwatari H,et al.Speaking-aid systems using GMM-based voice conversion for electrolaryngeal speech[J].Speech Communication,2012,54(2):134-146.
[5] Sun Jian,Zhang Xiong-wei,Cao Tie-yong,et al.Voice conversion based on convolution nonnegative matrix factorization[J].Journal of Data Acquisition and Processing,2013,28(2):141-148.(in Chinese)
[6] Ma Zhen,Zhang Xiong-wei,Yang Ji-bin.A speech conversion method based on the separation of speaker-specific characteristic[J].Journal of Signal Processing,2013,29(4):513-519.(in Chinese)
[7] Jian Zhi-hua, Wang Xiang-wen.A modified algorithm for voice conversion using compressed sensing[J].ACTA ACUSTICA,2014,39(3):400-406.(in Chinese)
[8] Ghorbandoost M,Sayadiyan A,Ahangar M,et al.Voice conversion based on feature combination with limited training data[J].Speech Communication,2015,67(67):113-128.
[9] Erro D,Alonso A,Serrano L,et al.Interpretable parametric voice conversion functions based on Gaussian mixture models and constrained transformations[J].Computer Speech & Language,2014,30(1):3-15.
[10] Li Na, Zeng Xiang-yang,Qiao Yu,et al.Voice conversion using bayesian analysis and dynamic kernel features[J].ACTA ACUSTICA,2015,40(3):455-461.(in Chinese)
[11] Desai S,Black A W,Yegnanarayana B,et al.Spectral mapping using artificial neural networks for voice conversion[J].IEEE Transactions on Audio Speech and Language Processing,2010,18(5):954-964.
[12] Nirmal J H,Patnaik S,Zaveri M A.Voice transformation using radial basis function[J].Lecture Notes in Electrical Engineering,2013,150:345-351.
[13] Kennedy J,Eberhart R.Particle swarm optimization[C]∥Proc of IEEE International Conference on Neural Networks,1995:1942-1948.
[14] Zhang Ling-hua, Yao Shao-qin,Xie Wei-chao.Speech conversion based on adaptive particle swarm optimization for radial basis function neural network[J].Journal of Data Acquisition and Processing,2015,30(2):336-343.(in Chinese)
[15] Nirmal J,Zaveri M,Patnaik S,et al.Voice conversion using general regression neural network[J].Applied Soft Computing,2014,24(24):1-12.
[16] Jia Yi-peng, Lv Qing, Shang Yue-quan.Prediction of rock burst based on particle swarm optimization algorithm and generalized regression neural network [J].Chinese Journal of Rock Mechanics and Engineering,2013,32(2):343-348.(in Chinese)
附中文參考文獻(xiàn):
[5] 孫健,張雄偉,曹鐵勇,等.基于卷積非負(fù)矩陣分解的語音轉(zhuǎn)換方法[J].數(shù)據(jù)采集與處理,2013,28(2):141-148.
[6] 馬振,張雄偉,楊吉斌.基于語音個人特征信息分離的語音轉(zhuǎn)換方法研究[J].信號處理,2013,29(4):513-519.
[7] 簡志華,王向文.采用壓縮感知的改進(jìn)的語音轉(zhuǎn)換算法[J].聲學(xué)學(xué)報,2014,39(3):400-406.
[10] 李娜,曾向陽,喬宇,等.采用動態(tài)核特征及貝葉斯最大后驗估計的語音轉(zhuǎn)換方法[J].聲學(xué)學(xué)報,2015,40(3):455-461.
[14] 張玲華,姚紹芹,解偉超.基于自適應(yīng)粒子群優(yōu)化徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)的語音轉(zhuǎn)換[J].數(shù)據(jù)采集與處理,2015,30(2):336-343.
[16] 賈義鵬,呂慶,尚岳全.基于粒子群算法和廣義回歸神經(jīng)網(wǎng)絡(luò)的巖爆預(yù)測[J].巖石力學(xué)與工程學(xué)報,2013,32(2):343-348.