簡(jiǎn)志華,王向文
(杭州電子科技大學(xué)通信工程學(xué)院,浙江杭州310018)
在語音信號(hào)中,說話人的個(gè)性特征是一種非常重要的信息。語音轉(zhuǎn)換就是要改變?cè)凑f話人語音的個(gè)性特征信息,使之具有目標(biāo)說話人的個(gè)性信息,也即轉(zhuǎn)換后的語音聽起來就像是目標(biāo)說話人的聲音一樣,但語音的語義內(nèi)容保持不變[1]。早期的語音轉(zhuǎn)換函數(shù)是基于矢量量化模型[2]。但基于矢量量化的轉(zhuǎn)換算法由于將特征參數(shù)矢量離散化,導(dǎo)致頻譜的不連續(xù)性,轉(zhuǎn)換性能和語音質(zhì)量都不理想。文獻(xiàn)3提出了一種基于高斯混合模型(Gaussian Mixture Model,GMM)的具有連續(xù)形式的轉(zhuǎn)換函數(shù),具有較好的轉(zhuǎn)換性能。文獻(xiàn)4對(duì)GMM算法進(jìn)行了改進(jìn),提出了聯(lián)合矢量GMM模型,簡(jiǎn)化了運(yùn)算,也使得基于GMM的轉(zhuǎn)換算法逐漸地成為語音轉(zhuǎn)換的主流算法。但由于基于GMM的轉(zhuǎn)換函數(shù)是基于統(tǒng)計(jì)平均,使頻譜過于平滑,導(dǎo)致轉(zhuǎn)換后的語音質(zhì)量和自然度下降。為了提高語音質(zhì)量,文獻(xiàn)5提出了一種基于頻率卷繞的轉(zhuǎn)換算法,具有較好的語音質(zhì)量,但轉(zhuǎn)換效果不佳。文獻(xiàn)6綜合了GMM轉(zhuǎn)換算法和頻率卷繞算法的優(yōu)勢(shì),提出了一種在GMM模型的基礎(chǔ)上進(jìn)行加權(quán)的頻率卷繞算法(Weighted Frequency Warping,WFW),較好地平衡了語音質(zhì)量和轉(zhuǎn)換性能之間的矛盾。但以上算法在轉(zhuǎn)換時(shí)都沒有考慮語音幀間的相關(guān)信息,而事實(shí)上,語音幀間具有很強(qiáng)的相關(guān)性,這些相關(guān)信息不僅有利于改善轉(zhuǎn)換效果,也有利于提高轉(zhuǎn)換后的語音質(zhì)量。本文正是基于這一考慮,提出了采用壓縮感知(Compressed Sensing,CS)理論[7]來考慮語音特征參數(shù)幀間相關(guān)信息的語音轉(zhuǎn)換算法。
在對(duì)稱語料庫的情況下,假定在經(jīng)過時(shí)間規(guī)整后,源說話人的語音特征參數(shù)序列為 X={x1,x2,…,xn,…,xN},目標(biāo)說話人語音特征參數(shù)序列為 Y= {y1,y2,…,yn,…,yN}。將xn與對(duì)應(yīng)的yn拼接成一個(gè)新的聯(lián)合矢量zn,即zn=[]T,其中符號(hào)“T”表示矩陣轉(zhuǎn)置。因此,就得到了聯(lián)合矢量空間 Z= {z1,z2,…,zn,…,zN},對(duì)該空間用GMM進(jìn)行建模,并用期望最大算法獲得GMM模型的參數(shù)為:
式中,αi是權(quán)重和分別表示第i個(gè)分量的均值向量和協(xié)方差矩陣,M表示高斯分量的總個(gè)數(shù)為:
式中,βi(xn)是后驗(yàn)概率為:
從式3可以看出,不同的語音幀具有不同的后驗(yàn)概率分布βi(xn),因此每幀語音具有不同的頻率卷繞函數(shù)。
WFW算法是單獨(dú)對(duì)每幀語音的特征參數(shù)進(jìn)行轉(zhuǎn)換,沒有考慮到語音幀間的相關(guān)性。而事實(shí)上,語音幀間的相關(guān)信息具有重要的作用,為了利用語音幀間的相關(guān)性,同時(shí)也考慮到在轉(zhuǎn)換時(shí),語音段比語音幀更具有穩(wěn)定性,有利于提高語音質(zhì)量,本文采用CS理論來提取語音幀間的相關(guān)信息。
CS理論指出,只要信號(hào)是可壓縮的或在某個(gè)變換域是稀疏的,那么就可以用一個(gè)與變換基不相關(guān)的觀測(cè)矩陣將高維信號(hào)投影到一個(gè)低維空間上,然后通過求解一個(gè)優(yōu)化問題就可以從這些少量投影中以高概率重構(gòu)出原信號(hào)[7]。
由于線譜對(duì)參數(shù)具有良好的量化和插值特性,使它成為目前語音轉(zhuǎn)換中使用最為廣泛的特征參數(shù)。假定xn是當(dāng)前時(shí)刻語音幀的LSP參數(shù),即L維的列矢量,則是一以xn為中心的由τ(τ為奇數(shù))幀語音LSP參數(shù)構(gòu)成的矢量序列。將這一矢量序列按時(shí)間先后順序拼接起來形成一個(gè)長(zhǎng)的矢量為:
式中,符號(hào)“T”表示轉(zhuǎn)置,則Xn是一個(gè)τL×1維的列矢量。由于聯(lián)合矢量Xn在DCT域具有很好的稀疏性,其大部分的系數(shù)都為零或者接近于零。這說明在DCT域,聯(lián)合矢量Xn采用壓縮感知理論是完全可行的。令觀測(cè)矩陣Φ為一個(gè)D×τL維的高斯隨機(jī)矩陣為:
根據(jù)CS理論,D可以是一個(gè)比 τL小得多的值,在本文中,D=「ξlog(τL/ξ)。其中符號(hào)「·表示不小于某數(shù)的最小整數(shù),ξ是稀疏度。因此,第n幀語音的LSP特征參數(shù)xn就變換成了D維的矢量。這樣,采用做特征參數(shù),不僅包含了當(dāng)前語音幀的信息,也包含了前后幾幀語音的信息。同理,提取目標(biāo)說話人相應(yīng)的,再將和拼接起來就構(gòu)成了gn。用GMM模型對(duì)矢量空間{gn}進(jìn)行建模,這樣就可以得到矢量空間{gn}下的式1-3。在物理意義上,和相當(dāng)于τ幀語音的LSP參數(shù)經(jīng)過CS壓縮后所得到的值。為了能得到GMM各子空間的頻率卷繞函數(shù),需將和分別用CS技術(shù)重構(gòu)出各自連續(xù)的τ幀LSP參數(shù),并取其對(duì)應(yīng)的位于中間的LSP參數(shù)和。和WFW算法一樣,利用和獲得第i個(gè)子空間的頻率曲線函數(shù)Wi(f),再用后驗(yàn)概率進(jìn)行加權(quán)就可以得到整體的頻率卷繞函數(shù)W(n)(f)。
本實(shí)驗(yàn)所采用的語音庫信號(hào)的采樣率為16kHz,每個(gè)樣點(diǎn)16bit量化,發(fā)音是采用中性的朗讀風(fēng)格。抽取其中4個(gè)人的語音,即2個(gè)男聲和2個(gè)女聲,分別命名為M1、M2和F1、F2。每個(gè)人都取200個(gè)語句,每個(gè)語句大致是2-3s時(shí)長(zhǎng)的短語和短句,其中150個(gè)用于訓(xùn)練,50個(gè)用于測(cè)試。而且每個(gè)人的發(fā)音內(nèi)容相同,也即是對(duì)稱的語音庫。實(shí)驗(yàn)的語音幀長(zhǎng)為20ms,幀移為10ms,采用Hamming窗,語音信號(hào)采用 STRAIGHT 模型[8]。
整個(gè)實(shí)驗(yàn)根據(jù)轉(zhuǎn)換方向的不同分為4部分,分別是男聲轉(zhuǎn)換成女聲(M1-F1)、男聲轉(zhuǎn)換成男聲(M1-M2)、女聲轉(zhuǎn)換男聲(F2-M2)和女聲轉(zhuǎn)換成女聲(F2-F1)。由于語音信號(hào)的聽覺感覺特性和對(duì)數(shù)域的頻譜密切相關(guān),本文的客觀評(píng)價(jià)標(biāo)準(zhǔn)采用文獻(xiàn)9的頻譜相對(duì)距離比值來衡量轉(zhuǎn)換性能。
如表1所示是在τ分別等于3、5、7、9幾種情況下的MWFW算法和WFW算法的性能對(duì)比圖。從表1上可以看出,有些情況下的MWFW頻譜相對(duì)距離比WFW小,有些情況下要大,但從整體上來講MWFW的性能要好,特別是MWFW5在4個(gè)轉(zhuǎn)換方向上都要好于WFW。這是由于當(dāng)τ=5時(shí),5幀語音所構(gòu)成的語音段能夠較好地反映出語音的幀間相關(guān)性和穩(wěn)定性,當(dāng)τ越大時(shí),相關(guān)性則越來越弱,就不利于語音轉(zhuǎn)換性能的提高。
表1 幾種轉(zhuǎn)換情況下的頻譜相對(duì)距離的對(duì)比(%)
主觀聽覺測(cè)試主要包括兩方面:一是相似度測(cè)試,主要是為了反映轉(zhuǎn)換的程度;二是語音質(zhì)量評(píng)價(jià),語音質(zhì)量的好壞對(duì)語音轉(zhuǎn)換技術(shù)的應(yīng)用具有非常大的影響。相似度測(cè)試主要采用ABX測(cè)試方法,其中的A和B分別表示源說話人和目標(biāo)說話人,X指的轉(zhuǎn)換后的語音,該測(cè)試的目的主要是為了反映轉(zhuǎn)換后的語音聽起來是像源說話人還是更像目標(biāo)說話人,如果像源說話人則得分為0,如果像目標(biāo)說話人則得分為1,然后將總分加起來再去除以總共測(cè)試的語音個(gè)數(shù)。ABX的測(cè)試結(jié)果如表2所示。從表2可以看出,異性之間的轉(zhuǎn)換,ABX的結(jié)果要好于同性之間。這是因?yàn)楫愋灾g的頻譜距離雖然比同性之間的要大,但它的轉(zhuǎn)換程度要大于同性,這樣就導(dǎo)致轉(zhuǎn)換后的語音聽起來很明顯像目標(biāo)說話人,而不像源說話人。這是一種相對(duì)的結(jié)果,這一結(jié)果也和客觀測(cè)試中的頻譜相對(duì)距離D的結(jié)果相吻合。轉(zhuǎn)換后語音的MOS分如表3所示。從表3來看,同性轉(zhuǎn)換的語音質(zhì)量要好于異性之間。這是因?yàn)?,異性語音頻譜之間的距離一般要大于同性之間,轉(zhuǎn)換的程度也要大些,而對(duì)語音參數(shù)修改的程度要大,對(duì)語音質(zhì)量的影響也越大,這就導(dǎo)致了異性轉(zhuǎn)換之間的語音質(zhì)量有所下降。
表2 ABX測(cè)試結(jié)果(%)
表3 MOS分測(cè)試結(jié)果
本文提出了一種改進(jìn)的加權(quán)頻譜卷繞語音轉(zhuǎn)換算法。MFWF采用壓縮感知技術(shù)來提取語音幀間的相關(guān)信息,對(duì)語音特征參數(shù)的轉(zhuǎn)換相當(dāng)于是在語音分段的基礎(chǔ)上進(jìn)行,有利于保持轉(zhuǎn)換語音頻譜的連貫性和穩(wěn)定性??陀^評(píng)測(cè)和主觀聽覺實(shí)驗(yàn)都表明,在選擇合適的語音段時(shí)長(zhǎng)的情況下,MWFW算法的性能要優(yōu)于WFW算法。
[1] 左國(guó)玉,劉文舉,阮曉剛.聲音轉(zhuǎn)換技術(shù)的研究與進(jìn)展[J].電子學(xué)報(bào),2004,32(7):1 165-1 172.
[2] Abe M,Nakamura S,Shikano K,et al.Voice conversion through vector quantization[C].New York:IEEE International Conference on Acoustic Speech and Signal Processing,1988:655-658.
[3] Stylianou Y,Cappe O,Moulines E.Continuous probabilistic transform for voice conversion[J].IEEE Transactions on Speech and Audio Processing,1998,6(2):131-142
[4] Kain A,Macon MW.Design and evaluation of a voice conversion algorithm based on spectral envelop mapping and residual prediction[C].Salt Lake City:IEEE International Conference on Acoustic Speech and Signal Processing,2001:813-816.
[5] Pribilova A,Pribil J.Non-linear frequency scale mapping voice conversion in text-to-speech system with cepstral description[J].Speech Communication,2006,48(12):1 691-1 703.
[6] Erro D,Moreno A,Bonafonte A.Voice conversion based on weighted frequency warping[J].IEEE Transactions on Audio Speech and Language Processing,2010,18(5):922-931.
[7] Tropp JA,Gilbert A C.Signal recovery from random measurements via orthogonal matching pursuit[J].IEEE Transactions on Information Theory,2007,53(12):4 655-4 666.
[8] Kawahara H,Masuda-Katsuse I,Cheveigne A.Restructuring speech representations using a pitch-adaptive time-frequency smoothing and an instantaneous-frequency-based F0 extraction:Possible role of a repetitive structure in sounds[J].Speech Communication,1999,27(3):187-207.
[9] Ye Hui,Young S.Quality-enhanced voice morphing using maximum likelihood transformations[J].IEEE Transactions on Audio Speech and Language Processing,2006,14(4):1 301-1 312.