亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

考慮幀間信息的語音轉(zhuǎn)換算法

2012-11-26 09:01:22簡(jiǎn)志華王向文

杭州電子科技大學(xué)學(xué)報(bào)(自然科學(xué)版) 2012年4期

簡(jiǎn)志華，王向文

(杭州電子科技大學(xué)通信工程學(xué)院，浙江杭州310018)

0 引言

在語音信號(hào)中，說話人的個(gè)性特征是一種非常重要的信息。語音轉(zhuǎn)換就是要改變?cè)凑f話人語音的個(gè)性特征信息，使之具有目標(biāo)說話人的個(gè)性信息，也即轉(zhuǎn)換后的語音聽起來就像是目標(biāo)說話人的聲音一樣，但語音的語義內(nèi)容保持不變［1］。早期的語音轉(zhuǎn)換函數(shù)是基于矢量量化模型［2］。但基于矢量量化的轉(zhuǎn)換算法由于將特征參數(shù)矢量離散化，導(dǎo)致頻譜的不連續(xù)性，轉(zhuǎn)換性能和語音質(zhì)量都不理想。文獻(xiàn)3提出了一種基于高斯混合模型(Gaussian Mixture Model，GMM)的具有連續(xù)形式的轉(zhuǎn)換函數(shù)，具有較好的轉(zhuǎn)換性能。文獻(xiàn)4對(duì)GMM算法進(jìn)行了改進(jìn)，提出了聯(lián)合矢量GMM模型，簡(jiǎn)化了運(yùn)算，也使得基于GMM的轉(zhuǎn)換算法逐漸地成為語音轉(zhuǎn)換的主流算法。但由于基于GMM的轉(zhuǎn)換函數(shù)是基于統(tǒng)計(jì)平均，使頻譜過于平滑，導(dǎo)致轉(zhuǎn)換后的語音質(zhì)量和自然度下降。為了提高語音質(zhì)量，文獻(xiàn)5提出了一種基于頻率卷繞的轉(zhuǎn)換算法，具有較好的語音質(zhì)量，但轉(zhuǎn)換效果不佳。文獻(xiàn)6綜合了GMM轉(zhuǎn)換算法和頻率卷繞算法的優(yōu)勢(shì)，提出了一種在GMM模型的基礎(chǔ)上進(jìn)行加權(quán)的頻率卷繞算法(Weighted Frequency Warping，WFW)，較好地平衡了語音質(zhì)量和轉(zhuǎn)換性能之間的矛盾。但以上算法在轉(zhuǎn)換時(shí)都沒有考慮語音幀間的相關(guān)信息，而事實(shí)上，語音幀間具有很強(qiáng)的相關(guān)性，這些相關(guān)信息不僅有利于改善轉(zhuǎn)換效果，也有利于提高轉(zhuǎn)換后的語音質(zhì)量。本文正是基于這一考慮，提出了采用壓縮感知(Compressed Sensing，CS)理論［7］來考慮語音特征參數(shù)幀間相關(guān)信息的語音轉(zhuǎn)換算法。

1 傳統(tǒng)的WFW轉(zhuǎn)換算法

在對(duì)稱語料庫的情況下，假定在經(jīng)過時(shí)間規(guī)整后，源說話人的語音特征參數(shù)序列為 X={x1，x2，…，xn，…，xN}，目標(biāo)說話人語音特征參數(shù)序列為 Y= {y1，y2，…，yn，…，yN}。將xn與對(duì)應(yīng)的yn拼接成一個(gè)新的聯(lián)合矢量zn，即zn=[]T，其中符號(hào)“T”表示矩陣轉(zhuǎn)置。因此，就得到了聯(lián)合矢量空間 Z= {z1，z2，…，zn，…，zN}，對(duì)該空間用GMM進(jìn)行建模，并用期望最大算法獲得GMM模型的參數(shù)為:

式中，αi是權(quán)重和分別表示第i個(gè)分量的均值向量和協(xié)方差矩陣，M表示高斯分量的總個(gè)數(shù)為:

式中，βi(xn)是后驗(yàn)概率為:

從式3可以看出，不同的語音幀具有不同的后驗(yàn)概率分布βi(xn)，因此每幀語音具有不同的頻率卷繞函數(shù)。

2 MWFW轉(zhuǎn)換算法

WFW算法是單獨(dú)對(duì)每幀語音的特征參數(shù)進(jìn)行轉(zhuǎn)換，沒有考慮到語音幀間的相關(guān)性。而事實(shí)上，語音幀間的相關(guān)信息具有重要的作用，為了利用語音幀間的相關(guān)性，同時(shí)也考慮到在轉(zhuǎn)換時(shí)，語音段比語音幀更具有穩(wěn)定性，有利于提高語音質(zhì)量，本文采用CS理論來提取語音幀間的相關(guān)信息。

CS理論指出，只要信號(hào)是可壓縮的或在某個(gè)變換域是稀疏的，那么就可以用一個(gè)與變換基不相關(guān)的觀測(cè)矩陣將高維信號(hào)投影到一個(gè)低維空間上，然后通過求解一個(gè)優(yōu)化問題就可以從這些少量投影中以高概率重構(gòu)出原信號(hào)［7］。

由于線譜對(duì)參數(shù)具有良好的量化和插值特性，使它成為目前語音轉(zhuǎn)換中使用最為廣泛的特征參數(shù)。假定xn是當(dāng)前時(shí)刻語音幀的LSP參數(shù)，即L維的列矢量，則是一以xn為中心的由τ(τ為奇數(shù))幀語音LSP參數(shù)構(gòu)成的矢量序列。將這一矢量序列按時(shí)間先后順序拼接起來形成一個(gè)長(zhǎng)的矢量為:

式中，符號(hào)“T”表示轉(zhuǎn)置，則Xn是一個(gè)τL×1維的列矢量。由于聯(lián)合矢量Xn在DCT域具有很好的稀疏性，其大部分的系數(shù)都為零或者接近于零。這說明在DCT域，聯(lián)合矢量Xn采用壓縮感知理論是完全可行的。令觀測(cè)矩陣Φ為一個(gè)D×τL維的高斯隨機(jī)矩陣為:

根據(jù)CS理論，D可以是一個(gè)比 τL小得多的值，在本文中，D=「ξlog(τL/ξ)。其中符號(hào)「·表示不小于某數(shù)的最小整數(shù)，ξ是稀疏度。因此，第n幀語音的LSP特征參數(shù)xn就變換成了D維的矢量。這樣，采用做特征參數(shù)，不僅包含了當(dāng)前語音幀的信息，也包含了前后幾幀語音的信息。同理，提取目標(biāo)說話人相應(yīng)的，再將和拼接起來就構(gòu)成了gn。用GMM模型對(duì)矢量空間{gn}進(jìn)行建模，這樣就可以得到矢量空間{gn}下的式1-3。在物理意義上，和相當(dāng)于τ幀語音的LSP參數(shù)經(jīng)過CS壓縮后所得到的值。為了能得到GMM各子空間的頻率卷繞函數(shù)，需將和分別用CS技術(shù)重構(gòu)出各自連續(xù)的τ幀LSP參數(shù)，并取其對(duì)應(yīng)的位于中間的LSP參數(shù)和。和WFW算法一樣，利用和獲得第i個(gè)子空間的頻率曲線函數(shù)Wi(f)，再用后驗(yàn)概率進(jìn)行加權(quán)就可以得到整體的頻率卷繞函數(shù)W(n)(f)。

3 實(shí)驗(yàn)與結(jié)果

本實(shí)驗(yàn)所采用的語音庫信號(hào)的采樣率為16kHz，每個(gè)樣點(diǎn)16bit量化，發(fā)音是采用中性的朗讀風(fēng)格。抽取其中4個(gè)人的語音，即2個(gè)男聲和2個(gè)女聲，分別命名為M1、M2和F1、F2。每個(gè)人都取200個(gè)語句，每個(gè)語句大致是2-3s時(shí)長(zhǎng)的短語和短句，其中150個(gè)用于訓(xùn)練，50個(gè)用于測(cè)試。而且每個(gè)人的發(fā)音內(nèi)容相同，也即是對(duì)稱的語音庫。實(shí)驗(yàn)的語音幀長(zhǎng)為20ms，幀移為10ms，采用Hamming窗，語音信號(hào)采用 STRAIGHT 模型［8］。

整個(gè)實(shí)驗(yàn)根據(jù)轉(zhuǎn)換方向的不同分為4部分，分別是男聲轉(zhuǎn)換成女聲(M1-F1)、男聲轉(zhuǎn)換成男聲(M1-M2)、女聲轉(zhuǎn)換男聲(F2-M2)和女聲轉(zhuǎn)換成女聲(F2-F1)。由于語音信號(hào)的聽覺感覺特性和對(duì)數(shù)域的頻譜密切相關(guān)，本文的客觀評(píng)價(jià)標(biāo)準(zhǔn)采用文獻(xiàn)9的頻譜相對(duì)距離比值來衡量轉(zhuǎn)換性能。

如表1所示是在τ分別等于3、5、7、9幾種情況下的MWFW算法和WFW算法的性能對(duì)比圖。從表1上可以看出，有些情況下的MWFW頻譜相對(duì)距離比WFW小，有些情況下要大，但從整體上來講MWFW的性能要好，特別是MWFW5在4個(gè)轉(zhuǎn)換方向上都要好于WFW。這是由于當(dāng)τ=5時(shí)，5幀語音所構(gòu)成的語音段能夠較好地反映出語音的幀間相關(guān)性和穩(wěn)定性，當(dāng)τ越大時(shí)，相關(guān)性則越來越弱，就不利于語音轉(zhuǎn)換性能的提高。

表1 幾種轉(zhuǎn)換情況下的頻譜相對(duì)距離的對(duì)比(%)

主觀聽覺測(cè)試主要包括兩方面:一是相似度測(cè)試，主要是為了反映轉(zhuǎn)換的程度;二是語音質(zhì)量評(píng)價(jià)，語音質(zhì)量的好壞對(duì)語音轉(zhuǎn)換技術(shù)的應(yīng)用具有非常大的影響。相似度測(cè)試主要采用ABX測(cè)試方法，其中的A和B分別表示源說話人和目標(biāo)說話人，X指的轉(zhuǎn)換后的語音，該測(cè)試的目的主要是為了反映轉(zhuǎn)換后的語音聽起來是像源說話人還是更像目標(biāo)說話人，如果像源說話人則得分為0，如果像目標(biāo)說話人則得分為1，然后將總分加起來再去除以總共測(cè)試的語音個(gè)數(shù)。ABX的測(cè)試結(jié)果如表2所示。從表2可以看出，異性之間的轉(zhuǎn)換，ABX的結(jié)果要好于同性之間。這是因?yàn)楫愋灾g的頻譜距離雖然比同性之間的要大，但它的轉(zhuǎn)換程度要大于同性，這樣就導(dǎo)致轉(zhuǎn)換后的語音聽起來很明顯像目標(biāo)說話人，而不像源說話人。這是一種相對(duì)的結(jié)果，這一結(jié)果也和客觀測(cè)試中的頻譜相對(duì)距離D的結(jié)果相吻合。轉(zhuǎn)換后語音的MOS分如表3所示。從表3來看，同性轉(zhuǎn)換的語音質(zhì)量要好于異性之間。這是因?yàn)?，異性語音頻譜之間的距離一般要大于同性之間，轉(zhuǎn)換的程度也要大些，而對(duì)語音參數(shù)修改的程度要大，對(duì)語音質(zhì)量的影響也越大，這就導(dǎo)致了異性轉(zhuǎn)換之間的語音質(zhì)量有所下降。

表2 ABX測(cè)試結(jié)果(%)

表3 MOS分測(cè)試結(jié)果

4 結(jié)束語

本文提出了一種改進(jìn)的加權(quán)頻譜卷繞語音轉(zhuǎn)換算法。MFWF采用壓縮感知技術(shù)來提取語音幀間的相關(guān)信息，對(duì)語音特征參數(shù)的轉(zhuǎn)換相當(dāng)于是在語音分段的基礎(chǔ)上進(jìn)行，有利于保持轉(zhuǎn)換語音頻譜的連貫性和穩(wěn)定性?？陀^評(píng)測(cè)和主觀聽覺實(shí)驗(yàn)都表明，在選擇合適的語音段時(shí)長(zhǎng)的情況下，MWFW算法的性能要優(yōu)于WFW算法。

［1］左國(guó)玉，劉文舉，阮曉剛.聲音轉(zhuǎn)換技術(shù)的研究與進(jìn)展［J］.電子學(xué)報(bào)，2004，32(7):1 165-1 172.

［2］ Abe M，Nakamura S，Shikano K，et al.Voice conversion through vector quantization［C］.New York:IEEE International Conference on Acoustic Speech and Signal Processing，1988:655-658.

［3］ Stylianou Y，Cappe O，Moulines E.Continuous probabilistic transform for voice conversion［J］.IEEE Transactions on Speech and Audio Processing，1998，6(2):131-142

［4］ Kain A，Macon MW.Design and evaluation of a voice conversion algorithm based on spectral envelop mapping and residual prediction［C］.Salt Lake City:IEEE International Conference on Acoustic Speech and Signal Processing，2001:813-816.

［5］ Pribilova A，Pribil J.Non-linear frequency scale mapping voice conversion in text-to-speech system with cepstral description［J］.Speech Communication，2006，48(12):1 691-1 703.

［6］ Erro D，Moreno A，Bonafonte A.Voice conversion based on weighted frequency warping［J］.IEEE Transactions on Audio Speech and Language Processing，2010，18(5):922-931.

［7］ Tropp JA，Gilbert A C.Signal recovery from random measurements via orthogonal matching pursuit［J］.IEEE Transactions on Information Theory，2007，53(12):4 655-4 666.

［8］ Kawahara H，Masuda-Katsuse I，Cheveigne A.Restructuring speech representations using a pitch-adaptive time-frequency smoothing and an instantaneous-frequency-based F0 extraction:Possible role of a repetitive structure in sounds［J］.Speech Communication，1999，27(3):187-207.

［9］ Ye Hui，Young S.Quality-enhanced voice morphing using maximum likelihood transformations［J］.IEEE Transactions on Audio Speech and Language Processing，2006，14(4):1 301-1 312.