亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        考慮幀間信息的語音轉(zhuǎn)換算法

        2012-11-26 09:01:22簡(jiǎn)志華王向文
        關(guān)鍵詞:男聲特征參數(shù)矢量

        簡(jiǎn)志華,王向文

        (杭州電子科技大學(xué)通信工程學(xué)院,浙江杭州310018)

        0 引言

        在語音信號(hào)中,說話人的個(gè)性特征是一種非常重要的信息。語音轉(zhuǎn)換就是要改變?cè)凑f話人語音的個(gè)性特征信息,使之具有目標(biāo)說話人的個(gè)性信息,也即轉(zhuǎn)換后的語音聽起來就像是目標(biāo)說話人的聲音一樣,但語音的語義內(nèi)容保持不變[1]。早期的語音轉(zhuǎn)換函數(shù)是基于矢量量化模型[2]。但基于矢量量化的轉(zhuǎn)換算法由于將特征參數(shù)矢量離散化,導(dǎo)致頻譜的不連續(xù)性,轉(zhuǎn)換性能和語音質(zhì)量都不理想。文獻(xiàn)3提出了一種基于高斯混合模型(Gaussian Mixture Model,GMM)的具有連續(xù)形式的轉(zhuǎn)換函數(shù),具有較好的轉(zhuǎn)換性能。文獻(xiàn)4對(duì)GMM算法進(jìn)行了改進(jìn),提出了聯(lián)合矢量GMM模型,簡(jiǎn)化了運(yùn)算,也使得基于GMM的轉(zhuǎn)換算法逐漸地成為語音轉(zhuǎn)換的主流算法。但由于基于GMM的轉(zhuǎn)換函數(shù)是基于統(tǒng)計(jì)平均,使頻譜過于平滑,導(dǎo)致轉(zhuǎn)換后的語音質(zhì)量和自然度下降。為了提高語音質(zhì)量,文獻(xiàn)5提出了一種基于頻率卷繞的轉(zhuǎn)換算法,具有較好的語音質(zhì)量,但轉(zhuǎn)換效果不佳。文獻(xiàn)6綜合了GMM轉(zhuǎn)換算法和頻率卷繞算法的優(yōu)勢(shì),提出了一種在GMM模型的基礎(chǔ)上進(jìn)行加權(quán)的頻率卷繞算法(Weighted Frequency Warping,WFW),較好地平衡了語音質(zhì)量和轉(zhuǎn)換性能之間的矛盾。但以上算法在轉(zhuǎn)換時(shí)都沒有考慮語音幀間的相關(guān)信息,而事實(shí)上,語音幀間具有很強(qiáng)的相關(guān)性,這些相關(guān)信息不僅有利于改善轉(zhuǎn)換效果,也有利于提高轉(zhuǎn)換后的語音質(zhì)量。本文正是基于這一考慮,提出了采用壓縮感知(Compressed Sensing,CS)理論[7]來考慮語音特征參數(shù)幀間相關(guān)信息的語音轉(zhuǎn)換算法。

        1 傳統(tǒng)的WFW轉(zhuǎn)換算法

        在對(duì)稱語料庫的情況下,假定在經(jīng)過時(shí)間規(guī)整后,源說話人的語音特征參數(shù)序列為 X={x1,x2,…,xn,…,xN},目標(biāo)說話人語音特征參數(shù)序列為 Y= {y1,y2,…,yn,…,yN}。將xn與對(duì)應(yīng)的yn拼接成一個(gè)新的聯(lián)合矢量zn,即zn=[]T,其中符號(hào)“T”表示矩陣轉(zhuǎn)置。因此,就得到了聯(lián)合矢量空間 Z= {z1,z2,…,zn,…,zN},對(duì)該空間用GMM進(jìn)行建模,并用期望最大算法獲得GMM模型的參數(shù)為:

        式中,αi是權(quán)重和分別表示第i個(gè)分量的均值向量和協(xié)方差矩陣,M表示高斯分量的總個(gè)數(shù)為:

        式中,βi(xn)是后驗(yàn)概率為:

        從式3可以看出,不同的語音幀具有不同的后驗(yàn)概率分布βi(xn),因此每幀語音具有不同的頻率卷繞函數(shù)。

        2 MWFW轉(zhuǎn)換算法

        WFW算法是單獨(dú)對(duì)每幀語音的特征參數(shù)進(jìn)行轉(zhuǎn)換,沒有考慮到語音幀間的相關(guān)性。而事實(shí)上,語音幀間的相關(guān)信息具有重要的作用,為了利用語音幀間的相關(guān)性,同時(shí)也考慮到在轉(zhuǎn)換時(shí),語音段比語音幀更具有穩(wěn)定性,有利于提高語音質(zhì)量,本文采用CS理論來提取語音幀間的相關(guān)信息。

        CS理論指出,只要信號(hào)是可壓縮的或在某個(gè)變換域是稀疏的,那么就可以用一個(gè)與變換基不相關(guān)的觀測(cè)矩陣將高維信號(hào)投影到一個(gè)低維空間上,然后通過求解一個(gè)優(yōu)化問題就可以從這些少量投影中以高概率重構(gòu)出原信號(hào)[7]。

        由于線譜對(duì)參數(shù)具有良好的量化和插值特性,使它成為目前語音轉(zhuǎn)換中使用最為廣泛的特征參數(shù)。假定xn是當(dāng)前時(shí)刻語音幀的LSP參數(shù),即L維的列矢量,則是一以xn為中心的由τ(τ為奇數(shù))幀語音LSP參數(shù)構(gòu)成的矢量序列。將這一矢量序列按時(shí)間先后順序拼接起來形成一個(gè)長(zhǎng)的矢量為:

        式中,符號(hào)“T”表示轉(zhuǎn)置,則Xn是一個(gè)τL×1維的列矢量。由于聯(lián)合矢量Xn在DCT域具有很好的稀疏性,其大部分的系數(shù)都為零或者接近于零。這說明在DCT域,聯(lián)合矢量Xn采用壓縮感知理論是完全可行的。令觀測(cè)矩陣Φ為一個(gè)D×τL維的高斯隨機(jī)矩陣為:

        根據(jù)CS理論,D可以是一個(gè)比 τL小得多的值,在本文中,D=「ξlog(τL/ξ)。其中符號(hào)「·表示不小于某數(shù)的最小整數(shù),ξ是稀疏度。因此,第n幀語音的LSP特征參數(shù)xn就變換成了D維的矢量。這樣,采用做特征參數(shù),不僅包含了當(dāng)前語音幀的信息,也包含了前后幾幀語音的信息。同理,提取目標(biāo)說話人相應(yīng)的,再將和拼接起來就構(gòu)成了gn。用GMM模型對(duì)矢量空間{gn}進(jìn)行建模,這樣就可以得到矢量空間{gn}下的式1-3。在物理意義上,和相當(dāng)于τ幀語音的LSP參數(shù)經(jīng)過CS壓縮后所得到的值。為了能得到GMM各子空間的頻率卷繞函數(shù),需將和分別用CS技術(shù)重構(gòu)出各自連續(xù)的τ幀LSP參數(shù),并取其對(duì)應(yīng)的位于中間的LSP參數(shù)和。和WFW算法一樣,利用和獲得第i個(gè)子空間的頻率曲線函數(shù)Wi(f),再用后驗(yàn)概率進(jìn)行加權(quán)就可以得到整體的頻率卷繞函數(shù)W(n)(f)。

        3 實(shí)驗(yàn)與結(jié)果

        本實(shí)驗(yàn)所采用的語音庫信號(hào)的采樣率為16kHz,每個(gè)樣點(diǎn)16bit量化,發(fā)音是采用中性的朗讀風(fēng)格。抽取其中4個(gè)人的語音,即2個(gè)男聲和2個(gè)女聲,分別命名為M1、M2和F1、F2。每個(gè)人都取200個(gè)語句,每個(gè)語句大致是2-3s時(shí)長(zhǎng)的短語和短句,其中150個(gè)用于訓(xùn)練,50個(gè)用于測(cè)試。而且每個(gè)人的發(fā)音內(nèi)容相同,也即是對(duì)稱的語音庫。實(shí)驗(yàn)的語音幀長(zhǎng)為20ms,幀移為10ms,采用Hamming窗,語音信號(hào)采用 STRAIGHT 模型[8]。

        整個(gè)實(shí)驗(yàn)根據(jù)轉(zhuǎn)換方向的不同分為4部分,分別是男聲轉(zhuǎn)換成女聲(M1-F1)、男聲轉(zhuǎn)換成男聲(M1-M2)、女聲轉(zhuǎn)換男聲(F2-M2)和女聲轉(zhuǎn)換成女聲(F2-F1)。由于語音信號(hào)的聽覺感覺特性和對(duì)數(shù)域的頻譜密切相關(guān),本文的客觀評(píng)價(jià)標(biāo)準(zhǔn)采用文獻(xiàn)9的頻譜相對(duì)距離比值來衡量轉(zhuǎn)換性能。

        如表1所示是在τ分別等于3、5、7、9幾種情況下的MWFW算法和WFW算法的性能對(duì)比圖。從表1上可以看出,有些情況下的MWFW頻譜相對(duì)距離比WFW小,有些情況下要大,但從整體上來講MWFW的性能要好,特別是MWFW5在4個(gè)轉(zhuǎn)換方向上都要好于WFW。這是由于當(dāng)τ=5時(shí),5幀語音所構(gòu)成的語音段能夠較好地反映出語音的幀間相關(guān)性和穩(wěn)定性,當(dāng)τ越大時(shí),相關(guān)性則越來越弱,就不利于語音轉(zhuǎn)換性能的提高。

        表1 幾種轉(zhuǎn)換情況下的頻譜相對(duì)距離的對(duì)比(%)

        主觀聽覺測(cè)試主要包括兩方面:一是相似度測(cè)試,主要是為了反映轉(zhuǎn)換的程度;二是語音質(zhì)量評(píng)價(jià),語音質(zhì)量的好壞對(duì)語音轉(zhuǎn)換技術(shù)的應(yīng)用具有非常大的影響。相似度測(cè)試主要采用ABX測(cè)試方法,其中的A和B分別表示源說話人和目標(biāo)說話人,X指的轉(zhuǎn)換后的語音,該測(cè)試的目的主要是為了反映轉(zhuǎn)換后的語音聽起來是像源說話人還是更像目標(biāo)說話人,如果像源說話人則得分為0,如果像目標(biāo)說話人則得分為1,然后將總分加起來再去除以總共測(cè)試的語音個(gè)數(shù)。ABX的測(cè)試結(jié)果如表2所示。從表2可以看出,異性之間的轉(zhuǎn)換,ABX的結(jié)果要好于同性之間。這是因?yàn)楫愋灾g的頻譜距離雖然比同性之間的要大,但它的轉(zhuǎn)換程度要大于同性,這樣就導(dǎo)致轉(zhuǎn)換后的語音聽起來很明顯像目標(biāo)說話人,而不像源說話人。這是一種相對(duì)的結(jié)果,這一結(jié)果也和客觀測(cè)試中的頻譜相對(duì)距離D的結(jié)果相吻合。轉(zhuǎn)換后語音的MOS分如表3所示。從表3來看,同性轉(zhuǎn)換的語音質(zhì)量要好于異性之間。這是因?yàn)?,異性語音頻譜之間的距離一般要大于同性之間,轉(zhuǎn)換的程度也要大些,而對(duì)語音參數(shù)修改的程度要大,對(duì)語音質(zhì)量的影響也越大,這就導(dǎo)致了異性轉(zhuǎn)換之間的語音質(zhì)量有所下降。

        表2 ABX測(cè)試結(jié)果(%)

        表3 MOS分測(cè)試結(jié)果

        4 結(jié)束語

        本文提出了一種改進(jìn)的加權(quán)頻譜卷繞語音轉(zhuǎn)換算法。MFWF采用壓縮感知技術(shù)來提取語音幀間的相關(guān)信息,對(duì)語音特征參數(shù)的轉(zhuǎn)換相當(dāng)于是在語音分段的基礎(chǔ)上進(jìn)行,有利于保持轉(zhuǎn)換語音頻譜的連貫性和穩(wěn)定性??陀^評(píng)測(cè)和主觀聽覺實(shí)驗(yàn)都表明,在選擇合適的語音段時(shí)長(zhǎng)的情況下,MWFW算法的性能要優(yōu)于WFW算法。

        [1] 左國(guó)玉,劉文舉,阮曉剛.聲音轉(zhuǎn)換技術(shù)的研究與進(jìn)展[J].電子學(xué)報(bào),2004,32(7):1 165-1 172.

        [2] Abe M,Nakamura S,Shikano K,et al.Voice conversion through vector quantization[C].New York:IEEE International Conference on Acoustic Speech and Signal Processing,1988:655-658.

        [3] Stylianou Y,Cappe O,Moulines E.Continuous probabilistic transform for voice conversion[J].IEEE Transactions on Speech and Audio Processing,1998,6(2):131-142

        [4] Kain A,Macon MW.Design and evaluation of a voice conversion algorithm based on spectral envelop mapping and residual prediction[C].Salt Lake City:IEEE International Conference on Acoustic Speech and Signal Processing,2001:813-816.

        [5] Pribilova A,Pribil J.Non-linear frequency scale mapping voice conversion in text-to-speech system with cepstral description[J].Speech Communication,2006,48(12):1 691-1 703.

        [6] Erro D,Moreno A,Bonafonte A.Voice conversion based on weighted frequency warping[J].IEEE Transactions on Audio Speech and Language Processing,2010,18(5):922-931.

        [7] Tropp JA,Gilbert A C.Signal recovery from random measurements via orthogonal matching pursuit[J].IEEE Transactions on Information Theory,2007,53(12):4 655-4 666.

        [8] Kawahara H,Masuda-Katsuse I,Cheveigne A.Restructuring speech representations using a pitch-adaptive time-frequency smoothing and an instantaneous-frequency-based F0 extraction:Possible role of a repetitive structure in sounds[J].Speech Communication,1999,27(3):187-207.

        [9] Ye Hui,Young S.Quality-enhanced voice morphing using maximum likelihood transformations[J].IEEE Transactions on Audio Speech and Language Processing,2006,14(4):1 301-1 312.

        猜你喜歡
        男聲特征參數(shù)矢量
        故障診斷中信號(hào)特征參數(shù)擇取方法
        矢量三角形法的應(yīng)用
        基于特征參數(shù)化的木工CAD/CAM系統(tǒng)
        豐碑(男聲獨(dú)唱)
        心聲歌刊(2020年1期)2020-04-21 09:25:02
        夢(mèng)中的騎手(男聲獨(dú)唱)
        心聲歌刊(2019年3期)2019-06-06 02:52:32
        中 年 人
        基于PSO-VMD的齒輪特征參數(shù)提取方法研究
        基于矢量最優(yōu)估計(jì)的穩(wěn)健測(cè)向方法
        三角形法則在動(dòng)態(tài)平衡問題中的應(yīng)用
        初中男聲合唱教學(xué)的探索
        青青草高中生在线视频| 国产精品视频免费播放| 婷婷五月综合丁香在线| 国产精品爽爽va在线观看网站| 91精品国产91| 亚洲一区二区三区资源| 97青草超碰久久国内精品91| 在线播放真实国产乱子伦| 日产亚洲一区二区三区| 国产毛片网| 日产精品一区二区三区| av男人的天堂第三区| 天天射综合网天天插天天干| 成人无码av免费网站| 亚洲综合色婷婷七月丁香| 中日韩精品视频在线观看| 51精品视频一区二区三区| 蜜桃视频中文字幕一区二区三区 | 9久久婷婷国产综合精品性色| 无码任你躁久久久久久老妇| 久久99欧美| 中文字幕午夜AV福利片| 久久网站在线免费观看| 亚洲天堂一二三四区在线 | 处破痛哭a√18成年片免费| 久久精品国产亚洲vr| 亚洲av永久综合网站美女| 亚洲最大水蜜桃在线观看| 免费人成在线观看视频播放| 中文字幕 人妻熟女| 一区二区三区蜜桃在线视频| 青青草在线这里只有精品| 亚洲日韩国产一区二区三区在线 | 亚洲色欲色欲www成人网| 中文字幕人妻久久久中出| 日韩 无码 偷拍 中文字幕| 影视先锋av资源噜噜| 成人xx免费无码| 成人午夜视频在线观看高清| 自拍偷自拍亚洲一区二区| 亚洲男同gay在线观看|