約束條件下的結(jié)構(gòu)化高斯混合模型及非平行語料語音轉(zhuǎn)換

2016-11-22 07:00:29車瀅霞俞一彪

電子學(xué)報(bào) 2016年9期

關(guān)鍵詞：高斯分布結(jié)構(gòu)化語料

車瀅霞，俞一彪

(蘇州大學(xué)電子信息學(xué)院，江蘇蘇州 215006)

約束條件下的結(jié)構(gòu)化高斯混合模型及非平行語料語音轉(zhuǎn)換

車瀅霞，俞一彪

(蘇州大學(xué)電子信息學(xué)院，江蘇蘇州 215006)

提出一種約束條件下的結(jié)構(gòu)化高斯混合模型及非平行語料語音轉(zhuǎn)換方法.從源與目標(biāo)說話人的原始非平行語料中提取出少量相同音節(jié)，在結(jié)構(gòu)化高斯混合模型的訓(xùn)練過程中，利用這些相同音節(jié)包含的語義信息及聲學(xué)特征對應(yīng)關(guān)系對K均值聚類中心進(jìn)行約束，并在(Expectation Maximum,EM)迭代過程中對語音幀屬于模型分量的后驗(yàn)概率進(jìn)行修正，得到基于約束的結(jié)構(gòu)化高斯混合模型(Structured Gaussian Mixture Model with Constraint condition,C-SGMM).再利用全局聲學(xué)結(jié)構(gòu)(Acoustic Universal Structure,AUS)原理對源和目標(biāo)說話人的約束結(jié)構(gòu)化高斯混合模型的高斯分布進(jìn)行匹配對準(zhǔn)，推導(dǎo)出短時(shí)譜轉(zhuǎn)換函數(shù).主觀和客觀評價(jià)實(shí)驗(yàn)結(jié)果表明，使用該方法得到的轉(zhuǎn)換后語音在譜失真，目標(biāo)傾向性和語音質(zhì)量等方面均優(yōu)于傳統(tǒng)的結(jié)構(gòu)化模型語音轉(zhuǎn)換方法，轉(zhuǎn)換語音的平均譜失真僅為0.52，說話人正確識別率達(dá)到95.25%，目標(biāo)語音傾向性指標(biāo)ABX平均為0.82，性能更加接近于基于平行語料的語音轉(zhuǎn)換方法.

語音轉(zhuǎn)換；結(jié)構(gòu)化高斯混合模型；非平行語料；約束條件

1 引言

語音轉(zhuǎn)換是指將A說話人的語音進(jìn)行轉(zhuǎn)換并使其聽起來像B說話人的語音，且保持語義內(nèi)容不變的一種技術(shù)[1].語音轉(zhuǎn)換、尤其是基于非平行語料訓(xùn)練的語音轉(zhuǎn)換是目前語音研究領(lǐng)域比較新的課題，對于具有表現(xiàn)力的語音合成、語音偽裝通信、多媒體配音和殘疾人發(fā)聲等發(fā)面都有很廣泛的應(yīng)用價(jià)值，因此近年來得到越來越多研究者的關(guān)注.

傳統(tǒng)的說話人語音轉(zhuǎn)換方法大多采用平行語料的聯(lián)合訓(xùn)練獲得轉(zhuǎn)換函數(shù)[2～4].但由于平行訓(xùn)練語料在實(shí)際應(yīng)用中難以獲得，近年來一些學(xué)者在基于非平行語料的語音轉(zhuǎn)換方面進(jìn)行研究，并取得了一定的成果.Mouchtaris等利用說話人自適應(yīng)技術(shù)，通過特定人的平行語料訓(xùn)練推導(dǎo)出非平行語料下的轉(zhuǎn)換函數(shù)[5]，但首先要對參考說話人語音進(jìn)行充分的聯(lián)合訓(xùn)練獲得參考模型，再分別進(jìn)行自適應(yīng)獲得轉(zhuǎn)換函數(shù)，計(jì)算量大且過程復(fù)雜；Erro等將最近鄰搜索算法(N-N)與語音轉(zhuǎn)換相結(jié)合[6]，通過不斷迭代轉(zhuǎn)換過程后達(dá)到理想轉(zhuǎn)換效果，這一方法不僅迭代過程計(jì)算量大，而且最近鄰搜索算法難以保證正確的聲學(xué)特征對準(zhǔn)處理；Saito等通過建立噪聲信道模型實(shí)現(xiàn)基于少量平行語料訓(xùn)練的非平行語料下的語音轉(zhuǎn)換[7]，但聯(lián)合模型的訓(xùn)練仍然需要少量的高質(zhì)量平行語料；曾道建等提出了結(jié)構(gòu)化語音轉(zhuǎn)換方法[8]，通過對結(jié)構(gòu)化高斯混合模型(Structured Gaussian Mixture Model，SGMM)在特征空間的對準(zhǔn)實(shí)現(xiàn)說話人轉(zhuǎn)換，由于非平行語料的語音成份對應(yīng)關(guān)系難以正確保證，轉(zhuǎn)換效果受到很大的影響.

本文提出一種約束條件下的結(jié)構(gòu)化高斯混合模型并將其應(yīng)用于非平行語料語音轉(zhuǎn)換.首先從源與目標(biāo)說話人非平行語料中提取出少量相同音節(jié)作為約束信息，利用其包含的語義信息及聲學(xué)特征對應(yīng)關(guān)系，在結(jié)構(gòu)化高斯混合模型(SGMM)的訓(xùn)練過程中，約束K均值聚類的聚類中心以及修正EM過程中語音幀屬于某高斯分布的后驗(yàn)概率，得到基于約束的結(jié)構(gòu)化高斯混合模型(C-SGMM).再利用全局聲學(xué)結(jié)構(gòu)(AUS)原理對源說話人和目標(biāo)說話人的C-SGMM進(jìn)行高斯分布對準(zhǔn)，得到短時(shí)譜轉(zhuǎn)換函數(shù)，實(shí)現(xiàn)語音轉(zhuǎn)換.通過主觀和客觀評價(jià)準(zhǔn)則對轉(zhuǎn)換后的語音進(jìn)行實(shí)驗(yàn)測評，使用該方法得到的轉(zhuǎn)換后語音相比于傳統(tǒng)的結(jié)構(gòu)化語音轉(zhuǎn)換方法[8]降低了譜失真，提高了目標(biāo)傾向性和語音質(zhì)量，轉(zhuǎn)換性能更加接近于傳統(tǒng)的基于平行語料的語音轉(zhuǎn)換方法[2～4].

2 系統(tǒng)構(gòu)成

圖1描述了約束條件下的結(jié)構(gòu)化高斯混合模型應(yīng)用于非平行語料語音轉(zhuǎn)換的系統(tǒng)構(gòu)成.

語音轉(zhuǎn)換系統(tǒng)分為訓(xùn)練與轉(zhuǎn)換兩個(gè)部分.在訓(xùn)練階段，對源語音和目標(biāo)語音進(jìn)行STRAIGHT分析，提取出短時(shí)譜及基頻，從短時(shí)譜中提取出線性預(yù)測倒譜系數(shù)(LPCC).與此同時(shí)，從源說話人及目標(biāo)說話人的非平行訓(xùn)練語料中提取出相同的音節(jié)，經(jīng)過相同的STRAIGHT分析過程，其特征參數(shù)進(jìn)行聯(lián)合訓(xùn)練得到聯(lián)合分布的高斯混合模型，該聯(lián)合模型包含了源和目標(biāo)語音成份的對應(yīng)關(guān)系.然后，對該模型各個(gè)高斯分布進(jìn)行標(biāo)記，標(biāo)明源與目標(biāo)高斯分布之間的對應(yīng)關(guān)系，作為約束信息指導(dǎo)源與目標(biāo)語音LPCC特征參數(shù)的聚類和帶約束的SGMM建模，得到源與目標(biāo)說話人語音各自的C-SGMM.而F0則由單高斯分布描述.訓(xùn)練好的源與目標(biāo)C-SGMM在保證由聯(lián)合模型得到的高斯分布對應(yīng)關(guān)系的前提下，通過AUS原理進(jìn)行其它高斯分布的匹配對準(zhǔn)，繼而推導(dǎo)出非平行語料語音短時(shí)譜轉(zhuǎn)換函數(shù).

轉(zhuǎn)換階段與傳統(tǒng)的基于高斯混合模型(GMM)的平行語料語音轉(zhuǎn)換類似，利用轉(zhuǎn)換公式分別對LPCC特征參數(shù)和F0轉(zhuǎn)換并合成后，得到轉(zhuǎn)換后的語音.

3 約束條件下的高斯混合模型

C-SGMM是從源和目標(biāo)說話人的原始非平行訓(xùn)練語料中提取少量相同音節(jié)作為約束信息，在SGMM的訓(xùn)練過程中約束K均值聚類中心的產(chǎn)生，同時(shí)修正EM過程中某語音幀對應(yīng)某高斯分量的后驗(yàn)概率進(jìn)行迭代訓(xùn)練.因此，本節(jié)將首先對SGMM進(jìn)行簡要描述及分析，然后針對C-SGMM的訓(xùn)練過程，從約束信息引入K均值聚類和EM過程兩個(gè)方面進(jìn)行介紹.

3.1 結(jié)構(gòu)化高斯混合模型及其分析

高斯混合模型(GMM)是單一高斯概率密度函數(shù)的延伸，由于GMM能夠平滑地近似任意形狀的密度分布，因此近年來常被用在語音識別，語音轉(zhuǎn)換等方面[9].結(jié)構(gòu)化高斯混合模型[8]將高斯混合模型結(jié)構(gòu)化，描述出高斯混合模型的各個(gè)單高斯分布之間的結(jié)構(gòu)特性，如圖2.首先用EM算法估計(jì)出高斯混合模型的參數(shù)(πk,μk,Σk)，然后采用Bhattacharyya距離測度計(jì)算高斯混合模型中各個(gè)單高斯分布之間的相似性，定義為兩個(gè)單高斯分布的距離.Bhattacharyya距離測度(BD)計(jì)算公式如下：

(1)

結(jié)構(gòu)化高斯混合模型不僅描述了說話人語音特征的統(tǒng)計(jì)分布，而且描述了這些特征分布之間的結(jié)構(gòu)關(guān)系.由于高斯混合模型的每一個(gè)分量對應(yīng)一個(gè)可分辨的語音特征分布，并且相同的語音成份具有相似的語音特征分布，因此，如果源和目標(biāo)說話人的訓(xùn)練語料足夠充分，使各語音成份能夠相對平衡，那么將其語音各自進(jìn)行結(jié)構(gòu)化高斯混合模型建模之后，即使訓(xùn)練語料不平行，相同的語音成份及其特征分布也能通過不斷調(diào)整結(jié)構(gòu)化高斯混合模型中高斯分量在其中的位置達(dá)到相對對準(zhǔn)，實(shí)現(xiàn)高斯分布的一一對應(yīng)，推導(dǎo)出語音短時(shí)譜轉(zhuǎn)換函數(shù)[8].

但是在實(shí)際情況中，非平行訓(xùn)練語料往往是非理想的.不同說話人發(fā)音習(xí)慣各有不同，那么源和目標(biāo)語音的聲學(xué)特征之間則存在較大離散度，其SGMM之間的成份很可能沒有潛在的一一對應(yīng)關(guān)系.再加上源和目標(biāo)說話人的SGMM訓(xùn)練是獨(dú)立進(jìn)行的，缺少監(jiān)督信息，那么強(qiáng)制對準(zhǔn)建立的源-目標(biāo)語音成份聲學(xué)特征間的對應(yīng)關(guān)系是不夠精確的，從而影響整體轉(zhuǎn)換性能.

而在基于平行語料的說話人語音轉(zhuǎn)換中，由于平行訓(xùn)練語料本身就存在語音成份上的對應(yīng)關(guān)系，聯(lián)合訓(xùn)練正是利用了這種對應(yīng)關(guān)系，因此轉(zhuǎn)換語音從清晰度，可懂度和目標(biāo)傾向性等方面均表現(xiàn)出較好的性能，但完全平行的訓(xùn)練語料難以獲得.然而，在源和目標(biāo)說話人原始的非平行訓(xùn)練語料中，少量相同的音節(jié)很容易得到并且被提取出來.這些相同的音節(jié)包含了一定的語義信息[10]，也包含了源和目標(biāo)語音成份及其聲學(xué)特征的對應(yīng)關(guān)系.顯然，這種對應(yīng)關(guān)系可以作為約束信息加以有效利用，在SGMM訓(xùn)練和匹配對準(zhǔn)時(shí)起指導(dǎo)作用，也就是說SGMM的建模和對準(zhǔn)以源和目標(biāo)的少量相同音節(jié)指示的對應(yīng)關(guān)系為基礎(chǔ)，其它大量非平行語料在此基礎(chǔ)上對模型進(jìn)行分量的擴(kuò)展和微調(diào)，充分利用語料本身存在的對應(yīng)關(guān)系，使最終語音轉(zhuǎn)換的效果更接近于平行語料語音轉(zhuǎn)換.

在對源和目標(biāo)語音分別進(jìn)行C-SGMM建模時(shí)，需要先用EM算法估計(jì)出高斯混合模型的參數(shù)(πk,μk,Σk)，約束信息對C-SGMM建模的指導(dǎo)作用即體現(xiàn)在EM算法中.由于EM算法對初始值敏感，其初始迭代值可由基于密度的K均值聚類算法[11]產(chǎn)生，所以，將約束信息引入EM算法的同時(shí)也包括了將約束信息引入K均值聚類算法.以下將從基于約束的K均值聚類和基于約束的EM算法兩方面來進(jìn)行闡述.

3.2 基于約束的K均值聚類

在對所有訓(xùn)練語料聲學(xué)特征參數(shù)進(jìn)行統(tǒng)計(jì)建模時(shí)，需要提取出源與目標(biāo)說話人訓(xùn)練語料中少量相同音節(jié)聯(lián)合訓(xùn)練作為約束信息指導(dǎo)C-SGMM建模.基于這些音節(jié)樣本聯(lián)合訓(xùn)練得到GMM的模型參數(shù)，進(jìn)一步計(jì)算得到每個(gè)高斯分量對應(yīng)訓(xùn)練數(shù)據(jù)中哪些樣本.屬于同一個(gè)高斯分量的樣本集可以看作一個(gè)簇，該簇內(nèi)的樣本具有相同的簇標(biāo)記，包含了相似的語音特征參數(shù)，這些樣本在聚類時(shí)必須被聚到同一類中.

定義帶M個(gè)簇標(biāo)記的數(shù)據(jù)樣本集X為

由于相同音節(jié)數(shù)目的有限性，其特征參數(shù)聯(lián)合訓(xùn)練的分布不能充分表達(dá)該說話人語音成份的特征分布，這就需要通過大量非平行訓(xùn)練語料對模型所包含的分布進(jìn)行適當(dāng)?shù)臄U(kuò)充，使得模型能充分描述該說話人完整的語音聲學(xué)特征.

步驟1 確定初始聚類中心和聚類數(shù)目S(S>M).將{μx1,μx2,…，μxM}作為前M個(gè)初始值，將μx1,μx2,…，μxM的ε鄰域(實(shí)驗(yàn)結(jié)果表明，本實(shí)驗(yàn)使用的語料庫中女性說話人的ε=1.1，男性說話人的ε=1.3時(shí)可使K均值聚類的誤差相對較小)以外的yi∈Y按基于密度的K均值聚類算法擴(kuò)充出(S-M)個(gè)初始值[11，12]；

步驟2 對Y進(jìn)行聚類.計(jì)算所有yi∈Y與聚類中心C{c1,c2,…，cS}的距離，根據(jù)距離將yi劃分到最近的簇cs中；

步驟3 對X進(jìn)行聚類.X中的數(shù)據(jù)本身帶標(biāo)記，以μx1,μx2,…，μxM為均值的的簇分別被聚類到{c1,c2,…，cM}中；

步驟4 更新聚類中心.第t次迭代時(shí)，為了避免由于相同音節(jié)數(shù)少而導(dǎo)致的訓(xùn)練不充分性，第j個(gè)聚類中心為

(2)

其中，|Cj|為第j類中無標(biāo)記樣本yji的總數(shù)，Nj為聚到第j類中的帶標(biāo)記數(shù)據(jù)的總數(shù)，μxj為其均值，在j>M時(shí)，Nj和μxj均為0；

步驟5 重復(fù)步驟2～步驟4直至收斂或達(dá)到最大迭代次數(shù).

3.3 基于約束的EM算法

EM算法是一種迭代算法，包含了計(jì)算期望(E步)和最大化(M步)兩步，E步估計(jì)未知參數(shù)的期望值，給出當(dāng)前的參數(shù)估計(jì)，M步重新估計(jì)分布參數(shù)，使得數(shù)據(jù)的似然性最大，給出未知變量的期望估計(jì).C-SGMM的參數(shù)(πk,μk,Σk)使用帶約束條件的EM算法進(jìn)行估計(jì)，在帶約束K均值聚類的基礎(chǔ)上使用EM算法迭代計(jì)算，并在迭代過程中融入小樣本平行語料約束信息.

首先估計(jì)樣本數(shù)據(jù)對應(yīng)每個(gè)高斯分量的后驗(yàn)概率.對于每個(gè)樣本數(shù)據(jù)yi，由第k個(gè)分量產(chǎn)生的后驗(yàn)概率為

(3)

其中N(yi|μk,Σk)表示第k個(gè)高斯分布的概率密度函數(shù).

然后通過最大似然估計(jì)可得到模型參數(shù)更新公式

(4)

(5)

(6)

通過其模型參數(shù)迭代更新的公式可知，yi及其后驗(yàn)概率不僅影響其本身所屬分量的參數(shù)更新，同時(shí)也參與了其它分量的參數(shù)更新，也就是說，本應(yīng)該屬于第k個(gè)分量的樣本會(huì)以其后驗(yàn)概率對其它模型分量的參數(shù)產(chǎn)生或大或小的干擾[12]，EM算法迭代的過程即是減小這種干擾的過程，使樣本以更大的后驗(yàn)概率屬于某一分布，以更小的后驗(yàn)概率屬于其它分布.

根據(jù)前面的論述，帶有相同簇標(biāo)記的樣本應(yīng)該屬于同一個(gè)分量.根據(jù)簇平滑思想，通過加入了少量帶標(biāo)記的數(shù)據(jù)樣本訓(xùn)練得到的SGMM模型參數(shù)應(yīng)該使得帶有相同簇標(biāo)記的樣本的各個(gè)后驗(yàn)概率相似，其不相似度在迭代的過程中可作為修正后驗(yàn)概率的因子[13].

帶標(biāo)記的數(shù)據(jù)樣本xsj屬于第s個(gè)分布的后驗(yàn)概率為p(s|xsj,θ)(s=1,2,…,S)，對于該分布中的其它樣本，其p(s|ysn,θ)與p(s|xsj,θ)應(yīng)該盡可能的相似，其相似度函數(shù)可定義為

(7)

該值越大，說明本應(yīng)相同的值卻相差很大，p(s|ysn,θ)應(yīng)作出較大的使之降低的調(diào)整；反之說明應(yīng)該相同的值相差很小，為保證聯(lián)合訓(xùn)練得出的對應(yīng)關(guān)系，p(s|ysn,θ)不作調(diào)整或者不作很大的調(diào)整.可定義修正因子為

(8)

調(diào)整后的pl(s|ysn,θ)=p(s|ysn,θ)·ρsn.因此，每次EM迭代時(shí)都使用調(diào)整后的后驗(yàn)概率進(jìn)行模型參數(shù)的更新，則模型參數(shù)的更新公式為式(3)～式(5)，其中

(9)

理論上該修正能加快EM算法的收斂速度，使EM算法得到的模型參數(shù)更符合用戶期望.

由式(2)和(9)可知，第j類中的樣本個(gè)數(shù)Nj影響著Cj和γ′(i.k)，也就是相同音節(jié)的個(gè)數(shù)影響著基于約束的K均值聚類中聚類中心的產(chǎn)生和基于約束的EM過程中樣本屬于某分量的后驗(yàn)概率.Nj越大，相同音節(jié)對C-SGMM訓(xùn)練的約束性越強(qiáng)，得到的C-SGMM中的分量越接近于平行訓(xùn)練語料的GMM的分量，理論上轉(zhuǎn)換效果越好.

在本文的實(shí)驗(yàn)中，考慮到實(shí)際情況中非平行訓(xùn)練語料的局限性，體現(xiàn)“少量約束信息”，從原始非平行訓(xùn)練語料中提取出54個(gè)相同音節(jié)，每個(gè)音節(jié)約為30幀.同時(shí)，為保證基于相同音節(jié)聯(lián)合訓(xùn)練得出的對應(yīng)關(guān)系不發(fā)生太大的偏離，通過觀察相似度函數(shù)值的統(tǒng)計(jì)直方圖和EM迭代過程中似然值，將女性說話人進(jìn)行后驗(yàn)概率調(diào)整的閾值設(shè)為4.5，男性說話人進(jìn)行后驗(yàn)概率調(diào)整的閾值設(shè)為4.3.后驗(yàn)概率在相似度函數(shù)值達(dá)到所設(shè)閾值才進(jìn)行調(diào)整，否則不作調(diào)整.

最后，求得模型參數(shù)(πk,μk,Σk)后再計(jì)算每個(gè)高斯分布之間的Bhattacharyya距離，則C-SGMM訓(xùn)練完成.

4 基于C-SGMM的非平行語料語音轉(zhuǎn)換

C-SGMM不僅描述了說話人語音特征分布，而且描述了這些特征分布之間的結(jié)構(gòu)關(guān)系，其應(yīng)用于語音轉(zhuǎn)換的過程是通過不斷調(diào)整源說話人C-SGMM中高斯分布的位置，使源說話人C-SGMM調(diào)整之后與目標(biāo)說話人C-SGMM在高斯分布上有正確的一一對應(yīng)的關(guān)系，即語音成份上的對應(yīng)關(guān)系，從而實(shí)現(xiàn)語音轉(zhuǎn)換.

不同說話人發(fā)音的倒譜特征參數(shù)變化表現(xiàn)為一種線性映射關(guān)系[13]，理論上，不同說話人發(fā)出的相同語音，倒譜特征參數(shù)在AUS中的Bhattacharyya距離是相同的，即

BD(pi(x′),pj(x′))=BD(pi(x),pj(x))

(10)

其中，x是源語音的到譜特征參數(shù)，x′是相同語音的目標(biāo)語音的倒譜特征參數(shù).

上式表明，盡管不同說話人發(fā)出的同一語音具有不同的聲學(xué)特征分布，但在倒譜空間中其結(jié)構(gòu)是相同的，只是位置發(fā)生了變化.AUS描述一個(gè)語音的內(nèi)在聲學(xué)特征結(jié)構(gòu)關(guān)系[14]，通過AUS不變性原理將兩個(gè)C-SGMM中的聲學(xué)特征分布進(jìn)行對準(zhǔn)，從而可推導(dǎo)出語音轉(zhuǎn)換公式.

兩個(gè)C-SGMM之間的距離定義為：

(11)

其中,sij，tij分別表示在源C-SGMM中和目標(biāo)C-SGMM中連接節(jié)點(diǎn)i，j的邊，即式(1)所表示的Bhattacharyya距離.當(dāng)下式成立時(shí)，表明源說話人的C-SGMM與目標(biāo)說話人的C-SGMM之間的差異最小，此時(shí)兩模型之間高斯分量實(shí)現(xiàn)對準(zhǔn)，即語音聲學(xué)特征已經(jīng)對準(zhǔn).

(12)

(13)

1≤i,j≤N,1≤f(·)≤N

(14)

則短時(shí)譜的轉(zhuǎn)換函數(shù)可以表示為：

(15)

基于C-SGMM的語音轉(zhuǎn)換的核心是特征參數(shù)高斯分布的對準(zhǔn).由于每個(gè)高斯分布對應(yīng)著一個(gè)特定的語音成份，如果由于算法的不精確導(dǎo)致模型的對準(zhǔn)有偏差，則語音成份的對準(zhǔn)也存在偏差，那么合成的語音就會(huì)詞序混亂，表意不明，所以C-SGMM中的高斯分量的對準(zhǔn)是十分重要的，直接影響語音的可懂性.若要得到使對準(zhǔn)式(11)～(13)成立的全局最優(yōu)解，理論上需要對模型中的高斯分布進(jìn)行全排列，但這個(gè)搜索過程過于龐大，對計(jì)算機(jī)的性能要求極高，因此需要考慮能平衡搜索時(shí)間與模型匹配精度矛盾的局部最優(yōu)算法.所以，在C-SGMM的對準(zhǔn)過程中使用基于爬山算法的快速模型匹配算法[15].

由于C-SGMM的訓(xùn)練不改變基于少量相同音節(jié)聯(lián)合訓(xùn)練得到的源和目標(biāo)語音在語音成份上的對應(yīng)關(guān)系，所以在模型匹配過程中只需對新增的高斯分量使用快速匹配算法進(jìn)行對準(zhǔn)，由少量相同音節(jié)確定的高斯分布默認(rèn)已經(jīng)一一對準(zhǔn)，不再進(jìn)行匹配對準(zhǔn).

除了短時(shí)譜，另一個(gè)表征說話人個(gè)性特征的參數(shù)是基音頻率F0.本文使用單高斯分布描述源說話人和目標(biāo)說話人的基音頻率分布特性，由此得到基音頻率的轉(zhuǎn)換公式為

(16)

其中,μS和σS表示源說話人基頻的均值和方差，μT和σT表示目標(biāo)說話人基頻的均值和方差.

5 實(shí)驗(yàn)與分析

設(shè)計(jì)了四個(gè)實(shí)驗(yàn)來評價(jià)本文提出的方法是否有效.其中包括兩個(gè)客觀評價(jià)實(shí)驗(yàn)和兩個(gè)主觀評價(jià)實(shí)驗(yàn)，并且與基于GMM的平行語料語音轉(zhuǎn)換及傳統(tǒng)的結(jié)構(gòu)化非平行語料語音轉(zhuǎn)換結(jié)果進(jìn)行比較.本實(shí)驗(yàn)中采用的訓(xùn)練和測試語料為均在安靜的環(huán)境下錄制的語料庫SUDA-3[8]，訓(xùn)練語料包括兩段男聲和兩段女聲(記為F1，F(xiàn)2，M1，M2)，包含語音成份相對平衡，持續(xù)時(shí)間均為約3分鐘.測試語料為F1、 F2、M1和M2的各40段語音，每段語音持續(xù)時(shí)間約3秒鐘.錄制訓(xùn)練和測試語料時(shí)采樣率均設(shè)為16kHz，量化位均為16.聯(lián)合訓(xùn)練的高斯分布數(shù)為64.非平行訓(xùn)練語料在使用C-SGMM建模時(shí)，均采用128個(gè)高斯分布，即在原64個(gè)高斯分布的基礎(chǔ)上新增64個(gè)高斯分布.LPCC特征參數(shù)均設(shè)為39階.

5.1 客觀評價(jià)

本小節(jié)設(shè)計(jì)了兩個(gè)客觀評價(jià)實(shí)驗(yàn)，分別為說話人識別(SR)測試和譜失真(CD)測度.下列表格中，GMM表示使用傳統(tǒng)的基于GMM的平行語料語音轉(zhuǎn)換方法，SGMM表示傳統(tǒng)結(jié)構(gòu)化方法，C-SGMM表示基于約束的結(jié)構(gòu)化高斯混合模型方法.客觀測評結(jié)果如表1和表2.

說話人識別測試主要是通過測試轉(zhuǎn)換后語音屬于源說話人和目標(biāo)說話人語音的似然度來評價(jià)轉(zhuǎn)換性能.建立四個(gè)說話人(F1，F(xiàn)2，M1，M2)的高斯混合模型，高斯混合模型中的高斯分布數(shù)為16，特征矢量為12維MFCC參數(shù)以及12維一階MFCC差分值.

表1 客觀測評結(jié)果(SR)

表2 客觀測評結(jié)果(CD)

譜失真測度測評轉(zhuǎn)換后語音的倒譜與目標(biāo)語音倒譜之間的差異性，表示為

(17)

其中,N為語音的幀數(shù)，M為特征參數(shù)LPCC的階數(shù)，T表示目標(biāo)語音的LPCC，而S′表示轉(zhuǎn)換后語音的LPCC.

從表1的實(shí)驗(yàn)結(jié)果可知，采用基于C-SGMM的語音轉(zhuǎn)換方法，轉(zhuǎn)換后語音的平均正確識別率達(dá)到95.25%，比傳統(tǒng)的結(jié)構(gòu)化方法高了0.75%，更加接近于傳統(tǒng)的基于GMM的平行語料語音轉(zhuǎn)換方法.由表2可知，使用該方法得到的平均譜失真測度相比于傳統(tǒng)的結(jié)構(gòu)化方法降低了10.3%，充分說明了使用該方法得到的譜包絡(luò)更加接近于目標(biāo)譜包絡(luò).

5.2 主觀評價(jià)

設(shè)計(jì)了兩個(gè)主觀評價(jià)實(shí)驗(yàn)來測試轉(zhuǎn)換后語音的質(zhì)量，分別為ABX測試和MOS測試，測試人數(shù)為20人.實(shí)驗(yàn)結(jié)果如表3和表4.

在ABX測試中，聽者判斷轉(zhuǎn)換后的語音更加接近與源語音還是目標(biāo)語音，接近源語音則給出評分0分，接近目標(biāo)語音則給出評分1分.在MOS測試中，聽者根據(jù)聽到的語音的質(zhì)量對該語音進(jìn)行打分，評分分為5個(gè)等級：1分表示很差，2分表示較差，3分表示一般，4分表示較好，5分表示很好.

表3 主觀測評結(jié)果(ABX)

表4 主觀測評結(jié)果(MOS)

從表中各個(gè)方法的ABX與MOS得分可以看出，采用C-SGMM方法得到的實(shí)驗(yàn)結(jié)果相比于傳統(tǒng)的結(jié)構(gòu)化方法，從目標(biāo)傾向性和語音質(zhì)量兩方面更加接近于基于GMM的平行語料語音轉(zhuǎn)換方法的性能.

6 總結(jié)

本文論述了基于約束條件的結(jié)構(gòu)化高斯混合模型及基于該模型的非平行語料語音轉(zhuǎn)換方法.該方法不需要平行訓(xùn)練語料，克服了傳統(tǒng)結(jié)構(gòu)化方法的語音成份對應(yīng)關(guān)系的問題并且計(jì)算量相對較小.約束信息從源與目標(biāo)非平行語料中提取并應(yīng)用到SGMM的訓(xùn)練中，通過對K均值聚類初始值的選取和聚類中心迭代的約束，將約束信息引入K均值聚類；通過相似度函數(shù)對樣本所屬類別的后驗(yàn)概率進(jìn)行調(diào)整，將約束信息引入EM算法中，最終得到C-SGMM.C-SGMM中新增的高斯分布利用基于AUS原理的快速匹配算法進(jìn)行匹配對準(zhǔn)，而由約束信息確定的高斯分布默認(rèn)對準(zhǔn)，從而得到短時(shí)譜轉(zhuǎn)換函數(shù)進(jìn)行語音轉(zhuǎn)換.主觀和客觀實(shí)驗(yàn)結(jié)果表明，使用該方法得到的語音轉(zhuǎn)換性能相比于傳統(tǒng)的結(jié)構(gòu)化語音轉(zhuǎn)換方法有較大提高，更加接近于傳統(tǒng)的基于平行語料的語音轉(zhuǎn)換方法.

由于基于約束的EM算法中進(jìn)行后驗(yàn)概率調(diào)整的閾值隨不同說話人改變，與基頻相關(guān)性未知，故后續(xù)研究中需對此進(jìn)行進(jìn)一步探究.

[1]Stylianou,Y.Voice transformation:A survey[A].IEEE International Conference on Acoustics,Speech and Signal Processing[C].Taipei:IEEE,2009.3585-3588.

[2]康永國,雙志偉,陶建華,張維.基于混合映射模型的語音轉(zhuǎn)換算法研究[J].聲學(xué)學(xué)報(bào),2006,31(6):555-562.

Kang Yongguo,Shuang Zhiwei,Tao Jianhua,et al.A hybrid method to convert acoustic features for voice conversion[J].Acta Acustica,2006,31(6):555-562.(in Chinese)

[3]徐寧,楊震,張玲華.基于狀態(tài)空間模型的子頻帶語音轉(zhuǎn)換算法[J].電子學(xué)報(bào),2010,38(3):646-653.

Xu Ning,Yang Zhen,Zhang Ling-hua.Sub-and voice morphing algorithm based on state-space model[J].Acta Electronica Sinica,2010,38(3):646-653.(in Chinese)

[4]Gu Hung-yan,Tsai Sung-fung.Improving segmental GMM based voice conversion method with target frame selection[A].International Symposium on Chinese Spoken Language Processing (ISCSLP)[C].Singapore:IEEE，2014.483-487.

[5]Mouchtaris A,Van der Spiegel J,Mueller P.Nonparallel training for voice conversion based on a parameter adaptation approach[J].IEEE Transactions on Audio,Speech,and Language Processing,2006,14(3):952-963.

[6]Erro D,Moreno A,Bonafonte A.INCA Algorithm for training voice conversion systems from nonparallel corpora[J].IEEE Transactions on Audio,Speech,and Language Processing,2010,18(5):944-953.

[7]Saito D,Watanabe S,Nakamura A,et al.Statistical voice conversion based on noisy channel model[J].IEEE Transactions on Audio,Speech,and Language Processing,2012,20(6):1784-1794.

[8]俞一彪,曾道建,姜瑩.采用獨(dú)立說話人模型的語音轉(zhuǎn)換[J].聲學(xué)學(xué)報(bào),2012,37(3):346-352.

Yu Yibiao,Zheng Daojiang,Jiang Ying.Voice conversion based on isolated speaker model[J].Acta Acustica,2012,37(3):346-352.(in Chinese)

[9]Li Xian,Wang Zeng-fu.Frame correlation based autoregressive GMM method for voice conversion[A].International Symposium on Chinese Spoken Language Processing (ISCSLP)[C].Singapore:IEEE,2014.221-225.

[10]Li Yan-ping,Zhang Ling-hua,Ding Hui.Nonparallel voice conversion based on phoneme classification and eigenvoices[A].IEEE International Conference on Communication Technology (ICCT)[C].Nanjing:IEEE,2010.662-665.

[11]Oliva G,La Manna D,Fagiolini A,et al.Distance-constrained data clustering by combined k-means algorithms and opinion dynamics filters[A].Mediterranean Conference of Control and Automation (MED)[C].Palermo:IEEE,2014.612-619.

[12]於躍成.基于半監(jiān)督學(xué)習(xí)的分布式和演化聚類研究[D].南京:南京航空航天大學(xué),2012.

Yu Yuecheng.Distributed clustering and evolutionary clustering algorithm based on semi-supervised learning[D].Najing:Nanjing University of Aeronautics and Astronautics,2012.(in Chinese)

[13]Michael Pitz,Hermann Ney.Vocal tract normalization equals linear transformation in cepstral space[J].IEEE Trans on Audio,Speech,and Language Processing,2005,13(5):930-944.

[14]Minematsu N.Mathematical evidence of the acoustic universal structure in speech[A].IEEE International Conference on Acoustics,Speech,and Signal Processing,(ICASSP)[C].Philadelphia:IEEE，2005.889-892.

[15]Che Yingxia,Yu Yibiao.Fast matching algorithm between statistical acoustic models of source-target speaker in structured approach of non-parallel corpora voice conversion[A].IEEE International Conference on Information Science and Technology (ICIST)[C].Shenzhen:IEEE,2014.88-92.

車瀅霞女，1989年生，江蘇常州人，蘇州大學(xué)電子信息學(xué)院碩士，研究方向?yàn)檎Z音信號處理.

俞一彪(通信作者) 男，1962年生，江蘇無錫人，蘇州大學(xué)電子信息學(xué)院教授,主要研究領(lǐng)域?yàn)檎Z音信號處理、多媒體通信、信息隱藏.

Non-parallel Corpora Voice Conversion Based on Structured Gaussian Mixture Model Under Constraint Conditions

CHE Ying-xia,YU Yi-biao

(SchoolofElectronicandInformationEngineering,SoochowUniversity,Suzhou,Jiangsu215006,China)

This paper proposes a structured Gaussian mixture model with constraint conditions (C-SGMM) for non-parallel corpora voice conversion.A small number of voice signals with the same syllables from the source and target non-parallel corpus are extracted as constraint conditions,then the correspondence between acoustic features of source and target corpus formed by these syllables are applied in the process of statistical acoustic model training.The constraint conditions are used to restrict the cluster centers ofK-means clustering process,and they are also used in EM algorithm to adjust the voice frame’s posterior probability belonging to a Gaussian distribution component for model training.Then Gaussian distributions in source and target structured Gaussian mixture models are aligned using acoustic universal structure principle and the conversion function can be derived.Results of both subjective and objective experiments indicate that the conversion performance obtained by the proposed method are advanced to that of the traditional structured method in cepstrum distortion,target tendency and speech quality aspects.The average cepstrum distortion of converted speech is only 0.52,the speaker recognition rate of the converted speech reaches 95.25%,and the performance closer to the conventional parallel corpora GMM based method is achieved.

voice conversion;structure Gaussian mixture model;non-parallel corpora;constraint conditions

2015-02-08;

2015-08-10;責(zé)任編輯：梅志強(qiáng)

國家自然科學(xué)基金(No.61271360);江蘇省自然科學(xué)基金(No.BK20131196)

TN912.33

0372-2112 (2016) 09-2282-07

??學(xué)報(bào)URL:http://www.ejournal.org.cn

10.3969/j.issn.0372-2112.2016.09.37

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

約束條件下的結(jié)構(gòu)化高斯混合模型及非平行語料語音轉(zhuǎn)換

1 引言

2 系統(tǒng)構(gòu)成

3 約束條件下的高斯混合模型

4 基于C-SGMM的非平行語料語音轉(zhuǎn)換

5 實(shí)驗(yàn)與分析

6 總結(jié)