王志衛(wèi),徐 寧,2,3,4,劉小峰,2,3
(1.河海大學(xué)物聯(lián)網(wǎng)工程學(xué)院,常州213022;2.河海大學(xué)-法國(guó)Alderbaran Robotics認(rèn)知與機(jī)器人實(shí)驗(yàn)室,常州213022;3.常州市機(jī)器人與智能技術(shù)重點(diǎn)實(shí)驗(yàn)室,常州213022;4.教育部寬帶無(wú)線通信與網(wǎng)絡(luò)感知技術(shù)重點(diǎn)實(shí)驗(yàn)室,南京210003)
一種基于碼書(shū)映射的高效語(yǔ)音轉(zhuǎn)換方法?
王志衛(wèi)1,徐 寧1,2,3,4,劉小峰1,2,3
(1.河海大學(xué)物聯(lián)網(wǎng)工程學(xué)院,常州213022;2.河海大學(xué)-法國(guó)Alderbaran Robotics認(rèn)知與機(jī)器人實(shí)驗(yàn)室,常州213022;3.常州市機(jī)器人與智能技術(shù)重點(diǎn)實(shí)驗(yàn)室,常州213022;4.教育部寬帶無(wú)線通信與網(wǎng)絡(luò)感知技術(shù)重點(diǎn)實(shí)驗(yàn)室,南京210003)
為了使機(jī)器人在人-機(jī)語(yǔ)音交互過(guò)程中更為自然,利用語(yǔ)音轉(zhuǎn)換技術(shù)改變?cè)凑Z(yǔ)音個(gè)性特征(機(jī)械音),進(jìn)而變化為自然的目標(biāo)人語(yǔ)音,是一種可行的方案。然而,當(dāng)前的語(yǔ)音轉(zhuǎn)換主流方法在實(shí)時(shí)性要求高且內(nèi)核小的嵌入式機(jī)器人中并不適用。引入一種高效的改進(jìn)型碼書(shū)轉(zhuǎn)換方法。該方法首先通過(guò)匹配線性譜頻率參數(shù)的相對(duì)距離來(lái)求取加權(quán)系數(shù),進(jìn)而實(shí)現(xiàn)碼字的預(yù)測(cè)重構(gòu);其次,對(duì)預(yù)測(cè)的碼字進(jìn)行帶寬修正,克服頻譜偏移問(wèn)題。實(shí)驗(yàn)結(jié)果表明:該方法相比較傳統(tǒng)方法,在轉(zhuǎn)換性能相當(dāng)?shù)臈l件下,運(yùn)行時(shí)間縮短75%左右。
語(yǔ)音轉(zhuǎn)換;嵌入式系統(tǒng);諧波隨機(jī)模型;分段碼書(shū);人機(jī)交互
語(yǔ)音轉(zhuǎn)換是一種通過(guò)改變?cè)凑f(shuō)話(huà)者語(yǔ)音的個(gè)性特征,使之具有目標(biāo)說(shuō)話(huà)者語(yǔ)音的個(gè)性特征,同時(shí)保持說(shuō)話(huà)者的語(yǔ)義等相關(guān)信息不變的技術(shù)。在基于語(yǔ)音的人機(jī)交互中,將機(jī)器人的聲音轉(zhuǎn)變成為老年人子女的聲音,通過(guò)機(jī)器人傳達(dá)給老人,對(duì)其起到安撫的作用。
近年來(lái),語(yǔ)音轉(zhuǎn)換技術(shù)在許多語(yǔ)音研究者的努力下已經(jīng)初成一些體系,如隱馬爾可夫模型(Hidden Markov Model,HMM)[1]、人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)[2-3]、統(tǒng)計(jì)映射法(Statistical Transformation,ST)[4-5]等,然而,這些主流方法卻對(duì)于實(shí)時(shí)性要求高內(nèi)核小的嵌入式機(jī)器人并不適用。早年,Stylianou等人通過(guò)高斯混合模型(Gaussian Mixture Model,GMM)實(shí)現(xiàn)了對(duì)特征參數(shù)的映射[6],繼而該方法也成為了當(dāng)前較為主流的方法之一。但是此方法在應(yīng)用于機(jī)器人嵌入式系統(tǒng)的時(shí)候同樣面臨幾個(gè)問(wèn)題。首先,在實(shí)時(shí)性問(wèn)題上,該方法對(duì)于每一段需要轉(zhuǎn)變的語(yǔ)音,都要先通過(guò)GMM模型訓(xùn)練出一個(gè)映射規(guī)則,然后再進(jìn)行轉(zhuǎn)變,這樣導(dǎo)致的后果就是耗時(shí)過(guò)長(zhǎng),不能滿(mǎn)足嵌入式系統(tǒng)的實(shí)時(shí)要求,并且在訓(xùn)練過(guò)程中,會(huì)占用較多的系統(tǒng)內(nèi)存資源,對(duì)于嵌入式系統(tǒng)顯然并不適用。因此,文中提出一種改進(jìn)的分段碼書(shū)轉(zhuǎn)換方法[7]。該方法在數(shù)據(jù)訓(xùn)練中,對(duì)源和目標(biāo)說(shuō)話(huà)者的輸入語(yǔ)音數(shù)據(jù)參數(shù)制定一個(gè)從源說(shuō)話(huà)者聲學(xué)空間到目標(biāo)說(shuō)話(huà)者聲學(xué)空間的頻譜轉(zhuǎn)變。他們的聲學(xué)空間用一種被廣泛研究的聲學(xué)特征共振峰頻率來(lái)表示。轉(zhuǎn)變是基于碼本映射。具體做法是,用動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping,DTW)方法生成一個(gè)對(duì)齊的語(yǔ)音參數(shù)信息庫(kù)[8],當(dāng)每段語(yǔ)音輸入時(shí),直接通過(guò)匹配線性譜頻率參數(shù)(Line Spectral Frequency,LSF)的相對(duì)距離,求取輸入語(yǔ)音的每一幀LSF參數(shù)即碼字對(duì)應(yīng)于語(yǔ)音信息庫(kù)里源說(shuō)話(huà)者語(yǔ)音所有幀LSF參數(shù)的權(quán)值,從而實(shí)現(xiàn)目標(biāo)碼字的預(yù)測(cè),不需要再次訓(xùn)練轉(zhuǎn)變規(guī)則,縮短了運(yùn)行時(shí)間。此外,原方法在對(duì)語(yǔ)音參數(shù)矢量量化的過(guò)程中,會(huì)產(chǎn)生一定的失真,而改進(jìn)的方法,保留了所有語(yǔ)音幀的全部參數(shù)信息,降低了失真。另外,該方法對(duì)基音頻率值同樣進(jìn)行了轉(zhuǎn)變,并對(duì)預(yù)測(cè)的碼字進(jìn)行帶寬修正,從而降低了基音頻率與頻譜偏移產(chǎn)生的誤差??偠灾?,該文所論述的方法在適應(yīng)嵌入式系統(tǒng)特點(diǎn)的前提下,保持語(yǔ)義信息不變,高效的進(jìn)行語(yǔ)音轉(zhuǎn)變,并具有較高的轉(zhuǎn)變質(zhì)量。
圖1為該文的語(yǔ)音轉(zhuǎn)變系統(tǒng)框圖。系統(tǒng)共分為兩個(gè)階段,第一階段,對(duì)源和目標(biāo)說(shuō)話(huà)者語(yǔ)音進(jìn)行訓(xùn)練。首先源和目標(biāo)說(shuō)話(huà)者語(yǔ)音分別通過(guò)諧波隨機(jī)模型(Harmonic Stochastic Model,HSM)進(jìn)行分析[9],從而得到相應(yīng)的語(yǔ)音參數(shù)信息和基音頻率。通過(guò)源和目標(biāo)語(yǔ)音基音頻率計(jì)算從而得到基音轉(zhuǎn)變因子,用于對(duì)源說(shuō)話(huà)者測(cè)試語(yǔ)音進(jìn)行基音轉(zhuǎn)變。然后,通過(guò)對(duì)源和目標(biāo)語(yǔ)音參數(shù)計(jì)算得到相應(yīng)的LSF參數(shù),對(duì)源和目標(biāo)語(yǔ)音LSF參數(shù)進(jìn)行DTW參數(shù)對(duì)齊訓(xùn)練,得到對(duì)齊LSF參數(shù)庫(kù)。第二階段,將需要轉(zhuǎn)變的源說(shuō)話(huà)者語(yǔ)音(即測(cè)試語(yǔ)音)進(jìn)行HSM模型分析,同樣得到相應(yīng)的語(yǔ)音參數(shù)和基音頻率,測(cè)試語(yǔ)音基音頻率通過(guò)基音轉(zhuǎn)變因子計(jì)算得到目標(biāo)語(yǔ)音基音頻率,同時(shí),將測(cè)試語(yǔ)音參數(shù)轉(zhuǎn)化為L(zhǎng)SF參數(shù),由于對(duì)齊LSF參數(shù)庫(kù)中所有幀都為一一對(duì)應(yīng),即可看成是源說(shuō)話(huà)者與目標(biāo)說(shuō)話(huà)者語(yǔ)音特征間的對(duì)應(yīng)關(guān)系,而對(duì)于同一句語(yǔ)音信息,輸入語(yǔ)音和目標(biāo)語(yǔ)音的特征參數(shù)對(duì)應(yīng)于源和目標(biāo)說(shuō)話(huà)者語(yǔ)音的權(quán)重值可以看做近似相等,因而通過(guò)計(jì)算測(cè)試語(yǔ)音LSF參數(shù)對(duì)應(yīng)于對(duì)齊LSF參數(shù)庫(kù)中源說(shuō)話(huà)者語(yǔ)音LSF參數(shù)的權(quán)重值,從而計(jì)算出目標(biāo)LSF參數(shù)。再對(duì)目標(biāo)LSF參數(shù)的線性頻譜對(duì)間的距離進(jìn)行更改,從而達(dá)到目標(biāo)語(yǔ)音共振峰帶寬修正的目的,最終,轉(zhuǎn)變后的基音頻率和LSF參數(shù)通過(guò)HSM模型合成目標(biāo)語(yǔ)音。
圖1 系統(tǒng)框圖
3.1 傳統(tǒng)算法
傳統(tǒng)的GMM算法本質(zhì)上是若干個(gè)高斯函數(shù)的線性組合[10]:
式(1)中N(α;μq;Cq)為高斯分布概率密度函數(shù),μq、Cq分別為該分布的均值和協(xié)方差矩陣,φq是各個(gè)高斯函數(shù)的混合權(quán)重,Q是高斯函數(shù)總個(gè)數(shù)。
在轉(zhuǎn)換時(shí),將對(duì)齊的源和目標(biāo)說(shuō)話(huà)者特征參數(shù)矢量組合在一起:zi=[s,t]T,i=1,...,N,T為矩陣的轉(zhuǎn)置。然后對(duì)zi進(jìn)行GMM訓(xùn)練,從而得到GMM模型參數(shù)(α,μ,C),而轉(zhuǎn)換函數(shù)可以表示為[11]:
由上式可以看出,每一幀源和目標(biāo)說(shuō)話(huà)者語(yǔ)音特征參數(shù)矢量都需要經(jīng)過(guò)GMM算法進(jìn)行訓(xùn)練,運(yùn)算較為復(fù)雜,因而導(dǎo)致的結(jié)果就是運(yùn)行耗時(shí)較長(zhǎng)。
3.2 本文算法
主要分為:聲道譜參數(shù)的轉(zhuǎn)變和基音頻率的轉(zhuǎn)變兩個(gè)部分。
3.2.1 聲道譜參數(shù)轉(zhuǎn)變
由于共振峰可以很好的表征聲道的物理特征,而線性頻譜頻率LSF與共振峰頻率緊密相關(guān)[12],而相比于共振峰頻率,LSFs估算十分可靠。所以選用源和目標(biāo)說(shuō)話(huà)者線性頻譜頻率LSFs來(lái)代表聲道特征。而且它們已經(jīng)有一些成功的應(yīng)用。它們有很好的插值性能,很穩(wěn)健。另外,它們有一個(gè)固定的動(dòng)態(tài)范圍,使得在實(shí)時(shí)DSP中的實(shí)現(xiàn)很吸引人。
通過(guò)修改LPC多項(xiàng)式A(z)來(lái)估算LSFs[7],增加A(z)的偏相關(guān)系數(shù)a,使其分別?。?和-1來(lái)得到P(z)和q(z),使下面兩個(gè)多項(xiàng)式的所有根在單位圓內(nèi):
P是LPC分析階數(shù),根的角度ωk,就是LSFs。在算法中,LSFs用于代表說(shuō)話(huà)個(gè)體的聲道特征。
3.2.2 采用的模型及算法
該文采用的是諧波隨機(jī)模型(HSM)來(lái)分析及合成語(yǔ)音。HSM模型假設(shè)語(yǔ)音信號(hào)可以表示為帶有時(shí)變參數(shù)的大量諧波相關(guān)正弦信號(hào)和一個(gè)類(lèi)似噪聲分量。諧波分量只存在于濁音語(yǔ)音段中,并且它的特征參數(shù)是每一個(gè)分析幀的基音頻率和諧波的幅度及相位。隨機(jī)成分構(gòu)成了所有非正弦信號(hào)成分,是由摩擦、呼吸噪聲引起的,它的特征參數(shù)是每一幀全極點(diǎn)濾波器的系數(shù)。該模型可以達(dá)到很好的語(yǔ)音分析與合成效果。
與傳統(tǒng)方法不同的是,該文所論述的方法并沒(méi)有對(duì)源和目標(biāo)說(shuō)話(huà)者語(yǔ)音參數(shù)進(jìn)行模型訓(xùn)練,而是首先建立源和目標(biāo)說(shuō)話(huà)者的LSFs參數(shù)的對(duì)應(yīng)關(guān)系庫(kù),然后計(jì)算源說(shuō)話(huà)者測(cè)試語(yǔ)音LSFs參數(shù)每一幀對(duì)應(yīng)于庫(kù)中的源說(shuō)話(huà)者LSFs參數(shù)所有幀的權(quán)重值,如圖2所示,權(quán)重值由語(yǔ)音幀LSFs參數(shù)間的感知加權(quán)距離估算求得。將測(cè)試語(yǔ)音參數(shù)對(duì)應(yīng)庫(kù)中的源說(shuō)話(huà)者語(yǔ)音參數(shù)的權(quán)重值,同樣應(yīng)用于庫(kù)中的目標(biāo)LSFs參數(shù),從而可以估算出目標(biāo)語(yǔ)音參數(shù),再通過(guò)HSM模型合成目標(biāo)語(yǔ)音。
圖2 權(quán)重估算流程圖
此方法的優(yōu)點(diǎn)在于:在建立源和目標(biāo)說(shuō)話(huà)者對(duì)應(yīng)關(guān)系的過(guò)程中,保留了語(yǔ)音數(shù)據(jù)的全部參數(shù)信息。而傳統(tǒng)方法在形成碼書(shū)的過(guò)程中,用每個(gè)狀態(tài)的平均LSFs矢量來(lái)代表此狀態(tài),得到的狀態(tài)值是一個(gè)模糊估計(jì)值,存在一定誤差,再用此估算值建立碼書(shū),必定將誤差進(jìn)一步擴(kuò)大。而此方法通過(guò)全部語(yǔ)音參數(shù)信息間的對(duì)應(yīng)關(guān)系達(dá)到降低誤差的效果。同時(shí),此方法更為簡(jiǎn)單易行,運(yùn)行速度快。
3.2.3 權(quán)重估算
求源說(shuō)話(huà)者測(cè)試語(yǔ)音的每一幀LSFs參數(shù)對(duì)應(yīng)于源說(shuō)話(huà)者訓(xùn)練語(yǔ)音的所有幀LSFs參數(shù)的權(quán)重,
γ為一個(gè)范圍在0.2-2的值,通過(guò)搜索得到,使得估算LSF矢量ωo與初始LSF矢量ω之間的感知加權(quán)距離最小。如圖3所示為搜索結(jié)果。顯然當(dāng)γ為0.4的時(shí)候,感知加權(quán)距離最小,因而γ取值為0.4。
圖3 估算LSF與初始LSF的加權(quán)距離
di為源說(shuō)話(huà)者測(cè)試語(yǔ)音一幀LSFs參數(shù)矢量ωk對(duì)應(yīng)于第i幀源說(shuō)話(huà)者訓(xùn)練語(yǔ)音LSFs矢量的估算距離。可通過(guò)下式求得:
距離估算是基于一種對(duì)接近于共振峰位置的LSFs分配高權(quán)重的感知標(biāo)準(zhǔn),hk為感知系數(shù)。
3.2.4 目標(biāo)語(yǔ)音LSFs參數(shù)估算
將上式求得的權(quán)重vi,i=1,2...L應(yīng)用于目標(biāo)訓(xùn)練語(yǔ)音LSFs參數(shù)矢量,i=1,2,...L,從而形成了估算目標(biāo)線性頻譜頻率矢量。如下式:
帶寬更改:目標(biāo)語(yǔ)音的平均共振峰帶寬值與權(quán)值分配最高的目標(biāo)LSF矢量相似,一旦目標(biāo)LSF矢量對(duì)應(yīng)的帶寬值求出,帶寬值由每對(duì)線性頻譜對(duì)間的距離表征,然后通過(guò)更改每對(duì)線性頻譜對(duì)間的距離,得到的值即可將其近似看作是目標(biāo)語(yǔ)音的共振峰帶寬值。帶寬更改方法如下:
首先在估算的目標(biāo)LSF矢量ωo中找到線性頻譜對(duì)對(duì)應(yīng)于每個(gè)共振峰頻率位置, i=1,...4,另外,在分配權(quán)值最高的目標(biāo)LSF矢量ωt中找到線性頻譜對(duì),然后,根據(jù)對(duì)應(yīng)的LSF距離,在估算目標(biāo)頻譜中對(duì)每個(gè)共振峰頻率估算一個(gè)近似帶寬的值,再估算權(quán)值最高的LSF矢量的帶寬值。
然后計(jì)算平均共振峰帶寬,找到帶寬比:
最后,用估算的帶寬比調(diào)整線性頻譜對(duì):
3.3 基音頻率轉(zhuǎn)變
韻律轉(zhuǎn)變作為語(yǔ)音轉(zhuǎn)變的一部分,卻很少被重視,對(duì)于韻律轉(zhuǎn)變的研究相對(duì)較少,特別地對(duì)于基音頻率F0,是體現(xiàn)說(shuō)話(huà)者個(gè)性特征的關(guān)鍵因素[13]?;纛l率采用的是一種線性轉(zhuǎn)變方法進(jìn)行更改的,將源說(shuō)話(huà)者測(cè)試語(yǔ)音的每一幀基音頻率乘于常數(shù)a,再加上常數(shù)b。a和b由源和目標(biāo)說(shuō)話(huà)者訓(xùn)練語(yǔ)音求得[7]。
圖4 帶寬更改前后頻譜圖
b=μt-aμs×μs、μt代表源和目標(biāo)說(shuō)話(huà)者基音均值。因此,基音轉(zhuǎn)變因子可以表示為
3.4 系統(tǒng)運(yùn)行時(shí)間
為驗(yàn)證本系統(tǒng)在運(yùn)行效率上確有提升,該文統(tǒng)計(jì)了3段語(yǔ)音,通過(guò)本系統(tǒng)進(jìn)行轉(zhuǎn)換所消耗時(shí)長(zhǎng),并與原有系統(tǒng)消耗時(shí)長(zhǎng)進(jìn)行了對(duì)比。在訓(xùn)練時(shí),該算法和傳統(tǒng)GMM算法均采用語(yǔ)音數(shù)據(jù)庫(kù)中的100句語(yǔ)音數(shù)據(jù)進(jìn)行訓(xùn)練,GMM算法的高斯混合度取8。如表1所示,在運(yùn)行時(shí)間上,本系統(tǒng)較傳統(tǒng)方法縮短75%左右,因而較傳統(tǒng)方法提高了效率。
表1 語(yǔ)音轉(zhuǎn)換性能測(cè)試(系統(tǒng)運(yùn)行時(shí)間)
文中所用到的數(shù)據(jù)由三名實(shí)驗(yàn)者訓(xùn)練而得,兩名中年男子和一名中年女子。每個(gè)實(shí)驗(yàn)者在全消音室環(huán)境下錄入1142句語(yǔ)音數(shù)據(jù),每個(gè)實(shí)驗(yàn)者發(fā)音都很清晰,沒(méi)有發(fā)音不清晰或者不規(guī)范的現(xiàn)象。將其中一名男子A數(shù)據(jù)分別與另外一名男子B和另一女子C數(shù)據(jù)做對(duì)齊訓(xùn)練,然后錄取該男子一段語(yǔ)音,用兩組對(duì)齊數(shù)據(jù),分別對(duì)其做轉(zhuǎn)變實(shí)驗(yàn)。
該文所采用的輸入語(yǔ)音均為8KHz采樣,然后采用HSM模型進(jìn)行分析合成。聲道特征參數(shù)為14維LSF矢量。
4.1 結(jié)果分析
圖5(a)展示了源說(shuō)話(huà)者A、目標(biāo)說(shuō)話(huà)者C及由該方法和傳統(tǒng)方法轉(zhuǎn)變后的語(yǔ)音波形圖。從圖中可以看出,轉(zhuǎn)變后的語(yǔ)音波形已經(jīng)與目標(biāo)說(shuō)話(huà)者C語(yǔ)音波形有一定相似,并且較傳統(tǒng)方法轉(zhuǎn)換性能相當(dāng),甚至優(yōu)于傳統(tǒng)方法。
圖5 語(yǔ)音波形圖及語(yǔ)譜圖
圖5(b)顯示了源說(shuō)話(huà)者A、目標(biāo)說(shuō)話(huà)者C及由本文系統(tǒng)轉(zhuǎn)變后的語(yǔ)音頻譜圖。從圖中可以看出,源說(shuō)話(huà)者具有更多的高頻部分能量值,而目標(biāo)說(shuō)話(huà)者則相對(duì)較少,很明顯由轉(zhuǎn)變后的語(yǔ)譜圖可以看出,其更接近于目標(biāo)說(shuō)話(huà)者的語(yǔ)譜圖。
4.2 主觀測(cè)試
主觀測(cè)試也是判斷一個(gè)語(yǔ)音轉(zhuǎn)換系統(tǒng)效果好壞的重要依據(jù)。該文采用的主觀測(cè)試方法是一種較為普遍的方案,用A表示源說(shuō)話(huà)者語(yǔ)音,用B表示目標(biāo)說(shuō)話(huà)者語(yǔ)音,用X表示轉(zhuǎn)換后的語(yǔ)音,讓實(shí)驗(yàn)者通過(guò)主觀聽(tīng)覺(jué)來(lái)分辨X接近A或者B。在本實(shí)驗(yàn)中,對(duì)兩個(gè)目標(biāo)說(shuō)話(huà)者均進(jìn)行測(cè)試,分別要求5個(gè)測(cè)試者對(duì)兩個(gè)目標(biāo)說(shuō)話(huà)者進(jìn)行20句轉(zhuǎn)換語(yǔ)音的ABX測(cè)試,測(cè)試結(jié)果如表2所示。
表2 ABX測(cè)試
從表2很明顯可以看出,經(jīng)過(guò)該文方法轉(zhuǎn)變后的語(yǔ)音更接近于目標(biāo)說(shuō)話(huà)者。
該文針對(duì)嵌入式機(jī)器人實(shí)時(shí)性要求高且內(nèi)核小的特點(diǎn),提出一種改進(jìn)的分段碼書(shū)轉(zhuǎn)變方法,通過(guò)匹配LSF參數(shù)相對(duì)距離求取的加權(quán)系數(shù),實(shí)現(xiàn)碼字的預(yù)測(cè)重構(gòu),并對(duì)預(yù)測(cè)的碼字進(jìn)行帶寬修正。實(shí)驗(yàn)證明,該文所描述的語(yǔ)音轉(zhuǎn)換方法,克服了頻譜偏移問(wèn)題,高效實(shí)現(xiàn)了源說(shuō)話(huà)者語(yǔ)音向目標(biāo)說(shuō)話(huà)者語(yǔ)音個(gè)性特征的轉(zhuǎn)變。系統(tǒng)運(yùn)行時(shí)間較傳統(tǒng)方法縮短75%左右,更適用于嵌入式機(jī)器人,使機(jī)器人在基于語(yǔ)音的人機(jī)交互過(guò)程中變得更加自然。
[1]Wu CH,Hsia CC,Liu TH,et al.Voice conversion using duration-embedded bi-HMMs for expressive speech synthesis[J].IEEE Transactions on Audio,Speech,and Language Processing,2006,14(4):1109-1116.
[2]Zuo G,Liu W.Genetic algorithm based RBF neural network for voice conversion[C].Intelligent Control and Automation,2004.Fifth World Congress on.IEEE,2004,5:4215-4218.
[3]Desai S,Raghavendra E V,Yegnanarayana B,et al.Voice conversion using artificial neural networks[C].IEEE International Conference on Acoustics,Speech and Signal Processing,2009:3893-3896.
[4]Stylianou Y,CappéO,Moulines E.Continuous probabilistic transform for voice conversion[J].IEEE Transactions on Speech and Audio Processing,1998,6(2):131-142.
[5]Kain A B.High resolution voice transformation[D].Rockford College,2001.
[6]Stylianou Y,Cappe O.A system for voice conversion based on probabilistic classification and a harmonic plus noise model[C].IEEE International Conference on Acoustics,Speech and Signal Processing,1998:281-284.
[7]Arslan L M.Speaker transformation algorithm using segmental codebooks(STASC)[J].Speech Communication,1999,28(3):211-226.
[8]Abe M,Nakamura S,Shikano K,et al.Voice conversion through vector quantization[C].IEEE International Conference on Acoustics,Speech,and Signal Processing,1988:655-658.
[9]Erro D,Moreno A,Bonafonte A.Flexible harmonic/stochastic speech synthesis[C].6th ISCA Workshop on Speech Synthesis.2007.
[10]Zhi-Hua J,Zhen Y.Voice conversion using Viterbi algorithm based on Gaussian mixture model[C].IEEE International Symposium on Intelligent Signal Processing and Communication Systems,2007:32-35.
[11]Xu N,Shao X,Yang Z.A Novel Voice Morphing System Using Bi-GMM for High Quality Transformation[C].IEEE International Conference on Software Engineering,Artificial Intelligence,Networking,and Parallel/Distributed Computing,2008:485-489.
[12]Ye H,Young S.Quality-enhanced voicemorphing using maximum likelihood transformations[J].IEEE Transactions on Audio,Speech,and Language Processing,2006,14(4):1301-1312.
[13]Kuwabara H,Sagisak Y.Acoustic characteristics of speaker individuality:Control and conversion[J].Speech communication,1995,16(2):165-173.
A Highly Efficient Voice Conversion Method Based on Codebook Mapping
WANG Zhi-wei1,XU Ning1,2,3,4,LIU Xiao-feng1,2,3
(1.School of IoT Engineering,Hohai University,Changzhou 213022,China;2.Hohai University-Alderbaran Robotics Laboratory for Cognition and Robotics,Changzhou 213022,China;3.Changzhou key Laboratoy of Robotics and Intelligent Technology,Changzhou 213022,China;4.Ministry of Education Key Lab of Broadband Wireless Communication and SensorNetwork Technology,Nanjing 210003,China)
In human-robot interaction,it is desired to have synthetic voices which sound natural and can be personalized for each user.One solution is to use voice conversion,in which the characteristics of a sourcemechanical voice are changed to produce a sound corresponding to a given target natural voice.However,the popular voice conversion method is computationally intensive,and not suitable for application in a robot with small kernel embedded.This paper introduces a high efficient improved segmental codebook conversion method.It firstly calculates the weighting coefficient by matching the relative distance of the Line Spectral Frequency(LSF)parameters to realize the prediction refactoring of code word.Secondly,the bandwidth correction for the predicted code word is used to solve the problem of spectrum shift.The test results show that themethod is approximately 75%faster than the traditional Gaussian Mixture Model(GMM)under the comparative conversion performance.
Voice Conversion;Embedded Systems;Harmonic Stochastic Model;Segmental Codebook;Man-machine Interaction
10.3969/j.issn.1002-2279.2014.01.018
TN912.3
:A
:1002-2279(2014)01-0065-05
國(guó)家自然科學(xué)基金(60905060),中央高?;A(chǔ)研究項(xiàng)目(2011B11114,2012B07314,2012B04014),教育部重點(diǎn)實(shí)驗(yàn)室開(kāi)放基金(NYKL201305)
王志衛(wèi)(1989-),男,江西人,碩士研究生,主研方向:人機(jī)互動(dòng)。
2013-10-11