亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

中文HMM參數(shù)化語音合成系統(tǒng)構(gòu)建

2012-08-10 03:40:24康世胤

通信技術(shù) 2012年8期

胡克，康世胤，郝軍

（新疆大學(xué) 信息科學(xué)與工程學(xué)院，新疆烏魯木齊 830046）

0 引言

在語音合成領(lǐng)域，基于大語料庫的拼接合成系統(tǒng)的合成質(zhì)量已經(jīng)達(dá)到了相當(dāng)不錯(cuò)的水平，甚至能夠在特定條件下形成產(chǎn)品。但這類方法存在的固有弱點(diǎn)，如語料庫構(gòu)建成本高，合成穩(wěn)定性低，靈活性較差等。這些弱點(diǎn)限制了拼接合成方法的進(jìn)一步應(yīng)用。而基于統(tǒng)計(jì)模型的參數(shù)化語音合成技術(shù)恰恰在構(gòu)建成本和合成多樣化方面展現(xiàn)出其獨(dú)特的優(yōu)勢，因此逐漸得到廣泛的應(yīng)用。

在這種背景下，文中以基于HMM的參數(shù)化語音合成系統(tǒng)為基礎(chǔ)，針對中文語音的特點(diǎn)，構(gòu)建出中文HMM語音合成系統(tǒng)。

1 隱馬爾可夫模型

隱馬爾可夫模型是一種時(shí)間序列上的統(tǒng)計(jì)模型，它廣泛的應(yīng)用于多個(gè)領(lǐng)域，尤其是語音識別[1]。近年來，HMM在語音合成中也有了成功的應(yīng)用。HMM是一個(gè)有限狀態(tài)機(jī)，它可以生成一個(gè)離散時(shí)間的觀察序列。在每一個(gè)時(shí)間點(diǎn)，HMM由馬爾可夫原則進(jìn)行狀態(tài)轉(zhuǎn)移，并且產(chǎn)生一個(gè)觀察值 o。這樣的一個(gè)狀態(tài)轉(zhuǎn)移和輸出包含兩個(gè)概率：

1）狀態(tài)轉(zhuǎn)移概率ija，表示從狀態(tài)i轉(zhuǎn)移到狀態(tài)j的概率。

2）輸出概率 bi(o)。

圖1是典型的HMM模型示意圖。圖1(a) 是一個(gè)3狀態(tài)互聯(lián)的HMM模型，這個(gè)模型中任何一個(gè)狀態(tài)都可以在一定的轉(zhuǎn)移概率下到達(dá)任一個(gè)其他狀態(tài)。圖1(b)是一個(gè)3狀態(tài)由左到右HMM模型，這個(gè)模型里一個(gè)狀態(tài)隨時(shí)間增加，在轉(zhuǎn)移概率的作用下，有可能保持狀態(tài)不變或到達(dá)下一個(gè)狀態(tài)?？梢姡勺蟮接襀MM模型十分適合用來為隨概率變化的信號建模，它的這種特性可以很好地應(yīng)用在語音識別及語音合成領(lǐng)域。

圖1 HMM模型示意

由于觀察序列 o可能是離散的也可能是連續(xù)的，那么對它的描述可以用離散的概率，也可以用連續(xù)的概率密度來表示。一般來說，在語音合成中使用的是一個(gè)或者多個(gè)高斯混合密度，表示為：

式中，M是高斯核的個(gè)數(shù)，imw 是某一個(gè)高斯核的權(quán)重，imμ為這個(gè)高斯核的均值，imΣ是方差。

2 基于HMM的參數(shù)化語音合成

2.1 系統(tǒng)基本結(jié)構(gòu)

基于HMM的參數(shù)化語音合成系統(tǒng)的基本結(jié)構(gòu)如圖2所示。系統(tǒng)可以分為訓(xùn)練和合成兩個(gè)部分。從中不難看出，在訓(xùn)練過程中，語音信息經(jīng)歷了從原始波形信號到聲學(xué)參數(shù)序列，再到統(tǒng)計(jì)模型集合的變化過程；與此相對應(yīng)，在合成過程中，又經(jīng)歷了從統(tǒng)計(jì)模型集合到聲學(xué)參數(shù)序列，再到合成波形信號的逆過程。

2.2 訓(xùn)練過程

在訓(xùn)練部分，首先從語料庫錄音數(shù)據(jù)中提取頻譜和基頻等聲學(xué)參數(shù)。

然后根據(jù)ML準(zhǔn)則，使用EM算法[2]訓(xùn)練聲學(xué)參數(shù)向量序列的HMM模型。這個(gè)訓(xùn)練過程與語音識別種模型的訓(xùn)練過程非常相似，主要的不同在于語音識別中，一般只對譜參數(shù)進(jìn)行建模，而在HMM合成系統(tǒng)中，使用一種多流 HMM為譜參數(shù)和基頻參數(shù)建立統(tǒng)一的語境相關(guān)模型。另一個(gè)不同則是除了語音學(xué)特征之外，HMM合成系統(tǒng)還使用語言學(xué)和韻律學(xué)的特征描述語境。建模過程中，由于基頻參數(shù)曲線的特殊性，無法使用離散或者連續(xù)分布描述，HMM合成系統(tǒng)使用多空間概率分布（MSD）[3]作為 HMM的狀態(tài)輸出概率分布。同時(shí)，系統(tǒng)使用高斯分布或者伽馬分布建立狀態(tài)時(shí)長模型來描述語音的時(shí)間結(jié)構(gòu)。

最后，使用語境決策樹分別對譜參數(shù)模型、基頻參數(shù)模型和時(shí)長模型進(jìn)行聚類。這就得到了合成使用的預(yù)測模型。

2.3 合成過程

在合成部分，首先使用文本分析工具將給定文本轉(zhuǎn)換成包含語境描述信息的發(fā)音標(biāo)注序列，使用前面得到的決策樹預(yù)測出每個(gè)發(fā)音的語境相關(guān) HMM模型，并連接成一個(gè)語句的HMM模型。

然后，使用參數(shù)生成算法從語句HMM中生成頻譜和基頻的參數(shù)序列。這個(gè)過程可以看做語音識別的逆過程，是求給定HMM模型的最大概率輸出序列最后使用參數(shù)合成器將聲學(xué)參數(shù)合成為語音信號。對于MCEP譜參數(shù)，可以使用Mel對數(shù)譜逼近（MLSA）濾波器[4]，作為參數(shù)合成器。

圖2 基于HMM的參數(shù)化語音合成系統(tǒng)結(jié)構(gòu)

3 中文合成系統(tǒng)的構(gòu)建

3.1 數(shù)據(jù)準(zhǔn)備

訓(xùn)練樣本集是整個(gè)語音合成中參數(shù)訓(xùn)練系統(tǒng)的基礎(chǔ)，它質(zhì)量的好壞，對語音合成系統(tǒng)的最終合成效果有著決定性的影響。在本節(jié)中，首先從原始數(shù)據(jù)庫中對語音樣本進(jìn)行篩選，選擇發(fā)音清晰、韻律平衡的樣本作為語料庫的原始數(shù)據(jù)，然后依照一定的策略，從原始數(shù)據(jù)庫中提取對應(yīng)樣本的標(biāo)注信息，生成適合于HMM參數(shù)訓(xùn)練的文本標(biāo)注信息，并最終建立適合于中文 HMM參數(shù)化語音合成的語料庫。

（1）語音樣本的篩選

原始數(shù)據(jù)庫中包含女聲語音樣本6 445個(gè)。每一個(gè)語音樣本中具體包含如下信息。

1）語音波形數(shù)據(jù)。

2）基于音節(jié)的切分時(shí)長信息。

3）音節(jié)的有調(diào)拼音。

4）韻律詞和韻律短語的切分信息。一個(gè)典型的音節(jié)和韻律標(biāo)注文件如下所示:

/為臨帖/他還|遠(yuǎn)游|西安|碑林/龍門|石窟/泰山|摩崖|石刻/./

文件包含兩行，第一行是語音樣本的中文信息和相應(yīng)的韻律詞和韻律短語的切分信息。其中，“/”為韻律短語的切分點(diǎn)；“|”為韻律詞的切分點(diǎn)。第二行是語音樣本對應(yīng)的拼音標(biāo)注。拼音標(biāo)注以漢語拼音方案為基礎(chǔ)，用附加在拼音后的數(shù)字表示聲調(diào)，其中5表示輕聲。

經(jīng)過逐條篩選，剔除了錄音不清晰、切分信息丟失和拼音標(biāo)注不正確的樣本，最終選擇了其中的6 429個(gè)完整有效的樣本建立語料庫。

（2）語境標(biāo)注信息提取

語境標(biāo)注信息的內(nèi)容主要包含當(dāng)前音節(jié)的發(fā)音信息，例如拼音、聲調(diào)、聲母和韻母；語境發(fā)音信息，例如前后音節(jié)的拼音；時(shí)長信息，例如當(dāng)前音節(jié)在語音波形數(shù)據(jù)中的起止時(shí)間；韻律切分信息，例如韻律詞和韻律短語的劃分。

3.2 聲學(xué)參數(shù)提取

和波形拼接方案的語音合成系統(tǒng)不同，可訓(xùn)練的參數(shù)化語音合成系統(tǒng)不直接使用原始的波形數(shù)據(jù)建立發(fā)音單元模型，而是使用相應(yīng)的聲學(xué)參數(shù)建模。在文中構(gòu)建的中文HMM參數(shù)化語音合成系統(tǒng)中，使用24階Mel倒譜（MCEP）參數(shù)和基頻F0參數(shù)作為原始語音數(shù)據(jù)的聲學(xué)參數(shù)建立和訓(xùn)練HMM。

相對于其他聲學(xué)參數(shù)，例如LSP參數(shù)，STRAIGHT參數(shù)，MCEP的主要優(yōu)點(diǎn)在于其提取算法成熟，合成音質(zhì)較高，計(jì)算復(fù)雜度低，能夠?qū)崿F(xiàn)實(shí)時(shí)合成等。

3.3 建模單元選擇

HMM參數(shù)化語音合成系統(tǒng)中，首先要確定發(fā)音單元的尺度。發(fā)音單元作為HMM訓(xùn)練的基本單位，必須有一個(gè)合適的尺度，才能保證良好的訓(xùn)練效果和較短的訓(xùn)練時(shí)間。

英文和其他一些語言的合成系統(tǒng)中，常常使用音素作為基本發(fā)音單元。這是和語種相適應(yīng)的。對于英語這樣基于單詞的語中，不同單詞的發(fā)音結(jié)構(gòu)和程度變化很大，建立統(tǒng)一的發(fā)音單元模型相當(dāng)困難，因此必須使用較小的發(fā)音單元建模。音素，作為發(fā)音最小的單位，其發(fā)音結(jié)構(gòu)簡單，總數(shù)較少，比較適合于建立發(fā)音單元模型。

在中文的參數(shù)化語音合成系統(tǒng)中，也可以使用音素建模，但這個(gè)樣做有以下幾個(gè)不足。

1）以音素為單元建模，尺度較小，增加對原始語料庫標(biāo)注切分信息的難度。

2）以音素為單元建模，雖然模型的種數(shù)較少，但是在音素級別上，發(fā)音單元間的連接更加緊密，相互影響作用較強(qiáng)，在考慮上下文的訓(xùn)練系統(tǒng)中，需要花費(fèi)大量的時(shí)間考慮音素的相連關(guān)系和相互影響，反而增加了模型的復(fù)雜度?；谝陨蟽牲c(diǎn)，文中認(rèn)為中文的HMM建模單元尺度應(yīng)當(dāng)選擇的較大，例如聲韻母單元或音節(jié)單元。對于漢語語音，無論是身韻母還是音節(jié)，都有較為統(tǒng)一的結(jié)構(gòu)：典型的聲母包括3個(gè)部分，典型的韻母包括5個(gè)部分，而絕大多數(shù)音節(jié)可以劃分為8～9個(gè)部分。漢語語音的這種結(jié)構(gòu)相對固定的特點(diǎn)，決定了在設(shè)計(jì)漢語語音的HMM單元時(shí)，可以使用聲韻母或者音節(jié)作為基本發(fā)音單元。在進(jìn)一步研究中，文中對比了使用聲韻母和音節(jié)兩種單位作為基本發(fā)音單元時(shí)，對合成質(zhì)量的影響，如圖3所示。在訓(xùn)練數(shù)據(jù)較少時(shí)，由于漢語音節(jié)較多，每個(gè)單元的訓(xùn)練數(shù)據(jù)相對更少，因此合成音質(zhì)劣于以聲韻母為單元的系統(tǒng)。隨著訓(xùn)練數(shù)據(jù)的增多，音節(jié)級的系統(tǒng)音質(zhì)迅速提高，而聲韻母級的系統(tǒng)則因?yàn)榘l(fā)音單元尺寸較小，在韻律方面，尤其是聲韻母時(shí)長比例上存在較多問題，因此總體得分不如音節(jié)級的系統(tǒng)。

圖3 不同的建模單元對合成質(zhì)量的影響

在文中的HMM語音合成的訓(xùn)練系統(tǒng)中，使用音節(jié)作為基本的發(fā)音單元建立 HMM，包括描述靜音段的發(fā)音單元模型在內(nèi)，共有音節(jié)標(biāo)注775個(gè)。使用音節(jié)作為HMM基本單元，在訓(xùn)練時(shí)只用考慮音節(jié)之間的相互影響，而實(shí)際上，在漢語標(biāo)準(zhǔn)普通話中，音節(jié)間的相互影響較少，這樣的設(shè)計(jì)也有助于獲得較好的訓(xùn)練結(jié)果，并最終得到高質(zhì)量的合成語音。

3.4 HMM拓?fù)浣Y(jié)構(gòu)選擇

如前文所述，HMM拓?fù)浣Y(jié)構(gòu)主要指 HMM中的隱藏狀態(tài)數(shù)目和狀態(tài)之間的跳轉(zhuǎn)關(guān)系。

在以音節(jié)為單位的HMM建模中，音節(jié)內(nèi)部一般不存在發(fā)音相同但間隔排列的音素，以HMM的狀態(tài)轉(zhuǎn)移描述時(shí)，就不應(yīng)當(dāng)存在轉(zhuǎn)移至曾經(jīng)經(jīng)歷過的狀態(tài)這種情況。因此HMM對語音建模一般使用從左至右各態(tài)經(jīng)歷的結(jié)構(gòu)。

模型的狀態(tài)數(shù)目應(yīng)當(dāng)根據(jù)發(fā)音單元的尺寸來選擇。狀態(tài)數(shù)目太少，不足以描述相對變化較為復(fù)雜的發(fā)音單元；狀態(tài)數(shù)目太多，則會增加不必要的訓(xùn)練時(shí)間。在以音素為HMM單元建模的語音合成系統(tǒng)中，由于音素的時(shí)域結(jié)構(gòu)相對簡單，狀態(tài)數(shù)一般取3～5，就能得到不錯(cuò)的結(jié)果。當(dāng)發(fā)音單元尺度增加時(shí)，狀態(tài)數(shù)目也應(yīng)當(dāng)相應(yīng)的增加，以便很好的描述更加復(fù)雜的大尺度的發(fā)音單元?？紤]到音節(jié)內(nèi)部的劃分情況，文中使用10狀態(tài)HMM對音節(jié)進(jìn)行建模。

4 結(jié)語

近幾年來，語音合成技術(shù)有了長足的進(jìn)步和發(fā)展。目前，在一些特定情況下，大語料庫的拼接合成技術(shù)已經(jīng)能滿足部分應(yīng)用需求。文中分析了基于HMM的參數(shù)化語音合成系統(tǒng)的基本結(jié)構(gòu)和構(gòu)建流程[5-8]，并以此為基礎(chǔ)，針對中文語音的特點(diǎn)，構(gòu)建了中文HMM語音合成系統(tǒng)，并從數(shù)據(jù)準(zhǔn)備，聲學(xué)參數(shù)提取，建模單元和HMM拓?fù)浣Y(jié)構(gòu)選擇等幾個(gè)方面探討并確定了適合于中文系統(tǒng)構(gòu)建的參數(shù)，拓廣了可訓(xùn)練化語音合成技術(shù)在中文語種的應(yīng)用。而在韻律建模和時(shí)長模型方面，仍然需要進(jìn)一步的研究，以提高中文語音合成的自然度和可懂性。

[1] RABINER L. A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition[J].Proc. IEEE, 1989,77(02):257-286.

[2] DEMPSTER A, LAIRD N, RUBIN D.Maximum Likelihood from Incomplete Data via the EM Algorithm[J].Journal of Royal Statistics Society,1977(39):1-38.

[3] TOKUDA K,MASUKO T,MIYAZAKI N,et al.Multi-space Probability Distribution HMM[J]. IEICE Trans. Inf.Syst., 2002, E85-D(03):455-464.

[4] IMAI S, SUMITA K, FURUICHI C. Mel Log Spectrum Approximation (MLSA) Filter for Speech Synthesis[J]. Electronics and Communications in Japan, 1983,66(02):10-18.

[5] 卡斯木江·卡迪爾,古麗娜爾·艾力,艾斯卡爾·艾木都拉.基于最對合成單元的維吾爾音庫設(shè)計(jì)[J]. 通信技術(shù),2012,45(04):83-85.

[6] 俞一彪,段凱宇,石汝杰.吳語文語轉(zhuǎn)換中的語音韻律控制[J].通信技術(shù),2002(10):1-3,9.

[7] 胡曉荷.周光召和柳傳志對“語音云”寄予厚望——移動互聯(lián)網(wǎng)步入“語音云”時(shí)代[J]. 信息安全與通信保密,2010(12):39-41.

[8] 劉帥,王以剛.VoIP的語音動態(tài)加密方法研究[J]. 信息安全與通信保密,2009(02):74-75.