亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        中文HMM參數(shù)化語音合成系統(tǒng)構(gòu)建

        2012-08-10 03:40:24康世胤
        通信技術(shù) 2012年8期
        關(guān)鍵詞:模型系統(tǒng)

        胡 克,康世胤,郝 軍

        (新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046)

        0 引言

        在語音合成領(lǐng)域,基于大語料庫的拼接合成系統(tǒng)的合成質(zhì)量已經(jīng)達(dá)到了相當(dāng)不錯(cuò)的水平,甚至能夠在特定條件下形成產(chǎn)品。但這類方法存在的固有弱點(diǎn),如語料庫構(gòu)建成本高,合成穩(wěn)定性低,靈活性較差等。這些弱點(diǎn)限制了拼接合成方法的進(jìn)一步應(yīng)用。而基于統(tǒng)計(jì)模型的參數(shù)化語音合成技術(shù)恰恰在構(gòu)建成本和合成多樣化方面展現(xiàn)出其獨(dú)特的優(yōu)勢,因此逐漸得到廣泛的應(yīng)用。

        在這種背景下,文中以基于HMM的參數(shù)化語音合成系統(tǒng)為基礎(chǔ),針對中文語音的特點(diǎn),構(gòu)建出中文HMM語音合成系統(tǒng)。

        1 隱馬爾可夫模型

        隱馬爾可夫模型是一種時(shí)間序列上的統(tǒng)計(jì)模型,它廣泛的應(yīng)用于多個(gè)領(lǐng)域,尤其是語音識別[1]。近年來,HMM在語音合成中也有了成功的應(yīng)用。HMM是一個(gè)有限狀態(tài)機(jī),它可以生成一個(gè)離散時(shí)間的觀察序列。在每一個(gè)時(shí)間點(diǎn),HMM由馬爾可夫原則進(jìn)行狀態(tài)轉(zhuǎn)移,并且產(chǎn)生一個(gè)觀察值 o。這樣的一個(gè)狀態(tài)轉(zhuǎn)移和輸出包含兩個(gè)概率:

        1)狀態(tài)轉(zhuǎn)移概率ija,表示從狀態(tài)i轉(zhuǎn)移到狀態(tài)j的概率。

        2)輸出概率 bi(o)。

        圖1是典型的HMM模型示意圖。圖1(a) 是一個(gè)3狀態(tài)互聯(lián)的HMM模型,這個(gè)模型中任何一個(gè)狀態(tài)都可以在一定的轉(zhuǎn)移概率下到達(dá)任一個(gè)其他狀態(tài)。圖1(b)是一個(gè)3狀態(tài)由左到右HMM模型,這個(gè)模型里一個(gè)狀態(tài)隨時(shí)間增加,在轉(zhuǎn)移概率的作用下,有可能保持狀態(tài)不變或到達(dá)下一個(gè)狀態(tài)??梢姡勺蟮接襀MM模型十分適合用來為隨概率變化的信號建模,它的這種特性可以很好地應(yīng)用在語音識別及語音合成領(lǐng)域。

        圖1 HMM模型示意

        由于觀察序列 o可能是離散的也可能是連續(xù)的,那么對它的描述可以用離散的概率,也可以用連續(xù)的概率密度來表示。一般來說,在語音合成中使用的是一個(gè)或者多個(gè)高斯混合密度,表示為:

        式中,M是高斯核的個(gè)數(shù),imw 是某一個(gè)高斯核的權(quán)重,imμ為這個(gè)高斯核的均值,imΣ是方差。

        2 基于HMM的參數(shù)化語音合成

        2.1 系統(tǒng)基本結(jié)構(gòu)

        基于HMM的參數(shù)化語音合成系統(tǒng)的基本結(jié)構(gòu)如圖2所示。系統(tǒng)可以分為訓(xùn)練和合成兩個(gè)部分。從中不難看出,在訓(xùn)練過程中,語音信息經(jīng)歷了從原始波形信號到聲學(xué)參數(shù)序列,再到統(tǒng)計(jì)模型集合的變化過程;與此相對應(yīng),在合成過程中,又經(jīng)歷了從統(tǒng)計(jì)模型集合到聲學(xué)參數(shù)序列,再到合成波形信號的逆過程。

        2.2 訓(xùn)練過程

        在訓(xùn)練部分,首先從語料庫錄音數(shù)據(jù)中提取頻譜和基頻等聲學(xué)參數(shù)。

        然后根據(jù)ML準(zhǔn)則,使用EM算法[2]訓(xùn)練聲學(xué)參數(shù)向量序列的HMM模型。這個(gè)訓(xùn)練過程與語音識別種模型的訓(xùn)練過程非常相似,主要的不同在于語音識別中,一般只對譜參數(shù)進(jìn)行建模,而在HMM合成系統(tǒng)中,使用一種多流 HMM為譜參數(shù)和基頻參數(shù)建立統(tǒng)一的語境相關(guān)模型。另一個(gè)不同則是除了語音學(xué)特征之外,HMM合成系統(tǒng)還使用語言學(xué)和韻律學(xué)的特征描述語境。建模過程中,由于基頻參數(shù)曲線的特殊性,無法使用離散或者連續(xù)分布描述,HMM合成系統(tǒng)使用多空間概率分布(MSD)[3]作為 HMM的狀態(tài)輸出概率分布。同時(shí),系統(tǒng)使用高斯分布或者伽馬分布建立狀態(tài)時(shí)長模型來描述語音的時(shí)間結(jié)構(gòu)。

        最后,使用語境決策樹分別對譜參數(shù)模型、基頻參數(shù)模型和時(shí)長模型進(jìn)行聚類。這就得到了合成使用的預(yù)測模型。

        2.3 合成過程

        在合成部分,首先使用文本分析工具將給定文本轉(zhuǎn)換成包含語境描述信息的發(fā)音標(biāo)注序列,使用前面得到的決策樹預(yù)測出每個(gè)發(fā)音的語境相關(guān) HMM模型,并連接成一個(gè)語句的HMM模型。

        然后,使用參數(shù)生成算法從語句HMM中生成頻譜和基頻的參數(shù)序列。這個(gè)過程可以看做語音識別的逆過程,是求給定HMM模型的最大概率輸出序列最后使用參數(shù)合成器將聲學(xué)參數(shù)合成為語音信號。對于MCEP譜參數(shù),可以使用Mel對數(shù)譜逼近(MLSA)濾波器[4],作為參數(shù)合成器。

        圖2 基于HMM的參數(shù)化語音合成系統(tǒng)結(jié)構(gòu)

        3 中文合成系統(tǒng)的構(gòu)建

        3.1 數(shù)據(jù)準(zhǔn)備

        訓(xùn)練樣本集是整個(gè)語音合成中參數(shù)訓(xùn)練系統(tǒng)的基礎(chǔ),它質(zhì)量的好壞,對語音合成系統(tǒng)的最終合成效果有著決定性的影響。在本節(jié)中,首先從原始數(shù)據(jù)庫中對語音樣本進(jìn)行篩選,選擇發(fā)音清晰、韻律平衡的樣本作為語料庫的原始數(shù)據(jù),然后依照一定的策略,從原始數(shù)據(jù)庫中提取對應(yīng)樣本的標(biāo)注信息,生成適合于HMM參數(shù)訓(xùn)練的文本標(biāo)注信息,并最終建立適合于中文 HMM參數(shù)化語音合成的語料庫。

        (1)語音樣本的篩選

        原始數(shù)據(jù)庫中包含女聲語音樣本6 445個(gè)。每一個(gè)語音樣本中具體包含如下信息。

        1)語音波形數(shù)據(jù)。

        2)基于音節(jié)的切分時(shí)長信息。

        3)音節(jié)的有調(diào)拼音。

        4)韻律詞和韻律短語的切分信息。一個(gè)典型的音節(jié)和韻律標(biāo)注文件如下所示:

        /為臨帖/他還|遠(yuǎn)游|西安|碑林/龍門|石窟/泰山|摩崖|石刻/./

        文件包含兩行,第一行是語音樣本的中文信息和相應(yīng)的韻律詞和韻律短語的切分信息。其中,“/”為韻律短語的切分點(diǎn);“|”為韻律詞的切分點(diǎn)。第二行是語音樣本對應(yīng)的拼音標(biāo)注。拼音標(biāo)注以漢語拼音方案為基礎(chǔ),用附加在拼音后的數(shù)字表示聲調(diào),其中5表示輕聲。

        經(jīng)過逐條篩選,剔除了錄音不清晰、切分信息丟失和拼音標(biāo)注不正確的樣本,最終選擇了其中的6 429個(gè)完整有效的樣本建立語料庫。

        (2)語境標(biāo)注信息提取

        語境標(biāo)注信息的內(nèi)容主要包含當(dāng)前音節(jié)的發(fā)音信息,例如拼音、聲調(diào)、聲母和韻母;語境發(fā)音信息,例如前后音節(jié)的拼音;時(shí)長信息,例如當(dāng)前音節(jié)在語音波形數(shù)據(jù)中的起止時(shí)間;韻律切分信息,例如韻律詞和韻律短語的劃分。

        3.2 聲學(xué)參數(shù)提取

        和波形拼接方案的語音合成系統(tǒng)不同,可訓(xùn)練的參數(shù)化語音合成系統(tǒng)不直接使用原始的波形數(shù)據(jù)建立發(fā)音單元模型,而是使用相應(yīng)的聲學(xué)參數(shù)建模。在文中構(gòu)建的中文HMM參數(shù)化語音合成系統(tǒng)中,使用24階Mel倒譜(MCEP)參數(shù)和基頻F0參數(shù)作為原始語音數(shù)據(jù)的聲學(xué)參數(shù)建立和訓(xùn)練HMM。

        相對于其他聲學(xué)參數(shù),例如LSP參數(shù),STRAIGHT參數(shù),MCEP的主要優(yōu)點(diǎn)在于其提取算法成熟,合成音質(zhì)較高,計(jì)算復(fù)雜度低,能夠?qū)崿F(xiàn)實(shí)時(shí)合成等。

        3.3 建模單元選擇

        HMM參數(shù)化語音合成系統(tǒng)中,首先要確定發(fā)音單元的尺度。發(fā)音單元作為HMM訓(xùn)練的基本單位,必須有一個(gè)合適的尺度,才能保證良好的訓(xùn)練效果和較短的訓(xùn)練時(shí)間。

        英文和其他一些語言的合成系統(tǒng)中,常常使用音素作為基本發(fā)音單元。這是和語種相適應(yīng)的。對于英語這樣基于單詞的語中,不同單詞的發(fā)音結(jié)構(gòu)和程度變化很大,建立統(tǒng)一的發(fā)音單元模型相當(dāng)困難,因此必須使用較小的發(fā)音單元建模。音素,作為發(fā)音最小的單位,其發(fā)音結(jié)構(gòu)簡單,總數(shù)較少,比較適合于建立發(fā)音單元模型。

        在中文的參數(shù)化語音合成系統(tǒng)中,也可以使用音素建模,但這個(gè)樣做有以下幾個(gè)不足。

        1)以音素為單元建模,尺度較小,增加對原始語料庫標(biāo)注切分信息的難度。

        2)以音素為單元建模,雖然模型的種數(shù)較少,但是在音素級別上,發(fā)音單元間的連接更加緊密,相互影響作用較強(qiáng),在考慮上下文的訓(xùn)練系統(tǒng)中,需要花費(fèi)大量的時(shí)間考慮音素的相連關(guān)系和相互影響,反而增加了模型的復(fù)雜度?;谝陨蟽牲c(diǎn),文中認(rèn)為中文的HMM建模單元尺度應(yīng)當(dāng)選擇的較大,例如聲韻母單元或音節(jié)單元。對于漢語語音,無論是身韻母還是音節(jié),都有較為統(tǒng)一的結(jié)構(gòu):典型的聲母包括3個(gè)部分,典型的韻母包括5個(gè)部分,而絕大多數(shù)音節(jié)可以劃分為8~9個(gè)部分。漢語語音的這種結(jié)構(gòu)相對固定的特點(diǎn),決定了在設(shè)計(jì)漢語語音的HMM單元時(shí),可以使用聲韻母或者音節(jié)作為基本發(fā)音單元。在進(jìn)一步研究中,文中對比了使用聲韻母和音節(jié)兩種單位作為基本發(fā)音單元時(shí),對合成質(zhì)量的影響,如圖3所示。在訓(xùn)練數(shù)據(jù)較少時(shí),由于漢語音節(jié)較多,每個(gè)單元的訓(xùn)練數(shù)據(jù)相對更少,因此合成音質(zhì)劣于以聲韻母為單元的系統(tǒng)。隨著訓(xùn)練數(shù)據(jù)的增多,音節(jié)級的系統(tǒng)音質(zhì)迅速提高,而聲韻母級的系統(tǒng)則因?yàn)榘l(fā)音單元尺寸較小,在韻律方面,尤其是聲韻母時(shí)長比例上存在較多問題,因此總體得分不如音節(jié)級的系統(tǒng)。

        圖3 不同的建模單元對合成質(zhì)量的影響

        在文中的HMM語音合成的訓(xùn)練系統(tǒng)中,使用音節(jié)作為基本的發(fā)音單元建立 HMM,包括描述靜音段的發(fā)音單元模型在內(nèi),共有音節(jié)標(biāo)注775個(gè)。使用音節(jié)作為HMM基本單元,在訓(xùn)練時(shí)只用考慮音節(jié)之間的相互影響,而實(shí)際上,在漢語標(biāo)準(zhǔn)普通話中,音節(jié)間的相互影響較少,這樣的設(shè)計(jì)也有助于獲得較好的訓(xùn)練結(jié)果,并最終得到高質(zhì)量的合成語音。

        3.4 HMM拓?fù)浣Y(jié)構(gòu)選擇

        如前文所述,HMM拓?fù)浣Y(jié)構(gòu)主要指 HMM中的隱藏狀態(tài)數(shù)目和狀態(tài)之間的跳轉(zhuǎn)關(guān)系。

        在以音節(jié)為單位的HMM建模中,音節(jié)內(nèi)部一般不存在發(fā)音相同但間隔排列的音素,以HMM的狀態(tài)轉(zhuǎn)移描述時(shí),就不應(yīng)當(dāng)存在轉(zhuǎn)移至曾經(jīng)經(jīng)歷過的狀態(tài)這種情況。因此HMM對語音建模一般使用從左至右各態(tài)經(jīng)歷的結(jié)構(gòu)。

        模型的狀態(tài)數(shù)目應(yīng)當(dāng)根據(jù)發(fā)音單元的尺寸來選擇。狀態(tài)數(shù)目太少,不足以描述相對變化較為復(fù)雜的發(fā)音單元;狀態(tài)數(shù)目太多,則會增加不必要的訓(xùn)練時(shí)間。在以音素為HMM單元建模的語音合成系統(tǒng)中,由于音素的時(shí)域結(jié)構(gòu)相對簡單,狀態(tài)數(shù)一般取3~5,就能得到不錯(cuò)的結(jié)果。當(dāng)發(fā)音單元尺度增加時(shí),狀態(tài)數(shù)目也應(yīng)當(dāng)相應(yīng)的增加,以便很好的描述更加復(fù)雜的大尺度的發(fā)音單元??紤]到音節(jié)內(nèi)部的劃分情況,文中使用10狀態(tài)HMM對音節(jié)進(jìn)行建模。

        4 結(jié)語

        近幾年來,語音合成技術(shù)有了長足的進(jìn)步和發(fā)展。目前,在一些特定情況下,大語料庫的拼接合成技術(shù)已經(jīng)能滿足部分應(yīng)用需求。文中分析了基于HMM的參數(shù)化語音合成系統(tǒng)的基本結(jié)構(gòu)和構(gòu)建流程[5-8],并以此為基礎(chǔ),針對中文語音的特點(diǎn),構(gòu)建了中文HMM語音合成系統(tǒng),并從數(shù)據(jù)準(zhǔn)備,聲學(xué)參數(shù)提取,建模單元和HMM拓?fù)浣Y(jié)構(gòu)選擇等幾個(gè)方面探討并確定了適合于中文系統(tǒng)構(gòu)建的參數(shù),拓廣了可訓(xùn)練化語音合成技術(shù)在中文語種的應(yīng)用。而在韻律建模和時(shí)長模型方面,仍然需要進(jìn)一步的研究,以提高中文語音合成的自然度和可懂性。

        [1] RABINER L. A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition[J].Proc. IEEE, 1989,77(02):257-286.

        [2] DEMPSTER A, LAIRD N, RUBIN D.Maximum Likelihood from Incomplete Data via the EM Algorithm[J].Journal of Royal Statistics Society,1977(39):1-38.

        [3] TOKUDA K,MASUKO T,MIYAZAKI N,et al.Multi-space Probability Distribution HMM[J]. IEICE Trans. Inf.Syst., 2002, E85-D(03):455-464.

        [4] IMAI S, SUMITA K, FURUICHI C. Mel Log Spectrum Approximation (MLSA) Filter for Speech Synthesis[J]. Electronics and Communications in Japan, 1983,66(02):10-18.

        [5] 卡斯木江·卡迪爾,古麗娜爾·艾力,艾斯卡爾·艾木都拉.基于最對合成單元的維吾爾音庫設(shè)計(jì)[J]. 通信技術(shù),2012,45(04):83-85.

        [6] 俞一彪,段凱宇,石汝杰.吳語文語轉(zhuǎn)換中的語音韻律控制[J].通信技術(shù),2002(10):1-3,9.

        [7] 胡曉荷.周光召和柳傳志對“語音云”寄予厚望——移動互聯(lián)網(wǎng)步入“語音云”時(shí)代[J]. 信息安全與通信保密,2010(12):39-41.

        [8] 劉帥,王以剛.VoIP的語音動態(tài)加密方法研究[J]. 信息安全與通信保密,2009(02):74-75.

        猜你喜歡
        模型系統(tǒng)
        一半模型
        Smartflower POP 一體式光伏系統(tǒng)
        WJ-700無人機(jī)系統(tǒng)
        ZC系列無人機(jī)遙感系統(tǒng)
        北京測繪(2020年12期)2020-12-29 01:33:58
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        基于PowerPC+FPGA顯示系統(tǒng)
        半沸制皂系統(tǒng)(下)
        連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
        3D打印中的模型分割與打包
        国产一区二区三区日韩精品| 精品久久久久88久久久| 国产内射视频在线观看| 日韩午夜免费视频精品一区| 一本色道久久综合狠狠躁篇| 亚洲粉嫩高潮的18p| 久久久久一| 中文字幕视频一区懂色| 69国产成人精品午夜福中文| 色一情一乱一伦一区二区三区日本| 欧美日韩国产在线观看免费| 熟女乱乱熟女乱乱亚洲| 麻豆精品一区二区综合av| 免费拍拍拍网站| 狠狠躁天天躁无码中文字幕图| 国产麻豆一区二区三区在线播放 | 国产在线观看视频一区二区三区| 亚洲精品tv久久久久久久久久| 中国年轻丰满女人毛茸茸| 国产精品自在在线午夜出白浆| 国内自拍偷国视频系列| 国产网红主播无码精品| 国产乱淫视频| 91国内偷拍一区二区三区| 人妻夜夜爽天天爽三区丁香花| 国产亚洲av综合人人澡精品| 韩国女主播一区二区在线观看| 一区二区精品天堂亚洲av| 国产精品 亚洲 无码 在线| 欧美老妇人与禽交| 日韩精品极品视频在线观看蜜桃| 黄片视频免费观看蜜桃| 国产精品无码成人午夜电影| 欧美乱人伦中文字幕在线不卡| 蜜桃成熟时日本一区二区| 欧美最猛黑人xxxx黑人猛交| 欧美性受xxxx黑人xyx性爽| 精品蜜桃视频在线观看| 在线视频观看国产色网| 永久免费av无码网站yy| 国产精品不卡无码AV在线播放|