亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于聲學(xué)統(tǒng)計建模的語音合成技術(shù)研究

        2011-06-28 07:33:28凌震華王仁華戴禮榮
        中文信息學(xué)報 2011年6期
        關(guān)鍵詞:聲學(xué)發(fā)音波形

        胡 郁,凌震華,王仁華,戴禮榮

        (中國科學(xué)技術(shù)大學(xué) 訊飛語音實(shí)驗(yàn)室, 安徽 合肥 230027)

        1 引言

        語音合成又稱文語轉(zhuǎn)換(text-to-speech, TTS),是智能人機(jī)語音交互領(lǐng)域的一個重要研究方向,其研究歷史可以追溯到18世紀(jì),并經(jīng)歷了從機(jī)械裝置合成、電子器件合成到基于計算機(jī)技術(shù)的語音合成的漫長發(fā)展階段。從歷史發(fā)展來看,最為常見的語音合成方法主要包括兩種。一種方法是基于原始發(fā)音的單元挑選與波形拼接合成,通過學(xué)習(xí)自然語音中的規(guī)律尋找合成單元(一般為音素級)之間的拼接規(guī)律,拼接原始語音波形單元得到合成語音;一種方法是對語音信號的音段和超音段特征進(jìn)行建模,利用語音合成器通過建模得到的參數(shù)控制產(chǎn)生合成語音。這兩種方法在近20年來伴隨著大數(shù)據(jù)量信息處理技術(shù)和統(tǒng)計信號處理建模技術(shù)的發(fā)展都取得了顯著的進(jìn)步,并利用其各自的特點(diǎn)在不同領(lǐng)域取得了很好的效果。

        基于大語料庫的單元挑選與波形拼接合成技術(shù)是隨著20世紀(jì)90年代電子計算機(jī)的運(yùn)算和存儲能力的迅猛發(fā)展而逐漸成熟的,是波形拼接語音合成技術(shù)的最新進(jìn)展。其基本思想是根據(jù)輸入的文本分析信息,從預(yù)先錄制和標(biāo)注好的連續(xù)自然發(fā)音語音庫中挑選合適的單元,進(jìn)行少量的調(diào)整(或者不進(jìn)行調(diào)整),然后拼接得到最終的合成語音[1-4]。由于最終的合成單元都是直接復(fù)制于錄音音庫,該方法可以保持原始發(fā)音人的音質(zhì),實(shí)現(xiàn)高自然度的語音合成。這種方法的優(yōu)點(diǎn)是合成語音音質(zhì)高,音色相似性好,較好的學(xué)習(xí)了自然發(fā)音中的自然韻律信息從而自然度較高,缺點(diǎn)是需要規(guī)模較大的語音數(shù)據(jù)庫支撐,同時系統(tǒng)的穩(wěn)定性有所欠缺,在給出高自然度合成語音的同時,可能會產(chǎn)生一些效果較差的合成語音結(jié)果。而在參數(shù)語音合成方面,在經(jīng)歷過共振峰合成器語音合成系統(tǒng)的發(fā)展以后,20世紀(jì)末,隨著語音信號統(tǒng)計建模方法的日益成熟,基于統(tǒng)計聲學(xué)建模的語音合成方法被提出,它將參數(shù)語音合成技術(shù)推進(jìn)到了一個新的發(fā)展階段。由于此方法可以實(shí)現(xiàn)系統(tǒng)的自動訓(xùn)練與構(gòu)建,所以又被稱為可訓(xùn)練的語音合成(Trainable TTS)[5]。其基本思想是基于統(tǒng)計建模和機(jī)器學(xué)習(xí)的方法,根據(jù)一定的語音數(shù)據(jù)訓(xùn)練聲學(xué)模型并快速構(gòu)建合成系統(tǒng)。Trainable TTS有多種實(shí)現(xiàn)形式,基于隱馬爾可夫模型(hidden Markov model, HMM)的參數(shù)語音合成方法是其中的典型代表[6]。這種方法的優(yōu)點(diǎn)是系統(tǒng)穩(wěn)定性好,在超音段和音段方面可以穩(wěn)定持續(xù)的以固定風(fēng)格合成語句,系統(tǒng)需要的數(shù)據(jù)和資源容量較小,可以方便的進(jìn)行音色等各方面的調(diào)整等; 缺點(diǎn)是合成語音的音質(zhì)較差,而且在自然度表現(xiàn)方面比較呆板,合成語音表現(xiàn)力較差。

        進(jìn)入21世紀(jì)以后,國際語音合成領(lǐng)域的各主要研究單位在以上兩個語音合成技術(shù)方向進(jìn)行了大量的研究工作,并取得了一系列的進(jìn)展。我們在這兩個方面分別提出了針對中文、英文的技術(shù)與系統(tǒng)實(shí)現(xiàn)方案[7-13],并前瞻性地提出了將兩種方法相互融合的新思路,形成了基于聲學(xué)統(tǒng)計建模的語音合成技術(shù)與系統(tǒng),融合了隱馬爾可夫模型參數(shù)訓(xùn)練新方法,發(fā)音動作參數(shù)與聲學(xué)參數(shù)綜合建模,統(tǒng)計模型指導(dǎo)單元挑選與波形拼接等多項(xiàng)關(guān)鍵技術(shù)?;谶@些新技術(shù)的語音合成系統(tǒng)在國際語音合成技術(shù)評測中保持了優(yōu)異的成績,有效地驗(yàn)證了新方法的領(lǐng)先性能。

        本文首先簡要回顧基于HMM的參數(shù)語音合成方法,并分析其技術(shù)特點(diǎn);然后在此基礎(chǔ)上,結(jié)合我們的實(shí)際工作,介紹基于聲學(xué)統(tǒng)計建模的語音合成技術(shù)的最新進(jìn)展。

        2 基于HMM的參數(shù)語音合成

        2.1 基于HMM的參數(shù)語音合成基本原理

        圖1為基于HMM的參數(shù)語音合成系統(tǒng)的基本框架,它主要包括訓(xùn)練和合成兩部分。在訓(xùn)練階段,首先通過參數(shù)分析算法從訓(xùn)練數(shù)據(jù)的語音文件中提取各幀對應(yīng)的D維聲學(xué)參數(shù)ct∈D,作為靜態(tài)的觀測特征,包括基頻和頻譜參數(shù)等;在靜態(tài)特征基礎(chǔ)上,通過計算相鄰幀間的一階與二階差分,得到各幀完整的觀測特征向量3D。然后以訓(xùn)練數(shù)據(jù)對應(yīng)模型的似然值函數(shù)P(o|λ)最大為準(zhǔn)則,訓(xùn)練一組上下文相關(guān)音素的HMM模型λ。這里,表示觀測特征序列,(·)T表示矩陣轉(zhuǎn)置,N表示序列的長度。在模型訓(xùn)練過程中,使用多空間概率分布(MSD)[14]對基頻在清音段的缺失現(xiàn)象進(jìn)行合理建模;基于最小描述長度(minimum description length, MDL)準(zhǔn)則[15]訓(xùn)練決策樹對上下文擴(kuò)展后的模型進(jìn)行聚類,以提高在數(shù)據(jù)稀疏情況下訓(xùn)練得到模型參數(shù)的魯棒性并防止過訓(xùn)練;最后,使用訓(xùn)練得到的上下文相關(guān)HMM進(jìn)行狀態(tài)切分并且訓(xùn)練狀態(tài)的時長概率模型[16]。

        圖1 基于HMM的參數(shù)語音合成系統(tǒng)框架

        合成過程中,首先是對輸入文本進(jìn)行分析,得到各音素相應(yīng)的上下文屬性;根據(jù)這些屬性分別通過時長、基頻和譜參數(shù)的聚類決策樹進(jìn)行決策,得到待合成語句對應(yīng)的HMM模型;然后,基于最大似然準(zhǔn)則(maximum likelihood, ML)并使用動態(tài)參數(shù)約束來生成最優(yōu)靜態(tài)特征向量

        2.2 特點(diǎn)分析

        基于HMM的參數(shù)語音合成方法所采用的統(tǒng)計建模、特征預(yù)測、參數(shù)合成的合成方法與傳統(tǒng)的單元挑選與波形拼接合成方法有很大差異,我們對其技術(shù)優(yōu)勢與不足分析如下。

        2.2.1 優(yōu)勢

        1) 快速、自動的系統(tǒng)構(gòu)建。其模型訓(xùn)練以及合成過程都是自動實(shí)現(xiàn)的,系統(tǒng)構(gòu)建周期短,需要的人工干預(yù)很少;系統(tǒng)中絕大部分模塊都是語種無關(guān)的。傳統(tǒng)的單元挑選與波形拼接合成方法,則需要較多語種相關(guān)的專家知識進(jìn)行人工調(diào)整其中的代價函數(shù)。

        2) 合成語音平滑流暢,魯棒性高。由于采用了基于統(tǒng)計模型的參數(shù)預(yù)測方法和基于合成器的語音恢復(fù),合成語音比單元挑選與波形拼接合成方法更加平滑,韻律也更加流暢,不容易發(fā)生拼接合成中常見的基頻不穩(wěn)定現(xiàn)象,對不同領(lǐng)域文本的適應(yīng)性也很強(qiáng)。

        3) 系統(tǒng)構(gòu)建需要的數(shù)據(jù)量少。常見的大語料庫合成系統(tǒng),往往會使用5~10小時,甚至更大規(guī)模的音庫以保證合成語音的效果,造成在音庫制作上的投入需要很大,限制了合成系統(tǒng)中的音色數(shù)目。而基于HMM的參數(shù)語音合成系統(tǒng),一般只需要1小時的音庫就可以合成出良好的語音,在降低系統(tǒng)成本上具有明顯的優(yōu)勢。

        4) 系統(tǒng)存儲尺寸小。對于單元挑選與波形拼接合成方法,由于需要保留語料庫的原始波形供合成時使用,因此整個系統(tǒng)的存儲尺寸難以降低到很低的水平;而HMM參數(shù)合成方法在合成時不需要使用原始波形,只需使用訓(xùn)練得到的模型參數(shù),這樣,這個系統(tǒng)的尺寸可以控制在1MB以內(nèi),非常適合在資源受限的嵌入式設(shè)備上使用。

        5) 系統(tǒng)靈活度高。對于傳統(tǒng)的單元挑選與波形拼接合成方法,如果我們要改變發(fā)音者的音色或者實(shí)現(xiàn)不同風(fēng)格的合成效果,往往意味著需要重新進(jìn)行整個音庫的錄制,費(fèi)時費(fèi)力;而對基于HMM的參數(shù)合成方法,可以利用少量的目標(biāo)發(fā)音人數(shù)據(jù)(如5~100句話),通過多種模型自適應(yīng)或者模型內(nèi)插的方法[18-20],實(shí)現(xiàn)需要的發(fā)音人音色或發(fā)音風(fēng)格。

        2.2.2 不足

        1) 合成語音的音質(zhì)不高。由于在基于HMM的參數(shù)語音合成方法中,最終的合成語音是通過參數(shù)合成器生成的,容易造成合成語音的音質(zhì)受損;此外,統(tǒng)計建模過程中的平滑效應(yīng)會進(jìn)一步模糊合成語音的共振峰被,降低語音合成的清晰度。

        2) 合成語音的韻律過于平淡。前面已經(jīng)提到,基于統(tǒng)計建模的基頻、時長預(yù)測方法使得合成語音的韻律特征很穩(wěn)定,出錯的幾率很小;但也會造成合成語音中的韻律變化不夠豐富,語句過于平淡,時間長了聽者容易產(chǎn)生疲勞感。

        3) 對數(shù)據(jù)的依賴性。雖然基于HMM的參數(shù)語音合成方法相比傳統(tǒng)的基于語料庫的單元挑選與拼接合成算法對于數(shù)據(jù)的依賴性已經(jīng)大大減小,但是它從本質(zhì)上說仍然是一種數(shù)據(jù)驅(qū)動的方法,不能擺脫其對數(shù)據(jù)的依賴,而一些語音學(xué)的規(guī)則很難被結(jié)合到這種針對聲學(xué)參數(shù)的統(tǒng)計框架中。

        3 基于統(tǒng)計建模的語音合成技術(shù)進(jìn)展

        針對上面提到的基于HMM的參數(shù)語音合成技術(shù)中存在的缺陷, 本節(jié)將重點(diǎn)介紹中國科學(xué)技術(shù)大學(xué)訊飛語音實(shí)驗(yàn)室近年來在基于統(tǒng)計建模的語音合成技術(shù)方面的主要研究進(jìn)展及成果,包括以下幾個方面。

        1) 特征融合。首次在合成中將聲學(xué)特征與描述語音產(chǎn)生機(jī)理的發(fā)音動作特征相結(jié)合,以期提高聲學(xué)參數(shù)預(yù)測的靈活性和有效性。

        2) 模型訓(xùn)練準(zhǔn)則。提出以最小生成誤差(minimum generation error, MGE)準(zhǔn)則取代常用的最大似然準(zhǔn)則,減小預(yù)測聲學(xué)參數(shù)的誤差,提高了合成語音的音質(zhì)。

        3) 波形生成方法。提出了一種新的基于HMM 的單元挑選合成方法。這種方法使用概率統(tǒng)計準(zhǔn)則指導(dǎo)單元挑選,拼接自然波形生成語音信號,從根本上改善了參數(shù)語音合成中由于建模時的平均效應(yīng)以及合成器的性能的限制造成的生成語音音質(zhì)的不足。

        3.1 發(fā)音動作參數(shù)與聲學(xué)參數(shù)的融合

        3.1.1 算法提出

        在基于HMM的參數(shù)語音合成方法中,一般只使用聲學(xué)參數(shù)來作為表征語音的觀測值以及建模的對象。實(shí)際上,聲學(xué)參數(shù)并不是語音特征唯一的表征形式,發(fā)音動作參數(shù)[21-23]同樣也是一種有效的語音描述方法。這里“發(fā)音動作參數(shù)”指的是對說話人在發(fā)音過程中使用的發(fā)音器官位置以及運(yùn)動情況的定量描述。這些發(fā)音器官包括: 舌、下腭、嘴唇、軟腭等。目前可以通過多種技術(shù)來收集這些發(fā)音動作參數(shù),例如,電磁發(fā)音儀(electromagnetic articulography,EMA)、磁共振成像(magnetic resonance imaging,MRI)、超聲波等。因?yàn)槁晫W(xué)信號是由發(fā)音器官的運(yùn)動產(chǎn)生的,所以聲學(xué)參數(shù)和發(fā)音動作參數(shù)是彼此相關(guān)的。此外,語音產(chǎn)生的物理機(jī)理也決定了發(fā)音動作參數(shù)相對聲學(xué)參數(shù)具有變化緩慢平滑、描述語音特征直接簡便、噪聲魯棒性強(qiáng)等優(yōu)點(diǎn)。

        基于發(fā)音動作參數(shù)的這些優(yōu)點(diǎn),已有一些研究者將發(fā)音動作參數(shù)應(yīng)用到基于HMM的自動語音識別中,并且在降低識別錯誤率方面取得了一些積極的效果[24-25]。我們首次嘗試將發(fā)音動作參數(shù)應(yīng)用到基于HMM的參數(shù)語音合成中,實(shí)現(xiàn)其與聲學(xué)參數(shù)的聯(lián)合建模與生成[21-22]。這樣既使統(tǒng)計模型更加精確, 降低生成的聲學(xué)參數(shù)的預(yù)測誤差,又可以依據(jù)語音學(xué)規(guī)則方便地調(diào)整發(fā)音動作參數(shù), 改變合成語音特征,提高了合成系統(tǒng)靈活性。

        圖2 聲學(xué)參數(shù)/發(fā)音動作參數(shù)聯(lián)合建模時的生成模型結(jié)構(gòu)

        3.1.2 實(shí)現(xiàn)方法

        其中N(;μ,Σ)表示均值向量和協(xié)方差矩陣分別為μ和Σ的正態(tài)分布;Aj是從發(fā)音動作參數(shù)到聲學(xué)參數(shù)的轉(zhuǎn)換矩陣,表示在狀態(tài)j上后者對前者依賴關(guān)系。我們可以使用EM算法[26]通過迭代更新的方法實(shí)現(xiàn)對模型參數(shù)的估計。

        在合成時,同樣基于最大似然準(zhǔn)則,并且考慮動態(tài)參數(shù)的約束,以同時生成聲學(xué)參數(shù)和發(fā)音動作參數(shù),表達(dá)如下

        為了改善調(diào)整后發(fā)音動作參數(shù)與上下文相關(guān)轉(zhuǎn)換矩陣Aj的失配問題,我們又提出了特征域轉(zhuǎn)換矩陣綁定方法[23],對聲學(xué)參數(shù)與發(fā)音動作參數(shù)之間的相關(guān)性進(jìn)行了更加合理的描述,進(jìn)一步提升了發(fā)音動作參數(shù)對聲學(xué)參數(shù)生成的控制能力。

        3.1.3 評測實(shí)驗(yàn)

        圖3 通過EMA參數(shù)調(diào)整舌位高低后合成元音/ε/的感知測聽結(jié)果

        我們使用了一個雙通道的英文語音數(shù)據(jù)庫進(jìn)行相關(guān)的實(shí)驗(yàn)驗(yàn)證工作[21-22],它同時采集了錄音時的聲學(xué)波形信號和電磁發(fā)音儀(EMA)信號。整個語音庫包括音素平衡的1 263句話,由一名英式發(fā)音的男發(fā)音人朗讀。波形錄制使用16kHz采樣,16bit量化的PCM格式,我們將從中提取的由STRAIGHT[27]譜包絡(luò)導(dǎo)出的40階線譜對(Line Spectral Pairs, LSP)和1維增益作為頻譜參數(shù)。EMA數(shù)據(jù)的采集是通過在發(fā)音人的各發(fā)音器官上放置小的傳感器,并利用電磁信號對發(fā)音過程中各傳感器進(jìn)行三維定位來實(shí)現(xiàn)的。實(shí)際使用了6個傳感器,其具體擺放位置包括舌根、舌尖、舌面、下腭、上唇和下唇[22]。在實(shí)驗(yàn)中我們只使用各傳感器y維(從前到后方向)和z維(從上到下方向)的位置信息,即一共得到12維的靜態(tài)發(fā)音動作特征。對于聲學(xué)參數(shù)和發(fā)音動作參數(shù),我們依據(jù)圖2所示的結(jié)構(gòu)進(jìn)行模型的訓(xùn)練,并且在合成過程中,測試了不同的調(diào)整函數(shù)f(·)對于合成語音特征的控制能力[21-22]。其中,我們進(jìn)行了一個主觀的感知測試以證明這種使用語音學(xué)規(guī)則的發(fā)音動作參數(shù)調(diào)整方法在控制合成語音中特定音素音色方面的能力[15]。實(shí)驗(yàn)中,使用了英語中的三個前元音/I/、/ε/ 和 //。這三個元音在發(fā)音上的最大區(qū)別就是舌位的高低。元音/I/ 對應(yīng)的舌位最高,//對應(yīng)的舌位最低,而/ε/在兩者之間。在這個實(shí)驗(yàn)中,我們定義調(diào)整函數(shù)f(·)為調(diào)整舌根、舌面、舌尖上三個傳感器的z坐標(biāo)位置來模擬對于舌位高度的控制。正的調(diào)整表示升高舌位,而負(fù)的調(diào)整表示降低舌位。我們使用的測試文本為5個包含元音/ε/的單音素單詞("bet"、"hem"、"led"、"peck"、"set"),并且將這些單詞放入承載句"Now we’ll say ... again"中進(jìn)行合成。對合成過程中舌位高度的調(diào)整為-1.5cm~1.5cm,每0.5cm合成一組語音,一共得到35個合成樣本。在進(jìn)行測聽實(shí)驗(yàn)時,由20名英語母語的發(fā)音人參與,每名發(fā)音人對每句合成語音進(jìn)行聽寫,記錄下承載句中的核心單詞。然后,對每一個調(diào)整距離,統(tǒng)計合成的元音被感知成/I/, /ε/ 和 //的比例如圖3所示。從圖中可以清晰地顯示出,隨著我們升高舌位,合成元音會逐步從/ε/變化為/I/;反之,如果我們降低舌位,元音會被從/ε/感知為//。這進(jìn)一步驗(yàn)證了結(jié)合發(fā)音動作參數(shù)后,我們可以有效利用語音學(xué)規(guī)則,在不需要目標(biāo)數(shù)據(jù)的情況下,實(shí)現(xiàn)對合成語音特征的有效控制,從而提高系統(tǒng)的靈活性。

        3.2 最小生成誤差模型訓(xùn)練

        3.2.1 算法提出

        雖然基于HMM的參數(shù)語音合成方法可以取得較為理想的合成效果,但是其采用的基于最大似然(maximum likelihood, ML)的模型訓(xùn)練準(zhǔn)則存在兩個問題。第一個問題就是HMM訓(xùn)練算法與語音合成應(yīng)用的不一致。一般而言,語音合成的目標(biāo)就是使生成的語音(參數(shù))與自然語音(參數(shù))盡可能地接近,而現(xiàn)在采用的基于最大似然準(zhǔn)則的HMM訓(xùn)練算法是從語音識別中借鑒過來的,它并非針對語音合成應(yīng)用而設(shè)計,由此導(dǎo)致HMM訓(xùn)練算法與語音合成應(yīng)用的不一致;另一個問題是在參數(shù)生成過程中通過考慮動態(tài)和靜態(tài)參數(shù)之間的約束來進(jìn)行參數(shù)平滑,而現(xiàn)在的訓(xùn)練過程中沒有考慮到此約束條件,導(dǎo)致訓(xùn)練得到的HMM中靜態(tài)和動態(tài)參數(shù)之間存在不一致。針對上述模型訓(xùn)練中的問題,我們提出了一種基于最小化生成誤差(Minimum Generation Error, MGE)的訓(xùn)練準(zhǔn)則[28-34],并將該準(zhǔn)則應(yīng)用到模型訓(xùn)練中。在基于MGE準(zhǔn)則的模型訓(xùn)練算法中,我們首先定義一個與合成目標(biāo)相符的生成誤差函數(shù),然后將參數(shù)生成加入到模型訓(xùn)練中來計算生成誤差,并基于廣義概率下降(GPD)算法實(shí)現(xiàn)對模型參數(shù)的優(yōu)化。

        3.2.2 實(shí)現(xiàn)方法

        在計算C相對模型λ的生成誤差時,嚴(yán)格來說需要考慮所有可能的狀態(tài)序列Q。出于簡化,我們只考慮單一狀態(tài)序列,即由模型λ決定的C的最優(yōu)狀態(tài)序列Qopt,此時的生成誤差可以記為

        在以上誤差函數(shù)定義下,我們將參數(shù)生成加入到HMM訓(xùn)練過程中來計算訓(xùn)練樣本的生成誤差,并采用廣義概率下降算法(GPD)對模型參數(shù)進(jìn)行調(diào)整,以達(dá)到最小化生成誤差的目的。具體的算法描述與參數(shù)更新公式參見文獻(xiàn)[28]。

        3.2.3 評測實(shí)驗(yàn)

        在實(shí)驗(yàn)過程中[28],我們使用的音庫是一個音素平衡1 000句話的中文語料庫,共包含25 096個聲母和29 942個韻母,錄音采樣率為16kHz。在聲學(xué)參數(shù)提取時,將由STRAIGHT譜包絡(luò)導(dǎo)出的24階LSP和1維增益作為頻譜參數(shù),分析幀移為5ms。對于基線系統(tǒng),我們按照2.1節(jié)介紹的步驟,使用最大似然準(zhǔn)則訓(xùn)練各上下文相關(guān)音素對應(yīng)的模型,使用的模型結(jié)構(gòu)為5狀態(tài)自左向右無跳轉(zhuǎn)的HMM,并且針對中文的特點(diǎn)進(jìn)行了上下文屬性的標(biāo)注與問題集的設(shè)計。對于測試系統(tǒng),使用上面介紹的最小生成誤差準(zhǔn)則進(jìn)行模型參數(shù)的更新,在這個實(shí)驗(yàn)中,只更新了與頻譜參數(shù)對應(yīng)的模型參數(shù)。我們進(jìn)行了針對合成語音自然度的主觀測試。測試時,使用ML訓(xùn)練系統(tǒng)和MGE訓(xùn)練系統(tǒng)各合成了集外的50句話,由6名測聽人員進(jìn)行對比兩個系統(tǒng)合成語音自然度的傾向性評分,最終的測試結(jié)果如圖4所示[28]。從圖4中可以看出,在進(jìn)行MGE訓(xùn)練后,合成語音的質(zhì)量有了明顯而一致的提升。

        圖4 對比MGE訓(xùn)練與ML訓(xùn)練的自然度傾向性測試結(jié)果

        在以上工作基礎(chǔ)上,我們對MGE模型訓(xùn)練方法又進(jìn)行了進(jìn)一步的深入研究與應(yīng)用拓展,包括將MGE準(zhǔn)則應(yīng)用于從模型聚類到聚類后模型優(yōu)化的整個HMM訓(xùn)練過程[29];提出了MGE線性回歸算法用于語音合成中的快速模型自適應(yīng)[30];基于人耳感知特性設(shè)計MGE準(zhǔn)則中的生成誤差計算函數(shù)[31];使用MGE準(zhǔn)則進(jìn)行分層疊加基頻模型的訓(xùn)練[32]與模型聚類決策樹的規(guī)模優(yōu)化[33];以及將MGE準(zhǔn)則與發(fā)音動作特征模型相結(jié)合以提升聲學(xué)參數(shù)到發(fā)音動作參數(shù)反響映射精度[34]等。相關(guān)研究結(jié)果均體現(xiàn)了MGE準(zhǔn)則在語音合成聲學(xué)模型訓(xùn)練中的有效性。

        3.3 基于HMM的單元挑選與波形拼接合成

        3.3.1 算法提出

        前面已經(jīng)提到,基于HMM的參數(shù)合成方法可以合成出平滑流暢的語音,但是由于使用了參數(shù)合成器以及參數(shù)建模與生成時的平均效應(yīng),使合成語音的音質(zhì)和自然語音相比有較大差距;傳統(tǒng)基于大語料庫的單元挑選與波形拼接合成方法由于使用自然語音波形,可以合成出高自然度的語音,但是對于音庫的尺寸要求較大,并且在系統(tǒng)構(gòu)建過程中需要較多語種相關(guān)的人工干預(yù),對不同領(lǐng)域文本合成效果的魯棒性也不理想。為了綜合以上兩種方法的優(yōu)點(diǎn),我們將HMM參數(shù)合成中使用的統(tǒng)計建模思想應(yīng)用到單元挑選與波形拼接合成方法中[35-39],提出了基于HMM的單元挑選與波形拼接合成算法。

        3.3.2 實(shí)現(xiàn)方法

        整個基于HMM的單元挑選與波形拼接合成系統(tǒng)可分為訓(xùn)練與合成兩個階段。

        1) 訓(xùn)練階段: 首先依據(jù)先驗(yàn)知識,提取一組我們認(rèn)為可用于反映單元挑選與波形拼接合成系統(tǒng)自然度的特征參數(shù),例如,各幀的頻譜、基頻,音素的時長等。針對每一種特征,訓(xùn)練其上下文相關(guān)音素的HMM模型,具體的模型訓(xùn)練方法,可以采用與基于HMM的參數(shù)合成算法中類似的模型訓(xùn)練流程,首先訓(xùn)練完全上下文展開的音素模型,再利用上下文相關(guān)的問題集,對模型進(jìn)行聚類。假設(shè)最終提取的特征種類數(shù)為M,訓(xùn)練得到的模型集合為Λ=(Λ1,...,ΛM)。

        2) 合成階段: 合成階段的核心是單元挑選算法。假設(shè)用符號F表示通過文本分析得到的待合成句的上下文描述信息;U=(u1,...,uN)代表合成一句話的一個備選單元序列,其中N是序列中的單元個數(shù);這里對于每一個ui,i=1,...,N可以是任意尺度的單元,例如,音素、狀態(tài)、幀等。我們要求挑選得到的最優(yōu)單元序列U*滿足

        其中

        gm(F,U;Λm)=LL(X(U,m),F,Λm)

        -wKLDKLD(Λ(U,m),F,Λm)

        (12)

        表示使用第m個特征對應(yīng)的統(tǒng)計模型Λm對單元序列U進(jìn)行的客觀評估;wm為模型Λm對應(yīng)的權(quán)重。如式(12)所示,函數(shù)gm(·)由兩部分組成,函數(shù)LL(·)表示計算單元序列U的聲學(xué)參數(shù)對應(yīng)模型Λm的似然值,X(U,m)為提取單元序列U對應(yīng)的第m組特征;函數(shù)KLD(.)表示備選單元序列U對應(yīng)的模型相對于目標(biāo)模型的Kullback-Leibler距離(Kullback-Leibler Divergence, KLD)[40],Λ(U,m)為提取單元序列U的第m組特征對應(yīng)的備選模型。式(12)的具體計算方法依賴于使用的特征提取方法。依據(jù)特征提取時前后單元之間的依賴關(guān)系,我們可以將式(11)轉(zhuǎn)換成傳統(tǒng)的“目標(biāo)代價”和“連接代價”之和的形式,通過動態(tài)規(guī)劃算法搜索最優(yōu)的單元序列U*。

        上述介紹的基于HMM的單元挑選與波形拼接合成方法可以有不同的具體實(shí)現(xiàn)方式,包括使用幀尺度的拼接單元和ML準(zhǔn)則來進(jìn)行單元的挑選[35]、使用音素和幀的兩級尺度單元[36]等。下面結(jié)合Blizzard Challenge 2007 國際語音合成評測的結(jié)果來說明此算法的性能。

        3.3.3 Blizzard Challenge 2007 國際合成語音評測

        Blizzard Challenge是由美國卡耐基·梅隆大學(xué)的Black教授和日本名古屋工業(yè)大學(xué)的Tokuda教授于2005年發(fā)起的一項(xiàng)全球合成語音評測活動[41]。這個活動通過發(fā)布統(tǒng)一的合成音庫,由各個參賽單位在短時間內(nèi)構(gòu)建合成系統(tǒng),并且集中評測,實(shí)現(xiàn)對基于語料庫的語音合成中各個技術(shù)點(diǎn)的較為有效的測試,從而推動整個語音合成技術(shù)的發(fā)展。 2007年我們首次使用上述基于HMM 的單元挑選與波形拼接方法構(gòu)建合成系統(tǒng)參加此測試活動[39]。

        2007年的參測單位為16家,包括Carnegie Mellon University,University of Edinburgh,HTS working group,Toshiba,Nokia等語音合成領(lǐng)域內(nèi)的知名研究機(jī)構(gòu)與公司。組織者對各個參賽單位提交的測試語音進(jìn)行統(tǒng)一測試。所有參賽單位的系統(tǒng)被賦予代號,測試以匿名的形式進(jìn)行。測試的指標(biāo)包括合成語音的相似度、自然度(MOS得分)和可懂度(單詞聽寫錯誤率)。測試過程基于網(wǎng)絡(luò)進(jìn)行,參加測試的人員包括語音技術(shù)專家、英語母語的學(xué)生以及網(wǎng)絡(luò)上的志愿者等。

        為了對統(tǒng)計聲學(xué)模型框架下不同的合成方法進(jìn)行更加充分的比較,我們同時提交了兩個參測系統(tǒng)參與這一次的評測活動。它們分別為基于HMM的參數(shù)合成系統(tǒng)和基于HMM的單元挑選與波形拼接合成系統(tǒng)。前者采用3.2節(jié)中介紹的MGE訓(xùn)練方法構(gòu)建參數(shù)合成系統(tǒng);而后者采用本節(jié)中介紹的基于HMM的單元挑選算法框架,我們以音素作為基本拼接單元,在音素的基頻、頻譜、時長模型之外,又增加了度量音素拼接處聲學(xué)參數(shù)變化的拼接模型,并且采用了基于KLD的單元預(yù)選方法來提高運(yùn)行效率。圖5~7顯示了所有參測系統(tǒng)的平均相似度、自然度和可懂度評測結(jié)果。其中我們提交的基于HMM的參數(shù)合成系統(tǒng)的編號為“J”,基于HMM的單元挑選與波形拼接合成系統(tǒng)的編號為“A”,系統(tǒng)“I”為組織者提供的自然語音樣本。從圖5 中可以看出,我們提交的基于HMM的單元挑選與波形拼接合成系統(tǒng)(系統(tǒng)A)是所有參測系統(tǒng)中相似度得分最高的;而基于HMM的參數(shù)合成系統(tǒng)(系統(tǒng)J)在這方面的表現(xiàn)則不夠理想,究其原因,我們認(rèn)為是參數(shù)合成方法中使用的參數(shù)合成器對于合成語音的音色造成了損傷,使其相對原始語音的相似度下降。圖6顯示的自然度評測結(jié)果中,系統(tǒng)A仍然是表現(xiàn)最好的系統(tǒng),優(yōu)于系統(tǒng)J,表明了這種基于HMM的單元挑選合成算法在提高合成語音自然度方面的有效性。另一方面,參數(shù)合成方法在合成語音可懂度方面的優(yōu)勢在圖7中表現(xiàn)了出來,系統(tǒng)J在所有參測系統(tǒng)中具有最小的單詞聽寫錯誤率,這也體現(xiàn)了基于HMM的參數(shù)合成方法在合成效果的魯棒性方面還是有其優(yōu)勢,尤其是MGE模型訓(xùn)練準(zhǔn)則使合成語音的清晰度得到了明顯提升。

        圖5 Blizzard Challenge 2007相似度評測結(jié)果

        圖6 Blizzard Challenge 2007自然度評測結(jié)果(MOS)

        圖7 Blizzard Challenge 2007可懂度評測結(jié)果(單詞聽寫錯誤率)

        在2008~2011年的Blizzard Challenge評測活動中,我們同樣使用基于HMM的單元挑選與波形拼接方法構(gòu)建了參測系統(tǒng),并在音節(jié)級長時韻律特征使用[37]、模型聚類決策樹規(guī)模優(yōu)化、方差綁定的模型訓(xùn)練等方面進(jìn)行了一系列技術(shù)改進(jìn)。在這幾年的評測活動中,我們提交的參測系統(tǒng)均取得了優(yōu)異的性能表現(xiàn)。我們還在用于單元挑選的HMM模型訓(xùn)練準(zhǔn)則方面進(jìn)行了進(jìn)一步的探索,提出了最小單元挑選誤差準(zhǔn)則(Minimum Unit Selection Error, MUSE)[38],實(shí)現(xiàn)了系統(tǒng)構(gòu)建的完全自動化并提高了合成語音的自然度。

        4 總結(jié)

        本文在回顧語音合成技術(shù)發(fā)展歷史的基礎(chǔ)上,介紹了基于聲學(xué)統(tǒng)計建模的語音合成方法。該方法的典型系統(tǒng)是基于HMM的參數(shù)語音合成,在對其基本的系統(tǒng)框架進(jìn)行描述和分析之后,介紹了中國科學(xué)技術(shù)大學(xué)訊飛語音實(shí)驗(yàn)室近年來我們在此方面的所做的實(shí)際工作,包括: 在特征使用中,融合發(fā)音動作參數(shù)與聲學(xué)參數(shù),提高聲學(xué)參數(shù)生成的靈活度;在模型訓(xùn)練階段,以最小生成誤差準(zhǔn)則取代最大似然準(zhǔn)則,更好地瞄準(zhǔn)語音合成的應(yīng)用,提高合成語音的音質(zhì);在語音生成階段,使用單元挑選與波形拼接合成方法取代參數(shù)生成與合成器重構(gòu),從根本上改善HMM參數(shù)語音合成器在合成語音音質(zhì)上的不足。這些研究成果不僅通過了嚴(yán)謹(jǐn)?shù)膶?shí)驗(yàn)證實(shí),同時正在逐漸地應(yīng)用到實(shí)際的語音合成系統(tǒng)中去,使得語音合成技術(shù)在系統(tǒng)構(gòu)建和提高表現(xiàn)力方面有了質(zhì)的突破,進(jìn)一步促進(jìn)了多語種的語音合成、說話人音色轉(zhuǎn)換、語氣語調(diào)的合成和情感語音合成等各方面的發(fā)展。Blizzard Challenge 國際語音合成評測更是對這些技術(shù)進(jìn)展作出了全面、科學(xué)的肯定。

        綜上,聲學(xué)統(tǒng)計建模思想的應(yīng)用可以說是開創(chuàng)了語音合成發(fā)展的一個新的階段,它為我們提供了更廣闊的研究發(fā)展空間,在實(shí)現(xiàn)真正自然的人機(jī)語音交互的方向上邁出了重要的一步。

        [1] Wang R H,Chen S H, Tao J, et al. Mandarin Text-To-Speech Synthesis[C]//Advances in Chinese Spoken Language Processing. Beijing: World Scientific Publishing, 2007.

        [2] Campbell W N, Black A W. Prosody and the selection of source units for concatenative synthesis[J]. Progress in Speech Synthesis, 1996: 279-282.

        [3] Iwahashi N, Kaiki N, SagisakaY. Concatenative speech synthesis by minimum distortion criteria[C]//International Conference on Acoustics, Speech, and Signal Processing.1992, 2: 65-68.

        [4] Wang R H, Ma Z K, Zhu D L. A corpus-based Chinese speech synthesis with contextual-dependant unit selection[C]//International Conference on Spoken Language Processing. 2000: 391-394.

        [5] Donovan R E. Trainable speech synthesis[D]. Ph.D Dissertation, Cambridge University, 1996.

        [6] Tokuda K, Zen H, Black A W. HMM-based approach to multilingual speech synthesis[C]//Text to Speech Synthesis: New Paradigms and Advances. New York: Prentice Hall, 2004.

        [7] Hu Y, Liu Q F, Wang R H. Prosody generation in Chinese synthesis using the template of quantified prosodic unit and base intonation contour[C]//International Conference on Spoken Language Processing. 2000: 55-58.

        [8] 王仁華, 胡郁, 李威, 等. 基于決策樹的漢語大語料庫合成系統(tǒng)[C]//第六屆全國人機(jī)語音通信學(xué)術(shù)會議論文集, 2001: 183-186.

        [9] Li W, Ling Z H, Hu Y, et al. A statistical method for computing candidate unit cost in corpus based Chinese speech synthesis system[C]//International Conference on Chinese Computing. 2001: 167-170.

        [10] Shuang Z W, Ling Z H, Hu Y, et al. A miniature Chinese TTS system based on tailored corpus[C]//International Conference on Spoken Language Processing. 2002: 2389-2392.

        [11] Ling Z H, Hu Y, Shuang Z W, et al. Decision tree based unit pre-selection In Mandarin Chinese synthesis[C]//International Symposium on Chinese Spoken Language Processing. 2002: 277-280.

        [12] Sun L, Hu Y, Wang R H. Polynomial regression model for duration prediction in Mandarin[C]//International Conference on Spoken Language Processing. 2004: 769-772.

        [13] Wang R H, Hu Y. Statistical modeling of pitch contour in standard Chinese[C]//From Traditional Phonology to Modern Speech Processing. Beijing: Foreign Language Teaching and Research Press,2004.

        [14] Tokuda K, Masuko T, Miyazaki N, et al. Hidden Markov models based on multi-space probability distribution for pitch pattern modeling[C]//International Conference on Acoustics, Speech, and Signal Processing. 1999,1:229-232.

        [15] Shinoda K, Watanabe T. MDL-based context-dependent subword modeling for speech recognition[J]. Journal of Acoustical Society of Japan , 2000, 21(2): 79-86.

        [16] Yoshimura T, Tokuda K, Masuko T, et al. Duration modeling in HMM-based speech synthesis system[C]//International Conference on Spoken Language Processing. 1998, 2: 29-32.

        [17] Tokuda K, Kobayashi T, Imai S. Speech parameter generation from HMM using dynamic features[C]//International Conference on Acoustics, Speech, and Signal Processing. 1995: 660-663.

        [18] Nose T, Yamagishi J, Masuko T, et al. A style control technique for HMM-based expressive speech synthesis[J]. IEICE Transactions on Infomation and Systems, 2007, E90-D(9): 1406-1413.

        [19] Shichiri K, Sawabe A, Tokuda K, et al. Eigenvoices for HMM-based speech synthesis[C]//International Conference on Spoken Language Processing. 2002: 1269-1272.

        [20] Qin L, Ling Z H, Wu Y, et al. HMM-based emotional speech synthesis using average emotion model[C]//Proceedings of 5th International Symposium on Chinese Spoken Language Processing. 2006: 233-240.

        [21] Ling Z H, Richmond K, Yamagishi J, et al. Articulatory control of HMM-based parametric speech synthesis driven by phonetic knowledge [C]//Proceedings of Interspeech. 2008: 573-576.

        [22] Ling Z H, Richmond K, Yamagisihi J, et al. Integrating articulatory features into HMM-based parametric speech synthesis[J]. IEEE Transaction on Audio, Speech, and Language Processing, 2009, 17(6): 1171-1185.

        [23] Ling Z H, Richmond K, Yamagishi J. Feature-space transform tying in unified acoustic-articulatory modelling for articulatory control of HMM-based speech synthesis [C]//Proceedings of Interspeech. 2011: 117-120.

        [24] King S, Frankel J, Livescu K, et al. Speech production knowledge in automatic speech recognition[J]. Journal of the Acoustical Society of America, 2007, 121(2): 723-742.

        [25] Markov K, Dang J, Nakamura S. Integration of articulatory and spectrum features based on the hybrid HMM/BN modeling framework[J]. Speech Communication, 2006, 48(2): 161-175.

        [26] Dempster A P, Laird N M, Rubin D B. Maximum likelihood from incomplete data via the EM algorithm[J]. Journal of the Royal Statistical Society, 1977, 39(1): 1-38.

        [27] Kawahara H, Masuda-Katsuse I, de Cheveigné A. Restructuring speech representations using a pitch-adaptive time-frequency smoothing and an instantaneous-frequency-based F0 extraction: possible role of a repetitive structure in sounds[J]. Speech Communication, 1999, 27(3-4): 187-207.

        [28] Wu Y J, Wang R H. Minimum generation error training for HMM-based speech synthesis[C]//International Conference on Acoustics, Speech and Signal Processing. INSPEC, 2006, 1: 89-92.

        [29] Wu Y J, Wang R H, Soong F. Full HMM training for minimizing generation error in synthesis[C]//International Conference on Acoustics, Speech and Signal Processing. Hawaii, USA: IEEE Press, 2007, 4: 517-520.

        [30] Qin L, Wu Y J, Ling Z H, et al. Minimum generation error lineal regression based model adaptation for HMM-based speech synthesis[C]//International Conference on Acoustics, Speech and Signal Processing. Las Vegas: IEEE Press, 2008: 3953-3956.

        [31] Lei M, Ling Z H, Dai L R. Minimum generation error training with weighted Euclidean distance on LSP for HMM-based speech synthesis [C]//International Conference on Acoustics, Speech and Signal Processing. 2010: 4230-4233.

        [32] Lei M, Wu Y J, Soong F, et al. A hierarchical F0 modeling method for HMM-based speech synthesis [C]//Proceedings of Interspeech. 2010: 2170-2173.

        [33] Lu H, Ling Z H, Dai L R, et al. Cross-validation and minimum generation error based decision tree pruning for HMM-based speech synthesis[J]. Computational Linguistics and Chinese Language Processing, 2010, 15(1): 61-76.

        [34] Zhao T Y, Ling Z H, Lei M, et al. Minimum generation error training for HMM-based prediction of articulatory movements [C]//International Symposium on Chinese Spoken Language Processing. 2010: 99-102.

        [35] Ling Z H, Wang R H. HMM-based unit selection using frame sized speech segments[C]//Proceedings of Interspeech. 2006: 2034-2037.

        [36] Ling Z H, Wang R H. HMM-based hierarchical unit selection combining Kullback-Leibler divergence with likelihood criterion[C]//International Conference on Acoustics, Speech and Signal Processing. INSPEC, 2007,4: 1245-1248.

        [37] Ling Z H, Wang Z H, Dai L R. Statistical modeling of syllable-level F0 features for HMM-based unit selection speech synthesis [C]//International Symposium on Chinese Spoken Language Processing. 2010: 144-147.

        [38] Ling Z H, Wang R H. Minimum unit selection error training for HMM-based unit selection speech synthesis system[C]//International Conference on Acoustics, Speech and Signal Processing. 2008: 3949-3952.

        [39] Ling Z H, Qin L, Lu H, et al. The USTC and iFLYTEK speech synthesis systems for Blizzard Challenge 2007[EB/OL]. http://festvox.org/blizzard/bc2007/blizzard_2007/blz3_017.html.

        [40] Liu P, Soong F K. Kullback-Leibler divergence between two hidden Markov models[R]. Microsoft Research Asia, 2005.

        [41] Black A W, Tokuda K. The Blizzard Challenge 2005: Evaluating corpus- based speech synthesis on common databases[C]//Proceedings of the Interspeech. 2005: 77-80.

        猜你喜歡
        聲學(xué)發(fā)音波形
        Hickory, Dickory, Dock
        對《壓力容器波形膨脹節(jié)》2018版新標(biāo)準(zhǔn)的理解及分析
        愛的就是這股Hi-Fi味 Davis Acoustics(戴維斯聲學(xué))Balthus 70
        Acoustical Treatment Primer:Diffusion談?wù)劼晫W(xué)處理中的“擴(kuò)散”
        Acoustical Treatment Primer:Absorption談?wù)劼晫W(xué)處理中的“吸聲”(二)
        基于LFM波形的靈巧干擾效能分析
        Acoustical Treatment Primer:Absorption 談?wù)劼晫W(xué)處理中的“吸聲”
        基于ARM的任意波形電源設(shè)計
        Playing with h
        大連臺使用CTS-1記錄波形特點(diǎn)
        小草手机视频在线观看| 国产白嫩美女在线观看| 成人国产精品一区二区网站 | 一本久道久久综合狠狠操| 亚洲天堂亚洲天堂亚洲色图| 把女人弄爽特黄a大片| 国产精品va在线播放我和闺蜜| 欧美成人精品福利在线视频| 日本一二三区在线不卡| 久久不见久久见免费视频6| 一二三四在线视频观看社区| 国产伦精品一区二区三区四区| 久久99久久久精品人妻一区二区 | 熟女人妻中文字幕av| 久激情内射婷内射蜜桃人妖| 久久av无码精品人妻糸列| 蜜桃av一区二区三区| 久久天天躁夜夜躁狠狠85麻豆| 中文字幕一区二区三区人妻少妇| 精品亚洲午夜久久久久| 亚洲av网站在线免费观看| 国产高清在线观看av片| 吸咬奶头狂揉60分钟视频| 国模少妇无码一区二区三区 | 色www亚洲| 国产在线视频一区二区三区不卡| 无码国产精品一区二区免费式芒果| 亚洲av无码av日韩av网站| 911国产在线观看精品| 日本一区二区三区四区在线视频| 大学生粉嫩无套流白浆| 好爽…又高潮了毛片免费看| 喷潮出白浆视频在线观看| av影院手机在线观看| 无码ol丝袜高跟秘书在线观看| 国产在线观看黄| 久久精品国产在热亚洲不卡| 久久亚洲精品成人av无码网站| 日韩一欧美内射在线观看| 亚洲国产精品美女久久久| 一个人看的视频在线观看|