亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

計算機語音合成技術(shù)研究及發(fā)展方向

2014-12-29 00:00:00陳擁權(quán)張羽胡翀豪楚瑾

科技與企業(yè) 2014年1期

【摘要】語音合成技術(shù)研究是近年來國內(nèi)外語音合成爭相研究的熱點，隨著計算機科學(xué)技術(shù)與網(wǎng)絡(luò)社會的發(fā)展，語音信息服務(wù)系統(tǒng)得到了廣泛的應(yīng)用，但是語音信息服務(wù)系統(tǒng)需要語音合成技術(shù)的支持，本文介紹了幾種較為常見的語音合成方法，并且分析探討了語音合成的發(fā)展及應(yīng)用方向。

【關(guān)鍵詞】計算機；語音合成技術(shù)；發(fā)展方向

1、引言

語音合成技術(shù)使人們只要通過“聽”就可以聽懂、了解信息的內(nèi)容，該技術(shù)的應(yīng)用可以描述為將計算機產(chǎn)生的或者外部其他設(shè)備輸入的文字信息，按語音處理設(shè)定好的的規(guī)則轉(zhuǎn)換成語音信號輸出，這就會使文本文件內(nèi)容、手機短信內(nèi)容、WORD文件內(nèi)容等文字信息，能通過計算機流暢順利地讀出文字信息。這種將文字轉(zhuǎn)換成語音的高新技術(shù)稱之為文字語音轉(zhuǎn)換技術(shù)，簡稱TTS （Text to Speech）技術(shù)。

2、語音合成技術(shù)方法研究

錄音編輯法、波形合成法、參數(shù)合成法和規(guī)則合成法，這四種研究方法是研究語音合成技術(shù)的主要方法，當(dāng)然還有其他方法，我們這里不做介紹。

1）錄音編輯法。此方法是將人的語音通過某種媒介錄制下來，再適當(dāng)?shù)匕堰@些錄制下來的語音連接起來，編輯成所需文字，缺點是在計算機內(nèi)對此卻不作任何壓縮及其他技術(shù)處理，而是直接將其輸出，此法需要大容量存儲器。

2）波形合成法我們這里介紹兩種方法。一種方法是波形編輯合成，目前很多專用的語音合成器基本上是采用這種方法，其原理是選取語音庫采取的自然語言的合成單元波形后，對這些波形進行編輯拼接，最后輸出，簡單的講是把波形編輯技術(shù)用于語音合成。這種方法比較常見，比如我們生活中常見的有自動報時裝置、公交車語音報站等。

另一種是波形編碼合成，此方法是直接將要合成的語音發(fā)音波形進行存儲或進行波形編碼壓縮技術(shù)處理，然后進行存儲，當(dāng)合成重放時再譯碼組合輸出語音，這種方法類似于語音編碼中的波形編解碼方法，。但是此方法在技術(shù)上還需進一步升級，這種語音合成器只是語音存儲和重放的器件。

3）專家早期的研究主要是采用參數(shù)合成法，這種運行方式比較復(fù)雜，下面我們主要介紹發(fā)音器官參數(shù)合成、共振峰合成、LPC合成等幾種方法。

發(fā)音器官參數(shù)合成應(yīng)計算出語音的聲波，如何得到語音的聲波，應(yīng)首先通過定義唇、舌、聲帶的相關(guān)參數(shù)，再由這些參數(shù)估計聲道截面積函數(shù)，進而獲取語音聲波。這種合成方法具有我們希望得到的優(yōu)點，即它直接模擬人的發(fā)音過程，可以產(chǎn)生接近人發(fā)聲的語音，但是，目前要準確測定出這些參數(shù)還缺少行之有效的手段，因為每個人的發(fā)音生理過程比較復(fù)雜，因此，大家普遍認為發(fā)音器官參數(shù)合成技術(shù)研究還不夠成熟，走出實驗室研究還需一段時間。共振峰合成把人的聲道看作成諧振腔，腔體的諧振特性決定所發(fā)出語音信號的頻譜特性，它是對聲源—聲道模型的模擬，我們稱之為共振峰特性。我們可以通過修改振峰合成參數(shù)獲得不同特性的語音。也能以較低的代價產(chǎn)生具有高可懂度的合成語音，但是前提是振峰合成的參數(shù)設(shè)置合理。后來又產(chǎn)生了基于LPC、lSP等聲學(xué)參數(shù)的合成系統(tǒng)。在眾多合成系統(tǒng)中LPC是一線性預(yù)測編碼法。它采用10～25ms為一幀對語音波形進行采樣，各幀的參數(shù)是時變的，在一幀內(nèi)則為一線性時不變系統(tǒng)。在存儲器中存入各幀的參數(shù)，參數(shù)獲取方法為在幀中抽取原始語音的音調(diào)周期、清音、濁音若干個基于最小二乘的預(yù)測系數(shù)，在合成時以這些參數(shù)綜合語音。LPC法系用3～7 位對所獲取參數(shù)進行編碼處理，在數(shù)值間可以自動插補運算，因此次方法合成的語音音質(zhì)柔、動聽[1]。

4）規(guī)則合成法。20世紀80年代末至今，基音同步疊加（PSOLA）方法問世，大大提高了基于時域波形拼接方法合成的語音的音色和自然度，該基于PSOLA方法的合成器具有結(jié)構(gòu)簡單、易于實時實現(xiàn)等優(yōu)點，此方法的提出標志著語言合成技術(shù)研究取得了實質(zhì)性的進展，引起了科學(xué)界的轟動，具有寬廣的商用價值。

PSOLA技術(shù)的原理特點是，要想使拼接單元的韻律特征符合上下文的要求，同時又能使合成波形保持了原發(fā)音的主要音段特征，需要根據(jù)上下文的要求，用PSOLA算法調(diào)整拼接單元的韻律特征，如基頻、音長、音強等，最后再對語音波形片斷進行拼接，從而獲得具有很高清晰度和自然度的語音。隨著人們對語音合成的自然度和音質(zhì)的要求越來越高，研究一種具有音質(zhì)好，對時長和聲調(diào)適應(yīng)性強，可以靈活調(diào)節(jié)韻律參數(shù)的語音合成方法被人們又一次的提上來研究日程，于是一種基于LMA （對數(shù)振幅近似）聲道模型的語音合成方法被提出來了，從技術(shù)上講這種新方法克服了PSOLA算法難以處理協(xié)同發(fā)音的缺陷和韻律參數(shù)調(diào)整能力較弱的缺點，而且這種新的語音合成方式具有比PSOLA技術(shù)更高的合成音質(zhì)[2]。解決了PSOLA算法難以解決的問題，綜上所述，計算機語音合成方式有很多種，科學(xué)家們從軟件和硬件的各方面對比進行了研究，發(fā)現(xiàn)人們可以按不同的使用情況、不同的使用目的選擇適合各自需求的的語音合成方法。

3、語音合成未來研究方向

目前語音合成的發(fā)展方向及研究熱點主要涉及以下幾方向，它們是：

1）不同語音風(fēng)格的語音技術(shù)合成。一種發(fā)展方向是合成具有獨特特征的語音，比如某個名人的語音。另一個發(fā)展方向是使語音合成系統(tǒng)不但能夠合成標準的朗讀風(fēng)格，而且能完成特定的風(fēng)格，這個發(fā)展方向?qū)⑹谷藱C對話更加智能，比如能產(chǎn)生評書、RAP、新聞、幽默、警告、以及普通非正式的說話等語音效果，區(qū)分度將更大。所以加強不同說話風(fēng)格的合成技術(shù)的研究顯得非常必要和關(guān)鍵。這是未來的研究發(fā)展方向之一。

2）情感語音技術(shù)合成。對于漢語語音，目前研究出了驚、怒、悲喜四種情感不同的變調(diào)規(guī)律，變調(diào)規(guī)律由科學(xué)家通過分析情感語句的語調(diào)得出。并對不同的情感類型確定與之相應(yīng)的元音的變異規(guī)律、基音頻率變化規(guī)律、能量變化規(guī)律、和無聲時延比例變化規(guī)則[3]。對于待合成的語音，要獲得較好的語音效果，應(yīng)先進行文本掃描輸入，再通過對相應(yīng)情感的語調(diào)變化規(guī)則的迭加，利用PSOLA技術(shù)進行情感語音合成，但是實現(xiàn)對人的認知的完全理解，還需要深入研究。

3）發(fā)音器官合成與可視語音。在語音合成系統(tǒng)中，說話者的臉可以顯著提高合成語音的可懂度、真實性、和終端用戶的可接受性。在聲學(xué)語音受到周邊噪聲影響時或者遇到具有聽力障礙的人時，可視語音可以提高語音的可懂度。目前在語音合成技術(shù)研究領(lǐng)域中，人們普遍認為如何解決語音合成中自然度的問題，無疑是可視語音合成技術(shù)的亟需解決的關(guān)鍵問題，研究人員對此充滿了信心。

4）文本語音閱讀。當(dāng)我們需要將在屏幕上顯示的文字、已打出的文字稿件或者打出的文字需要用語音讀出來的時候，此時就要對文本進行閱讀，，以釋放用眼疲勞，緩解壓力。當(dāng)前，文本語音閱讀技術(shù)主要應(yīng)用在文稿校對、計算機輔助教學(xué)等工作領(lǐng)域。

綜上所述，我們應(yīng)該加強對語音合成技術(shù)的深入研究，并把這種高新技術(shù)轉(zhuǎn)化為更加強大的、切實可用的生產(chǎn)力，創(chuàng)造出更大的社會經(jīng)濟效益，推動人機交互方式的革命的到來。如今，盡快開發(fā)出一個自然度高、可視化高、可懂度高漢語語音合成系統(tǒng)，已經(jīng)成為當(dāng)務(wù)之急。

參考文獻

[1]王仁華.中文語音交互技術(shù)標準化工作進展[J].信息技術(shù)標準化，2004（3）：4-5.

[2]黃南川，鄧振杰等.語音合成技術(shù)的研究與發(fā)展[J].華北航天工業(yè)學(xué)院學(xué)報，2002，9（12）

[3]柳春，于洪志等.語音合成技術(shù)研究[J].現(xiàn)代教育技術(shù)，2008（26）

科技與企業(yè)2014年1期

科技與企業(yè)的其它文章: 弧形閘門安裝技術(shù)探討; 變電站內(nèi)繼電保護裝置運行模式探討; 淺析帶式輸送機驅(qū)動方式; 熱改性木材的加工與應(yīng)用; 輸電線路故障點查找及判斷; 講講聯(lián)合收割機的保養(yǎng)和維修