【摘要】語音合成技術(shù)研究是近年來國內(nèi)外語音合成爭相研究的熱點,隨著計算機科學(xué)技術(shù)與網(wǎng)絡(luò)社會的發(fā)展,語音信息服務(wù)系統(tǒng)得到了廣泛的應(yīng)用,但是語音信息服務(wù)系統(tǒng)需要語音合成技術(shù)的支持,本文介紹了幾種較為常見的語音合成方法,并且分析探討了語音合成的發(fā)展及應(yīng)用方向。
【關(guān)鍵詞】計算機;語音合成技術(shù);發(fā)展方向
1、引言
語音合成技術(shù)使人們只要通過“聽”就可以聽懂、了解信息的內(nèi)容,該技術(shù)的應(yīng)用可以描述為將計算機產(chǎn)生的或者外部其他設(shè)備輸入的文字信息,按語音處理設(shè)定好的的規(guī)則轉(zhuǎn)換成語音信號輸出,這就會使文本文件內(nèi)容、手機短信內(nèi)容、WORD文件內(nèi)容等文字信息,能通過計算機流暢順利地讀出文字信息。這種將文字轉(zhuǎn)換成語音的高新技術(shù)稱之為文字語音轉(zhuǎn)換技術(shù),簡稱TTS (Text to Speech) 技術(shù)。
2、語音合成技術(shù)方法研究
錄音編輯法、波形合成法、參數(shù)合成法和規(guī)則合成法,這四種研究方法是研究語音合成技術(shù)的主要方法,當(dāng)然還有其他方法,我們這里不做介紹。
1)錄音編輯法。此方法是將人的語音通過某種媒介錄制下來,再適當(dāng)?shù)匕堰@些錄制下來的語音連接起來,編輯成所需文字,缺點是在計算機內(nèi)對此卻不作任何壓縮及其他技術(shù)處理,而是直接將其輸出,此法需要大容量存儲器。
2)波形合成法我們這里介紹兩種方法。一種方法是波形編輯合成,目前很多專用的語音合成器基本上是采用這種方法,其原理是選取語音庫采取的自然語言的合成單元波形后,對這些波形進行編輯拼接,最后輸出,簡單的講是把波形編輯技術(shù)用于語音合成。這種方法比較常見,比如我們生活中常見的有自動報時裝置、公交車語音報站等。
另一種是波形編碼合成,此方法是直接將要合成的語音發(fā)音波形進行存儲或進行波形編碼壓縮技術(shù)處理,然后進行存儲,當(dāng)合成重放時再譯碼組合輸出語音,這種方法類似于語音編碼中的波形編解碼方法,。但是此方法在技術(shù)上還需進一步升級,這種語音合成器只是語音存儲和重放的器件。
3)專家早期的研究主要是采用參數(shù)合成法,這種運行方式比較復(fù)雜,下面我們主要介紹發(fā)音器官參數(shù)合成、共振峰合成、LPC合成等幾種方法。
發(fā)音器官參數(shù)合成應(yīng)計算出語音的聲波,如何得到語音的聲波,應(yīng)首先通過定義唇、舌、聲帶的相關(guān)參數(shù),再由這些參數(shù)估計聲道截面積函數(shù),進而獲取語音聲波。這種合成方法具有我們希望得到的優(yōu)點,即它直接模擬人的發(fā)音過程,可以產(chǎn)生接近人發(fā)聲的語音,但是,目前要準確測定出這些參數(shù)還缺少行之有效的手段,因為每個人的發(fā)音生理過程比較復(fù)雜,因此,大家普遍認為發(fā)音器官參數(shù)合成技術(shù)研究還不夠成熟,走出實驗室研究還需一段時間。共振峰合成把人的聲道看作成諧振腔,腔體的諧振特性決定所發(fā)出語音信號的頻譜特性,它是對聲源—聲道模型的模擬,我們稱之為共振峰特性。我們可以通過修改振峰合成參數(shù)獲得不同特性的語音。也能以較低的代價產(chǎn)生具有高可懂度的合成語音,但是前提是振峰合成的參數(shù)設(shè)置合理。后來又產(chǎn)生了基于LPC、lSP等聲學(xué)參數(shù)的合成系統(tǒng)。在眾多合成系統(tǒng)中LPC是一線性預(yù)測編碼法。它采用10~25ms為一幀對語音波形進行采樣,各幀的參數(shù)是時變的,在一幀內(nèi)則為一線性時不變系統(tǒng)。在存儲器中存入各幀的參數(shù),參數(shù)獲取方法為在幀中抽取原始語音的音調(diào)周期、清音、濁音若干個基于最小二乘的預(yù)測系數(shù),在合成時以這些參數(shù)綜合語音。LPC法系用3~7 位對所獲取參數(shù)進行編碼處理,在數(shù)值間可以自動插補運算,因此次方法合成的語音音質(zhì)柔、動聽[1]。
4)規(guī)則合成法。20世紀80年代末至今,基音同步疊加(PSOLA)方法問世,大大提高了基于時域波形拼接方法合成的語音的音色和自然度,該基于PSOLA方法的合成器具有結(jié)構(gòu)簡單、易于實時實現(xiàn)等優(yōu)點,此方法的提出標志著語言合成技術(shù)研究取得了實質(zhì)性的進展,引起了科學(xué)界的轟動,具有寬廣的商用價值。
PSOLA技術(shù)的原理特點是,要想使拼接單元的韻律特征符合上下文的要求,同時又能使合成波形保持了原發(fā)音的主要音段特征,需要根據(jù)上下文的要求,用PSOLA算法調(diào)整拼接單元的韻律特征,如基頻、音長、音強等,最后再對語音波形片斷進行拼接,從而獲得具有很高清晰度和自然度的語音。隨著人們對語音合成的自然度和音質(zhì)的要求越來越高,研究一種具有音質(zhì)好,對時長和聲調(diào)適應(yīng)性強,可以靈活調(diào)節(jié)韻律參數(shù)的語音合成方法被人們又一次的提上來研究日程,于是一種基于LMA (對數(shù)振幅近似)聲道模型的語音合成方法被提出來了,從技術(shù)上講這種新方法克服了PSOLA算法難以處理協(xié)同發(fā)音的缺陷和韻律參數(shù)調(diào)整能力較弱的缺點,而且這種新的語音合成方式具有比PSOLA技術(shù)更高的合成音質(zhì)[2]。解決了PSOLA算法難以解決的問題,綜上所述,計算機語音合成方式有很多種,科學(xué)家們從軟件和硬件的各方面對比進行了研究, 發(fā)現(xiàn)人們可以按不同的使用情況、不同的使用目的選擇適合各自需求的的語音合成方法。
3、語音合成未來研究方向
目前語音合成的發(fā)展方向及研究熱點主要涉及以下幾方向,它們是:
1)不同語音風(fēng)格的語音技術(shù)合成。一種發(fā)展方向是合成具有獨特特征的語音,比如某個名人的語音。另一個發(fā)展方向是使語音合成系統(tǒng)不但能夠合成標準的朗讀風(fēng)格,而且能完成特定的風(fēng)格,這個發(fā)展方向?qū)⑹谷藱C對話更加智能,比如能產(chǎn)生評書、RAP、新聞、幽默、警告、以及普通非正式的說話等語音效果,區(qū)分度將更大。所以加強不同說話風(fēng)格的合成技術(shù)的研究顯得非常必要和關(guān)鍵。這是未來的研究發(fā)展方向之一。
2)情感語音技術(shù)合成。對于漢語語音,目前研究出了驚、怒、悲喜四種情感不同的變調(diào)規(guī)律,變調(diào)規(guī)律由科學(xué)家通過分析情感語句的語調(diào)得出。并對不同的情感類型確定與之相應(yīng)的元音的變異規(guī)律、基音頻率變化規(guī)律、能量變化規(guī)律、和無聲時延比例變化規(guī)則[3]。對于待合成的語音, 要獲得較好的語音效果,應(yīng)先進行文本掃描輸入,再通過對相應(yīng)情感的語調(diào)變化規(guī)則的迭加,利用PSOLA技術(shù)進行情感語音合成,但是實現(xiàn)對人的認知的完全理解, 還需要深入研究。
3)發(fā)音器官合成與可視語音。在語音合成系統(tǒng)中,說話者的臉可以顯著提高合成語音的可懂度、真實性、和終端用戶的可接受性。在聲學(xué)語音受到周邊噪聲影響時或者遇到具有聽力障礙的人時,可視語音可以提高語音的可懂度。目前在語音合成技術(shù)研究領(lǐng)域中,人們普遍認為如何解決語音合成中自然度的問題,無疑是可視語音合成技術(shù)的亟需解決的關(guān)鍵問題,研究人員對此充滿了信心。
4)文本語音閱讀。當(dāng)我們需要將在屏幕上顯示的文字、已打出的文字稿件或者打出的文字需要用語音讀出來的時候,此時就要對文本進行閱讀,,以釋放用眼疲勞,緩解壓力。當(dāng)前,文本語音閱讀技術(shù)主要應(yīng)用在文稿校對、計算機輔助教學(xué)等工作領(lǐng)域。
綜上所述,我們應(yīng)該加強對語音合成技術(shù)的深入研究,并把這種高新技術(shù)轉(zhuǎn)化為更加強大的、切實可用的生產(chǎn)力,創(chuàng)造出更大的社會經(jīng)濟效益,推動人機交互方式的革命的到來。如今,盡快開發(fā)出一個自然度高、可視化高、可懂度高漢語語音合成系統(tǒng),已經(jīng)成為當(dāng)務(wù)之急。
參考文獻
[1]王仁華.中文語音交互技術(shù)標準化工作進展[J].信息技術(shù)標準化,2004(3):4-5.
[2]黃南川,鄧振杰等.語音合成技術(shù)的研究與發(fā)展[J].華北航天工業(yè)學(xué)院學(xué)報,2002,9(12)
[3]柳春,于洪志等.語音合成技術(shù)研究[J].現(xiàn)代教育技術(shù),2008(26)