藍(lán)楊
文化是一個國家、一個民族的靈魂。文化興,國運興;文化強(qiáng),民族強(qiáng)。黨的十八大以來,習(xí)近平總書記多次闡述中華文化與文化自信的重要性。沒有高度的文化自信,沒有文化的繁榮興盛,就沒有中華民族的偉大復(fù)興。
增強(qiáng)國際話語權(quán),傳播好中國聲音,必須堅定我們的話語自信。習(xí)近平總書記指出:“我們有本事做好中國的事情,還沒有本事講好中國的故事?我們應(yīng)該有這個信心!”話語自信是對中國發(fā)展理論、道路、制度和文化的充分肯定,是對中國話語體系科學(xué)內(nèi)容及其表達(dá)能力的堅定信念。說到底,話語自信是中國自信在中國話語體系上的表現(xiàn)。中國自信是話語自信的基礎(chǔ)和保障,話語自信是中國自信的反映和升華。在中華民族的文明進(jìn)程中,語言文字更是我們獨特的精神標(biāo)識和文化印記?!吨袊鴿h字聽寫大會》《中國成語大會》《中國詩詞大會》等節(jié)目的播出和《寫意中國—探尋漢字起源》等活動的舉辦引起了人們對傳統(tǒng)文化的關(guān)注,掀起了“漢字熱”和“詩詞熱”,讓全社會看到了語言文字的魅力,堅定了中華文化自信。
如何開發(fā)與利用計算機(jī)和語言翻譯系統(tǒng),更好地傳播中國聲音、傳達(dá)中國意思,使國際社會更好地理解和認(rèn)同中國文化,為構(gòu)建人類命運共同體貢獻(xiàn)應(yīng)有的力量,成為擺在我們面前的一個現(xiàn)實問題。
語音合成系統(tǒng)基本架構(gòu)
一般語音合成系統(tǒng)包含語言、音韻、合成單元三個資料庫以及語言分析、音韻預(yù)估、合成單元選取及合成器四個模塊。首先,輸入文章被送入語言處理模塊,在語音資料庫的幫助下進(jìn)行斷句、斷詞、構(gòu)詞甚至語法及語意分析等處理,得到正確的讀音。其次,語言處理結(jié)果被送入音韻預(yù)估模塊,?用上下文及讀音等信息,加上音韻資料庫中的韻律規(guī)則或訓(xùn)練獲得的參數(shù),計算可能的音韻值,如音長、停頓、音量及基頻值等。再次,合成單元選取模塊根據(jù)所需音及預(yù)估的音韻值從合成單元資料庫中選取最合適的合成單元。最后,合成器依據(jù)音韻預(yù)估模塊預(yù)估的音韻值調(diào)整合成單元選取模塊選擇的合成單元,加以適當(dāng)?shù)倪B接后輸出合成語音。
三個資料庫
(1)語音資料庫,用來儲存語言處理分析所需資料,包括字音表、詞音表、詞類、詞頻等。
(2)音韻資料庫,用來儲存預(yù)估音長、音強(qiáng)、基周、停頓時間等音韻資料所需規(guī)則或模型參數(shù)。這些模型參數(shù)在訓(xùn)練階段求得。
(3)合成單元資料庫,用來儲存語音基本單元,可能是音素、雙音素、三音素、半音節(jié)、單音節(jié)、詞或者更長的單元。單元的長度可能固定,也可能不固定,甚至同一個單元有幾個不同韻律的合成單元版本供選擇。一般所選語音基本單元越大,合成的接點越少,合成語音更容易保持清晰自然,但所需單元更多,儲存空間也更大。目前,許多中文系統(tǒng)采用單音節(jié)的字作為合成單元,主要原因是中文為一字一音的語言,但是因為缺乏連音的考慮,無法合成很自然的聲音。
四個模塊
第一,語言處理模塊。其主要功能是在語音資料庫的幫助下分析輸入的文章,適當(dāng)斷句、斷詞、構(gòu)詞甚至分析語法結(jié)構(gòu)及語意,找出文章中每個字的正確讀音,并且提供詞邊界、換氣邊界等相關(guān)信息給音韻預(yù)估模塊使用。首先,開展智能前處理,將輸入文句中的符號或數(shù)字先轉(zhuǎn)成恰當(dāng)?shù)奈淖帧?如“有1/3的人無家可歸”中的“1/3”代表“三分之一”,而不是“一月三日”;“1234567”可能讀成電話號碼“一二三四五六七”或者金額“一百二十三萬四千五百六十七”。如果把“1/3的人無家可歸”讀成“有一月三日的人無家可歸”或把“電話號碼為1234567”讀成“電話號碼為一百二十三萬四千五百六十七”,一定會讓聽者一頭霧水。另外,中文的詞與詞之間沒有分隔符,不論是分析語法結(jié)構(gòu)還是朗讀都要先找到詞。先將字串分成數(shù)個包含可能詞匯的大詞段,然后根據(jù)最長匹配法則在每個詞段里選取最有可能的詞匯組合。中文詞的變化很多,如果把所有可能的詞都列入辭典中,不僅會導(dǎo)致辭典所占記憶容量過于龐大,還會減慢在辭典中搜尋詞群的速度,影響整個語音合成系統(tǒng)的效率。為了縮短查詢辭典的時間,屬于非規(guī)律性字串組合的詞及出現(xiàn)頻率較高的詞應(yīng)放進(jìn)辭典中,有規(guī)律的部分則在構(gòu)詞處理中組合成詞。中文的三種主要構(gòu)詞方式是附加、重疊及復(fù)合。決定詞群后,可由詞庫中的標(biāo)音找到正確讀音,不在詞庫中的可以用字轉(zhuǎn)音表處理,但仍可能有多音字的問題。中文大約有10%的字有兩個以上發(fā)音,但大部分可由辭典及詞頻信息(選用最常用的發(fā)音)解決,錯誤的概率在2%~3%。這個數(shù)字也許并不顯眼,但只要計算機(jī)讀錯音,大部分人都會關(guān)注這個錯誤。因此,一個語音合成系統(tǒng)要想被大眾廣泛接受,必須將錯音比例降到最低。
第二,音韻預(yù)估模塊。語音合成系統(tǒng)必須發(fā)音自然,抑揚頓挫。音韻預(yù)估模塊的目的是從讀音、語法結(jié)構(gòu)、語意等方面找出適當(dāng)?shù)姆椒A(yù)估合成語句的抑揚頓挫,包括對聲調(diào)、音長、音量及停頓等參數(shù)的預(yù)估。早期音韻處理多采用語言學(xué)家經(jīng)過長期收集觀察總結(jié)出的規(guī)則,但這種方法費時且難以規(guī)避許多因素的影響;近期偏向統(tǒng)計方法(即資料庫訓(xùn)練法)。一般采用音韻模型代表音韻受各因素影響的情形,先以大量語料訓(xùn)練此模型,使其具有韻律特性,然后將其應(yīng)用于語音合成系統(tǒng)預(yù)估音韻值。統(tǒng)計方法包括回歸模型、類神經(jīng)網(wǎng)絡(luò)、期望最大化等,成效都不錯。統(tǒng)計模型可以幫助我們定量決定每個因素影響音韻值的程度。對于聲調(diào)、音長、音量及停頓而言,不同的因素有不同程度的影響??赡苡绊懸繇嵉囊蛩匕ǎ海?)目前及相鄰的聲調(diào)、目前及相鄰的音素、子音、元音、音節(jié)等;(2)詞類(如名詞詞組、動詞詞組);(3)詞組(換氣群及句中的位置等)。
第三,合成單元選取模塊。該模塊是從資料庫中選擇合適的合成單元連接產(chǎn)生需要的語句,在語音合成系統(tǒng)中經(jīng)常用來提高聲音質(zhì)量。單元選取技術(shù)主要是從語言學(xué)特性或音韻特性中找到一些選擇的標(biāo)準(zhǔn),以選出最符合目標(biāo)值的最恰當(dāng)單元。如果單元語料庫夠大,含有足夠多不同上下文及韻律變化的組合,就不需要調(diào)整單元或只要小幅度調(diào)整,減小了調(diào)整單元導(dǎo)致的聲音質(zhì)量下降幅度。因此,這種方式合成的語音通常比單一單元合成的語音更清晰自然。合成單元選取的方法很多,例如樹狀結(jié)構(gòu)、隱馬爾可夫模型。有些研究通過定義成本的方式選取,?如使用結(jié)構(gòu)句法成本。
第四,合成器。人類的發(fā)聲器官就像樂器一樣,可以發(fā)出很多種聲音,但也有許多先天的限制??諝庥煞尾克统?,如果是濁音,聲帶會震動,氣流在發(fā)聲腔道內(nèi)產(chǎn)生共振現(xiàn)象,然后從嘴部釋放出來,產(chǎn)生聲波,傳到我們的耳朵里。如果是清音,激發(fā)源為亂流的雜音形態(tài)。以不同的發(fā)音位置及方式可發(fā)出不同的聲音。但若以簡單的線性發(fā)聲管模型模仿人類的發(fā)音,仍有不足。因此,許多分析合成模型或合成器被提出。合成方法除了用一組不同口徑相連的發(fā)聲管模擬聲道外,還有貝爾實驗室的荷爾·杜德利在1939年提出的聲碼器、共振峰合成器、時域上的基周同步疊加法及弦波模型等。以單脈沖/噪音激發(fā)的線性預(yù)估編碼為例,這種基于口腔模型的合成器可以隨意調(diào)整基周周期,但合成語音質(zhì)量受限于單脈沖激發(fā)的聲帶模型,語音較粗糙。質(zhì)量好一點的是以多脈沖激發(fā)或碼本激發(fā)的方式。之后受到歡迎的是波形合成器,可在時域直接調(diào)整語音。一般若是調(diào)整音韻的范圍不大,原始語料的音質(zhì)不會被破壞。因此,合成語音的質(zhì)量比線性預(yù)估編碼合成器好?;芡蒋B加法是一套在時域直接修改語音的算法,比較簡單又能得到不錯的音質(zhì),因此受到歡迎。
其他語音合成方向
以大量語料庫為基礎(chǔ)的傳統(tǒng)語音合成的優(yōu)點有資料庫所需內(nèi)存較小、系統(tǒng)可移植性較高,缺點是合成語音自然度較難提升,因為要將有限的語音單元合成自然語音,語音單元必須經(jīng)過轉(zhuǎn)換調(diào)整,而經(jīng)過大幅調(diào)整的單元不易保持音質(zhì),且選擇太少,難以達(dá)到自然的要求。于是,更龐大的音韻資料庫被用來訓(xùn)練音韻參數(shù)模型,更多語音合成單元得到應(yīng)用。計算機(jī)硬件的運算速度越來越快,儲存容量越來越大,價格卻越來越低,設(shè)計一個可容納自然語言變化的龐大資料庫成為可能,以大量語料庫為基礎(chǔ)的語音合成系統(tǒng)應(yīng)運而生。由于語音單元包括許多變化,在單元相接時不用對合成單元做太大改動就能產(chǎn)生接近自然原音的合成語音。
情緒語音合成。語音一向是最方便的人機(jī)接口。計算機(jī)語音在過去幾年里進(jìn)步不少,變得更加易懂、易聽。但跟真人相比,聲音里還是缺少一些元素,那就是情緒。人類情感的表達(dá)方式很多,透過語音的情緒表達(dá)是溝通的重要部分。如果能在計算機(jī)合成聲音中加入情緒,就能讓合成語音更真實,也能表達(dá)得更好。目前,已經(jīng)有相當(dāng)多的學(xué)者及機(jī)構(gòu)投入情緒語音合成的研究。
歌聲合成。唱歌和說話都是人類溝通及表達(dá)的自然方式。歌聲合成的應(yīng)用包括作曲、娛樂、教學(xué)等領(lǐng)域。歌聲合成雖與語音合成一樣是處理人類發(fā)聲的問題,卻有著和語音合成不一樣的困難。在歌聲合成中,作曲者已經(jīng)在譜中提供了韻律這方面的信息,但若只依照譜上的標(biāo)準(zhǔn)韻律值合成,無法產(chǎn)生自然的歌聲。我們在唱一首歌時,會試著表達(dá)歌詞,而職業(yè)歌者賦予了歌聲許多藝術(shù)成分,使歌聲的變化比說話更動態(tài)化、更復(fù)雜,且變化的范圍更大。
結(jié) 語
雖然目前的合成語音和真人聲音之間還有距離,但讓計算機(jī)說話不是實現(xiàn)不了的夢想。其實在許多播報系統(tǒng)中,語音合成都已進(jìn)入實用階段。這項科技會用在家電、影片、電玩、動畫、機(jī)器人等我們能想到或想不到的領(lǐng)域,發(fā)出栩栩如生的聲音。
(作者單位:浙江警官職業(yè)學(xué)院)