亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

話語自信構(gòu)建下的語音翻譯合成技術(shù)

2023-03-26 04:45:51藍(lán)楊

秀江南 2023年9期

關(guān)鍵詞：模型

藍(lán)楊

文化是一個國家、一個民族的靈魂。文化興，國運興；文化強(qiáng)，民族強(qiáng)。黨的十八大以來，習(xí)近平總書記多次闡述中華文化與文化自信的重要性。沒有高度的文化自信，沒有文化的繁榮興盛，就沒有中華民族的偉大復(fù)興。

增強(qiáng)國際話語權(quán)，傳播好中國聲音，必須堅定我們的話語自信。習(xí)近平總書記指出：“我們有本事做好中國的事情，還沒有本事講好中國的故事？我們應(yīng)該有這個信心！”話語自信是對中國發(fā)展理論、道路、制度和文化的充分肯定，是對中國話語體系科學(xué)內(nèi)容及其表達(dá)能力的堅定信念。說到底，話語自信是中國自信在中國話語體系上的表現(xiàn)。中國自信是話語自信的基礎(chǔ)和保障，話語自信是中國自信的反映和升華。在中華民族的文明進(jìn)程中，語言文字更是我們獨特的精神標(biāo)識和文化印記?！吨袊鴿h字聽寫大會》《中國成語大會》《中國詩詞大會》等節(jié)目的播出和《寫意中國—探尋漢字起源》等活動的舉辦引起了人們對傳統(tǒng)文化的關(guān)注，掀起了“漢字熱”和“詩詞熱”，讓全社會看到了語言文字的魅力，堅定了中華文化自信。

如何開發(fā)與利用計算機(jī)和語言翻譯系統(tǒng)，更好地傳播中國聲音、傳達(dá)中國意思，使國際社會更好地理解和認(rèn)同中國文化，為構(gòu)建人類命運共同體貢獻(xiàn)應(yīng)有的力量，成為擺在我們面前的一個現(xiàn)實問題。

語音合成系統(tǒng)基本架構(gòu)

一般語音合成系統(tǒng)包含語言、音韻、合成單元三個資料庫以及語言分析、音韻預(yù)估、合成單元選取及合成器四個模塊。首先，輸入文章被送入語言處理模塊，在語音資料庫的幫助下進(jìn)行斷句、斷詞、構(gòu)詞甚至語法及語意分析等處理，得到正確的讀音。其次，語言處理結(jié)果被送入音韻預(yù)估模塊，?用上下文及讀音等信息，加上音韻資料庫中的韻律規(guī)則或訓(xùn)練獲得的參數(shù)，計算可能的音韻值，如音長、停頓、音量及基頻值等。再次，合成單元選取模塊根據(jù)所需音及預(yù)估的音韻值從合成單元資料庫中選取最合適的合成單元。最后，合成器依據(jù)音韻預(yù)估模塊預(yù)估的音韻值調(diào)整合成單元選取模塊選擇的合成單元，加以適當(dāng)?shù)倪B接后輸出合成語音。

三個資料庫

（1）語音資料庫，用來儲存語言處理分析所需資料，包括字音表、詞音表、詞類、詞頻等。

（2）音韻資料庫，用來儲存預(yù)估音長、音強(qiáng)、基周、停頓時間等音韻資料所需規(guī)則或模型參數(shù)。這些模型參數(shù)在訓(xùn)練階段求得。

（3）合成單元資料庫，用來儲存語音基本單元，可能是音素、雙音素、三音素、半音節(jié)、單音節(jié)、詞或者更長的單元。單元的長度可能固定，也可能不固定，甚至同一個單元有幾個不同韻律的合成單元版本供選擇。一般所選語音基本單元越大，合成的接點越少，合成語音更容易保持清晰自然，但所需單元更多，儲存空間也更大。目前，許多中文系統(tǒng)采用單音節(jié)的字作為合成單元，主要原因是中文為一字一音的語言，但是因為缺乏連音的考慮，無法合成很自然的聲音。

四個模塊

第一，語言處理模塊。其主要功能是在語音資料庫的幫助下分析輸入的文章，適當(dāng)斷句、斷詞、構(gòu)詞甚至分析語法結(jié)構(gòu)及語意，找出文章中每個字的正確讀音，并且提供詞邊界、換氣邊界等相關(guān)信息給音韻預(yù)估模塊使用。首先，開展智能前處理，將輸入文句中的符號或數(shù)字先轉(zhuǎn)成恰當(dāng)?shù)奈淖帧?如“有1/3的人無家可歸”中的“1/3”代表“三分之一”，而不是“一月三日”；“1234567”可能讀成電話號碼“一二三四五六七”或者金額“一百二十三萬四千五百六十七”。如果把“1/3的人無家可歸”讀成“有一月三日的人無家可歸”或把“電話號碼為1234567”讀成“電話號碼為一百二十三萬四千五百六十七”，一定會讓聽者一頭霧水。另外，中文的詞與詞之間沒有分隔符，不論是分析語法結(jié)構(gòu)還是朗讀都要先找到詞。先將字串分成數(shù)個包含可能詞匯的大詞段，然后根據(jù)最長匹配法則在每個詞段里選取最有可能的詞匯組合。中文詞的變化很多，如果把所有可能的詞都列入辭典中，不僅會導(dǎo)致辭典所占記憶容量過于龐大，還會減慢在辭典中搜尋詞群的速度，影響整個語音合成系統(tǒng)的效率。為了縮短查詢辭典的時間，屬于非規(guī)律性字串組合的詞及出現(xiàn)頻率較高的詞應(yīng)放進(jìn)辭典中，有規(guī)律的部分則在構(gòu)詞處理中組合成詞。中文的三種主要構(gòu)詞方式是附加、重疊及復(fù)合。決定詞群后，可由詞庫中的標(biāo)音找到正確讀音，不在詞庫中的可以用字轉(zhuǎn)音表處理，但仍可能有多音字的問題。中文大約有10%的字有兩個以上發(fā)音，但大部分可由辭典及詞頻信息（選用最常用的發(fā)音）解決，錯誤的概率在2%～3%。這個數(shù)字也許并不顯眼，但只要計算機(jī)讀錯音，大部分人都會關(guān)注這個錯誤。因此，一個語音合成系統(tǒng)要想被大眾廣泛接受，必須將錯音比例降到最低。

第二，音韻預(yù)估模塊。語音合成系統(tǒng)必須發(fā)音自然，抑揚頓挫。音韻預(yù)估模塊的目的是從讀音、語法結(jié)構(gòu)、語意等方面找出適當(dāng)?shù)姆椒A(yù)估合成語句的抑揚頓挫，包括對聲調(diào)、音長、音量及停頓等參數(shù)的預(yù)估。早期音韻處理多采用語言學(xué)家經(jīng)過長期收集觀察總結(jié)出的規(guī)則，但這種方法費時且難以規(guī)避許多因素的影響；近期偏向統(tǒng)計方法（即資料庫訓(xùn)練法）。一般采用音韻模型代表音韻受各因素影響的情形，先以大量語料訓(xùn)練此模型，使其具有韻律特性，然后將其應(yīng)用于語音合成系統(tǒng)預(yù)估音韻值。統(tǒng)計方法包括回歸模型、類神經(jīng)網(wǎng)絡(luò)、期望最大化等，成效都不錯。統(tǒng)計模型可以幫助我們定量決定每個因素影響音韻值的程度。對于聲調(diào)、音長、音量及停頓而言，不同的因素有不同程度的影響?？赡苡绊懸繇嵉囊蛩匕ǎ海?）目前及相鄰的聲調(diào)、目前及相鄰的音素、子音、元音、音節(jié)等；（2）詞類（如名詞詞組、動詞詞組）；（3）詞組（換氣群及句中的位置等）。

第三，合成單元選取模塊。該模塊是從資料庫中選擇合適的合成單元連接產(chǎn)生需要的語句，在語音合成系統(tǒng)中經(jīng)常用來提高聲音質(zhì)量。單元選取技術(shù)主要是從語言學(xué)特性或音韻特性中找到一些選擇的標(biāo)準(zhǔn)，以選出最符合目標(biāo)值的最恰當(dāng)單元。如果單元語料庫夠大，含有足夠多不同上下文及韻律變化的組合，就不需要調(diào)整單元或只要小幅度調(diào)整，減小了調(diào)整單元導(dǎo)致的聲音質(zhì)量下降幅度。因此，這種方式合成的語音通常比單一單元合成的語音更清晰自然。合成單元選取的方法很多，例如樹狀結(jié)構(gòu)、隱馬爾可夫模型。有些研究通過定義成本的方式選取，?如使用結(jié)構(gòu)句法成本。

第四，合成器。人類的發(fā)聲器官就像樂器一樣，可以發(fā)出很多種聲音，但也有許多先天的限制?？諝庥煞尾克统?，如果是濁音，聲帶會震動，氣流在發(fā)聲腔道內(nèi)產(chǎn)生共振現(xiàn)象，然后從嘴部釋放出來，產(chǎn)生聲波，傳到我們的耳朵里。如果是清音，激發(fā)源為亂流的雜音形態(tài)。以不同的發(fā)音位置及方式可發(fā)出不同的聲音。但若以簡單的線性發(fā)聲管模型模仿人類的發(fā)音，仍有不足。因此，許多分析合成模型或合成器被提出。合成方法除了用一組不同口徑相連的發(fā)聲管模擬聲道外，還有貝爾實驗室的荷爾·杜德利在1939年提出的聲碼器、共振峰合成器、時域上的基周同步疊加法及弦波模型等。以單脈沖/噪音激發(fā)的線性預(yù)估編碼為例，這種基于口腔模型的合成器可以隨意調(diào)整基周周期，但合成語音質(zhì)量受限于單脈沖激發(fā)的聲帶模型，語音較粗糙。質(zhì)量好一點的是以多脈沖激發(fā)或碼本激發(fā)的方式。之后受到歡迎的是波形合成器，可在時域直接調(diào)整語音。一般若是調(diào)整音韻的范圍不大，原始語料的音質(zhì)不會被破壞。因此，合成語音的質(zhì)量比線性預(yù)估編碼合成器好?；芡蒋B加法是一套在時域直接修改語音的算法，比較簡單又能得到不錯的音質(zhì)，因此受到歡迎。

其他語音合成方向

以大量語料庫為基礎(chǔ)的傳統(tǒng)語音合成的優(yōu)點有資料庫所需內(nèi)存較小、系統(tǒng)可移植性較高，缺點是合成語音自然度較難提升，因為要將有限的語音單元合成自然語音，語音單元必須經(jīng)過轉(zhuǎn)換調(diào)整，而經(jīng)過大幅調(diào)整的單元不易保持音質(zhì)，且選擇太少，難以達(dá)到自然的要求。于是，更龐大的音韻資料庫被用來訓(xùn)練音韻參數(shù)模型，更多語音合成單元得到應(yīng)用。計算機(jī)硬件的運算速度越來越快，儲存容量越來越大，價格卻越來越低，設(shè)計一個可容納自然語言變化的龐大資料庫成為可能，以大量語料庫為基礎(chǔ)的語音合成系統(tǒng)應(yīng)運而生。由于語音單元包括許多變化，在單元相接時不用對合成單元做太大改動就能產(chǎn)生接近自然原音的合成語音。

情緒語音合成。語音一向是最方便的人機(jī)接口。計算機(jī)語音在過去幾年里進(jìn)步不少，變得更加易懂、易聽。但跟真人相比，聲音里還是缺少一些元素，那就是情緒。人類情感的表達(dá)方式很多，透過語音的情緒表達(dá)是溝通的重要部分。如果能在計算機(jī)合成聲音中加入情緒，就能讓合成語音更真實，也能表達(dá)得更好。目前，已經(jīng)有相當(dāng)多的學(xué)者及機(jī)構(gòu)投入情緒語音合成的研究。

歌聲合成。唱歌和說話都是人類溝通及表達(dá)的自然方式。歌聲合成的應(yīng)用包括作曲、娛樂、教學(xué)等領(lǐng)域。歌聲合成雖與語音合成一樣是處理人類發(fā)聲的問題，卻有著和語音合成不一樣的困難。在歌聲合成中，作曲者已經(jīng)在譜中提供了韻律這方面的信息，但若只依照譜上的標(biāo)準(zhǔn)韻律值合成，無法產(chǎn)生自然的歌聲。我們在唱一首歌時，會試著表達(dá)歌詞，而職業(yè)歌者賦予了歌聲許多藝術(shù)成分，使歌聲的變化比說話更動態(tài)化、更復(fù)雜，且變化的范圍更大。

結(jié) 語

雖然目前的合成語音和真人聲音之間還有距離，但讓計算機(jī)說話不是實現(xiàn)不了的夢想。其實在許多播報系統(tǒng)中，語音合成都已進(jìn)入實用階段。這項科技會用在家電、影片、電玩、動畫、機(jī)器人等我們能想到或想不到的領(lǐng)域，發(fā)出栩栩如生的聲音。

（作者單位：浙江警官職業(yè)學(xué)院）