趙皎谷 馬延周 周默草
摘要:西班牙語發(fā)音詞典是西班牙語語音識別系統(tǒng)及語音合成系統(tǒng)的重要基礎(chǔ)資源,由于目前公開來源的西班牙語發(fā)音詞典資源稀缺,構(gòu)建西班牙語發(fā)音詞典對于西班牙語語音處理工作具有重要意義。該文通過分析西班牙語的發(fā)音特點,制訂西班牙語發(fā)音音素集,廣泛收集各個領(lǐng)域的西班牙語詞匯,利用音素集人工標注并核對,構(gòu)建了一個涵蓋9萬多詞條的西班牙語發(fā)音詞典,對于西班牙語語音智能處理研究領(lǐng)域能夠起到一個基礎(chǔ)支撐作用。
關(guān)鍵詞:西班牙語;發(fā)音詞典;標音方法;語音識別
中圖分類號: TP182 ? ? ?文獻標識碼:A
文章編號:1009-3044(2020)34-0249-05
Abstract: The Spanish pronunciation dictionary is an important basic resource for the Spanish speech recognition system and the speech synthesis system. Due to the scarcity of Spanish pronunciation dictionary resources that are publicly available, the construction of a Spanish pronunciation dictionary is of great significance for Spanish speech processing. The article analyzes the pronunciation characteristics of Spanish, develops a Spanish pronunciation phoneme set, collects Spanish vocabulary in various fields, uses the phoneme set to manually mark and check, and builds a Spanish pronunciation dictionary covering more than 90,000 entries that can play a basic supporting role in the research field of Spanish speech intelligent processing.
Keywords: Spanish; pronunciation dictionary; labeling method; speech recognition
1 引言
發(fā)音詞典是語音識別、語音合成等技術(shù)實現(xiàn)的基礎(chǔ),是自然語言處理中的基礎(chǔ)資源建設(shè)工作,在整個語音識別系統(tǒng)以及語音合成系統(tǒng)中起到關(guān)鍵作用。西班牙語屬于屈折型語言,依靠詞形變化體現(xiàn)不同的人稱、時態(tài)、語態(tài)、單復數(shù)以及詞性等等。西班牙語中存在大量的變位現(xiàn)象,使得語音智能處理過程中的待識別詞匯數(shù)量劇增,因此西班牙語發(fā)音詞典的準確性以及規(guī)模大小都尤為重要。
本文通過研究西班牙語的發(fā)音規(guī)律,制訂合理的西班牙語音素集,利用音素集對大量的西班牙語詞匯進行標注,構(gòu)建一個西班牙語發(fā)音詞典。發(fā)音詞典的詞匯將涵蓋各個領(lǐng)域,即制作一個通用型西班牙語發(fā)音詞典。在此基礎(chǔ)之上,后期進行具體的語音處理工作時,就可以根據(jù)需要添加新的詞匯以及外來詞;如果需要專業(yè)領(lǐng)域性很強的發(fā)音詞典,則可以依據(jù)原本的通用型發(fā)音詞典通過建模自動預測特定領(lǐng)域的詞匯,幫助實現(xiàn)專業(yè)領(lǐng)域發(fā)音詞典的快速構(gòu)建。
2 發(fā)音詞典在西班牙語語音識別系統(tǒng)中的作用與地位
語音識別以語音為研究對象,通過語音信號處理和模式識別讓計算機自動識別和理解人類所講的語言。簡單來說,就是機器自動將一段語音信號轉(zhuǎn)換成相對應(yīng)的文本信息。語音識別的流程如圖1所示。
語音識別流程可以分為前端處理和后端處理兩大部分,前端處理部分包括語音的輸入、預處理以及特征的提取,后端處理部分是一個數(shù)據(jù)庫的搜索過程, 分為訓練和識別。訓練是對所建的模型進行評估、匹配、優(yōu)化, 獲得最終的模型參數(shù), 識別則是在數(shù)據(jù)庫中進行搜索, 獲取前端數(shù)值后, 在聲學模型、語言模型和發(fā)音詞典的共同作用下,完成語音識別任務(wù)。[1]可見,發(fā)音詞典在語音識別系統(tǒng)中是不可或缺且十分重要的,是語音識別技術(shù)的重要基礎(chǔ)資源,發(fā)音詞典的準確性和規(guī)模大小會影響語音識別結(jié)果的優(yōu)劣。
制作發(fā)音詞典,需要首先制訂音素集。音素集是發(fā)音詞典的基礎(chǔ),音素集的合理性和準確性直接影響發(fā)音詞典的準確性,制訂音素集時要充分考慮制作語種的獨特性,根據(jù)其語音規(guī)律分析制訂適合這一語種的特定音素集。收集詞匯時可以直接選擇現(xiàn)有詞典中的詞匯,使得收集的詞條更具有全面性。如果需要某一領(lǐng)域的專業(yè)詞匯,可以通過網(wǎng)絡(luò)爬取相關(guān)資料,再通過篩查和預處理獲得所需詞匯。最后利用已制訂的音素集對收集到的詞匯進行標注即可得到最終的發(fā)音詞典。標注方式可以是人工手動標注、規(guī)劃生成或者機器學習自動生成,具體過程如圖 2所示。
3 西班牙語的語音特征分析
制作西班牙語音素集,需要先掌握西班牙語的發(fā)音規(guī)則,再根據(jù)實際需要歸納適應(yīng)發(fā)音詞典音素集的新規(guī)則,從而制訂音素集。本章節(jié)將對西班牙語原有的發(fā)音規(guī)則和為制作發(fā)音詞典而改進的新規(guī)則進行對比說明,為后面音素集及發(fā)音詞典的制訂打好基礎(chǔ)。
3.1 西班牙語發(fā)音規(guī)則
西班牙語共有27個字母,與英語極為相似,其中“a, b, c, d,……”等26個字母的書寫與英文字母完全一致,但字母的名稱不同,發(fā)音也不同。另外,西班牙語多了一個特殊的字母“?”。
西班牙語的基本發(fā)音單位就是“詞”,為了明確“詞”的發(fā)音,需要將“詞”這一發(fā)音單位逐步拆解分析?!霸~”的基本組成單位是“音節(jié)”,“音節(jié)”組合成“詞”的方式共有4種。第一種是單音節(jié)詞,即一個音節(jié)獨立構(gòu)成詞匯。第二種是雙音節(jié)詞,顧名思義就是兩個音節(jié)拼接構(gòu)成的詞匯。第三種是多音節(jié)詞。最后一種是外來詞匯,即直接借鑒了其他語種的現(xiàn)有詞匯,比如“Beijing, watt, kaki, Washington”等等。外來詞匯也存在單音節(jié)詞、雙音節(jié)詞、多音節(jié)詞,但是其音節(jié)的劃分方式與西班牙語詞匯的音節(jié)劃分方式不同,因此將其單獨作為一類處理。西班牙語中的“詞”由更小的發(fā)音單位“音節(jié)”組合構(gòu)成,“音節(jié)”又由“元音字母”和“輔音字母”等組合構(gòu)成,它們的組成方式可以分成13種,下面通過表格說明“音節(jié)”的構(gòu)成:
以上就是西班牙語中“音節(jié)”的組合方式,根據(jù)表格可以看出,西班牙語的“音節(jié)”由“元音”、“輔音”、“二重元音”、“三重元音”這些更小一級的單位組合而成,這些元素就是在制作發(fā)音詞典時要考慮的最小標音單位“音素”,下面對西班牙語中的“音素”作詳細說明。
根據(jù)西班牙語教學用書中的發(fā)音規(guī)則,可以將西班牙語的27個字母劃分為35個音素,如表2所示。他們分別是五個元音:a, e, i, o, u和30個輔音。這30個輔音又分別由22個輔音和8個特殊的輔音構(gòu)成。如此劃分是因為這其中的22個輔音是原本27個字母除去5個元音字母后剩下的22個字母自然形成的輔音,而另外8個音素分別是“d”“b”“v”“y”“x”“g”和“c”的多種發(fā)音。這些音素在基本的字母里已經(jīng)存在,卻把它們劃作特殊音素的范圍,因為在西班牙語實際使用中,字母“d”“b”“v”“y”“x”和“c”有兩種發(fā)音,字母“g”有三種發(fā)音。特別說明,音素y在發(fā)音時,如果它位于元音之前,則將它視作輔音處理;如果它單獨使用,或者是位于元音之后使用,則將它視作元音處理。
除了基本的音素以外,西班牙語的元音音素還會重新組合成二重元音以及三重元音。西班牙語元音分為三個強元音:a、e、o,和兩個弱元音:i、u。二重元音的組合方式有三種,分別是:1.一個強元音加一個弱元音;2.兩個弱元音;3.一個弱元音加一個強元音。根據(jù)排列組合的規(guī)律總共可以構(gòu)成14個二重元音。二重元音的發(fā)音規(guī)律是:當二重元音由一個強元音和一個弱元音構(gòu)成時,強元音重讀;當二重元音由兩個弱元音構(gòu)成時,任意一個弱元音都可以重讀,但一般位于后側(cè)的元音重讀。三重元音的組合方式只有一種:即一個弱元音加一個強元音再加一個弱元音。根據(jù)排列組合的規(guī)律總共可以構(gòu)成12個三重元音,但實際使用中由于有的組合方式在西班牙語中并未出現(xiàn),所以實際共有7個三重元音,分別是“iai, iei, ioi, iau, uay, uey, uau”。三重元音的發(fā)音規(guī)律即為強元音重讀。另外,西班牙語中還存在5個以“n”結(jié)尾的音節(jié),發(fā)音時與熟悉的英文發(fā)音方法不同,需要特別注意。具體分類如圖 3所示。
3.2 為設(shè)計音素集而歸納的發(fā)音規(guī)則
如果完全按照西班牙語本身的發(fā)音規(guī)則來制作音素集和設(shè)計發(fā)音詞典,過程將會十分復雜且識別結(jié)果也一定不夠準確。因為西班牙語中存在二重元音、三重元音這些由元音組合而成的音素,還有輔音和輔音組合而成的音素以及輔音和元音組合而成的音素,使得基本的音素過多,而且實際使用中,某些單個字母的音素在不同的單詞中會發(fā)不同的音,有的甚至一個字母有三種發(fā)音,所以按照西班牙語的發(fā)音規(guī)則來設(shè)計發(fā)音詞典難以滿足后期語音識別的需求,會產(chǎn)生很多沒法解釋的語音問題以及發(fā)現(xiàn)問題后很難再進行改進的系統(tǒng)缺陷。因此作者結(jié)合實際操作需求,總結(jié)改進了適合于西班牙語發(fā)音詞典的發(fā)音規(guī)則,其中共設(shè)置了44個音素。
該音素集可以分為四個部分,即元音音素、重音元音音素、“ü”的發(fā)音以及其他音素,下面詳細說明。
3.2.1 元音音素
元音音素一共有5個,分別是:a、e、i、o、u。由于二重元音以及三重元音的讀音都是由原本的元音讀法拼接而成,所以沒有必要為其單獨設(shè)置音素,另外,為了解決字母帶重音符號的情況,將帶重音符號的元音單獨設(shè)置成了音素。
3.2.2 重音元音音素
重音元音音素一共也有5個,即五個元音加上重音符號,分別是:á、é、í、ó、ú。
3.2.3 “ü”的發(fā)音
字符“ü”是字母“u”的變體,“ü”的發(fā)音與“u”一樣,只是書寫不同而已。西班牙語中,當單詞中出現(xiàn)“gue”或者“gui”三個字母連寫時,字母“u”默認不發(fā)音,字母“g”發(fā)音標[g]的音,直接與后一個字母連讀,比如“consigues”,“consiguientemente”。但是有些情況下,這三個字母連寫時需要字母“u”單獨發(fā)音,這個時候就將字母“u”變成“ü”,代表字母“u”本身正常拼讀,比如“desvergüenza”,“l(fā)ingüista”。
3.2.4 其他音素
除了以上的11個音素,剩下的音素組成相對復雜,因此將它們統(tǒng)一劃作其他音素分組,共有33個音素。下面對其他音素組再做詳細的分類和說明。其他音素中又可以分為五個類別:字母“h”的發(fā)音、特殊組合音素的發(fā)音,只有一種發(fā)音的音素、有兩種發(fā)音的音素、有三種發(fā)音的音素,下面具體列舉。第一類,字母“h”的發(fā)音。西班牙語中字母“h”不發(fā)音,因此它的音標就是空白。第二類,特殊組合音素的發(fā)音,共有4個音素,“ch”“gu”“qu”“ps”?!癱h”是特殊的組合音素,因此為其設(shè)置單獨的音標[?§]。“gu”和“qu”只有在形成字母組合“gue”“gui”“que”和“qui”時,或者在個別外來詞匯和人名中,才會作為一個單獨的音素發(fā)音,音標為[k],否則作為兩個獨立的音素分別發(fā)音。“ps”正常情況下分開發(fā)音,當其作為單詞開頭時,字母“p”不發(fā)音,字母“s”正常發(fā)音,比如“psicológico”,因此為其單獨設(shè)置音素,這一特點類似于英語。第三類,只有一種發(fā)音的音素。這類音素就是西班牙語中最普通最基本的音素,共有14個,分別是“l(fā), m, n, p, t, q, z, f, j, ?, k, w, ll, rr”。第四類,有兩種發(fā)音的音素,它又可以分為兩小類。第一類是一個字母擁有兩種發(fā)音,但只標注出一種音標,這類字母共有4個,分別是“s, d, b, v”,共構(gòu)成4個音素。因為盡管這一類音素的字母在西班牙語語法中都有兩種發(fā)音,但其不同的發(fā)音差別并不大,在實際的語音識別過程中不會影響識別的結(jié)果,因此在歸納為音素集時,只為其設(shè)置了一個音標。另一類就是一個字母擁有兩種發(fā)音,并按其發(fā)音規(guī)則設(shè)置兩種不同的音標。這一類共有3個字母,分別是“c, r, y”,共構(gòu)成6個音素。最后一類,有三種發(fā)音的音素,這一類只有兩個字母,分別是“g”和“x”。由于實際使用中,僅需要將這兩個字母分別歸納為兩個音素就能滿足識別需求,所以該類別共構(gòu)成4個音素。
4 西班牙語發(fā)音詞典設(shè)計
4.1 西班牙語發(fā)音音素集的設(shè)計
通過上一章節(jié)對于西班牙語發(fā)音規(guī)則的歸納和改進,已經(jīng)歸納出了適應(yīng)于發(fā)音詞典音素集的新規(guī)則。根據(jù)新規(guī)則,將音素集總結(jié)制成如表 3。
表3即按照上一章節(jié)的分類進行排序和分塊,可以清晰地區(qū)分不同類別的音素。同時,表格除了基本的音素音標外,還設(shè)置了單詞舉例、中文含義、原本發(fā)音、特殊用法四個模塊,更好地體現(xiàn)出該音素集的制訂具有根據(jù)性。單詞舉例和中文含義兩個模塊可以對有特殊發(fā)音、特殊用法和具有兩個或多個發(fā)音的字母進行舉例說明,并通過最后的原本發(fā)音模塊標注出其本來的音標發(fā)音,特殊用法模塊則主要對個別只有構(gòu)成特殊字母組合模式才采取特殊發(fā)音的音素做特殊說明。由于后期利用發(fā)音詞典進行語音識別實驗的過程中,可能還會出現(xiàn)一些錯誤和問題,需要重新完善發(fā)音詞典和音素集,因此這樣的音素集表格設(shè)置有利于音素集后期的修改和完善,為可能遇到的問題提前做好準備。
4.2 西班牙語發(fā)音詞典詞表設(shè)計
根據(jù)以上的西班牙語發(fā)音音素集,標注并制成了最終的發(fā)音詞典。標注過程中所使用的工具為Notepad++,由于西班牙語發(fā)音詞典涉及很多一個字母有不止一個發(fā)音的情況,標注過程中需要掌握西班牙語發(fā)音規(guī)則的人進行研判并標注,所以采取的標注方式為人工手動標注,等全部標注完成后再進行二次人工檢查核對。詞典屬于通用性發(fā)音詞典,詞典里面所包含的詞匯范圍涉及各個領(lǐng)域。發(fā)音詞典共分為兩部分,分別是單詞拼寫和音標標注,下面將發(fā)音詞典中一部分詞條制成表 4進行展示。
由表4可以看出,該發(fā)音詞典的詞條范圍不僅包括了一些常用詞匯,還包括字母本身的發(fā)音,還有動詞、名詞等詞類的變位形式,另外還有人名、地名、機構(gòu)名以及一些外來詞匯的發(fā)音,可以說具有很好的全面性和實用性。
5 總結(jié)
本文通過對西班牙語語音規(guī)則的學習總結(jié),修改制定了適用于發(fā)音詞典音素集設(shè)計的新規(guī)則,并制訂發(fā)音音素集,最后利用音素集對詞匯逐條標注得到西班牙語發(fā)音詞典。本研究為西班牙語語音識別工作的基礎(chǔ)建設(shè)部分,將在最后的語音識別過程中起到關(guān)鍵作用。目前尚有的不足之處在于發(fā)音詞典的規(guī)模還是不夠大,計劃在后期的研究中,將這一通用型發(fā)音詞典作為基石,通過深度學習技術(shù)對其進行建模,再對新的詞匯集進行自動標注和人工復檢,從而快速擴充詞典規(guī)模。另外,這一通用型發(fā)音詞典對于其他特定領(lǐng)域發(fā)音詞典的制作可以起到推波助瀾的作用。運用同一方法,對特定領(lǐng)域的詞匯進行預測,即可得到特定領(lǐng)域發(fā)音詞典,這將對特定領(lǐng)域的語音識別技術(shù)起重要作用。
參考文獻:
[1] 詹新明,黃南山,楊燦.語音識別技術(shù)研究進展[J].現(xiàn)代計算機(專業(yè)版),2008(9):43-45,50.
[2] 郭龍銀,扎西多吉,尚慧杰,等.基于LSTM的藏語語音識別[J].電腦知識與技術(shù),2020,16(4):154-155.
[3] 王嘉偉.基于卷積神經(jīng)網(wǎng)絡(luò)的語音識別研究[J].科學技術(shù)創(chuàng)新,2019(31):71-73.
[4] 馮偉,易綿竹,馬延周.基于TensorFlow的俄語詞匯標音系統(tǒng)[J].計算機應(yīng)用,2018,38(4):971-977.
[5] 楊建菊,唐錄潔,龍虎.基于HMM的黔東南少數(shù)民族地區(qū)苗語連續(xù)語音識別系統(tǒng)研究[J].電腦知識與技術(shù),2017,13(31):190-191.
[6] 侯一民,周慧瓊,王政一.深度學習在語音識別中的研究進展綜述[J].計算機應(yīng)用研究,2017,34(8):2241-2246.
[7] 黃嫻,黃金柱,張克亮.面向印度英語連續(xù)語音識別的發(fā)音詞典設(shè)計[C]//中國聲學學會2017年全國聲學學術(shù)會議論文集.哈爾濱,2017:673-674.
[8] 董燕生,劉建.現(xiàn)代西班牙語(1)[M].北京:外語教學與研究出版社,2014.
[9] 于洪志,高璐,李永宏,等.藏語機讀音標SAMPA_ST的設(shè)計[J].中文信息學報,2012,26(4):66-72.
[10] 王嘉齡.《英語發(fā)音詞典》面面觀[J].天津外國語學院學報,2004,11(2):1-4.
【通聯(lián)編輯:唐一東】