亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于WFST的俄語字音轉(zhuǎn)換算法研究

        2018-04-16 07:53:38易綿竹馬延周
        中文信息學(xué)報 2018年2期
        關(guān)鍵詞:音素字音元音

        馮 偉,易綿竹,馬延周

        (戰(zhàn)略支援部隊信息工程大學(xué) 洛陽校區(qū),河南 洛陽471003)

        0 引言

        在俄語語音合成和語音識別系統(tǒng)中,發(fā)音詞典是存儲俄語單詞發(fā)音的重要基礎(chǔ)資源,其規(guī)模和質(zhì)量直接影響系統(tǒng)的性能。俄語作為一種拼音文字,在語言發(fā)展中不斷有新詞和外來詞產(chǎn)生,發(fā)音詞典必然難以包括所有俄語單詞的發(fā)音。然而,大規(guī)模詞典會大量占用存儲空間,降低系統(tǒng)的運行效率。因此,需要探尋一種方法對俄語單詞及其變化形式進(jìn)行自動注音。

        字音轉(zhuǎn)換(grapheme-to-phoneme conversion,G2P)是指利用計算機(jī)自動為單詞標(biāo)注音標(biāo),將字母拼寫的單詞文本轉(zhuǎn)換為可供人或機(jī)器閱讀和處理的單詞發(fā)音。俄語字音轉(zhuǎn)換技術(shù)可以為俄語發(fā)音詞典的構(gòu)建提供支持,并有效解決集外詞(out-of-vocabulary,OOV)的自動注音問題。

        字音轉(zhuǎn)換方法可分為基于規(guī)則的方法和數(shù)據(jù)驅(qū)動的方法?;谝?guī)則的方法即通過對俄語正字法和發(fā)音規(guī)律的總結(jié),人工制定俄語的字音轉(zhuǎn)換規(guī)則,實現(xiàn)對單詞發(fā)音的預(yù)測。在文獻(xiàn)[1-3]中,俄羅斯圣彼得堡大學(xué)的Kipyatkova和Karpov等人在其俄語語音識別系統(tǒng)的開發(fā)過程中,根據(jù)俄語輔音變化和元音弱化等規(guī)則,借助俄語重音詞典,實現(xiàn)了基于規(guī)則的俄語字音轉(zhuǎn)換。算法共包含七個步驟,經(jīng)過兩個循環(huán)完成,但并沒有對算法的準(zhǔn)確率進(jìn)行測試。由于俄語發(fā)音特征復(fù)雜多變,正字法的約束也在逐漸減弱,規(guī)則中難免會出現(xiàn)無法覆蓋到的例外情況,這些都會對字音轉(zhuǎn)換的準(zhǔn)確率造成影響。

        數(shù)據(jù)驅(qū)動的方法是在足夠訓(xùn)練數(shù)據(jù)的支持下,利用概率統(tǒng)計和機(jī)器學(xué)習(xí)算法,建立發(fā)音模型,通過解碼算法為任意單詞進(jìn)行標(biāo)音。數(shù)據(jù)驅(qū)動的方法是目前主流的字音轉(zhuǎn)換方法。在國外,Galescu等[4]提出了基于期望最大化(EM)算法實現(xiàn)字素,音素一對一的對齊,通過N-gram建立發(fā)音模型的字音轉(zhuǎn)換方法,并在NetTalk和CMU的英語數(shù)據(jù)集上進(jìn)行了測試。Jiampojamarn等[5]提出了字素音素多對多的對齊方式,并將隱馬爾科夫模型(HMM)應(yīng)用于發(fā)音模型建模。Bisani等[6]提出了聯(lián)合序列模型的方法,并在英語、德語和法語測試集上進(jìn)行了測試,該方法也是目前較為流行的字音轉(zhuǎn)換方法。Rao等[7]還將最新的長短時記憶(LSTM)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)應(yīng)用于解決字音轉(zhuǎn)換問題。在國內(nèi),王永生等[8]提出了一種動態(tài)有限泛化法(DFGA)的機(jī)器學(xué)習(xí)算法,用于進(jìn)行英語字音轉(zhuǎn)換規(guī)則的學(xué)習(xí)。李鵬等[9]實現(xiàn)了一個基于CART樹(classification and regression tree)方法的英語字音轉(zhuǎn)換系統(tǒng)。趙坤等[10]提出了一種通過有條件維數(shù)擴(kuò)展(CMI)決策樹算法解決英語字音轉(zhuǎn)換的方法。綜上所述,數(shù)據(jù)驅(qū)動的字音轉(zhuǎn)換算法在國內(nèi)外已有不少研究,但應(yīng)用對象主要為英語,還沒有俄語方面的有關(guān)研究和實驗。因此,有必要以俄語語音學(xué)知識為基礎(chǔ),完善俄語語料資源,對俄語字音轉(zhuǎn)換算法的實現(xiàn)與應(yīng)用做進(jìn)一步研究。

        在數(shù)據(jù)驅(qū)動的方法中,加權(quán)有限狀態(tài)轉(zhuǎn)化器(WFST)是建立索引的一種有效手段,它具有完善的理論框架,實現(xiàn)簡單,能夠有效減少存儲空間,加快解碼速度。Yang等[11]最先提出將WFST應(yīng)用于字音轉(zhuǎn)換的任務(wù),并在NetTalk英語測試集上與文獻(xiàn)[6]算法進(jìn)行了對比測試。結(jié)果表明,WFST框架可以大幅減少模型訓(xùn)練的時間,提高單詞發(fā)音的預(yù)測效率。Novak等[12]對字素音素的對齊方法進(jìn)行了改進(jìn),提出了基于WFST的“一對多”和“多對一”對齊方式,還對解碼算法進(jìn)行了優(yōu)化,提出了基于循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型(RNNLM)的N-best解碼算法,以及最小貝葉斯風(fēng)險詞圖(lattice minimum Bayes-Risk,LMBR)解碼算法,并在三個英語測試集上進(jìn)行了對比測試。

        以上算法都以英語為主要研究目標(biāo),其模型訓(xùn)練的過程與俄語之間難免存在差異。本文根據(jù)俄語單詞的發(fā)音特點,采用了基于EM算法的俄語字音“多對多”對齊方法,然后將對齊結(jié)果利用聯(lián)合N-gram模型訓(xùn)練并轉(zhuǎn)化為WFST發(fā)音模型,最后通過最短路徑算法進(jìn)行解碼,實現(xiàn)基于WFST的俄語字音轉(zhuǎn)換。WFST的實現(xiàn)以開源庫OpenFst為支持。此外,本文還對原始SAMPA俄語音素集進(jìn)行了改進(jìn),增加了四個元音音素和一個重音符號,設(shè)計了包含46個音素的俄語音素集。最后,依據(jù)新音素集構(gòu)建了20 000詞俄語發(fā)音詞典,將其作為模型訓(xùn)練和測試的語料數(shù)據(jù)。

        1 基于改進(jìn)的SAMPA俄語音素集設(shè)計

        音素集就是音素的集合。由于國際音標(biāo)書寫復(fù)雜、機(jī)讀性差等缺點,在俄語語音處理系統(tǒng)中,需要依據(jù)計算機(jī)可讀的SAMPA符號設(shè)計俄語音素集,從而構(gòu)建俄語發(fā)音詞典并訓(xùn)練俄語聲學(xué)模型。俄語音素集中應(yīng)盡可能地包括俄語全部的音素,但如果音素集過大,單詞注音結(jié)果的不確定性將會顯著增加,大大提高解碼過程的計算復(fù)雜度。若音素集太小,則會降低單詞標(biāo)音的精確度,影響語音處理系統(tǒng)的性能。為了體現(xiàn)俄語重音變化和元音弱化現(xiàn)象,本文對原始SAMPA俄語音素集進(jìn)行了改進(jìn),設(shè)計了新的俄語音素集。

        目前國際上俄語音素集的設(shè)計有多種方案。IPA俄語音素集共包含55個音素,分為38個輔音和17個元音,元音又分為11個重讀元音和六個非重讀元音,另外包括一個重音符號[13]。SAMPA俄語音素集共包含42個音素,分為36個輔音和六個元音,其元音音素沒有重讀與弱化之分,僅僅將弱化的元音[e]和[o]分別用[i]和[a]表示[14];卡內(nèi)基梅隆大學(xué)(Carnegie Mellon University,CMU)設(shè)計的俄語音素集共包含50個音素和一個無音符號,分為36個輔音和14個元音,并將元音分為六個重讀元音和八個非重讀元音[16]。

        通過對以上三個俄語音素集的研究,結(jié)合俄語音素的發(fā)音規(guī)則,重點對元音音素從一級弱化和二級弱化的角度進(jìn)行區(qū)分,本文在原有俄語SAMPA音素集的基礎(chǔ)上,增加了四個弱化后的元音和一個重音符號“!”,設(shè)計了共包含46個音素的俄語音素集。其中音素用SAMPA符號表示,包括36個輔音和10個元音,元音又細(xì)分為六個重讀元音和四個非重讀元音。新增的四個元音如表1所示。

        表1 俄語弱化元音表

        為了驗證新音素集的有效性,本文從發(fā)音詞典中隨機(jī)抽取200個俄語單詞,分別用原始SAMPA音素集和新音素集進(jìn)行標(biāo)音,交由俄語專家進(jìn)行人工比對驗證。驗證結(jié)果證明,本文設(shè)計的新音素集能夠清晰地標(biāo)明俄語單詞的重音位置,有效地區(qū)分元音一級弱化和二級弱化后的讀音,相較于原始的SAMPA音素集標(biāo)音更加準(zhǔn)確,可讀性更強(qiáng)。表2是改進(jìn)的音素集與原始音素集標(biāo)音的對比示例。

        表2 音素集標(biāo)音對比示例

        2 加權(quán)有限狀態(tài)轉(zhuǎn)化器概述

        加權(quán)有限狀態(tài)轉(zhuǎn)化器是一種基于半環(huán)代數(shù)理論的靜態(tài)網(wǎng)絡(luò)解碼器,近年來被廣泛應(yīng)用于語音識別研究。語音識別系統(tǒng)涉及的HMM模型、發(fā)音詞典、語言模型等,都可以轉(zhuǎn)化為WFST模型的形式實現(xiàn)快速解碼。WFST解碼器具有實現(xiàn)簡單、解碼速度快的特點,對于知識源有統(tǒng)一的建模方式,具有完善的理論框架和成熟的優(yōu)化算法,能夠有效減少存儲空間,提高系統(tǒng)的性能。

        WFST可表示為定義在半環(huán)K上的八元組:T=(A,B,Q,I,F,E,λ,ρ)。其中,A表示輸入符號集;B表示輸出符號集;Q為有限狀態(tài)集合;I?Q與F?Q,分別表示初始狀態(tài)和終止?fàn)顟B(tài)子集;ε為空符號,E?Q×(A∪{ε})×(B∪{ε})×K×Q,表示狀態(tài)轉(zhuǎn)移集合,描述了WFST從某一狀態(tài)接受輸入后輸出的符號與權(quán)重,并轉(zhuǎn)移到下一狀態(tài);λ為初始狀態(tài)權(quán)重對齊:I→K;ρ為終止?fàn)顟B(tài)權(quán)重對齊:F→K。WFST的權(quán)重為半環(huán)(K,?,?,0,1),通過二元函數(shù)?、?對權(quán)重進(jìn)行操作,常用的半環(huán)有Log半環(huán)和 Tropical半環(huán)[15]。

        WFST的解碼網(wǎng)絡(luò)是一個有向有環(huán)圖,一個節(jié)點表示一個狀態(tài),由一個狀態(tài)到下一個狀態(tài)的有向弧描述了狀態(tài)間的轉(zhuǎn)移過程、符號間的映射關(guān)系以及轉(zhuǎn)移的權(quán)重。以序列abc到序列абв的轉(zhuǎn)移過程為例,WFST有向圖如圖1所示。

        圖1 WFST有向圖示例

        WFST解碼過程中常用的算法有:合成(composition)算法、空轉(zhuǎn)移消除(epsilon removal)算法、確定化(determinization)算法、最小化(minimization)算法等。

        3 俄語字素、音素對齊方法

        建立字素與音素的對齊是訓(xùn)練發(fā)音模型的第一步,一般的對齊方法是以“一對一”的方式進(jìn)行對齊[9]。通過對俄語語音學(xué)的研究,本文使用基于期望最大化的“多對多”對齊方式解決俄語字音對齊問題。

        3.1 多對多對齊

        單詞發(fā)音中經(jīng)常出現(xiàn)字素序列和音素序列長度不一致的情況,有時多個字素對應(yīng)一個音素,有時一個字素能夠產(chǎn)生多個音素。通過研究俄語單詞發(fā)音規(guī)律發(fā)現(xiàn),大多數(shù)俄語字母與音素間以一對一的形式對應(yīng),但也存在以下兩種例外:

        (1) 一個字母對應(yīng)兩個音素,如ю—[j u]。

        (2) 兩個字母對應(yīng)一個音素。這種情況主要由輔音字母與無音符號組合造成,如сь—[s’]。

        以“юность(青年)”為例,一一對齊的結(jié)果如下:

        ю?ность|||||||j!un@st'?

        可以看出,音素“!u”和字母“ь”都產(chǎn)生了“空對齊”的情況。傳統(tǒng)的用于解決這種問題的方法從本質(zhì)上可以概括為:通過改變原有字母表或音素集,人工創(chuàng)造新的一一對齊。具體方案可分情況描述:

        (1) 一個字母對應(yīng)多個音素的情況有兩種解決方法:一是在單詞序列中加入“空”字母,對應(yīng)空缺的音素;二是定義新音素,將多個音素組合后的整體視為一個音素。

        (2) 與多個字母對應(yīng)一個音素的解決方法類似,可以引入空音素,對應(yīng)不發(fā)音的字母;或是將多個字母組合為一個新字素,對應(yīng)一個發(fā)音。

        以上方法從根本上講仍然是一對一的對齊,只是從形式上達(dá)到了對齊的目的,并沒有為每個字素找到其真正對應(yīng)的發(fā)音,而且對原有字母表和音素集的修改,會改變語言的基本規(guī)則,由此造成發(fā)音模型的混亂。

        為了避免一一對齊造成的局限性,文獻(xiàn)[5]提出了基于期望最大化算法的“多對多”對齊方法。經(jīng)實驗驗證,該方法相較于“一對一”的方法能夠顯著提高標(biāo)音準(zhǔn)確率, 在之后的文獻(xiàn)中,也多次引用這一方法[6,11-12]。本文將這一方法應(yīng)用于俄語字素、音素對齊問題,在維持原有字母表和音素集不變的情況下,避免了“一對一”方式造成的“空對齊”現(xiàn)象。該方法通過對所有對齊組合建立詞圖(Lattice),在WFST框架的支持下,利用期望最大化算法,可以準(zhǔn)確地為每個字素找到其對應(yīng)的發(fā)音。

        仍以“юность”為例,多對多對齊的結(jié)果如下:

        юность|||||j!un@st’

        可以看出,對齊結(jié)果中沒有產(chǎn)生“空對齊”的情況,“ю”和“ть”的發(fā)音對齊準(zhǔn)確。

        3.2 期望最大化算法

        當(dāng)給定樣本中存在隱變量或缺失數(shù)據(jù)時,可以利用期望最大化算法求解模型參數(shù)的最大似然估計,實現(xiàn)概率建模。該問題的隱變量即可能的對齊結(jié)果。期望最大化算法分為兩步,第一步是期望計算(expectation)過程,第二步是求解最大化(maximization)的過程,算法的整體流程如圖2所示。

        圖2中,x、y分別表示當(dāng)前輸入的單詞和發(fā)音序列;T、V分別表示x、y序列的長度;maxX和maxY為可賦值變量,分別表示x、y中子序列的最大長度,即字母和音素在對齊時的最多組合數(shù),對于俄語來說,maxX和maxY的值都為2;γ為當(dāng)前對齊結(jié)果的期望。

        EM算法首先遍歷單詞和發(fā)音的每一個子序列xt、yv,根據(jù)每一個對齊組合生成有限狀態(tài)接收機(jī)(FSA)詞圖,然后計算所有對齊的期望值,最后得出使期望最大化的對齊結(jié)果。

        期望計算的算法利用WFST的相關(guān)操作實現(xiàn)。算法流程如下[12]:

        算法:期望計算過程輸入:AlignedLattices輸出:γ1 foreachFSAalignmentlatticeFdo2   α←ShortestDistance(F)3   β←ShortestDistance(FR)4   foreach stateq∈Q[F] do5  foreach arce∈E[q]do6   v=((α[q]?w[e])?β[n[e]])β[0]7   γ[i[e]]⊕=v

        算法的輸入為FSA表示的對齊詞圖。首先為每條弧初始化一個權(quán)重w[e],通過WFST最短路徑算法得到正向概率α和反向概率β;之后遍歷每一個節(jié)點及節(jié)點上的每條弧,根據(jù)第6行的二元運算?計算每條弧的后驗概率v,n[e]為下一節(jié)點狀態(tài);i[e]為當(dāng)前輸入符號,算法最后根據(jù)概率v更新當(dāng)前的對齊的期望γ[i[e]]。

        求解最大化的過程以期望γ為輸入,經(jīng)過多次迭代重新估計分布參數(shù),得到每個對齊結(jié)果新的估計值γnew。 利用γnew更新詞圖中每條弧的權(quán)值,得出使期望實現(xiàn)最大化的路徑和對齊結(jié)果。

        以“юный(年輕的)”的第6格形式юном [j !u n @ m]為例,初始化的FSA模型如圖3所示。

        圖3 初始化對齊FSA模型

        圖3中,每條路徑上的字母音素組合為通往下一狀態(tài)的對齊方式,每個節(jié)點表示當(dāng)前已對齊的序列狀態(tài)。0節(jié)點為初始狀態(tài),8節(jié)點為終止?fàn)顟B(tài)。每個節(jié)點已對齊的序列狀態(tài)如表3所示。經(jīng)過期望最大化算法計算,得出最終的路徑為:0—1—4—5—8。

        表3 節(jié)點狀態(tài)表

        4 聯(lián)合N-gram發(fā)音模型

        發(fā)音模型的構(gòu)建利用N-gram語言模型對聯(lián)合的字素、音素序列進(jìn)行訓(xùn)練,得到音素序列出現(xiàn)的概率參數(shù)。再將N-gram模型轉(zhuǎn)換為加權(quán)有限狀態(tài)轉(zhuǎn)化器,構(gòu)成解碼器的搜索空間。

        N-gram語言模型是自然語言處理中被廣泛應(yīng)用的統(tǒng)計語言模型,在基于統(tǒng)計的語音識別、機(jī)器翻譯、漢語分詞等應(yīng)用上都取得了成功。這種模型構(gòu)建簡單、靈活,尤其適用于序列型數(shù)據(jù)。因此,使用N-gram模型可以類似地為聯(lián)合字音音素序列建立發(fā)音模型。

        基于聯(lián)合N-gram模型的計算原理為:對于一個俄語單詞w,假設(shè)其對齊后的字素序列為γ(w)=g1g2…gn,音素序列為(w)=p1p2…pn,gi、pi(i=1,2,…,n)是第i個子序列,則聯(lián)合概率可以表示為P(γ(w),(w))。設(shè)A為字素和音素所有可能的組合,每個組合可以表示為a=1,N=,Q′(a)表示a組合的聯(lián)合概率,Q表示正確對齊i=發(fā)生時的條件概率,整個序列的聯(lián)合概率計算公式如下:

        基于聯(lián)合N-gram算法和WFST框架的發(fā)音模型建立過程如下:

        (1) 將對齊后的兩個序列(g1,g2,…,gn)和(p1,p2,…,pn)合并為一個聯(lián)合的對齊序列(g1:p1,g2:p2,…,gn:pn)。例如:

        год |g !o t→г:g о:!o д:t

        хорошо | x @ r 6 S !o→х:x о:@ р:r о:6 ш:S о:!o

        (2) 采用聯(lián)合N-gram模型算法對步驟(1)產(chǎn)生的聯(lián)合序列結(jié)果進(jìn)行訓(xùn)練。本文利用MIT語言模型(MITLM)工具包[17],設(shè)定N=8,采用Kneser-Ney平滑方法,得到了以ARPA格式存儲的uni-gram至8-gram語言模型。

        (3) 利用OpenFst開源庫的支持[18-19],將聯(lián)合N-gram模型轉(zhuǎn)化為加權(quán)有限狀態(tài)轉(zhuǎn)換器。轉(zhuǎn)化時,語言模型中對齊的字素和音素被重新分開,分別作為WFST的輸入和輸出符號,對應(yīng)的概率作為路徑的權(quán)值,轉(zhuǎn)化后的WFST即發(fā)音模型的轉(zhuǎn)換器。以字母序列абa[6 b a]為例,其WFST發(fā)音模型如圖4所示。

        圖4 WFST發(fā)音模型示例圖

        5 發(fā)音預(yù)測

        發(fā)音預(yù)測的過程首先將輸入單詞表示為FSA模型,然后將FSA與WFST發(fā)音模型合成,最后對合成后的WFST進(jìn)行優(yōu)化,通過最短路徑算法找出最終的音素序列,可以用公式表示為:

        (3)

        在式(3)中,Hbest表示權(quán)重最高的發(fā)音預(yù)測序列,W表示輸入單詞 的FSA模 型,M表 示 由 聯(lián) 合N-gram模型轉(zhuǎn)化生成的WFST發(fā)音模型。其中,compose表示W(wǎng)FST的合成算法,合成算法將輸入的FSA和WFST發(fā)音模型序列串聯(lián)生成單一的WFST;projoutput表示輸出符號映射運算,使生成的WFST保持與原WFST序列相同的輸入輸出映射關(guān)系;opt表示W(wǎng)FST的優(yōu)化,包括確定化、空轉(zhuǎn)移消除等操作;ShortestPath表示從WFST中檢索最短路徑的運算。最終的最短路徑就是預(yù)測出的單詞最優(yōu)發(fā)音。

        基于WFST的俄語字音轉(zhuǎn)換方法,模型訓(xùn)練與測試流程如圖5所示。

        圖5 基于WFST的俄語字音轉(zhuǎn)換、測試方法流程圖

        6 實驗測試

        本文的原始語料主要來源于維基百科、CMU資源庫及一些開源的俄語語料庫,我們將原始樣例的音素集映射到本文設(shè)計的基于SAMPA的俄語音素集,在映射過程中沒有出現(xiàn)錯誤。通過對語料的歸整,最終形成了包含20 000詞條樣例的俄語發(fā)音詞典。

        常用于衡量字音轉(zhuǎn)換的評測指標(biāo)分別是音素正確率和詞形正確率,其計算公式如下:

        音素正確率=正確轉(zhuǎn)換的音素數(shù)/音素總數(shù)

        詞形正確率=正確標(biāo)音的單詞數(shù)/單詞總數(shù)

        本文對發(fā)音詞典中的20 000個詞進(jìn)行了10輪交叉驗證,每次選取90%為訓(xùn)練數(shù)據(jù),10%為測試數(shù)據(jù),結(jié)果如表4所示。

        表4 測試結(jié)果表

        從測試結(jié)果可以看出,本文的俄語字音轉(zhuǎn)換算法在實驗中取得了較好的效果,能夠有效地應(yīng)用于俄語發(fā)音詞典構(gòu)建。

        7 結(jié)語

        本文采用一種數(shù)據(jù)驅(qū)動的俄語字音轉(zhuǎn)換方法,該方法以WFST為框架,基于期望最大化算法實現(xiàn)了俄語字素、音素的“多對多”對齊,并通過聯(lián)合N-gram模型建立發(fā)音模型,利用WFST最短路徑算法進(jìn)行模型解碼。另外設(shè)計了基于SAMPA的俄語音素集,在原音素集的基礎(chǔ)上增加了重音符號及4個弱化元音,基于此音素集構(gòu)建了包含20 000個詞的俄語發(fā)音詞典。在交叉驗證中,平均詞形正確率達(dá)到了62.9%,平均音素正確率達(dá)到了92.2%。

        本研究表明,G2P技術(shù)能夠為俄語語音合成和語音識別系統(tǒng)研制提供支持。在下一步工作中,我們將進(jìn)一步擴(kuò)充俄語發(fā)音詞典的規(guī)模,探索用于解決G2P問題的機(jī)器學(xué)習(xí)算法,為提升俄語字音轉(zhuǎn)換的正確率尋繹新途徑。

        [1]Karpov A,Markov K,Kipyatkova I,et al.Large vocabulary Russian speech recognition using syntactico-statistical language modeling[J].Speech Communication,2014,56(1):213-228.

        [2]Kipyatkova I,Karpov A,Verkhodanova V,et al.Analysis of long-distance word dependencies and pronunciation variability at conversational Russian speech recognition[J].Computer Science and Information Systems,2012,11(6):719-725.

        [3]Karpov A,Kipyatkova I,Ronzhin A.Very large vocabulary ASR for spoken Russian with syntactic and morphemic analysis[C]//Proceedings of Italy:INTERSPEECH 2011,Conference of the International Speech Communication Association,2011:3161-3164.

        [4]Galescu L,Allen J F.Bi-directional conversion between graphemes and phonemes using a joint N-gram model[C]//Scotland:Proceedings ISCA Tutorial on TTS,2001.

        [5]Jiampojamarn S,Kondrak G,Sherif T.Applying many-to-many alignments and hidden Markov models to Letter-to-phoneme conversion[C]//Proceedings of HLT-NAACL,2007:372-379.

        [6]Bisani M,Ney H.Joint-sequence models for grapheme-to-phoneme conversion[J].Speech Communication,2008,50(5):434-451.

        [7]Rao K,Peng F,Sak H,et al.Grapheme-to-phoneme conversion using long short-term memory recurrent neural networks[C]//Proceedings of IEEE International Conference on Acoustics,Speech and Signal Processing.IEEE,2015:4225-4229.

        [8]王永生,柴佩琪,宣國榮.英語語音合成中基于DFGA的字音轉(zhuǎn)換算法[J].計算機(jī)工程與應(yīng)用,2006(13):158-161,190.

        [9]李鵬,徐波.單詞自動注音方法的研究[J].清華大學(xué)學(xué)報(自然科學(xué)版),2008(S1):735-740.

        [10]趙坤,梁維謙,劉潤生.面向字音轉(zhuǎn)換的有條件維數(shù)擴(kuò)展算法[J].清華大學(xué)學(xué)報(自然科學(xué)版),2008(10):1629-1631.

        [11]Yang D,Dixon P R,Furui S.Rapid development of a grapheme-to-phoneme system based on weighted finite state transducer(WFST)framework[C]//Proceedings of ASJ Autumn Meeting,2009:111-112.

        [12]Novak J R,Minematsu N,Hirose K.WFST-based grapheme-to-phoneme conversion:Open source tools for alignment,model-building and decoding[C]//Proceedings of FSMNLP,2012:45-49.

        [13]Wikipedia.IPA symbol for Russian pronunciations [EB/OL].https://en.wikipedia.org/wiki/Help:IPA_for_Russian,2017-10-13/2017-10-17.

        [14]Wells J C.SAMPA - computer readable phonetic alphabet[EB/OL].http://www.phon.ucl.ac.uk/home/sampa/,2005-10-25/2017-10-17.

        [15]Mohri M,Pereira F,Riley M.Speech recognition with weighted finite-state transducers[M].Springer,Berlin Heidelberg,2008.

        [16]Otander J.CMU Sphinx [EB/OL].https://cmusphinx.github.io/wiki/download/,2017-04-26/2017-10-17.

        [17]Lehn M.,MIT Language Modeling Toolkit,https://github.com/mit-nlp/mitlm,2008-01-01/2017-10-18.

        [18]Gorman K,OpenFst Library,http://www.openfst.org/twiki/bin/view/FST/WebHome,2017-07-05/2017-10-18.

        [19]Allauzen C,Riley M,Schalkwyk J,et al.OpenFst:A general and efficient weighted finite-state transducer library[C]//Proceedings of International Conference on Implementation and Application of Automata.Springer-Verlag,2007:11-23.

        [20]Povey D,Hannemann M,Boulianne G,et al.Generating exact lattices in the WFST framework[C]//Proceedings of IEEE International Conference on Acoustics,Speech and Signal Processing.IEEE,2012:4213-4216.

        [21]Novak J R,Dixon P R,Minematsu N,et al.Improving WFST-based G2P Conversion with AlignmentConstraints and RNNLM N-best Rescoring[J].Booklist,2013.

        [22]信德麟,張會森,華劭.《俄語語法》(第二版)[M].北京:外語教學(xué)與研究出版社,2009.

        [23]Ронжин А.,Карпов А.,Лобанов Б.,Et al.Фонетико-морфологическая разметка речевых корпусов для распознавания и синтеза русской речи[J].Информационно-управляющие системы,2006,(6):24-35.

        [24]Важенина Д.А.,Кипяткова И.С.,Марков К.П.,et al.Методика выбора фонемного набора для автоматического распознавания русской речи[J].Труды СПИИРАН,2014,5(36):92-113.

        馮偉(1993—),碩士研究生,主要研究領(lǐng)域為自然語言處理。E-mail:303203093@qq.com

        易綿竹(1964—),通信作者,教授,博士生導(dǎo)師,主要研究領(lǐng)域為計算語言學(xué)、語言信息處理。E-mail:mianzhuyi@gmail.com

        馬延周(1977—),博士,主要研究領(lǐng)域為計算語言學(xué)和語言信息處理。E-mail:myz827@126.com

        猜你喜歡
        音素字音元音
        新目標(biāo)英語七年級(上)Starter Units 1-3 STEP BY STEP 隨堂通
        論沈?qū)櫧椷\用《洪武正韻》辨正水磨腔入聲字音
        戲曲研究(2023年1期)2023-06-27 06:54:32
        元音字母和元音字母組合的拼讀規(guī)則
        元音字母和元音字母組合的拼讀規(guī)則
        依托繪本課程,培養(yǎng)學(xué)生英語音素意識
        小學(xué)英語課堂中音素意識與自然拼讀整合訓(xùn)練的探索
        “多說一遍”字音字義大不相同!
        ?不定冠詞a與an
        《詩集傳》葉音與宋代常用字音——葉音同于韻書考論之二
        Playing with “ar”
        免费人成在线观看视频播放 | 欧美亚洲熟妇一区二区三区| 国产特级毛片aaaaaa高清| 亚洲国产成人AV人片久久网站 | 日韩好片一区二区在线看| 国内自拍偷拍亚洲天堂| av资源吧首页在线观看| 日本刺激视频一区二区| 射精区-区区三区| 亚洲综合精品伊人久久| 亚洲人妻无缓冲av不卡| 日本午夜理伦三级好看| 偷拍韩国美女洗澡一区二区三区| 久久99亚洲精品久久久久| 无码人妻久久一区二区三区app | 国产在线精品一区二区| 久久中文字幕亚洲精品最新| 色妞一区二区三区免费视频| 国产av精品一区二区三区久久| 欧美人牲交| 中文字幕无码家庭乱欲| 丰满人妻一区二区乱码中文电影网| a级三级三级三级在线视频| 亚洲视频在线一区二区| 香蕉人人超人人超碰超国产| 女人体免费一区二区| 亚洲高清自偷揄拍自拍| 久久精品国产亚洲av四叶草| 娇妻在交换中哭喊着高潮| 国产精品久久久久久人妻精品| 久久亚洲精品成人综合| 国产精品久久av色婷婷网站| 亚洲熟妇色自偷自拍另类| 无码人妻丰满熟妇片毛片| 亚洲第一区二区快射影院| 亚洲国语对白在线观看| 亚无码乱人伦一区二区| 中文字幕无码日韩专区免费| 亚洲黄色性生活一级片| 美女狂喷白浆网站视频在线观看| 男人的天堂av高清在线|