范正光,屈丹,閆紅剛,張文林
(解放軍信息工程大學(xué)信息系統(tǒng)工程學(xué)院,450002,鄭州)
?
借助音頻數(shù)據(jù)的發(fā)音字典新詞學(xué)習(xí)方法
范正光,屈丹,閆紅剛,張文林
(解放軍信息工程大學(xué)信息系統(tǒng)工程學(xué)院,450002,鄭州)
針對(duì)已有的發(fā)音字典擴(kuò)展方法只能從文本數(shù)據(jù)中學(xué)習(xí)新詞而無(wú)法學(xué)習(xí)到音頻數(shù)據(jù)中新詞的問(wèn)題,提出了一種基于混合語(yǔ)音識(shí)別系統(tǒng)的發(fā)音字典新詞學(xué)習(xí)方法。該方法首先分別采用音節(jié)和字母音素對(duì)混合識(shí)別系統(tǒng)對(duì)音頻數(shù)據(jù)進(jìn)行集外詞識(shí)別,利用系統(tǒng)間的互補(bǔ)性得到盡可能多的新詞及其發(fā)音候選,然后借助感知器與最大熵模型對(duì)得到的新詞及發(fā)音進(jìn)行優(yōu)化,降低錯(cuò)誤率,最后實(shí)現(xiàn)發(fā)音字典的擴(kuò)展,并利用語(yǔ)法語(yǔ)義信息完成對(duì)語(yǔ)言模型參數(shù)更新?;谌A爾街日?qǐng)?bào)(WSJ)語(yǔ)料庫(kù)的連續(xù)語(yǔ)音識(shí)別實(shí)驗(yàn)表明:該方法可以有效學(xué)習(xí)到音頻數(shù)據(jù)中的未知新詞,采取的數(shù)據(jù)優(yōu)化策略極大地提高了所得新詞及發(fā)音的精度;在詞錯(cuò)誤率指標(biāo)下,字典擴(kuò)展后系統(tǒng)的識(shí)別性能相對(duì)基線系統(tǒng)提高約13.4%。
語(yǔ)音識(shí)別;發(fā)音字典;新詞學(xué)習(xí);集外詞
發(fā)音字典是搭建現(xiàn)代連續(xù)語(yǔ)音識(shí)別系統(tǒng)(continuous speech recognition, CSR)所必需的數(shù)據(jù)資源,但傳統(tǒng)的發(fā)音字典由語(yǔ)言學(xué)專(zhuān)家手動(dòng)生成,需要花費(fèi)較高的成本。針對(duì)這一問(wèn)題,當(dāng)前普遍采用發(fā)音字典自動(dòng)學(xué)習(xí)來(lái)減小人工工作量。目前,常用的字典自動(dòng)學(xué)習(xí)方法主要有2類(lèi):基于字母音素轉(zhuǎn)換(grapheme to phoneme conversion,G2P)的方法[1-3]和基于網(wǎng)絡(luò)爬取的方法[4]?;贕2P轉(zhuǎn)換的方法是指通過(guò)對(duì)文本語(yǔ)料(如爬取的網(wǎng)絡(luò)文本語(yǔ)料)進(jìn)行統(tǒng)計(jì)發(fā)現(xiàn)新詞,然后利用G2P轉(zhuǎn)換獲取這些新詞的發(fā)音。常用的G2P轉(zhuǎn)換方法有基于聯(lián)合序列模型的方法[2]、基于神經(jīng)網(wǎng)絡(luò)模型的方法[3]等?;诰W(wǎng)絡(luò)爬取的方法可以認(rèn)為是第一類(lèi)方法的特例,該方法通過(guò)爬取一些特殊的網(wǎng)頁(yè)(如維基字典等),直接獲取帶有發(fā)音的新詞,從而避免了G2P轉(zhuǎn)換帶來(lái)的錯(cuò)誤,保證了獲取新詞及發(fā)音的準(zhǔn)確性。借助文本語(yǔ)料的發(fā)音字典擴(kuò)展具有實(shí)現(xiàn)簡(jiǎn)單的優(yōu)點(diǎn),但文本語(yǔ)料往往存在較多的錯(cuò)誤,如拼寫(xiě)錯(cuò)誤等,這些錯(cuò)誤會(huì)增加發(fā)音字典的混淆度進(jìn)而影響識(shí)別性能[5]。此外,當(dāng)文本語(yǔ)料較少時(shí),該方法發(fā)現(xiàn)的新詞數(shù)量也有限。
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,音頻數(shù)據(jù)越來(lái)越成為一種較易獲取的數(shù)據(jù)資源。音頻數(shù)據(jù)中也會(huì)存在很多的新詞,并且這些新詞不在發(fā)音字典中,傳統(tǒng)的語(yǔ)音識(shí)別系統(tǒng)無(wú)法識(shí)別。這些新詞被稱為集外(out-of-vocabulary, OOV)詞、集內(nèi)(in-vocabulary, IV)詞。為了識(shí)別集外詞,文獻(xiàn)[6-9]采用不同的子詞單元構(gòu)建詞/子詞混合語(yǔ)音識(shí)別系統(tǒng)。該混合系統(tǒng)在解碼時(shí)將集外詞表示成一些被稱為子詞的語(yǔ)音單元序列,進(jìn)而利用這些子詞序列實(shí)現(xiàn)集外詞的識(shí)別。混合語(yǔ)音識(shí)別方法雖然可以識(shí)別集外詞,但在識(shí)別時(shí)同樣會(huì)將部分置信度較低的集內(nèi)詞識(shí)別成子詞形式,從而影響識(shí)別性能。此外該方法解碼復(fù)雜度較高,限制了其在實(shí)際中的應(yīng)用。
綜合上述方法,針對(duì)音頻數(shù)據(jù)中的新詞,本文提出一種新的基于混合語(yǔ)音識(shí)別系統(tǒng)的發(fā)音字典新詞學(xué)習(xí)方法。該方法利用混合語(yǔ)音識(shí)別系統(tǒng)的識(shí)別結(jié)果提取集外詞和發(fā)音,并借助感知器以及最大熵模型等對(duì)這些新詞及發(fā)音進(jìn)行優(yōu)化以降低錯(cuò)誤率;針對(duì)現(xiàn)有的混合語(yǔ)音識(shí)別系統(tǒng)集外詞召回率低,采用多個(gè)混合系統(tǒng)進(jìn)行融合以提高新詞發(fā)現(xiàn)率;最后提出了基于語(yǔ)法語(yǔ)義的語(yǔ)言模型參數(shù)估計(jì)方法。實(shí)驗(yàn)表明,新方法可以有效發(fā)現(xiàn)音頻數(shù)據(jù)中的新詞,采用擴(kuò)展后的字典,系統(tǒng)性能相對(duì)基線系統(tǒng)也有了較大提升。
圖1給出了混合語(yǔ)音識(shí)別系統(tǒng)框圖。混合語(yǔ)音識(shí)別系統(tǒng)與傳統(tǒng)語(yǔ)音識(shí)別系統(tǒng)的主要區(qū)別在于可以對(duì)集外詞進(jìn)行識(shí)別。在識(shí)別時(shí),混合語(yǔ)音識(shí)別系統(tǒng)首先采用混合字典以及混合語(yǔ)言模型得到混合識(shí)別結(jié)果。在混合識(shí)別結(jié)果中,集內(nèi)詞識(shí)別成詞的形式,而集外詞則識(shí)別成如音素(phones)、字母音素對(duì)(graphones)以及詞素(morphemes)等子詞形式。通過(guò)對(duì)混合識(shí)別結(jié)果進(jìn)行處理,從而得到最終詞級(jí)識(shí)別結(jié)果。
圖1 混合語(yǔ)音識(shí)別系統(tǒng)框架
1.1 混合字典
混合字典包含詞和子詞2種不同類(lèi)型的語(yǔ)音單元,子詞用于解碼時(shí)表示集外詞。本文討論音節(jié)和字母音素對(duì)2種類(lèi)型的子詞。其中,音節(jié)是由一個(gè)或幾個(gè)音素按一定規(guī)律組合而成的語(yǔ)音單位;字母音素對(duì)是在訓(xùn)練聯(lián)合序列模型字母音素轉(zhuǎn)換器時(shí)得到的,為字母序列和發(fā)音序列間的映射。本文分別使用Festival詞典工具[10]以及Sequitur G2P工具[2]獲取這2種子詞。所有子詞均加入詞邊界標(biāo)記,結(jié)尾子詞標(biāo)記為“#”,非結(jié)尾子詞標(biāo)記為“+”。引入詞邊界標(biāo)記雖然增加了子詞單元數(shù)量,但使集外詞的恢復(fù)變得更加簡(jiǎn)單。
1.2 混合語(yǔ)言模型
將語(yǔ)言模型訓(xùn)練語(yǔ)料中的集外詞表示成相應(yīng)的子詞序列得到混合語(yǔ)料。由混合語(yǔ)料訓(xùn)練得到混合語(yǔ)言模型。在混合語(yǔ)言模型中不僅包括詞的N-gram參數(shù),也包括詞與子詞以及子詞與子詞的N-gram參數(shù)。訓(xùn)練好的混合語(yǔ)言模型,通過(guò)設(shè)置集外詞插入懲罰因子POOV可以控制解碼時(shí)子詞單元出現(xiàn)的比例。如對(duì)于訓(xùn)練得到的語(yǔ)言模型參數(shù)ps(s1|w1w2),調(diào)整后的參數(shù)為pt(s1|w1w2)=pOOV·ps(s1|w1w2),其中s1為子詞,w1、w2為詞。采用該混合語(yǔ)言模型進(jìn)行解碼,即得到混合識(shí)別結(jié)果。
1.3 集外詞識(shí)別
集外詞識(shí)別模塊包括集外詞檢測(cè)和集外詞恢復(fù)2部分。集外詞檢測(cè)用于通過(guò)混合識(shí)別結(jié)果,確定集外詞的位置(在混合識(shí)別結(jié)果中,子詞序列出現(xiàn)的位置則表示集外詞位置),而集外詞恢復(fù)則是為了獲得集外詞的正確拼寫(xiě)。
針對(duì)集外詞恢復(fù),不同的子詞有不同的恢復(fù)方法。字母音素對(duì)本身包含了單詞的拼寫(xiě)形式可以直接用于集外詞的恢復(fù)。采用音節(jié)作為子詞單元時(shí),往往先根據(jù)音節(jié)序列獲取集外詞的音素序列,然后通過(guò)音素字母轉(zhuǎn)換(P2G)得到。圖2給出了一個(gè)集外詞識(shí)別示例,對(duì)混合解碼器得到的音節(jié)混合識(shí)別結(jié)果,首先通過(guò)音節(jié)序列確定集外詞位置,然后根據(jù)該序列以及詞邊界標(biāo)記確定集外詞的發(fā)音,最后經(jīng)過(guò)音素字母轉(zhuǎn)換獲得集外詞識(shí)別結(jié)果。
圖2 集外詞識(shí)別以及新詞學(xué)習(xí)示例
混合語(yǔ)音識(shí)別系統(tǒng)具有可以識(shí)別集外詞的優(yōu)點(diǎn),其識(shí)別得到的集外詞即為新詞(如圖2所示)。由于在識(shí)別以及音素字母轉(zhuǎn)換中都可能存在一些錯(cuò)誤,直接恢復(fù)得到的集外詞及發(fā)音準(zhǔn)確率較低,為此本文對(duì)識(shí)別得到的集外詞及發(fā)音進(jìn)行優(yōu)化以降低錯(cuò)誤率。同時(shí),針對(duì)混合語(yǔ)音識(shí)別系統(tǒng)集外詞召回率低的缺點(diǎn),采用多個(gè)混合系統(tǒng)來(lái)提高新詞的發(fā)現(xiàn)率。整個(gè)字典學(xué)習(xí)流程如圖3所示,對(duì)于給定的音頻數(shù)據(jù),首先采用多種子詞單元混合系統(tǒng)(本文只討論音節(jié)混合系統(tǒng)和字母音素對(duì)混合系統(tǒng))進(jìn)行集外詞識(shí)別;然后對(duì)獲取的集外詞及發(fā)音進(jìn)行優(yōu)化,降低錯(cuò)誤率;最后將篩選結(jié)果加入發(fā)音字典中,并完成字典及語(yǔ)言模型參數(shù)更新。
圖3 基于混合語(yǔ)音識(shí)別系統(tǒng)的字典新詞學(xué)習(xí)流程
對(duì)于獲取的新詞(即集外詞)及發(fā)音,本文采取的優(yōu)化措施歸納如下:
(1)對(duì)得到的新詞,首先進(jìn)行過(guò)濾去除集內(nèi)詞,這主要考慮到采用混合系統(tǒng)解碼時(shí)引入的一些虛警錯(cuò)誤;
(2)2個(gè)不同混合系統(tǒng)得到的相同的新詞及發(fā)音,認(rèn)為可信度較大,從而直接判為正確新詞;
(3)根據(jù)不同混合系統(tǒng)獲得的新詞及發(fā)音,確定不同的代價(jià)函數(shù),并通過(guò)設(shè)定不同的門(mén)限進(jìn)行篩選,將篩選結(jié)果擴(kuò)充到發(fā)音字典中。
2.1 代價(jià)函數(shù)的確定
導(dǎo)致學(xué)習(xí)到的新詞及其發(fā)音錯(cuò)誤的原因主要有2個(gè),一是識(shí)別錯(cuò)誤,即混合識(shí)別結(jié)果中存在識(shí)別錯(cuò)誤的子詞序列,二是恢復(fù)錯(cuò)誤,主要是在進(jìn)行集外詞恢復(fù)時(shí)導(dǎo)致的錯(cuò)誤。因此,代價(jià)函數(shù)應(yīng)包含對(duì)這2種錯(cuò)誤的評(píng)估。根據(jù)在進(jìn)行集外詞恢復(fù)時(shí)是否需要進(jìn)行P2G轉(zhuǎn)換,本文確定了2種類(lèi)型的代價(jià)函數(shù),一種是基于感知器模型的代價(jià)函數(shù),一種是基于最大熵模型的代價(jià)函數(shù)。
2.1.1 針對(duì)音節(jié)混合系統(tǒng)的代價(jià)函數(shù) 基于音節(jié)的混合系統(tǒng),在進(jìn)行集外詞恢復(fù)時(shí)需要進(jìn)行P2G轉(zhuǎn)換。對(duì)于獲取的新詞及發(fā)音,借助感知器模型[11]的思想構(gòu)造代價(jià)函數(shù)。首先計(jì)算多種特征值的線性加權(quán)和,即
g(s)=αf(s)=α0+α1f1(s)+α2f2(s)+α3f3(s)
(1)
式中:s為解碼得到的音節(jié)序列;α=[α0,α1,α2,α3]為特征權(quán)重;f1(s)為該音節(jié)序列的聲學(xué)模型得分(置信度得分),是解碼得到的音節(jié)序列中各音節(jié)聲學(xué)模型得分的乘積,定義為
(2)
其中sAM(i)為第i個(gè)音節(jié)的聲學(xué)模型得分;f2(s)為語(yǔ)言模型得分,通過(guò)將詞表中的單詞表示成音節(jié),從而訓(xùn)練得到音節(jié)語(yǔ)言模型并計(jì)算音節(jié)序列的得分;f3(s)為P2G轉(zhuǎn)換得分,由P2G轉(zhuǎn)換工具得到。由于g(s)是線性的,采用Sigmoid函數(shù)進(jìn)一步將實(shí)數(shù)域上的g(s)映射為0到1,得到最終代價(jià)函數(shù)
(3)
對(duì)于權(quán)重αi,采用感知器算法進(jìn)行學(xué)習(xí),首先,對(duì)φ(s)求導(dǎo)
φ′(s)|g(s)=φ(s)(1-φ(s))
(4)
其次,令d(s)代表訓(xùn)練樣本的正確分類(lèi),定義為
(5)
最后,根據(jù)訓(xùn)練樣本對(duì)權(quán)值進(jìn)行迭代訓(xùn)練,迭代公式如下
α=α+ηφ′(s)(d(s)-φ(s))f(s)
(6)
式中:η為訓(xùn)練步長(zhǎng),本文選取固定的η為1。
2.1.2 針對(duì)字母音素對(duì)混合系統(tǒng)的代價(jià)函數(shù) 基于字母音素對(duì)的混合系統(tǒng),進(jìn)行集外詞恢復(fù)時(shí)不需要進(jìn)行P2G轉(zhuǎn)換,對(duì)此本文采用最大熵模型(Maximum Entropy,ME)[12]確定代價(jià)函數(shù)
(7)
(8)
式中:y為分類(lèi)標(biāo)簽,結(jié)果屬于集合{RIGHT,WRONG};s為獲取的字母音素對(duì)序列;f(s,y)為特征函數(shù),是一個(gè)二值函數(shù);k為特征函數(shù)的個(gè)數(shù);λi為權(quán)重;Z(s)為歸一化因子。
在最大熵模型中,關(guān)鍵是要選取合適的特征,對(duì)于得到的新詞及發(fā)音,判定其正確與否的因素有該詞包含的字母音素對(duì)個(gè)數(shù)、字母音素對(duì)序列的聲學(xué)模型以及語(yǔ)言模型得分等。根據(jù)這些因素,建立特征模板,并根據(jù)訓(xùn)練集數(shù)據(jù)定義每個(gè)模板取值范圍,如表1所示,模板1~5是決定新詞是否正確的特征模板,模板6為一個(gè)特殊模板,表示判定結(jié)果。在表1定義的特征模板中,模板2用于判斷字母音素對(duì)序列中是否含有字母音素對(duì)語(yǔ)言模型的二元和三元條目,目的在于確定該字母音素對(duì)序列是否符合單詞的構(gòu)成規(guī)則。模板4和5的定義與2.1.1節(jié)中的定義相似,在獲取聲學(xué)模型得分與語(yǔ)言模型得分后,計(jì)算所有得分的均值μ和方差σ,
并由此確定閾值
T=μ+σ。
當(dāng)模板函數(shù)取特定值時(shí),該模板被實(shí)例化,得到具體特征。取1~5號(hào)中任一模板,確定模板取值,并結(jié)合當(dāng)前判定結(jié)果的值(即DEFAULT的值),就可以產(chǎn)生一個(gè)特征。定義特征格式為A-B=C,其中A為特征模板為對(duì)新詞判定時(shí)需要考慮的因素;B為該特征模板的取值;C為模板DEFAULT的取值,表示判定結(jié)果。
例如由模板1可以確定一個(gè)特征ENDTAG-#=RIGHT,表示為二值特征函數(shù)
(9)
該特征函數(shù)表示如果新詞對(duì)應(yīng)的子詞單元序列中最后一個(gè)子詞單元的結(jié)尾標(biāo)記為“#”,并且該新詞正確,則函數(shù)值為1,否則為0。確定特征集合后,通過(guò)訓(xùn)練數(shù)據(jù)(Dev93開(kāi)發(fā)集)進(jìn)行參數(shù)估計(jì)。
2.2 語(yǔ)言模型參數(shù)的估計(jì)
加入字典中的新詞及發(fā)音,只有在語(yǔ)言模型中包含其相關(guān)的參數(shù),才能被識(shí)別系統(tǒng)正確識(shí)別。針對(duì)該問(wèn)題,可以采用較大的語(yǔ)言模型訓(xùn)練語(yǔ)料,對(duì)語(yǔ)言模型進(jìn)行重新訓(xùn)練,但在缺少訓(xùn)練所需的語(yǔ)料時(shí),這些參數(shù)便無(wú)法通過(guò)最大似然估計(jì)有效獲取。為此,本文利用語(yǔ)法以及語(yǔ)義信息來(lái)實(shí)現(xiàn)這些參數(shù)的估計(jì),該方法的主要步驟如下。
步驟1 估計(jì)新詞的unigram參數(shù)。采用Stanford MaxEnt POS[13]對(duì)包含新詞的識(shí)別結(jié)果進(jìn)行詞性標(biāo)注,獲取新詞及其上下文單詞的詞性信息。假設(shè)wi為加入到字典中的新詞,li為其標(biāo)注(即詞性),則該詞的unigram得分可以表示為
(10)
式中:p(li)是標(biāo)注li的先驗(yàn)概率;p(wi|li)為從標(biāo)注為li的所有單詞中觀測(cè)到新詞wi的概率,采用下式進(jìn)行估計(jì)
(11) 表1 特征模板及取值范圍
其中N為訓(xùn)練集中標(biāo)記為li的集內(nèi)詞的個(gè)數(shù)。
步驟2 估計(jì)新詞的bigram以及trigram參數(shù)。參照步驟1,對(duì)2種參數(shù)的計(jì)算分別如式(12)和式(13)所示
(12)
(13)
式中:li-1和li-2分別為第i-1和第i-2個(gè)位置的單詞的標(biāo)注。
步驟3 借助WordNet[14]獲取更多的語(yǔ)言模型參數(shù)。采用詞性信息獲取的新詞語(yǔ)言模型參數(shù)數(shù)量較少,在真實(shí)條件下得到的新詞可能出現(xiàn)在不同語(yǔ)境中。對(duì)于得到的新詞,首先利用WordNet獲取與該詞具有相似語(yǔ)義的集內(nèi)詞(即同義集內(nèi)詞);然后獲得這些集內(nèi)詞的bigram以及trigram語(yǔ)言模型參數(shù),并將這些參數(shù)中的集內(nèi)詞用相應(yīng)的新詞進(jìn)行替換,從而得到更多的語(yǔ)言模型參數(shù)。
3.1 實(shí)驗(yàn)數(shù)據(jù)
選用華爾街日?qǐng)?bào)(Wall Street Journal,WSJ)語(yǔ)料庫(kù)作為實(shí)驗(yàn)語(yǔ)料庫(kù),其中聲學(xué)模型訓(xùn)練集由WSJ0和WSJ1中的37 416句話構(gòu)成,包含284個(gè)說(shuō)話人,共約80 h。選用WSJ Dev93開(kāi)發(fā)集,用于新詞優(yōu)化中代價(jià)函數(shù)參數(shù)的訓(xùn)練。選用WSJ Eval93和WSJ Eval92測(cè)試集,分別用于優(yōu)化過(guò)程中門(mén)限值的確定以及最終測(cè)試集。語(yǔ)言模型訓(xùn)練數(shù)據(jù)采用WSJ 87-89文本數(shù)據(jù),大小約215 MB。對(duì)上述文本進(jìn)行統(tǒng)計(jì)得到出現(xiàn)頻率最高的2×104個(gè)單詞,并通過(guò)CMUdict[15]獲取發(fā)音,構(gòu)造發(fā)音字典。表2給出了采用該發(fā)音字典時(shí)不同數(shù)據(jù)集中集外詞數(shù)量以及所占比例。
表2 各數(shù)據(jù)集中集外詞所占比例
3.2 實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)主要基于開(kāi)源工具包Kaldi搭建。聲學(xué)特征采用13維的MFCC參數(shù)及其一階、二階差分,總特征維數(shù)為39維,幀長(zhǎng)為25 ms,幀移為10 ms。聲學(xué)模型采用最大似然估計(jì)(MLE)方法得到,為包含3個(gè)發(fā)射狀態(tài)的、自左向右無(wú)跨越的3音子HMM模型。采用基于決策樹(shù)的三音子狀態(tài)聚類(lèi),得到3 285個(gè)不同的上下文相關(guān)狀態(tài),模型中總的高斯混元數(shù)為2×104。所有的語(yǔ)言模型為3-gram語(yǔ)言模型。集外詞插入懲罰因子POOV設(shè)置為0到5.5,步長(zhǎng)0.5。
3.3 評(píng)測(cè)指標(biāo)
集外詞檢測(cè)中常用的衡量指標(biāo)為虛警概率Pfa和漏檢概率Pmiss,定義為
%
(14)
式中:Nfa為虛警數(shù),即檢測(cè)集外詞中包含的集內(nèi)詞個(gè)數(shù);NIV-ref為參考文本中給定的集內(nèi)詞數(shù)量;Nmiss為漏檢數(shù),即未檢測(cè)出的集外詞個(gè)數(shù);NOOV-ref為參考文本中給定的集外詞個(gè)數(shù)。在虛警率和漏檢率的基礎(chǔ)上,可以通過(guò)檢測(cè)錯(cuò)誤折衷(detection error trade-off,DET)作為系統(tǒng)性能評(píng)價(jià)指標(biāo),曲線越靠近坐標(biāo)原點(diǎn)則系統(tǒng)性能越好。
學(xué)習(xí)到的新詞通過(guò)準(zhǔn)確率Pac和召回率Pre衡量,定義為
%
(15)
式中:Nright表示篩選結(jié)果中發(fā)音正確的新詞個(gè)數(shù);Nfiltered為篩選后總的新詞個(gè)數(shù);Nref為音頻數(shù)據(jù)中總的新詞個(gè)數(shù)。此外,本文也采用綜合這兩者的F值來(lái)衡量新詞學(xué)習(xí)性能
(16)
3.4 實(shí)驗(yàn)結(jié)果
本文建立了3套語(yǔ)音識(shí)別系統(tǒng)分別用于新詞學(xué)習(xí)以及發(fā)音字典擴(kuò)展前后識(shí)別性能的比較:①Base_20k系統(tǒng)為詞表大小為2×104的傳統(tǒng)語(yǔ)音識(shí)別系統(tǒng);②Hybrid_syllbale系統(tǒng)為采用音節(jié)作為子詞單元的混合語(yǔ)音識(shí)別系統(tǒng);③Hybrid_graphone系統(tǒng)為采用字母音素對(duì)作為子詞單元的混合語(yǔ)音識(shí)別系統(tǒng)。
圖4 2種系統(tǒng)的集外詞檢測(cè)性能
3.4.1 基于混合系統(tǒng)的集外詞識(shí)別 進(jìn)行集外詞檢測(cè)時(shí),根據(jù)處理后的混合識(shí)別結(jié)果,子詞單元出現(xiàn)的區(qū)域可以認(rèn)為是集外詞區(qū)域。圖4是通過(guò)設(shè)置不同的集外詞插入懲罰因子POOV對(duì)Eval92測(cè)試集得到的不同系統(tǒng)的集外詞檢測(cè)DET性能曲線。從圖中可以看出,音節(jié)混合系統(tǒng)以及字母音素對(duì)混合系統(tǒng)在集外詞檢測(cè)方面具有相近的性能,但是由于不同子詞單元具有不同的特性,從而使得輸出結(jié)果存在一定的互補(bǔ)性。
表3為POOV=1的情況下,2個(gè)混合系統(tǒng)的集外詞檢測(cè)與恢復(fù)比率(即正確檢測(cè)集外詞個(gè)數(shù)與正確恢復(fù)集外詞個(gè)數(shù)占參考中總集外詞數(shù)量的比例)??梢钥闯?雖然2個(gè)混合系統(tǒng)有超過(guò)一半的集外詞被正確檢測(cè)出,但是最終正確恢復(fù)得到的集外詞僅有30%左右,這說(shuō)明即便識(shí)別音頻中的新詞被檢測(cè)到,但由于識(shí)別得到的子詞以及在恢復(fù)過(guò)程中都可能存在錯(cuò)誤,從而導(dǎo)致學(xué)習(xí)到的新詞以及發(fā)音的錯(cuò)誤。這些錯(cuò)誤加入到發(fā)音字典中,會(huì)降低字典的質(zhì)量,從而對(duì)識(shí)別性能造成影響。將2個(gè)系統(tǒng)的識(shí)別結(jié)果進(jìn)行融合,可以發(fā)現(xiàn)集外詞檢測(cè)以及恢復(fù)比率都有提升,從而使得學(xué)習(xí)到新詞的概率大大增加。
表3 不同系統(tǒng)的集外詞檢測(cè)與恢復(fù)比率
3.4.2 新詞及發(fā)音優(yōu)化 音節(jié)混合系統(tǒng)以及字母音素對(duì)混合系統(tǒng)采用不同的代價(jià)函數(shù)進(jìn)行新詞優(yōu)化,需要確定合理的門(mén)限值,以獲取最優(yōu)的系統(tǒng)性能。圖5是Eval93測(cè)試集在不同門(mén)限值下采用不同混合系統(tǒng)經(jīng)過(guò)篩選后的新詞及其發(fā)音的F值。
(a)音節(jié)混合系統(tǒng) (b)字母音素對(duì)混合系統(tǒng)圖5 不同門(mén)限值對(duì)新詞優(yōu)化的影響
由圖5可以看出,2個(gè)系統(tǒng)只有在選擇合理門(mén)限的情況下,才能獲得更好的篩選結(jié)果。如果門(mén)限值過(guò)低,則篩選后的結(jié)果中會(huì)存在較多的錯(cuò)誤集外詞及發(fā)音。門(mén)限值過(guò)高時(shí),雖然可以保證較高的準(zhǔn)確度,但是同樣會(huì)使一些正確的集外詞被過(guò)濾。根據(jù)圖中結(jié)果,本文對(duì)于音節(jié)混合系統(tǒng)采用門(mén)限值為0.6,對(duì)字母音素對(duì)混合系統(tǒng)采用門(mén)限值為0.5。表4是在上述門(mén)限下,對(duì)Eval92測(cè)試集獲取的新詞及其發(fā)音篩選前后的準(zhǔn)確率和召回率,其中,graphones NWs表示字母音素對(duì)混合系統(tǒng)得到的新詞及發(fā)音,syllable NWs表示音節(jié)混合系統(tǒng)得到的新詞及發(fā)音,same NWs為2個(gè)混合系統(tǒng)中相同的新詞及發(fā)音,all為對(duì)上述得到的3類(lèi)新詞進(jìn)行融合??梢钥闯鰞?yōu)化后,新詞的準(zhǔn)確率獲得了較大的提升,2個(gè)混合系統(tǒng)中相同的新詞具有最高的準(zhǔn)確率86.96%。但是,通過(guò)篩選也會(huì)使部分正確的新詞及其發(fā)音被過(guò)濾掉,導(dǎo)致召回率下降。將3種篩選方式得到的結(jié)果合并到一起,可以看出準(zhǔn)確率要略微下降。其原因在于,3種篩選方式中可能存在不同錯(cuò)誤的新詞。但是,通過(guò)合并利用了不同系統(tǒng)間的互補(bǔ)性,召回率明顯提高,此時(shí)的召回率已與優(yōu)化前各單系統(tǒng)的召回率相當(dāng),但準(zhǔn)確率明顯高于各單系統(tǒng)。此外,擴(kuò)展后的發(fā)音字典可以通過(guò)人工篩選來(lái)進(jìn)一步提高準(zhǔn)確率。
在運(yùn)算量方面,2種混合系統(tǒng)均受數(shù)據(jù)量以及數(shù)據(jù)集中集外詞比例的影響。相比于音節(jié)混合系統(tǒng),字母音素對(duì)混合系統(tǒng)采用的代價(jià)函數(shù)更為復(fù)雜,且提取的特征數(shù)量較多,但是不需要進(jìn)行P2G轉(zhuǎn)換,從實(shí)驗(yàn)過(guò)程中的時(shí)間消耗來(lái)看,2個(gè)系統(tǒng)具有相近的運(yùn)算效率。
表4 優(yōu)化前后新詞及發(fā)音準(zhǔn)確率和召回率對(duì)比
3.4.3 擴(kuò)展發(fā)音字典及語(yǔ)言模型在連續(xù)語(yǔ)音識(shí)別中的應(yīng)用 為了驗(yàn)證本文方法的有效性,在Base_20k系統(tǒng)的基礎(chǔ)上,將學(xué)習(xí)到的新詞加入2×104字典中,分別采用WSJ語(yǔ)言模型訓(xùn)練語(yǔ)料以及2.2節(jié)中所述的語(yǔ)言模型參數(shù)更新方法對(duì)語(yǔ)言模型參數(shù)進(jìn)行更新,并與Eval92測(cè)試集的識(shí)別性能進(jìn)行對(duì)比。
圖6給出了對(duì)表4中4種不同方式得到的新詞采用3種語(yǔ)言模型參數(shù)更新方法的識(shí)別性能對(duì)比。其中,WSJ-corpus LM為采用WSJ語(yǔ)言模型訓(xùn)練語(yǔ)料重新訓(xùn)練的語(yǔ)言模型,Syntactic LM為僅采用語(yǔ)法信息更新參數(shù)后的語(yǔ)言模型,Syntactic+Semantic LM為采用語(yǔ)法語(yǔ)義信息更新參數(shù)后的語(yǔ)言模型??梢钥闯?采用擴(kuò)展后的字典,各系統(tǒng)的識(shí)別錯(cuò)誤率相比基線系統(tǒng)(Base_20k)都有較為明顯的下降,其中采用2個(gè)系統(tǒng)融合得到的優(yōu)化新詞(All),語(yǔ)言模型采用Syntactic+Semantic LM時(shí)的詞錯(cuò)誤率最低(7.55%),相對(duì)基線系統(tǒng)的8.72%的詞錯(cuò)誤率,降低約13.4%。采用WordNet加入語(yǔ)義信息更新語(yǔ)言模型參數(shù)后,系統(tǒng)的識(shí)別性能并沒(méi)有比單采用語(yǔ)法信息提高太多,這是因?yàn)殡m然利用語(yǔ)義信息獲得了更多的新詞語(yǔ)言模型參數(shù),但這些加入的bigram以及trigram參數(shù),并沒(méi)有出現(xiàn)在測(cè)試集中,但當(dāng)面對(duì)新的識(shí)別任務(wù)時(shí),加入字典的新詞就可能出現(xiàn)一些新的上下文情況,單靠語(yǔ)法信息獲得的語(yǔ)言模型參數(shù),是無(wú)法預(yù)測(cè)這些情況的。從圖中還可以看出,采用WSJ語(yǔ)言模型訓(xùn)練語(yǔ)料重新訓(xùn)練的語(yǔ)言模型,與2.2節(jié)的語(yǔ)言模型參數(shù)更新方法獲得了相近的識(shí)別性能,這也驗(yàn)證了本文語(yǔ)言模型參數(shù)更新方法的有效性。但是,重新訓(xùn)練的語(yǔ)言模型可以更好地應(yīng)對(duì)一些未知情況,因此采用語(yǔ)法語(yǔ)義信息進(jìn)行語(yǔ)言模型參數(shù)的更新更多的只用在缺少語(yǔ)言模型訓(xùn)練語(yǔ)料時(shí)。
圖6 3種語(yǔ)言模型參數(shù)更新方法對(duì)系統(tǒng)性能的影響
本文提出了一種針對(duì)音頻數(shù)據(jù)的字典新詞學(xué)習(xí)方法,可以作為現(xiàn)有的利用文本數(shù)據(jù)進(jìn)行字典新詞學(xué)習(xí)的補(bǔ)充。該方法利用多套混合語(yǔ)音識(shí)別系統(tǒng)進(jìn)行新詞學(xué)習(xí),并通過(guò)一定的數(shù)據(jù)優(yōu)化策略來(lái)提高新詞的發(fā)現(xiàn)率以及準(zhǔn)確率。同時(shí),針對(duì)語(yǔ)言模型,采用語(yǔ)法語(yǔ)義信息完成對(duì)新詞語(yǔ)言模型參數(shù)的更新。相關(guān)實(shí)驗(yàn)結(jié)果表明,本文方法能有效發(fā)現(xiàn)音頻數(shù)據(jù)中的新詞,選取的數(shù)據(jù)優(yōu)化策略極大地提高了加入字典中的新詞及發(fā)音的精度。
[1] DAVEL M, MARTIROSIAN O. Pronunciation diction-nary development in resource-scarce environments [C]∥Proceedings of International Speech Communication Association. Grenoble, France: ISCA, 2009: 2851-2854.
[2] BISANI M, NEY H. Joint-sequence models for grapheme-to-phoneme conversion [J]. Speech Communication, 2008, 50(5): 434-451.
[3] RAO K, PENG F, SAK H, et al. Grapheme-to-phoneme conversion using long short-term memory recurrent neural networks [C]∥Proceedings of International Conference on Acoustics, Speech, and Signal Processing. Piscataway, NJ, USA: IEEE, 2015: 4225-4229.
[4] TIM S, OCHS S, TANJA S. Web-based tools and methods for rapid pronunciation dictionary creation [J]. Speech Communication, 2014, 56(1): 101-118.
[5] BERT R, KRIS D, MARTENS J. An improved two-stage mixed language model approach for handling out-of-vocabulary words in large vocabulary continuous speech recognition [J]. Computer Speech and Language, 2014, 28(1): 141-162.
[6] 鄭鐵然, 韓紀(jì)慶, 李海洋. 基于詞片的語(yǔ)言模型及在漢語(yǔ)語(yǔ)音檢索中的應(yīng)用 [J]. 通信學(xué)報(bào), 2009, 30(3): 84-88. ZHENG Tieran, HAN Jiqing, LI Haiyang. Study on performance optimization for Chinese speech retrieval [J]. Journal on Communications, 2009, 30(3): 84-88.
[7] HE Y Z, BRIAN H, PRTER B. Subword-based modeling for handling OOV words in keyword spotting [C]∥Proceedings of International Conference on Acoustics, Speech, and Signal Processing. Piscataway, NJ, USA: IEEE, 2014: 7914-7918.
[8] QIN L, RUDNICKY A I. OOV word detection using hybrid models with mixed types of fragments [C]∥Proceedings of International Speech Communication Association. Grenoble, France: ISCA, 2012: 2450-2453.
[9] BASHA S, AMR M, HAHN S. Improved strategies for a zero OOV rate LVCSR system [C]∥Proceedings of International Conference on Acoustics, Speech, and Signal Processing. Piscataway, NJ, USA: IEEE, 2015: 5048-5052.
[10]BLACK A W, TAYLOR P, CALEY R. The festival speech synthesis system [EB/OL]. (2002-12-27)[2016-01-04]. http: ∥www.festvox.org/docs/manual-1.4.3/.
[11]韓冰, 劉一佳, 車(chē)萬(wàn)翔. 基于感知器的中文分詞增量訓(xùn)練方法研究 [J]. 中文信息學(xué)報(bào), 2015, 29(5): 49-54. HAN Bing, LIU Yijia, CHE Wanxiang. An incremental learning scheme for perceptron based Chinese segmentation [J]. Journal of Chinese Information, 2015, 29(5): 49-54.
[12]李素建, 王厚峰, 俞士汶. 關(guān)鍵詞自動(dòng)標(biāo)引的最大熵模型應(yīng)用研究 [J]. 計(jì)算機(jī)學(xué)報(bào), 2004, 27(9): 1192-1197.
LI Sujian, WANG Houfeng, YU Shiwen. Research on maximum entropy model for keyword indexing [J]. Chinese Journal of Computers, 2004, 27(9): 1192-1197.
[13]KLEIN D, MANNING C. Feature-rich part-of-speech tagging with a cyclic dependency network [C]∥Proceedings of Human Language Technology and North American Chapter of the Association for Computational Linguistics. Cambridge, MA, USA: ACL, 2003: 252-259.
[14]MILLER G. WordNet: a lexical database for English [J]. Communications of the ACM, 1995, 38(11): 39-41.
[15]Carnegie Mellon University. The CMU pronunciation dictionary [EB/OL]. (2007-03-19)[2016-01-04]. http: ∥www.speech.cs.cmu.edu/cgi-bin/cmudict.
(編輯 劉楊)
Learning New Words for Pronunciation Lexicon from Audio Data
FAN Zhengguang,QU Dan,YAN Honggang,ZHANG Wenlin
(Institute of Information System Engineering, PLA Information Engineering University, Zhengzhou 450002, China)
A self-learning method of new pronunciation lexicons based on a hybrid speech recognition system is proposed to solve the problem that the existing self-expanding methods of pronunciation lexicons can only learn new words from text data but cannot learn from audio data. The method utilizes both the syllables and the graphones hybrid systems to recognize the out-of-vocabulary words in the audio data and then obtains as many new words with their pronunciations as possible by using the complementary information of the two systems. Then the new word and its pronunciation candidates are optimized using a perceptron model and a maximum entropy model to reduce the error rate. Finally, the lexicon is expanded and the language model parameters are updated by using syntactic and semantic information. Experimental results of continuous speech recognition on Wall Street Journal speech database show that the proposed method learns new words from audio data effectively, and the accuracy is greatly improved by using the data optimization strategies. The extended lexicon system yields a relative gain of 13.4% over the base line system in terms of word error rates.
speech recognition; pronunciation lexicon; new words learning; out-of-vocabulary words
2016-01-16。 作者簡(jiǎn)介:范正光(1990—),男,碩士生;屈丹(通信作者),女,博士,副教授。 基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(61175017,61403415,61302107)。
時(shí)間:2016-04-03
10.7652/xjtuxb201606012
TN912.3
A
0253-987X(2016)06-0075-08
網(wǎng)絡(luò)出版地址:http:∥www.cnki.net/kcms/detail/61.1069.T.20160403.1846.010.html