亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于循環(huán)神經(jīng)網(wǎng)絡(luò)的漢語(yǔ)語(yǔ)言模型建模方法

        2015-09-15 16:04:57王龍楊俊安陳雷林偉
        聲學(xué)技術(shù) 2015年5期
        關(guān)鍵詞:識(shí)別率語(yǔ)料語(yǔ)音

        王龍,楊俊安,陳雷,林偉

        ?

        基于循環(huán)神經(jīng)網(wǎng)絡(luò)的漢語(yǔ)語(yǔ)言模型建模方法

        王龍1,2,楊俊安1,2,陳雷1,2,林偉3

        (1. 中國(guó)人民解放軍電子工程學(xué)院,安徽合肥 230037;2. 安徽省電子制約技術(shù)重點(diǎn)實(shí)驗(yàn)室,安徽合肥 230037; 3 安徽科大訊飛公司,安徽合肥 230037)

        語(yǔ)言模型是語(yǔ)音識(shí)別系統(tǒng)的重要組成部分,目前的主流是-gram模型。然而gram模型存在一些不足,對(duì)語(yǔ)句中長(zhǎng)距信息描述差、數(shù)據(jù)稀疏是影響模型性能的兩個(gè)重要因素。針對(duì)不足,研究者提出循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)建模技術(shù),在英語(yǔ)語(yǔ)言模型建模上取得了較好的效果。根據(jù)漢語(yǔ)特點(diǎn)將RNN建模方法應(yīng)用于漢語(yǔ)語(yǔ)言建模,并結(jié)合兩種模型的優(yōu)點(diǎn),提出了模型融合構(gòu)建方法。實(shí)驗(yàn)結(jié)果表明:相比傳統(tǒng)的-gram語(yǔ)言模型,采用RNN訓(xùn)練的漢語(yǔ)語(yǔ)言模型困惑度(PerPLexity, PPL)有了下降,在對(duì)漢語(yǔ)電話信道的語(yǔ)音識(shí)別上,系統(tǒng)錯(cuò)誤率也有下降,將兩種語(yǔ)言模型融合后,系統(tǒng)識(shí)別錯(cuò)誤率更低。

        語(yǔ)音識(shí)別;循環(huán)神經(jīng)網(wǎng)絡(luò);語(yǔ)言模型;模型融合

        0 引言

        語(yǔ)音識(shí)別(Speech Recognition)是指機(jī)器通過(guò)識(shí)別和理解,把人類的語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)文本或命令。由于語(yǔ)音信號(hào)的動(dòng)態(tài)時(shí)變性、瞬時(shí)性和隨機(jī)性,單靠聲學(xué)模型的匹配與判斷無(wú)法完成語(yǔ)音無(wú)誤的識(shí)別和理解[1],需要在此基礎(chǔ)上結(jié)合語(yǔ)法、語(yǔ)義以及上下文內(nèi)容等非聲學(xué)的語(yǔ)言知識(shí)加以約束,進(jìn)而提高系統(tǒng)的識(shí)別準(zhǔn)確率。語(yǔ)言模型用于刻畫自然語(yǔ)言中的內(nèi)在規(guī)律,能夠提供字或詞之間的上下文和語(yǔ)義信息,因此成為語(yǔ)音識(shí)別系統(tǒng)的重要組成部分。

        目前,基于回退(back-off)平滑算法的-gram語(yǔ)言模型,在漢語(yǔ)語(yǔ)言模型建模領(lǐng)域占據(jù)主導(dǎo)地位。-gram建模技術(shù)具有很好的建模能力,實(shí)現(xiàn)也相對(duì)簡(jiǎn)單,當(dāng)語(yǔ)料充足時(shí),能夠訓(xùn)練出性能很好的模型。但此建模技術(shù)仍有明顯缺點(diǎn)。一是對(duì)語(yǔ)句中長(zhǎng)距依存描述能力較弱,在訓(xùn)練時(shí),模型階數(shù)通常取2(Bi-gram)或3(Tri-gram);二是數(shù)據(jù)稀疏,由于訓(xùn)練語(yǔ)料中不可能覆蓋所有的語(yǔ)言現(xiàn)象,此時(shí)就會(huì)造成“零概率”即數(shù)據(jù)稀疏。且模型階數(shù)越大,數(shù)據(jù)稀疏越嚴(yán)重,需要另外結(jié)合數(shù)據(jù)平滑技術(shù)進(jìn)行訓(xùn)練。

        研究者致力于解決-gram語(yǔ)言模型的固有缺陷問(wèn)題,希望機(jī)器對(duì)語(yǔ)言的理解能夠更加接近于人類的理解,進(jìn)而提高實(shí)際語(yǔ)音識(shí)別系統(tǒng)的性能,故神經(jīng)網(wǎng)絡(luò)(Neural Network)逐漸在語(yǔ)音信號(hào)處理中得到應(yīng)用[2,3],并取得了較好的效果。用神經(jīng)網(wǎng)絡(luò)訓(xùn)練語(yǔ)言模型的思想最早由徐偉于2000年提出[4],在實(shí)驗(yàn)中,采用神經(jīng)網(wǎng)絡(luò)訓(xùn)練出的二元語(yǔ)言模型取得了比Bi-gram結(jié)合平滑算法更好的模型性能。隨后,Bengio在網(wǎng)絡(luò)中增加一個(gè)隱含層,構(gòu)建了一個(gè)三層的前饋神經(jīng)網(wǎng)絡(luò)來(lái)訓(xùn)練模型[5],此網(wǎng)絡(luò)結(jié)構(gòu)能夠描述詞與詞之間更高元的依附關(guān)系,取得了比-gram語(yǔ)言模型更好的效果。然而,模型訓(xùn)練時(shí)需要對(duì)訓(xùn)練語(yǔ)料進(jìn)行特殊處理,還需要較好的參數(shù)選擇,因此不容易實(shí)現(xiàn)。循環(huán)神經(jīng)網(wǎng)絡(luò)[6]的語(yǔ)言模型建模方法相比Bengio的網(wǎng)絡(luò)結(jié)構(gòu),RNN增加了一個(gè)可以反饋信息的存儲(chǔ)層,能夠存儲(chǔ)當(dāng)前詞的所有歷史信息,此時(shí)網(wǎng)絡(luò)能夠以當(dāng)前詞的整個(gè)上下文作為依據(jù),預(yù)測(cè)下一個(gè)詞的出現(xiàn)概率。另外,在模型訓(xùn)練的過(guò)程中,由于當(dāng)前詞的歷史信息被映射到低維連續(xù)空間,語(yǔ)義相似的詞被聚類,在語(yǔ)料中出現(xiàn)次數(shù)較少的詞仍然能夠得到很好地訓(xùn)練,解決了數(shù)據(jù)稀疏問(wèn)題。

        在漢語(yǔ)語(yǔ)言模型建模技術(shù)中,占主導(dǎo)地位的依然是基于統(tǒng)計(jì)規(guī)則的-gram建模技術(shù)。本文根據(jù)漢語(yǔ)的特點(diǎn)首先將RNN建模方法應(yīng)用到漢語(yǔ)語(yǔ)言模型建模,并在此基礎(chǔ)上結(jié)合兩個(gè)模型的優(yōu)勢(shì),提出了一種模型融合構(gòu)建方法。實(shí)驗(yàn)結(jié)果表明:基于RNN的漢語(yǔ)語(yǔ)言模型及融合方法構(gòu)建的模型,在實(shí)際識(shí)別系統(tǒng)的識(shí)別率上都取得了較好的效果。

        1 漢語(yǔ)語(yǔ)音識(shí)別系統(tǒng)

        1.1 概述

        完整的語(yǔ)音識(shí)別系統(tǒng)基本原理框圖如圖1所示,先將語(yǔ)音信號(hào)數(shù)字化,其預(yù)處理包括預(yù)加重、加窗、分幀、端點(diǎn)檢測(cè)等過(guò)程。再對(duì)其聲學(xué)參數(shù)進(jìn)行分析,提取出語(yǔ)音特征參數(shù),形成特征矢量序列,包括短時(shí)平均幅度或能量、頻譜、平均過(guò)零率,線性預(yù)測(cè)倒譜系數(shù)、Mel倒譜系數(shù)等。在識(shí)別階段,將待識(shí)別語(yǔ)音的特征矢量參數(shù)同訓(xùn)練得到的參考模板庫(kù)中的模式進(jìn)行相似性度量比較,將相似度較高的模式所屬的類別作為識(shí)別中間候選結(jié)果輸出。在后處理階段,通過(guò)語(yǔ)言模型對(duì)初步識(shí)別候選結(jié)果進(jìn)行判斷和決策,可以有效地提高解碼的效率和精度[7],對(duì)于漢語(yǔ)存在大量的同音字、多音字,較高層次的語(yǔ)言知識(shí)的利用能夠在聲學(xué)識(shí)別的基礎(chǔ)上減少模式匹配的模糊性,提高了系統(tǒng)識(shí)別的精確度。

        上述工作完成后,得到的聲學(xué)特征矢量,記為。自然語(yǔ)言可以被看作是一個(gè)隨機(jī)序列,文本中的每個(gè)句子或詞都是具有一定分布的隨機(jī)變量。假設(shè)詞(漢語(yǔ)中包含單字)是一個(gè)句子最小的結(jié)構(gòu)單位,一個(gè)合理的包含個(gè)詞的語(yǔ)句由詞序列組成。依貝葉斯準(zhǔn)則,語(yǔ)音識(shí)別的過(guò)程就是根據(jù)式(1),找出當(dāng)前聲學(xué)特征序列出現(xiàn)概率最大的詞序列作為識(shí)別結(jié)果[8]。

        (2)

        1.2-gram語(yǔ)言模型

        統(tǒng)計(jì)規(guī)則的-gram語(yǔ)言模型于1980年提出[9],是應(yīng)用廣泛的語(yǔ)言模型,它采用Markov假設(shè),即認(rèn)為每一個(gè)預(yù)測(cè)變量出現(xiàn)的可能性只與長(zhǎng)度為-1的上下文有關(guān)。若將詞的歷史信息表示為,則根據(jù)條件概率公式及Markov假設(shè),詞和句子出現(xiàn)的概率分別為:

        (4)

        對(duì)于-gram語(yǔ)言模型而言,通常需要對(duì)大規(guī)模的語(yǔ)料進(jìn)行訓(xùn)練,語(yǔ)料中出現(xiàn)頻率越高的詞往往能夠訓(xùn)練得越好,而對(duì)低頻詞訓(xùn)練的效果不理想。另外,階數(shù)越大,模型的約束力越強(qiáng),然而隨著的增大,模型規(guī)模成指數(shù)級(jí)增長(zhǎng),訓(xùn)練時(shí)計(jì)算復(fù)雜度增大,對(duì)存儲(chǔ)空間也提出了更高的要求。因此合適的值是語(yǔ)言模型精確度與復(fù)雜度之間的折衷。在實(shí)際識(shí)別系統(tǒng)中,一般選擇=3來(lái)構(gòu)造Tri-gram語(yǔ)言模型,即訓(xùn)練數(shù)據(jù)的句子中每個(gè)詞出現(xiàn)的概率只與其前兩個(gè)詞有關(guān),可表示為

        本文針對(duì)漢語(yǔ)語(yǔ)音識(shí)別系統(tǒng)中的語(yǔ)言模型進(jìn)行改進(jìn),在基線系統(tǒng)其他模塊不變的情況下,用RNN語(yǔ)言模型對(duì)初步識(shí)別候選結(jié)果重打分,進(jìn)行識(shí)別后處理,完成整個(gè)系統(tǒng)的識(shí)別過(guò)程。

        2 RNN語(yǔ)言模型

        參考文獻(xiàn)[10]指出:循環(huán)神經(jīng)網(wǎng)絡(luò)又稱為Elman網(wǎng)絡(luò),其結(jié)構(gòu)如圖2所示,由三個(gè)網(wǎng)絡(luò)層構(gòu)成,分別是輸入層、隱含層、輸出層,存儲(chǔ)層作為輸入的一部分,保存了上一時(shí)刻隱含層的狀態(tài)。文本語(yǔ)料經(jīng)過(guò)此RNN結(jié)構(gòu)訓(xùn)練后,當(dāng)前詞出現(xiàn)的概率表示為[11]

        參考文獻(xiàn)[10]還指出:假設(shè)在時(shí)刻網(wǎng)絡(luò)輸入詞樣本為,即當(dāng)前詞的向量、維數(shù)由語(yǔ)料中詞樣本數(shù)決定;隱含層的狀態(tài)由輸入當(dāng)前詞向量和上一時(shí)刻隱含層的狀態(tài)即歷史信息共同決定,通過(guò)隱含層到輸入層的連接,將時(shí)刻的隱含層狀態(tài)作為時(shí)刻輸入的一部分;輸出層表示當(dāng)前歷史下后接詞的概率分布信息,輸出層節(jié)點(diǎn)與輸入層節(jié)點(diǎn)數(shù)相同也是。各個(gè)層之間計(jì)算關(guān)系用下列式子表示:

        Softmax函數(shù)保證了當(dāng)前詞下后接詞的概率分布是合理的,即對(duì)于任意一個(gè)詞的,且。在模型參數(shù)的初始化設(shè)置上,隱含層初始狀態(tài)一般設(shè)為零,或隨機(jī)初始化為很小的值。輸入詞向量形式如(0 0 0 1 0 0……),(0 0 1 0 0 0……),其中一維為1,其他維置為0。隱含層節(jié)點(diǎn)數(shù)通常取100到1000,根據(jù)具體訓(xùn)練數(shù)據(jù)的大小進(jìn)行調(diào)節(jié)。、、為各層之間權(quán)值矩陣,隨機(jī)初始化為較小的值,在模型訓(xùn)練的過(guò)程中,通過(guò)標(biāo)準(zhǔn)的反向傳播算法(Back Propagation, BP)結(jié)合隨機(jī)梯度下降法學(xué)習(xí)更新[10,12]:

        (8)

        3 漢語(yǔ)的特點(diǎn)

        相比于英語(yǔ)語(yǔ)音,漢語(yǔ)語(yǔ)音識(shí)別更加復(fù)雜。漢語(yǔ)普通話中有6000多個(gè)常用字,大約有60個(gè)音素,407個(gè)無(wú)調(diào)音節(jié),1332個(gè)有調(diào)音節(jié),每個(gè)音節(jié)由聲母、韻母和聲調(diào)組成,每個(gè)漢字代表一個(gè)音節(jié),音節(jié)和音節(jié)之間的連音現(xiàn)象不明顯[13],給聲學(xué)模型的匹配計(jì)算帶來(lái)難度。同時(shí),漢語(yǔ)中還存在大量的同音、多音字現(xiàn)象,必須通過(guò)上下文語(yǔ)境等高層次的非聲學(xué)知識(shí)加以約束才能完成識(shí)別。

        在語(yǔ)言方面,英語(yǔ)語(yǔ)句注重結(jié)構(gòu),而漢語(yǔ)語(yǔ)句注重語(yǔ)義,同一個(gè)詞在不同的語(yǔ)境下有不同的含義,詞之間的長(zhǎng)距離依附關(guān)系比較緊密。采用RNN訓(xùn)練語(yǔ)言模型時(shí),考慮了更多高層次的語(yǔ)義信息,更能反映出漢語(yǔ)詞與詞之間的約束關(guān)系。因此,RNN建模技術(shù)將更適合于漢語(yǔ)語(yǔ)言模型的訓(xùn)練。

        另外,在英文語(yǔ)料句子中詞與詞之間都有明顯的空格間隔,語(yǔ)料稍加處理可直接進(jìn)行模型訓(xùn)練。而漢語(yǔ)語(yǔ)料則不同,漢語(yǔ)句子中字與字之間沒(méi)有明顯的界限,還需要根據(jù)分詞模型對(duì)訓(xùn)練語(yǔ)料進(jìn)行分詞,將句子分隔成子詞單元。經(jīng)過(guò)一系列處理得到純凈的文本語(yǔ)料后才能進(jìn)行模型訓(xùn)練。

        漢語(yǔ)訓(xùn)練語(yǔ)料處理流程圖如圖3所示,文本語(yǔ)料要進(jìn)行清洗,將粗語(yǔ)料中的字母、標(biāo)點(diǎn)符號(hào)等噪聲信息刪除,去除冗余信息;語(yǔ)料中會(huì)存在大量數(shù)字,還要完成語(yǔ)數(shù)字正規(guī)化,將語(yǔ)料中的阿拉伯?dāng)?shù)字轉(zhuǎn)換成漢字;這樣語(yǔ)料中只存在漢字信息,分詞根據(jù)分詞模型將詞與詞用空格分開(kāi),將句子劃分成詞(或字)單元;詞典過(guò)濾刪除英文邊界符和語(yǔ)料中的非詞典詞句子。如此得到能夠用來(lái)訓(xùn)練的語(yǔ)料,然后進(jìn)行模型訓(xùn)練。

        4 RNN模型與n-gram模型融合建模

        語(yǔ)料中頻數(shù)越高的詞匯-gram建模技術(shù)能夠訓(xùn)練得越好,而對(duì)頻數(shù)較低的詞匯則相反。采用RNN對(duì)語(yǔ)料進(jìn)行訓(xùn)練時(shí),盡管語(yǔ)料中有些詞的頻數(shù)比較低,但依然能夠訓(xùn)練得很好,可以對(duì)-gram模型進(jìn)行有效的補(bǔ)充。為了充分發(fā)揮兩種建模技術(shù)的優(yōu)勢(shì),得到更好的識(shí)別效果,本文研究了一種基于RNN模型與-gram模型的融合建模方法。

        如圖4所示,對(duì)于同一條語(yǔ)音,從解碼器生成的詞圖(lattice)中,可以獲得-best列表,再利用訓(xùn)練好的RNN語(yǔ)言模型對(duì)-best列表進(jìn)行重打分。然后將-best列表的-gram模型得分信息與RNN模型的重打分信息進(jìn)行插值融合,計(jì)算出每一個(gè)候選單元新的語(yǔ)言模型得分。

        在模型的融合算法中,線性插值融合是目前較常用的方法[14],根據(jù)上下文預(yù)測(cè)當(dāng)前詞的概率:

        (10)

        式中:為插值模型的個(gè)數(shù);各模型的插值權(quán)重非負(fù),且總和為1,即。模型融合后對(duì)每一個(gè)-best列表句子重新打出對(duì)數(shù)似然得分:

        其中:是句子中詞的個(gè)數(shù);是詞的懲罰分;為詞聲學(xué)模型得分;為模型規(guī)模;代表每個(gè)詞的-gram與RNN模型的融合得分,由式(10)計(jì)算得出。根據(jù)式(11)將語(yǔ)言與聲學(xué)模型得分以及懲罰分信息結(jié)合起來(lái),計(jì)算出每一個(gè)列表的總體得分并對(duì)比,從中選出得分最高的一個(gè)作為此-best列表的最終識(shí)別結(jié)果,將所有的識(shí)別結(jié)果與對(duì)應(yīng)的語(yǔ)音標(biāo)注數(shù)據(jù)進(jìn)行比對(duì)后計(jì)算出系統(tǒng)的識(shí)別率。

        5 語(yǔ)言模型評(píng)價(jià)方法及實(shí)驗(yàn)分析

        5.1 語(yǔ)言模型評(píng)價(jià)標(biāo)準(zhǔn)

        評(píng)價(jià)語(yǔ)言模型性能優(yōu)劣是根據(jù)信息論知識(shí)。通過(guò)計(jì)算語(yǔ)言模型在測(cè)試文本上困惑度的大小對(duì)語(yǔ)言模型的性能進(jìn)行衡量。困惑度是指用語(yǔ)言模型預(yù)測(cè)某文本集中每個(gè)詞的出現(xiàn)概率時(shí),這些概率的幾何平均值的倒數(shù)。假設(shè)測(cè)試文本中有個(gè)詞,則困惑度為

        通常情況下,該值越小,表明語(yǔ)言模型對(duì)語(yǔ)言約束力強(qiáng),所訓(xùn)模型的性能好[15]。除了用困惑度衡量語(yǔ)言模型外,最直觀的想法是將模型應(yīng)用到系統(tǒng)中,通過(guò)測(cè)試系統(tǒng)誤字率(Word Error Rate, WER)進(jìn)行衡量。一般模型訓(xùn)練得好,則系統(tǒng)的識(shí)別率就高。在本文實(shí)驗(yàn)中將兩種評(píng)價(jià)標(biāo)準(zhǔn)結(jié)合起來(lái)對(duì)語(yǔ)言模型進(jìn)行測(cè)試分析。

        5.2 實(shí)驗(yàn)設(shè)計(jì)

        實(shí)驗(yàn)1用于驗(yàn)證RNN語(yǔ)言模型在漢語(yǔ)語(yǔ)音識(shí)別中的效果。實(shí)驗(yàn)中分別用RNN和-gram建模在同一數(shù)據(jù)集上進(jìn)行模型訓(xùn)練,并且通過(guò)改變RNN隱含層節(jié)點(diǎn)數(shù)訓(xùn)練出不同的RNN語(yǔ)言模型,研究不同參數(shù)下RNN模型困惑度和系統(tǒng)識(shí)別率的變化,并與-gram模型的性能進(jìn)行比較。實(shí)驗(yàn)2用于驗(yàn)證提出的模型融合算法的有效性,將實(shí)驗(yàn)1中訓(xùn)練出來(lái)的-gram模型與RNN模型分別進(jìn)行線性插值融合,并測(cè)試識(shí)別率的變化。為了加速RNN模型的訓(xùn)練,本文中RNN訓(xùn)練是在GPU(NVIDIA GTX 650)服務(wù)器上結(jié)合CUDA Toolkit 5.5進(jìn)行的,相比在CPU上訓(xùn)練速度相對(duì)提升2~3倍,縮短了RNN模型的訓(xùn)練時(shí)間。

        5.3 實(shí)驗(yàn)數(shù)據(jù)

        訓(xùn)練數(shù)據(jù)來(lái)源于科大訊飛公司提供的漢語(yǔ)電話語(yǔ)音轉(zhuǎn)寫任務(wù)標(biāo)注數(shù)據(jù),共16 M,包含550千個(gè)句子,4342千個(gè)詞。模型困惑度測(cè)試本文共9332個(gè)句子,包含23千個(gè)詞,語(yǔ)音測(cè)試集為對(duì)電話語(yǔ)音解碼結(jié)果3433句100-best列表,大小為87 kB。RNN訓(xùn)練模型時(shí)隱含層節(jié)點(diǎn)數(shù)共設(shè)六組參數(shù)。

        5.3.1 實(shí)驗(yàn)1

        -gram語(yǔ)言模型訓(xùn)練結(jié)合了平滑性能較好的Kneser-Ney回退平滑算法,模型階數(shù)取3即3-gram,由SRILM工具箱構(gòu)建。模型中-gram數(shù)量為:30274+6568660+13830707=20429641,模型大小為463599 kB。然后用同樣的訓(xùn)練數(shù)據(jù)訓(xùn)練RNN語(yǔ)言模型,分別測(cè)試模型PPL值以及識(shí)別系統(tǒng)WER的變化。實(shí)驗(yàn)結(jié)果如表1所示。

        由表1可見(jiàn),同樣的訓(xùn)練數(shù)據(jù)分別訓(xùn)練RNN和3-gram語(yǔ)言模型,在困惑度上RNN語(yǔ)言模型相對(duì)降低7%左右;在語(yǔ)音識(shí)別的誤字率上,RNN語(yǔ)言模型相對(duì)下降5%左右,證明了RNN語(yǔ)言模型在漢語(yǔ)語(yǔ)音識(shí)別中的有效性。一般情況下,生成模型的困惑度越低,系統(tǒng)的識(shí)別率就越高。

        另外,從表1還可以看出:(1) 隨著隱含層節(jié)點(diǎn)數(shù)的增加,RNN語(yǔ)言模型的困惑度以及系統(tǒng)誤字率呈逐漸下降的趨勢(shì),說(shuō)明網(wǎng)絡(luò)的學(xué)習(xí)能力隨著節(jié)點(diǎn)數(shù)的增加而增強(qiáng);(2) 當(dāng)隱含層的節(jié)點(diǎn)數(shù)增加到一定程度后,生成模型的困惑度反而會(huì)升高,系統(tǒng)識(shí)別率也隨之下降,說(shuō)明隱含層節(jié)點(diǎn)數(shù)越多,網(wǎng)絡(luò)結(jié)構(gòu)越復(fù)雜,通過(guò)學(xué)習(xí)可以使訓(xùn)練樣本的誤差減少到足夠小,然而過(guò)分地追求在訓(xùn)練樣本上的學(xué)習(xí)會(huì)產(chǎn)生過(guò)度訓(xùn)練。在訓(xùn)練樣本數(shù)有限的情況下,當(dāng)學(xué)習(xí)進(jìn)行到一定階段后,如果學(xué)習(xí)樣本集的平均訓(xùn)練相對(duì)誤差繼續(xù)減小,而測(cè)試樣本集的平均測(cè)試相對(duì)誤差(泛化誤差)反而增大,導(dǎo)致網(wǎng)絡(luò)的泛化能力降低,影響所訓(xùn)練模型的性能。因此,對(duì)于不同規(guī)模的訓(xùn)練語(yǔ)料,采用RNN訓(xùn)練時(shí)參數(shù)需要進(jìn)行調(diào)整,才能達(dá)到較好的實(shí)驗(yàn)效果。

        5.3.2 實(shí)驗(yàn)2

        在實(shí)驗(yàn)1識(shí)別結(jié)果的基礎(chǔ)上,采用線性插值方法,將兩套模型對(duì)100-best列表中的每個(gè)詞的語(yǔ)言模型得分進(jìn)行插值重新打分,再根據(jù)式(11)結(jié)合聲學(xué)模型得分等,計(jì)算出每一句話的概率,從中選出得分最高的作為該條語(yǔ)音的識(shí)別結(jié)果,如表2所示。實(shí)驗(yàn)中插值系數(shù)為0.6,即=0.6時(shí)取得了較好的識(shí)別效果。

        由表2可見(jiàn),經(jīng)過(guò)線性插值后模型在識(shí)別率上,相對(duì)于3-gram模型誤字率下降8%左右,相比于RNN模型誤字率也下降了3%左右,模型融合后的識(shí)別率相對(duì)于-gram模型的識(shí)別率提升較為明顯,這是因?yàn)镽NN模型對(duì)低頻詞的訓(xùn)練效果較好,能夠有效地解決數(shù)據(jù)稀疏問(wèn)題。同時(shí)可以看出模型融合后的識(shí)別率比任何一個(gè)單獨(dú)模型的識(shí)別率高,說(shuō)明兩種模型具有互補(bǔ)作用,證明了模型融合方法的有效性。在實(shí)際的識(shí)別系統(tǒng)中,可以先訓(xùn)練一個(gè)大語(yǔ)料的-gram語(yǔ)言模型,并以此模型作為通用模型,然后與用少量語(yǔ)料訓(xùn)練的RNN模型在語(yǔ)音識(shí)別系統(tǒng)的后處理模塊進(jìn)行插值融合,采用這種方法對(duì)解碼結(jié)果進(jìn)行后處理,提高系統(tǒng)的識(shí)別率。在本實(shí)驗(yàn)中,由于模型訓(xùn)練語(yǔ)料有限,系統(tǒng)整體識(shí)別率不是很高,但是仍然可以看出RNN在漢語(yǔ)語(yǔ)言模型建模方面的優(yōu)越性,以及模型融合構(gòu)建方法的有效性。

        表1 RNN語(yǔ)言模型與3-gram語(yǔ)言模型性能對(duì)比

        表2 兩種模型融合后識(shí)別性能對(duì)比

        6 結(jié)束語(yǔ)

        本文將RNN語(yǔ)言模型建模應(yīng)用到漢語(yǔ)語(yǔ)言模型上,通過(guò)與傳統(tǒng)的-gram模型對(duì)比,生成模型的困惑度降低7%左右,在對(duì)實(shí)際電話信道語(yǔ)音識(shí)別上誤字率降低了5%,驗(yàn)證了RNN建模方法在漢語(yǔ)語(yǔ)言處理中的有效性。另外,本文提出RNN語(yǔ)言模型與-gram語(yǔ)言模型的融合方法,使語(yǔ)音識(shí)別系統(tǒng)的性能得到進(jìn)一步提升,識(shí)別效果優(yōu)于任一單個(gè)模型,證明了融合算法的優(yōu)越性。雖然RNN語(yǔ)言模型性能較高,但由于其相對(duì)較高的計(jì)算復(fù)雜度,導(dǎo)致訓(xùn)練效率很低,本文中RNN漢語(yǔ)語(yǔ)言模型的訓(xùn)練是在GPU上進(jìn)行的,相對(duì)提升了訓(xùn)練效率。如何進(jìn)一步提升模型訓(xùn)練效率,是下一步研究的重點(diǎn)。

        [1] 倪崇嘉, 劉文舉, 徐波. 漢語(yǔ)大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)研究進(jìn)展[J].中文信息學(xué)報(bào), 2009, 23(1): 114-117.

        NI Chongjia, LIU Wenju, XU Bo. Research on large vocabulary continuous speech recognition system for mandarin Chinese[J]. Journal of Chinese Information Processing, 2009, 23(1): 114-117.

        [2] 楊云升, 溫曉楊, 呂敏. 一種基于BP神經(jīng)網(wǎng)絡(luò)的語(yǔ)音相空間客觀干擾效果評(píng)估模型[J]. 聲學(xué)技術(shù), 2009, 28(4): 507-511.

        YANG Yunsheng, WEN Xiaoyang, Lü Min. A BP artificial neural network model for evaluating jammed effect in speech phase-space[J]. Technical Acoustics, 2009, 28(4): 507-511.

        [3] 陳存寶, 趙力. 嵌入時(shí)延神經(jīng)網(wǎng)絡(luò)的高斯混合模型說(shuō)話人辨認(rèn)[J]. 聲學(xué)技術(shù), 2010, 29(3): 292-296.

        CHEN Cunbao, ZHAO Li. Speaker identification based on GMM with embedded TDNN[J].Technical Acoustics, 2010, 29(3): 292-296.

        [4] XU Wei, AlexRudnicky. Can artificial neural networks learn language models?[C]// Proceedings of International Conference on Spoken Language Processing. 2000.

        [5] Bengio Yoshua. A neural probabilistic language model[J]. Journal of Machine Learning Research, 2003, 10(3): 1137-1155.

        [6] Tom′aˇs Mikolov. Statistical language models based on neural networks[D].Brno University of Technology, Czech Republic, 2012.

        [7] 甘海波. 語(yǔ)音識(shí)別系統(tǒng)中聲學(xué)層模型的研究[D]. 哈爾濱: 哈爾濱工業(yè)大學(xué), 2008.

        GAN Haibo. The research about the acoustic model in speech recognition system[D]. Harbin: Harbin Institute of Technology, 2008.

        [8] 張強(qiáng). 大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)的統(tǒng)計(jì)語(yǔ)言模型應(yīng)用研究[D]. 成都: 西南交通大學(xué), 2009.

        ZHANG Qiang. Application research on statistical language model of large vocabulary continuous speech recognition system[D]. Chengdu: Southwest Jiaotong University. 2009.

        [9] 邢永康, 馬少平. 統(tǒng)計(jì)語(yǔ)言模型綜述[J]. 計(jì)算機(jī)科學(xué), 2003, 30(9): 22-29.

        XING Yongkang, MA Shaoping. A survey on statistical language models[J]. Computer Science, 2003, 30(9): 22-29.

        [10] Mikolov T, Karafi′at M, Burget L, et al. Recurrent neural network based language model[C]//Proceedings of Interspeech, 2010: 1045-1048.

        [11] Kombrink S, Mikolov T, Karafi′at M, et al. Recurrent neural network based language modeling in meeting recognition[C]//Proceedings of Interspeech, 2011: 2877-2880.

        [12] Mikolov T, Kombrink S, Burget L, et al. Extensions of recurrent neural network language model[C]// Proceedings of ICASSP, 2011: 5528-5531.

        [13] 吳斌. 語(yǔ)音識(shí)別中的后處理技術(shù)研究[D]. 北京: 北京郵電大學(xué), 2008.

        WU Bin. Post-processing technique for speech recognition[D]. Beijing: Beijing University of Posts and Telecommunication, 2008.

        [14] Mikolov T, Deoras A, Kombrink S, et al. Empirical evaluation and combination of advanced language modeling techniques[C]// Proceedings of Interspeech,2011: 605-608.

        [15] 張仰森, 曹大元, 俞士汶. 語(yǔ)言模型復(fù)雜度度量與漢語(yǔ)熵計(jì)算[J].小型微型計(jì)算機(jī)系統(tǒng), 2006, 27(10): 1931-1934.

        ZHANG Yangsen, CAO Dayuan, YU Shiwen. Perplexity measure of language model and the entropy of Chinese[J]. Mini-micro Systems, 2006, 27(10): 1931-1934.

        Recurrent neural network based Chinese language modeling method

        WANG Long1,2, YANG Jun-an1,2,CHEN Lei1,2,LIN Wei3

        (1. Electronic Engineering Institute of PLA, Hefei 230037,Anhui, China; 2. Key Laboratory of Electronic Restriction, Anhui Province, Hefei 230037,Anhui, China; 3. Anhui USTC iFlytek Corporation, Hefei 230037, Anhui, China )

        Language model is an important part in the speech recognition system, the current mainstream technique is n-gram model. However, n-gram language model still has some shortcomings: the first is poorly to describe the long-distance information of a sentence, and the second is to arise the serious data sparse phenomenon; essentially they are the two important factors influencing the performances of the model. Aiming at these defects of n-gram language model, the researchers put forward a recurrent neural network (RNN) modeling technique, with which, the training for the English language model has achieved good results. According to the characteristics of the Chinese language, the RNN method is used for training the Chinese language model; also a model combination method to combine the advantages of the two models is proposed. The experimental results show that: the perplexity of RNN model has a certain decline, there is also a certain decline on the system recognition error rate,and after model combination, the recognition error rate reduces much more on the Chinese phone speech recognition, compared with the n-gram language model.

        speech recognition; recurrent neural network; language model; model combination

        TP391

        A

        1000-3630(2015)-05-0431-06

        10.16300/j.cnki.1000-3630.2015.05.010

        2014-10-22;

        2015-02-09

        國(guó)家自然科學(xué)基金(60872113)、安徽省自然科學(xué)基金(1208085MF94, 1308085QF99)資助項(xiàng)目。

        王龍(1989-), 男, 碩士研究生, 研究方向?yàn)槁曅盘?hào)分析與識(shí)別技術(shù)。

        王龍, E-mail: longwang0927@126.com

        猜你喜歡
        識(shí)別率語(yǔ)料語(yǔ)音
        基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測(cè)
        魔力語(yǔ)音
        基于MATLAB的語(yǔ)音信號(hào)處理
        電子制作(2019年14期)2019-08-20 05:43:38
        基于真耳分析的助聽(tīng)器配戴者言語(yǔ)可懂度指數(shù)與言語(yǔ)識(shí)別率的關(guān)系
        基于MQ3與MP3的價(jià)廉物美的酒駕語(yǔ)音提醒器
        電子制作(2019年9期)2019-05-30 09:42:10
        對(duì)方正在輸入……
        提升高速公路MTC二次抓拍車牌識(shí)別率方案研究
        基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
        高速公路機(jī)電日常維護(hù)中車牌識(shí)別率分析系統(tǒng)的應(yīng)用
        華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
        久久人人爽人人爽人人片av高请 | 同性男男黄g片免费网站| 亚洲欧美精品伊人久久 | 国产欧美亚洲精品第二区首页| 无码高潮少妇毛多水多水免费| 亚洲精品中国国产嫩草影院美女 | 国产成人精品一区二区20p| 阴唇两边有点白是怎么回事| 日本一区二区视频免费在线观看 | 日韩av一区二区无卡| 中文在线最新版天堂av| 国产精品区二区东京在线| 国产亚洲激情av一区二区| 黄页免费人成网址大全| 免费看av网站在线亚洲| 麻豆视频黄片在线免费观看| 人妻系列少妇极品熟妇| 性感人妻av在线播放| 国产av精品一区二区三区不卡| 亚洲a级视频在线播放| 亚洲女同高清精品一区二区99| 国产日产亚洲系列首页| 久久久亚洲成年中文字幕| 亚洲av老熟女一区二区三区| 色中文字幕在线观看视频| 成人欧美一区二区三区在线观看| 国产大屁股喷水视频在线观看| 久久久亚洲欧洲日产国码aⅴ| 久久久久国产综合av天堂| 又色又爽又高潮免费视频国产| 色 综合 欧美 亚洲 国产| 少妇寂寞难耐被黑人中出| 久久久久久国产精品美女| 国产精品高潮无码毛片| 欧美一级人与嘼视频免费播放| 中文无码日韩欧免费视频| 亚洲AV无码国产精品久久l| 亚洲精品一品二品av| 久久久婷婷综合亚洲av| 人妻少妇精品视频一区二区三区| 亚洲黄色大片在线观看|