亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        語音識別在旅游領(lǐng)域問句識別中的應(yīng)用

        2018-03-10 00:24:03羅洋周蘭江
        軟件導(dǎo)刊 2018年2期
        關(guān)鍵詞:語音識別

        羅洋+周蘭江

        摘 要:根據(jù)領(lǐng)域術(shù)語的音節(jié)關(guān)聯(lián)特點(diǎn),提出一種基于術(shù)語音節(jié)關(guān)聯(lián)特性的領(lǐng)域術(shù)語聲學(xué)模型建模方法。該方法首先根據(jù)領(lǐng)域術(shù)語字間發(fā)音的特點(diǎn),以聲韻母作為識別基元,構(gòu)建融合零聲母音節(jié)的擴(kuò)展聲韻母集合(Extended Initial Final-EIF),然后根據(jù)術(shù)語發(fā)音的聲韻母組合情況制定出識別單元的組合規(guī)則,并構(gòu)建上下文相關(guān)的三音子模型(Triphone-Tri),最后通過Tri-EIF模型實(shí)現(xiàn)領(lǐng)域術(shù)語識別。對比實(shí)驗(yàn)結(jié)果表明,Tri-EIF模型具有較好的識別效果,術(shù)語識別正確率與上下文無關(guān)模型相比提高了28%。

        關(guān)鍵詞:語音識別;領(lǐng)域術(shù)語;聲學(xué)建模;上下文關(guān)聯(lián)

        DOIDOI:10.11907/rjdk.172367

        中圖分類號:TP301

        文獻(xiàn)標(biāo)識碼:A 文章編號:1672-7800(2018)002-0012-03

        0 引言

        聲學(xué)建模是語音識別領(lǐng)域中的一個(gè)關(guān)鍵問題。在建模過程中,建模單元的選擇尤為重要,目前可選用的建模單元有詞、音節(jié)和聲韻母等[1]。其中基于詞作為識別基元的聲學(xué)建模方法適用于小詞表語音識別系統(tǒng)[2];基于音節(jié)作為識別基元的聲學(xué)建模方法常用于構(gòu)建上下文無關(guān)的聲學(xué)模型[3],該方法雖然能很好地刻畫出音節(jié)內(nèi)部變化,但未考慮詞語發(fā)音時(shí)音節(jié)間的協(xié)同發(fā)音問題,當(dāng)運(yùn)用于大詞匯量語音識別時(shí)效果并不理想;基于聲韻母作為識別基元常用于構(gòu)建上下文相關(guān)的聲學(xué)模型[4],此模型考慮了詞匯發(fā)音時(shí)音節(jié)內(nèi)和音節(jié)間的關(guān)聯(lián)關(guān)系,有效緩解了音節(jié)間協(xié)同發(fā)音的問題,在大詞匯量語音識別和連續(xù)語音識別中得到了廣泛運(yùn)用。

        通用領(lǐng)域詞匯[5]識別時(shí),常選用標(biāo)準(zhǔn)聲韻母集合(聲母和有調(diào)韻母總數(shù)接近200個(gè))[6]。由于音節(jié)間上下文關(guān)系復(fù)雜,以聲韻母作為建模單元構(gòu)建上下文相關(guān)的聲學(xué)模型時(shí),模型數(shù)量級達(dá)到105,使得模型不容易被訓(xùn)練,導(dǎo)致詞匯識別率低。在對領(lǐng)域術(shù)語進(jìn)行識別時(shí),由于領(lǐng)域術(shù)語詞匯量遠(yuǎn)小于通用領(lǐng)域詞匯量[7],同時(shí)領(lǐng)域術(shù)語發(fā)音時(shí)常出現(xiàn)的聲韻母數(shù)量遠(yuǎn)小于或等于標(biāo)準(zhǔn)聲韻母集合,另外領(lǐng)域術(shù)語發(fā)音時(shí)上下文關(guān)系相對簡單。因此,在對領(lǐng)域術(shù)語進(jìn)行識別時(shí),研究減少建模單元數(shù)量和根據(jù)領(lǐng)域術(shù)語發(fā)音特性制定建模單元組合規(guī)則,建立上下文相關(guān)的聲學(xué)模型是非常必要的。

        1 基于領(lǐng)域術(shù)語發(fā)音規(guī)則的識別單元集合構(gòu)建

        對自然語言的識別和理解,首先必須將連續(xù)的講話分解為詞、音素、聲韻母等識別單元。通過對領(lǐng)域術(shù)語發(fā)音特點(diǎn)的研究發(fā)現(xiàn),聲韻母的劃分比較符合術(shù)語發(fā)音特點(diǎn)。比如,術(shù)語中的音節(jié)通常由聲韻母構(gòu)成,可以比較統(tǒng)一地表示領(lǐng)域術(shù)語的發(fā)音。另外,在領(lǐng)域術(shù)語發(fā)音中,聲韻母的上下文信息也只會是聲韻母或靜音。聲母和韻母的搭配使上下文發(fā)音的表示變得容易,也有利于模型的訓(xùn)練和識別。

        由于領(lǐng)域術(shù)語詞匯量規(guī)模遠(yuǎn)遠(yuǎn)小于通用領(lǐng)域詞匯量規(guī)模,故可以通過統(tǒng)計(jì)篩選出領(lǐng)域術(shù)語發(fā)音時(shí)常出現(xiàn)的聲母和韻母。得到適合領(lǐng)域術(shù)語發(fā)音的聲韻母集合后,還需對術(shù)語發(fā)音時(shí)出現(xiàn)的聲韻母組合情況進(jìn)行統(tǒng)計(jì)并制定組合規(guī)則,以減少模型數(shù)量。經(jīng)過統(tǒng)計(jì),領(lǐng)域術(shù)語發(fā)音時(shí)聲韻母組合情況主要有:音節(jié)1(聲母-韻母)、音節(jié)2(聲母+韻母)、音節(jié)1+聲母、韻母-音節(jié)2。在此基礎(chǔ)上統(tǒng)計(jì)出所有可能出現(xiàn)的聲韻母單元組合情況,從而過濾出不存在的聲韻母組合,比如:“b-e”、“g-v”等。同時(shí),由于領(lǐng)域術(shù)語中聲韻母的上下文關(guān)系比較復(fù)雜,聲母的上下文只能是韻母,而韻母的上下文既可以為聲母,還可以為韻母。在此,增加了6個(gè)零聲母音節(jié){-a,-e,-i,-o,-u,-v}構(gòu)建出擴(kuò)展的聲韻母集合。引入零聲母音節(jié)后,每個(gè)韻母的上下文都只能是聲母,因此兩個(gè)韻母相鄰的情況將不再出現(xiàn),從而簡化了領(lǐng)域術(shù)語中聲韻母的上下文關(guān)系。

        2 領(lǐng)域聲學(xué)模型庫構(gòu)建

        在聲學(xué)模型中,識別基元與特征矢量存在一一對應(yīng)關(guān)系,而聲學(xué)模型則是描述這二者之間對應(yīng)的過程。通過聲學(xué)建模,可以估計(jì)待識別特征矢量序列所對應(yīng)的語音識別基元,從而完成特征矢量序列到語音識別基元的識別轉(zhuǎn)換。

        本文首先對擴(kuò)展聲韻母集合(XIF)中的所有聲母和有調(diào)韻母建立模型,分別對應(yīng)initial模型和final模型,再加上靜音模型sil和字間暫停模型sp,成為上下文無關(guān)的XIF模型。在此采用的模型為經(jīng)典的連續(xù)概率密度隱馬爾可夫模型(CDHMM)[8]。針對領(lǐng)域術(shù)語的發(fā)音特點(diǎn),主要采用了以下3種HMM結(jié)構(gòu),如圖1所示。

        圖1中,(a)表示initial和final模型;(b)表示SP(Short Pause)模型,用來描述語音中的短暫停頓,一般只用一個(gè)狀態(tài)表示即可;(c)表示靜音模型silence,采用3個(gè)狀態(tài)表示,并且狀態(tài)間可以前后跳轉(zhuǎn)。

        其次,根據(jù)領(lǐng)域術(shù)語發(fā)音特點(diǎn):音節(jié)1(聲母-韻母)、音節(jié)2(聲母+韻母)、音節(jié)1+聲母、韻母-音節(jié)2,擴(kuò)展XIF模型構(gòu)建上下文相關(guān)聯(lián)的三音子模型(tri-XIF)。例如:領(lǐng)域術(shù)語可以用半音節(jié)序列來描述,即sil ini fin (sp) ini (sp) …ini fin sil,括號表示此處的sp可以被跨越。當(dāng)擴(kuò)展為tri-XIF時(shí),initial模型可以表示為fin-ini+fin或者sp/sil-ini+fin的形式,final可以表示為ini-fin+ini或者ini-fin+sp/sil的形式。例如,單詞“西雙版納(XiShuangBanNa)”可以表示為圖2。其中,第一個(gè)狀態(tài)和最后一個(gè)狀態(tài)只起連接作用,沒有輸出概率。

        然后,對模型進(jìn)行訓(xùn)練時(shí),首先標(biāo)注出用于訓(xùn)練的語音數(shù)據(jù)對應(yīng)發(fā)音字典的詞序列、起始時(shí)刻和終止時(shí)刻;接著利用Viterbi算法[9]對模型進(jìn)行初始化,將對應(yīng)于某個(gè)HMM的語音數(shù)據(jù)段按照固定的狀態(tài)序列進(jìn)行最優(yōu)的狀態(tài)切分,再利用切分到每個(gè)狀態(tài)的語音數(shù)據(jù)估計(jì)狀態(tài)參數(shù);最后,利用Baum-Welch算法對初始化后的模型進(jìn)行訓(xùn)練。領(lǐng)域術(shù)語聲學(xué)模型庫的構(gòu)建流程如圖3所示。endprint

        最后,識別工作就是在給定領(lǐng)域術(shù)語聲學(xué)模型庫的基礎(chǔ)上,利用語法和詞典建立的詞網(wǎng)絡(luò),根據(jù)一定的搜索策略在該網(wǎng)絡(luò)中找到一個(gè)最佳路徑作為識別結(jié)果。

        3 領(lǐng)域術(shù)語識別實(shí)驗(yàn)與結(jié)果分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        本文錄制了旅游領(lǐng)域術(shù)語的語音語料。其中旅游術(shù)語詞匯是從互聯(lián)網(wǎng)上抓取并經(jīng)過整理的旅游詞匯,共計(jì)約5 000個(gè)。其中旅游景點(diǎn)名有3 741個(gè),還包含一些旅游機(jī)構(gòu)名﹑常用口語等。朗讀的旅游領(lǐng)域問句和術(shù)語主要以略帶方言的口音為主,包括來自云南、山東、湖北、湖南等地方言。語音庫有10人的語音數(shù)據(jù),共計(jì)20h。語音標(biāo)注采用手工標(biāo)注為主,輔以機(jī)器切分的方式獲得。實(shí)驗(yàn)中選用7人的語音數(shù)據(jù)作為訓(xùn)練集,剩下3人的語音數(shù)據(jù)作為測試集。測試語音數(shù)據(jù)集不在訓(xùn)練中使用。

        其中基于領(lǐng)域術(shù)語的發(fā)音特性構(gòu)建出的擴(kuò)展聲韻母集合如表1所示。

        在實(shí)驗(yàn)中,使用了劍橋大學(xué)開發(fā)的HTK語音識別工具包[10],版本為v3.3。測試結(jié)果使用模型數(shù)量進(jìn)行詞匯識別正確率評價(jià)。

        3.2 術(shù)語識別中領(lǐng)域聲學(xué)模型引導(dǎo)概率權(quán)重選取

        在本文構(gòu)建的聲學(xué)模型中,領(lǐng)域聲學(xué)庫對領(lǐng)域術(shù)語的識別準(zhǔn)確率有著一定影響。本節(jié)通過實(shí)驗(yàn)選擇合適的引導(dǎo)概率,使領(lǐng)域聲學(xué)庫和通用聲學(xué)模型有較好的融合,從而達(dá)到較好的識別效果。為更好地表現(xiàn)識別率的變化,本文在2 000個(gè)詞匯的數(shù)據(jù)集上進(jìn)行了測試,結(jié)果如圖4所示。

        由圖4可以看出,在λ=0時(shí),聲學(xué)模型中并沒有加入領(lǐng)域聲學(xué)庫,識別錯(cuò)誤率與通用系統(tǒng)相同;隨著λ的增大,在取值為0.6~1.4時(shí),識別錯(cuò)誤率下降明顯,最低達(dá)到16.7%。與通用系統(tǒng)相比,識別率下降了4.6%;然而λ繼續(xù)增大時(shí),識別錯(cuò)誤率沒有進(jìn)一步下降,反而上升。

        從本質(zhì)上講,領(lǐng)域聲學(xué)庫是通過加大當(dāng)前音節(jié)與后續(xù)音節(jié)的聯(lián)系概率,以增大術(shù)語詞匯的區(qū)分能力。在包含一定比例術(shù)語的數(shù)據(jù)集上,當(dāng)取值一定時(shí),這種影響能較好地區(qū)分出前后音節(jié)的關(guān)聯(lián)。而過大地增加權(quán)重,會干擾正常詞語的概率計(jì)算,反而使識別錯(cuò)誤率上升。

        3.3 聲學(xué)模型性能比較

        為了說明基于領(lǐng)域術(shù)語音節(jié)關(guān)聯(lián)特性的聲學(xué)建模方法不僅能減少模型規(guī)模,還能提高領(lǐng)域術(shù)語的識別率,所以設(shè)置了如下實(shí)驗(yàn),在實(shí)驗(yàn)中分別使用擴(kuò)展聲韻母集合(EIF)作為識別基元構(gòu)建了上下文無關(guān)的聲學(xué)模型(EIF-Monophone)和上下文相關(guān)的聲學(xué)模型(EIF-Triphone),另外使用標(biāo)準(zhǔn)聲韻母集合(IF)作為識別基元構(gòu)建了上下文無關(guān)的聲學(xué)模型(IF-Monophone)和上下文相關(guān)的聲學(xué)模型(IF-Triphone)。這4種模型在不同詞匯量下對于領(lǐng)域術(shù)語詞匯的識別正確率如表2所示。

        首先從表2中可以看出,無論是上下文無關(guān)的聲學(xué)模型(Monophone)還是上下文相關(guān)的聲學(xué)模型(Triphone),在同等詞匯量下使用EIF作為識別單元,識別正確率都高于以IF作為識別基元的聲學(xué)建模方法。說明擴(kuò)展的聲韻母集合由于考慮了領(lǐng)域術(shù)語發(fā)音特性選取出適合的識別基元,同時(shí)在建立模型時(shí)基于術(shù)語發(fā)音規(guī)則優(yōu)化基元組合,使聲學(xué)模型數(shù)量大大減少,從而使聲學(xué)模型得到了充分訓(xùn)練,達(dá)到了提高領(lǐng)域術(shù)語識別正確率的效果。其次從表2中還可看出,無論是選用IF還是EIF作為識別基元,上下文相關(guān)的聲學(xué)模型(Triphone)在同等詞匯量下識別正確率都遠(yuǎn)高于上下文無關(guān)的聲學(xué)模型。說明本文研究的基于術(shù)語音節(jié)關(guān)聯(lián)特性的領(lǐng)域術(shù)語聲學(xué)建模方法,由于考慮了領(lǐng)域術(shù)語間協(xié)同發(fā)音的問題,針對術(shù)語發(fā)音時(shí)音節(jié)之間的關(guān)聯(lián)關(guān)系,使術(shù)語識別正確率得到了顯著提高,此方法尤其適用于對大詞匯量領(lǐng)域術(shù)語的識別中。

        上下文無關(guān)的聲學(xué)模型無論選用IF還是EIF作為識別基元,模型規(guī)模都遠(yuǎn)高于上下文相關(guān)的聲學(xué)模型規(guī)模。另外,IF-Triphone模型的規(guī)模也是EIF-Triphone模型規(guī)模的4倍左右。以上兩個(gè)現(xiàn)象分別說明了在大詞表術(shù)語識別中,上下文無關(guān)的聲學(xué)模型由于基元組合情況較為復(fù)雜,導(dǎo)致模型規(guī)模異常龐大。而建立通用領(lǐng)域上下文相關(guān)的聲學(xué)模型(IF-Triphone)時(shí),由于沒有很好地考慮到術(shù)語發(fā)音時(shí)音節(jié)間的組合規(guī)則,導(dǎo)致模型數(shù)量也遠(yuǎn)高于本文提出的擴(kuò)展聲韻母集合(EIF)作為識別基元構(gòu)建的上下文相關(guān)的聲學(xué)模型(EIF-Triphone)。

        4 結(jié)語

        本文提出的基于術(shù)語音節(jié)關(guān)聯(lián)特性的領(lǐng)域術(shù)語聲學(xué)建模方法,結(jié)合了術(shù)語發(fā)音時(shí)音節(jié)間的關(guān)聯(lián)關(guān)系,構(gòu)建出擴(kuò)展聲韻母集合,并基于術(shù)語發(fā)音規(guī)則構(gòu)建上下文相關(guān)聯(lián)的聲學(xué)模型,不僅降低了聲學(xué)模型訓(xùn)練時(shí)的計(jì)算復(fù)雜度,同時(shí)提高了術(shù)語識別正確率。

        參考文獻(xiàn):

        [1] 陳方,高升.語音識別技術(shù)及發(fā)展[J].電信科學(xué),1996,12(10):54-57.

        [2] 汲清波,盧侃,李康.在孤立詞語音識別中動態(tài)時(shí)間規(guī)正的改進(jìn)算法[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(25):55-57.

        [3] BAGHDASARYAN A G, BEEX A. Signals,automatic phoneme recognition with segmental hidden markov models systems and computers (ASILOMAR)[C].2011 Conference Record of the Forty Fifth Asilomar Conference on, Pacific Grove, CA,2012:569-574.

        [4] GEORGE E DAHL, DONG YU, LI DENG, et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J]. IEEE Transactions on Audio, Speech & Language Processing,2012,20:30-42.

        [5] 邵佳.旅游領(lǐng)域問句語音識別中規(guī)則語言模型自動構(gòu)建研究[D].昆明:昆明理工大學(xué),2013.

        [6] 劉連國.基于聲韻母結(jié)構(gòu)的漢語語音識別研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),1998.

        [7] 司圣濤.領(lǐng)域知識庫的構(gòu)建方法及其應(yīng)用研究[D].昆明:昆明理工大學(xué),2009.

        [8] FARSI, H, SALEH R. Implementation and optimization of a speech recognition system based on hidden Markov modelusing genetic algorithm,Intelligent Systems (ICIS)[C].2014 Iranian Conference on,Bam,2014:1-5.

        [9] 蔣冬梅,傅國康,趙榮椿.考慮狀態(tài)持續(xù)時(shí)間的改進(jìn)Viterbi算法及語音識別[J].西北工業(yè)大學(xué)學(xué)報(bào),2000,18(4):595-59.

        [10] S YOUNG, J JANSEN, J ODELL, et al. The HTK book[R].UK:Cambridge University Engineering Department,2009.endprint

        猜你喜歡
        語音識別
        空管陸空通話英語發(fā)音模板設(shè)計(jì)與應(yīng)用
        通話中的語音識別技術(shù)
        面向移動終端的語音簽到系統(tǒng)
        淺析智能語音技術(shù)及其應(yīng)用
        語音識別的SVM模型選擇分析
        農(nóng)業(yè)物聯(lián)網(wǎng)平臺手機(jī)秘書功能分析與實(shí)現(xiàn)
        基于LD3320的非特定人識別聲控?zé)粝到y(tǒng)設(shè)計(jì)
        航天三維可視化系統(tǒng)中語音控制技術(shù)的研究與應(yīng)用
        基于語音識別的萬能遙控器的設(shè)計(jì)
        基于語音技術(shù)的商務(wù)英語移動學(xué)習(xí)平臺設(shè)計(jì)與實(shí)現(xiàn)
        99热成人精品国产免| 国产精品国产三级第一集| 国产成人精品免费视频大全软件| 国产免费拔擦拔擦8x高清在线人 | 亚洲欧美激情在线一区| 亚洲精品国产一二三无码AV| 日本一区二区在线资源| 日韩精品人妻视频一区二区三区| 寂寞人妻渴望被中出中文字幕| 免费高清av一区二区三区| 国产人在线成免费视频| 国产高清白浆| 亚洲中文乱码在线视频| 日本妇人成熟免费2020| 日本久久高清一区二区三区毛片| 国产思思99re99在线观看| 国产黄片一区视频在线观看| 日日噜噜噜夜夜狠狠久久蜜桃| 欧美熟妇另类久久久久久多毛 | 在线精品国产亚洲av蜜桃| 中文字幕乱码无码人妻系列蜜桃| aaaaaa级特色特黄的毛片| 国产av天堂亚洲国产av麻豆| 久久青青草原一区网站| 亚洲成人av一二三四区| 老司机亚洲精品影院| 无码av在线a∨天堂毛片| 中文字幕二区三区在线| 国产精品三区四区亚洲av| 亚洲一区自拍高清亚洲精品| 免费做爰猛烈吃奶摸视频在线观看| 免费人人av看| 中文字幕一区二区黄色| 免费乱理伦片在线观看| 成人精品综合免费视频| 亚洲性色ai无码| 一道之本加勒比热东京| 国产精品欧美久久久久久日本一道| 久久综合精品国产丝袜长腿 | 国产精品久久久久久无码| 国产综合久久久久|