亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于HTK的日語連續(xù)語音識別系統(tǒng)的建立與研究

        2013-12-31 00:00:00孫一鳴劉葳
        計算機光盤軟件與應(yīng)用 2013年21期

        摘 要:本文主要介紹了連續(xù)語音識別系統(tǒng)的構(gòu)建過程,分析了連續(xù)語音識別系統(tǒng)構(gòu)建的方式和采用音素構(gòu)建連續(xù)語音識別聲學(xué)模型的基本方法。闡述了利用隱馬爾可夫工具包搭建的連續(xù)語音識別系統(tǒng),給出了系統(tǒng)評估方法,系統(tǒng)使用日本標準JNAS數(shù)據(jù)庫進行建模并使用北海道大學(xué)日本學(xué)生的發(fā)音進行實驗,驗證模型的有效性。

        關(guān)鍵詞:連續(xù)語音識別;音素;HTK;HMM

        中圖分類號:TN912.34

        1 語音識別系統(tǒng)的特征提取

        圖1描述了語音識別系統(tǒng)的一般流程,圖中上半部分代表建模過程,下半部分代表識別過程。完整的連續(xù)語音識別系統(tǒng)主要包含四個部分:預(yù)處理、特征提取、聲學(xué)模型建立和識別語音信號[1]。聲學(xué)模型建立主要應(yīng)用HTK,HTK是專門用于建立和處理隱馬爾科夫模型(Hiden Marcov Model, HMM)的工具包,目前在語音識別的應(yīng)用和研究領(lǐng)域被廣泛使用[2]。識別引擎使用Julius開源平臺,Julius是一種針對大詞匯量連續(xù)語音識別相關(guān)研究和開發(fā)的語音識別引擎[3]。它是基于N元語法(N-gram)和上下文相關(guān)的HMM的高性能、雙通道解碼器軟件,可以進行對輸入的連續(xù)語音進行實時解碼。

        圖1 語音識別系統(tǒng)框架結(jié)構(gòu)

        預(yù)處理主要就是對語音信號進行基本操作,一般先使用公式(1)補償語音信號中的高頻部分,一般μ的取值范圍在0.94到0.97之間。

        H(z)=1-μZ-1 (1)

        本系統(tǒng)使用傳統(tǒng)的MFCC[4]作為語音特征提取的方法,并在提取MFCC特征的同時引入噪音魯棒性算法,通過重新編譯HTK中的HCopy命令進行噪音魯棒性的語音特征提取,得到具有提取噪音魯棒性的連續(xù)語音特征參數(shù)。

        2 語音識別系統(tǒng)的模型建立

        聲學(xué)模型是語音識別系統(tǒng)最基本的組成單元和核心部分,使用HMM建立聲學(xué)模型是目前多數(shù)語音識別系統(tǒng)采用的方法。在日語連續(xù)語音識別中,采用音素作為聲學(xué)模型的建模單元。音素的數(shù)目不等于字母的數(shù)目,是從音質(zhì)角度劃分得出的最小語音單位。日語的標準音素有40個,加上連續(xù)語音中由于換氣、思考等引起的暫停(sp)、連續(xù)語音開始靜音段(SilB)和結(jié)束靜音段(SilE),最終建模的音素共計43個。與孤立詞識別相比,在連續(xù)語音中,語音還會受到臨近音的影響,這種影響形式被稱為協(xié)同發(fā)音,因此在連續(xù)語音模型中還需要考慮上下文的相關(guān)音素產(chǎn)生的協(xié)同發(fā)音。這種上下文相關(guān)的音素模型通過考慮某個音素的前后幾個音素來捕捉協(xié)同發(fā)音,提高系統(tǒng)的識別性能。考慮的相關(guān)音素數(shù)量越多,模型的復(fù)雜度就越高。常用的方法是只考慮當前音素左右相鄰的音素,這種方式稱為三元音素(triphone)模型。

        三音素模型的訓(xùn)練直接來自與上下文相關(guān)的單個音素,這種訓(xùn)練方式導(dǎo)致系統(tǒng)中的HMM模型個數(shù)以3次方的倍數(shù)增加,影響了系統(tǒng)處理效率和識別精度。為了避免這個問題,根據(jù)經(jīng)驗和實驗得到的條件對于相同類型的三音素進行狀態(tài)捆綁。該操作使用HEEd工具函數(shù)和決策樹文件對所有的三音素模型進行多次訓(xùn)練得到。

        建模訓(xùn)練中首先利用連續(xù)語音特征生成單音素(Monophone)模型,本文使用的是HCompV和HERest創(chuàng)建訓(xùn)練單音素模型。為了解決協(xié)同發(fā)音,還需要創(chuàng)建三音素(Triphone)模型并進行模型重估。根據(jù)Net文件生成三音素模型。對與單音素和三音素模型的訓(xùn)練,還需要引入高斯混合數(shù)進行模型重估分類訓(xùn)練。該步驟的目的是訓(xùn)練出一個高效穩(wěn)定的聲學(xué)模型,該模型使識別的精度趨于平穩(wěn)。

        分類的目的有兩個,第一個是減少音素模型類別,使得在較少的數(shù)據(jù)集上訓(xùn)練得到的模型較為可靠;第二,減少了模型之間的重疊性、增加區(qū)分性。

        圖2 音素訓(xùn)練分類過程

        創(chuàng)建原始的HMM模型,該模型由均值向量和協(xié)方差矩陣所組成,用5個狀態(tài)、26維系數(shù)和狀態(tài)轉(zhuǎn)移矩陣表示。再依據(jù)音素表和音素特征文件生成各個音素級的HMM。最后根據(jù)所有的訓(xùn)練語音數(shù)據(jù)對音素級HMM進行訓(xùn)練形成單音素模型。為了增強HMM模型的抗干擾能力,加入了靜音部分(針對音素sp)進行狀態(tài)優(yōu)化。該過程通過HTK中的HHEd來完成。針對多發(fā)音字,采用HVite工具函數(shù)結(jié)合語料進行重復(fù)多次的訓(xùn)練來完成。

        3 語音識別系統(tǒng)的數(shù)據(jù)源

        語音數(shù)據(jù)分為兩個部分:訓(xùn)練庫和測試庫。訓(xùn)練語音數(shù)據(jù)庫來自JNAS (Japanese news article sentences)數(shù)據(jù)庫,訓(xùn)練數(shù)據(jù)庫中的語音來源于報紙《每日新聞》中的內(nèi)容,由153個男性朗讀的大概2萬3千多個句子。為了更好的檢測模型的魯棒性,測試庫數(shù)據(jù)不僅有來自JNAS從訓(xùn)練庫選取的數(shù)據(jù),還有來自北海道大學(xué)日本學(xué)生朗讀的與訓(xùn)練庫數(shù)據(jù)完全無關(guān)的句子。

        4 系統(tǒng)實現(xiàn)

        圖3為連續(xù)語音系統(tǒng)的結(jié)構(gòu)。JNAS包括了語音的音頻數(shù)據(jù),語音羅馬字標注和音素時間段的劃分。首先把音頻信息的羅馬字轉(zhuǎn)換成音素級的標注,其標注采用perl腳本工具和Hled共同完成。音素時間段的劃分轉(zhuǎn)換成以開始幀和結(jié)束幀的形式存放在文件中。通過perl小工具str2net生成上下文相關(guān)的三元音素網(wǎng)絡(luò)。該網(wǎng)絡(luò)與語音的MFCC特征對應(yīng)進行聯(lián)合訓(xùn)練得到系統(tǒng)聲學(xué)模型,最后經(jīng)過加入高斯混合數(shù)并進行狀態(tài)分類,得到約有2000個狀態(tài)的HMM模型。

        圖3 連續(xù)語音識別系統(tǒng)結(jié)構(gòu)

        5 結(jié)果及評價

        在連續(xù)語音中,協(xié)同發(fā)音會造成相鄰音素的發(fā)音發(fā)生變化,這種變化在識別會引起相應(yīng)的錯誤(刪除錯誤,插入錯誤和替代錯誤),這些錯誤導(dǎo)致了連續(xù)語音識別技術(shù)性能的大幅下降。

        下述兩個公式為評價規(guī)則:

        (2)

        (3)

        N代表一個句子中的詞匯總數(shù),S代表錯誤識別的單詞,即把正確的識別成錯誤的。D代表沒有作為一個詞語選擇出來的單詞,即:識別正確但沒有作為一個詞來評價。I代表本不該是一個詞匯的卻被識別成一個詞,例如:噪音或者無音部分被識別成一個詞語。RA表示整個連續(xù)語音的識別性能。RC表示在整個連續(xù)語音的詞匯集合中對于單詞的正確識別比例。

        表1 該系統(tǒng)下的識別精度[%]

        參考文獻:

        [1]趙力.語音信號處理[M].機械工業(yè)出版社,2003.

        [2]張杰,黃志同,王曉蘭.語音識別中隱馬爾可夫模型狀態(tài)數(shù)的選取原則及研究[J].計算機工程與應(yīng)用,2000(01).

        [3]I.Katunobu,Y.Mikio,T.Kazuya,M.Tatsuo,K.Tetsunori,S.Kiyohiro,andI.Shuichi,JNAS:Japanesespeechcorpusforlargevocabularycontinuousspeechrecognitionresearch,JournaloftheAcousticalSocietyofJapan(E),vol.120,no.3,119-206,1999.

        [4]曹潔,余麗珍.基于MFCC和運動強度聚類初始化的多說話人識別[J].計算機應(yīng)用研究,2012(09).

        作者單位:長春理工大學(xué)計算機科學(xué)技術(shù)學(xué)院,長春 130022

        亚洲天堂一区二区偷拍| 调教在线播放黄| 国产亚洲精品综合99久久| 国产在线精品观看一区二区三区 | 老妇肥熟凸凹丰满刺激| 国产午夜激无码AV毛片不卡| 亚洲精品中文字幕一二三| 三级全黄裸体| 黑人玩弄人妻中文在线| 99re国产电影精品| 成人av资源在线观看| 天天爽夜夜爽人人爽| 亚洲av无码成人黄网站在线观看| 国产日韩三级| 中文字幕亚洲一二三区| 亚洲成a人片在线观看无码3d| 久久亚洲国产精品成人av秋霞| 男女上床视频免费网站| 偷拍视频网址一区二区| 亚洲七久久之综合七久久| 最新国产在线精品91尤物| 国产一区二区一级黄色片| 欧美白人战黑吊| 亚洲乱码av中文一区二区| 91狼友在线观看免费完整版| 亚洲女同免费在线观看| 国精品人妻无码一区免费视频电影| 亚洲香蕉成人AV网站在线观看 | 国产AV无码无遮挡毛片| av在线播放免费网站| 少妇仑乱a毛片| 亚州精品无码人妻久久| 国产一区二区三区av观看| 人妻体内射精一区二区三区| 久久久www成人免费无遮挡大片| 亚洲精品动漫免费二区| 美女免费视频观看网址| 国产高清av首播原创麻豆| 亚洲动漫成人一区二区| 少妇精品偷拍高潮少妇在线观看| 国产亚洲精品a片久久久|