亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        藏語孤立詞語音識別技術(shù)研究

        2016-01-19 01:13:05趙爾平,王聰華,黨紅恩

        E-mail:xdzep@163.com

        藏語孤立詞語音識別技術(shù)研究

        趙爾平,王聰華,黨紅恩,雒偉群

        (西藏民族大學(xué)信息工程學(xué)院,陜西咸陽712082)

        摘要:針對藏語讀音首先看后加字,然后根據(jù)元音的位置關(guān)系決定讀音,而且元音比輔音攜帶更多聽覺感知信息的特點,提出了一種改進的HTK系統(tǒng)藏語孤立詞語音識別技術(shù).在識別特征參數(shù)中,增加更能表征元音特征的共振峰參數(shù)提高語音識別的正確性,通過循環(huán)迭代方法提高語音訓(xùn)練速度,利用藏文字母拉丁轉(zhuǎn)寫方法解決藏文和語音識別系統(tǒng)編碼不一致的問題.在二次開發(fā)的HTK平臺進行實驗,正確率達到92.83%,實驗結(jié)果表明元音特征在藏語音識別中起到重要作用.

        關(guān)鍵詞:藏語孤立詞;共振峰;Mel倒譜特征;循環(huán)迭代;隱馬爾可夫模型;語音識別

        收稿日期:2014-12-20;修改稿收到日期:2015-01-25

        基金項目:國家自然科學(xué)基金資助項目(61162025);西藏自治區(qū)自然科學(xué)基金資助項目(12KJZRYMY07);西藏自治區(qū)科技廳重點項目(藏科發(fā)[2013]189號);西藏民族學(xué)院重大科研項目(11myZ05)

        作者簡介:趙爾平(1976—),男,陜西彬縣人,副教授,碩士.主要研究方向為數(shù)據(jù)庫技術(shù)與語音識別.

        中圖分類號:TP 912.34文獻標志碼:A

        Research on Tibetan isolated word speech recognition technology

        ZHAO Er-ping,WANG Cong-hua,DANG Hong-en,LUO Wei-qun

        (College of Information Engineering,Tibet Nationalities Institute,Xianyang 712082,Shaanxi,China)

        Abstract:Aiming at Tibetan pronunciation firstly look after hong jia zi,then its pronunciation is determined by the position of vowel,and a vowel carry more auditory perception information than a consonant in speech,a Tibetan isolated word speech recognition technology of improved HTK system is proposed in this paper.The accuracy of speech recognition is improved by increasing a formant parameter in the recognition characteristic parameters,the formant parameter can characterize vowel features very well,the speech training speed is raised by cycle iteration,Tibetan letters transformation Latin alphabet solves inconsistent problem that Tibetan and speech recognition system code.The test is executed on the secondary developing HTK platform,the correct rate reaches 92.83%.Experimental result indicates that vowel features play an important role in Tibetan speech recognition.

        Key words:Tibetan isolated word;formant;Mel cepstrum features;loop iteration;HMM;speech recognition

        0前言

        語音識別是應(yīng)用多學(xué)科交叉知識將語音信號轉(zhuǎn)換為對應(yīng)文字的技術(shù),目的在于用聲音實現(xiàn)人機交互.漢語、英語等主流語言的語音識別已取得很多成果,實驗室環(huán)境下的識別效果可以滿足人機交互系統(tǒng)的需要,在一些領(lǐng)域被廣范應(yīng)用.但是藏語語音識別還處在孤立詞階段,剛剛起步.

        1相關(guān)概念

        1.1隱馬爾可夫模型

        隱馬爾可夫模型(Hidden Markov model,HMM)是一種具有雙重隨機過程的統(tǒng)計分析模型,定義為五元組[1]67:

        其中,

        1)S為隱含狀態(tài),S={s1,s2,…,sN},N為隱含狀態(tài)數(shù)目;

        2)O為可觀察狀態(tài),O={o1,o2,…,oM},M為可觀察狀態(tài)數(shù)目,M=N或M≠N;

        3)Π為初始狀態(tài)概率矩陣,Π={π1,π2,…,πN}, πi=P(x0=si)(1≤i≤N)為初始時刻t=0模型各狀態(tài)的概率;

        1.2HTK工具

        HTK(HiddenMarkovmodeltoolkit)是英國劍橋大學(xué)開發(fā)的一套構(gòu)建隱馬爾可夫模型(HMM)的工具箱,主要用于語音合成與識別、故障診斷和DNA排序等領(lǐng)域[2],其核心功能包括數(shù)據(jù)準備、模型訓(xùn)練、語音識別.HTK具有允許用戶根據(jù)實際需要進行二次開發(fā)的開源代碼.

        1.3藏語簡介

        藏語是一種拼音文字,有30個輔音、4個單元音和1個無符號元音.國內(nèi)學(xué)術(shù)界將藏語主要分為衛(wèi)藏、安多和康三大方言[3].三大方言文字相同,發(fā)音有較大差異,文中選用使用人數(shù)最多、最具有代表性的衛(wèi)藏方言(拉薩話)作為研究對象.

        2衛(wèi)藏語音及元音特征研究

        2.1衛(wèi)藏語音

        衛(wèi)藏方言作為現(xiàn)代藏語的標準,在長期應(yīng)用發(fā)展中形成自己的規(guī)律與特點.研究表明[4],現(xiàn)代拉薩話的聲母系統(tǒng)已經(jīng)基本沒有復(fù)輔音.聲母系統(tǒng)主要指單輔音聲母,共28個;韻母有45個(由單元音韻母、復(fù)合元音韻母和輔音韻尾的韻母三部分組成),韻母中有/a/,/i/,/u/,/e/,//,/ε/,/y/,/?/ 8個基本元音、/iu/,/au/ 2個復(fù)合元音和7個輔音韻尾.現(xiàn)代拉薩話中單元音增多,尤其是鼻化元音,元音發(fā)音長短與聲調(diào)有互補關(guān)系.藏語字母有一套嚴格排列規(guī)則,元音符號不能作為基字丁,只能固定地疊加在基字的上方或下方表示不同元音.元音的主要作用是做音節(jié)的韻母,每個音節(jié)中必須包含元音,元音在字母中的位置不同發(fā)音也不同.藏語先看后加字,然后根據(jù)元音的位置關(guān)系決定讀音[5].

        2.2元音特征

        Cole等提出元音比輔音對語音聽覺感知更為重要[6].文獻[7]采用噪聲替換實驗方法分別替換掉語音中的元音和輔音,實驗結(jié)論是替換掉輔音的語音比替換掉元音的語音具有更高的識別率(比率約為2∶1),證明了元音比輔音攜帶了更多的信息.Kewley-Port等采用同樣方法研究孤立詞語音,發(fā)現(xiàn)元音比輔音攜帶了更多對語句可懂度有用的信息[8-9].由此可見,在語音識別中應(yīng)用和識別元音特征至關(guān)重要.

        元音激勵進入說話人聲道引起共振,產(chǎn)生一組共振頻率——共振峰,聲學(xué)界學(xué)者研究表明[10],共振峰是區(qū)別不同元音的重要聲學(xué)特征.由于藏語發(fā)音與元音位置有關(guān),元音又比輔音攜帶了更多聽覺感知信息,且衛(wèi)藏韻母中包含8個基本元音和2個復(fù)合元音,所以提取共振峰參數(shù)(主要是前3個共振峰f1,f2,f3)對識別帶有不同元音的藏語音增加了可靠的聲學(xué)特征.因此文中在蔵語孤立詞語音識別中,除了使用Mel倒譜參數(shù)外,增加共振峰參數(shù)來提高識別正確率.

        3改進的HTK平臺衛(wèi)藏語音識別

        HTK平臺利用12維MFCC系數(shù)和1維數(shù)能量經(jīng)過一階、二階差分變后的39維MFCC特征向量進行語音識別,沒有使用共振峰參數(shù),文中對HTK平臺進行改進,增加共振峰聲學(xué)特征,與MFCC參數(shù)結(jié)合進行藏語音識別.

        3.1提取共振峰特征

        共振峰信息包含在語音頻率包絡(luò)之中,因此共振峰參數(shù)信息提取的關(guān)鍵是估計自然語音頻譜包絡(luò),并認為譜包絡(luò)中的最大值就是共振峰[11].提取共振峰參數(shù)的方法主要有倒譜法和線性預(yù)測法(LPC),倒譜法可以較好地分離出語音信號頻譜包絡(luò)結(jié)構(gòu).文中特別采用倒譜法,利用把語音頻譜進行z變換、取對數(shù)和傅里葉變換變換等得到語音頻譜的包絡(luò)曲線.下面是倒譜法原理:選用最普遍的極零模型來描述表征聲道響應(yīng)x(n),其z變換公式為[12]58

        經(jīng)傅立葉、取對數(shù)和逆傅立葉變換得到復(fù)倒譜公式為

        (3)

        倒譜算法將基音諧波和聲道的頻譜包絡(luò)分離開,再對頻譜包絡(luò)曲線進行離散傅里葉變換得到離散譜曲線.按照離散頻譜包絡(luò)曲線各峰值能量的大小確定出1~4共振峰參數(shù)[11],而前3個共振峰參數(shù)就足以確定語音信號中的不同元音.提取中采用同態(tài)解卷技術(shù)消除基頻諧波的影響,獲得更精確的共振峰參數(shù).

        3.2共振峰與MFCC結(jié)合

        人耳對低頻(<1 000 Hz)感知靈敏,感知力與頻率大致呈線性關(guān)系;而對高頻(>1 000 Hz)感知比較模糊,感知力與頻率呈對數(shù)關(guān)系[13].Mel頻率描述了人耳的這一聽覺特性,將頻譜轉(zhuǎn)換為基于Mel頻標的非線性頻譜,再轉(zhuǎn)換到頻譜域中,Mel頻標與頻率f的關(guān)系可用下式近似表示[13]1333:

        MFCC參數(shù)提取步驟包括:① 預(yù)加重;② 分幀加漢明窗;③ 快速傅利葉轉(zhuǎn)換;④ 三角帶通濾波;⑤ 離散余弦變換得到12維MFCC系數(shù);⑥ 對數(shù)能量;⑦ 差分變換.

        在差分變換之前,將3.1節(jié)中提取的f1,f2,f3共振峰參數(shù)增加到HTK系統(tǒng),使得每幀語音基本特征為16維(1維對數(shù)能量、12維MFCC系數(shù)和3維共振峰參數(shù)),然后將16維基本特征進行一階、二階差分變換得到48維特征向量,即語音的差量倒頻譜參數(shù),它可以增加語音的動態(tài)特征.文中用48維差分倒譜參數(shù)對拉薩話語音進行訓(xùn)練與識別.

        3.3循環(huán)迭代訓(xùn)練

        改進HTK訓(xùn)練過程(hmm0→hmm1→hmm2→hmm3→hmm4…),采用循環(huán)迭代訓(xùn)練過程(圖1).采用循環(huán)迭代有兩點益處:① 多次修正HMM模型參數(shù)的初始值(hmm3→hmm0迭代),使訓(xùn)練算法快速收斂;② 有利于統(tǒng)一搭建語音識別系統(tǒng)環(huán)境.由于每個單詞發(fā)音不同,訓(xùn)練時的觀察值個數(shù)不同,訓(xùn)練模型重估迭代次數(shù)存在不同,結(jié)果輸出需要的文件目錄就不一樣多,不利于環(huán)境搭建.改進的循環(huán)迭代訓(xùn)練給每個單詞統(tǒng)一搭建3個觀察值目錄,如果hmm2到hmm3迭代還未收斂,則繼續(xù)hmm3到hmm0迭代,直到hmm2到hmm3迭代收斂時停止訓(xùn)練.

        圖1 循環(huán)迭代訓(xùn)練

        基于Baum-Welch算法[14]的訓(xùn)練本質(zhì)上是一種梯度下降方法,在訓(xùn)練過程中可能存在局部極小問題,所以訓(xùn)練開始用HCompv工具對模型平坦初始化,用可變基底宏(varFloor1)的值在后續(xù)訓(xùn)練過程中作為估計的變化向量的基底,當(dāng)后續(xù)訓(xùn)練某狀態(tài)的估計變化值很小時,就用基底宏的值來代替,以避免局部極小問題,使得訓(xùn)練算法快速準確收斂.實踐表明,循環(huán)迭代不會影響藏語音識別正確率,反而會加快訓(xùn)練速度,并使藏語音識別系統(tǒng)環(huán)境配置統(tǒng)一起來.

        3.4藏文拉丁轉(zhuǎn)寫

        HTK工具箱是用來識別英語語音的,程序和配置文件(語法、任務(wù)字典、語音標注等)編碼格式都是ANSI編碼,文獻[15]所述藏語字庫國際標準編碼是Unicode編碼,如果配置文件中直接輸入藏文就會成亂碼,所以此系統(tǒng)不能直接識別藏語音.藏語研究者通常將藏文字母轉(zhuǎn)寫為拉丁字符來表示藏語的發(fā)音,所以文中采用國際通用的藏文字母拉丁轉(zhuǎn)寫來表示藏語單詞,按文獻[16]中規(guī)則轉(zhuǎn)寫.藏文拉丁轉(zhuǎn)寫方法解決了藏文與HTK系統(tǒng)編碼不一致問題,方便改進的HTK系統(tǒng)實現(xiàn)藏語音識別.

        4實驗結(jié)果與分析

        對HTK系統(tǒng)進行二次開發(fā),增加共振峰參數(shù)提取、統(tǒng)計和分析功能,把原來的HTK平臺系統(tǒng)與改進后的HTK平臺系統(tǒng)進行比較實驗測試.實驗中,用于聲學(xué)模型訓(xùn)練和測試的孤立詞語音集采用16K采樣頻率,用16bit量化精度,雙聲道麥克風(fēng)連接PC機在實驗室環(huán)境下錄制.選擇拉薩地區(qū)發(fā)音標準的10位藏族學(xué)生(5男、5女)作為訓(xùn)練語料庫發(fā)音對象,訓(xùn)練語料庫包含10個學(xué)生對60個藏語詞匯的一次朗讀語音數(shù)據(jù).測試語音庫是30 個說話人(15 男、15 女)分別對60個訓(xùn)練詞3次朗讀語音數(shù)據(jù),頻譜特征觀察矢量為每幀48 維向量.圖2是改進后的HTK平臺上進行的某一次測試結(jié)果,圖2中單詞識別率是93.55%,N=62表示被識別的孤立詞總數(shù)(60個詞和1個開始標志與1個結(jié)束標志),H=58表示正確識別詞的數(shù)量,參考副本ref.mlf是訓(xùn)練時的整個語音標注文件,識別副本reco.mlf是測試時整個語音標注文件.通過比較語音在參考副本和識別副本中每項數(shù)據(jù),進行識別性能測評.

        圖2 改進的 HTK上某次識別結(jié)果

        HTK與改進后的HTK系統(tǒng)30次平均測試結(jié)果如表1所示.由表1可知,共振峰與MFCC參數(shù)結(jié)合的方法(改進后的HTK)明顯提高了拉薩話非特定人孤立詞語音識別正確率,再次證明元音特征為孤立詞識別提供了有用信息,元音在藏語發(fā)音中具有重要作用.實驗過程中發(fā)現(xiàn)影響識別率的因素有:① 語音信號正確標注,每個孤立詞語音信號標注3個區(qū)域:開始停頓區(qū)、單詞語音區(qū)、結(jié)束區(qū),3個區(qū)域不能重疊,要有很小的間隙.② 訓(xùn)練的語音必須有3個以上觀察序列,否則不能訓(xùn)練,所以不能把一個人的連續(xù)幾次發(fā)音數(shù)據(jù)作為語料庫.③ 虛假共振峰影響識別率,盡量完全消除.④ 實驗過程證明HMM模型選6個狀態(tài)最佳,狀態(tài)數(shù)增加或減少不會增加識別正確率.⑤ 循環(huán)迭代訓(xùn)練法不影響識別結(jié)果.

        表1 兩個系統(tǒng)識別結(jié)果比較

        5結(jié)束語

        文中對藏語拉薩話孤立詞語音進行了分析,提出語音共振峰與MFCC參數(shù)為特征的藏語孤立詞識別技術(shù).在二次開發(fā)的HTK平臺上進行測試,證明該方法明顯提高藏語孤立詞語音識別率,并指出影響識別率的幾個干擾因素和解決方法.拉薩話是有聲調(diào)的,長短聲調(diào)與韻母發(fā)音有嚴格對應(yīng)關(guān)系,今后研究方向是如何提取聲調(diào)特征參與識別.而基字丁拆分技術(shù)可以實現(xiàn)藏語音中聲母和韻母分離,聲母、韻母聲學(xué)特征也是今后研究的重要方向.

        參考文獻:

        [1]王川,段德全,王曉東.基于改進的POS和HMM的Web信息抽取算法[J].河南師范大學(xué)學(xué)報(自然科學(xué)版),2010,38(5):65.

        [2]魏 巍,張海濤.一種基于HTK 的數(shù)字語音識別系統(tǒng)[J].計算機系統(tǒng)應(yīng)用,2011,20(9):17.

        [3]李冠宇,孟猛.藏語拉薩話大詞表連續(xù)語音識別聲學(xué)模型研究[J].計算機工程,2012,38(5):189.

        [4]于洪志,高璐,李永宏,等.藏語機讀音標SAMPA_ST的設(shè)計[J].中文信息學(xué)報,2012,26(4):67.

        [5]劉博,楊鴻武,甘振業(yè),等.利用SAMPA實現(xiàn)藏語的字音轉(zhuǎn)換[J].計算機工程與應(yīng)用,2011,47(35):117.

        [6]COLE R A,YANG Hong-yan,MAK B,et al.The contribution of consonants versus vowels to word recognition in fluent speech[C]//ProcICASSP1996.Atlanta:IEEE,1996:853.

        [7]KEWLEY-PORT K,BURKLE Z,LEE Jae Hee.Contribution of consonant versus vowel information to sentenceintelligibility for young normal-hearing and elderly hearing-impairedlisteners[J].AcousticalSocietyofAmerica,2007,122(4):2365.

        [8]LEWICHI M S.A signal take on speech[J].Nature,2010,466(12):821.

        [9]顏永紅,李軍鋒,應(yīng)冬文.語音中元音和輔音的聽覺感知研究[J].應(yīng)用聲學(xué),2013,32(3):231.

        [10]趙力.語音信號處理[M].北京:機械工業(yè)出版社,2003:5-9.

        [11]王坤赤,蔣華.基于語音頻譜的共振峰聲碼器實現(xiàn)[J].現(xiàn)代電子技術(shù),2007(21):168.

        [12]王曉亞.倒譜在語音的基音和共振峰中提取的應(yīng)用[J].無線電工程,2004,34(1):57.

        [13]王宏志,徐玉超,李美靜.基于Mel頻率倒譜參數(shù)相似度的語音端點檢測算法[J].吉林大學(xué)學(xué)報(工學(xué)版),2012,42(5):1331.

        [14]張增銀,元昌安,胡建軍,等.基于GEP和Baum-Welch算法訓(xùn)練HMM模型的研究[J].計算機工程與設(shè)計,2013,31(9):2027.

        [15]黃鶴鳴,趙晨星.藏文信息處理的Windows支持環(huán)境[J].計算機應(yīng)用與軟件,2009,26(12):188.

        [16]李用宏,孔江平,于洪志.藏語文-音自動規(guī)則轉(zhuǎn)換及其實現(xiàn)[J].清華大學(xué)學(xué)報(自然科學(xué)版),2008,48(S1):622.

        (責(zé)任編輯惠松騏)

        美丽小蜜桃1一3在线观看| 男女动态91白浆视频| 亚洲24小时免费视频| 91九色最新国产在线观看| 久久久久久夜精品精品免费啦| 全黄性性激高免费视频| 一夲道无码人妻精品一区二区| 亚洲国产精品久久久久秋霞影院| 国产免费又色又爽又黄软件| 综合无码一区二区三区四区五区| 亚洲人成电影在线观看天堂色| 亚洲日韩精品欧美一区二区| 久久香蕉成人免费大片| 官网A级毛片| 国产精品二区三区在线观看| 日韩午夜免费视频精品一区| 久久国产加勒比精品无码| 亚洲av综合日韩| 国产精品亚洲午夜不卡| 喷潮出白浆视频在线观看| 久久精品亚洲热综合一本色婷婷| 中文字幕日韩人妻少妇毛片| 久久天天躁狠狠躁夜夜avapp| 亚洲人成色777777老人头| 国产婷婷丁香久久综合| 蜜桃在线观看免费高清| 亚洲一区二区三区在线最新| 人人妻人人澡人人爽国产| 天堂а√在线中文在线新版| 国产在线91观看免费观看| 国产高清女人对白av在在线| 亚洲肥婆一区二区三区| 日韩av午夜在线观看| 国产精品igao视频| 夜夜爽无码一区二区三区 | 亚洲精品午夜久久久九九| 寂寞少妇做spa按摩无码| 美女视频一区| 一级无码啪啪| 久久国产精品免费专区| 曰本女人与公拘交酡|