亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于HMM的聲調(diào)語音模型研究

        2019-01-02 12:44:34易雪蓉
        武漢工程大學學報 2018年6期
        關(guān)鍵詞:同音字音素聲調(diào)

        易雪蓉,黃 巍*,2,胡 迪,蔣 怡

        1.武漢工程大學計算機科學與工程學院,湖北 武漢 430205;2.智能機器人湖北省重點實驗室(武漢工程大學),湖北 武漢 430205

        語言是人類溝通的重要工具,語音識別是人工智能研究的重要領(lǐng)域。20世紀50年代,貝爾實驗室設(shè)計了第一個語音識別系統(tǒng),實現(xiàn)了對孤立數(shù)字的語音識別[1]。20世紀60年代,提出了時間歸一化打分機制、音素動態(tài)跟蹤技術(shù)和動態(tài)規(guī)劃算法,有效地解決了語音信號的特征提取和不等長語音匹配問題[2]。20世紀70年代,模式識別思想、線性預測編碼等技術(shù)被應(yīng)用于語音識別中,識別對象從孤立詞轉(zhuǎn)移到連續(xù)語音[3]。20世紀90年代及以后,隱馬爾科夫模型(hidden markov modol,HMM)、高斯混 合 模 型(gaussian mixed model,GMM)被提出[4],基于GMM-HMM的語音識別框架得到廣泛使用和研究,文獻[5]通過改進語音特征參數(shù)相鄰幀的相關(guān)性,進一步提高GMM-HMM的準確度;文獻[6-7]使用GMM-HMM識別了連續(xù)語音的聲調(diào)。目前,深度學習技術(shù)也被應(yīng)用于語音處理系統(tǒng)[8-11],由于它對訓練數(shù)據(jù)和硬件資源有著極高的要求,限制了其使用范圍。

        現(xiàn)代漢語是一種有聲調(diào)的特殊語音,音素和聲調(diào)組合可以構(gòu)成無數(shù)個多音字和同音字的發(fā)音。一方面,同一個漢字在不同的聲調(diào)下代表不同的意義,另一方面,相同的讀音可能代表完全不同的漢字,因此,與印歐語系的語言相比,聲調(diào)和上下文信息對漢語語音的識別具有更重要的作用[12]。

        本文在語音模型中添加聲調(diào),并使用字轉(zhuǎn)移概率捕獲上下文信息,修改HTK[13]工具包以適應(yīng)漢語語音識別問題,實驗結(jié)果證明了聲調(diào)對近音字識別的重要性,同時字轉(zhuǎn)移概率的引入能有效提高同音字識別的準確率。

        1 基于HMM的聲調(diào)語音模型

        GMM-HMM語音識別系統(tǒng)的框架圖如圖1所示,其結(jié)構(gòu)主要由3部分組成:語言模型、字典和語音模型[14]。

        圖1 語音識別系統(tǒng)框架Fig.1 Framework of speech recognition system

        1.1 聲調(diào)語音模型

        GMM-HMM通常由λ={O,S,π,A,B}來描述[15],其中 O 代表L個觀測向量集合{o1,o2,…,oL},S是 K 個 HMM 狀態(tài)的集合 {s1,s2,…, sK},π={π1,π2,…,πK}是初始狀態(tài)分布,A是所有狀態(tài)轉(zhuǎn)移概率所構(gòu)成的矩陣(aij)(aij表示從狀態(tài)i到狀態(tài)j的轉(zhuǎn)移概率),B是狀態(tài)觀測符號的概率分布{bi(oj)}K*L(bi(oj)表示在狀態(tài)si下觀察到觀測向量oj的概率)。一個HMM的生成模型M如圖2所示[13],圖2中1,2,3,4,5,6代表狀態(tài) s1,s2,s3,s4,s5,s6。

        圖2 HMM的生成模型Fig.2 HMM Generation Model

        作為一個例子,在M的一個實例中,出現(xiàn)狀態(tài)X=(s2,s2,s3,s4,s4,s5)并觀察到觀測向量序列O=(o1,o2,o3,o4,o5,o6)的概率為:

        在基于GMM-HMM的語音識別應(yīng)用中,X是未知隱藏的,則:

        x(0)是模型的初態(tài),x(T+1)是模型的終態(tài)。

        當觀察到觀測序列 O=[o(1),o(2),…,o(t)]時,最可能出現(xiàn)的未知狀態(tài)序列X應(yīng)該是使得觀測向量序列O出現(xiàn)的可能性最大的狀態(tài)序列,即:

        本文的實驗中一個模型M對應(yīng)一個音素W,即p(O|W)=p(O|M)。

        在漢語中,一個漢字讀音就是一個音節(jié),每個基本音節(jié)由3個部分組成:聲母、韻母和聲調(diào)[16],聲母和韻母又是由音素組成的復合音。聲母有23個,韻母有39個,音素包含輔音22個和元音10個,輔音對應(yīng)聲母,元音對應(yīng)韻母。漢語拼音聲母、韻母和音素對照見圖3[17],其中-i(前)為zi,ci,si發(fā)音的尾部部分,-i(后)為 zhi,chi,shi發(fā)音的尾部部分。聲調(diào)有4種,其中僅由聲母和韻母構(gòu)成并實際存在的聲韻結(jié)合體據(jù)統(tǒng)計一共有400多個,將這些聲韻結(jié)合體與音調(diào)組合成音節(jié)共記1 200多個[18]。在實際生活中,漢語口語中的音調(diào)不僅僅是一聲、二聲、三聲和四聲,還存在輕聲。為了識別的準確性和全面性,在本文實驗的聲調(diào)模型中,除了標準規(guī)定的四種聲調(diào)外,另加了一種輕聲,構(gòu)成5種聲調(diào),見表1。最后添加了聲調(diào)的音素模型有81個,聲調(diào)僅跟在每個音節(jié)的最后一個音素后(見圖4)。

        表1 聲調(diào)模型對應(yīng)表Tab.1 Mapping table of tone model

        圖3 漢語拼音聲母、韻母和音素對照圖Fig.3 Comparison of Chinese Pinyin initials,finals and phonemes

        圖4 音素-聲調(diào)模型內(nèi)容Fig.4 Content of phoneme-tone model

        從圖3和圖4中可以看出:新模型與聲韻母-音調(diào)組合相比較降低了復雜度,與傳統(tǒng)音素模型相比較提高了精確度。部分傳統(tǒng)音素從1個細分成5個,讓識別過程中的分類更加精細,如圖5和圖6所示,圖5是傳統(tǒng)音素建立HMM模型的示意圖,音素相同發(fā)音不同的漢字所生成的HMM模型是一樣的;圖6是聲調(diào)-音素建立HMM模型的示意圖,添加聲調(diào)模型后,音素相同發(fā)音不同的漢字所生成的HMM模型是不一樣的。傳統(tǒng)模型中音素相同發(fā)音不同的漢字因為共用相同的HMM模型,最后計算的 p(O|M)相等,無法選取最優(yōu)字;聲調(diào)-音素模型中音素相同發(fā)音不同的漢字因為HMM模型的不同,最后計算出的 p(O|M)不一樣,根據(jù)實際情況選擇可能性最大的概率,可以讓識別結(jié)果更準確。

        圖5 基于傳統(tǒng)音素的HMM模型示意圖Fig.5 Schematic diagram of HMM model based on traditional phoneme

        圖6 基于聲調(diào)-音素的HMM模型示意圖Fig.6 Schematic diagram of HMM model based on tone-phoneme

        1.2 字轉(zhuǎn)移概率語言模型

        語音識別應(yīng)用中常用的語言模型是基于N-gram的統(tǒng)計語言模型。N-gram模型采用的是Markov假設(shè)[14],即當前字出現(xiàn)的概率僅與前1個字有關(guān)系。

        用 A=(start,a1,a2,a3,…,am,end)表示一段待識別的字序列,ai表示其中的一個字,根據(jù)語音模型的處理結(jié)果,可以從詞網(wǎng)中選取出ai的所有同音字,然后計算每一個字出現(xiàn)的概率,選取概率最大的字組成最后識別出的字序列,若概率相同則選取同音字里出現(xiàn)的第一個字。

        假設(shè)用 w1,w2,w3,…,wm-1,wm表示完整的句子中出現(xiàn)的每一個字,根據(jù)Markov假設(shè),字wi出現(xiàn)的概率為:

        整個句子出現(xiàn)的概率:

        其中 p(w1)表示start后出現(xiàn)字 wi的概率。這些概率在原始模型中全等于1,以至在同音字識別中正確率是不高的。

        本文首先對訓練數(shù)據(jù)進行統(tǒng)計,構(gòu)建一個為全0的矩陣C=(cij)(N+2)*(N+2),cij表示字i后面出現(xiàn)字j的概率,N+2表示有N個無重復的漢字和表示開始與結(jié)束的start與end;然后依次讀取訓練集,讀取到字符X,就在矩陣的行中找到X的位置x,接著讀取下一個字符Y,在矩陣的列中找到該字符的位置y,則cxy=cxy+1,表示字X后出現(xiàn)Y的次數(shù);最后對矩陣中的數(shù)值進行計算。則字轉(zhuǎn)移概率:p(wi|wi-1)=cwi-1wi。

        2 實驗部分

        2.1 實驗工具和數(shù)據(jù)

        本文研究修改了HTK工具包,以得到支持聲調(diào)和字轉(zhuǎn)移概率的GMM-HMM語音識別模型。為驗證聲調(diào)信息和字轉(zhuǎn)移概率對漢語語音識別的影響,分別進行了兩組實驗。實驗一是對聲韻母相同聲調(diào)不同的近音字的識別;實驗二是對聲韻母和聲調(diào)都相同的同音字的識別。

        實驗一所使用的語音數(shù)據(jù)集一為本研究收集的6個人對5組聲韻母相同但聲調(diào)不同的單個漢字的發(fā)音,共1 000條語音數(shù)據(jù),其中每5個相同聲韻結(jié)合體不同聲調(diào)的孤立漢字為一組,每組有180個訓練發(fā)音,20個測試發(fā)音。5組數(shù)據(jù)分別為:

        1、ma1媽,ma2麻,ma3馬,ma4罵,ma5嗎;

        2、ya1壓,ya2牙,ya3雅,ya4訝,ya5呀;

        3、mo1摸,mo2磨,mo3抹,mo4末,mo5魹;

        4、zuo1作,zuo2昨,zuo3左,zuo4坐,zuo5咗;

        5、qi1七,qi2奇,qi3起,qi4氣,qi5啐。

        這5組數(shù)據(jù)中,第1組和第2組有著相同的韻母,不同的聲母,目的是驗證聲母對聲調(diào)發(fā)音的影響;第1、3組數(shù)據(jù)有相同的聲母和不同的韻母,目的是驗證韻母對聲調(diào)發(fā)音的影響。

        實驗二所使用的語音數(shù)據(jù)集二為本研究收集的10個人對10句連續(xù)字的發(fā)音,共110條,其中100條訓練發(fā)音,10條測試發(fā)音。10組訓練數(shù)據(jù)為:

        1、慢man4慢man4喜xi3歡huan1你ni3;

        2、我wo3在zai4雨yü3中zhong1漫man4步bu4;

        3、我wo3在zai4洗xi3衣yi1服fu5;

        4、再zai4見jian4;

        5、我wo3在zai4做zuo4作zuo4業(yè)ye4;

        6、我wo3在zai4做zuo4手shou3工gung1;7、作zuo4息xi1時shi2間jian1;

        8、小xiao3荷he2才cai2露lu4尖jian1尖jian1角jiao3;

        9、保bao3持chi2沉chen2默mo4;10、藍lan2色se4墨mo4水shui3。

        這10組數(shù)據(jù)中,第1組和第2組有相同發(fā)音的“慢”和“漫”,第2、3、4、5、6組有相同發(fā)音的“在”和“再”,第1、3組有相同發(fā)音的“喜”和“洗”,第5、6、7組有相同發(fā)音的“做”和“作”,第9、10組有相同發(fā)音的“默”和“墨”,這幾組數(shù)據(jù)可以用來驗證字轉(zhuǎn)移概率對同音字識別的作用。

        2.2 實驗過程

        第一步:統(tǒng)計實驗數(shù)據(jù)中的漢字,編輯語法文件,實驗一中的語法規(guī)則是多選一,然后通過HTK命令將語法文件轉(zhuǎn)換成可供計算機識別的“詞網(wǎng)文件”;實驗二中的語法規(guī)則是多選多,然后建立兩個“詞網(wǎng)文件”,分別是HTK命令自動生成的無字轉(zhuǎn)移概率的詞網(wǎng)文件wnet1和添加了字轉(zhuǎn)移概率的詞網(wǎng)文件wnet2。

        第二步:提取供訓練的漢字語音文件的梅爾倒譜系數(shù),轉(zhuǎn)化成為特征矢量文件。

        第三步:結(jié)合實驗數(shù)據(jù)構(gòu)建兩個字典。字典一直接使用HTK命令生成,由漢字和音素組成,不含音調(diào)信息;字典二是在字典一的基礎(chǔ)上添加聲調(diào)信息,將聲調(diào)與每個字的最后一個音素相結(jié)合,生成含有音調(diào)的字典。

        第四步:構(gòu)建音素和音素-聲調(diào)兩個列表。音素表只包含音素,而音素-聲調(diào)表在音素表的基礎(chǔ)上加入聲調(diào)信息,在每個元音后加上聲調(diào),聲母不變。

        第五步:構(gòu)建基于音素的隱馬爾科夫模型HMM1和基于音素-聲調(diào)的隱馬爾科夫模型HMM2,HMM1和HMM2都被迭代訓練了7次。

        第六步:實驗一和實驗二分別使用了語音數(shù)據(jù)集一和語音數(shù)據(jù)集二,對比了無聲調(diào)模型HMM1和有聲調(diào)模型HMM2對近音字和同音字的識別效果。

        2.3 實驗結(jié)果

        實驗中正確率(Correct,α)定義如式(6),準確率(Accuracy,β)定義如式(7),其中N表示語音轉(zhuǎn)譯文件中的標簽總數(shù),D表示刪除錯誤的數(shù)量,S表示替換錯誤的數(shù)量,I插入錯誤的數(shù)量[13]。

        從實驗一的結(jié)果(見表2)中可以看出,在識別孤立漢字時,聲調(diào)模型對近音字識別結(jié)果的影響很大。無聲調(diào)模型的識別結(jié)果均是詞網(wǎng)中的第一個漢字,所以只有20%的正確性;而有聲調(diào)模型基本可以有效的識別聲韻母相同但聲調(diào)不同的漢字,但是仍然有些錯誤。從圖7中可以看出,一聲比較容易被識別成二聲,輕聲容易被識別為四聲,其原因是一聲和二聲均以平聲結(jié)尾,輕聲和四聲均有些短促,所以容易被混淆。

        表2 孤立字識別的正確率和準確率比較Tab.2 Comparison of correct rate and accuracy of isolated word recognition %

        圖7 有音調(diào)模型識別結(jié)果錯誤對比Fig.7 Errors comparison of tonal model recognition

        從實驗二2次測試結(jié)果的正確率和準確率的比較結(jié)果(見表3)中可以看出,在連續(xù)漢語語音識別中,聲調(diào)信息與字轉(zhuǎn)移概率結(jié)合使用對同音字識別結(jié)果影響很大。在相同數(shù)據(jù)下,有字轉(zhuǎn)移概率的識別正確率比沒有字轉(zhuǎn)移概率的正確率提升了20%左右,準確率也提升了30%左右。在沒有字轉(zhuǎn)移概率的識別中,系統(tǒng)會默認選擇詞網(wǎng)中第一個出現(xiàn)相同發(fā)音的字,在添加字轉(zhuǎn)移概率后,系統(tǒng)會通過計算概率選擇概率最大的字,因此正確率會提升。

        表3 連續(xù)語音識別正確率和準確率比較Tab.3 Comparison of correct rate and accuracy of continuous speech recognition %

        3 結(jié) 語

        將漢語中的聲調(diào)信息和字間轉(zhuǎn)移概率引入基于GMM-HMM的語音識別系統(tǒng),通過改造語音模型和語言模型,提高近音字和同音字的識別率。但仍然存在,比如輕聲和四聲的誤判;連續(xù)語音中的三聲容易出現(xiàn)插入錯誤等問題,預期解決這些問題能夠進一步提高系統(tǒng)的識別率。

        猜你喜歡
        同音字音素聲調(diào)
        新目標英語七年級(上)Starter Units 1-3 STEP BY STEP 隨堂通
        聲調(diào)符號位置歌
        同音字與多音字練習
        面向語音合成的藏語同音字研究*
        西藏科技(2022年3期)2022-04-22 09:17:20
        聲調(diào)歌
        依托繪本課程,培養(yǎng)學生英語音素意識
        小學英語課堂中音素意識與自然拼讀整合訓練的探索
        坐著轎車學聲調(diào)
        單韻母扛聲調(diào)
        同音字 我會分
        亚洲 欧美 综合 在线 精品| 精品免费一区二区三区在| 亚洲成AV人久久| av一区二区三区有码| 免费人成视网站在线剧情| 国产偷国产偷精品高清尤物| 亚洲av第一页国产精品| 亚洲国产精品悠悠久久琪琪| 日本丰满人妻xxxxxhd| 毛片无遮挡高清免费久久| 国产一区二区三区色区| 国产精品一区二区偷拍| av无码电影一区二区三区| 亚洲国产精品日韩av不卡在线 | 99久久综合狠狠综合久久 | 成av免费大片黄在线观看| 国产精品毛片久久久久久l| 狼人av在线免费观看| 人妻少妇精品视中文字幕免费| 极品少妇hdxx麻豆hdxx| 中国凸偷窥xxxx自由视频| 日韩在线视精品在亚洲| 精品久久一区二区av| 日本人妻免费在线播放| 国产精品久久久久乳精品爆| 亚洲综合一区无码精品| 淫欲一区二区中文字幕| 精品极品一区二区三区| 亚洲人成电影网站色| 亚洲精品无码久久久久av麻豆 | 久久久久亚洲精品天堂| 少妇人妻偷人中文字幕| 亚洲av午夜一区二区三| 色综合久久88色综合天天| 国产一区二区激情对白在线| 性视频毛茸茸女性一区二区| 日本中文字幕婷婷在线| 一本色道无码道在线观看| 亚洲精品一二区| 免费高清日本一区二区| 亚洲国产av自拍一区|