亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

語音技術(shù)在少數(shù)民族語言的應(yīng)用研究?

2014-11-02 08:36:34達(dá)瓦伊德木草木合亞提尼亞孜別克吾守爾斯拉木

新疆大學(xué)學(xué)報(bào)(自然科學(xué)版)(中英文) 2014年1期

達(dá)瓦伊德木草，木合亞提尼亞孜別克，吾守爾斯拉木

(1.新疆維吾爾自治區(qū)多語種技術(shù)重點(diǎn)實(shí)驗(yàn)室，新疆烏魯木齊830046；2.新疆大學(xué)信息科學(xué)與工程學(xué)院，新疆烏魯木齊830046)

0 引言

據(jù)科學(xué)家分析，人類說話的聲音能夠反映一個(gè)人的生理、情緒、感情、健康程度、受教育程度、居住以及所處的社會(huì)環(huán)境等諸多相關(guān)聯(lián)的特征，并且人類說話的聲音還跟遺傳因子(DNA)有關(guān).因此，科學(xué)上不僅常常用有聲語言的聲學(xué)參數(shù)來觀察、辨別一個(gè)人的身份，而且還可以利用聲音或者話語方式操作計(jì)算機(jī)，實(shí)現(xiàn)高效率地通信.目前，利用聲音的應(yīng)用系統(tǒng)開發(fā)很廣泛，比如：聲紋判別、口語翻譯手機(jī)、手寫或者印刷物自動(dòng)發(fā)音的語音合成、利用聲源震動(dòng)信息的醫(yī)療診斷、自然災(zāi)害預(yù)測及公共安全電話-網(wǎng)絡(luò)語音監(jiān)控等新技術(shù)[1～3].

新疆不僅是多語種地區(qū)，而且面向中亞、歐洲，還是重點(diǎn)開發(fā)的貿(mào)易口岸地區(qū)，由此基于多語言信息處理的通信應(yīng)用研究顯得迫在眉睫，并貫穿到許多領(lǐng)域.本文在近年來語音工程技術(shù)研究成果基礎(chǔ)上進(jìn)行擴(kuò)展性應(yīng)用研究.例如：在醫(yī)院門診室安置一個(gè)血壓計(jì)般大小的民-漢語言會(huì)話翻譯裝置可方便各民族百姓看病，省事、省時(shí)又省錢；在電話-網(wǎng)絡(luò)通話終端設(shè)置語音監(jiān)控裝置保障地區(qū)的穩(wěn)定安全；通過多語言語音查詢導(dǎo)向系統(tǒng)提高旅游業(yè)服務(wù)質(zhì)量等.

自然言語交際及話語傳遞和接收過程中，存在巨大可變性，但是人類卻能非常魯棒性地理解言語交際.研究如何將言語聲學(xué)特性的可變性與言語知覺的不變性融合，是當(dāng)前人機(jī)接口技術(shù)走向應(yīng)用被關(guān)注的問題.這在語音接口技術(shù)研究中，如何高效地抽取有聲語言的聲學(xué)特征建模是一個(gè)高難度研究任務(wù).先行相關(guān)研究靠海量級(jí)的語音語料探索建模規(guī)律，而且側(cè)重于英語、漢語等大語言[4,5].近年來，新疆維吾爾自治區(qū)多語種技術(shù)重點(diǎn)實(shí)驗(yàn)室以維吾爾語、哈薩克語、柯爾克孜語及蒙古語等少數(shù)民族語言為研究對象，在語料缺乏、多復(fù)雜環(huán)境的情況下，更好的融合先行技術(shù)，挑戰(zhàn)語音技術(shù)的應(yīng)用研究.

1 說話人識(shí)別

說話人識(shí)別實(shí)際上是模式匹配問題.其基本原理是將待識(shí)別目標(biāo)說話人模型特征與預(yù)先訓(xùn)練好的模板進(jìn)行匹配，根據(jù)匹配距離或最大概率似然度判斷目標(biāo)說話人是庫中哪一位或者判斷是否為被申明的說話人[6].

1.1 特定人開集說話人識(shí)別原理

本文構(gòu)造的基于概率統(tǒng)計(jì)GMM模型文本無關(guān)（Open set）說話人識(shí)別系統(tǒng)如圖1所示,其工作原理如下：1.首先對錄制的n個(gè)連續(xù)聲源進(jìn)行切分、端點(diǎn)檢測、分類、(Seg/ADC/VAD)等預(yù)處理，然后對有聲話語按發(fā)話人編碼，排序生成語音文件.wav(i=1,2···,U;k=1,2,···,M)，作訓(xùn)練數(shù)據(jù)[7,8].其中k為發(fā)話人數(shù)，i為第k個(gè)人話語U(Utterance).2.對話語Si.wav，每隔20～40ms(毫秒)間隔乘短時(shí)間Hamming幀系數(shù)，進(jìn)行聲譜到頻譜分析，生成10～50維特征向量.然后，把分析幀左移8～20ms，繼續(xù)上述分析，直到全話語分析完畢.最后獲得每人話語時(shí)間序列特征向量X=(x1,x2,···,xT)（簡稱特征量）.3.對于各目標(biāo)人特征量，通過EM Training(Expectation maximization)學(xué)習(xí)，生成N個(gè)目標(biāo)人GMMs模型(λ1,λ2,···,λk,···,λN)，即說話人聲學(xué)樣本(稱為目標(biāo)人聲紋登錄）.建模方法除了高斯混合GMMs(Gaussian Mixture Model)方法之外，還有量化距離碼本(codebook)法、SVM（Support vector machine）方法、i?vector方法等[9].可以根據(jù)需求及規(guī)模選用.4.在識(shí)別階段，如圖1所示GMMs方法中，利用待測話語特征量與說話人樣本λk進(jìn)行最大似然度(maximum likelihood rate ML)匹配，計(jì)算得分，選取最接近樣本λi作為識(shí)別結(jié)果.

圖1 基于GMM說話人識(shí)別系統(tǒng)訓(xùn)練和測試構(gòu)造原理

1.2 GMM建模法

GMM模型利用多維概率密度函數(shù)對語音信號(hào)進(jìn)行建模.由一個(gè)密度為M的高斯分量密度的和給出，即

其中為第j個(gè)話者話語，在t幀抽取出的特征量，為高斯混合參數(shù)，即每個(gè)話者GMM模型，gi表示每個(gè)高斯分量的權(quán)重系數(shù)，為均值向量，而Σi是對角協(xié)方差矩陣.利用EM算法可以估計(jì)式(1)中高斯混合模型參數(shù)λj.由最大后驗(yàn)概率給出的最終識(shí)別結(jié)果簡化為：

為便于計(jì)算，將上式(3)用對數(shù)似然度表示，即：

1.3 基于SVM的說話人識(shí)別

SVM（即支持向量機(jī)）算法用于解決二分類問題，然而對于有N個(gè)目標(biāo)人的說話人識(shí)別系統(tǒng)，就要利用SVM方法解決多類分類問題.一般先對N個(gè)目標(biāo)人話語進(jìn)行訓(xùn)練并分類，目標(biāo)識(shí)別人數(shù)越多，在求解過程中的變量就越多，計(jì)算量就越大，而系統(tǒng)的實(shí)時(shí)實(shí)用性較低.目前，多數(shù)說話人識(shí)別的研究將一個(gè)多類分類問題轉(zhuǎn)換為多個(gè)二分類問題討論，通過組合多個(gè)二分類支持向量機(jī)實(shí)現(xiàn)多類分類[10].這種方法主要有兩種：一對一（one-against-one）組合算法和一對多OAA(one-against-all）組合算法，其中OAA SVM算法易于實(shí)現(xiàn).下面用圖2和圖3介紹OAA SVM算法基本思路.

圖2 SVM法訓(xùn)練OAA SVM模型

圖3 SVM法未知話者的識(shí)別過程

①訓(xùn)練階段(見圖2)：將訓(xùn)練集中每個(gè)話者話語作為一類，例如：將話者j(j=1,2···,N)的語音信號(hào)特征量X作為class 0輸入，而剩余N-1話者話語全作為class 1輸入，經(jīng)過SVM二分類器訓(xùn)練生成說話者j的OAA SVM模型Sj().最終訓(xùn)練出N個(gè)OAA SVM模型.

②測試階段(見圖3)：對待測未知的話語，提取語音信號(hào)特征向量，依次輸入到N個(gè)OAA SVM模型中做二類分類.最后統(tǒng)計(jì)待測語音各幀特征量被分配到最多的類，則將此類作為最后識(shí)別結(jié)果.

2 語音識(shí)別技術(shù)

語音識(shí)別技術(shù)可以把話筒輸入的話語轉(zhuǎn)換為文本輸出(speech-to-text)，如果具備高精度語音識(shí)別器，那么將來操作手機(jī)或計(jì)算機(jī)直接用話筒即可，不再用鍵盤不用文字知識(shí).連續(xù)語音識(shí)別器CSR(Continuous speech recognition)由：上述第2章介紹的預(yù)處理階段，此外還包括聲學(xué)模型AM(Acoustic model)，語言模型P(W)以及識(shí)別單元(Decoding)組成(見圖4).各單元的工作原理如下：

①訓(xùn)練階段：

從N個(gè)話者錄制的語音數(shù)據(jù)中，提取話語特征量；再利用這些語音特征量參數(shù)，訓(xùn)練音素或詞單元的聲學(xué)模型AM(Acoustic Model)，保存到模板庫中.

針對識(shí)別語言收集整理大量的文本數(shù)據(jù)，利用統(tǒng)計(jì)學(xué)習(xí)訓(xùn)練詞與詞的連接關(guān)系得到N-gram語言模型P(W)，保存到模板庫中.

②識(shí)別階段：

對待識(shí)別語音信號(hào)進(jìn)行聲學(xué)分析得到語音特征量生成測試數(shù)據(jù)，再與參考模板AM和P(W)匹配計(jì)算，利用Bayes判別準(zhǔn)則，將匹配分?jǐn)?shù)最高的參考模板，作為Decoding識(shí)別結(jié)果W?[11～13]（見式5）.其中,W=(w1,w2,···,wN)為長度為N的詞序列，F(xiàn)=(x1,x2,···,xT)為聲學(xué)特征量，而P(W|F)是后驗(yàn)概率.

圖4 連續(xù)語音識(shí)別原

3 語音翻譯技術(shù)

3.1 語音翻譯技術(shù)及其應(yīng)用

不同民族的人用自己的語言交談，不通過第三個(gè)人翻譯，而直接利用計(jì)算機(jī)翻譯的過程叫做語音翻譯S2S（speech to speech）.目前不少研究機(jī)構(gòu)研發(fā)了多語種-多功能語音翻譯應(yīng)用軟件，并投入市場試用.如：日本國際電氣通信基礎(chǔ)技術(shù)研究所ATR(Advanced Technology Research)及NICT(National Institute of Information and Communication Technology)研發(fā)的手提式旅游-商務(wù)多語言(日-中,中-英或其他語言)雙向翻譯終端機(jī)；通過網(wǎng)絡(luò)交換方式，實(shí)現(xiàn)遠(yuǎn)距離會(huì)話翻譯的手機(jī)；東芝中國研發(fā)中心開發(fā)的中-英雙向語音翻譯系統(tǒng)；Google開發(fā)的網(wǎng)上語音翻譯系統(tǒng)等[14].圖5及圖6分別顯示本文作者在日本NICT參與并研發(fā)的多語言雙向口語翻譯終端機(jī)及演示圖.本系統(tǒng)對旅游（特定任務(wù)）會(huì)話的實(shí)時(shí)翻譯正確率可達(dá)86%左右，已滿足一般應(yīng)用需求.

3.2 語音翻譯原理

本文探討醫(yī)療衛(wèi)生會(huì)話翻譯系統(tǒng)的基本原理如圖7所示.系統(tǒng)除了通過上述的語音信號(hào)的預(yù)處理，聲學(xué)分析特征提取之外，還包含連續(xù)語音識(shí)別CSR，機(jī)器翻譯(Machine Translation)及語音合成(Synthesize)等技術(shù)環(huán)節(jié).該系統(tǒng)綜合應(yīng)用了上述多領(lǐng)域相關(guān)技術(shù).系統(tǒng)工作原理敘述如下：

(1)語音識(shí)別過程：假如，一名民族患者(一位維吾爾族大叔)，對著翻譯器話筒說一段“/doctor，kozambir narsini yahxi kornayd/”，這段語音經(jīng)過系統(tǒng)自動(dòng)分析后，輸入到連續(xù)語音識(shí)別單元(Speech Recognition)，經(jīng)識(shí)別器識(shí)別輸出為維吾爾語文字串“doctor，kozam bir narsini yahxi kornayd”.

(2)機(jī)器翻譯過程：機(jī)器翻譯單元(Translation)對語音識(shí)別器的輸出結(jié)果進(jìn)行維-漢文的自動(dòng)翻譯，將輸出一段“醫(yī)生，我的眼睛看不見”的漢語文本.

(3)語音合成過程：對于機(jī)器翻譯輸出的文本“醫(yī)生，我的眼睛看不見”，語音合成單元將實(shí)施文本轉(zhuǎn)換語音的任務(wù)，使得醫(yī)生將聽到“/醫(yī)生我的眼睛看不見/”一段語音.由此系統(tǒng)實(shí)現(xiàn)了語音對語音的翻譯.由于本系統(tǒng)能夠?qū)崿F(xiàn)雙向翻譯，即醫(yī)生說的話反過來患者也能用自己的語言收聽，從而完成醫(yī)-患者會(huì)話翻譯.

圖5 NICT開發(fā)的語音翻譯終端

圖6 漢-英語音翻譯終端演示(NICT)

圖7 本研究提案醫(yī)院門診用語音翻譯系統(tǒng)結(jié)構(gòu)圖

4 實(shí)驗(yàn)測試

4.1 GMM-UBM-SVM混合開集說話人識(shí)別實(shí)驗(yàn)

考慮到待識(shí)別人數(shù)多，系統(tǒng)實(shí)用環(huán)境噪音復(fù)雜等因素，本課題致力于提高開集說話人性能研究，提出（如圖8所示）一種新的開集說話人識(shí)別方法，即基于GMM-UBM-SVM混合模型識(shí)別方法.本系統(tǒng)充分發(fā)揮兩種分類方法GMM和SVM各自優(yōu)勢，即GMM模型能較好地描述類別內(nèi)部的相似性，而SVM模型有優(yōu)秀的分類能力.系統(tǒng)工作原理如下：首先對待測話語進(jìn)行確認(rèn)測試，系統(tǒng)自動(dòng)確認(rèn)待測話語是否來自內(nèi)集話者.系統(tǒng)預(yù)先計(jì)算待測話語特征向量與GMM-UBM分類模型相似度并計(jì)算得分.若相似度得分大于預(yù)先閾值δ，則接受待測話語為內(nèi)集話語(否則作為外集話語拒絕判別)，并進(jìn)一步計(jì)算GMM模型λi的最大似然度?j，計(jì)算得分，若得分大于預(yù)先閾值η，則判斷待測話語就是內(nèi)集話者中第j個(gè)話者.否則，若得分小于η，系統(tǒng)將實(shí)施SVM分類法，即選出小于η所對應(yīng)GMM模型若干均值向量(一般選取1～3個(gè))，輸入到SVM進(jìn)行OAA SVM模型訓(xùn)練，并繼續(xù)對當(dāng)前測試話語進(jìn)行再次分類，選取待測話語特征向量中被分去最多向量的類作為最后判別結(jié)果輸出.

實(shí)驗(yàn)數(shù)據(jù)：本文使用PC機(jī)，在普通實(shí)驗(yàn)室錄制了100個(gè)說話人語音數(shù)據(jù)，每個(gè)話者任意說1～2 min話，話語的錄制頻率設(shè)置為44.1KHz.對于錄制的數(shù)據(jù)設(shè)置16KHz采樣頻率，16bit位進(jìn)行量化處理.對長時(shí)間錄制語音流實(shí)施基于基頻F0的自動(dòng)切分，端點(diǎn)檢測，提取有聲語音段，并通過人工編輯加工生成實(shí)驗(yàn)語音數(shù)據(jù).每個(gè)切分話語長設(shè)為10～30 s，并用waveform格式保存到語音訓(xùn)練集中.本次說話人識(shí)別實(shí)驗(yàn)中選用共60名話者，將其中50名話者話語作為訓(xùn)練集，剩余的10名話者話語作為集外話者.

圖8 GMM-UBM-SVM混合模型說話人識(shí)別系統(tǒng)結(jié)構(gòu)圖

本實(shí)驗(yàn)提取的特征參數(shù)采用12維mel-到譜系數(shù)的MFCC和其一階差分和一維能量參數(shù)共25維特征向量.GMM混合數(shù)設(shè)定128，SVM內(nèi)核參數(shù)為RBF.為了便于比較，本次試驗(yàn)中也給出了GMM，GMMUBM常用測試結(jié)果.實(shí)驗(yàn)結(jié)果如圖9和表1所示.

圖9 3個(gè)話語訓(xùn)練數(shù)據(jù)在不同混合參數(shù)的說話人識(shí)別率

表1 5名話者說10個(gè)不同長度話語時(shí)的說話人識(shí)別結(jié)果

實(shí)驗(yàn)結(jié)果分析：圖9顯示用不同混合參數(shù)訓(xùn)練數(shù)據(jù)時(shí)獲得的識(shí)別結(jié)果，可以看出隨著混合參數(shù)的增加GMM方法識(shí)別率下降.GMM方法在混合參數(shù)為32時(shí)得到最好識(shí)別結(jié)果99.31%.這表明混合數(shù)的急劇增加會(huì)引起GMM識(shí)別結(jié)果大幅度衰退.GMM-UBM及GMM-SVM方法雖然在混合參數(shù)較小時(shí)識(shí)別率較低，但隨著混合參數(shù)增大識(shí)別率會(huì)快速上升.而GMM-SVM方法在混合參數(shù)趨于256時(shí)可達(dá)100%的識(shí)別率.表1給出了5名話者訓(xùn)練模型的實(shí)驗(yàn)結(jié)果，時(shí)長不同的10段話語，且話語長控制在約10 s.從表中顯示結(jié)果看到，GMM-UBM和GMM-SVM均用UBM方法適應(yīng)學(xué)習(xí)建模，識(shí)別結(jié)果幾乎接近，但與GMM-UBM方法相比，GMM-SVM方法的識(shí)別結(jié)果高于GMM-UBM約3%左右.GMM-SVM方法顯示，即使語音信號(hào)時(shí)長較短，仍具備良好分類性能，明顯優(yōu)于其它方法.

4.2 連續(xù)語音識(shí)別實(shí)驗(yàn)

語音翻譯系統(tǒng)結(jié)構(gòu)及工作原理在前面已介紹.下面以維-漢語音翻譯實(shí)驗(yàn)介紹系統(tǒng)各單元實(shí)驗(yàn)過程及測試結(jié)果.

實(shí)驗(yàn)數(shù)據(jù)：本次試驗(yàn)中使用由64名(男性32人，女性32人)維吾爾族說話人自由會(huì)話的短語作為語音語料.語料在PC機(jī)上采用單聲道錄制并保存為.wav文件，語料總時(shí)長約為4.0 h（小時(shí)）.采樣率為16 kHz,16 bit，幀寬為10 ms.語音特征量為12維的Mel-倒譜系數(shù)(MFCC)及?MFCC加1維對數(shù)能量，共25維向量.話語文件.wav用表2所示33個(gè)聲學(xué)單元轉(zhuǎn)寫標(biāo)注并生成拉丁字母.txt文本文件.其中sil為語音起止符.

表2 維吾爾語語音標(biāo)注聲學(xué)單元(共33)

建聲學(xué)模型:考慮到語料大小以及話語區(qū)間標(biāo)注的精確度，本研究采用種子(seed)模型引導(dǎo)大語料，構(gòu)建聲學(xué)模型方法.具體做法如下：

從語音語料中選擇10個(gè)話者500個(gè)話語(男性5人，女性5人)，用表2中聲學(xué)單元進(jìn)行人工準(zhǔn)確地標(biāo)注音素生成.lab文件；

利用HTK toolkit對以上語料(包括.wav文件和標(biāo)注的.lab文件)進(jìn)行聲學(xué)模型訓(xùn)練，產(chǎn)生高精度的種子模型；

對剩余的語音語料(共54個(gè)話者語音.wav和.txt文本)，利用viterbi alignment算法參照種子模型進(jìn)行自動(dòng)切分,并對每個(gè)切出音素，按前后2個(gè)音素的組合產(chǎn)生學(xué)習(xí)用數(shù)據(jù)，再利用學(xué)習(xí)用數(shù)據(jù)在HTK toolkit上訓(xùn)練新的聲學(xué)模型.實(shí)現(xiàn)過程如下：學(xué)習(xí)數(shù)據(jù)的生成→topology學(xué)習(xí)→label學(xué)習(xí)→連接學(xué)習(xí).如此，得到的聲學(xué)模型為三音子(triphone)HMMnet格式聲學(xué)模型；

用新的聲學(xué)模型替換第1次樣本seed模型，重復(fù)上述訓(xùn)練過程，生成最終的33個(gè)HMMnet格式聲模(AM).

建語言模型:一般對容量為V的文本訓(xùn)練集訓(xùn)練N-gram語言模型時(shí)，要產(chǎn)生VN個(gè)N-gram參量，參量總數(shù)隨著N的增大急劇增大.為此，本文研討基于詞類(class N-gram)的語言模型.對于長度為V的詞串W=w1,w2,···,wi，具體做法如下：

將每個(gè)詞作為一個(gè)類初始化；

對每個(gè)詞或類指定能反映詞與詞之間連接關(guān)系的向量ν(x);

把向量ν(x)分別記作后行向量νt(x)和先行向量νf(x)，如下所示：

其中，pt(wi|x)和pf(wi|x)分別表示從某個(gè)詞或者類到后行一個(gè)詞和前行一個(gè)詞2-gram概率值.

通過式(8)把合并損失最小的2個(gè)類合并為一個(gè)：

其中，cnew為合并后的類；cold為合并前的類；D(νc,νw)為向量νc和νw的歐氏距離平方.在本次試驗(yàn)中利用表3數(shù)據(jù)，以及選用詞頻為200以上的詞構(gòu)建6萬詞詞典，并用palmkit工具生成2-gram及3-gram統(tǒng)計(jì)語言模型.

4.3 實(shí)驗(yàn)結(jié)果

利用上述方法生成的聲學(xué)模型和語言模型，引用Julius[15]識(shí)別器實(shí)現(xiàn)語音識(shí)別.為便于比較實(shí)驗(yàn)結(jié)果，本文給出了語音數(shù)據(jù)在不經(jīng)過人工標(biāo)注切分和經(jīng)過人工標(biāo)注切分兩種情況下的實(shí)驗(yàn)結(jié)果.對于200個(gè)上下文無關(guān)，一般話筒輸入話語和公用電話輸入話語通過3-gram語言模型進(jìn)行識(shí)別的結(jié)果如圖10所示.

實(shí)驗(yàn)結(jié)果表明，在同等數(shù)據(jù)的3-gram語言模型條件下，通過少量語料的人工切分標(biāo)注來生成種子聲學(xué)模型再引導(dǎo)大語音建模方法的識(shí)別率為72.5%，明顯優(yōu)于無人工標(biāo)注（識(shí)別率為68.3%）,識(shí)別率提高了4.2個(gè)百分點(diǎn).同時(shí)也發(fā)現(xiàn)實(shí)時(shí)電話輸入語音識(shí)別的結(jié)果低于一般話筒輸入的識(shí)別結(jié)果.這可能因?yàn)殡娫捳Z音噪音大，信號(hào)特性復(fù)雜難以獲得高精度特征參數(shù)而引起.

表3 用于統(tǒng)計(jì)模型的維吾爾語文文本集

圖10 3-gram模型連續(xù)語音識(shí)別結(jié)果

4.4 統(tǒng)計(jì)機(jī)器翻譯實(shí)驗(yàn)

本次實(shí)驗(yàn)采用了統(tǒng)計(jì)機(jī)器翻譯SMT(Statistical machine translation)技術(shù).從本研究設(shè)計(jì)制造的民-漢醫(yī)療衛(wèi)生用語多文本對齊語料[16]中選用維-漢，蒙-漢各30K短語對齊文本語料，統(tǒng)計(jì)生成雙語翻譯模型，對目標(biāo)語言(漢語)，單獨(dú)訓(xùn)練N-gram統(tǒng)計(jì)語言模型.本次實(shí)驗(yàn)引用了Moses v 0.91版本翻譯軟件[17].表4中給出了用BLEU(Bilingual Evaluation Understudy)[18]值自動(dòng)評測的翻譯實(shí)驗(yàn)結(jié)果.在測試階段，另外生成510對測試文本，并對每個(gè)短語又設(shè)定14個(gè)參考翻譯短句.由于實(shí)驗(yàn)數(shù)據(jù)處于初建階段，本文只報(bào)告維-漢和蒙-漢單向翻譯結(jié)果.

表4 機(jī)器翻譯自動(dòng)測試實(shí)驗(yàn)結(jié)果

4.5 語音合成實(shí)驗(yàn)

本文討論基于隱馬爾可夫模型（HMMs）的語音合成方法.首先利用一名漢語普通話者朗讀時(shí)長約為1 h的醫(yī)療衛(wèi)生用語短句文本.

其次，對于錄制話語采用16kHz采樣頻率，25-ms Hamming窗口進(jìn)行預(yù)處理，每隔5-ms幀長，抽取出語音基音F0和到譜參數(shù).抽出基音參數(shù)logF0值和變化率參數(shù)構(gòu)成基音F0特征向量.由25維倒譜系數(shù)，過零系數(shù)，變化率參數(shù)組成倒譜特征向量.然后用自然語言處理工具對錄制話語進(jìn)行聲學(xué)單元標(biāo)注，確立話語中詞和句子的發(fā)音位置信息.聲學(xué)單元的訓(xùn)練用5-狀態(tài)left-to-right HMMs進(jìn)行，每個(gè)HMM對應(yīng)話語中的各聲學(xué)單元.最后，合并標(biāo)注文本，基音及到譜特征向量，訓(xùn)練HMMs模型.

本次合成實(shí)驗(yàn)引用HTS(HMM-based speech synthesis system）工具中的合成聲碼器，實(shí)現(xiàn)mel-對數(shù)譜近似（Mel Log Spectrum Approximation,MLSA）合成聲碼器.

通過人工聽力評估語音合成試驗(yàn)結(jié)果.在本次試驗(yàn)中系統(tǒng)對測試輸入話語，經(jīng)機(jī)器翻譯及語音合成輸出其結(jié)果.通過觀察發(fā)現(xiàn)，合成實(shí)驗(yàn)結(jié)果較接近原始錄音語音.但是對于不同話語的輸入，系統(tǒng)輸出語音的精確度有明顯差距.這主要可能是：連續(xù)語音識(shí)別單元識(shí)別精度不高，誤識(shí)別字符串得不到準(zhǔn)確的翻譯，從而影響了語音合成效果；并且用于語音合成訓(xùn)練的語料有限，使HMMs模型及合成參數(shù)特征提取精度不夠高，也可能是原因之一.

5 結(jié)論與展望

本文介紹了語音工程技術(shù)在民族語言文字處理方面的應(yīng)用研究情況.對于說話人識(shí)別問題提出了GMMUBM-SVM混合技術(shù)的識(shí)別方案.試圖充分發(fā)揮GMM及SVM兩種算法各自強(qiáng)項(xiàng)提高系統(tǒng)魯棒性.從本次實(shí)驗(yàn)可確認(rèn)，GMM-SVM組合識(shí)別方法對于短暫語音信號(hào)有較好魯棒性，識(shí)別率好于常用GMM-UBM方法（約高3%）.針對語音翻譯技術(shù)的工程應(yīng)用，本文提出在醫(yī)療衛(wèi)生領(lǐng)域使用民-漢語言會(huì)話翻譯系統(tǒng).對于缺乏語料的民族語言，本文提取高精度聲學(xué)模型，采取了少語料人工標(biāo)注生成語音環(huán)境精密的seed聲摸，再用之引導(dǎo)大語音語料訓(xùn)練聲模.實(shí)驗(yàn)結(jié)果得出結(jié)論，與無人工標(biāo)注語音-文本對齊語料直接訓(xùn)練聲摸情況相比，有人工標(biāo)注的方式性能要好.該實(shí)驗(yàn)證明語音環(huán)境的準(zhǔn)確掌握對于缺乏語料的民語實(shí)現(xiàn)連續(xù)語音識(shí)別確有較大幫助.最后還嘗試了語音翻譯技術(shù)實(shí)用系統(tǒng)的構(gòu)造及測試，并達(dá)到預(yù)期目的.

由于語音技術(shù)在少數(shù)民族地區(qū)的研究開發(fā)工作剛剛起步,收集準(zhǔn)備的試驗(yàn)數(shù)據(jù)及技術(shù)方法有限，本文僅僅討論了一些簡單的應(yīng)用結(jié)果.今后將加大建立能夠全面覆蓋民語自然語音、語言知識(shí)網(wǎng)絡(luò)的語料庫系統(tǒng)，并結(jié)合具體語言結(jié)構(gòu)建立多語言語音學(xué)知識(shí)系統(tǒng)，從而進(jìn)一步提高應(yīng)用系統(tǒng)的性能.