亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        語音技術(shù)在少數(shù)民族語言的應(yīng)用研究?

        2014-11-02 08:36:34達(dá)瓦伊德木草木合亞提尼亞孜別克吾守爾斯拉木
        關(guān)鍵詞:聲學(xué)語料語音

        達(dá)瓦伊德木草,木合亞提尼亞孜別克,吾守爾斯拉木

        (1.新疆維吾爾自治區(qū)多語種技術(shù)重點(diǎn)實(shí)驗(yàn)室,新疆烏魯木齊830046;2.新疆大學(xué)信息科學(xué)與工程學(xué)院,新疆烏魯木齊830046)

        0 引言

        據(jù)科學(xué)家分析,人類說話的聲音能夠反映一個(gè)人的生理、情緒、感情、健康程度、受教育程度、居住以及所處的社會(huì)環(huán)境等諸多相關(guān)聯(lián)的特征,并且人類說話的聲音還跟遺傳因子(DNA)有關(guān).因此,科學(xué)上不僅常常用有聲語言的聲學(xué)參數(shù)來觀察、辨別一個(gè)人的身份,而且還可以利用聲音或者話語方式操作計(jì)算機(jī),實(shí)現(xiàn)高效率地通信.目前,利用聲音的應(yīng)用系統(tǒng)開發(fā)很廣泛,比如:聲紋判別、口語翻譯手機(jī)、手寫或者印刷物自動(dòng)發(fā)音的語音合成、利用聲源震動(dòng)信息的醫(yī)療診斷、自然災(zāi)害預(yù)測及公共安全電話-網(wǎng)絡(luò)語音監(jiān)控等新技術(shù)[1~3].

        新疆不僅是多語種地區(qū),而且面向中亞、歐洲,還是重點(diǎn)開發(fā)的貿(mào)易口岸地區(qū),由此基于多語言信息處理的通信應(yīng)用研究顯得迫在眉睫,并貫穿到許多領(lǐng)域.本文在近年來語音工程技術(shù)研究成果基礎(chǔ)上進(jìn)行擴(kuò)展性應(yīng)用研究.例如:在醫(yī)院門診室安置一個(gè)血壓計(jì)般大小的民-漢語言會(huì)話翻譯裝置可方便各民族百姓看病,省事、省時(shí)又省錢;在電話-網(wǎng)絡(luò)通話終端設(shè)置語音監(jiān)控裝置保障地區(qū)的穩(wěn)定安全;通過多語言語音查詢導(dǎo)向系統(tǒng)提高旅游業(yè)服務(wù)質(zhì)量等.

        自然言語交際及話語傳遞和接收過程中,存在巨大可變性,但是人類卻能非常魯棒性地理解言語交際.研究如何將言語聲學(xué)特性的可變性與言語知覺的不變性融合,是當(dāng)前人機(jī)接口技術(shù)走向應(yīng)用被關(guān)注的問題.這在語音接口技術(shù)研究中,如何高效地抽取有聲語言的聲學(xué)特征建模是一個(gè)高難度研究任務(wù).先行相關(guān)研究靠海量級(jí)的語音語料探索建模規(guī)律,而且側(cè)重于英語、漢語等大語言[4,5].近年來,新疆維吾爾自治區(qū)多語種技術(shù)重點(diǎn)實(shí)驗(yàn)室以維吾爾語、哈薩克語、柯爾克孜語及蒙古語等少數(shù)民族語言為研究對象,在語料缺乏、多復(fù)雜環(huán)境的情況下,更好的融合先行技術(shù),挑戰(zhàn)語音技術(shù)的應(yīng)用研究.

        1 說話人識(shí)別

        說話人識(shí)別實(shí)際上是模式匹配問題.其基本原理是將待識(shí)別目標(biāo)說話人模型特征與預(yù)先訓(xùn)練好的模板進(jìn)行匹配,根據(jù)匹配距離或最大概率似然度判斷目標(biāo)說話人是庫中哪一位或者判斷是否為被申明的說話人[6].

        1.1 特定人開集說話人識(shí)別原理

        本文構(gòu)造的基于概率統(tǒng)計(jì)GMM模型文本無關(guān)(Open set)說話人識(shí)別系統(tǒng)如圖1所示,其工作原理如下:1.首先對錄制的n個(gè)連續(xù)聲源進(jìn)行切分、端點(diǎn)檢測、分類、(Seg/ADC/VAD)等預(yù)處理,然后對有聲話語按發(fā)話人編碼,排序生成語音文件.wav(i=1,2···,U;k=1,2,···,M),作訓(xùn)練數(shù)據(jù)[7,8].其中k為發(fā)話人數(shù),i為第k個(gè)人話語U(Utterance).2.對話語Si.wav,每隔20~40ms(毫秒)間隔乘短時(shí)間Hamming幀系數(shù),進(jìn)行聲譜到頻譜分析,生成10~50維特征向量.然后,把分析幀左移8~20ms,繼續(xù)上述分析,直到全話語分析完畢.最后獲得每人話語時(shí)間序列特征向量X=(x1,x2,···,xT)(簡稱特征量).3.對于各目標(biāo)人特征量,通過EM Training(Expectation maximization)學(xué)習(xí),生成N個(gè)目標(biāo)人GMMs模型(λ1,λ2,···,λk,···,λN),即說話人聲學(xué)樣本(稱為目標(biāo)人聲紋登錄).建模方法除了高斯混合GMMs(Gaussian Mixture Model)方法之外,還有量化距離碼本(codebook)法、SVM(Support vector machine)方法、i?vector方法等[9].可以根據(jù)需求及規(guī)模選用.4.在識(shí)別階段,如圖1所示GMMs方法中,利用待測話語特征量與說話人樣本λk進(jìn)行最大似然度(maximum likelihood rate ML)匹配,計(jì)算得分,選取最接近樣本λi作為識(shí)別結(jié)果.

        圖1 基于GMM說話人識(shí)別系統(tǒng)訓(xùn)練和測試構(gòu)造原理

        1.2 GMM建模法

        GMM模型利用多維概率密度函數(shù)對語音信號(hào)進(jìn)行建模.由一個(gè)密度為M的高斯分量密度的和給出,即

        其中為第j個(gè)話者話語,在t幀抽取出的特征量,為高斯混合參數(shù),即每個(gè)話者GMM模型,gi表示每個(gè)高斯分量的權(quán)重系數(shù),為均值向量,而Σi是對角協(xié)方差矩陣.利用EM算法可以估計(jì)式(1)中高斯混合模型參數(shù)λj.由最大后驗(yàn)概率給出的最終識(shí)別結(jié)果簡化為:

        為便于計(jì)算,將上式(3)用對數(shù)似然度表示,即:

        1.3 基于SVM的說話人識(shí)別

        SVM(即支持向量機(jī))算法用于解決二分類問題,然而對于有N個(gè)目標(biāo)人的說話人識(shí)別系統(tǒng),就要利用SVM方法解決多類分類問題.一般先對N個(gè)目標(biāo)人話語進(jìn)行訓(xùn)練并分類,目標(biāo)識(shí)別人數(shù)越多,在求解過程中的變量就越多,計(jì)算量就越大,而系統(tǒng)的實(shí)時(shí)實(shí)用性較低.目前,多數(shù)說話人識(shí)別的研究將一個(gè)多類分類問題轉(zhuǎn)換為多個(gè)二分類問題討論,通過組合多個(gè)二分類支持向量機(jī)實(shí)現(xiàn)多類分類[10].這種方法主要有兩種:一對一(one-against-one)組合算法和一對多OAA(one-against-all)組合算法,其中OAA SVM算法易于實(shí)現(xiàn).下面用圖2和圖3介紹OAA SVM算法基本思路.

        圖2 SVM法訓(xùn)練OAA SVM模型

        圖3 SVM法未知話者的識(shí)別過程

        ①訓(xùn)練階段(見圖2):將訓(xùn)練集中每個(gè)話者話語作為一類,例如:將話者j(j=1,2···,N)的語音信號(hào)特征量X作為class 0輸入,而剩余N-1話者話語全作為class 1輸入,經(jīng)過SVM二分類器訓(xùn)練生成說話者j的OAA SVM模型Sj().最終訓(xùn)練出N個(gè)OAA SVM模型.

        ②測試階段(見圖3):對待測未知的話語,提取語音信號(hào)特征向量,依次輸入到N個(gè)OAA SVM模型中做二類分類.最后統(tǒng)計(jì)待測語音各幀特征量被分配到最多的類,則將此類作為最后識(shí)別結(jié)果.

        2 語音識(shí)別技術(shù)

        語音識(shí)別技術(shù)可以把話筒輸入的話語轉(zhuǎn)換為文本輸出(speech-to-text),如果具備高精度語音識(shí)別器,那么將來操作手機(jī)或計(jì)算機(jī)直接用話筒即可,不再用鍵盤不用文字知識(shí).連續(xù)語音識(shí)別器CSR(Continuous speech recognition)由:上述第2章介紹的預(yù)處理階段,此外還包括聲學(xué)模型AM(Acoustic model),語言模型P(W)以及識(shí)別單元(Decoding)組成(見圖4).各單元的工作原理如下:

        ①訓(xùn)練階段:

        從N個(gè)話者錄制的語音數(shù)據(jù)中,提取話語特征量;再利用這些語音特征量參數(shù),訓(xùn)練音素或詞單元的聲學(xué)模型AM(Acoustic Model),保存到模板庫中.

        針對識(shí)別語言收集整理大量的文本數(shù)據(jù),利用統(tǒng)計(jì)學(xué)習(xí)訓(xùn)練詞與詞的連接關(guān)系得到N-gram語言模型P(W),保存到模板庫中.

        ②識(shí)別階段:

        對待識(shí)別語音信號(hào)進(jìn)行聲學(xué)分析得到語音特征量生成測試數(shù)據(jù),再與參考模板AM和P(W)匹配計(jì)算,利用Bayes判別準(zhǔn)則,將匹配分?jǐn)?shù)最高的參考模板,作為Decoding識(shí)別結(jié)果W?[11~13](見式5).其中,W=(w1,w2,···,wN)為長度為N的詞序列,F(xiàn)=(x1,x2,···,xT)為聲學(xué)特征量,而P(W|F)是后驗(yàn)概率.

        圖4 連續(xù)語音識(shí)別原

        3 語音翻譯技術(shù)

        3.1 語音翻譯技術(shù)及其應(yīng)用

        不同民族的人用自己的語言交談,不通過第三個(gè)人翻譯,而直接利用計(jì)算機(jī)翻譯的過程叫做語音翻譯S2S(speech to speech).目前不少研究機(jī)構(gòu)研發(fā)了多語種-多功能語音翻譯應(yīng)用軟件,并投入市場試用.如:日本國際電氣通信基礎(chǔ)技術(shù)研究所ATR(Advanced Technology Research)及NICT(National Institute of Information and Communication Technology)研發(fā)的手提式旅游-商務(wù)多語言(日-中,中-英或其他語言)雙向翻譯終端機(jī);通過網(wǎng)絡(luò)交換方式,實(shí)現(xiàn)遠(yuǎn)距離會(huì)話翻譯的手機(jī);東芝中國研發(fā)中心開發(fā)的中-英雙向語音翻譯系統(tǒng);Google開發(fā)的網(wǎng)上語音翻譯系統(tǒng)等[14].圖5及圖6分別顯示本文作者在日本NICT參與并研發(fā)的多語言雙向口語翻譯終端機(jī)及演示圖.本系統(tǒng)對旅游(特定任務(wù))會(huì)話的實(shí)時(shí)翻譯正確率可達(dá)86%左右,已滿足一般應(yīng)用需求.

        3.2 語音翻譯原理

        本文探討醫(yī)療衛(wèi)生會(huì)話翻譯系統(tǒng)的基本原理如圖7所示.系統(tǒng)除了通過上述的語音信號(hào)的預(yù)處理,聲學(xué)分析特征提取之外,還包含連續(xù)語音識(shí)別CSR,機(jī)器翻譯(Machine Translation)及語音合成(Synthesize)等技術(shù)環(huán)節(jié).該系統(tǒng)綜合應(yīng)用了上述多領(lǐng)域相關(guān)技術(shù).系統(tǒng)工作原理敘述如下:

        (1)語音識(shí)別過程:假如,一名民族患者(一位維吾爾族大叔),對著翻譯器話筒說一段“/doctor,kozambir narsini yahxi kornayd/”,這段語音經(jīng)過系統(tǒng)自動(dòng)分析后,輸入到連續(xù)語音識(shí)別單元(Speech Recognition),經(jīng)識(shí)別器識(shí)別輸出為維吾爾語文字串“doctor,kozam bir narsini yahxi kornayd”.

        (2)機(jī)器翻譯過程:機(jī)器翻譯單元(Translation)對語音識(shí)別器的輸出結(jié)果進(jìn)行維-漢文的自動(dòng)翻譯,將輸出一段“醫(yī)生,我的眼睛看不見”的漢語文本.

        (3)語音合成過程:對于機(jī)器翻譯輸出的文本“醫(yī)生,我的眼睛看不見”,語音合成單元將實(shí)施文本轉(zhuǎn)換語音的任務(wù),使得醫(yī)生將聽到“/醫(yī)生我的眼睛看不見/”一段語音.由此系統(tǒng)實(shí)現(xiàn)了語音對語音的翻譯.由于本系統(tǒng)能夠?qū)崿F(xiàn)雙向翻譯,即醫(yī)生說的話反過來患者也能用自己的語言收聽,從而完成醫(yī)-患者會(huì)話翻譯.

        圖5 NICT開發(fā)的語音翻譯終端

        圖6 漢-英語音翻譯終端演示(NICT)

        圖7 本研究提案醫(yī)院門診用語音翻譯系統(tǒng)結(jié)構(gòu)圖

        4 實(shí)驗(yàn)測試

        4.1 GMM-UBM-SVM混合開集說話人識(shí)別實(shí)驗(yàn)

        考慮到待識(shí)別人數(shù)多,系統(tǒng)實(shí)用環(huán)境噪音復(fù)雜等因素,本課題致力于提高開集說話人性能研究,提出(如圖8所示)一種新的開集說話人識(shí)別方法,即基于GMM-UBM-SVM混合模型識(shí)別方法.本系統(tǒng)充分發(fā)揮兩種分類方法GMM和SVM各自優(yōu)勢,即GMM模型能較好地描述類別內(nèi)部的相似性,而SVM模型有優(yōu)秀的分類能力.系統(tǒng)工作原理如下:首先對待測話語進(jìn)行確認(rèn)測試,系統(tǒng)自動(dòng)確認(rèn)待測話語是否來自內(nèi)集話者.系統(tǒng)預(yù)先計(jì)算待測話語特征向量與GMM-UBM分類模型相似度并計(jì)算得分.若相似度得分大于預(yù)先閾值δ,則接受待測話語為內(nèi)集話語(否則作為外集話語拒絕判別),并進(jìn)一步計(jì)算GMM模型λi的最大似然度?j,計(jì)算得分,若得分大于預(yù)先閾值η,則判斷待測話語就是內(nèi)集話者中第j個(gè)話者.否則,若得分小于η,系統(tǒng)將實(shí)施SVM分類法,即選出小于η所對應(yīng)GMM模型若干均值向量(一般選取1~3個(gè)),輸入到SVM進(jìn)行OAA SVM模型訓(xùn)練,并繼續(xù)對當(dāng)前測試話語進(jìn)行再次分類,選取待測話語特征向量中被分去最多向量的類作為最后判別結(jié)果輸出.

        實(shí)驗(yàn)數(shù)據(jù):本文使用PC機(jī),在普通實(shí)驗(yàn)室錄制了100個(gè)說話人語音數(shù)據(jù),每個(gè)話者任意說1~2 min話,話語的錄制頻率設(shè)置為44.1KHz.對于錄制的數(shù)據(jù)設(shè)置16KHz采樣頻率,16bit位進(jìn)行量化處理.對長時(shí)間錄制語音流實(shí)施基于基頻F0的自動(dòng)切分,端點(diǎn)檢測,提取有聲語音段,并通過人工編輯加工生成實(shí)驗(yàn)語音數(shù)據(jù).每個(gè)切分話語長設(shè)為10~30 s,并用waveform格式保存到語音訓(xùn)練集中.本次說話人識(shí)別實(shí)驗(yàn)中選用共60名話者,將其中50名話者話語作為訓(xùn)練集,剩余的10名話者話語作為集外話者.

        圖8 GMM-UBM-SVM混合模型說話人識(shí)別系統(tǒng)結(jié)構(gòu)圖

        本實(shí)驗(yàn)提取的特征參數(shù)采用12維mel-到譜系數(shù)的MFCC和其一階差分和一維能量參數(shù)共25維特征向量.GMM混合數(shù)設(shè)定128,SVM內(nèi)核參數(shù)為RBF.為了便于比較,本次試驗(yàn)中也給出了GMM,GMMUBM常用測試結(jié)果.實(shí)驗(yàn)結(jié)果如圖9和表1所示.

        圖9 3個(gè)話語訓(xùn)練數(shù)據(jù)在不同混合參數(shù)的說話人識(shí)別率

        表1 5名話者說10個(gè)不同長度話語時(shí)的說話人識(shí)別結(jié)果

        實(shí)驗(yàn)結(jié)果分析:圖9顯示用不同混合參數(shù)訓(xùn)練數(shù)據(jù)時(shí)獲得的識(shí)別結(jié)果,可以看出隨著混合參數(shù)的增加GMM方法識(shí)別率下降.GMM方法在混合參數(shù)為32時(shí)得到最好識(shí)別結(jié)果99.31%.這表明混合數(shù)的急劇增加會(huì)引起GMM識(shí)別結(jié)果大幅度衰退.GMM-UBM及GMM-SVM方法雖然在混合參數(shù)較小時(shí)識(shí)別率較低,但隨著混合參數(shù)增大識(shí)別率會(huì)快速上升.而GMM-SVM方法在混合參數(shù)趨于256時(shí)可達(dá)100%的識(shí)別率.表1給出了5名話者訓(xùn)練模型的實(shí)驗(yàn)結(jié)果,時(shí)長不同的10段話語,且話語長控制在約10 s.從表中顯示結(jié)果看到,GMM-UBM和GMM-SVM均用UBM方法適應(yīng)學(xué)習(xí)建模,識(shí)別結(jié)果幾乎接近,但與GMM-UBM方法相比,GMM-SVM方法的識(shí)別結(jié)果高于GMM-UBM約3%左右.GMM-SVM方法顯示,即使語音信號(hào)時(shí)長較短,仍具備良好分類性能,明顯優(yōu)于其它方法.

        4.2 連續(xù)語音識(shí)別實(shí)驗(yàn)

        語音翻譯系統(tǒng)結(jié)構(gòu)及工作原理在前面已介紹.下面以維-漢語音翻譯實(shí)驗(yàn)介紹系統(tǒng)各單元實(shí)驗(yàn)過程及測試結(jié)果.

        實(shí)驗(yàn)數(shù)據(jù):本次試驗(yàn)中使用由64名(男性32人,女性32人)維吾爾族說話人自由會(huì)話的短語作為語音語料.語料在PC機(jī)上采用單聲道錄制并保存為.wav文件,語料總時(shí)長約為4.0 h(小時(shí)).采樣率為16 kHz,16 bit,幀寬為10 ms.語音特征量為12維的Mel-倒譜系數(shù)(MFCC)及?MFCC加1維對數(shù)能量,共25維向量.話語文件.wav用表2所示33個(gè)聲學(xué)單元轉(zhuǎn)寫標(biāo)注并生成拉丁字母.txt文本文件.其中sil為語音起止符.

        表2 維吾爾語語音標(biāo)注聲學(xué)單元(共33)

        建聲學(xué)模型:考慮到語料大小以及話語區(qū)間標(biāo)注的精確度,本研究采用種子(seed)模型引導(dǎo)大語料,構(gòu)建聲學(xué)模型方法.具體做法如下:

        從語音語料中選擇10個(gè)話者500個(gè)話語(男性5人,女性5人),用表2中聲學(xué)單元進(jìn)行人工準(zhǔn)確地標(biāo)注音素生成.lab文件;

        利用HTK toolkit對以上語料(包括.wav文件和標(biāo)注的.lab文件)進(jìn)行聲學(xué)模型訓(xùn)練,產(chǎn)生高精度的種子模型;

        對剩余的語音語料(共54個(gè)話者語音.wav和.txt文本),利用viterbi alignment算法參照種子模型進(jìn)行自動(dòng)切分,并對每個(gè)切出音素,按前后2個(gè)音素的組合產(chǎn)生學(xué)習(xí)用數(shù)據(jù),再利用學(xué)習(xí)用數(shù)據(jù)在HTK toolkit上訓(xùn)練新的聲學(xué)模型.實(shí)現(xiàn)過程如下:學(xué)習(xí)數(shù)據(jù)的生成→topology學(xué)習(xí)→label學(xué)習(xí)→連接學(xué)習(xí).如此,得到的聲學(xué)模型為三音子(triphone)HMMnet格式聲學(xué)模型;

        用新的聲學(xué)模型替換第1次樣本seed模型,重復(fù)上述訓(xùn)練過程,生成最終的33個(gè)HMMnet格式聲模(AM).

        建語言模型:一般對容量為V的文本訓(xùn)練集訓(xùn)練N-gram語言模型時(shí),要產(chǎn)生VN個(gè)N-gram參量,參量總數(shù)隨著N的增大急劇增大.為此,本文研討基于詞類(class N-gram)的語言模型.對于長度為V的詞串W=w1,w2,···,wi,具體做法如下:

        將每個(gè)詞作為一個(gè)類初始化;

        對每個(gè)詞或類指定能反映詞與詞之間連接關(guān)系的向量ν(x);

        把向量ν(x)分別記作后行向量νt(x)和先行向量νf(x),如下所示:

        其中,pt(wi|x)和pf(wi|x)分別表示從某個(gè)詞或者類到后行一個(gè)詞和前行一個(gè)詞2-gram概率值.

        通過式(8)把合并損失最小的2個(gè)類合并為一個(gè):

        其中,cnew為合并后的類;cold為合并前的類;D(νc,νw)為向量νc和νw的歐氏距離平方.在本次試驗(yàn)中利用表3數(shù)據(jù),以及選用詞頻為200以上的詞構(gòu)建6萬詞詞典,并用palmkit工具生成2-gram及3-gram統(tǒng)計(jì)語言模型.

        4.3 實(shí)驗(yàn)結(jié)果

        利用上述方法生成的聲學(xué)模型和語言模型,引用Julius[15]識(shí)別器實(shí)現(xiàn)語音識(shí)別.為便于比較實(shí)驗(yàn)結(jié)果,本文給出了語音數(shù)據(jù)在不經(jīng)過人工標(biāo)注切分和經(jīng)過人工標(biāo)注切分兩種情況下的實(shí)驗(yàn)結(jié)果.對于200個(gè)上下文無關(guān),一般話筒輸入話語和公用電話輸入話語通過3-gram語言模型進(jìn)行識(shí)別的結(jié)果如圖10所示.

        實(shí)驗(yàn)結(jié)果表明,在同等數(shù)據(jù)的3-gram語言模型條件下,通過少量語料的人工切分標(biāo)注來生成種子聲學(xué)模型再引導(dǎo)大語音建模方法的識(shí)別率為72.5%,明顯優(yōu)于無人工標(biāo)注(識(shí)別率為68.3%),識(shí)別率提高了4.2個(gè)百分點(diǎn).同時(shí)也發(fā)現(xiàn)實(shí)時(shí)電話輸入語音識(shí)別的結(jié)果低于一般話筒輸入的識(shí)別結(jié)果.這可能因?yàn)殡娫捳Z音噪音大,信號(hào)特性復(fù)雜難以獲得高精度特征參數(shù)而引起.

        表3 用于統(tǒng)計(jì)模型的維吾爾語文文本集

        圖10 3-gram模型連續(xù)語音識(shí)別結(jié)果

        4.4 統(tǒng)計(jì)機(jī)器翻譯實(shí)驗(yàn)

        本次實(shí)驗(yàn)采用了統(tǒng)計(jì)機(jī)器翻譯SMT(Statistical machine translation)技術(shù).從本研究設(shè)計(jì)制造的民-漢醫(yī)療衛(wèi)生用語多文本對齊語料[16]中選用維-漢,蒙-漢各30K短語對齊文本語料,統(tǒng)計(jì)生成雙語翻譯模型,對目標(biāo)語言(漢語),單獨(dú)訓(xùn)練N-gram統(tǒng)計(jì)語言模型.本次實(shí)驗(yàn)引用了Moses v 0.91版本翻譯軟件[17].表4中給出了用BLEU(Bilingual Evaluation Understudy)[18]值自動(dòng)評測的翻譯實(shí)驗(yàn)結(jié)果.在測試階段,另外生成510對測試文本,并對每個(gè)短語又設(shè)定14個(gè)參考翻譯短句.由于實(shí)驗(yàn)數(shù)據(jù)處于初建階段,本文只報(bào)告維-漢和蒙-漢單向翻譯結(jié)果.

        表4 機(jī)器翻譯自動(dòng)測試實(shí)驗(yàn)結(jié)果

        4.5 語音合成實(shí)驗(yàn)

        本文討論基于隱馬爾可夫模型(HMMs)的語音合成方法.首先利用一名漢語普通話者朗讀時(shí)長約為1 h的醫(yī)療衛(wèi)生用語短句文本.

        其次,對于錄制話語采用16kHz采樣頻率,25-ms Hamming窗口進(jìn)行預(yù)處理,每隔5-ms幀長,抽取出語音基音F0和到譜參數(shù).抽出基音參數(shù)logF0值和變化率參數(shù)構(gòu)成基音F0特征向量.由25維倒譜系數(shù),過零系數(shù),變化率參數(shù)組成倒譜特征向量.然后用自然語言處理工具對錄制話語進(jìn)行聲學(xué)單元標(biāo)注,確立話語中詞和句子的發(fā)音位置信息.聲學(xué)單元的訓(xùn)練用5-狀態(tài)left-to-right HMMs進(jìn)行,每個(gè)HMM對應(yīng)話語中的各聲學(xué)單元.最后,合并標(biāo)注文本,基音及到譜特征向量,訓(xùn)練HMMs模型.

        本次合成實(shí)驗(yàn)引用HTS(HMM-based speech synthesis system)工具中的合成聲碼器,實(shí)現(xiàn)mel-對數(shù)譜近似(Mel Log Spectrum Approximation,MLSA)合成聲碼器.

        通過人工聽力評估語音合成試驗(yàn)結(jié)果.在本次試驗(yàn)中系統(tǒng)對測試輸入話語,經(jīng)機(jī)器翻譯及語音合成輸出其結(jié)果.通過觀察發(fā)現(xiàn),合成實(shí)驗(yàn)結(jié)果較接近原始錄音語音.但是對于不同話語的輸入,系統(tǒng)輸出語音的精確度有明顯差距.這主要可能是:連續(xù)語音識(shí)別單元識(shí)別精度不高,誤識(shí)別字符串得不到準(zhǔn)確的翻譯,從而影響了語音合成效果;并且用于語音合成訓(xùn)練的語料有限,使HMMs模型及合成參數(shù)特征提取精度不夠高,也可能是原因之一.

        5 結(jié)論與展望

        本文介紹了語音工程技術(shù)在民族語言文字處理方面的應(yīng)用研究情況.對于說話人識(shí)別問題提出了GMMUBM-SVM混合技術(shù)的識(shí)別方案.試圖充分發(fā)揮GMM及SVM兩種算法各自強(qiáng)項(xiàng)提高系統(tǒng)魯棒性.從本次實(shí)驗(yàn)可確認(rèn),GMM-SVM組合識(shí)別方法對于短暫語音信號(hào)有較好魯棒性,識(shí)別率好于常用GMM-UBM方法(約高3%).針對語音翻譯技術(shù)的工程應(yīng)用,本文提出在醫(yī)療衛(wèi)生領(lǐng)域使用民-漢語言會(huì)話翻譯系統(tǒng).對于缺乏語料的民族語言,本文提取高精度聲學(xué)模型,采取了少語料人工標(biāo)注生成語音環(huán)境精密的seed聲摸,再用之引導(dǎo)大語音語料訓(xùn)練聲模.實(shí)驗(yàn)結(jié)果得出結(jié)論,與無人工標(biāo)注語音-文本對齊語料直接訓(xùn)練聲摸情況相比,有人工標(biāo)注的方式性能要好.該實(shí)驗(yàn)證明語音環(huán)境的準(zhǔn)確掌握對于缺乏語料的民語實(shí)現(xiàn)連續(xù)語音識(shí)別確有較大幫助.最后還嘗試了語音翻譯技術(shù)實(shí)用系統(tǒng)的構(gòu)造及測試,并達(dá)到預(yù)期目的.

        由于語音技術(shù)在少數(shù)民族地區(qū)的研究開發(fā)工作剛剛起步,收集準(zhǔn)備的試驗(yàn)數(shù)據(jù)及技術(shù)方法有限,本文僅僅討論了一些簡單的應(yīng)用結(jié)果.今后將加大建立能夠全面覆蓋民語自然語音、語言知識(shí)網(wǎng)絡(luò)的語料庫系統(tǒng),并結(jié)合具體語言結(jié)構(gòu)建立多語言語音學(xué)知識(shí)系統(tǒng),從而進(jìn)一步提高應(yīng)用系統(tǒng)的性能.

        猜你喜歡
        聲學(xué)語料語音
        愛的就是這股Hi-Fi味 Davis Acoustics(戴維斯聲學(xué))Balthus 70
        魔力語音
        基于MATLAB的語音信號(hào)處理
        電子制作(2019年14期)2019-08-20 05:43:38
        基于MQ3與MP3的價(jià)廉物美的酒駕語音提醒器
        電子制作(2019年9期)2019-05-30 09:42:10
        Acoustical Treatment Primer:Diffusion談?wù)劼晫W(xué)處理中的“擴(kuò)散”
        Acoustical Treatment Primer:Absorption談?wù)劼晫W(xué)處理中的“吸聲”(二)
        對方正在輸入……
        小說界(2018年5期)2018-11-26 12:43:42
        Acoustical Treatment Primer:Absorption 談?wù)劼晫W(xué)處理中的“吸聲”
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
        麻豆AV免费网站| 亚洲一区二区三区中国| 欧美日韩午夜群交多人轮换 | 99999久久久久久亚洲| 国产真人性做爰久久网站| 狠狠噜天天噜日日噜| 成人特黄特色毛片免费看| 激情五月开心五月av| 包皮上有一点一点白色的| 色天使综合婷婷国产日韩av| aaaaa级少妇高潮大片免费看| 免费国产h视频在线观看86| 久久精品国产白丝爆白浆| 亚洲精品一区二区三区52p| 国产精品国产三级国产专播| 中文字幕一区二区人妻| 国产91一区二这在线播放| 国产精品久久熟女吞精| 日本视频一区二区三区一| 欧美熟妇性xxx交潮喷| 综合三区后入内射国产馆| 欧美丝袜秘书在线一区| 日本女同av在线播放| 精品国产yw在线观看| 国产av永久无码天堂影院| 人伦片无码中文字幕| 久久夜色精品国产亚洲av老牛| 亚洲视频在线免费不卡| 伊人色综合久久天天五月婷| 成熟丰满熟妇高潮xxxxx| 亚洲αv在线精品糸列 | 少妇爽到高潮免费视频| 亚洲国产精品无码久久| 乱子伦视频在线看| 国产一区二区三区杨幂| 久久精品国产亚洲av麻豆床戏| 全黄性性激高免费视频| 欧美性大战久久久久久久| 日韩AV无码乱伦丝袜一区| 少妇下面好紧好多水真爽| 欧美成人看片一区二区三区尤物 |