亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于HMM的黔東南少數(shù)民族地區(qū)苗語連續(xù)語音識(shí)別系統(tǒng)研究

        2017-12-11 12:55:17楊建菊唐錄潔龍虎
        電腦知識(shí)與技術(shù) 2017年31期
        關(guān)鍵詞:苗語

        楊建菊 唐錄潔 龍虎

        摘要:該文根據(jù)貴州黔東南少數(shù)民族地區(qū)苗族語言發(fā)音特點(diǎn),對(duì)苗語連續(xù)語音識(shí)別系統(tǒng)進(jìn)行研究,并嘗試采用Sphinx工具應(yīng)用HMM方法,對(duì)苗語連續(xù)語音識(shí)別系統(tǒng)進(jìn)行初步設(shè)計(jì)和識(shí)別測試。

        關(guān)鍵詞:HMM;連續(xù)語音識(shí)別;Sphinx;苗語

        中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)31-0190-02

        Research on Continuous Speech Recognition System of Miao Minority in Qiandongnan Minority Areas Based on HMM

        YANG Jian-ju1,TANG Lu-jie2,LONG Hu1

        (1. Big Data Engineering College , Kaili University ,Kaili 556011,China;2. Information Network Center, Kaili University ,Kaili 556011,China)

        Abstract: According to the Guizhou ethnic minority area of Qiandongnan Miao language pronunciation characteristics of Miao language continuous speech recognition system, and try to use Sphinx tools using HMM method, continuous speech recognition system and recognition test for the preliminary design of the Miao language.

        Key words:HMM; continuous speech recognition; Sphinx; Miao language

        隨著語音識(shí)別技術(shù)的廣泛應(yīng)用使其成為國內(nèi)外研究的熱點(diǎn)之一,語音識(shí)別主要包括語音層和語言層識(shí)別兩部分,根據(jù)說話人依賴程度可分為特定人語音識(shí)別與非特定人語音識(shí)別,而根據(jù)說話人要求不同可分為孤立詞識(shí)別與連續(xù)語音識(shí)別等。

        苗語是孤立語系,屬于我國少數(shù)民族方言,目前苗語根據(jù)不同地域發(fā)音特點(diǎn)不同可分為東部、中部、西部及滇東北四個(gè)方言,其中苗語中部方言又叫黔東方言是苗語的重要分支,主要分布在貴州省東南部、廣西省最北部和湖南省西南角,本文在此以分布在貴州省黔東南苗族侗族自治區(qū)凱里市三棵樹鎮(zhèn)及輻射周邊地區(qū)的中部方言苗語為原型,對(duì)苗語連續(xù)語音識(shí)別系統(tǒng)進(jìn)行研究設(shè)計(jì)。

        1 系統(tǒng)結(jié)構(gòu)組成

        連續(xù)語音識(shí)別系統(tǒng)可分為四個(gè)部分,分別為特征提取、聲學(xué)模型訓(xùn)練、語言模型訓(xùn)練和解碼器等,如下圖1所示。

        首先對(duì)語音數(shù)據(jù)庫中語音先進(jìn)行預(yù)處理,濾掉背景噪聲和不重要信息,并進(jìn)行語音信號(hào)端點(diǎn)檢測、語音分幀以及預(yù)加重等處理,然后提取語音特征,根據(jù)訓(xùn)練語音庫的特征參數(shù)訓(xùn)練出聲學(xué)模型,對(duì)訓(xùn)練文本數(shù)據(jù)庫進(jìn)行語法、語義分析得到訓(xùn)練模型,最后對(duì)輸入語音信號(hào)根據(jù)訓(xùn)練聲學(xué)模型、語言模型及字典建立識(shí)別網(wǎng)絡(luò)進(jìn)行語音識(shí)別。本文采用Sphinx語音識(shí)別系統(tǒng)工具進(jìn)行系統(tǒng)設(shè)計(jì)。

        2 特征提取

        特征提取主要是去除語音信號(hào)中無用冗余信息,并提取出能夠反映語音信號(hào)特征的關(guān)鍵特征參數(shù)形成特征矢量序列過程。目前提取特征方法主要采用Mel頻率倒譜系數(shù)(MFCC),在Sphinx中主要采用MFCC特征提取,首先用幀F(xiàn)rames窗分割語音波形,每一幀有10ms,然后每一幀提取代表改幀語音的39個(gè)數(shù)字,即得到該幀語音MFCC特征,并用特征向量來表示。

        3 聲學(xué)模型建立及訓(xùn)練

        聲學(xué)模型主要用于計(jì)算語音特征和每個(gè)發(fā)音模板之間的似然度,目的是為每一個(gè)聲學(xué)單元建立一套模型參數(shù);本文采用音素作為訓(xùn)練基本單位,并選用苗語中聲母、韻母作為基本聲學(xué)單元進(jìn)行建模訓(xùn)練,苗語發(fā)音中主要音素有58個(gè),采用HMM連續(xù)語音識(shí)別模式為上下文相關(guān)模式,HMM通常由左向右單向、帶自環(huán)、帶跨越的拓?fù)浣Y(jié)構(gòu)識(shí)別基元建模,一個(gè)音素就是一個(gè)三至五狀態(tài)的HMM,單個(gè)詞則由構(gòu)成詞的多個(gè)音素HMM串行構(gòu)成,連續(xù)語音識(shí)別模型則由詞和靜音組合起來的HMM。以苗語“Laox sib mongx sod”(老師您早)句子為例,進(jìn)行分詞處理后,可得到音素表如表1所示。

        4 訓(xùn)練語言模型

        語言模型是用來計(jì)算一個(gè)句子出現(xiàn)概率的概率模型。主要決定了哪個(gè)詞序列的可能性更大,或者在出現(xiàn)了幾個(gè)詞的情況下能夠預(yù)測下一個(gè)即將出現(xiàn)的詞語的內(nèi)容,即語言模型是用來描述詞與詞之間存在符合語法與否約束的,本文采用N-Gram模型來完成對(duì)訓(xùn)練音頻文件對(duì)應(yīng)文本文件進(jìn)行統(tǒng)計(jì),N-Gram模型是基于這樣一種假設(shè),每個(gè)詞N的出現(xiàn)不再與其前面全部上下文歷史相關(guān),而只與前面N-1個(gè)詞相關(guān),整個(gè)句子的概率就是各個(gè)詞出現(xiàn)概率的乘積。通常用的是二元的Bi-Gram和三元的Tri-Gram。Sphinx中是采用二元語法和三元語法的統(tǒng)計(jì)語言概率模型,即通過前一個(gè)或兩個(gè)單詞來判定當(dāng)前單詞出現(xiàn)的概率P(w2| w1),P(w3| w2, w1)。

        5 系統(tǒng)數(shù)據(jù)源

        5.1 語音數(shù)據(jù)庫

        本文在此主要以中部苗語中分布在貴州黔東南苗族侗族自治區(qū)凱里市三棵樹鎮(zhèn)及周邊地區(qū)語音為準(zhǔn)音進(jìn)行研究,本語音數(shù)據(jù)庫收錄共2小時(shí)錄音,訓(xùn)練句子200條,發(fā)音人共4人,測試用句子20條,共兩人發(fā)音,收錄共1小時(shí)。

        5.2 文本數(shù)據(jù)庫

        文本數(shù)據(jù)庫包括用來準(zhǔn)備訓(xùn)練的文本集合,大多數(shù)句子是任意指定的,最好覆蓋想要識(shí)別的句子里面包含的高頻單詞或者音素。本系統(tǒng)研究使用苗文文字為1957年12月國務(wù)院公布《關(guān)于少數(shù)民族文字方案中設(shè)計(jì)字母的幾項(xiàng)原則》中規(guī)定苗文文字,按照規(guī)定苗語四大方言都以拉丁字母為基礎(chǔ)的拼音文字,本系統(tǒng)文本數(shù)據(jù)庫中所選苗文句子為貴州省凱里學(xué)院少數(shù)民族本科及五年制大專班開設(shè)特色課程苗族語言課程教材《苗族語文-中部方言》中的簡單苗文對(duì)話部分,其中訓(xùn)練語句200條,測試用句子20條。

        6 語音解碼和搜索算法

        語音解碼即指語音技術(shù)中的識(shí)別過程。本系統(tǒng)中根據(jù)之前已經(jīng)訓(xùn)練好的HMM聲學(xué)模型、語言模型及字典建立一個(gè)識(shí)別網(wǎng)絡(luò),然后再根據(jù)搜索算法通過該網(wǎng)絡(luò)尋找一條最佳路徑,即尋找最優(yōu)詞串方法。Sphinx中解碼技術(shù)采用基于動(dòng)態(tài)規(guī)劃的Viterbi搜索算法,該算法思想是遍歷HMM狀態(tài)網(wǎng)絡(luò)且保留每一幀語音在某個(gè)狀態(tài)最優(yōu)路徑得分。通常搜索需要進(jìn)行多遍,第一遍使用代價(jià)低的知識(shí)源,比如聲學(xué)模型、語言模型和音標(biāo)詞典等,生成一個(gè)候選列表或候選網(wǎng)格,第二遍再在該基礎(chǔ)上使用代價(jià)高的知識(shí)源,如4階或5階的N-Gram、4階或更高的上下文相關(guān)模型等,找到最佳路徑。

        7 實(shí)驗(yàn)環(huán)境及識(shí)別測試

        本系統(tǒng)所有軟件編譯運(yùn)行環(huán)境都是在Win7操作系統(tǒng)下進(jìn)行,其中選用Sphinxtrain-1.0.8作為聲學(xué)模型訓(xùn)練工具,Cmuclmtk-0.7作為語言模型訓(xùn)練工具,解碼器選擇Pocketsphinx和Sphinxbase-0.8。

        識(shí)別完成后,可將識(shí)別結(jié)果數(shù)據(jù)與原始語料數(shù)據(jù)進(jìn)行對(duì)比,計(jì)算出識(shí)別正確率分別為:

        句子識(shí)別正確率為:

        Scrr=([1-EsntSnt])×100%

        單詞識(shí)別正確率為:

        Wcrr=[Wrd-Ins-Del-SubWrb]×100%

        8 結(jié)束語

        本文在此對(duì)基于HMM的黔東南少數(shù)民族地區(qū)苗語連續(xù)語音識(shí)別系統(tǒng)中的關(guān)鍵技術(shù)包括特征提取、訓(xùn)練及識(shí)別算法等進(jìn)行研究,并采用Sphinx工具進(jìn)行系統(tǒng)設(shè)計(jì),但離成熟穩(wěn)定的識(shí)別系統(tǒng)還有一定差距,尤其規(guī)模小、模型復(fù)雜等方面還需要有待改進(jìn),本文研究對(duì)于今后苗語連續(xù)語音識(shí)別系統(tǒng)進(jìn)一步研究起到借鑒和促進(jìn)作用。

        參考文獻(xiàn):

        [1] 楊濤,范國祖,熊毅. 苗族語文-中部方言[M]. 成都:西南交通大學(xué)出版社,2015.

        [2] 劉妍秀,付海東. 基于HMM的連續(xù)語音識(shí)別系統(tǒng)的構(gòu)建與研究[J].長春大學(xué)出版社,2015(2).

        [3] 王一蒙. 語音識(shí)別關(guān)鍵技術(shù)研究[D]. 成都:電子科技大學(xué),2015.

        [4] 牧仁高娃. 蒙古語語音識(shí)別相關(guān)問題研究[D]. 呼和浩特:內(nèi)蒙古大學(xué),2013.

        猜你喜歡
        苗語
        苗語典型存在動(dòng)詞初探
        黔東南地區(qū)苗語的使用現(xiàn)狀及其保護(hù)傳承
        ——以凱里地區(qū)為例
        陡寨苗語音系及其語音特點(diǎn)
        大眾文藝(2021年7期)2021-05-01 06:54:28
        湖北小茅坡營苗語孤島調(diào)查研究
        苗語漢語互譯工具設(shè)計(jì)與實(shí)現(xiàn)
        大浪苗語指示詞的變調(diào)及其規(guī)律
        羅泊河次方言苗語歌謠韻律結(jié)構(gòu)特點(diǎn)探析
        我打算這樣過寒假
        清水江文書漢字記苗音苗語地名整理研究
        ——以加池苗寨土地契約文書為例*
        文化翻譯觀視角下的黔東苗語文化詞匯英譯研究
        青青草绿色华人播放在线视频| 男人进去女人爽免费视频| 国产裸拍裸体视频在线观看| 国产精品户露av在线户外直播 | 97精品伊人久久大香线蕉| 欧美精品日韩一区二区三区| 91麻豆精品激情在线观最新| 青青草小视频在线观看| 国产精品久久久久久久久绿色| 久久综合国产乱子伦精品免费| 国产精品久久1024| 日韩国产有码精品一区二在线| 沐浴偷拍一区二区视频| 特黄aaaaaaaaa毛片免费视频| 亚洲精华国产精华液的福利 | 粗大猛烈进出白浆视频| 成全视频高清免费| 福利片免费 亚洲| 国内偷拍精品一区二区| 男人天堂av在线成人av| 国产精品久久夜伦鲁鲁| 最新中文字幕日韩精品| 国产精品爽爽久久久久久竹菊| 亚洲av无码专区国产乱码不卡| 在教室伦流澡到高潮h麻豆| 无码视频一区二区三区在线播放| 一二三四在线观看韩国视频| 欧美又大粗又爽又黄大片视频| 帮老师解开蕾丝奶罩吸乳视频| 国产剧情福利AV一区二区| 亚洲福利av一区二区| 中文字幕av人妻少妇一区二区| 国产七十六+老熟妇| 国产精品麻豆aⅴ人妻| 久久国产亚洲中文字幕| av影片手机在线观看免费网址| 成年性生交大片免费看| 久久99精品久久久久久hb无码| 无码天堂在线视频| 在线观看午夜视频国产| 国产xxx69麻豆国语对白|