亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Sphinx的機(jī)器人語音識(shí)別系統(tǒng)構(gòu)建與研究

        2017-06-05 16:44:21袁翔
        電腦知識(shí)與技術(shù) 2017年7期

        袁翔

        摘要:通過對(duì)基于隱馬爾科夫模型(Hidden Markov model,HMM)的語音識(shí)別算法進(jìn)行研究,將HMM模型算法的基本思想應(yīng)用到機(jī)器人語音識(shí)別系統(tǒng)中,以Sphinx為測(cè)試平臺(tái),對(duì)機(jī)器人的控制命令語音信號(hào)進(jìn)行訓(xùn)練得到語言模型和聲學(xué)模型,利用訓(xùn)練得到的語言模型和聲學(xué)模型構(gòu)建一個(gè)機(jī)器人控制命令語音識(shí)別系統(tǒng),實(shí)驗(yàn)測(cè)試結(jié)果表明,該系統(tǒng)平均錯(cuò)詞率為7.1%,具有良好的識(shí)別效果,在小詞匯量漢語語音識(shí)別中具有較高的識(shí)別率。

        關(guān)鍵詞:語音識(shí)別;Sphinx;隱馬爾科夫模型;聲學(xué)模型;語言模型

        中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)07-0154-02

        目前主流的語音識(shí)別算法田有隱馬爾科夫模型12和深度神經(jīng)網(wǎng)絡(luò) 。對(duì)于建模單元統(tǒng)計(jì)概率模型描述,主要采用混合高斯模型(GMM),HMM-GMM模型在很長(zhǎng)一段時(shí)間是語音識(shí)別聲學(xué)建模的主流模型。2011年微軟在深度神經(jīng)網(wǎng)絡(luò)領(lǐng)域取得突破并成功應(yīng)用于語音識(shí)別,深度神經(jīng)網(wǎng)絡(luò)因具有更加優(yōu)異的特征學(xué)習(xí)和特征表達(dá)能力成為研究的前沿。深度學(xué)習(xí)在語音識(shí)別中取得了較好的效果,但其需要的海量數(shù)據(jù)訓(xùn)練以及大規(guī)模并行運(yùn)算無法在嵌入式平臺(tái)上實(shí)現(xiàn)。

        本文在嵌入式平臺(tái)上搭建一個(gè)機(jī)器人的控制命令小詞匯量漢語語音識(shí)別系統(tǒng),通過收集錄制控制命令的訓(xùn)練和測(cè)試語音數(shù)據(jù),設(shè)計(jì)訓(xùn)練過程需要用到的腳本,本文完成了控制命令的聲學(xué)模型和語言模型訓(xùn)練,最終使用訓(xùn)練好的模型文件構(gòu)建了一個(gè)以Sphinx為識(shí)別引擎的機(jī)器人語音識(shí)別系統(tǒng)。

        1基于HMM的語音識(shí)別算法

        一個(gè)典型的語音識(shí)別系統(tǒng)結(jié)構(gòu)如圖1所示,包括預(yù)處理單元、特征提取單元、模式匹配單元、模型庫(kù)建立單元四個(gè)部分。

        HMM模型可表示為λ=(A,B,π),A為狀態(tài)轉(zhuǎn)移矩陣,B為觀察值概率矩陣,π為初始狀態(tài)概率分布,N表示馬爾可夫鏈狀態(tài)數(shù)目,M表示觀察值個(gè)數(shù)。在本文應(yīng)用中,主要運(yùn)用HMM模型解決控制命令的識(shí)別問題和聲學(xué)模型訓(xùn)練問題。

        1.1語音識(shí)別算法識(shí)別問題

        識(shí)別問題:給定觀測(cè)序列o={o1,o2,…,oT)和模型λ=(A,B,π),確定產(chǎn)生最優(yōu)O的狀態(tài)序列。識(shí)別問題主要用于識(shí)別過程中解碼,識(shí)別問題的基本算法為Viterbi算法,具體過程由以下公式迭代計(jì)算:

        (1)

        (2)

        (3)

        (4)

        (5)

        (6)

        (7)

        (8)

        1.2語音識(shí)別算法訓(xùn)練問題

        訓(xùn)練問題;給定觀測(cè)序列O={o1,o2,…,oT)和模型λ=(A,B,π),如何得到一個(gè)最優(yōu)的HMM模型,即通過訓(xùn)練模型中各個(gè)參數(shù)使得P{O|λ)取最大值。語音識(shí)別中用于聲學(xué)模型的訓(xùn)練基本算法有Baum-Welch算法,實(shí)現(xiàn)過程如下:

        (9)

        (10)

        將ξ(i,j)對(duì)#從1到T求和可求得狀態(tài)Si到Sj的轉(zhuǎn)移期望值,將γt(i)對(duì)t求和可求得從其他狀態(tài)訪問狀態(tài)Si的期望值,這兩個(gè)過程就是Baum-Welch算法基本思想。

        2基于sphinx的機(jī)器人語音識(shí)別系統(tǒng)構(gòu)建

        2.1實(shí)驗(yàn)系統(tǒng)與設(shè)置

        機(jī)器人語音識(shí)別系統(tǒng)設(shè)計(jì)如圖2所示:

        嵌入式主控平臺(tái)主要負(fù)責(zé)語音識(shí)別,識(shí)別麥克風(fēng)傳人的語音控制命令,再通過無線模塊與機(jī)器人通信,最終實(shí)現(xiàn)了語音命令控制機(jī)器人的效果。選擇的命令包括“前進(jìn)”、“后退”、“左轉(zhuǎn)”、“右轉(zhuǎn)”、“停止”、“啟動(dòng)”、“開燈”、“關(guān)燈”、“開電源”、“關(guān)電源”。

        2.2數(shù)據(jù)準(zhǔn)備

        數(shù)據(jù)準(zhǔn)備主要分為語言模型數(shù)據(jù)和聲學(xué)模型數(shù)據(jù)兩大部分,下面分別介紹。

        2.2.1語言模型數(shù)據(jù)準(zhǔn)備

        本文使用CMUClmtk工具進(jìn)行語言模型訓(xùn)練,CMUClmtk將統(tǒng)計(jì)控制命令文本數(shù)據(jù)產(chǎn)生以單個(gè)詞建立的N_Gram模型。N-Gram模型的基本思想是,當(dāng)前詞的出現(xiàn)只與該詞前面出現(xiàn)的所有詞有關(guān),各個(gè)詞出現(xiàn)概率的乘積就是整個(gè)句子出現(xiàn)的概率。從語料中統(tǒng)計(jì)每個(gè)詞同時(shí)出現(xiàn)的次數(shù)可得到各個(gè)詞的概率,準(zhǔn)備好用于語言模型訓(xùn)練的語言數(shù)據(jù)之后,CMUClmtk將統(tǒng)計(jì)文本文件中每個(gè)詞出現(xiàn)的次數(shù)和詞的總數(shù),然后列舉文本中出現(xiàn)的每一個(gè)詞的n元語法,最終轉(zhuǎn)換為Sphinx需要的二進(jìn)制格式(DMP)語言模型。

        2.2.2聲學(xué)模型數(shù)據(jù)準(zhǔn)備

        聲學(xué)模型數(shù)據(jù)準(zhǔn)備首先需要錄制用于訓(xùn)練和測(cè)試的原始語音文件,然后準(zhǔn)備字典文件,字典文件包括主字典文件和補(bǔ)充字典文件,主字典文件中包含了需要進(jìn)行訓(xùn)練的控制命令以及與控制命令相對(duì)應(yīng)的音素集,補(bǔ)充字典主要列舉了非語音單詞,它包括靜音,背景噪聲等。下一步將字典文件通過命令腳本生成音素文件,音素文件包含所有訓(xùn)練的音素集。

        2.3模型訓(xùn)練

        首先對(duì)訓(xùn)練的語音信號(hào)提取特征向量,Sphinxtrain采用提取梅爾頻率倒譜系數(shù)(MFCC)作為特征向量。下面分別為字典中每個(gè)音素建立上下文無關(guān)模型(CI-modds),并為音素關(guān)聯(lián)狀態(tài)建立上下文有關(guān)模型(CD-unfied models)以及建立決策樹,可以通過決策樹聚類的方法來減少參數(shù)數(shù)量。下一步將為音素訓(xùn)練最終聚類后的CD模型(CD-tied models),刪除插值是一個(gè)為了減少過度擬合的一個(gè)迭代過程,最終得到由均值文件、方差文件、混合權(quán)重文件和轉(zhuǎn)移矩陣文件組成的控制命令聲學(xué)模型。

        2.4語音識(shí)別

        在完成以上聲學(xué)模型訓(xùn)練過程之后,系統(tǒng)會(huì)使用測(cè)試語音對(duì)訓(xùn)練好的聲學(xué)模型進(jìn)行解碼。使用Viterbi算法計(jì)算概率最大路徑的輸出概率得到識(shí)別結(jié)果,系統(tǒng)會(huì)統(tǒng)計(jì)解碼器對(duì)測(cè)試語音的錯(cuò)詞率作為識(shí)別結(jié)果。

        3結(jié)果及分析

        本實(shí)驗(yàn)系統(tǒng)環(huán)境為Ubuntul2.04系統(tǒng),在實(shí)驗(yàn)室環(huán)境錄制了20名同學(xué)的語音,其中男10名,女10名,在無噪聲環(huán)境下采用近距離麥克風(fēng)錄制,數(shù)據(jù)采樣率為16kHz,16位量化編碼,每位同學(xué)將以正常說話語速將10個(gè)命令錄制10次,將10位男生和10位女生前5次錄音作為訓(xùn)練數(shù)據(jù),后5次錄音作為測(cè)試數(shù)據(jù),對(duì)訓(xùn)練好的聲學(xué)模型進(jìn)行測(cè)試,采用錯(cuò)詞率(WER)作為標(biāo)準(zhǔn)來統(tǒng)計(jì)結(jié)果,假設(shè)有一個(gè)N個(gè)單詞長(zhǎng)度的原始文本和識(shí)別出來的文本。I代表被插入的單詞個(gè)數(shù),D代表被刪除的單詞個(gè)數(shù),S代表被替換的單詞個(gè)數(shù),那么錯(cuò)詞率就定義為:

        WER=(I+D+S)/N (11)

        系統(tǒng)的識(shí)別結(jié)果如表1所示:

        測(cè)試語音的識(shí)別結(jié)果表明系統(tǒng)對(duì)十個(gè)單詞都達(dá)到了較高的識(shí)別率,其中單詞摞の繚磾?shù)腻e(cuò)詞率最高為9%,單詞搏V箶錯(cuò)詞率最低為5%,整體來說十個(gè)控制的命令能平均錯(cuò)詞率為7.1%。本系統(tǒng)識(shí)別結(jié)果表明訓(xùn)練所得聲學(xué)模型良好,在Sphinx上構(gòu)建語音識(shí)別控制平臺(tái)取得較好的效果。

        4結(jié)束語

        本文以Sphinx為語音識(shí)別平臺(tái),通過收集錄制控制命令的訓(xùn)練和測(cè)試語音數(shù)據(jù),設(shè)計(jì)訓(xùn)練過程需要用到的腳本,本文完成了控制命令的聲學(xué)模型和語言模型訓(xùn)練,最終成功搭建了一個(gè)嵌入式控制命令語音識(shí)別系統(tǒng),對(duì)機(jī)器人語音控制命令進(jìn)行測(cè)試,在本文實(shí)驗(yàn)測(cè)試中,Sphinx在訓(xùn)練的聲學(xué)模型和語言模型中表現(xiàn)優(yōu)良,十個(gè)控制命令的平均錯(cuò)詞率為7.1%,具有良好的識(shí)別效果。

        久久午夜福利电影| 日本一区二区在线播放观看| 麻豆成人久久精品二区三区91| 丝袜美腿高清在线观看| 国产免费拔擦拔擦8x高清在线人| 少妇厨房愉情理伦片bd在线观看 | 国产美女高潮流白浆免费观看| 最新国产女主播在线观看| 大屁股人妻女教师撅着屁股| 亚洲成在人线av| 国产熟女自拍视频网站| 美女扒开内裤让我捅的视频| 国产又粗又黄又爽的大片| 日韩视频第二页| 亚洲天堂免费一二三四区| 精品国产亚洲级一区二区| 午夜福利啪啪片| 欧美在线资源| 色婷婷精久久品蜜臀av蜜桃| 女人无遮挡裸交性做爰| 人妻在线日韩免费视频 | 亚洲熟妇自偷自拍另类| 蜜臀av性久久久久蜜臀aⅴ| 久久精品国产亚洲不av麻豆| 日本一区二区在线播放| 久久精品国产亚洲av果冻传媒| 欧美人妻精品一区二区三区| 污污污国产免费网站| 在线精品国产亚洲av麻豆| 国产精品无码无片在线观看3d| 国产精品福利影院| 国产一区二区三区乱码在线| 亚洲youwu永久无码精品| 亚洲学生妹高清av| 国产人禽杂交18禁网站| 亚洲美女自拍偷拍视频| 肥臀熟女一区二区三区| 综合激情网站| 午夜视频在线观看国产19| 久久久国产乱子伦精品作者 | 亚洲日韩区在线电影|