周鈞鍇 武志亨 寧湘翼
摘 要:語(yǔ)音識(shí)別技術(shù)作為信息社會(huì)向智能化發(fā)展的關(guān)鍵技術(shù)之一,對(duì)人們的生活產(chǎn)生著廣泛的影響,具有重要的研究意義和實(shí)用價(jià)值。本文概括介紹了語(yǔ)音識(shí)別技術(shù)和語(yǔ)音識(shí)別技術(shù)系統(tǒng)的實(shí)現(xiàn)原理,并對(duì)語(yǔ)音識(shí)別技術(shù)的發(fā)展趨勢(shì)做了簡(jiǎn)單的闡述。
關(guān)鍵詞:語(yǔ)音識(shí)別;特征參數(shù)提??;隱馬爾可夫模型
0 引言
語(yǔ)音識(shí)別作為一門(mén)交叉學(xué)科,近30年來(lái)得到迅速的發(fā)展,逐漸由實(shí)驗(yàn)室技術(shù)向市場(chǎng)產(chǎn)品轉(zhuǎn)化,越來(lái)越多地應(yīng)用到人們的生活中。語(yǔ)音識(shí)別因?yàn)榫哂蟹奖憧旖荨⒁子诳刂频膬?yōu)勢(shì),會(huì)被應(yīng)用到越來(lái)越多的領(lǐng)域中,對(duì)人們的生活產(chǎn)生更廣泛的影響。
1 語(yǔ)音識(shí)別技術(shù)概述
語(yǔ)音識(shí)別技術(shù)就是讓機(jī)器通過(guò)識(shí)別和理解過(guò)程把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高技術(shù)。語(yǔ)音識(shí)別技術(shù)是以語(yǔ)音信號(hào)為研究對(duì)象,涉及信號(hào)處理、模式識(shí)別、概率論和信息論、人工智能等多個(gè)領(lǐng)域。
1.1 語(yǔ)音識(shí)別系統(tǒng)分類(lèi)方式
語(yǔ)音識(shí)別技術(shù)具有多種分類(lèi)方式,常見(jiàn)的有根據(jù)識(shí)別對(duì)象分類(lèi)、是否針對(duì)特定發(fā)音人和待識(shí)別語(yǔ)音的詞匯量大小鳳方式。
根據(jù)識(shí)別的對(duì)象不同,可以分為孤立詞識(shí)別,關(guān)鍵詞識(shí)別和連續(xù)語(yǔ)音識(shí)別三類(lèi)。其中,孤立詞識(shí)別的任務(wù)是識(shí)別事先已知的孤立的詞;關(guān)鍵詞識(shí)別的任務(wù)是檢測(cè)連續(xù)語(yǔ)音中已知的若干關(guān)鍵詞的位置,但并不識(shí)別全部文字;連續(xù)語(yǔ)音識(shí)別的任務(wù)則是識(shí)別任意的連續(xù)語(yǔ)音。
根據(jù)針對(duì)的發(fā)音人,可以把語(yǔ)音識(shí)別技術(shù)分為特定人語(yǔ)音識(shí)別和非特定人語(yǔ)音識(shí)別。特定人語(yǔ)音識(shí)別只能識(shí)別一個(gè)或幾個(gè)人的語(yǔ)音,而非特定人語(yǔ)音識(shí)別則可以識(shí)別任何人的語(yǔ)音。非特定人語(yǔ)音識(shí)別系統(tǒng)更符合實(shí)際需要,但實(shí)現(xiàn)難度更大。
根據(jù)待識(shí)別語(yǔ)音的詞匯量大小,可以分為小詞匯量、中等詞匯量和大詞匯量語(yǔ)音識(shí)別系統(tǒng)。小詞匯量語(yǔ)音識(shí)別系統(tǒng)的識(shí)別范圍為幾十個(gè)詞,中等詞匯量的語(yǔ)音識(shí)別系統(tǒng)的識(shí)別范圍為幾百個(gè)詞到千個(gè)詞,而大詞匯量語(yǔ)音識(shí)別系統(tǒng)的識(shí)別范圍為幾千到幾萬(wàn)個(gè)詞。
2 語(yǔ)音識(shí)別系統(tǒng)實(shí)現(xiàn)原理
不同語(yǔ)音識(shí)別系統(tǒng)的具體實(shí)現(xiàn)細(xì)節(jié)不同,但基本的技術(shù)原理相似。一個(gè)基本的語(yǔ)音識(shí)別系統(tǒng)主要包括語(yǔ)音識(shí)別單元的選取、特征提取技術(shù)、模式匹配準(zhǔn)則和模型訓(xùn)練技術(shù)四個(gè)部分。
2.1 語(yǔ)音識(shí)別單元的選取
語(yǔ)音識(shí)別單元有單詞句、音節(jié)和音素三種。首先需要根據(jù)研究的具體任務(wù)確定識(shí)別的單元:?jiǎn)卧~句單元廣泛應(yīng)用于中小詞匯語(yǔ)音識(shí)別系統(tǒng),但不適合大詞匯系統(tǒng);音節(jié)單元多見(jiàn)于漢語(yǔ)語(yǔ)音識(shí)別;音素單元以前多見(jiàn)于英語(yǔ)語(yǔ)音識(shí)別的研究中。
2.2 特征參數(shù)提取技術(shù)
特征參數(shù)提取的目的是從語(yǔ)音信號(hào)中提取出對(duì)語(yǔ)音識(shí)別有用的信息,即去除與識(shí)別無(wú)關(guān)的冗余信息,保留與識(shí)別有關(guān)的信息。目前應(yīng)用最廣泛的特征參數(shù)提取技術(shù)為線性預(yù)測(cè)(LP)分析技術(shù),許多成熟的語(yǔ)音識(shí)別系統(tǒng)都采用基于LP技術(shù)提取的倒譜參數(shù)。Mel參數(shù)和基于感知線性預(yù)測(cè)(PLP)分析提取的感知線性預(yù)測(cè)倒譜也是常用的特征參數(shù)提取方法。
2.3 模型訓(xùn)練及模式匹配技術(shù)
模型訓(xùn)練是指根據(jù)一定的準(zhǔn)則,從大量己知模式中獲取表征該模式本質(zhì)特征的模型參數(shù),語(yǔ)音識(shí)別就是通過(guò)這些提取的特征參數(shù)所建立的。模式匹配是按照一定的準(zhǔn)則,使未知模式與模型庫(kù)中的某一個(gè)模型獲得最佳匹配。常用的模型訓(xùn)練及模式匹配技術(shù)有動(dòng)態(tài)時(shí)間規(guī)整技術(shù)(DTW)、隱馬爾可夫模型(HMM)和人工神經(jīng)元網(wǎng)絡(luò)(ANN)。
動(dòng)態(tài)時(shí)間規(guī)整技術(shù)是基于動(dòng)態(tài)規(guī)劃的思想,解決了發(fā)音長(zhǎng)短不一的模板匹配問(wèn)題,廣泛應(yīng)用在孤立詞的語(yǔ)音識(shí)別中,但不適合連續(xù)語(yǔ)音和大詞匯量識(shí)別系統(tǒng)。
隱馬爾可夫模型由相互關(guān)聯(lián)的兩個(gè)隨機(jī)過(guò)程共描述信號(hào)的統(tǒng)計(jì)特性,其中一個(gè)是隱蔽的(不可觀測(cè)的)具有有限狀態(tài)的鏈,另一個(gè)是與鏈的每一狀態(tài)相關(guān)聯(lián)的觀察矢量的隨機(jī)過(guò)程(可觀測(cè)的)。
人工神經(jīng)元網(wǎng)絡(luò)的發(fā)展為語(yǔ)音識(shí)別的實(shí)現(xiàn)提供了新的解決方案,人工神經(jīng)元網(wǎng)絡(luò)模擬了人類(lèi)神經(jīng)元活動(dòng)的原理,具有自學(xué)、聯(lián)想、對(duì)比、推理和概括等能力。這些能力都是隱馬爾可夫模型不具備的,但人工神經(jīng)元網(wǎng)絡(luò)不具有隱馬爾可夫模型的動(dòng)態(tài)時(shí)間規(guī)整性能。所以如果將兩者的優(yōu)點(diǎn)結(jié)合起來(lái),可以提高整個(gè)模型的魯棒性。
3 語(yǔ)音識(shí)別技術(shù)發(fā)展趨勢(shì)
目前,各種形式的隱馬爾可夫模型和算法日趨成熟,以它為基礎(chǔ)形成了語(yǔ)音識(shí)別的整體框架模型,統(tǒng)一了語(yǔ)音識(shí)別中聲學(xué)層和語(yǔ)音學(xué)層的算法結(jié)構(gòu),以概率的形式將聲學(xué)層中得到的信息和語(yǔ)音學(xué)層中已有的信息結(jié)合在一起。
另外,通過(guò)語(yǔ)音命令控制可以使原本需要手工操作的工作用語(yǔ)音來(lái)完成。因此,語(yǔ)音命令控制可廣泛用于家電語(yǔ)音遙控、玩具、智能儀器及移動(dòng)電話等便攜設(shè)備中。世界各國(guó)也都加快了語(yǔ)音識(shí)別應(yīng)用系統(tǒng)的研究開(kāi)發(fā),并已有一些實(shí)用的語(yǔ)音識(shí)別系統(tǒng)投入商業(yè)運(yùn)營(yíng)。
參考文獻(xiàn)
[1]詹新明,黃南山,楊燦.語(yǔ)音識(shí)別技術(shù)研究進(jìn)展[J].現(xiàn)代計(jì)算機(jī)(專(zhuān)業(yè)版),2008(09):43-45+50.
[2]禹琳琳.語(yǔ)音識(shí)別技術(shù)及應(yīng)用綜述[J].現(xiàn)代電子技術(shù),2013,36(13):43-45.
[3]馬志欣,王宏,李鑫.語(yǔ)音識(shí)別技術(shù)綜述[J].昌吉學(xué)院學(xué)報(bào),2006(03):93-97.
[4]段紅梅,汪軍,馬良河,徐冉.隱馬爾可夫模型在語(yǔ)音識(shí)別中的應(yīng)用[J].工科數(shù)學(xué),2002(06):16-20.
[5]孫寧,孫勁光,孫宇.基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別技術(shù)研究[J].計(jì)算機(jī)與數(shù)字工程,2006(03):58-61.
[6]劉長(zhǎng)明,任一峰.語(yǔ)音識(shí)別中DTW特征匹配的改進(jìn)算法研究[J].中北大學(xué)學(xué)報(bào)(自然科學(xué)版),2006(01):37-40.
[7]吳煒燁.基于神經(jīng)網(wǎng)絡(luò)語(yǔ)音識(shí)別算法的研究[D].中南大學(xué),2009.