摘 要:語音識別是將音頻數(shù)據(jù)轉(zhuǎn)換成文本或者其他形式的計算機可以處理的信息。這里簡單介紹語音識別技術(shù)的發(fā)展歷史和現(xiàn)狀,闡述了典型語音識別系統(tǒng)的基本原理,對語音識別的基本方法和識別過程進(jìn)行深入分析,探討語音識別技術(shù)發(fā)展過程中的難點問題,給出了相應(yīng)對策。
關(guān)鍵詞:語音識別; 音頻數(shù)據(jù);典型的語音識別系統(tǒng); 特征參數(shù)
中圖分類號:TP391.42文獻(xiàn)標(biāo)識碼:A
文章編號:1004-373X(2010)08-0138-03
Research on Speech Recognition Technology
LI Hong-mei, WU Xiao-qin
(Hainan University, Haikou 570228, China)
Abstract:The speech recognition is a technology which transfers the audio datainto the text or other information form convenient to be disposed bycomputer.The history and situation of development of the speech recognition technology is introduced. The principle of a typical speech recognition system is elaborated.The difficulties existing during the development of the speech recognition technologyare discussed and the solutions are given. The method and process of the speech recognition are analysed.
Keywords:speech recognition; audio data; typical speech recognition system; characteristic parameter
0 引 言
語言是人類獲取信息的主要來源之一,是人類與外界交流信息最方便、最有效、最自然的工具,隨著計算機技術(shù)的快速發(fā)展,語音技術(shù)的研究也越來越受到重視。人類對語音的研究主要包括語音編碼、語音合成、語音識別和說話人辨識等幾個方面。
語音識別以語音為研究對象,它是語音信號處理的一個重要研究方向,是模式識別的一個分支,設(shè)計到語言學(xué)、生理學(xué)、心理學(xué)、計算機科學(xué)以及信號處理等學(xué)科。語音識別的目的是為了使機器能夠準(zhǔn)確地聽出人的語音及其內(nèi)容,以便控制其他設(shè)備來滿足人類的各種需要,它是發(fā)展人機有聲通信和新一代智能計算機的重要組成部分。
1 概 述
語音識別[1-2]研究工作可以追溯到20世紀(jì)50年代ATT貝爾實驗室的Audry系統(tǒng),它是第一個可以識別英文數(shù)字的語音識別系統(tǒng)。但真正取得實質(zhì)性進(jìn)展,并將其作為一個重要的課題開展研究則是在20世紀(jì)60年代末70年代初。這是因為計算機的發(fā)展為語音識別的實現(xiàn)提供了硬件和軟件的可能,更重要的是語言信號線性預(yù)測編碼(LPC)技術(shù)和動態(tài)時間規(guī)整(DTW)技術(shù)的提出,有效地解決了語言信號的特征和不等長匹配問題。
實驗室語音識別研究的巨大突破產(chǎn)生于20世紀(jì)80代末。人們終于在實驗室突破了大詞匯量、連續(xù)語音和非特定人這三大障礙,第一次把這三個特征都集成在一個系統(tǒng)中,比較典型的是卡耐基美隆大學(xué)的Sphinx系統(tǒng)。
20世紀(jì)90年代前期,許多著名的大公司如IBM、蘋果、ATT和NTT都對語音識別系統(tǒng)的實用化研究投以巨資。我國的語音識別研究的起步比先進(jìn)國家晚一點,但是進(jìn)步很快,成果突出。
2 語音識別系統(tǒng)原理
語音識別系統(tǒng)大體上可以劃分為:孤立語音和連續(xù)語音識別系統(tǒng)、大詞匯量和小詞匯量語音識別系統(tǒng)、特定人和非特定人語音識別系統(tǒng)。
不同的語音識別系統(tǒng),盡管設(shè)計和實現(xiàn)細(xì)節(jié)不同,但所采用的基本技術(shù)是相似的。一個典型的語音識別系統(tǒng)基本原理框圖如圖1所示。
圖1 典型的語音識別系統(tǒng)基本原理框圖
從圖1可看出,語音識別系統(tǒng)包括預(yù)處理、特征提取、模型的訓(xùn)練和匹配、后處理等幾個部分。下面分別介紹這幾個部分。
2.1 預(yù)處理
預(yù)處理對輸入的原始語音信號進(jìn)行處理,濾除其中不必要的信息及噪聲等,并進(jìn)行語音信號的端點檢測,即判定語音有效范圍的開始和結(jié)束位置,并進(jìn)行語音分幀和預(yù)加重處理等工作[3]。
2.2 特征參數(shù)提取技術(shù)
特征提取負(fù)責(zé)計算語音聲學(xué)參數(shù),提取出反映信號特征的關(guān)鍵特征參數(shù)。特征參數(shù)的提取是關(guān)系到語音識別系統(tǒng)性能好壞的一個關(guān)鍵技術(shù),合理地選擇特征參數(shù)不僅對系統(tǒng)的識別率有很大的提高,同時對系統(tǒng)的實時性能也至關(guān)重要[4]。
特征提取的目的是對原始語音信號進(jìn)行處理,計算語音信號對應(yīng)的特征參數(shù),主要包括以下幾個步驟:
(1) 采樣與量化。
首先將模擬語音信號s(t)以采樣周期T采樣,將其離散化為S(n)。采樣周期的選取應(yīng)根據(jù)模擬語音信號的帶寬(根據(jù)奈奎斯特采樣定理確定),以避免信號的頻域混疊失真。對離散后的語音信號進(jìn)行量化處理過程中會帶來一定的量化噪聲和失真。
(2) 預(yù)加重處理。
對輸入的原始語音信號進(jìn)行預(yù)加重,其目的是為了對語音的高頻部分進(jìn)行加重,增加語音的高頻分辨率。一般通過一個傳遞函數(shù)為H(z)=1-αz-1的濾波器對其加以濾波。其中:α為預(yù)加重系數(shù)且0.9<α<1.0。設(shè)n時刻的語音采樣值為x(n),經(jīng)過預(yù)加重處理后的結(jié)果為:
y(n)=x(n)-αx(n-1), 0.9<α<1.0
(3) 分幀與加窗。
語音具有短時平穩(wěn)的特點,通過對語音進(jìn)行分幀操作后,可以提取其短時特性,從而便于模型的建立。然后將每幀信號用某種窗相乘,以減少幀起始和結(jié)束處的信號不連續(xù)性。常用的加窗函數(shù)有漢明窗和漢寧窗。
(4) 特征參數(shù)計算。
實踐證明有效的特征參數(shù)有線性預(yù)測編碼(LPC)系數(shù),線性預(yù)測編碼倒譜(LPCC)系數(shù)和Mel頻率倒譜系數(shù)(MFCC)。
2.3 聲學(xué)模型與模式匹配
語音識別系統(tǒng)的第二級是建立聲學(xué)模型與模型匹配。首先通過學(xué)習(xí)算法,將訓(xùn)練語音的特征通過學(xué)習(xí)過程形成聲學(xué)模型。聲學(xué)模型是語音識別系統(tǒng)中最底層的模型并且也是識別系統(tǒng)最關(guān)鍵的一部分。聲學(xué)模型的目的是提供一種有效的方法計算語音的特征矢量系列與每個發(fā)音模板的距離。因為發(fā)音在每個時刻都受到其前后發(fā)音的影響,為了模仿自然連續(xù)語音中的協(xié)同發(fā)音的作用和鑒別這些協(xié)同發(fā)音,通常要使用復(fù)雜的聲學(xué)模型。聲學(xué)模型單元的大小(字發(fā)音模型、半發(fā)音模型或音素模型)對語音訓(xùn)練數(shù)據(jù)量大小、系統(tǒng)識別率、以及靈活性有較大的影響。對于大詞匯量語音識別系統(tǒng),通常識別單元小,則計算量也小,所需的模型存儲量也小,但帶來的問題是對應(yīng)語音段的定位和分割較困難,識別模型規(guī)則也變得復(fù)雜。通常大的識別單元在模型中應(yīng)包括協(xié)同發(fā)音(指的是一個音受前后相鄰音的影響而發(fā)生變化,從發(fā)聲機理上看就是人的發(fā)聲器官在一個音轉(zhuǎn)向另一個音時其特性只能漸變,從而使得后一個音的頻譜與其他條件下的頻譜產(chǎn)生差異),這有利于提高系統(tǒng)的識別率,但要求的訓(xùn)練數(shù)據(jù)相對增加。近幾十年比較成功的識別方法有:動態(tài)時間規(guī)整(DTW)技術(shù)、隱式馬爾可夫模型(HMM)、人工神經(jīng)網(wǎng)絡(luò)(ANN)。
(1) 動態(tài)時間規(guī)整(DTW)技術(shù)[5,6]。
由于在訓(xùn)練或識別過程中,即使同一個人發(fā)同一個音時,不僅其持續(xù)時間長度會隨機地改變,而且各音素的相對時長也是隨機變化的。因此在匹配時如果只對特征向量系列進(jìn)行線性時間規(guī)整,其中的音素就有可能對不準(zhǔn)。20世紀(jì)60年代日本學(xué)者板倉提出了動態(tài)時間規(guī)整算法。算法的思想就是把未知量均勻地伸長或縮短,直到它與參考模式的長度一致時為止。在時間規(guī)整過程中,未知單詞的時間軸要不均勻地扭曲或彎折,以便使其特征與模型特征對正,DTW的具體實現(xiàn)方法是采用動態(tài)規(guī)劃技術(shù)(DP),方法簡單有效,對小詞表孤立詞別系統(tǒng)非常有效。
(2) 隱式馬爾可夫模型(HMM)[7]。
隱式馬爾可夫模型(HMM)是20世紀(jì)80年代引入語音識別的理論,其出現(xiàn)使自然語音識別系統(tǒng)取得了實質(zhì)性的突破。HMM方法現(xiàn)已成為語音識別的主流技術(shù),目前大多數(shù)成功的連續(xù)語音識別系統(tǒng)都是采用這種方法。HMM是對語音信號的時間系列結(jié)構(gòu)建立統(tǒng)計模型,將其看作一個數(shù)學(xué)上的雙重隨機過程,一個是用具有有限狀態(tài)的Markov鏈來模擬語言信號統(tǒng)計特征變化的隱含的隨機過程,前者通過后者表現(xiàn)出來,但前者的具體參數(shù)(如狀態(tài)數(shù))是不可觀測的。
人的言語過程實際上就是一個雙重隨機過程,語音信號本身是一個可觀測的時變系列,是由大腦根據(jù)語法知識和言語需要(不可觀測的狀態(tài))發(fā)出的音素的參數(shù)流。HMM合理地模仿了這一過程,很好地描述了語音信號的整體非平穩(wěn)性和局部平穩(wěn)性。
(3) 人工神經(jīng)網(wǎng)絡(luò)(ANN)[2]。
ANN是采用大量的簡單處理單元廣泛地連接起來構(gòu)成的一種復(fù)雜的信息處理網(wǎng)絡(luò),其中處理單元及其相互連接模式借鑒人腦神經(jīng)元的結(jié)構(gòu)及連接機制設(shè)計的。這種網(wǎng)絡(luò)具有與人腦相似的學(xué)習(xí)記憶能力,知識概括和輸入信息特征抽取能力。其本質(zhì)上是一個自適應(yīng)非線性動力學(xué)系統(tǒng),模擬了人類神經(jīng)元活動的原理,具有自適應(yīng)性、并行性、魯棒性、容錯性和學(xué)習(xí)特性。目前語音識別神經(jīng)網(wǎng)絡(luò)主要有多層感知器網(wǎng),Kohonen自主織神經(jīng)網(wǎng)和預(yù)測神經(jīng)網(wǎng)。
基于人工神經(jīng)網(wǎng)絡(luò)語音識別系統(tǒng)具有很大的發(fā)展空間,但普遍存在訓(xùn)練,識別時間過長的缺點,目前許多學(xué)者正致力于利用神經(jīng)網(wǎng)絡(luò)同傳統(tǒng)方法相互結(jié)合的語音識別系統(tǒng)的研究并取得一定進(jìn)展。
2.4 后處理[1-2]
在中、大詞匯量的語音識別系統(tǒng)特征中后處理顯得特別重要,當(dāng)分類發(fā)生錯誤時,可以根據(jù)語音學(xué)模型,語法結(jié)構(gòu),語義學(xué)進(jìn)行判斷糾正。特別是一些同音字則必須要通過上下文結(jié)構(gòu)才能確定詞義,語音學(xué)理論包括發(fā)音學(xué)、音律學(xué)、語義結(jié)構(gòu),語言的數(shù)學(xué)描述模型等有關(guān)方面。把語言模型應(yīng)用于語音識別要解決的幾種結(jié)構(gòu),如何把它和模式識別器結(jié)合找出一種有效的識別算法。
語言模型主要分為規(guī)則模型和統(tǒng)計模型兩種,目前比較成功的語言模型通常是采用統(tǒng)計語法的。統(tǒng)計語言模型是用概率統(tǒng)計的方法來揭示語言單位內(nèi)在的統(tǒng)計規(guī)律,其中N-Gram簡單有效,被廣泛使用。N-Gram模型基于這樣一種假設(shè):第N個詞的出現(xiàn)只與前面N-1個詞相關(guān),而與其任何詞都不相關(guān),整句的概率就是各個詞出現(xiàn)概率的乘積。這些概率可以通過直接從語料中統(tǒng)計N個詞同時出現(xiàn)的次數(shù)得到。常用的是二元的Bi-Gram和三元的Tri-Gram。
3 語音識別系統(tǒng)面臨的問題
雖然語音識別的研究工作已有60多年,語音識別產(chǎn)品層出不窮,但與語音識別的最終目標(biāo)還有一定的距離,各方面的困難依然存在,主要表現(xiàn)在:
(1) 環(huán)境影響問題。這是各種語音識別系統(tǒng)普遍存在的頑健性如何提高的共性問題,包括環(huán)境噪聲影響、說話人距離和位置變化的影響以及說話人心理和生理變化的影響等[1-2]。有效解決這些難題實際上是各種語音識別技術(shù)共同面臨的艱巨任務(wù)??朔h(huán)境噪聲影響問題的方法通常有:譜減法消噪技術(shù)、環(huán)境歸正技術(shù)、噪聲建模技術(shù)、識別模型修正技術(shù)等;克服說話人距離和位置變化的影響可采用多話筒跟蹤拾音技術(shù)。對于克服說話人心理和生理變化引起的語言變異造成的影響,以引入模仿人類語音聽覺感知機理的人工智能技術(shù)對模式識別部分進(jìn)行增強和改進(jìn)的方法較有效。
(2) 語音識別系統(tǒng)的適應(yīng)性差。全世界有近百種官方語言,每種語言有多達(dá)幾十種方言,同種語言的不同方言在語音上相差懸殊,這樣,隨著語言環(huán)境的改變,系統(tǒng)性能會變得很差。
(3) 端點檢測。研究表明,即使在安靜的環(huán)境下,語音識別系統(tǒng)一半以上的錯誤來自端點檢測器。提高端點檢測技術(shù)的關(guān)鍵在于尋找穩(wěn)定的語音參數(shù)[7]。
(4) 詞與詞的特征空間混疊。語音識別的常規(guī)方法是利用語音信號的短時平穩(wěn)特性將語音時域采樣信號分為若干幀,計算出每一幀的相應(yīng)特征矢量,從而得到該幀語音的一個特征矢量序列。
但從這些矢量的空間分布來看,很多不同詞語的矢量序列在特征空間存在混疊現(xiàn)象。克服這個問題的主要思路是,首先應(yīng)當(dāng)基本準(zhǔn)確地找出該發(fā)音者發(fā)音的大致短時周期,并盡量使用合理的特征,同時充分利用特征序列的時序特征[7]。
4 結(jié) 語
這里通過對語音識別技術(shù)的學(xué)習(xí)和研究,意識到語音識別技術(shù)在人類生活和工作等各方面的重要性。但是由于語音識別技術(shù)還面臨著很多困難,所以研究者最先大都是在實驗室即環(huán)境很安靜的情況下進(jìn)行的,而且是選取某一種語言(比如英語)對某一或者某幾個國家的學(xué)生或者某一特定職業(yè)的人進(jìn)行實驗,有些還專門對孩子進(jìn)行實驗[8](因為孩子的發(fā)音和成年人是有很大區(qū)別的)等。那么以后人類是否可以研究出一種語音識別系統(tǒng)能夠適用于世界上各種語言各種各樣的人,是值得思考的。
另一方面如何將語音識別技術(shù)應(yīng)用到人們生活的各個方面。比如學(xué)習(xí)方面,學(xué)習(xí)外語的時候老師不可能糾正每個學(xué)生的發(fā)音,而有一個系統(tǒng)可幫助糾正;娛樂方面,開始學(xué)唱歌時,不需要別人的點評唱的如何,而有一個評分的系統(tǒng)可以幫助打分,并糾正哪里唱的跑調(diào)了。還有國家的普通的話測試需要有一個系統(tǒng)可以幫助測試,考生自己就可以給自己大概的估分了。
參考文獻(xiàn)
[1]唐堯. 基于DSP平臺的語音識別算法的研究與實現(xiàn)[D]. 南京: 南京航空航天大學(xué), 2007.
[2]周茉. 基于HMM和ANN得漢語數(shù)字語音識別算法[D]. 武漢: 華中師范大學(xué), 2006.
[3]梁芳泉, 張雪英. 一種抗噪語音識別算法的DSP實現(xiàn)[J]. 電腦開發(fā)與應(yīng)用, 2006, 19(4): 12-14.
[4]HACKER C, CINCAREK T, GRUHN R, et al. Pronunciation feature extraction[C]//Pattern Recognition. 27 DAGM Symposium. Berlin: Springer, 2005:141148.
[5]王倩, 吳國平, 陳琳. 特定人語音識別算法-DTW算法[J]. 軟件導(dǎo)刊, 2005(20): 48-50.
[6]呂軍, 曹效英. 基于語音識別的漢語發(fā)音自動評分系統(tǒng)的設(shè)計與實現(xiàn)[J]. 計算機工程與設(shè)計, 2007, 28(5): 1232-1235.
[7]李錦, 何培宇. 一種改進(jìn)的基于小波去噪HMM非特定人語音識別算法[J]. 四川大學(xué)學(xué)報: 自然科學(xué)版, 2007, 44(1): 69-72.
[8]HACKERC, CINCAREKT, MAIER, A, et al.Boosting of prosodic and pronunciation features to detect mispronunciations of non-native children[C].\\ IEEE International Conference on Acoustics, Speech and Signal Processing, 2007.
[9]FRANCO H, NEUMEYER L, DIGALAKIS V, et al.Combination of machine scores for automatic grading of pronunciation quality[J]. Speech Communication, 2000, 30(2-3): 121-130.
[10]HU Rile, ZONG Cheng-qing. An approach to automatic acquisition of translation templates based on phrase struc-trure extraction and alignment[J]. IEEE Trans. on Audio, Speech, and Language Processing. 2006, 14(5): 1656-1663.
[11]WITT S M, Young Steve J. Language learning based on non-native speech recognition[J]. Eurospeech, 1997:633636.
[12]WITT S M, YOUNG S J. Phone-level pronunciationscoring and assessment for interative language learning[J]. Speech Comm., 2000, 30:95108.