于大海 孫建民
摘要 語音識別技術(shù)就是讓機器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù),其最終目標(biāo)是實現(xiàn)人與機器進(jìn)行自然語言通信。語音作為一個交叉學(xué)科,具有深遠(yuǎn)的研究價值,近50年的研究發(fā)展,語音識別技術(shù)已經(jīng)有了極大的發(fā)展。本文介紹了語音識別技術(shù)的基本原理和應(yīng)用,并且對語音識別技術(shù)的發(fā)展趨勢進(jìn)行了展望。
關(guān)鍵詞 語音識別;應(yīng)用;發(fā)展
中圖分類號 TN912.34 文獻(xiàn)標(biāo)識碼 A文章編號 1674-6708(2009)08-0022-02
0 引言
語音是人類互相之間進(jìn)行交流時使用最多、最自然、最基本、最重要的信息載體。在高度信息化的今天,語音處理的一系列技術(shù)及其應(yīng)用已經(jīng)成為信息社會不可缺少的組成部分。語音的產(chǎn)生是一個復(fù)雜的過程,包括心理和生理等方面的一系列因素。當(dāng)人們需要通過語音表達(dá)某種信息時,首先是這種信息以某種抽象的形式表現(xiàn)在說話人的大腦里,然后轉(zhuǎn)換為一組神經(jīng)信號,這些神經(jīng)信號作用于發(fā)聲器官,從而產(chǎn)生攜帶信息的語音信號。
1 語音識別的研究歷史及現(xiàn)狀
在國外語音識別的研究工作可以追溯到上世紀(jì)50年代。1952年AT&T貝爾實驗室的Audry系統(tǒng)是第一個可以識別十個英文數(shù)字的語音識別系統(tǒng)。
上世紀(jì)60年代末70年代初出現(xiàn)了語音識別方面幾種基本思想,其中重要成果是提出了信號線性預(yù)測編碼(LPC)技術(shù)和動態(tài)時間規(guī)整(DTW)技術(shù),有效的解決了語音信號特征提取和不等長語音匹配問題,同時,還提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。
上世紀(jì)80年代語音識別研究進(jìn)一步走向深入,其顯著特征是隱馬爾可夫模型(HMM)和人工神經(jīng)網(wǎng)絡(luò)(ANN)在語音識別中的成功應(yīng)用。上世紀(jì)90年代,在計算機技術(shù)、電信應(yīng)用等領(lǐng)域飛速發(fā)展的帶動下,迫切的要求語音識別系統(tǒng)從實驗室走向?qū)嶋H應(yīng)用。具代表性的是IBM的Via Voice和Dragon公司的Dragon Dictate系統(tǒng),這些語音識別系統(tǒng)具有說話人自適應(yīng)能力,新用戶不需要對全部詞匯進(jìn)行訓(xùn)練便可在使用中不斷提高識別率[1]。
國內(nèi)在語音識別研究上也投入了很大的精力,中科院的自動化所、聲學(xué)所以及清華大學(xué)等科研機構(gòu)和高校都在從事語音識別領(lǐng)域的研究和開發(fā)。國家863智能計算機專家組為語音識別技術(shù)研究專門立項,我國語音識別技術(shù)的研究水平已經(jīng)基本上與國外同步。
2 語音識別系統(tǒng)的分類
目前,語音識別的系統(tǒng)分類有孤立語音和連續(xù)語音識別系統(tǒng),特定人和非特定人語音識別系統(tǒng),大詞匯量和小詞匯量語音識別系統(tǒng),嵌入式/服務(wù)器模式等。
2.1 孤立語音和連續(xù)語音識別系統(tǒng)
自然的語音,只在句尾或是文字需要加標(biāo)點的地方必須間斷,其它的部分可以連續(xù)不斷地發(fā)音。以前的語音識別系統(tǒng),幾乎都是以單字或單詞為單位的孤立語音識別系統(tǒng),但隨著近年來的研究和發(fā)展,連續(xù)語音識別技術(shù)漸趨成熟,這個最自然的說話方式,將成為語音識別系統(tǒng)的主流。
2.2 特定人和非特定人語音識別系統(tǒng)
特定人和非特定人語音識別系統(tǒng)是按照聲學(xué)模型建立的方式來劃分。特定人系統(tǒng)是指系統(tǒng)在使用前必須由用戶輸入大量的發(fā)音數(shù)據(jù),并對其進(jìn)行訓(xùn)練。非特定人系統(tǒng)則試圖達(dá)到在系統(tǒng)構(gòu)建成功之后,用戶不需要事先輸入大量的訓(xùn)練數(shù)據(jù),即可使用的目的。
2.3 大詞匯量和小詞匯量語音識別系統(tǒng)
在語音識別技術(shù)的發(fā)展過程中,詞匯量也正是從少到多不斷積累的,隨著詞匯量的增大,對系統(tǒng)各方面的要求也越來越高,該系統(tǒng)的成本也越來越高了。語音識別系統(tǒng)只是要為你在開車的時候利用語音進(jìn)行電話撥號,那它只要能聽懂十個數(shù)字就可以了,屬于小詞匯量語音識別系統(tǒng)。如果它是為你自動訂飛機票,那么它就應(yīng)該還會認(rèn)識地名、時間等字和詞,這屬于中等詞匯量語音識別系統(tǒng)。如果它是為一個記者把口述的一篇報告轉(zhuǎn)換成為文字,那它的詞匯量就必須很大才能勝任這樣的工作,這屬于大詞匯量語音識別系統(tǒng)[2]。
2.4 嵌入式/服務(wù)器模式
嵌入式是將語言識別軟件及模型寫在設(shè)備(如手機)的存儲器里,識別過程在終端完成。在服務(wù)器模式,終端只負(fù)責(zé)收集和傳導(dǎo)語音信號,由服務(wù)器負(fù)責(zé)完成識別。因此,對于大規(guī)模、多用戶和有大量識別需求的系統(tǒng),服務(wù)器模式提供了有效的方式。同時服務(wù)器方式對最終用戶的知識需求甚少,系統(tǒng)的更新、升級和管理方便、有效,可由運營商負(fù)責(zé),而嵌入式則在很大程度上受終端設(shè)備資源所限。
3 語音識別的幾種基本方法
當(dāng)今語音識別技術(shù)的主流算法,主要有傳統(tǒng)的基于動態(tài)時間規(guī)整(Dynamic Time Warping,DTW)算法、基于非參數(shù)模型的矢量量化(VectorQuantization,VQ)方法、基于參數(shù)模型的隱馬爾可夫模型(Hidden Markov Models,HMM)的方法和基于人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,, ANN)等語音識別方法[3]。
4 語音識別系統(tǒng)的結(jié)構(gòu)[4]
語音系統(tǒng)基本構(gòu)造,如圖1所示,系統(tǒng)可以分為前端處理和后端處理。前端處理包括語音的錄入、處理、特征值的提取,后端是個夸數(shù)據(jù)庫的搜索過程,,分為訓(xùn)練和識別。訓(xùn)練是對所建的模型進(jìn)行評估、匹配、優(yōu)化,獲得模型參數(shù)。識別是一個專用的搜索數(shù)據(jù)庫,獲取前端數(shù)值后,在聲學(xué)模型、一個語言模型和一個字典。聲學(xué)模型表示一種語言的發(fā)音聲音,可以通過訓(xùn)練來識別特定用戶的語音模型和發(fā)音環(huán)境的特征。語言模型是對語料庫單詞規(guī)則化的概率模型。字典列出了大量的單詞及發(fā)音規(guī)則??傮w上說,語音識別是一個模式識別匹配的過程,在這個過程中,計算機首先要根據(jù)人的語音特點建立語音模型,對輸入的語音信號進(jìn)行分析,并抽取所需的特征,在此基礎(chǔ)上建立語音識別所需的模板。然后,在識別過程中,計算機根據(jù)語音識別的整體模型,將計算機中已經(jīng)存有的語音模板與輸入語音信號的特征進(jìn)行比較,并根據(jù)一定的搜索和匹配策略找出一系列最優(yōu)的與輸入語音匹配的模板。最后通過查表和判決算法給出識別結(jié)果。顯然識別結(jié)果與語音特征的選擇、語音模型和語言模型的好壞、模板是否準(zhǔn)確等都有直接的關(guān)系。
5 語音識別尚未解決的問題及值得研究的方向
5.1 就算法模型方面而言,需要有進(jìn)一步的突破。
聲學(xué)模型和語言模型是聽寫識別的基礎(chǔ)。目前,使用的語言模型只是一種概率模型,還沒有用到以語言學(xué)為基礎(chǔ)的文法模型,而要使計算機確實理解人類的語言,就必須在這一點上取得進(jìn)展。
5.2 語音識別的自適應(yīng)性也有待進(jìn)一步改進(jìn)
同一個音節(jié)或單詞的語音不僅隨著講話者的不同而變化,而且對同一個講話者在不同場合、不同上下文環(huán)境中也會發(fā)生變化,這意味著對語言模型的進(jìn)一步改進(jìn)。
5.3 語音識別技術(shù)還需要能排除各種環(huán)境因素的影響
對語音識別效果影響最大的就是環(huán)境雜音或噪音。要在嘈雜環(huán)境中使用語音識別技術(shù)必須有特殊的抗噪麥克風(fēng)才能進(jìn)行,這對多數(shù)用戶來說是不現(xiàn)實的。在公共場合,對于語音識別技術(shù)能清除環(huán)境嗓音并從中獲取所需要的特定聲音,是一項艱巨的任務(wù)。
參考文獻(xiàn)
[1]柳春.語音識別技術(shù)研究進(jìn)展[J].甘肅科技2008,24(9):41-43.
[2]朱淑鑫,謝忠紅.淺談?wù)Z音識別技術(shù)的應(yīng)用及發(fā)展[J].長春理工大學(xué)學(xué)報(高教版),2009,4(2):64-65.
[3]趙力.語音信號處理[M].北京:機械工業(yè)出版社,2003.
[4]崔文迪,黃關(guān)維.語音識別綜述[J].福建電腦,2008,(1):28-29.
福建省積極推進(jìn)科普惠農(nóng)服務(wù)站建設(shè)
近日,福建省科協(xié)和省財政廳聯(lián)合下發(fā)了《關(guān)于加強福建省科普惠農(nóng)服務(wù)站建設(shè)的意見》(以下簡稱《意見》),旨在更好地調(diào)動福建省社會力量實施《全民科學(xué)素質(zhì)行動計劃綱要》,強化農(nóng)村科普基層組織建設(shè),提升科協(xié)的農(nóng)村科普服務(wù)能力和水平,逐步完善并延伸農(nóng)村科普服務(wù)鏈,促進(jìn)海峽西岸經(jīng)濟(jì)區(qū)社會主義新農(nóng)村建設(shè)。
《意見》 指出,福建省科協(xié)系統(tǒng)和財政部門將通力協(xié)作、密切配合,本著“科協(xié)統(tǒng)籌、財政支持、基層建站;立足科普、服務(wù)農(nóng)民;集成資源、形成合力;因地制宜、多方探索” 的原則,力爭在2010年底前,推動全省獲得國家級和省級科普惠農(nóng)興村計劃表彰獎勵的單位和個人建成科普惠農(nóng)服務(wù)站,并帶動有條件的專業(yè)技術(shù)協(xié)會、專業(yè)合作組織和行政村等建設(shè)科普惠農(nóng)服務(wù)站,形成覆蓋全省的科普工作組織網(wǎng)絡(luò)。
《意見》中詳細(xì)規(guī)定了科普惠農(nóng)服務(wù)站的場地、設(shè)施、標(biāo)牌、隊伍、制度、載體等標(biāo)準(zhǔn),明確了“科協(xié)組織主要負(fù)責(zé)科普惠農(nóng)服務(wù)站的建設(shè)、運行和管理,財政部門主要負(fù)責(zé)為科普惠農(nóng)服務(wù)站的建設(shè)和運行提供資金和項目支持”的工作機制和各級科協(xié)組織的任務(wù)和職責(zé)。
《意見》要求縣級科協(xié)組織必須建設(shè)科普惠農(nóng)服務(wù)總站,選聘各科普惠農(nóng)服務(wù)站負(fù)責(zé)人,鼓勵在地方特色產(chǎn)業(yè)中建設(shè)科普惠農(nóng)服務(wù)站,積極指導(dǎo)和支持科普惠農(nóng)服務(wù)站的建設(shè)和管理,努力形成覆蓋面廣、運轉(zhuǎn)流暢、聯(lián)系緊密、長效運作的科普惠農(nóng)服務(wù)站建設(shè)機制。