摘 要:利用語音傳遞信息是人類最常用,最方便,最快捷的一種方式。人類最常用的傳遞信息的方式就是聲音,隨著現(xiàn)代信息化時代的不斷發(fā)展,人們更加深入的研究語音信號的處理技術,并且由于語音的特殊作用及其重要性,還有其對人們生活的不斷深入的影響,使得其十分受關注。語音識別技術就是將說話人的語言轉(zhuǎn)變?yōu)橛嬎銠C可以聽懂的語言,語音識別技術的涉及面極廣,它涉及到多個學術領域,如計算機科學、語言學、神經(jīng)生理學、信號處理以及人工智能等。
關鍵詞:語音識別過程;動態(tài)時間規(guī)整;隱馬爾科夫模型;人工神經(jīng)網(wǎng)絡;語音識別的應用
中圖分類號:TN912.34
1 語音識別技術基本原理及過程介紹
語音識別系統(tǒng)由語音信號預處理、特征提取、模式匹配三部分構(gòu)成。第一步預處理,主要有A/D變換、預加重和端點檢測部分。經(jīng)過預處理之后的語音信號,要進行第二步特征提取,該過程就是在原始語音信號中提取出所需要的特征參數(shù),從而得到特征矢量序列,特征提取完成后,接下來就是語音識別的核心,也就是第三步模式匹配,也就是模式識別。系統(tǒng)框圖如下[1]。
圖1 一般語音識別系統(tǒng)框圖
2 語音識別方法
目前,主要的語音識別方法主要有特征參數(shù)匹配法、隱馬爾可夫法和人工神經(jīng)網(wǎng)絡法。
2.1 動態(tài)時間規(guī)整
動態(tài)時間規(guī)整(DTW)是早期的模式匹配方法。由于語音信號是一種隨機性非常大的信號,例如相同的字,不同人說時的發(fā)音會不同,時間長短也會不同,即便是同一個人說相同的語句,發(fā)音結(jié)果也會不同,于是,在模式匹配時,要識別字詞的時間軸將不斷扭曲,以測試模板與參考模板對齊。DTW是一個比較典型的優(yōu)化問題,它用滿足一定條件的時間規(guī)整函數(shù)W(n)描述測試模板和參考模板的時間對應關系,求解兩模板匹配時累計距離最小所對應的規(guī)整函數(shù)。動態(tài)時間規(guī)整也存在一些問題,它的計算量大,比較適合同一個人說話語音的識別,而且不能對樣本做動態(tài)訓練,語音信號的時序動態(tài)特性并沒有很好地利用,所以DTW多用于孤立字詞的識別。
2.2 隱馬爾可夫模型
隱馬爾可夫模型(HMM)是一種統(tǒng)計模型,用來描述隨機過程的統(tǒng)計特性。它是由馬爾可夫鏈演變來的。[2]
HMM可用三元組表示:λ=(π,A,B)
A:狀態(tài)轉(zhuǎn)移概率的集合。
B:觀察概率的集合,表示每個狀態(tài)輸出相應觀察值的概率。
π:系統(tǒng)初始狀態(tài)的集合。
這三個元素π,A,B可以分為由π、A描述的Markov鏈和由B描述的隨機過程。
HMM是一種理想的語音信號模型,如今,連續(xù)語音識別,非特定人識別系統(tǒng)大多是基于HMM模型的。HMM是對語音序列的時間序列結(jié)構(gòu)建立統(tǒng)計模型的,HMM是數(shù)學上的雙重隨機過程:一個是具有有限狀態(tài)數(shù)的Markov鏈來模擬語音信號統(tǒng)計特性變化的隱含的隨機過程,另一個是與Markov鏈的每一個狀態(tài)相關聯(lián)的觀測序列的隨機過程[3]。
盡管馬爾可夫模型是一種理想的語音信號模型,但是它還有很多不足。HMM有三個不現(xiàn)實的重要假設,假設一“狀態(tài)轉(zhuǎn)移的Markov假設”:系統(tǒng)在當前時刻的狀態(tài)向下一時刻所處的狀態(tài)轉(zhuǎn)移的狀態(tài)轉(zhuǎn)移概率僅僅與當前時刻的狀態(tài)有關,而與以前的狀態(tài)無關。假設二“不動性假設”:狀態(tài)與具體時間無關。假設三“輸出值的Markov假設”:輸出僅與當前狀態(tài)有關。這三個假設之所以不合理,是因為任一時刻出現(xiàn)的觀測值的概率不僅是依賴于系統(tǒng)當前所處的狀態(tài),也可能依賴于系統(tǒng)之前時刻所處的狀態(tài)[4]。
2.3 人工神經(jīng)網(wǎng)絡
人工神經(jīng)網(wǎng)絡(ANN)是在模擬人腦神經(jīng)組織的基礎上發(fā)展起來的全新計算機系統(tǒng)。ANN是模擬人類思維中“信息的處理是通過神經(jīng)元之間同時相互作用的動態(tài)過程來完成思維”。ANN是一種非線性動力學系統(tǒng),它的特點在于信息的分布式儲存和并行協(xié)同處理。單個神經(jīng)元的結(jié)構(gòu)簡單,但是大量的神經(jīng)元所構(gòu)成的神經(jīng)網(wǎng)絡卻是一種復雜的網(wǎng)絡。ANN更接近于人的認知過程。人工神經(jīng)網(wǎng)絡也存在一些不足,它的訓練、識別時間較長、動態(tài)時間規(guī)整能力較弱并且不容易實現(xiàn)。
3 語音識別的應用和前景
如今的科技領域,幾乎每天都有新的技術,新的研究成果出現(xiàn),而語音識別也是這科技研究的一熱門領域,也應用到了人類生活的方方面面。
語音識別的應用非常廣泛,語音輸入技術的出現(xiàn),可以使人們通過說話,而非手動輸入來作出正確的響應,這樣使輸入變的更加簡單,提高了工作學習的效率。語音識別技術可以應用于汽車,可以使駕駛員用語音指令操縱車載設備,提高汽車駕駛的安全性和舒適性。將語音識別、語言理解與大量的數(shù)據(jù)庫檢索和查詢技術相結(jié)合,就能夠?qū)崿F(xiàn)更輕松的信息查詢方式。比如,圖書館的資料信息將能夠?qū)碜杂脩舻恼Z音輸入進行理解,并將它轉(zhuǎn)化為相應的指令,從數(shù)據(jù)庫中獲取結(jié)果并返回給用戶。這種技術同樣可以運用于銀行服務、醫(yī)療服務等方面。語音識別技術還可以應用于口語翻譯,例如,可以讓與聾啞人對話的對方帶上一個智能語音識別的微型攝像裝置,或者給聾啞人帶上一種特制的手套,然后,就可以通過語音合成技術和語音識別技術將手語翻譯成聲音語言,同時,系統(tǒng)還能夠完成將正常人的語言翻譯成聾啞人的手語,這種口語翻譯一種語音輸入翻譯為另一種語言的語音輸出。除此之外,語音識別在軍事,航空等領域也有廣闊的應用空間。語音識別將不斷發(fā)展,不斷豐富人類的生活。
參考文獻:
[1]趙力.語音信號處理第2版[M].北京.機械工程出版社,2009(05).
[2]何彥斌,楊志義,馬薈.一種基于HMM的場景識別方法[J].計算機科學,2011(04):254-256.
[3]呂云芳,基于模板匹配法的語音識別系統(tǒng)研究與基本實現(xiàn)[D].天津:河北工業(yè)大學,2005.
[4]劉云中,林亞平,陳治平.基于隱馬爾可夫模型的文本信息抽取[J].系統(tǒng)仿真學報,2004(03):507-510.
作者簡介:張珠瑾(1994-),女,河南濮陽人,本科生,研究方向:計算機科學與技術。
作者單位:鄭州大學,鄭州 450000