亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

語音識別技術的過程和應用

2014-01-01 00:00:00張珠瑾王劍宇

計算機光盤軟件與應用 2014年6期

摘要：利用語音傳遞信息是人類最常用，最方便，最快捷的一種方式。人類最常用的傳遞信息的方式就是聲音，隨著現(xiàn)代信息化時代的不斷發(fā)展，人們更加深入的研究語音信號的處理技術，并且由于語音的特殊作用及其重要性，還有其對人們生活的不斷深入的影響，使得其十分受關注。語音識別技術就是將說話人的語言轉(zhuǎn)變?yōu)橛嬎銠C可以聽懂的語言，語音識別技術的涉及面極廣，它涉及到多個學術領域，如計算機科學、語言學、神經(jīng)生理學、信號處理以及人工智能等。

關鍵詞：語音識別過程；動態(tài)時間規(guī)整；隱馬爾科夫模型；人工神經(jīng)網(wǎng)絡；語音識別的應用

中圖分類號：TN912.34

1 語音識別技術基本原理及過程介紹

語音識別系統(tǒng)由語音信號預處理、特征提取、模式匹配三部分構(gòu)成。第一步預處理，主要有A/D變換、預加重和端點檢測部分。經(jīng)過預處理之后的語音信號，要進行第二步特征提取，該過程就是在原始語音信號中提取出所需要的特征參數(shù)，從而得到特征矢量序列，特征提取完成后，接下來就是語音識別的核心，也就是第三步模式匹配，也就是模式識別。系統(tǒng)框圖如下[1]。

圖1 一般語音識別系統(tǒng)框圖

2 語音識別方法

目前，主要的語音識別方法主要有特征參數(shù)匹配法、隱馬爾可夫法和人工神經(jīng)網(wǎng)絡法。

2.1 動態(tài)時間規(guī)整

動態(tài)時間規(guī)整（DTW）是早期的模式匹配方法。由于語音信號是一種隨機性非常大的信號，例如相同的字，不同人說時的發(fā)音會不同，時間長短也會不同，即便是同一個人說相同的語句，發(fā)音結(jié)果也會不同，于是，在模式匹配時，要識別字詞的時間軸將不斷扭曲，以測試模板與參考模板對齊。DTW是一個比較典型的優(yōu)化問題，它用滿足一定條件的時間規(guī)整函數(shù)W（n）描述測試模板和參考模板的時間對應關系，求解兩模板匹配時累計距離最小所對應的規(guī)整函數(shù)。動態(tài)時間規(guī)整也存在一些問題，它的計算量大，比較適合同一個人說話語音的識別，而且不能對樣本做動態(tài)訓練，語音信號的時序動態(tài)特性并沒有很好地利用，所以DTW多用于孤立字詞的識別。

2.2 隱馬爾可夫模型

隱馬爾可夫模型（HMM）是一種統(tǒng)計模型，用來描述隨機過程的統(tǒng)計特性。它是由馬爾可夫鏈演變來的。[2]

HMM可用三元組表示：λ=（π，A，B）

A：狀態(tài)轉(zhuǎn)移概率的集合。

B：觀察概率的集合，表示每個狀態(tài)輸出相應觀察值的概率。

π：系統(tǒng)初始狀態(tài)的集合。

這三個元素π，A，B可以分為由π、A描述的Markov鏈和由B描述的隨機過程。

HMM是一種理想的語音信號模型，如今，連續(xù)語音識別，非特定人識別系統(tǒng)大多是基于HMM模型的。HMM是對語音序列的時間序列結(jié)構(gòu)建立統(tǒng)計模型的，HMM是數(shù)學上的雙重隨機過程：一個是具有有限狀態(tài)數(shù)的Markov鏈來模擬語音信號統(tǒng)計特性變化的隱含的隨機過程，另一個是與Markov鏈的每一個狀態(tài)相關聯(lián)的觀測序列的隨機過程[3]。

盡管馬爾可夫模型是一種理想的語音信號模型，但是它還有很多不足。HMM有三個不現(xiàn)實的重要假設，假設一“狀態(tài)轉(zhuǎn)移的Markov假設”：系統(tǒng)在當前時刻的狀態(tài)向下一時刻所處的狀態(tài)轉(zhuǎn)移的狀態(tài)轉(zhuǎn)移概率僅僅與當前時刻的狀態(tài)有關，而與以前的狀態(tài)無關。假設二“不動性假設”：狀態(tài)與具體時間無關。假設三“輸出值的Markov假設”：輸出僅與當前狀態(tài)有關。這三個假設之所以不合理，是因為任一時刻出現(xiàn)的觀測值的概率不僅是依賴于系統(tǒng)當前所處的狀態(tài)，也可能依賴于系統(tǒng)之前時刻所處的狀態(tài)[4]。

2.3 人工神經(jīng)網(wǎng)絡

人工神經(jīng)網(wǎng)絡（ANN）是在模擬人腦神經(jīng)組織的基礎上發(fā)展起來的全新計算機系統(tǒng)。ANN是模擬人類思維中“信息的處理是通過神經(jīng)元之間同時相互作用的動態(tài)過程來完成思維”。ANN是一種非線性動力學系統(tǒng)，它的特點在于信息的分布式儲存和并行協(xié)同處理。單個神經(jīng)元的結(jié)構(gòu)簡單，但是大量的神經(jīng)元所構(gòu)成的神經(jīng)網(wǎng)絡卻是一種復雜的網(wǎng)絡。ANN更接近于人的認知過程。人工神經(jīng)網(wǎng)絡也存在一些不足，它的訓練、識別時間較長、動態(tài)時間規(guī)整能力較弱并且不容易實現(xiàn)。

3 語音識別的應用和前景

如今的科技領域，幾乎每天都有新的技術，新的研究成果出現(xiàn)，而語音識別也是這科技研究的一熱門領域，也應用到了人類生活的方方面面。

語音識別的應用非常廣泛，語音輸入技術的出現(xiàn)，可以使人們通過說話，而非手動輸入來作出正確的響應，這樣使輸入變的更加簡單，提高了工作學習的效率。語音識別技術可以應用于汽車，可以使駕駛員用語音指令操縱車載設備，提高汽車駕駛的安全性和舒適性。將語音識別、語言理解與大量的數(shù)據(jù)庫檢索和查詢技術相結(jié)合，就能夠?qū)崿F(xiàn)更輕松的信息查詢方式。比如，圖書館的資料信息將能夠?qū)碜杂脩舻恼Z音輸入進行理解，并將它轉(zhuǎn)化為相應的指令，從數(shù)據(jù)庫中獲取結(jié)果并返回給用戶。這種技術同樣可以運用于銀行服務、醫(yī)療服務等方面。語音識別技術還可以應用于口語翻譯，例如，可以讓與聾啞人對話的對方帶上一個智能語音識別的微型攝像裝置，或者給聾啞人帶上一種特制的手套，然后，就可以通過語音合成技術和語音識別技術將手語翻譯成聲音語言，同時，系統(tǒng)還能夠完成將正常人的語言翻譯成聾啞人的手語，這種口語翻譯一種語音輸入翻譯為另一種語言的語音輸出。除此之外，語音識別在軍事，航空等領域也有廣闊的應用空間。語音識別將不斷發(fā)展，不斷豐富人類的生活。

參考文獻：

[1]趙力.語音信號處理第2版[M].北京.機械工程出版社，2009（05）.

[2]何彥斌，楊志義，馬薈.一種基于HMM的場景識別方法[J].計算機科學，2011（04）：254-256.

[3]呂云芳，基于模板匹配法的語音識別系統(tǒng)研究與基本實現(xiàn)[D].天津：河北工業(yè)大學，2005.

[4]劉云中，林亞平，陳治平.基于隱馬爾可夫模型的文本信息抽取[J].系統(tǒng)仿真學報，2004（03）：507-510.

作者簡介：張珠瑾（1994-），女，河南濮陽人，本科生，研究方向：計算機科學與技術。

作者單位：鄭州大學，鄭州 450000

計算機光盤軟件與應用2014年6期

計算機光盤軟件與應用的其它文章: 網(wǎng)絡性能監(jiān)視工具—NPM; Java網(wǎng)絡編程語言的應用流程探討; 自主實驗模式在計算機組裝與維護實踐的應用思路構(gòu)建; 新時期信息管理系統(tǒng)數(shù)據(jù)訪問技術探討; 對計算機嵌入式實時操作系統(tǒng)的研究及分析; 計算機故障處理與維護方法分析