亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

語音識別技術(shù)分析與應(yīng)用

2017-04-14 10:09:34北方民族大學(xué)電氣信息工程學(xué)院樊?；?/span>

電子世界 2017年17期

北方民族大學(xué)電氣信息工程學(xué)院樊?；?/p>

北方民族大學(xué)電氣信息工程學(xué)院樊?；?/p>

語音識別作為人機交互的重要方式，正在被人們所研究。針對語音識別的算法有很多，本文對基于HMM的語音識別聲學(xué)建模、基于深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)建模、基于統(tǒng)計模型的語音增強算法等算法做了闡述，為對語音識別作進(jìn)一步的研究做了基礎(chǔ)。

語音識別；HMM；深度神經(jīng)網(wǎng)絡(luò)；統(tǒng)計模型

1 引言

隨著移動互聯(lián)網(wǎng)的飛速發(fā)展，語音識別作為簡單快捷的人機交互方式，被人們所認(rèn)識，越來越多的研究被投入其中。隨著各種電子設(shè)備如智能手機、家用電器成為人們生活所必不可少的組成部分，人機交互變得越來越重要，而語音識別作為最方便的人機交互方式，被人們所使用。

2 語音識別技術(shù)分析

語音識別技術(shù)的應(yīng)用具體可以從貝爾實驗室首先發(fā)明的英文數(shù)字識別器開始[1]，到線性預(yù)測編碼技術(shù)和動態(tài)時間規(guī)整技術(shù)應(yīng)用于大規(guī)模連續(xù)詞語音識別，到普林斯頓大學(xué)將隱馬模型應(yīng)用到語音識別過程中，再到對于解決海量語音信息識別的基于深度學(xué)習(xí)的語音識別技術(shù)的應(yīng)用[1]。語音識別本質(zhì)上可以看做是一個序列分類的問題，聲學(xué)建?？梢钥醋鍪墙鉀Q語音特征觀察序列和狀態(tài)序列匹配的問題。

3 語音識別技術(shù)的應(yīng)用

3.1 基于HMM聲學(xué)建模

隱馬爾科夫模型是由隱馬爾科夫鏈演變而來的，用于描述隨機過程中的統(tǒng)計特性的一種方法，它的基本思想是通過一串觀測值用前驗概率計算公式估算出模型參數(shù)，在語音識別訓(xùn)練階段，訓(xùn)練的數(shù)據(jù)越多，識別結(jié)果就會越接近于實際值。馬爾科夫鏈由初始狀態(tài)、轉(zhuǎn)移矩陣、輸出狀態(tài)組成[2]，該模型的不同已知條件和不同未知條件的組合，會產(chǎn)生不同的問題。在利用隱馬科夫模型解決語音識別問題過程中，分別用到解決狀態(tài)序列解碼問題和解決模型參數(shù)估計問題，在語料庫訓(xùn)練階段，用到班姆維奇算法，推測出模型中的參數(shù)。在語音的識別階段，采用威特比算法，當(dāng)給定觀測值序列和模型參數(shù)的基礎(chǔ)上，確定最佳意義的狀態(tài)序列。該模型的缺點是當(dāng)隱馬模型較為復(fù)雜的時候，由它訓(xùn)練的參數(shù)容易收斂于局部最小值。

3.2 基于深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)建模

基于深度神經(jīng)網(wǎng)絡(luò)的建模，可以看做是基于高斯混合模型的復(fù)雜化，高斯混合模型本質(zhì)上可以看做包含一層隱含層的神經(jīng)網(wǎng)絡(luò)，隱含層節(jié)點對應(yīng)各個高斯分量，輸出層為HMM輸出狀態(tài)[3]。DNN則是包含多個隱含層的多層網(wǎng)絡(luò)，輸入語音信號經(jīng)過分解到達(dá)第一層隱含層，從聲學(xué)特征空間到達(dá)隱含層所構(gòu)造的新的特征空間，各個隱含層又相當(dāng)于下一個隱含層的輸入層，在最后一層通過softmax網(wǎng)絡(luò)后到狀態(tài)空間。DNN相當(dāng)于通過增加監(jiān)督信息來調(diào)諧網(wǎng)絡(luò)。DNN模型用于估算HMM狀態(tài)的后驗概率，網(wǎng)絡(luò)采用誤差反向傳播算法，目標(biāo)函數(shù)采用交叉熵算法表示，通過求取最優(yōu)的目標(biāo)函數(shù)來完成訓(xùn)練。DNN在很長的時間里，被人們當(dāng)做研究使用的熱點，與此同時，問題也隨之而來，在對它的多流特征融合能力的研究中，發(fā)現(xiàn)其在全局有監(jiān)督的精細(xì)調(diào)整階段是比較費時的。人工神經(jīng)網(wǎng)絡(luò)需要按照隨機梯隊下降的方法，通過誤差反向傳播算法對訓(xùn)練語音庫進(jìn)行訓(xùn)練。為了解決誤差反向傳播算法瘦臉相對緩慢的問題，提出了多GPU對DNN進(jìn)行并行訓(xùn)練。

3.3 基于統(tǒng)計模型的語音增強算法

假設(shè)語音信號和語音信號所在環(huán)境的噪聲信號的傅里葉變換系數(shù)都服從統(tǒng)一分布，這類算法估計的是語音信號幅度譜，稱為基于統(tǒng)計模型的語音增強算法。隱馬模型還可用于檢測語音停頓，對于平穩(wěn)噪聲，在整個語音發(fā)音段，可以使用EM算法計算噪聲的最大似然估計，但自適應(yīng)增益估計只有在下一語音停頓處才能獲取到，這種語音增強算法在非平穩(wěn)噪聲環(huán)境下性能會下降非?？??；诖a書的語音增強算法可以很好地克服這個問題，它引入了瞬時增益計算，在每一幀語音中，它利用了訓(xùn)練語音信號、噪聲信號的線性預(yù)測系數(shù)和帶噪語音觀測序列來計算增益函數(shù)。在基于碼書的語音增強算法中，碼書只提供線性預(yù)測的參數(shù)模型，它可以很好的適應(yīng)非平穩(wěn)噪聲環(huán)境。

3.4 基于稀疏表示的語音增強技術(shù)

在白噪聲的背景下，提出基于功率譜稀疏表示的語音增強算法。該研究方法用非負(fù)限制的接近于K奇異值分解的算法訓(xùn)練不帶噪聲的純凈語音的功率譜字典，采用LARS算法得到功率譜的稀疏表示，這種算法的終止條件通過控制噪聲的水平，到噪聲的語音信號的功率譜和用稀疏功率譜重構(gòu)的功率譜之差的范數(shù)小于規(guī)定的值，就停止算法。由稀疏表示和經(jīng)過訓(xùn)練的字典可以得到純凈語音的功率譜估計，后結(jié)合SSB-STSA方法可以完成對信號的識別。

3.5 用于視覺和視聽語音識別的級聯(lián)灰色立體視覺特征提取方法

盡管立體聲信息最近已經(jīng)廣泛應(yīng)用于計算機視覺任務(wù)，但立體視覺信息在視聽語音識別（AVSR）系統(tǒng)中的并入以及是否可以提高語音準(zhǔn)確性仍然是一個很大程度上尚未開發(fā)的領(lǐng)域。該領(lǐng)域需要解決的三個基本問題：1）立體聲功能是否有利于視覺和視聽語音識別？ 2）如果是這樣，立體聲功能嵌入了多少信息？ 3）如何在緊湊的特征向量中對平面和立體聲信息進(jìn)行編碼？基于嵌入平面和立體聲特征的不同信息，一種新的級聯(lián)混合外觀視覺特征（CHAVF）提取方案被提出，將平面和立體視覺信息成功地結(jié)合到一個緊湊的特征向量中，并且在視覺上評估這一新穎特征和視聽連接數(shù)字識別和孤立短語識別。結(jié)果表明，立體聲信息能夠顯著提升語音識別能力，提出的視覺特征的性能優(yōu)于視覺和視聽語音識別任務(wù)中其他常用的外觀視覺特征。

3.6 使用徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)的釋義識別研究

抽象是使用替代單詞對給定文本的重述。釋義的識別在問答，信息提取和多文檔摘要等應(yīng)用中至關(guān)重要。文字的詞匯，句法和語義特征可以單獨使用，也可以組合使用以識別釋義。支持向量機（SVM），最近鄰法和決策樹等機器學(xué)習(xí)分類器已經(jīng)被用于釋義識別，SVM識別器是最受歡迎的。徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)（RBFNN）被設(shè)計并實現(xiàn)用于識別釋義。該研究在微軟研究釋義語料庫上進(jìn)行了。從實驗結(jié)果可以看出，RBFNN識別器在準(zhǔn)確性方面始終優(yōu)于SVM識別器，當(dāng)使用詞匯，句法和語義特征的組合時，實現(xiàn)了最佳性能。

4 總結(jié)與展望

本文以語音特征提取和聲學(xué)建模為切入點，系統(tǒng)的闡述了幾種算法在語音識別方面的應(yīng)用，為正在研究語音識別技術(shù)的學(xué)者提供了一定的理論基礎(chǔ)。隨著大數(shù)據(jù)越來越深入人們的生活，語音識別必然會稱為實現(xiàn)人機交互、推動人工智能的關(guān)鍵技術(shù)，海量的語音數(shù)據(jù)的累積，對人腦感知機制的不斷探索與研究，未來必定會有越來越接近人腦識別語音過程的算法，語音識別技術(shù)也會越來越趨于成熟。

5 結(jié)語

近幾年，雖然語音識別技術(shù)已經(jīng)逐漸應(yīng)用于人們的日常生活中：智能家電、服務(wù)機器人、車載系統(tǒng)等，但用戶的語音識別率仍然不盡如人意，所以研究出識別效率好且精度高的算法應(yīng)用于語音識別顯得尤其重要。

[1]于俊婷,劉伍穎,易綿竹,李雪,李娜.國內(nèi)語音識別研究綜述[J].計算機光盤軟件與應(yīng)用,2014,10:76-78.

[2]于大海,孫建民.淺談?wù)Z音識別技術(shù)的應(yīng)用和發(fā)展[J].科技傳播,2009,09:22-23.

[3]吳大為.基于HMM模型改進(jìn)算法的語音識別系統(tǒng)[D].哈爾濱工業(yè)大學(xué),2013.

[4]周盼.基于深層神經(jīng)網(wǎng)絡(luò)的語音識別聲學(xué)建模研究[D].中國科學(xué)技術(shù)大學(xué),2014.

樊海花（1991—），女，山西原平人，碩士研究生。

北方民族大學(xué)創(chuàng)新項目（YCX1771）資助。