亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

淺談聲音識別模型發(fā)展趨勢

2021-11-21 14:04:17盧林王東

汽車實用技術(shù) 2021年12期

盧林，王東

（1.黃岡職業(yè)技術(shù)學院，湖北黃岡 438002；2.中汽研（天津）汽車工程研究院有限公司，天津 300300）

引言

聲音識別技術(shù)中主要包含語音識別和環(huán)境聲音識別，語音識別的出現(xiàn)讓人類和機器的交流變得更加智能和便捷。環(huán)境聲音識別同樣也在各領(lǐng)域取得了廣泛的應(yīng)用。如基于機器聲音識別的故障診斷、基于道路交通聲音識別的輔助駕駛等。目前實現(xiàn)聲音識別的準備工作分別為特征參數(shù)的提取和構(gòu)建識別模型。近年來，為提高聲音識別準確率、識別速度，各種識別模型被提出，這項智能技術(shù)在不斷地更新進步。

1 識別模型的發(fā)展

1.1 動態(tài)時間規(guī)整

在聲音識別領(lǐng)域，早期采用的是語音識別中孤立詞識別的方法，其原理是對一段輸入信號進行逐幀單獨識別，針對識別信號的長度各有不同的情況。上世紀60年代，日本學者Itakura首次動態(tài)時間規(guī)整（Dynamic Time Warping，DTW）算法應(yīng)用到語音識別領(lǐng)域[1]。在識別過程中，不能簡單的將輸入的聲音與模板直接比較，即使是同一種聲音，其信號在時間長度上也不會完全相同，直接比較會降低識別率，因此可對聲音信號進行時間規(guī)整，將待測聲音信號伸長或縮短，直到與參考模板的長度一致。DTW算法基于動態(tài)規(guī)劃（Dyna-mic Programming，DP）的思想，能夠?qū)⑤斎胄盘柕臅r長與模板的時長進行動態(tài)匹配，它也是聲音識別技術(shù)中出現(xiàn)較早的一種算法[2]。

實驗結(jié)果證明，將DTW算法應(yīng)用到語音識別領(lǐng)域在對孤立詞識別方面確實有著較好的識別效果，但其最明顯的缺點在于這種方法實現(xiàn)需要對大量路徑及這些路徑中的所有節(jié)點進行匹配計算，從而導(dǎo)致計算量極大，隨著聲音樣本量及樣本長度的增大，其識別時間甚至將達到難以接受的程度，因此，無法直接應(yīng)用于大、中樣本量聲音識別。同時，根據(jù)其優(yōu)缺點，這種方法主要是應(yīng)用于孤立詞的識別上，對大詞匯量的連續(xù)聲音識別上其效果不太理想，所以，HMM/GMM等混合高速模型應(yīng)運而生。

1.2 隱馬爾科夫模型

隱馬爾科夫模型（Hidden Markov Model，HMM）是目前聲音識別中使用最普遍的統(tǒng)計模型之一。它對時間序列結(jié)構(gòu)有著較強的建模能力，它不僅能描述不平穩(wěn)聲音信號的瞬態(tài)特征，還可以跟蹤隱含在觀測序列中的動態(tài)特征。HMM是一個雙內(nèi)嵌式隨機過程，一個隨機過程用來表示隱含狀態(tài)鏈之間的轉(zhuǎn)移，另一個隨機過程用來表示隱含狀態(tài)鏈和可見狀態(tài)鏈對應(yīng)的統(tǒng)計關(guān)系[3]。

HMM聲音識別的步驟是先對輸入的聲音信號應(yīng)用Baum-Welch算法訓練其特征參數(shù)，從而使觀測序列對HMM模型的輸出概率最大化。同時應(yīng)用這種算法還可以為每個輸入的聲音信號建立HMM模型參數(shù)，將所有聲音的HMM模型參數(shù)組合起來，得到系統(tǒng)HMM模板庫。然后使用Viterbi算法，將待測的聲音和模板庫進行模式匹配，搜索最優(yōu)狀態(tài)序列，并以最大后驗概率為準則獲得識別結(jié)果。

但是HMM模型更多的反應(yīng)類別間的相似性，忽略了類別的差異性，因此具有較弱的分類能力和決策能力，同時其自適應(yīng)性和抗噪性也較差。

1.3 高斯混合模型

高斯混合模型（Gaussian Mixture Model，GMM）使用高斯分布作為參數(shù)模型，精確地量化事物，它是一種將事物分解為若干的基于高斯概率密度函數(shù)形成的模型[4]。GMM用M個高斯分布的線性組合來刻畫矢量的特征數(shù)據(jù)分布。

在建模過程中，首先要初始化GMM算法，即初始化GMM模型中的協(xié)方差矩陣、均值矢量和權(quán)重，得到一個不準確的初始化高斯模型，然后通過運行迭代算法的次數(shù)來不斷縮小它的范圍，更新模型的參數(shù)值，直到收斂，最終訓練出模型的參數(shù)。GMM訓練中使用的迭代算法為最大期望算法（Expectation-Maximization algorithm，EM），EM算法可通過非完備數(shù)據(jù)集合來估計模型參數(shù)，包含E-Step和MStep。其中，E-Step的功能是初始化模型，并根據(jù)給定的參數(shù)獲得似然度；M-Step的功能是重估參數(shù)，利用最大似然準則使得似然度最大。重復(fù)迭代兩個步驟直到收斂，訓練出模型的參數(shù)。

GMM的優(yōu)點是僅使用少量參數(shù)就能較好地描述對象的特征，聲學模型較小，容易移植到嵌入式平臺。但GMM的局限是計算量較大，收斂速度較慢。對異常點較為敏感，如果其中一個數(shù)據(jù)不服從正態(tài)分布，聚類算法會出現(xiàn)偏差，同時對訓練數(shù)據(jù)量的要求較高。

1.4 支持向量機

支持向量機（Support Vector Machine，SVM）是一種基于統(tǒng)計原理開發(fā)的常用作分類器的淺層機器學習方法之一。在聲音識別中，它可以看作是一種分類器，可以將兩種或多種樣本準確地分開，并使經(jīng)驗風險和真實風險都盡可能地小。

SVM算法的基本思想是在不同類的數(shù)據(jù)集上尋找一個最優(yōu)決策超平面將不同類的樣本分開，并使其距離不同類的分類邊緣（平行超平面并過距離超平面最近的數(shù)據(jù)點）最大。當數(shù)據(jù)集線性可分或近似線性可分時，直接尋找最佳超平面，并使得錯分點最少。當數(shù)據(jù)集線性不可分時，SVM將樣本從原始空間映射到高維空間，使其在此空間內(nèi)線性可分，然后尋找最佳超平面將樣本集在此空間內(nèi)區(qū)分開[5]?；谶@種方法，其在解決小樣本、非線性及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢。

SVM在中小樣本量訓練集分類問題上能夠得到比其它算法更優(yōu)的效果，且可以解決樣本維數(shù)很高的問題。但當特征數(shù)據(jù)為非線性問題時，SVM算法并沒有固定的解決方案，遇到這種情況時往往采用網(wǎng)格交叉驗證的思路來選擇最優(yōu)的核函數(shù)和其中的參數(shù)數(shù)值。此外在對大樣本數(shù)據(jù)進行訓練時其學習速度慢也是它的一個不足之處。

1.5 人工神經(jīng)網(wǎng)絡(luò)

人工神經(jīng)網(wǎng)絡(luò)（Artificial Neural Network，ANN）是自上世紀80年代以來人工智能領(lǐng)域興起的研究熱點，并迅速應(yīng)用在聲音識別、圖像識別、文本識別等領(lǐng)域。它的原理是基于生物學中神經(jīng)網(wǎng)絡(luò)，在理解和抽象人腦神經(jīng)系統(tǒng)結(jié)構(gòu)和人腦神經(jīng)系統(tǒng)對外界信息反饋機制后，以網(wǎng)絡(luò)拓撲知識為理論基礎(chǔ)，模擬人腦神經(jīng)網(wǎng)絡(luò)對外界信息處理機制的數(shù)學模型。ANN內(nèi)部模仿人腦神經(jīng)系統(tǒng)，它由大量神經(jīng)元（節(jié)點）組成，每個節(jié)點表示一種特定的輸出函數(shù)（激活函數(shù)），然后通過節(jié)點之間不同方式的連接組成不同的網(wǎng)絡(luò)，并對信息進行分布式并行處理，從而復(fù)現(xiàn)大腦神經(jīng)系統(tǒng)處理外部信號的功能。

基于ANN的聲音識別系統(tǒng)內(nèi)部除了包含神經(jīng)元，還具有訓練算法以及網(wǎng)絡(luò)結(jié)構(gòu)兩大要素。ANN采用了多種現(xiàn)代信息技術(shù)成果，如并行處理機制、非線性信息處理機制和信息分布存貯機制等，從而達到高效率處理數(shù)據(jù)和自適應(yīng)調(diào)節(jié)的功能，其中自適應(yīng)調(diào)節(jié)功能主要表現(xiàn)在訓練過程中可以不斷調(diào)整自身的參數(shù)權(quán)值和拓撲結(jié)構(gòu)，以適應(yīng)環(huán)境和系統(tǒng)性能優(yōu)化的需求[6]。在聲音識別中使用的傳統(tǒng)神經(jīng)網(wǎng)絡(luò)有BP神經(jīng)網(wǎng)絡(luò)、基于RBF神經(jīng)網(wǎng)絡(luò)等。

神經(jīng)網(wǎng)絡(luò)方法具有聯(lián)想記憶功能和良好的容錯性、高并行性、良好的自適應(yīng)和自學習能力。然而，傳統(tǒng)神經(jīng)網(wǎng)絡(luò)也存在許多缺點，例如難以準確分析神經(jīng)網(wǎng)絡(luò)的各個指標、不適合解決必須得到正確答案的問題、體系結(jié)構(gòu)通用性差等問題。

2 深度學習在聲音識別中的應(yīng)用

HMM、GMM、SVM與淺層神經(jīng)網(wǎng)絡(luò)等，歸根結(jié)底都是屬于淺層機器學習模型，這些淺層結(jié)構(gòu)在處理內(nèi)部結(jié)構(gòu)不復(fù)雜，在解決約束不強的數(shù)據(jù)時通過提取相應(yīng)特征進行訓練可取得較好的效果，但是在聲音識別中若遇到信號本身結(jié)構(gòu)復(fù)雜的數(shù)據(jù)時，基于這些方法得到的訓練模型會存在數(shù)據(jù)表征能力不強的現(xiàn)象，最終的識別效果也會有所欠缺，這促使了深度學習（Deep-Learning）的誕生和其在聲音識別領(lǐng)域的快速發(fā)展。

深度學習的概念是由神經(jīng)網(wǎng)絡(luò)大師Hinton和其學生于2006年正式提出，基于深度學習的方法在ImageNet 圖像識別大賽中屢建戰(zhàn)功。不僅在圖像識別上，后來也被延伸應(yīng)用到聲音識別領(lǐng)域，現(xiàn)已成為國際研究的新熱點。從本質(zhì)上講，深度學習是建立一個具有多個隱藏層的機器學習架構(gòu)模型，通過大規(guī)模的數(shù)據(jù)訓練，提取更具代表性的特征。與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)限制網(wǎng)絡(luò)的層數(shù)不同，深度神經(jīng)網(wǎng)絡(luò)可根據(jù)設(shè)計者的要求，選擇任意的層數(shù)。

目前，在基于深度學習方法的聲音識別中，逐漸開發(fā)出循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，RNN）、卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Networks，CNN）和深度置信網(wǎng)絡(luò)（Deep Belief Network，DBN）雙向長短期記憶（Bidirectional Long-Short Term Memory，LSTM）等。

深度神經(jīng)網(wǎng)絡(luò)根據(jù)其運行原理可以接受比傳統(tǒng)神經(jīng)網(wǎng)絡(luò)大很多的輸入數(shù)據(jù)維度，并且它可以自動學習數(shù)據(jù)的特征，在聲音識別中顯著縮短了特征提取的時間，同時伴隨著計算機GPU的發(fā)展，深度神經(jīng)網(wǎng)絡(luò)的訓練時間也不斷減少，極大地提高了聲音識別的效率。

3 聲音識別模型未來發(fā)展趨勢

深度神經(jīng)網(wǎng)絡(luò)是傳統(tǒng)神經(jīng)網(wǎng)絡(luò)技術(shù)的極大突破，同時在大數(shù)據(jù)時代也為聲音識別模型提供了一個新的發(fā)展方向。未來聲音識別模型主要以深度神經(jīng)網(wǎng)絡(luò)聲學模型為基礎(chǔ)進行更深入地研究與改進。

首先是對更深更復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)的開發(fā)研究，雖然以目前的計算能力，在實際聲音識別中還不能取得很好的應(yīng)用，但這是推動深度神經(jīng)網(wǎng)絡(luò)進一步發(fā)展的必然趨勢。Deep-CNN是目前聲音識別模型領(lǐng)域最主要研究的一種模型，微軟、百度、IBM公司相繼推出了自己的Deep-CNN模型，推動著神經(jīng)網(wǎng)絡(luò)向更深層發(fā)展。

其次是混合模型的使用和改進，將不同模型結(jié)合使用，取長補短，達到更好的識別效果。已被應(yīng)用的混合模型有傳統(tǒng)的GMM-HMM模型，隨著ANN的提出，80年代晚期Morgan提出了基于ANN-HMM的混合模型。隨著近年來深度神經(jīng)網(wǎng)絡(luò)的飛速發(fā)展，基于DNN-HMM的混合模型成為了主流的算法。

最后是粗粒度建模技術(shù)的出現(xiàn)和發(fā)展，這是近期出現(xiàn)的一種新的聲學模型技術(shù)，粗粒度建模技術(shù)可以極大加快聲音識別的解碼速度，解碼速度的提升使得應(yīng)用更深和更復(fù)雜的神經(jīng)網(wǎng)絡(luò)建立聲學模型成為可能，這是提高識別速度的尖端技術(shù)之一。

4 結(jié)語

識別模型的建立是開展聲音識別工作中至關(guān)重要的一步，它直接關(guān)系到最終目標識別效率。識別模型從開始的動態(tài)時間規(guī)整，到隱馬爾科夫模型、高斯混合模型、人工神經(jīng)網(wǎng)絡(luò)等淺層模型的轉(zhuǎn)變，再到將深度神經(jīng)網(wǎng)絡(luò)強大的特征提取與分類能力應(yīng)用到聲音識別中。目前，基于深度神經(jīng)網(wǎng)絡(luò)的模型已經(jīng)成為了聲學建模的主流，并隨著計算機技術(shù)的發(fā)展而不斷進步。