亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        淺談聲音識別模型發(fā)展趨勢

        2021-11-21 14:04:17盧林王東
        汽車實用技術(shù) 2021年12期
        關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò)深度算法

        盧林,王東

        (1.黃岡職業(yè)技術(shù)學院,湖北 黃岡 438002;2.中汽研(天津)汽車工程研究院有限公司,天津 300300)

        引言

        聲音識別技術(shù)中主要包含語音識別和環(huán)境聲音識別,語音識別的出現(xiàn)讓人類和機器的交流變得更加智能和便捷。環(huán)境聲音識別同樣也在各領(lǐng)域取得了廣泛的應(yīng)用。如基于機器聲音識別的故障診斷、基于道路交通聲音識別的輔助駕駛等。目前實現(xiàn)聲音識別的準備工作分別為特征參數(shù)的提取和構(gòu)建識別模型。近年來,為提高聲音識別準確率、識別速度,各種識別模型被提出,這項智能技術(shù)在不斷地更新進步。

        1 識別模型的發(fā)展

        1.1 動態(tài)時間規(guī)整

        在聲音識別領(lǐng)域,早期采用的是語音識別中孤立詞識別的方法,其原理是對一段輸入信號進行逐幀單獨識別,針對識別信號的長度各有不同的情況。上世紀60年代,日本學者Itakura首次動態(tài)時間規(guī)整(Dynamic Time Warping,DTW)算法應(yīng)用到語音識別領(lǐng)域[1]。在識別過程中,不能簡單的將輸入的聲音與模板直接比較,即使是同一種聲音,其信號在時間長度上也不會完全相同,直接比較會降低識別率,因此可對聲音信號進行時間規(guī)整,將待測聲音信號伸長或縮短,直到與參考模板的長度一致。DTW算法基于動態(tài)規(guī)劃(Dyna-mic Programming,DP)的思想,能夠?qū)⑤斎胄盘柕臅r長與模板的時長進行動態(tài)匹配,它也是聲音識別技術(shù)中出現(xiàn)較早的一種算法[2]。

        實驗結(jié)果證明,將DTW算法應(yīng)用到語音識別領(lǐng)域在對孤立詞識別方面確實有著較好的識別效果,但其最明顯的缺點在于這種方法實現(xiàn)需要對大量路徑及這些路徑中的所有節(jié)點進行匹配計算,從而導(dǎo)致計算量極大,隨著聲音樣本量及樣本長度的增大,其識別時間甚至將達到難以接受的程度,因此,無法直接應(yīng)用于大、中樣本量聲音識別。同時,根據(jù)其優(yōu)缺點,這種方法主要是應(yīng)用于孤立詞的識別上,對大詞匯量的連續(xù)聲音識別上其效果不太理想,所以,HMM/GMM等混合高速模型應(yīng)運而生。

        1.2 隱馬爾科夫模型

        隱馬爾科夫模型(Hidden Markov Model,HMM)是目前聲音識別中使用最普遍的統(tǒng)計模型之一。它對時間序列結(jié)構(gòu)有著較強的建模能力,它不僅能描述不平穩(wěn)聲音信號的瞬態(tài)特征,還可以跟蹤隱含在觀測序列中的動態(tài)特征。HMM是一個雙內(nèi)嵌式隨機過程,一個隨機過程用來表示隱含狀態(tài)鏈之間的轉(zhuǎn)移,另一個隨機過程用來表示隱含狀態(tài)鏈和可見狀態(tài)鏈對應(yīng)的統(tǒng)計關(guān)系[3]。

        HMM聲音識別的步驟是先對輸入的聲音信號應(yīng)用Baum-Welch算法訓練其特征參數(shù),從而使觀測序列對HMM模型的輸出概率最大化。同時應(yīng)用這種算法還可以為每個輸入的聲音信號建立HMM模型參數(shù),將所有聲音的HMM模型參數(shù)組合起來,得到系統(tǒng)HMM模板庫。然后使用Viterbi算法,將待測的聲音和模板庫進行模式匹配,搜索最優(yōu)狀態(tài)序列,并以最大后驗概率為準則獲得識別結(jié)果。

        但是HMM模型更多的反應(yīng)類別間的相似性,忽略了類別的差異性,因此具有較弱的分類能力和決策能力,同時其自適應(yīng)性和抗噪性也較差。

        1.3 高斯混合模型

        高斯混合模型(Gaussian Mixture Model,GMM)使用高斯分布作為參數(shù)模型,精確地量化事物,它是一種將事物分解為若干的基于高斯概率密度函數(shù)形成的模型[4]。GMM用M個高斯分布的線性組合來刻畫矢量的特征數(shù)據(jù)分布。

        在建模過程中,首先要初始化GMM算法,即初始化GMM模型中的協(xié)方差矩陣、均值矢量和權(quán)重,得到一個不準確的初始化高斯模型,然后通過運行迭代算法的次數(shù)來不斷縮小它的范圍,更新模型的參數(shù)值,直到收斂,最終訓練出模型的參數(shù)。GMM訓練中使用的迭代算法為最大期望算法(Expectation-Maximization algorithm,EM),EM算法可通過非完備數(shù)據(jù)集合來估計模型參數(shù),包含E-Step和MStep。其中,E-Step的功能是初始化模型,并根據(jù)給定的參數(shù)獲得似然度;M-Step的功能是重估參數(shù),利用最大似然準則使得似然度最大。重復(fù)迭代兩個步驟直到收斂,訓練出模型的參數(shù)。

        GMM的優(yōu)點是僅使用少量參數(shù)就能較好地描述對象的特征,聲學模型較小,容易移植到嵌入式平臺。但GMM的局限是計算量較大,收斂速度較慢。對異常點較為敏感,如果其中一個數(shù)據(jù)不服從正態(tài)分布,聚類算法會出現(xiàn)偏差,同時對訓練數(shù)據(jù)量的要求較高。

        1.4 支持向量機

        支持向量機(Support Vector Machine,SVM)是一種基于統(tǒng)計原理開發(fā)的常用作分類器的淺層機器學習方法之一。在聲音識別中,它可以看作是一種分類器,可以將兩種或多種樣本準確地分開,并使經(jīng)驗風險和真實風險都盡可能地小。

        SVM算法的基本思想是在不同類的數(shù)據(jù)集上尋找一個最優(yōu)決策超平面將不同類的樣本分開,并使其距離不同類的分類邊緣(平行超平面并過距離超平面最近的數(shù)據(jù)點)最大。當數(shù)據(jù)集線性可分或近似線性可分時,直接尋找最佳超平面,并使得錯分點最少。當數(shù)據(jù)集線性不可分時,SVM將樣本從原始空間映射到高維空間,使其在此空間內(nèi)線性可分,然后尋找最佳超平面將樣本集在此空間內(nèi)區(qū)分開[5]?;谶@種方法,其在解決小樣本、非線性及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢。

        SVM在中小樣本量訓練集分類問題上能夠得到比其它算法更優(yōu)的效果,且可以解決樣本維數(shù)很高的問題。但當特征數(shù)據(jù)為非線性問題時,SVM算法并沒有固定的解決方案,遇到這種情況時往往采用網(wǎng)格交叉驗證的思路來選擇最優(yōu)的核函數(shù)和其中的參數(shù)數(shù)值。此外在對大樣本數(shù)據(jù)進行訓練時其學習速度慢也是它的一個不足之處。

        1.5 人工神經(jīng)網(wǎng)絡(luò)

        人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)是自上世紀80年代以來人工智能領(lǐng)域興起的研究熱點,并迅速應(yīng)用在聲音識別、圖像識別、文本識別等領(lǐng)域。它的原理是基于生物學中神經(jīng)網(wǎng)絡(luò),在理解和抽象人腦神經(jīng)系統(tǒng)結(jié)構(gòu)和人腦神經(jīng)系統(tǒng)對外界信息反饋機制后,以網(wǎng)絡(luò)拓撲知識為理論基礎(chǔ),模擬人腦神經(jīng)網(wǎng)絡(luò)對外界信息處理機制的數(shù)學模型。ANN內(nèi)部模仿人腦神經(jīng)系統(tǒng),它由大量神經(jīng)元(節(jié)點)組成,每個節(jié)點表示一種特定的輸出函數(shù)(激活函數(shù)),然后通過節(jié)點之間不同方式的連接組成不同的網(wǎng)絡(luò),并對信息進行分布式并行處理,從而復(fù)現(xiàn)大腦神經(jīng)系統(tǒng)處理外部信號的功能。

        基于ANN的聲音識別系統(tǒng)內(nèi)部除了包含神經(jīng)元,還具有訓練算法以及網(wǎng)絡(luò)結(jié)構(gòu)兩大要素。ANN采用了多種現(xiàn)代信息技術(shù)成果,如并行處理機制、非線性信息處理機制和信息分布存貯機制等,從而達到高效率處理數(shù)據(jù)和自適應(yīng)調(diào)節(jié)的功能,其中自適應(yīng)調(diào)節(jié)功能主要表現(xiàn)在訓練過程中可以不斷調(diào)整自身的參數(shù)權(quán)值和拓撲結(jié)構(gòu),以適應(yīng)環(huán)境和系統(tǒng)性能優(yōu)化的需求[6]。在聲音識別中使用的傳統(tǒng)神經(jīng)網(wǎng)絡(luò)有BP神經(jīng)網(wǎng)絡(luò)、基于RBF神經(jīng)網(wǎng)絡(luò)等。

        神經(jīng)網(wǎng)絡(luò)方法具有聯(lián)想記憶功能和良好的容錯性、高并行性、良好的自適應(yīng)和自學習能力。然而,傳統(tǒng)神經(jīng)網(wǎng)絡(luò)也存在許多缺點,例如難以準確分析神經(jīng)網(wǎng)絡(luò)的各個指標、不適合解決必須得到正確答案的問題、體系結(jié)構(gòu)通用性差等問題。

        2 深度學習在聲音識別中的應(yīng)用

        HMM、GMM、SVM與淺層神經(jīng)網(wǎng)絡(luò)等,歸根結(jié)底都是屬于淺層機器學習模型,這些淺層結(jié)構(gòu)在處理內(nèi)部結(jié)構(gòu)不復(fù)雜,在解決約束不強的數(shù)據(jù)時通過提取相應(yīng)特征進行訓練可取得較好的效果,但是在聲音識別中若遇到信號本身結(jié)構(gòu)復(fù)雜的數(shù)據(jù)時,基于這些方法得到的訓練模型會存在數(shù)據(jù)表征能力不強的現(xiàn)象,最終的識別效果也會有所欠缺,這促使了深度學習(Deep-Learning)的誕生和其在聲音識別領(lǐng)域的快速發(fā)展。

        深度學習的概念是由神經(jīng)網(wǎng)絡(luò)大師Hinton和其學生于2006年正式提出,基于深度學習的方法在ImageNet 圖像識別大賽中屢建戰(zhàn)功。不僅在圖像識別上,后來也被延伸應(yīng)用到聲音識別領(lǐng)域,現(xiàn)已成為國際研究的新熱點。從本質(zhì)上講,深度學習是建立一個具有多個隱藏層的機器學習架構(gòu)模型,通過大規(guī)模的數(shù)據(jù)訓練,提取更具代表性的特征。與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)限制網(wǎng)絡(luò)的層數(shù)不同,深度神經(jīng)網(wǎng)絡(luò)可根據(jù)設(shè)計者的要求,選擇任意的層數(shù)。

        目前,在基于深度學習方法的聲音識別中,逐漸開發(fā)出循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)和深度置信網(wǎng)絡(luò)(Deep Belief Network,DBN)雙向長短期記憶(Bidirectional Long-Short Term Memory,LSTM)等。

        深度神經(jīng)網(wǎng)絡(luò)根據(jù)其運行原理可以接受比傳統(tǒng)神經(jīng)網(wǎng)絡(luò)大很多的輸入數(shù)據(jù)維度,并且它可以自動學習數(shù)據(jù)的特征,在聲音識別中顯著縮短了特征提取的時間,同時伴隨著計算機GPU的發(fā)展,深度神經(jīng)網(wǎng)絡(luò)的訓練時間也不斷減少,極大地提高了聲音識別的效率。

        3 聲音識別模型未來發(fā)展趨勢

        深度神經(jīng)網(wǎng)絡(luò)是傳統(tǒng)神經(jīng)網(wǎng)絡(luò)技術(shù)的極大突破,同時在大數(shù)據(jù)時代也為聲音識別模型提供了一個新的發(fā)展方向。未來聲音識別模型主要以深度神經(jīng)網(wǎng)絡(luò)聲學模型為基礎(chǔ)進行更深入地研究與改進。

        首先是對更深更復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)的開發(fā)研究,雖然以目前的計算能力,在實際聲音識別中還不能取得很好的應(yīng)用,但這是推動深度神經(jīng)網(wǎng)絡(luò)進一步發(fā)展的必然趨勢。Deep-CNN是目前聲音識別模型領(lǐng)域最主要研究的一種模型,微軟、百度、IBM公司相繼推出了自己的Deep-CNN模型,推動著神經(jīng)網(wǎng)絡(luò)向更深層發(fā)展。

        其次是混合模型的使用和改進,將不同模型結(jié)合使用,取長補短,達到更好的識別效果。已被應(yīng)用的混合模型有傳統(tǒng)的GMM-HMM模型,隨著ANN的提出,80年代晚期Morgan提出了基于ANN-HMM的混合模型。隨著近年來深度神經(jīng)網(wǎng)絡(luò)的飛速發(fā)展,基于DNN-HMM的混合模型成為了主流的算法。

        最后是粗粒度建模技術(shù)的出現(xiàn)和發(fā)展,這是近期出現(xiàn)的一種新的聲學模型技術(shù),粗粒度建模技術(shù)可以極大加快聲音識別的解碼速度,解碼速度的提升使得應(yīng)用更深和更復(fù)雜的神經(jīng)網(wǎng)絡(luò)建立聲學模型成為可能,這是提高識別速度的尖端技術(shù)之一。

        4 結(jié)語

        識別模型的建立是開展聲音識別工作中至關(guān)重要的一步,它直接關(guān)系到最終目標識別效率。識別模型從開始的動態(tài)時間規(guī)整,到隱馬爾科夫模型、高斯混合模型、人工神經(jīng)網(wǎng)絡(luò)等淺層模型的轉(zhuǎn)變,再到將深度神經(jīng)網(wǎng)絡(luò)強大的特征提取與分類能力應(yīng)用到聲音識別中。目前,基于深度神經(jīng)網(wǎng)絡(luò)的模型已經(jīng)成為了聲學建模的主流,并隨著計算機技術(shù)的發(fā)展而不斷進步。

        猜你喜歡
        神經(jīng)網(wǎng)絡(luò)深度算法
        深度理解一元一次方程
        神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        基于MapReduce的改進Eclat算法
        Travellng thg World Full—time for Rree
        深度觀察
        深度觀察
        進位加法的兩種算法
        深度觀察
        一種改進的整周模糊度去相關(guān)算法
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機控制模型建立
        重型機械(2016年1期)2016-03-01 03:42:04
        日韩精品一区二区亚洲专区| www.狠狠艹| 国产极品视觉盛宴在线观看| 天堂网av在线免费看| 国产高清av在线播放| 中文人妻av久久人妻18| 一区二区三区日本大片| 水蜜桃在线观看一区二区国产| 久久不见久久见www日本网| 国产亚洲av综合人人澡精品 | 不卡一本av天堂专区| 久久久久亚洲精品无码网址蜜桃| 91spa国产无码| 久久久婷婷综合亚洲av| 日本一区二区三区人妻| 东京热人妻无码一区二区av | 18禁无遮拦无码国产在线播放| 热99re久久精品这里都是免费| 亚洲天堂av社区久久| 亚洲免费国产中文字幕久久久 | 国产亚洲欧洲aⅴ综合一区| 毛片大全真人在线| 国产精品白浆无码流出| 久久综合伊人有码一区中文字幕| 国产av国片精品有毛| 日韩精品无码一区二区三区免费| 日本av一区二区播放| av在线播放男人天堂| 一本色道久久99一综合| 日韩无码电影| 亚洲中文字幕精品久久a| 亚洲av无码乱码在线观看裸奔| 欧美理论在线| 蜜桃色av一区二区三区麻豆| 精品国产三级a∨在线欧美| 色噜噜狠狠色综合成人网| 国产精品女同久久久久久| 东北女人一级内射黄片| 人妻丝袜无码国产一区| 国产成人综合日韩精品无| 日本系列有码字幕中文字幕|