亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        深度學(xué)習(xí)在語(yǔ)音識(shí)別聲學(xué)建模中的應(yīng)用

        2018-11-01 05:19:12楊洋汪毓鐸
        電腦知識(shí)與技術(shù) 2018年18期
        關(guān)鍵詞:深度學(xué)習(xí)

        楊洋 汪毓鐸

        摘要:目前人工智能時(shí)代已經(jīng)到來(lái),自動(dòng)語(yǔ)音識(shí)別技術(shù)無(wú)疑是最好的人機(jī)交互方式之一。深度學(xué)習(xí)憑借其強(qiáng)大的建模能力在語(yǔ)音識(shí)別領(lǐng)域得到廣泛使用。首先對(duì)深度學(xué)習(xí)進(jìn)行簡(jiǎn)介;其次重點(diǎn)介紹了幾種主流深度學(xué)習(xí)聲學(xué)模型的研究現(xiàn)狀;最后總結(jié)了語(yǔ)音識(shí)別領(lǐng)域直到現(xiàn)在仍存在的問(wèn)題以及未來(lái)的可能研究方向。

        關(guān)鍵詞:人機(jī)交互;深度學(xué)習(xí);聲學(xué)建模;語(yǔ)音識(shí)別

        中圖分類號(hào):TN912 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)18-0190-03

        Application of Deep Learning in Acoustic Modeling of Speech Recognition

        YANG Yang,WANG Yu-duo

        (School of Information and Communication Engineering, Beijing Information Science and Technology University, Beijing 100101, China)

        Abstract: At present, the era of artificial intelligence has come. Automatic speech recognition technology is undoubtedly one of the best human-computer interaction methods. Deep learning is widely used in the field of speech recognition for its powerful modeling capabilities. Firstly, this article introduces the deep learning. Secondly, it mainly introduces the research status of several mainstream deep learning acoustic models. Finally, it summarizes the problems that still exist in the field of speech recognition and the possible research directions in the future.

        Key words:Human–Computer Interaction;Deep learning;Acoustic modeling;Speech Recognition

        1 引言

        人與機(jī)器之間最理想的交流方式就是語(yǔ)音,語(yǔ)音識(shí)別是實(shí)現(xiàn)機(jī)器智能化的關(guān)鍵技術(shù)。語(yǔ)音信號(hào)具有復(fù)雜性、隨機(jī)性以及非平穩(wěn)的性質(zhì)。由于語(yǔ)音識(shí)別的某些理論一直存在一定的假設(shè),導(dǎo)致很長(zhǎng)一段時(shí)間語(yǔ)音識(shí)別的研究都停滯不前,不能很好地適用于復(fù)雜多變的場(chǎng)景。為了解決語(yǔ)音識(shí)別的瓶頸問(wèn)題需要引入一些新的方法。2006年,深度學(xué)習(xí)理論成功應(yīng)用在機(jī)器學(xué)習(xí)中,由此研究人員開(kāi)始將深度學(xué)習(xí)用于語(yǔ)音識(shí)別。深度網(wǎng)絡(luò)能提取語(yǔ)音信號(hào)中更高層次的抽象特征,能對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行有效的建模。基于深度學(xué)習(xí)的聲學(xué)模型相比于傳統(tǒng)的基于高斯混合模型—隱馬爾可夫模型(Gaussian Mixture Model – Hidden Markov Model, GMM-HMM)語(yǔ)音識(shí)別系統(tǒng),在性能上有很大的提高,語(yǔ)音識(shí)別率有質(zhì)的飛躍,其逐漸成為語(yǔ)音識(shí)別主流的聲學(xué)模型。

        2 深度學(xué)習(xí)簡(jiǎn)介

        深度學(xué)習(xí)是人工神經(jīng)網(wǎng)絡(luò)(Artificial neural networks,ANN)的延伸和拓展,截至目前,其已經(jīng)成為機(jī)器學(xué)習(xí)的一個(gè)重要分支。從本質(zhì)上來(lái)說(shuō)深度學(xué)習(xí)就是訓(xùn)練深層次神經(jīng)網(wǎng)絡(luò)模型的一種機(jī)器學(xué)習(xí)算法。普遍認(rèn)為,深層結(jié)構(gòu)學(xué)習(xí)算法正式發(fā)端于2006年,以Hinton 等人提出的深度信念網(wǎng)絡(luò)( deep belief network,DBN) 為標(biāo)志。一般來(lái)說(shuō),其基本過(guò)程包括兩個(gè)階段:

        1) 預(yù)訓(xùn)練( pre-training)階段,即特征學(xué)習(xí)階段,就是利用受限波爾茲曼機(jī)進(jìn)行自底向上的逐層非監(jiān)督學(xué)習(xí),非監(jiān)督學(xué)習(xí)一般都是采用無(wú)標(biāo)簽數(shù)據(jù)去訓(xùn)練每一層,然后將每一層的訓(xùn)練輸出作為其高一層的輸入。

        2) 微調(diào)階段,按照誤差反向傳播算法(back propagation,BP)利用有標(biāo)簽的數(shù)據(jù)自頂向下對(duì)所有層的權(quán)值和偏置進(jìn)行微小的調(diào)整。

        由于深度學(xué)習(xí)在進(jìn)行特征學(xué)習(xí)時(shí)是通過(guò)學(xué)習(xí)無(wú)標(biāo)簽的數(shù)據(jù)來(lái)對(duì)網(wǎng)絡(luò)進(jìn)行初始化的,而不是隨機(jī)初始化,因此,深度神經(jīng)網(wǎng)絡(luò)的權(quán)值以及偏置初值更接近全局最優(yōu)值,與傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)相比,其學(xué)習(xí)算法效果更好。深度學(xué)習(xí)方法發(fā)展至今,已經(jīng)形成了一系列的有監(jiān)督和無(wú)監(jiān)督的特征學(xué)習(xí)算法、層次概率模型以及神經(jīng)網(wǎng)絡(luò)[1]。一般來(lái)說(shuō),我們把深層結(jié)構(gòu)學(xué)習(xí)算法模型分為兩類:

        (1)無(wú)監(jiān)督學(xué)習(xí)的生成式模型,這種深度模型可以在數(shù)據(jù)沒(méi)有目標(biāo)類標(biāo)簽信息的情況下學(xué)習(xí)到數(shù)據(jù)更具有表征能力的抽象特征,這類神經(jīng)網(wǎng)絡(luò)一般包括受限玻爾茲曼機(jī)(Restricted Boltzmann Machine,RBM)、深度置信網(wǎng)絡(luò)、自編碼器(Automatic Encoder,AE)等。RBM具有兩層結(jié)構(gòu),包括一層可視層和一層隱含層,其中層間節(jié)點(diǎn)可以相互連接,層內(nèi)節(jié)點(diǎn)無(wú)連接。由多個(gè)RBM堆疊就可以構(gòu)造出一個(gè)深度置信網(wǎng)絡(luò)。自動(dòng)編碼器只包含一個(gè)隱層,它的顯著特點(diǎn)就是輸出與輸入接近相同,一般需要RBM進(jìn)行預(yù)訓(xùn)練。

        (2)有監(jiān)督學(xué)習(xí)的判別式模型,這種深度模型一般針對(duì)的是有目標(biāo)類標(biāo)簽的數(shù)據(jù),它具有對(duì)數(shù)據(jù)進(jìn)行模式分類的判別能力。這類模型主要有循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN),卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN),以及長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)和雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)。RNN能夠利用信號(hào)中的時(shí)間依賴性提取數(shù)據(jù)特征,是一種具有記憶性的模型,它在傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò)中加入了反饋連接。CNN是根據(jù)貓視覺(jué)系統(tǒng)的感受野神經(jīng)機(jī)制提出來(lái)的,具有局部連接、共享權(quán)值的特點(diǎn)。就神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)來(lái)說(shuō),它與其他神經(jīng)網(wǎng)絡(luò)的不同之處在于隱層包含卷積層和池化層,并在圖像識(shí)別與分類、目標(biāo)定位等領(lǐng)域得到廣泛使用。LSTM和雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)是基于RNN提出來(lái)的一種改進(jìn)深度學(xué)習(xí)模型,能夠克服傳統(tǒng)RNN在經(jīng)過(guò)較多的時(shí)間步驟以后出現(xiàn)的梯度消失問(wèn)題,其已成功應(yīng)用在了語(yǔ)音識(shí)別、文字識(shí)別等領(lǐng)域。

        3 深度學(xué)習(xí)在聲學(xué)建模中的研究現(xiàn)狀

        語(yǔ)音識(shí)別流程如圖1所示。語(yǔ)音識(shí)別過(guò)程首先需要對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行分幀、預(yù)加重、端點(diǎn)檢測(cè)等預(yù)處理操作,接著提取語(yǔ)音數(shù)據(jù)的聲學(xué)特征,然后用提取到的聲學(xué)特征參數(shù)去訓(xùn)練聲學(xué)模型;語(yǔ)言模型通常是利用文本形式的語(yǔ)料(如人民日?qǐng)?bào))訓(xùn)練而得,從語(yǔ)料中學(xué)習(xí)當(dāng)前詞序列出現(xiàn)的可能性,簡(jiǎn)單來(lái)說(shuō)語(yǔ)言模型的作用就是把一個(gè)詞序列組合為一句符合人們使用規(guī)范的語(yǔ)句;解碼搜索是構(gòu)建一個(gè)狀態(tài)空間,利用聲學(xué)模型得分和語(yǔ)言模型得分,采用維特比算法將總體分?jǐn)?shù)最高的詞序列作為最終的識(shí)別結(jié)果。

        目前深度學(xué)習(xí)已經(jīng)成功應(yīng)用在了音素識(shí)別、聲韻母識(shí)別、孤立詞識(shí)別以及大詞匯量語(yǔ)音識(shí)別中。具體到語(yǔ)音識(shí)別的流程中,深度學(xué)習(xí)主要應(yīng)用在提取更加抽象的高層聲學(xué)特征以及對(duì)現(xiàn)有隱馬爾可夫聲學(xué)模型的構(gòu)建進(jìn)行加強(qiáng)。下文主要對(duì)深度學(xué)習(xí)在聲學(xué)建模中的發(fā)展現(xiàn)狀進(jìn)行闡述。

        2009年,文獻(xiàn)[2]基于TIMIT數(shù)據(jù)庫(kù)將深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)首次用于聲學(xué)建模進(jìn)行語(yǔ)音識(shí)別,系統(tǒng)性能有很大提升。文獻(xiàn)[3]基于RM語(yǔ)音庫(kù)進(jìn)行DNN-HMM聲學(xué)建模,識(shí)別正確率要比GMM-HMM聲學(xué)模型提高了30%。文獻(xiàn)[4]提出了一種基于DAE-HMM的聲學(xué)模型構(gòu)建方法,實(shí)驗(yàn)結(jié)果表明,對(duì)于具有不同信噪比的小詞匯孤立詞語(yǔ)音識(shí)別系統(tǒng),DAE具有良好的抗噪聲性能。

        對(duì)于RNN,文獻(xiàn)[5]最早提出將聲學(xué)模型中的GMM用RNN來(lái)代替,并且在TIMIT語(yǔ)音數(shù)據(jù)庫(kù)中取得了較好的結(jié)果。采用雙向LSTM做語(yǔ)音識(shí)別相比于DNN能獲得了20%的性能提升。為了進(jìn)一步簡(jiǎn)化語(yǔ)音識(shí)別的流程,從語(yǔ)音數(shù)據(jù)的輸入到最后的文字串識(shí)別結(jié)果的輸出,只有一個(gè)深度神經(jīng)網(wǎng)絡(luò)模型,不再需要其他的模型,實(shí)現(xiàn)端到端的語(yǔ)音識(shí)別, Graves等提出一種新的聲學(xué)模型將連接時(shí)序分類技術(shù)(Connectionist Temporal Classification,CTC)和LSTM結(jié)合[6],將語(yǔ)音識(shí)別問(wèn)題表述成語(yǔ)音特征序列與其對(duì)應(yīng)的音素序列之間的序列轉(zhuǎn)換問(wèn)題。文獻(xiàn)[7]研究藏語(yǔ)的語(yǔ)音識(shí)別時(shí)將CTC與雙向LSTM結(jié)合,語(yǔ)音識(shí)別率提升了2.93%。

        CNN在時(shí)域和頻域上能夠?qū)崿F(xiàn)卷積運(yùn)算的平移不變性,因此在用于聲學(xué)建模時(shí)能夠克服語(yǔ)音信號(hào)的多樣性。CNN,LSTM和DNN在建模能力上是互補(bǔ)的,因?yàn)镃NN在減少頻率變化方面很出色,LSTM擅長(zhǎng)時(shí)間建模,而DNN適合將特征映射到更加可分離的空間。文獻(xiàn)[8]利用CNN,LSTM和DNN的互補(bǔ)性將它們組合成一個(gè)統(tǒng)一的CLDNN體系結(jié)構(gòu),與單類型的深度學(xué)習(xí)聲學(xué)模型相比,語(yǔ)音識(shí)別系統(tǒng)性能有很大改善。文獻(xiàn)[9]提出的非常深的CNN體系結(jié)構(gòu)可以顯著降低噪聲魯棒語(yǔ)音識(shí)別的詞錯(cuò)率。目前,微軟、百度、科大訊飛等公司提出自己的Deep CNN模型,語(yǔ)音識(shí)別取得巨大突破。百度公司采用VGGNET以及包括Residual的Deep CNN等模型,結(jié)合LSTM和CTC的端到端語(yǔ)音識(shí)別技術(shù),使得系統(tǒng)有10%的相對(duì)性能改善。

        大量的研究工作表明,為了獲得語(yǔ)音識(shí)別中較低的詞錯(cuò)率,以及能夠較好地適用于各種復(fù)雜的實(shí)際應(yīng)用場(chǎng)景,用深層次的神經(jīng)網(wǎng)絡(luò)替換傳統(tǒng)聲學(xué)模型中的GMM部分是非??扇〉?,也是非常成功的。

        4 結(jié)束語(yǔ)

        目前基于深度學(xué)習(xí)的語(yǔ)音識(shí)別器在發(fā)音規(guī)范且相對(duì)安靜的環(huán)境下,識(shí)別率已經(jīng)很高了,而且已經(jīng)可以實(shí)用化了,比如阿里巴巴的天貓精靈產(chǎn)品、蘋(píng)果的Siri系統(tǒng)等。但是在復(fù)雜噪聲干擾、發(fā)音不規(guī)范、方言、說(shuō)話不連貫存在較長(zhǎng)時(shí)間的停頓時(shí)以及遠(yuǎn)場(chǎng)情況下,基于深度學(xué)習(xí)的語(yǔ)音識(shí)別技術(shù)的識(shí)別率會(huì)急劇下降。目前還沒(méi)有一個(gè)系統(tǒng)的語(yǔ)音識(shí)別技術(shù)去解決這些復(fù)雜條件下語(yǔ)音識(shí)別存在的問(wèn)題。而且語(yǔ)音識(shí)別領(lǐng)域仍然存在的一個(gè)嚴(yán)峻問(wèn)題是缺少大規(guī)模的語(yǔ)音數(shù)據(jù)(比如幾十萬(wàn)小時(shí)的語(yǔ)音)去進(jìn)行深度學(xué)習(xí)聲學(xué)模型的訓(xùn)練,以得到足夠的魯棒性。

        對(duì)于未來(lái)的語(yǔ)音識(shí)別研究方向,研究者應(yīng)該關(guān)注于如何讓機(jī)器去盡可能地模仿人腦機(jī)制去識(shí)別語(yǔ)音,以應(yīng)對(duì)復(fù)雜環(huán)境下識(shí)別正確率的迅速降低。而且由于目前基于深度學(xué)習(xí)成熟的識(shí)別語(yǔ)音技術(shù)在整個(gè)識(shí)別過(guò)程中需要較多煩瑣的步驟,例如要獨(dú)立訓(xùn)練聲學(xué)模型和聲學(xué)模型,然后送到解碼網(wǎng)絡(luò)中進(jìn)行解碼,所以基于深度學(xué)習(xí)的端到端的語(yǔ)音識(shí)別技術(shù)在未來(lái)是一個(gè)值得研究的方向。

        參考文獻(xiàn):

        [1] 鄧力, 俞棟. 深度學(xué)習(xí): 方法及應(yīng)用[M]. 機(jī)械工業(yè)出版社, 2016.

        [2] Mohamed A, Dahl G, Hinton G. Deep belief networks for phone recognition[C]//Nips Workshop on Deep Learning for Speech Recognition and Related Application.Whistler, BC, Canda:MIT Press, 2009:39.

        [3] 李晉徽, 楊俊安, 王一. 一種新的基于瓶頸深度信念網(wǎng)絡(luò)的特征提取方法及其在語(yǔ)種識(shí)別中的應(yīng)用[J]. 計(jì)算機(jī)科學(xué), 2014, 41(3):263-266.

        [4] 黃麗霞, 王亞楠, 張雪英,等. 基于深度自編碼網(wǎng)絡(luò)語(yǔ)音識(shí)別噪聲魯棒性研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2017, 53(13):49-54.

        [5] Graves A, Mohamed A R, Hinton G. Speech Recognition with Deep Recurrent Neural Networks[J]. 2013, 38(2003):6645-6649.

        [6] Graves A, Jaitly N. Towards end-to-end speech recognition with recurrent neural networks[C]// International Conference on Machine Learning. 2014:1764-1772.

        [7] 王慶楠, 郭武, 解傳棟. 基于端到端技術(shù)的藏語(yǔ)語(yǔ)音識(shí)別[J]. 模式識(shí)別與人工智能, 2017, 30(4):359-364.

        [8] Sainath T N, Vinyals O, Senior A, et al. Convolutional, Long Short-Term Memory, fully connected Deep Neural Networks[C]// IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2015:4580-4584.

        [9] Qian Y, Bi M, Tan T, et al. Very Deep Convolutional Neural Networks for Noise Robust Speech Recognition[J]. IEEE/ACM Transactions on Audio Speech & Language Processing, 2016, 24(12):2263-2276.

        猜你喜歡
        深度學(xué)習(xí)
        從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
        面向大數(shù)據(jù)遠(yuǎn)程開(kāi)放實(shí)驗(yàn)平臺(tái)構(gòu)建研究
        基于自動(dòng)智能分類器的圖書(shū)館亂架圖書(shū)檢測(cè)
        搭建深度學(xué)習(xí)的三級(jí)階梯
        有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
        電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
        利用網(wǎng)絡(luò)技術(shù)促進(jìn)學(xué)生深度學(xué)習(xí)的幾大策略
        考試周刊(2016年94期)2016-12-12 12:15:04
        MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
        大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
        深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
        日产精品一区二区三区| 在线观看精品视频网站| 女女女女bbbbbb毛片在线| 亚洲综合五月天欧美| 蜜桃激情视频一区二区| 色欲色香天天天综合网www| 亚洲国产成人无码av在线影院| 久草视频国产| 自拍视频在线观看成人| 国产av久久在线观看| 伊人久久大香线蕉综合影院首页 | 国内免费AV网站在线观看| 一区二区三区午夜视频在线观看| 免费在线亚洲视频观看| 无码熟妇人妻av影音先锋| 精品一区二区久久久久久久网站| 欧美日韩国产另类在线观看| 国产一区二区三区成人av| 国产精品亚洲婷婷99久久精品 | 无码中文字幕av免费放| 侵犯了美丽丰满人妻中文字幕| 人妻少妇久久中文字幕| 国产精品久久久久久人妻精品| 亚洲国产精品综合福利专区| 精品国产乱子伦一区二区三| 亚洲美女毛多水多免费视频| 无人区一码二码三码四码区 | 久久精品视频日本免费| 永久亚洲成a人片777777| 亚洲 欧美 影音先锋| 亚洲中文字幕不卡无码| 少妇太爽了在线观看免费| 精品亚洲成a人片在线观看 | 国产精品自在线拍国产手机版| 亚洲AV伊人久久综合密臀性色| 日本熟妇免费一区二区三区| 亚洲av午夜精品无码专区| 男女野外做爰电影免费| 国产精品白浆免费观看| 黄污在线观看一区二区三区三州| 天天鲁一鲁摸一摸爽一爽|