亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        深度學(xué)習(xí)在語音識別中的應(yīng)用綜述

        2020-01-26 05:49:34王家龍冬梅
        電腦知識與技術(shù) 2020年34期
        關(guān)鍵詞:語音識別深度學(xué)習(xí)

        王家 龍冬梅

        摘要:深度學(xué)習(xí)已經(jīng)逐漸成為語音識別領(lǐng)域重要的技術(shù)手段,有著廣闊的應(yīng)用前景,開展語音識別技術(shù)研究對推動自然語言處理及人工智能的發(fā)展具有重要的理論價值和現(xiàn)實意義。文中對深度學(xué)習(xí)在語音識別中的應(yīng)用給予綜述。介紹近年來深度學(xué)習(xí)在語音識別領(lǐng)域取得的研究成果,探討了傳統(tǒng)語音識別模型與現(xiàn)在的深度學(xué)習(xí)模型之間的關(guān)聯(lián),對深度學(xué)習(xí)在語音識別領(lǐng)域中的發(fā)展趨勢進行分析,指出了深度學(xué)習(xí)模型需要吸收傳統(tǒng)語音識別模型中處理語音的思想,從而能夠更好地構(gòu)建基于深度學(xué)習(xí)模型的語音識別系統(tǒng)。

        關(guān)鍵詞:語音識別;深度學(xué)習(xí);LAS

        中圖分類號: TP181 ? ? ? ?文獻標(biāo)識碼:A

        文章編號:1009-3044(2020)34-0191-02

        引言

        隨著語音識別系統(tǒng)廣泛應(yīng)用于移動設(shè)備、智能家居等眾多領(lǐng)域,同時國內(nèi)外的語音識別的商業(yè)產(chǎn)品層出不窮,例如科大訊飛的語記,百度的小度,谷歌語音助手,蘋果siri等。而語音識別領(lǐng)域的迅速發(fā)展離不開深度學(xué)習(xí)模型在語言識別領(lǐng)域的應(yīng)用,本文研究目標(biāo)是深度學(xué)習(xí)模型在語音識別領(lǐng)域的應(yīng)用及其發(fā)展趨勢,通過研究揭示深度學(xué)習(xí)與傳統(tǒng)語音識別技術(shù)的關(guān)系,探索深度學(xué)習(xí)技術(shù)在語音識別領(lǐng)域的主要研究方向和手段,比較每個方向的優(yōu)點與局限。

        傳統(tǒng)的語音識別模型結(jié)構(gòu)復(fù)雜并且需要占用大量的計算和存儲資源,使得語音識別系統(tǒng)難以進入普通人的生活,但是隨著深度學(xué)習(xí)被引入到語音識別領(lǐng)域,使得訓(xùn)練模型的復(fù)雜度大大下降,甚至可以將一個深度學(xué)習(xí)的語音識別模型裝入到移動設(shè)備中,如谷歌語音助手模型的大小為80M。深度學(xué)習(xí)推動了語音識別技術(shù)在人們?nèi)粘I钪械膽?yīng)用。接下來介紹深度學(xué)習(xí)中的一些關(guān)鍵模型。

        1 深度學(xué)習(xí)

        循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN),又名時間遞歸神經(jīng)網(wǎng)絡(luò)[1]是最早應(yīng)用于語音識別[2]和手寫字識別[3],并且取得了顯著效果,RNN主要用于解決輸入數(shù)據(jù)的類型為序列,并且輸出數(shù)據(jù)同為序列類型的機器學(xué)習(xí)問題。RNN在發(fā)展的過程中也出現(xiàn)了各種改進模型,如長短時記憶網(wǎng)絡(luò)(LSTM),GRU,雙向RNN等模型,這些模型也被應(yīng)用到語音識別中,并且在不同應(yīng)用中取得了不錯的效果。

        卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)是一種特殊的深層前饋網(wǎng)絡(luò)。CNN模型主要包含輸入層、卷積層、池化層、全連接層以及輸出層[4]。CNN最先應(yīng)用于圖像識別領(lǐng)域,隨著深度學(xué)習(xí)與語音識別的融合,CNN也被應(yīng)用到語音識別中,它被作為語音特征提取的過濾器,CNN與RNN相比更有利于并行計算。通過多卷積層的使用,能夠讓CNN在語音識別過程中獲取整段語音輸入后再給出輸出,這使得CNN與RNN擁有了相同的獲取上下文信息的能力。CNN通過池化層解決音頻輸入的數(shù)據(jù)量大并且重復(fù)率高的問題,池化層能夠讓多個相近的語音合并為一個輸出信號,從而減少了語音識別過程的計算量大的問題。

        注意力機制是一種算法,它被應(yīng)用在深度學(xué)習(xí)的模型中,通過注意力機制能夠計算事物的部分在整體中的重要程度。它可以單獨應(yīng)用到深度學(xué)習(xí)模型中,通過計算概率分布,從而確定輸入數(shù)據(jù)權(quán)重的分配,讓輸入的數(shù)據(jù)更有利于模型的訓(xùn)練。

        自注意力機制(self-attention)是注意力機制的改進,其減少了對外部信息的依賴,更擅長捕捉數(shù)據(jù)或特征的內(nèi)部相關(guān)性,并且具有和RNN相同的獲取上下文信息的能力,近年來自注意力機制的逐漸取代了RNN被廣泛地應(yīng)用與語言識別領(lǐng)域,因為自注意力機制具有并行計算的能力,能夠大大加速語音識別模型的訓(xùn)練,而RNN不能進行并行計算。

        2 語音識別技術(shù)

        傳統(tǒng)語音識別模型多數(shù)采用隱馬爾科夫高斯混合模型(HMM-GMM)[5],建立在似然和概率的理論基礎(chǔ)之上。傳統(tǒng)語音識別模型在前端語音預(yù)處理階段需要使用語音信號和數(shù)字模型的關(guān)系,需要使用抽樣語音信號的組合來預(yù)測信號,需要使用線性預(yù)測的分析方法。由于不同語言,不同性別,不同的年齡的人的發(fā)音不同,造成語音信息提取的復(fù)雜性,使得傳統(tǒng)語音識別中預(yù)處理模型難以適應(yīng)這些不同場景。

        深度學(xué)習(xí)可以充分利用特征之間的關(guān)聯(lián)性,將連續(xù)幀的語音特征合并后進行訓(xùn)練,使語音識別系統(tǒng)的識別率大幅度提高[6]。圖1所示為傳統(tǒng)語音識別模型的結(jié)構(gòu),傳統(tǒng)語音識別結(jié)構(gòu)較為復(fù)雜,由多個不同的組件組成。

        在深度學(xué)習(xí)與語音識別結(jié)合的初期,研究人員將深度學(xué)習(xí)模型加入圖1的結(jié)構(gòu)中,使用深度學(xué)習(xí)模型來優(yōu)化語音識別的數(shù)據(jù),如Tandem的方法用來在前端語音預(yù)處理之后加入深度學(xué)習(xí)模型,使得輸出的特征值更有利于語音解碼階段的處理。這種方法不破壞原有的語音識別模型。

        接下來,研究人員嘗試用將深度學(xué)習(xí)模型融入已有的組件中,如DNN-HMM Hybrid方法使用深度學(xué)習(xí)模型來取代HMM中的GMM結(jié)構(gòu),將深度學(xué)習(xí)模型與語言解碼組件進行結(jié)合。

        再后來,研究人員嘗試用深度學(xué)習(xí)模型取代傳統(tǒng)語音識別模型的組件,如使用深度學(xué)習(xí)模型來實現(xiàn)傳統(tǒng)語音識別中的語音模型,以及使用深度學(xué)習(xí)模型來實現(xiàn)語言模型。

        最后,深度學(xué)習(xí)模型被用來取代整個語音識別模型,如后文所提到的LAS結(jié)構(gòu),這種嘗試還在研究階段還有很多未解決的問題需要研究人員繼續(xù)研究。

        3 深度學(xué)習(xí)模型在語音識別中的應(yīng)用

        本節(jié)將介紹深度學(xué)習(xí)在語音識別中,具有里程碑意義的一些模型結(jié)構(gòu),討論它們的優(yōu)缺點。

        Connectionist Temporal Classification (CTC)為基于神經(jīng)網(wǎng)絡(luò)的時序類分類模型。CTC可以實現(xiàn)在線學(xué)習(xí),即當(dāng)接收到語音輸入后,它不用等待整個語音片段的全部輸入就能夠得到相應(yīng)的輸出,在傳統(tǒng)語音識別系統(tǒng)中聲學(xué)模型訓(xùn)練屬于監(jiān)督學(xué)習(xí),需要知道每一幀語音的輸入對應(yīng)的標(biāo)注的輸出,才能進行有效的訓(xùn)練,訓(xùn)練數(shù)據(jù)準(zhǔn)備階段必須將語音與標(biāo)注進行對齊,而要將語音的每一個輸入和輸出進行對應(yīng)是很難完成的任務(wù),但是對于一個序列數(shù)據(jù)就比較容易判斷出對應(yīng)的標(biāo)注發(fā)音。CTC模型解決了逐一對應(yīng)的問題,該方法只需要一個輸入序列和一個輸出序列即可以訓(xùn)練。CTC采用在標(biāo)注符號集合中加入了一個空白符號,然后利用RNN進行標(biāo)注,最后把空白符號和預(yù)測出的重復(fù)符號消除,如圖2為CTC模型的結(jié)構(gòu),深度學(xué)習(xí)模型使用RNN,并且通過線性分類模型進行文本的輸出。

        CTC有兩點優(yōu)點:第一是不需要將數(shù)據(jù)和標(biāo)注進行逐一對齊;第二是CTC直接輸出序列預(yù)測的概率,不需要進行額外的處理。

        第二個模型是RNN Transducer (RNN-T)結(jié)構(gòu),該模型提供了語言模型建模能力,能夠?qū)⒄Z音模型與語言模型進行聯(lián)合優(yōu)化,便于實現(xiàn)在線語音識別。

        RNN-T模型的深度學(xué)習(xí)模型有兩個部分構(gòu)成,一個RNN結(jié)構(gòu)實現(xiàn)聲學(xué)模型的結(jié)構(gòu),另一個RNN實現(xiàn)語言模型的結(jié)構(gòu)。RNN-T模型將傳統(tǒng)HMM中的語言模型與聲學(xué)模型整合在一起,利用深度學(xué)習(xí)對兩個模型進行同時訓(xùn)練優(yōu)化,從而減輕了模型訓(xùn)練的難度。如圖3所示,RNN-T在輸入數(shù)據(jù)時通過聲學(xué)模型輸出的結(jié)果并不是一一對應(yīng)的,而是一個輸入結(jié)果可以有多個輸出結(jié)果,輸出結(jié)果的多少由語言模型來控制。

        第三個模型為Listen,Attend,and Spell (LAS),它是完全使用深度學(xué)習(xí)模型將語音轉(zhuǎn)換成字符的模型結(jié)構(gòu)。LAS并不是在傳統(tǒng)的DNN-HMM模型之上應(yīng)用深度學(xué)習(xí),而是完全使用深度學(xué)習(xí)模型來實現(xiàn)語音識別。LAS系統(tǒng)有三個組件:一個編碼器相當(dāng)于encode,Attend(注意力機制)和一個解碼器相當(dāng)于decode。Listener是接受音頻作為輸入,通過深度學(xué)習(xí)模型如RNN來提取高級的特征信號;注意力機制抽取出特征,在進行解碼之前,能夠獲取上下文與當(dāng)前特征的關(guān)聯(lián)信息,speller也是一個深度學(xué)習(xí)模型構(gòu)成,可以使用self-attention結(jié)構(gòu),它接受Attend后的輸入特征并且輸出文字的概率分布。

        4 結(jié)語

        深度學(xué)習(xí)引入語音識別領(lǐng)域最初只是對于HMM模型中某一個部分輸出結(jié)果進行優(yōu)化,如Tandem,接著,深度學(xué)習(xí)模型被用于完成HMM模型中某一個結(jié)構(gòu)的功能,如DNN-HMM Hybrid,然后發(fā)展到使深度學(xué)習(xí)模型完成HMM核心功能結(jié)構(gòu),如CTC,最近逐漸發(fā)展到使用深度學(xué)習(xí)模型來實現(xiàn)整個語音識別結(jié)構(gòu),也就是從語音輸入直接到語言文字的輸出,如LAS。LAS是現(xiàn)在學(xué)術(shù)界研究的主要方向,但是在過程中同樣會應(yīng)用傳統(tǒng)HMM模型中的相關(guān)成果來輔助LAS模型的訓(xùn)練,提高模型的語音識別的準(zhǔn)確率。語音識別領(lǐng)域中使用深度學(xué)習(xí)模型有兩個研究方法,第一個方向是將新的深度學(xué)習(xí)模型應(yīng)用到已有的語音模型中,另一種研究方向是搭建完全由深度模型構(gòu)成的語音識別模型。

        參考文獻:

        [1] Lipton Z C.A critical review of recurrent neural networks for sequence learning[EB/OL]. (2015) [2019].https://arxiv.org/abs/1506.00019v1.

        [2] 朱小燕王昱徐偉.基于循環(huán)神經(jīng)網(wǎng)絡(luò)的語音識別模型[J].計算機學(xué)報,2001,24(2):213-218.

        [3] 張劍,屈丹,李真.基于詞向量特征的循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型[J].模式識別與人工智能,2015,28(4):299-305.

        [4] 鄭遠攀,李廣陽,李曄.深度學(xué)習(xí)在圖像識別中的應(yīng)用研究綜述[J].計算機工程與應(yīng)用,2019,55(12):20-36.

        [5] Rodríguez E,Ruíz B,García-Crespo ?,et al.Speech/speaker recognition using a HMM/GMM hybrid model[M]//Audio- and Video-based Biometric Person Authentication.Berlin,Heidelberg:Springer Berlin Heidelberg,1997:227-234.

        [6] 陳晉音,葉林輝,鄭海斌,等.面向語音識別系統(tǒng)的黑盒對抗攻擊方法[J].小型微型計算機系統(tǒng),2020,41(5):1019-1029.

        【通聯(lián)編輯:唐一東】

        猜你喜歡
        語音識別深度學(xué)習(xí)
        通話中的語音識別技術(shù)
        有體驗的學(xué)習(xí)才是有意義的學(xué)習(xí)
        電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識別研究
        MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
        大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
        深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
        基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實現(xiàn)
        軟件工程(2016年8期)2016-10-25 15:47:34
        面向移動終端的語音簽到系統(tǒng)
        農(nóng)業(yè)物聯(lián)網(wǎng)平臺手機秘書功能分析與實現(xiàn)
        基于LD3320的非特定人識別聲控?zé)粝到y(tǒng)設(shè)計
        亚洲色无码国产精品网站可下载 | 日本动态120秒免费| 99色网站| 国产亚洲中文字幕久久网| 国产精品一区二区av麻豆| 亚洲旡码a∨一区二区三区| 亚洲成a人片在线观看导航| 亚洲国产高清一区av| 中文区中文字幕免费看| 伊人久久五月丁香综合中文亚洲| 大地资源中文第3页| 国产精品熟妇视频国产偷人| 久久AⅤ无码精品色午麻豆| 亚洲一区二区三区av资源| 国产亚洲精品品视频在线 | 成人爽a毛片在线播放| 2019最新中文字幕在线观看| 欧美最猛黑人xxxxx猛交| 色窝综合网| 91九色中文视频在线观看| 国产av旡码专区亚洲av苍井空| 亚洲精品456| 亚洲综合网中文字幕在线| 女人被狂躁的高潮免费视频| 日韩少妇激情一区二区| 国产一区二区三区免费在线视频| 精品熟女视频一区二区三区国产| 18禁裸男晨勃露j毛网站| 亚洲男同志gay 片可播放| 伊人影院在线观看不卡| av免费播放网站在线| 国产乱xxⅹxx国语对白| 亚洲精品天堂av免费看| 国产免费人成视频在线观看| 真实国产精品vr专区| 国产成人v爽在线免播放观看| 亚洲视频在线视频在线视频| 中文字幕一区二区三区四区五区| 亚洲欧美日韩一区二区三区在线 | av天堂在线免费播放| 五月天激情电影|