亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于元學(xué)習(xí)的語(yǔ)音識(shí)別探究

        2019-10-15 06:44:26潘文林
        關(guān)鍵詞:語(yǔ)料語(yǔ)料庫(kù)語(yǔ)音

        王 璐,潘文林

        (云南民族大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,昆明 650500)

        任何語(yǔ)音識(shí)別的實(shí)際應(yīng)用,高準(zhǔn)確率都是必要條件.目前,廣泛使用小規(guī)模語(yǔ)料庫(kù)來(lái)保證高準(zhǔn)確率.但對(duì)于少數(shù)族群的語(yǔ)言和方言,語(yǔ)料采集困難多、成本高,難以構(gòu)造大型語(yǔ)料庫(kù).如果使用少量語(yǔ)料即可達(dá)到高準(zhǔn)確率,將大大降低自動(dòng)語(yǔ)音識(shí)別(automatic speech recognition, ASR)的應(yīng)用成本,并得以推廣到少數(shù)族群語(yǔ)言.因此,基于小規(guī)模語(yǔ)料庫(kù)的語(yǔ)音識(shí)別已成為目前挑戰(zhàn)性的研究問(wèn)題.

        現(xiàn)有的模型學(xué)習(xí)能力弱,而人類能基于經(jīng)驗(yàn)快速掌握新事物[1].如高性能的ASR模型需要上萬(wàn)小時(shí)的語(yǔ)料[2],AlphaZero需要上百萬(wàn)次對(duì)弈學(xué)習(xí)[3],DQN及其變種算法[4]在Atari 2 600 基準(zhǔn)中需要1 800萬(wàn)幀才能達(dá)到人類平均水平[5].可見(jiàn),要大規(guī)模推廣ASR應(yīng)用,必然要提升機(jī)器學(xué)習(xí)模型的學(xué)習(xí)能力,降低數(shù)據(jù)需求和訓(xùn)練時(shí)間.

        元學(xué)習(xí)(meta learning)是模仿人類利用已有經(jīng)驗(yàn)快速學(xué)習(xí)新知識(shí)的新興機(jī)器學(xué)習(xí)研究領(lǐng)域,在強(qiáng)化學(xué)習(xí)、圖像識(shí)別領(lǐng)域顯著地提升了模型學(xué)習(xí)能力[6].我們認(rèn)為:將元學(xué)習(xí)方法用于ASR模型,可能會(huì)提升ASR模型的學(xué)習(xí)能力,有助于解決小規(guī)模語(yǔ)料語(yǔ)音識(shí)別這一挑戰(zhàn)性問(wèn)題.ASR的基礎(chǔ)是孤立詞識(shí)別,因此,本文以提升孤立詞識(shí)別模型的學(xué)習(xí)能力為研究目標(biāo).

        1 相關(guān)工作

        1.1 語(yǔ)音識(shí)別

        ASR模型常用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN).典型方法如LiGRU-Dropout[7]、Light GRU[8]、LSTM-CNN[9]、Deep Speech 2[2]、BiLSTMs-ResNet[10]等等,其中雙向RNN取得了良好效果.Attention機(jī)制使模型可以同時(shí)識(shí)別和對(duì)齊[11-12],在各類ASR基線任務(wù)上表現(xiàn)良好[13-14].除RNN,基于CNN、LAS + Spec Augment[15]、tdnn+chain[16-17]等其它方法也在基線任務(wù)中取得良好效果.

        目前常用的基線(baseline)數(shù)據(jù)集有:LibriS-peech test-clean,詞錯(cuò)誤率(word error rate,WER)最低為 2.5%[15];LibriSpeech test-other,詞錯(cuò)誤率最低為5.8%[15];TIMIT,錯(cuò)誤率(percentage error)最低為14.2%[7];Switchboard + Hub500,錯(cuò)誤率最低為5.5%[10];WSJ eval92,錯(cuò)誤率最低為:2.32%[17];CHIME real錯(cuò)誤率最低為11.4%[18].此外,常用的中文基線數(shù)據(jù)集有RASC863[19]和THCHS-30[20].

        ASR工程技術(shù)已基本成熟.國(guó)內(nèi)已實(shí)現(xiàn)了漢語(yǔ)及其部分方言[21]、藏、彝、蒙[22]等語(yǔ)言的商用語(yǔ)音識(shí)別.國(guó)外,Google支持英、俄、西班牙、德、日、法等120 種語(yǔ)言和方言的語(yǔ)音識(shí)別.

        然而ASR尚未廣泛應(yīng)用.中國(guó)有97個(gè)漢語(yǔ)方言片[23],語(yǔ)言數(shù)量超過(guò)130種[24].世界上的語(yǔ)言數(shù)量超過(guò)5 000種.未能廣泛應(yīng)用的原因之一是高精度ASR依賴于大型語(yǔ)料庫(kù),如文獻(xiàn)[2]中使用了11 940 h的英語(yǔ)語(yǔ)料和9 400 h的普通話語(yǔ)料,文獻(xiàn)[25]中使用了約18 000 h的英語(yǔ)語(yǔ)料.

        是否能使用更少的語(yǔ)料實(shí)現(xiàn)語(yǔ)音識(shí)別呢?此前已有一些低資源(非大語(yǔ)料)語(yǔ)音識(shí)別的相關(guān)研究.如Chan等人的研究表明低資源語(yǔ)音識(shí)別中CNN的表現(xiàn)較好[26],Cai等提出SPM(Stochastic Pooling Maxout)方法[27]用于低資源語(yǔ)音識(shí)別.Yu等[28]使用DBLSTM+CTC模型對(duì)呂蘇語(yǔ)、土家語(yǔ)上取得了不錯(cuò)的識(shí)別精度,此外Yu等[29]還建立端到端的遷移學(xué)習(xí)模型以提升土家語(yǔ)的識(shí)別率,并表明少數(shù)族群的語(yǔ)料庫(kù)構(gòu)建更困難.

        大型語(yǔ)料庫(kù)構(gòu)建成本高,而小型語(yǔ)料庫(kù)則難以達(dá)到高準(zhǔn)確率.小規(guī)模語(yǔ)料庫(kù)語(yǔ)音識(shí)別這一挑戰(zhàn)性問(wèn)題是廣泛推廣ASR的關(guān)鍵.

        1.2 元學(xué)習(xí)

        元學(xué)習(xí)(meta learning),或?qū)W習(xí)學(xué)習(xí)(learning to learn),是一門系統(tǒng)地觀察不同機(jī)器學(xué)習(xí)方法如何在廣泛的學(xué)習(xí)任務(wù)中執(zhí)行的科學(xué),然后從獲得的經(jīng)驗(yàn)或元數(shù)據(jù)中學(xué)習(xí).從而比其他方法更快速地學(xué)習(xí)新任務(wù)[30].元學(xué)習(xí)本是認(rèn)知心理學(xué)中非正式古老概念,近年才成為機(jī)器學(xué)習(xí)的正式概念.

        元學(xué)習(xí)更多地關(guān)注提升神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力.對(duì)于神經(jīng)網(wǎng)絡(luò),其擬合能力已被證明,如Cybenko等[31]針對(duì)前饋神經(jīng)網(wǎng)絡(luò)證明通用近似定理、Haykin等[32]針對(duì)循環(huán)神經(jīng)網(wǎng)絡(luò)證明通用近似定理等等.根據(jù)通用近似定理,兩層的前饋神經(jīng)網(wǎng)絡(luò)可以近似任意有界閉集上的任意連續(xù)函數(shù),一個(gè)完全連接的循環(huán)網(wǎng)絡(luò)是任何非線性動(dòng)力系統(tǒng)的近似器[33]. 但這些通用近似定理并沒(méi)有給出如何找到這樣的網(wǎng)絡(luò)以及如何快速達(dá)到最佳性能.

        元學(xué)習(xí)是一個(gè)廣泛的概念,不同的研究方向使用的方法理論不同,如基于模型的方法大多可以針對(duì)性基于通用近似定理證明,但一些非神經(jīng)網(wǎng)絡(luò)新模型只有較為嚴(yán)謹(jǐn)?shù)膶?shí)驗(yàn)證明.基于優(yōu)化的研究通常基于梯度下降等優(yōu)化算法,因此如MAML等算法可以簡(jiǎn)單地看作梯度優(yōu)化算法的變種,而MAML具體地性能提升難以計(jì)算(算法性能還依賴于模型、數(shù)據(jù)與超參數(shù)).由于神經(jīng)網(wǎng)絡(luò)的可解釋性是經(jīng)典科研難題且機(jī)器學(xué)習(xí)領(lǐng)域研究日新月異,因此相關(guān)研究一般需要可復(fù)現(xiàn)的實(shí)驗(yàn)證明,而嚴(yán)謹(jǐn)?shù)睦碚撟C明則往往在其廣泛應(yīng)用后才開(kāi)始研究.

        目前,元學(xué)習(xí)已在機(jī)器人學(xué)習(xí)[40]、機(jī)器視覺(jué)[38]等領(lǐng)域有所應(yīng)用.如小樣本學(xué)習(xí)的常用基線任務(wù)Mini-ImageNet 1-Shot Learning正確率已達(dá)62.86%[41-42](小樣本學(xué)習(xí)中,常用N-shotK-way來(lái)指代N樣本K分類問(wèn)題,如1-shot意為每類僅提供1個(gè)訓(xùn)練樣本,稱為單樣本學(xué)習(xí)或一次學(xué)習(xí)).

        一種元學(xué)習(xí)問(wèn)題的定義[34]:

        θ*=arg minθED~p(D)[lθ(D)].

        (1)

        即:通過(guò)優(yōu)化參數(shù)θ來(lái)降低數(shù)據(jù)集分布p(D)中的期望學(xué)習(xí)成本.

        元學(xué)習(xí)實(shí)驗(yàn)一般分為2步:元學(xué)習(xí)和學(xué)習(xí),其等價(jià)描述為元訓(xùn)練和元測(cè)試.元訓(xùn)練為學(xué)習(xí)不同任務(wù)中包含的元知識(shí),元測(cè)試為在其他任務(wù)上測(cè)試元學(xué)習(xí)算法的能力.

        與傳統(tǒng)機(jī)器學(xué)習(xí)相比,元學(xué)習(xí)將一個(gè)數(shù)據(jù)集看作一個(gè)任務(wù)(樣本).任務(wù)中用于元訓(xùn)練的集合稱為支撐集(support set).用于元測(cè)試(meta test)的集合稱為查詢集(query set).訓(xùn)練集與測(cè)試集由多個(gè)任務(wù)組成.

        與遷移學(xué)習(xí)相比,元學(xué)習(xí)通常傾向于研究多任務(wù)中的共性,而遷移學(xué)習(xí)通常傾向于研究一項(xiàng)任務(wù)到另一任務(wù)的遷移.

        可見(jiàn)文獻(xiàn)中尚無(wú)對(duì)元學(xué)習(xí)語(yǔ)音識(shí)別的研究.要將某一元學(xué)習(xí)方法用于語(yǔ)音識(shí)別,首先要驗(yàn)證元學(xué)習(xí)方法是否對(duì)其有效,即:對(duì)于語(yǔ)音信號(hào)和模型,某一方法能否提升語(yǔ)音識(shí)別模型的學(xué)習(xí)速度與泛化精度.

        基于優(yōu)化的元學(xué)習(xí)方法最有可能提升語(yǔ)音識(shí)別模型性能,其代表性算法為MAML.本文選用了MAML的一階近似算法Reptile,它所需的計(jì)算量較少.

        2 Reptile算法

        Reptile算法由OpenAI提出[43],是MAML算法[6]的一階近似,算法思想如下:

        (2)

        其元訓(xùn)練過(guò)程為迭代式(2)以從不同任務(wù)中學(xué)習(xí)元知識(shí),得到的參數(shù)θ*作為元測(cè)試中模型的初始參數(shù),用以評(píng)估該算法效果.對(duì)比用的基線算法為最廣泛應(yīng)用的神經(jīng)網(wǎng)絡(luò)參數(shù)初始化方法:隨機(jī)初始化.

        從基于優(yōu)化的角度來(lái)看,當(dāng)訓(xùn)練集、測(cè)試集為相同任務(wù)時(shí),Reptile可以看作梯度下降算法的變種,其優(yōu)化能力由經(jīng)典梯度優(yōu)化算法保證,當(dāng)訓(xùn)練集、測(cè)試集為不同任務(wù)時(shí),其學(xué)習(xí)目標(biāo)為學(xué)習(xí)元知識(shí).

        Reptile的算法思想可以描述為:尋找一組參數(shù),它到所有任務(wù)上最優(yōu)參數(shù)的距離最短.

        3 基于Reptile的孤立詞識(shí)別

        3.1 實(shí)驗(yàn)描述

        優(yōu)化目標(biāo):?jiǎn)螛颖竟铝⒃~二分類問(wèn)題.單樣本學(xué)習(xí)是最能衡量學(xué)習(xí)能力的問(wèn)題,孤立詞識(shí)別(分類)是語(yǔ)音識(shí)別中最基本的問(wèn)題,二分類是分類中最基本的問(wèn)題.因此,要衡量某一元學(xué)習(xí)方法是否能提升語(yǔ)音識(shí)別模型的學(xué)習(xí)能力,最典型的實(shí)驗(yàn)就是單樣本孤立詞二分類問(wèn)題.值得一提的是:連續(xù)語(yǔ)音識(shí)別問(wèn)題中模型較為復(fù)雜,影響因素多,可見(jiàn)文獻(xiàn)中尚無(wú)可用的小樣本連續(xù)語(yǔ)音識(shí)別方案.

        對(duì)比目標(biāo):針對(duì)同一數(shù)據(jù)集,在同一超參數(shù)、模型下訓(xùn)練,對(duì)比使用θ*與當(dāng)前通用方法初始化參數(shù)的優(yōu)化效果,若使用θ*可以取得更好的優(yōu)化過(guò)程與結(jié)果,則說(shuō)明使用Reptile算法得出的模型學(xué)習(xí)能力更強(qiáng).

        數(shù)據(jù)集:佤語(yǔ)是典型的由于語(yǔ)料庫(kù)較小而無(wú)法實(shí)現(xiàn)ASR的語(yǔ)言之一,在佤語(yǔ)語(yǔ)料上進(jìn)行實(shí)驗(yàn)以說(shuō)明Reptile等元學(xué)習(xí)方法可以提升佤語(yǔ)語(yǔ)音識(shí)別模型的學(xué)習(xí)能力.此外,還使用了TIMIT英語(yǔ)語(yǔ)料庫(kù)再次實(shí)驗(yàn),更充分地說(shuō)明該算法在語(yǔ)音識(shí)別上的通用性.

        模型:對(duì)于二分類孤立詞識(shí)別問(wèn)題,小型神經(jīng)網(wǎng)絡(luò)應(yīng)該可以取得較好效果.

        性能比較:訓(xùn)練模型到驗(yàn)證損失不再下降,測(cè)試正確率越高、驗(yàn)證損失越低,代表泛化性能越強(qiáng).

        學(xué)習(xí)速度比較.達(dá)到最高泛化精度的訓(xùn)練輪數(shù),輪數(shù)越小則其學(xué)習(xí)速度越快.

        此外,正確率與損失曲線越平滑,在不同數(shù)據(jù)下變化越小,說(shuō)明模型穩(wěn)定性越好.

        3.2 數(shù)據(jù)集

        3.2.1 佤語(yǔ)孤立詞數(shù)據(jù)集

        對(duì)于每個(gè)任務(wù),隨機(jī)取1個(gè)樣本作支撐集,20個(gè)樣本作查詢集,部分類別的詞不足20個(gè),則取訓(xùn)練樣本外的全部.

        3.2.2 TIMIT孤立詞數(shù)據(jù)集

        對(duì)于每個(gè)任務(wù),隨機(jī)取1個(gè)樣本作支撐集, 20個(gè)樣本作查詢集,不足同上法.

        3.3 模型

        四層卷積+一層全連接.其中每個(gè)卷積層由64個(gè)步長(zhǎng)2的3×3卷積核構(gòu)成,對(duì)卷積結(jié)果進(jìn)行批量正則化后,使用Relu函數(shù)激活.全連接層由1個(gè)神經(jīng)元構(gòu)成,激活函數(shù)為Sigmoid.模型輸入為語(yǔ)譜圖(大小為3×64×64).

        3.4 實(shí)驗(yàn)過(guò)程

        3.4.1 元訓(xùn)練

        用于TIMIT語(yǔ)料庫(kù)的超參數(shù)設(shè)置如下:迭代次數(shù)iter=354,m=5,k=21,α=1,U=SGD(lr=0.01).每類樣本數(shù)N=1,即1-shot2-way任務(wù).用此參數(shù)迭代公式(2) 相應(yīng)獲得模型參數(shù)θ*.

        用于佤語(yǔ)語(yǔ)料庫(kù)的超參數(shù)設(shè)置如下:迭代次數(shù)iter=1 000,m=5,k=15,α=1,U=SGD(lr=0.01).每類樣本數(shù)N=1,即1-shot2-way任務(wù).用此參數(shù)迭代公式(2)獲得相應(yīng)模型參數(shù)θ*.

        使用網(wǎng)格搜索或群體智能搜索來(lái)尋找超參數(shù)通常能夠獲得更好的泛化精度.如果能在較為任意的超參數(shù)下仍能取得較好地實(shí)驗(yàn)效果,更能反應(yīng)Reptile算法的適用性與易用性.因此,上述超參數(shù)為任意給出,只經(jīng)過(guò)簡(jiǎn)單調(diào)優(yōu).

        3.4.2 元測(cè)試

        分別使用Reptile獲得的參數(shù)θ*與隨機(jī)初始化的參數(shù)訓(xùn)練模型.隨機(jī)參數(shù)初始化方法為random uniform,偏置為全零初始化.

        隨機(jī)抽取任務(wù)測(cè)試10次,每次都使用相同的任務(wù)、模型、超參數(shù).

        3.5 實(shí)驗(yàn)結(jié)果

        3.5.1 TIMIT孤立詞數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果

        圖中的陰影部分為隨機(jī)10次實(shí)驗(yàn)的數(shù)據(jù)分布.可以明顯看出多次實(shí)驗(yàn)中Reptile方法收斂快、測(cè)試正確率更高.在300輪訓(xùn)練后,Random方法開(kāi)始過(guò)擬合(測(cè)試損失增加).相比于佤語(yǔ)數(shù)據(jù)集,TIMIT更早地開(kāi)始過(guò)擬合,這可能是由于TIMIT發(fā)音人更多(630人)造成的.

        此外,Reptile方法的曲線更平滑,說(shuō)明Reptile方法獲得參數(shù)的損失函數(shù)空間更平滑,更易優(yōu)化.

        3.5.2 佤語(yǔ)孤立詞數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果

        模型性能:對(duì)于同一模型,使用Reptile方法的測(cè)試正確率為93.75%,損失更小,實(shí)驗(yàn)中未發(fā)生過(guò)擬合.而隨機(jī)初始化的模型性能更差,并在600輪處開(kāi)始過(guò)擬合.

        學(xué)習(xí)速度:Reptile方法使模型收斂的速度更快.僅2輪正確率就達(dá)到了90%,30輪達(dá)到93%,并在170輪后穩(wěn)定于93.75%附近.而隨機(jī)初始化則需要近200輪,且正確率由波動(dòng),400輪后穩(wěn)定于89.5%附近.

        4 結(jié)語(yǔ)

        相比于圍棋中理想、完美的信息,現(xiàn)實(shí)世界如語(yǔ)音識(shí)別領(lǐng)域要處理的信息通常不具備這一條件.要廣泛地應(yīng)用語(yǔ)音識(shí)別,就要在小規(guī)模語(yǔ)料庫(kù)上達(dá)到高準(zhǔn)確率.本文認(rèn)為,研究基于元學(xué)習(xí)的語(yǔ)音識(shí)別,是解決小規(guī)模語(yǔ)料庫(kù)的語(yǔ)音識(shí)別這一挑戰(zhàn)性研究問(wèn)題的有效途徑.本文在單樣本孤立詞語(yǔ)音識(shí)別任務(wù)上,首次使用元學(xué)習(xí)方法Reptile提升了模型學(xué)習(xí)能力,模型從多個(gè)不同的小規(guī)模任務(wù)上習(xí)得元知識(shí),使模型對(duì)目標(biāo)任務(wù)的收斂速度與泛化精度得到了提高.

        猜你喜歡
        語(yǔ)料語(yǔ)料庫(kù)語(yǔ)音
        《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
        魔力語(yǔ)音
        基于MATLAB的語(yǔ)音信號(hào)處理
        電子制作(2019年14期)2019-08-20 05:43:38
        基于MQ3與MP3的價(jià)廉物美的酒駕語(yǔ)音提醒器
        電子制作(2019年9期)2019-05-30 09:42:10
        對(duì)方正在輸入……
        把課文的優(yōu)美表達(dá)存進(jìn)語(yǔ)料庫(kù)
        基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
        華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
        基于JAVAEE的維吾爾中介語(yǔ)語(yǔ)料庫(kù)開(kāi)發(fā)與實(shí)現(xiàn)
        《苗防備覽》中的湘西語(yǔ)料
        国产熟女精品一区二区三区| 精品国产偷窥一区二区| 亚欧中文字幕久久精品无码| 色窝窝免费播放视频在线| 最新日韩av在线不卡| 国产偷闻女邻居av在线观看| 国产欧美在线观看不卡| 奇米影视777撸吧| 91久久久久无码精品露脸| 中文字幕久久熟女人妻av免费| 精品一区中文字幕在线观看| 日本老熟妇乱| 久久青草免费视频| 国产一区不卡视频在线| av在线观看免费天堂| 亚洲精品无码久久久久牙蜜区 | 精品蜜臀国产av一区二区| 亚洲av成人综合网成人| 色八区人妻在线视频免费| 国产精品99精品一区二区三区∴| 蜜桃视频成年人在线观看| 国产玉足榨精视频在线观看| 男人扒开女人下面狂躁小视频 | 少妇特殊按摩高潮不断| 一区二区三区激情免费视频| 色777狠狠狠综合| 国产成人综合久久精品推| 天堂视频一区二区免费在线观看| 45岁妇女草逼视频播放| 久久国产精品久久久久久| 国产免费一区二区三区最新不卡| 蜜桃激情视频一区二区| 少妇久久久久久被弄高潮| 欧美性猛交xxxx乱大交丰满| 淫妇日韩中文字幕在线| 国产老熟女精品一区二区| 欧美放荡的少妇| 97精品国产91久久久久久久| 日韩激情视频一区在线观看| 三级做a全过程在线观看| 久久精品日韩av无码|