亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于拼音約束聯(lián)合學(xué)習(xí)的漢語(yǔ)語(yǔ)音識(shí)別

        2022-01-01 13:11:28梁仁鳳余正濤高盛祥黃于欣郭軍軍許樹(shù)理
        中文信息學(xué)報(bào) 2022年10期
        關(guān)鍵詞:解碼器級(jí)聯(lián)集上

        梁仁鳳,余正濤,高盛祥,黃于欣,郭軍軍,許樹(shù)理

        (1. 昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500;2. 昆明理工大學(xué) 云南省人工智能重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500)

        0 引言

        自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition,ASR)是把語(yǔ)音中包含的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可理解的文本。隨著深度學(xué)習(xí)的快速發(fā)展,ASR系統(tǒng)主要分為兩類:傳統(tǒng)混合系統(tǒng)和當(dāng)前主流的端到端模型。傳統(tǒng)混合系統(tǒng)[1]基于深度神經(jīng)網(wǎng)絡(luò)隱馬爾可夫模型(Deep Neural Networks - Hidden Markov Models ,DNN-HMM)對(duì)聲學(xué)模型建模,使用發(fā)音字典將音素序列轉(zhuǎn)換為詞,再通過(guò)一個(gè)語(yǔ)言模型將詞序列映射為句子。系統(tǒng)訓(xùn)練時(shí),這些聲學(xué)、發(fā)音和語(yǔ)言組件有不同的激活函數(shù),通常單獨(dú)訓(xùn)練和優(yōu)化。為了彌補(bǔ)傳統(tǒng)混合系統(tǒng)的不足,當(dāng)前流行的端到端模型[2]將傳統(tǒng)混合系統(tǒng)折疊為一個(gè)單一的神經(jīng)網(wǎng)絡(luò),去除傳統(tǒng)框架中所有中間步驟和獨(dú)立子任務(wù),輸入語(yǔ)音特征,直接輸出源語(yǔ)言文本,具有容易訓(xùn)練、模型簡(jiǎn)單和聯(lián)合優(yōu)化的優(yōu)勢(shì),目前取得顯著效果。當(dāng)前端到端模型流行的方法主要有連接時(shí)序分類算法(Connectionist Temporal Classification,CTC)[3]和使用CTC與注意力對(duì)齊機(jī)制的混合方法[4]。CTC不需要對(duì)訓(xùn)練語(yǔ)料預(yù)先分段和后處理,直接輸出標(biāo)簽。然而,CTC基于條件獨(dú)立假設(shè)訓(xùn)練ASR模型,缺乏對(duì)輸入序列間上下文關(guān)系的建模。因此,注意力對(duì)齊機(jī)制[5]引入到基于序列到序列結(jié)構(gòu)的語(yǔ)音識(shí)別模型中[6],但過(guò)度靈敏的關(guān)注對(duì)齊方式應(yīng)用到真實(shí)的語(yǔ)音識(shí)別場(chǎng)景中會(huì)表現(xiàn)出比較差的效果。于是, Kim等人[7]結(jié)合CTC和注意力機(jī)制的優(yōu)勢(shì)提出基于兩者的混合語(yǔ)音識(shí)別模型?;诨旌险Z(yǔ)音模型,Moritz等人[8]、Sarl等人[9]取得更好的識(shí)別效果。

        綜上所述,端到端的模型主要在英語(yǔ)、法語(yǔ)等表音文字的語(yǔ)音識(shí)別中取得很好的效果,然而,漢語(yǔ)是一種典型的表意文字,每一個(gè)漢字表示個(gè)別詞或詞素的形體,不與語(yǔ)音直接發(fā)生聯(lián)系,當(dāng)前端到端的模型對(duì)漢字的識(shí)別存在一些不足。Chan 等人[10]在漢字識(shí)別的研究工作中表明模型對(duì)漢字的識(shí)別收斂速度較慢。拼音作為漢字的讀音標(biāo)注文字,直接表示漢字語(yǔ)音,拼音與漢字存在內(nèi)在轉(zhuǎn)換關(guān)系,基于音節(jié)(拼音)的研究工作[11]持續(xù)至今。將語(yǔ)音特征識(shí)別為音節(jié)單元[12],再通過(guò)一個(gè)轉(zhuǎn)換模型將拼音變換為漢字[13]的級(jí)聯(lián)模型存在錯(cuò)誤傳播,為了避免這種問(wèn)題, Chan等人提出漢字-拼音識(shí)別模型,只在訓(xùn)練時(shí)使用拼音幫助對(duì)漢字的識(shí)別,但是這種方法識(shí)別字符錯(cuò)誤率(Character Error Rate,CER)達(dá)到59.3%,對(duì)此, Zhou等人提出基于Transformer[14]的貪婪級(jí)聯(lián)解碼器模型,取得相對(duì)滿意的效果。

        基于以上研究工作,在漢語(yǔ)語(yǔ)音識(shí)別中,引入拼音作為對(duì)漢字解碼的約束,能夠促使模型學(xué)習(xí)更好的語(yǔ)音特征。在漢語(yǔ)中,對(duì)漢字的識(shí)別類似于語(yǔ)音翻譯(Spoken Language Translation,ST)[15],對(duì)拼音的識(shí)別可以視為對(duì)漢語(yǔ)的語(yǔ)音識(shí)別。在ST領(lǐng)域, Weiss 等人[16]提出語(yǔ)音識(shí)別和語(yǔ)音翻譯聯(lián)合學(xué)習(xí)可以有效提高模型翻譯性能。本文從該項(xiàng)研究工作中受到啟發(fā),在多任務(wù)學(xué)習(xí)框架下[17],提出基于拼音約束聯(lián)合學(xué)習(xí)的漢語(yǔ)語(yǔ)音識(shí)別方法,在漢語(yǔ)語(yǔ)音識(shí)別中引入拼音語(yǔ)音識(shí)別任務(wù)作為輔助任務(wù)聯(lián)合訓(xùn)練,共同學(xué)習(xí),相互促進(jìn)。在希爾貝殼公司發(fā)布的普通話語(yǔ)音數(shù)據(jù)庫(kù)AISHELL-1[18]上,相比基線模型,詞錯(cuò)誤率WER降低2.24%。

        1 基于拼音約束聯(lián)合學(xué)習(xí)的漢語(yǔ)語(yǔ)音識(shí)別方法

        模型共享一個(gè)編碼器,拼音語(yǔ)音識(shí)別和漢語(yǔ)語(yǔ)音識(shí)別分別有一個(gè)解碼器。訓(xùn)練時(shí),模型的交叉熵是兩個(gè)解碼器分別計(jì)算損失后正則求和;反向傳播時(shí),編碼器的參數(shù)被兩個(gè)任務(wù)同時(shí)更新,達(dá)到兩個(gè)任務(wù)相互增強(qiáng)的效果。模型結(jié)合Weiss等人的研究工作和Kim等人提出的混合模型,并對(duì)其做了進(jìn)一步改進(jìn),具體模型結(jié)構(gòu)如圖1所示??梢钥闯?,模型共包括三個(gè)部分:共享編碼器、拼音語(yǔ)音識(shí)別和基于拼音約束聯(lián)合學(xué)習(xí)的漢字識(shí)別。

        1.1 共享編碼器

        模型共享一個(gè)編碼器,編碼器采用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short Term Memory Networks, LSTM),雙向LSTM結(jié)構(gòu)見(jiàn)圖1中的共享編碼器部分。共享編碼器將語(yǔ)音信號(hào)特征x=(x1,x2,…,xT)作為輸入,使用卷積層(Visual Geometry Group,VGG)對(duì)x抽取特征轉(zhuǎn)為高維的隱表征,輸出為h=(h1,h2,…,hL)。這里T表示語(yǔ)音特征的幀索引,L為對(duì)語(yǔ)音特征下采樣后的幀索引(L≤T)。編碼器的編碼過(guò)程如式(1)所示。

        1.2 拼音語(yǔ)音識(shí)別

        拼音語(yǔ)音識(shí)別模型采用當(dāng)前流行的基于注意力機(jī)制的編碼器-解碼器框架,編碼器采用1.1節(jié)介紹的共享編碼器結(jié)構(gòu)。解碼器采用單向LSTM,見(jiàn)圖1中的拼音解碼器部分。解碼器以共享編碼器的輸出h作為輸入,基于t時(shí)刻前的輸出標(biāo)簽序列,得到t時(shí)刻的預(yù)測(cè)拼音p標(biāo)簽ypt的概率分布。如式(2)、式(3)所示。

        圖1 基于拼音約束聯(lián)合學(xué)習(xí)的漢語(yǔ)語(yǔ)音識(shí)別模型結(jié)構(gòu)圖

        對(duì)于時(shí)間步t,基于輸入語(yǔ)音特征h和注意力機(jī)制權(quán)重at,l產(chǎn)生文本向量ct,如式(4)所示。

        (4)

        這里的at,l通過(guò)Softmax層計(jì)算,如式(5)~式(7)所示。

        其中,訓(xùn)練參數(shù)有ω、W、V、U和F,γ是模型的銳化因子,*表示一維卷積,ft通過(guò)*與卷積參數(shù)F計(jì)算得出,b是偏置項(xiàng)。

        解碼器使用ct、t時(shí)刻前的輸出標(biāo)簽yp(t-1)和隱狀態(tài)st-1生成當(dāng)前時(shí)刻的隱狀態(tài)st和預(yù)測(cè)拼音標(biāo)簽ypt,如式(8)、式(9)所示。

        其中,LSTM()代表單向循環(huán)神經(jīng)網(wǎng)絡(luò),Generate()代表前饋網(wǎng)絡(luò)。

        結(jié)合式(2),拼音語(yǔ)音識(shí)別的損失函數(shù)如式(10)所示。

        其中,拼音序列yp=(yp1,yp2,…,ypt),其中t≤T。

        1.3 基于拼音約束聯(lián)合學(xué)習(xí)的漢字識(shí)別

        基于共享編碼器的輸出h,漢字解碼器同樣以h作為輸入,結(jié)合t時(shí)刻前的輸出標(biāo)簽序列,通過(guò)前饋網(wǎng)絡(luò)和softmax激活函數(shù),得到t時(shí)刻預(yù)測(cè)漢字標(biāo)簽yt的概率分布P(y|h),基于P(y|h),漢字語(yǔ)音識(shí)別交叉損失熵如式(11)所示。

        其中,漢字序列y=(y1,y2,…,yt)。

        在多任務(wù)學(xué)習(xí)框架下,提出模型的交叉損失熵通過(guò)拼音解碼器和漢字解碼器分別計(jì)算損失后正則求和。聯(lián)合訓(xùn)練時(shí),拼音語(yǔ)音識(shí)別作為輔助任務(wù)幫助模型增強(qiáng)對(duì)漢字的識(shí)別能力。與此同時(shí),漢語(yǔ)語(yǔ)音識(shí)別作為主要任務(wù)促進(jìn)模型對(duì)拼音監(jiān)督信號(hào)的解碼。反向傳播時(shí),通過(guò)共享編碼器,能同時(shí)接收拼音和漢字的監(jiān)督信號(hào),編碼器的參數(shù)被拼音語(yǔ)音識(shí)別和漢字語(yǔ)音識(shí)別同時(shí)更新。結(jié)合式(10)、式(11),基于拼音約束聯(lián)合學(xué)習(xí)的漢字識(shí)別交叉熵?fù)p失函數(shù)如式(12)所示。

        Lhy(h,y)=λLp(h,yp)+(1-λ)L(h,y)

        (12)

        其中,λ為模型可微調(diào)的超參數(shù),λ∈(0,1)。

        考慮CTC具有使模型快速收斂的優(yōu)勢(shì),且不需要對(duì)輸入、輸出序列做一一標(biāo)注和對(duì)齊,因此提出的模型結(jié)合了CTC。通常情況下,CTC與循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)結(jié)合,RNN作為編碼器,把語(yǔ)音特征序列x轉(zhuǎn)為高維的隱狀態(tài)h,該編碼器過(guò)程如式(1)所示?;谡Z(yǔ)音隱表幀h,CTC假設(shè)輸出漢字標(biāo)簽之間條件獨(dú)立,標(biāo)簽之間允許插入空白表示(-),求出標(biāo)簽序列任何一條路徑π=(π1,π2,…,πT)的概率分布P(π|h),由于多條路徑序列可能只對(duì)應(yīng)一條漢字標(biāo)簽序列,通過(guò)定義一個(gè)多對(duì)一的映射函數(shù)f(π∈f(y))將路徑序列映射到標(biāo)簽序列y,采用前后向算法有效求得標(biāo)簽序列的最大概率分布P(y|h),基于P(y|h),可以計(jì)算CTC的負(fù)對(duì)數(shù)似然函數(shù)LCTC,如式(14)、式(15)所示。本文模型結(jié)合CTC模型的交叉熵?fù)p失函數(shù)如式(13)所示。

        L(h,y)=(1-λ1)Lhy(h,y)+λ1LCTC(h,y)

        (13)

        LCTC(h,y)=-ln(P(y|h))

        (14)

        (15)

        其中,λ1為模型可微調(diào)的超參數(shù),λ1∈(0,1),y′為映射標(biāo)簽序列。

        2 實(shí)驗(yàn)

        2.1 數(shù)據(jù)設(shè)置

        數(shù)據(jù)設(shè)置集見(jiàn)表1,使用由希爾貝殼公司發(fā)布的普通話語(yǔ)音數(shù)據(jù)庫(kù)AISHELL-1[18]證明了本文方法的有效性。該訓(xùn)練語(yǔ)料包括200個(gè)說(shuō)話者,其中,訓(xùn)練集有120 098條語(yǔ)音(約150個(gè)小時(shí)),驗(yàn)證集有14 326條語(yǔ)音(約10個(gè)小時(shí)),測(cè)試集有7 176條語(yǔ)音(約5個(gè)小時(shí))。通過(guò)Torchaudio工具, 提取以上訓(xùn)練語(yǔ)料步長(zhǎng)為10ms、窗口大小為25ms、維度為40的梅爾倒頻譜filter-bank特征。

        表1 實(shí)驗(yàn)數(shù)據(jù)集AISHELL-1

        2.2 評(píng)價(jià)指標(biāo)

        本文使用詞錯(cuò)誤率作為模型的評(píng)價(jià)指標(biāo),詞錯(cuò)誤率簡(jiǎn)稱WER(Word Error Rate),將模型預(yù)測(cè)的輸出序列與監(jiān)督信號(hào)序列進(jìn)行比較,WER算法如式(16)所示。

        其中,S、D、I表示替換、刪除和插入的字?jǐn)?shù),N為監(jiān)督信號(hào)字序列的總字?jǐn)?shù)。

        2.3 參數(shù)設(shè)置

        對(duì)于未登錄字,使用特殊字符UNK代替,超參數(shù)均設(shè)置為0.2時(shí)模型效果最好,Dropout設(shè)為0.25。模型采用Adadelta算法進(jìn)行優(yōu)化,Batch-size設(shè)置為16,共享編碼器采用4層的卷積網(wǎng)絡(luò)和5層的雙向LSTM,雙向LSTM每個(gè)方向有512個(gè)隱狀態(tài)單元,兩個(gè)解碼器均是一個(gè)單層的有512個(gè)隱狀態(tài)單元的LSTM,注意力機(jī)制Attention使用LAA(Location-Aware Attention)。在詞嵌入層,每個(gè)字表征為256維的向量。拼音的字表大小為1 400,漢語(yǔ)的字表大小為4 500。

        2.4 基線模型

        本文共選擇了三個(gè)基線模型,分別在訓(xùn)練數(shù)據(jù)模型集AISHELL-1上進(jìn)行試驗(yàn),得到WER評(píng)分。模型包括基于音節(jié)的貪婪級(jí)聯(lián)解碼模型、序列到序列(Sequence-to-sequence,S2S)結(jié)合CTC的混合模型(S2S+CTC)和級(jí)聯(lián)模型。

        貪婪級(jí)聯(lián)解碼模型是使用兩個(gè)束搜索(beam search)級(jí)聯(lián)解碼的Transformer模型。

        混合S2S+CTC語(yǔ)音識(shí)別系統(tǒng)是一種結(jié)合CTC和注意力機(jī)制(Attention)兩者優(yōu)勢(shì)的序列到序列模型,是目前常用的語(yǔ)音識(shí)別系統(tǒng)。

        級(jí)聯(lián)模型是將漢語(yǔ)語(yǔ)音特征序列識(shí)別為拼音文本序列,再采用一個(gè)額外的語(yǔ)言模型將拼音文本轉(zhuǎn)寫(xiě)為漢語(yǔ)文本。

        2.5 本文方法有效性分析

        對(duì)比基線模型,在AISHELL-1數(shù)據(jù)集上,驗(yàn)證了本文方法的有效性。使用WER值作為模型的評(píng)價(jià)指標(biāo)(表2)。

        表2 提出模型對(duì)比基線模型的實(shí)驗(yàn)結(jié)果

        根據(jù)表2的實(shí)驗(yàn)結(jié)果分析:相比S2S+CTC+拼音,S2S+CTC+漢字的WER值在驗(yàn)證集上高4.93%,在測(cè)試集上高5.04%,這說(shuō)明當(dāng)前的端到端語(yǔ)音識(shí)別模型對(duì)表意文字的識(shí)別效果不佳。相比基線模型S2S+CTC+漢字,提出模型在驗(yàn)證集上的WER值低2.5%,在測(cè)試集上的WER值低2.24%,說(shuō)明在當(dāng)前的漢語(yǔ)語(yǔ)音識(shí)別中引入拼音語(yǔ)音識(shí)別作為輔助任務(wù)聯(lián)合訓(xùn)練,增強(qiáng)了模型對(duì)漢字的識(shí)別能力。相比級(jí)聯(lián)系統(tǒng)+CTC,提出模型在驗(yàn)證集上的WER值低1.31%,在測(cè)試集上低1.05%,說(shuō)明在漢語(yǔ)語(yǔ)音識(shí)別中引入拼音語(yǔ)音識(shí)別任務(wù),提出的方法避免了級(jí)聯(lián)系統(tǒng)導(dǎo)致的錯(cuò)誤傳播問(wèn)題,取得比級(jí)聯(lián)系統(tǒng)更好的識(shí)別效果。相比貪婪級(jí)聯(lián)解碼模型,提出模型在驗(yàn)證集上的WER值低6.1%,在測(cè)試集上的WER值低4.95%,這說(shuō)明提出的模型在漢語(yǔ)語(yǔ)音識(shí)別中引入拼音作為一種更接近漢語(yǔ)語(yǔ)音的歸納偏置,增強(qiáng)了模型對(duì)漢字的表達(dá)能力。

        為了討論拼音語(yǔ)音識(shí)別任務(wù)和CTC對(duì)漢字識(shí)別的影響,對(duì)提出的模型去除CTC結(jié)構(gòu)進(jìn)行消融實(shí)驗(yàn),且分別將級(jí)聯(lián)系統(tǒng)和S2S+CTC模型均消去CTC結(jié)構(gòu)。三個(gè)模型訓(xùn)練時(shí)間基本一致,實(shí)驗(yàn)結(jié)果如表3所示。

        表3 消融性實(shí)驗(yàn)結(jié)果分析

        從表3可以看出,相比S2S-CTC+拼音,S2S-CTC+漢字在驗(yàn)證集集上的WER值高6.23%,在測(cè)試集上的WER值高6.45%,說(shuō)明當(dāng)前的端到端語(yǔ)音識(shí)別系統(tǒng)對(duì)表意文字的識(shí)別效果不佳。相比基線模型S2S-CTC+漢字,提出模型-CTC在驗(yàn)證集上的WER值低2.61%,在測(cè)試集上的WER低2.57%;相比級(jí)聯(lián)系統(tǒng)-CTC,提出模型-CTC在驗(yàn)證集上的WER低1.5%,在測(cè)試集上的WER低2.31%,說(shuō)明提出模型在不受CTC影響下,引入拼音約束聯(lián)合學(xué)習(xí),增強(qiáng)了模型對(duì)漢語(yǔ)語(yǔ)音特征的表達(dá)。

        3 總結(jié)和展望

        由于漢字與語(yǔ)音沒(méi)有直接的聯(lián)系,拼音與漢字、語(yǔ)音具有內(nèi)在關(guān)系,本文提出基于拼音約束聯(lián)合學(xué)習(xí)的漢語(yǔ)語(yǔ)音識(shí)別方法,通過(guò)多任務(wù)學(xué)習(xí)框架,聯(lián)合拼音語(yǔ)音識(shí)別、漢字語(yǔ)音識(shí)別任務(wù)共同學(xué)習(xí),取得了更好的效果。未來(lái)工作中,可以將拼音序列變換漢字序列視為一個(gè)機(jī)器翻譯任務(wù),通過(guò)共享解碼器方式去增強(qiáng)聯(lián)合學(xué)習(xí)模型的語(yǔ)義表達(dá)能力以及語(yǔ)句標(biāo)點(diǎn)符號(hào)的判斷。

        猜你喜歡
        解碼器級(jí)聯(lián)集上
        科學(xué)解碼器(一)
        科學(xué)解碼器(二)
        科學(xué)解碼器(三)
        Cookie-Cutter集上的Gibbs測(cè)度
        鏈完備偏序集上廣義向量均衡問(wèn)題解映射的保序性
        線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
        復(fù)扇形指標(biāo)集上的分布混沌
        級(jí)聯(lián)LDPC碼的STBC-OFDM系統(tǒng)
        電子制作(2016年15期)2017-01-15 13:39:09
        基于級(jí)聯(lián)MUSIC的面陣中的二維DOA估計(jì)算法
        LCL濾波器在6kV級(jí)聯(lián)STATCOM中的應(yīng)用
        国产成人无码精品午夜福利a| 伊人色综合九久久天天蜜桃| 国产一线视频在线观看高清 | 一区二区三区日韩精品视频| 黑人老外3p爽粗大免费看视频| 中文字幕亚洲欧美在线不卡| 国产亚洲精品资源在线26u| 广东少妇大战黑人34厘米视频| 精品国产av无码一道| 国产91AV免费播放| 亚洲av色香蕉一区二区三区软件| 成年网站在线91九色| 97丨九色丨国产人妻熟女| 无码视频在线观看| 无码精品人妻一区二区三区人妻斩| 国产精品半夜| 亚洲乱精品中文字字幕| 亚洲一区二区国产一区| 国产精品高清一区二区三区不卡| 天堂√在线中文官网在线| 国产va免费精品观看| 亚洲色大成人一区二区| 中文字幕日本五十路熟女| 日本黑人亚洲一区二区| 成年人男女啪啪网站视频| 国产传媒在线视频| 自拍情爱视频在线观看| h视频在线播放观看视频| 亚洲中文字幕成人无码| 日韩精品久久久一区| 蜜桃精品国产一区二区三区| 最新中文字幕日韩精品| 亚洲精品天天影视综合网| 色狠狠av老熟女| a午夜国产一级黄片| 日韩av综合色区人妻| 上海熟女av黑人在线播放| 色一情一区二区三区四区| 亚洲熟妇少妇69| 精品一区二区三区女同免费| 蜜桃av人妻精品一区二区三区|