摘 要:基于Transformer的端到端語音識別系統(tǒng)獲得廣泛的普及,但Transformer中的多頭自注意力機制對輸入序列的位置信息不敏感,同時它靈活的對齊方式在面對帶噪語音時泛化性能較差。針對以上問題,首先提出使用時序卷積神經(jīng)網(wǎng)絡(luò)(TCN)來加強神經(jīng)網(wǎng)絡(luò)模型對位置信息的捕捉,其次在上述基礎(chǔ)上融合連接時序分類(CTC),提出TCN-Transformer-CTC模型。在不使用任何語言模型的情況下,在中文普通話開源語音數(shù)據(jù)庫AISHELL-1上的實驗結(jié)果表明,TCN-Transformer-CTC相較于Transformer字錯誤率相對降低了10.91%,模型最終字錯誤率降低至5.31%,驗證了提出的模型具有一定的先進性。
關(guān)鍵詞:端到端語音識別;Transformer;時序卷積神經(jīng)網(wǎng)絡(luò);連接時序分類
中圖分類號:TN912.34 文獻標(biāo)志碼:A
文章編號:1001-3695(2022)03-009-0699-05
doi:10.19734/j.issn.1001-3695.2021.08.0323
基金項目:國家自然科學(xué)基金面上項目(61672263)
作者簡介:謝旭康(1998-),男,湖南邵陽人,碩士研究生,主要研究方向為語音識別、機器學(xué)習(xí)等;陳戈(1996-),女,河南信陽人,碩士研究生,主要研究方向為語音識別、語音增強等;孫?。?971-),男(通信作者),江蘇無錫人,教授,博導(dǎo),博士,主要研究方向為人工智能、計算智能、機器學(xué)習(xí)、大數(shù)據(jù)分析、生物信息學(xué)等(junsun@jiangnan.edu.cn);陳祺東(1992-),男,浙江湖州人,博士,主要研究方向為演化計算、機器學(xué)習(xí)等.
TCN-Transformer-CTC for end-to-end speech recognition
Xie Xukang,Chen Ge,Sun Jun?,Chen Qidong
(School of Artificial Intelligence amp; Computer Science,Jiangnan University,Wuxi Jiangsu 214122,China)
Abstract:Recently,the end-to-end automatic speech recognition system based on Transformer has been widely popularized,but the multi-head self-attention mechanism in Transformer is not sensitive to the position information of the input sequence,and its flexible alignment has poor generalization performance in the face of noisy speech.To solve the above problems,firstly,this paper proposed to use TCN to enhance the capture of location information by neural network model.Secondly,on the basis of the above,it proposed the TCN-Transformer-CTC model by fusing CTC.Without using any language model,the experimental results on AISHELL-1,an open source speech database of Mandarin Chinese,show that the word error rate of TCN-Transformer-CTC is relatively reduced by 10.91% compared with Transformer,and the final word error rate of the model is reduced to 5.31% which verifies that the proposed model has a certain degree of advancement.
Key words:end-to-end speech recognition;Transformer;temporal convolutional neural network;connectionist temporal classification
0 引言
自動語言識別(automatic speech recognition,ASR) 技術(shù)可以讓人與人、人與機器更順暢地交流。目前,隨著語音識別技術(shù)快速發(fā)展,語音識別技術(shù)在智能客服、智能家具、車載系統(tǒng)、機器人等領(lǐng)域廣泛應(yīng)用[1,2]。傳統(tǒng)的連續(xù)語音識別系統(tǒng)是由多個復(fù)雜的模塊組成,包括訓(xùn)練基于隱馬爾可夫模型(HMM)的聲學(xué)模型[3]、構(gòu)建發(fā)音字典以及語言模型,因此是一項復(fù)雜的工程。其一般步驟為:首先需要專業(yè)語言學(xué)家設(shè)計的發(fā)音字典,然后將聲學(xué)模型產(chǎn)生的音素序列映射到單詞序列,進而使用大量文本數(shù)據(jù)訓(xùn)練的語言模型對單詞序列進行打分,最終得出最后的預(yù)測文本[2]。
傳統(tǒng)語音識別模型的處理流程復(fù)雜,近年來,伴隨著計算能力的提高以及數(shù)據(jù)資源的擴展,端到端的語音識別系統(tǒng)將聲學(xué)模型、發(fā)音字典、語言模型集成到單個系統(tǒng)中共同訓(xùn)練,極大地簡化了訓(xùn)練和推理過程,因此成為當(dāng)前的研究熱點[4~6]。一般的端到端語音識別系統(tǒng)主要有連接主義時序分類(connectionist temporal classification,CTC)和基于注意力機制(attention)的系統(tǒng),基于這兩種方法的ASR系統(tǒng)都可以解決語音識別中輸入和輸出序列的變化長度的問題。基于CTC的模型將語音識別看做分類問題,每一聲學(xué)輸入幀對應(yīng)一個輸出標(biāo)簽,利用重復(fù)標(biāo)簽和空白標(biāo)簽來鑒別沒有輸出標(biāo)簽的聲學(xué)幀,可以很好地解決對齊問題[7],但CTC在輸出標(biāo)簽之間有很強的獨立性假設(shè),忽略了上下文聯(lián)系,因此在沒有強大的語言模型情況下表現(xiàn)不足;另一方面,基于attention的編解碼器模型[8,9]直接將聲學(xué)幀序列映射到標(biāo)簽序列,同時在解碼器中考慮了輸出標(biāo)簽的上下文關(guān)系,所以比單純基于CTC的模型效果好。但在實際場景中,噪聲的影響會導(dǎo)致注意力的對齊機制崩潰,從而結(jié)果不如預(yù)期。由于它們單獨訓(xùn)練的弊端,結(jié)合CTC和attention模型優(yōu)勢的混合CTC/attention端到端模型引起了研究人員的關(guān)注,在訓(xùn)練過程中,CTC作為基于attention的編解碼器模型的輔助訓(xùn)練任務(wù),在加快模型收斂速度的同時提高了模型準(zhǔn)確度[10,11]。CTC首先應(yīng)用于基于attention的循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)編解碼器模型中,但RNN的順序性限制了訓(xùn)練的計算并行化,在處理語音這種長序列輸入時相當(dāng)耗時。Dong等人[12]提出基于Transformer的端到端語音識別模型,其編碼器、解碼器基本模塊都是基于自注意力(self-attention),不同于RNN一一計算位置鏈來繪制位置之間的依賴關(guān)系,self-attention通過位置對獲取時序信息,只需要計算一次即可獲得變換表示,省去了RNN中的逐個計算步驟,通過并行化訓(xùn)練獲得更快的訓(xùn)練速度,同時獲得與基于RNN編解碼器的模型相媲美的識別率[12,13]。Transformer[14]中,self-attention不包含如RNN等對序列位置信息敏感的網(wǎng)絡(luò)結(jié)構(gòu),所以引入了相應(yīng)的位置編碼(positional encoding)來傳遞位置關(guān)系。隨后Bie等人[15]指出positional encoding賦予的位置信息會隨著網(wǎng)絡(luò)層的增加而逐漸丟失,提出使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)獲取隱式的位置信息來替代positional encoding,但是在不去掉positional encoding的條件下,為模型設(shè)計相應(yīng)的卷積模塊來學(xué)習(xí)隱式的位置信息的效果如何尚未有驗證。
受以上前人工作的啟發(fā),本文提出TCN-Transformer-CTC端到端語音識別模型。a)在不改變模型并行性的前提下,利用時序卷積神經(jīng)網(wǎng)絡(luò)(temporal convolutional neural,TCN)[16]的優(yōu)勢學(xué)習(xí)隱含的位置信息,維護后序?qū)又g位置信息的流動,相比只用卷積模塊代替positional encoding的模型[17]表現(xiàn)效果更好;b)利用多任務(wù)學(xué)習(xí)思想,使用CTC聯(lián)合TCN-Transformer訓(xùn)練來減輕基于attention的TCN-Transformer模型對齊問題,提高模型魯棒性,加快收斂速度。實驗結(jié)果表明,本文最好的模型配置在無外部語言模型或者超參數(shù)調(diào)整的情況下,在開源數(shù)據(jù)集AISHELL-1、Aidatatang上相比其它模型均得到了相應(yīng)的提升,測試集字錯誤率分別為5.31%和6.19%。
1 連接時序分類與注意力機制
1.1 連接時序分類
CTC模型是由Graves等人[18]提出的一種時序分類方法,相比傳統(tǒng)語音識別需要進行預(yù)先對齊的操作,它直接將輸入音頻序列映射到單詞或其他建模單元(如音素和字符)的系統(tǒng),極大簡化了語音識別模型的構(gòu)建和訓(xùn)練。同時CTC引入了空白標(biāo)簽,讓網(wǎng)絡(luò)在判斷當(dāng)前輸入語音幀時可以得到緩沖,解決了重復(fù)字符和連續(xù)標(biāo)簽對齊的問題。CTC引入了一個潛在變量CTC路徑π=(π1,π2,…,πL)作為輸入序列的幀級別標(biāo)簽,并在相鄰的相同標(biāo)簽中插入特殊的空白符號表示空輸出。通過去除相同標(biāo)簽的重復(fù)以及空白符號,可以將不同的輸出路徑映射到特定的標(biāo)簽序列。假定不同幀上的標(biāo)簽是條件獨立的,然后分別計算每個幀對應(yīng)標(biāo)簽的條件概率,最后一條CTC路徑的概率為每個幀對應(yīng)標(biāo)簽概率的積,計算公式如下:
其中:x為輸入聲學(xué)幀序列;T表示聲學(xué)幀長度;qt(πt)表示在第t的聲學(xué)幀時,應(yīng)輸出標(biāo)簽πt的softmax概率。
進而得出最終輸出的標(biāo)簽序列的概率為
其中:y是輸出標(biāo)簽序列;φ(y)表示所有CTC路徑π中能映射到標(biāo)簽序列y的集合。
采用一種前向后向算法可以快速地對所有可能的CTC路徑求和,標(biāo)簽y的概率可以通過前向變量計算:
其中:i是輸出標(biāo)簽索引;t是輸入幀索引;αt(i)是前向變量,表示在時刻t狀態(tài)為i時,前面的時刻觀察到標(biāo)簽y的前一部分狀態(tài)的概率;βt(i)是后向變量,表示時刻t從狀態(tài)i開始觀察到標(biāo)簽y的后一部分狀態(tài)的概率。
CTC損失定義為輸出標(biāo)簽序列概率的負(fù)對數(shù)似然:
1.2 多頭注意力
注意力(attention)是指對于某個時刻的輸出在輸入上各部分的權(quán)重。區(qū)別于序列到序列(seq2seq)模型里使用的加性注意力(additive attention),本文模型選擇了按比例縮放的點積注意力(scaled dot-product attention),模型結(jié)構(gòu)如圖1所示[13]。三個輸入分別為查詢Q、鍵K、值V,Q和每個K遵循點積相似度函數(shù)計算方法來獲得權(quán)重,同時通過除以一個K的維度進行放縮,采用softmax函數(shù)對這些權(quán)重進行歸一化處理,以解決內(nèi)積值太大的問題:
(multi-head attention)由Google機器翻譯團隊于2017年提出[13],作為注意力機制的一種變體,它由多個scaled dot-product attention的基礎(chǔ)單元堆疊而成,可以對輸入信息進行并行處理,由點積注意力提取多組不同信息并進行拼接處理。其優(yōu)點在于可以從不同的子空間中獲取到多種維度的相關(guān)信息。多頭注意力結(jié)構(gòu)如圖2所示[13]。通過式(6)計算出h頭點積注意力,再將各子空間的輸出進行concat拼接并投影,輸出注意力后的特征矩陣為
2 TCN-Transformer-CTC模型架構(gòu)
本文提出的TCN-Transformer-CTC模型結(jié)構(gòu)如圖3所示,它由前置處理模塊(聲學(xué)前置模塊、文本前置模塊)、編解碼器(encoder-decoder)、混合CTC/attention loss組成。它將ASR看做序列到序列任務(wù),encoder將輸入的幀級別聲學(xué)特征x=(x1,…,xT)映射到一種序列高級表示(h1,h2,…,hN),decoder通過已經(jīng)生成的文本(y1,y2,…,yl-1)聯(lián)合經(jīng)過注意力調(diào)節(jié)的隱藏狀態(tài)(h1,h2,…,hN)解碼生成yl,最終生成目標(biāo)轉(zhuǎn)錄序列(y1,y2,…,yL)。
2.1 前置處理模塊
前置處理模塊分為聲學(xué)前置模塊和文本前置模塊。在聲學(xué)前置模塊中使用K個2D卷積模塊,每個卷積模塊包含一個2D convolution層、一個ReLU激活層,最后使用positional encoding獲取聲學(xué)特征的絕對位置信息,具體結(jié)構(gòu)如圖4(a)所示。文本前置模塊中,使用J個TCN模塊來學(xué)習(xí)隱含的位置關(guān)系,具體結(jié)構(gòu)如圖4(b)所示。
2.2 編解碼器(encoder-decoder)
編碼器和解碼器的結(jié)構(gòu)如圖5所示,由若干個相同的模塊堆疊組成,每個模塊具有兩個主要的子層結(jié)構(gòu),分別是multi-head attention層和前饋網(wǎng)絡(luò)層(feed forward),在每個子層后都使用殘差連接(skip connection)[19]和層歸一化(layer norm)[20]。解碼器與編碼器不同的是使用了掩蓋未來信息的多頭注意力機制,使解碼時不能看見未來的標(biāo)簽信息,以及在第二個multi-head attention層使用的是跨越注意力(cross-attention)[13]。區(qū)別于Transformer模型[12],首先,本文對編碼器/解碼器結(jié)構(gòu)進行調(diào)整,在編碼器部分,使用并行TCN結(jié)構(gòu),其作用是與multi-head attention層處理后的特征進行融合,提取更多特征的同時減緩位置信息的消失;其次,編碼器輸出部分還會輸入到CTC結(jié)構(gòu)中,旨在加快模型訓(xùn)練收斂速度以及提高魯棒性。
2.3 混合CTC/attention 損失
本文使用CTC目標(biāo)函數(shù)作為輔助任務(wù),與注意力模型不同,CTC的前向后向算法可以使語音和標(biāo)簽序列之間進行強制單調(diào)對齊,彌補attention對齊機制的不足,使模型在嘈雜的外部環(huán)境中魯棒性更好。TCN-Transformer-CTC模型結(jié)合了CTC以及attention的優(yōu)勢,總的損失函數(shù)定義為CTC和attention損失的加權(quán)和:
Tloss=λCTCloss+(1-λ)ATTloss(8)
其中:λ∈[0,1],用來衡量CTC損失和attention損失的重要程度。
3 實驗結(jié)果及其分析
3.1 實驗數(shù)據(jù)
本文在希爾貝殼中文普通話開源數(shù)據(jù)庫AISHELL-ASR0009-OS1(AISHELL-1)[21]和數(shù)據(jù)堂開源的中文語音數(shù)據(jù)集(Aidatatang_200zh)[22]上進行模型驗證。其中AISHELL-1語料庫是由400名來自中國不同口音區(qū)域的發(fā)言人參與錄制,時長178 h,錄音準(zhǔn)確率在95%以上;Aidatatang_200zh語料庫是由600位來自中國不同口音區(qū)域的發(fā)言人參與錄制,時長200 h,錄音準(zhǔn)確率不低于98%。兩種數(shù)據(jù)集都按照無交疊原則劃分為訓(xùn)練集、開發(fā)集以及測試集。
3.2 實驗環(huán)境
實驗硬件環(huán)境為IntelXeonCPU E5-2620 v3 @ 2.40 GHz處理器,64 GB運行內(nèi)存,GPU顯卡為NVIDIA Tesla K80(四顯卡);軟件環(huán)境為64位CentOS 7操作系統(tǒng)下搭建的PyTorch深度學(xué)習(xí)框架。
3.3 實驗步驟
對于輸入音頻特征,統(tǒng)一采用80維對數(shù)梅爾濾波器特征(Fbank),25 ms每幀,移動窗口為10 ms,并在特征輸入之前進行了全局歸一化(global-CMVN)。對于輸出,其中AISHELL-1采用了4 233個大小的詞匯集,該詞匯集包括訓(xùn)練集文本的4 230個中文普通話字符;Aidatatang_200zh采用了3 944個大小的詞匯集,該詞匯集包括訓(xùn)練集文本的3 941個字符。另外,兩個數(shù)據(jù)集的詞匯集中都加入了額外的三個令牌字符,分別為空白字符〈blank〉、未知字符〈unk〉以及開始結(jié)束標(biāo)志〈sos/eos〉。對于驗證集和測試集的標(biāo)簽,本文將集外詞(OOV)全部處理為〈unk〉標(biāo)簽。為了產(chǎn)生更多的訓(xùn)練數(shù)據(jù)以及提高模型魯棒性,本文在訓(xùn)練集的音頻上應(yīng)用0.9、1.1的在線速度擾動[23],以及在時域和頻域上掩蓋掉一部分信息[24]等語音增強技術(shù)。
本文實驗?zāi)P途哂幸韵屡渲茫篴)聲學(xué)前置模塊中使用兩個2D CNN模塊,每個模塊都有一個CNN層以及ReLU激活函數(shù),每個CNN都有256個濾波器組,每個濾波器內(nèi)核大小為3×3,步長為1,進行下采樣減少語音特征冗余信息;b)encoder-decoder模塊中,encoder由12層相同子層組成,所有子層由TCN與multi-head attention并行層以及feed-forward層構(gòu)成,其中,TCN卷積核大小為3,填充為2,膨脹因子為1,multi-head attention層均產(chǎn)生維度為256的輸出,注意力頭H為4,在feed-forward中,內(nèi)部維度為2 048;decoder由六層相同子層組成,multi-head attention、feed-forward層模塊結(jié)構(gòu)、參數(shù)設(shè)置與編碼器相同;c)在文本前置處理模塊中,本文使用三個相同TCN模塊,每個模塊都使用圖4(b)中描述的結(jié)構(gòu)組成,其中一維卷積輸入濾波器為256,卷積核為3,步長為1,填充為2,膨脹因子為1。
在訓(xùn)練過程,將樣本根據(jù)音頻長度升序排序進行訓(xùn)練,batchsize為26,實驗使用超參數(shù)β1=0.9,β2=0.98,ε=10-9的Adam[25]優(yōu)化器,并在整個訓(xùn)練過程中根據(jù)式(9)動態(tài)地調(diào)節(jié)學(xué)習(xí)率:
其中:n為訓(xùn)練步數(shù);k為縮放因子;warmup_n為熱身步數(shù);dmodel為注意力中矩陣維度。本文中,k=10,dmodel=256,warmup_n=25 000步,訓(xùn)練240個epoch。為了防止過擬合,在每個子層中設(shè)置比率為0.1的dropout[26]。在訓(xùn)練完成后,本文使用模型參數(shù)平均方法[27],將在驗證集表現(xiàn)最好的30個epoch的參數(shù)進行平均作為最終模型的參數(shù),使模型權(quán)重更接近最近的局部最小值。在推理過程中,采用寬度為10的集束搜索方法(beam search)[28]得到最后預(yù)測文本。所有實驗結(jié)果都是在無外部語言模型或者超參數(shù)調(diào)整下獲得的最佳性能。
3.4 評價標(biāo)準(zhǔn)及實驗分析
本文所有實驗都是基于端到端語音識別工具WeNet[30]開展的,分別在AISHELL-1和Aidatatang_200zh數(shù)據(jù)集的訓(xùn)練集上進行訓(xùn)練,在各自的驗證集和測試集上評價實驗結(jié)果。評價標(biāo)準(zhǔn)采用字錯率(character error rate,CER),即
其中:S為替換;D為刪除;I為插入;N為句子字?jǐn)?shù)。為了驗證本文模型的識別性能,將改進后最新模型的attention解碼結(jié)果與前人的相關(guān)工作以及開源語音工具包ESPnet[31] 、WeNet中相關(guān)模型在AISHELL-1數(shù)據(jù)集上獲得的結(jié)果進行比較,并在Aidatatang_200zh數(shù)據(jù)集上進一步驗證所提出模型的泛化能力。
3.4.1 AISHELL-1實驗結(jié)果分析
本文將所有對比的基線聲學(xué)模型,包括ESPnet中的Transformer模型[31]、Transformer(CTC權(quán)重為0)[12]以及WeNet中Transformer-CTC(CTC權(quán)重為0.3)[30]在AISHELL-1數(shù)據(jù)集上進行了基于字符為建模單元的聲學(xué)模型實驗并進行對比分析,除此之外,本文展示了更多的最新實驗結(jié)果以供比較。結(jié)果如表1所示。從表1可以看出,TCN-Transformer相對于ESPnet(Transformer)[31]和本文基線系統(tǒng)Transformer[12]錯誤率分別下降了15.1%和3.9%。本文最終模型TCN-Transformer-CTC相比Transformer-CTC[30]也下降了6.7%,相比最近相關(guān)工作[17,29,32~34]的實驗結(jié)果也有相應(yīng)的提升,驗證了TCN這一結(jié)構(gòu)的有效性。
為了更好地體現(xiàn)各模型之間的差異,本文在訓(xùn)練集損失集中每隔1 000步選取一個損失值,驗證集中選取50 epoch后的損失曲線作為展示。其中各模型在訓(xùn)練集以及驗證集上的損失曲線如圖6(a)(b)所示。
從圖6中聲學(xué)模型在AISHELL-1上訓(xùn)練集和驗證集損失曲線可以看出,TCN-Transformer相比Transformer聲學(xué)模型loss下降更快、更平穩(wěn);從驗證集損失圖可以看到,由于加入CTC聯(lián)合訓(xùn)練的原因,Transformer-CTC loss比Transformer的最終loss大,基于Transformer-CTC改進的TCN-Transformer-CTC結(jié)合了CTC、attention、TCN三者的優(yōu)點,在訓(xùn)練集上能學(xué)到更多的信息,從而泛化性更好,驗證集上的loss相比Transformer-CTC的loss可以進一步降低,最終模型在測試集達(dá)到5.31%的錯誤率。因此可以看出,融入TCN模塊的聲學(xué)模型識別效果更好。
3.4.2 Aidatatang_200zh實驗結(jié)果分析
本文在Aidatatang_200zh數(shù)據(jù)集上重新訓(xùn)練Transformer[12]以及TCN-Transformer聲學(xué)模型,訓(xùn)練完成后,分別在Transformer和TCN-Transformer中引入CTC(權(quán)重為0.3)混合訓(xùn)練微調(diào)80 epoch來驗證TCN-Transformer和TCN-Transformer-CTC聲學(xué)模型在不同數(shù)據(jù)集上的泛化能力,結(jié)果如表2所示。
由表2可以看出,TCN-Transformer-CTC相比本實驗的基線系統(tǒng)Transformer[12]在測試集上有著相對13.03%的字錯誤率下降,在測試集上的最終模型結(jié)果可以達(dá)到6.19%字錯誤率,相比ESPnet(Transformer)[31]上的實驗結(jié)果以及最近在此數(shù)據(jù)集上的相關(guān)工作DFSMN-T[17],CTC/attention(character)[35]也分別有7.61%、20.64%、1.59%相對字錯誤率下降,驗證了本文提出的聲學(xué)模型的泛化能力。
4 結(jié)束語
本文提出了TCN-Transformer以及TCN-Transformer-CTC兩種端到端語音識別模型,前者將TCN結(jié)構(gòu)引入到Transformer模型來加強模型對特征的捕捉以及對隱含位置信息的學(xué)習(xí);后者在此基礎(chǔ)上進一步融合CTC的優(yōu)勢,使模型訓(xùn)練收斂更快,魯棒性更好。通過大量的實驗對比驗證了本文提出的聲學(xué)模型具有更低的錯誤率和更好的泛化性能。后續(xù)的研究會探索更多的訓(xùn)練策略以及使用無監(jiān)督學(xué)習(xí)來進一步提高識別率和模型的魯棒性。
參考文獻:
[1]Huang Xuedong,Baker J,Reddy R.A historical perspective of speech recognition[J].Communications of the ACM,2014,57(1):94-103.
[2]俞棟,鄧力.解析深度學(xué)習(xí):語音識別實踐[M].余凱,錢彥旻,譯.5版.北京:電子工業(yè)出版社,2017:78-89.(Yu Dong,Deng Li.Deconstruct deep learning:speech recognition practices[M].Yu Kai,Qian Yanmin,trans.5th ed.Beijing:Publishing House of Electronics Industry,2017:78-89.
[3]Rabiner L R.A tutorial on hidden Markov models and selected applications in speech recognition[J].Proceedings of the IEEE,1989,77(2):257-286.
[4]Yu Dong,Li Jinyu.Recent progresses in deep learning based acoustic models[J].IEEE/CAA Journal of Automatica Sinica,2017,4(3):396-409.
[5]高建清,萬根順,吳重亮.端到端語音識別的研究進展與挑戰(zhàn)[J].中國安防,2020(11):39-45.(Gao Jianqing,Wan Genshun,Wu Chongliang.Research progress and challenges of end-to-end speech recognition[J].China Security amp; Protection,2020(11):39-45.
[6]Prabhavalkar R,Rao K,Sainath T N,et al.A comparison of sequence-to-sequence models for speech recognition[C]//Proc of InterSpeech.2017:939-943.
[7]Amodei D,Ananthanarayanan S,Anubhai R,et al.Deep speech 2:end-to-end speech recognition in English and Mandarin[C]//Proc of the 33rd International Conference on International Conference on Machine Learning.2016:173-182.
[8]Chorowski J,Bahdanau D,Cho K,et al.End-to-end continuous speech recognition using attention-based recurrent NN:first results[EB/OL].(2014-12-04).https://arxiv.org/pdf/1412.1602.pdf.
[9]Chan W,Jaitly N,Le Q V,et al.Listen,attend and spell[EB/OL].(2015-08-20).https://arxiv.org/pdf/1508.01211v1.pdf.
[10]Xiao Zhangyu,Ou Zhijian,Chu Wei,et al.Hybrid CTC-attention based end-to-end speech recognition using subword units[C]//Proc of the 11th International Symposium on Chinese Spoken Language Processing.Piscataway,NJ:IEEE Press,2018:146-150.
[11]Watanabe S,Hori T,Kim S,et al.Hybrid CTC/attention architecture for end-to-end speech recognition[J].IEEE Journal of Selected Topics in Signal Processing,2017,11(8):1240-1253.
[12]Dong Linhao,Xu Shuang,Xu Bo.Speech-Transformer:a no-recurrence sequence-to-sequence model for speech recognition[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2018:5884-5888.
[13]Zhou Shiyu,Dong Linhao,Xu Shuang,et al.Syllable-based sequence-to-sequence speech recognition with the Transformer in Mandarin Chinese[EB/OL].(2018-06-04).https://arxiv.org/pdf/1804.10752.pdf.
[14]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017:6000-6010.
[15]Bie A,Venkitesh B,Monteiro J,et al.A simplified fully quantized Transformer for end-to-end speech recognition[EB/OL].(2020-03-24).https://arxiv.org/pdf/1911.03604.pdf.
[16]Hewage P,Behera A,Trovati M,et al.Temporal convolutional neural(TCN) network for an effective weather forecasting using time-series data from the local weather station[J].Soft Computing,2020,24(11):16453-16482.
[17]徐冬冬.基于Transformer的普通話語聲識別模型位置編碼選擇[J].應(yīng)用聲學(xué),2021,40(2):194-199.(Xu Dongdong.Transformer based position coding selection of Mandarin speech recognition model[J].Journal of Applied Acoustics,2021,40(2):194-199.)
[18]Graves A,F(xiàn)ernández S,Gomez F,et al.Connectionist temporal classification:labelling unsegmented sequence data with recurrent neural networks[C]//Proc of the 23rd International Conference on Machine Learning.New York:ACM Press,2006:369-376.
[19]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual lear-ning for image recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2016:770-778.
[20]Ba J L,Kiros J R,Hinton G E.Layer normalization[EB/OL].(2016-07-21).https://arxiv.org/pdf/1607.06450v1.pdf.
[21]Bu Hui,Du Jiayu,Na Xingyu,et al.AISHELL-1:an open-source Mandarin speech corpus and a speech recognition base-line[C]//Proc of the 20th Conference of the Oriental Chapter of the Interna-tional Coordinating Committee on Speech Databases and Speech I/O Systems and Assessment.Piscataway,NJ:IEEE Press,2017:1-5.
[22]Beijing DataTang Technology Co.,Ltd..Aidatatang-200zh[DB/OL].http://www.openslr.org/62/.
[23]Ko T,Peddinti V,Povey D,et al.Audio augmentation for speech re-cognition[C]//Proc of the 16th Annual Conference of International Speech Communication Association.2015:3586-3589.
[24]Park D S,Chan W,Zhang Yu,et al.SpecAugment:a simple data augmentation method for automatic speech recognition[EB/OL].(2019-04-18).https://arxiv.org/pdf/1904.08779v1.pdf.
[25]Kingma D P,Ba J L.Adam:a method for stochastic optimization[EB/OL].(2017-01-30).http://de.arxiv.org/pdf/1412.6980.
[26]Srivastava N,Hinton G,Krizhevsky A,et al.Dropout:a simple way to prevent neural networks from overfitting[J].Journal of Machine Learning Research,2014,15(1):1929-1958.
[27]Izmailov P,Podoprikhin D,Garipov T,et al.Averaging weights leads to wider optima and better generalization[EB/OL].(2019-02-25).https://arxiv.org/pdf/1803.05407.pdf.
[28]Kumar A,Vembu S,Menon A K,et al.Beam search algorithms for multilabel learning[J].Machine Learning,2013,92(7):65-89.
[29]Yu Fuhao,Chen Kuanyu.Non-autoregressive Transformer-based end-to-end ASR using BERT[EB/OL].(2021-04-10).https://arxiv.org/ftp/arxiv/papers/2104/2104.04805.pdf.
[30]Zhang Binbin,Wu Di,Yang Chao,et al.WeNet:production first and production ready end-to-end speech recognition toolkit[EB/OL].(2021-02-02).https://arxiv.org/pdf/2102.01547v1.pdf.
[31]Watanabe S,Hori T,Karita S,et al.ESPnet:end-to-end speech processing toolkit[EB/OL].(2018-03-30).https://arxiv.org/pdf/1804.00015v1.pdf.
[32]Shan Changhao,Weng Chao,Wang Guangsen,et al.Component fusion:learning replaceable language model component for end-to-end speech recognition system[C]//Proc of IEEE International Confe-rence on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2019:5361-5635.
[33]胡章芳,蹇芳,唐珊珊,等.DFSMN-T:結(jié)合強語言模型Transformer的中文語音識別[J/OL].計算機工程與應(yīng)用.[2021-10-12].http://kns.cnki.net/kcms/detail/11.2127.TP.20210419.1433.059.html.(Hu Zhangfang,Jian Fang,Tang Shanshan, et al.DFSMN-T:mandarin speech recognition with language model Transformer[J/OL].Computer Engineering and Applications.[2021-10-12].http://kns.cnki.net/kcms/detail/11.2127.TP.20210419.1433.059.html.)
[34]Zhou Xinyuan,Lee G,Yilmaz E,et al.Self-and-mixed attention decoder with deep acoustic structure for transformer-based LVCSR[J].(2020-09-15).https://arxiv.org/pdf/2006.10407.pdf.
[35]Chen Shunfei,Hu Xinhui,Li Sheng,et al.An investigation of using hybrid modeling units for improving end-to-end speech recognition system[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2021:6743-6747.