亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        丟棄冗余塊的語音識別Transformer 解碼加速方法

        2023-10-17 05:49:56趙德春舒洋李玲陳歡張子豪
        計(jì)算機(jī)工程 2023年10期
        關(guān)鍵詞:解碼器聲學(xué)解碼

        趙德春,舒洋,李玲,陳歡,張子豪

        (1.重慶郵電大學(xué) 生物信息學(xué)院,重慶 400065;2.重慶郵電大學(xué) 自動化學(xué)院,重慶 400065)

        0 概述

        自動語音識別是最便捷的人機(jī)交互技術(shù)之一,目的是讓機(jī)器自動將人類語音信號轉(zhuǎn)變?yōu)閷?yīng)的文本信息。當(dāng)前,主流的語音識別方法是單一神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)組成的端到端模型,主要有3類,分別為連接時序分類器(Connectionist Temporal Classification,CTC)[1-2]、循環(huán)神經(jīng)網(wǎng)絡(luò)換能器(RNN-Transducer,RNN-T)[3-4]以及基于注意力機(jī)制的編解碼模型(Attention-based Encoder-Decoder,AED)[5-7]。端 到端模型將傳統(tǒng)語音識別系統(tǒng)中的聲學(xué)、發(fā)音和語言模型整合到一個網(wǎng)絡(luò)結(jié)構(gòu)中,使得它們可以只針對一個目標(biāo)函數(shù)進(jìn)行優(yōu)化,識別準(zhǔn)確率更高[8]。

        CTC 通過引入空白符來實(shí)現(xiàn)語音序列與文本序列的對齊表達(dá),使用動態(tài)規(guī)劃策略高效地尋找所有潛在的對齊路徑,結(jié)合前饋網(wǎng)絡(luò)層使得模型能快速得到幀級別的分類輸出。然而,模型因未考慮字與字、語句關(guān)系的獨(dú)立性假設(shè),嚴(yán)重限制了模型的性能。RNN-T 在解碼時以語音編碼結(jié)果和之前的輸出序列共同作為輸入,同時結(jié)合額外的預(yù)測網(wǎng)絡(luò)實(shí)現(xiàn)了對聲學(xué)模型與語言模型的共同優(yōu)化。RNN-T 在流式識別任務(wù)中相比其他結(jié)構(gòu)更有優(yōu)勢,但是模型不容易訓(xùn)練,即使使用預(yù)訓(xùn)練的方法,其訓(xùn)練過程也很繁瑣[9]。AED 模型通過注意力機(jī)制實(shí)現(xiàn)聲學(xué)特征幀與文本信息的軟對齊,這種方式使得輸入序列與輸出序列可以不嚴(yán)格對齊,因此,模型具有更強(qiáng)的上下文建模能力。但是,對于強(qiáng)對齊特性的語音識別任務(wù),容易導(dǎo)致模型的訓(xùn)練因盲目對齊而耗費(fèi)大量時間。為此,CTC/Attention 混合模型[6,10]將CTC引入AED 模型的編碼器網(wǎng)絡(luò)中,利用CTC 損失函數(shù)計(jì)算時的嚴(yán)格單調(diào)性加強(qiáng)模型對編碼器的對齊約束。這種多任務(wù)學(xué)習(xí)方式既能加快模型的收斂速度,又能提高模型的魯棒性。

        另一種基于自注意力機(jī)制的編解碼器模型Transformer[11]因具有強(qiáng)大的上下文建模能力和高效的訓(xùn)練方式,在語音識別任務(wù)中也取得了巨大成功。語 音Transformer模型[9,12-13]由編碼器與解碼器2 個部分構(gòu)成,它們均由自注意力層與前饋網(wǎng)絡(luò)層組成的網(wǎng)絡(luò)塊加殘差的連接方式堆疊而成。Transformer解碼器的工作方式與其他AED 模型一樣,解碼當(dāng)前時刻時需要之前解碼結(jié)果與全部編碼器的聲學(xué)特征,這導(dǎo)致解碼時間較長,限制了模型的應(yīng)用[13]。為此,文獻(xiàn)[14]通過池化CTC 尖峰序列生成具有分段表示能力的編碼器輸出掩碼序列,使用更多置零的掩碼在Transformer 交叉注意力層實(shí)現(xiàn)編碼特征的壓縮表達(dá),加快該層的計(jì)算過程,提高解碼速度。雖然置零掩碼加速了部分解碼計(jì)算過程,但是并沒有真正減少解碼器的計(jì)算量。針對編碼聲學(xué)特征的緊湊型表達(dá),文獻(xiàn)[15]使用自動編碼器來產(chǎn)生分段的緊湊型語音表示,但是這顯著增加了語音識別任務(wù)的建模難度與訓(xùn)練成本。

        為了進(jìn)一步加快語音識別Transformer 解碼過程,本文提出一種丟棄冗余塊(Discarding Redundant Blocks,DRB)的Transformer 解碼加速方法。該方法利用CTC 分類器產(chǎn)生的尖峰序列去除編碼器輸出特征中連續(xù)冗余的空白幀,減小解碼器所需的特征序列長度。在CTC/AED 模型結(jié)構(gòu)中為避免盲目對齊所產(chǎn)生的額外訓(xùn)練開銷,DRB 使用微調(diào)的方式單獨(dú)訓(xùn)練Transformer 解碼器,以解決訓(xùn)練與識別不匹配的問題。同時,為了減小CTC 對編碼特征冗余幀判斷的誤差,引入Intermediate CTC 結(jié)構(gòu)提高模型訓(xùn)練時對編碼器的約束能力。

        1 相關(guān)理論基礎(chǔ)

        1.1 語音Transformer 解碼器

        語音Transformer 模型[12]是基于自注意力機(jī)制的編解碼網(wǎng)絡(luò),模型結(jié)構(gòu)由多頭自注意力層、前饋網(wǎng)絡(luò)層、提供序列位置信息的位置編碼模塊組成,每層之間使用層歸一化與殘差連接的方式來增強(qiáng)訓(xùn)練時的穩(wěn)定性。Transformer 解碼器與編碼器在網(wǎng)絡(luò)結(jié)構(gòu)上相似,不同之處在于解碼器中有一個自注意力層查詢矩陣是文本序列,而對應(yīng)的鍵與值都是編碼器輸出的聲學(xué)特征序列,這也被稱為交叉注意力層,它使得解碼器中的語言信息可以與聲學(xué)信息相互融合,模型在解碼時不僅能夠看到之前解碼的上文語言信息,還能參考聲學(xué)上下文信息,從而更準(zhǔn)確地預(yù)測下一個詞。解碼器中主要的網(wǎng)絡(luò)堆疊塊計(jì)算如下:

        其中:Zj、Zj+1分別為第j層的輸入與輸出;Xe是編碼器輸出的聲學(xué)特征;FFN 表示前饋網(wǎng)絡(luò)層;MHSAself與MHSAcross都是多頭注意力層,輸入?yún)?shù)依次為自注意力查詢、鍵、值矩陣。

        解碼器以編碼器輸出的編碼特征與之前解碼結(jié)果作為輸入,進(jìn)行反復(fù)迭代計(jì)算,直到識別出特殊的停止字符。解碼計(jì)算過程如下:

        其中:Yt是長度為T的目標(biāo)文本序列YT在t時刻的解碼輸出;Decoder(·)表示解碼器;Xe表示編碼器輸出的語音特征序列。

        1.2 兩階段重打分的非自回歸解碼方式

        Transformer 模型在解碼時通過引入之前時刻的解碼結(jié)果[見式(2)],為解碼過程引入了充足的語言信息,從而有效提高了識別準(zhǔn)確率。但是,這種迭代計(jì)算的解碼方式無法并行化,給模型解碼帶來了較高延時。為實(shí)現(xiàn)快速解碼同時避免Transformer 解碼器的自回歸解碼過程,文獻(xiàn)[9]提出兩階段重打分的非自回歸解碼方式。該方式在CTC/Attention 混合模型中使用Transformer 解碼器為CTC 解碼的N個概率中最高的結(jié)果重新評分,根據(jù)2 次評分權(quán)重取最終結(jié)果。對于每個需要重打分的結(jié)果,Transformer 解碼器只需進(jìn)行一次前向計(jì)算而無須迭代計(jì)算,因此,這種非自回歸解碼方式的解碼速度更快。在WeNet[16]中,第一階段解碼使用CTC 前綴波束搜索方式來獲得N個結(jié)果,在AISHELL-1 數(shù)據(jù)集[17]中取得了較先進(jìn)的識別結(jié)果。

        1.3 Intermediate CTC

        CTC 利用高效的動態(tài)規(guī)劃算法,通過計(jì)算所有可能存在的對齊序列概率來求取給定目標(biāo)序列的最大后驗(yàn)概率。將CTC 作為神經(jīng)網(wǎng)絡(luò)的損失函數(shù),可以使模型無須幀級別的標(biāo)注即可得到幀級別的分類預(yù)測輸出,這將大幅簡化語音識別任務(wù)中的聲學(xué)建模過程。給定幀數(shù)為T的語音輸入特征XT,模型輸出正確標(biāo)簽序列YL的后驗(yàn)概率為P(YL|XT),計(jì)算如下:

        其中:QT表示YL的某一個有效對齊序列(指通過合并重復(fù)字與刪除空白符能得到的目標(biāo)序列);B-1(YL)是YL有效序列的集合。

        在模型訓(xùn)練時,最小化給定標(biāo)簽序列的后驗(yàn)概率負(fù)對數(shù)值即可,損失函數(shù)如下:

        CTC 簡單有效,成為最早也是最廣泛應(yīng)用的端到端語音識別技術(shù)。最近有研究表明,CTC 損失函數(shù)不僅能作為ASR 端到端模型的優(yōu)化目標(biāo),還能將其擴(kuò)展到編碼器網(wǎng)絡(luò)的底層,用來加強(qiáng)對編碼器前端網(wǎng)絡(luò)的約束,提高模型的收斂速度與魯棒性,達(dá)到正則化的目的[18-19],這種方法被稱為Intermediate CTC。在模型訓(xùn)練時取編碼器的中間層輸出作為額外的CTC 損失值,與編碼器最后層的損失共同優(yōu)化模型,計(jì)算方式如下:

        其中:ω為超參數(shù);Xl、Xl/2分別表示堆疊塊數(shù)為l的編碼器中第l層與第l/2 層的輸出序列。

        2 DRB 方法

        2.1 DRB 方法流程

        CTC 模型的尖峰現(xiàn)象如圖1 所示,橫軸表示語音特征序列,縱軸表示每幀對應(yīng)每個字符(建模單元為字)的概率,不同曲線表示不同的字符(類別),其中,[空白幀]表示CTC 引入的空白字符。圖1 中語音特征共61幀,對應(yīng)的文本信息為“加速識別解碼”。

        圖1 CTC 尖峰現(xiàn)象示意圖Fig.1 Schematic diagram of the CTC spike phenomenon

        CTC 尖峰現(xiàn)象是指模型輸出的后驗(yàn)概率序列中某一幀的后驗(yàn)概率集中在某一個詞(類)上,而不是分散在幾個詞中。根據(jù)CTC 模型最大化給定序列對應(yīng)后驗(yàn)概率的優(yōu)化準(zhǔn)則,可以將其理解為模型對尖峰幀比其他幀有更確定的判斷。如果空白幀的概率越大,就表明這一幀的聲學(xué)特征包含的文本信息越不豐富,僅為空白信息,即編碼器輸出特征中的連續(xù)空白幀是不重要的聲學(xué)特征,而非空白幀中會包含相鄰區(qū)域中更顯著、有用的文本信息。因此,通過去除這些連續(xù)空白冗余幀,可以實(shí)現(xiàn)對編碼器輸出聲學(xué)特征序列的有效壓縮,即編碼特征的緊湊型表達(dá)。然而,并不是所有空白幀都是毫無意義的,根據(jù)CTC的建模假設(shè),它可以作為詞音頻信息片段解碼時的重要分界標(biāo)志。因此,在去除冗余幀時應(yīng)適當(dāng)保留部分空白幀。

        本文提出編碼特征的緊湊型表達(dá)處理方式——DRB。DRB 作用于模型的編碼器輸出端,依靠CTC尖峰序列去除編碼輸出特征中的冗余部分,實(shí)現(xiàn)對解碼聲學(xué)特征的緊湊型表達(dá),進(jìn)而減小解碼器的計(jì)算量,提高解碼效率。DRB 方法流程如圖2 所示。

        2.2 模型結(jié)構(gòu)

        為了確保模型擁有較好的識別性能以及較快的收斂速度,本文網(wǎng)絡(luò)模型主體使用CTC/AED 多任務(wù)學(xué)習(xí)結(jié)構(gòu)的Conformer[16]。使用DRB 方法的模型結(jié)構(gòu)如圖3所示,由Conformer 編碼器[20]、CTC模塊、DRB 處理層和Transformer 解碼器等4 個部分組成。

        圖3 使用DRB 方法的Conformer 模型結(jié)構(gòu)Fig.3 Conformer model structure using DRB method

        Conformer 編碼器通過添加卷積層增強(qiáng)Transformer 編碼器捕獲語音序列局部信息的能力,使它能更適合語音與音頻建模[21]。CTC 模塊主要由全連接層和Softmax 函數(shù)組成的分類器構(gòu)成,它與CTC Loss 函數(shù)組合,用于在訓(xùn)練時計(jì)算編碼器的CTC 損失值,該值以多任務(wù)學(xué)習(xí)的形式輔助模型訓(xùn)練。在模型預(yù)測時,通過分類器得到編碼器輸出的尖峰序列,用于DRB 層實(shí)現(xiàn)對編碼器輸出的緊湊型表達(dá),或進(jìn)行模型的CTC 解碼。DRB 方法的計(jì)算過程如圖2 所示,根據(jù)CTC 分類器剔除不包含豐富文本信息的冗余聲學(xué)幀,實(shí)現(xiàn)對編碼器輸出特征序列去冗余的目的。因?yàn)镈RB 中涉及的神經(jīng)網(wǎng)絡(luò)層運(yùn)算只是復(fù)用CTC 模塊中的全連接層進(jìn)行分類,所以該方法并沒有為模型增加額外的可學(xué)習(xí)參數(shù)。DRB沒有改變模型參數(shù)的復(fù)雜度,用于CTC/AED 結(jié)構(gòu)時僅需微調(diào)訓(xùn)練即可使用。使用Transformer 解碼器,它由文本詞嵌入層、相對位置編碼模塊、Transformer解碼塊(見第1.1 節(jié))、Softmax 分類器組成。

        2.3 模型訓(xùn)練

        因?yàn)镈RB 方法依賴于CTC 產(chǎn)生的尖峰序列來實(shí)現(xiàn)編碼器聲學(xué)特征的緊湊型表達(dá),所以尖峰序列中空白幀判斷是否準(zhǔn)確對模型最終的識別結(jié)果至關(guān)重要。為此,通過預(yù)訓(xùn)練加微調(diào)的方式來訓(xùn)練使用DRB 方法的Conformer 模型,減少模型的盲目對齊訓(xùn)練,加快模型收斂速度。同時,為了減小錯誤刪除部分聲學(xué)特征幀帶來的模型識別精度損失,使用Intermediate CTC 來增強(qiáng)網(wǎng)絡(luò)對模型編碼器的約束,提高CTC 尖峰序列的準(zhǔn)確度。模型訓(xùn)練過程如下:

        1)預(yù)訓(xùn)練。首先不 添加DRB層,Conformer 模型與普通多任務(wù)模型(CTC/Attention)訓(xùn)練方式一樣,損失函數(shù)計(jì)算如下:

        其中:λ是超參數(shù);Lctc是編碼器的CTC 損失值;Latt是解碼器的CE 損失值。

        如果使用Intermediate CTC 來增強(qiáng)模型對編碼器的約束,則模型訓(xùn)練損失函數(shù)Lctc應(yīng)改為LCTC_loss[見式(5)],網(wǎng)絡(luò)結(jié)構(gòu)無須更改。

        2)微調(diào)。凍結(jié)網(wǎng)絡(luò)中編碼器與CTC 分類器模塊的模型參數(shù),使其不參與模型參數(shù)的更新訓(xùn)練。添加DRB 處理層,使用處理后的編碼聲學(xué)特征參與解碼器的計(jì)算。在預(yù)訓(xùn)練模型的基礎(chǔ)上再次訓(xùn)練解碼器,使解碼器適應(yīng)DRB 處理后編碼器輸出的改變,避免出現(xiàn)模型訓(xùn)練不匹配的問題。因此,微調(diào)模型只需要使用交叉熵?fù)p失函數(shù)來優(yōu)化解碼器參數(shù),即將式(6)中的λ參數(shù)賦值為0,即可得到微調(diào)訓(xùn)練的模型損失函數(shù)。

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)集

        實(shí)驗(yàn)開源數(shù)據(jù)集包括中文語音數(shù)據(jù)集AISHELL-1[17]與英文數(shù)據(jù)集LibriSpeech。前者由150 h 的訓(xùn)練集、10 h 的驗(yàn)證集以及5 h 的測試集數(shù)據(jù)構(gòu)成,字表由訓(xùn)練集中得到的4 230 個漢字組成;后者包括960 h 的訓(xùn)練集,驗(yàn)證集與測試集均是5.4 h,詞表是使用字節(jié)對編碼算法在訓(xùn)練文本中提取的5 000 個詞。

        3.2 實(shí)驗(yàn)環(huán)境

        硬件配置:中央處理器AMD?R6930K,運(yùn)行內(nèi)存64 GB;顯卡型號NVIDIA GeForce GTX 2080。

        軟件環(huán)境:操作系統(tǒng)64 位Ubuntu18.04,深度學(xué)習(xí)框架PyTorch1.10。

        軟件工具包 采用WeNet[16],與Kaldi[22]和ESPnet[23]相比,WeNet 完全基于PyTorch 生態(tài),擁有更簡潔的語音識別模型框架,并且對AED 模型有更好的優(yōu)化效果,有利于開展模型的對比實(shí)驗(yàn)。

        3.3 實(shí)驗(yàn)設(shè)置

        對于所有實(shí)驗(yàn),語音輸入特征使用80 維的FBank 信號,幀長為25 ms,幀移為10 ms。在訓(xùn)練過程中使用2 種常用的數(shù)據(jù)擴(kuò)充手段,即隨機(jī)速度擾動和SpecAugment[24],分別是在[0.9,1.1]中隨機(jī)選取速度擾動值做時域信號處理,以及對每個FBank信號在時域與頻率方向都做2 個隨機(jī)掩碼,最大掩碼寬度時域T=50,頻域F=10。語音特征進(jìn)入編碼器之前,進(jìn)行倒譜均值方差歸一化(CMVN)處理,并通過由2 層2D 卷積組成的下采樣層降低模型計(jì)算量,卷積核大小為3×3,步長為2。訓(xùn)練時使用Adam 優(yōu)化器,學(xué)習(xí)率調(diào)整器的預(yù)熱訓(xùn)練步為25 000。模型的最優(yōu)參數(shù)使用訓(xùn)練收斂后驗(yàn)證集中損失值最低的20 個輪次的平均值。

        Conformer 編碼器堆疊塊個數(shù)為12,解碼器堆疊塊個數(shù)為6,多頭自注意力層頭個數(shù)為4,注意力編碼維度為256,前饋網(wǎng)絡(luò)隱藏層單元個數(shù)為2 048,多任務(wù)學(xué)習(xí)的權(quán)重系數(shù)λ=0.3,μ=0.7,Intermediate CTC 共2層,其間隔為4,這2層的權(quán)重分別為0.3、0.7。

        實(shí)驗(yàn)使用2 種不同的解碼方式來驗(yàn)證所提DRB方法對Transformer 解碼的加速效果,一種是結(jié)合波束搜索的傳統(tǒng)自回歸解碼方式,另一種是兩階段重打分的非自回歸解碼方式。

        3.4 結(jié)果分析

        在測試集上對模型進(jìn)行性能評估,中文與英文分別使用字錯率(Character Error Rate,CER)、詞錯率(Word Error Rate,WER)作為識別準(zhǔn)確率的評價指標(biāo),結(jié)果保留2 位小數(shù)。使用Batch_size=1時,將模型推理時的實(shí)時率RTF 作為解碼速度的衡量指標(biāo),結(jié)果保留4 位小數(shù)。S-D-I 為計(jì)算CER 的編輯距離時產(chǎn)生的錯誤字個數(shù),錯誤類型分別是替換、刪除、插入。CERR、RTFR 分別是DRB 方法對模型CER 與RTF 改善的相對百分比值。實(shí)驗(yàn)解碼器的波束搜索參數(shù)Beam_size 默認(rèn)為10。

        為了更好地探究DRB 對Transformer 自回歸解碼的改善效果,在CPU 與GPU 上分別進(jìn)行測試,實(shí)驗(yàn)結(jié)果如表1 所示。

        表1 AISHELL-1 中DRB 對Transformer 自回歸解碼的改善效果Table 1 Improvement effect of DRB on Transformer autoregressive decoding in AISHELL-1

        從表1 可以得出:

        1)觀察RTFR 指標(biāo)可以看出在CPU 上DRB 方法能將解碼速度平均提高20%左右,但是DRB 方法在GPU 設(shè)備上卻沒有提升效果,RTF 反而有輕微的下降,最差的RTFR 為-1.2%。導(dǎo)致這種結(jié)果的原因可能是DRB 方法通過壓縮編碼特征序列的長度,減小解碼器交叉注意力層的矩陣運(yùn)算量,從而加快解碼計(jì)算過程,這對沒有矩陣加速運(yùn)算的CPU 或其他微處理器設(shè)備而言,能在反復(fù)迭代計(jì)算的過程中提升解碼速度,但是對于擅長矩陣運(yùn)算的GPU 而言卻沒有改善效果,反而會因?yàn)镈RB 方法導(dǎo)致額外的計(jì)算開銷,從而使得RTF 輕微變大。

        2)觀察使用DRB 方法后的CER 指標(biāo)可以看出,DRB 方法對2 組Conformer 模型的CER 值分別提升3.9%與1.8%,模型識別準(zhǔn)確率有輕微下降。這表明DRB 在提高解碼速度的同時對模型識別精度有一定損失。通過S-D-I 結(jié)果可以看出,“刪除錯誤”為錯誤增加的主要類型,分析其原因可能是:DRB 是下采樣處理,在剔除缺乏文本信息的冗余幀的同時也剔除了其中部分帶有文本信息的幀或不正確剔除了有用幀(尖峰序列不準(zhǔn)確),使Transformer 解碼器在解碼時缺失部分聲學(xué)特征幀信息從而產(chǎn)生額外的刪除錯誤,又因?yàn)樽曰貧w解碼的性質(zhì)導(dǎo)致模型在后續(xù)解碼過程中增加了一些其他類型的錯誤。

        3)從實(shí)驗(yàn)結(jié)果中還可以看出,使用Intermediate CTC 加強(qiáng)模型對編碼器的約束,不僅顯著提高了模型的魯棒性,還降低了DRB 給模型精度帶來的損失,精度損失減小一半。這是因?yàn)镈RB 方法依賴模型CTC 尖峰序列來判斷是否去除冗余幀,當(dāng)使用Intermediate CTC 增強(qiáng)對編碼器的約束后,CTC 尖峰序列準(zhǔn)確性得到提升,DRB 就能更準(zhǔn)確地去除冗余幀,減少識別精度損失。

        由于兩階段重打分的非自回歸解碼方法在推理時只進(jìn)行一次Transformer 解碼器的前向計(jì)算,因此只在解碼器交叉注意力層中使用DRB,并不會給模型帶來較好的解碼加速收益。因此,在兩階段重打分解碼方式的第一個解碼步驟中,也使用DRB 處理后得到的壓縮特征作為前綴波束解碼的輸入,在GPU 上的實(shí)驗(yàn)結(jié)果如表2~表4 所示,表4 中Conf 指Conformer+Inter CTC 模型。

        表2 AISHELL-1 中DRB 對Transformer 非自回歸解碼的改善效果Table 2 Improvement effect of DRB on Transformer non-autoregressive decoding in AISHELL-1

        表3 LibriSpeech 中DRB 對Transformer 非自回歸解碼的改善效果Table 3 Improvement effect of DRB on Transformer non-autoregressive decoding in LibriSpeech

        表4 AISHELL-1 中DRB 在不同Beam_size 下非自回歸解碼的RTFTable 4 RTF of DRB for non-autoregressive decoding at different Beam_size in AISHELL-1

        結(jié)合表2~表4 的實(shí)驗(yàn)結(jié)果可以看出:

        1)與DRB 對自回歸解碼方式的改善結(jié)果不同,將DRB 用于重打分非自回歸解碼方式上時,模型在GPU 上的推理速度也能得到顯著提升,2 個數(shù)據(jù)集中RTF 均提高58%左右。結(jié)合表4 可以看到,這種提升幅度隨著參數(shù)Beam_size 的大小而有所改變,但是整體上是有明顯的解碼加速效果。兩階段重打分的非自回歸方法因?yàn)門ransformer 解碼器只運(yùn)行一遍,所以解碼的大部分時間開銷在第一階段的CTC 前綴波束搜索解碼過程中產(chǎn)生。將DRB 處理后的特征序列用于第一階段解碼時,波束法的搜索路徑變短,縮短了這一過程的耗時,進(jìn)而加快了整個解碼過程。Beam_size 越大,解碼搜索的路徑越寬,識別精度得到改善的同時解碼耗時會顯著增加,此時DRB 的改善效果就會越顯著。

        2)非自回歸解碼方式上的識別準(zhǔn)確率與自回歸解碼中結(jié)果相似,因?yàn)镈RB 使得特征序列中某部分特征幀被刪除,導(dǎo)致重打分的第一階段解碼時缺少了部分有用幀,模型刪除錯誤隨之增加。然而,DRB刪除部分冗余特征幀后,使得重打分階段Transformer 的注意力層能更好地關(guān)注有用幀信息,這在一定程度上降低了模型替換類型錯誤的產(chǎn)生,使得模型識別精度得到改善。

        為進(jìn)一步驗(yàn)證DRB 對Transformer 解碼性能的提升效果,將其與其他端到端模型進(jìn)行對比,實(shí)驗(yàn)結(jié)果如表5、表6 所示。

        表5 AISHELL-1 上不同Transformer 解碼模型的對比實(shí)驗(yàn)結(jié)果Table 5 Comparative experimental results of different Transformer decoding models on AISHELL-1

        表6 LibriSpeech 上不同Transformer 解碼模型的對比實(shí)驗(yàn)結(jié)果Table 6 Comparative experimental results of different Transformer decoding models on LibriSpeech

        表5、表6 是使用DRB 的重打分解碼模型與其他Transformer 解碼模型的對比實(shí)驗(yàn)結(jié)果。本文使用的NVIDIA GeForce GTX 2080 硬件推理性能略高于Paraformer 與Improved CASS-NAT 模型使用的NVIDIA Tesla V100設(shè)備,低于LASO-BERT使用 的NVIDIA GeForce GTX 2080TI,但是本文使用的方法能取得更優(yōu)的性能。AL-NAT(S)使用NVIDIA Tesla P4 設(shè)備,與本文模型取得的RTF 結(jié)果相近,但是CER 值卻明顯提高。因此,與對比Transformer 模型相比,使用DRB 加速后的兩階段重打分解碼方法具有更快、更好的識別性能。

        4 結(jié)束語

        本文提出一種丟棄冗余空白塊的Transformer 解碼加速方法,以CTC/AED 結(jié)構(gòu)為基礎(chǔ),利用CTC 分類器的尖峰序列去除編碼器特征中冗余的空白幀,減小解碼器的計(jì)算量,僅通過微調(diào)訓(xùn)練就可以有效地提高解碼效率。在AISHELL-1 與LibriSpeech 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果驗(yàn)證了所提方法在高信噪比數(shù)據(jù)集上的有效性。下一步將針對額外噪聲環(huán)境下CTC 性能下降導(dǎo)致DRB 方法誤差變大的問題進(jìn)行研究,在不損失識別精度的前提下提高解碼效率。

        猜你喜歡
        解碼器聲學(xué)解碼
        《解碼萬噸站》
        科學(xué)解碼器(一)
        科學(xué)解碼器(二)
        科學(xué)解碼器(三)
        愛的就是這股Hi-Fi味 Davis Acoustics(戴維斯聲學(xué))Balthus 70
        線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
        解碼eUCP2.0
        中國外匯(2019年19期)2019-11-26 00:57:32
        Acoustical Treatment Primer:Diffusion談?wù)劼晫W(xué)處理中的“擴(kuò)散”
        NAD C368解碼/放大器一體機(jī)
        Acoustical Treatment Primer:Absorption談?wù)劼晫W(xué)處理中的“吸聲”(二)
        亚洲欧洲高潮| 久久精品国产亚洲av久| 精品国产一二三产品区别在哪| 欧美多毛肥胖老妇做爰| 无码精品国产午夜| 少妇人妻精品久久888| 男人女人做爽爽18禁网站| 久久棈精品久久久久久噜噜| 99福利影院| 亚洲成人一区二区av| 日韩精品真人荷官无码| 少妇熟女视频一区二区三区| 九月色婷婷免费| 在线国人免费视频播放| 久久不见久久见免费影院国语 | 99riav国产精品视频| 日韩a无v码在线播放| 欧美成人高清手机在线视频 | 国产成人cao在线| 日本免费大片一区二区三区| 日韩av无码久久一区二区| 六月丁香婷婷色狠狠久久| 国产熟女av一区二区三区四季| 午夜av天堂精品一区| 永久黄网站免费视频性色| 精品国产一级毛片大全| 男女啪啪免费视频网址| 欧美激情视频一区二区三区免费| 国产成人亚洲精品无码mp4| 99综合精品久久| 亚洲中文字幕精品久久a| 乱色精品无码一区二区国产盗| 欧美亚洲日韩国产区| 日本一区二区三区一级免费| 西川结衣中文字幕在线| 女厕厕露p撒尿八个少妇| 亚洲AV乱码毛片在线播放| 干出白浆视频在线观看| 野外亲子乱子伦视频丶| 国产精品毛片无码久久| 天堂av国产一区二区熟女人妻|