亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        端到端流式語音識別研究綜述

        2023-01-29 13:11:00王澳回宋文宇
        計算機工程與應用 2023年2期
        關鍵詞:流式編碼器標簽

        王澳回,張 瓏,宋文宇,孟 杰

        1.天津師范大學 計算機與信息工程學院,天津300387

        2.廣州華立科技職業(yè)學院 計算機信息工程學院,廣州511325

        語音識別模型從最初的基于GMM-HMM[1]的模型,發(fā)展到基于DNN-HMM[2-4]深度神經(jīng)網(wǎng)絡模型,再到現(xiàn)在的端到端[5-8]語音識別模型,已經(jīng)歷經(jīng)三個階段。通過這三個階段的發(fā)展,模型結構越加簡單,語音識別的準確率幾乎趨于飽和狀態(tài),然而,大部分模型都是針對非流式語音識別而言的,在測試模型性能的時候很少會去考慮模型識別延遲的問題。近幾年來,語音識別模型進入端到端的時代,不再依賴傳統(tǒng)語音識別系統(tǒng)中已經(jīng)使用了幾十年的建模組件,使用單個網(wǎng)絡便可將輸入的語音序列直接轉(zhuǎn)換成輸出的標簽序列,使得模型的尺寸更小,因此,大量研究人員開始從深度神經(jīng)網(wǎng)絡模型轉(zhuǎn)向研究端到端語音識別模型,另外,大量的研究證明,端到端模型已經(jīng)在學術研究領域[7]以及工業(yè)生產(chǎn)領域[9-10]超越了基于DNN-HMM的深度神經(jīng)網(wǎng)絡模型。未來幾年,端到端模型將是語音識別領域研究的重點。常見的端到端模型有CTC[11]、RNN-T[12]、attention-based encoderdecoder[13-14]、LAS[8]等模型,前兩種能夠直接實現(xiàn)流式識別,而后兩種模型由于注意力機制需要獲取完整的聲學序列而不能夠直接進行流式識別。流式語音識別又稱為實時語音識別,它指的是用戶在說話的時候模型便已經(jīng)開始進行識別,與之相對的非流式識別則是用戶說完了一句話或一段話之后模型開始識別。隨著科技的不斷發(fā)展,各種穿戴式、便攜式的智能設備,以及大量的應用軟件已經(jīng)完全融入大眾生活,常用的輸入法、在線會議、直播、實時翻譯等一系列的應用存在著流式語音識別的需求。端到端流式識別模型不需要額外的語言模型,更容易部署在設備端,另外,智能客服等多種需要流式識別的人機交互場景也在不斷產(chǎn)生,所以端到端流式語音識別模型將會是未來幾年的研究熱點,而且也具有廣闊的應用前景。因此,本文主要從模型結構、性能優(yōu)化、常用的中英文開源數(shù)據(jù)集以及模型性能評價標準等方面分析總結了目前端到端流式語音識別模型的研究狀況,進而提出了未來的發(fā)展與展望。

        2021年國外有兩篇相關的語音識別領域的綜述,文獻[15]主要總結了近十年語音識別模型結構與性能的發(fā)展,并從研究與應用兩個方面預測了語音識別未來十年的發(fā)展趨勢。文獻[16]詳細概述了端到端語音識別模型的發(fā)展及其在實際工業(yè)生產(chǎn)中的應用情況,同時從行業(yè)角度出發(fā),重點介紹了端到端語音識別模型如何去解決未來的應用部署中的一些挑戰(zhàn)與困難。以上兩篇文章都是從大的領域、更高視野出發(fā),總結概述端到端語音識別的發(fā)展,而這篇文章,則是聚焦到端到端流式語音識別這個領域,去分析總結其發(fā)展現(xiàn)狀。

        1 端到端流式語音識別模型

        1.1 可直接實現(xiàn)流式識別的端到端模型

        在端到端流式語音識別模型中,能夠直接進行流式識別的模型主要有connectionist temporal classification(CTC)[11]、recurrent neural network transducer(RNN-T)[12]、recurrent neural aligner(RNA)[17]等模型。文獻[11]提出connectionist temporal classification(CTC)損失函數(shù),用來對模型中的循環(huán)神經(jīng)網(wǎng)絡產(chǎn)生的轉(zhuǎn)錄進行評分,使得模型能夠完成音頻幀與標簽的自動對齊。從端到端語音識別模型的發(fā)展來看,CTC最先被應用到端到端語音識別模型[5-6,18-23],它能夠直接將輸入的語音序列轉(zhuǎn)換成輸出的標簽序列,其結構如圖1[16]所示,輸入的語音序列xt通過編碼器進行編碼輸出特征表示,再經(jīng)過一個線性分類器得到每個時刻輸出類別的概率P(yt|xt)。

        圖1 CTC結構Fig.1 Structure of CTC

        通過在編碼器中使用單向的循環(huán)神經(jīng)網(wǎng)絡(unidirectional RNN),CTC模型能夠?qū)崿F(xiàn)流式語音識別。文獻[12]提出了recurrent neural network transducer(RNN-T)模型,該模型為流式語音識別提供了一種自然的方式,因為它的輸出取決于之前的輸出標簽序列和當前步及之前的輸入語音序列,即P(yu|x1:t,y1:u-1),通過這種方式,消除了CTC的條件獨立假設,由于其具備自然的流式性質(zhì),在該領域應用中受到了廣泛的使用[9,24-31]。

        RNN-T模型的結構如圖2[16]所示,它包含一個編碼器網(wǎng)絡、一個預測網(wǎng)絡和一個聯(lián)合網(wǎng)絡,編碼器將輸入的語音序列xt轉(zhuǎn)換成高級特征表示,預測網(wǎng)絡基于RNN-T之前的輸出標簽y1:u-1,生成高級表示聯(lián)合網(wǎng)絡是一個前饋網(wǎng)絡,將ht與hu作為輸入,輸出zt,u。

        圖2 RNN-T結構Fig.2 Structure of RNN-T

        針對CTC所存在條件獨立性假設的問題,文獻[17]提出了一種新的模型:recurrent neural aligner(RNA),類似于CTC模型,該模型定義了目標標簽序列上的概率分布,包括對應于輸入中每個時間步長的空白標簽,通過邊緣化所有可能的空白標簽位置來計算標簽序列的概率。但該模型并不做標簽預測的條件獨立性假設,此外,它在輸入的每個時間步預測一個輸出標簽,而不是通過RNN-T預測多個標簽,從而簡化了波束搜索解碼,使得訓練更加有效,在執(zhí)行流式語音識別任務時,它成功地應用于多種口語識別任務[32]。

        1.2 改進后可實現(xiàn)流式識別的端到端模型

        在端到端語音識別模型中,基于注意力[33-36]的模型由于其自身特點不能夠直接實現(xiàn)流式識別,而這些模型已經(jīng)被證明在機器翻譯[37-38]、語音識別[34,39]等領域的許多問題中非常有效,在該結構中,首先,編碼器對整個輸入序列進行編碼,產(chǎn)生相對應的隱藏狀態(tài)序列,其次,解碼器根據(jù)編碼器所產(chǎn)生的狀態(tài)序列來進行預測,最終產(chǎn)生輸出序列。目前,基于注意力的端到端模型已在相關的語音識別[34,40]任務中取得了重大進展,在識別準確率方面,實現(xiàn)了非流式語音識別模型的最好性能[39]。然而,基于注意力模型并不能夠直接應用于流式語音識別問題,一方面,這些模型通常需要獲取完整的聲學序列作為輸入,使得編碼與解碼不能夠同步進行;另一方面,對于語音來說,它們沒有固定的長度,模型的計算復雜度隨著輸入序列的增加而二次增加。為了能夠?qū)⒆⒁饬C制應用于流式語音識別任務中,大量的研究人員針對以上問題開展研究,通過對全局注意(local attention)機制做出改進,針對在時刻t將哪一部分的輸入序列信息進行編碼,同時對于已編碼的信息,將哪一部分進行解碼的問題,提出了基于單調(diào)注意力機制(monotonic attention mechanism)[41-45]、基于塊(chunk-wise)[46-51]、基于信息累積(accumulation of information)[52-55]以及觸發(fā)注意(triggered attention)[56-58]等方法。

        1.2.1 基于單調(diào)注意力機制的方法

        文獻[42]提出了一種局部單調(diào)注意(local monotonic attention)機制,它具有局部性和單調(diào)性,局部性幫助模型的注意模塊專注于解碼器想要轉(zhuǎn)錄的輸入序列的某一個部分,單調(diào)性嚴格地從輸入序列的開始到結束左右生成對齊。該機制迫使模型在每個解碼步驟預測中心位置,并僅在中心位置周圍計算軟注意權重。然而,僅僅基于有限的信息,很難準確預測下一個中心位置。與軟注意相比較,硬單調(diào)性約束限制了模型的表達能力,文獻[43]提出了單調(diào)組塊注意(monotonic chunk-wise attention,MoChA)機制來縮小軟、硬注意之間性能的差距,它基于預測的選擇概率自適應地將編碼的狀態(tài)序列分割成小的組塊,如圖3[43]所示,塊邊界由虛線表示,允許模型在硬單調(diào)注意機制選擇參與的小組塊上執(zhí)行軟注意,但是它的訓練過程非常復雜困難,以至于最終難以實現(xiàn)。

        圖3 單調(diào)組塊注意Fig.3 Monotonic chunk-wise attention

        文獻[44]提出了單調(diào)多頭注意(monotonic multihead attention,MMA),該機制結合了多層多頭注意和單調(diào)注意的優(yōu)點,同時提出了兩種變體,即Hard MMA(MMA-H)和Infinite Lookback MMA(MMA-IL),前者在設計時考慮到了注意力持續(xù)時間必須有限的流式系統(tǒng),而后者強調(diào)識別系統(tǒng)的質(zhì)量。文獻[45]對于一些應用局部單調(diào)注意機制的模型的變體進行了修改,同時也對這些模型進行了全面的比較,最后通過采用固定大小的窗口實現(xiàn)了一種簡單有效的啟發(fā)式執(zhí)行局部注意的方法。

        1.2.2 基于塊的方法

        文獻[46]提出了Neural Transducer,它根據(jù)部分觀察到的輸入序列和部分生成的序列來計算下一步的分布,使用編碼器來處理輸入,將處理后的結果作為Transducer的輸入,在每個時間步長,根據(jù)編碼器處理好的輸入塊,Transducer決定可以產(chǎn)生零到多個輸出標簽,由此實現(xiàn)流式解碼,然而,由于該模型受到循環(huán)神經(jīng)網(wǎng)絡時間相關特性的束縛,它僅僅優(yōu)化對應于組塊序列的近似最佳對齊路徑。文獻[47]使用自注意模塊替代了RNN-T結構中的RNN模塊,提出了一種自注意transducer(self-attention transducer,SAT),它能夠利用自注意塊來模擬序列內(nèi)部的長期依賴性,同時引入了塊流(blockflow)機制,通過應用滑動窗口來限制自注意的范圍,并且堆疊多個自注意塊來模擬長期依賴性,但從整體而言,雖然塊流機制能夠幫助SAT實現(xiàn)流式解碼,但仍然引起了識別準確率的下降。因此,文獻[49]提出了一 種 同 步transformer(synchronous transformer,Sync-Transformer)模型,能夠同步進行編碼與解碼,其結構與推理過程如圖4[49]所示。Sync-Transformer將transformer與SAT深入組合,為了消除self-attention機制對于未來幀的依賴,則強制編碼器中的每個節(jié)點僅僅關注左側上下文并完全忽略右側上下文。一旦編碼器產(chǎn)生了固定長度的狀態(tài)序列塊,解碼器則立即開始預測標簽。

        圖4 Synchronous Transformer的結構與推理過程Fig.4 Structure and reasoning process of Synchronous Transformer

        1.2.3 基于信息堆疊的方法

        文獻[53]提出了自適應時間(adaptive computation time,ACT)算法,該算法支持RNN以學習在接受輸入和產(chǎn)生輸出之間需要采取多少計算步驟,為后續(xù)自適應計算步的研究打下了基礎。文獻[54]提出了一種新穎的自適應計算步算法(adaptive computation steps,ACS),該算法使端到端語音識別模型能夠動態(tài)地決定應該處理多少幀來預測語言輸出,一方面,對準器在思考間隔內(nèi)計算每個編碼器時間步長停止的概率,并且像基于軟注意模型一樣來總結上下文向量,另一方面,該模型不斷檢查停止概率的累積,如果總和達到閾值之后立即做出輸出的決定。文獻[55]提出了解碼器端自適應計算步算法(decoder-end adaptive computation steps,DACS)來解決標準transformer不能夠直接用于流式識別的問題,該算法通過在從編碼器狀態(tài)獲得的置信度達到某個閾值之后觸發(fā)輸出來傳送transformer ASR的解碼,通過引入最大前瞻(look-ahead)性步驟來限制DACS層可以查看每個輸出步驟的時間步數(shù),以防止過快地達到語音結束,但DACS對transformer解碼器采用異步多頭注意機制,破壞了在線解碼的穩(wěn)定性。受到spiking neural networks中的integrate-and-fire模型的啟發(fā),文獻[66]提出了用于序列轉(zhuǎn)換的新型軟單調(diào)對比機制continuous integrate-and-fire(CIF),能夠支持各種在線識別任務以及聲學邊界定位。在每個編碼器步中,接受當前編碼器步的向量表示和縮放向量中包含的信息量的相應權重,向前累積權重并積分向量信息,直到累積的權重達到閾值,此時聲學邊界被定位,且當前的編碼器步的聲學信息由兩個相鄰標簽共享,CIF將信息分為兩個部分:一部分用于完成當前標簽的集成;另一部分用于下一個標簽的集成,模擬處理在編碼器步期間的某個時間點觸發(fā)時,將集成的聲學信息觸發(fā)到解碼器以預測當前標簽,如圖5[56]所示,每條虛線代表一次觸發(fā),直到整個聲學序列完成編碼。文獻[57]提出了存儲器自注意傳感器(memory-self-attention transducer,MSAT),其結構如圖6[57]所示,MSA模塊將歷史信息添加到受限制的自我注意單元中,通過參與存儲器狀態(tài)有效地模擬長時間的上下文,并使用RNN損失來對MSA模塊進行訓練,實現(xiàn)了該結構在流式任務中的應用。

        圖5 CIF編碼過程Fig.5 Encoding process of CIF

        圖6 MAST結構Fig.6 Structure of MAST

        1.2.4 其他方法

        以上提出來的方法能夠?qū)崿F(xiàn)流式語音識別,但也存在問題?;趩握{(diào)注意力機制的方法由于使用軟硬注意機制導致訓練過程非常困難;基于塊的方法往往由于忽略組塊之間的關系而導致性能下降;而基于信息堆疊的方法打破了Transformer在訓練中的并行性,通常需要更長的訓練時間[58]。文獻[59]提出了觸發(fā)注意(triggered attention,TA)[59-61],其結構如圖7[59]所示,TA解碼器由一個觸發(fā)模型和一個基于注意的解碼器神經(jīng)網(wǎng)絡組成,編碼器神經(jīng)網(wǎng)絡由觸發(fā)網(wǎng)絡和注意機制共享。注意權重只能看到觸發(fā)事件之前的編碼器幀及一些向前的幀。在訓練期間,CTC輸出序列的強制對齊用于導出觸發(fā)的時間,在解碼期間,考慮CTC訓練的觸發(fā)模型的不確定性以分別生成替代的觸發(fā)序列和輸出序列,推理以幀同步解碼方式進行。此外,一些研究人員用Transformer替換了RNN-T結構中的RNN,構建了Transformer Transducer(TT)[62-69]結構,大量的研究[62-69]證明了該結構也具有較好的流式識別能力。

        圖7 Triggered attention系統(tǒng)結構Fig.7 System structure of Triggered attention

        2 端到端流式語音識別模型的優(yōu)化方法與策略

        端到端流式語音識別模型是當前語音識別領域的研究熱點與重點,對于非流式模型而言,需要占用盡可能小的內(nèi)存去實現(xiàn)更高的識別準確率,然而,對于流式識別模型,既需要考慮模型的識別準確率又需要考慮識別的延遲大小。這兩個方面共同決定了流式語音識別模型的性能。以下將從延遲與準確率兩個方面來探索流式語音識別模型的優(yōu)化問題。

        2.1 如何降低流式語音識別模型的延遲

        當識別一句話時,一般有兩種語音延遲[70]:第一種是第一標簽產(chǎn)生延遲(first token emission delay),通過分析用戶實際說話開始時間與語音識別系統(tǒng)實際產(chǎn)生出第一個標簽的時間可以獲取到該種延遲的時間;第二種是用戶感知延遲(user perceived latency),當用戶停止說話時開始計時,直到模型發(fā)出最后一個非空標簽,一般將這段時間稱為用戶感知延遲。

        近期研究[70]表明影響流式語音識別模型用戶感知延遲的主要因素有模型結構、訓練標準、解碼超參數(shù)以及端點指示器,而模型的大小與模型計算速度并不總是嚴重影響用戶感知延遲。目前,研究人員主要從訓練策略、對齊與正則化[71]訓練等角度出發(fā)來探索如何降低模型的延遲,文獻[72]提出一種自適應的前瞻(adaptive look-ahead)方法來權衡延遲和詞錯率,其中的上下文窗口大小并不固定,可以動態(tài)地修改,引入scout network(SN)和recognition network(RN)兩個神經(jīng)組件,其中,scout network負責檢測語音中一個單詞的開始和結束邊界,recognition network通過向前看預測邊界進行幀同步單通道解碼,雖然這個方法在權衡延遲與準確率方面取得了很好的效果,但SN沒有解決隨著左上下文長度的平方增長的繁重的自我注意計算。文獻[73]基于MoChA提出了最小延遲訓練策略(minimum latency training strategies),利用從混合模型中提取的外部硬對齊作為監(jiān)督,迫使模型學習準確的對齊方式,在解碼器端提出了延遲約束訓練(DeCoT)和最小延遲訓練(MinLT)兩種方法,有效地減少了模型的延遲。文獻[74]則從模型結構與端點指示器出發(fā),提出了一個雙通道的RNN-T+LAS模型,其中LAS對RNN-T的假設進行重評分,同時通過預測查詢結束(end-of-query)符號,將EOQ端點指示器集成到端到端模型中,用來幫助關閉麥克風,這種方法實現(xiàn)了端到端模型在質(zhì)量與延遲的權衡方面對傳統(tǒng)混合模型的首次超越。文獻[75]提出了一種新的延遲約束方法:自對準,該方法不需要外部對準模型,而是通過利用自訓練模型的維特比強制對齊來尋找較低延遲對齊方向。文獻[76]從延遲正則化訓練的角度出發(fā),基于Transducer的流式模型提出了一種新的序列級產(chǎn)生正則化方法FastEmit,在訓練transducer模型時能夠直接對每序列概率應用延遲正則化,而不需要任何語音-單詞對齊信息,同時,相較于其他正則化方法,F(xiàn)ast-Emit方法需要調(diào)整的超參數(shù)最少。通過在大量端到端模型上展開實驗,表明該方法能夠?qū)崿F(xiàn)很好的詞錯率與延遲的權衡。通過以上研究可知目前已有限制對齊、正則化等多種方法可以相對解決流式語音識別模型的延遲問題,大多數(shù)的方法雖然降低了模型的延遲,但同時也導致了識別質(zhì)量的下降,這將是未來仍需不斷探索的一個研究方向。

        2.2 如何提高流式語音識別模型的準確率

        提高語音識別模型的準確率一直是個熱門話題,從1988年第一個基于隱馬爾科夫模型(HMM)的語音識別系統(tǒng)Sphinx[77]誕生開始,到現(xiàn)在語音識別模型步入端到端的時代,研究人員不斷做出探索希望語音識別模型的準確率能夠得到進一步提升,從傳統(tǒng)混合模型[78]到深度神經(jīng)網(wǎng)絡模型[2]再到現(xiàn)在的端到端模型[40],模型結構改變的同時,語音識別模型準確率也得到大幅度提升。與非流式模型一樣,提升流式模型準確率的方式有改變模型基本結構、預訓練、擴大數(shù)據(jù)域、最小詞錯率訓練(MWER)[79-83]、知識蒸餾[84-89]等方式,其中,改變模型結構已在第1章進行闡述。文獻[73]以MoChA作為流式語音識別模型,在編碼器端,采用了多任務學習并使用幀交叉熵目標進行預訓練,提升了模型的識別準確率。文獻[83]提出了一種新穎且有效的基于RNN-T模型的MWER訓練算法,對N個最佳列表中每個假設的所有可能對比的得分求和,并使用它們來計算參考和假設之間的預期編輯距離,當為endpointer(EP)添加end-ofsentence(EOS),所提出的MWER訓練還可以顯著減少高刪除錯誤。文獻[84]研究了基于知識蒸餾的模型壓縮方法來訓練CTC聲學模型,評估了CTC模型的幀級知識蒸餾方法和序列級知識蒸餾方法,通過在WSJ數(shù)據(jù)集上展開實驗,提高了模型的識別準確率。文獻[90]實現(xiàn)了從非流式雙向RNN-T模型到流式單向RNN-T模型的知識蒸餾,實驗結果表明,通過所提出的知識蒸餾訓練的單向RNN-T比用標準方法訓練的單向模型具有更好的準確性。文獻[85]研究了非流式到流式Transformer-Transducer模型的知識蒸餾,在實驗中比較了兩種不同的方法:隱藏向量的L2距離最小化和頭部L2距離的最小化,實驗結果表明,基于隱藏向量相似性的知識蒸餾優(yōu)于基于多頭相似性的知識蒸餾。

        3 數(shù)據(jù)集與評估標準

        3.1 數(shù)據(jù)集

        在語音識別領域,ASR模型性能的優(yōu)劣不僅僅與模型的架構有關,同時也依賴于量大且質(zhì)量高的數(shù)據(jù)集。隨著互聯(lián)網(wǎng)與一些終端設備的不斷發(fā)展,每天都會產(chǎn)生大量的數(shù)據(jù)信息,通過對電話錄音、新聞、智能家居、科學研究等領域相關語音信息的收集,各大科研機構、數(shù)據(jù)公司相繼發(fā)布了一系列的語音數(shù)據(jù)集。為語音識別領域的科研發(fā)展提供了基本的實驗條件。目前,一些科研機構、數(shù)據(jù)公司已經(jīng)開源了他們的數(shù)據(jù)集,以供學術界免費使用進行科學研究,通過OpenSLR平臺,能夠獲取來自世界各地的開源語音數(shù)據(jù)資源,然而,由于法律以及商業(yè)等一方面的原因,大量的數(shù)據(jù)集需要購買才能夠獲得相關的使用權限。本節(jié)將主要介紹一些中文普通話以及英語等常見的一些數(shù)據(jù)集。

        中文語音識別開源數(shù)據(jù)集如表1所示,2015年,清華大學信息技術研究院語音語言技術中心發(fā)布了第一個開源中文語音數(shù)據(jù)庫THCHS30[91],以幫助研究人員搭建起第一個語音識別系統(tǒng)。但是該數(shù)據(jù)集的語音總時長僅僅只有35 h,對于模型的訓練還不夠充分,2017年,北京希爾貝殼科技有限公司發(fā)布了AISHELL-1[92]語料庫,成為了當時最大的開源漢語語音識別語料庫,沖浪科技也發(fā)布了ST-CMDS語音數(shù)據(jù)集[93],2018年,北京希爾貝殼科技有限公司發(fā)布了AISHELL-2[94]語料庫,上海原語公開了Primewords Set1數(shù)據(jù)集,2019年,數(shù)據(jù)堂(北京)科技有限公司開源了中文普通話語音數(shù)據(jù)集DTZH1505[93],記錄了6 408位來自中國八大方言地域、33個省份的說話人的自然語言語音,時長達1 505 h,語料內(nèi)容涵蓋社交聊天、人機交互、智能客服以及車載命令等[93],這是目前最大最全面的中文開源語音數(shù)據(jù)集。

        表1 部分常用漢語普通話開源數(shù)據(jù)集Table 1 Part of common Mandarin open source data set

        在語音識別領域,最早開源的是一些國外的語音數(shù)據(jù)集,如表2所示,正是由于這些科研機構、企業(yè)開源了大量的優(yōu)質(zhì)數(shù)據(jù)集,在此基礎上,語音識別模型的性能能夠得到一次又一次的提升。1993年,美國的一些科研機構發(fā)布了語音數(shù)據(jù)集TIMIT[95],該數(shù)據(jù)集旨在為獲取聲學語音知識以及開發(fā)和評估自動語音識別系統(tǒng)提供語音數(shù)據(jù),由于該數(shù)據(jù)集較小同時標記信息比較完整,研究人員能夠快速完成實驗并展現(xiàn)出模型的性能。此后,美國等多個科研機構開源了多個大型語音數(shù)據(jù)集,例 如TED-LIUM[96]、LibriSpeech[97]、Common Voice[98]、MLS[99]、The People’s Speech[100]、GigaSpeech[101],這些數(shù)據(jù)集中的數(shù)據(jù)通過智能設備、音頻錄制、自動合成等多種方式進行獲取,此外,一些數(shù)據(jù)集也采集了一些無標簽數(shù)據(jù)用于無監(jiān)督學習。

        表2 部分常用外語開源數(shù)據(jù)集Table 2 Part of foreign languages open source data set

        3.2 評價指標

        對于端到端流式識別模型來說,主要通過模型的準確率與識別的延遲兩個方面來評價其性能的優(yōu)劣,在準確率方面,通過計算出語句的詞錯率(word error rate,WER)或者字錯率(character error rate,CER)來評價模型,常用詞錯率來計算,把T作為一句話中的總單詞數(shù),S作為識別結果中替換單詞數(shù),D作為識別結果中刪除的正確話語中的單詞數(shù)[102],I作為沒有在正確話語中而出現(xiàn)在識別結果中的插入單詞數(shù),那么詞錯率(WER)則定義為:

        WER的值越低,則說明模型的識別準確率越高,性能越好。在延遲方面,實時因子(real time factor,RTF)則是流式語音識別過程中的評價標準,它的值小于1的時候,稱模型是實時識別的,此外也可以計算出語句級或詞語級的延遲數(shù)值(latency)。把M作為一段音頻的時長,把N作為識別出這段音頻的時長,則實時因子(RTF)則定義為:

        RTF的值越小,則說明延遲越小,模型的性能越好。

        4 流式語音識別模型的未來發(fā)展方向與應用

        雖然端到端語音識別模型已經(jīng)超越了傳統(tǒng)混合模型的性能,實現(xiàn)了輸入語音序列直接產(chǎn)生對應的標簽序列,極大程度簡化了模型的訓練過程,但端到端流式語音識別仍是一個需要重點關注的任務,在其性能準確率與識別延遲的權衡問題上仍然值得研究人員去深入研究與探索。本章從七個方面提出一些問題,這些問題值得今后進一步去思考研究。

        (1)“詞錯率-延遲”如何權衡。

        一般來說,減小語音識別的延遲常常需要以降低識別精確度為代價。對于一個流式語音識別模型,可以通過大量的實驗繪制出詞錯率-延遲曲線,隨著延遲的降低,其詞錯率在隨之增加,詞錯率-延遲的權衡問題,其折中點在何處?在可以接受的識別質(zhì)量的情況下,其能做到的最小延遲是多少?這仍需要結合實際的應用需求來進一步地探索。

        (2)流式與非流式模型的統(tǒng)一結構

        在模型的結構方面,常見的模型為流式識別模型或者非流式識別模型,它們都是流式或非流式單一結構?;谌⒁饬Φ亩说蕉四P湍軐崿F(xiàn)最優(yōu)性能,因此,在處理非流式任務時,研究人員一般選擇基于全注意力的端到端模型,以實現(xiàn)更高的準確率,但是,在處理流式任務時,則會對模型結構進行改變,選擇CTC模型、RNN-T模型以及改進的注意力模型以犧牲準確率的代價來減小識別的延遲。訓練一個模型能夠?qū)崿F(xiàn)流式識別與非流式識別兩種需求,同時大幅減少模型開發(fā)、訓練以及部署的成本,因此,流式與非流式模型的統(tǒng)一結構將會是未來語音識別領域的一個研究重點與熱點問題。文獻[103]提出了一個框架U2來將流式識別與非流式識別相統(tǒng)一,不僅降低了流式模型與非流式模型之間的精度差距,同時大幅度減少了成本。

        (3)自監(jiān)督預訓練模型

        相較于傳統(tǒng)的語音識別模型,端到端語音識別模型更需要大規(guī)模的數(shù)據(jù)。由于中文普通話、英語等語言受到廣泛的使用,獲取這類語言大規(guī)模數(shù)據(jù)集并不是一件困難的事,但當面臨中文方言或者一些比較小眾語言時,想要獲取數(shù)據(jù)集便十分困難,獲取其大規(guī)模的數(shù)據(jù)集更是難上加難。因此,可以通過自監(jiān)督學習來預訓練端到端流式語音識別模型,在預訓練的過程中不需要帶有標簽的數(shù)據(jù),有效解決低資源的問題。(4)輕體量的個性化語言模型

        傳統(tǒng)的語音識別模型由獨立的聲學、發(fā)音與語言模型組成,而端到端語音識別模型則將這三種獨立的模型統(tǒng)一成一個神經(jīng)網(wǎng)絡,對于體量較大的傳統(tǒng)語音識別模型來說,其識別精確度優(yōu)于端到端模型的主要原因是在于其具有非常大的語言模型。因此,為了提升端到端流式語音識別模型的識別準確率,可以在模型的解碼階段引入一個輕體量的個性化語言模型,這樣做既不會大幅增強模型的推理時間,同時又能夠?qū)崿F(xiàn)熱詞增強和個性化解碼。

        (5)端到端流式語音識別模型后處理

        在流式語音識別過程中,模型能夠通過部分上下文即可快速輸出識別結果,但在該過程中由于獲取的下文內(nèi)容受到限制可能也會導致識別結果出現(xiàn)一些錯誤。糾錯模型和雙通道重評分機制是語音識別后處理的兩個重要策略,但大部分糾錯模型由于采用自回歸結構導致其存在較大的延遲,并不適用于端到端流式語音識別模型后處理。然而基于多輸入的快速糾錯模型FastCorrect2[104]的提出,使得在端到端流式語音識別模型后處理過程中引入快速糾錯模型成為可能,通過快速糾錯模型或者雙通道重評分機制,可以對語音識別的結果進行檢測,快速糾正其中的錯誤,在保持低延遲的情況下,能夠進一步地提升端到端流式語音識別模型的性能。

        (6)基于設備端部署小尺寸流式語音識別模型

        近些年來,用戶數(shù)據(jù)泄漏、隱私受到侵犯、遭遇詐騙等熱點問題頻發(fā),用戶個人隱私問題越來越受到重視,同時,智能家居、智能手機以及各種可穿戴設備進入人們的生活當中。近期,一些科研人員開始研究基于設備端的流式語音識別模型部署問題[105-110]。語音識別模型一般部署在服務器端,將音頻以流的方式傳輸?shù)椒掌鞫耍诜掌魃线M行識別,最終將結果傳輸?shù)浇K端設備上,而隨著端到端模型的發(fā)展,它不需要額外的語言模型,以便將模型部署在設備端,直接在設備上完成識別工作,這有助于保護用戶的隱私,同時能夠通過減少數(shù)據(jù)傳輸時間進一步減少設備的識別延遲[70],增加模型識別的穩(wěn)定性。因此,未來基于設備端部署小尺寸的流式語音識別模型則將成為工業(yè)界應用的趨勢。

        (7)流式語音識別模型的工業(yè)應用

        目前,端到端流式語音識別模型是學術研究與工業(yè)應用的一個熱點問題,隨著人工智能技術的不斷發(fā)展,出現(xiàn)了智能客服[111]、語音售票機等大量需要流式語音識別的人機交互場景,通過將端到端流式語音識別模型應用到這些場景,能夠大幅提升語音識別的效率,節(jié)省人力,提高服務的效率。因此,未來幾年,將會出現(xiàn)更多的流式識別的語音場景,流式語音識別模型也將會更廣泛地應用到工業(yè)產(chǎn)品中。

        自2014年以來,端到端語音識別模型成為了第三代語音識別模型,在語音領域掀起了研究狂潮,同時,端到端流式語音識別也成為語音識別領域的一個熱點與重點問題,受到學術界廣泛關注,大量科研單位開展了深入的研究并取得了豐碩的研究成果。本文從流式模型實現(xiàn)方式、優(yōu)化策略、開源數(shù)據(jù)集與評價標準、未來發(fā)展等方面進行研究、總結與分析,最后也討論了未來幾年流式識別模型的發(fā)展方向,希望能夠為該領域的一些研究人員提供一些幫助。

        猜你喜歡
        流式編碼器標簽
        輻流式二沉池的結構優(yōu)化研究
        工程與建設(2019年5期)2020-01-19 06:22:38
        無懼標簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        基于FPGA的同步機軸角編碼器
        不害怕撕掉標簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        基于PRBS檢測的8B/IOB編碼器設計
        微球測速聚類分析的流式液路穩(wěn)定性評估
        標簽化傷害了誰
        JESD204B接口協(xié)議中的8B10B編碼器設計
        電子器件(2015年5期)2015-12-29 08:42:24
        自調(diào)流式噴管型ICD的設計與數(shù)值驗證
        基于多進制查詢樹的多標簽識別方法
        計算機工程(2015年8期)2015-07-03 12:20:27
        亚洲AⅤ乱码一区二区三区| 亚洲综合性色一区| 在线观看欧美精品| 97SE亚洲国产综合自在线不卡| 国产 无码 日韩| 国产一区二区三区口爆在线| 亚洲国产精品成人av| 日韩精品国产精品亚洲毛片| 加勒比东京热中文字幕| 国产麻豆剧果冻传媒一区| 成年免费视频黄网站zxgk| 少妇精品久久久一区二区三区 | 日韩欧美国产丝袜视频| 中文字幕无码免费久久| 亚洲第一女人的天堂av| 亚洲欧美日韩综合一区二区| 国产性生大片免费观看性| 麻豆精品久久久久久久99蜜桃| www.日本一区| 综合久久加勒比天然素人| 麻豆精品传媒一二三区| 久久精品99久久香蕉国产色戒 | 少妇仑乱a毛片| 又硬又粗又大一区二区三区视频| 国产乱人伦AV在线麻豆A| 一级二级三一片内射视频| 亚洲国产av一区二区四季| 婷婷综合另类小说色区| 无码国模国产在线观看| 亚洲AV秘 无码二区在线| 国产三级在线观看性色av| 久久伊人精品中文字幕有| 中文字幕日韩三级片| 亚洲 自拍 另类 欧美 综合| 精品无码久久久九九九AV| 日韩日本国产一区二区| 久久无码字幕中文久久无码| 香蕉久久人人97超碰caoproen| 视频女同久久久一区二区三区| 中文字幕高清视频婷婷| 999精品无码a片在线1级|