亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)合Conformer與N-gram的中文語音識(shí)別①

        2022-08-04 09:58:50許鴻奎盧江坤張子楓周俊杰胡文燁姜彤彤郭文濤李振業(yè)
        關(guān)鍵詞:語言模型

        許鴻奎,盧江坤,張子楓,周俊杰,胡文燁,姜彤彤,郭文濤,李振業(yè)

        1(山東建筑大學(xué) 信息與電氣工程學(xué)院,濟(jì)南 250101)

        2(山東省智能建筑技術(shù)重點(diǎn)實(shí)驗(yàn)室,濟(jì)南 250101)

        隨著科技的飛速發(fā)展,語音識(shí)別技術(shù)已經(jīng)成為了智能設(shè)備的標(biāo)配,這項(xiàng)技術(shù)貫穿了多門學(xué)科理論,包含了模式識(shí)別、電子技術(shù)、數(shù)理統(tǒng)計(jì)、信號(hào)處理、計(jì)算機(jī)科學(xué)、物理聲學(xué)、生理科學(xué)和語言學(xué)等. 由于語音交互提供了更自然、更便利、更高效的溝通形式,語音必定將成為未來最主要的人機(jī)互動(dòng)接口之一.

        在20 世紀(jì)50 年代,貝爾實(shí)驗(yàn)室就開始基于簡(jiǎn)單的孤立詞語音識(shí)別技術(shù)的研究[1]. 1968 年,蘇聯(lián)科學(xué)家Vintsyuk 提出采用動(dòng)態(tài)規(guī)劃的算法實(shí)現(xiàn)動(dòng)態(tài)時(shí)間規(guī)整(dynamic time warping,DTW)[2,3],一度成為當(dāng)時(shí)語音識(shí)別的主流技術(shù). 后來模式識(shí)別、動(dòng)態(tài)規(guī)劃算法和線性預(yù)測(cè)編碼這3 種技術(shù)被引入到語音識(shí)別中,成功的使得孤立詞語音識(shí)別系統(tǒng)從理論上得以完善,并且可以達(dá)到實(shí)用化的水平[4,5]. 進(jìn)入80 年代后,基于隱馬爾科夫模型(hidden Markov model,HMM)[6,7]的聲學(xué)建模和基于N-gram 的語言模型在語音識(shí)別中得到運(yùn)用[8,9],這時(shí)期語音識(shí)別開始從孤立詞識(shí)別系統(tǒng)向大量詞匯連續(xù)語音識(shí)別系統(tǒng)發(fā)展. 后來又結(jié)合高斯混合模型(Gaussian mixed model,GMM),形成基于高斯混合模型-隱馬爾可夫模型(Gaussian mixed model-hidden Markov model,GMM-HMM)[10]的語音識(shí)別框架,使基于HMM 的語音識(shí)別模型效果得到提升.

        進(jìn)入21 世紀(jì)后,深度學(xué)習(xí)技術(shù)不斷發(fā)展,在2011 年,微軟研究院的Deng 等人以音素狀態(tài)為建模單位提出了深度神經(jīng)網(wǎng)絡(luò)-隱馬爾可夫模型(DNN-HMM)的識(shí)別方法,用DNN 模型代替原來的GMM 模型,對(duì)每一個(gè)狀態(tài)進(jìn)行建模,顯著降低了錯(cuò)誤率[11]. 但DNN-HMM語音識(shí)別模型的性能還是會(huì)受到數(shù)據(jù)強(qiáng)制分割、對(duì)齊、HMM 遺留的多模塊獨(dú)立訓(xùn)練等問題的限制[12].

        到2015 年,從聯(lián)結(jié)時(shí)序分類算法(connectionist temporal classification,CTC)[13]引入到語音識(shí)別領(lǐng)域后,端到端技術(shù)開始流行. 端到端技術(shù)將整個(gè)識(shí)別網(wǎng)絡(luò)簡(jiǎn)化成一個(gè)單一的網(wǎng)絡(luò)結(jié)構(gòu),在訓(xùn)練時(shí)只需要注意整個(gè)系統(tǒng)的輸入和輸出,直接將輸入音頻序列映射到單詞或其他字素序列,大大減少了對(duì)語音識(shí)別系統(tǒng)構(gòu)建的難度,受到越來越多研究人員的歡迎[14–16].

        近幾年,研究人員注意到具有自注意力機(jī)制的深度神經(jīng)網(wǎng)絡(luò)模型 “Transformer”[17],在機(jī)器翻譯、計(jì)算機(jī)視覺等領(lǐng)域中展現(xiàn)出強(qiáng)勁識(shí)別的性能. Dong 等人首次將Transformer 模型引入到語音識(shí)別領(lǐng)域中來,使得Transformer 能夠完成語音識(shí)別任務(wù)[18]. Transformer 在提取長(zhǎng)序列依賴的時(shí)候更有效,但是提取局部細(xì)微特征的能力較弱,而卷積則更擅長(zhǎng)提取局部特征[19–21].Conformer 模型[22]將卷積模塊加入到Transformer 模型的編碼器部分,達(dá)到增強(qiáng)識(shí)別效果的目的. Transformer模型在推理過程中無需使用語言模型即可獲得不錯(cuò)的識(shí)別效果,但所得文本從語言學(xué)角度上看質(zhì)量較差,結(jié)合語言模型之后將得到不錯(cuò)的效果. 本文將Conformer模型所搭建的語音識(shí)別系統(tǒng)在數(shù)據(jù)集AISHELL-1 和aidatatang_200zh 上與Transformer 模型作比較,并且增加語言模型[23,24]后比較了語音識(shí)別系統(tǒng)識(shí)別性能以及實(shí)時(shí)率的差異,并且在不同程度的噪聲數(shù)據(jù)中測(cè)試了識(shí)別的準(zhǔn)確率.

        1 Conformer 模型結(jié)構(gòu)

        本文所使用的Conformer 結(jié)構(gòu)是在Transformer模型編碼器的基礎(chǔ)上增加卷積模塊,構(gòu)成Conformer編碼器. 結(jié)構(gòu)如圖1 所示,Conformer 編碼器由多個(gè)Conformer 塊堆疊而成[22].

        圖1 Conformer 編碼器

        1.1 Conformer 塊

        Conformer 模型核心就是編碼器中的Conformer塊,其結(jié)構(gòu)如圖2 所示,由Layer Norm 模塊、前饋層、卷積層和多頭注意力層組成. 在前饋層、卷積層和多頭注意力層上都有殘差結(jié)構(gòu),這里殘差結(jié)構(gòu)的引入是為了便于卷積網(wǎng)絡(luò)的訓(xùn)練[25]. 同時(shí)卷積模塊和多頭注意力模塊相連起到效果增強(qiáng)的作用.

        圖2 Conformer 塊結(jié)構(gòu)

        1.2 多頭自注意力層

        在多頭自注意力模塊中,其結(jié)構(gòu)如圖3 所示,使用了殘差結(jié)構(gòu)和Dropout 來幫助訓(xùn)練更深層次的網(wǎng)絡(luò),防止多頭注意力層向量丟失重要信息[26].

        圖3 多頭自注意力模塊

        多頭注意力模塊中的注意力機(jī)制從輸入的大量信息中選擇關(guān)鍵信息加以處理. 使用信息提取的方法將維度為dm的輸入映射到一組查詢Q、鍵K和值V的矢量輸出,其中查詢Q和鍵K的維度是dK,值V的維度是dV. 然后再利用Softmax函數(shù)來獲得值的權(quán)重,最后返回值的加權(quán)總和Z. 計(jì)算公式如式(1)所示:

        其中,對(duì)QKT相乘結(jié)果進(jìn)行必要的縮放,來避免值過大導(dǎo)致Softmax函數(shù)梯度很小難以優(yōu)化.

        多頭注意力機(jī)制是將h個(gè)不同線性變換對(duì)Q、K和V進(jìn)行投影,最后將不同注意力輸出結(jié)果拼接起來. 如式(2)–式(3)所示,多頭注意力層輸出是將各個(gè)注意力頭的輸出乘以權(quán)重矩陣來計(jì)算.

        其中,W表示線性變換的參數(shù),headi表示第i個(gè)注意力頭. 多頭注意力模塊使用了相對(duì)正弦位置編碼,這種相對(duì)位置編碼使自注意模塊對(duì)不同的輸入長(zhǎng)度有更好的泛化能力,并且可使編碼器對(duì)語音的輸入有更好的魯棒性[27].

        1.3 卷積層

        Conformer 塊結(jié)構(gòu)中的卷積模塊如圖4 所示,由Layer Norm、Batch Norm、Pointwise 卷積、Depthwise 卷積、GLU 激活層和ReLU 激活層所組成. 整體運(yùn)用了殘差結(jié)構(gòu),增強(qiáng)了梯度的傳播,防止梯度消失[25].

        圖4 卷積模塊

        在卷積模塊中使用深度可分離卷積,深度可分離卷積由Pointwise 卷積和 Depthwise 卷積組成,它將普通的卷積操作分解為兩個(gè)過程,這么做可以用較少的參數(shù)學(xué)習(xí)更豐富的特征并且減少了計(jì)算量. Pointwise卷積運(yùn)算負(fù)責(zé)將深度卷積的輸出按通道投影到新的特征圖上; Depthwise 卷積不同于原始卷積,一個(gè)卷積核負(fù)責(zé)一個(gè)通道,獨(dú)立地在每個(gè)通道上進(jìn)行空間卷積[28].

        GLU 激活函數(shù)如式(4)所示:

        其中,W和V是不同的卷積核,b和c是偏置參數(shù),該函數(shù)控制著哪些信息可以傳入下一層.

        1.4 前饋層

        前饋網(wǎng)絡(luò)(feed forward network ,FFN)的結(jié)構(gòu)如圖5 所示,由兩個(gè)線性層組成,使用ReLU 激活函數(shù)進(jìn)行線性變換,使用Dropout 層來減少過擬合的發(fā)生.

        圖5 前饋層結(jié)構(gòu)

        如式(5)所示,前饋層目的是為了更新注意力層輸出向量的每個(gè)狀態(tài)信息. 其中W表示權(quán)重,b表示偏差,x表示輸入:

        然后在經(jīng)過Layer Norm 層歸一化重新定位,對(duì)編碼器的深度網(wǎng)絡(luò)進(jìn)行平滑優(yōu)化[29]. 同時(shí)控制輸入向量長(zhǎng)度的動(dòng)態(tài)變化,防止神經(jīng)網(wǎng)絡(luò)層的參數(shù)變化導(dǎo)致輸入的分布產(chǎn)生較大差異.

        2 語言模型

        語言模型用于評(píng)估文本序列是否符合人類語言使用習(xí)慣,是傳統(tǒng)語音識(shí)別系統(tǒng)中不可或缺的一部分. 語言模型可以基于語法規(guī)則,也可以基于統(tǒng)計(jì)方法. 基于語法規(guī)則的語言模型來源于語言學(xué)家掌握的語言學(xué)領(lǐng)域知識(shí). 而基于統(tǒng)計(jì)方法的語言模型,通過對(duì)大量文本語料進(jìn)行處理,獲得給定詞序列出現(xiàn)的概率分布,以客觀描述詞與詞之間組合的可能性,適合于處理大規(guī)模真實(shí)文本.

        統(tǒng)計(jì)語言模型的目標(biāo)是計(jì)算給定詞序列w1,···,wt?1,wt的組合概率,如式(6)所示:

        其中,條件概率P(w1),P(w2|w1),···,P(wt|w1w2···wt?1)就是語言模型,計(jì)算所有這些概率值的復(fù)雜度較高,特別是長(zhǎng)句子的計(jì)算量很大,因此一般采用最多n個(gè)詞組合的N-gram 模型. 語言模型的訓(xùn)練需要足夠規(guī)模的語料數(shù)據(jù),數(shù)據(jù)越多統(tǒng)計(jì)到的詞的關(guān)系就越多,概率的區(qū)分性也就越明顯,符合語法規(guī)范的句子也就越多.

        但是,純端到端的模型并沒有結(jié)合語言模型,在結(jié)合語言模型之后會(huì)更好地利用中文語言特性得到更加準(zhǔn)確的預(yù)測(cè)結(jié)果. 而N-gram 語言模型有著成熟完備的訓(xùn)練工具,語料或多或少都可以進(jìn)行訓(xùn)練并且訓(xùn)練速度也很快,因此本實(shí)驗(yàn)采用N-gram 語言模型[9].

        2.1 N-gram 語言模型

        N-gram 是語音識(shí)別中最常用到的語言模型. N-gram指文本中連續(xù)出現(xiàn)的n個(gè)詞語,基本原理是基于馬爾可夫假設(shè),在訓(xùn)練語料數(shù)據(jù)中,通過極大似然估計(jì)的方法得到下一個(gè)詞語出現(xiàn)的n個(gè)概率分布進(jìn)而來推斷語句結(jié)構(gòu).

        當(dāng)n為1 時(shí)稱為一元模型,表示為式(7):

        當(dāng)n為 2 時(shí)稱為二元模型,表示為式(8):

        當(dāng)n為3 時(shí)稱為三元模型,表示為式(9):

        多元模型N-gram 可以表示為式(10):

        其中,m表示訓(xùn)練語料庫中的總字?jǐn)?shù),C(w1,···,wi)表示計(jì)算w1,···,wi在訓(xùn)練語料中出現(xiàn)的次數(shù). 一元模型與多元模型相比,一元模型對(duì)句子的約束最小,其中的競(jìng)爭(zhēng)最多. 而多元模型對(duì)句子有更好的約束能力,解碼效果更好. 但是相應(yīng)的n越大,語言模型就越大,解碼速度也就越慢. N-gram 預(yù)測(cè)的詞概率值依賴于前n?1個(gè)詞,而更長(zhǎng)距離的上下文依賴被忽略.

        2.2 困惑度和平滑技術(shù)

        目前主要使用困惑度進(jìn)行對(duì)比來確定語言模型的好壞,這種指標(biāo)比較客觀. 給定句子S,其包含詞序列w1,w2,···,wT,T表示句子的長(zhǎng)度,則其困惑度可以由式(11)表示為:

        困惑度簡(jiǎn)稱為PPL,PPL越小,句子S出現(xiàn)的概率就越高,表明語言模型越好,因此語言模型優(yōu)化的目標(biāo)就是最小化困惑度.

        語言模型的概率需要通過大量的文本語料來估計(jì),采用最大似然算法. 但是在統(tǒng)計(jì)的預(yù)料中數(shù)量有限,因此會(huì)存在數(shù)據(jù)稀疏的情況,這會(huì)導(dǎo)致零概率或估計(jì)不準(zhǔn)的問題,因此對(duì)預(yù)料中未出現(xiàn)或少量出現(xiàn)的詞序列,需要采用平滑技術(shù)進(jìn)行間接預(yù)測(cè).

        平滑技術(shù)主要有3 種,有折扣法、插值法和回退法[30]. 折扣法是降低概率不為0 項(xiàng)的概率,從已有的觀測(cè)值概率調(diào)配一些給未觀測(cè)值的概率來提高概率為0 項(xiàng)的概率,但沒有考慮低階模型和高階模型間的關(guān)系故不單獨(dú)使用; 插值法是將高階模型和低階模型做線性組合,充分利用高階和低階語言模型,把高階的概率信息分配給低階的模型; 回退法是基于低階模型估計(jì)未觀察到的高階模型.

        3 構(gòu)建語音識(shí)別系統(tǒng)

        端到端語音識(shí)別系統(tǒng),不同于傳統(tǒng)方法將語音識(shí)別任務(wù)分解為聲學(xué)模型、字典和語言模型多個(gè)子任務(wù),而是經(jīng)過一個(gè)復(fù)雜網(wǎng)絡(luò)直接產(chǎn)生對(duì)應(yīng)的語言文本,并且在不使用語言模型的情況下就能進(jìn)行語音識(shí)別的工作,實(shí)現(xiàn)從輸入語音到輸出文本的轉(zhuǎn)換[31].

        結(jié)構(gòu)如圖6 所示,編碼器部分負(fù)責(zé)將語音輸入序列映射到特征序列,生成指定長(zhǎng)度的向量. 解碼器部分對(duì)最終的識(shí)別結(jié)果進(jìn)行解碼,根據(jù)語義向量生成指定的序列.

        圖6 端到端語音識(shí)別系統(tǒng)

        預(yù)處理模塊就是對(duì)初始輸入進(jìn)行處理,如圖7 所示,該結(jié)構(gòu)是由數(shù)據(jù)增強(qiáng)層、池化層、線性層和Dropout所組成.

        圖7 預(yù)處理模塊

        數(shù)據(jù)增強(qiáng)層通過使用SpecAugment[32,33]方法在log 梅爾聲譜層面上進(jìn)行數(shù)據(jù)增強(qiáng),可以將模型的過擬合問題轉(zhuǎn)化為欠擬合問題,以便通過大網(wǎng)絡(luò)和長(zhǎng)時(shí)訓(xùn)練策略來緩解欠擬合問題,提升語音識(shí)別效果. 池化層處理輸入,較好地保留了低層次輸入,在保留了編碼器的表示能力和模型整體精度的同時(shí)顯著降低了計(jì)算量.

        線性層又稱為全連接層,其每個(gè)神經(jīng)元與上一個(gè)層所有神經(jīng)元相連,實(shí)現(xiàn)對(duì)前一層的線性組合或線性變換. Dropout 對(duì)于神經(jīng)網(wǎng)絡(luò)單元按照一定的概率將其暫時(shí)從網(wǎng)絡(luò)中丟棄,有效地減輕過擬合的發(fā)生,一定程度上達(dá)到了正則化的效果.

        3.1 端到端結(jié)構(gòu)

        端到端模型結(jié)構(gòu)如圖8 所示,該結(jié)構(gòu)編碼器部分為Conformer 的編碼器,由12 個(gè)Conformer 塊堆疊而成,解碼器部分由CTC 解碼器構(gòu)成.

        圖8 端到端語音識(shí)別系統(tǒng)結(jié)構(gòu)

        輸入數(shù)據(jù)經(jīng)過預(yù)處理后進(jìn)入Conformer 編碼器,CTC 解碼器由線性層組成,將編碼器的輸出轉(zhuǎn)化為CTC 激活后解碼輸出,解碼算法為CTC Prefix Beam Search[34–36].

        CTC 網(wǎng)絡(luò)的輸出形式為T×C,其中,T表示時(shí)間長(zhǎng)度,C表示字符類別數(shù),CTC Prefix Beam Search 算法就是模型讀入一幀的數(shù)據(jù),然后給出當(dāng)下各種字符的概率,然后利用這一層的概率展開搜索,取搜索空間中最優(yōu)的k條路經(jīng)的前綴,并把這些前綴挨個(gè)輸入到模型中,同時(shí)把相同的前綴路徑合并,不斷重復(fù)最終得到最優(yōu)解.

        3.2 結(jié)合語言模型的端到端結(jié)構(gòu)

        結(jié)合語言模型后的模型結(jié)構(gòu),如圖9 所示. 編碼器部分由12 個(gè)Conformer 塊組成,解碼器部分為先經(jīng)過CTC WFST search 打分后再由Attention 解碼器重新打分得到最終結(jié)果[14,37]. 在結(jié)合語言模型的結(jié)構(gòu)中,CTC WFST search 是該結(jié)構(gòu)的核心,該步驟包含了構(gòu)建解碼圖和解碼器兩部分.

        圖9 結(jié)合語言模型的結(jié)構(gòu)

        解碼圖用TLG 來表示,即將T、L 和G 各層次信息組合到一張圖中,其中T 表示建模單元,L 表示詞典,G 表示語言模型. 以端到端模型訓(xùn)練的中文漢字作為建模單元T,詞典L 則是由詞語或句子拆分成建模單元而構(gòu)成,語言模型G 是由N-gram 語言模型轉(zhuǎn)換為加權(quán)有限狀態(tài)轉(zhuǎn)換器(weighted finite-state transducer,WFST)的形式表示[38,39]. WFST 通常用來描述狀態(tài)之間的轉(zhuǎn)移信息,能夠?qū)⒄Z言模型直接表示成圖的形式,語言模型概率經(jīng)處理后作為圖中的權(quán)重. 當(dāng)圖構(gòu)建完成之后,語言模型的概率就成了圖權(quán)重的一部分,解碼時(shí)直接使用圖的權(quán)重而不用去查詢語言模型,它實(shí)現(xiàn)了輸入序列到輸出序列的轉(zhuǎn)換.

        解碼器部分采用的是Viterbi 解碼,根據(jù)輸入尋求最佳狀態(tài)序列. 解碼過程是逐幀推進(jìn),結(jié)合轉(zhuǎn)移弧上的權(quán)重,得到每個(gè)時(shí)刻擴(kuò)展路徑的累計(jì)代價(jià),然后對(duì)比指向同一個(gè)狀態(tài)的不同路徑的累計(jì)代價(jià),選擇值更小的路徑并更新狀態(tài)信息,直到Viterbi 解碼最后一幀然后回溯路徑,得到最優(yōu)路徑. 對(duì)得到的信息再進(jìn)行Attention 解碼重打分,Attention 解碼器使用Transformer 結(jié)構(gòu)的解碼器部分,通過使用注意力機(jī)制最終輸出最合適的結(jié)果[37,40,41].

        4 實(shí)驗(yàn)

        4.1 實(shí)驗(yàn)數(shù)據(jù)

        實(shí)驗(yàn)所用到的語音數(shù)據(jù)由兩部分組成,一部分來自于北京希爾貝殼科技有限公司出版的中文語聲數(shù)據(jù)集AISHELL-1,其包含178 h 來自400 個(gè)說話人的普通話聲頻和相應(yīng)文本信息. AISHELL-1 中的聲頻數(shù)據(jù)重采樣為16 kHz,16 位的WAV 格式. 開發(fā)人員將數(shù)據(jù)集分為3 個(gè)部分: 訓(xùn)練集、驗(yàn)證集和測(cè)試集. 訓(xùn)練集包含來自340 個(gè)說話者的120098 個(gè)發(fā)音和大約140 h 的普通話語聲數(shù)據(jù); 驗(yàn)證集包含來自40 個(gè)說話者的14326 個(gè)語句; 測(cè)試集包含來自20 個(gè)說話者的7176 個(gè)語句. 對(duì)于每個(gè)說話者,大約發(fā)布了360 個(gè)語句(大約26 min 的語聲).

        另一部分來自于由北京數(shù)據(jù)堂科技有限公司開發(fā)的中文普通話語音語料庫aidatatang_200zh,語料庫包含 200 h 的聲學(xué)數(shù)據(jù),主要是移動(dòng)記錄數(shù)據(jù),邀請(qǐng)了來自中國不同口音地區(qū)的600 名演講者參與錄音,每個(gè)句子的轉(zhuǎn)錄準(zhǔn)確率大于 98%,數(shù)據(jù)文件中保留了語音數(shù)據(jù)編碼和說話人信息等詳細(xì)信息.

        4.2 實(shí)驗(yàn)配置

        實(shí)驗(yàn)所用的機(jī)器操作系統(tǒng)為Ubuntu 20.04.2LTS,CPU 為Intel Xeon Silver 4210 ,128 GB 內(nèi)存,GPU 為3 塊RTX2080 SUPER (6 GB)顯卡,共18 GB 顯存.

        SpecAugment 使用了2 個(gè)最大頻率掩碼和2 個(gè)最大時(shí)間掩碼以緩解過擬合問題. 在編碼器的前端使用兩個(gè)核大小為3×3、步幅為2 的卷積子采樣層. 編碼器中使用12 個(gè)Conformer 塊,注意力頭數(shù)設(shè)置為 4,學(xué)習(xí)率設(shè)置為0.002,batch size 設(shè)置為8,epoch 設(shè)置為120,beam size 設(shè)置為10. Attention 解碼器中解碼器個(gè)數(shù)為6 個(gè),語言模型使用三元語法模型,即N-gram 語言模型中的N為3[32,37].

        實(shí)驗(yàn)中輸入特征是80 維梅爾濾波器組特征即Fbank 特征,將語音通過預(yù)加重、分幀、加窗、傅里葉變換、功率譜以及濾波器組有序計(jì)算. 設(shè)置窗長(zhǎng)為20 ms,幀移為10 ms.

        訓(xùn)練使用CTC loss 與Attention loss 聯(lián)合優(yōu)化訓(xùn)練,這樣設(shè)置的目的是避免CTC 對(duì)齊關(guān)系過于隨機(jī)還能加快訓(xùn)練的收斂速度,并且可以使訓(xùn)練過程更加穩(wěn)定,從而取得更好的識(shí)別結(jié)果.

        訓(xùn)練所使用的組合損失如式(12)所示,x表示聲學(xué)特征,y為對(duì)應(yīng)標(biāo)注,LCTC(x,y)表示CTC loss,LATT(x,y)表示Attention loss,λ表示平衡CTC loss 和Attention loss 的系數(shù)[32,42,43].

        本實(shí)驗(yàn)基于Kaldi[44]、Espnet (end-to-end speech processing toolkit)工具包[45]和WeNet[37]語音識(shí)別工具包來進(jìn)行. Kaldi 是著名的開源語音識(shí)別工具,這套工具提供了目前工業(yè)界最常用的模型訓(xùn)練工具,它使用WFST 來實(shí)現(xiàn)解碼算法,其主要的代碼是C++編寫,在此之上使用bash 和Python 腳本做了一些工具. Espnet工具箱融合了Kaldi 的數(shù)據(jù)處理和特征提取,同時(shí)借助PyTorch 和Chainer,使用Python 實(shí)現(xiàn)了許多端到端模型. WeNet 是出門問問語音團(tuán)隊(duì)聯(lián)合西工大語音實(shí)驗(yàn)室開源的一款語音識(shí)別工具包,模型訓(xùn)練完全基于PyTorch 生態(tài),結(jié)構(gòu)類似于Kaldi 但并不依賴于Kaldi等安裝復(fù)雜的工具.

        4.3 評(píng)價(jià)標(biāo)準(zhǔn)

        本文在數(shù)據(jù)集AISHELL-1 和數(shù)據(jù)集aidatatang_200zh 上評(píng)價(jià)實(shí)驗(yàn)結(jié)果,采用字錯(cuò)率(character error rate,CER)作為評(píng)價(jià)指標(biāo). 字錯(cuò)率即為了使識(shí)別出來的詞序列和標(biāo)準(zhǔn)的詞序列之間保持一致,需要進(jìn)行替換、刪除或者插入某些詞,這些插入I、替換S和刪除D的詞的總個(gè)數(shù),除以標(biāo)準(zhǔn)的詞序列中詞的總個(gè)數(shù)的百分比,即如式(13)所示:

        4.4 實(shí)驗(yàn)結(jié)果

        在數(shù)據(jù)集AISHELL-1 和aidatatang_200zh 上,不添加語言模型的情況下,實(shí)驗(yàn)結(jié)果如表1,以Conformer模型所搭建的語音識(shí)別系統(tǒng)與Transformer模型做對(duì)比,可以看出在相同的數(shù)據(jù)集上訓(xùn)練Conformer 模型較Transformer 模型具有更低的字錯(cuò)率. 在AISHELL-l數(shù)據(jù)集上Conformer 模型要比Transformer模型字錯(cuò)率低5.82%,在aidatatang_200zh 數(shù)據(jù)集上Conformer 模型比Transformer 模型字錯(cuò)率低2.71%.

        表1 在不同數(shù)據(jù)集上不同模型的字錯(cuò)率 (%)

        添加語言模型之后,在相同數(shù)據(jù)集上使用文中識(shí)別方法的結(jié)果如表2,不難看出在AISHELL-1 數(shù)據(jù)集上Conformer 模型在結(jié)合語言模型之后比Transformer模型結(jié)合語言模型的字錯(cuò)率低3.23%,在aidatatang_200zh 數(shù)據(jù)集上結(jié)合語言模型的Conformer模型比結(jié)合語言模型的Transformer 模型字錯(cuò)率低1.69%.

        表2 結(jié)合語言模型使用不同模型的字錯(cuò)率 (%)

        經(jīng)以上實(shí)驗(yàn)表明,在添加語言模型后Conformer模型和Transformer 模型在兩個(gè)不同的數(shù)據(jù)集上準(zhǔn)確率均得到了進(jìn)一步提升,并且Conformer 模型在添加語言模型之后識(shí)別效果最佳.

        語音識(shí)別的實(shí)時(shí)率用來度量語音識(shí)別系統(tǒng)識(shí)別音頻速度的值,表示處理單位時(shí)長(zhǎng)語音數(shù)據(jù)所需要的時(shí)間,值越小表示處理語音的效率越高. 經(jīng)測(cè)試結(jié)果如表3 所示,在不結(jié)合語言模型時(shí)Transformer 模型的實(shí)時(shí)率比Conformer 模型低0.06102,在結(jié)合語言模型之后Transformer 模型的實(shí)時(shí)率比Conformer 模型低0.0344,可以看出Transformer 模型的實(shí)時(shí)率比Conformer模型的實(shí)時(shí)率稍好,并且在結(jié)合語言模型之后兩模型識(shí)別的實(shí)時(shí)率也均會(huì)發(fā)生升高,但仍能在語音識(shí)別時(shí)達(dá)到不錯(cuò)的識(shí)別效率.

        目前較新的語音識(shí)別模型有RNN-Transducer、Conformer-Transducer[45,46],以在AISHELL-1 數(shù)據(jù)集上測(cè)試的結(jié)果為基準(zhǔn),與結(jié)合語言模型的Conformer 模型作比較,其結(jié)果如表3 所示,

        表3 語音識(shí)別的實(shí)時(shí)率

        由表4 可以看出,結(jié)合語言模型的Conformer 模型較RNN-Transducer 和Conformer-Transducer 模型相比,字錯(cuò)率分別下降了了2.34%和0.14%. 可以看出該模型在性能上有一定的優(yōu)勢(shì).

        表4 與目前較新的模型比較字錯(cuò)率 (%)

        測(cè)試結(jié)合語言模型的Conformer 模型在噪聲環(huán)境的性能,在AISHELL-1 數(shù)據(jù)集上加入不同比例的白噪聲分別構(gòu)成信噪比為10 dB、20 dB、40 dB、60 dB和80 dB 的噪聲數(shù)據(jù). 測(cè)試結(jié)果如表5 所示,在測(cè)試信噪比為80 dB 和60 dB 含噪聲數(shù)據(jù)時(shí)的性能和與使用純凈音頻時(shí)的性能十分接近. 隨著噪聲強(qiáng)度的增加,在測(cè)試信噪分別為40 dB 和20 dB 時(shí),音頻質(zhì)量接近日常生活環(huán)境,此時(shí)識(shí)別的準(zhǔn)確率有所下降. 信噪比為10 dB 時(shí)語音數(shù)據(jù)聲音嘈雜,對(duì)模型的識(shí)別產(chǎn)生較大影響,此時(shí)字錯(cuò)率升高. 由此可以看出噪聲會(huì)對(duì)模型的性能產(chǎn)生影響,隨著噪聲的增強(qiáng),模型識(shí)別的準(zhǔn)確率有所下降.

        表5 比較在不同噪聲環(huán)境下的字錯(cuò)率

        5 結(jié)束語

        本次實(shí)驗(yàn)通過比較不同模型的字錯(cuò)率,可以看出由Conformer 模型所搭建的中文語音識(shí)別系統(tǒng)較Transformer 模型有更好的性能,并且語言模型的添加對(duì)端到端語音識(shí)別系統(tǒng)識(shí)別準(zhǔn)確的增加有著重要的作用. 模型識(shí)別語音的實(shí)時(shí)率小于0.2,在進(jìn)行語音識(shí)別時(shí)可以感受到細(xì)微的延遲并不會(huì)影響整體的效果. 并且通過在含有不同程度噪聲數(shù)據(jù)上測(cè)試的結(jié)果,可以看出不同程度的噪聲均會(huì)對(duì)模型的性能產(chǎn)生一定的影響. 由于實(shí)驗(yàn)中所用于訓(xùn)練的語音數(shù)據(jù)是在安靜的條件下錄制的,語音質(zhì)量比較高,這相較于模型在實(shí)際使用中所輸入的語音數(shù)據(jù)過于完美,并且實(shí)驗(yàn)所用的數(shù)據(jù)量不足無法涉及到現(xiàn)實(shí)中的各個(gè)生活場(chǎng)景,因此后續(xù)考慮擴(kuò)充實(shí)驗(yàn)數(shù)據(jù)量以提升模型的性能及魯棒性,使該模型能夠在更多環(huán)境下使用.

        猜你喜歡
        語言模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        語言是刀
        文苑(2020年4期)2020-05-30 12:35:30
        讓語言描寫搖曳多姿
        多向度交往對(duì)語言磨蝕的補(bǔ)正之道
        累積動(dòng)態(tài)分析下的同聲傳譯語言壓縮
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        我有我語言
        国产99久久精品一区二区| 久久伊人精品色婷婷国产| 女优免费中文字幕在线| 日本一区二区不卡二区| 五月丁香六月综合缴清无码 | 国产精品自拍首页在线观看| 亚洲国产精品日韩av专区| а√天堂8资源中文在线| 欧美孕妇xxxx做受欧美88| 亚洲公开免费在线视频| 亚洲国产成人va在线观看天堂| 亚洲夜夜性无码| 激情久久av一区av二区av三区| 黄色大片一区二区中文字幕| av在线播放中文专区| 寂寞少妇做spa按摩无码| 污污污污污污WWW网站免费| 亚洲一区二区三在线播放| 亚洲国产精品高清在线| 天天天天躁天天爱天天碰2018| 久久av无码精品人妻糸列| 视频一区视频二区亚洲| 国产精品国产三级国产av剧情| 欧美疯狂性xxxxxbbbbb| 热re99久久精品国产66热6| 少妇爽到高潮免费视频| 免费看美女被靠的网站| 欧美国产日本精品一区二区三区 | 精品一区二区三区久久久| 男女啪啪动态视频在线观看| 久久精品国产亚洲av香蕉| 99久久综合精品五月天| 中文字幕不卡高清免费| 在线不卡精品免费视频| 国产乱对白刺激视频| 中文字幕一区二区三区久久网站 | 精品久久久久一区二区国产| 亚洲另类国产精品中文字幕| 久久99国产精品久久| 白嫩少妇激情无码| 久久综合激激的五月天|