亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于韻律特征輔助的端到端語音識別方法

        2023-02-24 05:00:54萬根順高建清付中華
        計算機應用 2023年2期
        關鍵詞:韻律聲學解碼

        劉 聰,萬根順*,高建清,付中華

        (1.科大訊飛股份有限公司 AI研究院,合肥 230088;2.西安訊飛超腦信息科技有限公司,西安 710000)

        0 引言

        近年來,隨著應用數(shù)據(jù)的持續(xù)增加和計算能力的穩(wěn)定提升,基于神經(jīng)網(wǎng)絡的深度學習得到了快速穩(wěn)定的發(fā)展,在圖像、語音和自然語言處理等領域均取得了重大突破[1]。語音作為人類最自然的溝通方式,逐漸成為人機交互的主要途徑之一,語音識別不僅極大地提高了人機交互的便捷度,更是大幅提高了內(nèi)容記錄總結等相關從業(yè)人員的工作效率。

        盡管語音識別系統(tǒng)在部分場景上識別率已經(jīng)超越了人類,但在實際使用中仍有各種各樣的問題難以解決,影響用戶體驗,尤其對于一些發(fā)音相近但是解碼結果可以有多種組合的場景,容易引起后續(xù)語義理解的混淆。例如,“相對來說,確實比視野 更重要”和“相對來說,確實 筆試 也更重要”在沒有明確上下文的情況下均有一定的語義合理性。而不同的停頓方式以及不同的重音強調方式,均會造成語義理解的偏向性。例如,當出現(xiàn)“bi3 shi4ye3”的停頓情況時,聽者傾向于選擇“比 視野”的語義進行理解;而當發(fā)音人停頓不明顯,重音強調落在“ye3”的時候,聽者傾向于選擇“筆試也”的語義進行理解。因此,如何使語音識別結果更加符合用戶的原始表達,成為語音識別中的一個重要研究課題。

        對于發(fā)音相同或者相近、語義不同的解碼組合,因為聲學的區(qū)分性較弱,所以語言模型對于識別結果的篩選和確認影響較大。采用面向文本領域層面的自適應方法,可以在一定程度上實現(xiàn)解碼空間的約束。常見的文本領域自適應方案包括語言模型的自適應和熱詞激勵等。具體地,語言模型的自適應將領域相關文本加入通用語料訓練帶領域偏置的語言模型,或直接使用領域相關文本訓練領域語言模型聯(lián)合通用語言模型插值解碼,從而強化領域文本的解碼空間,提升領域相關內(nèi)容的輸出概率,但該方法需要進行領域的確認和文本的收集,使用場景受限;而熱詞激勵,包括傳統(tǒng)的基于字典樹的后驗激勵和基于上下文相關的注意力機制端到端(Contextual Listen Attend Spell,CLAS)[2]方案的模型激勵等,主要是對用戶想要強化或重點關注的文本進行激勵。

        上述方法需要提前進行文本的選取和設置,需要用戶事先知道領域信息或提供相關的熱詞。另一方面,用戶在實際說話時,即使是發(fā)音完全相同,但因語義表達的不同,在語調、時域分布以及重音等韻律特征層面,也會表現(xiàn)出一定的區(qū)分性。例如,用戶發(fā)音時,一般會在分詞合理的地方進行停頓,而不會在任意字之間隨意進行停頓。因此,直接使用韻律信息輔助進行語音識別也是一種可行的解決方法?;陧嵚尚畔⑤o助的語音識別,目前國內(nèi)外的研究思路較為固定。一般考慮提取基頻或共振峰等韻律特征,然后將其加入特征向量[3],但是該方法的韻律特征對于語言部分的補充性較弱,無法最大化韻律特征對聲學和語言的作用;或者直接使用帶韻律標注的語料庫訓練韻律相關語音識別系統(tǒng)[4],但是因為缺少大規(guī)模具有韻律標注的語料庫而難以推廣,尤其是無法在工業(yè)產(chǎn)品中進行應用;其他對于韻律特征的使用,如利用時長模型對語音識別輸出的最優(yōu)多候選結果(N-best)結果進行重打分,需要額外增加對于時長的預測等造成計算量的增加[5]。而隨著端到端語音識別系統(tǒng)的應用推廣,聲學與語言模型之間的關聯(lián)性得到了進一步加強。尤其是當用戶發(fā)音本身存在一定的口音時,聲學信息間的混淆性增大、區(qū)分性變?nèi)酰菀讓е抡Z言模型的主導性變強,發(fā)音相同或相近、語義不同相關的識別錯誤更加常見。因此,如何基于端到端框架,更顯式地利用到用戶的韻律信息,平衡聲學與語言之間的聯(lián)系,對語音識別的效果提升以及后續(xù)的語義信息的理解,有著重要的影響,也能夠進一步解決端到端語音識別落地魯棒性的業(yè)界難題。

        為了更好地利用說話人的韻律信息,減少發(fā)音相同或相近而語義不同等造成的語音識別結果的混淆,本文提出了一種基于韻律特征輔助的端到端語音識別方法。該方法結合編碼-解碼語音識別框架中的注意力分布等相關信息,提取發(fā)音間隔信息表征、發(fā)音信息能量表征等韻律信息,進而通過與解碼端的融合更好地強化聲學信息與語言模型的結合;同時,在二遍重打分過程中,通過韻律信息增加語言得分的懲罰,顯式增加發(fā)音相同或相近語義不同的解碼結果間的區(qū)分性,提升語音識別效果的合理性。

        1 基于韻律特征輔助的端到端語音識別

        本文基于注意力機制的編碼-解碼語音識別框架,利用注意力分布信息提取發(fā)音時長、停頓時長等反映說話人韻律信息的特征,提出一種結合韻律特征輔助的端到端語音識別方法,緩解語音識別發(fā)音相同或相近而語義不同等造成的識別錯誤。

        1.1 基于注意力機制的編碼-解碼語音識別框架

        目前,端到端語音識別模型常見的框架包括連接時序分類算法(Connectionist Temporal Classification,CTC)[6-8]、循環(huán)神經(jīng)網(wǎng)絡轉換器算法(Recurrent Neural Network Transducer,RNN-T)[9-11]和基于注意力(Attention)機制的編碼-解碼(Encoder Decoder,ED)[12-14]等算法。其中,RNN-T 相對于ED模型更適合流式語音識別,但效果較ED 存在一定的差距;同時,ED 模型也彌補了CTC 上下文獨立假設的缺點,對語言信息的建模能力更強。因此,本文選用ED 框架作為后續(xù)研究的基礎框架?;谧⒁饬C制的編碼-解碼語音識別框架如圖1 所示。

        圖1 基于注意力機制的編碼-解碼語音識別框架Fig.1 Encoder-decoder speech recognition framework based on attention mechanism

        如圖1 所示,該框架主要包括編碼端、注意力模塊和解碼端三部分。編碼端一般由循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)[15-16]和卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)[17-18]等神經(jīng)網(wǎng)絡構成,其結構和傳統(tǒng)的聲學結構類似,即利用音頻特征的輸入X=(x1,x2,…,xK)獲取高階特征的表示在獲取隱層特征后利用注意力模塊重點關注與當前解碼時刻信息強相關的隱層信息后,傳遞給解碼端得到最終的文本序列Y=(y1,y2,…,yT)的輸出概率分布,具體如式(1)所示。因為解碼端采用自回歸的方式進行解碼,與上一時刻的輸出相關,因此也發(fā)揮了語言模型的功能,從而實現(xiàn)了聲學模型與語言模型的聯(lián)合優(yōu)化。

        注意力模塊基于編碼端隱層特征,獲取每次解碼時所需的上下文信息ct,具體計算過程如式(2)~(7)所示:

        t時刻的隱狀態(tài)表示st通過RNN 等神經(jīng)網(wǎng)絡進行建模,輸入包括上一時刻解碼結果的輸出yt-1、t-1 時刻的隱層狀態(tài)輸出st-1和上下文信息ct-1。而vT、Wh、Wd、Ws和ba、bs作為訓練參數(shù),主要利用st從編碼端高階的特征輸出中提取當前時刻解碼所需要的信息ct,然后與st拼接,并利用RNN 模型獲取dt,以作為輸入?yún)⑴c最終的解碼。

        基于注意力機制的端到端語音識別方法的突破,進一步降低了語音識別落地的門檻。但是,聲學和語言模型聯(lián)合建模的方式,將ct與語言模型相關的隱層表達st拼接作為解碼端的輸入,容易讓解碼端對語言模型產(chǎn)生一定的依賴性,削弱聲學信息建模的能力。因此,當出現(xiàn)發(fā)音相同或相近而語義不同的解碼可能性時,ED 模型對于結果的選擇更加依賴語言模型。如何借助用戶韻律信息等說話人聲學特征,強化ED結構聲學信息與語言信息能力的耦合,值得進一步的研究。

        1.2 韻律特征的表示與提取

        韻律特征的時域分布表示的是說話人發(fā)音內(nèi)容的時間特性。例如,“bi3 shi4 ye3 geng4 zhong4 yao4”在不考慮上下文的情況下,可能識別為“比視野更重要”,也可能識別為“筆試也更重要 ”。在語音識別的過程中,雖然兩者的發(fā)音完全相同,但是語義卻完全不同,容易導致后續(xù)語義理解的偏差。而一般情況下,用戶真實的語義表達和韻律之間存在較強的相關性。如果是“比 視野 ”,則不同詞之間“比bi3”與“視shi4”的間隔應大于同一個詞內(nèi)“視shi4”與“野ye3”的停頓間隔;如果是“筆試 也”則反之,即同一個詞之間“筆bi3”與“試shi4”的間隔應小于不同詞之間“試shi4”與“也ye3”的停頓間隔。因此,可以考慮加入時域分布相關的韻律特征輔助識別。

        要想獲取用戶相關的發(fā)音時長以及停頓信息,首先需要確認解碼結果字與字之間的邊界信息等。傳統(tǒng)方法中,可以通過強制對齊獲得每個音素的起止時間信息,CTC 也可以使用尖峰位置作為字的時間信息等。而ED 模型中,Attention機制作為編碼端與解碼端的連接,能夠通過對編碼端聲學信息的有效選取實現(xiàn)解碼端的穩(wěn)定解碼。具體地,Attention 機制在每次解碼時,都會關注到與當前解碼相關的若干語音幀,即可以通過Attention 分布作為解碼的時間邊界信息。為了提升Attention 對于聲學相關邊界信息獲取的準確性,常采用CTC 進行輔助訓練,強化Attention 分布的時域相關性,因此本文后續(xù)均采用聯(lián)合CTC 的訓練方式。

        因為沒有明確的對于當前解碼單元的出現(xiàn)時間和截止時間的界定,為了實現(xiàn)時域分布的統(tǒng)一表示,本文通過設定關注度的閾值,將從左到右關注度大于閾值的第一幀作為當前字的起始時間Tb,將從右到左關注度大于閾值的第一幀作為當前字的截止時間Te,同時使用關注度最大幀的下標作為當前字的確信時間Tc,具體如圖2 所示。

        圖2 基于注意力系數(shù)的時域分布表示Fig.2 Time domain distribution representation based on attention coefficient

        根據(jù)當前解碼單元的起始時間Tb、截止時間Te和確信時間Tc,時域分布相關信息可以表示為:

        1)發(fā)音停頓信息表征:第i+1 個解碼單元Attention分布的起始時間-第i個解碼單元Attention 分布的截止時間,即

        2)發(fā)音持續(xù)信息表征:第i個解碼單元Attention 分布的截止時間-第i個解碼單元Attention 分布的起始時間,即

        3)發(fā)音間隔信息表征:第i+1 個解碼單元Attention分布的確信時間-第i個解碼單元Attention 分布的確信時間,即。

        4)發(fā)音能量信息表征:發(fā)音持續(xù)信息表征范圍內(nèi)的能量和。

        在獲得發(fā)音停頓信息、發(fā)音持續(xù)信息和發(fā)音間隔信息等時域分布信息和發(fā)音能量信息后,通過編碼即可得到韻律的特征表達pt。

        1.3 韻律特征的結合與使用

        將韻律特征輸入ED 模型時,首先需要考慮將它與聲學特征還是文本特征結合。由于韻律特征本身屬于聲學特征的一種,而且發(fā)音相同或相近而語義不同的識別結果本質上和語言模型的聯(lián)系更為直接,因此語言模型與韻律特征的結合互補性更強;同時,因韻律特征主要通過Attention 分布獲取,若與聲學特征再次結合,重復計算量較大。因此,為了強化聲學與語言聯(lián)合建模的耦合性,本文主要考慮在語言模型的使用時增加聲學信息的融入,從而實現(xiàn)聲學信息和語言信息的有效結合。而ED 模型在解碼的過程中,語言模型的作用主要體現(xiàn)在一遍Decoder 解碼與二遍重打分的過程中,因此,對于韻律特征的結合,本文提出以下兩種思路:

        1)韻律特征與一遍Decoder 解碼的結合。

        ED 模型的Decoder 扮演語言模型的作用,將韻律特征輸入Decoder,其結構如圖3 所示。

        圖3 基于韻律特征輔助的編碼-解碼語音識別框架Fig.3 Encoder-decoder speech recognition framework based on prosodic features

        韻律特征pt與yt-1和ct-1拼接重新輸入Attention 的RNN模型,具體如式(8)所示:

        由于RNN 本身有記憶功能,所以它預測每個字時都知道字的時域以及能量信息等。例如,如果當前間隔更大,說明當前字應該屬于一個新詞,反之則應與上一個字組成詞。

        2)韻律特征與二遍重打分的結合。

        ED 模型的二遍結果在重打分時,一般對N-best 的輸出考慮ED 模型分與語言模型分的結合,具體如式(9)所示。對于第j個結果,Sj表示重打分數(shù),EDj表示ED 的解碼得分,LMj表示語言模型得分,β為融合系數(shù)。

        因經(jīng)過編碼后的韻律特征無法直接在重打分上進行融合,考慮根據(jù)時域分布信息進行語言模型得分的懲罰。例如,當連續(xù)多個字的解碼結果為“比視野”時,則“比視野”三個字的發(fā)音間隔信息表征理論上應該是(比-視)>(視-野),即“比”和“視”詞間的發(fā)音間隔時長應該大于“視”和“野”詞內(nèi)的發(fā)音間隔時長,否則認為真實的發(fā)音停頓時長與“比視野”不一致,需要進行額外的語言分的懲罰;當連續(xù)多個字的解碼結果為“筆試也”時,則“筆試也”三個字的發(fā)音間隔信息表征理論上應該是(筆-試)(試-也),即“筆”和“試”詞內(nèi)的發(fā)音間隔時長應該小于“試”和“也”詞間的發(fā)音間隔時長,否則認為真實的發(fā)音停頓時長與“筆試也”不一致,也需要進行額外的語言分的懲罰。具體如式(10)所示:

        其中:M表示不合理分布的個數(shù);P表示語言模型的懲罰分,一般根據(jù)選取的語言模型進行調節(jié)。

        最后,根據(jù)N-best 的重打分數(shù)Sj進行結果的重新排序。

        2 實驗結果與分析

        本文基于Encoder 為Conformer[19-20]、Decoder 為長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡[21]的ED 框架在1 000 h 中文連續(xù)語音識別任務上進行實驗。訓練數(shù)據(jù)為16K 采樣率,內(nèi)容主要包括采訪、會議、授課等多人自由交談、口語化風格較為明顯的場景,每段音頻約為10 min,數(shù)據(jù)均由實際使用場景進行錄制。測試集為5 h、共計30 段的測試音頻,數(shù)據(jù)的風格和訓練數(shù)據(jù)相同。聲學特征均采用40維的Filter Bank 特征。語言模型為4-gram 模型,其中詞典規(guī)模為10 萬詞,N-gram 的數(shù)目為5×108。訓練基于PyTorch 工具在4 張V100-32G GPU 上進行,并采用了隨機梯度下降法(Stochastic Gradient Descent,SGD)、初始學習率0.02 的方式進行訓練。當開發(fā)集合的準確率不再穩(wěn)定提升時,在新的一輪數(shù)據(jù)迭代時對學習率進行折半,整個訓練過程數(shù)據(jù)共計迭代了12 輪。

        基于韻律特征與Decoder 的結合,本文首先驗證了不同時域信息分布表征對語音識別結果的影響,具體的實驗結果如表1 所示。因測試數(shù)據(jù)偏向遠場帶噪、多人討論的復雜場景,所以整體識別效果偏差,準確率僅為78.66%。而增加了不同的時域信息分布表征后,語音識別效果均有了不同程度提升。其中,以增加發(fā)音間隔信息表征的提升最大,相對提升達到5.7%。

        表1 基于韻律特征輔助的ED語音識別效果Tab.1 Effect of ED speech recognition based on prosodic features

        對比三種不同的特征,發(fā)音停頓信息以及發(fā)音持續(xù)信息,兩者均需根據(jù)設定的閾值產(chǎn)生,而在不同的Attention 上該閾值可能存在不通用等問題,因此解碼結果存在一定的波動情況。同時,Attention 分布并不一定能覆蓋整個字的邊界,因此Attention 區(qū)域大小和字持續(xù)時間可能不存在精確的映射關系。而發(fā)音間隔信息表征一定程度上包括了發(fā)音停頓信息以及發(fā)音持續(xù)時長等信息,同時其根據(jù)Attention 分布的最大值獲得確信時間,時間的準確性更高,因此效果提升更為穩(wěn)定。

        若只增加發(fā)音能量信息表征,相對提升達到了2.4%,這主要是因為用戶有些情況下停頓信息并不明顯,而增加一定的發(fā)音能量有助于強化分詞信息。而在利用發(fā)音間隔信息表征的基礎上,進一步增加了能量信息表征,語音識別的準確率達到了80.05%,相對提升達到6.5%。

        在ED 解碼結果的基礎上,進一步驗證了二遍重打分(rescore)的結合,具體效果如表2 所示。由實驗結果可知,基于ED 基線的5-best 解碼結果,利用額外的LSTM 的語言模型進行二遍重打分,相對提升達到了3.5%,而增加發(fā)音間隔信息懲罰rescore 的相對提升則達到了5.3%。發(fā)音間隔信息在ED 得分和語言模型得分的融合中,進一步補充了韻律信息作為輔助判斷,能夠一定程度上緩解語言模型過強造成的識別結果偏差。而當ED 模型解碼過程中已經(jīng)使用了韻律特征作為輔助,則改善幅度有限,主要是ED 在一遍解碼過程中已經(jīng)利用了韻律特征對Encoder 的聲學信息和語言信息進行融合,二遍rescore 整體的提升空間有限。結合一遍解碼的韻律特征輔助和二遍重打分的韻律特征懲罰,在1 000 h 數(shù)據(jù)上效果由79.41%提升為80.49%,效果累計相對提升達5.2%。

        表2 基于二遍重打分的ED語音識別效果Tab.2 Effect of ED speech recognition based on rescoring

        為了驗證該方法的推廣性,本文進一步在10 000 h 的數(shù)據(jù)上進行了對比實驗,具體結果如表3 所示。訓練數(shù)據(jù)同樣以采訪、會議和授課等場景為主,數(shù)據(jù)相關特性和1 000 h 數(shù)據(jù)相同。和1 000h 數(shù)據(jù)訓練不同的是,10 000 h 的訓練采用32 張V100-32G GPU 多機多卡并行訓練的方式減少訓練時間,同時訓練數(shù)據(jù)總共進行了6 輪迭代。可以看出,結合發(fā)音間隔信息表征以及發(fā)音能量信息表征的韻律特征輔助方法,在大數(shù)據(jù)上仍然有5.2%的效果相對提升;同時,在rescore 的過程中進一步增加韻律特征懲罰,相對基線rescore 效果由89.42%提升為89.95%,相對提升同樣達到了5.0%。

        表3 基于大數(shù)據(jù)的ED語音識別效果Tab.3 Effect of ED speech recognition on big data

        對實驗結果進行分析可以看出,效果明顯變化的部分多為語音相同或相近、語義不同類型相關的錯誤,具體如表4所示。當語言模型作用過強時,甚至會影響到聲學的選擇,如“因 yin”和“鸚 ying”,而增加韻律特征,則會緩解該類型錯誤的發(fā)生。因此,即使訓練數(shù)據(jù)達到了工業(yè)級應用的覆蓋,也難以實現(xiàn)對該類錯誤的有效緩解。而該方法顯式地將韻律相關特征加入了解碼端,能夠進一步強化聲學特征與語言模型結合的合理性;同時,該方法基于目前主流的端到端框架進行改進,是對該框架落地魯棒性的有效補充,進一步改善了端到端識別系統(tǒng)落地的用戶體驗。

        表4 語音識別結果變化示例Tab.4 Examples of change in speech recognition results

        3 結語

        本文結合語音識別實際應用過程中可能存在的發(fā)音相同或相近而語義不同等錯誤,考慮從韻律特征的角度出發(fā),強化聲學特征對語言模型預測的輔助優(yōu)化。實驗結果表明,基于發(fā)音間隔的韻律特征和發(fā)音能量的韻律特征的輔助優(yōu)化方法,能夠實現(xiàn)語言層面語義的進一步確認和區(qū)分,提升語音識別的效果。當然,精確的韻律信息常常難于在識別過程中實時獲取,因此后續(xù)將進一步拓展韻律信息的維度,同時考慮對時長、重音等韻律表征進行實時的預測提取,從而輔助語音識別的優(yōu)化。

        猜你喜歡
        韻律聲學解碼
        《解碼萬噸站》
        愛的就是這股Hi-Fi味 Davis Acoustics(戴維斯聲學)Balthus 70
        解碼eUCP2.0
        中國外匯(2019年19期)2019-11-26 00:57:32
        春天的韻律
        中華詩詞(2019年1期)2019-08-23 08:24:12
        Acoustical Treatment Primer:Diffusion談談聲學處理中的“擴散”
        NAD C368解碼/放大器一體機
        Acoustical Treatment Primer:Absorption談談聲學處理中的“吸聲”(二)
        Quad(國都)Vena解碼/放大器一體機
        Acoustical Treatment Primer:Absorption 談談聲學處理中的“吸聲”
        韻律之美——小黃村
        乱人伦中文无码视频| 一级老熟女免费黄色片| 久久国产精品亚洲婷婷片| 一区二区三区国产| 欧美一级三级在线观看| 美女露屁股无内裤视频| 国产av天堂亚洲av刚刚碰| 国产免费拔擦拔擦8x高清在线人| 国产成人av一区二区三区无码| 韩国无码精品人妻一区二| 日本一区二区不卡二区| 欧美日韩精品一区二区视频| 开心婷婷五月激情综合社区| 99热这里只有精品久久6| 一区二区三区国产精品麻豆| 99久久亚洲精品日本无码| 国产第19页精品| 97碰碰碰人妻视频无码| 中文字字幕在线中文乱码解| 亚洲热妇无码av在线播放 | 91色老久久偷偷精品蜜臀懂色| 亚洲春色在线视频| 欧美日本国产三级在线| 国产一区亚洲一区二区| 级毛片内射视频| 熟女人妇交换俱乐部| 久久国产成人午夜av影院| 我的美艳丝袜美腿情缘| 免费观看a级片| 三年片在线观看免费大全电影| 强d漂亮少妇高潮在线观看 | 男女调情视频在线观看| 肉体裸交137日本大胆摄影| 国产99re在线观看只有精品| 国产性感主播一区二区| 国语自产精品视频在线看| 无码精品a∨在线观看十八禁| 久久久调教亚洲| 91日韩东京热中文字幕| 欧美精品videossex少妇| 成人午夜无人区一区二区|