亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于中文語義-音韻信息的語音識別文本校對模型

        2023-01-08 14:31:02仲美玉吳培良竇燕劉毅孔令富
        通信學報 2022年11期
        關鍵詞:編碼方法音韻字符

        仲美玉,吳培良,2,竇燕,3,劉毅,孔令富,2

        (1.燕山大學信息科學與工程學院,河北 秦皇島 066004;2.河北省計算機虛擬技術與系統(tǒng)集成重點實驗室,河北 秦皇島 066004;3.河北省軟件工程重點實驗室,河北 秦皇島 066004)

        0 引言

        近年來,自動語音識別(ASR,automatic speech recognition)技術被廣泛地應用于人機交互系統(tǒng)。受用戶發(fā)音不清晰、環(huán)境噪聲等因素的影響,實際應用場景下的語音識別準確率仍然不高[1]。中文存在大量發(fā)音相近但意義完全不同的漢語字符,語言自身的復雜性進一步導致了語音識別錯誤的產(chǎn)生[2]。從語音識別文本長度變化的角度分析,ASR 系統(tǒng)產(chǎn)生的文本錯誤包括多字錯誤、少字錯誤和替換錯誤3 種類型。從語音識別文本發(fā)音變化的角度分析,語音識別文本中存在大量諧音錯誤,如圖1 所示,“鏡”被誤識為“睛”。除此之外,語音識別文本中還存在混淆音錯誤,如圖1 中“牛郎”被誤識為“流浪”。ASR 模塊通常位于人機語音交互系統(tǒng)前端,語音識別錯誤文本反饋至交互界面會增加用戶理解語義的難度,也會直接影響意圖識別、命名實體識別等下游任務的處理[3]。語音識別后的文本校對能有效避免識別錯誤在ASR 系統(tǒng)下游任務的累積,是改進ASR 系統(tǒng)性能的重要方法[4]。

        圖1 語音識別錯誤示例

        替換錯誤在語音識別錯誤中占有較大比重[5],故本文側重于檢測和糾正語音識別文本中的替換錯誤。中文文本校對方法主要分為3 種,分別是基于規(guī)則的校對方法、基于統(tǒng)計的校對方法和基于深度學習的校對方法。相較基于規(guī)則的校對方法和基于統(tǒng)計的校對方法,基于深度學習的校對方法能夠捕獲更深層次的語義信息,有利于提升文本校對效果[6]。針對現(xiàn)有基于深度學習的模型只考慮使用文本的語義信息糾正錯誤字符的問題,Chen 等[7]構建了融合語義信息和音韻信息的預訓練語言模型來實現(xiàn)語音識別文本校對,該方法首先使用微調的預訓練語言模型定位語句中錯誤字符的位置,采用掩碼字符掩蓋錯誤字符,利用模型提取的語義信息計算糾錯候選字符的概率;然后,采用DIMSIM[8]計算錯誤字符與各候選字符的拼音距離;最后,綜合考慮候選字符的概率及其與錯誤字符的拼音距離來完成文本糾錯,實驗證明了利用拼音信息能夠有效地加強模型糾正語音識別文本中諧音錯誤字符的能力。Duan 等[9]使用一維卷積神經(jīng)網(wǎng)絡(1D-CNN,one-dimensional convolutional neural network)構建的序列到序列(Seq2Seq,sequence to sequence)模型來校對文本,該方法采用字節(jié)對編碼方法生成拼音的嵌入向量(以下統(tǒng)稱音韻嵌入向量)并將其作為模型的輸入,以便模型提取并利用語句的音韻信息糾正文本錯誤,實驗驗證了字粒度切分語句的方式和帶聲調的拼音有助于提高語音識別文本糾錯效果。綜上所述,拼音攜帶的音韻信息對糾正ASR系統(tǒng)識別錯誤具有重要意義。由于拼音中的字母不可隨意調換順序,例如,圖1 中“郎”字的拼音是“l(fā)áng”,調換其拼音中任意2 個字母的位置后(如“l(fā)nág”、“l(fā)ágn”),便不再是“郎”字的讀音,故中文字符的拼音本質上是一種序列。然而,上述工作在生成音韻嵌入向量時沒有保留拼音的時序信息,也沒有對生成音韻嵌入向量的拼音編碼方法及其對檢測和糾正語音識別文本錯誤的影響做進一步研究。此外,基于深度學習的文本校對模型往往需要通過大量的標注語料來增強其對文本語義和文本結構信息的學習能力,從而提升模型的檢錯和糾錯性能。但實際應用中的ASR 系統(tǒng)通常面向垂直領域,可獲取的標注語料十分有限。雖然可以使用其他語料庫來擴充數(shù)據(jù)集,但該方式不能促使模型學習到更多與特定對話場景相關的文本語義和文本結構信息。

        為了解決上述問題,本文提出了5 種拼音編碼方法來生成中文字符的含拼音時序信息的音韻嵌入向量,分別將各個拼音編碼方法與帶有注意力機制的編碼器-解碼器架構相結合來建立基于中文語義-音韻信息(CSPI,Chinese semantic and phonological information)的文本校對模型;從漢語拼音組成成分的角度分析了語音識別文本錯誤的特點,并據(jù)此提出了一種基于拼音聲韻置換(RPIF,replacement of Pinyin’s initials or finals)的數(shù)據(jù)增強方法,該方法可利用有限的語料來生成大量的糾錯數(shù)據(jù),以便利用數(shù)據(jù)驅動的方法構建面向垂直領域的文本校對模型。本文的主要貢獻可以總結為以下4 點。

        1) 提出了5 種拼音編碼方法來生成中文字符的音韻嵌入向量。所提方法采用不同的處理時序數(shù)據(jù)的神經(jīng)網(wǎng)絡來編碼拼音序列,從而以多種方式生成含有拼音時序信息的音韻嵌入向量,便于研究不同拼音編碼方法對語音識別文本校對任務的影響。

        2) 構建了基于CSPI 的語音識別文本校對模型。該模型由上述拼音編碼方法分別與帶有注意力機制的編碼器-解碼器架構組合而成,能充分地提取并利用中文語句的語義和音韻信息校對語音識別文本錯誤。

        3) 提出了一種基于RPIF 的數(shù)據(jù)增強方法。該方法能夠有效模擬用戶因發(fā)音不清晰、口誤等造成的語音識別錯誤,解決了因標注語料不足而難以面向特定對話場景構建基于深度學習的文本校對模型的問題。

        4) 在多人普通話語音數(shù)據(jù)集AISHELL-3 上開展了相關實驗,驗證了拼音攜帶的音韻信息有利于文本校對模型檢測和糾正語音識別文本錯誤,歸納了不同的拼音編碼方法對檢測和糾正語音識別文本錯誤的影響。

        1 相關工作

        語音識別后的文本校對是提升ASR 系統(tǒng)性能的重要方法。文獻[1]綜述了ASR 系統(tǒng)識別錯誤的產(chǎn)生原因和處理方法。早期的研究主要是對語音識別錯誤檢測方法的研究,對語音識別錯誤糾正方法的研究則相對較少。中文文本校對方法可分為3 種:基于規(guī)則的校對方法、基于統(tǒng)計的校對方法和基于深度學習的校對方法。文獻[10-11]均通過觀察文本錯誤出現(xiàn)的規(guī)律并制定相應的規(guī)則來處理文本錯誤。此類基于規(guī)則的校對方法僅對特定的錯誤類型有效,其文本校對效果也嚴重依賴于規(guī)則制定的好壞[12-13]?,F(xiàn)有ASR 系統(tǒng)在實際對話場景中產(chǎn)生的識別錯誤具有較強的復雜性,無法使用簡單的規(guī)則覆蓋所有可能出現(xiàn)的錯誤。N-gram 是文本校對任務中最常用的統(tǒng)計語言模型[14]。文獻[15]使用N-gram 語言模型和潛在語義分析方法相結合的方式來校對文本錯誤。文獻[16]建立了基于2-gram 和3-gram 的文本校對方法,并采用了平滑技術來解決數(shù)據(jù)稀疏的問題。文獻[17]結合使用語言模型和統(tǒng)計機器翻譯方法生成錯誤字符的候選集,采用支持向量機對候選集排序的方式實現(xiàn)中文語句的自動校對。然而,基于統(tǒng)計的校對方法在使用混淆集糾正文本錯誤時,沒有充分利用句子的上下文語義關系,容易出現(xiàn)鄰近詞正確,但整個句子不符合邏輯的情況。因此,上述基于規(guī)則和基于統(tǒng)計的文本校對方法均難以有效地處理ASR 系統(tǒng)實際應用過程中出現(xiàn)的語音識別錯誤。近年來,越來越多的研究將深度學習技術運用到中文文本處理任務中,基于深度神經(jīng)網(wǎng)絡的文本校對方法也不斷被提出[18-21]。文獻[22]將檢測文本錯誤字符的問題視為序列標注問題,利用雙向長短期記憶(LSTM,long-short term memory)網(wǎng)絡構建了拼寫文本檢錯模型。文獻[23]構建了基于雙向LSTM 的Seq2Seq 模型來檢測和糾正文本中的錯誤字符。文獻[24]構建了基于1D-CNN 的Seq2Seq 模型來實現(xiàn)文本校對?;谏疃葘W習的校對方法能利用深度神經(jīng)網(wǎng)絡模型捕獲更豐富的文本語義和文本結構信息來校對文本錯誤,通常能取得比基于規(guī)則和基于統(tǒng)計的校對方法更好的檢錯和糾錯效果。

        語音識別文本校對和拼寫文本校對的研究目標一致,本質上都是檢測和糾正文本中的錯誤字符。中文拼寫錯誤主要來源于人們錯誤使用了某個字符的諧音或形似字符[25]。近年來,一些研究工作嘗試利用文本的拼音和字形信息來提升基于深度學習的拼寫文本校對模型的性能。Wang 等[26]構建了基于Lattice LSTM 和CRF 的拼寫錯誤檢測模型,該模型融合字符、詞語和拼音3 種信息進行錯誤檢測,驗證了拼音信息有利于檢測拼寫錯誤。Liu 等[27]提出了使用單向門控循環(huán)單元(Uni-GRU,unidirectional gated recurrent unit)編碼字符的無聲調拼音和筆畫來獲取更有意義的字符表示,并以此作為預訓練語言模型的輸入。實驗結果表明,融合拼音和筆畫信息的預訓練模型在拼寫文本校對任務中表現(xiàn)出了十分優(yōu)異的性能。與之類似,文獻[28-32]也提出了多種基于深度學習的拼寫文本校對方法,部分研究工作以不同方式利用字符的音韻信息來提升模型性能。表1 列舉了多項研究在SIGHAN2015 拼寫糾錯數(shù)據(jù)集[33]上的評估結果。從表1 可以看出,基于深度學習的拼寫校對模型通常比基于統(tǒng)計的拼寫校對模型有更好的檢錯和糾錯效果,字符的音韻信息對提升拼寫校對模型的檢錯和糾錯性能有積極影響。相較于拼寫文本錯誤,語音識別文本錯誤不僅包含諧音類型的錯誤字符,還包含較多因用戶發(fā)音不清晰、環(huán)境嘈雜等因素導致的混淆音類型的錯誤字符。然而,現(xiàn)有面向語音識別文本校對任務的相關工作沒有深入地研究拼音所蘊含的音韻信息對檢測和糾正語音識別文本錯誤的影響??紤]到漢語拼音是一種序列且?guī)曊{的拼音能完整地保留字符音韻信息,本文參考文獻[27]提出了一種新的基于Uni-GRU 的拼音編碼方法,同時又基于1D-CNN、雙向門控循環(huán)單元(Bi-GRU,bidirectional gated recurrent unit)等處理時序數(shù)據(jù)的網(wǎng)絡提出了4 種拼音編碼方法來編碼帶聲調的拼音序列,以生成保留完整音韻信息的嵌入向量。將各個拼音編碼方法分別與帶有注意力機制的編碼器-解碼器架構相結合來構建基于CSPI 的文本校對模型,以明確有利于檢測和糾正語音識別文本錯誤的拼音編碼方法。

        表1 多項研究在SIGHAN2015 拼寫糾錯數(shù)據(jù)集上的評估結果

        由于標注數(shù)據(jù)有限,許多先進的深度學習模型難以被有效地應用于文本校對任務。為了滿足通過大量標注數(shù)據(jù)提升模型校對性能的需求,Wang 等[22]利用基于光學字符識別和自動語音識別的方法模擬拼寫錯誤,實現(xiàn)了面向拼寫糾錯任務的數(shù)據(jù)增強方法。Liu 等[27]和Cheng 等[30]通過上述數(shù)據(jù)增強方法生成的語料構建了大規(guī)模預訓練語言模型,該模型在拼寫糾錯任務中取得了非常優(yōu)異的成績。然而,ASR 系統(tǒng)識別錯誤比拼寫錯誤更復雜,主要原因是ASR 系統(tǒng)在用戶發(fā)音不清晰或環(huán)境嘈雜的情況下獲取了含較多噪聲的聲音信號,ASR 系統(tǒng)的語言模型因受噪聲干擾無法將聲音信號解碼為正確的文本序列。值得注意的是,Wang 等[22]提出的數(shù)據(jù)增強方法根據(jù)拼寫錯誤的特點摒棄了語音識別過程中真實產(chǎn)生的混淆音類別的錯誤文本。其他面向拼寫糾錯任務的數(shù)據(jù)集也存在包含較少混淆音類別的錯誤文本的問題。這意味著在拼寫糾錯數(shù)據(jù)集上表現(xiàn)出色的文本校對模型不一定在語音識別后的文本校對任務中具備同等優(yōu)秀的糾錯能力。因此,本文從漢語拼音組成成分的角度分析ASR 系統(tǒng)識別錯誤的特點,并據(jù)此提出一種基于RPIF 的數(shù)據(jù)增強方法,以便將先進的深度學習模型應用于語音識別后的文本校對任務中,進而輔助ASR 系統(tǒng)提升其識別準確性。

        2 基于CSPI 的文本校對模型

        基于CSPI 的文本校對模型受啟發(fā)于神經(jīng)機器翻譯模型[34-35],使用帶有注意力機制的編碼器-解碼器架構[36]來實現(xiàn)錯誤文本到正確文本的轉換,模型的總體結構如圖2 所示。首先,使用常見的處理時序型數(shù)據(jù)的神經(jīng)網(wǎng)絡編碼中文字符的拼音序列,生成含時序信息的音韻嵌入向量。然后,分別融合錯誤文本中各個字符的音韻嵌入向量和字符嵌入向量,以此作為編碼器的輸入。接著,編碼器編碼錯誤文本,輸出錯誤文本的語義-音韻向量,該語義-音韻向量則攜帶了錯誤文本全部的語義-音韻信息。最后,解碼器以語義-音韻向量和解碼起始符為輸入,先采用注意力機制捕獲當前解碼字符與錯誤文本的上下文語義-音韻關系,再利用該語義-音韻關系輸出預測字符,進而逐步解碼預測的正確文本。

        圖2 基于CSPI 的文本校對模型的總體結構

        接下來,先從數(shù)學角度定義模型校對語音識別錯誤文本的過程,再從拼音編碼、編碼器、解碼器和優(yōu)化目標4 個方面詳細介紹基于CSPI 的文本校對模型。

        2.1 問題定義

        假設錯誤文本為源(source)文本序列s= {s1,···,si,···,sn},文本校對模型輸出的語句是目標(target)文本序列g= {g1,···,gt,···,gm}。從概率角度分析,文本校對的過程相當于給定s,尋找g來最大化條件概率。因此,文本校對的目標是建立一個參數(shù)化模型,使用平行語料庫來訓練該模型,以最大化各個source-target 語句對的條件概率。當模型學習到這個條件概率分布后,給定一個錯誤文本,模型便可以輸出一個條件概率最大的句子作為預測的正確文本。為了利用句子的音韻信息來加強模型校對語音識別錯誤文本的能力,本文提出了5 種拼音編碼方法來構建基于CSPI 的文本校對模型。假設s對應的拼音序列為則的求解過程轉化為

        2.2 拼音編碼

        拼音是由小寫拉丁字母構成的漢字發(fā)音標記,一般包含聲母、韻母和聲調3 個部分,如圖3 所示。為了便于計算機識別,將圖3 中4 種聲調依次映射到數(shù)字{1,2,3,4},則4 個漢字的拼音可表示為‘fei1,yan2,zou3,bi4’。除了圖3 所示的4 種聲調外,中文還存在輕聲這一特殊的聲調。‘輕聲’字符的拼音不標注聲調,僅由小寫拉丁字母構成,例如,‘云彩’中的‘彩’為輕聲,其拼音為‘cai’。

        圖3 漢語拼音示例

        為了建模字符間的音韻關系,本文將字符拼音視為由小寫字母和聲調組成的序列,使用不同的處理時序數(shù)據(jù)的神經(jīng)網(wǎng)絡(Uni-GRU、Bi-GRU 和1D-CNN)編碼拼音序列,由此獲取含時序信息的音韻嵌入向量,以使音似字符間有相似的音韻表示。在之前的研究工作中,Duan 等[9]驗證了字粒度切分方式和帶聲調的拼音序列有利于語音識別文本糾錯,因此,本文采用字粒度切分方式劃分語句,

        使用PyPinyin工具包獲取各個字符的帶有聲調的拼音序列。本文將拼音序列的長度固定為8,當拼音序列的實際長度未達到8 時使用數(shù)字‘0’填充。根據(jù)編碼拼音序列的網(wǎng)絡類型的不同,將本文提出的5 種拼音編碼方法分別命名為PC、PU、PB、PCU和PCB。圖4 以‘中’的拼音‘zhong1’為例,示意了上述5 種拼音編碼方法。由圖4 可知,PC、PU和PB使用一種類型的神經(jīng)網(wǎng)絡編碼拼音序列,本文將其統(tǒng)稱為單網(wǎng)絡拼音編碼方法。PCU和PCB使用2 種不同類型的神經(jīng)網(wǎng)絡編碼拼音序列,以獲取更加全面的音韻信息,本文將其統(tǒng)稱為混合網(wǎng)絡拼音編碼方法。以下是對5 種拼音編碼方法的定義。

        圖4 拼音編碼

        定義1PC拼音編碼。對于任意一個中文字符c的拼音序列cp,使用單層1D-CNN 編碼cp,生成字符c的PC音韻嵌入向量,即

        其中,φCNN是單層1D-CNN 的函數(shù)表示,Maxpool指最大池化層,E指字符嵌入層。

        定義2PU拼音編碼。對于任意一個中文字符c的拼音序列cp,使用單層Uni-GRU 網(wǎng)絡編碼cp,生成字符c的PU音韻嵌入向量,即

        其中,φUni-GRU是單層Uni-GRU 網(wǎng)絡的函數(shù)表示。

        定義3PB拼音編碼。對于任意一個中文字符c的拼音序列cp,使用單層Bi-GRU 網(wǎng)絡編碼cp,生成字符c的PB音韻嵌入向量,即

        其中,φBi-GRU是單層Bi-GRU 網(wǎng)絡的函數(shù)表示。

        定義4PCU拼音編碼。對于任意一個中文字符c的拼音序列cp,融合pC和pU編碼cp所得結果,生成字符c的PCU音韻嵌入向量,即

        其中,f表示全連接(FC,fully connected)層,[·]表示合并操作。

        定義5PCB拼音編碼。對于任意一個中文字符c的拼音序列cp,融合pC和pB編碼cp所得結果,生成字符c的PCB音韻嵌入向量,即

        由圖4 可得,cp先通過字符嵌入層獲取其字母或聲調的嵌入向量,而后任選一種拼音編碼方法來生成字符c的音韻嵌入向量,即

        2.3 編碼器

        編碼器由混合嵌入(FE,fusion embedding)層和單層Bi-GRU 網(wǎng)絡構成,負責輸出源文本序列s在各個時間步的隱藏(Hidden)層及其語義-音韻向量C,其結構如圖2 所示。構建混合嵌入層旨在建立中文句子及其拼音序列間的關系。選用Bi-GRU 是希望編碼器能通過該網(wǎng)絡充分提取s的上下文語義-音韻信息。

        首先,源文本序列s及其拼音序列sp經(jīng)混合嵌入層后得到字符-音韻嵌入向量

        其中,σ表示激活函數(shù)tanh。則編碼器在各個時間步輸出的隱藏狀態(tài)hs可表示為

        根據(jù)文獻[35],本文使用編碼器在最后一個時間步上的隱藏狀態(tài)作為源文本序列s的語義-音韻向量C,即

        2.4 解碼器

        解碼器由混合嵌入層和單層的Uni-GRU 網(wǎng)絡構成,使用源文本序列的語義-音韻向量C初始化Uni-GRU 層的隱藏狀態(tài),采用注意力機制輸出預測的文本序列,其結構如圖2 所示。

        其中,是Uni-GRU 層在t時刻輸出的隱藏狀態(tài)。

        本文采用注意力機制[37]使解碼器在動態(tài)解碼過程中,給予源文本序列中與目標字符相關性較高的字符以較大權重,以便模型能準確輸出目標文本序列。以編碼器和解碼器在各個時間步輸出的隱藏狀態(tài)hs和hg作為注意力機制輸入,將注意力機制在t時刻輸出的隱藏狀態(tài)記為,其計算方法如式(16)所示。

        其中,ct是編碼器輸出的各個隱藏狀態(tài)在t時刻的加權平均和,可表示為

        在模型評估階段,解碼器僅以解碼起始符為輸入,此后的每個時間步輸出一個預測的目標字符,并以該字符及其拼音序列作為解碼器在下一時刻的輸入,如此循環(huán)迭代,直至輸出解碼終止符后停止解碼。每個時間步輸出的預測目標字符均為詞匯表中概率最高的字符。根據(jù)文獻[30],本文以預測目標字符是否與真實目標字符相匹配來實現(xiàn)錯誤檢測。

        2.5 優(yōu)化目標

        一般來說,文本糾錯模型在訓練階段只設置字符優(yōu)化目標。本文提出的基于CSPI 的文本校對模型同時學習了句子的語義信息和音韻信息,因此設置了字符-拼音優(yōu)化目標,如式(22)所示。

        其中,Lc和 Lp分別是字符優(yōu)化目標和拼音優(yōu)化目標,可表示為

        3 面向中文ASR 系統(tǒng)的糾錯數(shù)據(jù)增強方法

        本節(jié)首先根據(jù)2.2 節(jié)所述漢語拼音的組成部分來分析語音識別錯誤的特點,然后根據(jù)該特點提出一種基于RPIF 的糾錯數(shù)據(jù)增強方法。

        3.1 語音識別文本錯誤分析

        表2 列舉了Kaldi 語音識別工具包使用過程中出現(xiàn)的錯誤示例[22]。接下來,根據(jù)拼音的組成部分,即聲母、韻母和聲調,分析表2 所列語音識別錯誤示例。示例1 中,“幸”被誤識為“行”,二者的聲母和韻母均相同,聲調“4”被誤識為聲調“2”。示例2 中,語音識別錯誤字符與正確字符有著完全不同的發(fā)音,但仔細分析可以發(fā)現(xiàn),“圍”和“沒”有相同的韻母“ei”和聲調“2”,語音識別錯誤來源于聲母“m”被誤識為“w”;“繞”和“讓”有相同的聲母“r”和聲調“4”,語音識別錯誤來源于韻母“ao”被誤識為“ang”。示例3 中,“院方協(xié)商”與誤識的“岳風學生”有著相同的聲母和聲調,其語音識別錯誤來源于“院方協(xié)商”的韻母“uan”、“ang”、“ie”、“ang”分別被誤識為“ue”、“eng”、“ue”、“eng”。由此看來,語音識別文本錯誤表現(xiàn)為語句中某些字符的拼音組成部分發(fā)生了變化,這些字符被誤識為與其有相同聲母或韻母的字符。

        表2 Kaldi 語音識別工具包使用過程中出現(xiàn)的錯誤示例

        3.2 基于RPIF 的數(shù)據(jù)增強方法

        根據(jù)ASR 系統(tǒng)識別錯誤表現(xiàn)為語句中的某些字符被誤識為其同聲母或同韻母字符的特點,本文提出一種基于RPIF 的數(shù)據(jù)增強方法,如算法1 所示。在此之前,給出以下定義。

        定義6同聲字符集。設字符集Ci={c1,···,cn},n∈Z,若Ci中字符的聲母都相同,則稱Ci為同聲字符集。

        用咪達唑侖、舒芬太尼常規(guī)鎮(zhèn)靜鎮(zhèn)痛,使用PB840呼吸機進行機械通氣,控制潮氣量為6~8 ml/kg,每次吸氣時間為1~1.2 s,40 L/min,頻率為14~25次/min,氧濃度控制在45~100%,控制呼氣末正壓為5~18 cm H 2 O,保證患者SaO2>85%。

        定義7同韻字符集。設字符集Cf={c1,···,cn},n∈Z,若Cf中字符的韻母都相同,則稱Cf為同韻字符集。

        定義8同聲字典。多個聲母及其同聲字符集構成的集合。

        定義9同韻字典。多個韻母及其同韻字符集構成的集合。

        定義10聲韻混淆集。一個漢字對應一個聲韻混淆集,聲韻混淆集中任意一個字符都與該漢字有相同的聲母或韻母。

        算法1基于RPIF 的數(shù)據(jù)增強方法

        算法1 展示了基于RPIF 的數(shù)據(jù)增強方法的詳細過程,該過程主要是將從語句中隨機抽取的n個字符分別置換為與其同聲母或同韻母字符的方式來獲取大量的糾錯語料。算法1 中的置換概率P決定了目標語料庫中生成語料與源語料的比例,生成語料隨P的增大而增多。當P=0時,目標語料庫的數(shù)據(jù)是對源語料庫的復制擴充。當P=1時,目標語料庫的數(shù)據(jù)均是采用算法1 中步驟13)~步驟28)所示方法獲取的生成語料。此時,目標語料庫Ce的可擴展規(guī)模受漢字集Cc大小的影響。Cc越大,單個漢字的聲韻混淆集越大,糾錯語料庫的上限規(guī)模便會越大。值得注意的是,算法1 中的步驟14)、步驟18)和步驟25)均采用隨機化方式來設置當前語句的錯誤字符個數(shù)n、抽取n個待替換字符及其替換字符,這能有效地模擬 ASR 系統(tǒng)識別錯誤出現(xiàn)的隨機性。

        4 實驗

        本節(jié)首先介紹實驗所用數(shù)據(jù)集、實驗環(huán)境和評估指標。然后將基于CSPI 的文本校對模型和2 個未結合拼音編碼方法的模型進行比較,以驗證基于 CSPI 的文本校對模型的檢錯和糾錯性能,并對比不同拼音編碼方法對模型性能的影響。最后設置2 組實驗分別驗證優(yōu)化目標和基于RPIF 的數(shù)據(jù)增強方法對基于CSPI 的模型校對性能的影響。

        4.1 實驗數(shù)據(jù)

        表3 AISHELL-3 數(shù)據(jù)集實驗數(shù)據(jù)統(tǒng)計信息

        4.2 實驗環(huán)境及模型評估

        本文實驗環(huán)境如下:操作系統(tǒng)為 64 位Windows10 系統(tǒng),CPU 為英特爾i9-10850K,GPU為16 GB 的NVIDIA A4000,內存為DDR4 32 GB。實驗中涉及的深度學習模型使用Pytorch 構建。訓練模型的參數(shù)設置如表4 所示。在模型訓練過程中,從訓練集中隨機抽取20%的數(shù)據(jù)作為驗證集。

        表4 訓練模型的參數(shù)設置

        為客觀評估模型性能,取模型在AISHELL-3數(shù)據(jù)集上5 次實驗結果的均值作為最終的模型性能評估數(shù)據(jù),選用文本糾錯任務中常用的準確率(P,precision)、召回率(R,recall)、F1(F1-measure)作為評估指標[23],并主要通過F1 值來對比不同模型的檢錯和糾錯性能。

        4.3 實驗結果與分析

        4.3.1 拼音編碼方法的有效性

        本節(jié)將基于CSPI 的文本校對模型與以下2 個無拼音編碼模型進行比較,以此檢驗拼音編碼方法的有效性。同時,通過對比不同拼音編碼模型的檢錯和糾錯結果,驗證不同拼音編碼方法對模型性能的影響。無拼音編碼模型簡介如下。

        1) MC[24]。使用2 層1D-CNN 和注意力機制構建的基于編碼器-解碼器架構的文本校對模型。模型參數(shù)與表4 所列各項參數(shù)保持一致。

        2) MG。使用門控循環(huán)單元(GRU,gated recurrent unit)和注意力機制構建基于編碼器-解碼器架構的文本校對模型,即圖2 所示模型僅以字符作為模型輸入。

        為了便于說明,將基于CSPI 的文本校對模型使用PU、PB、PC、PCU和PCB這5 種拼音編碼方法時分別記為MG+PU、MG+PB、MG+PC、MG+PCU和MG+PCB,統(tǒng)稱為拼音編碼模型MG+P。各拼音編碼模型和無拼音編碼模型的檢錯和糾錯結果如圖5 和表5 所示。

        由圖5 和表5 可以看出,各個拼音編碼模型的檢錯結果均顯著優(yōu)于無拼音編碼模型,同時拼音編碼模型的糾錯結果也優(yōu)于無拼音編碼模型。對比2 種無拼音編碼模型,MG的檢錯和糾錯結果始終優(yōu)于MC。接下來,從檢錯和糾錯2 個方面詳細地分析各個模型的文本校對性能。

        圖5 拼音編碼模型和無拼音編碼模型的文本校對性能對比

        由圖5 和表5 可以看出,混合網(wǎng)絡拼音編碼模型MG+PCB的檢錯F1 值優(yōu)于MG+PCU,且兩者的檢錯結果明顯優(yōu)于單網(wǎng)絡拼音編碼模型。對比單網(wǎng)絡拼音編碼模型的檢錯F1 值可以看出,MG+PC優(yōu)于MG+PB,MG+PB優(yōu)于MG+PU。具體來說,MG+PCB取得了最高檢錯F1 值48.16%,相較MG和MC分別高出11.91%和24.31%,相較MG+PU、MG+PB、MG+PC和MG+PCU分別高出4.13%、3.82%、2.94%和0.13%。這與本文預期的效果相同,復雜的拼音編碼網(wǎng)絡能促使模型提取分辨能力較強的音韻信息,有助于模型檢測文本錯誤。此外,由圖5 和表5 還可以看出,拼音編碼模型的檢錯準確率隨拼音編碼網(wǎng)絡復雜度的增加而降低,但其檢錯召回率和F1 值隨拼音編碼網(wǎng)絡復雜度的增加而不斷增大,模型檢錯性能整體向好。這說明基于CSPI 的文本校對模型結合復雜度較高的拼音編碼網(wǎng)絡可以增強其檢測錯誤字符的靈敏度,進而增加真實錯誤字符的檢出率。

        由表5 可得,拼音編碼模型的各項糾錯指標有隨拼音編碼網(wǎng)絡復雜度的增加而下降的趨勢。對比各個模型的糾錯F1 值,拼音編碼模型MG+PU取得了最高糾錯F1 值37.21%,比無拼音編碼模型MG和MC分別高出0.43%和3.98%。而其他拼音編碼模型的糾錯性能卻低于無拼音編碼模型,且混合網(wǎng)絡拼音編碼模型的糾錯性能不如單網(wǎng)絡拼音編碼模型。拼音編碼模型的糾錯性能整體呈現(xiàn)與其檢錯性能相反的趨勢。這是因為中文存在較多同音異義的字符,模型使用復雜的拼音編碼方法提取的音韻信息分辨能力過強,導致模型認為原有錯誤字符或模型預測的字符在語音或語義上都能使句子有意義,本文將此稱為由音韻信息引起的過糾現(xiàn)象。

        表5 拼音編碼模型和無拼音編碼模型的文本校對性能對比結果

        綜上所述,音韻信息有利于基于CSPI 的文本校對模型檢測和糾正文本錯誤。模型的檢錯能力隨拼音編碼網(wǎng)絡的復雜度增加而增強。由于存在音韻信息引起的過糾現(xiàn)象,模型的糾錯能力呈現(xiàn)隨拼音編碼網(wǎng)絡的復雜度增加而下降的趨勢。

        4.3.2 優(yōu)化目標對模型性能的影響

        本節(jié)主要通過對比不同拼音編碼模型使用字符優(yōu)化目標 Lc和字符-拼音優(yōu)化目標 Lcp時的檢錯和糾錯結果來分析優(yōu)化目標對模型性能的影響。各模型的文本校對結果如圖6 和表6 所示。接下來,從檢錯和糾錯2 個方面對比分析各個模型的文本校對性能。

        圖6 基于CSPI 的模型使用不同優(yōu)化目標時的文本校對性能對比

        由表6 和圖6(a)可以看出,拼音編碼模型MG+P無論使用 Lc還是 Lcp,其檢錯性能均優(yōu)于無拼音編碼模型MG。相較使用 Lc,MG+PU、MG+PB、MG+PC、MG+PCU和MG+PCB使用 Lcp時的檢錯F1 值分別提升了4.13%、2.34%、2.83%、0.97%和0.42%,這說明字符-拼音優(yōu)化目標能夠促使模型學習分辨能力更強的音韻信息,進而提升了模型的檢錯性能。由表6 和圖6(a)還可以看出,當模型使用 Lc時,MG+PCB的檢錯F1 值比MG+PCU高,且兩者的檢錯性能仍明顯優(yōu)于MG+PU、MG+PB和MG+PC,這也進一步體現(xiàn)了模型融合復雜拼音編碼網(wǎng)絡學習的音韻信息更加有利于其辨別文本錯誤。

        然而,由表6 和圖6(b)可以看出,MG+PC使用Lc時的糾錯結果高于其使用 Lcp,此時拼音編碼模型取得了最優(yōu)糾錯F1 值37.46%,相較MG+PC使用Lcp的糾錯F1 值高出0.94%,相較MG的糾錯F1 值高出0.68%,相較MG+PU使用 Lcp取得的最好糾錯F1 值高出0.25%。MG+PU、MG+PB和MG+PCB使用Lc和 Lcp時取得的糾錯結果相當。僅MG+PCU使用Lcp時的糾錯結果優(yōu)于其使用 Lc。

        表6 基于CSPI 的模型使用不同優(yōu)化目標時的文本校對性能對比結果

        綜上所述,在使用字符-拼音優(yōu)化目標時,基于CSPI 的文本校對模型結合復雜拼音編碼網(wǎng)絡提取的音韻信息能夠使其具備更好的文本錯誤檢測能力。在使用字符優(yōu)化目標時,基于CSPI 的文本校對模型結合簡單拼音編碼網(wǎng)絡提取的音韻信息使其糾錯能力占有一定的優(yōu)勢。

        4.3.3 基于RPIF 的數(shù)據(jù)增強方法的影響

        根據(jù)以上實驗結果,本節(jié)選取單網(wǎng)絡拼音編碼模型MG+PC和混合網(wǎng)絡拼音編碼模型MG+PCB來驗證基于RPIF 的數(shù)據(jù)增強方法對模型檢錯和糾錯性能的影響。

        算法1 所需輸入?yún)?shù)如下。源語料庫Cs為AISHELL-3 的訓練集。漢字集Cc選用《通用規(guī)范漢字字典》[40]的一級字表和二級字表,共包含6 500 個常用漢字。單條語句的最大錯誤字符個數(shù)nmax=4,置換概率為P=1。目標語料庫大小N分別設置為100 000、150 000 和200 000,記為10w、15w 和20w。MG+PC和MG+PCB使用不同大小目標語料庫訓練時的文本校對性能對比結果如表7 所示。表7 中,Origin 表示模型訓練集為原始訓練集大小。

        由表7 可以看出,MG+PC和MG+PCB的檢錯召回率和F1 值隨著目標語料庫的增大而增大,其檢錯準確率也隨目標語料庫的增大有不同程度的提升。當訓練集大小為20w 時,MG+PC和MG+PCB取得了最優(yōu)檢錯F1 值,分別為49.57%和51.20%,相較使用原始訓練集,其檢錯F1 值分別提升了4.35%和3.04%。這表明由基于RPIF 的數(shù)據(jù)增強方法獲取的訓練集能促使模型學習更多文本錯誤實例的音韻信息,進而加強了模型檢測文本錯誤的能力。由表7 還可以看出,當模型使用同一語料庫訓練時,MG+PCB的檢錯結果始終優(yōu)于MG+PC,這進一步驗證了基于CSPI 的文本校對模型所結合的拼音編碼網(wǎng)絡的復雜度越高,其檢錯能力越好。

        由表7 也可以看出,MG+PC和MG+PCB的糾錯結果并未隨著目標語料庫的增大而增大。這是由于訓練集中的混淆音錯誤字符隨數(shù)據(jù)量增加而不斷增多,模型學習的語義信息受到了影響。此外,從表7 還可以看出,MG+PC的各項糾錯指標優(yōu)于MG+PCB,這與表5 和表6 所反映的信息一致,基于CSPI 的文本校對模型結合簡單拼音編碼網(wǎng)絡學習的音韻信息更有助于其糾正文本錯誤。

        5 討論

        拼音攜帶的音韻信息有助于文本校對模型檢測和糾正語音識別后的文本錯誤,這與文獻[7,9]得出的結論一致。結合表5~表7 可以看出,基于CSPI的文本校對模型取得的最優(yōu)檢錯F1 值比無拼音編碼模型MC和MG分別高27.35%和14.95%;其最優(yōu)糾錯F1 值比MC和MG分別高4.23%和0.68%。由表5~表7 所示實驗結果還可以看出,模型結合復雜拼音編碼網(wǎng)絡提取的音韻信息更有利于其檢出文本錯誤,但模型的糾錯性能會受到影響。本文認為這是一種音韻信息引起的過糾現(xiàn)象。模型結合復雜拼音編碼網(wǎng)絡能夠提取到分辨力較強的音韻信息,進而提升了檢測文本錯誤的靈敏度。但音韻信息過強會導致模型認為某些錯誤字符也能使句子在語音或語義上有意義,以致模型無法糾正此類文本錯誤。文獻[30]中也提及了類似的問題。例如,“的”、“地”和“得”3 個字有相同的發(fā)音“de”,將語句中“地”替換為其他兩者后,該語句依然有意義。

        加大拼音編碼網(wǎng)絡的復雜度、加強模型訓練過程中對音韻信息的優(yōu)化、增加訓練數(shù)據(jù)中混淆音文本錯誤的類別均能促使文本校對模型捕獲較強分辨力的音韻信息,進而提升模型的文本檢錯能力。降低拼音編碼網(wǎng)絡的復雜度或在模型訓練過程中適當減少對音韻信息的優(yōu)化則有利于文本校對模型糾正文本錯誤。由表6 可以看出,基于CSPI 的文本校對模型結合任意一種拼音編碼網(wǎng)絡且使用字符-拼音優(yōu)化目標時都能取得更好的檢錯性能;而當僅使用字符優(yōu)化目標時,模型的糾錯性能更好。這是由于僅使用字符優(yōu)化目標能夠在一定程度上削弱音韻信息引起的過糾現(xiàn)象。由表7 可以看出,基于CSPI 的文本校對模型結合復雜拼音編碼網(wǎng)絡且使用字符-拼音優(yōu)化目標時,其檢錯性能隨訓練集中混淆音文本錯誤的增加有進一步提升。綜上所述,本文建議借助音韻信息校對語音識別文本錯誤時,分開進行檢錯與糾錯這2 個子任務,通過融合復雜拼音編碼網(wǎng)絡并在訓練過程中加強對音韻信息的優(yōu)化來提升文本校對模型的檢錯率,通過融合簡單拼音編碼網(wǎng)絡或在訓練過程中適當減少對音韻信息的優(yōu)化來輔助提升文本校對模型的糾錯率。

        表7 基于CSPI 的模型使用不同大小目標語料庫訓練時的文本校對性能對比結果

        文本長度較短及上下文語義缺失是語音識別文本校對任務的難點。由表5~表7 可以看出,各類模型的文本校對性能一般。本文認為這主要是由于來自ASR 系統(tǒng)的文本長度較短,模型很難根據(jù)句子的上下文語義來糾錯。例如,“吃飯了嗎”容易因用戶發(fā)音不清晰被ASR 系統(tǒng)誤識為“吃飯了啊”。若不考慮語境,可以認為后者是正確的,由此可見,模型校對此類短文本的難度較高。由表3可知,AISHELL 測試集中長度小于5 和小于10 的語句分別占12.91%和49.61%。此外,由表7 可知,當使用基于RPIF 的數(shù)據(jù)增強方法擴充模型的訓練集后,模型的檢錯性能隨著訓練數(shù)據(jù)的逐步增加而不斷提升,但其糾錯性能卻呈現(xiàn)隨著訓練數(shù)據(jù)的增加而降低的趨勢,可能的原因有2 個,一個是訓練數(shù)據(jù)中混淆音錯誤字符的增多加重了由音韻信息引起的過糾現(xiàn)象;另一個是本文用于驗證拼音編碼方法的文本校對模型的結構相對簡單,模型學習語義信息的能力受限。在今后的工作中,嘗試將大規(guī)模的預訓練語言模型和拼音編碼方法相結合來解決語音識別后的文本校對問題。

        6 結束語

        本文提出了PU、PB、PC、PCU和PCB這5 種拼音編碼方法,并以此構建了基于CSPI 的文本校對模型,實現(xiàn)了同時利用句子的語義和音韻信息校對語音識別文本錯誤。針對標注數(shù)據(jù)有限造成許多先進的深度學習模型難以應用于語音識別文本校對任務的問題,本文提出了一種基于RPIF 的數(shù)據(jù)增強方法。在多人普通話語音數(shù)據(jù)集AISHELL-3 上進行了相關實驗,實驗結果表明,拼音攜帶的音韻信息有利于文本校對模型檢測和糾正語音識別文本錯誤?;贑SPI 的文本校對模型使用混合網(wǎng)絡拼音編碼方法(PCU、PCB)所提取的音韻信息有利于其檢測語音識別文本錯誤,使用單網(wǎng)絡拼音編碼方法(PU、PB、PC)所提取的音韻信息則更利于其糾正語音識別文本錯誤。所提數(shù)據(jù)增強方法能促使文本校對模型學習更多語音識別錯誤實例,有效地提升了模型檢出語音識別文本錯誤的能力。在未來的研究工作中,筆者會嘗試將預訓練語言模型與不同的拼音編碼方法相結合,分別用于語音識別文本錯誤的檢測和糾正,以進一步輔助ASR 系統(tǒng)提升其識別準確性。

        猜你喜歡
        編碼方法音韻字符
        尋找更強的字符映射管理器
        可變摩擦力觸感移動終端的漢語盲文編碼設計
        字符代表幾
        一種USB接口字符液晶控制器設計
        電子制作(2019年19期)2019-11-23 08:41:50
        消失的殖民村莊和神秘字符
        從聲調演變史看方言中調值變化現(xiàn)象
        毫米波大規(guī)模MIMO系統(tǒng)中低復雜度混合預編碼方法
        電信科學(2016年9期)2016-06-15 20:27:30
        誦讀古詩詞 體驗音韻美——石家莊市友誼大街小學開展誦讀古詩詞活動
        《中華大典·音韻分典》與音韻訓詁研究
        長江學術(2015年1期)2015-02-27 07:11:13
        《漢語十四行試驗詩集》的音韻藝術
        亚洲精品国产不卡在线观看| 最爽无遮挡行房视频| 人人添人人澡人人澡人人人人| 亚洲Va中文字幕久久无码一区| 国产日韩乱码精品一区二区 | 中文乱码字幕精品高清国产| 一本色道久久综合无码人妻| 奇米影视久久777中文字幕| 国产精品天干天干在线观蜜臀| 美女视频黄a视频全免费网站色| 免费无码一区二区三区a片百度| 亚洲中久无码永久在线观看同 | 亚洲av精二区三区日韩| 久久人与动人物a级毛片| 精品99在线黑丝袜| 亚洲熟女少妇精品久久| 久久天堂av综合合色| 欧美丰满大屁股ass| 老熟女一区二区免费| 人妻有码av中文幕久久| 中文字幕乱码无码人妻系列蜜桃| 在线看片无码永久免费aⅴ| 久久99热精品免费观看麻豆| 亚洲处破女av日韩精品中出| 女人喷潮完整视频| 久久福利青草精品资源| 在线观看二区视频网站二区| 国产成人精品亚洲日本在线观看| 欧美日韩不卡视频合集| 国产一区二区三区亚洲天堂 | 成人免费a级毛片无码片2022| 欧美xxxx黑人又粗又长精品| 97碰碰碰人妻视频无码| 中文字幕人妻在线少妇| 日夜啪啪一区二区三区| 无码国产精品第100页| 蜜桃成熟时日本一区二区| 精品国产麻豆免费人成网站| 日韩一级特黄毛片在线看| 亚洲视频在线视频在线视频| 久久不见久久见www日本网|