亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于BLSTM-CTC的語音特征的音素識別研究

2022-07-23 15:51:30吳丹丹夏秀渝

現(xiàn)代計算機 2022年10期

吳丹丹，夏秀渝

（四川大學電子信息學院，成都 610065）

0 引言

音素作為自然語言體系中的最小單位，可以構成更復雜的字、詞或者句子，根據(jù)此特性可以將它應用于關鍵詞的識別和語音識別。音素相比于其它字詞單元來說，其規(guī)模較小、更易訓練，對訓練設備的要求更低。音素識別可以用在關鍵詞識別之中，通過音素先判斷該語音流中是否可能存在該詞，通過對音素的定位快速判斷該詞可能出現(xiàn)的位置，進而快速地找到關鍵詞。除此之外也可以應用于語音識別中，通過識別出的音素來構建字詞，可以和目前的語音識別方法進行融合從而提高識別性能。

總而言之，音素識別因其自身的規(guī)模小、泛型高的特點，可以應用在許多場合。所以音素識別的研究價值和應用領域還是值得研究者們花大量精力去探索。

傳統(tǒng)的語音識別模型大部分都是利用高斯混合-隱馬爾科夫模型（Gaussian Mixture Model-Hidden Markov Model，GMM-HMM），該系統(tǒng)性能的提升隨著應用需求的加大受到了限制；隨著深度學習的興起，深層神經(jīng)網(wǎng)絡與隱馬爾可夫的結(jié)合（Deep Neural Network-Hidden Markov Model，DNN-HMM）相比于傳統(tǒng)的系統(tǒng)模型，其性能上有了很大的提升；針對深層神經(jīng)網(wǎng)絡無法解決序列上下文的問題，研究者們提出了循環(huán)神經(jīng)網(wǎng)絡（Recurrent Neural Network，RNN）；但由于循環(huán)神經(jīng)網(wǎng)絡會存在梯度消失問題，長短時記憶網(wǎng)絡（Long Short-Term Memory，LSTM）以及雙向長短時記憶網(wǎng)絡（Bi-directional Long Short-Term Memory，BLSTM）也隨之被提出。之前的語音識別系統(tǒng)的過程是將聲學模型和語言模型分開訓練，并且在訓練過程中會出現(xiàn)音頻與標簽的對齊問題，為了解決這一問題，研究人員提出了端到端模型。相比于目前興起的注意力機制（attention）、時序聯(lián)接機制（Connectionist Temporal Classification，CTC），其規(guī)模更小，對數(shù)據(jù)量和網(wǎng)絡訓練設備的要求更低。語音識別是將提供給系統(tǒng)的音頻數(shù)據(jù)經(jīng)過一系列的處理之后，得到人們能明白的語言文本，即將語音翻譯為文字。音素識別的過程與之大體相同，只是最后翻譯得到的文本為音素，因此語音識別的技術也可以用于音素識別。

傳統(tǒng)語音識別的關鍵技術大概分為三個部分：①語音信息的提取及處理；②聲學建模；③語言模型的建立。本文搭建的系統(tǒng)為端到端模型，因此沒有第三個語言模型的搭建。本文結(jié)合雙向長短時記憶網(wǎng)絡（BLSTM）和時序聯(lián)接機制（CTC）搭建音素識別系統(tǒng)，在系統(tǒng)建立的過程中，先后分別加入DNN網(wǎng)絡優(yōu)化網(wǎng)絡。除此之外，在特征數(shù)據(jù)處理方面主要利用基于幅度信息和相位信息對音頻數(shù)據(jù)提取特征，然后對數(shù)據(jù)進行規(guī)范化處理，最后對比實驗效果。

1 語音特征

語音特征在語音識別系統(tǒng)中占據(jù)著很重要的地位，因此對語音特征的研究一直也是語音識別的熱門方向之一，不同的語音特征可能有不同的效果，對網(wǎng)絡模型的契合度可能也有所不同。所以在進行語音特征的選取和改進實驗時，需要對所研究的內(nèi)容和語音有一定的了解分析。

1.1 特征提取

目前常用的語音特征參數(shù)為梅爾倒譜系數(shù)（Mel Frequency Cepstral Coeffificients，MFCC），該特征在語音研究的各個領域都很流行。本文所采用的基于幅度的頻譜根倒譜系數(shù)（Magni?tudebased Spectral Root Cepstral Coeffificients，MSRCC）和基于相位的頻譜根倒譜系數(shù)（Phase?based Spectral Root Cepstral Coeffificients，PSRCC）。與MFCC相比，這一組特征主要使用了冪律非線性技術，其可以將比較低的幅度信號的響應歸于零，而不像MFCC趨近于負無窮，除此之外還提取到了相位特征，對幅度特征補充了語音信息，綜合發(fā)現(xiàn)該組特征具有較好的分類效果。該組特征提取的原理如圖1所示。

圖1 MSRCC和PSRCC特征原理圖

通過圖1可以看出，MSRCC與MFCC特征的主要不同是梅爾譜能量逆變換取次方得到次方，離散余弦變換（DCT）將個實數(shù)系數(shù)通過逆變換得到q個實數(shù)獨立的倒譜系數(shù)，即可以獲得語音信號的主要信息，如公式（1）所示：

梅爾譜如公式（2）所示：

其中，()代表時域信號()的點DFT，H ()代表Mel濾波器的頻率響應。

PSRCC特征是利用時域信號的短時傅里葉變換的相位信息，與MSRCC特征不同的是將MSRCC特征中的能量系數(shù)用相位系數(shù)代替，如公式（3）所示：

梅爾頻率相位如公式（4）所示：

1.2 動態(tài)語音特征

動態(tài)語音特征如對特征參數(shù)取一階差分或二階差分，其對神經(jīng)網(wǎng)絡的識別性能有不小的提升，一階差分或者二階差分在現(xiàn)實生活中有實際的物理意義，即速度和加速度，計算方式很簡單。所以本文也研究語音特征的動態(tài)性。

一階差分就是離散函數(shù)中連續(xù)相鄰兩項之差，原理如公式（5）所示：

其中（）為原始信號，Δ（）為一階差分信號。物理意義就是當前語音幀與前一幀之間的關系，體現(xiàn)幀與幀（相鄰兩幀）之間的聯(lián)系；在一階差分的基礎上，提取二階差分，原理如公式（6）所示：

其中Δ（）為一階差分信號，Δ（）為二階差分信號。二階差分表示的是一階差分與一階差分之間的關系，即前一階差分與后一階差分之間的關系，體現(xiàn)到幀上就是相鄰三幀之間的動態(tài)關系。

1.3 特征向量歸一化

數(shù)據(jù)規(guī)范化是數(shù)據(jù)處理常用的一種技術，目前常用的規(guī)范化方法有最大值-最小值規(guī)范化、零均值規(guī)范化、小數(shù)定標規(guī)范化，本文采用零均值規(guī)范化，規(guī)范的方式如公式（7）所示：

其中，，std，'依次代表原始數(shù)據(jù)、原始數(shù)據(jù)的均值、原始數(shù)據(jù)的方差及規(guī)范后的數(shù)據(jù)。該過程可以將提取的語音特征數(shù)據(jù)統(tǒng)一尺度，有利于之后網(wǎng)絡模型參數(shù)的調(diào)節(jié)，加快訓練和網(wǎng)絡的收斂。

2 模型構建

聲學建模是本文搭建的音素識別系統(tǒng)的一個重要分支，其系統(tǒng)的構建極大地影響著識別性能，本文主要是結(jié)合雙向長短時記憶網(wǎng)絡（BLSTM）和聯(lián)接時序分類（CTC），該模型的構建簡化了音素識別的過程且能更好地利用時序上下文的信息。

2.1 雙向長短時記憶網(wǎng)絡（BLSTM）

RNN利用序列信號的上下文信息，將過去的輸入和現(xiàn)在的輸入一起映射到現(xiàn)在的輸出，從而改善網(wǎng)絡的性能，一定程度上提升音素識別系統(tǒng)的性能，但是循環(huán)神經(jīng)網(wǎng)絡由于誤差信號在后向計算時存在梯度爆炸和梯度消失的問題，導致RNN很難較好地處理長期依賴的序列信號。LSTM的提出較好地解決了循環(huán)神經(jīng)網(wǎng)絡中的問題，LSTM網(wǎng)絡引入門的概念來控制網(wǎng)絡的輸入與輸出，優(yōu)化了網(wǎng)絡模型。LSTM網(wǎng)絡的結(jié)構如圖2所示。LSTM網(wǎng)絡有三個門，輸入門、忘記門和輸出門；通過門來控制和維護單元狀態(tài)。,,,分別代表遺忘門、輸入門、輸出門和cell狀態(tài)。

圖2 LSTM單元結(jié)構圖

LSTM的工作原理如下：

（1）忘記門決定從細胞單元中遺忘的東西，過程可由公式（8）表示，其中是激活函數(shù)，h 是隱藏值向量，代表各個部分的偏移量，是權重。

（2）輸入門控制哪些信息可以輸入到輸入門中，這一過程由兩個部分共同決定，一部分通過激活函數(shù)，另一部分通過tanh層得到一個新的候選值向量，如公式（9）和公式（10）所示：

（3）更新單元狀態(tài)，C 變?yōu)?span id="rtj55xd" class="emphasis_italic">C ，把原來的單元狀態(tài)與f 相乘，丟棄無用的信息，隨后將更新的狀態(tài)C 與輸入信號i 相卷積之后與之相加，據(jù)此可以得到新的候選向量，如公式（11）所示：

（4）計算輸出信號的大小，輸出值依賴于cell單元各個部分的狀態(tài)，且是經(jīng)過過濾的值，先通過激活函數(shù)得到輸出信號部分，之后再將cell單元通過tanh層，最后將這兩個值相乘得到我們需要的有用的輸出信號信息，如公式（12）和公式（13）所示：

由以上可知，LSTM網(wǎng)絡可以很好地解決循環(huán)卷積網(wǎng)絡的梯度消失和爆炸的問題，但它只考慮了當前時刻和過去時刻信號的信息，未能利用將來時刻的信號，沒有很好地處理長期依賴的信號。BLSTM針對這一問題提出雙向傳遞的概念，通過前向傳播和后向傳播，使網(wǎng)絡能夠充分利用輸入信號各個時刻的值來訓練調(diào)節(jié)網(wǎng)絡，更好地學習模仿信號的特點。BLSTM網(wǎng)絡結(jié)構如圖3所示。此網(wǎng)絡利用兩個單向的LSTM網(wǎng)絡疊加在一起，可以較好地應用序列信號過去和未來時刻的信息，即上下文信息來優(yōu)化網(wǎng)絡的結(jié)構。

圖3 BLSTM網(wǎng)絡結(jié)構圖

2.2 聯(lián)接時序分類（CTC）

在端到端模型被提出之前，音素識別系統(tǒng)的建立大部分都是將語音按音素切分好，然后再分幀打標簽，這個過程十分繁瑣，而且誤差也受切分音素的操作誤差影響，費時費力。CTC目標函數(shù)的提出極大地簡化了音素識別系統(tǒng)的步驟，使整個網(wǎng)絡不再需要語言模型，標簽可以不需要按幀對齊，系統(tǒng)可以輸入整句語音直接識別出整句話的音素，這對語音研究帶來了里程碑式的影響。CTC目標函數(shù)的工作原理是在網(wǎng)絡模型的預測過程中加入空白標簽來使輸入序列和輸出序列對齊，然后在最后階段刪除重復的字符和空白標簽來得到準確的輸出信號。

其中，為所有標簽個數(shù)（CTC網(wǎng)絡輸出層節(jié)點個數(shù)），CTC目標函數(shù)學習得到的長度為的標注序列，是由63個音素和blank構成的，那么整個序列的概率為：

對于給定的目標序列，由于其他標注的重復性存在以及blank插入的位置不同，與存在多對一的關系，所以可以把上述關系重寫如下：

其中，是→的映射，表示的逆過程。映射函數(shù)先將重復相鄰的標簽合并，然后再去除空標簽，最后確定，CTC目標函數(shù)如公式（17）所示：

CTC目標函數(shù)最后的輸出表示轉(zhuǎn)換概率，該網(wǎng)絡在連續(xù)的時間里除去了映射重復的標簽，這樣使得網(wǎng)絡變得更加復雜，所以將空白結(jié)尾的對齊和標簽結(jié)尾的對齊分開，CTC目標函數(shù)的最佳結(jié)果就是找到概率最大的輸出序列，由公式（18）表示：

其中為T幀輸入序列的后驗概率最大的輸出標簽序列。

3 實驗

3.1 實驗數(shù)據(jù)

本文是采用TIMIT語音數(shù)據(jù)集進行實驗評估。該數(shù)據(jù)集來自美國8個主要方言地區(qū)的630位說話者，說話者大部分為白人男性，每個說話人講10個句子，TIMIT庫主要設計了三種類型的句子：①SA-方言句子，該句子體現(xiàn)了不同地區(qū)方言的差別，該句子不適合音素識別；②SX-音素緊湊的句子，由MIT設計，里面的句子音素分布平衡；③SI-音素發(fā)散的句子，目的是增加句子類型和音素文本多樣性。因本實驗為完成連續(xù)語音的音素識別，所以舍棄SA-方言句子，利用訓練集中的所有SX和SI句子，總計5040句。測試集使用測試數(shù)據(jù)集中的200條句子，即每個區(qū)域隨機選取25句。

3.2 實驗評測標準

本文使用訓練和測試網(wǎng)絡分開的原則，先將模型完全訓練之后再進行測試。評價指標采用CTC損失函數(shù)（CTC-loss）和音素標簽識別錯誤率（LER）。

3.2.1 CTC損失函數(shù)

CTC損失函數(shù)是衡量CTC網(wǎng)絡是否優(yōu)良的一個常用指標，用來表示在給定當前的參數(shù)下的網(wǎng)絡模型和理想模型的差距，將此用來調(diào)整網(wǎng)絡模型的參數(shù)，從而調(diào)整網(wǎng)絡。CTC損失函數(shù)的表示如公式（19）所示：

其中P (|)是輸入序列為時輸出為序列的概率，為訓練集。()為給定輸入序列時輸出序列的每個樣本概率之和，但在實際中，輸出的標簽概率并不是相互獨立的。本文主要是利用雙向長短時記憶網(wǎng)絡和CTC網(wǎng)絡組合構建網(wǎng)絡模型，所以在整個系統(tǒng)中并沒有用到語言模型或者字典，在網(wǎng)絡中利用空白標簽將音素與音素分開，從而計算音素的錯誤率，然后利用網(wǎng)絡中構造的音素字典對其解碼獲得與之相對應的音素。

3.2.2 音素標簽識別錯誤率

本文基于音素進行網(wǎng)絡建模，所以選取音素標簽的錯誤率（Label Error Rate,LER）用作網(wǎng)絡準確度的評價指標，音素錯誤率的計算原則如公式（20）所示：

其中,,分別為插入，替換，刪除的音素的個數(shù)，代表輸出序列的音素個數(shù)。

3.3 實驗結(jié)果分析

3.3.1 不同特征參數(shù)的實驗對比

語音特征參數(shù)的提取方式的不同會較大地影響識別性能。第一組實驗將對比不同特征參數(shù)對音素識別系統(tǒng)性能的影響。

從表1可以看出，基于MFCC特征的音素識別率和基于MSRCC特征的音素識別率兩者較好，MSRCC特征最高，識別準確率可以達到80%，相比于MFCC高出3%，基于PSRCC特征的效果最差；且在訓練過程中，基于MSRCC特征的損失最小，相比于其它兩種特征，其更能擬合理想模型，訓練的效果更好；對于PSRCC特征其效果不是很理想，可能對于連續(xù)的語音來說其相位信息不能完全表征信號，所以其效果不如另兩種特征，但如果能與提取過程相似的MSRCC特征結(jié)合可能會有不一樣的效果?？偠灾?，從表1可以發(fā)現(xiàn)，基于MSRCC特征的效果各方面考慮來看均優(yōu)于基于MFCC特征。

表1 基于不同特征參數(shù)的實驗結(jié)果

3.3.2 基于MSRCC特征的動態(tài)性

語音特征的動態(tài)性也極大地影響著識別系統(tǒng)的好壞，對于特征的維數(shù)的探究也是研究音素識別系統(tǒng)的一個重要方面，接下來將從MSRCC特征的不同維數(shù)考察該特征的優(yōu)劣。

從表2可以看出，MSRCC特征加二階差分的效果最好，可以達到86%的識別準確率，一階差分與其相比低了1%，靜態(tài)特征低了6%，更高階的差分相加的識別效果也不如二階動態(tài)特征，說明動態(tài)特征的取值也需要適當?shù)倪x擇。特征的動態(tài)性也是影響識別性能的因素之一。靜態(tài)的特征不能反映不同時刻之間的相關性，將其取差分可以將特征的動態(tài)性融入到需要送入的數(shù)據(jù)中，更有利于序列信號的訓練。相比于傳統(tǒng)的MFCC特征來說，音素識別率的準確率提高了很多。

表2 基于MSRCC不同維數(shù)的實驗結(jié)果

3.3.3 基于MSRCC與不同特征參數(shù)的融合

從表3可以看出MSRCC特征結(jié)合PSRCC特征實驗效果最好，測試集的識別率可以達到83%，其次是結(jié)合MFCC特征，識別率可以達到81%，相比結(jié)合相位特征低了2%，但總的來說都比單獨使用MSRCC特征效果好，但缺點是結(jié)合其它特征訓練的代價上升了，它與理想模型的差距更大了，所以在選擇特征時需要考慮實際環(huán)境和需求，如果準確率要求高的環(huán)境，則可以使用融合特征；如果要求損失小且速度快，則可以選擇性能較好的單一特征。

表3 基于MSRCC與不同特征參數(shù)的融合實驗結(jié)果

3.3.4 針對不同聲學模型的實驗

本組實驗主要研究了幾種常用網(wǎng)絡模型的對音素識別系統(tǒng)性能的影響，實驗中語音特征參數(shù)采用靜態(tài)MSRCC特征。

從表4可以看出，相比傳統(tǒng)模型DNNHMM，RNN-CTC的訓練錯誤率和測試錯誤率分別降低了7%和13%，說明模型的優(yōu)化可以很好地改善系統(tǒng)性能。在后三組實驗中可以發(fā)現(xiàn)，BLSTM-CTC的實驗性能最好，訓練錯誤率和測試錯誤率分別為2%和20%，相比于其它兩組實驗效果都有一定的改善，驗證了BLSTM在一定的環(huán)境下能提升LSTM和RNN的性能。

表4 基于不同網(wǎng)絡模型的實驗結(jié)果

4 結(jié)語

本文主要研究了語音特征參數(shù)和BLSTMCTC的音素識別系統(tǒng)性能，采用最新的語音特征參數(shù)MSRCC和PSRCC進行了一系列實驗研究，表明這兩種參數(shù)具有較好的分類功能，PSRCC參數(shù)的提出可以利用語音信號的相位信息，之前語音的相關研究都忽略了相位信息，但是在本文中使用PSRCC特征參數(shù)結(jié)合MSRCC特征具有較好的性能，音素識別聲學網(wǎng)絡模型的建立也十分關鍵，本文使用了BLSTM網(wǎng)絡和CTC網(wǎng)絡的結(jié)合，該模型簡化之前復雜的識別系統(tǒng)的構建，不需要對語音流做切分和標簽對齊工作，大大地節(jié)約了識別系統(tǒng)構建的時間。該實驗也存在不足，只選取了一個語音數(shù)據(jù)集，在數(shù)據(jù)集的選用上可以使用多種數(shù)據(jù)集，除此之外，對MSRCC特征還可以進一步改進，可以嘗試考慮把特征提取過程中的Mel濾波器換成gammatone濾波器；網(wǎng)絡模型也還可以嘗試利用融合卷積神經(jīng)網(wǎng)絡等。目前新提出了一些端到端的編碼解碼網(wǎng)絡，新的端到端網(wǎng)絡與BLSTM結(jié)合也是值得探索的方向，接下來我們會從以上幾點出發(fā)，開展進一步深入的研究實驗。