亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于ResCNN-BiGRU 的四川方言語(yǔ)音識(shí)別

2024-01-04 15:55:04謝金洪

現(xiàn)代電子技術(shù) 2024年1期

關(guān)鍵詞：特征模型

謝金洪，魏霞

（新疆大學(xué)電氣工程學(xué)院，新疆烏魯木齊 830017）

0 引言

隨著語(yǔ)音識(shí)別技術(shù)的不斷發(fā)展，越來(lái)越多的人開始關(guān)注方言語(yǔ)音識(shí)別技術(shù)的應(yīng)用。漢語(yǔ)方言種類繁多，通常分為閩南語(yǔ)、粵語(yǔ)等七大方言[1]，它們?cè)诎l(fā)音、語(yǔ)調(diào)、語(yǔ)法等方面都與標(biāo)準(zhǔn)普通話有很大的差異。目前，由于大規(guī)模的方言語(yǔ)料庫(kù)制作成本非常高，導(dǎo)致低資源方言語(yǔ)音識(shí)別技術(shù)研究進(jìn)展緩慢，正面臨著逐漸消失的困境。因此，研究方言語(yǔ)音識(shí)別對(duì)方言保護(hù)、語(yǔ)音信號(hào)處理以及自然語(yǔ)言處理等領(lǐng)域具有重要現(xiàn)實(shí)意義。

傳統(tǒng)的方言語(yǔ)音識(shí)別方法從帶口音的普通話識(shí)別[2-4]方法發(fā)展而來(lái)，這些方法主要采用概率統(tǒng)計(jì)或距離度量的方法進(jìn)行建模，再利用基因周期、梅爾倒譜系數(shù)[5]（Mel Frequency Cepstrum Coefficient, MFCC）、線性預(yù)測(cè)編碼[6]（Linear Predictive Coding, LPC）、線性預(yù)測(cè)倒譜系數(shù)[7]（Linear Predictive Cepstral Coefficient, LPCC）等技術(shù)進(jìn)行語(yǔ)音識(shí)別。其中，MFCC 根據(jù)人耳聽覺特性將語(yǔ)音信號(hào)建模為非線性時(shí)變系統(tǒng)的輸出，可以獲得較為精確的語(yǔ)音參數(shù)估計(jì)，但同時(shí)也造成部分高頻信息丟失。文獻(xiàn)[8-14]針對(duì)傳統(tǒng)MFCC 的缺點(diǎn)進(jìn)行了改進(jìn)。例如，文獻(xiàn)[8]使用Gammatone 濾波器組替代傳統(tǒng)的Mel 濾波器組，在TIMIT 數(shù)據(jù)集上的測(cè)試準(zhǔn)確率達(dá)到了90%；文獻(xiàn)[11]使用多正弦窗函數(shù)進(jìn)行頻譜估計(jì)，減少了頻譜泄漏，可以提取到較低方差的語(yǔ)音特征。雖然這些改進(jìn)特征在一定程度上提高了識(shí)別率，但計(jì)算成本較大，降低了模型訓(xùn)練速度。因此，一些學(xué)者嘗試將語(yǔ)音特征當(dāng)作一張圖像進(jìn)行處理，采用深度學(xué)習(xí)方法自動(dòng)抽取隱含的語(yǔ)義特征，顯著提升了方言語(yǔ)音識(shí)別性能。例如：文獻(xiàn)[15]中使用神經(jīng)網(wǎng)絡(luò)訓(xùn)練的方法，以CNN 為特征提取器，提取到優(yōu)于MFCC 的語(yǔ)音特征，將該特征作為ResNet-BLSTM 模型的輸入，在Aishell-1 語(yǔ)音數(shù)據(jù)集上有較好的識(shí)別效果；文獻(xiàn)[16]以Fbank 為語(yǔ)音特征，設(shè)計(jì)了基于深度前饋序列記憶網(wǎng)絡(luò)與鏈接時(shí)序分類相結(jié)合的海南方言語(yǔ)音識(shí)別模型，提升了語(yǔ)音識(shí)別性能和訓(xùn)練速度；文獻(xiàn)[17]將注意力機(jī)制引入到CNN 網(wǎng)絡(luò)中對(duì)聲學(xué)模型進(jìn)行建模，設(shè)計(jì)了大同方言語(yǔ)音的翻譯模型。這些深度語(yǔ)音識(shí)別模型在一定程度上提升了模型性能，但卻忽略了方言本身特定音素的重要性，導(dǎo)致復(fù)雜噪聲環(huán)境下的方言語(yǔ)音識(shí)別性能較差。

針對(duì)以上問(wèn)題，本文提出了一種基于殘差卷積網(wǎng)絡(luò)（ResCNN）與雙向門控網(wǎng)絡(luò)（BiGRU）相結(jié)合的混合模型結(jié)構(gòu)（ResCNN-BiGRU）。該模型在殘差網(wǎng)絡(luò)中設(shè)計(jì)多尺度卷積模塊（Multi - scale Convolutional Fusion Network, MCFN），直接對(duì)語(yǔ)音信號(hào)的特征圖進(jìn)行不同尺度的特征提取，以獲得更加魯棒和準(zhǔn)確的語(yǔ)音特征，這樣大大增強(qiáng)了CNN 的表達(dá)能力；其次，在卷積網(wǎng)絡(luò)后接BiGRU，通過(guò)該網(wǎng)絡(luò)學(xué)習(xí)序列數(shù)據(jù)中的長(zhǎng)時(shí)依賴關(guān)系，從而提高模型識(shí)別性能。

1 語(yǔ)音特征提取

語(yǔ)音特征作為語(yǔ)音識(shí)別系統(tǒng)的重要組成部分，其精確性和穩(wěn)定性對(duì)系統(tǒng)性能的優(yōu)劣有較大影響。因此，提取高質(zhì)量的語(yǔ)音特征是語(yǔ)音識(shí)別的關(guān)鍵一步。人耳生理學(xué)研究表明，內(nèi)耳中的毛細(xì)胞纖毛能夠非常敏銳地感知聲音信號(hào)的細(xì)節(jié)特征，這些特征包括聲音的頻率、強(qiáng)度和持續(xù)時(shí)間等[18]。在語(yǔ)音識(shí)別中，通常采用一組相互交疊的帶通濾波器組模擬人耳這一機(jī)理，本文選用Gammatone 濾波器組實(shí)現(xiàn)人耳聽覺特性。

1.1 Gammatone 濾波器

Gammatone 濾波器的時(shí)域脈沖響應(yīng)為：

式中：N表示濾波器個(gè)數(shù)，本文取N=24；A為濾波器增益；fi為濾波器的中心頻率；U(t)為階躍函數(shù)；bi為濾波器衰減因子，與濾波器的帶寬有關(guān)，由等效矩形帶寬表示為：

濾波器組由多個(gè)濾波器組成，這些濾波器的中心頻率呈梳狀分布，低頻段帶寬窄濾波器數(shù)量多，高頻段濾波器數(shù)量少且?guī)挻螅梢愿玫匾种圃肼暩蓴_，其頻率響應(yīng)如圖1 所示。

圖1 Gammatone 濾波器組頻率響應(yīng)曲線

1.2 聽覺特征提取

基于Gammatone 濾波器組的倒譜系數(shù)（Gammatone Frequency Cepstrum Coefficient, GFCC）提取流程如圖2所示。

圖2 GFCC 提取框圖

GFCC 具體提取流程如下：

1）預(yù)加重操作能夠增強(qiáng)語(yǔ)音信號(hào)的高頻分辨率，彌補(bǔ)傳輸過(guò)程中的高頻衰減，一般使用一階FIR 高通濾波器來(lái)實(shí)現(xiàn)，其傳遞函數(shù)為：

式中α為預(yù)加重系數(shù)，取0.97。

2）將預(yù)加重之后的語(yǔ)音信號(hào)劃分成若干幀，每幀的時(shí)長(zhǎng)通常為10~30 ms，本文取25 ms。為了增加相鄰兩幀之間的連續(xù)性，對(duì)每幀語(yǔ)音信號(hào)進(jìn)行漢明窗加權(quán)處理，這樣只需要對(duì)窗口內(nèi)的數(shù)據(jù)進(jìn)行觀察，便于語(yǔ)音特性分析。漢明窗的數(shù)學(xué)表達(dá)式為：

3）加窗后的數(shù)據(jù)通過(guò)FFT 變換轉(zhuǎn)換為頻域上的能量分布，不同能量分布代表不同的語(yǔ)音特性[19]。然后使用Gammatone 濾波器組進(jìn)行濾波處理，消除諧波影響，凸顯共振峰，讓頻譜更加平滑。再對(duì)頻譜進(jìn)行對(duì)數(shù)運(yùn)算和離散余弦變換，去除乘性噪聲與特征分量之間的相關(guān)性，得到GFCC 特征。

2 聲學(xué)模型

2.1 DCNN 模型

本文的DCNN 主干網(wǎng)絡(luò)如圖3 所示。每層卷積網(wǎng)絡(luò)之后使用批歸一化層來(lái)降低模型對(duì)數(shù)據(jù)分布的依賴性，再使用池化層對(duì)輸出特征進(jìn)行下采樣。

圖3 DCNN 模型

圖3 中包括8 層卷積，每層卷積核的大小都是3×3，卷積核的數(shù)量分別為32、64、128、256。池化核尺寸分別為1×1、3×3，其目的是保留特征圖的紋理特征，降低參數(shù)量，加快模型訓(xùn)練速度。

2.2 聲學(xué)模型

2.2.1 殘差網(wǎng)絡(luò)

在DCNN網(wǎng)絡(luò)中引入殘差連接，使得網(wǎng)絡(luò)的參數(shù)優(yōu)化變得更加容易，比起普通堆疊網(wǎng)絡(luò)而言，隨著網(wǎng)絡(luò)層數(shù)的增加，識(shí)別精度也更高。殘差網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。

圖4 殘差網(wǎng)絡(luò)結(jié)構(gòu)

殘差結(jié)構(gòu)可簡(jiǎn)單的寫成如下形式：

式中：X表示殘差塊的輸入；y表示輸出；Wi為權(quán)重矩陣；F(?)為殘差函數(shù)。

如果X的維度與殘差函數(shù)的輸出維度不同，需要給X執(zhí)行一個(gè)線性映射來(lái)匹配維度，則：

2.2.2 MCFN 模塊設(shè)計(jì)

為了充分提取方言特定音素的底層特征，本文基于ResNet 網(wǎng)絡(luò)設(shè)計(jì)多尺度卷積模塊作為模型的輸入層，通過(guò)不同尺寸的卷積操作提取深層次的抽象語(yǔ)音特征。MCFN 模塊的設(shè)計(jì)結(jié)構(gòu)如圖5 所示。

圖5 MCFN 模塊

2.2.3 BiGRU 網(wǎng)絡(luò)

雖然卷積網(wǎng)絡(luò)具有較強(qiáng)的局部特征提取能力，但是在處理語(yǔ)音信號(hào)時(shí)缺乏對(duì)語(yǔ)音序列長(zhǎng)時(shí)依賴關(guān)系的建模能力。因此，本文結(jié)合GRU 網(wǎng)絡(luò)來(lái)提取長(zhǎng)時(shí)特性?；镜腉RU 單元結(jié)構(gòu)如圖6 所示。

圖6 GRU 單元結(jié)構(gòu)

GRU 單元中有重置門和更新門兩個(gè)門結(jié)構(gòu)，其中重置門的作用是遺忘前一時(shí)刻隱層單元ht-1的信息，而更新門則控制前一時(shí)刻隱層狀態(tài)和當(dāng)前輸入信息的平衡。具體推導(dǎo)公式如下：

BiGRU 網(wǎng)絡(luò)由兩層方向相反的GRU 單元組成，該網(wǎng)絡(luò)分別在時(shí)間維的前向和后向依次處理輸入序列，并將每個(gè)時(shí)間步GRU 的輸出拼接成為最終的輸出層，這樣可以讓網(wǎng)絡(luò)有效地學(xué)習(xí)序列中的上下文信息。

2.2.4 聲學(xué)模型結(jié)構(gòu)設(shè)計(jì)

本文設(shè)計(jì)的聲學(xué)模型結(jié)構(gòu)如圖7 所示，將多尺度卷積模塊作為模型的輸入層，增強(qiáng)模型的特征提取能力，使模型能夠充分提取方言特定音素底層特征，再通過(guò)3 層BiGRU 網(wǎng)絡(luò)提取時(shí)序信息，每層BiGRU 單元大小設(shè)置為256。

圖7 ResCNN-BiGRU 模型

3 實(shí)驗(yàn)步驟

3.1 實(shí)驗(yàn)數(shù)據(jù)

實(shí)驗(yàn)所使用的數(shù)據(jù)集由四川方言語(yǔ)音數(shù)據(jù)集和標(biāo)準(zhǔn)普通話數(shù)據(jù)集Thchs30-tiny構(gòu)成，前者主要收集自四川當(dāng)?shù)乇就劣耙曌髌泛腿粘Ｉ钪械恼Z(yǔ)音音頻，再通過(guò)語(yǔ)速擾動(dòng)、音量擾動(dòng)和添加噪聲等方法增廣后，共收集得到6 208條四川方言數(shù)據(jù)，總時(shí)長(zhǎng)約為9.35 h；而Thchs30-tiny由Thchs30 中的Test 和Dev 共3 388 條語(yǔ)音數(shù)據(jù)組成，所有數(shù)據(jù)均采用WAV格式、單聲道，采樣頻率為16 kHz。

3.2 實(shí)驗(yàn)平臺(tái)及評(píng)價(jià)指標(biāo)

使用TensorFlow 構(gòu)建并測(cè)試深度學(xué)習(xí)網(wǎng)絡(luò)模型，在PC 機(jī)上運(yùn)行，其運(yùn)行內(nèi)存為10 GB，GPU 設(shè)備為1 臺(tái)RTX3080。

實(shí)驗(yàn)?zāi)Ｐ偷脑u(píng)價(jià)指標(biāo)為字錯(cuò)誤率（Word Error Rate, WER），計(jì)算公式如下：

式中：S表示替換的字?jǐn)?shù)；D表示刪除的字?jǐn)?shù)；I表示插入的字?jǐn)?shù)；U表示字符總數(shù)。

3.3 模型訓(xùn)練及優(yōu)化

在模型訓(xùn)練時(shí)，使用Adam 優(yōu)化器，初始學(xué)習(xí)率設(shè)置為0.000 8，采用學(xué)習(xí)率衰減機(jī)制，衰減值設(shè)置為0.000 5，batch-size 設(shè)置為16。為了防止過(guò)擬合，每層網(wǎng)絡(luò)添加Dropout，初始值設(shè)為0.25，損失函數(shù)使用CTCLoss，其計(jì)算公式為：

式中：T為訓(xùn)練集；表示給定X輸出Y序列的概率。

為了驗(yàn)證提出模型的有效性，選取并復(fù)現(xiàn)了如下基準(zhǔn)模型：

模型1：文獻(xiàn)[15]設(shè)計(jì)了基于ResNet-BLSTM 的端到端語(yǔ)音識(shí)別模型，該模型采用殘差連接增加網(wǎng)絡(luò)結(jié)構(gòu)深度，并利用BLSTM 構(gòu)建聲學(xué)模型，同時(shí)使用CTC 計(jì)算損失，在Aishell-1 數(shù)據(jù)集上魯棒性較好。

模型2：文獻(xiàn)[20]設(shè)計(jì)了基于Maxout 的語(yǔ)音識(shí)別模型，該模型使用Maxout 作為激活函數(shù)，使用多個(gè)線性函數(shù)的組合逼近目標(biāo)函數(shù)，提升了模型的泛化能力。

4 實(shí)驗(yàn)結(jié)果與分析

首先，在無(wú)背景噪聲的條件下對(duì)比分析不同模型的性能。選取13 維的GFCC 語(yǔ)音特征作為模型的輸入，對(duì)比模型分別為復(fù)現(xiàn)的基準(zhǔn)模型1 和模型2，以及采用消融思想搭建的模型。不同模型的表現(xiàn)效果如表1 所示。

表1 不同模型WER 性能表現(xiàn) %

相較于基準(zhǔn)模型，本文提出的模型在方言數(shù)據(jù)集和普通話數(shù)據(jù)集上的字錯(cuò)誤率均最低，這是因?yàn)楸疚幕跉埐钏枷朐O(shè)計(jì)的MCFN 模塊能夠充分提取輸入語(yǔ)音特征的深層抽象信息。

進(jìn)一步，在方言數(shù)據(jù)集上測(cè)試文中模型的抗噪性能。選取Noisex92噪聲數(shù)據(jù)庫(kù)中的Babble、Pink和White三種噪聲，按照信噪比0 dB、5 dB、10 dB、15 dB 給純凈方言語(yǔ)音添加噪聲，形成本次實(shí)驗(yàn)使用的噪聲數(shù)據(jù)集。不同噪聲下的字錯(cuò)誤率對(duì)比如表2 所示。

表2 不同噪聲下字錯(cuò)誤率對(duì)比 %

對(duì)比三種噪聲下的字錯(cuò)誤率，在白噪聲環(huán)境下的識(shí)別效果較好，這是因?yàn)榘自肼暱梢援?dāng)作常數(shù)處理，而其他兩種噪聲則更加復(fù)雜難以預(yù)測(cè)。總體來(lái)說(shuō)，本文模型對(duì)復(fù)雜噪聲環(huán)境有較好的抗噪性能，在0 dB 時(shí)識(shí)別效果顯著。

本文模型在不同信噪比下識(shí)別三種噪聲的字錯(cuò)誤率如圖8所示。

圖8 ResCNN-BiGRU 模型性能表現(xiàn)效果

5 結(jié) 論

本文提出了結(jié)合多尺度卷積和雙向門控循環(huán)網(wǎng)絡(luò)的方言語(yǔ)音識(shí)別模型，該模型充分發(fā)揮了MCFN 模塊提取底層特征的能力，以及BiGRU 網(wǎng)絡(luò)提取序列長(zhǎng)時(shí)依賴關(guān)系的優(yōu)勢(shì)。在四川方言語(yǔ)料庫(kù)上的實(shí)驗(yàn)結(jié)果表明，本文提出的混合語(yǔ)音識(shí)別模型比單一網(wǎng)絡(luò)結(jié)構(gòu)識(shí)別性能更好。下一步工作將嘗試提取更有效的方言底層發(fā)音特征，并利用這些特征提高模型對(duì)復(fù)雜噪聲環(huán)境的適應(yīng)性。