謝金洪,魏 霞
(新疆大學(xué)電氣工程學(xué)院,新疆 烏魯木齊 830017)
隨著語(yǔ)音識(shí)別技術(shù)的不斷發(fā)展,越來(lái)越多的人開始關(guān)注方言語(yǔ)音識(shí)別技術(shù)的應(yīng)用。漢語(yǔ)方言種類繁多,通常分為閩南語(yǔ)、粵語(yǔ)等七大方言[1],它們?cè)诎l(fā)音、語(yǔ)調(diào)、語(yǔ)法等方面都與標(biāo)準(zhǔn)普通話有很大的差異。目前,由于大規(guī)模的方言語(yǔ)料庫(kù)制作成本非常高,導(dǎo)致低資源方言語(yǔ)音識(shí)別技術(shù)研究進(jìn)展緩慢,正面臨著逐漸消失的困境。因此,研究方言語(yǔ)音識(shí)別對(duì)方言保護(hù)、語(yǔ)音信號(hào)處理以及自然語(yǔ)言處理等領(lǐng)域具有重要現(xiàn)實(shí)意義。
傳統(tǒng)的方言語(yǔ)音識(shí)別方法從帶口音的普通話識(shí)別[2-4]方法發(fā)展而來(lái),這些方法主要采用概率統(tǒng)計(jì)或距離度量的方法進(jìn)行建模,再利用基因周期、梅爾倒譜系數(shù)[5](Mel Frequency Cepstrum Coefficient, MFCC)、線性預(yù)測(cè)編碼[6](Linear Predictive Coding, LPC)、線性預(yù)測(cè)倒譜系數(shù)[7](Linear Predictive Cepstral Coefficient, LPCC)等技術(shù)進(jìn)行語(yǔ)音識(shí)別。其中,MFCC 根據(jù)人耳聽覺特性將語(yǔ)音信號(hào)建模為非線性時(shí)變系統(tǒng)的輸出,可以獲得較為精確的語(yǔ)音參數(shù)估計(jì),但同時(shí)也造成部分高頻信息丟失。文獻(xiàn)[8-14]針對(duì)傳統(tǒng)MFCC 的缺點(diǎn)進(jìn)行了改進(jìn)。例如,文獻(xiàn)[8]使用Gammatone 濾波器組替代傳統(tǒng)的Mel 濾波器組,在TIMIT 數(shù)據(jù)集上的測(cè)試準(zhǔn)確率達(dá)到了90%;文獻(xiàn)[11]使用多正弦窗函數(shù)進(jìn)行頻譜估計(jì),減少了頻譜泄漏,可以提取到較低方差的語(yǔ)音特征。雖然這些改進(jìn)特征在一定程度上提高了識(shí)別率,但計(jì)算成本較大,降低了模型訓(xùn)練速度。因此,一些學(xué)者嘗試將語(yǔ)音特征當(dāng)作一張圖像進(jìn)行處理,采用深度學(xué)習(xí)方法自動(dòng)抽取隱含的語(yǔ)義特征,顯著提升了方言語(yǔ)音識(shí)別性能。例如:文獻(xiàn)[15]中使用神經(jīng)網(wǎng)絡(luò)訓(xùn)練的方法,以CNN 為特征提取器,提取到優(yōu)于MFCC 的語(yǔ)音特征,將該特征作為ResNet-BLSTM 模型的輸入,在Aishell-1 語(yǔ)音數(shù)據(jù)集上有較好的識(shí)別效果;文獻(xiàn)[16]以Fbank 為語(yǔ)音特征,設(shè)計(jì)了基于深度前饋序列記憶網(wǎng)絡(luò)與鏈接時(shí)序分類相結(jié)合的海南方言語(yǔ)音識(shí)別模型,提升了語(yǔ)音識(shí)別性能和訓(xùn)練速度;文獻(xiàn)[17]將注意力機(jī)制引入到CNN 網(wǎng)絡(luò)中對(duì)聲學(xué)模型進(jìn)行建模,設(shè)計(jì)了大同方言語(yǔ)音的翻譯模型。這些深度語(yǔ)音識(shí)別模型在一定程度上提升了模型性能,但卻忽略了方言本身特定音素的重要性,導(dǎo)致復(fù)雜噪聲環(huán)境下的方言語(yǔ)音識(shí)別性能較差。
針對(duì)以上問(wèn)題,本文提出了一種基于殘差卷積網(wǎng)絡(luò)(ResCNN)與雙向門控網(wǎng)絡(luò)(BiGRU)相結(jié)合的混合模型結(jié)構(gòu)(ResCNN-BiGRU)。該模型在殘差網(wǎng)絡(luò)中設(shè)計(jì)多尺度卷積模塊(Multi - scale Convolutional Fusion Network, MCFN),直接對(duì)語(yǔ)音信號(hào)的特征圖進(jìn)行不同尺度的特征提取,以獲得更加魯棒和準(zhǔn)確的語(yǔ)音特征,這樣大大增強(qiáng)了CNN 的表達(dá)能力;其次,在卷積網(wǎng)絡(luò)后接BiGRU,通過(guò)該網(wǎng)絡(luò)學(xué)習(xí)序列數(shù)據(jù)中的長(zhǎng)時(shí)依賴關(guān)系,從而提高模型識(shí)別性能。
語(yǔ)音特征作為語(yǔ)音識(shí)別系統(tǒng)的重要組成部分,其精確性和穩(wěn)定性對(duì)系統(tǒng)性能的優(yōu)劣有較大影響。因此,提取高質(zhì)量的語(yǔ)音特征是語(yǔ)音識(shí)別的關(guān)鍵一步。人耳生理學(xué)研究表明,內(nèi)耳中的毛細(xì)胞纖毛能夠非常敏銳地感知聲音信號(hào)的細(xì)節(jié)特征,這些特征包括聲音的頻率、強(qiáng)度和持續(xù)時(shí)間等[18]。在語(yǔ)音識(shí)別中,通常采用一組相互交疊的帶通濾波器組模擬人耳這一機(jī)理,本文選用Gammatone 濾波器組實(shí)現(xiàn)人耳聽覺特性。
Gammatone 濾波器的時(shí)域脈沖響應(yīng)為:
式中:N表示濾波器個(gè)數(shù),本文取N=24;A為濾波器增益;fi為濾波器的中心頻率;U(t)為階躍函數(shù);bi為濾波器衰減因子,與濾波器的帶寬有關(guān),由等效矩形帶寬表示為:
濾波器組由多個(gè)濾波器組成,這些濾波器的中心頻率呈梳狀分布,低頻段帶寬窄濾波器數(shù)量多,高頻段濾波器數(shù)量少且?guī)挻螅梢愿玫匾种圃肼暩蓴_,其頻率響應(yīng)如圖1 所示。
圖1 Gammatone 濾波器組頻率響應(yīng)曲線
基于Gammatone 濾波器組的倒譜系數(shù)(Gammatone Frequency Cepstrum Coefficient, GFCC)提取流程如圖2所示。
圖2 GFCC 提取框圖
GFCC 具體提取流程如下:
1)預(yù)加重操作能夠增強(qiáng)語(yǔ)音信號(hào)的高頻分辨率,彌補(bǔ)傳輸過(guò)程中的高頻衰減,一般使用一階FIR 高通濾波器來(lái)實(shí)現(xiàn),其傳遞函數(shù)為:
式中α為預(yù)加重系數(shù),取0.97。
2)將預(yù)加重之后的語(yǔ)音信號(hào)劃分成若干幀,每幀的時(shí)長(zhǎng)通常為10~30 ms,本文取25 ms。為了增加相鄰兩幀之間的連續(xù)性,對(duì)每幀語(yǔ)音信號(hào)進(jìn)行漢明窗加權(quán)處理,這樣只需要對(duì)窗口內(nèi)的數(shù)據(jù)進(jìn)行觀察,便于語(yǔ)音特性分析。漢明窗的數(shù)學(xué)表達(dá)式為:
3)加窗后的數(shù)據(jù)通過(guò)FFT 變換轉(zhuǎn)換為頻域上的能量分布,不同能量分布代表不同的語(yǔ)音特性[19]。然后使用Gammatone 濾波器組進(jìn)行濾波處理,消除諧波影響,凸顯共振峰,讓頻譜更加平滑。再對(duì)頻譜進(jìn)行對(duì)數(shù)運(yùn)算和離散余弦變換,去除乘性噪聲與特征分量之間的相關(guān)性,得到GFCC 特征。
本文的DCNN 主干網(wǎng)絡(luò)如圖3 所示。每層卷積網(wǎng)絡(luò)之后使用批歸一化層來(lái)降低模型對(duì)數(shù)據(jù)分布的依賴性,再使用池化層對(duì)輸出特征進(jìn)行下采樣。
圖3 DCNN 模型
圖3 中包括8 層卷積,每層卷積核的大小都是3×3,卷積核的數(shù)量分別為32、64、128、256。池化核尺寸分別為1×1、3×3,其目的是保留特征圖的紋理特征,降低參數(shù)量,加快模型訓(xùn)練速度。
2.2.1 殘差網(wǎng)絡(luò)
在DCNN網(wǎng)絡(luò)中引入殘差連接,使得網(wǎng)絡(luò)的參數(shù)優(yōu)化變得更加容易,比起普通堆疊網(wǎng)絡(luò)而言,隨著網(wǎng)絡(luò)層數(shù)的增加,識(shí)別精度也更高。殘差網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
圖4 殘差網(wǎng)絡(luò)結(jié)構(gòu)
殘差結(jié)構(gòu)可簡(jiǎn)單的寫成如下形式:
式中:X表示殘差塊的輸入;y表示輸出;Wi為權(quán)重矩陣;F(?)為殘差函數(shù)。
如果X的維度與殘差函數(shù)的輸出維度不同,需要給X執(zhí)行一個(gè)線性映射來(lái)匹配維度,則:
2.2.2 MCFN 模塊設(shè)計(jì)
為了充分提取方言特定音素的底層特征,本文基于ResNet 網(wǎng)絡(luò)設(shè)計(jì)多尺度卷積模塊作為模型的輸入層,通過(guò)不同尺寸的卷積操作提取深層次的抽象語(yǔ)音特征。MCFN 模塊的設(shè)計(jì)結(jié)構(gòu)如圖5 所示。
圖5 MCFN 模塊
2.2.3 BiGRU 網(wǎng)絡(luò)
雖然卷積網(wǎng)絡(luò)具有較強(qiáng)的局部特征提取能力,但是在處理語(yǔ)音信號(hào)時(shí)缺乏對(duì)語(yǔ)音序列長(zhǎng)時(shí)依賴關(guān)系的建模能力。因此,本文結(jié)合GRU 網(wǎng)絡(luò)來(lái)提取長(zhǎng)時(shí)特性?;镜腉RU 單元結(jié)構(gòu)如圖6 所示。
圖6 GRU 單元結(jié)構(gòu)
GRU 單元中有重置門和更新門兩個(gè)門結(jié)構(gòu),其中重置門的作用是遺忘前一時(shí)刻隱層單元ht-1的信息,而更新門則控制前一時(shí)刻隱層狀態(tài)和當(dāng)前輸入信息的平衡。具體推導(dǎo)公式如下:
BiGRU 網(wǎng)絡(luò)由兩層方向相反的GRU 單元組成,該網(wǎng)絡(luò)分別在時(shí)間維的前向和后向依次處理輸入序列,并將每個(gè)時(shí)間步GRU 的輸出拼接成為最終的輸出層,這樣可以讓網(wǎng)絡(luò)有效地學(xué)習(xí)序列中的上下文信息。
2.2.4 聲學(xué)模型結(jié)構(gòu)設(shè)計(jì)
本文設(shè)計(jì)的聲學(xué)模型結(jié)構(gòu)如圖7 所示,將多尺度卷積模塊作為模型的輸入層,增強(qiáng)模型的特征提取能力,使模型能夠充分提取方言特定音素底層特征,再通過(guò)3 層BiGRU 網(wǎng)絡(luò)提取時(shí)序信息,每層BiGRU 單元大小設(shè)置為256。
圖7 ResCNN-BiGRU 模型
實(shí)驗(yàn)所使用的數(shù)據(jù)集由四川方言語(yǔ)音數(shù)據(jù)集和標(biāo)準(zhǔn)普通話數(shù)據(jù)集Thchs30-tiny構(gòu)成,前者主要收集自四川當(dāng)?shù)乇就劣耙曌髌泛腿粘I钪械恼Z(yǔ)音音頻,再通過(guò)語(yǔ)速擾動(dòng)、音量擾動(dòng)和添加噪聲等方法增廣后,共收集得到6 208條四川方言數(shù)據(jù),總時(shí)長(zhǎng)約為9.35 h;而Thchs30-tiny由Thchs30 中的Test 和Dev 共3 388 條語(yǔ)音數(shù)據(jù)組成,所有數(shù)據(jù)均采用WAV格式、單聲道,采樣頻率為16 kHz。
使用TensorFlow 構(gòu)建并測(cè)試深度學(xué)習(xí)網(wǎng)絡(luò)模型,在PC 機(jī)上運(yùn)行,其運(yùn)行內(nèi)存為10 GB,GPU 設(shè)備為1 臺(tái)RTX3080。
實(shí)驗(yàn)?zāi)P偷脑u(píng)價(jià)指標(biāo)為字錯(cuò)誤率(Word Error Rate, WER),計(jì)算公式如下:
式中:S表示替換的字?jǐn)?shù);D表示刪除的字?jǐn)?shù);I表示插入的字?jǐn)?shù);U表示字符總數(shù)。
在模型訓(xùn)練時(shí),使用Adam 優(yōu)化器,初始學(xué)習(xí)率設(shè)置為0.000 8,采用學(xué)習(xí)率衰減機(jī)制,衰減值設(shè)置為0.000 5,batch-size 設(shè)置為16。為了防止過(guò)擬合,每層網(wǎng)絡(luò)添加Dropout,初始值設(shè)為0.25,損失函數(shù)使用CTCLoss,其計(jì)算公式為:
式中:T為訓(xùn)練集;表示給定X輸出Y序列的概率。
為了驗(yàn)證提出模型的有效性,選取并復(fù)現(xiàn)了如下基準(zhǔn)模型:
模型1:文獻(xiàn)[15]設(shè)計(jì)了基于ResNet-BLSTM 的端到端語(yǔ)音識(shí)別模型,該模型采用殘差連接增加網(wǎng)絡(luò)結(jié)構(gòu)深度,并利用BLSTM 構(gòu)建聲學(xué)模型,同時(shí)使用CTC 計(jì)算損失,在Aishell-1 數(shù)據(jù)集上魯棒性較好。
模型2:文獻(xiàn)[20]設(shè)計(jì)了基于Maxout 的語(yǔ)音識(shí)別模型,該模型使用Maxout 作為激活函數(shù),使用多個(gè)線性函數(shù)的組合逼近目標(biāo)函數(shù),提升了模型的泛化能力。
首先,在無(wú)背景噪聲的條件下對(duì)比分析不同模型的性能。選取13 維的GFCC 語(yǔ)音特征作為模型的輸入,對(duì)比模型分別為復(fù)現(xiàn)的基準(zhǔn)模型1 和模型2,以及采用消融思想搭建的模型。不同模型的表現(xiàn)效果如表1 所示。
表1 不同模型WER 性能表現(xiàn) %
相較于基準(zhǔn)模型,本文提出的模型在方言數(shù)據(jù)集和普通話數(shù)據(jù)集上的字錯(cuò)誤率均最低,這是因?yàn)楸疚幕跉埐钏枷朐O(shè)計(jì)的MCFN 模塊能夠充分提取輸入語(yǔ)音特征的深層抽象信息。
進(jìn)一步,在方言數(shù)據(jù)集上測(cè)試文中模型的抗噪性能。選取Noisex92噪聲數(shù)據(jù)庫(kù)中的Babble、Pink和White三種噪聲,按照信噪比0 dB、5 dB、10 dB、15 dB 給純凈方言語(yǔ)音添加噪聲,形成本次實(shí)驗(yàn)使用的噪聲數(shù)據(jù)集。不同噪聲下的字錯(cuò)誤率對(duì)比如表2 所示。
表2 不同噪聲下字錯(cuò)誤率對(duì)比 %
對(duì)比三種噪聲下的字錯(cuò)誤率,在白噪聲環(huán)境下的識(shí)別效果較好,這是因?yàn)榘自肼暱梢援?dāng)作常數(shù)處理,而其他兩種噪聲則更加復(fù)雜難以預(yù)測(cè)。總體來(lái)說(shuō),本文模型對(duì)復(fù)雜噪聲環(huán)境有較好的抗噪性能,在0 dB 時(shí)識(shí)別效果顯著。
本文模型在不同信噪比下識(shí)別三種噪聲的字錯(cuò)誤率如圖8所示。
圖8 ResCNN-BiGRU 模型性能表現(xiàn)效果
本文提出了結(jié)合多尺度卷積和雙向門控循環(huán)網(wǎng)絡(luò)的方言語(yǔ)音識(shí)別模型,該模型充分發(fā)揮了MCFN 模塊提取底層特征的能力,以及BiGRU 網(wǎng)絡(luò)提取序列長(zhǎng)時(shí)依賴關(guān)系的優(yōu)勢(shì)。在四川方言語(yǔ)料庫(kù)上的實(shí)驗(yàn)結(jié)果表明,本文提出的混合語(yǔ)音識(shí)別模型比單一網(wǎng)絡(luò)結(jié)構(gòu)識(shí)別性能更好。下一步工作將嘗試提取更有效的方言底層發(fā)音特征,并利用這些特征提高模型對(duì)復(fù)雜噪聲環(huán)境的適應(yīng)性。