亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于ResCNN-BiGRU 的四川方言語(yǔ)音識(shí)別

        2024-01-04 15:55:04謝金洪
        現(xiàn)代電子技術(shù) 2024年1期
        關(guān)鍵詞:特征模型

        謝金洪,魏 霞

        (新疆大學(xué)電氣工程學(xué)院,新疆 烏魯木齊 830017)

        0 引 言

        隨著語(yǔ)音識(shí)別技術(shù)的不斷發(fā)展,越來(lái)越多的人開始關(guān)注方言語(yǔ)音識(shí)別技術(shù)的應(yīng)用。漢語(yǔ)方言種類繁多,通常分為閩南語(yǔ)、粵語(yǔ)等七大方言[1],它們?cè)诎l(fā)音、語(yǔ)調(diào)、語(yǔ)法等方面都與標(biāo)準(zhǔn)普通話有很大的差異。目前,由于大規(guī)模的方言語(yǔ)料庫(kù)制作成本非常高,導(dǎo)致低資源方言語(yǔ)音識(shí)別技術(shù)研究進(jìn)展緩慢,正面臨著逐漸消失的困境。因此,研究方言語(yǔ)音識(shí)別對(duì)方言保護(hù)、語(yǔ)音信號(hào)處理以及自然語(yǔ)言處理等領(lǐng)域具有重要現(xiàn)實(shí)意義。

        傳統(tǒng)的方言語(yǔ)音識(shí)別方法從帶口音的普通話識(shí)別[2-4]方法發(fā)展而來(lái),這些方法主要采用概率統(tǒng)計(jì)或距離度量的方法進(jìn)行建模,再利用基因周期、梅爾倒譜系數(shù)[5](Mel Frequency Cepstrum Coefficient, MFCC)、線性預(yù)測(cè)編碼[6](Linear Predictive Coding, LPC)、線性預(yù)測(cè)倒譜系數(shù)[7](Linear Predictive Cepstral Coefficient, LPCC)等技術(shù)進(jìn)行語(yǔ)音識(shí)別。其中,MFCC 根據(jù)人耳聽覺特性將語(yǔ)音信號(hào)建模為非線性時(shí)變系統(tǒng)的輸出,可以獲得較為精確的語(yǔ)音參數(shù)估計(jì),但同時(shí)也造成部分高頻信息丟失。文獻(xiàn)[8-14]針對(duì)傳統(tǒng)MFCC 的缺點(diǎn)進(jìn)行了改進(jìn)。例如,文獻(xiàn)[8]使用Gammatone 濾波器組替代傳統(tǒng)的Mel 濾波器組,在TIMIT 數(shù)據(jù)集上的測(cè)試準(zhǔn)確率達(dá)到了90%;文獻(xiàn)[11]使用多正弦窗函數(shù)進(jìn)行頻譜估計(jì),減少了頻譜泄漏,可以提取到較低方差的語(yǔ)音特征。雖然這些改進(jìn)特征在一定程度上提高了識(shí)別率,但計(jì)算成本較大,降低了模型訓(xùn)練速度。因此,一些學(xué)者嘗試將語(yǔ)音特征當(dāng)作一張圖像進(jìn)行處理,采用深度學(xué)習(xí)方法自動(dòng)抽取隱含的語(yǔ)義特征,顯著提升了方言語(yǔ)音識(shí)別性能。例如:文獻(xiàn)[15]中使用神經(jīng)網(wǎng)絡(luò)訓(xùn)練的方法,以CNN 為特征提取器,提取到優(yōu)于MFCC 的語(yǔ)音特征,將該特征作為ResNet-BLSTM 模型的輸入,在Aishell-1 語(yǔ)音數(shù)據(jù)集上有較好的識(shí)別效果;文獻(xiàn)[16]以Fbank 為語(yǔ)音特征,設(shè)計(jì)了基于深度前饋序列記憶網(wǎng)絡(luò)與鏈接時(shí)序分類相結(jié)合的海南方言語(yǔ)音識(shí)別模型,提升了語(yǔ)音識(shí)別性能和訓(xùn)練速度;文獻(xiàn)[17]將注意力機(jī)制引入到CNN 網(wǎng)絡(luò)中對(duì)聲學(xué)模型進(jìn)行建模,設(shè)計(jì)了大同方言語(yǔ)音的翻譯模型。這些深度語(yǔ)音識(shí)別模型在一定程度上提升了模型性能,但卻忽略了方言本身特定音素的重要性,導(dǎo)致復(fù)雜噪聲環(huán)境下的方言語(yǔ)音識(shí)別性能較差。

        針對(duì)以上問(wèn)題,本文提出了一種基于殘差卷積網(wǎng)絡(luò)(ResCNN)與雙向門控網(wǎng)絡(luò)(BiGRU)相結(jié)合的混合模型結(jié)構(gòu)(ResCNN-BiGRU)。該模型在殘差網(wǎng)絡(luò)中設(shè)計(jì)多尺度卷積模塊(Multi - scale Convolutional Fusion Network, MCFN),直接對(duì)語(yǔ)音信號(hào)的特征圖進(jìn)行不同尺度的特征提取,以獲得更加魯棒和準(zhǔn)確的語(yǔ)音特征,這樣大大增強(qiáng)了CNN 的表達(dá)能力;其次,在卷積網(wǎng)絡(luò)后接BiGRU,通過(guò)該網(wǎng)絡(luò)學(xué)習(xí)序列數(shù)據(jù)中的長(zhǎng)時(shí)依賴關(guān)系,從而提高模型識(shí)別性能。

        1 語(yǔ)音特征提取

        語(yǔ)音特征作為語(yǔ)音識(shí)別系統(tǒng)的重要組成部分,其精確性和穩(wěn)定性對(duì)系統(tǒng)性能的優(yōu)劣有較大影響。因此,提取高質(zhì)量的語(yǔ)音特征是語(yǔ)音識(shí)別的關(guān)鍵一步。人耳生理學(xué)研究表明,內(nèi)耳中的毛細(xì)胞纖毛能夠非常敏銳地感知聲音信號(hào)的細(xì)節(jié)特征,這些特征包括聲音的頻率、強(qiáng)度和持續(xù)時(shí)間等[18]。在語(yǔ)音識(shí)別中,通常采用一組相互交疊的帶通濾波器組模擬人耳這一機(jī)理,本文選用Gammatone 濾波器組實(shí)現(xiàn)人耳聽覺特性。

        1.1 Gammatone 濾波器

        Gammatone 濾波器的時(shí)域脈沖響應(yīng)為:

        式中:N表示濾波器個(gè)數(shù),本文取N=24;A為濾波器增益;fi為濾波器的中心頻率;U(t)為階躍函數(shù);bi為濾波器衰減因子,與濾波器的帶寬有關(guān),由等效矩形帶寬表示為:

        濾波器組由多個(gè)濾波器組成,這些濾波器的中心頻率呈梳狀分布,低頻段帶寬窄濾波器數(shù)量多,高頻段濾波器數(shù)量少且?guī)挻螅梢愿玫匾种圃肼暩蓴_,其頻率響應(yīng)如圖1 所示。

        圖1 Gammatone 濾波器組頻率響應(yīng)曲線

        1.2 聽覺特征提取

        基于Gammatone 濾波器組的倒譜系數(shù)(Gammatone Frequency Cepstrum Coefficient, GFCC)提取流程如圖2所示。

        圖2 GFCC 提取框圖

        GFCC 具體提取流程如下:

        1)預(yù)加重操作能夠增強(qiáng)語(yǔ)音信號(hào)的高頻分辨率,彌補(bǔ)傳輸過(guò)程中的高頻衰減,一般使用一階FIR 高通濾波器來(lái)實(shí)現(xiàn),其傳遞函數(shù)為:

        式中α為預(yù)加重系數(shù),取0.97。

        2)將預(yù)加重之后的語(yǔ)音信號(hào)劃分成若干幀,每幀的時(shí)長(zhǎng)通常為10~30 ms,本文取25 ms。為了增加相鄰兩幀之間的連續(xù)性,對(duì)每幀語(yǔ)音信號(hào)進(jìn)行漢明窗加權(quán)處理,這樣只需要對(duì)窗口內(nèi)的數(shù)據(jù)進(jìn)行觀察,便于語(yǔ)音特性分析。漢明窗的數(shù)學(xué)表達(dá)式為:

        3)加窗后的數(shù)據(jù)通過(guò)FFT 變換轉(zhuǎn)換為頻域上的能量分布,不同能量分布代表不同的語(yǔ)音特性[19]。然后使用Gammatone 濾波器組進(jìn)行濾波處理,消除諧波影響,凸顯共振峰,讓頻譜更加平滑。再對(duì)頻譜進(jìn)行對(duì)數(shù)運(yùn)算和離散余弦變換,去除乘性噪聲與特征分量之間的相關(guān)性,得到GFCC 特征。

        2 聲學(xué)模型

        2.1 DCNN 模型

        本文的DCNN 主干網(wǎng)絡(luò)如圖3 所示。每層卷積網(wǎng)絡(luò)之后使用批歸一化層來(lái)降低模型對(duì)數(shù)據(jù)分布的依賴性,再使用池化層對(duì)輸出特征進(jìn)行下采樣。

        圖3 DCNN 模型

        圖3 中包括8 層卷積,每層卷積核的大小都是3×3,卷積核的數(shù)量分別為32、64、128、256。池化核尺寸分別為1×1、3×3,其目的是保留特征圖的紋理特征,降低參數(shù)量,加快模型訓(xùn)練速度。

        2.2 聲學(xué)模型

        2.2.1 殘差網(wǎng)絡(luò)

        在DCNN網(wǎng)絡(luò)中引入殘差連接,使得網(wǎng)絡(luò)的參數(shù)優(yōu)化變得更加容易,比起普通堆疊網(wǎng)絡(luò)而言,隨著網(wǎng)絡(luò)層數(shù)的增加,識(shí)別精度也更高。殘差網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。

        圖4 殘差網(wǎng)絡(luò)結(jié)構(gòu)

        殘差結(jié)構(gòu)可簡(jiǎn)單的寫成如下形式:

        式中:X表示殘差塊的輸入;y表示輸出;Wi為權(quán)重矩陣;F(?)為殘差函數(shù)。

        如果X的維度與殘差函數(shù)的輸出維度不同,需要給X執(zhí)行一個(gè)線性映射來(lái)匹配維度,則:

        2.2.2 MCFN 模塊設(shè)計(jì)

        為了充分提取方言特定音素的底層特征,本文基于ResNet 網(wǎng)絡(luò)設(shè)計(jì)多尺度卷積模塊作為模型的輸入層,通過(guò)不同尺寸的卷積操作提取深層次的抽象語(yǔ)音特征。MCFN 模塊的設(shè)計(jì)結(jié)構(gòu)如圖5 所示。

        圖5 MCFN 模塊

        2.2.3 BiGRU 網(wǎng)絡(luò)

        雖然卷積網(wǎng)絡(luò)具有較強(qiáng)的局部特征提取能力,但是在處理語(yǔ)音信號(hào)時(shí)缺乏對(duì)語(yǔ)音序列長(zhǎng)時(shí)依賴關(guān)系的建模能力。因此,本文結(jié)合GRU 網(wǎng)絡(luò)來(lái)提取長(zhǎng)時(shí)特性?;镜腉RU 單元結(jié)構(gòu)如圖6 所示。

        圖6 GRU 單元結(jié)構(gòu)

        GRU 單元中有重置門和更新門兩個(gè)門結(jié)構(gòu),其中重置門的作用是遺忘前一時(shí)刻隱層單元ht-1的信息,而更新門則控制前一時(shí)刻隱層狀態(tài)和當(dāng)前輸入信息的平衡。具體推導(dǎo)公式如下:

        BiGRU 網(wǎng)絡(luò)由兩層方向相反的GRU 單元組成,該網(wǎng)絡(luò)分別在時(shí)間維的前向和后向依次處理輸入序列,并將每個(gè)時(shí)間步GRU 的輸出拼接成為最終的輸出層,這樣可以讓網(wǎng)絡(luò)有效地學(xué)習(xí)序列中的上下文信息。

        2.2.4 聲學(xué)模型結(jié)構(gòu)設(shè)計(jì)

        本文設(shè)計(jì)的聲學(xué)模型結(jié)構(gòu)如圖7 所示,將多尺度卷積模塊作為模型的輸入層,增強(qiáng)模型的特征提取能力,使模型能夠充分提取方言特定音素底層特征,再通過(guò)3 層BiGRU 網(wǎng)絡(luò)提取時(shí)序信息,每層BiGRU 單元大小設(shè)置為256。

        圖7 ResCNN-BiGRU 模型

        3 實(shí)驗(yàn)步驟

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        實(shí)驗(yàn)所使用的數(shù)據(jù)集由四川方言語(yǔ)音數(shù)據(jù)集和標(biāo)準(zhǔn)普通話數(shù)據(jù)集Thchs30-tiny構(gòu)成,前者主要收集自四川當(dāng)?shù)乇就劣耙曌髌泛腿粘I钪械恼Z(yǔ)音音頻,再通過(guò)語(yǔ)速擾動(dòng)、音量擾動(dòng)和添加噪聲等方法增廣后,共收集得到6 208條四川方言數(shù)據(jù),總時(shí)長(zhǎng)約為9.35 h;而Thchs30-tiny由Thchs30 中的Test 和Dev 共3 388 條語(yǔ)音數(shù)據(jù)組成,所有數(shù)據(jù)均采用WAV格式、單聲道,采樣頻率為16 kHz。

        3.2 實(shí)驗(yàn)平臺(tái)及評(píng)價(jià)指標(biāo)

        使用TensorFlow 構(gòu)建并測(cè)試深度學(xué)習(xí)網(wǎng)絡(luò)模型,在PC 機(jī)上運(yùn)行,其運(yùn)行內(nèi)存為10 GB,GPU 設(shè)備為1 臺(tái)RTX3080。

        實(shí)驗(yàn)?zāi)P偷脑u(píng)價(jià)指標(biāo)為字錯(cuò)誤率(Word Error Rate, WER),計(jì)算公式如下:

        式中:S表示替換的字?jǐn)?shù);D表示刪除的字?jǐn)?shù);I表示插入的字?jǐn)?shù);U表示字符總數(shù)。

        3.3 模型訓(xùn)練及優(yōu)化

        在模型訓(xùn)練時(shí),使用Adam 優(yōu)化器,初始學(xué)習(xí)率設(shè)置為0.000 8,采用學(xué)習(xí)率衰減機(jī)制,衰減值設(shè)置為0.000 5,batch-size 設(shè)置為16。為了防止過(guò)擬合,每層網(wǎng)絡(luò)添加Dropout,初始值設(shè)為0.25,損失函數(shù)使用CTCLoss,其計(jì)算公式為:

        式中:T為訓(xùn)練集;表示給定X輸出Y序列的概率。

        為了驗(yàn)證提出模型的有效性,選取并復(fù)現(xiàn)了如下基準(zhǔn)模型:

        模型1:文獻(xiàn)[15]設(shè)計(jì)了基于ResNet-BLSTM 的端到端語(yǔ)音識(shí)別模型,該模型采用殘差連接增加網(wǎng)絡(luò)結(jié)構(gòu)深度,并利用BLSTM 構(gòu)建聲學(xué)模型,同時(shí)使用CTC 計(jì)算損失,在Aishell-1 數(shù)據(jù)集上魯棒性較好。

        模型2:文獻(xiàn)[20]設(shè)計(jì)了基于Maxout 的語(yǔ)音識(shí)別模型,該模型使用Maxout 作為激活函數(shù),使用多個(gè)線性函數(shù)的組合逼近目標(biāo)函數(shù),提升了模型的泛化能力。

        4 實(shí)驗(yàn)結(jié)果與分析

        首先,在無(wú)背景噪聲的條件下對(duì)比分析不同模型的性能。選取13 維的GFCC 語(yǔ)音特征作為模型的輸入,對(duì)比模型分別為復(fù)現(xiàn)的基準(zhǔn)模型1 和模型2,以及采用消融思想搭建的模型。不同模型的表現(xiàn)效果如表1 所示。

        表1 不同模型WER 性能表現(xiàn) %

        相較于基準(zhǔn)模型,本文提出的模型在方言數(shù)據(jù)集和普通話數(shù)據(jù)集上的字錯(cuò)誤率均最低,這是因?yàn)楸疚幕跉埐钏枷朐O(shè)計(jì)的MCFN 模塊能夠充分提取輸入語(yǔ)音特征的深層抽象信息。

        進(jìn)一步,在方言數(shù)據(jù)集上測(cè)試文中模型的抗噪性能。選取Noisex92噪聲數(shù)據(jù)庫(kù)中的Babble、Pink和White三種噪聲,按照信噪比0 dB、5 dB、10 dB、15 dB 給純凈方言語(yǔ)音添加噪聲,形成本次實(shí)驗(yàn)使用的噪聲數(shù)據(jù)集。不同噪聲下的字錯(cuò)誤率對(duì)比如表2 所示。

        表2 不同噪聲下字錯(cuò)誤率對(duì)比 %

        對(duì)比三種噪聲下的字錯(cuò)誤率,在白噪聲環(huán)境下的識(shí)別效果較好,這是因?yàn)榘自肼暱梢援?dāng)作常數(shù)處理,而其他兩種噪聲則更加復(fù)雜難以預(yù)測(cè)。總體來(lái)說(shuō),本文模型對(duì)復(fù)雜噪聲環(huán)境有較好的抗噪性能,在0 dB 時(shí)識(shí)別效果顯著。

        本文模型在不同信噪比下識(shí)別三種噪聲的字錯(cuò)誤率如圖8所示。

        圖8 ResCNN-BiGRU 模型性能表現(xiàn)效果

        5 結(jié) 論

        本文提出了結(jié)合多尺度卷積和雙向門控循環(huán)網(wǎng)絡(luò)的方言語(yǔ)音識(shí)別模型,該模型充分發(fā)揮了MCFN 模塊提取底層特征的能力,以及BiGRU 網(wǎng)絡(luò)提取序列長(zhǎng)時(shí)依賴關(guān)系的優(yōu)勢(shì)。在四川方言語(yǔ)料庫(kù)上的實(shí)驗(yàn)結(jié)果表明,本文提出的混合語(yǔ)音識(shí)別模型比單一網(wǎng)絡(luò)結(jié)構(gòu)識(shí)別性能更好。下一步工作將嘗試提取更有效的方言底層發(fā)音特征,并利用這些特征提高模型對(duì)復(fù)雜噪聲環(huán)境的適應(yīng)性。

        猜你喜歡
        特征模型
        一半模型
        抓住特征巧觀察
        重要模型『一線三等角』
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        男人扒开添女人下部免费视频 | 国产成人综合久久三区北岛玲| 中文字幕亚洲一区视频| 欧美激情视频一区二区三区免费 | 99久久久无码国产精品6| 欧美日韩在线观看免费| 一本色道久久综合狠狠躁中文| 精品极品一区二区三区| 日本成本人片免费网站| 人人做人人妻人人精| 亚洲一区不卡在线导航| 老女人下面毛茸茸的视频| 无码人妻丰满熟妇啪啪网站 | 狠狠色综合7777久夜色撩人 | 亚洲日韩国产一区二区三区在线| 欧美日韩亚洲色图| 国内精品嫩模av私拍在线观看| 日韩精品成人区中文字幕| 丰满熟妇乱子伦| 国产精品久久久久影视不卡| 国产三级c片在线观看| 老熟女富婆激情刺激对白| 全部孕妇毛片| 亚洲AV秘 无码一区二区三| 亚洲国产精品激情综合色婷婷| 国产精品99精品久久免费| 国产微拍精品一区二区| 国产男女做爰猛烈视频网站| 亚洲女同恋av中文一区二区| 午夜色大片在线观看| 制服丝袜视频国产一区| 国产成人亚洲综合二区| 国产成人精品久久亚洲高清不卡| 久久日本三级韩国三级| 国产午夜av一区二区三区| 在线观看麻豆精品视频| 国产麻传媒精品国产av| 久久精品一品道久久精品9 | 女女同恋一区二区在线观看| 中文成人无字幕乱码精品区| 国产乱人视频在线观看播放器 |