亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于Bi-RNN 中文語音識別的實驗設(shè)計

2019-05-17 07:42:36黃睿

現(xiàn)代計算機(jī) 2019年10期

黃睿

（廣東第二師范學(xué)院計算機(jī)科學(xué)系，廣州 510303）

0 引言

如今，人工智能、教育大數(shù)據(jù)的應(yīng)用，推動著計算機(jī)等學(xué)科朝著智能化的方向發(fā)展。以深度學(xué)習(xí)、機(jī)器學(xué)習(xí)為代表的人工智能模型，已獲國內(nèi)外學(xué)者的廣泛關(guān)注[1]。而深度學(xué)習(xí)等軟件平臺的開源，將促進(jìn)學(xué)生對人工智能課程實踐開發(fā)興趣，進(jìn)一步推動實驗教學(xué)水平的提高。目前，深度學(xué)習(xí)等課程的實驗開發(fā)，在本科教學(xué)中涉及較少，為促使學(xué)生對該類課程有更深入的理解，本文基于谷歌TensorFlow 人工智能開源平臺，結(jié)合Bi-RNN 和CTC 學(xué)習(xí)模型，最終完成中文語音識別的實驗設(shè)計。

1 TensorFlow

1.1 平臺介紹

Google 于2015 年開源了人工智能平臺TensorFlow[2]，該平臺包含開源的軟件庫。其中，Tensor 表示為數(shù)據(jù)的張量，F(xiàn)low 表示為數(shù)據(jù)的流圖。通過提供常用的深度學(xué)習(xí)框架進(jìn)行人工智能的開發(fā)，以及跨平臺系統(tǒng)的應(yīng)用。同時，該平臺也支持基于分布式的部署和應(yīng)用。

1.2 架構(gòu)

TensorFlow 是基于數(shù)據(jù)流圖運算的開發(fā)平臺，包含多種支持?jǐn)?shù)值運算的軟件開源庫，以及短期記憶網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)等網(wǎng)絡(luò)模型[3-5]。該模型常運用于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的開發(fā)，是較為核心的人工智能算法，同時也推動著人工智能領(lǐng)域的新發(fā)展，其基本架構(gòu)如圖1 所示。

圖1 TensorFlow系統(tǒng)架構(gòu)

前端：支持基于C、C++、Python 等高級編程語言，通過API 函數(shù)進(jìn)行模型調(diào)用。

后端：主要用于提供支持前端的運行環(huán)境。

2 MFCC

梅爾頻率倒譜系數(shù)是基于人耳聽覺特性，將音頻數(shù)據(jù)由時域向頻域轉(zhuǎn)變的一種方法，它與頻率成非線性對應(yīng)關(guān)系，廣泛應(yīng)用于語音識別領(lǐng)域。

2.1 梅爾頻率

一段連續(xù)的音頻數(shù)據(jù)可以分解成幀，而每一幀數(shù)據(jù)通過快速傅里葉變換（FFT）可以計算出對應(yīng)的頻譜，該頻譜反映的是信號頻率與能量的關(guān)系，如線性振幅譜、對數(shù)振幅譜等。其中，對數(shù)振幅譜是對各譜線的振幅進(jìn)行對數(shù)運算，主要用于分析低振幅噪聲中的周期信號，任意頻率f 到梅爾頻率尺度的轉(zhuǎn)換由式（1）表示。

式中，頻率f 的單位為Hz。其中，臨界頻率帶寬增長與Mel 頻率一致。當(dāng)Mel 頻率刻度為均勻分布時，赫茲之間的距離將隨頻率的增加而增大。將語音頻率劃分為一系列的三角濾波序列，即Mel 濾波器，如圖2所示。

圖2 Mel濾波器

如圖2 可知，Mel 濾波器在低頻段分辨率高，類似于人耳的聽覺特性。因此，梅爾頻率首先通過對時域信號進(jìn)行快速傅里葉變換成頻域，其次，利用梅爾頻率刻度的濾波器進(jìn)行頻域信號切分，最后計算出每個頻率段對應(yīng)的數(shù)值。

2.2 倒譜分析

一段連續(xù)的音頻數(shù)據(jù)可以分解成幀，而每一幀數(shù)據(jù)通過快速傅里葉變換（FFT）可以計算出對應(yīng)的頻譜，該頻譜倒譜分析主要進(jìn)行信號的疊加和分解，如信號的卷積轉(zhuǎn)化為信號的疊加。設(shè)頻率譜X（k），時域信號x（n），滿足式（2）。

將頻域 X（k）進(jìn)行拆分，如式（3）所示。

此時，對應(yīng)的時域信號分別為 h（n）和 e（n），則如式（4）所示。

分別對頻域進(jìn)行對數(shù)運算和反傅里葉變換可得（5-6）式，進(jìn)行時域疊加為式（7）。

式中，x′（n）為倒譜，h′（n）為倒譜系數(shù)。通過上式，將卷積時域信號轉(zhuǎn)換成線性疊加關(guān)系。

3 Bi-RNN

如果能結(jié)合上下文的信息關(guān)系，進(jìn)行未知信息的判斷，將極大提升在多序列標(biāo)注方法中的準(zhǔn)確率。雙向循環(huán)神經(jīng)網(wǎng)絡(luò)主要運用于連續(xù)數(shù)據(jù)的處理，該模型分別進(jìn)行正向規(guī)律和反向規(guī)律的學(xué)習(xí)，從而達(dá)到比傳統(tǒng)模型更優(yōu)的擬合效果。

3.1 模型介紹

RNN 模型容易忽略對未知信息的上下文關(guān)系，而Bi-RNN 模型的輸入層可以結(jié)合已知的上下文關(guān)系進(jìn)行未知的預(yù)測，其結(jié)構(gòu)圖如圖3 所示。

圖3 Bi-RNN模型

由圖3 可知，該模型由輸入層、正向循環(huán)神經(jīng)網(wǎng)絡(luò)、反向循環(huán)神經(jīng)網(wǎng)絡(luò)和輸出層組成。

3.2 模型實現(xiàn)

雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的正向推算和單循環(huán)神經(jīng)網(wǎng)絡(luò)模型一樣，需要完成全部的輸入序列計算時，模型的輸出才被更新。而反向推算則需要先完成輸出層計算后，再計算后的權(quán)值返回給兩個隱含層。實驗偽代碼如圖4 所示。

圖4 Bi-RNN模型實現(xiàn)

4 實驗步驟

基于TensorFlow 平臺，使用Thchs-30 中文語音數(shù)據(jù)集，結(jié)合公式（7）的梅爾頻率倒譜系數(shù)，進(jìn)行Bi-RNN、CTC 模型的搭建，并最終完成中文語音的識別。

4.1 Thhcchhss--3300數(shù)據(jù)集

該數(shù)據(jù)集是由清華大學(xué)建立的語音樣本，包含訓(xùn)練數(shù)據(jù)集、開發(fā)數(shù)據(jù)集和測試數(shù)據(jù)集。音頻是通過16KHz 的采樣頻率和16bit 的量化位數(shù)進(jìn)錄制，具體內(nèi)容如表1 所示。

表1 Thchs-30 數(shù)據(jù)集

如表1 可知，訓(xùn)練數(shù)據(jù)集總時長25 小時，包含10000 條句子。開發(fā)數(shù)據(jù)集總時長2:14，包含893 條句子。測試數(shù)據(jù)集總時長6:15，包含2495 條句子。

4.2 CCTTCC

聯(lián)結(jié)主義時間分類用于Bi-RNN 的頂層連接，使通過每一幀的輸入序列都能夠輸出對應(yīng)的標(biāo)簽（含空白標(biāo)簽）。在語音識別過程中，該方法可以將音頻停頓、噪點等內(nèi)容歸納空白標(biāo)簽，最后使預(yù)測輸出的標(biāo)簽值完成時間序列上的對齊。

為了方便計算出模型的識別率，需要將預(yù)測輸出的空標(biāo)簽進(jìn)行剔除，形成類似于原始標(biāo)簽的輸入格式。CTC decoder 函數(shù)用于預(yù)測結(jié)果的加工，完成與標(biāo)準(zhǔn)標(biāo)簽的損失loss 計算，參數(shù)如表2 所示。

表2 CTC decoder 函數(shù)

4.3 實驗驗證

（1）模型庫導(dǎo)入。分別導(dǎo)入 numpy、mfcc、wav、os、time、tensorflow、ctc 等庫文件。

（2）導(dǎo)入數(shù)據(jù)集。獲取數(shù)據(jù)集內(nèi)的所有音頻文件和對應(yīng)的翻譯內(nèi)容。

（3）模型初始化。完成參數(shù)的初始化和Session 的建立。

（4）模型建立。完成 MFCC、Bi-RNN、CTC 等模型架構(gòu)。

（5）模型保存。對節(jié)點權(quán)重、偏置等參數(shù)進(jìn)行存儲。

（6）模型驗證。對訓(xùn)練的模型完成語音識別驗證，部分音頻識別效果如圖5 所示。

圖5 部分音頻識別效果

由圖5 可知，基于Bi-RNN 的中文語音識別模型建立了2666 個漢字表，完成了對單音節(jié)詞、雙音節(jié)詞和上下文關(guān)系的語音識別。

5 結(jié)語

該文基于TensorFlow 開發(fā)平臺，建立中文語音MFCC 模型，結(jié)合Bi-RNN 和CTC 網(wǎng)絡(luò)模型，對Thchs-30 中文語音數(shù)據(jù)集進(jìn)行深度學(xué)習(xí)，并結(jié)合訓(xùn)練模型進(jìn)行語音識別的驗證，最終完成了中文語音識別的實驗設(shè)計。該模型的實現(xiàn)對人工智能中文語音識別，在本科實驗教學(xué)中具體重要的參考意義。