郭龍銀 扎西多吉 尚慧杰 旦增
摘要:針對(duì)藏語(yǔ)語(yǔ)音識(shí)別處理的步驟,首先將藏語(yǔ)語(yǔ)料的國(guó)際音標(biāo)轉(zhuǎn)換,其次根據(jù)人耳對(duì)語(yǔ)音的處理方式,使用MFCC進(jìn)行語(yǔ)音特征提取,再構(gòu)建CNN_BiLSTM_CTC聲學(xué)模型,最后利用2-gram語(yǔ)言模型進(jìn)行音標(biāo)與文字的轉(zhuǎn)換。該文最終實(shí)現(xiàn)語(yǔ)音轉(zhuǎn)文本,并在音標(biāo)識(shí)別上有較好的準(zhǔn)確率。
關(guān)鍵詞:藏語(yǔ);語(yǔ)音識(shí)別;MFCC;CNN_BiLSTM_CTC;2-gram .
中圖分類(lèi)號(hào):TP183
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)04-0154-02
藏語(yǔ)作為藏族的母語(yǔ),同時(shí)也是中國(guó)重要的少數(shù)民族語(yǔ)言之一,其語(yǔ)音識(shí)別在信息化時(shí)代的如今,在解決語(yǔ)言溝通障礙,實(shí)時(shí)交流上的作用越來(lái)越受人重視。藏語(yǔ)主要分布于中國(guó)西藏自治區(qū)、青海、四川、甘肅、云南等省以及印度、尼泊爾、不丹錫金等國(guó)家地區(qū),是國(guó)內(nèi)外藏族同胞使用的主體語(yǔ)言[1]。目前實(shí)用型成果還未出現(xiàn),本文是在深度學(xué)習(xí)方法上對(duì)其進(jìn)行的研究。
1 MFCC特征提取
梅爾頻率倒譜系數(shù)MFCC)是基于人聽(tīng)覺(jué)的屏蔽效應(yīng)而來(lái)的,模擬人耳對(duì)于語(yǔ)音處理,其重點(diǎn)在于頻域內(nèi)波于波之間的i距離關(guān)系顯得尤為清楚[2]。利用相關(guān)對(duì)數(shù)公式,在MEL頻域內(nèi),將語(yǔ)音頻率劃分為MEL濾波器組,每個(gè)濾波器的中心頻率由于屏蔽效應(yīng)的非線(xiàn)性因素,使得其分布密度由頻率而定,但前一個(gè)和后一個(gè)濾波器與當(dāng)前濾波器有重合部分,以表征屏蔽效應(yīng)。我們利用MEL濾波器組得到MEL頻譜,在對(duì)MEL頻譜:進(jìn)行傅里葉逆變換得到的倒譜系數(shù)就是MEL頻率倒譜系數(shù)(MFCC)。
本項(xiàng)目的語(yǔ)音數(shù)據(jù)的采樣率為16KHz,比特率256kbps,時(shí)長(zhǎng)在6-10秒左右,大小在300kb左右,是句子級(jí)語(yǔ)音數(shù)據(jù),文件質(zhì)量高。對(duì)MFCC特征提取流程圖如圖1所示。
首先將語(yǔ)音數(shù)據(jù)轉(zhuǎn)換成數(shù)字矩陣,這是我們利用數(shù)字矩陣畫(huà)出的樣例聲音波形,如圖2所示。
其次我們經(jīng)過(guò)對(duì)MFCC特征提取后,再將所得的部分MEL頻率倒譜系數(shù)畫(huà)出相應(yīng)的熱力圖,如圖3所示。
2 聲學(xué)模型
LSTM模型是目前流行的用來(lái)處理語(yǔ)音識(shí)別的模型之一,它是在RNN模型的基礎(chǔ)上變形而成,用來(lái)解決當(dāng)傳播時(shí)間比,較長(zhǎng)而弓|起的網(wǎng)絡(luò)權(quán)重更新慢和梯度爆炸和消失問(wèn)題[3]。這些問(wèn)題會(huì)使RNN失去長(zhǎng)期信息帶來(lái)的長(zhǎng)距離依賴(lài),這使得他能夠處理像語(yǔ)音處理這類(lèi)與時(shí)間序列高度相關(guān)的問(wèn)題。
LSTM相比RNN的多了輸入門(mén)、遺忘門(mén)、輸出門(mén)以及一個(gè)隱藏狀態(tài),這種隱藏狀態(tài)包含將信息儲(chǔ)存較久且選擇性記憶網(wǎng)絡(luò)誤差回傳參數(shù)的存儲(chǔ)單元[3]。我們本文使用的前向傳播計(jì)算公式如下:
wij表示從神經(jīng)元i到j(luò)的連接權(quán)重,輸入a用表示輸出用b、d表示,主要激活函數(shù)為sigmoid和tanh兩種,下標(biāo)i、w、φ分別表示輸入門(mén)、輸出門(mén)、遺忘門(mén),sct為細(xì)胞隱藏狀態(tài),I為輸入層神經(jīng)元的個(gè)數(shù),H為隱層cell的個(gè)數(shù),C為隱藏狀態(tài)的個(gè)數(shù)。
LSTM的反向傳播算法也是使用梯度下降法迭代更新所有參數(shù),而計(jì)算方式則是基于損失函數(shù)的偏導(dǎo)數(shù),在此便不予以展開(kāi)。而本文使用的BiLSTM就是將LSTM的前向傳播和反向傳播算法相結(jié)合,類(lèi)似BP算法包含前向和反向傳播。
本文的總體模型是CNN_BiLSTM_CTC網(wǎng)絡(luò)模型,模型先由CNN卷積提取特征、池化層縮減模型大小一般該維度的值縮小一半,并提高特征魯棒性,而由于我們的模型層數(shù)較多且較為復(fù)雜,在每一次卷積層和池化層以及隨后的BiLSTM層都要有dropout操作,這可以忽略部分的特征檢測(cè)器,從而丟棄部分輸出以防止過(guò)擬合現(xiàn)象。在網(wǎng)絡(luò)最后生成的輸出序列中會(huì)產(chǎn)生與原先的輸入label序列不能一一對(duì)其,CTC(Connectionist Temporal Classification)則能有效解決此問(wèn)題,它使得模型的輸出能夠消除由于音素特征訓(xùn)練產(chǎn)生的重復(fù)結(jié)果,最終使得輸出序列與輸入序列一一對(duì)應(yīng),完整模型總體較為復(fù)雜,在此僅顯.示部分涉及BiLSTM的結(jié)構(gòu)圖,如圖4所示。
3 語(yǔ)言模型
我們?cè)谟?xùn)練的語(yǔ)料庫(kù)分為(衛(wèi)藏拉薩方言)語(yǔ)音數(shù)據(jù)、對(duì)應(yīng)的藏語(yǔ)文本、對(duì)應(yīng)的國(guó)際音標(biāo)文本。在聲學(xué)模型中輸入輸出的是國(guó)際音標(biāo)序列,通過(guò)2-gram語(yǔ)言模型,,使用隱馬爾科夫鏈尋找音標(biāo)序列對(duì)應(yīng)的文字概率序列。
2-gram語(yǔ)言模型,就是兩個(gè)字為一組,將所有語(yǔ)句從第一個(gè)字開(kāi)始與第二個(gè)字為宜組,然后第二個(gè)字開(kāi)始與第三個(gè)字為一組,再第三個(gè)……逐字進(jìn)行化組,然后建立相關(guān)2-gram詞典,然后每次化組都會(huì)更新詞典生成新組或增加某一組頻率值。
對(duì)于藏語(yǔ)的國(guó)際音標(biāo)我們采用龍從軍等人的藏語(yǔ)國(guó)際音標(biāo)轉(zhuǎn)換方案。從藏文文本到國(guó)際音標(biāo)的轉(zhuǎn)換總體上需要經(jīng)過(guò)三個(gè)大的階段,首先是分詞,其次是音標(biāo)轉(zhuǎn)換,最后是變音變調(diào)[6]。
4 實(shí)驗(yàn)結(jié)果
本文語(yǔ)料數(shù)據(jù)一共40200個(gè)語(yǔ)音語(yǔ)料,以9:1切分語(yǔ)料為訓(xùn)練語(yǔ)料和測(cè)試預(yù)料。訓(xùn)練出的聲學(xué)模型的訓(xùn)練PER值為28.34%,測(cè)試PER值為35.51%。而由于語(yǔ)言模型較差,在轉(zhuǎn)文字的正確率上只有訓(xùn)練數(shù)據(jù)的單字能有70%以上。
5 結(jié)束語(yǔ)
本文最終實(shí)現(xiàn)了從語(yǔ)音到文本的識(shí)別,雖然語(yǔ)料能夠滿(mǎn)足,但由于存在國(guó)際音標(biāo)轉(zhuǎn)換復(fù)雜性,實(shí)踐上有部分的錯(cuò)誤,音標(biāo)轉(zhuǎn)換不夠準(zhǔn)確,且音素轉(zhuǎn)文本的語(yǔ)言模型很簡(jiǎn)單,未能將語(yǔ)言模型進(jìn)行深度學(xué)習(xí)的訓(xùn)練,使得在轉(zhuǎn)文字上錯(cuò)誤了大幅上升。
對(duì)于藏語(yǔ)語(yǔ)音識(shí)別而言,有一套快速而又成熟的國(guó)際音標(biāo)轉(zhuǎn)換方案顯得迫在眉睫,這可以使得更多的人能夠參與藏語(yǔ)語(yǔ)音的識(shí)別且能讓研究者將精力從語(yǔ)料準(zhǔn)備上抽離出來(lái),更好的編寫(xiě)聲學(xué)模型和語(yǔ)言模型。
參考文獻(xiàn):
[1]姚徐,李永宏,單廣“榮,等.藏語(yǔ)孤立詞語(yǔ)音識(shí)別系統(tǒng)研究[J].西北民族大學(xué)學(xué)報(bào):自然科學(xué)版,2009,30(1):29-36+50.
[2]BARUA P,AHMAD K,KHAN A A S,et al.Neural networkbased recognition of speech using MFCC features[C].International Conference on Informatics,Electronics & Vision.IEEE,2014:1-6.
[3]趙淑芳,董小雨.基于改進(jìn)的LSTM深度神經(jīng)網(wǎng)絡(luò)語(yǔ)音識(shí)別研究[J].鄭州大學(xué)學(xué)報(bào):工學(xué)版,2018,39(05):63-67.
[4]余凱,賈磊,陳雨強(qiáng),徐偉.深度學(xué)習(xí)的昨天、今天和明天[J].計(jì)算機(jī)研究發(fā)展,2013,50(9):1799-1804.
[5]史笑興,顧明亮,王太君,等.一種時(shí)間規(guī)整算法在神經(jīng)網(wǎng)絡(luò)語(yǔ)音識(shí)別中的應(yīng)用[J].東南大學(xué)學(xué)報(bào),1999,29(5):47-51.
[6]龍從軍,劉匯丹,吳健.藏文國(guó)際音標(biāo)(拉薩音)自動(dòng)轉(zhuǎn)換研究[J].中文信息學(xué)報(bào) 2016,30(5):203-208+214.
[通聯(lián)編輯:代影]