亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于循環(huán)神經(jīng)網(wǎng)絡(luò)的藏語(yǔ)語(yǔ)音識(shí)別聲學(xué)模型

        2018-06-14 07:38:42黃曉輝
        中文信息學(xué)報(bào) 2018年5期
        關(guān)鍵詞:音素藏語(yǔ)聲學(xué)

        黃曉輝,李 京

        (1. 中國(guó)科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 合肥 230027;2. 解放軍外國(guó)語(yǔ)學(xué)院 河南 洛陽(yáng) 471003)

        0 引言

        藏語(yǔ)屬于漢藏語(yǔ)系的藏緬語(yǔ)族藏語(yǔ)支,存在歷史悠久,使用人口眾多[1-2],廣泛分布于我國(guó)西藏、青海、甘肅、四川,以及尼泊爾、印度、巴基斯坦等藏族聚集地區(qū)[3]。藏語(yǔ)語(yǔ)音識(shí)別技術(shù)的發(fā)展,可有效解決藏區(qū)與其他地區(qū)之間的語(yǔ)言溝通障礙,促進(jìn)民族間交流,增進(jìn)相互了解,支援藏區(qū)經(jīng)濟(jì)、科技、文化等領(lǐng)域的發(fā)展。與漢語(yǔ)、英語(yǔ)等大語(yǔ)種相比,藏語(yǔ)不僅使用人數(shù)少,且大多分布于經(jīng)濟(jì)欠發(fā)達(dá)地區(qū),科教水平相對(duì)落后,因此在語(yǔ)音處理技術(shù)方面要滯后很多,直到 2005 年才有研究者開(kāi)始關(guān)注藏語(yǔ)語(yǔ)音識(shí)別技術(shù)的研究[4]。目前,針對(duì)藏語(yǔ)語(yǔ)音識(shí)別的研究也取得了一些成果,如楊陽(yáng)蕊等借鑒漢語(yǔ)連續(xù)語(yǔ)音語(yǔ)料庫(kù)構(gòu)建方法,分別建立了基于半音節(jié)和三音素模型的藏語(yǔ)連續(xù)語(yǔ)音語(yǔ)料庫(kù),為藏語(yǔ)語(yǔ)音識(shí)別提供了基礎(chǔ)數(shù)據(jù)支撐[5];李冠宇、孟猛基于隱馬爾可夫模型(hidden markov model,HMM)構(gòu)建藏語(yǔ)單音子和三音子模型,分別以音素和聲韻母作為識(shí)別基元進(jìn)行了實(shí)驗(yàn),驗(yàn)證了基于GMM-HMM的聲學(xué)模型應(yīng)用于藏語(yǔ)大詞表連續(xù)語(yǔ)音識(shí)別的可行性[6]。近年來(lái),深層神經(jīng)網(wǎng)絡(luò)的應(yīng)用使語(yǔ)音識(shí)別的各項(xiàng)指標(biāo)得到了明顯提升,在英語(yǔ)、漢語(yǔ)等大語(yǔ)種的某些應(yīng)用領(lǐng)域已進(jìn)入實(shí)用階段。深度神經(jīng)網(wǎng)絡(luò)相較傳統(tǒng)GMM-HMM模型的優(yōu)勢(shì)已經(jīng)在實(shí)驗(yàn)室環(huán)境下和實(shí)際應(yīng)用中得到了驗(yàn)證[7]。目前,在藏語(yǔ)語(yǔ)音識(shí)別方面也有基于深度神經(jīng)網(wǎng)絡(luò)的研究成果,如王輝、趙悅等利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行特征學(xué)習(xí),將學(xué)習(xí)到的特征輸入HMM模型,在藏語(yǔ)音素識(shí)別和孤立詞識(shí)別上取得了明顯優(yōu)于GMM-HMM模型的性能[8];袁勝龍、郭武等基于遷移學(xué)習(xí)的思想,先在大規(guī)模漢語(yǔ)語(yǔ)料上訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)模型,再將網(wǎng)絡(luò)隱含層共享,在小規(guī)模藏語(yǔ)語(yǔ)料上進(jìn)行訓(xùn)練調(diào)優(yōu),一定程度上解決了藏語(yǔ)語(yǔ)料資源匱乏導(dǎo)致的模型訓(xùn)練不充分問(wèn)題[9]。從目前來(lái)看,將深層神經(jīng)網(wǎng)絡(luò)應(yīng)用于藏語(yǔ)語(yǔ)音識(shí)別已經(jīng)成為藏語(yǔ)語(yǔ)音處理技術(shù)發(fā)展的必然趨勢(shì)。

        隨著計(jì)算設(shè)備性能的提升和數(shù)據(jù)量的快速增長(zhǎng),各種神經(jīng)網(wǎng)絡(luò)模型不斷涌現(xiàn)。如Alex Graves等基于深度循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)模型和連接時(shí)序分類(connectionist temporal classification,CTC)算法分別在TIMIT語(yǔ)料庫(kù)和WSJ語(yǔ)料庫(kù)上取得了目前最優(yōu)的音素和單詞識(shí)別率[10-11];William Song等基于深度卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)模型和CTC算法構(gòu)建聲學(xué)模型,其訓(xùn)練效率相較Alex的RNN-CTC模型有大幅提升,而在TIMIT上取得的音素識(shí)別率僅略低于Alex的模型[12]。在工業(yè)界,百度、科大訊飛等知名IT企業(yè)相繼報(bào)道了各自基于RNN和CTC模型構(gòu)建的中文語(yǔ)音識(shí)別系統(tǒng)框架。以上成果說(shuō)明,深度RNN模型和CTC算法在英文和中文語(yǔ)音處理技術(shù)上的卓越性能已經(jīng)在學(xué)術(shù)界和工業(yè)界得到驗(yàn)證。然而受制于藏語(yǔ)語(yǔ)料資源匱乏及研究基礎(chǔ)薄弱等問(wèn)題,深度RNN模型在藏語(yǔ)語(yǔ)音識(shí)別上的應(yīng)用尚未得到深入探索,目前也未見(jiàn)到相關(guān)的公開(kāi)報(bào)道。因此,本文結(jié)合藏語(yǔ)語(yǔ)音的特點(diǎn),研究將RNN應(yīng)用于藏語(yǔ)語(yǔ)音識(shí)別聲學(xué)建模的方法,結(jié)合RNN和CTC構(gòu)建端到端的聲學(xué)模型以驗(yàn)證RNN模型應(yīng)用于藏語(yǔ)語(yǔ)音識(shí)別的可行性。同時(shí)本文根據(jù)藏語(yǔ)語(yǔ)音識(shí)別聲學(xué)模型的特點(diǎn),引入時(shí)域卷積方法對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化,在識(shí)別性能相當(dāng)?shù)那闆r下有效提高了模型的訓(xùn)練和解碼速度,這也是本文最主要的創(chuàng)新點(diǎn)。實(shí)驗(yàn)結(jié)果顯示,基于RNN和CTC的端到端聲學(xué)模型在藏語(yǔ)拉薩話音素識(shí)別任務(wù)上的性能要優(yōu)于傳統(tǒng)的GMM-HMM模型,而引入時(shí)域卷積約簡(jiǎn)優(yōu)化的聲學(xué)模型在具有同等識(shí)別性能的條件下,還具有更高的訓(xùn)練速度和解碼效率。

        1 基于RNN的端到端聲學(xué)模型

        1.1 循環(huán)神經(jīng)網(wǎng)絡(luò)模型

        RNN是一種隱含層具有自連接關(guān)系的深層神經(jīng)網(wǎng)絡(luò),隱含層的自連接特性使其對(duì)序列數(shù)據(jù)上下文依賴關(guān)系具有天然的描述能力,是建模序列數(shù)據(jù)的有效方法[13],其基本架構(gòu)如圖1所示。

        圖1 RNN的結(jié)構(gòu)特點(diǎn)

        RNN輸入層表示樣本的輸入特征,輸入層神經(jīng)元個(gè)數(shù)即輸入數(shù)據(jù)特征維數(shù)。輸入特征經(jīng)加權(quán)求和后進(jìn)入中間的隱含層;隱含層具有自連接特性,其輸入由輸入層和上一時(shí)刻該隱含層的輸出共同構(gòu)成,經(jīng)激活函數(shù)激活后進(jìn)入輸出層及下一時(shí)刻的隱含層。如果將多個(gè)隱含層進(jìn)行堆疊,即可構(gòu)成深層的RNN模型。RNN的輸出層是一個(gè)分類層,其中的每個(gè)神經(jīng)元代表一個(gè)類別,每個(gè)神經(jīng)元的輸出值表示輸入樣本屬于該類別的后驗(yàn)條件概率。不難看出,RNN實(shí)際上是一個(gè)包含特征、空間及時(shí)間的三維網(wǎng)絡(luò),其中時(shí)間維度上的展開(kāi)步數(shù)等于輸入序列的長(zhǎng)度,但任意時(shí)刻網(wǎng)絡(luò)的權(quán)值是恒定的。數(shù)據(jù)進(jìn)入RNN隱含層的計(jì)算過(guò)程如式(1)~(2)所示。

        其中xt為t時(shí)刻的網(wǎng)絡(luò)輸入,H為隱含層激活函數(shù)(通常為非線性函數(shù),如sigmoid函數(shù)),O代表輸出層分類函數(shù)(如softmax函數(shù)),yt為t時(shí)刻網(wǎng)絡(luò)的輸出值。權(quán)值Wxh、Whh、Who及偏置項(xiàng)bh、bo是需要通過(guò)訓(xùn)練來(lái)優(yōu)化的網(wǎng)絡(luò)參數(shù)。

        RNN通常采用基于梯度的訓(xùn)練方法,由于時(shí)域展開(kāi)步數(shù)較長(zhǎng),梯度在回傳過(guò)程中通常存在逐漸消失問(wèn)題,因而在實(shí)際應(yīng)用中普通RNN無(wú)法捕獲時(shí)序數(shù)據(jù)內(nèi)部的長(zhǎng)距離依賴關(guān)系[14]。長(zhǎng)短時(shí)記憶單元(long-Short term memory,LSTM)是RNN的一種變體,其在神經(jīng)元內(nèi)部加入三個(gè)門函數(shù)和一個(gè)存儲(chǔ)單元,從而能夠有效地控制神經(jīng)元的輸入、存儲(chǔ)及輸出[15],其內(nèi)部結(jié)構(gòu)如圖2所示。

        圖2 LSTM的結(jié)構(gòu)特點(diǎn)

        LSTM神經(jīng)元的輸入與輸出關(guān)系可以通過(guò)式(3)~(7)表示。

        其中σ為激活函數(shù),i、f、o及c分別對(duì)應(yīng)輸入門、忘記門、輸出門及存儲(chǔ)單元。由于門函數(shù)和存儲(chǔ)元的存在,LSTM網(wǎng)絡(luò)能夠?qū)崿F(xiàn)對(duì)輸入信息流的控制,緩解訓(xùn)練過(guò)程中的梯度消失問(wèn)題。另外,傳統(tǒng)RNN是單向展開(kāi),因此只能利用歷史信息,而語(yǔ)音識(shí)別是對(duì)整個(gè)序列的轉(zhuǎn)寫,當(dāng)前語(yǔ)音幀后面的上下文信息對(duì)當(dāng)前幀也有影響,因此雙向RNN(Bi-RNN,Bidirectional RNN)通過(guò)兩個(gè)獨(dú)立的隱含層來(lái)處理前向和后向數(shù)據(jù),之后同時(shí)進(jìn)入輸出層,可有效解決該問(wèn)題。雙向RNN隱含層的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

        圖3 雙向RNN隱含層的網(wǎng)絡(luò)結(jié)構(gòu)

        雙向RNN隱含層的計(jì)算過(guò)程如式(8)所示。

        (8)

        將雙向RNN與LSTM單元相結(jié)合就構(gòu)雙向LSTM網(wǎng)絡(luò)(Bi-LSTM,Bidirectional-LSTM),再堆疊多個(gè)Bi-LSTM層即可構(gòu)成深層的Bi-LSTM網(wǎng)絡(luò),從而充分利用上下文時(shí)序信息進(jìn)行語(yǔ)音識(shí)別建模。

        1.2 CTC訓(xùn)練與解碼

        CTC通過(guò)對(duì)目標(biāo)序列和輸入序列的對(duì)齊分布進(jìn)行建模[16],免去了人工實(shí)現(xiàn)的單個(gè)聲學(xué)基元與語(yǔ)音學(xué)目標(biāo)基元的對(duì)齊操作,從而實(shí)現(xiàn)端到端的聲學(xué)模型訓(xùn)練。CTC基于softmax分類層實(shí)現(xiàn),該分類層包含所有的類別節(jié)點(diǎn)和一個(gè)空節(jié)點(diǎn),其中空節(jié)點(diǎn)對(duì)應(yīng)空格輸出。對(duì)于一個(gè)長(zhǎng)度為T的輸入序列x,網(wǎng)絡(luò)在t時(shí)刻輸出目標(biāo)類別k(含空節(jié)點(diǎn)輸出)的概率值可表示為式(9)。

        (9)

        (10)

        對(duì)于目標(biāo)序列y,可以有多個(gè)CTC輸出序列π與之對(duì)應(yīng)。例如,當(dāng)輸入序列長(zhǎng)度為6而對(duì)應(yīng)目標(biāo)序列為(a,b,c)時(shí),相應(yīng)的CTC輸出序列可以是(a,_,b,c,c,_)或(_,a,a,_b,c)等。因此有式(11)的對(duì)應(yīng)關(guān)系。

        (11)

        其中β是從π到y(tǒng)的映射,該映射先合并相鄰重復(fù)出現(xiàn)的類,再去除空類。上式可通過(guò)動(dòng)態(tài)規(guī)劃算法計(jì)算并且求導(dǎo)。在給定輸入序列x及對(duì)應(yīng)目標(biāo)序列y*的情況下,CTC訓(xùn)練的最終目標(biāo)是讓網(wǎng)絡(luò)輸出y*的概率最大化,也即概率的負(fù)對(duì)數(shù)值最小化,因此設(shè)定目標(biāo)函數(shù)如式(12)所示。

        CTC(x)=-logPr(y*|x)

        (12)

        經(jīng)過(guò)訓(xùn)練之后的網(wǎng)絡(luò)即可應(yīng)用于語(yǔ)音樣本的預(yù)測(cè),CTC最終輸出一個(gè)T行N列的概率矩陣,其中T為輸入序列長(zhǎng)度,N為分類器的類別數(shù),該矩陣可采用定向搜索算法來(lái)找出概率最大的音素序列。

        2 引入時(shí)域卷積的RNN聲學(xué)模型

        RNN模型的復(fù)雜度主要由網(wǎng)絡(luò)隱含層神經(jīng)元個(gè)數(shù)、縱向深度和橫向展開(kāi)步數(shù)決定,其中縱向深度就是堆疊的隱含層個(gè)數(shù)。隱含層的神經(jīng)元個(gè)數(shù)及堆疊的隱含層數(shù)決定了模型對(duì)輸入數(shù)據(jù)高層特征的抽象能力,神經(jīng)元個(gè)數(shù)越多,堆疊層數(shù)越多,特征提取能力越強(qiáng),這已經(jīng)在實(shí)驗(yàn)中得到廣泛的驗(yàn)證。隱含層的橫向展開(kāi)步數(shù)是網(wǎng)絡(luò)訓(xùn)練與解碼的重要影響因素。傳統(tǒng)RNN-CTC模型,各隱含層橫向展開(kāi)步數(shù)等于輸入序列的長(zhǎng)度,最終的CTC輸出序列也與輸入序列等長(zhǎng)。這種結(jié)構(gòu)理論上完整保留了序列的上下文依賴關(guān)系,卻也帶來(lái)了網(wǎng)絡(luò)訓(xùn)練時(shí)梯度回傳慢、梯度易消失等問(wèn)題。同時(shí)針對(duì)CTC輸出通常使用定向搜索算法進(jìn)行解碼,其搜索空間大小與輸出序列的長(zhǎng)度呈指數(shù)增長(zhǎng)關(guān)系,因此網(wǎng)絡(luò)輸出序列長(zhǎng)度也是影響語(yǔ)音解碼效率的重要因素。從藏語(yǔ)語(yǔ)音識(shí)別的聲學(xué)模型來(lái)看,輸入的語(yǔ)音幀與其目標(biāo)序列中所對(duì)應(yīng)的語(yǔ)音學(xué)基元(如音素)是多對(duì)一的關(guān)系,即多個(gè)連續(xù)語(yǔ)音幀對(duì)應(yīng)著同一個(gè)藏語(yǔ)音素,因此本文提出引入時(shí)域卷積的循環(huán)神經(jīng)網(wǎng)絡(luò)模型RNN-TimeConv-CTC,即在循環(huán)神經(jīng)網(wǎng)絡(luò)隱含層的輸出序列之上進(jìn)行時(shí)域的卷積操作,以期在不影響識(shí)別率的前提下,逐層減少網(wǎng)絡(luò)隱含層的時(shí)域展開(kāi)步數(shù),從而簡(jiǎn)化網(wǎng)絡(luò)結(jié)構(gòu),加速網(wǎng)絡(luò)訓(xùn)練與解碼,其結(jié)構(gòu)如圖4所示。

        圖4 引入時(shí)域卷積的RNN隱含層

        圖中h1為多層RNN中的一個(gè)隱含層,h2為相鄰的下一個(gè)隱含層,對(duì)應(yīng)的下標(biāo)為時(shí)域的展開(kāi)步。相鄰兩個(gè)隱含層的計(jì)算過(guò)程如式(13)所示。

        (13)

        其中win為時(shí)域卷積的窗口寬度(圖4中值為3),stride為相鄰兩個(gè)卷積操作的時(shí)間跨度(圖4中值為2),Wi為時(shí)域共享的權(quán)值,是需要訓(xùn)練的參數(shù)。引入時(shí)域卷積的RNN,其相鄰隱含層的時(shí)域展開(kāi)步數(shù)將不再相同,而是存在一定的比例關(guān)系,該比例關(guān)系由stride的大小決定。假設(shè)l層的時(shí)域展開(kāi)步數(shù)為Tl,則相鄰的l+1層時(shí)域展開(kāi)步數(shù)如式(14)所示。

        (14)

        3 實(shí)驗(yàn)和結(jié)果分析

        為驗(yàn)證基于RNN-CTC的藏語(yǔ)語(yǔ)音識(shí)別聲學(xué)模型的可行性和優(yōu)越性,本文設(shè)置GMM-HMM模型作為基準(zhǔn)參考模型,采用已經(jīng)在TIMIT語(yǔ)料庫(kù)上得到驗(yàn)證的深層Bi-LSTM-CTC模型作為測(cè)試模型,同時(shí)基于該模型設(shè)置時(shí)域卷積層,構(gòu)建RNN-TimeConv-CTC模型以驗(yàn)證引入時(shí)域卷積的深層RNN模型在藏語(yǔ)語(yǔ)音識(shí)別上的高效性。測(cè)試模型的整體架構(gòu)如圖5所示。

        圖5 藏語(yǔ)語(yǔ)音識(shí)別聲學(xué)模型架構(gòu)

        為保證所有模型訓(xùn)練環(huán)境的一致性,本文所有實(shí)驗(yàn)全部在安裝Linux操作系統(tǒng)的同一臺(tái)高性能服務(wù)器上完成,并基于Google開(kāi)源深度學(xué)習(xí)庫(kù)Tensorflow構(gòu)建神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練與測(cè)試,同時(shí)配置NVIDIA的GPU卡進(jìn)行加速。

        3.1 語(yǔ)音語(yǔ)料庫(kù)

        實(shí)驗(yàn)所用藏語(yǔ)語(yǔ)音庫(kù)為解放軍外國(guó)語(yǔ)學(xué)院自建的藏語(yǔ)拉薩話語(yǔ)音語(yǔ)料庫(kù),其中語(yǔ)音數(shù)據(jù)采用單通道16kHz采樣,16位PCM量化,存儲(chǔ)為wav格式,共計(jì)49.6h語(yǔ)音數(shù)據(jù)。所選語(yǔ)料來(lái)源于藏語(yǔ)教學(xué)過(guò)程中使用的錄音廣播、閱讀教材、新聞?wù)翱谡Z(yǔ)練習(xí)材料,共包含3 160個(gè)音素覆蓋平衡的藏文語(yǔ)句。錄音文件由16名說(shuō)話者分別朗讀產(chǎn)生。由于藏語(yǔ)為音素拼音型語(yǔ)言,即由音素組合構(gòu)成聲母和韻母形成半音節(jié),再由聲韻母組合加上音調(diào)構(gòu)成一個(gè)音節(jié)。因此,音素是藏語(yǔ)語(yǔ)音學(xué)上的最小發(fā)音基元,基于藏語(yǔ)音素進(jìn)行聲學(xué)建模是目前典型的建模方法。根據(jù)對(duì)藏語(yǔ)語(yǔ)音學(xué)的深入研究和統(tǒng)計(jì)分析,本文所用語(yǔ)料庫(kù)共設(shè)置了41個(gè)音素標(biāo)注基元,其中輔音音素28個(gè),元音音素13個(gè),所有音素的拉丁轉(zhuǎn)寫和國(guó)際音標(biāo)如表1所示。

        表1 拉薩話語(yǔ)音語(yǔ)料庫(kù)音素單元集

        基于以上語(yǔ)音庫(kù),實(shí)驗(yàn)首先對(duì)所有語(yǔ)音序列進(jìn)行預(yù)處理操作,包括預(yù)加重、分幀(幀長(zhǎng)25 ms、幀移10 ms)及加窗(漢明窗),進(jìn)而對(duì)每幀語(yǔ)音數(shù)據(jù)提取12維MFCC加對(duì)數(shù)能量,以及對(duì)應(yīng)的一階、二階差分,共39維特征參數(shù)。實(shí)驗(yàn)過(guò)程中,本文選取部分錄音文件作為驗(yàn)證集和測(cè)試集,其余作為訓(xùn)練集,其中驗(yàn)證集和測(cè)試集對(duì)所有的音素都有均衡的覆蓋。最終產(chǎn)生的驗(yàn)證集包含3.4h的語(yǔ)音數(shù)據(jù),測(cè)試集包含2.5h的語(yǔ)音數(shù)據(jù)。

        3.2 RNN-CTC模型

        實(shí)驗(yàn)設(shè)置GMM-HMM模型作為基準(zhǔn)參考模型,對(duì)41個(gè)藏語(yǔ)音素、靜音段及停頓進(jìn)行建模,其中音素和靜音段采用三狀態(tài)HMM,停頓采用單狀態(tài)HMM。HMM中的每個(gè)狀態(tài)都使用25個(gè)獨(dú)立的高斯分量,基于最大似然估計(jì)法進(jìn)行訓(xùn)練。RNN-CTC模型采用深度Bi-LSTM-CTC模型(架構(gòu)如圖5實(shí)線矩形框所示),采用三個(gè)雙向隱含層堆疊,每個(gè)隱含層兩個(gè)方向各包含512個(gè)節(jié)點(diǎn),最后一個(gè)隱含層兩個(gè)方向同一時(shí)刻的輸出通過(guò)加權(quán)求和轉(zhuǎn)換為一個(gè)512維輸出向量,進(jìn)入CTC分類層。CTC分類層包含42個(gè)類別節(jié)點(diǎn),分別對(duì)應(yīng)41個(gè)音素和一個(gè)空輸出。隱含層神經(jīng)元設(shè)置為Sigmoid型,采用隨機(jī)梯度下降算法訓(xùn)練網(wǎng)絡(luò),訓(xùn)練時(shí)樣本序列Minibatch設(shè)為512,學(xué)習(xí)率設(shè)為0.001,以CTC解碼序列和目標(biāo)序列的Levenshtein編輯距離作為差異度量,并將其與真實(shí)音素序列長(zhǎng)度的比值作為衡量識(shí)別準(zhǔn)確度的指標(biāo),記為PER(phone error rate)。顯然,PER越小則識(shí)別結(jié)果越準(zhǔn)確,模型越好,反之則識(shí)別結(jié)果越差,模型越不好。表2列出了GMM-HMM和Bi-LSTM-CTC模型的性能對(duì)比。

        表2 不同模型的識(shí)別性能對(duì)比

        可以看出,相較GMM-HMM模型35.24%的音素錯(cuò)誤率,Bi-LSTM-CTC模型的性能有顯著提高,PER下降到了26.31%,證明了Bi-LSTM-CTC模型在藏語(yǔ)語(yǔ)音識(shí)別聲學(xué)建模上的優(yōu)越性能。通過(guò)分析不難發(fā)現(xiàn),之所以有如此顯著的性能提升,主要得益于深層RNN對(duì)語(yǔ)音序列時(shí)序依賴關(guān)系的建模,以及CTC算法對(duì)序列學(xué)習(xí)過(guò)程的建模。RNN隱含層的自連接關(guān)系可以建模藏語(yǔ)語(yǔ)音的時(shí)序關(guān)聯(lián)關(guān)系,而B(niǎo)i-RNN使未來(lái)的時(shí)序信息也能得到利用,從而實(shí)現(xiàn)語(yǔ)音序列上下文關(guān)系的完整建模。同時(shí),LSTM單元能夠緩解模型訓(xùn)練過(guò)程中的梯度消失問(wèn)題,從而使整個(gè)網(wǎng)絡(luò)模型能夠最大程度的利用藏語(yǔ)語(yǔ)音序列的上下文信息對(duì)當(dāng)前輸入進(jìn)行分類。相比之下,GMM-HMM基于一階隱馬爾可夫假設(shè)對(duì)語(yǔ)音信號(hào)進(jìn)行建模,只能利用極其有限的歷史信息,并且對(duì)未來(lái)信息沒(méi)有任何考慮,因此對(duì)語(yǔ)音序列上下文信息的捕捉能力很弱,其識(shí)別性能自然較差。另外,基于GMM-HMM的建模方法要求輸入序列中的每個(gè)特征向量都有一個(gè)對(duì)應(yīng)的目標(biāo)類,即要為訓(xùn)練集中的每個(gè)語(yǔ)音幀標(biāo)注一個(gè)語(yǔ)音學(xué)音素狀態(tài),該過(guò)程通常需人工辨聽(tīng)切分才能完成。然而由于真實(shí)藏語(yǔ)語(yǔ)音序列的時(shí)變特性及音素協(xié)同發(fā)音現(xiàn)象的普遍存在,語(yǔ)音幀與音素的對(duì)齊關(guān)系具有較大的不確定性,人工標(biāo)記方法必然會(huì)引入噪聲,因而在真實(shí)應(yīng)用中單個(gè)語(yǔ)音幀識(shí)別精度的提高并沒(méi)有帶來(lái)整個(gè)語(yǔ)音序列識(shí)別率同等程度的提高。CTC通過(guò)對(duì)目標(biāo)序列與輸入序列的對(duì)齊關(guān)系分布進(jìn)行建模,直接從序列到序列進(jìn)行訓(xùn)練,有效避免了人工對(duì)齊可能引入的標(biāo)記噪聲,從而實(shí)現(xiàn)端到端的識(shí)別,更加符合語(yǔ)音識(shí)別的真實(shí)過(guò)程,因而能夠帶來(lái)整個(gè)音素序列識(shí)別率的提升。

        3.3 RNN-TimeConv-CTC模型

        引入時(shí)域卷積的RNN-TimeConv-CTC模型以3.2節(jié)中的Bi-LSTM-CTC模型為基準(zhǔn)模型(記做Bi-LSTM-TC-CTC),在其第二和第三隱含層的輸出序列(同一時(shí)刻兩個(gè)方向加權(quán)求和得到)上進(jìn)行時(shí)域卷積操作(如圖5虛線梯型框所示),卷積窗口寬度win設(shè)為5,卷積時(shí)間跨度stride設(shè)為2,網(wǎng)絡(luò)初始權(quán)重、訓(xùn)練方法、Minibatch大小、學(xué)習(xí)率等訓(xùn)練參數(shù)都與基準(zhǔn)模型的訓(xùn)練參數(shù)相同,最終的訓(xùn)練和測(cè)試結(jié)果如表3所示。

        表3 不同模型的訓(xùn)練和測(cè)試性能對(duì)比

        從實(shí)驗(yàn)結(jié)果可以看出,引入時(shí)域卷積的Bi-LSTM-TC-CTC模型,在模型收斂時(shí)的迭代次數(shù)較基準(zhǔn)模型Bi-LSTM-CTC下降了近100次,其訓(xùn)練速度得到明顯提升,而兩者在驗(yàn)證集和測(cè)試集上的識(shí)別性能并無(wú)明顯差別,說(shuō)明兩者對(duì)訓(xùn)練數(shù)據(jù)的擬合能力是相當(dāng)?shù)摹?/p>

        通過(guò)分析實(shí)驗(yàn)結(jié)果和網(wǎng)絡(luò)結(jié)構(gòu)的不同不難發(fā)現(xiàn),Bi-LSTM-TC-CTC模型訓(xùn)練效率的提升主要?dú)w因于時(shí)域卷積操作的引入。時(shí)域卷積操作使Bi-LSTM網(wǎng)絡(luò)第三個(gè)隱含層的時(shí)域展開(kāi)步數(shù)和輸出序列的長(zhǎng)度分別約簡(jiǎn)到原始網(wǎng)絡(luò)模型的1/2 和1/4,大大減少了網(wǎng)絡(luò)訓(xùn)練過(guò)程中梯度計(jì)算的回傳距離,從而有效加快了訓(xùn)練速度。回傳距離的減少,還使梯度消失問(wèn)題得以緩解,從而使每輪迭代產(chǎn)生的參數(shù)更新更加有效,因而使用較少的迭代次數(shù)就能使模型達(dá)到最優(yōu)的狀態(tài)。同時(shí),由于時(shí)域卷積操作針對(duì)連續(xù)的五個(gè)輸入向量進(jìn)行特征抽象,能夠捕獲近距離內(nèi)的時(shí)序關(guān)聯(lián)關(guān)系,從而彌補(bǔ)了隱含層因跨步展開(kāi)可能帶來(lái)的時(shí)序建模能力下降問(wèn)題,因而在降低網(wǎng)絡(luò)復(fù)雜度的同時(shí)仍然能夠保證模型總體識(shí)別性能的穩(wěn)定。另外,在本實(shí)驗(yàn)中,CTC輸出序列的長(zhǎng)度也約簡(jiǎn)到了普通網(wǎng)絡(luò)輸出序列長(zhǎng)度的四分之一,對(duì)于音素識(shí)別解碼時(shí)所用的定向搜索解碼算法來(lái)講,其搜索空間的復(fù)雜度從搜索寬度的T次方下降到了T/4次方,整個(gè)模型的解碼速度自然也會(huì)得到明顯提升。

        時(shí)域卷積時(shí)間跨度值stride是RNN-TC-CTC模型區(qū)別與傳統(tǒng)RNN模型的重要參數(shù),為了驗(yàn)證stride設(shè)置對(duì)模型訓(xùn)練以及測(cè)試性能的影響,本文以表3中的三層Bi-LSTM-TC-CTC模型為基準(zhǔn),以網(wǎng)絡(luò)第3個(gè)隱含層的時(shí)域卷積stride值為變量,分別考查了6種stride值下的模型訓(xùn)練迭代次數(shù)Iterations和測(cè)試集上的PER值,如圖6所示。

        圖6 卷積跨度stride對(duì)模型的影響

        可以看出,當(dāng)stride值小于等于3時(shí),訓(xùn)練迭代次數(shù)下降明顯,但測(cè)試集PER值相對(duì)穩(wěn)定,與基準(zhǔn)Bi-LSTM-CTC模型基本相當(dāng);而當(dāng)stride大于3時(shí),訓(xùn)練迭代次數(shù)開(kāi)始穩(wěn)定,但測(cè)試集PER值卻急劇上升。

        以上現(xiàn)象主要是由輸入藏語(yǔ)語(yǔ)音特征與目標(biāo)音素之間的多對(duì)一映射關(guān)系所導(dǎo)致的。就藏語(yǔ)語(yǔ)音的發(fā)音來(lái)講,通常一個(gè)藏語(yǔ)音素的聲學(xué)發(fā)音會(huì)包含6~10個(gè)語(yǔ)音幀,也就是說(shuō)輸入網(wǎng)絡(luò)的幾個(gè)連續(xù)語(yǔ)音幀通??赡軐?duì)應(yīng)著同一個(gè)音素。傳統(tǒng)基于深層RNN的網(wǎng)絡(luò)模型,其每個(gè)隱含層的時(shí)域展開(kāi)步數(shù)都等于輸入序列的長(zhǎng)度,最終的輸出序列長(zhǎng)度也等于輸入序列長(zhǎng)度。實(shí)際上是為每個(gè)輸入特征預(yù)測(cè)了一個(gè)類別,其中同一個(gè)類別會(huì)連續(xù)出現(xiàn)多次,而在解碼時(shí)這些連續(xù)出現(xiàn)的相同類別會(huì)被合并為一個(gè)預(yù)測(cè)基元。經(jīng)過(guò)時(shí)域卷積之后,上層的網(wǎng)絡(luò)時(shí)域展開(kāi)步數(shù)會(huì)減少,而減少的比例正是由stride值決定的。因此在相同的初始條件下,stride值越大,網(wǎng)絡(luò)約簡(jiǎn)越多,模型越簡(jiǎn)單,在網(wǎng)絡(luò)初始參數(shù)相同的情況下,訓(xùn)練過(guò)程中的收斂速度就可能越快。但是約簡(jiǎn)的比例不能過(guò)高(如圖6中stride為3時(shí),約簡(jiǎn)的比例已達(dá)到6∶1),否則可能因映射關(guān)系過(guò)度簡(jiǎn)化而造成網(wǎng)絡(luò)模型擬合數(shù)據(jù)分布能力不足,識(shí)別性能就會(huì)出現(xiàn)下降。因此合理的設(shè)置stride值才能保證在模型識(shí)別性能不變的情況,加速網(wǎng)絡(luò)的訓(xùn)練和解碼。

        綜合理論分析和實(shí)驗(yàn)結(jié)果可以看出,對(duì)于藏語(yǔ)語(yǔ)音識(shí)別聲學(xué)建模任務(wù)來(lái)講,基于深度Bi-LSTM-CTC的聲學(xué)模型要優(yōu)于傳統(tǒng)基于GMM-HMM的模型,而引入時(shí)域卷積操作的Bi-LSTM-TC-CTC模型,只要合理的設(shè)置stride值,就能夠在保持相同識(shí)別性能的前提下獲得更高的訓(xùn)練和解碼效率。

        4 總結(jié)與展望

        本文研究了基于深度RNN的藏語(yǔ)語(yǔ)音識(shí)別聲學(xué)建模問(wèn)題,驗(yàn)證了Bi-LSTM-CTC模型應(yīng)用于藏語(yǔ)語(yǔ)音聲學(xué)建模的可行性,并與傳統(tǒng)基于GMM-HMM的聲學(xué)模型進(jìn)行了對(duì)比,驗(yàn)證了其高效性。同時(shí),針對(duì)深度RNN-CTC模型訓(xùn)練和解碼時(shí)受時(shí)域展開(kāi)步長(zhǎng)影響較大的問(wèn)題,提出引入時(shí)域卷積操作的RNN-TimeConv-CTC模型,在保證原有識(shí)別率的前提下,有效約簡(jiǎn)了網(wǎng)絡(luò)的時(shí)域展開(kāi)步長(zhǎng),提高了模型的訓(xùn)練和解碼效率。需要說(shuō)明的是,本文所做實(shí)驗(yàn)是在自錄數(shù)據(jù)集上的初步結(jié)果,所選藏文音素標(biāo)注基元的穩(wěn)定性還有待進(jìn)一步的驗(yàn)證。另外,本文只是驗(yàn)證了基于深層RNN的藏語(yǔ)語(yǔ)音識(shí)別聲學(xué)模型,如何基于該模型構(gòu)建完整的藏語(yǔ)語(yǔ)音識(shí)別系統(tǒng)也是本文后續(xù)研究工作的重點(diǎn)。

        [1] 于洪志,高璐,李永宏,等.藏語(yǔ)機(jī)讀音標(biāo)SAMPA_ST的設(shè)計(jì)[J].中文信息學(xué)報(bào),2012,26(4): 65-72.

        [2] 陳小瑩,艾金勇,于洪志.藏語(yǔ)拉薩話單音節(jié)噪音聲學(xué)參數(shù)分析[J].中文信息學(xué)報(bào),2015,29(3): 184-189.

        [3] 德慶卓瑪.藏語(yǔ)語(yǔ)音識(shí)別研究綜述[J].西藏大學(xué)學(xué)報(bào), 2010, 25(S1): 192-195.

        [4] 姚徐,李永宏,單廣榮.藏語(yǔ)孤立詞語(yǔ)音識(shí)別系統(tǒng)研究[J].西北民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2009,30(1): 29-36,50.

        [5] 楊陽(yáng)蕊,李永宏,于宏志.基于半音節(jié)的藏語(yǔ)連續(xù)語(yǔ)音語(yǔ)料庫(kù)設(shè)計(jì)[C]. 第十屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議暨國(guó)際語(yǔ)音語(yǔ)言處理研討會(huì). 烏魯木齊: 新疆師范大學(xué)出版社,2009: 380-383.

        [6] 李冠宇,孟猛.藏語(yǔ)拉薩話大詞表連續(xù)語(yǔ)音識(shí)別聲學(xué)模型研究[J].計(jì)算機(jī)工程,2012,38(5): 189-191.

        [7] 戴禮榮,張仕良.深度語(yǔ)音信號(hào)與信息處理: 研究進(jìn)展與展望[J].數(shù)據(jù)采集與處理,2014,29(2): 171-178.

        [8] 王輝,趙悅,劉曉鳳.基于深度特征學(xué)習(xí)的藏語(yǔ)語(yǔ)音識(shí)別[J].東北師大學(xué)報(bào)(自然科學(xué)版),2015,47(4): 69-73.

        [9] 袁勝龍,郭武,戴禮榮.基于深層神經(jīng)網(wǎng)絡(luò)的藏語(yǔ)識(shí)別[J].模式識(shí)別與人工智能,2015,28(3): 209-213.

        [10] Graves A, Mohamed A,Hinton G. Speech recognition with deep recurrent neural networks[C]//Proceedings of ICASSP, 2013: 6645-6649.

        [11] Alex Graves,Navdeep Jaitly. Towards end-to-end speech recognition with recurrent neural networks[C]//Proceedings of the 31st International Conference on Machine Learning(ICML-14),2014: 1764-1772.

        [12] Song W, Cai J. End-to-end deep neural network for automatic speech recognition[R]. Technical Report CS224D, University of Stanford, 2015.

        [13] Hochreiter Sepp, Schmidhuber Jurgen. Long short-term memory[J]. Neural Computation.1997, 9(8): 1735-1780.

        [14] Yoshua Bengio, Patrice Simard, Paolo Frasconi. Learning long-term dependencies with gradient descent is difficult[J]. IEEE Transactions on Neural Networks.1994,5(2): 157-166.

        [15] Sak H,Vinyals O,Heigold G. Sequence discriminative distributed training of long short-term memory recurrent neural networks[C]//Proceedings of the Interspeech.2014: 1209-1213.

        [16] Alex Graves, Santiago Ferna′ndez, Jurgen Schmidhuber. Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks[C]//Proceedings of the 23rd International Conference on Machine Learning,ACM,2006: 369-376.

        猜你喜歡
        音素藏語(yǔ)聲學(xué)
        新目標(biāo)英語(yǔ)七年級(jí)(上)Starter Units 1-3 STEP BY STEP 隨堂通
        淺談藏語(yǔ)中的禮儀語(yǔ)
        客聯(lián)(2022年2期)2022-04-29 22:05:07
        漢藏語(yǔ)及其音樂(lè)
        依托繪本課程,培養(yǎng)學(xué)生英語(yǔ)音素意識(shí)
        愛(ài)的就是這股Hi-Fi味 Davis Acoustics(戴維斯聲學(xué))Balthus 70
        小學(xué)英語(yǔ)課堂中音素意識(shí)與自然拼讀整合訓(xùn)練的探索
        Acoustical Treatment Primer:Diffusion談?wù)劼晫W(xué)處理中的“擴(kuò)散”
        Acoustical Treatment Primer:Absorption談?wù)劼晫W(xué)處理中的“吸聲”(二)
        Acoustical Treatment Primer:Absorption 談?wù)劼晫W(xué)處理中的“吸聲”
        ?不定冠詞a與an
        日本一区二区三区高清千人斩| 久久无码潮喷a片无码高潮 | 麻豆第一区MV免费观看网站| 无码国产一区二区色欲| 日本美女中文字幕第一区| 四虎影视久久久免费观看| 日韩a无v码在线播放| 国产又色又爽又高潮免费视频麻豆 | 亚洲日韩精品国产一区二区三区| 2021亚洲色中文字幕| 国产一区二区资源在线观看| 欧美激情一区二区三区成人| 18禁无遮挡无码网站免费| 亚洲九九夜夜| 久久想要爱蜜臀av一区二区三区 | 亚洲国产都市一区二区| 免费人成视网站在线剧情| 亚洲av成人片在线观看| 又爆又大又粗又硬又黄的a片| 国内精品91久久久久| 毛片在线播放亚洲免费中文网| 国产综合在线观看| 亚洲天堂第一区| 亚洲人妻av在线播放| 一本色道无码不卡在线观看| 麻豆高清免费国产一区| 欧美国产日本精品一区二区三区| 日本中文字幕一区二区高清在线| 日本女优久久精品久久| 挺进邻居丰满少妇的身体| 国产免费av片在线观看播放| 精品无人区无码乱码大片国产| 亚洲综合精品一区二区三区| 午夜男女靠比视频免费| 内射合集对白在线| 久久国产精品国产精品日韩区| 精品日韩av专区一区二区| 国产成人无码一区二区三区| 国产肉丝袜在线观看| 日本岛国大片不卡人妻| 国产日产久久高清ww|