徐冬冬,蔣志翔
(中國航天科工集團(tuán)第二研究院 七〇六所,北京 100854)
由于傳統(tǒng)語音識(shí)別系統(tǒng)[1]的流程繁瑣,不能高效地結(jié)合語言模型與聲學(xué)模型,端到端方法開始流行。目前端到端模型[2]主要基于兩種:一是連接時(shí)序分類(CTC);二是注意力機(jī)制。CTC模型與傳統(tǒng)的DNN-HMM聲學(xué)模型不同,不需要在幀級(jí)別上對(duì)齊標(biāo)簽,但算法的實(shí)現(xiàn)基于假設(shè)每幀的解碼條件獨(dú)立。純基于注意力機(jī)制的解碼過程則與幀的順序無關(guān),忽略了語音的單調(diào)時(shí)序性,但預(yù)對(duì)齊過程會(huì)受噪聲影響。
針對(duì)上述兩種端到端模型缺乏先驗(yàn)知識(shí),不能有效進(jìn)行參數(shù)初始化的問題,考慮到聯(lián)合優(yōu)化正交投影和估計(jì)[3](HOPE)具有潛在特征交叉效果。本文提出采用基于HOPE-CTC的混合端到端模型。該模型首先采用CTC作為損失函數(shù),在HOPE基礎(chǔ)上訓(xùn)練獲得瓶頸特征,然后將具有高維表示的語音特征輸入注意力網(wǎng)絡(luò),最后解碼輸入目標(biāo)音素標(biāo)簽。其中,HOPE的關(guān)鍵是融合了特征提取和數(shù)據(jù)建模,采用線性正交投影作特征提取實(shí)質(zhì)上是降維處理,將原始相關(guān)性高的輸入特征映射成維度較低且線性無關(guān)的特征向量;采用有限的混合模型來逼近數(shù)據(jù)模型分布任務(wù)精度。并且將基于HOPE-CTC的瓶頸特征提取網(wǎng)絡(luò)置于注意力網(wǎng)絡(luò)的前端,可以有效減少編碼網(wǎng)絡(luò)中循環(huán)神經(jīng)網(wǎng)絡(luò)的層數(shù),加快模型訓(xùn)練速度。該方法實(shí)現(xiàn)了兩種不同端到端模型的融合,并通過實(shí)驗(yàn)驗(yàn)證了該模型的有效性。
聯(lián)合優(yōu)化正交投影和估計(jì)被提出是為了探索神經(jīng)網(wǎng)絡(luò)內(nèi)部各隱層之間密切的相關(guān)性,并且發(fā)現(xiàn)對(duì)于有監(jiān)督和無監(jiān)督DNN的學(xué)習(xí)都非常有效。采用基于最大似然準(zhǔn)則(maximum likelihood estimation,MLE)的HOPE學(xué)習(xí)算法,對(duì)無標(biāo)注數(shù)據(jù)種進(jìn)行DNN無監(jiān)督學(xué)習(xí)輸出的特征,能夠作為SVM等簡單分類器的輸入,與使用帶標(biāo)準(zhǔn)數(shù)據(jù)進(jìn)行有監(jiān)督訓(xùn)練的結(jié)果相比,可以取得一定的性能提升。
對(duì)于一個(gè)HOPE模型[4],可以用如圖1所示的兩層網(wǎng)絡(luò)進(jìn)行表示。其中,正交投影層借鑒了主成分分析的思想,將輸入數(shù)據(jù)映射到低維隱特征空間;輸出層采用有限個(gè)基于指數(shù)的混合模型,逼近隱狀態(tài)特征的分布精度。
圖1 HOPE模型表示為網(wǎng)絡(luò)結(jié)構(gòu)
根據(jù)PCA[5]的理論,利用正交變換把線性相關(guān)的高維數(shù)據(jù)變量轉(zhuǎn)換為線性無關(guān)的主成分變量,其余的那些數(shù)據(jù)可以認(rèn)為是噪聲數(shù)據(jù),以達(dá)到高維樣本數(shù)據(jù)的特征降維。
對(duì)于任意的M維特征語音數(shù)據(jù)樣本x,通過線性投影得到N維的向量z,z=Ux。投影得到的(M-N)維噪音組成部分c,c=Vx。其中V和U均是正交投影矩陣,且相互正交。即滿足UUT=I、VVT=I和VUT=0。因此可以得到該投影過程表達(dá)公式如下
(1)
(1)首先,我們考慮如何學(xué)習(xí)投影矩陣U。假設(shè)上映射得到的z和c在隱特征空間相互獨(dú)立,可以將原始數(shù)據(jù)x的概率分布表示為
(2)
(2)最后,求信號(hào)投影成分的分布p(z)。本文的做法是假設(shè)z服從一個(gè)基于指數(shù)分布族的有限混合模型分布,使用一定數(shù)目的混合組成成分,無線逼近隱特征空間數(shù)據(jù)分布。由此可以得到信號(hào)成分z的分布
(3)
(4)
其中,μk表示第k個(gè)單峰指數(shù)分布的模型參數(shù),CN(k)是相應(yīng)N維特征向量上的概率規(guī)整項(xiàng)
(5)
Id(k)是d階修正的第一類Bessel函數(shù),分布公式如下
(6)
這樣就得到了正交投影矩陣U和信號(hào)投影成分z在混合模型隱特征空間上的分布。理論上,HOPE模型中映射模型和混合模型的所有參數(shù)均可以使用最大似然估計(jì)訓(xùn)練更新,然而由于混合模型分布的復(fù)雜性,使得無法直接計(jì)算參數(shù)的解析解。因此,模型訓(xùn)練采用隨機(jī)梯度下降法,使分布函數(shù)的似然值[6]逐步最大化,從而聯(lián)合更新優(yōu)化投影矩陣U和混合模型的參數(shù)。
為了應(yīng)對(duì)輸入語音數(shù)據(jù)樣本的多樣性,能夠充分提取突出顯著特征,合理調(diào)整輸入和輸出特征維度顯得尤為重要。因此有些模型參數(shù)的選擇需要人為進(jìn)行控制,選擇合適的N值將噪聲成分從目標(biāo)信號(hào)中濾除,有效防止模型過擬合;單獨(dú)選擇K值,即上述公式中指數(shù)分布函數(shù)的個(gè)數(shù),保證模型在對(duì)大量數(shù)據(jù)建模時(shí),有一定的泛化能力。
瓶頸特征[7]是在多層感知(multiplayer perceptron,MLP)的瓶頸層中產(chǎn)生的特征,經(jīng)過一定數(shù)目的非線性模型層之后,輸出前后相關(guān)的且有助于輸出分類的語音特征。一開始經(jīng)常使用的深度信念網(wǎng)絡(luò)模型中神經(jīng)元數(shù)量很少,隨著網(wǎng)絡(luò)模型深度逐步加深,在語音識(shí)別任務(wù)模型中引入瓶頸特性,以改善和簡化系統(tǒng)的性能。
本文提出的基于HOPE-CTC的瓶頸特征提取網(wǎng)絡(luò)訓(xùn)練過程中,不依賴字典,將CTC[8]作為目標(biāo)準(zhǔn)則函數(shù),擺脫對(duì)先驗(yàn)對(duì)齊信息的依賴,網(wǎng)絡(luò)提取的HOPE瓶頸特征具有更強(qiáng)的區(qū)分性和有效性。
這里采用CTC,是因?yàn)閭鹘y(tǒng)的混合神經(jīng)網(wǎng)絡(luò)通常在語音識(shí)別中被訓(xùn)練為幀級(jí)分類器,這需要對(duì)每個(gè)幀有單獨(dú)的訓(xùn)練目標(biāo)以及輸入音頻序列和轉(zhuǎn)錄序列之間保證對(duì)齊。由于語音信號(hào)的非穩(wěn)定性,輸入語音特征序列的長度比音頻對(duì)應(yīng)的文本序列的長度大得多,CTC函數(shù)層卻實(shí)現(xiàn)了直接預(yù)測(cè)從輸入語音幀特征序列到句子標(biāo)簽序列的后驗(yàn)概率的功能。CTC模型通常使用循環(huán)神經(jīng)網(wǎng)絡(luò)的softmax層[9]的輸出作為CTC的輸入,并設(shè)置一個(gè)指示空白的附加標(biāo)簽,用于估計(jì)在某些幀時(shí)刻不輸出標(biāo)簽的可能性,進(jìn)而保證輸出層中的節(jié)點(diǎn)與訓(xùn)練樣本數(shù)據(jù)中的標(biāo)簽序列一一對(duì)應(yīng)。因此所有可能的句子標(biāo)簽后驗(yàn)概率都可以由softmax層節(jié)點(diǎn)分類輸出表示。引入空白標(biāo)簽,讓網(wǎng)絡(luò)對(duì)當(dāng)前輸入語音幀的判斷得到緩沖,很好解決了重復(fù)字符和連續(xù)標(biāo)簽對(duì)齊的問題,真實(shí)句子標(biāo)簽序列的后驗(yàn)概率則為基于幀輸入的特征能映射成相應(yīng)標(biāo)簽序列的后驗(yàn)概率的總和。
基于HOPE-CTC的瓶頸特征提取網(wǎng)絡(luò)系統(tǒng)結(jié)構(gòu)如圖2所示。
圖2 基于HOPE-CTC瓶頸特征提取
原基于循環(huán)神經(jīng)網(wǎng)絡(luò)的CTC模型包含四層LSTM層和一層softmax投影層。疊加多層循環(huán)神經(jīng)網(wǎng)絡(luò)目的是提取輸入音頻幀相鄰序列的前后相關(guān)性,最后一層循環(huán)神經(jīng)網(wǎng)絡(luò)的輸出經(jīng)過softmax層映射到句子標(biāo)簽序列。投影層神經(jīng)元數(shù)目與輸入數(shù)據(jù)序列標(biāo)簽個(gè)數(shù)相關(guān),一般小于LSTM單元個(gè)數(shù)。
為了訓(xùn)練基于HOPE-CTC的瓶頸特征提取網(wǎng)絡(luò),在原模型四層循環(huán)神經(jīng)網(wǎng)絡(luò)后面添加HOPE瓶頸特征層和全連接層。由于本文選用漢語拼音的58個(gè)聲韻母作為音素標(biāo)簽,所以投影層節(jié)點(diǎn)數(shù)等同于包含空白標(biāo)簽在內(nèi)的59個(gè)所有可能標(biāo)簽數(shù)。為了獲得有利于輸出分類的瓶頸特征,設(shè)置HOPE瓶頸層輸出維度與投影層節(jié)點(diǎn)數(shù)相接近。連接在第四層中的LSTM單元后的HOPE瓶頸特征層輸出維度為50,即上述K值是50,通過設(shè)置相對(duì)較小的瓶頸層,可以更緊密地壓縮顯著特征。增加的全連接層神經(jīng)元數(shù)目為1024,這與循環(huán)神經(jīng)網(wǎng)絡(luò)的隱藏層節(jié)點(diǎn)數(shù)相同。
在訓(xùn)練過程中,HOPE瓶頸層可以盡可能地還原循環(huán)神經(jīng)網(wǎng)絡(luò)層中的特征信息。采用標(biāo)簽同步解碼算法[10],通過與給定的真實(shí)標(biāo)簽進(jìn)行比較,獲得最終的CTC損失函數(shù)。通過不斷降低CTC損失值的訓(xùn)練,預(yù)測(cè)結(jié)果逐漸接近真實(shí)標(biāo)簽。
為了將將網(wǎng)絡(luò)中的知識(shí)遷移至注意力模型中,對(duì)于訓(xùn)練好的基于CTC的連續(xù)語音識(shí)別系統(tǒng),刪除網(wǎng)絡(luò)HOPE的瓶頸特征層之后的所有網(wǎng)絡(luò)單元狀態(tài)和連接權(quán)重參數(shù),并將瓶頸層的狀態(tài)作為網(wǎng)絡(luò)的輸出,此時(shí)獲得基于HOPE-CTC的瓶頸特征提取網(wǎng)絡(luò)。
基于注意力機(jī)制的端到端模型[11]主要包括編碼網(wǎng)絡(luò)、注意力子網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)3個(gè)模塊。特征輸入和序列輸出同以上基于HOPE-CTC的瓶頸特征提取網(wǎng)絡(luò)模型設(shè)置。編碼網(wǎng)絡(luò)中的循環(huán)神經(jīng)網(wǎng)絡(luò)由雙向GRU單元構(gòu)成,可以同時(shí)接收和傳遞幀序列前后信息,增強(qiáng)輸入語音幀序列的長時(shí)相關(guān)性。
假定編碼網(wǎng)絡(luò)中輸入原始音頻特征序列(x1,x2,…,xT)時(shí),輸出是高層表征的特征序列(h1,h2,…,hU)。
注意力子網(wǎng)絡(luò)主要是計(jì)算出編碼網(wǎng)絡(luò)的輸出h的權(quán)重分布。首先將解碼網(wǎng)絡(luò)當(dāng)前步的隱藏向量si和hj進(jìn)行計(jì)算得到一個(gè)能量系數(shù)eij,可以使用疊加神經(jīng)網(wǎng)絡(luò)層或者求內(nèi)積的方式。再經(jīng)softmax層歸一化處理得到注意力系數(shù)αij,最后將高層特征序列和注意力系數(shù)加權(quán)求和得到注意力網(wǎng)絡(luò)輸出向量ci。具體計(jì)算公式如下
eij=Energy(si,hj)
(7)
(8)
(9)
解碼網(wǎng)絡(luò)的作用類似于語言模型,RNN當(dāng)前位置的輸入包括上一位置的輸出,因此可以有效利用上下文信息。首先當(dāng)前步的隱藏隱藏向量si是由上一步的隱藏隱藏向量si-1、輸出音素yi-1和注意力網(wǎng)絡(luò)輸出向量ci-1計(jì)算得到。最后使用當(dāng)前步的注意力網(wǎng)絡(luò)輸出向量ci和隱藏隱藏向量si進(jìn)一步獲得當(dāng)前步的輸出音素yi。
然而,CTC模型輸出單元間作了的獨(dú)立性假設(shè),導(dǎo)致在模型訓(xùn)練過程中丟失了幀前后的聯(lián)系,而基于注意力機(jī)制的模型卻沒有假定獨(dú)立性。結(jié)合了CTC和注意力機(jī)制的端到端模型有助于解決輸入幀和輸出標(biāo)簽序列不規(guī)則對(duì)齊的問題?;贖OPE-CTC的瓶頸特征提取網(wǎng)絡(luò)可以充分表達(dá)相鄰幀之間的聯(lián)系,并抽象出最有利于輸出分類的顯著特征?;贖OPE-CTC的混合注意力模型對(duì)輸入樣本序列沒有嚴(yán)格要求,并且對(duì)說話人和噪聲等干擾信息具有一定程度的魯棒性,從而提高了語音序列識(shí)別性能。這種混合模型將兩個(gè)主流端到端模型集成在一起,并且可以有效地將信息從基于CTC的連續(xù)語音識(shí)別系統(tǒng)轉(zhuǎn)移到注意力模型。
改進(jìn)后基于HOPE-CTC的混合注意力模型框架如圖3所示。①特征輸入為Fbank特征序列x=(x1,x2,…,xT),對(duì)應(yīng)的輸出分類是音素標(biāo)簽序列y=(y1,y2,…,yO)。②編碼網(wǎng)絡(luò)中添加了本文提出的算法框架,即將以上經(jīng)過訓(xùn)練的基于HOPE-CTC網(wǎng)絡(luò)提取到的瓶頸特征作為循環(huán)神經(jīng)網(wǎng)絡(luò)層的輸入,并減少循環(huán)神經(jīng)網(wǎng)絡(luò)層數(shù)為1層,得到具有更好區(qū)分度和表征能力的高層抽象特征序列h=(h1,h2,…,hU)。③注意力網(wǎng)絡(luò)同以上描述,是用來量化是編碼網(wǎng)絡(luò)得到的高層特征序列hj和解碼器隱藏狀態(tài)向量si之間的關(guān)聯(lián)程度,并計(jì)算出高層表征向量的加權(quán)和ci。解碼網(wǎng)絡(luò)由單層循環(huán)神經(jīng)網(wǎng)絡(luò)和softmax層組成。解碼RNN第i步輸出的隱藏狀態(tài)向量si=RNN(si-1,yi-1,ci-1),最后softmax層由隱藏狀態(tài)向量si預(yù)測(cè)分類當(dāng)前步音素標(biāo)簽yi。
圖3 基于HOPE-CTC的混合注意力模型
模型訓(xùn)練采用梯度下降法,不難看出整個(gè)融合系統(tǒng)訓(xùn)練目標(biāo)是最大化標(biāo)簽序列的后驗(yàn)概率,目標(biāo)函數(shù)可以表示為
(10)
其中,θ是模型參數(shù),N是訓(xùn)練集總數(shù)。
最后需要注意的是,聯(lián)合訓(xùn)練優(yōu)化整個(gè)融合系統(tǒng)時(shí),固定基于HOPE-CTC的瓶頸特征提取網(wǎng)絡(luò)參數(shù),不需要調(diào)整基于HOPE-CTC的瓶頸特征提取網(wǎng)絡(luò)中參數(shù),只對(duì)注意力模型中剩下的1層循環(huán)神經(jīng)網(wǎng)絡(luò)、注意力子網(wǎng)絡(luò)以及解碼網(wǎng)絡(luò)的全部參數(shù)進(jìn)行更新調(diào)整。
實(shí)驗(yàn)評(píng)估了分別采用純凈和含噪的數(shù)據(jù)集的方案效果。純凈語音數(shù)據(jù)來自中文語音數(shù)據(jù)集AISHELL-1,包含178小時(shí)來自400個(gè)說話人的普通話音頻和相應(yīng)文本信息。AISHELL-1中的音頻數(shù)據(jù)重采樣為16 kHz、16 bit的WAV格式。開發(fā)人員將數(shù)據(jù)集分為3個(gè)部分:訓(xùn)練集、驗(yàn)證集和測(cè)試集。含噪語音是由加入NOISEX-92數(shù)據(jù)庫的工廠噪聲合成而來,其中純凈和含噪信號(hào)的平均信噪比約為6 dB。
HOPE-CTC瓶頸特征網(wǎng)絡(luò):以幀長25 ms、幀移為10 ms提取語音原始信息。音頻特征預(yù)處理設(shè)置濾波器組數(shù)目為40,得到高相關(guān)性的Fbank特征,前后拼接5幀共440維。輸出層單元數(shù)為59,分別對(duì)應(yīng)59個(gè)聲韻母,其中一共有23個(gè)聲母、35個(gè)韻母和1個(gè)空白符。除輸入層外,4層LSTM均含有1024個(gè)單元。全連接層的維度為1024。HOPE網(wǎng)絡(luò)結(jié)構(gòu)中M和K值分別選取90和50。
基于HOPE-CTC的混合注意力模型:GRU單元數(shù)目設(shè)置為256;設(shè)maxout網(wǎng)絡(luò)中隱含層數(shù)目為64;解碼網(wǎng)絡(luò)最后softmax層需要輸出58個(gè)聲韻母、空白符和序列終止符共計(jì)60個(gè)分類標(biāo)簽的后驗(yàn)概率,因此softmax層單元數(shù)設(shè)置為60。
HOPE-CTC瓶頸特征網(wǎng)絡(luò)的訓(xùn)練過程:采用CTC損失函數(shù),觀察并記錄訓(xùn)練過程中識(shí)別錯(cuò)誤率有無收斂趨勢(shì)。模型訓(xùn)練采用適應(yīng)性動(dòng)量估計(jì)算法(adaptive moment estimation,Adam),加快網(wǎng)絡(luò)的收斂速度。再進(jìn)行微調(diào),將學(xué)習(xí)速率設(shè)置為0.000 01,采用隨機(jī)梯度下降算法用作模型的優(yōu)化器,通過設(shè)置較低的學(xué)習(xí)速率,使得網(wǎng)絡(luò)優(yōu)化更加穩(wěn)定。
基于HOPE-CTC的混合注意力模型的訓(xùn)練過程:通過上述目標(biāo)函數(shù)式(10),同上也采用Adam算法進(jìn)行模型參數(shù)優(yōu)化更新。整個(gè)訓(xùn)練包括3個(gè)階段:第一階段,設(shè)置批大小(batch size)為16,使模型參數(shù)盡快收斂,提高訓(xùn)練效率。到了第二階段,批大小為1,將隨機(jī)高斯噪聲添加到模型的所有參數(shù)中,然后再計(jì)算梯度,以增強(qiáng)模型的抗噪性能。HOPE-CTC瓶頸特征提取網(wǎng)絡(luò)的參數(shù)始終保持不變。第三階段的批處理大小為32。訓(xùn)練HOPE-CTC瓶頸特征提取網(wǎng)絡(luò)參數(shù)時(shí),學(xué)習(xí)率依次降低為原來的1/2。在上述3個(gè)階段中,若連續(xù)5次都沒有降低音素識(shí)別錯(cuò)誤率,則判定模型收斂,自動(dòng)停止訓(xùn)練或者進(jìn)入下一階段。
評(píng)價(jià)指標(biāo):考慮到輸出的音素序列為中文語音數(shù)據(jù)集AISHELL-1的識(shí)別結(jié)果,采用音素錯(cuò)誤率(phone error rate,PER)進(jìn)行評(píng)估
(11)
其中,I為插入錯(cuò)誤,表示插入了一個(gè)標(biāo)注序列中沒有的音素輸出;D為刪除錯(cuò)誤,表示分類輸出序列中的音素被丟失;R為替代錯(cuò)誤,表示標(biāo)注序列中的音素被一個(gè)錯(cuò)誤音素替代;N為訓(xùn)練數(shù)據(jù)中的標(biāo)簽序列音素總數(shù)。
為了驗(yàn)證和測(cè)試基于HOPE-CTC的混合注意力模型的性能,對(duì)AISHELL-1數(shù)據(jù)集進(jìn)行了音素識(shí)別實(shí)驗(yàn),并記錄了在純凈和嘈雜語音數(shù)據(jù)集上不同模型系統(tǒng)的音素錯(cuò)誤率。在訓(xùn)練音頻數(shù)據(jù)過程中,每次更新模型參數(shù)之前,都要記錄網(wǎng)絡(luò)輸出標(biāo)簽的音素錯(cuò)誤率,通過繪制圖像來比較原始模型和使用HOPE-CTC瓶頸特征提取網(wǎng)絡(luò)模型訓(xùn)練的收斂速度快慢。同時(shí)更改HOPE-CTC網(wǎng)絡(luò)輸出的瓶頸特征維度,即混合模型個(gè)數(shù)K,比較使用不同結(jié)構(gòu)瓶頸特征提取網(wǎng)絡(luò)獲得的抽象特征對(duì)模型識(shí)別效果的影響,并找出音素識(shí)別錯(cuò)誤率最低的模型。
(1)基于HOPE-CTC的混合注意力模型與其它模型性能對(duì)比
表1列出采用不同結(jié)構(gòu)網(wǎng)絡(luò)模型對(duì)應(yīng)的音素錯(cuò)誤率。通過表中縱向數(shù)據(jù)可得,在注意力模型編碼網(wǎng)絡(luò)中添加HOPE-CTC瓶頸特征提取網(wǎng)絡(luò)后,模型的識(shí)別性能得到了提升。分析原因是,編碼網(wǎng)絡(luò)采用深層結(jié)構(gòu)后,輸入的語音數(shù)據(jù)樣本特征被映射為具有更強(qiáng)表征能力的顯著特征,有利于音素標(biāo)簽輸出分類預(yù)測(cè),從而有效地提高了識(shí)別性能。還可以得到,增加HOPE-CTC瓶頸特征提取網(wǎng)絡(luò)后分別在純凈和噪聲環(huán)境下最大有9.32%和15.31%的音素識(shí)別錯(cuò)誤率降低,驗(yàn)證了HOPE模型結(jié)構(gòu)在語音識(shí)別上的有效性。其中線性正交分解,高度相關(guān)的高維原始數(shù)據(jù)被投影到較低維度的隱特征空間,有效保證了純凈語音和噪聲特征的線性無關(guān)性,有助于將信號(hào)中的噪聲成分濾除;有限的指混合模型逼近與音素相關(guān)的特征數(shù)據(jù)分布精度,盡可能描述對(duì)應(yīng)標(biāo)簽不同特征維度的差異性,有助與提高音素識(shí)別率。
表1 不同結(jié)構(gòu)網(wǎng)絡(luò)模型在純凈和帶噪語音數(shù)據(jù)集上的音素識(shí)別錯(cuò)誤率/%
(2)不同模型在訓(xùn)練過程中音素識(shí)別錯(cuò)誤率性能對(duì)比
圖4顯示了訓(xùn)練期間不同模型的音素識(shí)別錯(cuò)誤率的下降曲線??梢钥闯觯瑘D中黑色實(shí)線,即融合HOPE-CTC瓶頸特征提取網(wǎng)絡(luò)的模型,與原始聯(lián)合CTC和注意力的混合端到端模型相比,音素錯(cuò)誤率下降速度更快,收斂所需的迭代次數(shù)從136減少到87。這表明,在注意力模型前端添加HOPE-CTC瓶頸特征提取網(wǎng)絡(luò),可以有效地提供語音特征的先驗(yàn)信息,使得模型訓(xùn)練收斂更快,融合HOPE-CTC瓶頸特征提取網(wǎng)絡(luò)一定程度上提高了注意力模型的訓(xùn)練效率。
圖4 原始模型和融合HOPE-CTC模型在訓(xùn)練過程中訓(xùn)練集音素識(shí)別錯(cuò)誤率
(3)不同HOPE瓶頸層特征維度對(duì)系統(tǒng)性能的影響
表2展示了使用不同維度的HOPE-CTC瓶頸特征提取網(wǎng)絡(luò),即改變瓶頸特征輸出維數(shù)K值的大小,然后在AISHELL-1語料庫下一起訓(xùn)練整個(gè)模型,得到的音素錯(cuò)誤率數(shù)據(jù)。由表中數(shù)據(jù)可以得出,隨著K值的不斷增加,音素錯(cuò)誤率呈現(xiàn)先下降后上升的趨勢(shì),并且在K值為70時(shí),達(dá)到音素錯(cuò)誤率最低點(diǎn)。它表明適當(dāng)增加瓶頸特征輸出維數(shù)可以得到更好的系統(tǒng)識(shí)別性能,但是當(dāng)將其增加到一定數(shù)量時(shí),結(jié)果反而將降低。由于本文設(shè)置AISHELL-1語料庫標(biāo)簽為58個(gè)漢語聲韻母,能夠看出,當(dāng)HOPE-CTC瓶頸特征提取網(wǎng)絡(luò)中瓶頸層特征數(shù)目與音素標(biāo)簽數(shù)量相接近時(shí),網(wǎng)絡(luò)結(jié)構(gòu)具有更強(qiáng)的建模能力,進(jìn)而有利于提升語音識(shí)別準(zhǔn)確率。
表2 不同K取值對(duì)系統(tǒng)性能的影響
本文結(jié)合基于CTC和注意力機(jī)制的兩種端到端模型的優(yōu)勢(shì),提出將基于HOPE-CTC的瓶頸特征提取網(wǎng)絡(luò)與注意力模型融合的方法,充分考慮不同語音數(shù)據(jù)樣本分布的復(fù)雜性和差異性,有效提升系統(tǒng)識(shí)別的準(zhǔn)確率。在純凈和帶噪的AISHELL-1 數(shù)據(jù)集中音素識(shí)別錯(cuò)誤率分別低至10.31%和13.43%。同時(shí),可以減少原注意力模型編碼網(wǎng)絡(luò)中堆疊多層的循環(huán)神經(jīng)網(wǎng)絡(luò),加快模型訓(xùn)練速度。但是網(wǎng)絡(luò)的泛化能力很差,沒有驗(yàn)證在不同數(shù)據(jù)集和低信噪比語音數(shù)據(jù)集上的識(shí)別效果。因此,結(jié)合深度學(xué)習(xí)的優(yōu)勢(shì),設(shè)計(jì)更加泛化能力更強(qiáng)的模型,克服環(huán)境因素帶來的影響,還是非常必要且很有價(jià)值的課題。