趙建川,楊浩銓,徐 勇,吳 戀,崔忠偉
(1. 貴州師范學(xué)院數(shù)學(xué)與大數(shù)據(jù)學(xué)院,貴陽 550018;2. 貴州師范學(xué)院大數(shù)據(jù)科學(xué)與智能工程研究院,貴陽 550018;3.哈爾濱工業(yè)大學(xué)(深圳)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,深圳 518000)
語種識(shí)別(Language identification,LID)[1]通過計(jì)算機(jī)自動(dòng)判斷某段音頻屬于哪一種語言,是智能語音處理領(lǐng)域的一個(gè)分支。語種識(shí)別技術(shù)在新一代信息技術(shù)中應(yīng)用廣泛,例如,多語種識(shí)別的語音處理技術(shù)、語音實(shí)時(shí)翻譯和跨語言通信等[2]。語種識(shí)別的過程實(shí)際上是一個(gè)分類判決的過程,關(guān)鍵是獲取分類判決有用的特征[3],其實(shí)現(xiàn)過程可分為3 個(gè)步驟:從語音片段中獲得聲學(xué)特征、從聲學(xué)特征中提取有用的特征和對(duì)提取的特征進(jìn)行分類判決。
語種識(shí)別的聲學(xué)特征是直接從音頻中提取語譜特征參數(shù),屬于幀級(jí)特征。常用的聲學(xué)特征包括移位分倒譜參數(shù)(Shifted delta cepstrum,SDC)[4]、感知線性預(yù)測(cè)系數(shù)(Perceptual linear predictive coefficient,PLP)[5]、梅爾倒譜參數(shù)(Mel frequency cepstral coefficient,MFCC)[6]和梅爾標(biāo)度濾波器組(Filter bank,F(xiàn)bank)[7]等。語種識(shí)別技術(shù)的實(shí)現(xiàn)主要基于底層聲學(xué)特征,其發(fā)展經(jīng)歷了非深度學(xué)習(xí)和深度學(xué)習(xí)兩個(gè)階段。
非深度學(xué)習(xí)階段主要又分為基于高斯混合模型(Gaussian mixed model,GMM)和基于身份向量(Identity vector,i-vector)特征的語種識(shí)別方法。文獻(xiàn)[8]提出了高斯混合模型-通用背景模型(Gaussian mixed model-universal background model,GMM-UBM)的方法,該方法需要龐大的數(shù)據(jù)來估計(jì)協(xié)方差矩陣。數(shù)據(jù)量不足容易導(dǎo)致模型參數(shù)估計(jì)不準(zhǔn)確,且跨信道使用時(shí)性能不佳。文獻(xiàn)[9]提出了高斯混合模型-支持向量機(jī)(Gaussian mixed model-support vector machine,GMM-SVM)的均值超向量分類算法,該方法相對(duì)于GMM-UBM 方法的識(shí)別性能有一定改善。i-vector 特征是將每條音頻的GMM 超向量映射為含有音頻顯著特征的低維向量,這個(gè)低維向量即為i-vector。文獻(xiàn)[10-11]使用從音頻中提取的i-vector 特征進(jìn)行語種識(shí)別,有效地提高了識(shí)別效果,成為當(dāng)時(shí)語種識(shí)別的主要方法之一。
基于深度學(xué)習(xí)的語種識(shí)別主要有i-vector 語種識(shí)別方法和x-vector 語種識(shí)別方法。文獻(xiàn)[12]將增加了瓶頸層的神經(jīng)網(wǎng)絡(luò)(Bottleneck deep neural network,BN-DNN)作為i-vector 的特征提取模型,對(duì)聲學(xué)特征進(jìn)行多層非線性映射和降維壓縮,以得到魯棒性更強(qiáng)的高層抽象特征。該方法有效改善了基于GMM 模型的i-vector 語種識(shí)別系統(tǒng)性能,對(duì)長(zhǎng)時(shí)語音效果好,對(duì)短時(shí)語音則效果不佳。文獻(xiàn)[13]提出了x-vector 方法,通過延時(shí)神經(jīng)網(wǎng)絡(luò)(Time delay neural network,TDNN)將不定長(zhǎng)的語音片段映射到固定維度的embedding,這個(gè)embedding 就是x-vector。使用x-vector 特征進(jìn)行語種識(shí)別相比于i-vector 特征具有更好的系統(tǒng)性能[14]。
研究者在x-vector 特征提取TDNN 網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行了多種改進(jìn),以獲得更有用的特征。文獻(xiàn)[15]對(duì)TDNN 網(wǎng)絡(luò)進(jìn)行改進(jìn)提出了Extended-TDNN 網(wǎng)絡(luò)。Extended-TDNN 網(wǎng)絡(luò)拓展了時(shí)間上下文,并加入了Dense 層,增加了網(wǎng)絡(luò)深度。Extended-TDNN 提取的x-vector 相比于基礎(chǔ)TDNN 提取的x-vector 性能有所提升。文獻(xiàn)[16]提出了ECAPA(Emphasized channel attention)-TDNN 網(wǎng)絡(luò),采用自注意力機(jī)制和多層聚合等增強(qiáng)方法,進(jìn)一步拓展了時(shí)間上下文,并關(guān)注到全局屬性,提取出的x-vector特征在語種識(shí)別中表現(xiàn)出更優(yōu)異的識(shí)別性能。
ECAPA-TDNN 網(wǎng)絡(luò)是當(dāng)前x-vector 特征提取最先進(jìn)的網(wǎng)絡(luò)架構(gòu)[17]。 因此,本文在ECAPA-TDNN 網(wǎng)絡(luò)的基礎(chǔ)上結(jié)合對(duì)比預(yù)測(cè)編碼(Contrastive predictive coding,CPC)模型的思想,提出一種ECAPA-TDNN+CPC 的多任務(wù)學(xué)習(xí)網(wǎng)絡(luò)模型。以ECAPA-TDNN 為主干網(wǎng)絡(luò),提取語音的全局特征;改進(jìn)的CPC 模型為輔助網(wǎng)絡(luò),對(duì)ECAPA-TDNN 提取的幀級(jí)特征進(jìn)行對(duì)比預(yù)測(cè)學(xué)習(xí)。最后,通過聯(lián)合損失函數(shù)進(jìn)行優(yōu)化訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,本文提出的網(wǎng)絡(luò)相比于基礎(chǔ)網(wǎng)絡(luò)ECAPA-TDNN 具有更好的語種識(shí)別性能。
語音信號(hào)是有時(shí)序性的數(shù)據(jù),對(duì)于語音信號(hào)的時(shí)序相關(guān)性TDNN 網(wǎng)絡(luò)具有很好的描述能力,它能夠獲取語音的上下文信息,體現(xiàn)語音的動(dòng)態(tài)特性。標(biāo)準(zhǔn)的TDNN 網(wǎng)絡(luò)由幀級(jí)別層、統(tǒng)計(jì)池化層和段級(jí)別層組成[18]。幀級(jí)別層為5 層的時(shí)延網(wǎng)絡(luò)結(jié)構(gòu),處理語音的幀級(jí)別特征。語音片段的聲學(xué)特征序列X={x1,x2,…,xn}作為該層的輸入,其中n表示聲學(xué)特征的幀數(shù)。統(tǒng)計(jì)池化層對(duì)每一條語句的幀級(jí)別特征計(jì)算均值μ和標(biāo)準(zhǔn)差δ,表達(dá)式為
式中:gm表示幀級(jí)別特征;N表示語句的長(zhǎng)度。
統(tǒng)計(jì)池化處理后得到整條語句的全局特征,但這個(gè)過程容易丟失部分語句的時(shí)序結(jié)構(gòu)信息[19]。段級(jí)別層處理代表整個(gè)語音片段的全局性特征,由兩層全連接層組成,靠近統(tǒng)計(jì)池化層的層稱為Near 層,遠(yuǎn)離統(tǒng)計(jì)池化層的層稱為Far 層,分別提取不同的x-vector 特征,輸入到全連接層后面Softmax 層。
ECAPA-TDNN 網(wǎng)絡(luò)基于標(biāo)準(zhǔn)的TDNN 網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì),引入了多項(xiàng)增強(qiáng)功能以獲取更強(qiáng)大的嵌入功能,網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。首先,池化層依賴于通道和上下文注意力機(jī)制,使得網(wǎng)絡(luò)可以關(guān)注每個(gè)通道的不同幀,賦予每一幀不同的權(quán)重,通過自注意力機(jī)制觀察語句的全局屬性,擴(kuò)展池化層的時(shí)間上下文信息。 其次,ECAPA-TDNN 網(wǎng)絡(luò)加入了SE-Res2Block 模塊。如圖2 所示,網(wǎng)絡(luò)通過SE 塊與殘差塊Res2net[20]結(jié)合,重新調(diào)整幀級(jí)別層的通道數(shù),在局部操作的卷積塊中插入全局上下文信息,通過構(gòu)建內(nèi)部分層殘差連接來處理多尺度特征,從而減少模型參數(shù)的數(shù)量。最后使用多層特征聚合將所有SE-Res2Block 的輸出特征映射相連,在池化之前合并補(bǔ)充信息,獲取更細(xì)粒度語種特征以增強(qiáng)系統(tǒng)的魯棒性。
圖1 ECAPA-TDNN 網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 Structure of ECAPA -TDNN network
圖2 SE-Res2Block 模塊Fig.2 SE-Res2Block module
SE-Res2Block 模塊在訓(xùn)練過程中為特征圖分配權(quán)重,與目標(biāo)關(guān)聯(lián)大的分配較大權(quán)重,關(guān)聯(lián)小的分配較小權(quán)重。
SE 模塊首先進(jìn)行壓縮操作,為每一個(gè)通道生成一個(gè)描述符,得到一個(gè)幀級(jí)特征的均值向量z,表達(dá)式為
式中ht表示每個(gè)特征的embedding 向量。
然后進(jìn)行激勵(lì)操作,使用z中的描述符來計(jì)算每個(gè)通道的權(quán)重,即
式中:σ(·)為sigmoid 函數(shù);f(·)為非線性函數(shù);W1∈RR×C,W2∈RC×R,C為通道數(shù),R為降維數(shù);b1,b2表示偏移量。向量s包含介于0 和1 之間的權(quán)值sc。這些權(quán)重通過乘法作用于原始輸入,即
式中hc表示每個(gè)通道上的原始輸入。
標(biāo)準(zhǔn)的TDNN 網(wǎng)絡(luò)在幀級(jí)層使用了較短的時(shí)間上下文信息,忽略了語音片段的全局信息。ECAPA-TDNN 網(wǎng)絡(luò)充分考慮了語音片段的全局屬性,擴(kuò)展了上下文信息,在信道估計(jì)過程中關(guān)注不同幀子集,性能更好,參數(shù)更少。
與預(yù)測(cè)編碼模型相比,CPC 模型[21]是一種無監(jiān)督的特征提取模型,可以從高維數(shù)據(jù)學(xué)習(xí)到對(duì)預(yù)測(cè)最有用的表征,其依賴噪聲對(duì)比估計(jì)訓(xùn)練模型,在圖像、語音、自然語言處理和強(qiáng)化學(xué)習(xí)等多個(gè)領(lǐng)域都可以學(xué)習(xí)到高層信息。CPC 模型結(jié)構(gòu)如圖3 所示。
圖3 CPC 模型結(jié)構(gòu)Fig.3 Structure of CPC model
CPC 模型以原始語音信號(hào)作為輸入,采用一個(gè)非線性編碼器將分割到時(shí)間窗口上的每個(gè)特征向量xt進(jìn)行編碼,得到一系列的表征向量zt,表達(dá)式為
然后再將zt以及潛空間中之前所有時(shí)刻的相關(guān)信息輸入到一個(gè)自回歸模型Gar中,生成當(dāng)前時(shí)刻的上下文表示為ct,即
多任務(wù)學(xué)習(xí)[22]是把多個(gè)相關(guān)的任務(wù)放在一起并行學(xué)習(xí),通過多個(gè)梯度同時(shí)反向傳播、多個(gè)任務(wù)參數(shù)共享來補(bǔ)充學(xué)習(xí)的一種機(jī)器學(xué)習(xí)方法,其參數(shù)共享方式分為硬參數(shù)共享和軟參數(shù)共享兩種模式。本文采用硬參數(shù)共享的多任務(wù)學(xué)習(xí)模型,把語種識(shí)別的訓(xùn)練任務(wù)分為主任務(wù)——語音特征提取和輔助任務(wù)——對(duì)比預(yù)測(cè)學(xué)習(xí)。主任務(wù)采用ECAPA-TDNN 網(wǎng)絡(luò)模型,首先提取語音片段的幀級(jí)特征,然后經(jīng)過注意力池化層和全連接層進(jìn)行語種的分類判決。輔助任務(wù)采用改進(jìn)的CPC 網(wǎng)絡(luò)模型,以幀級(jí)特征作為輸入進(jìn)行對(duì)比預(yù)測(cè)學(xué)習(xí)。網(wǎng)絡(luò)架構(gòu)如圖4 所示,其中:J表示卷積核大小;d表示空洞卷積率,d=1 表示正常卷積;C表示通道維度;T表示時(shí)間維度;S表示語種的類別數(shù);GRU 為門控循環(huán)單元;Z為經(jīng)過Conv1D+ReLU 層處理后得到的幀級(jí)特征;k為時(shí)間步長(zhǎng),一般取偶數(shù)。
圖4 本文方法網(wǎng)絡(luò)整體架構(gòu)圖Fig.4 Network architecture of the proposed method
主任務(wù)模塊以ECAPA-TDNN 作為主干網(wǎng)絡(luò),ECAPA-TDNN 網(wǎng)絡(luò)的幀級(jí)別層首先從聲學(xué)特征中提取幀級(jí)特征向量z。然后將網(wǎng)絡(luò)進(jìn)行分支:一個(gè)分支為輔助任務(wù)模塊,另一個(gè)分支為主任務(wù)模塊。兩個(gè)分支均以幀級(jí)別特征向量z作為輸入,最終網(wǎng)絡(luò)由這兩個(gè)分支共同優(yōu)化訓(xùn)練。
多任務(wù)學(xué)習(xí)網(wǎng)絡(luò)的輔助任務(wù)模塊為改進(jìn)的CPC 模型。改進(jìn)的CPC 模型以ECAPA-TDNN 網(wǎng)絡(luò)的幀級(jí)網(wǎng)絡(luò)取代CPC 模型的非線性編碼器,ECAPA-TDNN 網(wǎng)絡(luò)處理得到的幀級(jí)特征輸入到改進(jìn)的CPC模型自回歸模塊中,然后通過自回歸模塊進(jìn)行對(duì)比預(yù)測(cè)學(xué)習(xí)構(gòu)造正負(fù)樣本對(duì)。
輔助任務(wù)模塊中Z={zt-k,…,zt-2,zt-1,zt}作為輸入特征,自回歸模型選用網(wǎng)絡(luò)。GRU 網(wǎng)絡(luò)可以通過調(diào)節(jié)被提取特征的語音序列長(zhǎng)度,得到豐富的上下文信息ct,即
在語種識(shí)別任務(wù)中,語種識(shí)別特征訓(xùn)練模型的優(yōu)化由多任務(wù)學(xué)習(xí)網(wǎng)絡(luò)的損失函數(shù)共同完成。因此,為了提高正樣本對(duì)的相似度和負(fù)樣本的區(qū)分度,本文使用交叉熵?fù)p失函數(shù)Lce和改進(jìn)的噪聲對(duì)比估計(jì)損失函數(shù)LinfoNCE對(duì)訓(xùn)練網(wǎng)絡(luò)進(jìn)行聯(lián)合監(jiān)督學(xué)習(xí)。交叉熵?fù)p失函數(shù)Lce表達(dá)式為
式中:B表示批次的大??;xi表示第yi類中第i個(gè)樣本的特征;Wj為W的第j行的參數(shù);b為偏置量。
改進(jìn)的噪聲對(duì)比估計(jì)損失函數(shù)可以實(shí)現(xiàn)互信息最大化,損失值越小說明正樣本對(duì)的相似度越高,表達(dá)式為
式中:X={x1,x2,…,xN}為一組樣本;(xt+k,ct)為正樣本對(duì);(xj,ct)為負(fù)樣本對(duì),正樣本對(duì)取自與時(shí)間上下文ct間隔k個(gè)時(shí)間步長(zhǎng)的樣本,負(fù)樣本為序列中隨機(jī)選取的樣本。fk(xt+k,ct)為密度比函數(shù),表示信息上下文ct的預(yù)測(cè)值和未來真實(shí)值xt+k之間相似程度,正比于未來真實(shí)值與隨機(jī)采樣值的概率之比,即
聯(lián)合損失Ltotal等于交叉熵?fù)p失Lce和改進(jìn)的噪聲估計(jì)損失LinfoNCE之和,其中β為改進(jìn)的噪聲對(duì)比估計(jì)損失的權(quán)重系數(shù),取值范圍為0 到1 之間。
實(shí)驗(yàn)使用東方語種識(shí)別競(jìng)賽提供的10 種不同語言數(shù)據(jù)集AP17-OLR[23],10 種語言分別為日語、韓語和哈薩克語(時(shí)長(zhǎng)分別為5.8 h、5.9 h 和5.4 h);粵語、普通話、印度尼西亞語(時(shí)長(zhǎng)分別為7.7 h、7.6 h 和7.5 h);越南語和俄語(時(shí)長(zhǎng)分別為8.4 h 和9.9 h),藏語和維吾爾語(時(shí)長(zhǎng)均為10 h)。每個(gè)語種的語音采樣頻率為16 kHz。實(shí)驗(yàn)中隨機(jī)抽取80%為訓(xùn)練集,20%為驗(yàn)證集。測(cè)試集包含1 s,3 s 和全長(zhǎng)(All)三個(gè)不同持續(xù)時(shí)間的子集。
本文實(shí)驗(yàn)中訓(xùn)練模型選用Adam 優(yōu)化器,epochs 設(shè)置為50,batch_size 設(shè)置為128。在多任務(wù)學(xué)習(xí)的輔助任務(wù)模型CPC 模型的自回歸選用GRU 網(wǎng)絡(luò),損失函數(shù)權(quán)重系數(shù)β設(shè)置為0.001。實(shí)驗(yàn)選用準(zhǔn)確率Acc 作為評(píng)價(jià)指標(biāo)[24-25]。
我們從大堆的復(fù)印資料中迅速翻閱和挑選,凡是五線譜的曲譜,就挑出來,最后竟挑出了兩百多頁!當(dāng)時(shí)由于時(shí)間匆忙,完全沒有顧及查看都是什么內(nèi)容,只覺得是沉甸甸的一包。歐陽鷺英十分慷慨地讓我們?nèi)繋Я嘶貋怼?/p>
3.2.1 多任務(wù)學(xué)習(xí)模型的性能分析
本節(jié)對(duì)多任務(wù)學(xué)習(xí)ECAPA-TDNN+CPC 網(wǎng)絡(luò)模型進(jìn)行性能分析。將每類語種的MFCC 聲學(xué)特征輸入到網(wǎng)絡(luò)中,以3 s 時(shí)長(zhǎng)的語音作為測(cè)試集,改進(jìn)的CPC 網(wǎng)絡(luò)模型中時(shí)間步長(zhǎng)k取12,分別記錄每一次迭代訓(xùn)練的損失、準(zhǔn)確率和學(xué)習(xí)率,得到如圖5、6 所示周期性訓(xùn)練時(shí)系統(tǒng)參數(shù)變化曲線。由圖5 可知,在模型的訓(xùn)練過程中,學(xué)習(xí)率調(diào)整的機(jī)制為先增加后減小。由圖6 可知,第1 次迭代訓(xùn)練的損失為1.926 左右,準(zhǔn)確率為92.75%,說明模型剛開始訓(xùn)練時(shí),損失較大,準(zhǔn)確率較低。隨著迭代周期增加,損失開始下降,準(zhǔn)確率逐漸增加。第10 次迭代訓(xùn)練時(shí),損失降為0.063 左右,此時(shí)的準(zhǔn)確率大約為99.31%,后面訓(xùn)練過程中損失逐漸減小,準(zhǔn)確率會(huì)有小幅波動(dòng),說明模型收斂速度快。第40 次迭代訓(xùn)練時(shí)模型已經(jīng)基本趨于穩(wěn)定。第48 次迭代訓(xùn)練時(shí)準(zhǔn)確率最高,達(dá)到99.54%,損失為0.020 4,此時(shí)得到的網(wǎng)絡(luò)參數(shù)就是最終優(yōu)化的網(wǎng)絡(luò)參數(shù)指標(biāo)。
圖5 周期性訓(xùn)練時(shí)學(xué)習(xí)率變化曲線圖Fig.5 Change curve of learning rate during periodic training
圖6 周期性訓(xùn)練時(shí)準(zhǔn)確率與損失變化曲線圖Fig.6 Change curve of accuracy and loss during periodic training
圖7 為單圖形處理器(Graphic processing unit,GPU)下ECAPA-TDNN 網(wǎng)絡(luò)和ECAPA-TDNN+CPC 網(wǎng)絡(luò)周期性訓(xùn)練時(shí)運(yùn)行時(shí)間變化曲線圖。由圖7 可知,ECAPA-TDNN 網(wǎng)絡(luò)每次訓(xùn)練時(shí)間在331~333 s 之間,平均運(yùn)行時(shí)間為331.12 s。ECAPA-TDNN+CPC 網(wǎng)絡(luò)每次訓(xùn)練的時(shí)間在336~339 s 之間,平均運(yùn)行時(shí)間為337.79 s,相對(duì)于基礎(chǔ)網(wǎng)絡(luò)相差了6.67 s。ECAPA-TDNN 網(wǎng)絡(luò)參數(shù)量為4.57 MB,ECAPA-TDNN+CPC 網(wǎng)絡(luò)參數(shù)量為7.47 MB,相對(duì)于基礎(chǔ)網(wǎng)絡(luò)增加了63.46%。雖然改進(jìn)多任務(wù)學(xué)習(xí)網(wǎng)絡(luò)的參數(shù)量增加了,但是與基礎(chǔ)網(wǎng)絡(luò)的系統(tǒng)運(yùn)行時(shí)間并沒有太大區(qū)別。
圖7 周期性訓(xùn)練時(shí)運(yùn)行時(shí)間變化曲線圖Fig.7 Change curve of running time during periodic training
3.2.2 多任務(wù)學(xué)習(xí)模型的實(shí)驗(yàn)效果分析
本節(jié)以MFCC 和FBank 聲學(xué)特征作為輸入,時(shí)間步長(zhǎng)k取12,在1 s、3 s 和All 測(cè)試集上分別驗(yàn)證多任務(wù)學(xué)習(xí)ECAPA-TDNN+CPC 網(wǎng)絡(luò)和基礎(chǔ)網(wǎng)絡(luò)ECAPA-TDNN 和CPC 的語種識(shí)別準(zhǔn)確率。實(shí)驗(yàn)分析結(jié)果如表1、2 所示。
由表1 可見,1 s、3 s 和All 三個(gè)測(cè)試集的實(shí)驗(yàn)中,多任務(wù)學(xué)習(xí)網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率相比于ECAPA-TDNN 網(wǎng)絡(luò)分別提高了1.92%、3.69%和2.80%,相比于CPC 網(wǎng)絡(luò)分別提高了49.42%、36.15%和40.86%。
表1 多任務(wù)學(xué)習(xí)模型中輸入為MFCC 聲學(xué)特征的準(zhǔn)確率Table 1 Accuracy of multi-task learning model when inputting MFCC acoustic characteristics
由表2 可見,1 s、3 s 和All 三個(gè)測(cè)試集的實(shí)驗(yàn)中,多任務(wù)學(xué)習(xí)網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率相比于ECAPA-TDNN 網(wǎng)絡(luò)分別提高了6.01%、4.11%和3.12%,相比于CPC 網(wǎng)絡(luò)分別提高了51.73%、25%和41.31%。
表2 多任務(wù)學(xué)習(xí)模型中輸入為FBank 聲學(xué)特征的準(zhǔn)確率Table 2 Accuracy of multi-task learning model when inputting FBank acoustic characteristics
同時(shí),由表1、2 的實(shí)驗(yàn)數(shù)據(jù)對(duì)比可知,對(duì)于同一個(gè)網(wǎng)絡(luò)FBank 特征作為輸入時(shí)比MFCC 特征作為輸入時(shí)的語種識(shí)別準(zhǔn)確率更高,說明FBank聲學(xué)特征提取了更有用的語種特征。
3.2.3 不同時(shí)間步長(zhǎng)的實(shí)驗(yàn)效果分析
在ECAPA-TDNN+CPC 網(wǎng)絡(luò)中,時(shí)間步長(zhǎng)k取不同值對(duì)網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率也有一定的影響,本節(jié)分別對(duì)k取8、12、16、20 進(jìn)行實(shí)驗(yàn),分析不同時(shí)間步長(zhǎng)時(shí)網(wǎng)絡(luò)的性能。網(wǎng)絡(luò)的輸入選用MFCC 聲學(xué)特征。時(shí)間步長(zhǎng)k取不同值時(shí)的實(shí)驗(yàn)結(jié)果如表3 所示。由表3 的實(shí)驗(yàn)數(shù)據(jù)可見,當(dāng)測(cè)試的音頻時(shí)長(zhǎng)為1 s、k取16 時(shí),測(cè)得的識(shí)別準(zhǔn)確率最高,相對(duì)于k取8、12、20 分別增加了4.06%、2.38%和0.62%。測(cè)試的音頻時(shí)長(zhǎng)為3 s、k取12 時(shí),測(cè)得的識(shí)別準(zhǔn)確率最高,相對(duì)于k取8、16、20 分別增加了1.92%、0.12%和0.90%。測(cè)試的音頻為All、k取20 時(shí),測(cè)得的識(shí)別準(zhǔn)確率最高,相對(duì)于k取8、12、16 分別增加了0.73%、0.66%和1.02%。
表3 k 取不同值時(shí)的準(zhǔn)確率Table 3 Accuracy when k taking different values
3.2.4 不同網(wǎng)絡(luò)上的實(shí)驗(yàn)效果分析
本節(jié)以MFCC 和FBank 聲學(xué)特征作為網(wǎng)絡(luò)輸入,時(shí)間步長(zhǎng)k取12,在不同網(wǎng)絡(luò)上進(jìn)行實(shí)驗(yàn)效果對(duì)比,結(jié)果如表4、5 所示。由表4、5 的實(shí)驗(yàn)數(shù)據(jù)可見,ECAPA-TDNN+CPC 網(wǎng)絡(luò)的實(shí)驗(yàn)效果相對(duì)于TNDD+CPC 網(wǎng)絡(luò)和EX-TDNN+CPC 網(wǎng)絡(luò)的語種識(shí)別正確率均有提高。當(dāng)輸入特征為MFCC 聲學(xué)特征時(shí),在1 s、3 s 和All 數(shù)據(jù)集的實(shí)驗(yàn)效果相比于TDNN+CPC 網(wǎng)絡(luò)準(zhǔn)確率分別提高了10.57%、18.52% 和16.58%,相比于EX-TDNN+CPC 網(wǎng)絡(luò)準(zhǔn)確率分別提高了4.9%、11.53%和9.44%。
表4 不同網(wǎng)絡(luò)中輸入為MFCC 聲學(xué)特征時(shí)的準(zhǔn)確率Table 4 Accuracy of different networks when inputting MFCC acoustic characteristics
當(dāng)輸入特征為FBank 聲學(xué)特征時(shí),在1 s、3 s 和All 數(shù)據(jù)集的實(shí)驗(yàn)效果相比于TDNN+CPC 網(wǎng)絡(luò)準(zhǔn)確率分別提高了16.98%、22.99% 和24.84%,相比于EX-TDNN+CPC 網(wǎng)絡(luò)準(zhǔn)確率分別提高了10.78%、20.68%和20.92%。
本文提出一種融合CPC 模型的多任務(wù)學(xué)習(xí)語種識(shí)別網(wǎng)絡(luò),ECAPA-TDNN+CPC 模型。該模型在主干網(wǎng)絡(luò)ECAPA-TDNN 中加入一個(gè)自回歸模塊,對(duì)ECAPA-TDNN 網(wǎng)絡(luò)提取的幀級(jí)特征進(jìn)行對(duì)比預(yù)測(cè)學(xué)習(xí),構(gòu)造正負(fù)樣本對(duì),通過最大化正樣本對(duì)之間的相似度和最小化負(fù)樣本對(duì)之間的相似度來優(yōu)化網(wǎng)絡(luò),增強(qiáng)所提特征的一致性。最后在東方語種競(jìng)賽數(shù)據(jù)集AP17-OLR 上進(jìn)行驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,提出的ECAPA-TDNN+CPC 網(wǎng)絡(luò)可以快速收斂,識(shí)別準(zhǔn)確率明顯提高,能夠更好地對(duì)語種進(jìn)行分類。
表5 不同網(wǎng)絡(luò)中輸入為FBank 聲學(xué)特征時(shí)的準(zhǔn)確率Table 5 Accuracy of different networks when inputting FBank acoustic characteristics