張翼飛 騰瀟琦
1(上海大學機電工程與自動化學院 上海 200072)2(訊飛智元信息科技有限公司 安徽 合肥 230088)3(北京市互聯(lián)網(wǎng)信息辦公室 北京 100062)
?
一種改進的有監(jiān)督訓練的TV語種識別方法
張翼飛1,2騰瀟琦3
1(上海大學機電工程與自動化學院上海 200072)2(訊飛智元信息科技有限公司安徽 合肥 230088)3(北京市互聯(lián)網(wǎng)信息辦公室北京 100062)
傳統(tǒng)的GMM-TV(Gaussian Mixture Model-Total Variability,又稱為i-vector)系統(tǒng)得益于它良好的識別效果以及優(yōu)秀的識別效率,在語種識別LID(language identification)中得到廣泛應用,然而載荷矩陣T的訓練過程是無監(jiān)督的,使得它的分類空間并沒有得到最好的優(yōu)化。已有的有監(jiān)督TV(Supervised-TV,S-TV)算法,通過在均值超矢量上拼接一個帶有標簽信息的向量,使得T矩陣的訓練過程變成一個有監(jiān)督的過程,但是效果增長較弱,同時帶來了載荷矩陣自由度問題。提出一種改進的有監(jiān)督訓練方法,在目標函數(shù)中引入正則化項來解決自由度的問題,同時大大提升它的分類效果。該方法在NIST LRE09的30s數(shù)據(jù)集實驗中得到了很好的效果,等錯誤率EER(Equal Error Rate)從5.40%下降到4.96%,融合系統(tǒng)的EER達到了3.86%。
語種識別TV系統(tǒng)有監(jiān)督訓練載荷矩陣
語種識別LID是通過對給定的一段語音信號分析處理,識別其所屬語言的種類。它往往作為語音識別和其他相關應用的一個前端處理技術,是在語音識別基礎上發(fā)展起來的[1]。隨著全球化趨勢和國際互聯(lián)網(wǎng)的發(fā)展,人們更加迫切地希望可以突破語言的障礙進行交流,因而對于語種識別技術的需求也與日俱增,比如音頻和視頻信息檢索、自動機器翻譯、電話自動轉接、多語種語音識別和智能監(jiān)測等。不僅如此,語種識別還廣泛應用于軍事、國家安全和各個信息產業(yè)領域,具有極為重要的應用價值和前景。
目前主流的LID方法有很多,但國際主流的方法都是以GMM-TV[2-4]為基礎的,這主要得益于GMM-TV系統(tǒng)優(yōu)秀的識別效率和良好的識別效果。然而傳統(tǒng)的T矩陣的訓練是無監(jiān)督的過程,這就使得它的分類空間并沒有得到最好的優(yōu)化。2014年李明提出了一種有監(jiān)督的TV系統(tǒng)S-TV[5]。該方法在原TV系統(tǒng)的基礎上,在均值超矢量上拼接了一個帶標簽的語種標識向量,使得T矩陣的訓練過程融入了監(jiān)督信息,以此來增加T矩陣的區(qū)分性。實驗結果表明,該方法在傳統(tǒng)的TV系統(tǒng)基線上有一定的提升。
然而S-TV系統(tǒng)在迭代過程中T和W的方差不斷地在增大,尤其在迭代了5次以后,方差的增大幅度在10倍以上,遠遠超過了傳統(tǒng)TV系統(tǒng)中T矩陣方差的增長速度。而我們需要的是盡量收斂的T矩陣,于是本文對S-TV做了小小的改進,通過增加正則化項來抑制T和W矩陣的增長幅度,使得識別效果得到了很大的提升。在NIST LRE09數(shù)據(jù)集上,此方法取得了較好的效果。
給定混合度為C的UBM模型λ,C個分量λc={wc,uc,Σc}。假設一條語音有L幀,它的特征序列為{x1,x2,…,xL},并且每個特征xi的維度為D,根據(jù)文獻[4]:
z=(I+TtΣ-1NT)-1TtΣ-1Ny
(1)
其中z就是i-vector,維度為K。Σ為CD×CD維的協(xié)方差對角陣。N是一個CD×CD維的對角陣,并且由C個子塊NcI構成,Nc為D×D維的對角陣,且所有元素都相同,它的值由下式確定:
(2)
其中,P(c|xt,λ)為xt在λc上的占有率。y是均值超矢量,它由C個分量構成:
(3)
于是y可以通過CD×K維的矩陣T映射到K維的空間上:
y→Tz
(4)
在通過式(1)得到i-vector之后,經(jīng)過LDA并計算cosine距離即可實現(xiàn)分類。
為了讓i-vector具有更好的區(qū)分性,文獻[5]中的有監(jiān)督TV在基線TV的均值超矢量后面加上了一個語種標識向量,語種標識向量的維度M等于語種的類別數(shù)。假設第j條語音的語種標識向量為Lj=(Lj1,Lj2,…,LjM)T,則有:
(5)
如圖1所示,將M維的L拼接在CD維的均值超矢量后面,構成一條(CD+M)維的超矢量,同樣在T矩陣下方拼接一個M×K的W矩陣,構成一個(CD+M)×K的矩陣。這樣超矢量就代入了監(jiān)督信息,并且參與了T矩陣的訓練,使最后得到的i-vector的區(qū)分性更強。
圖1 S-TV結構圖
類似于傳統(tǒng)TV系統(tǒng),假設zj服從于標準正態(tài)分布,則有:
P(zj)=N(0,I)
(6)
(7)
(8)
結合式(7)、式(8),通過簡化操作得到優(yōu)化函數(shù),可以看出,EM算法的目標在于最小化J:
(9)
(10)
(11)
在M步驟,通過最小化上述函數(shù)J后可得W和T的更新公式:
(12)
(13)
式中,Tc是T矩陣在第c個高斯上的分量,ycj是yj在第c個高斯上的分量。
經(jīng)過幾次EM迭代后,T和W矩陣的參數(shù)會得到很好的修正。后面的提取i-vector階段,利用修正的矩陣,采用傳統(tǒng)的TV方法進行i-vector估計即可。
(14)
則最終的更新公式變?yōu)椋?/p>
(15)
(16)
實驗證明,加入正則化項后,成功抑制住了W和T矩陣過大的增長趨勢,并且使得Supervised-TV的效果有了很大的提升。
4.1數(shù)據(jù)和參數(shù)
圖2 LID測試流程
本次實驗選用了NIST LRE09的30s數(shù)據(jù)集合,該集合有24個語種。特征選用了PLP-SDC特征[6]和PNCC-SDC特征[7,8],UBM的維度為512,i-vector維度為300。在開發(fā)集上,對S-TV的一些參數(shù)進行了調優(yōu),正則化項系數(shù)λ的值取1000,初始的W矩陣為隨機生成,并且它的值服從均值為0,方差為1×10-6的高斯分布。后端采用LDA+cosine距離的組合,LDA矩陣的維度為300×23。整個測試系統(tǒng)如圖2所示。
4.2實驗結果與結論
首先看正則化項對優(yōu)化函數(shù)J的影響。目標函數(shù)采用式(9),特征為PLP-SDC特征,我們取出迭代5次中的每一代結果,分別統(tǒng)計出相同的6條語音的目標函數(shù)J之和放在表1中。
表1 目標函數(shù)
從表1可以看出,帶正則化項后的S-TV對目標函數(shù)J的優(yōu)化更好,理論上會得到更好的結果。實驗結果證明了我們的猜想,表2展示了正則化項對實驗結果的影響。
表2 不同配置下的S-TV系統(tǒng)結果
對比表2各項,正則化項對S-TV的提升很明顯,特別是在使用PNCC-SDC特征時。表3對比了基線和S-TV的單系統(tǒng)效果(S-TV系統(tǒng)均是帶正則化項的),圖3是它們的DET曲線。
表3 各單系統(tǒng)結果
圖3 單系統(tǒng)的DET曲線
從以上結果可以得出結論,單系統(tǒng)中,PNCC-SDC特征整體上優(yōu)于PLP-SDC特征,并且在使用PNCC-SDC特征時,S-TV令基線系統(tǒng)的EER從5.40%下降到4.96%,效果相對提升達到了8.15%。
表4展示了各種融合系統(tǒng)的效果,可以看出,融合系統(tǒng)的效果有很顯著的提升,說明PNCC-SDC特征和 PLP-SDC特征以及S-TV和TV的互補性都較強。當四個單系統(tǒng)融合時,EER達到了3.86%的最小值。
表4 融合系統(tǒng)結果
在效率方面,文獻[5]給出了TV和S-TV的時間復雜度,分別為O(K3+K2C+KCD)和O(K3+K2C+K(CD+M))。在一般情況下,M< 表5 改進S-TV與傳統(tǒng)TV的效率對比 本文在GMM-TV系統(tǒng)以及已有的有監(jiān)督訓練的TV系統(tǒng)下,提出了一種改進的有監(jiān)督訓練TV系統(tǒng),在原本訓練T矩陣的基礎上給訓練數(shù)據(jù)增加標識向量來增加T空間的區(qū)分性,同時在目標函數(shù)中引入正則化項,來控制空間訓練的自由度。實驗結果表明,此方法在不影響效率的情況下有效地提高了語種識別的效果,在NIST LRE09數(shù)據(jù)集合上,所提出的融合系統(tǒng)相比基線系統(tǒng)提升非常明顯。本文方法為模型域層面的改進,可以用于國際主流的Bottleneck特征[9]中。 [1] 付強.基于高斯混合模型的語種識別的研究[D].中國科學技術大學,2009. [2] 郭武.復雜信道下的說話人識別[D].中國科學技術大學,2007. [3] Dehak N,Kenny P,Dehak R,et al.Front-End Factor Analysis for Speaker Verification[J].Audio Speech & Language Processing IEEE Transactions on,2011,19(4):788-798. [4] Kenny P.Joint factor analysis of speaker and session variability:Theory and algorithm[R].Technical report CRIM-06/08-13,CRIM,2006. [5] Li ming,Shrikanth Narayanan.Simplified Supervised I-vector Modeling with Application to Robust and Efficient Language Identification and Speaker Verification[J].Computer Speech & Language,2014,28(4):940-958. [6] Kohler M A,Kennedy M.Language identification using shifted delta cepstra[C]//Circuits and Systems,2002.MWSCAS-2002.The 2002 45th Midwest Symposium on.IEEE,2002:III-69-72. [7] Kim C,Stern R M.Feature extraction for robust speech recognition using a power-law nonlinearity and power-bias subtraction[J].Interspeech,2009:28-31. [8] Kim C,Stern R M.Power-Normalized Cepstral Coefficients (PNCC) for robust speech recognition[C]//2012 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),2012,22(10):4101-4104. [9] Jiang Bing,Song yan,Wei si,et al.Deep Bottleneck Features for Spoken Language Identification[J].PLOS ONE,2014,9(7):e100795. AN IMPROVED LANGUAGE IDENTIFICATION METHOD USING SUPERVISED TOTAL VARIABILITY Zhang Yifei1,2Teng Xiaoqi3 1(School of Mechatronics Engineering and Automation,Shanghai University,Shanghai 200072,China)2(IflytekIntelligentSystemCo.,Ltd,Hefei230088,Anhui,China)3(TheOfficeofInternetInformation,Beijing100062,China) Traditional GMM-TV (Gaussian mixture model-total variability) system is benefited from its good recognition effect and excellent recognition efficiency, and has been widely used in language identification (LID). However the training process of load matrix T is unsupervised, this leads to its classification space not being optimised the best. Existing supervised-TV (S-TV) algorithm, through stitching a vector with tag information on mean super vector, makes the training process of T matrix become a supervised process, but it only achieves a little performance gain while introduces the problem of load matrix’s freedom. In this paper we propose an improved S-TV method which puts a regularisation item into the objective function for solving the freedom problem and meanwhile greatly improves its classification effect. The improved system achieves excellent effect in the experiment on 30s dataset of NIST LRE2009, the equal error rate (EER) reduces to 4.96% from 5.40% and the fusion system’s EER has even reached 3.86%. Language identificationTV systemSupervised trainingLoad matrix 2015-05-20。北京市科委項目(Z141100006014002)。張翼飛,碩士生,主研領域:聲紋語種識別。騰瀟琦,碩士生。 TP3 A 10.3969/j.issn.1000-386x.2016.09.0385 結 語