亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        聲紋識別中的語言屬性映射

        2012-02-23 07:04:48靳玉紅
        關(guān)鍵詞:聲紋識別高斯語音

        靳玉紅

        (西南科技大學(xué)信息工程學(xué)院,四川綿陽 621010)

        0 引言

        在說話人識別領(lǐng)域,系統(tǒng)性能受到訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)長度的制約,可用數(shù)據(jù)越少系統(tǒng)性能越差。一般實際應(yīng)用場合中所能獲得的話者注冊和測試語音都是集中在幾秒到幾十秒之間,而目前該領(lǐng)域主流算法都是針對幾分鐘的訓(xùn)練和測試時長來設(shè)計的。研究表明,當測試語音長度縮短到10 s或更短時,性能急劇下降[1]。特別是當所獲得的訓(xùn)練語音時長也很短時,采用當前主流算法的話者識別系統(tǒng)性能遠遠低于實際可用的水平[1]。在許多實際場合,譬如軍事上的說話人監(jiān)控可能只有幾秒可用于識別的數(shù)據(jù),網(wǎng)上銀行的聲紋驗證從客戶體驗角度也不宜要求過多數(shù)據(jù),這些限制條件極大地制約著話者識別系統(tǒng)的應(yīng)用和拓展。可見,在當前背景下,如何在短時上提高說話人識別的準確率,具有非常高的緊迫性。

        在真實的與文本無關(guān)的說話人識別系統(tǒng)中,給定目標說話者的訓(xùn)練和測試集合一般都會存在不匹配的問題。這種不匹配包括訓(xùn)練和測試的語言屬性變化、信道傳輸類型、說話者自身身體狀況、情緒變化,以及環(huán)境噪聲等因素[2-4]。這些因素之中,近年來被研究者重點關(guān)注的是訓(xùn)練和測試語音時長在約5 min條件下的信道不匹配問題,而語言屬性不匹配問題只有較少的研究者做了一些初步嘗試[4]。原因在于長時的話者識別任務(wù)中,訓(xùn)練和測試語句中包含的足夠多的數(shù)據(jù)量幾乎能全部覆蓋所有的音素,從而減輕了語言屬性失配問題對說話人識別系統(tǒng)性能的影響。然而,在短時的識別任務(wù)中,訓(xùn)練和測試語句通常僅含有音素集合中的幾個音素,而當前主流用于說話人識別的特征參數(shù),如梅爾刻度式倒譜參數(shù)(melfrequency cepstral coeffcient,MFCC)、線性預(yù)測倒譜系數(shù)(linear prediction cepstrum coefficient,LPCC)等特征提取方法均來自于語音識別[5],這就使得從少數(shù)幾個音素中提取出來的聲學(xué)特征參數(shù)中引入的語言屬性失配問題嚴重降低了短時話者識別準確率。

        解決短時話者識別中語言屬性失配問題的研究工作目前還處于萌芽階段。在美國約翰霍普金斯大學(xué)舉辦的關(guān)于說話人識別專題研討會上的總結(jié)報告中(JHU workshop 2008),語言屬性失配在短時話者識別中的影響開始受到重視[5-6]。一些著名研究機構(gòu)(Brno大學(xué),MIT,SRI等)從單音素及音素類對目標說話人建模和測試角度分析了語言屬性變化帶來的話者識別性能的變化,給出了在美國國家技術(shù)和標準署(NIST)舉辦的說話人測試評測短時任務(wù)中初步的驗證性實驗結(jié)論[5]。

        本文從消除特征參數(shù)中帶來的語言屬性信息的角度出發(fā),提出了一種語言屬性映射方法(linguistic attribute projection-LAP)。首先分析了語言學(xué)信息差異影響短時話者識別系統(tǒng)的程度,然后在模型域中估計出短時語音的語言屬性空間,最后通過映射的方法在統(tǒng)計參數(shù)超矢量空間中減去語言屬性的影響。文中的實驗結(jié)果顯示該方法能在較大程度上消除語言屬性變化信息,提高短時說話人識別的系統(tǒng)性能,從而證明了語音中同時包含的語言屬性信息和說話人身份特性信息是可以在一定程度上分開的。

        1 語言屬性映射方法

        通過引文[8-9]可以得出,從最后的識別性能上看,在文本相關(guān)條件下的聲紋識別系統(tǒng)遠遠優(yōu)于文本無關(guān)環(huán)境下的聲紋識別系統(tǒng)。這就充分說明了正是“文本內(nèi)容”這個語言學(xué)上的信息差異引起了聲紋識別系統(tǒng)的性能差異。在本文中,我們將“文本內(nèi)容的差異性以及聲紋識別中訓(xùn)練和測試文本不匹配情況”定義為語言屬性的差異性。下面分為3小節(jié)分別介紹高斯混合模型(Gauss maxture model,GMM)均值超向量的形成和語言屬性空間的估計,以及在聲紋識別中消除語言屬性的空間映射方法。

        1.1 GMM均值超向量

        由于訓(xùn)練語言的每一句話的長度不同,因此這里采用均值超向量[8]來構(gòu)建訓(xùn)練樣本。本文采用模型為GMM,對每一句話的不等長的特征進行建模,給定GMM通用背景模型公式為

        (1)式中:ωi為高斯混合的權(quán)重;N(·)為高斯混合函數(shù);μi為高斯混合的均值;∑i為高斯混合的協(xié)方差。這里假設(shè)采用的方差矩陣為對角陣。

        對于給定的目標說話人的語音,通過最大后驗自適應(yīng)(maximum a-posteriori,MAP)方法得到說話人的GMM通用背景模型,并對參數(shù)進行更新。由于得到的均值不僅可以抓住最能反映該語音信息的統(tǒng)計量,而且還能便于匹配建模和比較,因此一般只更新均值向量。將所有均值拼接起來就得到了GMM均值超向量,具體形成過程如圖1所示。

        圖1 GMM均值超向量形成過程Fig.1 Formation process of GMM mean supervector

        一般來講,高斯數(shù)從幾百到2 048,每個高斯數(shù)的維數(shù)是38或39(由前端語音參數(shù)的維數(shù)決定)。本文中,取高斯混合數(shù)目為256,聲學(xué)參數(shù)的維數(shù)為39。

        1.2 語言屬性空間估計

        本節(jié)主要闡述語言屬性空間(LA空間)估計的算法步驟及原理。我們的出發(fā)點來源于對擾動屬性干擾算法NAP[3]在處理復(fù)雜信道問題上的更深層次的理解和改進。首先定義一個矩陣L,L的每一列代表一個用來訓(xùn)練語言屬性空間的高斯混合模型的均值超向量[10-11],在本文中該向量的維數(shù) D=256×39,假設(shè)有M個訓(xùn)練樣本,則L可以寫成公式(2)的形式為

        給定L的定義后,可以計算其協(xié)方差矩陣C為

        由C的前面K個最大特征向量支撐起來的空間即為語言屬性空間。但L是一個D×M的高維矩陣,倘若直接做特征向量分解的話計算量非常大,內(nèi)存空間也要求特別大,這在實際應(yīng)用中是不可取的。在本文中,我們采用一種巧妙的方法來計算語言屬性協(xié)方差矩陣C的特征值和特征向量,令G=LTL,我們首先計算G的特征向量η,從而C的特征向量可以由η推導(dǎo)得到為Lη。為了保證訓(xùn)練出來的LA空間不僅捕獲了開發(fā)集合中訓(xùn)練數(shù)據(jù)的語言屬性特性,而且又不會將說話人身份特性空間也同時平滑掉,在本文中訓(xùn)練LP空間時引入一個加權(quán)矩陣Q來達到此目標。從而形成如下最終的語言屬性空間估計公式:

        diag(y)表示對角方陣,其對角線上元素為y,其他元素為0,1表示全為1的列向量。由于加權(quán)矩陣的引入,所求得的空間不僅充分利用了開發(fā)集合中訓(xùn)練語句中語言屬性的信息,而且還使用了說話人的身份標注信息,從而使得估計出來的語言屬性更為純凈。對(4)式做特征值分解得到最終的語言屬性空間為

        在這里需要特別說明的是訓(xùn)練語言屬性空間對開發(fā)集合的數(shù)據(jù)要求比較高,需要每個不同說話人的訓(xùn)練語音能夠涵蓋到大部分的音素類或者全部覆蓋到音素類。這樣訓(xùn)練出來的語言特性空間才會比較魯棒,在實際系統(tǒng)中更具推廣性。

        1.3 語言屬性消除映射

        在聲紋識別系統(tǒng)中,我們希望得到的用于識別的特征,可以盡量去除不能反映說話人身份特性的其他信息。我們的目標是最大程度的消除對聲紋識別系統(tǒng)干擾很大的語言屬性信息。當語言屬性空間LP估計出來后,通過映射公式(7)來對語言屬性進行消除:

        (7)式中:Yi表示最后用于建模和測試的均值超向量;I表示單位矩陣;LP為1.2節(jié)中估計出的LP空間;MP(Xi)是原始的高斯混合均值超向量。通過映射后的Yi將被用作后面聲紋識別系統(tǒng)建模和測試的特征。通過后面實驗結(jié)果表明該特征應(yīng)用于文本無關(guān)的聲紋識別系統(tǒng)中,能夠在較大程度上消除語言屬性的影響,提升聲紋識別系統(tǒng)的性能。

        2 實驗設(shè)置

        2.1 數(shù)據(jù)庫

        本文采用自己錄制的數(shù)據(jù)集進行實驗,錄制環(huán)境為安靜的辦公室環(huán)境,數(shù)據(jù)格式為16 kHz采樣、16 bit量化。該數(shù)據(jù)集一共有200個目標說話人,每人有100~170句錄音。每句錄音長度約為7~15 s,每個說話人的語音幾乎覆蓋到所有的中文音素類。實驗的訓(xùn)練集合為:從該數(shù)據(jù)集中挑選出女聲49人,男聲45人作為目標說話人,每人挑選一句約10 s左右的語音作為注冊語音,即每個說話人只有一句注冊語音。測試語音從目標說話人的數(shù)據(jù)中除注冊語音之外的數(shù)據(jù)中挑選出女聲805句,男聲681句作為測試。訓(xùn)練集合之外的說話人用作訓(xùn)練語言屬性空間的開發(fā)集合。詳細的實驗配置見表1。

        表1 詳細實驗配置Tab.1 Detailed experiment configuration

        2.2 特征參數(shù)提取

        本文采用的是MFCC參數(shù),對于MFCC參數(shù)提取的語音信號先去直流,再預(yù)加重(因子為0.97),經(jīng)過幀寬25 ms、幀移是10 ms的漢明窗。在抽取MFCC特征參數(shù)的同時,采用基于能量的寂靜幀檢測算法去除寂靜音。抽取0-12維MFCC,總計為13維,特征參數(shù)通過CMS(cepstralmean subtraction)和RASTA(RelAtive SpectrAl)[12-13]進行倒譜域濾波去除信道卷積噪聲,通過一階差分、二階差分總計構(gòu)成39維,特征再通過高斯化模塊[14]以提高識別率。

        2.3 系統(tǒng)描述

        2.3.1 基線系統(tǒng)描述

        本文由于在實驗中所使用的數(shù)據(jù)為短時的語音數(shù)據(jù),所以本次任務(wù)為短時的聲紋識別任務(wù)。為了更好地驗證本文所提出方法的有效性,這里給出2套最經(jīng)典的聲紋識別系統(tǒng)作為基線系統(tǒng)做對比試驗。系統(tǒng)1是基于產(chǎn)生式模型的高斯混合通用背景模型(Gaussmaxturemodel-universal backgroundmodel,GMM-UBM)系統(tǒng)[14],系統(tǒng) 2 是基于區(qū)分行模型的混合高斯超向量-支持向量機(Gaussmaxturemodel-support vector machine,GMM-SVM)系統(tǒng)[11]。下面分別介紹這2套基線系統(tǒng)中關(guān)鍵的參數(shù)配置。

        GMM-UBM(系統(tǒng)1)中的混合高斯數(shù)目為256,最大后驗概率自適應(yīng)MAP[14]的相關(guān)因子取16,采用性別相關(guān)的通用背景模型(universal background model,UBM),UBM模型訓(xùn)練使用開發(fā)集合的數(shù)據(jù)訓(xùn)練得到。GMM-SVM(系統(tǒng)2)系統(tǒng)中,高斯混合均值超向量采用GMM-MAP的方法先做自適應(yīng),然后將GMM模型中的均值拼接起來成為超向量作為SVM的訓(xùn)練語言屬性空間LP的特征。SVM采用線性核函數(shù)進行分類,懲罰系數(shù)C=1 000,SVM的負例樣本為開發(fā)集合中挑出的數(shù)據(jù),男聲2 617句,女聲3 011句。

        2.3.2 GMM-LAP-SVM 系統(tǒng)描述

        本文所提出的語言屬性映射方法主要是基于GMM-SVM框架上的特征變換,將其稱為 GMMLAP-SVM系統(tǒng)(系統(tǒng)3)。該系統(tǒng)中訓(xùn)練語言屬性空間LP的數(shù)據(jù)與其支持向量機模型訓(xùn)練中負例數(shù)據(jù)相同,LP空間的前面最大特征值對應(yīng)的特征向量個數(shù) K為60。GMM-LAP-SVM 與基線系統(tǒng) GMMSVM不同的地方是前者將高斯混合超向量在估計出的語言屬性空間中做了映射后的超向量Yi作為SVM的輸入特征向量,而后者是直接將高斯混合超向量作為SVM的輸入數(shù)據(jù)。由于本文數(shù)據(jù)庫環(huán)境為干凈辦公室環(huán)境,沒有信道等其他干擾因素,這種實驗環(huán)境使得文本內(nèi)容差異性帶來的語言屬性不匹配成為降低系統(tǒng)性能的最重要的因素,所以試驗結(jié)果可以更有力的驗證所提方法的有效性。

        3 實驗結(jié)果及相關(guān)分析

        本文中衡量系統(tǒng)性能的指標采用美國國家標準局NIST標準中的等錯誤率(equal error rate,EER)為評測性能的指標[1]。各個系統(tǒng)的結(jié)果如表2(Female列表示女聲測試的性能,Male列表示男聲測試的性能)所示。

        表2 短時聲紋識別任務(wù)上不同系統(tǒng)的實驗結(jié)果Tab.2 Experiment results of comparison systems(EER%)

        對比表2中GMM-UBM系統(tǒng)與GMM-SVM系統(tǒng)的結(jié)果,可以看出在短時的聲紋識別任務(wù)上,由于數(shù)據(jù)量不夠的原因,使得均值超向量的特征不能準確地捕捉住說話人身份特點,因此基于產(chǎn)生式模式的GMM-UBM的性能稍好于GMM-SVM系統(tǒng)。但是,一旦將語言屬性消除的算法加入到GMM-SVM的特征映射之后,系統(tǒng)的性能得到了很大的提升。從表格的第4行可以看出,本文所提的 GMM-LAP-SVM系統(tǒng)性能比傳統(tǒng)的在短時聲紋識別中表現(xiàn)良好的GMM-UBM系統(tǒng)在女聲測試中提升了17.03%,在男聲測試中提升了14.50%。

        對比表2的第5行與第3行,在采用同樣的配置條件下,采用本文所提方法的系統(tǒng)性能比基線系統(tǒng)GMM-SVM性能在女聲測試中提升了20.39%,在男聲測試中提升了23.07%。通過與2套傳統(tǒng)方法的實驗結(jié)果做比較,得到的結(jié)論都一致性,證明了本文所提LAP方法的有效性。

        將GMM-LAP-SVM的得分與系統(tǒng)1進行融合,融合權(quán)重設(shè)為0.5,融合后的性能比最好的單系統(tǒng)GMM-LAP-SVM性能仍有較大的提升。與系統(tǒng)1融合后EER結(jié)果:Female為5.06%,Male為4.72%。

        4 結(jié)論和展望

        本文提出了一種語言屬性映射技術(shù)且基于該技術(shù)構(gòu)建了一種話者確認系統(tǒng)。語言屬性映射首先在模型域中估計出語音的語言屬性空間,最后通過映射的方法在統(tǒng)計參數(shù)超矢量空間中消去語言屬性的影響,得到能夠能更純凈反映話者身份特性的超矢量特征并用于建模和測試。該系統(tǒng)能夠很好地解決在文本無關(guān)的聲紋識別系統(tǒng)中的由于語言屬性差異引起的訓(xùn)練和測試不匹配問題,實驗結(jié)果證明了本文所提方法的正確性和有效性。另外,有關(guān)在聲學(xué)參數(shù)中反映文本內(nèi)容和說話者身份內(nèi)容的更深層次的理論知識還有待進一步的研究。

        [1]NIST.The2008 NISTSpeaker Recognition Evaluation[EB/OL].(2008-08-28)[2012-03-02].http://www.itl.nist.gov/iad/mig//tests/sre/2008/official_results/index.html.

        [2]LONG Yanhua,YAN Zhi-Jie,SOONG,F(xiàn) K,et al.Speaker Characterization Using Spectral Subband Energy Ratio Based on Harmonic Plus Noise Model[C]//Acoustics,Speech and Signal Processing(ICASSP),2011 IEEE International Conference on,[s.l.]:Conference Publications,2011:4520-4523.

        [3]STURIM D E,CAMPBELLW M,REYNOLDSD A,et al.Robust Speaker Recognition With Cross-Channel Data:MIT-LL Results On The 2006 NIST SRE Auxiliary Microphone Task[C]//Acoustics,Speech and Signal Processing,2007.ICASSP 2007.IEEE International Conference on,[s.l.]:Conference Publications,2007:V-49 - IV-52.

        [4]SOLOMONOFF A,QUILLEN C,CAMPBELLW.Channel Compensation For SVM Speaker Recognition[C]//Proc.of Odyssey:The Speaker and Language Recognition Workshop,Toledo,Spain;[s.n.],2004:57-62.

        [5]BURGET L,BRUMMER N,REYNOLDS D A,et al.Robust speaker recognition over varying channels[R].Baltimore,Maryland:Johns Hopkins University CLSP SummerWorkshop,2008.

        [6]BIRKENESO,MATSUI T,TANABE K,et al.Audio,Penalized Logistic Regression with HMM Log-Likelihood Regressors for Speech Recognition [J].Speech,and Language Processing,2010,18(6):1440-1454.

        [7]WOLFELM,YANGQian,JIN Qin,etal.Speaker identification using warped MVDR cepstral features[C]//Interspeech,Interspeech 2009,Brighton,U.K:Conference Publications,2009:912-915.

        [8]REYNOLDS D A,HECK L P.Speaker Verification:From Research to Reality[C]//Tutorial,ICASSP 2001,Salt Lake City,Utah:[s.n.],2011.

        [9]REYNOLDS D A.An overview of Automatic Speaker Recognition Technology[C]//Acoustics,Speech,and Signal Processing(ICASSP),2002 IEEE International Conference on,[s.l.]:Conference Publications,2002:IV-4072-IV-4075.

        [10]LIQ,HUANGY.Robust Speaker Identification Using an Auditory-based Featur[C]//Acoustics,Speech,and Signal Processing(ICASSP),2002 IEEE International Conference on,[s.l.]:Conference Publications,2010:4514-4517.

        [11]CAMPBELL W M,STURIM D E,REYNOLDS D A.Support Vector Machines Using GMM Supervectors for Speaker Verification[J].IEEESignal Processing Letters,2006,13(5):308-311.

        [12]HERMANSKY H,MORGANN,BAYYA A,etal.RASTA-PLP speech analysis technique [C]//Acoustics,Speech,and Signal Processing(ICASSP),1992 IEEE International Conference on,[s.l.]:Conference Publications,1992:I.121-I.124.

        [13]XIANG B,CHAUDHARI U V,NAVRATIL J,et al.Short-time Gaussianization for robust speaker verification[J].Acoustics,Speech,and Signal Processing(ICASSP),2002 IEEE International Conference on,[s.l.]:Conference Publications,2002:681-684.

        [14]REYNOLDSD A,QUATIERIT F,DUNN R B.Speaker Verification using Adapted Gaussian Mixture Models[J].Digital Signal Processing,2000,10(1-3):19-41.

        (編輯:魏琴芳)

        猜你喜歡
        聲紋識別高斯語音
        小高斯的大發(fā)現(xiàn)
        魔力語音
        基于MATLAB的語音信號處理
        電子制作(2019年14期)2019-08-20 05:43:38
        天才數(shù)學(xué)家——高斯
        基于MQ3與MP3的價廉物美的酒駕語音提醒器
        電子制作(2019年9期)2019-05-30 09:42:10
        對方正在輸入……
        小說界(2018年5期)2018-11-26 12:43:42
        聲紋識別中的區(qū)分性訓(xùn)練
        淺談一種基于聲紋識別的教室上課點名系統(tǒng)
        基于i—vector聲紋識別上課點名系統(tǒng)的設(shè)計與實現(xiàn)
        面向移動終端的語音簽到系統(tǒng)
        隔壁老王国产在线精品| 国产精品一区二区av片| 男人深夜影院无码观看| 中文字幕人妻激情在线视频| 亚洲黄色天堂网站在线观看禁18| 人妻aⅴ中文字幕| 996久久国产精品线观看| 国产AV无码专区亚洲AWWW| 中国黄色偷拍视频二区| 日本强伦姧人妻一区二区| 40岁大乳的熟妇在线观看| 亚洲人免费| 扒下语文老师的丝袜美腿| 丝袜美腿人妻第一版主| 国产成人精品2021| 色婷婷欧美在线播放内射| 啊v在线视频| 人妻少妇激情久久综合| 国产精品亚洲专区无码不卡| 开心五月激情综合婷婷色| 亚洲国产夜色在线观看| 精品国产一区二区三区毛片| 日本一二三区在线观看视频| 国内精品视频在线播放不卡| 亚洲丁香婷婷综合久久小说| 亚洲一区日本一区二区| 亚洲男人综合久久综合天堂| 97无码免费人妻超级碰碰夜夜| 久久AⅤ无码精品为人妻系列| 亚洲性爱视频| 国产一区二区精品在线观看| 人妻色中文字幕免费视频| 24小时免费在线观看av| 中文亚洲av片在线观看| 久久精品波多野结衣中文字幕| 亚洲精品国产主播一区二区| 邻居美少妇张开腿让我爽了一夜| 无码人妻精品一区二区| 国产精品一久久香蕉国产线看观看| 成人免费毛片在线播放| 蜜臀av毛片一区二区三区|