亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        利用時(shí)長(zhǎng)信息提高說(shuō)話人確認(rèn)系統(tǒng)的魯棒性

        2016-09-26 08:39:08胡群威吳明輝
        關(guān)鍵詞:高斯分布信道語(yǔ)音

        胡群威,吳明輝,李 輝

        (中國(guó)科學(xué)技術(shù)大學(xué) 電子科學(xué)與技術(shù)系,安徽 合肥 230027)

        ?

        利用時(shí)長(zhǎng)信息提高說(shuō)話人確認(rèn)系統(tǒng)的魯棒性

        胡群威,吳明輝,李輝

        (中國(guó)科學(xué)技術(shù)大學(xué) 電子科學(xué)與技術(shù)系,安徽 合肥 230027)

        在文本無(wú)關(guān)說(shuō)話人確認(rèn)領(lǐng)域,基于總差異空間的說(shuō)話人確認(rèn)方法已成為主流方法,其中概率線性判別分析(Probabilistic Linear Discriminant Analysis, PLDA)因其優(yōu)異的性能受到廣泛關(guān)注。然而傳統(tǒng)PLDA模型沒(méi)有考慮注冊(cè)語(yǔ)音與測(cè)試語(yǔ)音時(shí)長(zhǎng)失配情況下的差異信息,不能很好地解決因時(shí)長(zhǎng)失配帶來(lái)的說(shuō)話人確認(rèn)系統(tǒng)性能下降的問(wèn)題。該文提出一種估計(jì)時(shí)長(zhǎng)差異信息方法,并將此差異信息融入PLDA模型,從而提高PLDA模型對(duì)時(shí)長(zhǎng)差異的魯棒性。在NIST數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)表明,所提出的方法可以較好地補(bǔ)償時(shí)長(zhǎng)差異,性能上也優(yōu)于PLDA方法。

        說(shuō)話人確認(rèn);I-Vector系統(tǒng);概率線性判別分析;時(shí)長(zhǎng)失配;時(shí)長(zhǎng)差異信息

        引用格式:胡群威,吳明輝,李輝. 利用時(shí)長(zhǎng)信息提高說(shuō)話人確認(rèn)系統(tǒng)的魯棒性[J].微型機(jī)與應(yīng)用,2016,35(11):51-55.

        0 引言

        說(shuō)話人確認(rèn)技術(shù)作為生物特征識(shí)別領(lǐng)域重要的研究熱點(diǎn),在身份識(shí)別、人機(jī)交互和移動(dòng)支付等領(lǐng)域具有廣闊的應(yīng)用前景。近年來(lái),在高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM)[1]基礎(chǔ)上,基于因子分析的方法因其優(yōu)異的性能得到研究者的廣泛關(guān)注。

        在GMM-UBM框架下,說(shuō)話人信息主要包含在GMM的均值超矢量[2]中。由于均值超矢量也包含信道等擾動(dòng)信息,KENNY P等人提出聯(lián)合因子分析(Joint Factor Analysis,JFA)[3]方法,將均值超矢量分解為說(shuō)話人與信道兩部分之和,進(jìn)而可以削弱信道的干擾。然而,均值超矢量維度過(guò)高,計(jì)算代價(jià)較高,不僅如此,JFA在進(jìn)行信道補(bǔ)償時(shí)也損失了一部分說(shuō)話人信息[4]。鑒于JFA的缺點(diǎn),DEHAK N等人提出基于總差異空間的I-Vector[5]系統(tǒng),此系統(tǒng)直接將均值超矢量壓縮成一個(gè)更加緊致的低維的矢量,同時(shí)盡可能地保留說(shuō)話人信息。由于I-Vector中依然存在信道等擾動(dòng)信息,參考文獻(xiàn)[6]提出概率線性判別分析(PLDA)應(yīng)用于總差異空間,可以較好地削弱信道擾動(dòng)的影響,取得優(yōu)異的性能。

        目前基于I-Vector的說(shuō)話人確認(rèn)多集中在長(zhǎng)時(shí)語(yǔ)音(一般為幾分鐘),即使用長(zhǎng)時(shí)語(yǔ)音注冊(cè),長(zhǎng)時(shí)語(yǔ)音測(cè)試。但實(shí)際應(yīng)用中考慮到使用的便捷性,注冊(cè)語(yǔ)音往往使用長(zhǎng)時(shí)語(yǔ)音,當(dāng)進(jìn)行測(cè)試時(shí),測(cè)試語(yǔ)音只有幾十秒或者幾秒鐘。然而I-Vector作為極大后驗(yàn)(MAP)的點(diǎn)估計(jì)[7],其提取依賴于充足的統(tǒng)計(jì)量,時(shí)長(zhǎng)越短,統(tǒng)計(jì)樣本相對(duì)越少,估計(jì)得越不準(zhǔn)確。參考文獻(xiàn)[8]指出,當(dāng)語(yǔ)音時(shí)長(zhǎng)足夠長(zhǎng)(通常大于2 min),I-Vector的區(qū)分性已接近飽和,此時(shí)估計(jì)的I-Vector可認(rèn)為是準(zhǔn)確的。但是當(dāng)語(yǔ)音時(shí)長(zhǎng)較短(幾秒鐘),估計(jì)得相對(duì)不可靠,其區(qū)分性能會(huì)嚴(yán)重下降。I-Vector估計(jì)不準(zhǔn)確將直接導(dǎo)致基于I-Vector的PLDA系統(tǒng)的性能下降。針對(duì)時(shí)長(zhǎng)帶來(lái)的性能問(wèn)題,國(guó)內(nèi)外學(xué)者展開(kāi)了一系列的研究。參考文獻(xiàn)[9]研究了時(shí)長(zhǎng)失配情況下時(shí)長(zhǎng)對(duì)系統(tǒng)性能的影響。參考文獻(xiàn)[10]研究了不同語(yǔ)音時(shí)長(zhǎng)的I-Vector的分布,指出時(shí)長(zhǎng)帶來(lái)的I-Vector的估計(jì)偏差,等價(jià)于加性噪聲。參考文獻(xiàn)[11]提出短時(shí)差異規(guī)整算法(Short Utterance Variance Normalization,SUVN),對(duì)短時(shí)語(yǔ)音的I-Vector進(jìn)行補(bǔ)償,取得了一定的性能提升。

        受到上述文獻(xiàn)啟發(fā),本文針對(duì)實(shí)際應(yīng)用中訓(xùn)練測(cè)試時(shí)長(zhǎng)失配的情況,同時(shí)考慮傳統(tǒng)的PLDA系統(tǒng)沒(méi)有考慮注冊(cè)語(yǔ)音與測(cè)試語(yǔ)音時(shí)長(zhǎng)失配情況下的差異信息,提出估計(jì)短時(shí)語(yǔ)音I-Vector的時(shí)長(zhǎng)差異信息的方法,并將此信息融入到PLDA系統(tǒng)進(jìn)行補(bǔ)償。本文方法較好地利用時(shí)長(zhǎng)信息,增加系統(tǒng)對(duì)時(shí)長(zhǎng)差異的魯棒性,進(jìn)而提高系統(tǒng)的整體性能。

        1 基于I-Vector的說(shuō)話人確認(rèn)系統(tǒng)

        1.1I-Vector基線系統(tǒng)

        在傳統(tǒng)GMM-UBM中,說(shuō)話人的區(qū)分信息主要集中在目標(biāo)說(shuō)話人GMM模型的均值超矢量中。GMM均值超矢量中既包含了說(shuō)話人的信息,同時(shí)也包含了信道等干擾信息。JFA技術(shù)被用于對(duì)說(shuō)話人與信道建模,然而研究表明[4],JFA中的信道因子中也包含了說(shuō)話人信息。鑒于上述存在的缺點(diǎn),參考文獻(xiàn)[5]提出總差異空間,將說(shuō)話人與信道作為整體建模。給定目標(biāo)說(shuō)話人的一段語(yǔ)音,則基于總差異空間的目標(biāo)說(shuō)話人的GMM均值超矢量可以用式(1)表示:

        M=m+Tω

        (1)

        其中,M為說(shuō)話人的GMM均值超矢量;m為UBM均值超矢量;T為總差異空間矩陣,低秩的、矩陣的列組成總差異空間的基底;ω為總差異因子,先驗(yàn)服從標(biāo)準(zhǔn)正態(tài)分布,對(duì)于每個(gè)說(shuō)話人的語(yǔ)音段,對(duì)應(yīng)的I-Vector的提取過(guò)程即為計(jì)算總差異因子ω的極大后驗(yàn)點(diǎn)估計(jì)。總差異空間矩陣的訓(xùn)練以及I-Vector計(jì)算參見(jiàn)參考文獻(xiàn)[12]。

        通常,提取完I-Vector后,采用余弦評(píng)分,也就是將測(cè)試語(yǔ)音的I-Vector與事先注冊(cè)的說(shuō)話人模型I-Vector進(jìn)行余弦值計(jì)算,如式(2)所示。

        (2)

        其中,ωtar表示為說(shuō)話人模型的I-Vector,ωtest表示測(cè)試語(yǔ)音的I-Vector。

        1.2高斯概率線性判別分析

        忽略I-Vector的提取機(jī)制,PLDA可看作是由生成型模型產(chǎn)生的聲學(xué)特征,其生成過(guò)程可以用說(shuō)話人因子與信道因子描述,不同的因子先驗(yàn)假設(shè)構(gòu)成了不同的PLDA模型[6],若假設(shè)說(shuō)話人因子以及信道因子均服從高斯分布,相應(yīng)的模型稱為高斯線性判別分析(GaussianPLDA,GPLDA)[6,12]。

        假定第i個(gè)說(shuō)話人的第j個(gè)I-Vector表示為wij,標(biāo)準(zhǔn)的GPLDA模型假設(shè)如式(3)所示:

        wij=μ+Φyi+Uxij+εij

        (3)

        yi~N(0,I)

        (4)

        xij~N(0,I)

        (5)

        εij~N(0,Σ)

        (6)

        其中,μ為所有說(shuō)話人的I-Vector均值,矩陣Φ表示說(shuō)話人子空間,矩陣U表示信道子空間,矢量yi和xij為對(duì)應(yīng)的子空間因子,兩者統(tǒng)計(jì)獨(dú)立,并且均服從標(biāo)準(zhǔn)高斯分布,εij表示殘差,服從均值為零、協(xié)方差為對(duì)角陣Σ的高斯分布。

        GPLDA模型最初用于人臉識(shí)別[12],由于其輸入特征維度較高,需要大數(shù)據(jù)樣本才能有效地估計(jì)出相應(yīng)的參數(shù),否則容易陷入過(guò)擬合。在說(shuō)話人確認(rèn)中,輸入特征為I-Vector矢量,維度一般為100~600,維度相對(duì)較小,考慮模型的復(fù)雜度,簡(jiǎn)化GPLDA模型如下:

        wij=μ+Φyi+εij

        (7)

        這里,只是將信道部分合并到殘差中,此時(shí)εij服從均值為零、協(xié)方差為全角矩陣的高斯分布,這樣,殘差便可以包含更多的擾動(dòng)信息,以此彌補(bǔ)合并信道因子所帶來(lái)的損失。

        由于GPLDA為線性高斯模型[13],因此邊緣分布、條件分布均為高斯分布,其中邊緣分布為:

        wij~N(μ,ΦΦT+Σ)

        (8)

        相應(yīng)的條件分布為:

        wij|yi~N(μ+Φyi,Σ)

        (9)

        GPLDA模型參數(shù){μ,Φ,Σ}可由EM算法訓(xùn)練得到,詳細(xì)訓(xùn)練過(guò)程參見(jiàn)參考文獻(xiàn)[12]。

        使用GPLDA建模的前提是假設(shè)I-Vector先驗(yàn)服從高斯分布。然而,由于I-Vector的行為并不是服從高斯分布,而是服從長(zhǎng)尾分布(heavy tail)[6],考慮到高斯分布經(jīng)過(guò)線性變化依然為高斯分布,所以必須對(duì)I-Vector進(jìn)行非線性變化,以削弱I-Vector的非高斯的影響。參考文獻(xiàn)[14]指出對(duì)I-Vector進(jìn)行長(zhǎng)度規(guī)整與Whitening規(guī)整可以有效削弱其非高斯行為,從而提高GPLDA對(duì)I-Vector分布建模能力。

        1.3GPLDA確認(rèn)得分計(jì)算

        說(shuō)話人確認(rèn)的問(wèn)題可以看成一個(gè)二元假設(shè)檢驗(yàn)問(wèn)題,即給定兩個(gè)I-Vector:w1、w2,存在以下兩個(gè)假設(shè):

        Hs:假設(shè)w1、w2是由同一個(gè)說(shuō)話人生成的,則它們共享同一個(gè)說(shuō)話人因子y,即:

        (10)

        此時(shí)的協(xié)方差為:

        (11)

        所以:

        (12)

        Hd:假設(shè)w1、w2是由不同的說(shuō)話人產(chǎn)生的,則它們具有不同的說(shuō)話人因子y1、y2,即:

        (13)

        此時(shí)的協(xié)方差為:

        (14)

        所以:

        (15)

        對(duì)于上述二元假設(shè)檢驗(yàn)可以使用兩個(gè)高斯函數(shù)的對(duì)數(shù)似然比作為最后的得分:

        (16)

        2 改進(jìn)系統(tǒng)

        使用GPLDA對(duì)說(shuō)話人以及其他擾動(dòng)進(jìn)行建模,其中殘差項(xiàng)刻畫了擾動(dòng)因子的行為。由式(16)可以看出,得分函數(shù)是對(duì)稱的,即注冊(cè)語(yǔ)音與測(cè)試語(yǔ)音是可以交換位置的,不會(huì)影響得分,主要原因?yàn)樽?cè)語(yǔ)音與測(cè)試語(yǔ)音是在相同的擾動(dòng)假設(shè)下而得出的[15]。然而,對(duì)于注冊(cè)語(yǔ)音為長(zhǎng)時(shí)語(yǔ)音,測(cè)試為短時(shí)語(yǔ)音的時(shí)長(zhǎng)失配的情況,顯然直接使用GPLDA評(píng)分是不夠精確的。考慮到I-Vector只是總差異因子的極大后驗(yàn)點(diǎn)估計(jì),估計(jì)的準(zhǔn)確度取決于后驗(yàn)分布的協(xié)方差。對(duì)于同一個(gè)說(shuō)話人,其長(zhǎng)時(shí)語(yǔ)音段的I-Vector估計(jì)得相對(duì)準(zhǔn)確,也就是說(shuō),由時(shí)長(zhǎng)引起的擾動(dòng)較小,而短時(shí)語(yǔ)音段的I-Vector估計(jì)得相對(duì)不可靠,由時(shí)長(zhǎng)引起的擾動(dòng)較大,總之,對(duì)于同一個(gè)說(shuō)話人,語(yǔ)音時(shí)長(zhǎng)越短,對(duì)應(yīng)I-Vector的GPLDA模型將趨向于產(chǎn)生越大的殘差協(xié)方差。

        2.1融入時(shí)長(zhǎng)差異信息的GPLDA

        由于注冊(cè)語(yǔ)音為長(zhǎng)時(shí)語(yǔ)音,其對(duì)應(yīng)的I-Vector估計(jì)相對(duì)準(zhǔn)確,而當(dāng)測(cè)試語(yǔ)音為短時(shí)語(yǔ)音時(shí),其估計(jì)的I-Vector存在相對(duì)較大的不確定度,假設(shè)服從如下分布:

        (17)

        =∫N(w,Σ′)N(w;μ+Φy,Σ)dw

        =N(w;μ+Φy,Σ+Σ′)

        (18)

        假設(shè)長(zhǎng)時(shí)注冊(cè)語(yǔ)音與短時(shí)測(cè)試語(yǔ)音對(duì)應(yīng)的I-Vector分別為w1、w2,當(dāng)它們是由同一個(gè)說(shuō)話人生成的,則由式(11)和式(18)可得此時(shí)的協(xié)方差為:

        (19)

        當(dāng)它們是由不同說(shuō)話人生成的,則由式(13)和式(18)可得此時(shí)的協(xié)方差:

        (20)

        由式(19)和式(20)重寫對(duì)數(shù)似然比得分公式:

        (21)

        此時(shí)的得分公式(21)針對(duì)短時(shí)語(yǔ)音的I-Vector融入了時(shí)長(zhǎng)差異信息,更加精確地刻畫了短時(shí)語(yǔ)音的行為,而且從式(21)可以看出,注冊(cè)語(yǔ)音與測(cè)試語(yǔ)音的I-Vector是不可交換的,這是因?yàn)榭坍媰烧邤_動(dòng)行為的殘差項(xiàng)不再是同一假設(shè)。

        2.2時(shí)長(zhǎng)差異信息的估計(jì)

        為了捕捉短時(shí)語(yǔ)音的時(shí)長(zhǎng)差異信息,本文使用了大量開(kāi)發(fā)集數(shù)據(jù)以及從中截短得到短時(shí)語(yǔ)音,將長(zhǎng)時(shí)語(yǔ)音對(duì)應(yīng)的I-Vector與短時(shí)語(yǔ)音對(duì)應(yīng)的I-Vector的差異作為時(shí)長(zhǎng)差異信息的度量,即式(22)所示:

        (22)

        其中,wfull為長(zhǎng)時(shí)語(yǔ)音的I-Vector,wshort為從長(zhǎng)時(shí)語(yǔ)音截短的短時(shí)語(yǔ)音的I-Vector,使用式(22)可以近似估計(jì)短時(shí)語(yǔ)音的時(shí)長(zhǎng)差異信息,并將此信息融入GPLDA模型。

        3 實(shí)驗(yàn)結(jié)果與分析

        本文分別構(gòu)建了I-Vector余弦評(píng)分的基線系統(tǒng)、GPLDA系統(tǒng)以及改進(jìn)的GPLDA系統(tǒng)。實(shí)驗(yàn)所用到的語(yǔ)料均來(lái)自NIST[16]數(shù)據(jù)庫(kù)的電話信道語(yǔ)音。

        3.1訓(xùn)練數(shù)據(jù)及參數(shù)配置

        實(shí)驗(yàn)采用39維美爾倒譜系數(shù)(MFCC)作為特征參數(shù)。訓(xùn)練UBM的數(shù)據(jù)取自NIST05和NIST06男性電話信道數(shù)據(jù)集,共5 200條5min時(shí)長(zhǎng)的訓(xùn)練語(yǔ)音,切過(guò)靜音后大約2min,UBM采用512個(gè)高斯混合,每個(gè)高斯的協(xié)方差矩陣為對(duì)角陣。使用相同的數(shù)據(jù)訓(xùn)練總差異矩陣T,采用隨機(jī)初始化矩陣,迭代8次,最終得到19 968×200維的矩陣T。訓(xùn)練PLDA的數(shù)據(jù)取自NIST08中共300個(gè)說(shuō)話人,每人10段語(yǔ)音,訓(xùn)練PLDA前,要對(duì)I-Vector進(jìn)行Whiten規(guī)整以及長(zhǎng)度規(guī)整,說(shuō)話人因子數(shù)為100。使用NIST08中的300個(gè)說(shuō)話人,并從中截短至30s、10s和5s三種情況以及全時(shí)長(zhǎng)(full),用于估計(jì)對(duì)應(yīng)的時(shí)長(zhǎng)差異信息。

        3.2系統(tǒng)性能評(píng)估標(biāo)準(zhǔn)

        實(shí)驗(yàn)的評(píng)測(cè)標(biāo)準(zhǔn)采用等誤識(shí)率(EqualErrorRate,EER)和NIST評(píng)測(cè)中檢測(cè)代價(jià)函數(shù)(DetectionCostFunction,DCF)。EER是錯(cuò)誤拒絕率(FalseRejectionrate,FR)和錯(cuò)誤接受率(FalseAcceptancerate,FA)相等的值。檢測(cè)代價(jià)函數(shù)定義為FA和FR的加權(quán)和:

        DCF=Cfr×FR×Ptar+Cfa×FA×(1-Ptar)

        (23)

        其中Cfr和Cfa分別是錯(cuò)誤拒絕和錯(cuò)誤接受的代價(jià),Ptar為真實(shí)說(shuō)話人出現(xiàn)的先驗(yàn)概率,在NIST的評(píng)測(cè)任務(wù)中的定義為Cfa=1,Cfr=10,Ptar=0.01,以最小檢測(cè)代價(jià)函數(shù)(minDCF)作為系統(tǒng)性能的評(píng)測(cè)標(biāo)準(zhǔn)。

        3.3實(shí)驗(yàn)結(jié)果

        表1給出了基線系統(tǒng)在不同測(cè)試時(shí)長(zhǎng)下的EER和MinDCF。從表1的數(shù)據(jù)可以發(fā)現(xiàn),基線系統(tǒng)在測(cè)試時(shí)長(zhǎng)為全時(shí)長(zhǎng)時(shí),性能最佳,隨著測(cè)試時(shí)長(zhǎng)變短,性能會(huì)大幅下降。

        表2給出了GPLDA在不同測(cè)試時(shí)長(zhǎng)的EER和MinDCF。從表2的數(shù)據(jù)同樣可以看出,GPLDA系統(tǒng)性能隨著時(shí)長(zhǎng)變短而下降,與表1的數(shù)據(jù)作對(duì)比,當(dāng)測(cè)試時(shí)長(zhǎng)為全時(shí)長(zhǎng)時(shí),GPLDA系統(tǒng)性能相對(duì)提高了57%,當(dāng)測(cè)試時(shí)長(zhǎng)變短,GPLDA系統(tǒng)的性能平均相對(duì)提升了40%,特別是當(dāng)測(cè)試時(shí)長(zhǎng)為5 s時(shí),性能相對(duì)提升只有32%,遠(yuǎn)小于全時(shí)長(zhǎng)的性能提升。這表明GPLDA并不能很好地對(duì)時(shí)長(zhǎng)信息進(jìn)行建模。

        表1 基線系統(tǒng)的EER和MinDCF時(shí)長(zhǎng)/sEER/%MinDCF55.210.0159103.650.0115302.780.0089full2.240.0082表2 GPLDA系統(tǒng)[9]的EER和MinDCF時(shí)長(zhǎng)/sEER/%MinDCF53.510.0141102.250.0093301.380.0055full0.960.0047

        表3 改進(jìn)系統(tǒng)的EER和MinDCF

        表3給出了本文改進(jìn)系統(tǒng)在不同測(cè)試時(shí)長(zhǎng)下的EER和MinDCF。表3與表2作對(duì)比可以發(fā)現(xiàn),當(dāng)測(cè)試時(shí)長(zhǎng)為全時(shí)長(zhǎng)時(shí),改進(jìn)系統(tǒng)與傳統(tǒng)GPLDA系統(tǒng)的性能幾乎沒(méi)有發(fā)生變化,當(dāng)測(cè)試語(yǔ)音時(shí)長(zhǎng)變短,改進(jìn)系統(tǒng)相對(duì)于傳統(tǒng)GPLDA系統(tǒng),性能平均提升7.2%,這表明改進(jìn)系統(tǒng)利用時(shí)長(zhǎng)信息可以有效地對(duì)時(shí)長(zhǎng)失配進(jìn)行補(bǔ)償。

        4 結(jié)論

        本文考慮到注冊(cè)語(yǔ)音與測(cè)試語(yǔ)音時(shí)長(zhǎng)失配情況下的差異信息,提出估計(jì)時(shí)長(zhǎng)差異信息的方法,并將此差異信息融入PLDA模型,從而提高PLDA模型對(duì)時(shí)長(zhǎng)差異的魯棒性。在NIST數(shù)據(jù)集上的實(shí)驗(yàn)證實(shí),本文的方法相對(duì)于基線系統(tǒng)性能平均提升47.5%,相對(duì)于PLDA模型系統(tǒng)也有平均7.2%的提升。

        [1] REYNOLDS D A, QUATIERI T F, DUNN R B. Speaker verification using adapted Gaussian mixture models [J]. Digital Signal Processing, 2000, 10(1): 19-41.

        [2] CAMPBELL W M, STURIM D E, REYNOLDS D A. Sup port vector machines using GMM supervectors for speaker verification[J]. Signal Processing Letters, IEEE, 2006, 13(5): 308-311.

        [3] KENNY P, BOULIANNE G, OUELLET P, et al. Joint factor analysis versus eigenchannels in speaker recognition[J]. Audio, Speech, and Language Processing, IEEE Transactions on, 2007, 15(4): 1435-1447.

        [4] DEHAK N. Discriminative and generative ap proaches for long-and short-term speaker characteristics modeling: application to speaker verification[D]. Canada: Ecole de Technologie Superieure, 2009.

        [5] DEHAK N, KENNY P, DEHAK R, et al. Front-end factor analysis for speaker verification[J]. Audio, Speech, and Language Processing, IEEE Transactions on, 2011, 19(4): 788-798.

        [6] KENNY P. Bayesian speaker verification with heavy-tailed priors[C].Odyssey Speaker and Language Recogntion Workshop, 2010: 14.

        [7] CUMANI S, PLCHOT O, LAFACE P. On the use of i-vector posterior distributions in Probabilistic Linear Discriminant Analysis[J]. Audio, Speech, and Language Processing, IEEE/ACM Transactions on, 2014, 22(4): 846-857.

        [8] RAO W, MAK M W. Boosting the performance of i-vector based speaker verification via utterance partitioning [J]. Audio, Speech, and Language Processing, IEEE Transactions on, 2013, 21(5): 1012-1022.

        [9] SARKAR A K, MATROUF D, BOUSQUET P M, et al. Study of the effect of i-vector modeling on short and mismatch utterance duration for speaker verification[C].Interspeech, 2012: 2662-2665.

        [10] HASAN T, SAEIDI R, HANSEN J H L, et al. Duration mismatch compensation for i-vector based speaker recognition systems[C].Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on. IEEE, 2013: 7663-7667.

        [11] KANAGASUNDARAM A, DEAN D, SRIDHARAN S, et al. Improving short utterance i-vector speaker verification using utterance variance modelling and compensation techniques[J]. Speech Communication, 2014, 59: 69-82.

        [12] PRINCE S J D, ELDER J H. Probabilistic linear dis criminant analysis for inferences about identity[C].Computer Vision, 2007. ICCV 2007. IEEE 11th International Conference on. IEEE, 2007: 1-8.

        [13] BISHOP C M. Pattern recognition and machine learning [M]. springer, 2006.

        [14] GARCIA-ROMERO D, ESPY-WILSON C Y. Analysis of i-vector length normalization in speaker recognition systems[C].Interspeech, 2011: 249-252.

        [15] CHEN L, LEE K A, MA B, et al. Channel adaptation of plda for text-independent speaker verification[C].Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on. IEEE, 2015: 5251-5255.

        [16] NIST. The NIST 2006 speaker recognition evaluation [EB/OL].(2006-xx-xx)[2016-01-04]http://www.itl.nist.gov/iad/mig/test/sre/2006/index.html,2006.

        Utilizing duration information to improve the robustness of speaker verification system

        Hu Qunwei,Wu Minghui,Li Hui

        (Department of Electronic Science and Technology, University of Science and Technology of China, Hefei 230027, China)

        The approaches based on total variability space have become popular in text-independent speaker verification, and the probabilistic linear discriminant analysis (PLDA) has attracted much attention because of its promising performance. However the traditional PLDA model don’t consider duration information between enrollment utterance and test utterance under the duration mismatch, thus it can’t solve the problem of system performance degradation incurred by duration mismatch. In this paper, a method is proposed to estimate duration variance information, where the duration variance information is integrated into the PLDA model, resulting in improving robustness to duration variability. Experiments on NIST database show that the proposed method is more effective to improve the performance of speaker verification system compared to the PLDA method.

        speaker verification; I-Vector system; Probabilistic Linear Discriminant Analysis(PLDA); duration mismatch; duration variance information

        TP391

        A

        10.19358/j.issn.1674- 7720.2016.11.017

        2016-01-14)

        胡群威(1989-),通信作者,男,碩士研究生,主要研究方向:說(shuō)話人識(shí)別。E-mail:hqw2607@mail.ustc.edu.cn。

        吳明輝(1990-),男,碩士研究生,主要研究方向:說(shuō)話人識(shí)別。

        李輝(1959-),男,博士,副教授,主要研究方向:語(yǔ)音信號(hào)處理,電子系統(tǒng)設(shè)計(jì)。

        猜你喜歡
        高斯分布信道語(yǔ)音
        利用Box-Cox變換對(duì)移動(dòng)通信中小區(qū)級(jí)業(yè)務(wù)流量分布的研究
        2種非對(duì)稱廣義高斯分布模型的構(gòu)造
        魔力語(yǔ)音
        基于MATLAB的語(yǔ)音信號(hào)處理
        電子制作(2019年14期)2019-08-20 05:43:38
        基于MQ3與MP3的價(jià)廉物美的酒駕語(yǔ)音提醒器
        電子制作(2019年9期)2019-05-30 09:42:10
        對(duì)方正在輸入……
        一種基于改進(jìn)混合高斯模型的前景檢測(cè)
        基于導(dǎo)頻的OFDM信道估計(jì)技術(shù)
        一種改進(jìn)的基于DFT-MMSE的信道估計(jì)方法
        基于MED信道選擇和虛擬嵌入塊的YASS改進(jìn)算法
        伊人色综合九久久天天蜜桃| 手机在线免费av资源网| 午夜精品久久久久久久无码| 国产zzjjzzjj视频全免费| 丝袜美腿网站一区二区| 中文字幕日韩精品中文字幕| 色窝窝亚洲av网在线观看| 国产精品三级在线观看无码| 亚洲高清在线不卡中文字幕网| 少妇人妻在线伊人春色| 久久久久99人妻一区二区三区| 国产农村乱子伦精品视频| 91视频爱爱| a级三级三级三级在线视频| 深夜爽爽动态图无遮无挡| 国产精品高潮呻吟av久久4虎| 亚洲欧洲AV综合色无码| 久久91精品国产一区二区| 亚洲av无码久久| 亚洲无码精品免费片| 久久免费精品视频老逼| 精品国产精品久久一区免费式| 国精品无码一区二区三区在线蜜臀 | 自由成熟女性性毛茸茸应用特色| 无码人妻人妻经典| 久久久久久人妻精品一区百度网盘 | 国产大片在线观看三级| av高清在线不卡直播| 又污又爽又黄的网站| 91青草久久久久久清纯| 午夜视频一区二区三区四区| 色欲aⅴ亚洲情无码av| 五月天激情综合网| 一本大道加勒比东京热| 夜夜高潮夜夜爽夜夜爱爱一区| 国产自偷亚洲精品页65页| 亚洲欧美香港在线观看三级片 | 婷婷开心五月综合基地| 一本一道久久精品综合| 人妻献身系列第54部| 亚洲AVAv电影AV天堂18禁 |