亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

?

基于i-vector全局參數(shù)聯(lián)合的說(shuō)話人識(shí)別

2021-03-11 02:04:48楊明亮邵玉斌杜慶治

重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版) 2021年1期

關(guān)鍵詞：特征差異模型

楊明亮，龍華，邵玉斌，杜慶治

(昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院，昆明 650500)

0 引言

利用聲紋這一生物特征實(shí)現(xiàn)說(shuō)話人的身份識(shí)別已成為身份認(rèn)證的重要手段，目前這一技術(shù)已取得了一定成效并成功應(yīng)用于國(guó)防安全、門禁安全、智能產(chǎn)品語(yǔ)音喚醒以及司法認(rèn)證等領(lǐng)域。T. L. New等[1]提出利用隱馬爾科夫模型(hidden Markov model，HMM)進(jìn)行語(yǔ)音情感識(shí)別。R.C.Rose和D.A.Reynolds等又提出了高斯混合模型(Gaussian mixture model，GMM)，并由此延拓出相關(guān)的組合模型，如高斯混合深度神經(jīng)網(wǎng)絡(luò)模型[2](GMM-DNN)、高斯混合支持向量機(jī)模型[3](GMM-SVM)、通用背景高斯混合模型[4](GMM-UBM)等。再者，Dehak提出了i-vector說(shuō)話人識(shí)別方法。

目前以GMM-UBM模型與i-vector模型為主流的說(shuō)話人識(shí)別方法，D.A.Reynolds認(rèn)為過(guò)去的說(shuō)話人識(shí)別嚴(yán)重依賴于說(shuō)話人的語(yǔ)音數(shù)據(jù)，希望通過(guò)訓(xùn)練大量無(wú)關(guān)說(shuō)話人語(yǔ)音獲得一個(gè)通用的說(shuō)話人模型，再用少量的特定說(shuō)話人語(yǔ)音數(shù)據(jù)對(duì)通用模型進(jìn)行調(diào)整以得到說(shuō)話人識(shí)別模型，即GMM-UBM。在GMM-UBM說(shuō)話人識(shí)別模型中假定說(shuō)話人的所有信息均存在于混合高斯函數(shù)的超矢量[5](Gaussian super vector，GSV))中。文獻(xiàn)[6]提出了基于高斯均值超矢量的聯(lián)合因子分析方法(joint factor analysis，JFA),認(rèn)為均值超矢量中包含了說(shuō)話差異和信道差異，故需要對(duì)說(shuō)話人和信道進(jìn)行分別建模從而去除信道干擾。然而Dehak認(rèn)為信道因子中也會(huì)攜帶部分說(shuō)話人的信息，在進(jìn)行補(bǔ)償?shù)耐瑫r(shí)會(huì)損失一部分說(shuō)話人信息，所以，Dehak[7]提出了全局差異空間模型(total variability model，TVM)，將說(shuō)話人差異和信道差異作為一個(gè)整體進(jìn)行建模，這種方法改善了JFA對(duì)訓(xùn)練語(yǔ)料的要求和計(jì)算復(fù)雜度高的問(wèn)題。針對(duì)信道差異問(wèn)題還提出了線性判別分析[8](liner discriminate analysis，LDA)、概率線性判別分析[9](probability liner discriminate analysis，PLDA)等信道補(bǔ)償技術(shù)，其中以PLDA效果最佳。除此，也有如文獻(xiàn)[10]所述方法對(duì)語(yǔ)音進(jìn)行增強(qiáng)，以提高最終的識(shí)別性能。

i-vector將高斯均值超矢量通過(guò)全局差異空間矩陣映射為低維表示，消除了與說(shuō)話人識(shí)別無(wú)關(guān)的信息[11](如信道空間、說(shuō)話內(nèi)容以及情感等)，相比GMM-UBM模型有了較大改進(jìn)，但存在說(shuō)話人特征的高維均值超矢量與低維隱空間映射關(guān)系并非簡(jiǎn)單的線性映射關(guān)系，PLDA對(duì)說(shuō)話人模型的訓(xùn)練和評(píng)分[12]并未充分考慮數(shù)據(jù)匹配的問(wèn)題。故本文提出了全局聯(lián)合差異空間與聯(lián)合信道補(bǔ)償?shù)腜LDA的GPJ-IV說(shuō)話人識(shí)別模型。

1 聲紋特征識(shí)別方法

1.1 高斯超矢量方法

基于高斯超矢量的說(shuō)話人識(shí)別由最初的GMM模型拓展成現(xiàn)在的GMM-UBM模型[13]，其前提假設(shè)為同一個(gè)人的同一維度特征在時(shí)間序列上近似滿足高斯分布，故在此前提下便可利用C個(gè)k維高斯近似逼近真實(shí)分布(混合高斯數(shù)目越多其越逼近真實(shí)分布，但計(jì)算量也相應(yīng)增大)，如(1)式為混合高斯表現(xiàn)形式

(1)

GMM-UBM模型其核心思想為首先通過(guò)訓(xùn)練大量說(shuō)話人語(yǔ)音特征(不一定是訓(xùn)練人的語(yǔ)音)獲取一個(gè)通用的說(shuō)話人模型，其次利用少量的訓(xùn)練人語(yǔ)音特征在UBM基礎(chǔ)上運(yùn)用最大后驗(yàn)概率[14](maximum a posteriori，MAP)估計(jì)算法自適應(yīng)得到各個(gè)說(shuō)話人的模型，最后將測(cè)試人的音頻特征通過(guò)UBM自適應(yīng)得到說(shuō)話人的超矢量特征，與訓(xùn)練好的說(shuō)話人模型進(jìn)行對(duì)比并給出評(píng)分，根據(jù)評(píng)分判決測(cè)試者身份。圖1為GMM-UBM說(shuō)話人識(shí)別流程。

圖1 GMM-UBM說(shuō)話人識(shí)別流程Fig.1 GMM-UBM speaker recognition process

1.2 全局差異空間方法

Kenny[15]根據(jù)GMM-UBM模型提出了基于GSV的聯(lián)合因子分析方法,其相關(guān)估計(jì)算法可參見(jiàn)文獻(xiàn)[16]。Dehak針對(duì)聯(lián)合因子分析方法進(jìn)一步優(yōu)化得到全局差異空間模型，將本征信道空間矩陣定義的信道空間看做為一個(gè)空間，它既包含了說(shuō)話者之間的差異又包含了信道間的差異[17]。給定說(shuō)話人的一段語(yǔ)音，與之對(duì)應(yīng)的高斯均值超矢量可以定義為

Msh=m+Tw+ε

(2)

(2)式中：Msh為第s個(gè)人的第h條語(yǔ)音特征的GSV；m為通用背景模型(UBM)訓(xùn)練得到的高斯均值超矢量；Msh與m矩陣維度都為Ck×1；T為全局差異空間矩陣，又叫映射矩陣；w為全局差異空間因子，它的后驗(yàn)均值即為i-vector矢量，其先驗(yàn)地服從標(biāo)準(zhǔn)正態(tài)分布;ε為殘差。由(2)式可知，最終需要的是w，但全局差異空間矩陣T未知情況下是無(wú)法獲取w即i-vector矢量，因此，先求解T矩陣。為了消除原始的音頻特征中的冗余信息，故首先計(jì)算背景數(shù)據(jù)庫(kù)中每個(gè)說(shuō)話人所對(duì)應(yīng)的Baum-Welch統(tǒng)計(jì)量[17]用于接下來(lái)訓(xùn)練總體變化子空間矩陣T，其公式分別如下

(3)

(4)

(5)

(3)—(5)式中：Nc(s)，F(xiàn)c(s)，Sc(s)分別為給定說(shuō)話人s第c個(gè)高斯的零階、一階、二階統(tǒng)計(jì)量；γt(c)表示t時(shí)刻對(duì)于給定特征向量yt第c個(gè)高斯的后驗(yàn)概率，其計(jì)算公式為

(6)

(6)式中：wc為UBM模型中第c個(gè)高斯的權(quán)重；pc(yt)有如下定義式

pc(yt)=N(yt|uc,δc)

(7)

在獲取高斯混合模型的充分統(tǒng)計(jì)量后，首先隨機(jī)初始化T矩陣，其次根據(jù)EM算法[18-19]進(jìn)行迭代(一般迭代5～7次便可收斂)，其計(jì)算步驟如下。

E步驟：對(duì)給定說(shuō)話人s的第h段語(yǔ)音，定義Ls為中間變量并有

Ls=I+TTΣ-1N(s)T

(8)

(8)式中，N(s)為Nc(s)的對(duì)角拼接Ck×Ck維矩陣，給定說(shuō)話人s的語(yǔ)音特征矢量和參數(shù)集(T,Σ)條件下，總變化因子w的一階二階統(tǒng)計(jì)量分別為

E(ws)=Ls-1TTΣ-1F(s)

(9)

(10)

(9)—(10)式中：F(s)為Fc(s)的對(duì)角拼接Ck矢量，Σ分別為UBM模型的協(xié)方差矩陣。

M步驟：T矩陣迭代更新公式如下

(11)

進(jìn)而更新UBM模型的協(xié)方差矩陣Σ(實(shí)驗(yàn)證明，只更新協(xié)方差而不更新均值效果更好些)

(12)

依據(jù)(3)—(12)式反復(fù)迭代至收斂即可。圖2為基于全局差異空間的說(shuō)話人識(shí)別流程。

圖2 全局差異空間的說(shuō)話人識(shí)別流程Fig.2 Speaker recognition process in global difference space

2 i-vector全局參數(shù)聯(lián)合

2.1 全局聯(lián)合聲紋特征提取

基于因子分析理論的說(shuō)話人識(shí)別可知，在整個(gè)說(shuō)話人識(shí)別流程中，全局差異空間矩陣的求解至關(guān)重要，其矩陣相當(dāng)于低維隱空間的基坐標(biāo)并直接決定說(shuō)話人特征的充分統(tǒng)計(jì)量在低維空間的表現(xiàn)形式，進(jìn)而影響最終的說(shuō)話人評(píng)分。理論上用足夠多的說(shuō)話人特征和足夠多的迭代次數(shù)訓(xùn)練全局差異空間矩陣可獲得理想的矩陣結(jié)果，但事實(shí)上我們通常無(wú)法獲取充足的說(shuō)話人特征，故針對(duì)此類問(wèn)題本文提出聯(lián)合全局差異空間建模進(jìn)行聲紋特征提取，圖3為全局聲紋特征提取流程。

步驟1分別對(duì)背景語(yǔ)音和訓(xùn)練語(yǔ)音進(jìn)行短時(shí)特征提取。

步驟2將背景特征用于訓(xùn)練得到UBM模型。

步驟3將背景特征和訓(xùn)特征分別通過(guò)UBM模型自適應(yīng)得到高斯超矢量GSV1和GSV2。

步驟4將GSV1通過(guò)隨機(jī)初始化全局差異空間的T1矩陣,利用EM算法迭代幾次即可獲得收斂的T1矩陣。

步驟5將T1矩陣作為訓(xùn)練音頻短時(shí)特征空間的初始化矩陣，通過(guò)幾次EM算法迭代即可獲得收斂的T2矩陣。

步驟6根據(jù)T1,T2隱空間分別提取訓(xùn)練特征的聲紋特征iv1與iv2并進(jìn)行全局聯(lián)合得到新的聲紋特征即

iv=q×iv1+(1-q)×iv2

(13)

(13)式中，iv為根據(jù)全局差異空間T1,T2以及加權(quán)系數(shù)q(實(shí)驗(yàn)測(cè)試所得經(jīng)驗(yàn)值，取值過(guò)程在實(shí)驗(yàn)部分給出)計(jì)算出來(lái)的全局聯(lián)合聲紋特征，增強(qiáng)所提取特征的魯棒性。

圖3 全局聲紋特征提取流程Fig.3 Global voiceprint feature extraction process

2.2 聯(lián)合信道補(bǔ)償

因?yàn)榛谌植町惪臻g的說(shuō)話人識(shí)別是將說(shuō)話人和信道看為一個(gè)整體，這使得提取出的i-vector可能并非最優(yōu)說(shuō)話人特征，所以對(duì)于提取出的i-vector進(jìn)行信道補(bǔ)償是有必要的。眾多信道補(bǔ)償算法中PLDA效果最佳，但眾多的i-vector模型中直接利用背景數(shù)據(jù)訓(xùn)練得到PLDA模型用于最終的似然評(píng)分中勢(shì)必造成測(cè)試數(shù)據(jù)與已訓(xùn)練模型不匹配的問(wèn)題，其PLDA模型表達(dá)式為

xij=u+Fhi+Gwij+εij

(14)

(14)式中：xij為i-vector矢量；u為i-vector的訓(xùn)練均值；F為用于描述說(shuō)話人特征的說(shuō)話人空間；hi為說(shuō)話人空間對(duì)應(yīng)的說(shuō)話人因子；G為用于描述信道特征的信道空間；wij為信道空間對(duì)應(yīng)的信道因子；εij為殘差因子。hi與wij服從N(0,I)分布。(14)式用信道和說(shuō)話人刻畫(huà)了i-vector，但實(shí)際中我們只關(guān)心說(shuō)話人之間的類間特征，不關(guān)心同一說(shuō)話人不同音頻段的類內(nèi)特征，故可得簡(jiǎn)化的PLDA表達(dá)式

xij=u+Fhi+εij

(15)

(15)式中：h服從N(0,1)；ε服從N(0,Σ)分布(Σ為數(shù)據(jù)的協(xié)方差)，由此PLDA簡(jiǎn)化成了θ={u,F,Σ}參數(shù)估計(jì)，初始化參數(shù)后使用EM算法迭代幾次即可獲得收斂數(shù)值的參數(shù)。

為了盡可能使最終的測(cè)試數(shù)據(jù)與訓(xùn)練模型相匹配，這里引入全局PLDA參數(shù)聯(lián)合，即

(16)

PLDA.u=(1-λ)×PLDA1.u+λ×PLDA2.u

(17)

PLDA.Σ=(1-λ)×PLDA1.Σ+

λ×PLDA2.Σ

(18)

(16)—(18)式中：λ表示依據(jù)背景特征數(shù)據(jù)和訓(xùn)練特征數(shù)據(jù)量的比值計(jì)算權(quán)值系數(shù)(可根據(jù)實(shí)際情況適當(dāng)調(diào)參)；N1為背景語(yǔ)音特征數(shù)據(jù)量；N2為訓(xùn)練語(yǔ)音特征數(shù)據(jù)量；roundn表示四舍五入取值；a表示保留的小數(shù)位數(shù)；PLDA1與PLDA2分別為背景數(shù)據(jù)與訓(xùn)練數(shù)據(jù)訓(xùn)練得到的PLDA結(jié)構(gòu)體。

3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

3.1 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)環(huán)境配置如表1。

表1 實(shí)驗(yàn)環(huán)境配置

本實(shí)驗(yàn)中為了測(cè)試不同語(yǔ)種以及方言對(duì)于說(shuō)話人識(shí)別的影響，實(shí)驗(yàn)所采用的數(shù)據(jù)為TIMIT語(yǔ)音庫(kù)、THCHS30語(yǔ)音庫(kù)、2018方言種類識(shí)別AI挑戰(zhàn)賽語(yǔ)音庫(kù)(dialect recognition contest，DRC)3種，語(yǔ)音采樣率為fs=16 000 Hz，單通道的wav音頻文件，每句語(yǔ)音時(shí)長(zhǎng)為4～7 s左右。在訓(xùn)練通用背景模型中采用了大量TIMIT與DRC數(shù)據(jù)庫(kù)中的語(yǔ)音，而對(duì)于THCHS30語(yǔ)音庫(kù)中的語(yǔ)音并未加入，以便分析語(yǔ)種是否影響說(shuō)話人識(shí)別。其中，TIMIT語(yǔ)音庫(kù)包含美國(guó)8個(gè)地區(qū)630個(gè)說(shuō)話人語(yǔ)音，每人10句英語(yǔ)語(yǔ)音；THCHS30語(yǔ)音庫(kù)包含20個(gè)來(lái)自中國(guó)各地的說(shuō)話人語(yǔ)音，每人10句普通話；DRC語(yǔ)音庫(kù)包含中國(guó)10個(gè)方言地區(qū)的350個(gè)說(shuō)話人，每人10句中國(guó)地區(qū)方言；運(yùn)用TIMIT語(yǔ)音庫(kù)中的462個(gè)說(shuō)話人(女性140人，男性324人，每人10句)、DRC語(yǔ)音庫(kù)中300個(gè)說(shuō)話人(女性150人，男性150人，每人10句)組建的包含762個(gè)說(shuō)話人7 620句語(yǔ)音的語(yǔ)音庫(kù)分別訓(xùn)練UBM模型和全局差異空間矩陣T1。實(shí)驗(yàn)訓(xùn)練數(shù)據(jù)包含TIMIT語(yǔ)音庫(kù)中的168個(gè)說(shuō)話人(女性52人，男性114人，每人9句)、THCHS30語(yǔ)音庫(kù)中20個(gè)說(shuō)話人(女性18人，男性2人，每人9句)、DRC語(yǔ)音庫(kù)中50個(gè)說(shuō)話人(女性30人，男性20人，每人9句)構(gòu)建的語(yǔ)音庫(kù)用于訓(xùn)練全局差異空間矩陣T2以及說(shuō)話人模型，剩下238人每人一句的語(yǔ)音用于測(cè)試。

表2 語(yǔ)音庫(kù)的分配設(shè)置

本文實(shí)驗(yàn)流程包括如下4部分。

1)語(yǔ)音預(yù)處理。對(duì)原始語(yǔ)音進(jìn)行端點(diǎn)檢測(cè)(因?yàn)檎f(shuō)話人識(shí)別跟說(shuō)話內(nèi)容、情感、語(yǔ)速等參量無(wú)關(guān)，本文采用譜熵法端點(diǎn)檢測(cè)，實(shí)驗(yàn)測(cè)試效果比雙門限端點(diǎn)檢測(cè)方法效果好)；對(duì)端點(diǎn)檢測(cè)后的語(yǔ)音進(jìn)行預(yù)加重(對(duì)語(yǔ)音的高頻部分進(jìn)行加重，去除口唇輻射的影響，增加語(yǔ)音的高頻分辨率，本文設(shè)置的預(yù)加重因子為0.935)；分幀(本實(shí)驗(yàn)幀長(zhǎng)為512個(gè)數(shù)據(jù)點(diǎn)、幀步長(zhǎng)為256個(gè)數(shù)據(jù)點(diǎn))。

2)特征提取。實(shí)驗(yàn)采用的音頻特征類型有36維的梅爾倒譜系數(shù)(Mel frequency cepstral coefficents，MFCC)特征參數(shù)(其中包括12維倒譜與12的一階和二階倒譜)、24維的線譜對(duì)(line spectrum pair，LSP)特征參數(shù)、音頻特征組(audio feature set，AFS)特征參數(shù)(包括短時(shí)能量、短時(shí)平均幅度差函數(shù)、幀基音周期、頻譜質(zhì)心、頻譜帶寬、頻譜差分幅度、以及第1、第2、第3共振峰9個(gè)參數(shù)組成)。

3)模型訓(xùn)練。實(shí)驗(yàn)搭建了聯(lián)合聲紋特征iv、聯(lián)合信道補(bǔ)償PLDA以及IV-GPC模型分別進(jìn)行訓(xùn)練，同時(shí)選取目前最為主流的2類說(shuō)話人識(shí)別模型作為對(duì)比即GMM-UBM模型與i-vector模型。模型中相關(guān)混合高斯數(shù)目均設(shè)置為32。

4)說(shuō)話人測(cè)試。將238個(gè)說(shuō)話人的語(yǔ)音特征分別送入已訓(xùn)練好的238說(shuō)話人模型進(jìn)行238×238次評(píng)分測(cè)試，評(píng)分最高的說(shuō)話人模型作為該個(gè)說(shuō)話人的識(shí)別結(jié)果。

本文所采用的性能評(píng)價(jià)指標(biāo)為等錯(cuò)誤率(equal error rate，EER)與最小檢測(cè)代價(jià)準(zhǔn)則(minimum detection cost function 2010, DCF10)[19],其值越小代表性能越好。最小檢測(cè)代價(jià)函數(shù)計(jì)算公式為

DCF=CFREFRPtarget+CFAEFA(1-Ptarget)

(19)

(19)式中：CFR與CFA分別為錯(cuò)誤拒絕率EFR和錯(cuò)誤接受率EFA的懲罰系數(shù)；Ptarget，(1-Ptarget)分別為真實(shí)說(shuō)話測(cè)試和冒充測(cè)試的先驗(yàn)概率，這里參數(shù)采用NIST SRE2010設(shè)定的CFR=1，CFA=1，Ptarget=0.001參數(shù)。

因?yàn)镸indcf不僅考慮錯(cuò)拒絕和錯(cuò)誤接收的不同代價(jià)，還充分考慮到測(cè)試情況的先驗(yàn)概率，在對(duì)模型性能評(píng)價(jià)上Mindcf比EER更合理，故依據(jù)Mindcf10實(shí)驗(yàn)值選取(13)式中的全局差異空間的權(quán)值系數(shù)q。

表3為MFCC特征對(duì)于6組實(shí)驗(yàn)，q為0.3時(shí)，Mindcf10取得最小值；MFCC+LSP特征相對(duì)應(yīng)的Mindcf10取得最小值時(shí)，q為0.2；MFCC+LSP+ASF對(duì)應(yīng)的Mindcf10取得最小值時(shí)，q為0.4；不同的特征其模型性能所對(duì)應(yīng)的權(quán)值大小有細(xì)微不同，為了實(shí)驗(yàn)仿真測(cè)試統(tǒng)一，下述所對(duì)于全局差異空間權(quán)值q均取0.3。

表3 全局差異空間的權(quán)值系數(shù)選定

3.2 實(shí)驗(yàn)測(cè)試

本實(shí)驗(yàn)共設(shè)計(jì)了3類不同組合特征的實(shí)驗(yàn)，每類實(shí)驗(yàn)又分為5個(gè)不同說(shuō)話人識(shí)別模型的對(duì)比實(shí)驗(yàn)，其中聯(lián)合PLDA模型為i-vector信道自適應(yīng)補(bǔ)償模型，聯(lián)合iv模型為i-vector基于全局聯(lián)合空間提取的聲紋特征識(shí)別模型，GPJ-IV為本文所提出i-vector全局參數(shù)聯(lián)合的說(shuō)話人識(shí)別模型。表4，表5，表6分別為不同特征組合以及在不同說(shuō)話人識(shí)別模型上的性能測(cè)試與仿真時(shí)間對(duì)比測(cè)試。

表4 MFCC特征的性能測(cè)試

表5 MFCC+LSP組合特征的性能測(cè)試

表6 MFCC+LSP+ASF組合特征的性能測(cè)試

圖4、圖5、圖6分別為MFCC，MFCC+LSP，MFCC+LSP+ASF特征組合238個(gè)說(shuō)話人語(yǔ)音送入238個(gè)訓(xùn)練好的說(shuō)話人模型進(jìn)行了238×238次的似然評(píng)分可視化展示，其中，橫坐標(biāo)為不同的測(cè)試人，數(shù)值代表測(cè)試人的標(biāo)簽號(hào)；縱坐標(biāo)為經(jīng)過(guò)訓(xùn)練的不同說(shuō)話人模板，數(shù)值代表不同模板標(biāo)簽號(hào)。

圖4 MFCC特征的說(shuō)話人似然評(píng)分Fig.4 Speaker likelihood score based on MFCC

圖5 MFCC+LSP特征的說(shuō)話人似然評(píng)分Fig.5 Speaker likelihood score based on MFCC+LSP

圖6 MFCC+LSP+ASF特征的說(shuō)話人似然評(píng)分Fig.6 Speaker likelihood score based on MFCC+LSP+ASF

3.3 實(shí)驗(yàn)分析

由表4可知，MFCC特征送入不同說(shuō)話人識(shí)別模型的測(cè)試結(jié)果中，其EER性能提高了59.3%，MinDcf10性能提高了11.4%。通過(guò)表5測(cè)試結(jié)果可知，MFCC+LSP組合特征送入不同測(cè)試結(jié)果中EER性能提高了62.7 %,MinDcf10性能也提高了17.7%。由表6可知，將特征組合MFCC+LSP+ASF送入不同說(shuō)話人識(shí)別模型中其測(cè)試結(jié)果EER性能提升了54.7% ，MinDcf10性能也提高了18.5%。由表5和表4對(duì)比可知，MFCC+LSP組合特征相比于單一MFCC 特征不管對(duì)于i-vector說(shuō)話人識(shí)別模型還是對(duì)于本文提出的GPJ-IV說(shuō)話人識(shí)別模型在性能上都有較大的提升。表6與表4和表5實(shí)驗(yàn)結(jié)果分別對(duì)比可知，MFCC+LSP+ASF組合特征相對(duì)單一MFCC特征和MFCC+LSP組合特征，對(duì)于i-vector說(shuō)話人識(shí)別模型和本文提出的GPJ-IV說(shuō)話人識(shí)別模型在性能上也都有所提升，由此可分析得出其相對(duì)于MFCC+LSP組合特征所增加的特征組ASF確實(shí)為有效特征。分析表4—表6中的仿真Cost time(s)可知(注：此處計(jì)算的耗時(shí)僅為說(shuō)話人特征送入模型進(jìn)行識(shí)別的耗時(shí))，同一特征不同模型條件下，GPJ-IV模型的耗時(shí)為i-vector模型的2倍左右，其原因?yàn)楸疚奶岢龅腉PJ-IV模型分別計(jì)算了基于全局差異空間T1,T2的說(shuō)話人特征向量；同一模型不同特征條件下，維度越大，其計(jì)算量越耗時(shí)，與理論符合；其中識(shí)別效果最好的為基于MFCC+LSP+ASF特征的GPJ-IV模型，238人的識(shí)別耗時(shí)為12.954 6 s，人均識(shí)別耗時(shí)為55 ms，滿足說(shuō)話人實(shí)時(shí)識(shí)別要求。圖4、圖5、圖6分別展示了238說(shuō)話人不同特征在不同訓(xùn)練好的238說(shuō)話人模型中的似然評(píng)分，3個(gè)圖對(duì)比可知其明晰度為MFCC

4 結(jié) 論

通過(guò)實(shí)驗(yàn)測(cè)試結(jié)果分析可知，本文提出的基于i-vector全局參數(shù)聯(lián)合的GPJ-IV模型對(duì)于i-vector說(shuō)話人識(shí)別有較大的改進(jìn)，并且通過(guò)分析實(shí)驗(yàn)結(jié)果可知，特征參數(shù)的選取和處理在整個(gè)說(shuō)話人識(shí)別模型中起著不可替代的作用。并且從最終的似然評(píng)分中展示圖中可見(jiàn)，不同語(yǔ)種的在同一說(shuō)話人識(shí)別模型中性能也不一樣，針對(duì)說(shuō)話人識(shí)別問(wèn)題應(yīng)充分考慮說(shuō)話人識(shí)別的機(jī)制，排除干擾因素(如說(shuō)話人語(yǔ)速、情感、語(yǔ)種等)，突出說(shuō)話人特點(diǎn)(如語(yǔ)音的整體特征、基音等)，其次對(duì)于i-vector說(shuō)話人識(shí)別模型其關(guān)鍵是全局差異空間矩陣的求解和利用,即說(shuō)話人特征的低維隱空間的基坐標(biāo)。再者應(yīng)充分考慮數(shù)據(jù)平衡即背景模型數(shù)據(jù)和訓(xùn)練測(cè)試數(shù)據(jù)的平衡，進(jìn)而充分利用已有數(shù)據(jù)提高說(shuō)話人識(shí)別率。

猜你喜歡

特征差異模型

童話王國(guó)·奇妙邏輯推理(2024年5期)2024-06-19 16:03:38

相似與差異

音樂(lè)探索(2022年2期)2022-05-30 21:01:37

重要模型『一線三等角』

中學(xué)生數(shù)理化·七年級(jí)數(shù)學(xué)人教版(2020年10期)2020-11-26 08:24:50

重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布

數(shù)學(xué)物理學(xué)報(bào)(2020年2期)2020-06-02 11:29:24

如何表達(dá)“特征”

瘋狂英語(yǔ)·新策略(2019年10期)2019-12-13 08:43:28

找句子差異

小天使·一年級(jí)語(yǔ)數(shù)英綜合(2019年8期)2019-08-27 02:23:00

不忠誠(chéng)的四個(gè)特征

當(dāng)代陜西(2019年10期)2019-06-03 10:12:04

生物為什么會(huì)有差異?

小學(xué)科學(xué)(學(xué)生版)(2018年7期)2018-08-13 09:33:04

抓住特征巧觀察

數(shù)學(xué)小靈通·3-4年級(jí)(2017年9期)2017-10-13 08:10:54

3D打印中的模型分割與打包

光學(xué)精密工程(2016年6期)2016-11-07 09:07:19

重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版)2021年1期

重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版)的其它文章: 一種融合虛擬機(jī)選擇的虛擬機(jī)放置方法; 基于GPU的高吞吐量QC-LDPC碼編碼器實(shí)現(xiàn); 一種優(yōu)化FCN的視頻異常行為檢測(cè)定位方法; 極化碼自適應(yīng)連續(xù)消除列表比特翻轉(zhuǎn)譯碼算法; 一種極化碼聯(lián)合SC球形列表譯碼算法; 結(jié)合改進(jìn)韋伯算子和加權(quán)稀疏表示的指靜脈識(shí)別

感谢您访问我们的网站，您可能还对以下资源感兴趣：

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

亚洲无人区乱码中文字幕能看| 欧美一欧美一区二三区性| 国产精品久久久久影视不卡| 国产av一区二区三区香蕉| 亚洲精品一区三区三区在线| 亚洲欧美色一区二区三区| 婷婷综合缴情亚洲| 国产精品视频一区二区三区,| 国产在线观看一区二区三区av | 高潮毛片无遮挡高清视频播放| 亚洲啪啪综合av一区| 久久精品免视看国产盗摄 | 香蕉成人啪国产精品视频综合网 | 国产美女三级视频网站| 亚洲第一女人的天堂av| 日韩精品在线视频一二三| 中文无码一区二区三区在线观看| 欧美老妇与禽交| 久久久婷婷综合五月天| 中美日韩在线一区黄色大片| 国精品人妻无码一区免费视频电影| 国产一区二区三区美女| 午夜一区二区三区av| 成年人干逼视频水好多| 久久99精品国产麻豆不卡| 国产成人精品三级91在线影院| 少妇一区二区三区乱码| 国产一级一级内射视频| 性一交一乱一伧国产女士spa| 久久精品国产亚洲5555| 午夜视频在线观看日本| 日韩一区二区三区无码影院| 久久久久久成人毛片免费看| 中文字幕在线观看乱码一区| 久久亚洲中文字幕精品熟| 美女张开腿让男人桶爽| 久久av高潮av喷水av无码| 亚洲av区一区二区三区| 精品国品一二三产品区别在线观看 | 少妇人妻精品久久888| 亚洲av久久久噜噜噜噜|