亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于GMM非線性變換的說話人識別算法的研究*

        2017-06-01 12:19:24羅文華
        電子器件 2017年3期
        關(guān)鍵詞:識別率高斯權(quán)值

        羅文華,楊 彥,齊 健,趙 力

        (1.江蘇鹽城工業(yè)職業(yè)技術(shù)學(xué)院汽車工程學(xué)院,江蘇 鹽城 224005;2.東南大學(xué)信息科學(xué)與工程學(xué)院,南京 210096)

        基于GMM非線性變換的說話人識別算法的研究*

        羅文華1*,楊 彥1,齊 健2,趙 力2

        (1.江蘇鹽城工業(yè)職業(yè)技術(shù)學(xué)院汽車工程學(xué)院,江蘇 鹽城 224005;2.東南大學(xué)信息科學(xué)與工程學(xué)院,南京 210096)

        針對與文本無關(guān)說話人識別GMM模型中,某些非目標(biāo)模型的測試幀的模型得分可能會比較高,從而引起誤判的問題。從幀似然概率的統(tǒng)計特性出發(fā),提出了一種GMM非線性變換方法。該方法通過對每幀各模型的得分賦予不同的權(quán)值,使得得分高的模型權(quán)值大,得分低的模型權(quán)值小,由于目標(biāo)模型得分高的幀要多于其他非目標(biāo)模型,所以這樣可以提高目標(biāo)模型的總得分,降低非目標(biāo)模型的得分,從而降低誤判的可能。理論推導(dǎo)和實驗結(jié)果表明,該變換方法能夠提高GMM說話人識別的識別率。

        與文本無關(guān)說話人識別;混合高斯模型;非線性變換

        語音是每個人的自然屬性之一,由于各個說話人發(fā)音器官的生理差異以及后天的發(fā)音習(xí)慣等行為差異,每個人的語音中蘊含著各個人的個人特征[1]。說話人識別就是著眼于這種個人差異性特征,利用一定的特征描述模型和特征識別方法以達(dá)到識別說話人的目的。說話人識別按其被輸入的測試語音來分可以分為與文本有關(guān)和與文本無關(guān)的說話人識別。而與文本無關(guān)的說話人識別在今天無疑有著更廣泛的應(yīng)用。由于每個說話人的個人特征具有長時變動性,并且每個說話人的發(fā)音與環(huán)境、說話時的情緒和健康程度有密切關(guān)系,同時實際過程中還可能引入背景噪聲等干擾因素,這些都會影響與文本無關(guān)說話人識別系統(tǒng)的性能。對此,Tagashira S[2]等人提出了說話人部分空間影射的方法,提取只含有個人信息的特征進(jìn)行說話人識別,但該方法對于個人信息的長時變動沒有達(dá)到滿意的效果。Liu C S[3]等提出了基于最近冒名者的模型的方法,但因為必須計算所有的冒名者的似然函數(shù),使得計算量的變大。Reynolds[4]提出了基于說話人背景模型的平均似然函數(shù)來計算得分;Matsui和Furui[5]提出了基于后驗概率的模型。Markov和Nakagawa[6]將整個語句分成若干幀,計算每幀得分,獲得總得分,但它沒有考慮目標(biāo)模型和非目標(biāo)模型的幀似然概率的特性。

        目前為止高斯混合模型GMM(Gaussian Mixed Model)仍然被認(rèn)為是目前較優(yōu)的與文本無關(guān)說話人識別的模型。由于它作為統(tǒng)計模型能夠吸收說話人個性特征的變化,可以提高識別性能。但是由于GMM作為統(tǒng)計模型對模型訓(xùn)練數(shù)據(jù)量有一定的依賴性,所以對于小樣本的與文本無關(guān)說話人識別系統(tǒng),要使GMM完全吸收由不同說話人引起的語音特征的變化是非常困難的。所以在實際應(yīng)用中通常采用話者適應(yīng)的方法使未知說話人的語音去適應(yīng)已知標(biāo)準(zhǔn)說話人的語音模型。因此,近年來在說話人識別方法方面,基于高斯混合背景模型GMM-UBM(Gaussian Mixed Model-Universal Background Model)方法已成為主流的識別方法[7]?;贕MM超向量的支持向量機和因子分析方法[8-9]則代表GMM-UBM方法的新成果。其中高斯超向量是由GMM的均值統(tǒng)計量順序排列而成,由于該特征的維度特別高,所以稱為超向量。該特征主要用在基于支持向量機(SVM)的說話人識別系統(tǒng)中,且常與擾動屬性投影NAP(Nuisance Attribute Project)或聯(lián)合因子分析JFA(Joint Factor Analysis)等方法相結(jié)合,用于去除語音信號中的信道畸變噪音成分。超向量是一種基于高斯混合模型的高層語音特征,它不但繼承了高斯混合模型的魯棒性,而且還繼承了高斯混合模型呈現(xiàn)的說話人發(fā)音個性統(tǒng)計信息,是近年來說話人識別領(lǐng)域的研究熱點之一。由于高斯混合模型對信道畸變和絕大部分非平穩(wěn)噪音的魯棒性并不明顯,所以高斯超向量對信道畸變和非平穩(wěn)噪音的魯棒性并不理想[10]。因此,一些局部的改進(jìn)方法和針對不同應(yīng)用的改進(jìn)方法也不斷被研究和被提出[11-16]。

        目前針對基于GMM的說話人識別系統(tǒng)的改進(jìn)方法的研究大多集中在特征分析和模型優(yōu)化等前端處理方面,在說話人識別到分統(tǒng)計的后端處理方面,國內(nèi)外研究的較少。本文根據(jù)基于GMM模型的與文本無關(guān)說話人識別系統(tǒng)的目標(biāo)幀和非目標(biāo)幀似然概率特性,提出了對各模型幀似然概率進(jìn)行非線性變換,以提高識別率的方法。通過理論分析發(fā)現(xiàn),簡單的對幀似然概率進(jìn)行線性變換不能提高識別率。理論推導(dǎo)和實驗分析表明,該變換確實能夠提高基于高斯混合模型的與文本無關(guān)說話人識別系統(tǒng)的識別率。

        1 基于GMM的與文本無關(guān)說話人識別方法

        為了說明基于非線性變換GMM模型的說話人識別方法,首先必須介紹一下GMM模型以及傳統(tǒng)的基于GMM的說話人識別方法。GMM是M成員密度的加權(quán)和,可以用式(1)表示[1]:

        (1)

        式中:X是D維隨機向量;bi(X)(i=1,2,…,M)是成員密度;ai(i=1,2,…,M)是混合權(quán)值。完整的GMM可表示為:λi={ai,μi,Σi},(i=1,2,…,M)。每個成員密度是一個D維變量的高斯分布函數(shù),形式如下:

        (2)

        對于一個長度為T的測試語音時間序列X=(x1,x2,…,xT),它的GMM概率可以寫作:

        (3)

        或用對數(shù)域表示為:

        (4)

        識別時運用貝葉斯定理,在N個未知話者的模型中,得到的似然概率最大的模型對應(yīng)的話者即為識別結(jié)果:

        (5)

        圖1 目標(biāo)模型與某非目標(biāo)模型的得分情況

        可以看出,以上的得分計算是逐幀進(jìn)行的,一般來說,目標(biāo)模型得分高的幀要多于其他非目標(biāo)模型。然而,在我們的研究中發(fā)現(xiàn),由于說話人的個人特征的長時變動或者噪聲等干擾的影響,存在一些測試幀對于目標(biāo)模型的得分小于非目標(biāo)模型的得分,我們將之稱為壞幀,這些壞幀對于非目標(biāo)模型的得分可能比較高,如果壞幀大量存在的話,非目標(biāo)模型的得分拉近或者有可能超過目標(biāo)模型的得分,從而導(dǎo)致了誤判。圖1給出了某說話人識別實驗中目標(biāo)模型與非目標(biāo)模型的幀得分情況,從中可看出目標(biāo)模型的得分高的好幀要多于非目標(biāo)模型。但是也有某些壞幀的得分大于目標(biāo)模型的得分。為此,我們的思路是可以通過某些變換對每幀各模型的得分賦予不同的權(quán)值,得分越高的模型權(quán)值越大,得分越低的模型權(quán)值越小,由于目標(biāo)模型得分高的幀要多于其他非目標(biāo)模型,所以這樣有可能提高目標(biāo)模型的總得分,降低非目標(biāo)模型的得分,從而提高識別率。

        2 基于幀似然概率非線性變換GMM的說話人識別方法

        在基于GMM的說話人識別系統(tǒng)中,對于任一幀矢量xt(t=1,2,…,T),假定λ0為目標(biāo)用戶對應(yīng)的高斯混合模型,λ1為非目標(biāo)用戶對應(yīng)的模型,設(shè)存在一種線性變換:

        f[p(xt|λi)]=ap(xt|λi)+b(a,b為常數(shù))

        (6)

        則有:

        f[p(xt|λ0)]-f[p(xt|λ1)]=ap(xt|λ0)+b-

        [ap(xt|λ1)+b]=a[p(xt|λ0)-p(xt|λ1)]

        (7)

        簡單起見,假設(shè)a>0(a<0分析類似),可得:

        p(xt|λ0)≥p(xt|λ1)?f[p(xt|λ0)]≥f[p(xt|λ1)]

        (8)

        p(xt|λ0)

        (9)

        從上面分析可看出,這樣的線性變換沒有改變各模型幀得分的相對大小關(guān)系,也沒有縮小或拉大各模型幀得分差,從而也不可能影響總得分的大小關(guān)系。也就是說線性變換不能降低誤識率。因此,為了提高識別率,必須采用非線性變換。而且對于選擇的GMM幀似然概率的非線性變換應(yīng)該滿足以下幾點要求:

        (1)使同一說話人的各個時刻的得分差減小。

        (2)使同一時刻t(0≤t≤T)不同說話人的得分差增大。

        (3)不改變同一時刻各幀得分值的相對大小。

        對此,本文提出了一種非線性變換f(p(xt|λi),t,i),(0≤t≤T,0≤i≤N),它的定義如下:

        計算其得分:

        (10)

        計算當(dāng)前時刻的前K個時刻該模型的得分均值:

        (11)

        作為S(xt,λi)的補償,令:

        S′(xt,λi)=S(xt,λi)+mt,iδ[S(xt,λi)-

        (12)

        式中:

        mt,i∈[0,1),δt,i=

        則最后各模型的總得分為:

        (13)

        我們稱以上的變換為歸一化補償變換。下面我們來分析該變換的特性。為簡單分析起見,令只存在兩個模型λ0,λ1,其中λ0為目標(biāo)模型。任取連續(xù)兩幀進(jìn)行分析,即T=2:

        (14)

        (15)

        在GMM中,當(dāng)S(X|λ0)>S(X|λ1)判為λ0,如果不采用任何變換:

        lnP(x1|λ0)+lnP(x2|λ0)>lnP(x1|λ1)+lnP(x2|λ1)?

        P(x1|λ0)P(x2|λ0)-P(x1|λ1)P(x2|λ1)>0?

        P(x1|λ0)nP(x2|λ0)n-P(x1|λ1)nP(x2|λ1)n>0

        (16)

        而對于歸一化補償變換:

        (17)

        (1)P10=1且P20=1時,即兩幀都是目標(biāo)幀得分高,則式(16)可為:

        P11P21<1

        (18)

        式(17)可為:

        S(X|λ0)-S(X|λ1)=

        (19)

        假設(shè)式(19)的兩項都大于0,則可得:

        (20)

        式中:實際過程中為保證第2、第3項對第1項的影響比較小,m的取值為遠(yuǎn)小于1的正數(shù)。下面來分析第1項:

        (21)

        由于p11<1,p21<1,p11p21<1,與式(16)相比,式(21)能較大地拉開目標(biāo)模型與非目標(biāo)模型的得分差,當(dāng)m的取值為遠(yuǎn)小于1的正數(shù)時,式的第2、第3部分對第1部分的影響比較小,不會改變相對大小。因此,采用歸一化變換后的兩個模型的總得分的相對距離拉大了。

        (2)P′(x1|λ0)=1且P′(x2|λ1)=1時,即第1幀目標(biāo)模型得分高,第2幀非目標(biāo)模型得分高,則式(16)可為:

        p20-p11>0

        (22)

        式(17)可為:

        (23)

        假設(shè)式(23)的兩項都大于0,則可得:

        (24)

        式(24)第1項為:

        (25)

        (3)當(dāng)P′(x1|λ1)=1且P′(x2|λ0)=1時,即第1幀非目標(biāo)模型得分高,第2幀目標(biāo)模型得分高時,分析與(2)類似。

        從上面的分析可得出,歸一化補償變換能夠拉大目標(biāo)模型與非目標(biāo)模型的相對得分比,同時也拉近了同一模型各幀得分值,使得各模型的幀得分值不僅與當(dāng)前時刻有關(guān),而且還與前K個時刻有關(guān)。參數(shù)m的選取對得分結(jié)果有著很大的影響,必須適當(dāng)選取,為了計算方便我們在實際過程中選為百分之一的整數(shù)倍。

        對于函數(shù)f(x)=xn/(xn+b)而言,參數(shù)n越大,曲線在區(qū)間[0,1]內(nèi)越陡,也就是說對應(yīng)于不同的x,f(x)的差值將拉得更大;參數(shù)b的越大,曲線越平坦。

        對于歸一化補償變換而言,參數(shù)n的值不能很大,否則計算量很大,一般取參數(shù)n=2~5;參數(shù)b一般取大于1并且靠近1的值。參數(shù)K的選取對幀得分值的相對位置也有影響,過大導(dǎo)致計算復(fù)雜,過小影響穩(wěn)健性,一般K選取為2~5。

        通過上面的分析,歸一化補償變換具有了非線性變換的3個要求,與線性變換相比,可以進(jìn)一步降低誤識別率。

        3 實驗結(jié)果與分析

        語音數(shù)據(jù)為在實驗室內(nèi)錄制的語音,采樣頻率是8 kHz,采樣位數(shù)8 bit,共20人(青年男女),每人40句不同的話作為純凈語音,在純凈語音上疊加高斯白噪聲和非平穩(wěn)噪聲(噪聲源由英國TNO感知學(xué)會所屬的荷蘭RSRE語音研究中心提供)。數(shù)據(jù)每幀幀長N=256,50%的幀重疊。選取12階MFCC倒譜參數(shù)作為說話人識別的特征參數(shù)。

        圖2給出了混合數(shù)M=16時采用歸一化補償變換的GMM的識別率。令m′=100m。由圖2可以看出,與不采用變換相比,歸一化變換可以得到比較高的識別率。當(dāng)n,K,b一定時,隨著m′參數(shù)的增大,歸一化變換的識別率相應(yīng)增加,同時我們注意到,當(dāng)m′值超出一定范圍后,識別率增加趨緩,因此合理選擇參數(shù)m′,可以進(jìn)一步提高識別率。

        圖2 同一時期歸一化變換識別率

        實驗1是在無噪聲環(huán)境下給出的,為了在噪聲環(huán)境下測試歸一化補償變換的性能,我們進(jìn)行了實驗2。識別結(jié)果如圖3所示。

        圖3 20名說話人的平均識別率(%)

        圖3中歸一化變換的參數(shù)為n=3,K=4,b=1.1,m′=8。由圖3可以看出,雖然在信噪比增加的情況下,未經(jīng)過歸一化變換和經(jīng)過歸一化變換處理的識別率都會增加,并在信噪比提高到一定程度之后,識別率增加趨勢變緩。但是,在信噪比較低的情況下,歸一化補償變換的識別率要比未經(jīng)過歸一化變換識別率提高很多。由此可見歸一化變換處理的方法提高了基于GMM的與文本無關(guān)的說話人識別的識別率。

        4 小結(jié)

        在基于GMM的與文本無關(guān)的說話人識別中,實際環(huán)境和個人因素一直是影響識別率提高的原因,大多數(shù)研究集中在前端處理,但在說話人識別后端處理方面,國內(nèi)外研究比較少。本文從各模型幀似然概率的統(tǒng)計特性出發(fā),分析了線性變換不能夠提高識別率,并提出了一種新的非線性變換方法——歸一化變換。理論分析和實驗結(jié)果表明,與GMM常用的最大似然變換相比,歸一化變換能夠拉大目標(biāo)模型與其他非目標(biāo)模型的幀得分比。因此,我們認(rèn)為該變換能夠提高與文本無關(guān)說話人識別系統(tǒng)識別率。

        [1] 趙力. 語音信號處理[M]. 北京:機械工業(yè)出版社,2003:236-253.

        [2] Tagashira S,Ariki Y. Speaker Recognition and Speaker Normalization by Projection to Speaker Subspace,IEICE,Technical Report,1995,SP95-28,25-32.

        [3] Liu C S,Wang H C. Speaker Verification using Normalization Log-Likelihood Score[J]. IEEE Trans. Speech and Audio Precessing,1980,4:56-60.

        [4] Douglas A Reynolds. Speaker Identification and Verification Using Gaussian Mixture Speaker Models[J]. Speech Communication,1995,17:91-108.

        [5] Matsui T,Furui S. Concatenated Phoneme Models for Text Variable Speaker Recognition[C]//Proc IEEE Inter Conf on Acoustics,Speech,and Signal Processing(ICASSP’93)1993:391-394.

        [6] Markov Knakagawa S. Text-Independent Speaker Recognition System Using Frame Level Likelihood Processing[J]. Technical Report of IEICE,1996,SP96-17:37-44.

        [7] Dehak N,Dehak R,Kenny P,et al. Comparison between Factor Analysis and GMM Support Vector Machines for Speaker Verification[C]//The Speaker and Language Recognition Workshop(Odyssey 2008). Stellenbosch,South Africa:ISCA Archive,January 2008:21-25.

        [8] Campbell W M,Sturim D E,Reynolds D A,et al. SVM Based Speaker Verificationusing a GMM Supervector Kernel and NAP Variability Compensation[C]//IEEEInternational Conference on Acoustics,Speech and Signal Processing. Toulouse:IEEE,2006,1:97-100.

        [9] Ferras M,Shinoda K,Furui S. Structural MAP Adaptation in GMM Super Vector Based Speaker Recognition[C]//IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP). Prague:IEEE,2011:5432-5435.

        [10] Yessad D,Amrouche A. SVM Based GMM Supervector Speaker Recognition Using LP Residual Signal[C]//Image and Signal Processing. Sichuan,China:Springer,2012:579-586.

        [11] Yadav R,Mandal D. Speaker Recognition:A Research Direction[J]. InternationalJournal of Advances in Electronics Engineering,2012,1(1):87-93.

        [12] Bousquet P M,Matrouf D,Bonastre J F. Intersession Compensation and Scoring Methods in the i-Vectors Space for Speaker Recognition[C]//International Conferenceon Speech Communication and Technology. Azerbaijan,Baku:IEEE,2011:485-488.

        [13] Karafi′at M,Burget L,Matejka P,et al. iVector-Based Discriminative Adaptation for Automatic Speech Recognition[C]//IEEE Workshop on Automatic Speech Recognitionand Understanding(ASRU). HAWAⅡ:IEEE,2011:152-157.

        [14] Lei Y,Burget L,Scheffer N. Bilinear Factor Analysis for iVector Based Speaker Verification[C]//Interspeech Portland,OR,USA:ISCA,2012,2:1588-1591.

        [15] Rao W,Mak M W. Boosting the Performance of I-Vector Based Speaker Verificationvia Utterance Partitioning[J]. IEEE Transaction on Audio,Speech,andLanguage Processing,2013,21(5):1012-1022.

        [16] Lei Y,Burget L,Ferrer L,et al. Towards Noise-Robust Speaker Recognition Using Probabilistic Linear Discriminant Analysis[C]//IEEE International Conferenceon Acoustics,Speech and Signal Processing(ICASSP). Kyoto,Japan:IEEE,2012:4253-4256.

        [17] Reynolds D A,Rose R C. Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models[J]. IEEE Trans on Speech and Audio Processing,1995,3(1):72-83.

        [18] Matsui T,Furui S. Likelihood Normalization for Speaker Verification Using a Phoneme- and Speaker-Independent Model[J]. Speech Communication,1995;17(1-2):97-116.

        Text-Independent Speaker Recognition Using GMM Non-Linear Transformation*

        LOUWenhua1*,YANGYan1,QIJiang2,ZHAOLi2

        (1.YanchengInstitute of Industry Technology,Yancheng Jiangsu 224005,China;2.School of Information Science and Engineering,Southeast University,Nanjing 210096,China)

        For the text independent speaker recognition GMM model,some non-target models of the test frame of the model score may be relatively high,thus causing the problem of false.Based on the statistical properties of the frame likelihood probability,a GMM nonlinear transformation method is proposed.This method gives different weights to each frame model,which makes the model with high score and low weights,as the target model score higher than other non target frame model,so it can improve the total score of the target model,reduce the score of non target model,thus reducing the possibility of false positives.Theoretical results and experimental results show that the proposed method can improve the recognition rate of GMM speaker recognition.

        text-independent speaker recognition;Gaussian mixture model;non-linear transformation

        項目來源:國家自然科學(xué)基金項目(61301219);2014年青藍(lán)工程資助項目;2015年農(nóng)業(yè)科技創(chuàng)新專項引導(dǎo)資金項目;2015年鹽城市農(nóng)業(yè)科技指導(dǎo)性項目(YKN2015031)

        2016-05-10 修改日期:2016-06-09

        TN912.3

        A

        1005-9490(2017)03-0545-06

        C:6130;1160

        10.3969/j.issn.1005-9490.2017.03.006

        猜你喜歡
        識別率高斯權(quán)值
        小高斯的大發(fā)現(xiàn)
        一種融合時間權(quán)值和用戶行為序列的電影推薦模型
        CONTENTS
        基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測
        計算機工程(2020年3期)2020-03-19 12:24:50
        天才數(shù)學(xué)家——高斯
        基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識別率的關(guān)系
        提升高速公路MTC二次抓拍車牌識別率方案研究
        基于權(quán)值動量的RBM加速學(xué)習(xí)算法研究
        高速公路機電日常維護中車牌識別率分析系統(tǒng)的應(yīng)用
        有限域上高斯正規(guī)基的一個注記
        韩国黄色三级一区二区| 99re久久精品国产| jlzzjlzz全部女高潮| 偷拍av一区二区三区| 亚洲女同恋av中文一区二区| 亚洲国产精品无码专区在线观看 | 国产精品卡一卡二卡三| 成人无码网www在线观看| 91人妻一区二区三区蜜臀| 国产精品久久国产精品99 gif| 成av免费大片黄在线观看| 国产在线观看黄| 中文字幕日韩精品中文字幕| 日本丰满老妇bbw| 中出内射颜射骚妇| 日韩av中出在线免费播放网站| 亚洲一区二区懂色av| 国产成人av一区二区三区在线观看 | 亚洲国产综合精品一区最新| 亚洲精品无码永久中文字幕| 好吊色欧美一区二区三区四区| 娇柔白嫩呻吟人妻尤物| 久久综合五月天啪网亚洲精品| 青青草原亚洲| 色婷婷日日躁夜夜躁| 久久久亚洲精品一区二区| 亚洲av综合av一区| 曰韩无码二三区中文字幕| 国产成人亚洲综合无码DVD| 亚洲综合国产精品一区二区| 国产精品成熟老女人| 无码人妻一区二区三区免费| 老肥熟女老女人野外免费区| 亚洲一区二区免费在线观看视频| 骚片av蜜桃精品一区| 国产在线观看黄| 亚洲一区二区自偷自拍另类| 性做久久久久久久| 国产成年无码V片在线| 国内激情一区二区视频| av无码国产精品色午夜|