亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于MATLAB的聲紋識(shí)別系統(tǒng)軟件的設(shè)計(jì)

2013-03-01 10:51:20張敏敏龔晨曉陳亮亮鄭茜茜

科技視界 2013年22期

張敏敏馬駿龔晨曉陳亮亮鄭茜茜

(溫州醫(yī)科大學(xué) 信息與工程學(xué)院，浙江溫州325000)

0 引言

聲紋識(shí)別技術(shù)[1]為生物識(shí)別技術(shù)的一種，也稱為說話人識(shí)別，分為說話人辨認(rèn)和說話人確認(rèn)[2]。目前，市場(chǎng)上已經(jīng)出現(xiàn)了一些聲紋識(shí)別的應(yīng)用，比如在軍事情報(bào)方面，用于電話領(lǐng)域的監(jiān)聽與追蹤；在監(jiān)獄管理中，用于親情通話對(duì)象的管控；在司法取證方面，語音聲紋分析識(shí)別用于司法鑒定，還有社保身份認(rèn)證、電話語音聲紋考勤甚至現(xiàn)在非常流行的聲紋鎖屏[3]等等。

每個(gè)人的說話聲音由于音色的不同可以被區(qū)分開來，本文所涉及到的聲紋識(shí)別系統(tǒng)軟件的設(shè)計(jì)[4]便是提取了聲紋中的特征參數(shù)，把它作為本系統(tǒng)聲紋識(shí)別技術(shù)的依據(jù)。與此同時(shí)，聲紋識(shí)別分為文本相關(guān)的(Text-Dependent)和文本無關(guān)的(Text-Independent)兩種[4]。本識(shí)別系統(tǒng)為與文本相關(guān)[5]的聲紋識(shí)別系統(tǒng)，要求用戶按照規(guī)定的內(nèi)容發(fā)音，建立好說話人的聲紋模型，在后期進(jìn)行語音識(shí)別時(shí)需要按規(guī)定的內(nèi)容發(fā)音進(jìn)而進(jìn)行說話人身份的辨別。

1 聲紋識(shí)別系統(tǒng)設(shè)計(jì)

本系統(tǒng)整體流程分為設(shè)計(jì)分為5步：預(yù)處理、提取特征參數(shù)（基音周期、倒譜系數(shù)等）、建立參考模型、帶入測(cè)試模型、進(jìn)行匹配。

圖1 系統(tǒng)整體流程圖

（1）預(yù)處理：包括采樣和量化（即A/D轉(zhuǎn)換）、預(yù)加重處理、加窗、依據(jù)短時(shí)能量譜的語音端點(diǎn)檢測(cè)等幾個(gè)處理過程。

（2）提取特征參數(shù)：為了能夠表征說話人語音中說話人特定器官結(jié)構(gòu)或習(xí)慣行為，便需要提取特征參數(shù)，并且該特征參數(shù)對(duì)同一說話人應(yīng)具有相對(duì)穩(wěn)定性。

①基音周期[6]：產(chǎn)生發(fā)音時(shí)聲門的開啟和閉合引起聲帶的周期性振動(dòng)，形成周期性的脈沖串，用來描述這一串脈沖氣流的周期稱為基音周期。這種參數(shù)的提取主要是基于說話人發(fā)聲器官，如聲門、聲道和鼻腔等的特殊結(jié)構(gòu)而提取出說話人語音的短時(shí)譜特征（即基音頻率譜及其輪廓）。

本系統(tǒng)利用自相關(guān)函數(shù)法(ACF)檢測(cè)基音周期，由于周期信號(hào)的自相關(guān)函數(shù)將在時(shí)延等于函數(shù)周期的點(diǎn)產(chǎn)生一極大值，因此通過計(jì)算自相關(guān)函數(shù)可以估計(jì)語音信號(hào)的基音頻率，以此方法獲得基音周期（基音頻率的倒數(shù)就是基音周期）。自相關(guān)函數(shù)的數(shù)學(xué)計(jì)算公式為：

圖2 基音周期計(jì)算流程

②倒譜系數(shù)[7]：目前主流的聲紋特征參數(shù)有LPC以及基于Mel頻率的倒譜系數(shù) (Mel—frequency cepstral coefficients,MFCC)。實(shí)驗(yàn)中證明，MFCC是目前聲紋特征中識(shí)別率最高的一種，本系統(tǒng)便是提取Mel頻率倒譜系數(shù)MFCC用來模擬人耳聽覺系統(tǒng)的感知能力，描述語音信號(hào)在頻率域上的能量分布。Mel倒譜系數(shù)MFCC的提取過程如下：

A.對(duì)語音信號(hào)進(jìn)行預(yù)處理。

B.離散傅里葉變換（DFT）:是信號(hào)完成從時(shí)域至頻域的轉(zhuǎn)換。

C.生成Mel濾波器組。

D.計(jì)算經(jīng)Mel濾波器組加權(quán)后的能量值。

E.做離散余弦DCT變換。

圖3 MFCC參數(shù)提取的流程

（3）建立參考模型：常見的識(shí)別模型有模板模型（動(dòng)態(tài)時(shí)間規(guī)整方法DTW、矢量量化方法VQ）、概率模型（隱馬爾科夫模型HMM、高斯混合模型GMM），以及目前正在發(fā)展中的人工神經(jīng)網(wǎng)絡(luò)（ANN）方法。本實(shí)驗(yàn)采用的隱馬爾科夫模型HMM[8]，并將該模型確定為本系統(tǒng)的模式匹配方法。使用HMM模型可以用短時(shí)模型描述平穩(wěn)段的信號(hào)，而且還可以解決每個(gè)短時(shí)平穩(wěn)段是如何轉(zhuǎn)變到下一個(gè)短時(shí)平穩(wěn)段的問題。

本過程目的是對(duì)所提取出來的說話人語音特征進(jìn)行學(xué)習(xí)訓(xùn)練，建立聲紋模板或語音模型庫，或?qū)ο到y(tǒng)中已有的聲紋模板或語音模型庫進(jìn)行適應(yīng)性修改。

（4）帶入測(cè)試模型：將用于測(cè)試的語音樣本參數(shù)代入，得測(cè)試模型，與參考模型一一匹配。

（5）進(jìn)行匹配：在識(shí)別過程中，聲紋識(shí)別系統(tǒng)要根據(jù)系統(tǒng)已有的聲紋模板或語音模型庫對(duì)輸入語音的特征參數(shù)進(jìn)行模式匹配計(jì)算，從而實(shí)現(xiàn)識(shí)別判斷，得出識(shí)別結(jié)果。

2 實(shí)驗(yàn)與結(jié)果

在聲紋識(shí)別系統(tǒng)的測(cè)試實(shí)驗(yàn)中,從所在班級(jí)隨機(jī)抽取了15名學(xué)生(其中男生10名、女士5名),每人6個(gè)樣本，共計(jì)90個(gè)語音樣本，男性說話人有Yjd，Zsl，Mj，Zqy，Gcx，Mgj，Mz，Mjp，Srf，Jd，女性說話人有Hj，Whj，Gxx，Yhr，Zm。在使用該語音庫的前提下，要求他們對(duì)指定文本“溫州醫(yī)科大學(xué)”應(yīng)用普通話進(jìn)行自然發(fā)音,錄制環(huán)境為室內(nèi)。并把每一個(gè)說話人的6份樣本中3份樣本用于訓(xùn)練，3份樣本用于測(cè)試，建立不同的HMM模型，觀察不同訓(xùn)練的樣本數(shù)對(duì)識(shí)別結(jié)果的影響。

實(shí)驗(yàn)表明，運(yùn)用MATLAB建立的HMM模型確實(shí)可以進(jìn)行說話人身份的識(shí)別，本系統(tǒng)的識(shí)別率為85%以上，但如果增加訓(xùn)練次數(shù)，則識(shí)別率也會(huì)相應(yīng)地得到提高。在系統(tǒng)實(shí)時(shí)處理上，由于MFCC參數(shù)計(jì)算量比較大，所花費(fèi)的計(jì)算時(shí)間較長，使得本系統(tǒng)的實(shí)時(shí)性受到了考驗(yàn)，另外由于MFCC參數(shù)的計(jì)算涉及到DFT計(jì)算、對(duì)數(shù)計(jì)算，這使得整個(gè)計(jì)算的動(dòng)態(tài)范圍受到了影響以至于影響本系統(tǒng)的精確度。

3 聲紋識(shí)別技術(shù)的研究進(jìn)展

聲紋識(shí)別技術(shù)仍需要在研究方法和市場(chǎng)應(yīng)用進(jìn)行相應(yīng)的改進(jìn)，一方面，要尋找更為優(yōu)良的研究方法，另一方面，由于建模方法的選擇與使用都會(huì)對(duì)聲紋識(shí)別結(jié)果帶來很大的影響，這要求我們能夠?qū)ふ业揭环N更為穩(wěn)定的聲紋特征參數(shù)來幫助說話人身份的識(shí)別，一方面，要保證乃至提高系統(tǒng)的精確性，另一方面，也要保證獨(dú)一性，能夠區(qū)分不同說話人的特質(zhì)。隨著聲紋技術(shù)的不斷發(fā)展，所對(duì)應(yīng)的聲紋市場(chǎng)也日趨成熟，必定會(huì)與當(dāng)今的信息化時(shí)代相契合，提供一種切實(shí)有效的安全保障。

［1］http://baike.baidu.com/view/116450.htm[OL].

［2］Joseph P.Campbell，Jr.Speaker recognition:a tutorial[J].Proceedings of the IEEE，1997，85：1437-1462.

［3］http://www.dragonvoice.cn/[OL].

［4］陳懷琛.數(shù)字信號(hào)處理教程：MATLAB釋義與實(shí)現(xiàn)[M].2版.北京：電子工業(yè)出版社，2008.

［5］Chi-Wei Che，Qi-guang Lin，Dong-SukYuk.An HMM Approach to Text-Prompted Speaker Verification[C]//The 1996 IEEE International Conference on Acoustics，Speech and Signal.Processing Conference Proceedings，1996，2：673-676.

［6］蔡蓮紅,黃德智,蔡銳.現(xiàn)代語音技術(shù)基礎(chǔ)與應(yīng)用[M].北京:清華大學(xué)出版社,2003.

［7］張萬里，劉橋.Mel頻率倒譜系數(shù)提取及其在聲紋識(shí)別中的作用[J].貴州大學(xué)學(xué)報(bào)，2005，22（2）：5.

［8］王書沼.基于高斯混合模型的說話人識(shí)別系統(tǒng)的研究[D].大連理工大學(xué),2006.