亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于GMM的說話人識別系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

2014-08-07 12:08:20滕廣超林嘉宇

微處理機(jī) 2014年3期

關(guān)鍵詞：特征參數(shù)高斯語音

劉冰，滕廣超，林嘉宇

（1.國防科學(xué)技術(shù)大學(xué)電子科學(xué)與工程學(xué)院，長沙410073；2.武警湖南省總隊(duì)湘潭市支隊(duì)，湘潭411104；3.武警黃金一總隊(duì)通信科，哈爾濱150086）

基于GMM的說話人識別系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

劉冰1，2，滕廣超1，3，林嘉宇1

現(xiàn)代通信中，說話人的身份認(rèn)證技術(shù)一直是通信行業(yè)研究的重點(diǎn)和熱點(diǎn)。而基于GMM和MFCC的說話人識別技術(shù)，是目前為止相對成熟和常用的方法。對說話人識別系統(tǒng)的構(gòu)成做了相關(guān)的研究，并通過MATLAB編程，設(shè)計(jì)了一款以MFCC作為特征參數(shù)，基于GMM模型的說話人識別系統(tǒng)。經(jīng)過實(shí)驗(yàn)測試，本系統(tǒng)能基本滿足工作及家庭生活環(huán)境下的說話人識別需要。

說話人識別；Mel倒譜系數(shù)；混合高斯模型

1 引言

說話人識別（Speaker Recognition）［1］，也稱聲紋識別（Voiceprint Recognition），是一種利用說話人的語音特征與預(yù)先提取的說話人的語音特征相比較，進(jìn)而確認(rèn)和鑒別說話人身份的技術(shù)。說話人識別技術(shù)的研究始于二戰(zhàn)時(shí)期美國的Bell實(shí)驗(yàn)室，經(jīng)過幾十年的研究和發(fā)展，說話人識別技術(shù)取得了突飛猛進(jìn)的發(fā)展。特別是1995年，Reynolds［2］對高斯混合模型（Gaussian Mixture Model，GMM）［3-4］進(jìn)行了詳細(xì)介紹和應(yīng)用，其簡單、實(shí)用、高效的特點(diǎn)，使之成為說話人識別模式匹配過程中的重要技術(shù)。說話人識別可分為說話人確認(rèn)（Speaker Verification）和說話人鑒別（Speaker Identification）兩類。

2 說話人識別系統(tǒng)原理

說話人識別系統(tǒng)一般由訓(xùn)練模塊和識別模塊組成。其原理如圖1所示。

圖1 說話人識別系統(tǒng)原理框圖

2.1 說話人識別系統(tǒng)預(yù)處理

說話人識別系統(tǒng)的預(yù)處理過程一般可分為：采樣與量化、預(yù)加重處理、加窗和端點(diǎn)檢測。

語音信號經(jīng)過采樣和量化之后，信號由模擬轉(zhuǎn)為了數(shù)字信號。為便于頻譜分析或聲道參數(shù)分析，需要對信號進(jìn)行預(yù)加重。預(yù)加重可以用一階數(shù)字濾波器來表示：

其中μ為預(yù)加重系數(shù)，取值為0.9375。

根據(jù)語音信號在10ms到20ms內(nèi)近似不變的假設(shè)，可以將語音信號分成一些短的段進(jìn)行處理，即分幀。分幀后進(jìn)行加窗，采用漢明窗函數(shù)。

端點(diǎn)檢測（VAD）方面，采用的是短時(shí)能量與短時(shí)過零率相結(jié)合的方法，由此判斷語音信號的起始點(diǎn)位置。短時(shí)能量可用來區(qū)分清音段和濁音段，有聲段和無聲段。短時(shí)過零率則表示一幀語音中語音信號波形經(jīng)過零電平的次數(shù)。由于短時(shí)過零率對噪聲非常敏感，很容易產(chǎn)生虛假過零，故我們對其進(jìn)行了改進(jìn)。設(shè)立一個(gè)門限T，將過零率的定義改進(jìn)為越過±T的次數(shù)。即

經(jīng)過改進(jìn)后，短時(shí)過零率有了較強(qiáng)的抗干擾能力，同時(shí)在進(jìn)行說話人識別端點(diǎn)檢測時(shí)，可以設(shè)立多個(gè)門限，進(jìn)一步提高檢測精度。

2.2 MFCC特征提取

Mel頻率倒譜系數(shù)（Mel Frequency Cepstrum Coefficient，MFCC）［5-6］是一種基于梅爾尺度的頻域倒譜參數(shù)。MFCC運(yùn)用Mel頻率刻度對實(shí)際頻率軸進(jìn)行彎折來模擬人耳所聽到的聲音高低和聲音頻率之間的非線性關(guān)系，因而在說話人識別中得到了極為廣泛的應(yīng)用。系統(tǒng)中MFCC參數(shù)提取的流程是：

（1）對語音信號進(jìn)行預(yù)處理，其中語音采集頻率8000Hz、16-bit、Mono，幀長為20ms，幀移為10ms；

（2）快速傅里葉變換（FFT）：使用基2的離散傅里葉變換，將時(shí)域能量轉(zhuǎn)換為頻域能量；

（3）Mel能量：通過40個(gè)Mel濾波器組，得到40維的Mel頻子帶能量；

（4）Mel對數(shù)能量：對每個(gè)MEL頻子帶能量取對數(shù)，mel（i）＝ln［filt（i）］；

（5）離散余弦變換：

其中D＝13，mfcc（n）即為原始的mfcc特征；

（6）一階二階差分：在原有13維mfcc特征的后面加入13維的一階和二階差分構(gòu)成39維的特征?？赏ㄟ^一個(gè)長度為5的窗函數(shù)來求，從而使得這種靜態(tài)特征得到相應(yīng)的動(dòng)態(tài)特征。通過實(shí)驗(yàn)表明，這種39維的動(dòng)態(tài)特征能夠很好的提高系統(tǒng)識別性能。

2.3 基于GMM混合高斯模型的模式匹配

混合高斯模型對不同說話人語音的短時(shí)譜特征矢量所具有的概率密度函數(shù)進(jìn)行建模。通過對這些特征矢量進(jìn)行聚類，并看做是一個(gè)多維的高斯分布函數(shù)，然后求出每一類的均值、協(xié)方差矩陣和出現(xiàn)的概率，作為每個(gè)說話人的模板。最后把觀測序列代入模板，進(jìn)行模式匹配，找到最大后驗(yàn)概率，即對應(yīng)識別的人。

M階GMM概率密度函數(shù)如下：

其中s為語音的特征矢量，M為高斯混合模型中分量的個(gè)數(shù)，αj為混合權(quán)值；P（s｜λ）表示s屬于λ模型的概率。其中等j個(gè)混合高斯概率密度函數(shù)可表示為P（s）：

其中μj為均值向量，Rj為協(xié)方差矩陣。一個(gè)完整的混合高斯模型是由參數(shù)混合權(quán)重、均值向量和協(xié)方差矩陣組成，可表示為：

系統(tǒng)中的模式匹配即所有參考說話人構(gòu)成的一個(gè)集合，識別判斷目標(biāo)說話人與集合中的哪一個(gè)說話人相匹配。其目的就是找到目標(biāo)說話人與集合中模型的最大輸出匹配概率，使得待識別語音特征矢量組X具有最大后驗(yàn)概率P（λi｜X）。

由Bayes理論，最大后驗(yàn)概率可表示為

3 說話人識別系統(tǒng)軟件開發(fā)

3.1 系統(tǒng)設(shè)置與數(shù)據(jù)庫

實(shí)驗(yàn)主要是在PC機(jī)平臺上，采用MATLAB 7.0編程語音完成的。系統(tǒng)以有源型麥克風(fēng)作為錄制語音的輸入工具，運(yùn)用CoolEdit ProV2.1對錄入后的語音進(jìn)行處理。

實(shí)驗(yàn)數(shù)據(jù)來自實(shí)驗(yàn)室環(huán)境下的采集。語音庫中包含了30個(gè)說話人（15男，15女），年齡范圍在10歲至40歲之間，共進(jìn)行300次說話人識別測試。實(shí)驗(yàn)所用的主要參數(shù)如表1所示。

表1 實(shí)驗(yàn)主要參數(shù)列表

3.2 系統(tǒng)功能設(shè)計(jì)

該說話人識別系統(tǒng)具有以下功能：

（1）能較準(zhǔn)確的識別待驗(yàn)證人是否為合法用戶；

（2）可實(shí)現(xiàn)語音波形的顯示；

（3）可訓(xùn)練說話人語音，增加訓(xùn)練樣本庫；

（4）可較準(zhǔn)確的識別待驗(yàn)證人的身份信息。

3.3 系統(tǒng)基本結(jié)構(gòu)

說話人識別系統(tǒng)主要分為兩個(gè)部分：訓(xùn)練過程和識別過程。

在訓(xùn)練階段，首先讀取訓(xùn)練對象的若干語音文件作為訓(xùn)練語句，然后對這些訓(xùn)練語句進(jìn)行端點(diǎn)檢測、預(yù)加重、MFCC特征參數(shù)提取，最后為訓(xùn)練對象建立各自的語音特征參數(shù)模型。

在識別階段，首先將事先錄制的語音文件作為測試語句在系統(tǒng)中讀取，然后系統(tǒng)對這些測試語句的特征參數(shù)進(jìn)行提取，然后將這些參數(shù)與系統(tǒng)內(nèi)部建立的各個(gè)語音模型進(jìn)行特征參數(shù)相似度計(jì)算，最終得到識別結(jié)果。

3.4 系統(tǒng)性能評估

一個(gè)說話人識別系統(tǒng)的好壞主要由正確識別率、訓(xùn)練時(shí)間長短、識別時(shí)間長短、語音環(huán)境變化等元素進(jìn)行反映。一般來說，一個(gè)好的說話人識別系統(tǒng)，應(yīng)該具備較高的正確識別率，較短的訓(xùn)練時(shí)間，較短的識別時(shí)間，能適應(yīng)多種語音環(huán)境等特點(diǎn)。

為了測試系統(tǒng)性能，系統(tǒng)使用了39維差分MFCC特征參數(shù)進(jìn)行了小數(shù)據(jù)庫文本的說話人識別實(shí)驗(yàn)，參與實(shí)驗(yàn)的共有30人（15男，15女）。在錄入訓(xùn)練樣本時(shí)，每人錄入4句文字和2句數(shù)字，共錄兩次，累積時(shí)長為1分鐘，建模時(shí)間約為30s。測試時(shí)，每人再錄入1句文字和1句數(shù)字，共錄兩次，累積時(shí)長為20s。在測試過程中，將每人的測試語音分別截取成1s、2s、4s、8s、10s的語音段，用來測試不同時(shí)長的測試語音對于系統(tǒng)正確識別率的影響。實(shí)驗(yàn)結(jié)果如表2所示。

表2 在不同測試時(shí)間長度下識別準(zhǔn)確率和識別時(shí)間

4 結(jié)束語

通過測試可知，在訓(xùn)練樣本時(shí)間相對一致的情況下，測試樣本時(shí)間越長，識別的準(zhǔn)確度越高，完成識別所用時(shí)間越長；其參數(shù)提取采用39維差分MFCC方法能有效提高說話人識別系統(tǒng)性能。實(shí)驗(yàn)結(jié)果表明，設(shè)計(jì)的說話人識別系統(tǒng)具有較高的識別率和較短的識別時(shí)間，能基本滿足辦公室、家居環(huán)境下較少用戶的說話人識別需要。

［1］吳朝暉，楊瑩春.說話人識別模型與方法［M］.北京：清華大學(xué)出版社，2009.

［2］D A Reynolds，Thomas F.Quatier and Robert B.Dram.Speaker verification using adapted Gaussian Mixture Models［J］.Digital Singal Processing 10，Academic Press.2000：19-24.

［3］蔣偉，范明鈺.基于高斯混合模型的說話人識別研究［D］.成都.電子科技大學(xué)，2005.

［4］D A Reynolds，Campbell W，Gleason T T.The 2004 MIT Lincoln laboratory speaker recognition system［A］.In Processdings of ICASSP［C］，Philadel Phia，USA，2008.

［5］何朝霞，潘平.說話人識別中改進(jìn)的MFCC參數(shù)提取方法［J］.科學(xué)技術(shù)與工程，2011，11（18）：4215-4218.

［6］王剛，鄧方.電話信道下應(yīng)用DMFCC進(jìn)行說話人識別［J］.清華大學(xué)學(xué)報(bào)，2009，49（10）：1597-1600.

Design and Im plementation of Speaker Identification System Based on GMM

LIU Bing1，2，TENG Guang-chao1，3，LIN Jia-yu1
（1.Shool of Electronic Science and Engineering，National Defense Technology University，Changsha 410073，China；2.Xiangtan City Team，The Armed Police Corps of Hunan，Xiangtan 411104，China；3.Communications Department，Gold Corp I，The Armed Police，Harbin 150086，China）

In modern communication，the technology of the speaker＇s ID authentication is the focus of research and hotspots in communications industry.At present，the speaker identification technology，based on GMM and MFCC，is usable and poplar.In this paper，the composition of speaker identification system is researched and a system which uses Mel frequency cepstral coefficients（MFCC）as feature parameter and GMM for speakermodel is designed by Matlab.The test results show that the system can generallymeet the requirements of identification for work and life.

Speaker Recognition；MFCC；GMM

10.3969／j.issn.1002-2279.2014.03.018

TP391.4

：A

：1002-2279（2014）03-0063-03

劉冰（1985-），男，湖南省湘鄉(xiāng)市人，工程碩士，主研方向：語音信號處理，說話人識別。

2013-10-30

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于GMM的說話人識別系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

1 引 言

2 說話人識別系統(tǒng)原理

3 說話人識別系統(tǒng)軟件開發(fā)

4 結(jié)束語

1 引言