亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于噪聲環(huán)境下的說話人識別系統(tǒng)的研究

        2011-06-13 06:36:38范茂志
        科技傳播 2011年20期
        關(guān)鍵詞:特征信號模型

        林 秀,范茂志

        同濟大學(xué)軟件學(xué)院,上海 201804

        基于噪聲環(huán)境下的說話人識別系統(tǒng)的研究

        林 秀,范茂志

        同濟大學(xué)軟件學(xué)院,上海 201804

        對帶噪聲的語音信號采用消噪算法處理,并提取特征參數(shù)Mel倒譜系數(shù)來建立說話人的特征參數(shù)的混合高斯模型,構(gòu)建了一個基于噪聲環(huán)境的文本無關(guān)的說話人識別系統(tǒng)。本文詳細(xì)闡述了梅爾倒譜系數(shù)這一主流語音特征及高斯混合通用背景模型來建立說話人識別系統(tǒng)。實驗表明,增加混合高斯模型的維數(shù)可以增加系統(tǒng)的識別率。

        說話人識別;梅爾倒譜系數(shù);高斯混合-通用背景模型

        0 引言

        說話人識別指在提取代表個人身份的特征信息,最終識別出說話人。作為身份鑒定的一種方法,說話人識別具有使用簡單、獲取方便、使用者的接受程度高等優(yōu)點,但也存在許多值得研究的問題,如訓(xùn)練條件與測試條件不匹配。

        說話人識別系統(tǒng)在訓(xùn)練條件與測試條件匹配的情況下,識別系統(tǒng)具有很好的性能。由于人體聲道特征,語音信道及通話環(huán)境等因素的干擾,使得說話人識別系統(tǒng)的準(zhǔn)確性顯著降低。在說話人識別系統(tǒng)中,有兩方面重要的影響因素:一方面,所選取的語音特征參數(shù)應(yīng)盡量突出說話人的個性特征,使得不同說話人可以在特征空間上盡量分離。另一方面,降低環(huán)境噪聲對說話人識別系統(tǒng)的干擾,是使訓(xùn)練條件與測試條件匹配的最好辦法。通常提高系統(tǒng)抗噪性能的方法有3種:1)前端處理,如自適應(yīng)噪聲抵消技術(shù)等[1];2)提取具有魯棒性的特征參數(shù)[2];3)后端處理,如歸一化補償變換[3]。

        本系統(tǒng)的基本思路如下:首先,采用消噪算法對帶噪聲的語音信號進(jìn)行消噪。其次,提取說話人特征信息。提取梅爾倒譜系數(shù)作為說話人的特征信息,由這些特征信息來刻畫說話人特征矢量的超空間。最后,建立高斯混合-通用背景模型。通用背景模型的訓(xùn)練,自適應(yīng)算法生成說話人模型,計算似然度進(jìn)行得分測試及得分規(guī)整,完成辨認(rèn)說話人。

        1 說話人識別算法框架

        說話人識別系統(tǒng)以待測說話人的語音波形作為輸入,通過對波形的頻譜及特征參數(shù)的計算和提取,可以得到說話人區(qū)別于其他說話人人的生理和行為特征的聲學(xué)特征參數(shù),來識別待測說話人身份。圖1為說話人識別系統(tǒng)的整體框架。

        根據(jù)系統(tǒng)的整體框架,可以把系統(tǒng)分成由兩個主要組成模塊:基于Mel倒譜系數(shù)[5](Mel-Frequency Cepstrum Coefficients, MFCC)說話人特征參數(shù)的提取模塊和基于背景模型[6](Gaussian Mixture Model-Universal Background Model,GMM-UBM)的目標(biāo)說話人的判決模塊。

        圖1 說話人識別系統(tǒng)

        1.1 基于MFCC說話人特征的提取

        本模塊的基本思路:首先,采用消噪算法對帶噪聲的語音信號進(jìn)行處理,得到較為純凈的語音。采用消噪算法的目的在于提高語音質(zhì)量,在消除背景噪音的同時使得語音信號更清晰準(zhǔn)確,提高語音信號的可懂度。其次,對消除噪聲之后的語音進(jìn)行特征提取,得到可以代表說話人特征信息的梅爾到普系數(shù),即說話人的特征參數(shù)。

        1.1.1 消噪算法

        采用譜相減法對語音信號消除噪聲影響,圖2為譜相減法的結(jié)構(gòu)圖。

        圖2 譜相減法

        譜相減法的具體步驟如下所示:

        1)確定語音信號的每幀的幀長,將語音信號進(jìn)行分幀;

        2)計算各幀的能量值,確定噪音能量閾值。在能量小于閾值且能量等于閾值的時刻之前的時間段內(nèi)的能量認(rèn)為是該能量為噪音能量,該時間段的信號為噪音信號。從能量大于閾值的時刻起后面所有時間的信號認(rèn)為是帶噪聲語音信號;

        3)對各幀語音信號進(jìn)行傅立葉變換,得到語音信號的頻譜信息;

        4)根據(jù)所確定的噪聲信號信息,對帶噪聲語音信號進(jìn)行相位和頻譜能量的變換,得到增強后的語音頻譜圖;

        5)根據(jù)傅立葉逆變換,得到增強后到語音信號。

        1.1.2 MFCC特征參數(shù)提取

        MFCC在人耳聽覺結(jié)構(gòu)和人類發(fā)聲和接受聲音等機理特性方面具有很好的魯棒性,并且在頻率域上可以較好的表達(dá)說話人的個性特征,具有較好的識別性能和抗噪聲能力。因為標(biāo)準(zhǔn)的MFCC僅僅表現(xiàn)了語音算數(shù)的靜態(tài)特征,而語音的動態(tài)特性更能滿足人耳對聲音敏感的特性,故本文采用的特征提取算法是在MFCC的基礎(chǔ)上再作一階差分(MFCC),二階差分(MFCC)這三部分構(gòu)成了特征矢量。它對消除語音信號的幀之間的相關(guān)性具有很好的效果,并且可以很好的逼近語音的動態(tài)特性,對提高系統(tǒng)的識別率有很大的作用。MFCC特征參數(shù)的提取過程如圖3所示:

        圖3 特征提取

        特征提取具體步驟如下:

        1)預(yù)加重,減少尖銳噪聲的影響,提升高頻信號,x(n)為原信號,y(n)為預(yù)加重后信號;

        2)加漢明窗,減少吉伯斯效應(yīng)。W(n)是窗函數(shù),Sw(n)是加窗后信號:

        3)對信號Sw(n)進(jìn)行DFT

        4)把頻譜系數(shù)用三角濾波器進(jìn)行濾波處理,得到一組系數(shù)m1, m2,...,mM,M 為濾波器組個數(shù)。濾波器組中每一個三角濾波器的跨度在Mel標(biāo)度上是相等的。

        5)計算每個濾波器組輸出的對數(shù)能量:

        6)經(jīng)離散余弦變換(DCT)得到MFCC:

        7)對MFCC再作一階差分、二階差分作為最終的特征矢量。

        1.2 基于GMM-UBM模型目標(biāo)說話人的判決

        1)注冊說話人階段:注冊語音在UBM模型上計算高斯?fàn)顟B(tài)占有率,得到統(tǒng)計量,在UBM的均值和方差中做一個類似插值的操作得到說話人模型參數(shù)。

        具體步驟如下:

        (1)語音特征矢量X = { x t,t = 1, 2, …,T },設(shè)置最大迭代次數(shù)L以及每次迭代的改進(jìn)閾值作為迭代過程的終止條件;

        (4)計算總畸變Dm:

        (5)計算畸變的相對改變值:

        (7)如果當(dāng)前誤差值小于門限值則跳轉(zhuǎn)到第(9)步,否則,跳到第(8)步;

        (8)若m > L,跳到第(9)步,否則,m = m +1,跳轉(zhuǎn)到第(3)步;

        (9)迭代終止并計算:

        其中,Nj是屬于第的點的個數(shù);

        2)測試階段:測試語音在UBM模型上計算高斯的似然度,并計算在待測說話人模型上對應(yīng)的高斯似然度,將兩個似然度相減則為最后的得分。具體步驟如下:

        (1)首先對通用背景模型(UBM)中每個高斯計算似然度得分,并對每一幀選出得分最高的C個高斯模型。

        (2)計算說話人模型得分,每一幀只需要計算對應(yīng)于UBM的C個高斯模型的得分即可。

        (3)計算最終的測試得分為說話人模型和通用背景模型兩者之差。

        3)得分規(guī)整[7]階段:由于同一說話人在不同的說話狀態(tài)、語義信息、環(huán)境噪音等因素的影響,說話人在不同狀態(tài)下的語音信息和特征信息會有所不同,導(dǎo)致同一說話人在兩次說話中出現(xiàn)差異,在系統(tǒng)上表現(xiàn)為得分不同。不同說話人在某些相同的環(huán)境下會有一定的相似性。

        通過得分規(guī)整技術(shù)對說話人識別的高斯似然度進(jìn)行歸一化運算,使在不同說話人模型下的輸出得分規(guī)整到同一分布范圍。得分規(guī)則可以有效地減小同一說話人的不一致性,擴大不同說話人的不一致性。本文主要討論對最后得分ZNORM[7-8]、TNORM[9]及ZTNORM這三種方式規(guī)整技術(shù)。ZNORM(Zero Normalization)的原理是利用大量冒認(rèn)者語句對目標(biāo)說話人模型進(jìn)行測試,再利用輸出得分統(tǒng)計出目標(biāo)說話人模型的輔助參數(shù)。TNORM(Test Normalization)的原理是計算大量冒認(rèn)者模型對待測語句的得分,從而得到待測語句在冒認(rèn)者模型上的相關(guān)參數(shù),TNORM是一種在線處理的規(guī)則方法。其缺點是當(dāng)冒認(rèn)者模型較多時,計算量較大,比較耗費時間。

        2 實驗分析及結(jié)果

        本實驗采用的語音數(shù)據(jù)的格式是16kHz,8位精度,wav 文件格式,語音時長為5min。設(shè)置12個實驗,對不同的高斯維數(shù)(256、512、1024、2048)及得分規(guī)則(ZNORM、TNORM、TZNORM),得到不同的等錯誤率。

        表 1

        由表1中的12個實驗數(shù)據(jù)可以看出,2048個高斯模型,TNORM和ZNORM的混合得分規(guī)整這個實驗參數(shù)是等錯誤率(EER)最小,在12個實驗中識別效果最好。對不同的高斯維數(shù)及得分規(guī)則,說話人識別系統(tǒng)的等錯誤率(EER)有不同,整體趨勢是高斯維數(shù)越大,等錯誤率EER越小,識別效果越好?;旌系梅忠?guī)整具有較好的效果,EER較低。

        3 結(jié)論

        增高通用背景高斯混合模型的維數(shù)可以較為準(zhǔn)確地對說話人的特征信息即MFCC進(jìn)行建模,很好的描述說話人的特征信息,并使得系統(tǒng)獲得較好的系統(tǒng)識別率。

        [1]TADJ C, GABREA M, GARGOUR C, et al.Towards robustness speaker verification: enhancement and adaptation[C]//Proceeding of the 45th Midwest Symposium on Circuit and System.New York: IEEE, 2002:320-323.

        [2]ZHEN Y X, ZHENG T F, WU W H.Weighting observation[C]//Proceedings of International Conference on Spoken Language Processing.Jeju Island, Korean: ISCA,2004: 819-822.

        [3]包永強,趙力,鄒采榮.采用歸一化補償變換的與文本無關(guān)的說話人識別[J].聲學(xué)學(xué)報,2006,31(1):55-60.

        [4]D.A.Reynolds and R.C.Rose.”Robust textindependent speaker identification using Gaussian mixture speaker models”IEEE Trans.on Speech and Audio Processing,1995,3.

        [5]Steve Young,The HTK Book.Ver 3.0, July 2000.http://svr-www.eng.cam.ac.uk.

        [6]D.A.Reynolds.”Speaker identification and verification using Gaussian mixture speaker models”Speech Communication, 1995,17:91-108.

        [7]Frederic Bimbot, Jean-Francois Bonastre, A Tutorial on Text-Independent Speaker Verification[J].EURASIP Journal on Applied Signal Processing,2004,4:430-451.

        A Study on the Textindependent Speaker Recognition System under Noisy Condition

        LIN Xiu,F(xiàn)AN Mao-zhi
        School of Software Engineering, Tongji University,Shanghai 201804

        TP391.42

        A

        1674-6708(2011)53-0182-03

        林秀,碩士研究生,研究方向:說話人識別

        范茂志,碩士,研究方向:人工智能、人臉識別、嵌入式Linux

        猜你喜歡
        特征信號模型
        一半模型
        信號
        鴨綠江(2021年35期)2021-04-19 12:24:18
        重要模型『一線三等角』
        完形填空二則
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        如何表達(dá)“特征”
        不忠誠的四個特征
        基于FPGA的多功能信號發(fā)生器的設(shè)計
        電子制作(2018年11期)2018-08-04 03:25:42
        抓住特征巧觀察
        3D打印中的模型分割與打包
        国产欧美亚洲精品第二区首页| 人妻夜夜爽天天爽三区| a级毛片无码免费真人| 亚洲AV无码资源在线观看| 最新亚洲av日韩av二区一区| 校园春色日韩高清一区二区| 天天摸夜夜摸夜夜狠狠摸| 国产亚洲精久久久久久无码77777| 男人深夜影院无码观看| 亚洲人成精品久久熟女| 国产精品国产三级国产av品爱网| 黑人巨大白妞出浆| 国产v精品成人免费视频400条 | 厨房玩丰满人妻hd完整版视频| 久久精品无码一区二区三区不卡| 白白色视频这里只有精品| 无码人妻精品一区二区三| 熟妇五十路六十路息与子| 日本精品一区二区在线看| av天堂最新在线播放| 国产揄拍国产精品| 国产乱人伦AV在线麻豆A| 亚洲av综合色区久久精品| www婷婷av久久久影片| 国产乱子伦在线观看| 无码一区二区三区人| 亚洲自拍偷拍一区二区三区| 国产农村熟妇videos| 久草视频这里有精品| 国产亚洲精品视频在线| 成人欧美一区二区三区黑人| 无码手机线免费观看| 爆乳午夜福利视频精品| 婷婷久久av综合一区二区三区| 韩国三级中文字幕hd| 国产欧美精品一区二区三区,| 亚洲中字永久一区二区三区| 天堂中文а√在线| 亚洲在AV极品无码天堂手机版| 国产黄色一区二区福利| 亚洲乱码一区二区三区在线观看|