亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Gammatone濾波器組的說話人識別算法研究

        2015-04-14 12:28:04茅正沖王正創(chuàng)
        計算機(jī)工程與應(yīng)用 2015年1期
        關(guān)鍵詞:基底膜特征參數(shù)耳蝸

        茅正沖,王正創(chuàng),王 丹

        江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院,江蘇 無錫 214122

        1 引言

        說話人識別中最關(guān)鍵的問題之一就是提取有效的特征參數(shù),目前常見的特征參數(shù)有線性預(yù)測系數(shù)(LPC)、線譜對參數(shù)(LSP)、Mel頻率倒譜系數(shù)(MFCC)等[1]。然而,在實際的說話人識別系統(tǒng)中使用時,容易受到噪聲的干擾,導(dǎo)致識別率降低[2]。人耳聽覺系統(tǒng)是一個具有高度復(fù)雜性的系統(tǒng),其研究意義非常重要,尤其是在噪聲的環(huán)境下,人耳聽覺系統(tǒng)比任何自動識別系統(tǒng)更具有可靠性、便捷性。因此,將人耳聽覺模型融入到自動識別系統(tǒng)中,可以大幅提升系統(tǒng)的性能[3-5]。

        聲音的感受細(xì)胞在內(nèi)耳的耳蝸部分,而基底膜是耳蝸接收聲音最重要的組織。聲波在外耳腔引起空氣振動,從而引起行波沿基底膜的傳播?;啄つ軐Σ煌l率的聲音產(chǎn)生共鳴,反映不同頻率的聲音。不同頻率的聲音產(chǎn)生不同的行波,其峰值出現(xiàn)在基底膜的不同位置上[6-7]。

        本文給出了一種基于人耳耳蝸聽覺模型的Gammatone濾波器組,該濾波器組能很好地模擬基底膜的分頻特性,并且基于該濾波器組,提出了一種Gammatone頻率倒譜系數(shù)(GFCC)的提取算法,進(jìn)而用于說話人識別系統(tǒng)中。在有噪聲的背景下,該特征參數(shù)的識別率及魯棒性優(yōu)于傳統(tǒng)的特征參數(shù)MFCC。

        2 Gammatone濾波器

        Gammatone濾波器[8-9]最早應(yīng)用于描述聽覺系統(tǒng)脈沖響應(yīng)函數(shù)的形狀,后來應(yīng)用于耳蝸聽覺模型,用來模擬人耳聽覺頻率響應(yīng),其時域表達(dá)形式如下:

        其中,k為濾波器增益,a為濾波器階數(shù),f為中心頻率,?為相位,b是衰減因子,該因子決定相應(yīng)的濾波器的帶寬,它與中心頻率f的關(guān)系為:

        由于Gammatone濾波器的時域表達(dá)式為沖擊響應(yīng)函數(shù),所以將其進(jìn)行傅里葉變換就可以得到其頻率響應(yīng)特性。不同中心頻率的Gammatone濾波器的幅頻響應(yīng)曲線,如圖1所示。

        圖1 一組不同中心頻率下Gammatone濾波器的幅頻響應(yīng)曲線

        3 GFCC特征參數(shù)的提取

        根據(jù)Gammatone濾波器的特性,準(zhǔn)備將該濾波器應(yīng)用到說話人識別系統(tǒng)中。將輸入的語音信號通過一組Gammatone濾波器,進(jìn)而語音信號由時域轉(zhuǎn)換到頻域。這里采用的是一組64個的4階Gammatone濾波器,其中心頻率在50 Hz~8 000 Hz之間。由于濾波器的輸出保留原來的采樣頻率,所以在這沿著時間維度,取響應(yīng)頻率為100 Hz,通道數(shù)為64的Gammatone濾波器。這樣就產(chǎn)生了相應(yīng)的幀移為10 ms,進(jìn)而可以應(yīng)用到短時間的語音特征提取中。當(dāng)語音信號通過以上的濾波器時,輸出信號的響應(yīng)Gm(i)的表達(dá)式如下:

        其中,N=64是濾波器的通道數(shù),M是采樣之后的幀數(shù)。

        這樣Gm(i)構(gòu)成了一個矩陣,代表著輸入信號在頻域的分布變化,在這采用類耳蝸圖[10]來描述輸入信號在頻域的分布變化。然而,與具有直觀分辨率的語譜圖[11]不同,類耳蝸圖在低頻段的分辨率優(yōu)于在高頻段的分辨率。圖2是一段純凈語音信號的語譜圖和類耳蝸圖;圖3是一段加噪語音信號的語譜圖和類耳蝸圖。從圖中對比可以看出,類耳蝸圖的分辨效果更加清晰,能更好地反映語音信號的能量分布,尤其是在有噪聲背景下,類耳蝸圖的優(yōu)勢更突出,更能反映出語音信號的特性。因此,將對類耳蝸圖進(jìn)行下一步的分析研究。

        在這將類耳蝸圖的每一幀稱為Gammatone特征系數(shù)(GF),一個GF特征矢量由64個頻率成分組成。但是在實際的說話人識別系統(tǒng)中,GF特征矢量的維度比較大,計算量較大。此外,由于相鄰的濾波器通道有重疊的部分,GF特征矢量相互之間存在相關(guān)性。因此,為了減小GF特征矢量的維度及相關(guān)性,在這對每一個GF特征矢量進(jìn)行離散余弦變換(DCT),具體的表達(dá)式如下:

        圖2 一段純凈語音的語譜圖和類耳蝸圖

        圖3 一段加噪語音的語譜圖和類耳蝸圖

        這里將系數(shù)Cj(i)稱為GFCCs系數(shù)[12],嚴(yán)格來說,這個新的特征系數(shù)并不是倒譜系數(shù)。因為倒譜系數(shù)的產(chǎn)生一般要取對數(shù)能量,然而在這將GFCCs系數(shù)當(dāng)作倒譜系數(shù),是由于在上面的轉(zhuǎn)換中和MFCC特征參數(shù)的提取轉(zhuǎn)換有功能上的相似性。和MFCC特征參數(shù)類似,在實際的說話人識別系統(tǒng)中,并不是取全部維數(shù)的GFCCs系數(shù),經(jīng)過實驗表明最前若干維以及最后若干維的GFCCs系數(shù)對語音的區(qū)分性能較大,在這取前26維的GFCCs系數(shù)[13]。這樣GFCC特征參數(shù)的表達(dá)式如下:

        圖4是基于圖2中類耳蝸圖的分析示圖。圖4(a)是GF系數(shù),圖4(b)是基于26維GFCCs合成的GF系數(shù),圖4(c)是基于26維GFCCs合成的類耳蝸圖。

        圖4 類耳蝸圖的分析示圖

        4 實驗結(jié)果與分析

        本文所采用的語音庫是在實驗室環(huán)境下錄制的,語音采用的是單聲道,8 kHz的采樣頻率,16 bit量化。該語音庫由20人錄制的,每個人錄制10段語音,每段語音時長約5 s,其中每個人的4個語音段作為訓(xùn)練樣本集,另外6個語音段作為測試樣本集。混入的噪聲選自NOISEX-92標(biāo)準(zhǔn)噪聲庫[14-15],采用的識別方法是高斯混合模型(GMM),GMM的混合數(shù)是16。

        首先,在大信噪比的背景下,分別提取每個說話人的特征參數(shù)MFCC和GFCC。MFCC的提取采用26個Mel頻率濾波器組,經(jīng)DCT變換計算26維的倒譜系數(shù)。GFCC的提取采用64通道的Gammatone濾波器,經(jīng)DCT變換后取26維的GFCCs系數(shù)。經(jīng)過特征參數(shù)提取后,進(jìn)行說話人識別實驗,實驗結(jié)果如表1。

        其次,為了測試噪聲環(huán)境下特征參數(shù)MFCC和GFCC的識別性能,選取噪聲庫中三種典型噪聲作為測試系統(tǒng)的背景噪音。在這里選用的三種典型噪聲是White噪聲、Babble噪聲、Factory噪聲,信噪比為0 dB、5 dB、10 dB、15 dB,實驗結(jié)果如表1。

        表1 特征參數(shù)MFCC和GFCC的識別率(%)

        從表1中可以看出,在大信噪比的背景下,GFCC的識別率能達(dá)到95%以上。在三種不同的噪聲背景下,特征參數(shù)GFCC的識別率明顯高于MFCC。隨著SNR的增大,識別率越來越高,其中在Babble噪聲背景下,由于受到背景中不同說話者之間的相互干擾,以至于系統(tǒng)的平均識別率略低于其他兩種噪聲。此外,在Factory噪聲背景下,SNR為15 dB時,系統(tǒng)采用特征參數(shù)GFCC的識別率能達(dá)到80%以上,遠(yuǎn)高于特征參數(shù)MFCC。因此這些可以充分證明,采用Gammatone濾波器組模型對語音進(jìn)行時域前端濾波是很有效的,這種模型具有很強(qiáng)的抗噪性,也說明了特征參數(shù)GFCC對加性噪聲具有一定的抑制性,進(jìn)一步體現(xiàn)了基于人耳耳蝸聽覺特征的噪聲魯棒性。

        5 結(jié)束語

        本文給出了一種基于人耳耳蝸聽覺模型的Gammatone濾波器組,并且基于該濾波器組,提出了一種GFCC的提取算法。實驗結(jié)果表明,在說話人識別系統(tǒng)中采用特征參數(shù)GFCC,其識別率及魯棒性都優(yōu)于傳統(tǒng)的特征參數(shù)MFCC,GFCC能降低加性噪聲的影響,抑制加性噪聲的不穩(wěn)定性。此外,采用特征參數(shù)GFCC的計算量大,以及在短時間內(nèi)進(jìn)行說話人識別時,識別效果還需進(jìn)一步改進(jìn)。因此,如何減少說話人識別系統(tǒng)的計算量,提高系統(tǒng)的識別效率以及實現(xiàn)在短時間內(nèi)識別將是接下來的研究工作。

        [1]屈丹,王波,李弼程.VoIP語音處理與識別[M].北京:國防工業(yè)出版社,2010.

        [2]蔡蓮紅,黃德智,蔡銳.現(xiàn)代語音技術(shù)基礎(chǔ)與應(yīng)用[M].北京:清華大學(xué)出版社,2003.

        [3]尹輝,謝湘,匡鏡明.一種基于Gammatone濾波和FrFT的抗噪語音識別方法[C]//第十屆全國人機(jī)語音通訊學(xué)術(shù)會議暨國際語音語言處理研討會論文摘要集.北京:清華大學(xué)出版社,2009:5-8.

        [4]牛廷偉.噪聲環(huán)境下的語音識別關(guān)鍵技術(shù)研究[D].天津:天津理工大學(xué),2011.

        [5]金銀燕,于鳳芹.基于Gammatone濾波和PCNN的說話人識別[J].科學(xué)技術(shù)與工程,2010,10(30):1671-1674.

        [6]何朝霞,潘平.基于聽覺模型的說話人語音特征提取[J].微型機(jī)與應(yīng)用,2012,31(1):37-39.

        [7]陳世雄,宮琴,金慧君.用Gammatone濾波器組仿真人耳基底膜的特性[J].清華大學(xué)學(xué)報:自然科學(xué)版,2008,48(6):1044-1048.

        [8]王玥,錢志鴻,王雪,等.基于伽馬通濾波器組的聽覺特征提取算法研究[J].電子學(xué)報,2010,38(3):525-528.

        [9]王玥.說話人識別中語音特征參數(shù)提取方法的研究[D].長春:吉林大學(xué),2009.

        [10]Shao Yang,Wang Deliang.Robust speaker identification using auditory features and computational auditory scene analysis[C]//Proceedings of IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP2008),March 30-April 4,2008.[S.l.]:IEEE,2008:1589-1592.

        [11]張雪英.數(shù)字語音處理及MATLAB仿真[M].北京:電子工業(yè)出版社,2003.

        [12]ZhaoXiaojia,Shao Yang,WangDeliang.CASA-based robustspeakeridentification[J].IEEE Transactions on Audio,Speech and Language Processing,2012,20(5):1608-1616.

        [13]He Xu,Lin Lin.A new algorithm for auditory feature extraction[C]//Proceedings of InternationalConference on Communication Systems and Network Technologies.Washington,DC,USA:IEEE Computer Society,2012:229-232.

        [14]胡峰松,曹孝玉.基于Gammatone濾波器組的聽覺特征提取[J].計算機(jī)工程,2012,38(21):168-171.

        [15]Shao Yang,Jin Zhaozhang,Wang Deliang.An auditorybased feature for robust speech recognition[C]//Proceedins of International Conference on Acoustics,Speech and Signal Processing(ICASSP2009),19-24 April,2009.[S.l.]:IEEE,2009:4625-4628.

        猜你喜歡
        基底膜特征參數(shù)耳蝸
        新生小鼠耳蝸基底膜的取材培養(yǎng)技術(shù)*
        耳蝸微音器電位臨床操作要點
        故障診斷中信號特征參數(shù)擇取方法
        基于特征參數(shù)化的木工CAD/CAM系統(tǒng)
        豚鼠耳蝸基底膜響應(yīng)特性的實驗測試與分析
        振動與沖擊(2018年4期)2018-03-05 00:34:24
        基于PSO-VMD的齒輪特征參數(shù)提取方法研究
        Fibulin-2在診斷乳腺基底膜連續(xù)性的準(zhǔn)確性研究
        DR內(nèi)聽道像及多層螺旋CT三維重建對人工耳蝸的效果評估
        豚鼠耳蝸Hensen細(xì)胞脂滴的性質(zhì)與分布
        統(tǒng)計特征參數(shù)及多分類SVM的局部放電類型識別
        電測與儀表(2015年7期)2015-04-09 11:40:04
        国产精品一区久久综合| 国产精品无码片在线观看| 两个人免费视频大全毛片| 蓝蓝的天空,白白的云| 欧洲美女熟乱av| 男受被做哭激烈娇喘gv视频| 9久久精品视香蕉蕉| 日韩一区中文字幕在线| 免费av片在线观看网址| 国产精品无码av天天爽| 国产麻豆一精品一AV一免费软件 | 国产精品免费一区二区三区四区| 毛多水多www偷窥小便| 无码毛片高潮一级一免费| 北岛玲亚洲一区二区三区| 人禽杂交18禁网站免费| 久久夜色精品国产噜噜av| 久久久精品2019中文字幕之3| 最好的99精品色视频大全在线| 国产精品久久精品第一页| 全部孕妇毛片| 小13箩利洗澡无码免费视频| 国产视频激情视频在线观看| 欧美成人猛交69| 欧美日韩精品乱国产538| 日本成人在线不卡一区二区三区 | 国产午夜福利精品一区二区三区 | 国产一区二区精品在线观看| 精品国产三级国产av| 夜夜高潮夜夜爽夜夜爱爱一区| 亚洲av永久无码天堂网手机版| 高清国产亚洲va精品| 久亚洲精品不子伦一区| 乱人妻中文字幕| 国产精品无码Av在线播放小说| 亚洲一区二区三区精品久久| 无码色av一二区在线播放| 在线播放国产一区二区三区| 蜜桃视频一区二区三区在线| 懂色av一区二区三区尤物| 中文国产日韩欧美二视频|