亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        噪聲環(huán)境中基于VQ說話人識別

        2010-06-22 03:41:08張飛云王紅艷
        現(xiàn)代電子技術(shù) 2009年22期

        張飛云 王紅艷

        摘 要:噪聲環(huán)境下,為了提高說話人識別系統(tǒng)的魯棒性,需要對系統(tǒng)進(jìn)行各種抗噪聲處理。采用梅爾頻率倒譜系數(shù)作為語音的特征參數(shù),矢量量化方法進(jìn)行模式匹配,將改進(jìn)的基于聽覺掩蔽效應(yīng)的語音增強(qiáng)器作為預(yù)處理器,對語音信號首先進(jìn)行降噪處理。語音增強(qiáng)器實(shí)驗(yàn)結(jié)果表明,經(jīng)過降噪處理后提高了輸入信號的信噪比,減少了語音失真,同時很好地抑制了背景噪聲和殘余音樂噪聲。將經(jīng)過降噪處理的語音信號送入說話人識別系統(tǒng),提高了系統(tǒng)的識別性能。

        關(guān)鍵詞:說話人識別;矢量量化;掩蔽閾值;掩蔽效應(yīng);MFCC

        中圖分類號:TP391.4

        0 引 言

        說話人識別可以看作是語音識別的一種特殊形式,是指通過對說話人語音信號的特征分析與參數(shù)提取,從而對說話人身份進(jìn)行辨認(rèn)和確認(rèn)。它與語音識別的不同之處在于:前者力求挖掘出包含在語音信號中的說話人的個性因素,強(qiáng)調(diào)的是不同人之間的個性差異;而后者則是為了提取語音信號中包含的詞語的共性信息,盡量把不同說話人的差別歸一化。

        在實(shí)際應(yīng)用中,由于多種因素的影響,音頻信號往往帶有不同類型的背景噪聲。這種差異性導(dǎo)致實(shí)驗(yàn)室環(huán)境下成熟的說話人識別系統(tǒng)性能迅速下降。目前,帶噪語音的說話人識別是現(xiàn)今說話人識別研究的一個熱點(diǎn)和難點(diǎn)。

        1 改進(jìn)的基于聽覺掩蔽效應(yīng)的語音增強(qiáng)

        將改進(jìn)的基于聽覺掩蔽效應(yīng)的語音增強(qiáng)器作為預(yù)處理器,對語音信號首先進(jìn)行預(yù)處理,再送入說話人識別系統(tǒng)組成抗噪聲說話人識別系統(tǒng)。如圖1所示。

        在眾多基于聽覺掩蔽效應(yīng)的語音增強(qiáng)方法中,對噪聲的估計(jì)大都使用MS(Minimum Statistics)方法。但經(jīng)試驗(yàn)發(fā)現(xiàn)這些方法并不是最好的。而對噪聲的估計(jì)不當(dāng),則會使得對后續(xù)的掩蔽參數(shù)調(diào)整出現(xiàn)偏差,從而影響增強(qiáng)效果;若對噪聲估計(jì)合理,則可以得到很好的增強(qiáng)效果。改進(jìn)的基于聽覺掩蔽效應(yīng)的語音增強(qiáng)可以快速跟蹤外界環(huán)境變化的噪聲估計(jì)方法來估計(jì)噪聲,該方法先在幀上判斷語音的有無,而后在頻率點(diǎn)上判斷語音的有無,然后利用估計(jì)出的噪聲同時結(jié)合掩蔽效應(yīng)自適應(yīng)設(shè)定增強(qiáng)系數(shù)。

        1.1 算法描述

        假設(shè)含噪語音信號y(n)表示為:y(n)=s(n)+d(n)。式中:s(n)為純凈語音信號;d(n)為加性噪聲。由于增強(qiáng)是按幀進(jìn)行的,所以可把上述模型寫成幀的形式:y(m,n)=s(m,n)+d(m,n),m=1,2,…,N;㎞=1,2,…N-1。式中:m為幀號;N為幀長,對其進(jìn)行傅里葉變換得:Y(m,k)=S(m,k)+D(m,k)。б用一種常用的語音增強(qiáng)減譜法模型

        否則:

        和β(m,k)分別為時間和頻率的函數(shù);α(m,k)用于控制增強(qiáng)語音的殘留音樂噪聲,其值根據(jù)人耳的聽覺掩蔽特性確定;而系數(shù)β(m,k)в糜誑刂圃鑾坑鏌艫男旁氡?。其值笓?jù)最小均方誤差準(zhǔn)則確定。

        1.1.1 噪聲的估計(jì)

        先在三個頻率子帶(0~1 000 Hz,1 000~3 000 Hz,3 000 Hz以上)上計(jì)算帶噪音的信噪比都小于某個門限σ時,該幀就被認(rèn)為是非語言幀,噪音被更新為:[JP]

        ИD(m,k)=εD(m-1,k)+(1-ε)|Y(m,k)|2И

        否則被認(rèn)為是語音幀。再按照頻率點(diǎn)來判斷語音是否存在,具體方法為:先找出當(dāng)前帶噪語音的最小能量Е血┆玬in(m,k),如果ρ┆玬in(m-1,k)<ρ(m,k),那么:

        否則:

        ИЕ血┆玬in(m-1,k)=ρ(m,k)[JY](9)И

        然后計(jì)算帶噪語音能量與當(dāng)前最小能量的比值S玶(m,k)=ρ(m,k)/ρ┆玬in(m,k)。將該比值與一個依賴于頻率的門限δ(k)相比,若大于該門限則認(rèn)為在這個頻率點(diǎn)上包含了語音,此時平滑參數(shù)α玸(m,k)=α1;否則沒有包含語音,α玸(m,k)=α2,其中的α1,α2Ь為經(jīng)驗(yàn)值。至此噪聲利用下式確定為:

        1.1.2 掩蔽閾值的計(jì)算

        在此首先將語音信號進(jìn)行臨界頻帶分析或Bark分析。利用FFT求得語音信號功率譜E(m,k),將語音信號的頻率域劃分為不同的臨界頻帶,語音在各個臨界頻帶的能量B璱=分別表示臨界頻帶的上限和下限,i=1,2,…,i┆玬ax是臨界帶號??紤]到各個頻帶間相互掩蔽的影響,定義如下的傳播函數(shù):

        由于噪聲和音調(diào)的掩蔽特性不同,因此首先判斷各個頻帶是噪聲還是音調(diào),可以根據(jù)譜平坦度И玈FM=μ玤/μ玜來判斷,其中,μ玤,μ玜Х直鴇硎靖鞲銎蕩功率譜的幾何和算術(shù)平均值,且SFM∈[0,1],為0表示具有純音調(diào)特性,純音調(diào)的掩蔽閾值偏移量為(14.5+玦)dB;為1表示具有白噪聲特性,白噪聲的掩蔽閾值偏移量為0.5 dB。根據(jù)SFM的定義,定義音調(diào)系數(shù)Е=玬in(玈FMヾB/-60,1),則相對的掩蔽閾值偏移量為:㎡璱=φ(14.5+i)+5.5(1-φ),此時掩蔽閾值㏕(m,i)=10┆玪g玕[C璱-(O璱/10)]。在各個臨界頻帶上,語音信號具有相同的掩蔽特性,將T(m,i)擴(kuò)展到各個頻譜上,記為T′(m,i)。則最終的掩蔽閾值為T(m,i)=玬ax玕[T′(m,i),T璦(m,i)],其中T璦(m,i)為絕對聽閾,定義為:3.6f-0.8-7玡xp(f-3.3)2+0.007f4。И

        2 說話人識別特征的提取

        [JP2]多年以來,為找到合適的說話人識別特征參數(shù),研究人員進(jìn)行大量的驗(yàn)證和研究。目前說話人識別研究中已使用過的特征參數(shù)主要有基音及其共振峰、線形預(yù)測系數(shù)、倒譜系數(shù),而較常用的是美爾頻率倒譜系數(shù)[1,9,10](Mel[CD*2]Frequency Cepstrum Coefficent,㎝FCC)。[JP]

        與普通實(shí)際頻率分析不同的是,MFCC的分析著眼于人耳的聽覺機(jī)理,依據(jù)聽覺實(shí)驗(yàn)的結(jié)果來分析語音的頻譜,使之更加符合人耳對頻率高低的非線性心理感覺,以期獲得高的識別率和好的噪聲魯棒性。具體的算法是將頻譜轉(zhuǎn)化為基于Mel頻標(biāo)的非線性頻譜。㎝el頻標(biāo)與頻率的關(guān)系可用式(13)近似表示:

        在實(shí)際應(yīng)用中,MFCC的計(jì)算過程為:

        (1) 將信號進(jìn)行短時傅里葉變換得到其頻譜;

        (2) 求它的頻譜幅度的平方,即能量譜,并用一組三角形濾波器在頻域?qū)δ芰孔V進(jìn)行帶通濾波。這組帶通濾波器的中心頻率是按Mel頻率刻度均勻排列的(間隔150Mel,帶寬300Mel),每個濾波器的三角形的兩個底點(diǎn)的頻率分別等于相鄰的兩個濾波器的中心頻率,即每兩個相鄰的濾波器的過渡帶相互搭接,且頻率響應(yīng)之和為1;濾波器的個數(shù)通常與臨界帶數(shù)相近(略小),設(shè)濾波器數(shù)為M,濾波后得到的輸出為:X(k),﹌=1,2,…,M;

        (3) 將濾波器組的輸出取對數(shù),然后對它做2MУ隳胬肷⒏道鏌侗浠,即得到MFCC。由于對稱性,此變換式可簡化為:

        這里MFCC系數(shù)的個數(shù)獿通常取12~16,本文采用13節(jié)狹FCC系數(shù)。

        3 VQ說話人識別算法

        矢量量化的基本原理:將若干個標(biāo)量數(shù)據(jù)組成一個矢量(或者是從一幀語音數(shù)據(jù)中提取的特征矢量)在多維空間給予整體量化,從而可以在信息量損失較小的情況下壓縮數(shù)據(jù)量。在以下的討論中S表示樣本點(diǎn)集合,[WTHX]X[WTBX]表示一個樣本,d([WTHX]X[WTBX],[WTHX]Y[WTBX])表示兩個矢量[WTHX]X和Y[WTBX]е間的距離。

        3.1 分裂法求初始碼本

        首先求出S中全體[WTHX]X的質(zhì)心Y[WTBX]([WTHX]Y[WTBX]=∑[WTHX]X[WTBX]/N),然后在S中找一個與此質(zhì)心的畸變最大的矢量[WTHX]X[WTBX]璲,再在S中找一個與[WTHX]X[WTBX]璲的誤差最大的矢量[WTHX]X[WTBX]璳,以[WTHX]X[WTBX]璲和[WTHX]X[WTBX]璳為基準(zhǔn),S中的矢量與[WTHX]X[WTBX]璳距離較近的矢量歸于子集S璳,反之歸于S璲,Х直鷚哉飭礁鱟蛹作為初始碼本。

        3.2 LBG算法來實(shí)現(xiàn)

        (1) 將形成VQ碼本所需全部輸入矢量[WTHX]X[WTBX]存儲于計(jì)算機(jī)內(nèi)存中;

        (2) 設(shè)置迭代算法的最大迭代次數(shù)L;

        (3) 設(shè)置畸變改進(jìn)閥值δ;

        (4) 設(shè)置M個碼字的初值[WTHX]Y[WTBX]01,[WTHX]Y[WTBX]02…[WTHX]Y[WTBX]0㎝;

        (5) 設(shè)置畸變初值D(0)=∞;

        (6) 設(shè)置迭代初值m=1;

        3.3 改進(jìn)的LBG算法

        由于LBG算法生成碼本的好壞與初始碼本有很大關(guān)系,采用改進(jìn)的LBG算法,即先由分裂法產(chǎn)生2個矢量的初始碼本,再由LBG算法聚類,生成2個子集;2個子集分別用分裂法各產(chǎn)生2個矢量的碼本,再用LBG算法優(yōu)化,如此反復(fù)B次,可產(chǎn)生含2獴個矢量的碼本。

        4 實(shí)驗(yàn)與分析

        實(shí)驗(yàn)中的干凈信號是由消聲室中利用專業(yè)音頻卡錄制的“干”信號卷積混響時間為0.43 s的虛擬脈沖得到的;采樣頻率11 025 Hz,16 b量化,用于測試的帶噪語音是由干凈語音疊加白噪聲得到的。輸入的語音信號取每幀長256點(diǎn),幀移128點(diǎn),加Hanmming窗,預(yù)加重系數(shù)取0.95。利用VC++6.0組成抗噪聲說話人識別系統(tǒng)。

        參加實(shí)驗(yàn)的人數(shù)共有40人,均為在校學(xué)生,年齡在25歲左右,其中19位女生,21位男生,每人錄制了5段12秒語音。前三段訓(xùn)練,后兩段識別。在實(shí)驗(yàn)中,如果只對干凈的語音信號進(jìn)行識別,待識別的語音只用通過系統(tǒng)中的識別,不需要任何的增強(qiáng)處理,識別率可以達(dá)到99%。

        對含噪的語音信號進(jìn)行識別,在識別之前,經(jīng)過改進(jìn)的基于聽覺掩蔽效應(yīng)的語音增強(qiáng)降噪處理后,識別率會得到很大的改善。

        [HJ0]改進(jìn)的基于ぬ覺掩蔽ばвΦ撓鏌舄ぴ鑾35.561.572.095.5[HJ][HT5SS]

        由表1可以看出,當(dāng)信號受到白噪聲污染時,直接接入說話人識別系統(tǒng)進(jìn)行識別時,系統(tǒng)性能急劇下降。譜減法對于降低噪聲對說話人識別系統(tǒng)有一定的作用,而當(dāng)受白噪聲污染的語音信號經(jīng)過改進(jìn)的基于聽覺掩蔽效應(yīng)的語音增強(qiáng)方法進(jìn)行降噪處理后,再接入說話人識別系統(tǒng),系統(tǒng)性能得到大大提高。

        5 結(jié) 語

        將改進(jìn)的基于聽覺掩蔽效應(yīng)的語音增強(qiáng)器作為預(yù)處理器,用于噪聲環(huán)境下說話人識別中。實(shí)驗(yàn)結(jié)果表明經(jīng)過降噪處理后提高了輸入信號的信噪比,減少了語音失真,同時很好地抑制了背景噪聲和殘余音樂噪聲。將經(jīng)過降噪處理的語音信號送入說話人識別系統(tǒng),提高了系統(tǒng)的識別性能。

        參 考 文 獻(xiàn)

        [1]趙力.語音信號處理[M].北京:機(jī)械工業(yè)出版社,2003.

        [2]Heck L P,Konig Y,Sonmez M K,玡t al.Robustness to Telephone Handset Distortion in Speaker Recognition by Discriminative Feature Design[J].Speech Communication,2000,31:181[CD*2]192.

        [3]王吉林,趙力,鄒采榮.基于概率DP匹配法的噪聲環(huán)境下說話人識別方法的研究[J].電聲技術(shù),2005(8):17[CD*2]19.

        [4]Damper R I,Higgins J E.Improving Speaker Identification in Noise by Subband Processing and Decision Fusion[J].Pattern Recognition Letters,2003(24):2 167[CD*2]2 173.

        [5]馬義德,邱秀清,陳昱蒞,等.改進(jìn)的基于聽覺掩蔽特性的語音增強(qiáng)[J].電子科技大學(xué)學(xué)報(bào),2008,37(2):255[CD*2]257,304.

        [JP2][6]Sundarrajan R.Noise Estination Algorithms for Highly ㎞on[CD*2]stationary Environments[D].Dallas:University of Texas,2004,1(1):305[CD*2]308.[JP]

        [7]Srael C.Noise Estination by Minima Controlled Recursive Averaging for Robust Speech Enhancement[J].IEEE Signal Processing Letters,2002,9(1):12[CD*2]15.

        [8]江小平,姚天仁,傅華.基于最小統(tǒng)計(jì)量和掩蔽效應(yīng)的單通道語音增強(qiáng)[J].通信學(xué)報(bào),2003,24(6):23[CD*2]31.

        [9]余建湖,張瑞林.基于MFCC和LPCC的說話人識別[J].計(jì)算機(jī)工程與設(shè)計(jì),2009,30(5):1 189[CD*2]1 192

        .

        [10]宮曉梅.噪聲環(huán)境下的MFCC特征提取[J].微計(jì)算機(jī)信息,2007,23(8):247[CD*2]249.

        [11]桂蘋,吳鎮(zhèn)揚(yáng),趙力,等.基于VQ的說話人自動識別系統(tǒng)實(shí)現(xiàn)[J].電聲技術(shù),2003(10):11[CD*2]14.

        作者簡介 張飛云 女,1976年出生,河南周口人,講師,碩士研究生。主要研究方向?yàn)檎Z音信號處理。

        王紅艷 女,1980年出生,河南許昌人,碩士研究生。主要研究方向?yàn)閿?shù)字控制、計(jì)算機(jī)控制。

        熟女少妇av免费观看| 久久久久人妻精品一区三寸| 欧美四房播播| 99精品免费久久久久久久久日本| 精品一精品国产一级毛片| 中文字幕一区二区三区在线视频| 91国产精品自拍视频| 99e99精选视频在线观看| 国产午夜伦鲁鲁| 亚洲日韩国产精品第一页一区| 国产一级淫片a免费播放口| 日韩av中文字幕少妇精品| 成人久久久精品乱码一区二区三区| 国内少妇毛片视频| 国产精品久久久久久52avav| 人妻被猛烈进入中文字幕| 国产亚洲精品视频在线| 国产精品亚洲三级一区二区三区 | 国产亚洲激情av一区二区| 国产三级精品三级在线专区| 少妇愉情理伦片丰满丰满| 人禽伦免费交视频播放| 韩国女主播一区二区在线观看| 亚洲中文字幕乱码在线视频| 国产人妻熟女呻吟在线观看| 人与动牲交av免费| 无码丰满少妇2在线观看| 亚洲天堂中文字幕君一二三四| av免费资源在线观看| 日本中国内射bbxx| 国产成人精品av| 大伊香蕉精品视频一区| 国内精品毛片av在线播放| 色又黄又爽18禁免费网站现观看| 日本午夜精品理论片a级app发布| 永久无码在线观看| 男女男生精精品视频网站| 久久国内精品自在自线| 成l人在线观看线路1| 国产成+人+综合+亚洲专| 看大陆男女真人草逼视频|