亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多窗頻譜估計(jì)的PLAR特征提取*

        2014-11-22 02:03:54聰,白
        關(guān)鍵詞:特征提取信號方法

        尹 聰,白 靜

        (太原理工大學(xué) 信息工程學(xué)院 山西 太原 030024)

        0 引言

        說話人識別主要包含兩個階段,特征提取和模式識別.特征提取的過程,實(shí)際上是去除原來語音中的冗余信息,減小數(shù)據(jù)量的過程[1].因此,如何提取能夠充分表征說話人個性信息的特征參數(shù)一直是說話人識別面臨的最大問題之一.

        說話人識別系統(tǒng)常用的特征參數(shù)有:LPC,LPCC及MFCC 等,但這些參數(shù)的應(yīng)用都受到各種因素的制約,如說話人周圍環(huán)境中噪音的干擾,以及說話人情緒、健康狀況等自身因素的影響.此外,隨著時間和年齡的變化,這些特征參數(shù)也會隨之發(fā)生變化,從而影響說話人識別系統(tǒng)的穩(wěn)定性.近幾年,有學(xué)者提出將感知對數(shù)面積比系數(shù)(Perceptual Log Area Ratio,PLAR)[2-3]特征參數(shù)應(yīng)用于說話人識別系統(tǒng),該特征從人類聽覺感知機(jī)理出發(fā),運(yùn)用聽覺心理學(xué)概念表征說話人的個性特征,具有維數(shù)低,運(yùn)算速率快,抗噪性能強(qiáng)等特點(diǎn),是一種穩(wěn)健的特征參數(shù).在噪音環(huán)境下,其說話人辨認(rèn)系統(tǒng)的性能明顯優(yōu)于傳統(tǒng)特征參數(shù)MFCC的系統(tǒng);但在說話人確認(rèn)系統(tǒng)中,其系統(tǒng)性能卻隨著信噪比的增大而急速下降.因?yàn)樵谠撎卣鞯奶崛≈校捎霉潭ù暗亩虝r傅里葉變換(Discrete Fourier Transform,DFT)對語音信號進(jìn)行預(yù)處理,獲得信號的頻譜信息,這種短時加窗處理的頻譜估計(jì)方法導(dǎo)致了計(jì)算誤差的產(chǎn)生[4],雖然PLAR 參數(shù)在純凈語音環(huán)境下具有較好的識別性能,但在噪音的干擾下,說話人確認(rèn)系統(tǒng)的性能卻急劇下降.T.Kinnunen[5]等人提出具有魯棒性的多窗頻譜估計(jì)(Multitaper Spectrum Estimate,MSE).多窗頻譜估計(jì)(Multitapering[6-8])通過采用多個窗函數(shù)對語音信號進(jìn)行頻譜分析,將各個獨(dú)立的子頻譜估計(jì)進(jìn)行加權(quán)平均,作為該語音信號最終的頻譜估計(jì).

        本文著眼于特征提取中的前端處理,提出一種基于Multitapering的PLAR 特征提取方法,改進(jìn)了PLAR 提取過程中對語音信號的預(yù)處理,通過Multitapering獲得語音信號的頻譜估計(jì).由于該方法對信號的頻譜估計(jì)方差更小,減小了噪音對信號頻譜的影響,因此通過該頻譜估計(jì)方法獲得的頻譜分析可以更好地反應(yīng)說話人的聲道結(jié)構(gòu),繼而可以獲得更加穩(wěn)定的特征參數(shù),簡稱MTPLAR.實(shí)驗(yàn)結(jié)果表明:與傳統(tǒng)的DFT 相比,該頻譜估計(jì)法對信號的頻譜分析更加準(zhǔn)確,在噪音環(huán)境下,基于新特征參數(shù)的系統(tǒng)性能比PLAR的系統(tǒng)有明顯的提高.

        圖1 Multitapering的實(shí)現(xiàn)框圖Fig.1 Flow diagram of Multitapering

        1 多窗頻譜估計(jì)

        多窗頻譜估計(jì)采用具有不同權(quán)值的多個窗函數(shù),用頻域的平均值來獲得信號的頻譜估計(jì),該方法是對傳統(tǒng)加權(quán)的DFT 的一種擴(kuò)展.多窗頻譜估計(jì)法曾被用在語音增強(qiáng)方面[9],最進(jìn)幾年才被引入說話人識別領(lǐng)域[5-6,10],并在頻譜泄露及頻譜估計(jì)方差方面都體現(xiàn)出優(yōu)于DFT 的特性[11-12].

        Multitapering 的定義如下:

        式中:K為窗的個數(shù);wj(t)為窗函數(shù);λ(j)為第j個窗函數(shù)的對應(yīng)權(quán)值;N為語音幀的個數(shù).其中j=1,…,K;t=0,…,N-1.加權(quán)的DFT 是一種特殊情況,即K=1,λ=1.

        Multitapering的具體實(shí)現(xiàn)如圖1 所示[5],多窗頻譜估計(jì)方法利用多個相互獨(dú)立的窗函數(shù)對信號進(jìn)行頻譜分析,并最終產(chǎn)生幅度上存在微小差別的多個子頻譜,這些子頻譜的加權(quán)平均值構(gòu)成了信號的最終頻譜.由于頻譜之間的平均減小了對整個信號頻譜估計(jì)的方差,因此與傳統(tǒng)的單一窗函數(shù)的估計(jì)方法相比,該方法獲得的信號頻譜對噪音的敏感性更弱.

        由Multitapering 的定義式可以看出,有兩個因素需要確定,即窗函數(shù)及其對應(yīng)的權(quán)值.窗函數(shù)包括三種類型:Thomson[7],Sine[8]和 Multipeak[12].在倒譜分析中,Sine 窗用于尋求最優(yōu)的權(quán)重值[13].不同類型的窗函數(shù)適用于不同類型的隨機(jī)過程(假設(shè)信號服從某種隨機(jī)過程).例如,Thomson窗函數(shù)適用于頻譜平坦的信號(白噪聲),而Multipeak 窗函數(shù)更適合于對帶峰值頻譜信號的分析(例如語音信號).總之,窗函數(shù)的選擇是為了使不同子頻譜的估計(jì)誤差之間近似不相關(guān),從而降低頻譜估計(jì)的方差值.

        本文研究了對于不同窗個數(shù)的情況,SWCE(Sine-Weighted Cepstrum Estimator),Thomson以及Multipeak 三種多窗頻譜估計(jì)方法對一幀語音信號的頻譜估計(jì)性能,并與傳統(tǒng)漢明(Hamming)窗的DFT 進(jìn)行對比分析,結(jié)果如圖2所示.

        圖2 不同類型窗函數(shù)的頻譜估計(jì)圖Fig.2 Diagrams of spectrum estimation with different type of window functions

        由圖2 可知,與Hamming窗的DFT 方法相比,三種多窗頻譜估計(jì)法獲得的頻譜結(jié)構(gòu)更加平滑,主要是因?yàn)镸ultitapering 減小了對語音信號進(jìn)行頻譜估計(jì)的方差值.三種Mulitapering相比,Thomson產(chǎn)生類階梯狀的頻譜結(jié)構(gòu),Multipeak獲得具有比較清晰的峰值的頻譜結(jié)構(gòu),而SWCE產(chǎn)生的頻譜結(jié)構(gòu)更加平滑,是以上兩種方法的一種折中.此外,頻譜估計(jì)的性能也會受到窗個數(shù)選擇的影響,當(dāng)窗個數(shù)比較少時(如K≤4),三種Multitapering都保留了諧波(由聲源產(chǎn)生)及譜包絡(luò)(由聲道結(jié)構(gòu)產(chǎn)生)的信息;但當(dāng)窗個數(shù)較多(如K≥12)時,頻譜中的諧波成分便會消失,即反應(yīng)聲源的信息便會被忽略,因此窗個數(shù)的選擇很大程度上取決于具體的應(yīng)用環(huán)境.對于說話人的識別,聲源和聲道的信息都不同程度地表征了說話人的個性特征.因此,為了充分體現(xiàn)說話人的個性信息,應(yīng)選擇相對較少的窗函數(shù)來估計(jì)語音信號的頻譜結(jié)構(gòu).

        2 基于Multitapering 的PLAR 特征提取

        假設(shè)x=[x(0)…x(N-1)]T表示一幀語音信號,DFT 是信號處理中廣泛應(yīng)用的頻譜估計(jì)方法,其頻譜估計(jì)如式(2)所示.

        式中:f∈{0,1,…,N-1}為離散頻域的序列;w=[w(0)…w(N-1)]T為Hamming 窗函數(shù).

        從統(tǒng)計(jì)學(xué)角度看,Hamming窗雖然減小了頻譜估計(jì)的均值,但仍具有很大方差,說明通過傳統(tǒng)單一窗函數(shù)的方法估計(jì)的頻譜波動性較大,從而導(dǎo)致最終的特征參數(shù)穩(wěn)定性變差.因此,為了解決傳統(tǒng)方法中頻譜估計(jì)穩(wěn)定性差的問題,本文將Multitapering方法應(yīng)用到PLAR的提取中,在語音信號預(yù)處理過程,采用Multitapering替代傳統(tǒng)的DFT,對信號進(jìn)行頻譜估計(jì);再對頻譜進(jìn)行PLAR特征參數(shù)的提取,從而獲得新的特征參數(shù)MTPLAR.其提取過程如圖3 所示.

        圖3 MTPLAR的提取過程Fig.3 Extraction process of MTPLAR

        MTPLAR參數(shù)的提取過程如下:

        1)對語音信號進(jìn)行頻譜估計(jì),利用Multitapering方法得到其頻譜S(ω),進(jìn)而獲得其功率譜.

        2)對功率譜進(jìn)行Bark域的轉(zhuǎn)換,其公式為

        式中:ω為角頻率;Ω為Bark域角頻率.對變換后的功率譜進(jìn)行臨界帶譜分析,得到臨界帶的功率譜

        式中:Ψ(Ω)為臨界帶曲線[14].

        3)采樣后的Θ[Ω(ω)]用模擬的等響曲線進(jìn)行預(yù)加重,

        函數(shù)E(ω)是對不同頻率不等的人類聽覺敏感度的一個近似估計(jì),模擬了聲強(qiáng)為40dB 的聽覺敏感度.

        4)對Ξ[Ω(ω)]的立方根的幅值進(jìn)行壓縮,其計(jì)算公式為

        5)對Φ(Ω)進(jìn)行IDFT 變換,得到其自相關(guān)函數(shù),使用萊文遜-杜賓遞推算法求得PLP 系數(shù).若將聲道視為由多個不同剖面面積、相等長度的聲管串聯(lián)而成的系統(tǒng),則MTPLAR系數(shù)為相鄰兩個聲管剖面面積比.MTPLAR系數(shù)與PLP系數(shù)之間的關(guān)系為

        式中:Ai為第i個聲管的剖面面積;αi為第i階PLP 系數(shù);為第i階PLP 模型的第i個系數(shù).

        3 實(shí)驗(yàn)與分析

        實(shí)驗(yàn)數(shù)據(jù)來源于自錄語音庫,該語音庫是在安靜的實(shí)驗(yàn)室環(huán)境下錄制的純凈語音,語音信號的采樣頻率為8kHz,采樣精度為16bit,單聲道錄音.語音庫包含80個說話人,男、女各40人,訓(xùn)練語音長度為30s,測試語音長度為10s.

        為了測試本文提出的MTPLAR特征參數(shù)的魯棒性,實(shí)驗(yàn)中采用三種Multitapering 方法,Thomson,Multipeak 以及SWCE,提取了20 維MTPLAR特征參數(shù).采用GMM 模型來建模,對基于MTPLAR特征的說話人確認(rèn)系統(tǒng)進(jìn)行識別性能的測試,并與基于傳統(tǒng)DFT 方法提取的PLAR特征的基線系統(tǒng)進(jìn)行對比分析.首先,研究了在純凈語音下Multitapering方法中窗個數(shù)對系統(tǒng)性能的影響,對基于三種Multitapering方法的MTPLAR特征參數(shù)的說話人確認(rèn)系統(tǒng)的識別性能進(jìn)行了對比分析,結(jié)果如圖4 所示.

        由圖4 可以看出,當(dāng)窗個數(shù)4≤K≤8 時,通過三種Multitapering 方法提取的特征系統(tǒng)的EER 均低于基線系統(tǒng).由此可以說明,Multitapering方法對信號的頻譜分析優(yōu)于傳統(tǒng)的DFT,但其頻譜估計(jì)性能會受到窗個數(shù)的影響.實(shí)驗(yàn)證明:對于Thomson,當(dāng)K=4 時,系統(tǒng)的性能最佳;SWCE 及Multipeak 最佳性能對應(yīng)的窗個數(shù)為8.

        圖4 不同窗個數(shù)下,Multitapering的性能比較Fig.4 Comparison of Multitapering performance with different number of window functions

        其次,研究了在噪音環(huán)境下,MTPLAR特征參數(shù)的魯棒性.實(shí)驗(yàn)選取噪音庫NOISEX-92[15]中的Factory 噪聲.噪聲按信噪比SNR為0dB,5dB,15dB,20dB 分別添加到干凈語音中.實(shí)驗(yàn)中,Thomson,SWCE 以及Multipeak 的窗個數(shù)分別為4,8,12,結(jié)果如表1所示.由表1可以看出,使用Multitapering改進(jìn)后的MTPLAR特征參數(shù)系統(tǒng)的EER均小于PLAR參數(shù),說明此改進(jìn)方法可以有效提高說話人確認(rèn)系統(tǒng)的識別性能.在純凈環(huán)境下,SWCE 表現(xiàn)最佳;在不同信噪比下,3種方法的識別性能不同.

        表1 不同信噪比情況下新特征的識別性能Tab.1 Recognition performance of the new feature under different SNR

        4 結(jié)束語

        本文通過改進(jìn)前端處理的頻譜估計(jì)方法,提出了一種基于Multitapering 的PLAR 特征提取方法.由于該方法可以對信號進(jìn)行更加穩(wěn)定的頻譜分析,故由此獲得的特征參數(shù)也具有更加魯棒的特性.實(shí)驗(yàn)結(jié)果表明:窗個數(shù)的選擇對該頻譜估計(jì)方法的性能產(chǎn)生了很大的影響,不同類型的窗函數(shù)對應(yīng)不同的最佳窗個數(shù).在噪音環(huán)境下,本文方法獲得的MTPLAR參數(shù)比傳統(tǒng)PLAR 方法在系統(tǒng)的識別性能方面得到了明顯的提高,同時也體現(xiàn)出了良好的抗噪性能.但本文并未對所有種類的噪聲進(jìn)行實(shí)驗(yàn)分析,故該方法是否對噪聲類型具有穩(wěn)定性仍需要進(jìn)一步研究.

        [1]王炳錫,屈丹,彭煊.實(shí)用語音識別基礎(chǔ)[M].北京:國防工業(yè)出版社,2000:265-266.

        [2]Chow D,Abdulla W H.Robust speaker identification based on perceptual log area ratio and gaussian mixture models[C].Proceedings of the 2004-ICSLP,Jeju Island,South Korea.USA:IEEE,2004:1761-1764.

        [3]李燕萍,唐振民,錢博,等.基于PLAR 特征補(bǔ)償?shù)聂敯粜哉f話人識別仿真研究[J].系統(tǒng)仿真學(xué)報(bào),2009,21(2):409-412.Li Yanping,Tang Zhenmin,Qian Bo,et al.Robust speaker recognition based on PLAR features compensation transformation and its simulation study[J].Journal of System Simulation,2009,21(2):409-412.(in Chinese)

        [4]Percival D B,Walden A T.Spectral Analysis for Physical Application [M].Cambridge University Press,1993.

        [5]Kinnunen T,Saeidi R,Sandberg J,et al.What else is new than the Hamming window robust MFCCs for speaker recognition via multitapering[C].In Proc.Interspeech,2010:2734-2737.

        [6]Sandberg J,Hansson-Sandsten M,Kinnunen T,et al.Multitaper estimation of frequency-warped cepstra with application to speaker verification[J].IEEE Signal Processing Letters,2010,17(4):343-346.

        [7]Thomson D J.Spectrum estimation and harmonic analysis[J].Proc.of the IEEE,1982,70(9):1055-1096.

        [8]Riedel K S,Sidorenko A.Minimum bias multipletaper spectral estimation[J].IEEE Trans.on Signal Proc.,1995,43(1):188-195.

        [9]Hu Y,Loizou P.Speech enhancement based on wavelet thresholding the multitaper spectrum[J].IEEE Trans.On Speech and Audio Proc.,2004,12(1):59-67.

        [10]Kinnunen T,Saeidi R,Sedlak F,et al.Low-variance multitaper MFCC features:A case study in robust speaker verification[J].IEEE Transactions on Audio,Speech and Language Processing,2012,20(7):1990-2001.

        [11]Hansson M.Optimized weighted averaging of peak matched multiple window spectrum estimates[J].IEEE Trans.on Signal Processing,1999,47(4):1141-1146.

        [12]Hansson M,Salomonsson G.A multiple window method for estimation of peaked spectra[J].IEEE Trans.on Signal Processing,1997,45(3):778-781.

        [13]Hansson-Sandsten M,Sandberg J.Optimal cepstrum estimation using multiple windows[C].IEEE Intemational Conference on Acoustics,Speech and Signal Processing,2009:3077-3080.

        [14]Hermansky H.Perceptual linear predictive(PLP)analysis of speech[J].Journal of Acoustical Society of America,1990,87:1738-1752.

        [15]Varga A P,Steeneken H J M,Tomlinson M,et al.The noisex-92study on the effect of addictive noise on automatic speech recognition[R].Technical Report.Malvern UK:Speech Research Unit,Defense Research Agency,1992.

        猜你喜歡
        特征提取信號方法
        信號
        鴨綠江(2021年35期)2021-04-19 12:24:18
        完形填空二則
        基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
        電子制作(2019年15期)2019-08-27 01:12:00
        基于FPGA的多功能信號發(fā)生器的設(shè)計(jì)
        電子制作(2018年11期)2018-08-04 03:25:42
        一種基于LBP 特征提取和稀疏表示的肝病識別算法
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        基于LabVIEW的力加載信號采集與PID控制
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        日韩经典午夜福利发布| 日韩av在线不卡一区二区三区| 久久精品日韩免费视频| 蜜臀一区二区三区精品| 中文字幕+乱码+中文字幕一区 | 亚洲国产精品久久久天堂不卡海量| 性色av手机在线观看| 国产视频一区二区三区在线免费| 消息称老熟妇乱视频一区二区| 精品十八禁免费观看| 国产一区二区三区av香蕉| 中文字幕一区二区三区久久网| 性高湖久久久久久久久| 99国产超薄丝袜足j在线播放| 伊人久久大香线蕉综合av| 丰满女人猛烈进入视频免费网站| 极品粉嫩小泬无遮挡20p| 国产高清在线精品一区αpp| 女人天堂国产精品资源麻豆| 成人中文乱幕日产无线码| 成人做爰69片免费看网站| 国产美女av一区二区三区| 国产一区二区三区视频地址 | 人人添人人澡人人澡人人人人| 精品久久杨幂国产杨幂| 大尺度极品粉嫩嫩模免费| 天天摸夜夜摸夜夜狠狠摸| 免费一级特黄欧美大片久久网 | 性感美女脱内裤无遮挡| 国产精品理论片| 另类欧美亚洲| 日韩精品视频中文字幕播放| 99国产精品99久久久久久 | 无码少妇丰满熟妇一区二区| 亚洲国产精品嫩草影院久久 | 亚洲蜜臀av一区二区三区漫画 | 日本午夜剧场日本东京热| 97人人超碰国产精品最新| 在线观看无码一区二区台湾| 深夜日韩在线观看视频| 久久97久久97精品免视看 |