包永強(qiáng)
(南京工程學(xué)院通信工程學(xué)院,南京210096)
目前的一些語(yǔ)音信號(hào)識(shí)別系統(tǒng)在安靜的實(shí)驗(yàn)室環(huán)境下已達(dá)到很高的性能,但在實(shí)際的帶有噪聲的環(huán)境下,由于訓(xùn)練模型和識(shí)別環(huán)境的失配,系統(tǒng)的識(shí)別性能往往會(huì)有較大幅度的下降。為了提高語(yǔ)音識(shí)別系統(tǒng)的抗噪性,研究者提出了很多方法,除了對(duì)語(yǔ)音識(shí)別模型進(jìn)行噪聲補(bǔ)償?shù)确椒ㄍ猓?],許多學(xué)者致力于研究更具魯棒性的語(yǔ)音特征。Hwang T H和Lee L M[2]研究了噪聲對(duì)LPC倒譜系數(shù)的影響,并對(duì)其進(jìn)行噪聲補(bǔ)償,提高了其抗噪性。Mansour和Juang[3]提出了短時(shí)修正的相干系數(shù) SMC(Short-Time Modified Coherence Coefficient)作為語(yǔ)音特征參數(shù),Javier Hernadot[4]提出了 OSALPC(One-Sided Autocorr-elation Linear Predictive Coding)倒譜系數(shù)作為語(yǔ)音特征參數(shù),它們都是基于單邊自相關(guān)函數(shù)序列的線性預(yù)測(cè)技術(shù),實(shí)驗(yàn)證明它們對(duì)加性白噪聲具有較好的抗噪性。
由于通過(guò)單一的變換很難實(shí)現(xiàn)語(yǔ)音和噪聲完全分離,1999年,Agarwal A[5]等人提出了兩級(jí)維納濾波的方法用于克服有色噪聲的干擾,獲得了很好的效果。兩級(jí)維納濾波方法的提出從某種程度上說(shuō)明了采用兩種抗噪算法的系統(tǒng)普遍比只采用一種算法的要好,這種以復(fù)雜度換取性能飛躍的算法成為了歐洲電信標(biāo)準(zhǔn)化協(xié)會(huì)2002年10月頒布的分布式語(yǔ)音識(shí)別前端標(biāo)準(zhǔn)中的語(yǔ)音降噪的核心算法[5]。
兩級(jí)維納濾波算法的思路說(shuō)明了存在著這樣一種可能——以其尋找一種復(fù)雜的變換,達(dá)到語(yǔ)音和噪聲的最大可能分離,不如將兩種普通的降噪算法通過(guò)某種方法結(jié)合起來(lái),同樣可以達(dá)到很好的效果。目前國(guó)際上正展開(kāi)對(duì)這方面的研究[5-6],因此,尋找這樣一種結(jié)合方法同時(shí)又兼顧其復(fù)雜度的算法成為本章討論的主要內(nèi)容。
分?jǐn)?shù)階的概念最早應(yīng)用于傅里葉變換中,1980年Namias V用Hermite多項(xiàng)式構(gòu)建了分?jǐn)?shù)傅里葉變換[7-8],第一次給出了分?jǐn)?shù)傅里葉變換的定義,20世紀(jì)90年代,Shih C C基于態(tài)函數(shù)重新給出了一種分?jǐn)?shù)傅里葉變換的新定義[9],Qzatkas H M[10]等人研究發(fā)現(xiàn)信號(hào)的冪次為α的分?jǐn)?shù)傅里葉變換相當(dāng)于信號(hào)在時(shí)頻面內(nèi)角度απ/2的旋轉(zhuǎn)。分?jǐn)?shù)傅里葉變換成為了研究熱點(diǎn),在量子力學(xué)、光學(xué)、信號(hào)處理等領(lǐng)域內(nèi)得到了廣泛的應(yīng)用。
分?jǐn)?shù)階理論的引入使得傅里葉變換成為分?jǐn)?shù)階傅里葉變換的特例,通過(guò)改變分?jǐn)?shù)階值,可使傅里葉變換的內(nèi)涵得以擴(kuò)展。由于傅里葉變換在信號(hào)處理領(lǐng)域內(nèi)有著極其廣泛的應(yīng)用,可以預(yù)見(jiàn),分?jǐn)?shù)傅里葉變換具有非常廣闊的應(yīng)用前景[11]。
分?jǐn)?shù)階變換的提出為兩級(jí)濾波的研究提供了一個(gè)發(fā)展方向,可以更加靈活地定義兩級(jí)維納濾波中的變換的定義。
本文把ETSI ES 202 050 V.1.1.3版本規(guī)定的Mel域上的兩級(jí)維納濾波結(jié)構(gòu)推廣到分?jǐn)?shù)Mel域上,提出了分?jǐn)?shù)Mel域上的兩級(jí)維納濾波結(jié)構(gòu),獲得了性能的提高。
針對(duì)語(yǔ)音和噪聲在時(shí)域和頻域重合,而在分?jǐn)?shù)余弦變換域上可能分離的特點(diǎn),基于分?jǐn)?shù)Mel域上的兩級(jí)維納濾波結(jié)構(gòu),提出了基于態(tài)函數(shù)的分?jǐn)?shù)余弦變換域上的兩級(jí)最優(yōu)濾波器;與Mel域上的兩級(jí)維納濾波結(jié)構(gòu)中反復(fù)的時(shí)域-頻域轉(zhuǎn)換帶來(lái)計(jì)算量的急劇上升相比,其計(jì)算復(fù)雜度得以下降了,并且由于直接在分?jǐn)?shù)余弦變換域上進(jìn)行濾波,避免了由于Mel域參數(shù)較少導(dǎo)致的頻域不連續(xù)性帶來(lái)的時(shí)域截?cái)嘣肼暋?/p>
系統(tǒng)由MIC語(yǔ)音輸入模塊、音頻模塊和處理模塊組成,系統(tǒng)框圖如圖1所示。語(yǔ)音信號(hào)由麥克風(fēng)輸入至TLV320AIC23對(duì)語(yǔ)音信號(hào)進(jìn)行AD轉(zhuǎn)換和濾波后,再通過(guò)DSP芯片TMS320VC5502對(duì)信號(hào)進(jìn)行預(yù)處理、特征參數(shù)提取、建模及識(shí)別構(gòu)成。
圖1 語(yǔ)音系統(tǒng)框圖
DSP芯片TMS320VC5502最高可在300 MHz主頻下工作,具有16 kbyte的緩存和17 bit×17 bit雙乘法器,并帶有32 kbit×16 bit的RAM和16 kbit×16 bit的ROM。其片上外設(shè)主要包括時(shí)鐘發(fā)生器、DMA控制器、外部存儲(chǔ)器接口(EMIF)、主機(jī)接口(HPI)、I2C總線、通用輸入輸出GPIO口、3個(gè)多通道緩沖串行端口(McBSP)、兩個(gè)64 bit通用定時(shí)器(GPT)和一個(gè)可編程看門(mén)狗定時(shí)器、通用異步收發(fā)器(UART),外部尋址空間達(dá)8 Mbyte,可擴(kuò)展大容量SDRAM。音頻編解碼芯片TLV320AIC23是可編程芯片,內(nèi)置耳機(jī)輸出放大器,內(nèi)部有11個(gè)16 bit寄存器,編程設(shè)置這些寄存器可得到所需的采樣頻率、輸入輸出增益和傳輸數(shù)據(jù)格式等。AIC23通過(guò)外圍器件對(duì)其內(nèi)部寄存器進(jìn)行編程配置,其配置接口支持SPI總線和I2C總線接口數(shù)據(jù)傳輸格式支持右判斷模式、左判斷模式、I2S模式和DSP模式,其中DSP模式專(zhuān)門(mén)針對(duì)TI公司的DSP設(shè)計(jì)。降噪算法為本文所研究的主要內(nèi)容。
圖2給出了在兩次濾波的示意圖,圖中白色不規(guī)則圖形的為有用信號(hào),灰色不規(guī)則圖形為干擾信號(hào),有用信號(hào)和干擾信號(hào)在時(shí)域和離散余弦變換(DCT)域都重疊在一起。無(wú)論從時(shí)域還是DCT域都無(wú)法簡(jiǎn)單分離有用信號(hào)和干擾信號(hào),除非采用復(fù)雜的方法。
從圖中可以看出,對(duì)于時(shí)域和DCT域都重疊的有用信號(hào)和干擾信號(hào),在分?jǐn)?shù)余弦變換域上,通過(guò)簡(jiǎn)單的兩次濾波可以最大程度地消除干擾。
圖2說(shuō)明了這樣一個(gè)事實(shí),兩次簡(jiǎn)單的變換和濾波能夠更有效地消除干擾和噪聲。對(duì)于噪聲環(huán)境下的語(yǔ)音信號(hào)而言,我們分析它的時(shí)域和DCT域的特性,不難發(fā)現(xiàn),語(yǔ)音信號(hào)和干擾、噪聲無(wú)論在時(shí)域還是DCT域都是存在著重疊的可能。因此,靠一次降噪處理很難消除干擾和噪聲。
圖2 分?jǐn)?shù)余弦變換(FCT)域上的兩級(jí)濾波示意圖
對(duì)于含噪語(yǔ)音而言,由于噪聲的非平穩(wěn)性,噪聲與語(yǔ)音在時(shí)域和DCT域都有可能重疊,如果變換到分?jǐn)?shù)余弦域上,可以最大程度地將其分開(kāi)。
對(duì)于3周期的離散分?jǐn)?shù)余弦變換而言
考慮到Mel域上的兩級(jí)維納濾波結(jié)構(gòu),可由兩次不同的分?jǐn)?shù)階余弦變換替換其兩次傅立葉變換。具體思路如下:
首先對(duì)輸入信號(hào)進(jìn)行分?jǐn)?shù)離散余弦變換(FDCT)fa,然后進(jìn)行濾波Ha(x);對(duì)濾波后的信號(hào)再進(jìn)行分?jǐn)?shù)余弦變換fb,再進(jìn)行濾波Hb(x),然后將輸出信號(hào)進(jìn)行分?jǐn)?shù)余弦變換f3-a-b,這樣又返回到了時(shí)域,取其實(shí)部為濾波后的輸出語(yǔ)音。
分?jǐn)?shù)Mel域上的兩級(jí)維納濾波沿用了ETSI ES 202 050 V.1.1.3版本規(guī)定的Mel域上的兩級(jí)維納濾波結(jié)構(gòu)。與ETSI ES 202 050 V.1.1.3版本規(guī)定的Mel域上的兩級(jí)維納濾波不同的是,分?jǐn)?shù)Mel域上的兩級(jí)維納濾波的頻譜估計(jì)的是獲取分?jǐn)?shù)幅度譜。不同區(qū)域如圖2中的灰色部分所示。
在分?jǐn)?shù)余弦變換域上,最佳線性濾波比維納濾波效果要好。無(wú)論是ETSI的Mel域上的兩級(jí)維納濾波結(jié)構(gòu)還是分?jǐn)?shù)Mel域上的兩級(jí)維納濾波結(jié)構(gòu),它們的結(jié)構(gòu)都比較復(fù)雜,反復(fù)的時(shí)域-頻域轉(zhuǎn)換帶來(lái)計(jì)算量的急劇上升,并且不能夠避免由于Mel域參數(shù)較少導(dǎo)致的頻域不連續(xù)性帶來(lái)的時(shí)域截?cái)嘣肼暋?/p>
為了進(jìn)一步降低計(jì)算量并提高性能,本節(jié)用最佳線性濾波器來(lái)代替維納濾波器;為了避免由于Mel域參數(shù)較少導(dǎo)致的頻域不連續(xù)性帶來(lái)的時(shí)域截?cái)嘣肼?,直接在分?jǐn)?shù)余弦變換域上進(jìn)行最優(yōu)線性濾波,該方法稱(chēng)為分?jǐn)?shù)傅立葉域上的兩級(jí)最佳線性濾波結(jié)構(gòu)TSOFF(Two Stage Optimal Filter Based on FDCT:TSOFF)。
分?jǐn)?shù)余弦變換域上的兩級(jí)最佳線性濾波流程如圖3所示。
圖3 分?jǐn)?shù)余弦變換域的兩級(jí)最優(yōu)線性濾波的結(jié)構(gòu)圖
與分?jǐn)?shù)Mel域上兩級(jí)維納濾波相比,分?jǐn)?shù)余弦變換域上兩級(jí)最優(yōu)濾波有以下不同:
(1)采用3周期的離散分?jǐn)?shù)余弦變換代替了分?jǐn)?shù)傅里葉變換;
(2)相關(guān)值估計(jì)代替了頻譜估計(jì);
(3)最優(yōu)濾波代替了維納濾波;
(4)濾波直接在分?jǐn)?shù)余弦變換域上進(jìn)行,省去了一次傅立葉變換,從而使得結(jié)構(gòu)更加簡(jiǎn)單。
為了分析上提出的分?jǐn)?shù)余弦變換域上TSMWFF、TSOFF濾波器的性能,本節(jié)針對(duì)不同噪聲環(huán)境下的語(yǔ)音進(jìn)行分析。
在本章所有實(shí)驗(yàn)中,語(yǔ)音數(shù)據(jù)為在實(shí)驗(yàn)室內(nèi)錄制的語(yǔ)音,采樣頻率是8 kHz,采樣位數(shù)8 bit。在純凈語(yǔ)音上疊加高斯白噪聲和非平穩(wěn)噪聲(噪聲源由英國(guó)TNO感知學(xué)會(huì)所屬的荷蘭RSRE語(yǔ)音研究中心提供)。
Mel域上的兩級(jí)維納濾波在各種實(shí)際噪聲環(huán)境下可以取得良好的性能,本章將其作為基線系統(tǒng),將本章提出的分?jǐn)?shù)Mel域上的兩級(jí)維納濾波與之比較。
表1給出了Mel域兩級(jí)維納濾波器(TSMWF)、分?jǐn)?shù)Mel域兩級(jí)維納濾波器(TSMWFF)、分?jǐn)?shù)余弦變換域上的兩級(jí)最佳線性濾波(TSOFF)在高斯白噪聲(White Noise)、粉紅色噪聲(Pink Noise)、Volvo汽車(chē)噪聲(Volvo Noise)和工廠車(chē)間噪聲(Factory Noise)下的性能比較。
表1 濾波器性能比較 單位:dB
對(duì)照表1可以看出,TSOFF法最佳,TSMWFF法其次,TSMWF法最差。與 TSMWF相比,TSMWFF對(duì)pink噪聲的降噪效果要比其他噪聲要更好一些。
本文針對(duì)語(yǔ)音和噪聲在時(shí)域和變換域重合,而在分?jǐn)?shù)余弦變換域上可能分離的特點(diǎn),把ETSI ES 202 050 V.1.1.3版本規(guī)定的Mel域上的兩級(jí)維納濾波結(jié)構(gòu)推廣到分?jǐn)?shù)Mel域上,提出了分?jǐn)?shù)Mel域上的兩級(jí)維納濾波結(jié)構(gòu),獲得了性能的提高。
[1]Ivandro Sanches.Noise-Compensated Hidden Markov Models[J].IEEE Trans on Speech and Audio Processing,2000,8(5):533-540.
[2]Hwang T H,Lee L M,Wang H C.Cepstral Behavior Due to Additive Noise and a Compensation Scheme for Noisy Speech Recognition[J].IEE Proc on Vis Image Signal Process,1998,145(5):316-321.
[3]Mansour D,Juang B H.The Short-Time Modified Coherence Representation and Its Application for Noisy Speech Recognition[J].IEEE Trans Acoust,Speech,Signal Processing,1980,28(4):357-366.
[4]Javier Hernando,Climent Nadeu.Linear Prediction of the One-Sided Autocorrelation Sequence for Noisy Speech Recognition[J].IEEE Transactions on Speech and Audio Processing,1997,5(1):80-84.
[5]Agarwal A,Cheng Y M.Two-Stage Mel Warped Wiener Filter for RobustSpeech Recognition[C]//The 1999 International Workshop on Automatic Speech Recognition and Understanding(ASRU’99),December,1999,Keystone,Colorado,USA.
[6]Li Jinyu,Liu Bo,Wang Renhua,et al.A Complexity Reduction of ETSI Advanced Front-End for DSR[C]//Acoustics,Speech,and Signal Processing,2004.Proceedings.(ICASSP '04).IEEE International Conference on Volume 1,17-21 May 2004:I-61-4.
[7]Namias V.The Fractional Order Fourier Transform and Its Application to Quantum Mechanics[J].J Inst Math Applic,1980,25:241-265.
[8]Shih C C.Fractionalization of Fourier Transform[J].Opt Commun,1995,118:495-498.
[9]Pei S C,Tseng C C,Yeh M H,et al.Discrete Fractional Hartley and Fourier Transforms[J].IEEE Trans Circuit SystⅡ,1998,45:665-675.
[10]Pei S C,Yeh M H.Discrete Fractional Hadamard Transform[C]//IEEE Int Symp Circuits Syst,June 1999,1485-1488.
[11]Lohmann A W,Mendlovic D,Zalevsky Z,et al.Some Important FractionalTransformations for SignalProcessing[J].Opt Commun,2003,125:18-20.