陳春輝,馮 剛
(華南師范大學(xué)計(jì)算機(jī)學(xué)院,廣東廣州510631)
基于小波的語音增強(qiáng)一直是語音增強(qiáng)領(lǐng)域的一個(gè)研究熱點(diǎn)并取得了許多研究成果,但在語音增強(qiáng)處理中當(dāng)噪聲與語音的頻譜相似時(shí)[1],傳統(tǒng)的軟硬閾值法處理往往無法有效地去除噪聲.因此,找出合適的閾值,一直是小波語音增強(qiáng)的難點(diǎn)之一.對(duì)于語音分析來說,人類聽覺系統(tǒng)對(duì)于聲音頻率的感知與實(shí)際頻率的對(duì)應(yīng)關(guān)系是一種非線性映射關(guān)系[2].
本文基于Bark 尺度采用小波包模擬人耳的頻率分析機(jī)制,根據(jù)空域?yàn)V波方法估計(jì)出噪聲的下限閾值,通過通用閾值確定每一頻率群噪聲的上限閾值,最后在每一頻率群里采用新的閾值動(dòng)態(tài)除噪.
人耳是相當(dāng)完美的聲音信息采集和處理器,人耳基底膜如同一個(gè)頻譜分析器,BARKHAUSEN 等學(xué)者依據(jù)人耳的掩蔽效應(yīng)的實(shí)驗(yàn)結(jié)果,提出了頻率群的概念.即在20~16 000 Hz 范圍內(nèi)分解為24個(gè)頻率群,頻率群的劃分相應(yīng)于基底膜分成許多很小的部分,每一部分對(duì)應(yīng)一個(gè)頻率群,并且長度相等[3].也就是說,人類聽覺系統(tǒng)對(duì)于聲音頻率的感知與實(shí)際頻率的對(duì)應(yīng)關(guān)系,是一種非線性映射關(guān)系,這就引出了所謂的Bark 尺度的概念. TRAUNMULLAR[4]給出了線性頻率與Bark 頻率之間的函數(shù)關(guān)系,即
小波分解只是將信號(hào)的近似系數(shù)Aj用于進(jìn)一步分解(圖1). 而小波包可根據(jù)需要選取近似系數(shù)Aj或細(xì)節(jié)系數(shù)Dj做進(jìn)一步分解(圖2),小波包變換的基本思想是根據(jù)有用信號(hào)在近似系數(shù)和細(xì)節(jié)系數(shù)的特性,從而找出規(guī)律[5].
圖1 三層小波分解圖Figure 1 Three-level wavelet decompression diagram
圖2 三層小波包分解圖Figure 2 Three-level wavelet packet decompression diagram
采用固定分解方式的小波包變換,在0~4 000范圍內(nèi),劃分52個(gè)頻段.對(duì)8 kHz 的采樣信號(hào),用8階的Daubechies5 小波對(duì)信號(hào)進(jìn)行變換,可得到一個(gè)聽覺小波包,具體做法如下:
(1)0~500 Hz 的范圍內(nèi)以31.25 Hz 為間隔劃分出16個(gè)頻段,對(duì)應(yīng)著小波包分解的尺度8;
(2)500~2 000 Hz 以62.5 Hz 為間隔劃分出24個(gè)頻段,對(duì)應(yīng)著小波包分解的尺度7;
(3)2 000~3 000 Hz 間隔是125 Hz 有8個(gè)頻段,對(duì)應(yīng)著小波包分解的尺度6;
(4)3 000~4 000 Hz 間隔250 Hz 有4個(gè)頻段,對(duì)應(yīng)著小波包分解的尺度5;
在0~4 000 Hz 范圍內(nèi)以52個(gè)頻段按順序?qū)?yīng)18個(gè)Bark,其頻率對(duì)應(yīng)情況如圖3 所示.
圖3 小波包變換頻段與Bark 的對(duì)比Figure 3 The comparison of wavelet packer banks and Bark
圖3 的2 條曲線十分接近,表明用聽覺小波包分析可較好地模擬人耳基底膜的頻率分析特性[6].
實(shí)際應(yīng)用中噪聲方差是未知的,因此需要對(duì)其進(jìn)行估計(jì). 假設(shè)含噪聲信號(hào)
其中,s(x)和ε(x)分別為真實(shí)信號(hào)和白噪聲.
f(x)其小波變換可表示為
其中,Wf(i,j)為含噪聲信號(hào)小波分解的系數(shù),Ws(i,j)為真實(shí)信號(hào)小波分解的系數(shù),Wε(i,j)為白噪聲小波分解的系數(shù),i 表示尺度,j 表示第j個(gè)系數(shù).
設(shè)
其中,WHf(i,j)為含噪聲信號(hào)小波分解的高頻系數(shù),WHs(i,j)為真實(shí)信號(hào)小波分解的高頻系數(shù),WHε(i,j)為白噪聲小波分解的高頻系數(shù).
在高頻部分,除了少數(shù)幾個(gè)由真實(shí)信號(hào)引起的變量值較為突出外,高頻部分整個(gè)尺度基本上由噪聲所產(chǎn)生的系數(shù)控制. 可據(jù)此來估計(jì)語音信號(hào)中噪聲的方差.
設(shè)含噪聲信號(hào)f 在尺度i 上變換為Wf(i,j)(j=1,2,…,N),則
其中,PW(i)是尺度i 的高頻能量.實(shí)際上,PW(i)中也包含了真實(shí)信號(hào)高頻部分的能量,這樣近似結(jié)果在噪聲偏小或細(xì)節(jié)較豐富(即高頻部分多時(shí))誤差較大.為了提高估計(jì)精度,將前兩尺度的小波變換值相乘[7]:
做歸一化處理,可得:
再與WHf(i,j)相比較,若則置該點(diǎn)為零.這樣處理后得到的值記為(i,j),則(i,j)中基本消除了真實(shí)信號(hào)劇變引起的較大變換值.設(shè)共消除了k個(gè)這樣的點(diǎn),可得σ1(i)的近似值[8],根據(jù)這個(gè)σ1(i)找出噪聲的近似閾值
DONOHO 等[8-9]用小波進(jìn)行了各種信號(hào)去除噪聲方法,提出了噪聲系數(shù)的幅值是以較大的概率小于λ2(i)的,λ2(i)計(jì)算表達(dá)式如下:
其中,Wf(i,j)表示小波分解尺度i 的小波系數(shù),median()為中位數(shù)絕對(duì)值.
性質(zhì)1 白噪聲且噪聲分解后系數(shù)絕對(duì)值不高的語音信號(hào)的小波包分解,在同一尺度下,λ1(i)<λ2(i).
證明 語音信號(hào)是短時(shí)間相關(guān)的,白噪聲是加性噪聲,信號(hào)的子波系數(shù)幅值要大于噪聲的子波系數(shù)幅值[10].
對(duì)于高頻部分:
所以對(duì)8 000 Hz 的采樣頻率的語音信號(hào)進(jìn)行8 階的小波分解,得到小波子帶的系數(shù)的個(gè)數(shù)N >10,因此,>2.對(duì)于均勻分布,幅度趨于平坦的白噪聲,有
可得
對(duì)于低頻部分:設(shè)
其中,WLf(i,j)為含噪聲信號(hào)小波分解的低頻系數(shù),WLs(i,j)為真實(shí)信號(hào)小波分解的高頻系數(shù),WLε(i,j)為白噪聲小波分解的高頻系數(shù),i 表示尺度,j 表示第幾個(gè)系數(shù).
由于語音主要集中在低頻,集中了相關(guān)的點(diǎn)
由式(13)可得
所以,λ1(i)<λ2(i).
由以上結(jié)果可以得出,含白噪聲且噪聲分解后系數(shù)絕對(duì)值不是很高的語音信號(hào)的小波包分解后,在同一尺度上
證畢.
根據(jù)上面對(duì)8 kHz 的采樣信號(hào),用8 階的Daubechies5 小波包對(duì)Bark 尺度的模擬可知,可以通過式(5)~(10)由每一尺度的高頻系數(shù)估計(jì)出4個(gè)尺度λ1(i)(i =5,6,7,8)的噪聲閾值;通過式(11)、(12)求出52個(gè)頻段每個(gè)頻段內(nèi)噪聲的最大閾值λ2(i,n)(i=5,6,7,8;n=1,2,…,52),i 表示的是小波分解的尺度,n 表示頻率段. 由性質(zhì)1 可知,在同一尺度上
圖4 表明,式(11)算出的閾值λ2(i,n)偏大,尤其是在N 較大時(shí),傾向于將子帶的小波包系數(shù)全部為零,因此通過閾值處理,留下的系數(shù)很少,而由式(10)估計(jì)出來的噪聲方差λ1(i)作為閾值,存在著閾值偏小的情況,使保留下來的系數(shù)不夠純凈.
為了克服上述缺點(diǎn),盡可能減少語音失真,而又使還原的語音具有較高的清唽度和可懂度,避免產(chǎn)生音樂噪聲,本文使用了半軟閾值函數(shù)—雙曲閾值法,與其他曲線相比,雙曲線具有連續(xù)可導(dǎo)性,得到的結(jié)果逼近原數(shù)值,減少語音損失.
新的閾值定義為:
傳統(tǒng)使用的是軟硬閾值對(duì)含噪聲語音進(jìn)行處理:(1)硬閾值法:小于閾值的系數(shù)被置零,大于閾值的系數(shù)保持不變;(2)軟閾值法:小于閾值的系數(shù)被置零,大于閾值的系數(shù)以閾值為大小,作一個(gè)收縮如圖5.實(shí)驗(yàn)表明,“硬”閾值法對(duì)噪聲清除不夠干凈,且在一些地方會(huì)產(chǎn)生突變,使處理后的語音混有類似音樂聲的噪聲.而“軟”閾值法雖然噪聲去除很徹底,但對(duì)原始語音的損害較大,使語音的清晰度大大降低.
圖4 λ1和λ2閾值比較Figure 4 The comparison of threshold λ1 and λ2
新閾值能動(dòng)態(tài)跟蹤噪聲的變化:噪聲的閾值是由λ1和λ2共同決定,在每一尺度上,λ1為下限,當(dāng)噪聲能量變大時(shí),λ2相對(duì)變大,反之則變小,動(dòng)態(tài)跟蹤語音的變化.新閾值與硬閾值相比具有較好的連續(xù)性,與軟閾值相比,又減少了語音的損失,如圖6.
圖5 軟閾值與硬閾值比較Figure 5 The comparison of soft threshold and hard threshold
圖6 新閾值與軟硬閾值比較Figure 6 The comparison of new threshold、soft threshold and hard threshold
利用話筒通過Windows 的錄音機(jī)采集到計(jì)算機(jī)的一段男聲語音信號(hào). 采樣頻率為8 kHz、PCM 編碼、16 位量化、單聲道、噪聲為正態(tài)白噪聲.
取一段自然連續(xù)語音,語音長1 s,經(jīng)8 kHz 采樣后加入正態(tài)白噪聲,采用8 階的Daubechies5 小波對(duì)信號(hào)進(jìn)行變換,并用以上動(dòng)態(tài)閾值法對(duì)其進(jìn)行增強(qiáng).當(dāng)信噪比為10、5 dB 時(shí)處理前后的時(shí)域波形如圖7、圖8 所示.
采用主觀評(píng)測(cè)方法MOS 評(píng)分和客觀評(píng)價(jià)方法的結(jié)果如表1 和表2,并比較幾種常見噪聲環(huán)境下本方法與其他方法的對(duì)比,結(jié)果見圖9,可得如下結(jié)論:(1)通過主客觀評(píng)測(cè)可知:主觀聽覺上,基于聽覺小波算法清晰度和可懂度均優(yōu)于譜減法和小波算法,且沒有譜減法所特有的殘留音樂噪聲,聽起來較悅耳.(2)比較輸出信噪比可以看出,基于聽覺小波算法保持了小波域降噪的高信噪比的特點(diǎn),增強(qiáng)后的語音幾乎聽不到殘留噪聲. 與譜減法、小波法相比,基于聽覺小波算法不僅輸出信噪比提高了,而且失真也降低了.
圖7 信噪比為10 dBFigure 7 Signal noise ratio is 10 dB
圖8 信噪比為5 dBFigure 8 Signal noise ratio is 5 dB
表1 MOS 評(píng)分Table 1 MOS score
表2 各種閾值法的消噪結(jié)果對(duì)比Table 2 The comparison of de- noising results of different thresholds
圖9 常見噪聲環(huán)境下幾種主要去除噪聲方法的對(duì)比Figure 9 The comparison of several main methods of de-noising in some common noise environment
利用小波包分析可對(duì)聽覺模型進(jìn)行較好地模擬.新的閾值不僅抑制了背影噪聲,減少了語音的失真和音樂噪聲的產(chǎn)生,而且增強(qiáng)后的語音具有較好的清晰度和可懂度,是一種有效的語音增強(qiáng)方法.人的聽覺系統(tǒng)遠(yuǎn)比上述系統(tǒng)的描述復(fù)雜得多,抵抗噪聲能力也強(qiáng),語音增強(qiáng)方法還有待進(jìn)一步研究.
[1]李野,吳亞鋒,劉雪飛.基于BARK 子波變換的語音增強(qiáng)方法研究[J]. 計(jì)算機(jī)工程與應(yīng)用,2009,26(4):13-14.
[2]施曉敏,顧濟(jì)華,陶智,等. 基于聽覺感知小波變換的電子耳CIS 語音信號(hào)處理[J]. 微電子學(xué)與計(jì)算機(jī),2006,23(12)-42.
[3]付強(qiáng),易克初. 語音信號(hào)的Bark 子波變換及其在語音識(shí)別中的應(yīng)用[J]. 電子學(xué)報(bào),2000,28(10):102-104.
[4]TRAUNMULLAR H. Analytical expression for the tonotopic sensory scale[J]. J Acoust Soc Am,1990,88:97-100.
[5]高志,余嘯海. Matlab 小波分析與應(yīng)用[M].2 版. 北京:國防工業(yè)出版社,2007:7-67.
[6]王煒,楊道淳,方元,等. 基于聽覺模型的小波包變換的語音增強(qiáng)[J]. 南京大學(xué)學(xué)報(bào),2001,36(5):630-636.
[7]李野,吳亞鋒,劉雪飛. 基于感知小波變換的語音增強(qiáng)方法研究[J]. 計(jì)算機(jī)應(yīng)用研究,2009,26(4):1313-1315.
[8]DONOHO D L,JOHNSTONE J M. Ideal spatial adaptation by wavelet shrinkage[J]. Biometrika,1994,81(3):425-455.
[9]DONOHO D L. De-noising by soft-thresholding. IEEE Trans[J]. On Information Theory,1995,41(3):613-627.
[10]樊啟斌.小波分析[M].武漢:武漢大學(xué)出版社,2008:302.