馬子驥, 倪 忠, 余 旭
(湖南大學(xué) 電氣與信息工程學(xué)院,湖南 長(zhǎng)沙 410000)
與單麥克風(fēng)降噪算法在時(shí)域和頻域處理相比,基于多麥克風(fēng)陣列的降噪算法可以充分利用空間濾波技術(shù),對(duì)其他方向的噪聲進(jìn)行濾波處理,從而獲得更好的降噪效果。Griffiths L J和Jim C W在文獻(xiàn)[1]中提出了廣義旁瓣對(duì)消器(generalized sidelobe canceller,GSC)方法,Gannot S在此基礎(chǔ)上提出了基于傳遞函數(shù)(transfer function,TF)的GSC方法[2]。在處理平穩(wěn)噪聲時(shí)的效果很好,但在處理非平穩(wěn)噪聲時(shí)表現(xiàn)欠佳。文獻(xiàn)[3,4]針對(duì)非平穩(wěn)噪聲,在后置濾波段利用最小控制遞歸平均(minima controlled recursive averaging,MCRA)算法估計(jì)。Israel Cohen對(duì)MCRA進(jìn)行了改進(jìn),提出了一種改進(jìn)的最小控制遞歸平均算法(improved MCRA,IMCRA)[5],可在復(fù)雜環(huán)境,比如非平穩(wěn)噪聲、低信噪比條件下估計(jì)噪聲。Cohen I 和 Berdugo B在文獻(xiàn)[6]中將GSC和最佳修正對(duì)數(shù)譜幅度估計(jì)算法(optimally modified log spectral amplitude estimator,OM-LSA)結(jié)合,利用GSC的輸出信號(hào)和參考噪聲的相互關(guān)系進(jìn)行后置濾波。Gannot S在此基礎(chǔ)上進(jìn)一步改進(jìn),用TF-GSC替代GSC,更好地適應(yīng)復(fù)雜變換的噪聲環(huán)境[7]。
本文算法在此基礎(chǔ)上進(jìn)一步改進(jìn),提高了語(yǔ)音存在概率估計(jì)的準(zhǔn)確性,從而能更準(zhǔn)確地更新噪聲功率譜估計(jì),提高了對(duì)噪聲的抑制能力,并減少了語(yǔ)音損失。
多通道后置濾波的主要思想是利用TF-GSC自適應(yīng)波束輸出信號(hào)與參考噪聲信號(hào)之比估計(jì)目標(biāo)語(yǔ)音缺失概率,并更新噪聲功率譜估計(jì),最終通過(guò)OM-LSA方法獲得較為純凈的目標(biāo)語(yǔ)音信號(hào)。多通道后置濾波方法的結(jié)構(gòu)框圖如圖1所示。
圖1 多通道后置濾波算法原理框圖
SY(t,ejω)=αs·SY(t-1,ejω)+(1-αs)·
(1)
ψ(t,ejω)=
(2)
式中M為文獻(xiàn)[5,8]提出的非平穩(wěn)噪聲功率譜密度的最小控制遞歸平均(minima controlled recursive averaging,MCRA)估計(jì)。定義自適應(yīng)波束輸出信號(hào)的后驗(yàn)信噪比
γs(t,ejω)|Y(t,ejω)|2/MY(t,ejω)
(3)
(4)
利用文獻(xiàn)[9]方法求出語(yǔ)音存在概率
p(t,ejω)=
(5)
式中ξ(t,ejω)E{|S(t,ejω)|2}/λ(t,ejω);υ(t,ejω)γ(t,ejω)ξ(t,ejω)/(1+(t,ejω));γ(t,ejω)|Y(t,ejω)|2/λ(t,ejω)。
利用“直接判決”法[10]求得
(1-α)max{γ(t,ejω)-1,0}
(6)
噪聲功率譜估計(jì)為
(7)
(8)
求解目標(biāo)語(yǔ)音信號(hào)的短時(shí)傅里葉變換
(9)
式中G(t,ejω)為OM-LSA增益函數(shù)
從上述原理可知多通道后置濾波算法的關(guān)鍵在于先驗(yàn)語(yǔ)音缺失概率q(t,ejω)估計(jì)和噪聲功率譜密度估計(jì)的準(zhǔn)確性。本文通道后置濾波算法進(jìn)行改進(jìn)。
由式(4)可知,先驗(yàn)語(yǔ)音缺失概率q(t,ejω) 結(jié)合γs(t,ejω) 和ψ(t,ejω)求取,γs(t,ejω)用于判斷TF-GSC輸出波束信號(hào)是否變化,TBRR判斷該變化是由目標(biāo)語(yǔ)音信號(hào)引起還是由噪聲引起。假設(shè)目標(biāo)語(yǔ)音信號(hào)與噪聲信號(hào)不相關(guān),當(dāng)瞬時(shí)信號(hào)變化主要由目標(biāo)語(yǔ)音信號(hào)引起時(shí),TBRR一般比較大[12];反之,當(dāng)信號(hào)瞬時(shí)變化由噪聲引起時(shí),參考噪聲變化大于輸出波束變化,此時(shí)TBRR小于1。含噪語(yǔ)音信號(hào)在經(jīng)過(guò)TF-GSC處理之后被抑制了一部分噪聲[7],在長(zhǎng)弱語(yǔ)音段且噪聲變化比較大的情況下,經(jīng)過(guò)TF-GSC處理之后的輸出信號(hào)變化可能小于參考噪聲的變化,此時(shí),ψ(t,ejω)的值小于ψlow,從而將含目標(biāo)語(yǔ)音信號(hào)誤判為不含目標(biāo)語(yǔ)音信號(hào),導(dǎo)致語(yǔ)音失真。因此,結(jié)合文獻(xiàn)[5~7]的求先驗(yàn)語(yǔ)音缺失概率的方法,得到新的求先驗(yàn)語(yǔ)音缺失概率的公式
(10)
由式(10)知,當(dāng)在TBRR小于閾值ψhigh,且γs(t,ejω)≤γlow和ζ<ζ0時(shí)將信號(hào)判斷為目標(biāo)語(yǔ)音缺失信號(hào),防止在長(zhǎng)弱語(yǔ)音強(qiáng)噪聲段因TBRR小于1時(shí),將語(yǔ)音信號(hào)誤判成噪聲。當(dāng)ψ(t,ejω)>ψhigh,γs(t,ejω)和ζ<ζ0任意一個(gè)條件成立時(shí),即確定目標(biāo)語(yǔ)音信號(hào)存在。在不能確定語(yǔ)音信號(hào)是否存在時(shí),用γs(t,ejω)的一次線性函數(shù)求先驗(yàn)語(yǔ)音不存在概率[5]。
為了驗(yàn)證本文算法的性能,通過(guò)麥克風(fēng)陣列采集實(shí)際語(yǔ)音信號(hào),并利用MATLAB軟件對(duì)算法進(jìn)行了仿真測(cè)試。并與文獻(xiàn)[8]中提出的MCRA算法、文獻(xiàn)[7]中提出的基于TF-GSC的多通道濾波方法進(jìn)行了比較分析。實(shí)驗(yàn)設(shè)置如下:麥克風(fēng)陣列由4個(gè)麥克風(fēng)組成間距為0.8 cm的均勻線性陣列,目標(biāo)聲源為正對(duì)陣列中間位置,距離2 m處的錄音,噪聲為與陣列成50°處的錄音,如圖2所示。
圖2 陣列麥克風(fēng)示意
麥克風(fēng)采樣頻率為64 kHz,采樣精度為24 bit。實(shí)驗(yàn)中相關(guān)參數(shù)設(shè)置如下:加窗為Hamming窗,窗長(zhǎng)1 024,幀長(zhǎng)取窗長(zhǎng),幀移為幀長(zhǎng)的1/2。實(shí)驗(yàn)時(shí)將一段數(shù)據(jù)分成5部分,每部分500幀。其他實(shí)驗(yàn)參數(shù)設(shè)置情況參照文獻(xiàn)[7],α=0.9,αs=0.92,αλ=0.85,β=1.47,ψlow=1,ψhigh=3.6,γlow=1,γhigh=4.6,b=[0.25 0.5 0.25],ε=0.01,Gmin=20 dB。
將目標(biāo)語(yǔ)音信號(hào)和噪聲信號(hào)按不同比例線性相加,生成5種的信噪比:9.482 8,4.968 6,3.331 5,0.860 5,-3.494 4 dB。在以上5種信噪比條件下,對(duì)含噪語(yǔ)音信號(hào)分別采用TF-GSC+MCRA和本文算法進(jìn)行語(yǔ)音增強(qiáng)實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1所示,可以看出:相比于TF-GSC+MCAR算法,本文算法能進(jìn)一步提高信噪比,尤其是在高輸入信噪比段,效果更明顯。
表1 不同信噪比下算法性能比較 dB
圖3(a)、圖3(b)分別為上述實(shí)驗(yàn)條件下最左邊位置的麥克風(fēng)接收到的目標(biāo)語(yǔ)音信號(hào)和帶噪語(yǔ)音信號(hào)的語(yǔ)譜圖。圖2(c)為帶噪語(yǔ)音信號(hào)經(jīng)過(guò)TF-GSC增強(qiáng)后的語(yǔ)音信號(hào)語(yǔ)譜圖??梢钥闯觯篢F-GSC算法對(duì)非平穩(wěn)噪聲抑制有比較明顯的效果,但仍殘留了部分噪聲。圖3(d)、圖3(e)分別為利用文獻(xiàn)[7]中提出的TF-GSC+OM-LSA算法和本文算法增強(qiáng)后的語(yǔ)音信號(hào)語(yǔ)譜圖,經(jīng)過(guò)對(duì)比可知:TF-GSC+OM-LSA算法雖然能有效抑制噪聲,但造成了大量的語(yǔ)音失真,而本文算法能有效抑制語(yǔ)音失真,同時(shí)保留了目標(biāo)語(yǔ)音信號(hào)。
圖3 信號(hào)處理前后語(yǔ)譜
以麥克風(fēng)陣列為例,對(duì)傳統(tǒng)的多通道后置濾波算法進(jìn)行了改進(jìn),提高了先驗(yàn)語(yǔ)音存在概率估計(jì)的準(zhǔn)確性,從而能更準(zhǔn)確地更新噪聲功率譜估計(jì),減少了噪聲過(guò)估計(jì)和噪聲估計(jì)不足的情況。實(shí)驗(yàn)結(jié)果表明:相對(duì)傳統(tǒng)的多通道后置濾波語(yǔ)音增強(qiáng)算法,新算法對(duì)非平穩(wěn)噪聲,尤其是當(dāng)噪聲為語(yǔ)音時(shí)具有較好的抑制能力,并且能有效減少語(yǔ)音失真,提高了信噪比,改善了語(yǔ)音質(zhì)量。
參考文獻(xiàn):
[1] Griffiths L J,Jim C W.An alternative approach to linearly constrained adaptive beamforming[J].IEEE Trans on Antennas Propagat,1982,30:27-34.
[2] Gannot S,Burshtein D,Weinstein E.Signal enhancement using beamforming and nonstationarity with application to speech[J].IEEE Trans on signal Processing,2001,49:1614-1626.
[3] Cohen I.On speech enhancement under signal presence un-certainty[C]∥The 26th IEEE International Conference on Speech Signal Process,2001:167-170.
[4] Cohen I,Berdugo B.Spectral enhancement by tracking speech presence probability in subbands[C]∥IEEE Workshop on Hands Free Speech Communication,2001:95-98.
[5] Cohen I.Noise spectrum estimation in adverse environments:Improved minima controlled recursive averahinging[J].IEEE Trans on Speech and Audio Processing,2003,11:466-475.
[6] Cohen I,Bedugo B.Microphone array postfiltering for nonstationary noise suppression[C]∥Proc of International Conference on Acoustics and Speech Signal Process,Orlando,FL,2002:901-904.
[7] Cohen I,Gannot S.Speech Enhancement based on the general transfer function GSC and postfiltering[J].IEEE Trans on Speech and Audio Processing,2004,12(6):561-571.
[8] Cohen I,Bedugo B.Microphone array post-filtering for nonstationary noise suppression[C]∥Proc of International Conference on Acoustics and Speech Signal Process,Orlando,2002:901-904.
[9] Cohen I,Berdugo B.Noise estimation by minima controlled recursive averaging for robust speech enhancement[J].IEEE Trans on Signal Processing,2002,9:12-15.
[10] Ephraim Y,Malah D.Speech enhancement using a minimum mean square error short-time spectral amplitude estimator[J].IEEE Trans on Acoust,Speech and Signal Processing,1984,32:1109-1121.
[11] Cohen I,Berdugo B.Speech enhancement for nonstationary noise environments[J].IEEE Trans on Signal Processing,2001,81(11):2403-2418.
[12] Ephraim Y.Speech enhancement using a minimum mean spuare error log spectral amplitude estimator[J].IEEE Trans on Acoust,Speech and Signal Processing,1985,33:443-445.
[13] Cohen I.Multi-channel post-filtering in noise environments[J].IEEE Trans on Signal Processing,2004,52:1149-1160.