馮 炎 安寶坤
( 西藏大學(xué)現(xiàn)代教育技術(shù)中心, 拉薩 850000)
現(xiàn)實(shí)世界中存在各種各樣的噪聲,語(yǔ)音信號(hào)常常被不相關(guān)的加性噪聲所污染,噪聲功率譜的變化要比語(yǔ)音緩慢的多,語(yǔ)音增強(qiáng)算法可以降低帶噪語(yǔ)音信號(hào)中的噪聲干擾。
在帶噪語(yǔ)音信號(hào)中,常常假設(shè)噪聲的均值為零,噪聲方差即噪聲功率譜需要予以估計(jì)。噪聲功率譜的準(zhǔn)確估計(jì)會(huì)直接影響語(yǔ)音增強(qiáng)效果。噪聲功率譜的欠估計(jì)與過估計(jì)都會(huì)對(duì)語(yǔ)音增強(qiáng)算法帶來(lái)較大的影響,噪聲過估計(jì)會(huì)使增強(qiáng)后的語(yǔ)音出現(xiàn)較大的失真,原因是噪聲的過估計(jì)等價(jià)于增益函數(shù)計(jì)算時(shí)后驗(yàn)信噪比和先驗(yàn)信噪比的欠估計(jì),而后驗(yàn)信噪比和先驗(yàn)信噪比的欠估計(jì)會(huì)使算法過多地抑制噪聲,從而使語(yǔ)音失真。語(yǔ)音增強(qiáng)的效果常常取決于噪聲功率譜的準(zhǔn)確估計(jì)[1-7],尤其是在非平穩(wěn)噪聲環(huán)境中。因此,快速地估計(jì)出背景噪聲對(duì)語(yǔ)音增強(qiáng)算法有很大的幫助。
加權(quán)噪聲功率譜估計(jì)算法(簡(jiǎn)稱WN算法)能快速跟蹤噪聲變化,采用該算法使增強(qiáng)后的語(yǔ)音具有較高的語(yǔ)音質(zhì)量[8]。WN噪聲功率譜估計(jì)算法主要有三個(gè)步驟:即信噪比(簡(jiǎn)稱SNR)估計(jì), 通過估計(jì)出的信噪比結(jié)合加權(quán)因子函數(shù)從而得到加權(quán)因子,將帶噪語(yǔ)音信號(hào)與加權(quán)因子相乘得到加權(quán)值并求平均得到估計(jì)出的噪聲功率譜。
為了避免加權(quán)噪聲功率譜估計(jì)算法不足,我們針對(duì)該算法提出了一個(gè)改進(jìn)算法,該算法使用平滑因子對(duì)加權(quán)噪聲功率譜估計(jì)算法計(jì)算出的噪聲進(jìn)行平滑。實(shí)驗(yàn)也驗(yàn)證了改進(jìn)算法的性能。
用x(t)和d(t)分別表示純凈語(yǔ)音和不相關(guān)的加性噪聲,觀測(cè)到的帶噪語(yǔ)音信號(hào)為y(t)為,進(jìn)行短時(shí)離散傅利葉變換后得到:
Y(n,k)=X(n,k)+D(n,k)
(1)
其中n和k分別表示時(shí)間幀序號(hào)和頻率點(diǎn)序號(hào)。
WN噪聲功率譜估計(jì)算法首先從信噪比(簡(jiǎn)稱SNR)估計(jì)開始, 通過估計(jì)出的信噪比結(jié)合加權(quán)因子函數(shù)從而得到加權(quán)因子,將帶噪語(yǔ)音信號(hào)與加權(quán)因子相乘得到加權(quán)值并求平均得到估計(jì)出的噪聲功率譜。
(2)
計(jì)算加權(quán)因子的非線性函數(shù):
(3)
(4)
對(duì)計(jì)算得到的在窗口長(zhǎng)度為L(zhǎng)z內(nèi)的加權(quán)帶噪語(yǔ)音求平均,進(jìn)而得到估計(jì)的噪聲功率譜:
(5)
式中Ψ(Z(n,k))表示Z(n,k)中非零元素的個(gè)數(shù),trace{·}是對(duì)數(shù)組中對(duì)角元素求和的操作。由于Z(n,k)是一個(gè)行向量,所以trace{Z(n,k)}就是對(duì)簡(jiǎn)單的對(duì)該向量中的非零元素求和。
Z(n,k)計(jì)算如下:
(6)
式(6)是根據(jù)前面估計(jì)出的信噪比對(duì)Z(n,k)進(jìn)行更新。Z(n,k)的長(zhǎng)度一定,也就是求均值的窗長(zhǎng)度不變,當(dāng)所估計(jì)出的信噪比小于某個(gè)閥值時(shí),認(rèn)為該幀的噪聲影響明顯,則Z(n,k)求均值的窗需要更新一次,從而得到新的噪聲估計(jì)值。
(7)
在初始幾幀一般都是噪聲,本文對(duì)初始幾幀進(jìn)行平均,其中Tinit表示初始幀的大小。
為評(píng)價(jià)本文提出的改進(jìn)算法的性能,將WN算法及改進(jìn)的WN算法分別應(yīng)用于MMSE語(yǔ)音增強(qiáng)系統(tǒng)[6]進(jìn)行實(shí)驗(yàn)仿真。實(shí)驗(yàn)中采用的語(yǔ)音段取自TIMIT數(shù)據(jù)庫(kù),分取其中的3個(gè)女聲和3個(gè)男聲。這些語(yǔ)音的采樣頻率是8kHz、16bits編碼。實(shí)驗(yàn)中采用的噪聲是來(lái)自于Noisex92噪聲庫(kù),取其中的白噪聲(White)、工廠噪聲(factory)以及戰(zhàn)斗機(jī)噪聲(f16),將上述語(yǔ)音段分別與這3種噪聲合成信噪比為0、5、10,15 dB的帶噪語(yǔ)音。對(duì)這些語(yǔ)音信號(hào)作短時(shí)傅立葉變換,變換時(shí)采用分幀幀長(zhǎng)為256點(diǎn),幀間重疊為128點(diǎn),為避免分幀時(shí)產(chǎn)生的截?cái)嘈?yīng),采用漢明窗對(duì)分幀的語(yǔ)音信號(hào)進(jìn)行“加窗”處理。
先驗(yàn)信噪比估計(jì)中的參數(shù)設(shè)定[6]:α=0.98,ξmin=-25 dB。
改進(jìn)算法中的參數(shù)設(shè)定:σ=0.96
為評(píng)價(jià)本文提出改進(jìn)算法的性能,表1給出了噪聲估計(jì)算法的相對(duì)估計(jì)誤差對(duì)比。從表1可以看出,相對(duì)于傳統(tǒng)的WN算法,本文提出的算法取得了更小的相對(duì)估計(jì)誤差,從而證實(shí)改進(jìn)算法抑制了更多的噪聲過估計(jì)。
表1 相對(duì)估計(jì)誤差對(duì)比
為了評(píng)價(jià)本文的語(yǔ)音增強(qiáng)算法的整體性能,表2給出了分段信噪比增益實(shí)驗(yàn),值越大說(shuō)明所增強(qiáng)后的語(yǔ)音越接近實(shí)際語(yǔ)音。從實(shí)驗(yàn)數(shù)據(jù)可看出,在不同的輸入信噪比和不同的噪聲環(huán)境的實(shí)驗(yàn)中,本文的改進(jìn)算法可以較好地提高增強(qiáng)后語(yǔ)音的分段信噪比。
表2 分段信噪比增益對(duì)比
以上主要研究了帶噪語(yǔ)音增強(qiáng)算法中的噪聲估計(jì)問題。通過分析傳統(tǒng)WN估計(jì)算法,發(fā)現(xiàn)該算法會(huì)在語(yǔ)音劇烈變化區(qū)域出現(xiàn)噪聲過估計(jì),針對(duì)該問題提出了改進(jìn)算法,通過對(duì)WN算法估計(jì)的噪聲進(jìn)行平滑,從而抑制了在語(yǔ)音劇烈變化區(qū)域的噪聲過估計(jì)。將改進(jìn)算法應(yīng)用到基于最小均方誤差的語(yǔ)音增強(qiáng)系統(tǒng)時(shí),發(fā)現(xiàn)采用改進(jìn)算法能夠提供更準(zhǔn)確的噪聲估計(jì),進(jìn)而會(huì)使增強(qiáng)后的語(yǔ)音有充分的噪聲抑制和更好的語(yǔ)音質(zhì)量??陀^實(shí)驗(yàn)證實(shí)了該算法的優(yōu)越性能。本文研究的結(jié)果為進(jìn)一步的帶噪語(yǔ)音識(shí)別技術(shù)奠定基礎(chǔ)。
[1] Hao J,Attias H,Nagarajan S,et al.Speech Enhancement,Gain,and Noise Spectrum Adaptation Using Approximate Bayesian Estimation[J].IEEE Transactions on Audio,Speech and Language Processing,2009,17(1):24-37.
[2] Ephraim Y,Cohen I.Recent Advancements in Speech Enhancement[M]The Electrical Engineering Handbook:3rd ed.Boca Raton,FL:CRC,2004.
[3] 馮炎.基于直接判決估計(jì)和預(yù)測(cè)估計(jì)的語(yǔ)音增強(qiáng)算法[J],信息與電子工程,2010,8(1):76-7979.
[4] 馮炎,尼瑪扎西.基于頻帶間相關(guān)性的加權(quán)噪聲功率譜估計(jì)[J].信息與電子工程,2010,8(4):431-435.
[5] Benesty Jacob,Makino Shoji,CHEN Jingdong.Speech Enhancement[M].Berlin:Springer,2005:115-133.
[6] Ephraim Y,Malah D.Speech Enhancement Using a Minimum Mean-square Error Short-time Spectral Amplitude Estimator[J].IEEE Transactions on Acoustics,Speech and Signal Processing,1984,32(6):1109-1121.
[7] CappéO.Elimination of the Musical Noise Phenomenon with the Ephraim and Malah Noise Suppressor[J].IEEE Transactions on Speech and Audio Processing,1994,2(2):345-349.
[8] Kato M,Sugiyama A, Serizawa M,Noise Suppression with High Speech Quality Based on Weighted Noise Estimation and MMSE STSA[G].IWAENC,2001:183-186.