摘 要:提出一種基于聽覺掩蔽模型和無語音概率的語音增強算法。該算法對聽覺掩蔽模型進行了適當(dāng)?shù)男拚?,通過引入無語音概率(SAP)思想動態(tài)地確定每一幀語音信號各個關(guān)鍵頻率段的聽覺掩蔽閾值,有選擇性地進行譜減。仿真結(jié)果表明所提出的算法優(yōu)于一般掩蔽增強算法,能夠有效地減少音樂噪聲并且更符合人耳聽覺特性,特別是在低信噪比的情況下,語音具有更好的清晰度和可懂度。
關(guān)鍵詞:語音增強;譜減法;無語音概率;人耳掩蔽效應(yīng)
中圖分類號:TP391 文獻標識碼:B
文章編號:1004-373X(2008)10-116-04
A Speech Enhancement Algorithm Based on Masking Property of Human Auditory
System and Speech Absence Probability
WANG Xia,LU Jianguo,ZHANG Xiuzhen,ZHAO Xiaoqun
(School of Information Engineering,Hebei University of Technology,Tianjin,300401,China)
Abstract:An approach to speech enhancement based on masking properties of human auditory system and Speech Absent Probability (SAP) is presented.In this approach,the masking model of human auditory is modified,the masking thresholds of the key frequency segments of each speech frame are determined dynamically through introducing the speech absence probability.Experimental results demonstrate that the proposed algorithm has better performance of speech articulation and reduces the musical noise compared to another modified spectral subtraction algorithms under the same level of noise reduction,and this superiority is more significant at very low SNR.
Keywords:speech enhancement;spectral subtraction;speech absence probability;auditory masking effects
1 引 言
譜減法以其算法簡單和普適性強在語音增強中得到廣泛應(yīng)用[1],但這種方法會產(chǎn)生令人煩躁的“音樂噪聲”,嚴重影響了語音的可懂度。譜減法的改進形式[2]以改變減參數(shù)對噪聲減弱、語音失真和音樂殘留噪聲做出權(quán)衡,但受到混合優(yōu)化參數(shù)的限制。近年來,為進一步提高譜減法的性能,提出了一系列改進算法[3-9],且取得了很好的去噪效果。但大多語音增強算法在追求減小噪聲的同時,也導(dǎo)致了較嚴重的語音畸變度,盡管噪聲去除的效果很有效,但語音畸變度很大。
實驗表明,人耳對語音的畸變比對一般的寬帶噪聲更敏感。因此,為達到滿意的去噪效果,本文充分利用人耳的聽覺系統(tǒng)的掩蔽效應(yīng)[10,11],結(jié)合無語音概率思想(SAP)[4],有選擇地進行譜減,從而較好地兼顧了去噪度和減少語音失真。
基于人耳掩蔽效應(yīng)的增強算法的閾值計算是基于純語音的,然而在語音夾雜噪聲時的掩蔽閾值是不同于純語音閾值的,也就是說掩蔽閾值的計算對于純噪聲幀和帶噪語音幀應(yīng)該是不一樣的,因此需要根據(jù)純噪聲幀和帶噪語音幀自適應(yīng)地調(diào)整掩蔽閾值[12]。雖然近年來有人提出自適應(yīng)地計算掩蔽閾值,然而大多對于語音出現(xiàn)與否的估計是基于VAD算法及SFM系數(shù),這兩種算法對于語音和噪聲的區(qū)分不能較準確地跟蹤帶噪語音狀態(tài)的時變。在此本文提出基于無語音概率(SAP)的人耳掩蔽模型,有效地區(qū)分語音的不同狀態(tài)的同時使各狀態(tài)之間的過渡更為平滑,更適合于低信噪比環(huán)境,也更符合語音和噪聲的特性。實驗表明,該算法與其他譜減法相比,能取得更小的語音畸變,而且能將殘留噪聲和音樂噪聲控制在人耳掩蔽閾值下,使人的主觀感覺得到了很大的改善,特別是在低信噪比的情況下,語音具有更好的清晰度和可懂度。
2 改進的譜減法語音增強原理
設(shè)語音增強系統(tǒng)的增益函數(shù)為G(ω),則增強語音的頻譜|S∧(ω)|為帶噪語音的短時頻譜|Y(ω)|乘以系統(tǒng)增益函數(shù)G(ω),即:
S∧(ω)=G(ω)#8226;|Y(ω)|,0≤G(ω)≤1[JY](1)
采用功率譜的形式,可得:
G(ω)=1-|D∧(ω)|2|Y(ω)|2[JY](2)
其中|D∧(ω)|為噪聲功率譜。
Berouti等人提出的改進算法采用的增益函數(shù)為:
G(ω)=G[SNRpost(ω)]
=1-α|D∧(ω)||Y(ω)|γ1γ2,
|D∧(ω)||Y(ω)|γ1<1α+β
β|D∧(ω)||Y(ω)|γ1γ2, else [JY](3)
其中α(α>1)為過減因子,增加α可以使殘留噪聲的峰值減少,但同時也增加了聽覺失真;β(0≤β≤1)為頻譜階,導(dǎo)致殘留噪聲減少,但同時增加了增強語音中的背景噪聲;γ為指數(shù),他決定頻譜從G(ω)=1(頻譜成分未發(fā)生改變)至G(ω)=0(頻譜成分完全抑制)的平滑轉(zhuǎn)變。
參數(shù)α和β的選擇是語音增強的關(guān)鍵所在,傳統(tǒng)的方法可以看作其特例:當(dāng)α=1,β=0且固定不變時即為經(jīng)典的功率譜減法,其特點是殘留噪聲較大,有明顯的“音樂噪聲”;而在非線性譜減法中β取較小值(如0.01),α可以根據(jù)噪聲信噪比的變化而變化,其消噪效果有很大的改善,但在一幀語音信號中參數(shù)α也是固定的。另外,在低信噪比的情況下,這些方法是無法同時將語音失真和殘留噪聲降到最低的。
事實證明在所有頻段和所有語音幀內(nèi)采取固定的譜減系數(shù)α和β,語音增強的效果并不理想。特別在低信噪比情況下,利用上面公式很難在提高信噪比的同時又減少音樂噪聲,并保持原始語音信號質(zhì)量沒有明顯下降。因此有人提出一種基于聽覺掩蔽模型的譜減法,在不同的頻率段和不同的語音幀動態(tài)地調(diào)整譜減系數(shù)。聽覺掩蔽閾值較大的Bark關(guān)鍵頻率段取較小的譜減閾值系數(shù)α。聽覺掩蔽閾值較大說明此Bark關(guān)鍵頻率段中人耳對其他相近頻率段的語音信號和噪聲信號的抗干擾能力較強,所以只采用較小的譜減閾值系數(shù)。反之,對于聽覺掩蔽閾值較小的Bark關(guān)鍵頻率段,采用較大的譜減閾值系數(shù)。同樣,可以相應(yīng)地調(diào)整譜減噪聲系數(shù)β。對于各個Bark頻率段的2個譜減系數(shù)α和β的值用如下公式確定:
α(i,k)=
(T(i,max)-T(i,k))αmax+(T(i,k)-T(i,min))αminT(i,max)-T(i,min)
[JY](4)
β(i,k)=
(T(i,max)-T(i,k))βmax+(T(i,k)-T(i,min))βminT(i,max)-T(i,min)[JY](5)其中。T為各個Bark關(guān)鍵頻率段的聽覺掩蔽閾值。Tmax和Tmin是每一個語音幀的聽覺掩蔽閾值的最大和最小值。α(Tmax)=αmin,α(Tmin)=αmax,β(Tmax)=βmin,β(Tmin)=βmax。為了兼顧提高信噪比和保障語音的可懂度和清晰度,減少音樂噪聲,一般選擇αmax=6,αmin=1,βmax=0.02,βmin=0。
3 噪聲掩蔽閾值的計算
噪聲掩蔽閾值的計算由以下幾部分組成:
(1) 頻率群的分析:
時域語音信號x(t)經(jīng)過快速傅里葉變換(FFT)變成頻域信號X(ω),信號的功率譜為:
P(ω)=Re2X(ω)+Im2X(ω)[JY](6)
將語音信號的功率譜按頻段(Bark域)逐一分成小段,計算每一段的能量,即:
[HT5]Bi=∑bhiω=bliP(ω)[JY](7)
其中Bi表示第i段的能量;bli表示第i段的最低頻率;bhi表示第i段的最高頻率。
(2) 擴散Bark域功率譜:
根據(jù)文獻,引入擴散矩陣S[WTBZ],滿足條件:
abs(j-i)≤25[JY](8)
其中i是已被掩蔽信號的Bark頻率,j是正被掩蔽信號的Bark頻率,Sij為該矩陣S中的元素。
將矩陣Sij與Bi相互卷積久可以得到擴散Bark域頻譜Ci,即:
Ci=SijBi[JY](9)
(3) 噪聲掩蔽閾值的計算:
有2種噪聲掩蔽門限:一種是純音掩蔽噪聲(TNN),是在Ci下面14.5+i dB;另一種是噪聲掩蔽純音(NMT),是在Ci下面5.5 dB。其中i的值是相等的,但在Ci中的i是頻段,而(14.5+i)中i是指dB。
在此,本文引入無語音概率(SAP)思想,通過語音出現(xiàn)概率p求取噪聲掩蔽閾值,即新的掩蔽能力的偏移函數(shù)為:
Oi=p(14.5+i)+(1-p)5.5[JY](10)
則噪聲掩蔽閾值為:
Ti=10lg(Ci)-(Oi/10)[JY](11)
無語音概率的研究在近年取得了很大進展。引入無語音概率(SAP)[3]后,無需語音檢測就能夠準確有效地區(qū)分語音的不同狀態(tài),而且各狀態(tài)之間的過渡更為平滑,更適合于低信噪比環(huán)境。然而,在傳統(tǒng)方法中,分辨信號是純音或噪聲是通過給出系數(shù)SFM:
SFMdB=10lgGmAm[JY](12)
其中,Gm為該語音信號的幾何平均;Am為該語音信號的算術(shù)平均。然后設(shè)定系數(shù)α:
α=min(SFMdBSFMdBmax, 1)[JY](13)
當(dāng)α=0時,完全是噪聲;α=1時,完全是純語音。掩蔽能力的偏移函數(shù)為:
O′i=α(14.5+i)+(1-α)5.5[JY](14)
這種基于SFM的系數(shù)α的方法并不能準確地分辨信號是帶噪語音還是噪聲,對語音增強結(jié)果有很大影響。圖1是本文提出的基于改進掩蔽模型譜減法的流程圖。
圖1 改進的基于人耳掩蔽模型的譜減法流程圖
4 語音出現(xiàn)概率的計算
在假設(shè)語音和噪聲是統(tǒng)計獨立的復(fù)高斯隨機過程前提下,各幀各頻率分量上的SAP是一個統(tǒng)計獨立的隨機過程。H(l,k)0和H(l,k)1分別表示無語音狀態(tài)和有語音狀態(tài)。各狀態(tài)下的帶噪語音信號Y(l,k)表示為:
H(l,k)0:Y(l,k)=D(l,k)
H(l,k)1:Y(l,k)=D(l,k)+X(l,k)[JY](15)
其中P(H(l,k)1|Y(l,k))和P(H(l,k)0|Y(l,k))分別代表有語音的后驗概率和無語音的后驗概率,并分別用p(l,k)和1-p(l,k)表示;根據(jù)貝葉斯公式得:
p(l,k)=
P(Y(l,k)|H(l,k)1)P(H(l,k)1)P(Y(l,k)|H(l,k)1)P(H(l,k)1)+P(Y(l,k)|H(l,k)0)P(H(l,k)0)[JY](16)
式(16)中,P(H(l,k)0)=q(l,k),P(H(l,k)1)=1-q(l,k)分別表示無語音的先驗概率和有語音先驗概率。根據(jù)I.Cohen提出的假設(shè)模型,可以得到:
p(l,k)=1+q(l,k)1-q(l,k)(1+ξ(l,k))exp(-ν(l,k))-1[JY](17)
其中先驗信噪比ξ通過因果方法[7](causal)估計得到,語音缺失概率q(l,k)通過改進最小受控遞歸平均方法[6](IMCRA)得到,其計算公式如下:
ξ=maxαlA∧2l-1λDl-1+(1-αl)(γl-1),ξmin[JY](18)
其中αl=1-A∧4l-1(λDl-1+A∧2l-1)2。[FL)]
q(l.k)=
[HL(2]1,[]若γ~min(k,l)≤1且ζ~(k,l)<ζ0
(γ1-γ~min(k,l))/(γ1-1),[]若1<γ~min(k,l)<γ1且ζ~(k,l)<ζ0
0,[]其他[HL)][JY](19)
[FL(K2]
其中:[WB]γ~min(k,l)|Y(k,l)|2BminS~min(k,l);
[DW]ζ~(k,l)S(k,l)BminS~min(k,l)
5 實驗結(jié)果及評價
原始語音采用文件“audio.wav”,噪聲取自Noisex 92的工廠背景噪聲信號(factory1)。將他們合成信噪比為-10~5 dB的帶噪語音(16 kHz采樣,512點分幀,256點重疊)。實驗對比原聽覺掩蔽模型進行討論。
本文給出工廠背景噪聲下的去噪對比如圖2所示,并將二者與純凈語音相比,發(fā)現(xiàn)本文方法的語音畸變度比原聽覺掩蔽模型法小,特別是在清音部分,本文方法比原聽覺掩蔽模型法衰減小,而清音部分影響著語音的可懂度,而且隨著信噪比降低,語音清晰度的差別也越明顯,本算法明顯優(yōu)于原聽覺掩蔽模型法。
為確證客觀性能估計,進行了主觀聽覺測試,聽見測試是在5個觀眾中進行,內(nèi)容是對語音的殘留噪聲、背景噪聲和語音失真進行認識。對每個語音都按下列步驟:
(1) 純凈語音和帶噪語音均被重復(fù)播放2次;
(2) 每個測試信號都被重復(fù)2次,且隨機順序播放3次。
圖2 去噪后的語音時域波形對比
測試結(jié)果表明:利用本方法增強的語音在初始信噪比為-5 dB以上時,沒有殘留音樂噪聲。在信噪比更低的情況下,殘留噪聲對語音的干擾比原聽覺掩蔽模型法要小得多。
6 結(jié) 語
單聲道譜減法在減少背景噪聲上簡單有效,然而會產(chǎn)生令人煩躁的“音樂噪聲”?;谌硕诒涡?yīng)的語音增強及其改進算法能夠有效避免“音樂噪聲” 的產(chǎn)生,但是對于語音出現(xiàn)與否的估計是基于VAD算法及SFM系數(shù),這兩種算法并不能準確地區(qū)分語音和噪聲。因此本文提出基于無語音概率(SAP)的人耳掩蔽模型,能有效地區(qū)分語音的不同狀態(tài)的同時使各狀態(tài)之間的過渡更為平滑,更適合于低信噪比環(huán)境。實驗證明本文算法優(yōu)于一般掩蔽增強算法。這種方法能夠有效地減少音樂噪聲并且更符合人耳聽覺特性,特別是在低信噪比的情況下,語音具有更好的清晰度和可懂度。
參 考 文 獻
[1]Lim J S,Oppenheim A V.Enhancement of Speech and Bandwidth Compression of Noise Speech[J].Proc.of the IEEE,1979,67(12):1586-1604.
[2]Min-Seok Choi,Hong-Goo Kang.An Improved Estimation of a Priori Speech Absence Probability for Speech Enhancement:InPerspective of Speech Absence Probability[C].IEEE International Conference on ICASSP,2005:1 117-1 120.
[3]Israel Cohen.On Speech Enhancement under Signal Presence Uncertainty[C].Proc.Int.Conf.Acoustics,Speech,and Signal Processing ,2001:167-170.
[4]Israel Cohen.Optimal Speech Enhancement under Siganl Presence Uncertainty Using Log-Spectral Amplitude Estimator[J].IEEE Signal Processing Letters,2002,9(4):113-116.
[5]Israel Cohen,Baruch Berdugo.Noise Estimation by Minima Controlled Recursive Averaging for Robust Speech Enhancement[J].IEEE Signal Processing Letters,2002,9(1):12-15.
[6]Israel Cohen.Noise Spectrum Estimation in Adverse Environments:Improved Minima Controlled Recursive Averaging[J].IEEE Transactions on Speech and Audio Processing,2003,11(5):466-475.
[7]Israel Cohen.On the Decision-Directed Approach of Ephraim and Malah[C].IEEE International Conference on ICASSP,2004:293-296.
[8]Israel Cohen.Speech Enhancement Using a Noncasual a Priori SNR Estimator[J].IEEE Signal Processing Letters,2004,11(9):725-728.
[9]Nathalie Virag.Signal Channel Speech Enhancement Based on Masking Properties of the Human Auditory System[J].IEEE Transactions on Speech and Audio Processing,1999,7(2):126-137.
[10]陶智,趙鶴鳴.基于聽覺掩蔽效應(yīng)和Bark子波變換的語音增強[J].聲學(xué)學(xué)報,2005,30(4):367-372.
[11]蔡漢添,袁波濤.一種基于聽覺掩蔽模型的語音增強算法[J].通信學(xué)報,2002,23(8):94-98.
[12]羅玉玲,唐賢英.基于閾值優(yōu)化的圖像模糊邊緣檢測算法[J].微計算機信息,2007(6):286-288.
作者簡介 王 霞 女,1970年出生,河北保定人,副教授,研究生導(dǎo)師。研究方向為語音增強與識別。
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文。