呂軍輝
兩種改進(jìn)的譜減降噪處理算法對比分析
呂軍輝
廣西藝術(shù)學(xué)院, 廣西 南寧 530022
降噪處理是提高語音通信質(zhì)量的有效手段,能夠降低噪音所帶來的影響。采用傳統(tǒng)譜減法增強含噪音的語音信號之后,盡管可以較為明顯地消除噪音,而且能夠提升信噪比,但是效果依然有限。本文提出傳統(tǒng)譜減算法中的噪音零均值為高斯分布的假設(shè),對非零項估算法和調(diào)節(jié)參數(shù)法這兩種典型的改進(jìn)算法進(jìn)行了實驗分析。實驗結(jié)果表明:兩種典型的改進(jìn)算法都能夠更好地控制噪音,其中非零項估算法信噪比的提升幅度更大,尤其當(dāng)信噪比處于較低水平時,有更加明顯的增強效果。
譜減法; 降噪處理; 對比
噪音是影響語音通信質(zhì)量的一大因素,尤其在使用語音處理系統(tǒng)時,過多的噪音會降低系統(tǒng)性能[1]。而降噪處理則是為了提升語音的質(zhì)量,盡最大程度消除噪音所帶來的影響,使語音的可辨度有明顯提高。降噪處理常用的算法主要有兩種:一是以發(fā)聲模型為基礎(chǔ)的算法,二是以估算語音幅度譜為基礎(chǔ)的算法[2]。近些年來,也有少數(shù)新算法出現(xiàn),例如小波變換算法等。以估算語音幅度譜為基礎(chǔ)的降噪處理算法,一直以來都是研究熱點,其中譜減法是該算法里面使用最為廣泛的一種,優(yōu)勢在于運算量不大,計算時間很短[3]。但譜減法也有部分問題存在,會對降噪處理效果造成較大的影響。相關(guān)學(xué)者對降噪處理算法改進(jìn)研究成果大量出現(xiàn),例如譜減算法中的調(diào)節(jié)參數(shù)法、非零項估算法[4-6]。本文以這兩種改進(jìn)算法為對比,得出降噪處理的最佳方式。
傳統(tǒng)譜減法的實現(xiàn)前提需要做一個假設(shè),即時間短的平穩(wěn)語音信號和加性噪音是獨立的,兩者互不干涉。在此情況下,將帶有噪音的語音信號量減去噪音信號量,得出趨向于純凈的語音頻譜。
設(shè)()是純凈的語音信號量,()是噪音信號量,()是帶有噪音的語音信號量,關(guān)系式如下:
()=()+() (1)
對以上三種信號進(jìn)行傅里葉變換,分別用()表示(),()表示(),()表示(),則得出下式:
()=()+() (2)
進(jìn)而得出:
|()|2=|()|2+|()|2+2Re[()*()] (3)
根據(jù)上式得出:
(|()|2)=(|()|2)+(|()|2+2{Re[()*()]} (4)
由于()和()都是獨立的,所以()和()也是獨立的,而且()服從零均值高斯分布,因此{(lán)Re[()*()]}=0,下式成立:
(|()|2)=(|()|2)+(|()|2(5)
對于單幀短時平穩(wěn),下式成立:
|()|2=|()|2+|()|2(6)
因為發(fā)聲前后的時間段內(nèi),平穩(wěn)噪音功率譜一般不會有變化,噪音功率譜|()|2可利用發(fā)聲之前的寂靜時間段進(jìn)行估算,因此有:
|()|2=|()|2-|()|2(7)
原始語音估算值用下式計算:
|()|=[|()|2-|()|2]1/2(8)
上式采用分幀計算,若有負(fù)值出現(xiàn),可用0替換。由于分幀會有截斷效應(yīng)產(chǎn)生,為避免這種情況,可以對進(jìn)行加窗處理。人耳一般很難感觸到相位的變化,用原來帶噪音的語音信號相位取代估算出來的語音信號相位,由此得出降噪處理之后的語音信號。傳統(tǒng)譜減法基本原理如圖1所示。
圖1 傳統(tǒng)譜減法基本原理圖
在實際應(yīng)用中,傳統(tǒng)譜減法使用通常會有一定的改進(jìn),使算法更加貼近實際需求。以下是兩種較為典型的改進(jìn)算法:非零項估算法、調(diào)節(jié)參數(shù)法。
在式(4)中,只有假設(shè)噪音是零均值的高斯分布,{Re[()*()]}=0才會成立。但實際上噪音通常不會這樣分布,有的并不是零均值,有的也不是高斯分布。出于這種考慮,非零項估算法成為一種不忽略非零項的典型算法,計算步驟如下:
Re[()*()]=|()||()|cos(θ-θ) (9)
式中()=|()|exp(jθ),()=|()|exp(jθ),因此下式成立:
{Re[()*()]}={|()||()|}cos(θ-θ) (10)
若|()|、|()|與cos(θ-θ)互相獨立,以下等式成立:
{Re[()*()]}=(|()||()|)[cos(θ-θ)] (11)
因為(2)≥[()]2成立,所以下面公式也成立:(|()|)=[(|()|2)]1/2和(|()|)=[(|()|2)]1/2。
在上式中,≥0,≤1,所以式(11)可以用下式表示:
{Re[()*()]}=[cos(θ-θ)][(|()|2|()|2)]1/2=[(|()|2|()|2)]1/2(12)
在上式中,設(shè)=[cos(θ-θ)],所以0≤≤1,則式(4)可以用下式表示:
(|()|2)=(|()|2)+(|()|2)+2[(|()|2|()|2)]1/2(13)
對于單幀的短時間平穩(wěn),有:
|()|2=|()|2+|()|2+2[|()|2|()|2]1/2(14)
根據(jù)上式得出:
|()|2=|()|2-(1-22)|()|2-2[|()|2|()|2-(1-22)|()|4]1/2(15)
首先利用發(fā)聲之前的寂靜時間段對噪音()的功率譜|()|2進(jìn)行估計,然后通過原來帶噪音的語音信號()求出功率譜|()|2,可以取[0,1]間的某一個值,按照式(15)得到|()|2,進(jìn)而求出原始的語音信號估算值,最終得到噪音降低之后的信號。
調(diào)節(jié)參數(shù)法是一種典型的譜減降噪改進(jìn)算法,公式如下:|()|=[|()|-|()|]1/α(16)
實驗對語音增強前和增強后的信噪比進(jìn)行計算,驗證非零項估算法的有效性。在實驗中,正常語音和噪音的信號采樣標(biāo)準(zhǔn)用8 kHz,量化則用16 bit,在安靜環(huán)境下錄制純凈的語音材料,噪音則選取NOISEX數(shù)據(jù)庫內(nèi)的戰(zhàn)斗機噪音,根據(jù)一定比例把正常語音和噪音信號進(jìn)行線性相加,形成五種各不相同的信噪比,分別是:-15 dB、-10 dB、-5 dB、0 dB、5 dB。通過漢明窗分幀含噪音的語音,每一個幀的采樣點為512個,幀與幀之間的采樣點疊加成128個。在不同信噪比環(huán)境下,分別使用傳統(tǒng)譜減法和非零項估算法增強語音,取0.4與0.7,實驗結(jié)果見表1。
表1 非零項估算法實驗的結(jié)果統(tǒng)計
從表1結(jié)果可以看出,當(dāng)使用傳統(tǒng)譜減法對語音進(jìn)行增強,信噪比有一定幅度提高,并削弱了部分噪音。采用非零項估算法對語音進(jìn)行增強,相對于傳統(tǒng)法來說,則能夠更好地控制噪音,信噪比的提升幅度更大,尤其當(dāng)信噪比處于較低水平時,有更加明顯的增強效果。當(dāng)取0.4時,語音增強效果要比0.7好。因此這一參數(shù)對語音增強效果的改善極為重要,可以按照實驗結(jié)果進(jìn)行確定。
為驗證調(diào)節(jié)參數(shù)法的有效性能,本實驗使用與非零項估算法實驗相同的純凈語音,在該語音中疊加高斯白噪音,得出的結(jié)果見圖2。在該結(jié)果中,取值2,取值1.5,橫軸代表采樣點的數(shù)目,縱軸代表歸一化的幅度。根據(jù)實驗結(jié)果,調(diào)節(jié)參數(shù)法對噪音的控制效果最好。
圖2 調(diào)節(jié)參數(shù)法實驗結(jié)果的波形圖
用傳統(tǒng)譜減法增強含噪音的語音信號之后,盡管可以消除一定程度的噪音,而且能夠提升信噪比,但是效果依然有限。本文提出一個假設(shè),即傳統(tǒng)譜減算法中的噪音零均值為高斯分布,對兩種典型的改進(jìn)算法進(jìn)行了實驗研究,分別是非零項估算法和調(diào)節(jié)參數(shù)法。根據(jù)實驗結(jié)果,非零項估算法能夠更好地控制噪音,信噪比的提升幅度更大,尤其當(dāng)信噪比處于較低水平時,有更加明顯的增強效果。調(diào)節(jié)參數(shù)法也能很好地控制噪音,但是對于效果影響并非很大,且取2值的時候,有較為明顯的物理意義,因此相關(guān)研究基本將值定為2。
[1] Kang TG, Shin JW, Kim NS.DNN-based monaural speech enhancement with temporal and spectral variations equalization[J].Digital Signal Processing, 2018,74(8):102-110
[2] Bhowmick A, Chandra M. Speech enhancement using voiced speech probability based wavelet decomposition[J]. Computers and Electrical Engineering, 2017,62(6):706-718
[3] Wood SUN, Rouat J, Dupont S,. Blind Speech Separation and Enhancement With GCC-NMF[J].IEEE/ACM transactions on audio, speech, and language processing, 2017,25(4):745-755
[4] Mossa E.Security enhancement for AES encrypted speech in communications[J].Journal of speech technology, 2017,20(1):163-169
[5] Upadhyay A, Pachori RB. Speech enhancement based on mEMD-VMD method[J].Electronics Letters, 2017,53(7):502-504
[6] Kandagatla R, Subbaiah PV. Speech enhancement using MMSE estimation under phase uncertainty[J]. Journal of speech technology, 2017,20(2):373-385
Comparison and Analysis of Two Improved Spectral Noise Reduction Processing Algorithms
LV Jun-hui
530022,
Noise reduction is an effective means to improve the quality of voice communication, which can reduce the impact of noise. After using the traditional spectral subtraction method to enhance the speech signal with noise, although the noise can be eliminated obviously and the signal-to-noise ratio can be improved, the effect is still limited. In this paper, the hypothesis that the zero mean value of noise in traditional spectral subtraction algorithm is Gauss distribution is proposed. Two typical improved algorithms, non-zero estimation method and adjusting parameter method, are experimentally analyzed. The experimental results show that the two typical improved algorithms can better control the noise, and the non-zero estimation method has a larger increase in the signal-to-noise ratio, especially when the signal-to-noise ratio is at a low level, it has a more obvious enhancement effect.
Spectral subtraction; noise reduction; comparison
TP301.6
A
1000-2324(2019)05-0849-03
10.3969/j.issn.1000-2324.2019.05.024
2018-06-28
2018-09-12
廣西高等學(xué)校學(xué)位與研究生教育改革項目:創(chuàng)新應(yīng)用型作曲專業(yè)研究生的培養(yǎng)模式研究(JGY2017089)
呂軍輝(1972-),男,本科,副教授,主要研究方向為信號系統(tǒng)應(yīng)用. E-mail:229325328@qq.com