李季碧,馬永保,夏 杰,劉金剛
(重慶郵電大學 信號與信息處理重慶市重點實驗室,重慶400065)
?
一種基于修正倒譜平滑技術(shù)改進的維納濾波語音增強算法
李季碧,馬永保,夏杰,劉金剛
(重慶郵電大學 信號與信息處理重慶市重點實驗室,重慶400065)
摘要:傳統(tǒng)的倒譜平滑維納濾波算法在求取選擇性平滑范圍時,噪聲會對維納增益函數(shù)的倒譜產(chǎn)生影響,使估計出的選擇性平滑范圍不正確,進而導致此傳統(tǒng)算法在平滑掉音樂噪聲的同時也影響了噪聲抑制效果。為此提出了一種基于修正倒譜平滑技術(shù)改進的維納語音增強算法,該算法先用最大似然準則估計出純凈語音的倒譜,然后在純凈語音倒譜中求取基頻和共振峰的位置,進而得到選擇性平滑的范圍。該方法提高了選擇性倒譜平滑的準確性,進而改善了傳統(tǒng)倒譜平滑維納濾波語音增強算法的噪聲抑制效果。最后在不同的噪聲場景中對傳統(tǒng)算法和改進算法進行了仿真對比,表明該算法能夠在去除噪聲的同時更好地保留語音的特征結(jié)構(gòu),較好地提高了帶噪語音的質(zhì)量。
關(guān)鍵詞:語音增強;維納濾波;音樂噪聲;增益函數(shù);修正倒譜平滑
0前言
語音增強技術(shù)是語音處理系統(tǒng)重要的預處理環(huán)節(jié),其目的是從受到噪聲干擾的語音信號中提取出純凈的原始語音信號,從而消除噪聲的干擾。語音增強技術(shù)廣泛應(yīng)用于通信系統(tǒng)、語音識別系統(tǒng)、助聽器、可移動設(shè)備等領(lǐng)域中,用于提高語音的質(zhì)量、增強系統(tǒng)的魯棒性。
基于短時譜估計的語音增強算法具有復雜度低和易于實現(xiàn)的優(yōu)點,因此被廣泛應(yīng)用。頻域維納濾波技術(shù)[1]是一種典型的短時譜估計語音增強算法。此算法在平穩(wěn)的噪聲條件下可以有很好的噪聲抑制效果,但是在非平穩(wěn)噪聲的環(huán)境中,先驗信噪比的錯誤估計會使維納增益函數(shù)中出現(xiàn)很多異值點,導致在抑制了原有噪聲之外又產(chǎn)生了音樂噪聲[2],為了抑制這種音樂噪聲,文獻[3]提出了一種增益函數(shù)加權(quán)修正的算法,但是此算法嚴重依賴對噪聲和先驗信噪比正確的估計。文獻[4]提出了一種方法,它的基本思想是:搜索并去除在增強后語音頻譜中的一些尖峰。但是這種方法會因為搜索的不準確,影響到語音的頻譜,使增強后的語音失真。文獻[5]對增益函數(shù)的倒譜進行了選擇性地平滑,此算法可以較好地去除異值點,從而抑制音樂噪聲。此算法是從增益函數(shù)的倒譜中提取語音的基因頻率,但是由于增益函數(shù)的倒譜中有噪聲倒譜的干擾,導致直接從增益函數(shù)的倒譜中提取基因周期和共振峰的位置不準確,因此在平滑掉異值點的同時也影響其噪聲抑制效果。本文采用從最大似然方法估計出的純凈語音中求出基音頻率和共振峰的對應(yīng)的倒譜位置,該方法減小噪聲對求取基因周期和共振峰位置時的干擾,提高倒譜選擇性平滑的準確性,能在傳統(tǒng)算法的基礎(chǔ)上更好地保留語音的頻譜結(jié)構(gòu),從而提高噪聲抑制的效果。
1基于維納濾波的語音增強算法
(1)
(2)
(3)
(3)式中:ξ(k,i)是第i幀第k個頻點的先驗信噪比;γ(k,i)為對應(yīng)頻點的后驗信噪比[6],其中,|Y(k,i)|2,λx(k,i)和λd(k,i)分別為帶噪語音信號、純凈語音信號、噪聲信號的功率譜。
為了得到(3)式中維納濾波的增益函數(shù),需要估計出每一幀語音信號的先驗信噪比ξ(k,i),本文使用經(jīng)典的Ephraim和Malah提出的“判決引導法”[7]估計先驗信噪比
ξ(k,i)=αξ(k,i-1)+(1-α)max[γ(k,i)-1,0]
(4)
2倒譜平滑技術(shù)
文獻[5]中提出了選擇性倒譜平滑算法。其主要思想為:在倒譜域中語音的信息主要體現(xiàn)在基音頻率和共振峰所在的系數(shù),而其他倒譜系數(shù)基本不包含語音的信息,所以在增益函數(shù)的倒譜域中,將代表語音的基音頻率和共振峰的倒譜系數(shù)采取輕微地平滑,而在其他地方進行較大程度地平滑,從而最大程度平滑掉增益函數(shù)中的異值點,減少非平穩(wěn)噪聲條件下出現(xiàn)的音樂噪聲,大致過程如下:
(5)
(5)式中,q表示倒譜的譜線。然后對增益函數(shù)進行選擇性平滑
(6)
(6)式中,平滑因子β定義為
(7)
最后將平滑后的增益函數(shù)轉(zhuǎn)換到頻域,得到平滑后的維納增益函數(shù)Gceps(k,i)為
(8)
3修正的倒譜平滑技術(shù)
由于直接從增益函數(shù)的倒譜中提取基因周期和共振峰的位置不一定準確,所以本文提出了修正的倒譜平滑技術(shù),即從最大似然估計出的純凈語音中求出基音頻率和共振峰的對應(yīng)的倒譜位置,此修正方法減小了噪聲對求取基因周期和共振峰位置時的干擾,提高了倒譜選擇性平滑的準確性。下面介紹修正的倒譜平滑技術(shù)。
首先我們給出增益函數(shù)的倒譜與語音倒譜相對應(yīng)的關(guān)系。將維納增益函數(shù)寫成(9)式所示的形式,然后對兩邊取對數(shù)可得(10)式,再分別取反傅里葉變換得到(11)式
(9)
(10)
IDFT{log(GW(k,i))}=IDFT{log(X(k,i))}-
IDFT{log(Y(k,i))}
(11)
(12)
(13)
(14)
(15)
首先,由于無話段沒有語音,不存在基音頻域和共振峰,因此需要用話音活動檢測(voiceactivitydetection,VAD)[9]判決出語音的話音段和靜音段,從而去掉在靜音段求出的基音頻率和共振峰對應(yīng)的倒譜位置。本文所用的VAD算法流程如下。
(16)
(17)
(18)
(18)式中:qlow=|fs/f0,high|到qhigh=|fs/f0,low|表示語音的基音頻率在倒譜域中的位置范圍,其中fs是采樣率,f0,high,f0,low分別表示語音基音頻率的最小值和最大值,?*」表示向下取整。再用 (19)式求得基音頻率在倒譜中出現(xiàn)位置的范圍pitch
(19)
4)通過(20)式、(21)式、(22)式求出語音共振峰在倒譜中出現(xiàn)位置的范圍envelope。
(20)
(21)
(22)
(20)式中:fpeaks{*}表示在語音倒譜中找出最大值函數(shù);windowH(q)是低通的窗函數(shù),用來平滑語音的倒譜。(21)式中,H和len分別表示窗長和幀長。(22)式中,Δqpitch是一個小的邊界值。
4算法性能的仿真
本文對基于修正倒譜平滑技術(shù)改進的維納濾波語音增強算法進行仿真實現(xiàn),然后與不經(jīng)過平滑處理的維納濾波增強算法和文獻[5]中的倒譜平滑的維納濾波增強算法對比。分別從頻域分段信噪比測度[11]、ITU-TP.862的感知語音質(zhì)量評估(perceptualevaluationofspeechquality,PESQ)測度[12]、CMU的pocketsphinx語音識別系統(tǒng)[13]的識別率測度方面對這3種語音增強算法做了對比。頻域分段信噪比的定義為
fwSNRseg=
本文中,求先驗信噪比時要用到估計噪聲的功率譜,我們采用文獻[10]中基于MMSE的噪聲估計算法估計噪聲的功率譜,使用文獻[7]中提出的經(jīng)典的“判決引導”的先驗信噪比算法計算先驗信噪比。被測試的純凈語料是我們錄制的400個短句,然后將這400個短句分別加上來自NOISE92[14]噪聲庫中不同信噪比的4種代表性噪聲,它們分別是白噪聲、粉紅噪聲、工廠噪聲和babble噪聲,帶噪語音的信噪比分別為0 dB,5 dB,10 dB和15 dB。此外,仿真中用到的其他的一些重要參數(shù)如下:
1)頻域維納增益參數(shù)的相關(guān)參數(shù):
len=512;fs=16 kHz;ξmin=-25 dB;α=0.94;
幀與幀之前的疊加為50%。
2)倒譜平滑和修正的倒譜平滑參數(shù):
f0,high=500 Hz;f0,low=200 Hz;Λthr=0.35;
Δqpitch=2。
3)語音識別系統(tǒng)參數(shù):
識別系統(tǒng): Pocketsphinx-5[15]
聲學模型: cmusphinx-en-us-ptm-5.2[15]
語言模型: building by lmtool[16]
注意,這里的聲學模型是在純凈語音數(shù)據(jù)訓練得到。
在用最大似然算法估計出的語音的倒譜中,我們用VAD算法找出有話段和無話段,只在有話段求基音頻率和共振峰對應(yīng)的倒譜位置。圖1是本文用的基于最大似然先驗信噪比的VAD算法的仿真圖,圖中的帶噪語音由2段加了不同信噪比的語音拼接而成,其中前半段語音加了0 dB的babble噪聲,后一半語音加了15 dB的babble的噪聲。從圖1中可以看出,本文提出的VAD算法不僅能準確地找到高信噪比帶babble噪聲語音的有聲段和無聲段,而且對帶0 dB的babble噪聲的語音也能取得較好的VAD結(jié)果,因此本文的VAD算法具有一定的魯棒性,可以準確地刪除無話段沒有意義的基音頻率和共振峰。
然后我們分別用上述3種語音增強算法處理加了不同信噪比噪聲的400段帶噪語音,分別計算處理后語音的分段信噪比、PESQ,然后輸入到待測試的語音識別系統(tǒng)中測試識別率。
圖1 VAD結(jié)果圖Fig.1 Result of VAD
用3種語音增強算法處理過的語音的頻域分段信噪比的結(jié)果如圖2所示,圖2a、圖2b、圖2c、圖2d分別為白噪聲、粉紅噪聲、工廠噪聲、babble噪聲條件下,3種語音增強算法對語音處理過的頻域分段信噪比圖。從圖3中可以看出,倒譜平滑的維納濾波與本文改進的算法比原始的維納濾波算法的頻譜分段信噪比高,尤其在低信噪比下比較明顯?;镜牡棺V平滑與本文修正的倒譜平滑的維納濾波算法相比,在白噪聲和粉紅噪聲條件下,表現(xiàn)出相近的效果,但是在工廠和babble非平穩(wěn)噪聲條件下,本文提出的方法有較高的分段信噪比,平均高0.61 dB。
圖2 頻域分段信噪比對比Fig.2 Comparison of frequency domain SEG-SNR
圖3是用3種算法處理過的語音的語譜圖的比較。其中,圖3a是帶0 dB信噪比工廠噪聲語音的語譜圖,圖3b、圖3c和圖3d分別為維納濾波、倒譜平滑維納濾波、修正的倒譜平滑維納濾波處理過的帶噪語音的語譜圖。從圖3中可以看出,相較于圖3b,圖3c和圖3d在去除了背景噪聲的同時,保留了更多的語音的諧波結(jié)構(gòu),而圖3b則有語音的失真。而圖3d與圖3c相比,圖3d進一步保留了較弱的語音段的語音的頻譜特征結(jié)構(gòu),進一步提高了語音的質(zhì)量。
圖3 三種增強算法的語譜圖比較Fig.3 Spectrogram of the enhanced speeches by three different algorithm
3種不同算法處理后語音的PESQ和語音識別系統(tǒng)的識別率的結(jié)果如表1所示,由于基本的維納濾波在非平穩(wěn)噪聲,如工廠和babble噪聲下會對帶噪語音過度抑制,導致出現(xiàn)語音失真和音樂噪聲,在表1中也表現(xiàn)出了比其他2種算法低的PESQ和識別率的提升,從主觀聽覺方面,基本的維納濾波有明顯的音樂噪聲,而后2種算法無明顯的音樂噪聲。后2種算法在相對平穩(wěn)和非平穩(wěn)噪聲的情況下都表現(xiàn)出了不錯的效果,其中PESQ大約分別比基本的維納濾波高了0.1和0.23左右,識別率分別大約分別高了10%和17%。其中,后2種算法相比,本文的算法表現(xiàn)出了略高的PESQ和識別率的提升。
5結(jié)論
本文基于倒譜平滑算法,提出了一種基于修正的倒譜平滑技術(shù)改進的維納濾波語音增強算法,用于解決在非平穩(wěn)噪聲情況下,傳統(tǒng)基于倒譜平滑的維納濾波算法因估計選擇性平滑范圍不準確,而導致的減少音樂噪聲的同時噪聲抑制效果也不佳的問題。通過仿真實驗測試,本算法比維納濾波和基本的倒譜平滑算法有更好頻域分段信噪比、PESQ和語音識別系統(tǒng)識別率得分,且主觀聽覺上也無明顯的音樂噪聲。所以本文提出的基于修正倒譜平滑技術(shù)改進的維納濾波語音增強算法在減少音樂噪聲的基礎(chǔ)上提高了噪聲抑制的效果。
表1 3種算法增強后語音的客觀測度比較
參考文獻:
[1]WIENER N. Extrapolation interpolation and smoothing of stationary time series[M]. Boston:Technology Press of the Massachusetts Institute of Technology,1950:1043-54.
[2]BEROUTI M,SCHWARTZ R,MAKHOUL J.Enhancement of speech corrupted by acoustic noise[C]//International Conference on Acoustics,Speech,and Signal Processing(ICASSP).London:IEEE Press,1979:208-211.
[3]MALAH D, COX R V, ACCARDI A J. Tracking speech-presence uncertainty to improve speech enhancement in non-stationary noise environments[C]// International Conference on Acoustics, Speech, and Signal Processing (ICASSP). Phoenix, AZ: IEEE Press, 1999: 789-792.
[4]GUSTAFSSON H, NORDHOLM S E, CLASON I. Spectral subtraction using reduced delay convolution and adaptive averaging[J]. IEEE Transactions on Speech, Audio, and Processing, 2001, 9(8):799-807.
[5]BREITHAUPT C, GERKMANN T, MARTIN R. Cepstral smoothing of spectral filter gains for speech enhancement without musical noise[J].IEEE Signal Processing Letters, 2007, 14(12):1036-1039.
[6]LOIZOU P C. Speech enhancement: theory and practice, second edition[M]. Florida: CRC press, 2013.
[7]EPHRAIM Y, MALAH D. Speech enhancement using a minimum mean-square error log-spectral amplitude estimator[J]. IEEE Transactions on Acoustics, Speech, and Signal Processing, 1985, 33(2): 443-445.
[8]BREITHAUPT C, GERKMANN T, MARTIN R. Cepstral smoothing of spectral filter gains for speech enhancement without musical noise[J]. IEEE Signal Processing Letters, 2007, 14(12):1036-1039.
[9]LI Y, WANG T, CUI H, et al. Voice activity detection in nonstationary Noise[J]. IEEE Transactions on Speech, Audio, and Processing, 2000, 8(4):478-482.
[10] TRIBOLET J M, NOLL P, MCDERMOTT B, et al. A study of complexity and quality of speech waveform coders[C]// International Conference on Acoustics, Speech, and Signal Processing (ICASSP). Chicago: IEEE Press, 1978:586-590.
[11] RIX A W, BEERENDS J G, HOLLIER MP, et al. Perceptual evaluation of speech quality (PESQ)-a new method for speech quality assessment of telephone networks and codecs[C]// IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP).Salt Lake City, UT: IEEE Press, 2001: 749-752.
[12] CMU RESEARCH GROUP. Open source speech recognition toolkit[EB/OL].[2015-12-07]. http://cmusphinx.sourceforge.net.
[13] HENDRIKS R C, HEUSDENS R, JENSEN J. MMSE based noise PSD tracking with low complexity[C]// IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). Dallas, TX: IEEE Press, 2010: 4266-4269.
[14] VARGA A, STEENEKEN H J M. Assessment for automatic speech recognition: II. NOISEX-92: A Database and an Experiment to Study the Effect of Additive Noise on Speech Recognition Systems[J]. Speech Communication, 1993, 12(93): 247-251.
[15] CMU RESEARCH GROUP.CMU sphinx download[EB/OL].[2015-12-7].http://sourceforge.net/projects/cmusphinx.[16] CMU RESEARCH GROUP. Language model tool download[EB/OL].[2015-12-07]. http://www.speech.cs.cmu.edu/tools/lmtool.html.
DOI:10.3979/j.issn.1673-825X.2016.04.004
收稿日期:2015-12-10
修訂日期:2016-04-01通訊作者:李季碧lijb@cqupt.edu.cn
基金項目:國家自然科學基金項目(61501072);重慶市教委項目( KJ130504)
Foundation Items:The National Natural Science Foundation of China(61501072); The Science and Technology Research Project of Chongqing Municipal Education Commission of China(KJ130504)
中圖分類號:TN912.35
文獻標志碼:A
文章編號:1673-825X(2016)04-0462-06
作者簡介:
李季碧(1975-),女,四川開江人,講師,碩士,主要研究方向為通信信號處理。E-mail:lijb@cqupt.edu.cn。
馬永保(1989-),男,甘肅武威人,碩士研究生。主要研究方向為語音增強、語音識別。E-mail:yb_ma@outlook.com。
(編輯:張誠)
An improved Wiener filtering speech enhancement algorithm based on modified cepstrum smooth technology
LI Jibi,MA Yongbao,XIA Jie,LIU Jingang
(Chongqing Key Laboratory of Signal and Information Processing,Chongqing University of Posts and Telecommunications,Chongqing 400065, P. R. China)
Abstract:Because the noise will influence cepstrum of the gain functions when using traditional cepstrum smooth technology, it reduces the performance of noise reduction while suppressing music noise. To solve this problem, we propose a modified cepstrum smooth technology to improve Wiener filter speech enhancement algorithm. In the proposed scheme, we compute the range of selective smooth by using the estimation of clean speech cepstrum which is obtained by maximum likelihood criterion. The proposed method modifies the accuracy of selective smoothing,therefore it improves the noise reduction performance of the traditional cepstrum smooth Wiener filter speech enhancement algorithm. Finally, we simulate the proposed algorithm and compare it with traditional algorithm in different noise scenario. The simulation results show that the proposed algorithm can well reduce the noise and reserve the speech feature structure, so it has a better quality improvement of the noisy speech than traditional algorithm.
Keywords:speech enhancement; Wiener filter; music noise; gain functions; modified cepstrum smooth