肖 強,曾慶寧,王 瑤,謝先明,毛 維
(桂林電子科技大學“認知無線電與信息處理”教育部重點實驗室,廣西桂林 541004)
各種各樣的噪聲嚴重影響了語音質(zhì)量及語音識別系統(tǒng)的識別率,過大的干擾噪聲甚至會影響到語音的可懂度。麥克風陣列語音增強技術的出現(xiàn),打破了人們使用單一麥克風處理語音信號的固有模式。與傳統(tǒng)的單麥克風語音增強技術相比,麥克風陣列技術既能利用陣元間的時域與空域信息抑制其他方向的干擾,又能確定聲源在空間的位置。
麥克風陣列語音增強方法主要有波束形成(Beam Forming,BF)、自適應噪聲抵消(Adaptive Interference Cancellation,AIC)、多路維納濾波(Multichannel Wiener Filter,MWF)、子帶分解法(Subband Decomposition,SD)、廣義旁瓣抵消(Generalized Sidelobe Canceller,GSC)等[1-7]。比較這幾種方法,GSC不僅能消除相關性比較弱的噪聲,而且也可消除相關性比較強的噪聲,因此被廣泛地研究和改進。GSC最早由Griffiths L[8]等提出,包括三部分:固定波束形成器(Fixed Beamforming,F(xiàn)BF)、阻塞矩陣(Blocking Matrix,BM)以及自適應干擾抵消器,該結構中BM存在嚴重的語音泄露,導致AIC中存在語音抵消的現(xiàn)象。針對這個問題,對GSC結構中BM部分進行改進成為了一個重要的研究方向,例如多路抗串擾自適應信號抵消、基于傳輸函數(shù)比的阻塞矩陣改進以及基于子空間投影的 GSC(Subspace Generalized Sidelobe Canceller,SGSC)等[9-11]。由于GSC對弱相干噪聲及非相干噪聲的抑制能力差,1977年Allen提出一種將維納濾波(Wiener Filter,WF)作為后置濾波并與自適應波束形成結合的語音增強方法[12],Cohen提出將廣義旁瓣抵消器和后置濾波器結合的方法對抑制弱相干及非相干噪聲有較好的效果[13]。但該結構中不僅存在語音泄露問題,而且在后置維納濾波中沒有修正增強后的語音的相位。
本文提出一種基于改進廣義旁瓣抵消(Modify Generalized Sidelobe Canceller,MGSC)與相位補償維納濾波(Phase Compensation Wiener Filter,PCWF)的麥克風陣列語音增強方法。該方法將GSC結構中的阻塞矩陣變?yōu)樽枞麨V波器,在減少阻塞矩陣語音泄露問題上有較好的效果;后置相位補償維納濾波不僅估計了純凈語音的幅度譜,而且修正了相位譜。實驗證明本文算法能夠獲得較好的性能。
考慮一般麥克風陣列的信號模型,每個麥克風接收到的含噪語音信號表示為
式(1)中:y為含噪語音信號;s為純凈語音信號;為噪聲;M為麥克風數(shù)量。假設純凈語音與噪聲互不相關,即對式(1)兩邊進行短時傅里葉變換得出其頻域形式:
式(2)中,u表示幀數(shù),w表示離散頻率。其含噪語音頻譜用極坐標表示為
本文的語音增強算法結構框圖如圖1所示,從圖1中可見,算法分為兩個部分:改進的廣義旁瓣抵消及相位補償維納濾波。其主要思想是 MGSC抑制相干噪聲,后置PCWF用以抑制MGSC輸出信號殘留的非相干及弱相干噪聲。
圖1 基于MGSC-PCWF的麥克風陣列語音增強原理框圖Fig.1 Block diagram of MGSC-PCWF based microphone arrayspeech enhancement
GSC抑制噪聲的原理是利用參考噪聲信號抵消FBF輸出中的噪聲信號,其中FBF一般用延遲求和波束形成(Delay Sum Beamforming,DSB)實現(xiàn),麥克風接收到的語音信號經(jīng)過DSB后表示為
式(5)中,τi1是以第1個麥克風為參考麥克風的第i個麥克風的時延;di1是第i個麥克風到參考麥克風的距離;c為聲速; 為聲源的入射角。
傳統(tǒng)的 GSC結構中,阻塞矩陣存在嚴重的語音泄露問題,導致參考的噪聲中存在大量的語音信息,從而使自適應干擾抵消結構中存在語音抵消,致使語音信號產(chǎn)生畸變。針對 GSC結構中語音泄露的問題,本文引入阻塞濾波器產(chǎn)生噪聲參考信號[14],阻塞濾波器是在頻域利用前一幀估計的噪聲與前一幀的期望信號產(chǎn)生增益函數(shù),然后再利用譜減法對語音信號進行阻塞以估計噪聲。其中增益函數(shù)定義為[14]:
式(6)中,*表示共軛, 為步長;D(u,w)表示d(n)的短時傅里葉變換;Ui(u,w)表示第i個麥克風接收到參考噪聲的短時傅里葉變換,由式(7)獲得;P[D(u,w)]表示期望信號的功率譜,由式(8)獲得[14]。
式(7)中, 表示平滑因子。
MGSC的輸出可以表示為
式(10)中,δ為步長因子。
傳統(tǒng)的維納濾波算法只對幅度譜進行改變,保持相位譜不變,其原因是之前普遍認為含噪語音的相位譜是純凈語音的某種最優(yōu)估計。而最近的研究證明,改變相位譜能夠獲得較好的語音可懂度[15],Wojcicki K等人只改變含噪語音的相位譜、不改變幅度譜獲得了較好的語音可懂度[16]。針對傳統(tǒng)維納濾波相位譜不變,本文提出一種基于相位補償?shù)木S納濾波方法。
相位補償維納濾波函數(shù)定義為[15]:
式(12)中,G(u,w)是維納濾波器的傳遞函數(shù),定義為:
式(15)中,K表示幀長。
由于含噪信號是實信號,故經(jīng)過短時傅里葉變換后是共軛對稱的,即利用反對稱函數(shù)來改變共軛之間的角度關系,從而可以補償相位譜。相位補償?shù)亩葦?shù)根據(jù)估計的噪聲幅度譜來確定。
式(17)中,ξ是一個常數(shù);v?(u,w) 是估計的噪聲幅度譜;ψ(w)是反對稱函數(shù),即:
實驗使用M-Audio多路音頻設備采集數(shù)據(jù)。實驗分為仿真實驗和實際含噪語音實驗。麥克風陣列為四元平面矩形陣。如圖2所示,M1與M3之間的距離為16 cm,M1與M2之間的距離為2 cm。錄制環(huán)境為空曠的天臺。仿真實驗聲源位于麥克風陣中心的正前方。噪聲采用Noise-92數(shù)據(jù)庫中white噪聲。仿真實驗中語音的采樣率為44.1 kHz,噪聲采樣率為8 kHz。實際含噪語音實驗如圖2所示,說話人位于M1與M3的垂直平分線上且距離陣列中心20 cm處,噪聲為m109,位于M2與M4的垂直平分線上且距離陣列中心30 cm處。實際含噪語音的語音和噪聲的采樣率均為44.1 kHz。
圖2 四元平面麥克風矩形陣Fig.2 Four element rectangular microphone array
在仿真實驗與實際含噪語音實驗中,以M1為參考麥克風。由于M1與M2之間的距離很小,因此M1與M2之間的時延可以忽略不計,即τ21=0。由于聲源位于M1與M3的垂直平分線上,因此M1與M3之間的時延為 0,M1與M4之間的時延約等于M1與M3之間的時延。延遲采樣點其中ceil表示大于或者等于指定表達式的最小整數(shù)函數(shù)。是含噪語音的采樣率。
在仿真實驗中幀長取 20 ms,幀移為 10 ms。在實際含噪語音實驗中幀長取 40 ms,幀移取20 ms。在阻塞濾波器中的步長取值為0.1,平滑因子取值為0.68。在PCWF中的相位補償函數(shù)中取值為3.47。
圖3是仿真實驗結果。在4個麥克風接收到的每條語音中分別加入信噪比為0 dB的白噪聲。圖3為以white噪聲為背景噪聲,在0 dB信噪比(Signal to Noise Ratio,SNR)的環(huán)境下不同算法對噪聲處理后的時域和頻域效果仿真圖。
圖4是實際含噪語音實驗結果。圖4為以m109為背景噪聲,在0 dB信噪比(SNR)的環(huán)境下不同算法對噪聲處理后的時域和頻域效果仿真圖。
從圖 3(c)與圖 3(e)及圖 3(d)與圖 3(f)中可以明顯地看出,后置維納濾波能夠有效地抑制殘留的噪聲,使處理后的語音波形更接近純凈語音波形。從圖3(e)與圖3(f)的時頻仿真圖可以看出,MGSC-PCWF的去噪效果優(yōu)于GSC-WF。在此次仿真實驗中發(fā)現(xiàn),本文提出的 MGSC-PCWF算法對噪聲抑制有十分突出的效果。
圖3 背景為白噪聲,信噪比為0 dB環(huán)境下不同算法處理前后的時頻圖Fig.3 Time-frequency diagrams before and after different algorithm processing in the environment where the background noise is white and the signal to noise ratio is 0 dB
從圖4(d)中可以明顯看出,GSC結構中BM存在嚴重的語音泄露問題,而MGSC結構中的阻塞濾波器對語音泄露問題有較好的效果,較大程度上避免了因語音泄露而導致 AIC結構中語音抵消的問題,從而降低了語音失真。從圖4(e)與圖4(f)中可以看出,PCWF對抑制非相干噪聲與弱相干噪聲的能力優(yōu)于傳統(tǒng)的維納濾波。從圖4(f)、4(g)及4(h)中可以明顯發(fā)現(xiàn),MGSC對抑制強相關噪聲有較好的效果,且與PCWF結合還能抑制殘留的非相干噪聲和弱相干噪聲。在此次實際含噪語音實驗中發(fā)現(xiàn)本文提出的 MGSC-PCWF算法對抑制噪聲有十分突出的作用。
圖4 背景噪聲為m109,信噪比為0 dB環(huán)境下不同算法處理前后的時頻圖Fig.4 Time-frequency diagrams before and after different algorithm processing in the environment where the background noise is m109 and the signal to noise ratio is 0 dB
利用主觀語音質(zhì)量評估(Perceptual Evaluation of Speech Quality,PESQ),可以進一步表明幾種算法可以抑制含噪語音的噪聲,提高語音可懂度。PESQ是ITU-T P.862建議書提供的客觀平均意見得分(Mean Opinion Score,MOS)值評價方法,與MOS打分相關度達到0.97,且能避免進行MOS打分時引入的主觀因素。原始語音信號和增強后的語音信號都重新采樣至8 kHz后進行評估。
在此次試驗中分別以white、babble與f16為背景噪聲的環(huán)境對不同信噪比的PESQ進行評估。麥克風接收到的信號的信噪比分別為:?5、0、5、20 dB,評分結果如表1、表2與表3所示。
表1 white噪聲環(huán)境不同SNR的PESQ得分Table 1 PESQ scores of different SNRs in the white noiseenvironment
表2 babble噪聲環(huán)境不同SNR的PESQ得分Table 2 PESQ scores of different SNRs in the babble noise environment
表3 f16噪聲環(huán)境不同SNR的PESQ得分Table 3 PESQ scores of different SNRs in the f16 noise environment
從表1、表2及表3中可以看出,即使MGSCPCWF過程中存在一定的語音失真,但本文算法在不同背景噪聲以及不同信噪比的環(huán)境下仍然能獲得相對較好的性能。
本文以四元麥克風平面陣為基礎,提出一種基于改進廣義旁瓣抵消與相位補償維納濾波的麥克風陣列語音增強方法。在 GSC結構中用阻塞濾波器替換阻塞矩陣,較大程度地避免了語音泄露。在后置相位補償維納中根據(jù)后驗信噪比的變化,對噪聲抑制因子進行修正且采用相位補償函數(shù)進一步提高語音的可懂度。通過實驗證明了本文算法的有效性。
[1]Benesty J, Makino S, Chen J. Speech enhancement[J]. Signals &Communication Technology, 2005.
[2]Ngo K, Spriet A, Moonen M, et al. A combined multi-channel Wiener filter-based noise reduction and dynamic range compression in hearing aids[J]. Signal Processing, 2012, 92(2): 417-426.
[3]Markovich-Golan S, Gannot S, Cohen I. Distributed multiple constraints generalized sidelobe canceler for fully connected wireless acoustic sensor networks[J]. IEEE Transactions on Audio Speech & Language Processing, 2013, 21(2): 343-356.
[4]Li Kai, Fu Q, Yan Y. A subband feedback controlled generalized sidelobe canceller in frequency domain with multi-channel postfilter[C]//International Workshop on Intelligent Systems and Applications IEEE, 2010: 1-4.
[5]Cornelis B, Moonen M, Wouters J. Performance analysis of multichannel wiener filter-based noise reduction in hearing aids under second order statistics estimation errors[J]. IEEE Transactions on Audio Speech & Language Processing, 2011, 19(5): 1368-1381.
[6]Jinsoo P, Wooil K, Han K D, et al. Two-microphone generalized sidelobe canceller with post-filter based speech enhancement in composite noise[J]. Etri Journal, 2015, 38(2).
[7]Yu G J, Shin J W, Kim N S. Spectro-temporal filtering for multichannel speech enhancement in short-time fourier transform domain[J]. IEEE Signal Processing Letters, 2014, 21(3): 352-355.
[8]Griffiths L J, Jim C W. An alternative approach to linearly constrained adaptive beamforming[J]. IEEE Transactions on Antennas & Propagation, 2010, 30(1): 27-34.
[9]曾慶寧, 歐陽繕. 子帶 MCRASC—MGSC微型麥克風陣語音增強算法[J]. 西安電子科技大學學報(自然科學版), 2010, 37(6):1011-1016.CENG Qingning, OUYANG Shan. Subband MCRASC-MGSC algorithm for speech enhancement with the mini-typed microphone array[J].Journal of Xidian University(Natural Science Edition), 2010, 37(6): 1011-1016
[10]宋輝, 劉加. 基于廣義奇異值分解的通用旁瓣消除算法[J]. 數(shù)據(jù)采集與處理, 2011, 26(3): 241-246.SONG Hui, LIU Jia. GSVD-based generalized sidelobe canceller[J]. Journal of Data Acquisition & Processing, 2011, 26(3):241-246.
[11]郭慶華, 廖桂生. 一種穩(wěn)健的自適應波束形成器[J]. 電子與信息學報, 2004, 26(1): 146-150.GUO Qinghua, LIAO Guisheng. A robust adaptive beamformer[J]. Journal of Electronics Information Technology, 2004, 26(1):146-150.
[12]Allen C. Adaptive multi-beam antannas for spacelab[C]//Antennas and Propagation Society International Symposium. IEEE, 1977:420-423.
[13]Gannot S, Cohen I. Speech enhancement based on the general transfer function GSC and postfiltering[J]. IEEE Transactions on Speech & Audio Processing, 2004, 12(6): 561-571.
[14]Wang D, Yin F. Subband adaptive beamforming for microphone array speech enhancement[C]//International Conference on Signal Processing. IEEE Xplore, 2006.
[15]Li Z, Wu W, Zhang Q, et al. Speech enhancement using magnitude and phase spectrum compensation[C]//International Conference on Computer and Information Science. IEEE Computer Society, 2016: 1-4.
[16]Wojcicki K, Milacic M, Stark A, et al. Exploiting conjugate symmetry of the short-time fourier spectrum for speech enhancement[J]. IEEE Signal Processing Letters, 2008, 15(5): 461-464.
[17]Zhang M, Wu S, Guo W, et al. A microphone array dereverberation algorithm based on TF-GSC and postfiltering[C]//IEEE International Symposium on Broadband Multimedia Systems and Broadcasting. IEEE, 2016: 1-4.